Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive 9783111702520, 9783484302693

Die Buchreihe Linguistische Arbeiten hat mit über 500 Bänden zur linguistischen Theoriebildung der letzten Jahrzehnte in

170 81 54MB

German Pages 262 [264] Year 1991

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Inhaltsverzeichnis
Verzeichnis der Tabellen
Verzeichnis der Abbildungen
Danksagung
Vorwort
1. Die Zielsetzung dieser Arbeit
2. Das Untersuchungsobjekt
2.1 Definitorische Abgrenzungen
2.2 Die Kernkonstituenten
2.2.1 Doppelerklärungswörter
2.2.2 Konjunktionen
2.2.3 Adverbien
2.2.4 Eckige Klammern
2.2.5 Stilistische Erläuterungen
2.2.6 Attribute mit "als"
2.2.7 Runde Klammern
2.2.8 Substantivierungen
2.2.9 Nichtsubstantivische Erklärungen
3. Die Bestimmung des Abstraktheitsgrades der Substantive
3.1 Die Untersuchungen Robert Martins
3.2 Weitere Untersuchungen zum Abstraktheitsmodell
3.3 Die Bestimmung der Abstraktheitsebenen in der deutschen Sprache
3.3.1 Die Auswahl und der Umfang der Stichprobe
3.3.2 Die Bildung der Begriffsketten
3.3.3 Der Abbruch der Ketten
3.4 Die Darstellung der Ergebnisse
3.5 Die mathematische Beschreibung
3.6 Die Diskussion der Ergebnisse
3.7 Die Größe der Stichproben
3.8 Ein empirisches Verfahren zur Abstraktheitsbestimmung der Substantive (V 1)
4. Die Häufigkeitsbestimmung der Substantive (V 2)
4.1 Definitorische Abgrenzungen zur Häufigkeitsbestimmung
4.2 Die Vorgehensweise in V 2
4.3 Die Darstellung der Ergebnisse aus V 2
5. Die Bestimmung der Polysemie der Substantive (V 3)
5.1 Traditionelle Ansätze zur Polysemie
5.1.1 Polysemie oder Homonymie ?
5.1.2 Die Definition der Polysemie
5.1.3 Die lexikographische Polysemiedarstellung
5.2 Die Vorgehensweise in V 3
5.2.1 Gleiche Kernkonstituenten
5.2.2 Ersatzkernkonstituenten
5.3 Die Darstellung der Ergebnisse aus V 3
6. Die Überprüfung der Arbeitshypothesen
6.1 Die Deskription der Daten
6.1.1 Fenced letter displays
6.1.2 Box plots
6.1.3 Median und arithmetisches Mittel
6.2 Die Datentransformationen
6.2.1 Die statistische Begründung
6.2.2 Die inhaltliche Begründung
6.2.3 Die Darstellung der Transformationen
6.3 Die Bewertung der Transformationen
6.4 Die Berechnung der Korrelationskoeffizienten
6.4.1 Abstraktheit und Häufigkeit
6.4.2 Abstraktheit und Polysemie
6.4.3 Häufigkeit und Polysemie
6.5 Die Interpretation der Resultate
6.5.1 Das Variablenpaar 'Abstraktheit/Häufigkeit'
6.5.2 Das Variablenpaar 'Abstraktheit/Polysemie'
6.5.3 Das Variablenpaar 'Häufigkeit/Polysemie'
6.5.4 Fazit aus den Berechnungen
7. Die Bewertung der Resultate
7.1 Die Abstraktheitsbestimmung
7.2 Die Häufigkeitsbestimmung
7.2.1 Lexikologischer Vergleich
7.2.2 Der Versuch einer mathematischen Beschreibung
7.3 Die Polysemiebestimmung
7.4 Der Substitutionstest
7.5 Zur Qualität des Untersuchungsgegenstandes
7.5.1 Die lexikographische Kritik
7.5.2 Wörterbuchvergleich
7.5.3 Wörterbuchoptimierung
7.5.4 Die Auswirkungen auf die durchgeführten Versuche
7.6 Resultatsapplikationen
8. Zusammenfassung und Kritik
9. Literatur
10. Anhang Verzeichnis der Tabellen
Recommend Papers

Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive
 9783111702520, 9783484302693

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Linguistische Arbeiten

269

Herausgegeben von Hans Altmann, Peter Blumenthal, Herbert E. Brekle, Hans Jürgen Heringer, Heinz Vater und Richard Wiese

Stefan J. Schierholz

Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive

Max Niemeyer Verlag Tübingen 1991

D 7 Philosphische Fakultät

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Schierholz, Stefan J . : Lexikologische Analysen zur Abstraktheit, Häufigkeit und Polysemie deutscher Substantive / Stefan J. Schierholz. - Tübingen : Niemeyer, 1991 (Linguistische Arbeiten ; 269) NE:GT ISBN 3-484-30269-0

ISSN 0344-6727

© Max Niemeyer Verlag GmbH & Co. KG, Tübingen 1991 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Druck: Weihert-Druck GmbH, Darmstadt Einband: Hugo Nadele, Nehren

Inhaltsverzeichnis Inhaltsverzeichnis Verzeichnis der Tabellen Verzeichnis der Abbildungen Danksagung

V VII VIII IX

Vorwort

l

1.

Die Zielsetzung dieser Arbeit

3

2. 2.1 2.2 2.2.1 2.2.2 2.2.3 2.2.4 2.2.5 2.2.6 2.2.7 2.2.8 2.2.9

Das Untersuchungsobjekt Definitorische Abgrenzungen Die Kernkonstituenten Doppelerklärungswörter Konjunktionen Adverbien Eckige Klammern Stilistische Erläuterungen Attribute mit "als" Runde Klammern Substantivierungen Nichtsubstantivische Erklärungen

3.

Die Bestimmung des Abstraktheitsgrades

der Substantive

18

3.1 3.2

Die Untersuchungen Robert Martins Weitere Untersuchungen zum Abstraktheitsmodell Die Bestimmung der Abstraktheitsebenen in der deutschen Sprache Die Auswahl und der Umfang der Stichprobe Die Bildung der Begriffsketten Die Wahl der Erklärungswörter Die substantivierten Erklärungswörter Die Erklärungstiefe der Kettenglieder Der Abbruch der Ketten Die Darstellung der Ergebnisse Die mathematische Beschreibung

18

3.3 3.3.1 3.3.2 3.3.2.1 3.3.2.2 3.3.2.3 3.3.3 3.4 3.5

10 10 11 13 14 14 14 15 15 16 16 16

22 25 26 28 28 29 30 30 32 36

3.6

Die Diskussion der Ergebnisse

41

3.7 3.8

Die Größe der Stichproben Ein empirisches Verfahren zur Abstraktheitsbestimmung der Substantive ( V I )

45

4. 4.1 4.2 4.3

Die Häufigkeitsbestimmung der Substantive (V 2) Definitorische Abgrenzungen zur Häufigkeitsbestimmung Die Vorgehensweise in V 2 Die Darstellung der Ergebnisse aus V 2

48 55 56 57 60

VI

5. 5.1 5.1.1 5.1.2 5.1.3 5.2 5.2.1 5.2.2 5.3

Die Bestimmung der Polysemie der Substantive (V 3) T r a d i t i o n e l l e Ansätze zur P o l y s e m i e P o l y s e m i e oder Homonymie ? Die D e f i n i t i o n der Polysemie Die lexikographische Polysemiedarstellung Die Vorgehensweise in V 3 G l e i c h e Kernkonstituenten Ersatzkernkonstituenten Die Darstellung der Ergebnisse aus V 3

64 64 65 69 70 75 76 77 77

6. 6.1 6.1.1

Die Überprüfung der Arbeitshypothesen Die Deskription der Daten Fenced letter displays

81 82 86

6.1.2

Box p l o t s

88

6.1.3 6.2 6.2.1 6.2.2 6.2.3 6.2.3.1

91 92 92 94 95

6.2.3.2 6.3 6.4 6.4.1 6.4.2 6.4.3 6.5 6.5.1 6.5.1.1 6.5.1.2 6.5.1.3 6.5.2 6.5.2.1 6.5.2.2 6.5.3 6.5.3.1 6.5.3.2 6.5.3.3 6.5.4

Median und arithmetisches M i t t e l Die Datentransformationen Die statistische Begründung Die i n h a l t l i c h e Begründung Die Darstellung der Transformationen Fenced letter displays zu den transformierten Daten Box plots zu den transformierten Daten Die Bewertung der Transformationen Die Berechnung der K o r r e l a t i o n s k o e f f i z i e n t e n Abstraktheit und H ä u f i g k e i t Abstraktheit und Polysemie Häufigkeit und Polysemie Die Interpretation der Resultate Das Variablenpaar 'Abstraktheit/Häufigkeit 1 Die Verteilung der Counts Die Verteilung der dynamischen K o e f f i z i e n t e n Die Beurteilung der Resultate Das Variablenpaar 'Abstraktheit/Polysemie' Die V e r t e i l u n g der Counts Die Beurteilung der Resultate Das Variablenpaar ' H ä u f i g k e i t / P o l y s e m i e ' Die Verteilung der Counts Die Verteilung der dynamischen K o e f f i z i e n t e n Die Beurteilung der Resultate Fazit aus den Berechnungen

96 98 102 109 109 112 113 114 116 117 123 129 130 131 135 137 139 142 144 147

7. 7.1 7.2 7.2.1 7.2.2 7.2.2.1 7.2.2.2 7.2.2.3 7.2.2.4 7.2.2.5 7.2.2.6 7.3

Die Bewertung der Resultate Die Abstraktheitsbestimmung Die Häufigkeitsbestimmung Lexikologischer Vergleich Der Versuch einer mathematischen Beschreibung Die Potenzfunktion Die Exponentialfunktion Die Logarithmusfunktion Die Hyperbel Der V e r g l e i c h der theoretischen Funktionen Die Berechnung und Beurteilung der Werte Die Polysemiebestimmung

149 149 159 159 167 167 168 169 170 172 173 175

VII

7.4 7.5 7.5.1 7.5.2 7.5.3 7.5.4

Der Substitutionstest Zur Qualität des Untersuchungsgegenstandes Die lexikographische Kritik Wörterbuchvergleich Wörterbuchoptimierung Die Auswirkungen auf die durchgeführten Versuche Resultatsapplikationen

7.6 .

181 183 183 194 197 199 200

Zusammenfassung und Kritik

207

9.

Literatur

211

10.

Anhang

Verzeichnis der Tabellen

Tab.

l

Tab.

2

Tab.

3

Tab.

4

Tab.

5

Tab.

6

Tab.

7

Tab.

8

Tab. 9 Tab. 10 Tab. ll Tab. 12 Tab. 13 Tab. 14

Anzahl der Wörter auf den e i n z e l n e n Abstraktionsebenen nach Martin Anzahl der Wörter auf den e i n z e l n e n Abstraktionsebenen, wenn jedes Wort nur in einer Ebene vorkommt Anzahl der Wörter auf den e i n z e l n e n Abstraktheitsebenen Beobachtete und berechnete Anzahl der Wörter auf den e i n z e l n e n Abstraktheitsebenen Anzahl der Wörter pro Abstraktheitsebene aus Untersuchungen zu verschiedenen Sprachen Anzahl der Substantive pro Ebene in der ersten Stichprobe, wenn jedes Wort nur einmal vorkommt Anzahl der verschiedenen Wörter aus beiden Stichproben auf den e i n z e l n e n Abstraktheitsebenen Anzahl a l l e r Wörter auf den e i n z e l n e n Abstraktheitsebenen Substantive m i t höchsten -Werten a u s V I Häufigkeitsverteilung der Substantive nach A-Werten Lemmata und Erklärungswörter ( E w ' s ) der Sets I - VI Lemmata und Erklärungswörter ( E w ' s ) der Sets I - IX Countverteilung der Substantive zum Merkmal ' H ä u f i g k e i t 1 Countverteilung der Substantive nach P-Werten

21 22 33 40 42 45 47 50 53 54 58 60 61 79

VIII

Tab. 15 Tab. 16 Tab. 17 Tab. 18 Tab. 19 Tab. 20 Tab. 21 Tab. 22 Tab. 23 Tab. 24 Tab. 25 Tab. 26 Tab. 27 Tab. 28 Tab. Tab. Tab. Tab.

29 30 31 32

Tab. 33 Tab. 34 Tab. 35

M e d i a n , arithmetisches Mittel und Extremwerte zu den drei Datensätzen Zentrale Momente und Maße der S c h i e f e Korrelationsmatrix zu den Variablen Abstraktheit und H ä u f i g k e i t Korrelationsmatrix zu den Variablen Abstraktheit und P o l y s e m i e Korrelationsmatrix zu den Variablen Häufigkeit und P o l y s e m i e Countverteilung zur 'Abstraktheit 1 und ' H ä u f i g k e i t 1 Substantive mit hohen A- und H-Werten Korrelationskoeffizientendynamik Countverteilung zur 'Abstraktheit' und ' P o l y s e m i e ' Substantive mit hohen A- und P-Werten Countverteilung zur ' H ä u f i g k e i t ' und ' P o l y s e m i e ' Substantive mit hohen H- und P-Werten Korrelationskoeffizientendynamik Abstraktheitsindices zu "Lebewesen" und "Wesen" Substantive auf oberen Abstraktheitsebenen Substantivvergleich zu zwei Wörterbüchern 100 Substantive mit höchsten -Werten in V 2 Beobachtete und berechnete Countwerte nach H ä u f i g k e i t e n Determinationskoeffizienten Lexemverteilung nach Anfangsbuchstaben Daten zu zwei Wörterbüchern

91 108 110 112 114 118 122 124 132 134 138 141 143 152 155 162 164 171 173 185 195

Verzeichnis der Abbildungen

Abb.

1

Abb.

2

Abb.

3

Abb.

4

Abb. 5 Abb. 6 Abb. 7 Abb. 8 Abb. 9 Abb. 10

Graphische Darstellung der Wortanzahl pro Abstraktheitsebene aus Stichprobe I Histogramm der verschiedenen Wörter nach Abstraktheitsebenen aus Stichprobe I Graphische Darstellung zur Verteilung der Häufigkeiten a l l e r untersuchten Substantive Stabdiagramm zur Verteilung der P-Werte a l l e r untersuchten Substantive Box plot zu den A-Werten Box plot zu den H-Werten Box plot zu den P-Werten Box plot zu den AS-Werten und ASS-Werten Box plot zu den HS-Werten und HSS-Werten Box p l o t zu den PS-Werten und PSS-Werten

34 35 62 80 88 89 90 99 100 101

DANKSAGUNG

Danken möchte ich zuerst Dr. Hartmut A. Oldenbürger, der für mich zu jeder Tages- (und Nacht-)zeit eine wertvolle und unermüdliche Unterstützung war, der mir zu v i e l e n Problemstellungen dieser Arbeit immer ein geduldiger, kritisch-konstruktiver und h i l f r e i c h e r Freund und Gesprächspartner war, dessen Tips und Ideen ich auch in Zukunft nicht missen möchte und dem ich meine ersten Gehversuche auf dem Computer zu verdanken habe. Ebenso bin ich Herrn Dr. Karl-Heinz Best, Betreuer meiner schriftlichen Hausarbeit zum ersten Staatsexamen, verpflichtet, der mich zur Durchführung dieser wissenschaftlichen Arbeit inspiriert und mit wertvollen Hinweisen unterstützt hat. Genaugenommen habe ich ihm meine Neigung zur Sprachwissenschaft zu verdanken, denn er war es, der mich im ersten Semester meines Germanistikstudiums mit mir damals gänzlich unbekannten Termini wie "taxonomischer Strukturalismus", "Pragmatik", "Semiotik", . . . vertraut gemacht hat. Weiterhin danke ich Herrn Prof. Dr. Dieter Cherubim (Göttingen) und Herrn Prof. Dr. Gabriel Altmann (Bochum), für ihre wertvollen Hifeleistungen zur vollständigen und verständlichen Formulierung komplexer Sachverhalte und ihr wissenschaftliches Geleit während der Entstehung der vorliegenden Untersuchung. Außerdem bin ich Herrn Dr. Rolf Hammerl für seine f r e u n d l i chen Korrekturen und aufmerksamen Hinweise verbunden, die er trotz seines z e i t l i c h begrenzten Deutschlandaufenthaltes mit viel Aufwand geleistet hat. Für das sorgfältige tiberarbeiten des Manuskripts sei ebenf a l l s Sabine Langhorst und Thomas Richter gedankt, die mit ihrem fachkundigem Urteil eine wichtige Unterstützung waren.

Letztlich habe ich meiner lieben Frau zu danken, weil sie in den letzten Jahren viel zu häufig einen mürrischen und in seine Daten vertieften Mann ertragen mußte, was sicherlich nicht ganz einfach ist, soweit ich mich selbst einzuschätzen vermag,

Göttingen, im November 1989

Stefan J.

Schierholz

Vorwort

Die vorliegende Arbeit s t e l l t lexikologische Untersuchungen zu Substantiven der deutschen Sprache vor. Als Grundlage für die geplanten Analysen s o l l ein umfangreiches Datencorpus fungieren, das anhand eines Wörterbuchs e r s t e l l t werden w i r d . Durch die empirische Ermittlung verschiedener Merkmale zu den Wörtern des Corpus wird angestrebt, semantische Zusammenhänge zwischen den lexematischen Einheiten zu erfassen. Die Methodik dieser Arbeit ist dem Bereich der Quantitativen Linguistik zuzuordnen. Es s o l l gezeigt werden, daß empirische Methoden sowohl in der Lexikologie als auch in anderen Forschungsgebieten der Linguistik aufschlußreiche Resultate ergeben können. Ausgehend von einer genaueren Festlegung der Zielsetzung dieser Arbeit (Kapitel 1) wird das Untersuchungsobjekt vorgestellt (Kapitel 2 ) , und es f o l g e n Versuche zur Bestimmung von Abstraktheit (Kapitel 3), Häufigkeit (Kapitel 4) und Polysemie (Kapitel 5 ) . Die Überprüfung der Arbeitshypothesen (Kapitel 6) macht ausführliche statistische Analysen nötig, die sich auch mit den statistischen Methoden, die appliziert werden s o l l e n , kritisch auseinandersetzen. Dagegen s o l l e n anschließend in einer R e f l e x i o n der Resultate (Kapitel 7) vor a l l e m die linguistischen Aspekte der Untersuchungsergebnisse betrachtet werden. Im A u s b l i c k (Kapitel 8) wird versucht werden, Perspektiven zur Erforschung neuer Gesetzmäßigkeiten in der Sprache aufzuzeigen. Der Anhang enthält Tabellen, die wegen ihres Umfangs im laufenden Text keinen Platz finden und zum erweiterten Verständnis der Untersuchungsresultate geeignet sind.

Eine ausführliche Schilderung der Verknüpfungen zwischen den intendierten Vorhaben und den Teilgebieten der Linguistik erf o l g t nicht zu Beginn der Arbeit, sondern in den Kapiteln zu den einzelnen Versuchen sowie in der Bewertung der Ergebnisse, Da die Arbeit sehr s p e z i e l l e Gebiete aus der Statistik beinhaltet, die vielen Linguisten unbekannt sein mögen, wird ein besonderer Wert darauf gelegt, den Gang der Untersuchungen verständlich und kleinschrittig zu erläutern, ohne jedoch die Fachterminologie zu vernachlässigen.

l.

Die Zielsetzung dieser Arbeit

In dieser Arbeit s o l l e n semantische Verknüpfungen von Substantiven im System der deutschen Gegenwartssprache untersucht werden. Dabei wird davon ausgegangen, daß die Entitäten einer natürlichen Sprache (Phoneme, Morpheme, Wörter, Clauses, Sätze, . . . ) nicht in einem ungeordneten Nebeneinander existieren, sondern in irgendeiner Weise strukturiert s i n d . 1 ' Dies b e t r i f f t auch die Semantik, in der jedoch die Zusammenhänge besonders schwer zu erkennen s i n d . 2 ) Sprache s o l l als ein komplexes System mit einer V i e l z a h l von Subsystemen betrachtet werden, deren Funktionsfähigkeit von Gesetzmäßigkeiten, die kommunikationssteuernd wirken, abhängt . Eine Sprachtheorie besteht aus einem System von Gesetzen, die Erklärungen von Einzelaussagen e r m ö g l i c h e n . 3 1 Außerdem systematisiert sie vorhandenes Wissen und zeigt die Abhängigkeiten zwischen sprachlichen E i n h e i t e n . * 5 Der Weg zu einer Sprachtheorie läßt sich mit den nachstehenden Folgeschritten beschreiben: - "Bildung von B e g r i f f e n " zur Entdeckung der sprachlichen Entitäten - " A u f s t e l l u n g von Hypothesen" als empirische Generalisierungen, z . B . in Form von Abhängigkeiten zwischen den Entitäten (Voraussetzung der Theoriebildung) - "Deduktion" der Hypothesen (Beginn der Theoriebildung) 1) V g l . 2) V g l . 3) V g l . Vgl. 4) V g l .

Altmann 1981, S. 31. Altmann 1985a, S. 177. Altmann 1985b, S. 3 f. Köhler 1986, S. 5. Altmann 1985b, S. 3.

- "Überprüfung der theoretischen Ableitungen" mit empirischen Daten und mit H i l f e der Statistik - "Systematisierung der Hypothesen", d . h . Verknüpfung mit anderen Hypothesen, Aufbau eines Systems von G e s e t z e n . 5 ' In der Sprachwissenschaft ist es vor a l l e m die Quantitative Linguistik, die es - aufbauend auf Begriffen der qualitativen Linguistik - ermöglicht, zu "explanativen Gesetzessystemen" zu gelangen, t· ; Die allgemeinen Ziele der Quantitativen Linguistik sind von KÖHLER zusammengefaßt w o r d e n ; 7 ' die Methoden der Quantitativen Linguistik bestehen neben anderem darin, "Sprache mit numerischen Methoden zu beschreiben, d . h . ihre Eigenschaften mit H i l f e von Zahlen, Vektoren, mathematischen Funktionen, Matrizen, Graphen u . a . zu charakterisieren" . a ' Im weiteren Verlauf dieser Arbeit geht es nicht darum, eine Sprachtheorie vollständig oder in Teilen zu entwickeln, sondern es s o l l durch die Überprüfung von Hypothesen mit H i l fe empirischer Daten ein Beitrag zur quantitativen Forschung geleistet werden. Dabei s o l l der systematisch-methodische Weg, wie er von ALTMANN beschrieben w i r d , q zugrunde gelegt und durch neue Methoden der Statistik sowie moderne Auffassungen über die Bedeutung und Behandlung von Datenstrukturen ergänzt w e r d e n . 1 0 ' Die Untersuchungsresultate lassen sich möglicherweise zu einem späteren Zeitpunkt in eine Sprachtheorie integrieren.11' 5) V g l . Altmann 19 , S. 7 f. 6) V g l . Köhler 1986, S. 2 ff. 7) V g l . Köhler 1986, S. 4. 8) Altmann 1972, S. 2. 9) V g l . Altmann 1988, S. 7 f. 10) V g l . u . a . Tukey 1977. 11) Dabei ist insbesondere an die begonnene Theoriebildung zur linguistischen Synergetik gedacht, u . a . , w e i l gerade dort die oben aufgeführten Prinzipien zur Theoriebildung berücksichtigt werden; vgl. Köhler 1986.

In den intendierten Untersuchungen reicht zur Stützung theoretischer Aussagen eine K o l l e k t i o n zutreffender F a l l b e i s p i e l e nicht aus, sondern es müssen umfangreiche Datenmengen zur quantitativen Erfassung der linguistischen - hier: semantisehen - Strukturen erhoben werden. Das im folgenden zu betrachtende Subsystem der Sprache besteht a u s s c h l i e ß l i c h aus Substantiven, dessen Struktur in einem semantischen Netz dargestellt werden kann. Es wird von der Annahme ausgegangen, daß dieses Netz eine k l e i n e Menge von Substantiven enthält, die im Kern des Netzes oder im Zentrum von Subnetzen liegt und eine große Anzahl von Substantiven, die am äußeren Rand einzuordnen ist. Die im Inneren gelegenen Substantive s o l l e n Zentralwörter heißen, die am Rand des gesamten Netzes sortierten Substantive Peripheriewörter. Zur Ermittlung regelhafter Relationen zwischen den Wörtern ist zunächst die Erstellung eines geeigneten Datencorpus, dann die Parametrisierung der zu untersuchenden Substantive anhand auszuwählender Variablen und in einem dritten Arbeitsschritt die Messung der Korrelationen zwischen diesen Merkmalen erforderlich. Die Variablen, die hier verwendet werden, s o l l e n Abstraktheit, Häufigkeit und Polysemie sein. Die Untersuchungen werden so angelegt, daß eine Ergänzung durch weitere Variablen potentiell m ö g l i c h sein wird. Dies wird für eine v o l l ständige Erfassung der Netzstrukturen auch notwendig sein, so daß in den intendierten Untersuchungen l e d i g l i c h ein grobes Gerüst geschaffen wird, das als eine empirisch fundierte Ausgangsbasis für detailliertere semantische Analysen dienen kann. Durch die Bestimmung empirischer Werte zu den lexematischen Einheiten sind außerdem Vergleiche zu ähnlich angelegten Vorhaben durchführbar. Begonnen werden die Untersuchungen mit den Datenerhebungen, die zum Aufbau eines Datencorpus führen, mit dem sich die geplanten Analysen durchführen lassen.

Bei der Abstraktheitsbestimmung (= Versuch l l 2 '· ) wird, ausgehend von den Untersuchungen Robert MARTINS ! 3 ' und den weiterführenden mathematischen Beschreibungen ALTMANN/KINDS, 4 > MARTINS Methode zur Abstraktheitsbestimmung erweitert mit dem Z i e l , für jedes analysierte Substantiv einen empirischen Abstraktheitswert zu errechnen. Z u g l e i c h s o l l MARTINS Gesetz der Abstraktionsebenen, das für die deutsche Sprache noch nicht bestätigt werden k o n n t e , i s ; überprüft werden. Da der Abstraktheitsgrad traditionell ein Klassifikationskriterium für Substantive darstellt, erscheint dieses Merkmal besonders geeignet, Hierarchisierungstendenzen innerhalb semantischer Strukturen zu beschreiben. Zudem wird der Variablen 'Abstrakth e i t ' nicht nur in der Linguistik, sondern auch in benachbarten D i s z i p l i n e n ( z . B . Psychologie) im Zusammenhang mit der Erforschung des Kommunikationsverhaltens oder der Erstellung von Inhaltsanalysen große Bedeutung b e i g e m e s s e n . ! " > Die V a l i dität und R e l i a b i l i t ä t der neuen Abstraktheitsbestimmungsmethode kann durch die Betrachtung bereits erprobter Verfahren zur Abstraktheitsbestimmung evaluiert w e r d e n . 1 7 ) In der Häufigkeitsuntersuchung (= Versuch 2 i s t ) wird gez ä h l t , wie häufig die Substantive in lexikalischen Paraphrasen vorkommen. Das Attribut 'Häufigkeit' spielt bei a l l e n statistischen und empirischen Sprachuntersuchungen eine grundlegende R o l l e . Dabei lassen sich ökonomiesierungstendenzen in der Sprachverwendung, besonders im Zusammenspiel mit anderen Variablen (Wortlänge, -bedeutung, S i l b e n z a h l ) f e s t s t e l l e n . 1 ^ ' Die erzielten Resultate s o l l e n auch mit Wortschatzuntersu12) Im weiteren V 1. 13) Martin 1974. 14) Altmann/Kind 1983. 15) V g l . Schierholz

16) 17) 18) 19)

1989.

V g l . u . a . Kisro-Völker 1984, S. 139. V g l . u . a . Günther/Groeben 1978. Im weiteren V 2. V g l . u . a . Altmann/Beöthy/Best 1982, Rothe 1983.

chungen aus anderen Erhebungen, z . B . Frequenzwörterbüchern, verglichen werden. Bei der Bestimmung der Polysemie (= Versuch 3 ^ o ; ) wird angestrebt, jedem untersuchten Substantiv einen empirischen Polysemiewert zuzuordnen. Ein derartiges Verfahren kann möglicherweise dazu beitragen, die Ungenauigkeiten bisheriger Polysemiebestimmungen zu überwinden. Da Mehrdeutigkeiten ein gemeinsames Merkmal a l l e r natürlichen Sprachen sind, die auch in der Phonologie, Morphologie oder Syntax a n z u t r e f f e n sind, ist die Polysemie in lexikologischen Untersuchungen für die unmittelbaren semantischen Verbindungen zwischen den lexematischen Einheiten von Bedeutung. Als Datenbasis für die drei Versuche wird ein einsprachiges Bedeutungswörterbuch der deutschen Sprache ausgewählt. Damit ist zunächst nur die Struktur des Wörterbuchs Gegenstand der Untersuchungen. Für die intendierten Analysen dürfte ein Wörterbuch besser geeignet sein als ein umfangreiches Textcorpus. Wörterbuchartikel s t e l l e n eine besondere Textsorte dar, die unter der Zielperspektive, die j e w e i l i g e n Informationsbedürfnisse der Benutzer zu befriedigen, geschrieben w e r d e n . 2 1 > In der Herstellung handelt es sich (neben dem Kopieren aus vorherigen Wörterbüchern) um die Verarbeitung von Textbelegen durch den Lexikographen. Besonders semantische Forschungen können davon profitieren, w e i l in Bedeutungswörterbüchern die Sprache durch den Bearbeitungsfilter des Experten gelaufen i s t . 2 - 1 Inwieweit Unzulänglichkeiten der Wörterbuchkonzep20) Im weiteren V 3. 21) Ob das auch in dieser Weise erreicht w i r d , kann hier nicht diskutiert werden; o f f e n s i c h t l i c h besteht eine nicht geringe Diskrepanz zwischen den Benutzungsansprüchen in Theorie und Praxis sowie der Wörterbuchqualität; v g l . Wiegand 1977a, S. 61 ff. und 1977b, S. 63 ff. 22) Jedoch werden die Wörterbücher von den Lexikographen mit herber K r i t i k überzogen, und die Bundesrepublik g i l t bei vielen als ein lexikographisches Entwicklungsland; v g l . u . a . Wiegand 1977a, S. 101, Wiegand/Kucera 1981, Bergenholtz/Mugdan 1986.

tion die Brauchbarkeit der Datenbasis herabsetzen, kann nicht antizipiert werden. Es wird jedoch m ö g l i c h sein, im Anschluß an die intendierten Versuche die Qualität der Datenbasis für den Bereich von lexikologischen Untersuchungen zu Substantiven beurteilen zu können. Zur Konstruktion der semantischen Struktur(en) müssen die gewählten Variablen zueinander in Beziehung gesetzt werden. Dabei wird von folgenden Arbeitshypothesen ausgegangen, deren Falsifikation p r i n z i p i e l l angestrebt wird: (1) Je häufiger ein Substantiv vorkommt, desto höher ist der Abstraktheitsgrad des Substantivs. (2) Je umfangreicher die Polysemie eines Substantivs ist, desto höher ist der Abstraktheitsgrad des Substantivs. (3) Je häufiger ein Substantiv vorkommt, desto umfangreicher ist die Polysemie des Substantivs. Die erste Hypothese konstatiert auch M E I E R ; 2 3 1 allerdings hat MEIER die Häufigkeitswerte aus KAEDINGS Zählungen 2 4 i übernommen und Einheiten a l l e r Wortarten berücksichtigt. Zudem findet man bei MEIER keine exakte Definition von Abstraktheit, 25) s o d a ß sich d i e geplanten Versuche dieser Arbeit sowohl methodisch als auch in bezug auf den Untersuchungsgegenstand von MEIERS Analysen unterscheiden werden. 23) V g l . Meier 1967, Bd. l,

S. 33 ff.

24) Kaeding 1898. 25) V g l . Meier 1967, Bd. l, S. 33. Abstrakta werden mit den Termini " A l l g e m e i n b e g r i f f e " und "Oberbegriffe" zusammengefaßt .

Die dritte Hypothese entspricht in der Formulierung einem der ZIPFschen Gesetze ^ b > , b e i d e m d i e Häufigkeit jedoch a u s Texten ermittelt worden ist, während ein Wörterbuch eine Textsorte in einer übergeordneten Ebene d a r s t e l l t , welche zwischen dem Sprachsystem und den Texten a n z u s i e d e l n ist. Folgt man der D i f f e r e n z i e r u n g HAMMERLS in Text-, Verteilungsgesetze und kognitive G e s e t z e , - 7 : so handelt es sich in dieser Arbeit um Untersuchungen, deren Ergebnisse zur Entstehung eines Verteilungsgesetzes führen können. Ob sich die Resultate der Analysen von dem untersuchten Wörterbuch auf andere sprachliche Erscheinungsformen transferieren lassen, wird im Anschluß an die Untersuchungen zu zeigen sein. Betrachtet man die Auswirkungen auf die mit der Linguistik verbundenen Forschungsdisziplinen, so wird die Applikationsv i e l f a l t der Resultate neben der Semantik und L e x i k o l o g i e die Quantitative Linguistik, die Computerlinguistik, die Psycholinguistik, die Lexikographie sowie die KI-Forschung b e t r e f f e n können. 26) V g l . Zipf 1949, S. 22 27) V g l . Hammerl 1989b, S.

ff. 132.

2.

Das Untersuchungsobjekt

Das Datenmaterial zur Untersuchung der oben aufgeführten Z i e l setzungen s o l l d a s DUDEN-Universalwörterbuch i > l i e f e r n . I n der folgenden Versuchsbeschreibung werden die Substantive, die dem Wörterbuch entnommen sind, terminologisch d i f f e r e n z i e r t : Lemmata sind die im Wörterbuch halbfett gedruckten Wörter. Kernkonstituenten '* > bzw. Erklärungswörter sind die Wörter, die die Bedeutungen der Lemmata erklären.

2.l

Definitorische Abgrenzungen

Das Z i e l der unten aufgeführten D e f i n i t i o n e n besteht darin, eindeutige Kriterien zur Ermittlung der Kernkonstituenten zu l i e f e r n , so daß intuitive Entscheidungen ausgeschlossen sind. Nur dadurch kann eine intersubjektive uberprüfbarkeit der Ergebnisse gewährleistet werden. Für die zu den D e f i n i t i o n e n ausgewählten Beispiele sind f o l gende Benutzungshinweise zu b e a c h t e n : 3 ' - A l l e Beispiele entstammen dem DUDUNI. - Es wird zuerst die Seite aufgeführt, auf der das Lemma im Wörterbuch steht und dann das Lemma, das im Wörterbuch halbfett gedruckt ist, in Großbuchstaben. Die Trennungszeichen, die im Wörterbuch zur Kennzeichnung der 1) Duden 1983. Im weiteren wird das Universalwörterbuch mit (das) DUDUNI abgekürzt. 2) V g l . Jansen 1977, S. 348. 3) Die Hinweise gelten ebenso für die in Kap. 3.3, 4 . 1 , 5, 7 . 3 , 7.4 und 7 . 5 angeführten Beispiele.

11

Silbentrennung dienen, werden nicht übernommen. Hochgestellte I n d e x z i f f e r n , die im Wörterbuch vor dem Lemma stehen, werden hier in Winkelklammern und hochg e s t e l l t geschrieben, um sie von den Anmerkungen unterscheiden zu können. Hochgestellte I n d e x z i f f e r n , die im Wörterbuch hinter dem Lemma stehen, werden nicht berücksichtigt. Hinter dem in Großbuchstaben geschriebenem Lemma folgt j e w e i l s ein Kolon. Grammatische Angaben, Aussprache und Hinweise in eckigen oder runden Klammernder Winkelklammern, die im Wörterbuch vor dem Doppelpunkt stehen, werden nicht übernommen. Die arabischen Zahlen bzw. Kleinbuchstaben, die im Wörterbuch zur Gliederung der Bedeutungsangaben dienen, werden nur dann zusätzlich a u f g e l i s t e t , wenn dies zur besseren Orientierung notwendig ist. Aus den l e x i k a l i s c h e n Paraphrasen im Wörterbuch werden nur die für die j e w e i l i g e D e f i n i t i o n relevanten Teile verwendet. A l l e in die Auswertung einzubeziehenden Kernkonstituenten werden in den Beispielen unterstrichen. Es f o l g t nur dann ein zusätzlicher Hinweis, welches Erklärungswort berücksichtigt wird, wenn dies zur Verdeutlichung e r f o r d e r l i c h ist.

2.2

Die Kernkonstituenten

Die Bedeutungsangaben zu den Lemmata werden im DUDUNI "durch einen Doppelpunkt angekündigt und sind kursiv g e d r u c k t " 4 ' . Wenn man entsprechend der Terminologie JANSENS die Bedeutungs-

4) DUDUNI 1983, S. 17.

12

angaben in Kernkonstituenten und Modifikatoren d i f f e r e n z i e r t , s ' müssen für die beabsichtigten Untersuchungen die Kernkonstituenten isoliert werden. Eine Kernkonstituente entspricht genau dem Erklärungswort, das sich in dem nachfolgenden Substitutionstest unmittelbar auf das j e w e i l i g e Lemma beziehen läßt: (Ein/eine/der/die/das) "L" ist (ein/eine/der/die/das) (Ein/eine/der/die/das) "L" sind (der/die/das) E-Wort. "L" ist das j e w e i l i g e Lemma, die Kernkonstituente.

-Wort,

" -Wort" das Erklärungswort b z w .

Beispiel: S. 45

ABWEISER : 1. Prellstein

2. in den Strom hineingebaute Buhne, die die Strömung vom Ufer abweist, Folgende Sätze können mit dem Substitutionstest gebildet werden: (a) Ein Abweiser ist ein (b) #Ein Abweiser ist ein (c) Ein Abweiser ist eine (d) #Ein Abweiser ist eine (e) #Ein Abweiser ist ein

Prellstein. Strom.# Buhne. Strömung.* Ufer.#

Die Aussagen (a) und (c) ergeben einen Sinn. "Prellstein" und "Buhne" sind als Kernkonstituenten für das Wort "Abweiser" zu markieren. Die Aussagen ( b ) , (d) und (e) sind unsinnig, so daß "Strom", "Strömung" und "Ufer" nicht als Kernkonstituenten anzusehen sind, sondern in den Zusammensetzungen "in den Strom hineingebaute" und "die die Strömung vom Ufer abweist" als 5) V g l . Jansen 1977, S. 348.

13

Modifikatoren zu "Buhne" betrachtet werden m ü s s e n . & ; Es kann außerdem der Fall eintreten, daß vor dem Lemma oder dem Erklärungswort kein Artikel steht ( z . B . bei dem Wort "Leute") oder daß das Erklärungswort im Plural vorkommt, während das Lemma im Singular erscheint b z w . umgekehrt. Beispiele: S. 1204 S. 144

STARS AND STRIPES sind eine Nationalflagge. (Eine) ÄUSSERUNG sind Worte.

Jedoch werden mit Ausnahme der Pluraliatantum, die im DUDUNI lemmatisiert sind, a l l e Wortformen im Singular notiert, so daß die Kernkonstituente "Worte" bei "Wort" subsumiert wird. Die Ermittlung der Kernkonstituenten d i f f e r e n z i e r t somit nicht zwischen Hyperonymen, Hyponymen, Partonymen, Synonymen oder Quas i synonymen.

2.2.1

Doppelerklärungswörter

Stehen zwei Kernkonstituenten im Nominativ und direkt hintereinander, so sind beide zu notieren. Beispiel: S. 1472

ZETTEL : . . . kleines, meist rechteckiges Stück Papier, . . . .

6) Zwar beruht die Beurteilung der Sinnhaftigkeit der gebildeten Sätze im Einsetztest auf der subjektiven Entscheidung des Untersuchenden ("der Objektive Faktor Subjektivität 1 des Lexikographen", Henne 1976, S. 105), aber der Test läßt sich bei der überwiegenden Mehrzahl der Fälle problemlos durchführen, so daß eine intersubjektive Überprüfung gewährleistet ist. Bei den wenigen nicht eindeutigen F ä l l e n (vgl. z . B . DUDUNI, S. 120, "Aufschnitt") ist auf eine Kernkonstituentenbestimmung verzichtet worden.

14

Für " Z e t t e l " werden die Erklärungswörter "Stück" und "Papier" gezählt.

2.2.2

Konjunktionen

Kernkonstituenten, die in Bedeutungsangaben mit "und" b z w . "oder" verbunden sind, werden beide berücksichtigt. Beispiel: S.

2.2.3

994

QUELLENFORSCHUNG : Ermittlung u. Erforschung der in einem [literarischen] Werk zugrunde liegenden Quelle[n],

Adverbien

Erklärungswörter, die den Zusatz "bes." oder "meist" haben, werden verwendet. · Beispiel: S. 24

2.2.4

ABATON : Das AIlerheiligste, bes. der Altarraum in den Kirchen mit orthodoxem Ritus.

Eckige Klammern

Sollten in einem Erklärungswort eckige Klammern vorkommen, so sind zwei Kernkonstituenten zu markieren. 7) "Allerheiligste" wird nicht als Erklärungswort gezählt; vgl. Kap. 2 . 2 . 8 dieser Arbeit.

15

Beispiel : S. 1198

STABILISIERUNGSFLOSSE :

[Siech]platte.

Die Kernkonstituenten sind "Blechplatte" und "Platte".

2.2.5

Stilistische Erläuterungen

Zusätzliche Erläuterungen im DUDUNI, die sich auf stilistische Bewertungen, auf räumliche oder z e i t l i c h e Zuordnungen der Substantive oder auf die Verwendung in Fach- b z w . Sondersprachen beziehen, haben keinen E i n f l u ß auf die Ermittlung der Kernkonstituente. Beispiel: S. 1002

2.2.6

RÄPPLI (schw. mundartl.) : Rappen.

Attribute mit "als"

Erklärungswörter, die den Zusatz "als" haben, werden nicht als Kernkonstituente berücksichtigt: Beispiel: S. 662

KANINCHEN : wegen seines Felles u, Fleisches als Haustier gehaltenes, dem Hasen ähnliches Tier mit graubraunem, grauem, weißem od. schwarzem Fell.

16

2.2.7

Runde Klammern

Erklärungswörter, die in runden Klammern stehen, werden nicht notiert. Beispiel: S. 759

2.2.8

LAIB : rund od. oval geformte Masse Käse).

(Brot,

Substantivierungen

Substantivierungen von Adjektiven oder Verben mit Ausnahme derjenigen, die selbst als Substantive im Wörterbuch lemmatisiert sind, werden nicht als Kernkonstituente markiert. Beispiele: S. 184 S. 187 S. 868

2.2.9

BESCHAFFENHEIT : das Beschaffensein einer Sache, . . . BESEELUNG : das Beseelen NACHLEBEN : Leben eines Verstorbenen in der Erinnerung der Hinterbliebenen.

Nichtsubstantivische Erklärungen

Wenn in einer lexikalischen Paraphrase zu einem Lemma eine Erklärung mit " j m d . , der . . . " steht, so wird das Substantiv

17

"Person" als Ersatzkernkonstituente eingesetzt, wenn dadurch keine der oben genannten Regeln verletzt wird und der Einsetztest durchgeführt werden kann. Beispiel:

S. 667

KÄUFER : jmd., der etw. kauft,

gekauft

hat.

Ein "Käufer" ist eine "Person". Ä h n l i c h s o l l bei Erklärungen mit "etw., das", "das, was", "etw., was" oder " a l l e s , was" verfahren werden. Hier wird das Substantiv "Sache" als Ersatzkernkonstituente verwendet, wenn der Substitutionstest durchführbar i s t . 8 1 Beispiel: S. 1016

REGENSCHUTZ : ettf., Ȋs geeignet ist, als Schutz gegen Regen zu dienen.

Die Kernkonstituente

für "Regenschutz" lautet " S a c h e " . 9 )

8) Durch die Applikation dieses Verfahrens wird die Abhängigkeit von dem verwendeten Wörterbuch etwas gemildert, w e i l eine häufige Benutzung von " j m d . , der", "etwas, w a s " , usw. zwar lexikographisch sinnvoll sein kann, aber die lexikologischen Untersuchungen zu Substantivstrukturen negativ beeinflussen würde. 9) Die Verwendung von Ersatzkernkonstituenten wird bei der Datenspeicherung markiert, so daß die Ersatzkernkonstituenten von dem sonstigen Vorkommen der Substantive "Person" und "Sache" unterscheidbar sind.

3.

Die Bestimmung des Abstraktheitsgrades der Substantive

Eine natürliche Sprache kann unter anderem als ein K l a s s i f i kationssystem aufgefaßt werden, das dazu d i e n t , die Dinge der realen Welt zu ordnen, um sich in der W e l t leichter orientieren zu k ö n n e n . i ) Wenn man dazu die Substantive einer Sprache nach ihrem Abstraktheitsgrad d i f f e r e n z i e r t , wird man sehr v i e l e Substantive finden, die eine sehr s p e z i f i s c h e Bedeutung haben und wenige Substantive, die eine sehr allgemeine Bedeutung aufweisen. Dieser Zusammenhang läßt sich schematisch in Form eines Dreiecks veranschaulichen. 2 ' Die Ursache dieses Zusammenhangs liegt darin begründet, daß ein Wort mit niedrigem Abstraktheitsgrad durch ein genus proximum erklärt wird und daß dieser Oberbegriff für ein oder mehrere andere spezifische Wörter als Erklärung dient.

3.l

Die Untersuchungen Robert Martins

MARTIN hat anhand eines einsprachigen Wörterbuchs den Abstraktheitsgrad von Substantiven der französischen Sprache untersucht. 3 > Zur Ermittlung des Abstraktheitsgrades werden Explikationsketten gebildet, bei denen jedes Wort als Erklärungswort für a l l e vorherigen Wörter der Kette g i l t . Dazu wählt man aus einem Wörterbuch ein beliebiges Lemma aus und ermittelt aus der Bedeutungserklärung das genus proximum. Das Lemma ist der

1) V g l . Altmann/Kind 1983, S. 1. 2) V g l . Schierholz 1988, S. 469 f. 3) Martin 1974.

19

Ebene N I , das erklärende Substantiv der Ebene N 2 zuzuordnen. Das Erklärungswort für das Substantiv in der Ebene N 2 ordnet man dann in die Ebene N s e i n . 4 1 Bei dieser Art der Kettenbildung hat MARTIN für das Französische z . B . f o l g e n d e Kette entwickelt: p i s t o l e t - arme - instrument - outil - objet - c h o s e . 5 ' Hier ist Ebene

"pistolet" der Ebene N I zuzurechnen, "arme" der , und "chose" ist

ein Wort der Ebene N & .

Zur Vorgehensweise in seiner Datenerhebung gibt MARTIN

fol-

b

gende H i n w e i s e : > Kommt es zu zirkulären Erklärungen, so ist zu streichen, und die Kette ist

das letzte Wort

nach eigener Kompetenz zu ver-

vollständigen. Ein Beispiel: reveil - pendule - appareil - machine - appareil. Hier ist das letzte Vorkommen von "appareil" zu e l i m i n i e r e n . Die Vervollständigung der Kette könnte folgendermaßen

aus-

sehen: " . . . - machine - instrument - outil - objet - c h o s e " 7 1 . N i c h t n o m i n a l e Erklärungen wie "das, was" oder "etwas, was" (im Französischen "ce que") werden nicht g e z ä h l t . Hier ist das Wort vor "das, was" als

letztes der Kettenbildung zu betrach-

ten,

nach eigener Kompetenz zu komplet-

oder die Kette ist 8

tieren. ' Metonymische Erklärungen mit " T e i l " , " G l i e d " , "Stück", "Menge" usw. werden gesondert gezählt und sind Endpunkte einer Kette 4) In Martins Daten sind die Ebenen um eine Ebene nach unten verschoben, s o d a ß N i = N o , N 2 = N i , N 3 = N 2 , . . . ist. 5) V g l . Martin 1974, S. 66. 6) V g l . Martin 1974, S. 63 f. 7) Altmann/Kind 1983, S. 2. 8 ) V g l . Martin 1974, S . 6 3 f .

20

Bei MARTIN findet man unter anderem folgende Beispiele: "bras : 'partie du corps'" "ancre: 'piece de fer q u ' o n fait descendre dans la mer ou la riviere pour arreter un navire . . . ' " ' J . Nur die gesamte Bedeutungserklärung gibt den Sinn der Stichwörter ("bras", "ancre") wieder; "partie" und "piece" sind unzureichende Erklärungen, so daß die Kette nicht weiter verfolgt wird. Für manche Substantive sind mehrere Bedeutungserklärungen vorhanden, so daß verschiedene Ketten entstehen können. Man kann entweder nur j e w e i l s das erste Erklärungswort oder a l l e Bedeutungen des Lexems separat untersuchen. Allerdings würden sich im letztgenannten Fall die Ergebnisse kaum verändern. Die Zahl der Wörter in der unteren Ebene würde sich zwar erhöhen, die Zahl der Wörter in den höheren Ebenen bliebe jedoch unverändert. ° > Aus diesem Grunde erscheint es sinnv o l l , nur eine Bedeutung zu untersuchen, w e i l es sonst zu einer Verzerrung der Ergebnisse kommen würde.* 1 MARTIN hat eine Stichprobe von 1723 Wörtern ermittelt und i s t durch d i e Kettenbildung a u f sechs Abstraktionsebenen * 2 > gekommen. Seine Ergebnisse sind in der Tabelle l dargestellt.

9) V g l . Martin 1974, S. 63. 10) V g l . Martin 1974, Tab. 2, S. 70. 11) V g l . Altmann/Kind 1983, S. 3. 12) Es muß "Abstraktheitsebene" heißen, weil die Ebene nichts abstrahiert und auch keine Abstraktion darstellt. Der Begriff "Abstraktion" wird auch nur bei der Darstellung der Martinschen Resultate benutzt und in den Untersuchungen des Deutschen durch "Abstraktheit" ersetzt.

21

Tabelle l:

Anzahl der Wörter auf den einzelnen Abstraktionsebenen nach MARTIN i a >

Ebene ( N j )

Zahl der Wörter

X

Yx

1

1723 348 108 39 13

2 3 4 5 6

3

Dem Wörterbuch sind 1723 Lemmata entnommen worden, die unter 348 Wörter in der Ebene N: subsumiert sind und diese wiederum unter 108 Wörter der Ebene N 3 . . . . In der Kritik ALTMANN/KINDS i * > wird darauf hingewiesen, daß bei der Zählweise in MARTINS Arbeit a l l e Wörter höherer Ebenen auch in den unteren Ebenen a u f t r e t e n . 1 5 1 Es gibt also Wörter, die in mehreren Ebenen enthalten sind. Durch Subtraktion der Wörter in der Ebene y x + i von y x läßt sich dies verhindern, und es entsteht folgende Verteilung: 13) V g l . Martin 1974 Tab. 2, S. 70. 14) V g l . Altmann/Kind 1983, S. 12. 15) Bei Altmann/Kind wird die Einordnung der Wörter in verschiedene Ebenen als der Aufbau einer Ordnungsskala verstanden: Ein Begriff der Ebene N I "ist von 1. Ordnung, der B e g r i f f , der das genus proximum darstellt, von 2. Ordnung. Ein Begriff 2 . Ordnung wird wiederum durch einen Beg r i f f 3. Ordnung definiert usw." (Altmann/Kind 1983, S. 2). Diese Auffassung wird hier nicht vertreten, vielmehr ist die jeweilige Kettenlänge ausschlaggebend, so daß jeder Ebenenwert als eine natürliche Zahl angesehen werden kann. Somit hat ein Wort mit sechs Kettengliedern doppelt so v i e l e Glieder wie ein Wort mit drei Kettengliedern.

22

Tabelle 2:

Anzahl der Wörter auf den einzelnen Abstraktionsebenen, wenn jedes Wort nur in einer Ebene vorkommt 11> >

Ebene (N i )

Zahl der Wörter

X

1 2 3 4 5 6

1375 240 69 26 10 3

Mit den in der Tabelle l gewonnenen Daten lassen sich die zu Beginn dieses Kapitels aufgezeigten Zusammenhänge für das Französische durch die von ALTMANN/KIND durchgeführten mathematischen Berechnungen b e s t ä t i g e n . 1 7 ) Diese Ergebnisse werden von ALTMANN/KIND als "Martins Gesetz der Abstraktionse b e n e n " i 8 - bezeichnet.

3.2

Weitere Untersuchungen zum Abstraktheitsmodell

In der Folge der Modellentwicklung ALTMANN/KINDS sind eine Reihe von Arbeiten zu diesem Themenkomplex e n t s t a n d e n . ! q > Dabei wird darauf hingewiesen, daß MARTINS Zuordnung der Begriffe zu den Ebenen änderungsbedürftig sei, wodurch es zu 16) 17) 18) 19)

V g l . Altmann/Kind 1983, Tab. 7, S. 13. V g l . Altmann/Kind 1983, S. 4 ff. Altmann/Kind 1983, S. 12. V g l . u . a . Hammerl 1987, Hammerl 1988a, Hammerl 1988b, Hammerl 1989a, Hammerl 1989b, Hammerl 1989c, Hammerl 1989d, Hammerl 1989e, Kisro-Völker 1984, Sambor 1982, Sambor 1983, Schierholz 1988, Schierholz 1989, SchulzOtto/Hammer l 1989.

23

verbesserten Aussagen über das Abstraktheitsniveau der Substantive kommen k a n n . 2 0 ' HAMMERL entwickelt ein neues mathematisches M o d e l l , das die Formel ALTMANN/KINDS als S p e z i a l f a l l betrachtet,^ dessen Handhabung jedoch von HAMMERL selbst kritisiert w i r d , weil es sich um eine mathematische Funktion mit einem "erheblichen Kompliziertheitsgrad" h a n d e l t . - 2 * Zwar lassen sich damit die Resultate aus mehreren Sprachen "statistisch signifikant" b e s c h r e i b e n , ; J ' aber vor a l l e m die Interpretation der zu verwendenden Parameter ist relativ k o m p l i z i e r t . - ^ Andere Modifikationsvorschläge zur Bestimmung der Abstraktheitsgrade beinhalten eine grundsätzlich veränderte Einordnung der e i n z e l n e n Substantive in die Ebenen, indem die Endglieder jeder Begriffskette zusammen in die abstrakteste Ebene sortiert werden, die j e w e i l i g e n U n t e r b e g r i f f e davor, . . . . *' · Mit diesem Verfahren wird die MARTINsche Zuordnung der Substantive in die Ebenen umgedreht. Es lassen sich jedoch damit noch weitere Dateninterpretationen umsetzen, z . B . die Berechnung der Subsumptionspotenz der B e g r i f f e oder die Betrachtung der jeweiligen Kettenlänge als Mafi für Abstraktheit/Konkretheit . 2 « ) Die in einigen Ansätzen vorgenommene D i f f e r e n z i e r u n g zwischen Abstraktheits- und Hyponymiestrukturen 2 7 ! kann jedoch nur z u t r e f f e n , wenn man strenge d e f i n i t o r i s c h e Kriterien zur Unterscheidung von genus proximum gegenüber Quasisynonymen entwickelt. 20) 21) 22) 23) 24) 25)

Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. Vgl. 26) V g l . 27) V g l . Vgl.

Hammerl 1988a, S. 118. Hammerl 1987, S. 119. Hammerl 1988b. Hammerl 1989d. Hammerl 1989d. Kisro-Völker 1984, S. 148. Hammerl 1989b, S. 133 f. Hammerl 1989e. Schulz-Otto/Hammerl 1989, S. 221 f. Hammerl 1988a, S. 105 f. Schulz-Otto/Hammerl 1989, S. 221 f. Hammerl 1989e.

24

Die Berücksichtigung der Häufigkeiten, mit denen die Wörter auf den einzelnen Ebenen auftreten, ist als ein besonders wichtiges Kriterium zu betrachten. Während KISRO-VÖLKER das arithmetische Mittel aus a l l e n Ebenenwerten, in denen ein Substantiv auftritt, benutzen w i l l , i * ' zieht HAMMERL den Mediän vor, um den Extremwerteinflufl zu m i n i m a l i s i e r e n . 2 9 > Eine befriedigende Lösung zur Bestimmung der Abstraktheit wird jedoch in keinem Ansatz erreicht. Allerdings verdeutlichen a l l e Vorschläge, daß es vor einer Modellierung der vorliegenden Daten unbedingt notwendig ist, ähnliche Voraussetzungen bei der Datenerhebung zu s c h a f f e n , um einen vernünftigen Vergleich der Resultate verschiedener Datenerhebungen überhaupt erst m ö g l i c h zu machen. Die von HAMMERL gemachten Vorschläge 3 0 > sind dazu ein erster wichtiger Beitrag, lassen sich aber nur schwer r e a l i s i e r e n , 3 1 ) so daß man zunächst die Forderung erheben muß, jeder Forscher s o l l e seine Methoden zur Datenerhebung vollständig und eindeutig vorstellen. Dies umfaßt insbesondere die definitorischen Abgrenzungen ("objektive Kriterien b e i der Datenerfassung" 3 2 > ) , die jedoch nicht zu jeder Sprache gleich sein müssen, weil man dadurch leicht typische Eigenschaften einzelner Sprachen verdecken würde. Dies b e t r i f f t im Deutschen z . B . die Kompositabildung, die ein Typikum der deutschen Sprache darstellt 3 3 ' und deren Auflösung in der von HAMMERL vorgeschlagenen Weise 3 * > zu einer erheblichen Verkürzung der Begriffsketten führen muß. Weiterhin entwickelt HAMMERL ausschließlich formale Kriterien, die zum Teil den Abgrenzungen der Untersuchung zur polnischen 28) 29) 30) 31) 32) 33) 34)

V g l . Kisro-Völker 1984, S. 146. V g l . Hammerl 1988b. V g l . Hammerl 1987, S. 115. V g l . Schierholz 1989, S. 108. Hammerl 1987, S. 128. V g l . Schierholz 1989, S. 124 f. Hammerl löst a l l e "endozentrischen Komposita" (Bestimmungswort in Endstellung) a u f , so daß z . B . "Autoschlüssel durch "Schlüssel" ersetzt wird; vgl. Hammerl 1989d.

25

Sprache 3 5 ; nachempfunden sind und somit möglicherweise die Eigenarten des Deutschen nicht genügend b e r ü c k s i c h t i g e n . 3 6 1 Zwar ist es begrüßenswert, wenn die definitorischen Abgrenzungen a u s f ü h r l i c h aufgezeigt werden - MARTINS Erläuterungen sind bei weitem nicht ausreichend -, aber erst die weitere wissenschaftliche Diskussion wird in diesem Punkt zu einer Optimierung führen. Im folgenden s o l l e n die Arbeiten zum MARTINschen Modell der Abstraktheitsebenen für die Entwicklung eines verbesserten Verfahrens der Datenermittlung im Deutschen berücksichtigt werden; der wesentliche Ausgangspunkt der Überlegungen bleibt jedoch das Verfahren Robert MARTINS sowie das von ALTMANN/ KIND entworfene M o d e l l .

3.3

Die Bestimmung der Abstraktheitsebenen in der deutschen Sprache

In dieser Untersuchung wird MARTINS Verfahren der Begriffskettenbildung mit Substantiven der deutschen Sprache durchgeführt. Dabei wird jedoch MARTINS Vorgehensweise einigen Modifikationen zu unterwerfen sein, um die Kettenbildung so objektiv wie möglich zu gestalten. Die Vervollständigung der Ketten nach eigener Kompetenz 3 7 > muß grundsätzlich abgelehnt werden, w e i l die Länge der Ketten damit vor a l l e m vom Wortschatz des Untersuchenden abhängen würde. Somit wäre der Untersuchungsgegenstand nicht nur das

35) V g l . Sambor 1983. 36) V g l . Hammerl 1989d. 37) V g l . Altmann/Kind 1983, S. 2 f.

26

Wörterbuch, sondern auch der Untersuchende s e l b s t . 3 8 ' Ebenso wäre eine intersubjektive überprüfbarkeit der Ergebnisse nicht gewährleistet, w e i l eine zweite Person die Ketten möglicherweise auf eine andere Weise komplettieren würde, so daß verschiedene Untersucher zu verschiedenen Daten kämen. Dies ist jedoch mit den Anforderungen der quantitativen Linguistik, die mit meßbaren, möglichst objektiven Resultaten aufwarten w i l l , nicht zu vereinbaren. E b e n f a l l s kann MARTINS Abgrenzung der metonymischen Erklärungen nicht übernommen w e r d e n , 3 9 > weil hier keine eindeutige D e f i n i t i o n zur Kennzeichnung metonymischer Erklärungen vorliegt. Dies g i l t für das Französische wie für die deutsche Sprache.

3.3.1

Die Auswahl und der Umfang der Stichprobe

Der Umfang der Stichprobe beträgt 1482 Wörter. Es wird im DUDUNI pro Seite j e w e i l s das erste Lemma mit großgeschriebenem I n i t i a l in die Stichprobe aufgenommen. Bei der Auswahl der Lemmata wird nicht berücksichtigt, ob das Lemma j e w e i l s am Beginn eines neuen Wörterbuchartikels steht. Das Substantiv "Aktant" ist im DUDUNI im Artikel zum Lemma "Akt" aufgeführt, ist aber auf der Seite 55 das erste halbfett gedruckte Substantiv und gehört somit in die Stichprobe. Weiterhin muß jedes Lemma der Stichprobe nach einem Doppelpunkt eine lexika38) Auch ein Wörterbuch entsteht durch subjektive Entscheidungen der Autoren. Jedoch ist das Wörterbuch mit der Absicht erstellt worden, Informationsbedürfnisse der Benutzer zu befriedigen, z . B . wird in den lexikalischen Paraphrasen eine Erklärung zur Bedeutung eines Lemmas gegeben. Dabei werden - durch den j e w e i l i g e n Lexikographen unbewußt - auch Informationen über semantische Strukturen der Sprache gegeben, u.a. durch Benutzung eines genus proximum als Bedeutungserklärung. Eine Untersuchungsmethode, die unabhängig von der Arbeit des j e w e i l i g e n Lexikographen semantische Strukturen ermittelt, s t e l l t somit eine "objektivere" Qualität dar, als wenn der Untersuchende, der sein Untersuchungsziel kennt, mit H i l f e seiner linguistischen Kompetenz Daten generieren würde. 39) V g l . A l t m a n n / K i n d 1983,

S.

3.

27

lische Paraphrase in kursiver Schrift e n t h a l t e n . 1 » 0 ; S o l l t e dies nicht der F a l l sein, wird das nächste halbfett gedruckte Substantiv verwendet. Beispiel: S. 66

AMOR : römischer Gott der Liebe.

Das Lemma "Amor" enthält im DUDUNI keine kursiv gedruckte Bedeutungsangabe, so daß das nächste h a l b f e t t gedruckte Substantiv zur Auswertung herangezogen wird. Wenn das erste h a l b f e t t gedruckte Substantiv einer Seite die substantivierte Form eines Verbs oder Adjektivs, welche selbst nicht als Substantiv im DUDUNI aufgeführt ist, als Erklärungswort hat, so wird das nächste h a l b f e t t gedruckte Substantiv g e n o m m e n . 4 i > Beispiel:

S. 69

ANBIEDERUNG : das Sichanbiedern ANBIEDERUNGSVERSUCH : Versuch, sich bei

jmdn. anzubiedern, Das Lemma "Anbiederungsversuch" wird für die Stichprobe berücksichtigt. Lemmata, die g l e i c h geschrieben werden, aber verschiedene Bedeutungen haben und die im DUDUNI durch hochgestellte Indexz i f f e r n vor dem Substantiv gekennzeichnet sind (Homonyme), werden als ein Lemma b e h a n d e l t . 4 2 > Dadurch werden Homonyme 40) Diese Abgrenzung ist notwendig, um ein eindeutiges formales Kriterium zur Ermittlung der Paraphrasen für die Auswertung zu erhalten. 41) Dies ist notwendig, w e i l sonst die Kettenbildung gar nicht zustande kommt, so daß die Resultate aufgrund lexikographischer Mängel verzerrt werden würden. 42) Da es keine eindeutige D i f f e r e n z i e r u n g von Homonymie und Polysemie gibt und im DUDUNI dazu keine erkennbare einheitliche Auffassung vorliegt, ist diese Gleichsetzung s i n n v o l l ; v g l . Kap. 5.1 dieser Arbeit.

28

mit einer hochgestellten I n d e x z i f f e r , die größer als Eins ist, nicht in die Stichprobe aufgenommen, sondern das nachfolgende halbfett gedruckte Substantiv der j e w e i l i g e n Seite im Wörterbuch. Beispiel: S. 798

' 2 > L O T : zusammengestellter Posten einer bestimmten Ware . . . LÖTAPPARAT : Apparat zum Löten.

Das Substantiv "Lötapparat" wird in die Stichprobe aufgenommen .

3.3.2

Die Bildung der Begriffsketten

Zusatzlich zu den in Kapitel 2 genannten Definitionen müssen in V l weitere Regeln beachtet werden. Dabei steht auch hier die Schaffung eindeutiger und operationalisierbarer Abgrenzungen im Vordergrund.

3.3.2.1

Die Wahl der Erklärungswörter

Es wird immer die erste Kernkonstituente der Bedeutungserläuterung, die entsprechend den oben aufgestellten Regeln gezählt werden kann, v e r w e n d e t . * 3 > Dies g i l t auch bei Doppelerklärungswörtern, bei mit Konjunktionen verbundenen Erklärungswörtern und beim Auftreten von eckigen Klammern. 43) Die von Hammerl geforderte Differenzierung zwischen Oberbegriffen und Synonymen (gemeint sind wohl Quasisynonyme) läßt sich nicht nach einem zuverlässigen Kriterium vornehmen; v g l . Hammerl 1989b, S. 131; Hammerl 1989d.

29

Beispiele: S. 168

S. 160 S. 158

3.3.2.2

BEFUND : nach einer Untersuchung, Prüfung festgestelltes Ergebnis, festgestellter Zustand BAUCHDECKE : Muskel- u. Bindegewebsschicht über den Organen in der Bauchhöhle BAROCKZEIT : Zeit[alter] des Barocks.

Die substantivierten Erklarungswörter

Wenn in einer Bedeutungserklärung nach einem substantivierten Erklärungswort, das nicht als Substantiv im DUDUNI lemmatisiert ist, noch eine weitere Kernkonstituente für das Lemma ermittelt werden kann, so wird diese zur Kettenbildung benutzt, Beispiel: S. 186

BESCHLEUNIGUNG

: l . a ) das Schnellerwerden, Schnei lermachen b) Eile, ... .

Bei nichtsubstantivischen Bedeutungserklärungen werden "Person" b z w . "Sache" nicht als Ersatzkernkonstituente eingesetzt, wenn in der lexikalischen Paraphrase noch eine weitere Kernkonstituente f o l g t . Beispiel: S. 135

AUSHELFER : jmd., der vorübergehend irgendwo aushilft, Aushilfe.

30

3.3.2.3

Die Erklärungstiefe der Kettenglieder

Beim E r m i t t e l n der Explikationsketten ist zu beachten, daß jedes Substantiv der Kette durch a l l e Substantive in den nachfolgenden Ebenen erklärt werden k a n n . 4 4 ' Zur Überprüfung wird der Substitutionstest verwendet. Beispiel: Abate - W e l t g e i s t l i c h e r - G e i s t l i c h e r - Seelsorger. Der Einsetztest ergibt: Ein ein Ein Ein

3.3.3

Abate ist ein W e l t g e i s t l i c h e r , ein G e i s t l i c h e r , Seelsorger. W e l t g e i s t l i c h e r ist ein G e i s t l i c h e r , ein Seelsorger. G e i s t l i c h e r ist ein Seelsorger.

Der Abbruch der Ketten

S o l l t e man unter Berücksichtigung der oben aufgestellten Regeln keine Kernkonstituente zu einem Substantiv ermitteln können, so ist die Kette an dieser Stelle abzubrechen. Die Kettenbildung ist e b e n f a l l s beendet, wenn eine Erklärung zirkulär v e r l ä u f t . Zirkularität liegt vor, wenn zwei Substantive in einer Kette direkt aufeinander folgen und sich gegenseitig e r k l ä r e n . 4 5 ' 44) Dieses Verfahren schlägt auch Kisro-Völker vor; v g l . Kisro-Völker 1984, S. 144. 45) Auch Substantivierungen, die als Kernkonstituente auftreten, s o l l e n als zirkuläre Erklärungen aufgefaßt werden, so daß die Ketten abzubrechen sind, wenn in den Ebenen - außer der ersten ( v g l . Kap. 3 . 3 . 1 ) - Substantivierungen auftreten: Wenn eine "Zusammenstellung" "das Zusammenstellen" ist, so hat diese Bedeutungserklärung keinen Explikationswert, sondern es handelt sich nur um eine Transformation des Lemmas.

31

Beispiel: S. 35 S. 1357

ABMACHUNG : Vereinbarung VEREINBARUNG : Abmachung.

In der Kettenbildung ergibt das: Abmachung - Vereinbarung - Abmachung. Die Kette wird mit "Vereinbarung" abgebrochen. Zirkularität liegt auch vor, wenn sich zu einem Lemma eine Kernkonstituente ermitteln läßt, die unter mehreren Erklärungswörtern innerhalb der gesamten Bedeutungserklärung nicht die erste ist, aber in der betreffenden Kette auf einer niedrigeren Ebene schon vorgekommen

ist.

Beispiel: S. 1189 S. 279

SPORTART : Disziplin DISZIPLIN : l . a ) Ordnung ...

2. 3.

Wissenschaftszweig, Unterabteilung . . . Teilbereich . . .; Sportart.

"Ordnung" und "Wissenschaftszweig" kommen nicht als

Kernkon-

stituente in Frage, w e i l sie nicht als Erklärungswort für "Sportart" verwendet werden können. Entsprechend den

bis-

herigen Regelfestlegungen müßte die Kette folgendermaßen gebildet werden: Sportart - D i s z i p l i n - Unterabteilung. Da jedoch in der Bedeutungserläuterung " D i s z i p l i n " auch "Sportart" als Kernkonstituente a u f t r i t t , indirekte Zirkularität vor,

muß:

liegt hier eine

so daß die Kettenbildung lauten

32

Sportart - D i s z i p l i n - Sportart. Die Kette ist abzubrechen und "Disziplin" in diesem F a l l e als das abstrakteste Wort zu markieren. Durch diese Regel wird zum Ausdruck gebracht, daß " D i s z i p l i n " als Erklärungswort für "Sportart" eben in gerade dem Sinne verstanden werden muß, wie " D i s z i p l i n " selbst wieder erklärt wird und nicht als "Unterabteilung" oder "Teilbereich".

3.4

Die Darstellung der Ergebnisse

Zu den 1482 Substantiven der Stichprobe sind in den Explikationsketten insgesamt 4520 Substantive ermittelt worden. Beispiel: Tischfernsprecher - T i s c h t e l e f o n - T e l e f o n - Apparat Gerät - Gegenstand - Ding - Gegenstand. * o > "Tischfernsprecher"

ist

ein Lemma a u s d e r Stichprobe < 7 > u n d

der Ebene NI zuzuordnen, T e l e f o n der Ebene N2, . . . und "Ding" der Ebene N 7 . Die Gesamtzahl a l l e r Substantive beträgt 6002 Wörter, die längste Kette umfaßt neun Substantive. Wenn jedes Substantiv pro Ebene nur einmal gezählt wird, beträgt die Anzahl der Wörter 3 8 3 4 . * e i Die Ergebnisse sind in der Tabelle 3 eingetragen.*') Um die Validität der erhobenen Stichprobe zu erhöhen, wird eine zweite Stichprobe aus dem DUDUNI entnommen. Dabei wird entsprechend den oben aufgestellten Definitionen j e w e i l s das 46) V g l . DUDUNI 1983. 47) V g l . DUDUNI 1983, S. 1271. 48) Eine Auswahl von Ketten ist halten. 49) V g l . S. 33 dieser Arbeit.

im Anhang AI und A2 ent-

33

Tabelle 3:

Anzahl der Worter auf den einzelnen Abstraktheitsebenen

y

X

Stichprobe I Ni

A

1 2 3 4 5 6 7

14 2 1110 642 334 160 74 23 7 2

9

Ni-Ni+i

372 46 308 174 86 51 16 5 2

3834

Stichprobe II A 1482 1101 642 361 189 87 36 14 4

Ni-Nio 381 459 281 172 102 51 22 10 4

3916

Erläuterungen zu Tab. 3: Ni = Abstraktheitsebene A = Anzahl der Wörter pro Ebene N i - N i + i = Anzahl der Wörter, wenn jedes Wort nur einmal pro Ebene auftritt. erste Substantiv der zweiten Spalte einer Seite aus dem DUDUNI aufgenommen und die Kettenbildung durchgeführt. Die Gesamtzahl a l l e r ermittelten Substantive beträgt hier 6106, die Zahl der Substantive, wenn jedes Wort pro Ebene nur einmal gezählt wird, 3916. Die Abbildungen l und 2 5 0 > verdeutlichen den Zusammenhang zwischen steigenden Ebenenwerten und kleiner werdenden Wortmengen pro Ebene in graphischen Darstellungen; auf die Besonderheiten in der Abbildung 2 (weniger Wörter in der Ebene Eins als in der Ebene Zwei) wird in Kapitel 3.7 eingegangen. 50) V g l . S. 34 und S. 35 dieser Arbeit.

34

1500 1400 .

1300 1200 -

1100 -

1000 -

900 800 700 -

600 -

500

-

400

-

300 -

200 100 -

~r 4

Abb. 1:

-r 7

Graphische Darstellung der Wortanzahl pro Abstraktheitsebene aus Stichprobe I ( N i = Abstraktheitsebene, A = Anzahl der Wörter)

35

j\ 500 -

400-

300-

200-

100-



0

2

1

;Ubb.

2:

3

4

5

6

, 7

, 8

J 9

Histogramm der verschiedenen Wörter nach Abstraktheitsebenen aus Stichprobe I (Ni = Abstraktheitsebene, A = Anzahl der Wörter).

^

Ni

36

3.5

Die mathematische Beschreibung

In der mathematisch-theoretischen Überprüfung der Ergebnisse wird zu zeigen sein, ob die Anordnung der Substantive bestimmten Gesetzmäßigkeiten unterliegt. Dazu soll die von ALTMANN/KIND entwickelte Funktionsgleichung über die K l a s s i f i kationstendenz der Sprache benutzt w e r d e n . 5 1 ' ALTMANN/KIND gehen von den Annahmen aus, daß sich die Zahl der Oberbegriffe in der Ebene N i + 1 proportional zu der Ebene N i vermindert und g l e i c h z e i t i g die Anzahl der Wörter auf einer Ebene proportional zu der Höhe der Ebene ist. Aus der Zusammensetzung dieser beiden Annahmen entwickeln ALTMANN/KIND die allgemeine Formel: yx = y 1 x!a x

1

.52!

(i)

In dieser Gleichung sind yi und der Proportionalitätskoeffizient ' a ' die Konstanten; yi ist die Anzahl der Wörter in der ersten Ebene. Für die Berechnung der Konstante ' a ' bestehen mehrere Möglichkeiten, von denen zunächst die erste, die eine allgemeine Approximation an die Datenstruktur darstellt, angewendet werden s o l l :

53

Setzt man aus der ersten Stichprobe s * > die Werte yi und

51) 52) 53) 54)

Vgl. Altmann/Kind 1983, S. 4 ff. V g l . Altmann/Kind 1983, S. 4. V g l . Altmann/Kind 1983, S. 5. Die Berechnungen s o l l e n nur mit H i l f e der Daten aus Stichprobe I durchgeführt werden, w e i l die Verteilung der Substantive in beiden Stichproben annähernd gleich ist.

37

y 2 (die Wortanzahl in Ebene N i und N ? ) ein, ergibt sich:

1110 2(482) a = 0.3744939 .

Nimmt man aus der Stichprobe yi = 1482 und a = 0.3744939 sowie die Werte der Tabelle 3 und setzt diese in die Formel (1) ein, so erh lt man die in Spalte A der Tabelle 4 stehenden R e s u l t a t e . 5 5 ' Die Abweichungen der berechneten Daten von den beobachteten sind erheblich. Statt zu f a l l e n , steigen die Werte an. Dies ist mit einem wesentlich zu hohen Wert f r ' a 1 zu erkl ren, welcher sich wiederum aus der D i f f e r e n z zwischen y i und y j ergibt. Darum s o l l eine weitere Sch tzung von ' a 1 nach folgender Formel durchgef hrt werden:

Σ ( x - l ) l n y - In y In a = — X

Σ (x-1) - Σ ( x - l ) l n ( x ! ) X ^— —

X

Σ (x-1)

Die Berechnung der Variablen ergibt:

Σ (x-l)ln y x χ

= 117.175249

In y. Σ (x-1) = 262.841321 χ Σ (x-1) l n ( x i ) = 293.654859 χ

55) V g l . S. 40 dieser Arbeit. 56) Vgl. Altmann/Kind 1983, S. 6.

2

.sei

(3)

38

( -1) 2

= 204 .

Beim Einsetzen in die Formel (3) erhält man: 117.175249 - 262.841321 - 293.654859 In

204

a =

0.116073232 .

Berechnet man mit diesem neuen Wert für ä die Werte nach Formel ( 1 ) , so erhält man die Resultate der Spalte B in der Tabelle 4 . s ? Die Resultate zeigen, daß die errechneten Werte zwar eine fallende Tendenz haben, aber vor a l l e m in den unteren Ebenen weichen die Werte der Spalte B in der Tabelle 4 sehr stark von den Originaldaten ab. Berechnet man die Summe der Abweichungsquadrate, so erhält man einen SSE-Wert ^ e ' von 956212.432, der e b e n f a l l s sehr hoch ist. Da die Anpassung der Datenstruktur an das Modell von ALTMANN/ KIND nicht besonders gut verlaufen ist, s o l l das von HAMMERL entwickelte Modell zum MARTINgesetz benutzt w e r d e n . ^ HAMMERL zeigt, daß das mathematische Modell ALTMANN/KINDS als ein S p e z i a l f a l l der Formel

anzusehen i s t . * ' - ' 1 Die Berechnung der Konstanten ' a ' und ' b 1 sowie des Proportionalitätsfaktors 'c' geschieht folgender maßen: 57) 58) 59) 60)

V g l . S. 40 dieser Arbeit. V g l . Altmann/Kind 1983, S. 5. Hammerl 1987. V g l . Hammerl 1987, S. 119.

39

N * R a

=

b =

S *M

Q * R - P * M~

N * P -

S * Q

M * P -

R * Q

A + a * H - b * E c = exp

Dabei sind die einzelnen Komponenten folgenderma en zu bestimmen: N = A * B - C * D R = E -

B * D

S = A -

F * D

M =

E * B - G * D

Q = - E * D

+

H*B

P = D * D + H

n-1

A =

Σ In y x=l

B =

n-1 Σ In v 3 x=l

=

n-1 Σ In y x=l

* In (x+1)

* In y ( x + 1 )

D =

n-1 Σ In (x+1) x=l

E =

n-1 Σ In y * In (x+1) x x=l

40

F =

n-1 Σ In yx+1 x=l

G =

n-1 Σ ( I n y )' X x=l

Η =

Σ In (x+1) x=l

.61>

Setzt man die Werte in die Formel (4) ein, so erh lt man die Resultate der Spalte C in der Tabelle 4.

Tabelle 4:

X

Υχ

1 2 3 4 5 6 7 β 9

1482 1110 642 334 160 74 23 7 2

Beobachtete und berechnete Anzahl der W rter auf den e i n z e l n e n Abstraktheitsebenen

A Υχ

1482 1109.9999 1247.0638 1868.0704 3497.8993 7859.6032 20603.261 61726.129 208016.45

B

C

Yx

Yx

1482 344.0411 119.8019 55.6232 32.2818 22.4823 18.2672 16.9627 17.7202

1482 902.314714 677.190061 363.286935 169.385979 70.913105 28.306336 6.923214 1.646028

Erl uterungen zu Tab. 4; χ

y* y*

A B C

= = = = = =

Abstraktheitsebene Beobachtete Anzahl der W rter pro Ebene Berechnete Anzahl der W rter pro Ebene Y X nach Formel (1) und (2) berechnet y x nach Formel (1) und ( 3 ) berechnet Y X nach Formel (4) und (5) berechnet.

61) Au erordentlich zu danken ist Herrn R o l f Hammerl f r die freundliche bersendung der obigen Berechnungsgrundlagen.

41

Die Werte weisen eine wesentliche bessere Anpassung an die empirischen Werte auf als die Werte der Spalten A und B. Die Summe der Abweichungsquadrate (SSE-Wert) ergibt 45355.1567. Dies wird auch durch die Berechnung des Determinationskoeff i z i e n t e n bestätigt: n

D = 1

x=l

2

(y - y_J 2 -

x=l

2

(yX - y„r X

Hier ergibt sich ein Wert von .09586172. Somit kann die Anpassung als sehr gut bezeichnet w e r d e n . b 2 > Da HAMMERL auch für die polnische Sprache eine gute Anpassung erreicht hat, kann dieses Modell möglicherweise die Tendenzen der Abstraktheitsstufen in verschiedenen Sprachen erfassen. Durch einen Vergleich der Resultate zu verschiedenen Sprachen s o l l e n die bisher ermittelten Daten genauer analysiert werden.

3.6

Die Diskussion der Ergebnisse

Die Tabelle 5 b 3 ' enthält die bisher bekannten Daten zum MARTINgesetz. Vergleicht man zunächst die Werte beider Stichproben aus der obigen Untersuchung zum Deutschen, so ist zu erkennen, daß die Anzahl der ermittelten Ebenen gleich ist und die Wortanzahl pro Ebene nur geringfügig d i f f e r i e r t ; die

62) A l l e r d i n g s ist ein derart gutes Resultat bei einer Schätzung von drei Parametern zu acht verschiedenen Werten fast zu erwarten. 63) V g l . S. 42 dieser Arbeit.

42

T a b e l l e 5:

Ebene Ni

Anzahl der Wörter pro Abstraktheitsebene aus Untersuchungen zu verschiedenen Sprachen

Zahl der 1Wörter Französisch 6 4 > P o l n i s c h 6 5 ' Deutsch 6 6 > (Wahr ig) 1723 348 108 39 13 3

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

1000 618 271 110 44 16 9 3 1

1483 1039 443 192 99 49 30 20 15 12 9 9 8 6 6 2

Deut seh" 7 ' I II 1482 1110 642 334 160 74 23 7 2

1482 1101 642 361 189 87 36 14 4

größte Abweichung findet sich in Ebene Fünf mit 29 Wörtern, so daß davon ausgegangen werden kann, bei weiteren Datenerhebungen mit der gleichen Untersuchungsmethode zu ähnlichen Resultaten zu gelangen. Bei einem Vergleich der Ergebnisse zu den verschiedenen Sprachen f a l l e n die Resultate zum Französischen besonders a u f . Dort gibt es nur sechs Ebenen, und die Abnahme der Wortanzahl pro Ebene ist

wesentlich größer, besonders von Ebene Eins zu

Ebene Z w e i . Jedoch ist

das von ALTMANN/KIND formulierte Modell

gerade anhand dieser Daten entwickelt worden. Mit den in der 64) 65) 66) 67)

Vgl. Vgl. Vgl. Vgl.

Martin 1974, Tab. 2, S. 70. Hammerl 1987, Tab. 3, S. 115 (nach Sambor 1982). Schierholz 1989. Kap. 3.4 dieser Arbeit.

43

Tabelle 5 aufgeführten Resultaten, die auf dem "dtv-Wörterbuch der deutschen Sprache" 6 8 ) basieren, konnte die von ALTMANN/KIND entwickelte mathematische Beschreibung der MARTINDaten nicht bestätigt werden. Folgende Ursachen sind im Anschluß an die WAHRIG-Untersuchung erörtert w o r d e n : ^ ) - MARTINS Gesetz der Abstraktionsebenen muß m o d i f i z i e r t werden. - Das ALTMANN/KIND-Modell g i l t nicht für die deutsche Sprache. - Die nahezu unbegrenzten Möglichkeiten der Kompositabildung in der deutschen Sprache führen zu einer übermäßigen Akkumulation von verschiedenen Substantiven auf den Ebenen ab N 2 . Im Französischen verringert sich die Zahl der Substantive, w e i l die Erklärungswörter aus einem sich häufig wiederholenden Grundwort plus einer im Genitiv stehenden S p e z i f i k a t i o n b e s t e h e n . 7 ° > Aus diesem Grunde würden sich im Deutschen die Ergebnisse bei einer Auflösung der Komposita den Daten des Französischen annähern. - Die definitorischen Abgrenzungen in der Untersuchung der deutschen Substantive sind f e h l e r h a f t , so daß die Resultate davon beeinflußt werden. - Das benutzte Datenmaterial ist für derartige Untersuchungen ungeeignet. Vor a l l e m der letzte Aspekt, die mangelhafte Qualität des WAHRIG-Wörterbuchs, 7 1 die sich besonders in der fehlenden Lemmatisierung des erklärenden Vokabulars niederschlägt, hat 68) Wahrig 1981. 69) V g l . Schierholz 19 9, S. 120. 70) Im Deutschen erhält man mit "Maschinenteil", "Pflanzent e i l " und "Körperteil" drei verschiedene Erklärungswörter, im Französischen hätte man nur ein Wort, nämlich "Teil". 71) V g l . Schierholz 1988, S. 465 ff.

44

bei den Datenerhebungen die Ergebnisse erheblich beeinträchtigt. Das DUDUNI weist nicht die gleichen Mangel a u f ; es müssen nur selten Explikationsketten wegen Lemmalücken abgebrochen werden. Damit sind die Überlegungen zur Kompositaauflösung wie sie in der Untersuchung angestellt worden sind, die auf den Daten aus dem WAHRIG-Wörterbuch beruht, ü b e r f l ü s s i g . 7 * ' Die definitorischen Abgrenzungen sind in der hier vorgenommenen Untersuchung gemäß den Erfahrungen aus der WAHRIG-Untersuchung optimiert worden. Dies b e t r i f f t insbesondere die Erklärungstiefe der K e r n k o n s t i t u e n t e n . 7 3 > Da das von ALTMANN/KIND entworfene Modell auch mit den hier vorliegenden Daten f a l s i f i z i e r t worden ist, s o l l t e man das Modell HAMMERLS für weitere Untersuchungen verwenden. Um eine "Universalität" des M o d e l l s zu beanspruchen, müßten jedoch noch zu weiteren Sprachen Daten erhoben werden. Ob die Resultate dann jedoch ohne weiteres verglichen werden können, wird auch von HAMMERL a n g e z w e i f e l t , 7 4 ) weil dazu ähnlich aufgebaute Wörterbücher, ähnliche definitorische Abgrenzungen zur Begriffskettenbildung und die Vermeidung subjektiver Einflüsse (Vervollständigung der Ketten nach eigener Kompetenz) Voraussetzung wären. Bei MARTIN, der seine definitorischen Abgrenzungen kaum dokumentiert hat, besteht zumindestens der Verdacht, daß er durch eine zu häufige Vervollständigung der Ketten nach eigener Kompetenz mehr seine eigenen Fähigkeiten untersucht, das genus proximum zu einem Begriff zu finden, als die französische Sprache. 72) V g l . Schierholz 19 9, S. 124 f. 73) V g l . Kap. 3 . 3 . 2 . 3 dieser Arbeit. 74) V g l . Hammerl 1987, S. 122.

3.7

Die Größe der Stichproben

Zu dem von MARTIN konzipierten Verfahren und zu den dazu entwickelten semantischen Modellen ergeben sich jedoch weitere Schwierigkeiten, die bisher nicht berücksichtigt worden sind. Da bei MARTINS Erhebungsmethode manche Wörter auf mehreren Ebenen erscheinen, muß man zur Lösung dieses Problems die Wortanzahl der Ebene N i + i von der der Ebene Ni subtrahieren. 7 * > Für die Berücksichtigung der Wörter ausschließlich auf der j e w e i l s höchsten Ebene findet auch HAMMERL "keine überzeugende Begründung". 7 '') Die Tabelle 6 verdeutlicht, daß die resultierenden theoretischen Werte von den tatsächlichen erheblich abweichen. Ab Ebene N 6 entsprechen die theoretischen Werte in etwa den empirischen.

Tabelie 6:

Anzahl der Substantive pro Ebene in der ersten Stichprobe, wenn jedes Wort nur einmal vorkommt Ebene Ni

Zahl der Wörter theoretisch empirisch

1 2 3 4 5 6 7 8 9

372 468 308 174 86 51 16 5 2 1482

75) V g l . Altmann/Kind 1983, S. 12. 76) Hammerl 1989e.

1437 841 419 217 107 56 17 5 2

3101

46

Dies weist darauf h i n , daß ab N 6 nahezu a l l e Wörter in den höher liegenden Ebenen enthalten sind. Je größer die Stichprobe wird, desto mehr Ebenen lassen sich theoretisch richtig berechnen. Erst wenn die Stichprobe so groß ist, daß a l l e Wörter in den Ebenen größer N I auch in der Stichprobe enthalten sind, werden die theoretischen mit den empirischen Werten übereinstimmen. Bei den theoretischen Werten der Tabelle 6 f ä l l t zudem a u f , daß es mehr Wörter in Ebene Zwei als in Ebene Eins gibt, was natürlich nicht m ö g l i c h ist, weil es nicht mehr Erklärungswörter als Lemmata geben kann, wenn man pro Lemma nur eine Kernkonstituente berücksichtigt. Vergleicht man die Summe a l l e r verschiedenen Substantive, so erhält man empirisch 3101 und theoretisch 1482 Substantive. Die theoretische Berechnung der verschiedenen Substantive durch Subtraktion der Wortmengen aus Ni + i von N I ist also zu ungenau und hangt von der Größe der ausgewählten Stichprobe ab. Ein zweites Problem besteht darin, daß sich auch die Verteilung der empirischen Werte ab Ebene N 2 mit der Größe der ausgewählten Stichprobe verändert. Die Tabelle 7 7 > zeigt, daß sich bei einer j e w e i l i g e n Verdoppelung der Stichprobengröße die Wortmengen auf den darüberllegenden Ebenen nicht verdoppeln. Geht man von der halbierten ersten Stichprobe aus, so erhält man auf Ebene Zwei bei einer theoretischen Verdoppelung 1236 Wörter (Spalte I I ) , aber einen empirischen Wert von 1110 Wörtern (Spalte I I I ) . Bei einer nochmaligen Verdoppelung des theoretischen Wertes kommt man theoretisch auf 2472, empirisch auf 1975 Wörter. Für noch größere Stichproben liegen keine empirischen Werte vor, so daß man mit H i l f e der vorliegenden Daten die Entwicklung der Verteilung zu größeren Datensätzen abschätzen müßte. 77) V g l . S. 47 dieser Arbeit.

47

Tabelle 7:

Anzahl der verschiedenen Wörter aus beiden Stichproben auf den e i n z e l n e n Abstraktheitsebenen

Ni

I

II

1 2 3 4 5 6 7 8 9

741 618 385 203 101 43 17 5 2

1482 1236 770 406 202 86 34 10 4

III

1482 1110 642 334 160 74 23 7 2

IV

2964 2472 1540 812 404 172 68 20 8

V

2964 1975 1031 525 261 120 43 15 5

Erläuterungen zu Tab. 7: N; I II III IV V

= Ebene = Empirische Werte, wenn man die erste Stichprobe halbiert. = Theoretische Werte, wenn man die Werte der Spalte I verdoppelt. = Empirische Werte, wenn die Größe der Stichprobe verdoppelt wird. = Theoretische Werte, wenn man die Werte der Spalte II verdoppelt. = Empirische Werte, wenn die Größe der Stichprobe aus Spalte III verdoppelt wird.

Mit dieser Tendenz führen die mathematischen Berechnungen zu Resultaten, die durch den Umfang der Stichprobe determiniert sind. Die Ursache dieses Phänomens liegt darin begründet, daß die Zahl der verschiedenen Wörter in den höheren Ebenen nicht ständig zunimmt, wenn man neue Wörter in die Stichprobe aufnimmt. Dies b e t r i f f t zuerst die höchste Ebene und wird sich bei Vergrößerung der Stichprobe langsam weiter auf die unteren Ebenen ausdehnen. In der Ebene Zwei wird es natürlich erst dann keine Veränderungen mehr geben, wenn man nahezu a l l e Substantive des Wörterbuchs in Ebene Eins aufgenommen

48

hat. Dann würde auch die D i f f e r e n z zwischen N I und N 2 wesentlich größer sein, so daß die Bestimmung des Proportionalitätsk o e f f i z i e n t e n , wenn sie mit H i l f e der Daten aus N I und N2 erfolgt, zu ganz anderen Ergebnissen führen würde als bei einer Bestimmung mit den Werten aus den Spalten I, III oder V in der Tabelle 7. Zwar mag sich der Typ der Abhängigkeit zwischen und y x 8 dadurch nicht grundsatzlich verändern, > aber die Parameter in den Funktionen sind von der Größe der Stichprobe in erheblichem Maße abhängig, was in den Untersuchungen zu verschiedenen Sprachen, die immer mit überschaubaren Stichproben (ca. 1000 Ausgangswörter) durchgeführt worden sind, nicht berücksichtigt worden ist. Den MARTINschen Ergebnissen käme man wohl am nächsten, wenn man das ganze Wörterbuch untersuchen würde. Die Dependenz der Ergebnisse von der Stichprobengröße sollte in Zukunft beachtet werden, um eine zuverlässigere Vergleichbarkeit der Resultate zu gewährleisten.

3.

Ein empirisches Verfahren zur Abstraktheitsbestimmung der Substantive (V 1)

Aus der Diskussion der Ergebnisse zur MARTINschen Methode der Abstraktheitsbestimmung hat sich ergeben, daß - die Relation zwischen den Wortmengen pro Ebene von der Größe der Stichprobe abhängt - sich die Anzahl der verschiedenen Wörter pro Ebene in 78) Allerdings verändert sich der Typ, wenn man die oben dargestellte Methode der Subtraktion der Wörter auf der Ebene N i + i von Ni durchführt, weil erst bei sehr großen Stichproben auf der untersten Ebene die höchsten Werte stehen würden; v g l . Tab. 6, S. 45 dieser Arbeit.

49

den höheren Ebenen wenig, in den unteren Ebenen jedoch stark verändert, wenn die Stichprobe vergrößert wird - die Anzahl der Ebenen (bis N g ) als konstant angesehen werden kann - die Zuordnung eines Substantivs zu einer bestimmten Ebene nicht eindeutig ist, weil viele Substantive in mehreren Ebenen auftreten. G l e i c h z e i t i g verläuft die vorgestellte BegriffskettenbiIdung immer von den konkreteren Substantiven zu den abstrakteren h i n . Zudem f ä l l t während der Datenerhebung (Bildung der Begriffsketten anhand des Wörterbuchs) a u f , daß die e i n z e l n e n Substantive zum einen durch ihre Position in einer Kette und zum anderen durch das j e w e i l i g e Auftreten in einer Kette gekennzeichnet sind. Somit sind zwei Faktoren ausschlaggebend: (1) die Häufigkeit, mit der ein Substantiv pro Ebene vorkommt (2) die Ebene, auf der das Substantiv j e w e i l s a u f t r i t t . Wenn man diese beiden Faktoren zueinander in Beziehung setzt, so läßt sich das MARTINsche Verfahren in der Weise weiterentwickeln, daß jedem untersuchten Substantiv ein empirisch ermittelter Abstraktheitswert zugewiesen werden kann. Es erfolgt zunächst die ExplikationskettenbiIdung gemäß den oben genannten Definitionen mit zwei voneinander unabhängigen Stichproben. Da die Wörter der Stichprobe z u f ä l l i g ermittelt worden sind, enthalten sie keine Aussagekraft über ihren Abstraktheitsgrad und werden im weiteren nicht berücksichtigt. Damit wird die bisherige Ebene N2 zur Ebene N I , und es existieren insgesamt acht Ebenen. Da zur Auswertung nicht die verschiedenen Wörter berücksichtigt werden s o l l e n , sondern a l l e Substantive, die in den Begriffsketten auftreten, bekommt man die folgende Verteilung zu acht E b e n e n : 7 9 ' 79) V g l . Tab. 8, S. 50 dieser Arbeit.

50

Tabelle 8:

Anzahl a l l e r Wörter auf den einzelnen Abstraktheitsebenen

Ebene Ni 1 2 3 4 5 6 7 8

Zahl der Wörter Stichprobe II Stichprobe I

1482 1251 883 536 255 87 20 6

1482 1246 910 562 292 100 26 6

Zusammen sind das 4520 Substantive in der ersten und 4624 Substantive in der zweiten Stichprobe, wobei die abstrakteren Substantive in den jeweiligen Stichproben mehrfach (auf verschiedenen Ebenen) und in beiden Stichproben auftreten. Zu jedem Substantiv wird dessen Auftretenshäufigkeit Hi in der Ebene N J gezählt und durch die Gesamtzahl a l l e r Wörter in der Ebene Ni dividiert. Damit erhält man zu den Substantiven für jede Ebene, in der diese auftreten, einen Häufigkeitswert Z i , dessen Größe von der Anzahl der Wörter einer Ebene abhängig ist:

Um den E i n f l u ß einer jeden Ebene Ni entsprechend der Höhe von ' i 1 zu berücksichtigen, wird Zi mit dem Wert der Ebene, in der Z i ermittelt worden ist, m u l t i p l i z i e r t , und man erhält einen Abstraktheitsindex

51

= Z i * Ni .

Ein Substantiv, das in a l l e n acht Ebenen vorhanden ist, besitzt also acht Abstraktheitsindices . Beispiel :

GEGENSTAND:

zi

Ni

.13 1.84 1 .93 3.92 5.88 3.45 10.00

1 2 3 4 5 6 7

.13 3.68 5.79 15.68 29.40 20.70 70.00 .

Das Wort "Gegenstand" kommt in den ersten sieben Ebenen vor und erhält somit sieben verschiedene Abstraktheitsindices. Da diese eine große Streuungsbreite aufweisen, wird aus den Indices nicht das arithmetische Mittel gebildet, sondern der Mediän zur Bestimmung des Abstraktheitswertes 8 ° > gewählt; 8 i > i n diesem F a l l e 15.6 . 8 2 ' Auf diese Weise lassen sich zu 1664 verschiedenen Wörtern aus der Stichprobe I und 1700 Wörtern aus der Stichprobe II j e w e i l s die -Werte errechnen. Das Wort mit dem höchsten -Wert ist in beiden Stichproben "Wesen" (I: 89.015; II: 7 7 . 7 9 ) , gefolgt von "Lebewesen" ( I : 57.88; I I : 4 8 . 4 0 ) . Um jedem Wort nur einen -Wert zuwei80) Im weiteren -Wert. 81) Der Mediän ist der Wert, "bis zu dem sich 'von unten' bzw. 'von oben 1 50% a l l e r Werte einer Verteilung aufkumuliert ( s i e ! ) haben. ( . . . ) Der Mediän ist also das 50%Quantil; ( . . . ) " ; Sievers 1987, S. 101. 82) Sollte eine gerade Anzahl von Indices vorliegen, so ist aus den beiden in der Mitte liegenden Werten der Mittelwert zu b i l d e n .

52

sen zu können, wird bei den Wörtern, die in beiden Stichproben vorkommen, aus beiden -Werten der Mittelwert g e b i l d e t . 8 3 ; Bei Substantiven, die nur in einer Stichprobe vorkommen, wird der -Wert so belassen. Die Resultate für die zwanzig Wörter mit den höchsten A-Werten sind in der Tabelle 9 8 4 > dargestellt. Betrachtet man die Rangpositionen der Wörter, so ist zu erkennen, daß die Resultate aus beiden Stichproben nicht wesentlich voneinander abweichen. Auch wird man bei einer intuitiven Einschätzung ihres Abstraktheitsgrades diesen zwanzig Wörtern eine relativ hohe Abstraktheit zuweisen. Trotzdem hängt in der Sprachproduktion bzw. -rezeption der Abstraktheitsgrad von Wörtern natürlich auch von ko- und kontextuellen Faktoren ab. Jedoch stellen die empirisch ermittelten -Werte eine wichtige Variable dar, die zur Deskription lexikologischer Strukturen eingesetzt werden kann. Die Verteilungen der untersuchten Substantive für beide Stichproben sind in der Tabelle 10 8 5 > dargestellt. Es haben sich insgesamt 243 verschiedene -Werte ergeben, so daß zur besseren Übersicht die -Werte in Gruppen zusammengefaßt worden s i n d . e t i Eine ausführliche Analyse der Distribution der A-Werte wird im Kapitel 6 erfolgen; anhand der Tabelle 10 kann man erkennen, daß die Werte in Spalte III sehr breit gestreut 83) Das arithmetische Mittel errechnet man nach der Formel:

_ l n x = -n * ; i-i v g l . Sievers 1987, S. 97. 84) V g l . S. 53 dieser Arbeit. 85) V g l . S. 54 dieser Arbeit. 86) Eine Tabelle mit der Verteilung a l l e r ermittelten A-Werte befindet sich in Tab. A 2 im Anhang.

53

Tabelle 9:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Substantive mit höchsten

WESEN LEBEWESEN MENSCH GEGENSTAND SACHE DING TEIL SUBSTANZ STOFF WEISE PERSON ORGANISMUS TIER PLAN KÖRPER GERÄT MOTOR STÜCK TATSACHE KONSTRUKTION

-Werten aus V l

I

II

III

89.015 57.88 14.68 15.68 8.20 11.75 9.18 6.90 5.52 4.77 5.90 4.48 4.555 4.425 3.00 4.315 3.90 3.72 1.95 2.24

77.79 48.40 15.64 9.96 11.165 6.40 7.98 5.68 5.31 5.15 3.85 4.025 3.825 3.85 5.00 2.935 1.70 1.7 3.4 2.84

83.402 53.14 15.16 12.82 9.6825 9.075 8.58 6.29 5.415 4.96 4.875 4.2525 4.19 4.1375 4.0 3.625 2.8 2.71 2.675 2.54

IV

V

VI

1 2 4 3 7 5 6

1 2 3 5 4 7 6 8 9 10 15 13 12 14 11 22 39 36 16 23

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

10 11 9 12 16 13 20 14 15 18 31 23

Erläuterungen zu Tab. 9; I II III IV V VI

= = = = = =

-Werte aus Stichprobe I -Werte aus Stichprobe II Mittelwert aus Spalte I und II Rang in Stichprobe I Rang in Stichprobe II Rang in der Abstraktheitsbestimmung.

sind und viele Substantive mit einem niedrigen -Wert sowie wenige Substantive mit einem hohen -Wert existieren. Dies korrespondiert mit der entwickelten Vorstellung über die Beziehungsstruktur der untersuchten Substantive, in der es v i e l e Peripheriewörter und wenige Zentralwörter gibt.

54

Tabelle 10:

Häufigkeitsverteilung der Substantive nach A-Werten

A-Wert 0.0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1.0 1.05 1.1 1.15 1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6 1.65

-

0.049 0.099 0.149 0.199 0.249 0.299 0.349 0.399 0.449 0.499 0.549 0.599 0.649 0.699 0.749 0.799 0.849 0.899 0.949 0.999 1.049 1.999 1.149 1 .199 1.249 1 .299 1.349 1 .399 1.449 1 .499 1.549 1.599 1.649 1.699

I

II

III

0 774 136 321 66 9 153 3 11 23 14 2 10 19 2 34 3

0 768 116 313 84 6 170 14 18 22 22 5 6 25 29 3 3 11 4 8 4 3 2 1 6

0 1377 244 468 142 26 170 27 34 25 32 8 9 20 21 14 9 1 11 4 12 5 8 2 4 3 2 2 3 1 2 1

2 10 5 8 3 1 5 1 8

7 6 1 1

1

1

A-Wert

I

II

III

1.7 - 1.749 1.75 - 1.799 1.8 - 1.849

2 1

9

3 1 2 3

1.85 - 1.899 1.9 - 1.949 1.95 - 1.999 2.0 - 2.099 2.1 - 2.199 2.2 - 2.299 2 . 3 - 2.399 2.4 - 2.499 2.5 - 2.599 2.6 - 2.699 2.7 - 2.799 2 . 8 - 2.899 2.9 - 2.999 3.0 - 3.199 3.2 - 3.399 3.4 - 3.599 3.6 - 3.799 3.8 - 3.999 4.0 - 4. 199 4.2 - 4.399 4.4 - 4.599 4.6 - 4.799 4 . 8 - 4.999 5 . 0 - 5.999 6.0 - 6.999 7.0 - 7.999 8 . 0 - 8.999 9.0 - 9.999 10.00 -19.999 20.00 -59.999 ab 60.00

Erläuterungen zu Tab. 10: I II III

= Anzahl der Wörter aus Stichprobe I = Anzahl der Wörter aus Stichprobe II = Anzahl der Wörter aus V 1.

1 5 4

1

1 1

3 1 3

3 1

1 1 2 1 1 3

2 1 1 1 1 1

1 1 2 2 1 1 1 2 1 1 1 3 1 1

2 2 1 2 1

3 1

1 4 1 1 1 2 1 1

2 1 1 1 2 2 1 1

4.

Die Häufigkeitsbestimmung der Substantive (V 2)

Im folgenden Versuch soll untersucht werden, in welcher Häufigkeitsverteilung die Auftretenshäufigkeiten der Substantive im DUDUNI vorkommen. G l e i c h z e i t i g wird zu jedem untersuchten Substantiv ein empirischer Häufigkeitswert i ' ermittelt werden. Um die terminologische Verwirrung zwischen der H ä u f i g k e i t d e s Auftretens einer Kernkonstituente i m DUDUNI u n d d e r H ä u f i g k e i t i n d e r dazugehörigen Häufigkeitsverteilung zu vermeiden, wird folgende Differenzierung vorgenommen: Das Attribut 'Häufigkeit 1 ist d e f i n i e r t durch die Anzahl des Auftretens eines Substantivs als Kernkonstituente innerhalb des untersuchten Datencorpus (= Z u f a l l s v a r i a b l e ) Die Häufigkeiten, mit denen die Ausprägungen der Z u f a l l s v a r i a b l e n ' H ä u f i g k e i t 1 in einer Häufigkeitsverteilung besetzt sind, heißen Counts. Da die Bestimmung der Kernkonstituenten nicht durch den Computer e r f o l g e n kann, ist es im Rahmen dieser Arbeit nicht mögl i c h , sämtliche Substantive des DUDUNI zu untersuchen. Die Anzahl der im Wörterbuch lemmatisierten Wörter wird mit etwa 120000 angegeben,'·· so daß der Anteil der Substantive mit ca. 70000 geschätzt werden k a n n . 3 1 Analog zu früheren Datenerhebungen * ' wird angenommen, daß bei einer Countverteilung zum Merkmal ' H ä u f i g k e i t ' v i e l e Substantive selten (ein bis 1) Im weiteren -Wert. 2) V g l . DUDUNI 1983, S. 7. 3) Marx schätzt (nach Erben 1965) einen Substantivanteil am Gesamtwortschatz in Höhe von 58 %; v g l . Marx 1979, S. 597.

4) V g l . Schierholz 1988, S. 466 ff.

56

zwei M a l ) und wenige Substantive sehr oft vorkommen. Für Untersuchungen der semantischen Strukturbeziehungen sind die Substantive, die im Wörterbuch häufig als Kernkonstituente fungieren, von größerem Interesse. Diese Substantive werden für die Überprüfung der oben aufgestellten Hypothesen benötigt. Von den selten vorkommenden Substantiven braucht nur ein Teil untersucht zu werden, um die Verbindungen zu den häufig auftretenden Substantiven exemplarisch verdeutlichen zu können. In Kapitel 4.2 wird eine Methode vorgestellt werden, mit der man a l l e häufigen und zentralen Substantive des DUDUNIWortschatzes ermitteln kann.

4.l

Definitorische Abgrenzungen zur Häufigkeitsbestimmung

In V 2 werden entsprechend den obigen Definitionen 5 > a l l e Substantive einer Bedeutungserklärung, die nach dem Substitutionstest als Kernkonstituente fungieren können, notiert. Jedoch werden zu einem Lemma nur die verschiedenen Kernkonstituenten markiert, so daß ein Erklärungswort, das in einer Bedeutungserläuterung mehrfach vorkommt, nur einmal gezählt wird. Beispiel: S. 505

GLÜCKSSPIEL : 1. Spiel, bei dem der Erfolg fast nur vom Zufall abhängt 2. Spiel, bei dem um Geld gespielt wird.

Bei den nichtsubstantivischen Erklärungen werden "Person" 5) V g l . Kap. 2.2 dieser Arbeit.

57

bzw. "Sache" auch dann als Ersatzkernkonstituente notiert, wenn in der Bedeutungserklärung eine weitere verwendbare Kernkonstituente n a c h f o l g t . Beispiel:

S. 135

AUSHELFER : j'/nd., der vorübergehend irgendwo aushilft,

Aushilfe,

Für "Aushelfer" werden "Person" und " A u s h i l f e " als Erklärungswörter gezahlt.

4.2

Die Vorgehensweise in V 2

Den Ausgangspunkt der Untersuchung bilden die Substantive, denen in V l ein -Wert zugewiesen worden ist. Man erhält somit aus der ersten Stichprobe der Abstraktheitsbestimmung 1664 verschiedene Substantive, welche in V 2 die Lemmata des Datensets I darstellen. Aus der zweiten Stichprobe in V l ergeben sich 1700 verschiedene Substantive, von denen diejenigen Wörter, die schon im Datenset I lemmatisiert sind, subtrahiert werden. Es verbleiben 1060 verschiedene Lemmata für das Datenset I I . 6 > Ermittelt man gemäß den aufgestellten Definitionen zu den Substantiven in beiden Sets die Kernkonstituenten, so erhält man im Set I 5148 Kernkonstituenten (2647 verschiedene) und im Set II 2624 (1706). Vergleicht man a l l e verschiedenen Kernkonstituenten mit den bisher ermittelten Lemmata aus beiden Sets, so bleiben 2076 Substantive übrig, die noch nicht im Datencorpus lemmatisiert sind und die die Lemmaliste zum Set III b i l d e n . Setzt man diese Methode der Kernkonstituenten6) V g l . Tab. 11, S. 58 dieser Arbeit.

58

ermittlung und des Vergleichens fort, so entstehen nach und nach die Sets IV, V und V I . Die Anzahl der neuen Lemmata wird immer geringer, und im Set VI erhalt man nur noch so wenige neue Substantive, daß der Aufbau eines weiteren Sets nicht mehr l o h n t . ?

T a b e l l e 11:

Lemmata und Erklärungswörter ( E w ' s ) der Sets I - VI

Set

Lemmata

Anzahl Ew's

Wortschatz Ew's

I II III IV

1664 1060 2076 966 431 244

5148 2624 4056 1738 659 429

2647 1706 2314

6441

14654

v

VI

1244 541 333 5532

Diese Methode der Lemmataermittlung b z w . des Datencorpusaufbaus gewährleistet, daß a l l e gefundenen Kernkonstituenten auch als Stichwort im Datencorpus auftreten, sofern sie im DUDUNI lemmatisiert sind. Es bleiben l e d i g l i c h 909 Substantive übrig, die aus den Ausgangssets (I und II) stammen und nicht in den folgenden Sets als Kernkonstituente auftreten. Wegen der großen Wahrscheinlichkeit, in den Bedeutungserklärungen zuerst auf die häufigen Wörter zu t r e f f e n , gelangt man auf diese Weise zu den häufig auftretenden Substantiven im DUDUNI. Verfolgt man bei der Entstehung der einzelnen Sets die Anzahl der neuen Lemmata, so nimmt diese lediglich bei 7) Die neuen Lemmata, die aus dem Set VI extrahiert werden, würden das Set VII bilden. Da es sich um sehr wenige Wörter handelt, sind sie in das Set VI integriert worden, so daß in Tab. 11 die genaue Verringerung der Lemmamenge von Set V zu Set VI etwas größer a u s f ä l l t .

59

der Bildung des Sets III

zu. Daraus ist

zu schließen, daß die

Ausgangssets I und II noch zu k l e i n sind, um den zentralen Wortschatz, welcher u.a. durch das Merkmal 'Häufigkeit 1 gekennzeichnet ist, zu erfassen. Dabei ist zu beachten, daß die aus V l übernommenen Substantive, die in den Sets I und II Lemmata sind, nicht zu den Stichprobenwörtern in V l gehören, sondern in der Kettenbildung in Ebene Eins oder darüber aufgetreten sind. Wenn die abstrakten Wörter auch die häufigen sind, so t r i f f t dies nach der Vorgehensweise in V 2 nur part i e l l zu; jedoch wäre in V 2 bei einem noch kleineren Ausgangsdatenset die Zunahme in dem nachfolgenden Set erheblich größer gewesen und hätte sich über mehrere Sets fortgesetzt. > Damit kann davon ausgegangen werden, daß wörterbuchintern die Zentralwörter, der Kernwortschatz der Erklärungswörter, erfaßt sind. A l l e r d i n g s muß die geringe Wahrscheinlichkeit, daß die bisher ermittelten 6441 Substantive der Sets I - VI eine riesige W o r t f a m i l i e bilden, deren Mitglieder sich gegenseitig erklären, überprüft werden. Dazu werden aus einer Untersuchung zum dtv-WAHRIG 9 > a l l e Substantive, die mehr als zweimal als Erklärungswort vorkommen, notiert und mit den 6441 Substantiven verglichen. Dabei ergeben sich 363 neue Lemmata, die bisher noch nicht untersucht worden sind. Diese bilden das Set V I I , und das weitere Vorgehen (Bestimmung der Kernkonstituenten nach dem obigen B e i s p i e l ) ergibt ein Set V I I I mit 221 neuen und ein Set IX mit 154 neuen Substantiven, wie Tabelle 12 z e i g t . i ° >

8) Wenn man z . B . das erste Wort im DUDUNI ( " A a " ) als Ausgangspunkt nimmt und dann die Kernkonstituenten bestimmt, so erhält man zwei neue Wörter, für diese neun neue Erklärungswörter, dann 23 und daraufhin 89. Dieser Vermehrungsprozeß würde sich so lange fortsetzen, bis a l l e häufigen Kernkonstituenten als Lemma erfaßt sind. Danach würde die Zahl der noch nicht lemmatisierten Kernkonstituenten abnehmen. Dieser Wendepunkt ist in dieser Untersuchung ab dem Set IV erreicht. 9) V g l . Schierholz 1988, S. 465 ff. 10) V g l . S. 60 dieser Arbeit.

60

Tabelle 12:

4.3

Lemmata und Erklärungswörter ( E w ' s ) d e r Sets I-IX n >

Set

Lemmata

Anzahl Ew 1 s

Wortschatz Ew ' s

I II III IV V VI VII VIII IX

1664 1060 2076 966 431 244 363 221 154

5146 2624 4056 1738 659 429 888 420 240

2647 1706 2314 1244 541 333 690 352 203

7179

16202

6036

Die Darstellung der Ergebnisse aus V 2

Die untersuchten Sets ( I - I X ) bilden zusammen das Master Corpus, das aus 7179 verschiedenen Lemmata besteht. Die Resultate der Häufigkeitsbestimmung sind der Tabelle 13 1 2 > zu entnehmen. In der Spalte xi stehen die Häufigkeiten der untersuchten Wörter, in der Spalte y die Counts der Substantive pro Häufigkeitswert 1 3 ) . Die Summe der verschiedenen Kernkonstituenten beträgt 6036 Wörter; 1143 Substantive (7179 minus 6036) 11) Ebenso wie beim Set VI ist aus den restlichen neuen Wörtern aus dem Set IX kein Set X gebildet worden, sondern die Substantive sind im Set IX enthalten. 12) Vgl. S. 61 dieser Arbeit. 13) Im weiteren H-Wert.

61

Tabelle 13:

Countverteilung der Substantive zum Merkmal 'H u f i g k e i t '

Xi

1 2 3 4 5 6 7 θ 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

y

χι *y

Xi

y

Xi*y

3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4

3671 2128 1290 996 640 612 525 456 423 310 165 252 234 140 90 128 204 54 114 220 105 132 23 24 50 78 108 28 116

30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261

3 3 1 2 3 1 1 4 1 3 1 1 1 1 2 3 2 1 1 1 1 1 1 1 1 1 1 1 1

90 93 32 70 108 37 39 160 43 132 45 47 48 49 106 162 110 65 68 76 84 85 100 115 143 144 145 229 261

Σ

6036

16202

Erl uterungen zu Tab. 13: Xi = H-Wert y = Counts der Erkl rungsw rter pro H-Wert X i * y = Produkt aus Η-Wert und Count.

3000

-

2000

-

1000

-

500 -

100 20

Abb. 3:

40

60

80

100

120

140

Graphische Darstellung zur Verteilung der Häufigkeiten a l l e r untersuchten Substantive (ohne Extremwerte auf der x-Achse, = Häufigkeit, y = Counts der Substantive)

63

treten nur als Lemma aber nie als Kernkonstituente auf und besitzen den -Wert ' N u l l 1 . Den höchsten -Wert hat das Wort " T e i l " , welches insgesamt 261mal als Kernkonstituente fungiert. Insgesamt sind zu den untersuchten Lemmata 16202 Erklärungswörter ermittelt worden. Diese Zahl kann man anhand der Tabelle 13 durch Bildung der Summe a l l e r Werte der Spalte x i * y e r r e c h n e n . 1 4 ' Es existieren wenige Wörter, die sehr häufig als Kernkonstituente fungieren und v i e l e Wörter, die nur ein- oder zweimal auftreten. Die Daten der Tabelle 13 sind in der Abbildung 3 i s ) dargestellt und verdeutlichen diesen Zusammenhang auf graphische Weise. 14) V g l . S. 61 dieser Arbeit. 15) V g l . S. 62 dieser Arbeit.

5.

Die Bestimmung der Polysemie der Substantive (V 3)

Die Bestimmung von Mehrdeutigkeiten spielt u.a.

in der Lexiko-

logie und der Semantik, bei der Erstellung von Dokumentationssystemen sowie in der KI-Forschung eine wichtige R o l l e . Bei Wortschatzuntersuchungen und bei der Konstruktion semantischer NetzStrukturen mit H i l f e eines Wörterbuchs können durch die Erfassung der Polysemie der Lexeme die Verknüpfungen der Wörter untereinander eruiert werden. Jedoch liefern die theoretischen Ansätze aus der Lexikologie b z w . der Semantik nicht immer eindeutige Modelle zur Durchführung der Polysemiebestimmung. Aus der kritischen Betrachtung dieser Konzepte soll eine Polysemiedefinition entwickelt werden, die durch eindeutige und intersubjektiv überprüfbare Kriterien gekennzeichnet ist.

5.l

Traditionelle Ansätze zur Polysemie

Betrachtet man die wissenschaftliche Literatur zum Thema Polys e m i e , ! ) so stellt man fest, daß die Resultate und die Untersuchungsmethoden häufig von den subjektiven Entscheidungen und Intuitionen der Untersuchenden beeinflußt sind. Insbesondere zu einer klaren Differenzierung von Polysemie und Homonymie herrscht weitgehende U n e i n i g k e i t . 2 > Da im bisherigen Ver1) V g l . u.a. Bergmann 1973 und 1977, Blanke 1973, Fries 1980, Gipper 1971, Heger 1963 und 1969, Henne 1972 und 1977, Horlitz 1975, Kühn 1979, Lyons 1977, Martin 1974, Muller 1972, Pinkai 19 5, Schildt 1969, Schippan 19 4, Schneider 1988, Spillner 1971, Ullmann 1973, Viehweger 1977, Weber 1974, Wersig 1978, Wichter 1988, Wiegand 1970, Wotjak 1971. 2) V g l . Wichter 1988, S. 14 ff.

65

lauf der Untersuchungen stets mit dem Begriff 'Polysemie 1 gearbeitet worden ist, muß zunächst geklärt werden, welcher Terminus für die geplanten empirischen Datenanalysen geeignet ist.3)

5.1.1

Polysemie oder Homonymie ?

Wenn die Termini 'Polysemie' und 'Homonymie 1 tatsächlich etwas Verschiedenes bezeichnen, so s o l l t e es möglich sein, diese Unterschiede definitorisch zu verankern. Unbefriedigend sind Differenzierungsversuche, in denen Äußerungen, wie "subjektive Faktoren sind dabei wohl nicht ganz auszuschließen, ( . . . ) " * > a l s Lösungshilfen akzeptiert werden. Auch ULLMANNS Feststellung, die "Entscheidung (zwischen Homonymie und Polysemie) ist immer subjektiv und in gewissem Maße w i l l k ü r l i c h " , s t ist unter den wissenschaftlichen Kriterien, die für diese Arbeit maßgebend sein s o l l e n , unbrauchbar. Ein Rückgriff auf das j e w e i l i g e Bewußtsein des Sprechers bzw. Untersuchenden erscheint für wissenschaftliche Arbeiten untauglich zu sein, insbesondere, wenn damit auch noch ein Objektivitätsanspruch der erzielten Ergebnisse verbunden w i r d . * · ) Nimmt man syntaktisch-morphologische Kriterien zu H i l f e , ? > so liegt Polysemie dort vor, "wo ein und derselbe Wortkörper zwei (oder mehr) verschiedene Bedeutungen, aber ein und dieselbe syntaktische Funktion h a t " . 8 > Entsprechend müssen bei Homonymie zu verschiedenen Bedeutungen unterschiedliche

3) Köhler wählt den Terminus "Polylexie" und unterscheidet nicht Polysemie und Homonymie, w e i l die Polylexie "nicht zwischen semantischen und grammatischen Bedeutungen differenzieren" s o l l ; vgl. Köhler 1986, S. 57 f. 4) Weber 1974, S. 23. 5) Ullmann 1973, S. 225. 6) V g l . Bergmann 1977, S. 35 f. 7) V g l . Schildt 1969, S. 352 ff. 8) Heger 1963, S. 484.

66

syntaktisch-morphologische Kriterien vorliegen. Jedoch führt diese Lösung des Problems nach BERGMANN nur zu einer Vermischung der Ebenen, so daß keine eindeutige Unterscheidung der beiden Termini m ö g l i c h ist oder erneut das Sprachbewußtsein des Einzelnen als Entscheidungsinstanz f u n g i e r t . 9 1 W i l l man Polysemie und Homonymie über semantische Merkmal s Zuordnungen d i f f e r e n z i e r e n , so ist beiden B e g r i f f e n gemeinsam, daß "ein Signifikat als disjunktive Kombination aus zwei oder mehreren Sememen darstellbar ist". Polysemie liegt vor, "wenn die Sememe eines Signifikats untereinander mindestens ein gemeinsames Sem aufweisen", Homonymie, wenn kein ge meinsames Sem auffindbar i s t . 1 0 ) In kritischer Auseinandersetzung mit HEGER (vor a l l e m bei WIEGAND) und mit Rückgriff auf die sprachtheoretische Zeichen auffassung nach HJELMSLEV n > definieren HENNE bzw. WIEGAND Polysemie und Homonymie. Nach HENNE liegt Polysemie vor, wenn "zwei disjunktive Substanzkollektionen" eines Signifikats "zu mindest ein gemeinsames semantisches Merkmal haben", Homonym i e , wenn "kein gemeinsames semantisches Merkmal" v o r l i e g t . 1 2 ) I n h a l t l i c h gleich, aber mit anderer Terminologie niert WIEGAND:

13

' defi-

"Polysemie liegt vor, wenn autonom-semasiologisch nachgewiesen werden kann, daß die Semasem-Sem-Summe eines lexikalischen Signems i n n e r h a l b nur e i n e s S p r a c h s y s t e m s darstellbar i s t a l s disjunktive Kombination aus zwei oder mehreren SemasemSem-Kollektionen."' i * >

9) V g l . Bergmann 1977, S. 58. 10) V g l . Heger 1969, S. 176 ff. 11) H j e l m s l e v 1963. 12) V g l . Henne 1972, S. 159 f. 13) Zu den terminologischen Konventionen bei Henne und Wiegand vgl. Wiegand 1970, S. 359 f . , Anm. 72. 14) Wiegand 1970, S. 318 (Hervorhebungen im O r i g i n a l ) .

67

"Systemimmanente Homonymie liegt vor, wenn autonomsemasiologisch nachgewiesen werden kann, daß die Semsumme eines lexikalischen Signems innerhalb nur ein und desselben Sprachsystems darstellbar ist als eine disjunktive Kombination aus mindestens zwei autonomen Semkollektionen." i s >

Vor a l l e m für die theoretische Fundierung der Lexikologie (und besonders für Semasiologie und Onomasiologie) sind WIEGANDS D e f i n i t i o n e n von grundlegender Bedeutung, in der Praxis werfen sie jedoch einige Probleme a u f . Homonymie laßt sich nämlich immer nur vorläufig bestimmen, weil eine semantische Analyse unendlich lange fortgesetzt werden kann, bis das Finden eines gemeinsamen Sems tatsächlich ausgeschlossen ist. WIEGANDS Auffassung, es müßte "in der Lexikologie möglich sein, ( . . . ) einen exhaustiven Semkatalog auf zustel len" , i < > ' kann nicht zugestimmt werden. Anhand sehr allgemeiner Merkmale ( z . B . "belebt") lassen sich immer - wenn auch triviale - Übereinstimmungen e r u i e r e n , 1 7 1 so daß Homonymie praktisch nie vorkommen würde. Eine Abgrenzung der gültigen von den zu allgemeinen Merkmalen würde von den subjektiven Entscheidungen des Untersuchenden abhängen. Ebenso wie zu den theoretischen Betrachtungen kann man bei einem Vergleich verschiedener Wörterbücher feststellen, daß in der lexikographischen Praxis keine e i n h e i t l i c h e Homonymiebestimmung e x i s t i e r t . 1 8 » Die Resultate haben BERGMANN veranlaßt, Homonymie und Polysemie "als korrespondierende Betrachtung des einen Phänomens sprachlicher Mehrdeutigkeit" ? > zu 15) Wiegand 1970, S. 326 (Hervorhebungen im O r i g i n a l ) . 16) Wiegand 1970, S. 291, formuliert als Arbeitshypothese; vorher heißt es jedoch: "In der Lexikologie läßt sich (...) e i n exhaustiver Katalog a l l e r Seme, ( . . . ) nicht a u f s t e l l e n , . . . ( ; Wiegand 1970, S. 2 f. 17) V g l . Weber 1974, S. 23 f. 18) V g l . Bergmann 1973, S. 22 ff. 19) Bergmann 1977, S. 60.

6

bezeichnen. Erst das Beziehen auf Ausdruck und Inhalt des sprachlichen Zeichens und die semasiologische (vom Ausdruck zum Inhalt gerichtete) und onomasiologische (vom Inhalt zum Ausdruck gerichtete) Betrachtungsweise ermöglichen eine eindeutige U n t e r s c h e i d u n g . 2 0 » Somit ist von Polysemie zu sprechen, wenn einem Ausdruck mehrere Inhalte zugeordnet werden können, und von Homonymie, wenn für mehrere Inhalte ein Ausdruck ausgewählt wird. Bei diachronen Sprachbetrachtungen können etymologische Gesichtspunkte (Lautentwicklung, Bedeutungsentwicklung) zu H i l f e genommen w e r d e n . 2 1 » Alphabetische, von einem semasiologischen Ansatz ausgehende einsprachige Bedeutungswörterbücher sortieren die lexikalischen Einheiten nach den Merkmalen der A u s d r u c k s s e i t e . 2 2 ) Den Signifikanten werden verschiedene Signifikate zugeordnet, so daß ausschließlich Polysemie v o r l i e g t . 2 3 ) Für die hier intendierte Untersuchung zur Mehrdeutigkeit der Substantive kommt somit nur der Terminus ' P o l y s e m i e ' zur Anwendung, weil es sich um eine synchrone Sprachbetrachtung h a n d e l t , 2 4 ) die benutzte Datenbasis ein semasiologisch aufgebautes einsprachiges Bedeutungswörterbuch und der jeweilige Lexikoneintrag Ausgangspunkt der Analysen i s t . 2 5 ' Die Lemmata der Datenbasis entsprechen den Signifikanten, die Bedeutungserklärungen den Signifikaten. 20) 21) 22) 23) 24) 25)

V g l . Bergmann 1977, S. 60. V g l . Bergmann 1977, S. 34. V g l . Schaeder 1981, S. 97. V g l . Bergmann 1977, S. 5 . V g l . Fries I960, S. 60. Damit kommt auch der Terminus "Multisemie" (vgl. Henne 1972, S. 161 f . ) für die weiteren Untersuchungen nicht in Betracht. Die von Wichter aufgestellten Abgrenzungskriterien zur Differenzierung von Vagheit, Polysemie und Homonymie ( v g l . Wichter 1988, S. 97 f.) werden unter einer anderen Zielperspektive erstellt und sollen im weiteren Verlauf dieser Arbeit nicht zugrunde gelegt werden.

69

Auf diese Weise ist zwar zwischen den konkurrierenden Termini eine Entscheidung getroffen worden, aber es liegt noch keine für empirische Erhebungen operationalisierte Polysemiedefinition vor.

5.1.2

Die Definition der Polysemie

SCHNEIDER hält eine Ermittlung der BedeutungsStruktur ohne eine kontextsensitive Selektion nicht für möglich 2 > und weist auch auf die Abhängigkeit vom gewühlten Wörterbuch hin, die bei einer wörterbuchinternen Polysemiebestimmung existiert. 2 7 ; Jedoch hängt die Methode der Polysemieermittlung immer von den gesetzten Zielsetzungen der jeweiligen Untersuchung ab. Innerhalb der vorliegenden Arbeit konnte bislang nicht einmal eindeutig geklärt werden, wie in einer Wortschatzuntersuchung mit einem einzigen Wörterbuch als Datenbasis die verschiedenen Bedeutungen eines Lemmas erkannt und evaluiert werden können. Da das hier untersuchte Corpus nur aus Substantiven besteht, spielen syntaktisch-morphologische Kriterien bei der Polysemiebestimmung keine R o l l e . Analog den Aussagen BERGMANNS im Kapitel 5.1.1 bezeichnet dieser Polysemie als die "Relation von Pluralität der Inhalte und Identität des Ausdrucks unter synchronem semasiologischen Aspekt; ( . . . ) " 2 > .

26) V g l . Schneider 19 8, S. 83 ff. 27) V g l . Schneider 1988, S. 26. 28) Bergmann 1977, S. 53.

70

Ä h n l i c h schreibt WOTJAK: "Bei der Untersuchung der Polysemie gilt es, von einem Formativ ausgehend nach den ihm zugeordneten Sememen zu suchen." 2 " >

Ein Beispiel dazu ergibt das Wort "Post", dem die drei Sememe "Gebäude", "Institution" und "Briefschaff zugeordnet werden. Dieser D e f i n i t i o n würde in dieser Arbeit die Bestimmung der Kernkonstituenten zu den Lemmata entsprechen. Undeutlich blei ben jedoch die Kriterien, die die Pluralität der Inhalte als solche kennzeichnen. Für quantitative Untersuchungen muß ein eindeutig nachvollziehbares Desambiguierungsverfahren der polysemen Lexikoneinträge konzipiert werden. Da sich dies aus den vorgelegten Polysemiedefinitionen nicht ableiten läßt, s o l l untersucht werden, ob das DUDUNI praktikable K o d i f i z i e rungsprinzipien zur Polysemie enthält.

5.1.3

Die lexikographische Polysemiedarstellung

In den Hinweisen zum Artikelaufbau des untersuchten Wörterbuchs heißt es, daß die Bedeutungsangaben "mit arabischen Zahlen und (bei enger zusammengehörenden Bedeutungen) mit K l e i n buchstaben gegliedert" w e r d e n . 3 1 » Nähere Erläuterungen zur Kennzeichnung der Polysemie oder zu den sprachtheoretischen Voraussetzungen der Notierung von Polysemie existieren aus der Sicht des Wörterbuchbenutzers n i c h t . 3 2 ) Daher soll eine Analyse der G liederungsStrukturen an ausgewählten Wörterbuch29) Wotjak 1971, S. 40.

30) V g l . Wotjak 1971, S. 171. 31) V g l . DUDUNI 1983, S. 17. 32) V g l . Bergenholtz/Mugdan 19 6. S. 84 f f .

71

artikeln angelegt werden. Folgende Erklärungstypen sind für die weiteren Untersuchungen relevant: (1) Bedeutungserklärungen, die nur mit arabischen Zahlen gegliedert sind. Beispiel:

S. 453

GARAGE : 1. Raum zum Einstellen von Kraftfahrzeugen.

2. Autowerkstatt.

Das Lemma "Garage" ist zweifach polysem. W i l l man die Kernkonstituenten i s o l i e r e n , so erhält man mit H i l f e des Substitutionstestes "Raum" und "Autowerkstatt" als Erklärungswörter. (2) Bedeutungserklärungen, die nur mit Kleinbuchstaben gegliedert sind. Beispiel: S. 438

FRIST : a) für einen bestimmten Zweck festgelegte Zeitspanne; b) begrenzter Aufschub; c) [festgesetzter] Zeitpunkt.

Mit der beim Typ (1) angewendeten Methode kommt man auch hier zu eindeutigen Resultaten, nämlich zu "Zeitspanne", "Aufschub" und "Zeitpunkt" als Erklärungswörter für "Frist". (3) Bedeutungserklärungen, die Z i f f e r n und Kleinbuchstaben enthalten.

72

Beispiel:

S. 489

GESPANN : l . a ) vor einem Wagen o.a. gespannte Zugtiere; b) Vagen mit einem Gespann; 2. zwei auf bestimmte Weise zusammengehörende Menschen.

Hier kann m a n n u r nach Z i f f e r n oder nach Z i f f e r n u n d Kleinbuchstaben d i f f e r e n z i e r e n . Je nach Entscheidung wären zwei oder drei Inhalte für den Ausdruck "Gespann" anzusetzen. Benutzt man nur die Z i f f e r n , müßte noch ein Kriterium gefunden werden, ob l . a ) oder l . b ) als Inhalt für "Gespann" zu gelten haben. W i l l man den Typ (3) von den beiden ersten unterscheiden, so müßten die Bedeutungen l . a ) und l . b ) in anderer Weise als Inhalte berücksichtigt werden als die Bedeutung unter Punkt 2. (4) Bedeutungserklärungen, in denen sich unter einer Z i f f e r mehrere Erklärungswörter ermitteln lassen. Beispiel: S. 922

PAPIER : 1. . . . 2. Schriftstück, Aufzeichnung, schriftlich niedergelegter Entwurf, Brief, Aufsatz, Vertrag o.a. 3

Das Wörterbuch enthält keine Informationen, warum unter dem Punkt 2. sechs Erklärungswörter ohne Untergliederung aufgezählt sind. Auch können "Schriftstück", "Aufzeichnung", "Entw u r f " , "Brief", "Aufsatz" und "Vertrag" kaum als Synonyme angesehen werden.a 3 ) 33) Darüber kann das eigene Sprachbewußtsein entscheiden; man kann aber auch die Bedeutungserklärungen zu diesen Wörtern im DUDUNI nachschlagen, um die unterschiedlichen Seme zu belegen.

73

Um den Inhalt des Gliederungspunktes 2. eindeutig zu erfassen, wäre auch die Wahl des j e w e i l s ersten Erklärungswortes (hier "Schriftstück") a l s Repräsentant für die folgenden Wörter denkbar. Dieses Verfahren wäre s i n n v o l l , wenn die Reihenfolge der Erklärungswörter irgendeinem Prinzip ( z . B . Häufigkeit des Auftretens) unterliegen würde. Dies ist aber o f f e n s i c h t l i c h weder im DUDUNI 3 4 > noch in anderen Wörterbüchern der F a l l . 3 5 ' Zu bedenken ist ferner, daß durch derartige Prozeduren die für den Benutzer deutlich erkennbare Polysemie des Lemmas "Papier" unter Punkt 2. unzulässigerweise eingeschränkt werden würde. (5) Bedeutungserklärungen, in denen unter einem K l e i n buchstaben mehrere Erklärungswörter sortiert sind. Beispiel: S. 524

GUCKER : a) kleines Fernglas, Vergrößerungsgerät; Operngucker; b) jmd., der aufdringlich od. neugierig jmdn. od. etw. betrachtet; c) Augen.

Bei der Analyse dieses Wörterbuchartikels gelangt man zu den gleichen Resultaten wie zum Typ ( 4 ) , nur daß in diesem Fall verschiedene Inhalte bei einem Kleinbuchstaben subsumiert sind. Ein "Fernglas", ein "Vergrößerungsgerät" und ein "Operngucker" bedeuten zwar etwas Ä h n l i c h e s , können aber keineswegs als Synonyme gewertet werden.

34) Zum Lemma " K e i m z e l l e " lautet die R e i h e n f o l g e der Erklärungswörter im DUDUNI: "Gamet", "Ausgangspunkt", "Anfang". Zum Lemma " T e i l " v g l . Kap. 7 . 5 . 1 dieser Arbeit. 35) V g l . Wiegand/Kucera 1981, S. 172.

74

(6) Bedeutungserklärungen, die nicht mit Z i f f e r n oder Buchstaben gegliedert sind, die aber mehrere Erklärungswörter enthalten. Beispiel: S. 796

LOOK : Aussehen, Note, Moderichtung, Mode[erscheinung].

Zu dem Lemma "Look" lassen sich bei Berücksichtigung der eckigen Klammern fünf Erklärungswörter ermitteln, die von lexikographischer Seite nicht d i f f e r e n z i e r t s i n d . 3 f c > Vergleicht man den Typ (6) mit den Typen (1) und ( 2 ) , so ist unklar, warum die Bedeutungen zu "Look" nicht mit Z i f f e r n oder Kleinbuchstaben gegliedert werden. Wie in den Beispielen (4) und (5) kann auch beim Typ (6) nicht von einer Monosemie des Lemmas ausgegangen und keinem der aufgeführten Kernkonstituenten der Vorrang gegeben werden. (7) Bedeutungserklärungen, in denen die Typen (1) bis (6) wechselnd vorkommen. Beispiel: S. 894

NOTATION

: 1. Aufzeichnung; System von Zeichen od. Symbolen einer Metasprache. 2 . a ) das Aufzeichnen von Musik in Notenschrift; b) Notenschrift. 3. Aufzeichnung der einzelnen Züge einer Schachpartie.

Versucht man bei diesem Typ die Gliederungsprinzipien des DUDUNI zu H i l f e zu nehmen, so erhält man unter Punkt 1. zwei Kernkonstituenten ("Aufzeichnung", "System"), unter 2 . a ) eine 36) V g l . Schierholz

1988, S. 468 f.

75

Erklärung ("das A u f z e i c h n e n " ) , unter 2 . b ) einen Inhalt ("Not e n s c h r i f t " ) und unter 3. ein Erklärungswort ( " A u f z e i c h n u n g " ) . Bei "das Aufzeichnen" und "Aufzeichnung" handelt es sich um Synonyme, so daß eine ausschließlich nach Z i f f e r n durchgeführte Desambiguierung dreimal die gleichen Kernkonstituenten ergäbe und die Berücksichtigung der Kleinbuchstaben mit "Notenschrift" ein weiteres Erklärungswort. Bei dem dreifachen Auftreten von "Aufzeichnung" muß überlegt werden, ob "Aufzeichnung" dreimal oder nur einmal gezählt werden s o l l . Bei Zugrundelegung der Gliederungen im DUDUNI hätte "System" keine Möglichkeit, als Signifikant für "Notation" zu erscheinen. Die Analysen der ausgewählten Beispiele zeigen, daß die Gliederungspunkte des Wörterbuchs für die Polysemiebestimmung ungeeignet sind, w e i l für den Benutzer kein eindeutig ersichtliches Prinzip erkennbar ist, wann mehrere Bedeutungen hinter einer Gliederungszahl stehen, wann gar keine Gliederungszahl verwendet wird oder nach welchen Kriterien die Benutzung der Kleinbuchstaben e r f o l g t . a ? >

5.2

Die Vorgehensweise in V 3

Die Analyse der aufgeführten Polysemiedefinitionen und der ausgewählten Wörterbuchartikel hat keine Klärung ergeben, wie sich die Polysemie der lexematischen Einheiten eindeutig operationalisieren läßt. 37) Dies gilt auch für andere Wörterbücher, z . B . das "dtvWörterbuch der deutschen Sprache" (Wahrig 1981). Altmann/Beöthy/Best berücksichtigen dies allerdings bei ihrer Bestimmungsmethode - das Zählen der Gliederungspunkte einer Bedeutungserklärung im Wörterbuch - der "Bedeutungskomplexität" nicht; v g l . Altmann/Beöthy/Best 1982. Köhler ist sich der Problematik dieser Bestinunungsmethode bewußt, entwickelt jedoch kein neues Verfahren; vgl. Köhler 1986, S. 91 f.

76

G r e i f t man auf das Verfahren der Kernkonstituentenermittlung z u r ü c k , 3 6 ' so läßt sich unter Benutzung des Substitutionstestes eine intersubjektiv nachvollziehbare Verfahrensweise zur Polysemiebestimmung konzipieren. Die D e f i n i t i o n von Polysemie lautet: Die Polysemie eines Substantivs aus dem Master Corpus ergibt sich durch die Bestimmung der Kernkonstituenten pro Lemma. Es wird zu jedem im Master Corpus implementierten Substantiv ein Polysemiewert 3 > ermittelt. Die in Kapitel 2 aufgeführten definitorischen Abgrenzungen * o > gelten für V 3 ebenso, jedoch sind einige Ergänzungen notwendig.

5.2.1

G l e i c h e Kernkonstituenten

Kernkonstituenten, die in einer Bedeutungserklärung mehrfach vorkommen, werden nur einmal gezählt. Beispiel: S. 894

NOTATION : 1. Aufzeichnung; System von Zeichen od. Symbolen einer Metasprache. 2.a) das Aufzeichnen von Musik in Notenschrift; b) Notenschrift. 3. Aufzeichnung der einzelnen Züge einer Schachpartie.

"Notation" ist dreifach polysem, w e i l sich drei verschiedene Kernkonstituenten mit dem Substitutionstest ermitteln lassen. 38) V g l . Kap. 2.2 dieser Arbeit. 39) Im weiteren P-Wert. 40) V g l . S. 10 ff. dieser Arbeit.

77

5.2.2

Ersatzkernkonstituenten

Die Ersatzkernkonstituenten werden ebenfalls als eine Bedeutung für das betroffene Lemma gewertet. Beispiel: S. 762

LANDWIRT : jmd,, der selbständig Landwirtschaft, Ackerbau u. Viehhaltung betreibt, einen landwirtschaftlichen Betrieb führt, leitet, verwaltet; Bauer.

"Landwirt" erhält den P-Wert ' Z w e i ' .

5.3

Die Darstellung der Ergebnisse aus V 3

Die Resultate der Polysemiebestimmung sind der Tabelle 14 4 1 ) zu entnehmen, und die Abbildung 4 4 2 ) zeigt die dazugehörige graphische Darstellung. In der Spalte xi der Tabelle stehen die P-Werte, in der Spalte y die Counts pro P - W e r t . 4 3 > Die Summe der Counts ergibt die Anzahl a l l e r verschiedenen untersuchten Substantive (7179). In der Spalte X i * y sind die PWerte mit ihren Counts m u l t i p l i z i e r t , so daB die Summe aller Erklärungswörter 16202 und die Gesamtsumme a l l e r implementierten Wörter 233 1 (16202 plus 7179) beträgt. Das Lexem mit der umfangreichsten Polysemie ist "Zug", welches einem P-Wert von '29' besitzt. Die 1260 Substantive mit dem P-Wert ' N u l l 1 tei41) V g l . S. 79 dieser Arbeit. 42) V g l . S. 80 dieser Arbeit. 43) Die Häufigkeiten zur Variablen 'Polysemie' werden ebenf a l l s Counts genannt, um eine einheitliche Terminologie zu verwenden; vgl. S. 55 dieser Arbeit.

78

len sich auf in 577 Wörter * * > , die keine verwertbare Bedeutungserklärung haben, 4 5 ' und 683 Wörter ««· ; , die im DUDUNI nicht lemmatisiert sind, sich aber durch die sukzessive Ermittlung der Lemmata 4 7 ' des Master Corpus ergeben h a b e n . 4 8 1 Das Verhältnis der Kernkonstituenten zu den Lemmata beträgt 16202 71?9

= 2.2568602

Betrachtet man nur die im DUDUNI enthaltenen Lemmata des Master Corpus, so müssen die NA-Lemmata (683) von den 7179 Substantiven subtrahiert werden. Somit erhält man

16202 -6496

=

2.4941502

Dies ist der durchschnittliche P-Wert der Lemmata im DUDUNI; pro Lemma lassen sich statistisch 2.5 Erklärungswörter ermitteln. 44) Diese Lemmata mit keinem Eintrag heißen im weiteren KE-Lemmata. 45) Hierbei handelt es sich im wesentlichen um Lemmata, in deren Bedeutungserläuterung keine kursiv gedruckten Erklärungen enthalten sind ( z . B . "Teilbereich") oder deren kursiv gedruckte Bedeutungserklärung als substantiviertes Verb zum Lemma eine zirkuläre Erklärung darstellt ( z . B . "Atmung: das A t m e n " ) . 46) Diese Substantive, die nicht auffindbar sind (Lemmal ü c k e n ) , heißen im weiteren NA-Lemmata. 47) Zur Vorgehensweise v g l . Kap. 4.2 dieser Arbeit. 48) Natürlich haben diese Wörter auch eine Bedeutung. Sie s o l l e n jedoch bei den nachfolgenden Berechnungen unter dem P-Wert ' N u l l 1 verbleiben.

79

Tabelle 14:

Countverteilung der Substantive nach P-Werten

Xi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29

y

Xi *y

1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 1 1 1

0 2602 2442 2076 1648 1470 1254 1008 752 630 410 418 300 234 238 165 176 136 54 57 60 21 22 29

7179

16202

Erläuterungen zu Tab. 14: Xi = P-Werte y = Counts pro P-Wert X i * y = Produkt aus P-Wert und Count.

2500-

2000.

1500

1000 .

500

100 .

ΙΙ.ίι.π.π.π.π.π.

Γι—Ι—ι—Ι—'—Ι—Ι—ι—ι—ι—ι—Ι—ι—ι—Ι—Ι' Ί"ι"ι'"Ί'"Ί'

Ο

2

4

6

β

10

12

14

16

It

20

22

29

Abb. 4: Stabdiagramm zur Verteilung der P-Werte aller untersuchten Substantive (y = Counts) (Darstellung wie bei Biehler 1982, S. 113).

6.

Die Überprüfung der Arbeitshypothesen

D i e formulierten Arbeitshypothesen i > sollen überprüft werden, indem die empirischen Zusammenhänge zwischen den Merkmalen Abstraktheit - Häufigkeit, Abstraktheit - Polysemie und Häufigkeit - Polysemie durch die Ermittlung des j e w e i l i g e n Korrelationskoeffizienten evaluiert werden. Zuvor ist es jedoch notwendig, die Strukturen, Eigenschaften und A u f f ä l l i g k e i t e n der ermittelten Verteilungsdaten zu beschreiben. Dazu können besonders die Mittel und Werkzeuge der explorativen Datenanalyse z > , w i e s i e v o n John W . TUKEY 3 ) maßgeblich entwickelt worden ist, wertvolle H i l f e s t e l l u n g e n l i e f e r n . Durch den mehrfachen Einsatz der vor a l l e m graphischen Darstellungen, die didaktische Vorteile gegenüber den numerisch-algebraischen Verfahren enthalten, können über die Deskription der Daten hinaus Analysen und theoretisch-inhaltliche Erklärungen zu den Ergebnissen gegeben werden. Die Techniken und Methoden der EDA sind mathematisch e i n f a c h und stellen ein mächtiges Instrumentarium zur Stützung der Struktureinsichten d a r . « > Somit ist die EDA nicht nur eine gute Ergänzung zu den Verfahren der beurteilenden oder schließenden S t a t i s t i k , s » sondern es wird mit H i l f e der EDA häufig überhaupt erst beurteilbar, ob die Voraussetzungen für die Applikation i n f e r e n t i e l l e r Verfahren gegeben s i n d . & 1) 2) 3) 4) 5) 6)

V g l . Kap. l dieser Arbeit. Im weiteren EDA. Tukey 1977. V g l . Oldenbürger 1986, S. 59 f. V g l . Biehler 1982, S. 4 ff. V g l . Oldenbürger 1986, S. 12.

82

6.l

Die Deskription der Daten

Es liegen insgesamt 7179 verschiedene Substantive mit 59 unterschiedlichen -Werten zwischen ' N u l l ' und '261' ? > und 24 unterschiedlichen P-Werten zwischen ' N u l l 1 und ' 2 9 ' 8 ' vor. Zu 2724 Substantiven sind außerdem 243 verschiedene A-Werte zwischen .07 1 und ' 8 3 . 4 0 2 ' ermittelt worden. 1 » 4455 Substantive besitzen keinen -Wert, w e i l sie erst im Anschluß an die Bestimmung der -Werte in das Master Corpus aufgenommen worden sind. Betrachtet man die Verteilungen der Rohdaten, so f a l l t auf, daß die kleinen Werte ( z . B . Häufigkeit = 1; Polysemie = 1) oft und die hohen Werte ( z . B . Häufigkeit ab 50; Polysemie ab 10) nur selten belegt sind. Würde man - wie in vielen Untersuchungen üblich - zunächst a l l e Werte rangieren, um den Spearmanschen Rangkorrelationskoeffizienten zu berechnen, > so ergäbe das für die vorliegenden Verteilungen ein verzerrtes B i l d , weil die Abstände zwischen den höchsten Werten zusammengestaucht werden, während die Abstände zwischen den unteren Werten zu sehr großen Rangdistanzen führen. So stünden beim Attribut 'Häufigkeit 1 die drei höchsten Werte (261, 229, 145) auf den Rängen Eins, Zwei und Drei, und die niedrigsten Werte Drei, Zwei und Eins auf den Rangplätzen 1087.5, 1834.5 und 4201.5. Der Abstand zwischen ' 2 6 l 1 und ' 2 2 9 ' würde auf Eins reduziert, die Distanz zwischen der Häufigkeit Eins und Zwei 2367 betragen. Eine Rangierung wäre somit eine für die folgenden Datenanalysen verfälschende Transformation der 7) V g l . Tab. 13, S. 67 dieser Arbeit. 8) V g l . Tab. 14, S. 85 dieser Arbeit. 9) V g l . Tab. A2 im Anhang. 10) Zur Verwendung dieses K o e f f i z i e n t e n in der Linguistik v g l . M u l l e r 1972, S. 144 ff.

83

Originaldaten. Deshalb wird im weiteren Verlauf der Berechnun gen auf Rangierungen verzichtet. über die numerischen Eigenschaften der Verteilungen kann man sich einen zusammenfassenden Überblick durch die Anfertigung eines fenced letter displays : 1 1 (Standardzusammenfassung 1 2 ) verschaffen, in dem bestimmte Strukturmerkmale einer Verteilung enthalten sind und das folgendermaßen zustandekommt: Listet man für je ein Merkmal a l l e Daten einer Distribution nach ihrer Größe auf, so erhält man bei einer Durchnumerierung d i e A n z a h l d e r u n t e r s u c h t e n E i n h e i t e n . D e r M e d i ä n befindet sich genau i n der Mitte dieser Liste, d . h . er ist "derjenige Wert einer Zufallsveränderlichen X, bis zu dem sich 'von unten' b z w . 'von oben' 50 % a l l e r Werte einer Verteilung aufkumuliert ( s i e ! ) haben. Es liegen also ' l i n k s 1 und 'rechts' vom Mediän j e w e i l s 50 % a l l e r Werte einer Häufigkeits- b z w . Wahrscheinlichkeits-verteilung." 1 3 ) D i e T i e f e d e r Verteilung ermittelt man, indem von beiden Extremwerten aus j e w e i l s bis zum Mediän a l l e Werte durchnumeriert werden, so daß das k l e i n s t e u n d d a s g r ö ß t e D a t u m d i e Tiefe l besitzen. Für die Tiefe des Medians d ( M ) g i l t bei einem Datensatz des Umfangs n:

«· \ d /(M) =

n+1

*

14

"Für ein gerades n = 2k wird als Mediän das arithmetische Mittel der beiden Werte mit der Tiefe k genommen." 1 5 '

11) 12) 13) 14)

V g l . Tukey 1977, S. 44 f. V g l . Biehler 1982, S. 47 f. Sievers 1987, S. 101. Biehler 1982, S. 43.

15) Biehler 1982,

S.44.

84

D i e Quart!1e

& > , H u u n d H 0 / s t e l l e n j e w e i l s den Punkt d e r

Tiefe dar, der genau in der Mitte zwischen dem Mediän und den beiden Extremwerten liegt. Die beiden Quartile H u und H 0 lassen sich über die T i e f e d ( H ) folgendermaßen d e f i n i e r e n :

[d ( M ) ] + l d (H) =

17,

'

"Dabei bedeutet t ] die Gauß-Klammer. Bei Ergebnissen wie d ( H ) = 4 + 1/2, die im allgemeinen in der Form d ( H ) = 4h (h wie ' h a l f ' ) notiert werden, ist das arithmetische Mittel j e w e i l s der beiden benachbarten Werte mit den Tiefen 4 und 5 zu bilden." i e > Ein kleines h ( h a l f ) weist darauf h i n , daß ein Resultat (hier: die T i e f e ) nicht ganzzahlig i s t . i 9 ' Hinzugefügt werden die Streuungswerte und die wichtigsten Outlier 2 0 ) , welche folgendermaßen definiert sind. D i e H-Streuung (= S H ) ergibt sich aus der D i f f e r e n z von H 0 minus H u .

SH = Ho - Hu . 2 1 » Die Spanne Si errechnet sich aus der D i f f e r e n z der beiden Extremwerte. 16) Bei Tukey als "hinges" bezeichnet; vgl. Tukey 1977, S. 32 ff. 17) Biehler 1982, S. 44. 18) Biehler 1982, S. 44. 19) Das liegt immer dann vor, wenn ein ungerader Dividend durch den Faktor Zwei geteilt wird; v g l . Biehler 1982, S. 43 ff. 20) Als Outlier werden bei Tukey Ausreißer b z w . Extremwerte bezeichnet. 21) Biehler 1982, S. 46.

85

s i = oberer Extremwert - unterer Extremwert . 2 Die Berechnung der Outlier erfolgt nach einer Faustregel 2 3 1 , die bei TUKEY folgendermaßen definiert

ist:

"-spread' = d i f f e r e n c e between values of hinges. - 'step 1 = 1.5 times H-spread. - 'inner fences' are 1 step outside hinges. - Outer f e n c e s ' are 2 steps outside hinges (and thus 1 step outside of inner f e n c e s ) . - the value at each end closest to, but s t i l l inside, the inner fence is ' a d j a c e n t 1 . - values between an inner fence and its neighboring outer fence are ' o u t s i d e ' . - values beyond outer fences are ' f a r o u t 1 . " 2 * i Die inner fences s o l l e n mit f i und f j , die outer fences mit FI und F:, die adjacent values mit a d j , die outside values m i t o u t u n d d i e f a r o u t values m i t f a r abgekürzt werden, so daß das Schema einer Standardzusammenfassung folgendes Aussehen h a t : 2 5 ' #Anzahl der untersuchten Einheiten Wert MRang T HT i e f e h Hu Ho SH l ( = T i e f e ) Wert Wert S l step

22) 23) 24) 25)

f

fi

fz

F

Fl

F2

out

far out

Biehler 1982, S. 46. Biehler 1982, S. 47. Tukey 1977, S. 44. V g l . Bieler 1982, S. 48, v g l . Tukey 1977, S. 44 f.

adj: out: far:

86

Neben diesen semigraphischen Darstellungen können die Verteilungen auch in box plots (Kastenschaubilder) * b ' präsentiert werden. Der Kasten wird oben und unten durch die beiden Quartilswerte begrenzt und enthält 50 % aller Daten. Der Mediän wird durch einen langen Querstrich abgebildet, und die Abstände zu den adjacent values werden mit gestrichelten Linien kodiert. Die outside values und far out values werden unterschiedlich markiert. Der Vorteil der box plots besteht in der Projektion der numerischen Zusammenhänge auf geometrische Strecken, so daß Form, Lage, Streuung und Outlier der Verteilungen deutlicher zu erkennen s i n d . 2 7 1

6.1.1

Fenced letter displays

Zunächst werden die numerischen Eigenschaften der Resultate aus den Versuchen V l, V 2 und V 3 in den Displays vorgestellt. 2 8 )

Datensatz zu den A-Werten #2724 0. 07 M,1362h H

681

0 .07 0 .07

0 .16

0. 09

83 .402 83. 332

adj: 0.07, 0 . 2 9 2 out: 219 Werte von 0.2975 bis 0.425 far: 247 Werte ab 0.435.

0. 135

f

-0 .065

F

-0 .2

0 .295 out 219 0 .43 247 far out

26) V g l . Biehler 1982, S. 42 ff. 27) V g l . Kap. 6.1.2 dieser Arbeit. 28) Die Rohdaten können den Tabellen 13 und 14, S. 61 und 79 dieser Arbeit sowie A2 im Anhang entnommen werden.

87

Datensatz zu den H-Werten #7179

M, 3590 H 1795h

1

adj: 0, 3

1

2

1

0

261

261

1 f

-0.5

F

-2

out: 249 Werte mit 4 far: 494 Werte ab 6.

1.5 3.5 249 5 494

out far out

Datensatz zu den P-Werten #7179

M, 3590 H 1795h

1 1

3

2

0

29

29

adj: 0, 5 out: 238 Werte von 7 bis 8 far: 181 Werte ab 10,

3 f

-2

F

-5

6 238 9 181

out far out

Die Streuung der Werte ist

besonders zu den A- und H-Werten

sehr ausgeprägt. Bei a l l e n Verteilungen liegt das Zentrum im unteren Wertebereich, der Mediän entspricht in den Displays immer dem Wert des unteren Quartiis. Oberhalb des Medianwertes existieren w e s e n t l i c h mehr verschiedene Werte als unterhalb, da eine stark unsymmetrische Distribution

vor-

liegt. Die Schiefe der Verteilungen wird zusatzlich noch durch ein Übermaß an Outliern (outside und far out values) verdeutlicht, die sich ausschließlich oberhalb des Medians befinden; bei den den

-Werten sind es ca.

-Werten etwa 10 % und bei

17 % a l l e r Werte, bei

den P-Werten ungefähr 6 % .

8

6.1.2

Box plots

Durch die graphische Präsentation der Verteilungen können die numerischen Informationen aus den Displays noch deutlicher akzentuiert werden. Abb. 5: Box plot zu den A-Werten

0.9

2 0 . 9 ) . Die fehlenden Werte können der Tab. 2 im Anhang entnommen werden und gehören a l l e zu den far out values.

89

Abb. 6; Box plot zu den H-Werten

3 0

H 35

30

Erläuterungen zu Abb. 6; H = -Wert M = Median = Ho = adjacent = outside * = far out. 20

10

J±L

M

30) Abbildung ohne Extremwerte (> 3 5 ) . Die fehlenden Werte können der Tab. 13, S. 61 dieser Arbeit entnommen werden und gehören a l l e zu den far out values.

90

Abb. 7; Box plot zu den P-Werten

30

25

Erläuterungen zu Abb. 7: P M

20

*

= = = = = =

P-Wert Median Ho adjacent outside far out.

15

10

M

Wegen der groBen Entfernungen der far out values vom Zentrum mußten bei den A- und

-Werten in den obigen Darstellungen

die Extremwerte weggelassen werden. Der im Verhältnis zu den H- und P-Werten große Kasten im box plot der -Werte entsteht durch die veränderte Skaleneinteilung. Die 50 % der Werte, die durch den Kasten repräsentiert werden, sind sämtlich im unteren Bereich zu f i n d e n . Bei den

-Werten haben der Mediän,

91

der untere adjacent value und der H u -Wert den gleichen Wert ( ' 0 . 0 7 ' ) . In a l l e n Verteilungen dominieren die far out values, bei den -Werten konnten nicht einmal a l l e Werte innerhalb der Skalierung eingetragen werden. Die extreme Schiefe der Distributionen ist in der graphischen Darstellung eindeutig zu erkennen. Auch wenn die Verteilung der P-Werte im Verhältnis zu den anderen Verteilungen weniger unsymmetrisch zu sein scheint, liegt auch hier eine extreme Abweichung von normalverteilten Datensätzen vor.

6.1.3

Mediän und arithmetisches Mittel

Zusätzlich zu den Kenngrößen der EDA s o l l das

arithmetische

M i t t e l , das in der beurteilenden Statistik zu den wichtigen Parametern gehört, in die Datenanalyse einbezogen werden. Zu den vorliegenden Verteilungen ist vor a l l e m ein Vergleich mit dem Mediän von Interesse, w e i l beide Parameter in einer Gaußschen Normalvertei lung den g l e i c h e n Wert annehmen. In der Tabelle 15 ist zu erkennen, daß zwischen dem Mediän und dem arithmetischen Mittel große Differenzen bestehen. Diese spiegeln die Unsymmetrie der Verteilungen und den Einf l u ß der hohen Anzahl von Outliern wider. Hätte man a n s t e l l e des Medians in den fenced letter displays oder box plots das arithmetische Mittel verwendet, wäre durch die v i e l e n Extrem-

Tabelle 15:

Mediän, arithmetisches Mittel und Extremwerte zu den drei Datensätzen Mediän arithmetisches größter kleinster Mittel Count Count A-Werte H-Werte P-Werte

0.07 1.00 1.00

0.2762019 2.256 603 2.256 603

1366 3671 2602

0.07 1.00 1.00

92

werte oberhalb des Medians die Schiefe der Distributionen verschleiert worden. Für unsymmetrische Verteilungen besitzt also der Mediän eine größere R e s i s t e n z . 3 i · Die bisherigen Beschreibungen beziehen sich sämtlich auf die Distribution der Variablen, aber es liegen auch bei den Counts 3 2 ; erhebliche Streuungsbreiten der Daten vor, wie die Tabelle 15 zeigt. Diese Extremwerte sind aufgelistet worden, weil sie für die Berechnung der Korrelationskoeffizienten von großer Bedeutung sind.

6.2

Die Datentransformationen

Die umfangreiche Deskription der Verteilungen zeigt, daß eine Transformation der vorliegenden Daten notwendig ist.

Dafür

sprechen neben statistischen Gründen auch i n h a l t l i c h e und linguistische Argumente.

6.2.1

Die statistische Begründung

Die Berechnung eines Korrelationskoeffizienten erfolgt normalerweise mit der Erwartung, für die Interpretation einen Koe f f i z i e n t e n mit einem Wert zwischen -l und +1 zu erhalten. Dies ist jedoch nicht der F a l l , wenn in einer bivariaten Verteilung mindestens eine der Variablen nicht annähernd symmetrisch b z w . normalvertei1t ist, weil die Lage der Regressionsgeraden sehr stark von der Form der Randverteilungen abhängt bzw. der Körper der Daten im mittleren Bereich der Verteilungen durch die Regressionsgerade nur unzureichend repräsen31) V g l . Biehler 1982, S. 56 ff. 32) Der Terminus 'Counts' wird auch für die Häufigkeiten zur Variablen 'Abstraktheit' benutzt; v g l . S. 55 und 77 dieser Arbeit.

93

tiert werden würde. Diese Situation t r i f f t auf die vorliegenden unsymmetrischen Verteilungen zu. W i l l man dennoch den an NormalVerteilungen orientierten mathematisch-formalen Apparat benutzen, so ist eine Datentransformation geboten. Die Verwendung von Maßen, die konzeptuell der Theorie der Normalverteilung sehr nahe stehen, ist aus Gründen der Praktikabi l itat sinnvoll, w e i l man dadurch eine Grundlage erhalt, um Datensätze einfacher vergleichen und Abweichungen besser berechnen zu können. Zur Ermittlung der Korrelationskoeffizienten über eine lineare Regression muß eine numerische Datentransformation der Originalwerte durchgeführt werden, die das übermäßige Gewicht der Extremwerte r e d u z i e r t . 3 3 > Dies kann durch Logarithmierung, durch Bildung der Quadratwurzel- oder zweifachen Wurzelwerte zu den vorliegenden Daten e r f o l g e n . 3 4 ' Dadurch wird die übermäßige Schiefe der Verteilungen korrigiert, weil die Wurzelung bei hohen Werten eine größere Auswirkung hat. Es kommt zu einer Symmetrisierung der Distribution, so daß die Berechnung der Korrelationskoeffizienten eher ein Resultat innerhalb der erwarteten Grenzwerte ergeben wird. Im weiteren soll l e d i g l i c h die Transformation über die Wurzelung der Werte erfolgen. Innerhalb der EDA werden Datentransformationen häufig vorgenommen, insbesondere, weil die v i s u e l l e Inspektion der Daten und die Hervorhebung von Strukturmerkmalen der Verteilung dadurch verbessert w e r d e n . 3 5 >

6.2.2

Die inhaltliche Begründung

Betrachtet man die resultierenden Werte zur Variablen 'Polys e m i e 1 , so werden die Differenzen zwischen den P-Werten 33) V g l . 34) V g l . vgl. vgl.

Biehler 1982, S. 88 ff. Biehler 1982, S. 91 f f . , Tukey 1977, S. 69 f f . , Emerson/Stoto 1983, S. 109 ff.

35) V g l . Biehler 1982,

S. 102 f.

94

' E i n s 1 und ' Z w e i ' einerseits und den P-Werten ' N e u n ' und ' Z e h n ' andererseits als gleichbedeutend s k a l i e r t . 3 b > Es erscheinen jedoch Z w e i f e l angebracht, ob die zusätzliche Bedeutung von Eins in beiden F ä l l e n die gleiche Aussagekraft besitzt. Unter quantitativ-semantischen Aspekten läßt sich der Standpunkt vertreten, daß der Unterschied zwischen zehn und neun Bedeutungen eines Substantivs eine wesentlich geringere R o l l e spielt als der Unterschied zwischen zwei und einer Bedeutung. Eine andere Evaluation der Polysemie läge vor, wenn das Merkmal ' P o l y s e m i e 1 durch P-Werte gekennzeichnet wäre, die j e w e i l s den doppelten Wert des nächstkleineren P-Werts aufweisen würden. Dann erhielte man P-Wertegruppen mit den Merkmalen ' E i n s ' , ' Z w e i 1 , ' V i e r ' , ' A c h t 1 , . . . , u n d inhaltlich wären zwei Bedeutungen als das Doppelte von einer Bedeutung zu interpretieren. Neun und zehn Bedeutungen würden dann nicht mehr unterschieden, sondern befänden sich gemeinsam in einer Bedeutungsgruppe mit dem gleichen quantitativen Merkmal (in diesem B e i s p i e l : ' A c h t ' ) . Damit käme zum Ausdruck, daß zwischen einer Monosemie und einer zweifachen Polysemie ein wesentlich bedeutungsvollerer Unterschied besteht als zwischen neunfacher und zehnfacher Polysemie. Zwar ist nicht ohne umfangreiche Untersuchungen entscheidbar, nach welchem Modus die Einteilung optimal vorzunehmen ist, aber in der Tendenz s o l l t e n die sehr hohen P-Werte in ihrer qualitativen Aussagekraft reduziert werden. Um dies in der Weise zu realisieren, daß die Reduktion mit steigenden P-Werten zunimmt, bietet sich die Wurzelung der P-Werte an. Dann liegen keine äquidistanten Intervalle zwischen den einzelnen P-Werten mehr vor, und die relativ größten Unterschiede finden sich bei den niedrigen Werten (zwischen ' N u l l ' und ' E i n s ' ) . Diese Abstände hätten unter semantischen Betrachtungen auch das größte Gewicht unter a l l e n quantitativen Bedeutungsdistanzen zwischen 36) Es geht hier nicht um die potentiell möglichen, sondern um die ermittelten lexikalischen Bedeutungen.

95

den Substantiven. Mit dieser Argumentation ist nicht eine grundsätzliche Kritik an quantitativen Arbeiten b z w . an der Ermittlung der Polysemie durch einfaches Addieren der gefundenen Bedeutungen intendiert, aber es erscheint Vorsicht vor einer naiven Verwendung der erhobenen Rohdaten geboten zu sein. Diese Überlegungen t r e f f e n auf das Attribut 'Häufigkeit 1 nur bedingt zu. Es ist jedoch auch hier nicht eindeutig feststellbar, ob Äquidistanzen zwischen den einzelnen Skalenwerten der Häufigkeiten die beste Einteilung sind, um das Merkmal "Häufigkeit 1 und die Relationen zu anderen Merkmalen optimal widerzuspiegeln. Für die -Werte können die i n h a l t l i c h motivierten Argumente keine R o l l e spielen, weil zur Bestimmung der Abstraktheit ein eigenes Verfahren konzipiert worden ist. Somit würde eine Diskussion über die Richtigkeit der Distanzen zwischen den einzelnen Werten unmittelbar zu einer Reflexion über das gesamte Verfahren zur Abstraktheitsbestimmung führen. Dies s o l l jedoch erst bei der Bewertung der Resultate erfolgen.

6.2.3

Die Darstellung der Transformationen

Zu den Verteilungen der A-, H- und P-Werte der 7179 Substantive sind die Quadratwurzelwerte und doppelten Würzelwerte im Anhang e n t h a l t e n . 3 7 1 Die Berechnung der Werte erfolgt auf einer Großrechenanlage 3 ' über ein BMDP-Programm 3 ' > . Um die Visualisierung der untersuchten Verteilungen zu betonen, wird eine breite Pallette an Darstellungen gewählt. 37) V g l . die Tabellen A2 bis A4 im Anhang. 3 ) Sperry 1100 - Univac. Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen. 39) V g l . BMDP P2D 19 5, S. 80 ff. Die erfolgreiche Ausführung dieser Arbeitsschritte ist der tatkräftigen Unterstützung von Hartmut Oldenbürger (Göttingen) zu verdanken.

96

Neben Tabellen und fenced letter displays sollen box plots eingesetzt werden. Im weiteren werden die gewurzelten Werte mit S (square) und doppelt gewurzelte mit SS abgekürzt, so daß die gewurzelten -Werte AS-Werte und die doppelt gewurzelten -Werte ASS-Werte heißen. Gleiches gilt für die Ausprägungen 'Häufigkeit 1 und ' P o l y s e m i e 1 , bei denen die transformierten Datensätze mit HS-, HSS- bzw. PS- und PSS-Werten bezeichnet werden.

6.2.3.1

Fenced letter displays zu den transformierten Daten

Datensatz zu den AS-Herten: «2724 M

1362h

H

681h 1

0.2646 0.2646

0.4

0.1354

0.2646

9.1325

8.8679

adj: 0.2646, 0.6021 out: 127 Werte von 0.6042 bis 0.8016 far: 159 Werte ab 0.8093.

0.2031

f F

0.0615 -0.1416

0.6031 127 . 062 159

out far out

Datensatz zu den ASS-Werten: f2724 M

1362h H 681h

0.5144 0.5144

0.6325

0.1181

0.5144

3.022

2.5076

0.17715

f

0.33725

F

0.1601

0.80965 out 163 0.9868 86 far out

adj: 0.5144, 0.8074 out: 163 Werte von 0.8098 bis 0.9847 far: 86 Werte ab 0.9873.

97

Datensatz zu den HS-Werten: #7179

n 3590 H

1795h

1 1

1. 414

0. 414

16. 155 16. 155

0

0 .621 f F

0. 379 1143 -0. 242

2 . 035 305 out 2. 656 317 far out

Datensatz zu den HSS-Werten: #7179 M 1 3590 1 H 1.189 0.189 1795h l

4.019

0

4.019

0. 2835 f

0.7165

F

0.433 1143

1795h

1

1.732

0.732

0

5.385

5.385

1.098 f

-0. 098

F

-1. 196

a d j : l, 1.414 out: 409 Werte 1.495 bis far: 213 Werte 1.778 und Werte mit

von 1.732 ab 1143 0.

1.4725 409 out 1.756 213 far out

Datensatz zu den PS-Werten: #7179 1 M 3590 H

adj: l, 2 out: 305 Werte von 2.236 bis 2.646 und 1143 mit 0 far: 317 Werte ab 2.Θ28.

2.83 220 3.928 31

out far out

adj: 0, 2.828 out: 220 Werte von 3.00 bis 3.873 far: 31 Werte ab 4.00.

98

Datensatz zu den PSS-Werten: #7179 1 M,3590 H

1795h

1

1.316

0.316

0

2.321

2.321

adj : l , 1.778 out: 139 Werte 1.821 bis far: 2 . 3 2 1 und Werte mit

von 2.166 1260 0.

0. 474~j

f

0. 526

F

0. 052 1260

6.2.3.2

1.79 139 2.264 1

out

far out

Box plots zu den transformierten Daten

Für die Kastenschaubilder zu den gewurzelten Werten wird eine andere Skalierung als zu den box plots in Kapitel 6 . 1 . 2 gewählt. Damit die wesentlichen Merkmale der Distribution erkannt werden können, muß ein Teil der far out values weggelassen werden, wenn diese zu weit von Zentrum entfernt liegen.

99

Abb. 8: Box plot zu AS-Werten und ASS-Werten * 0

AS

)

ASS

1.1 1.0 0.9 0.8 0.7 0.6

0.5 0.4 0.3

Erläuterungen zu Abb. 8: 0.2

AS = AS-Wert ASS = ASS-Wert M Mediän

0.1

Ho adjacent outside far out .

• A

^™ =

40) Abbildung ohne Extremwerte ( > 1.1). Die Werte können der Tab. A2 im Anhang entnommen werden.

100

Abb. 9: Box plot zu den HS-Werten und HSS-Werten HS

HSS

3.5

2.5

1.5 I

0.5

Erläuterungen zu Abb. 9: HS = HS-Wert HSS = HSS-Wert M = Mediän " Ho

adjacent outside far out.

41) Abbildung für HS-Herte ohne Extremwerte (> 4 . 1 ) . Die Werte können der Tab. A3 im Anhang entnommen werden.

101

Abb. 10: Box plot zu den PS-Werten und PSS-Werten

PSS

PS

/

*

5.0

-

4.5

-

Ik * * * * * *

4

3.5

-

3 T 1

2.5

1

1

2

1

1.5

M

1 1 1

0.5

1 1 -L

0

Erläuterungen zu Abb. 10: PS = PS-Wert PSS = PSS-Wert M = Mediän = Ho = adjacent = outside

*

= far

out

M

102

6.3

Die Bewertung der Transformationen

Die Tabellen, Standardzusammenfassungen und Abbildungen verdeutlichen die Erfolge der Datentransformationen auf unterschiedliche Weise. Bei einem Vergleich der fenced letter displays ist zu erkennen, wieweit die Spanne Si durch die Wurzelung der Verteilungen zu jedem untersuchten Merkmal reduziert wird: Si(A) =

83.332

S i ( H ) = 261

Si(P) =

29

Si(AS) =

8.8679

S i ( H S ) = 16.155

Si(PS) =

5.385

S i ( A S S ) = 2.5076 S i ( H S S ) = 4.019

S i ( P S S ) = 2.321 .

Wegen der ausgeprägten Streuungsbreite können in den box plots die Extremwerte nur teilweise eingetragen werden (Ausnahme: P o l y s e m i e ) , so daß die ausgedehnte Schiefe der Verteilungen aus den Displays interpretiert werden muß. Da bei den Variablen 'Häufigkeit' und 'Polysemie' der niedrigste Wert gleich N u l l ist, wird die Wurzelung an dieser Stelle nicht wirksam. Eine Verringerung der Spanne Si erfolgt bei diesen Verteilungen nur von oben. Auch der untere Quartilswert, der bei den H- und P-Werten gleich Eins ist, wird durch die Wurzelung nicht verändert. Dagegen vergrößert sich der Hu-Wert des Merkmals 'Abstraktheit 1 , w e i l dieser bei der Distribution der -Werte zwischen N u l l und Eins liegt. Dadurch wird relativ zu den anderen Verteilungen die Distanz zwischen dem H 0 - und H u -Wert der Variablen 'Abstraktheit' stärker reduziert. Bei a l l e n Variablen liegen Mediän und HuWert übereinander, und bei der 'Abstraktheit' ist dieser Parameter außerdem mit dem tiefsten Wert identisch, weil letzterer über 50 Prozent aller Counts enthält. Zu den Merkmalen 'Häufigkeit' und 'Polysemie 1 ist in den box plots das Gleichbleiben des Medians b z w . H u -Wertes und das Näherrücken

103

des Ho-Wertes erkennbar, während der Mediän zum Merkmal 'Abstraktheit 1 bei den AS- und ASS-Werten größer wird. Durch die Darstellung von zwei Verteilungen in einem Schaubild läßt sich dieser Prozeß unmittelbar vergleichen. Nicht zu erkennen ist in den box plots zu a l l e n Distributionen der 'Abstrakth e i t 1 , zu den HS-, HSS- und PSS-Verteilungen die Lage des unteren adjacent value, weil dieser auf gleicher Höhe mit dem Mediän liegt. Betrachtet man zur Variablen 'Abstraktheit' den Anteil der Outlier an der Gesamtmenge der untersuchten Daten, so ergibt sich eine Verringerung von ca. 17 % (A) auf 10 % (AS) b z w . 9 % (ASS). Vor a l l e m die Menge der far out values verkleinert sich, von 53 % a l l e r Outlier ( -Werte) auf 34 % (ASS-Werte). Trotzdem lassen sich in den box plots nicht a l l e Extremwerte eintragen, ohne das Zentrum der Verteilung zu sehr zu vernachlässigen, so daß zur Variablen 'Abstraktheit' die Schiefe der Verteilung und die Reduktion der Extremwertdi stanzen vom Zentrum der Verteilung nur durch die Tabelle A2 * bzw. die Standardzusammenfassungen verdeutlicht werden können. Beim Attribut 'Häufigkeit' nimmt die Anzahl der Outlier, die oberhalb des Medians liegen, mit der ersten Wurzelung ab (von ca. 10 % auf etwa .6 % ) , mit der zweiten Wurzelung bleibt die Gesamtzahl g l e i c h , aber es verschiebt sich der Ant e i l der far out values (51 % ( H S ) zu 34 % (HSS) a l l e r Outlier) zu Ungunsten der outside values. Immerhin ist es nach der zweiten Wurzelung m ö g l i c h , im box plot zu den HSS-Werten innerhalb einer Skalierung, die die Darstellung aller wesentlichen Strukturmerkmale gestattet, a l l e far out values einzutragen. Eine besondere R o l l e spielt der Wert ' N u l l ' , der bei der HS-Verteilung als outside value und bei der HSS-Verteilung als far out value erscheint. Dies erhöht zwar die Gesamt zahl der Outlier beträchtlich ( ' N u l l 1 hat 1143 Counts), fördert aber den Symmetrisierungsprozeß der Verteilung, weil die ' N u l l 1 unterhalb des Medians liegt. Trotzdem bleibt der visu42) V g l . Anhang, A 3 f.

104

e i l e Eindruck einer Rechtsschiefe der Verteilung im box plot für die HSS-Werte b e s t e h e n . * a > Bei der Variablen ' P o l y s e m i e 1 verringert sich durch die Datentransformationen der Anteil der oberhalb des Medians liegenden outside values deutlich (bei PS-Werten noch 3.5 % a l l e r Daten, bei PSS-Werten nur ein Datum). Gleichzeitig erscheint der Wert ' N u l l 1 bei den PS-Werten als adjacent value und bei den PSS-Werten als far out value, so daß hier - wie bei der ' H ä u f i g k e i t 1 - die Symmetrie der Verteilung wächst (besonders deutlich im box plot zu den PS- und PSS-Werten

er-

kennbar). Z u g l e i c h nimmt die Dominanz der Outlier bei den PSund PSS-Werten gegenüber den P-Werten erheblich a b . 4 4 ' Insgesamt zeigt die d i f f e r e n z i e r t e Darstellung der Zusammenhänge, daß die box plots weniger geeignet sind, wenn es um die Interpretation der Outlier geht bzw. wenn zu viele Outlier vorliegen. Den Displays fehlt die Anschaulichkeit der graphischen Darstellungen, dafür erhält man a l l e wichtigen numerischen Informationen über die Verteilungen. Zwar verdeutlicht die Interpretation der Daten, daß durch die Transformationen die intendierte Symmetrisierung der Verteilungen e r f o l g t , aber aufgrund der graphischen Darstellungsprobleme zu den Variablen "Abstraktheit 1 und 'Häufigkeit' (auch noch bei doppelt gewurzelten Datensätzen) kann man nicht sicher sein, ob die Berechnung der Korrelationskoeffizienten mit den gewurzelten Datensätzen ein Resultat innerhalb der erwarteten Grenzen zwischen -l und +1 ergeben w i r d . Theoretisch ließe sich das Wurzeln der Werte noch mehrfach w i e d e r h o l e n , 4 5 » nur würde die Symmetrisierung, die nach der ersten Datentransformation erkennbar ist, bei häufigerem Wurz e l n der Daten verlorengehen, und es entstünde eine Verzer43) Im Anhang A 5 sind a l l e Werte zu den H-, HS- und HSSVerteilungen aufgeführt. 44) Im Anhang A 6 sind a l l e Werte zu den P-, PS- und PSSVerteilungen enthalten. 45) V g l . u . a . Tukey 1977, S. 192.

105

rung der Verteilung in die andere Richtung. Es ist also notwendig, vor einer Berechnung der Korrelatio n s k o e f f i z i e n t e n die optimale Transformation für jede Variable zu e r m i t t e l n . Optimal' heißt in diesem Zusammenhang ein Maximum an Symmetrie pro Verteilung. Dieses Maximum läßt sich durch die Berechnung der Schiefemaße zu den e i n z e l n e n Verteilungen ermitteln. Daraufhin können die Verteilungen mit den geringsten Schiefewerten bei der Interpretation der Korrelat i o n s k o e f f i z i e n t e n besonders berücksichtigt werden. Zur Bestimmung dieser Maße stehen diverse Verfahren zur Verfügung. Eine einfache Möglichkeit ist der Vergleich des arithmetischen Mittels mit dem Mediän einer V e r t e i l u n g . 4 6 1 Ein standardisiertes Maß - das Schiefemaß nach PEARSON erhält man, wenn man die D i f f e r e n z von arithmetischem Mittel und Mediän durch die Streuung d i v i d i e r t . * 7 · Jedoch ist dieses Verfahren bei einer großen Streuung der Variablen wie bei den hier vorliegenden Verteilungen - nicht besonders geeignet, w e i l den Extremwerten der Distribution ein zu grosses Gewicht beigemessen wird. In ähnlicher Weise läßt sich die Schiefe berechnen, wenn man die D i f f e r e n z aus arithmetischem Mittel und Modus durch die Standardabweichung d i v i d i e r t . 4 8 ! Dieses Vorgehen weist aber zum einen die g l e i c h e n N a c h t e i l e wie das vorherige a u f , zum anderen stimmen in den hier vorliegenden Verteilungen Modus und Mediän jeweils überein, so daß das Resultat das g l e i c h e wäre. Um die Wirkungen der Extremwerte zu reduzieren, s o l l t e man die Quartil- oder Perzentilabstände statt der Streuung bei der Ermittlung des Schiefemaßes v e r w e n d e n . 4 q ' Jedoch ist auch dies bei den vorliegenden Verteilungen nicht s i n n v o l l , w e i l unterhalb des Medians eine zu geringe Klassenbesetzung 46) 47) 48) 49)

Vgl. Vgl. Vgl. Vgl.

Sievers Sievers Spiegel Spiegel

1987, 1987, 1961, 1961,

S. S. S. S.

149. 149. 90 f. 91.

106

e x i s t i e r t ; 5 0 1 zwischen dem Medi n und dem tiefsten Wert befindet sich keine Variable. Mit einer weiteren Methode ermittelt man die sogenannten "ZENTRALEN MOMENTE" s n , Um die Charakteristika einer Distribution numerisch zu b e s t i m m e n . 5 2 » Die Momente (mit " M 1 i " symbolisiert) sind folgenderma en definiert:

M1 i =

- Σ η,-Xj n

(1. Moment)

3

M1- =

l o -n Σ n i X j .

(2. Moment)

M'3 =

3 - Σ nixf

(3. Moment)

M14 =

- Σ njxT

(4. M o m e n t ) . s ;

Wenn man die Momente auf das erste Moment bezieht, erh lt man die "ZENTRALEN MOMENTE", die folgenderma en aussehen: Mi = M ' i M2 = M1 : - Μ Ί 2

M3 = M1 3 - 3 M ' i M 1 t + 2 M ' i 3 M 4 = M 1 4 ~ 4 Μ Ί Μ ' 3 + 6 Μ Ί ? Μ ' 2 ~ 3ΜΊ* . 5 4 )

50) V g l . S. 94 f. und S. 105 f. dieser Arbeit: In a l l e n Datens tzen stimmen die H u -Werte mit dem Medi n berein. 51) Sievers 1987, S. 150. 52) Spiegel wendet ein hnliches Verfahren an; v g l . Spiegel 1961, S. 89 ff. 53) V g l . Sievers 1987, S. 149. 54) V g l . Sievers 1987, S. 150.

107

Danach ist

eine Verteilung symmetrisch, wenn das dritte zen-

trale Moment (M3) g l e i c h N u l l ist, l i n k s s c h i e f , wenn M3 k l e i ner N u l l ist und rechtsschief, wenn M3 größer N u l l i s t . 5 5 ' T e i l t man M3? durch M2 3 und zieht daraus die Quadratwurzel, so erhalt man den Wert MB, der als Schiefemaß eine Verteilung als symmetrisch kennzeichnet, wenn MB g l e i c h N u l l ist und als s c h i e f , wenn MB größer N u l l . 5 6 ' A p p l i z i e r t man dieses Verfahren auf die vorliegenden neun Verteilungen, so erhält man folgende Schiefemaße, die in der Tabelle 16 5 7 ) dargestellt sind. Zum Merkmal 'Abstraktheit' zeigt sich, daß die Distribution der doppelt gewurzelten Werte die höchste Symmetrie aufweist. Am M3-Wert der ASS-Werte ist zu erkennen, daß eine weitere Datentransformation (nochmalige Wurzelung) wahrscheinl i c h schon zu einer Überkorrektur ( d . h . L i n k s s c h i e f e ) führen würde. Andererseits ist der MB-Wert - vor a l l e m im Vergleich zu den MB-Werten der anderen Variablen - sehr hoch. Betrachtet man die MB-Werte zum Merkmal ' H ä u f i g k e i t ' , so weist die Verteilung zu den HSS-Werten die geringste Schiefe a u f , aber der M3-Wert zur HSS-Verteilung ist negativ und bedeutet somit eine geringfügige Linksschiefe durch die doppelte Wurzelung. Zwar liegt der M3-Wert zur HSS-Verteilung nur wenig im negativen Bereich, und bei einer v i s u e l l e n Inspektion der Verteilungen ist weder eine Linksschiefe zu den HSS-Werten noch eine ausgeprägte Symmetrie zu den HS-Werten zu erkennen. Wegen dieser uneindeutigen Differenzen s o l l e n bei den weiteren Interpretationen der Distributionen zum Merkmal ' H ä u f i g k e i t 1 sowohl die einfach als auch die doppelt gewurzelten Daten besonders beachtet werden. Die Variable 'Polysemie' erfährt durch die doppelte Wurzelung eine Überkorrektur; denn der MB-Wert zu den PSS-Werten ist größer als zu den PS-Werten, und der M3-Wert gibt für die 55) V g l . Sievers 1987, S. 150. 56) Sievers 1987, S. 150 f. 57) V g l . S. 108 dieser Arbeit.

108

PSS-Verteilung eine Linksschiefe aus, so daß nach der Tabelle 16 die einfache Wurzelung, deren Verteilung auch gegenüber

Tabelle 16:

Zentrale Momente und Maße der Schiefe

A-Werte

H-Werte

P-Werte

Ml = M2= M3=

Ml= 2.2569 M2= 46.7013 M3= 6241.0936 M4= 1233687.22

Ml= 2.2569 M2= 6.7770 M3= 45.2383 M4= 577.1279

Bl= MB=

Bl= MB=

.2796 3.9298 266.1235 M4= 20427.0347 Bl = MB=

1184.5529 34.4173

AS-Werte

382.4156 19.5555

HS-Werte

6.5749 2.5642

PS-Werte

Ml = M2= M3= M4=

.4101 .1113 .4453 3.1368

Ml = M2= M3= M4=

1.1733 .8803 3.0342 28.3892

Ml= M2= M3= M4=

1.2550 .6817 .2541 1.6709

Bl= MB=

143.5740 11.9822

Bl = MB=

13.4972 3.6739

Bl= MB=

.2038 .4515

HSS-Werte

ASS-Werte

PSS-Werte

Ml = M2= M3= M4=

.6188 .0271 .0177 .0268

Ml = M2= M3= M4=

.9656 .2409 -.0598 .2707

Ml= M2= M3= M4=

.9975 .2601 -.1235 .2073

Bl = MB=

15.6322 3.9538

Bl = MB=

.2556 .5056

Bl= MB=

.8679 .9316

Erläuterungen zu Tab. 16; M l , M2, . . . = 1. ,2., . . . Moment Bl = M32 dividiert durch M23 MB = Quadratwurzel aus Bl. Unterstrichen sind pro Merkmal die j e w e i l s geringsten Schiefemaße.

109

den Rohdaten die besseren Schiefemaße besitzt, als die optimale Datentransformation für die Distribution zum Merkmal 'Polysemie' anzusehen ist.

6.4

Die Berechnung der Korrelationskoeffizienten

In den folgenden Tabellen 17 bis 19 werden die Korrelationsk o e f f i z i e n t e n 5 8 > zwischen a l l e n Verteilungen (Rohdaten, gewurzelte und doppelt gewurzelte) dargestellt. Die Berechnung der K o e f f i z i e n t e n erfolgt mit einem BMDP-Programm. 5 9 > In den Korrelationsmatrizen sind die K o e f f i z i e n t e n zu den Verteilungen, die die geringsten Schiefemaße aufweisen, durch Fettdruck gekennzeichnet.to)

6.4.1

Abstraktheit und Häufigkeit

Die Koeffizientenberechnung beruht auf allen untersuchten Substantiven, die sowohl einen -Wert als auch einen -Wert besitzen. Nicht besonders hoch sind in der Tabelle 17 6 1 > die 58) Die Berechnung eines Korrelationskoeffizienten erfolgt nach der Formel: n

ti -

(3

r(X,Y)

) (yi - y) 2 n

n (3ci

- x)

(7l

- y)

2

vgl. Sievers 1987, S. 213. 59) V g l . BMDP P8D 1985, S. 209 ff. 60) Signifikanzprüfungen können wegen der umfangreichen Datenmengen, die den Berechnungen zugrunde liegen, entfallen. 61) V g l . S. 110 dieser Arbeit.

110

Korrelationsmatrix zu den Variablen Abstraktheit und Häufigkeit

T a b e l l e 17:

A-Werte AS-Werte ASS-Werte H-Werte HS-Werte HSS-Werte A-Werte AS-Werte ASS-Werte

H-Werte HS-Werte HSS-Werte

1.0000 0.8136 0.5653 0.2259 0.2095 0.1497

1.0000 0.9319 0.4753 0.5165 0.4368

1.0000 0.5175 0.6267 0.5722

1.0000 0.7984 0.4936

1.0000 0.8830

1.0000

K o e f f i z i e n t e n zwischen den Rohdaten der Variablen 'Abstraktheit 1 und den Verteilungen zur 'Häufigkeit'

(Spalte "A-Werte"),

Jedoch bewirkt die Datentransformation zur 'Abstraktheit' eine erhebliche Veränderung der Korrelationskoeffizienten; denn horizontal

(von A- zu AS- und ASS-Werten) kommt es durch-

gangig zu einer Steigerung. Somit kann man ohne Test sehen, daß die Berechnung des Schiefemaßes, die zum Attribut 'Abstraktheit' für die ASS-Verteilung die besten Symmetriewerte ergeben h a t , 6 2 ' durch die K o r r e l a t i o n s k o e f f i z i e n t e n bestätigt w i r d . Für die Variable ' H ä u f i g k e i t ' ,

für die die HS- oder HSS-

Werte die optimale Datentransformation darstellen, findet man derartige Übereinstimmungen ausschließlich in der Spalte der ASS-Werte. Entsprechend den Berechnungen zur Symmetrie der Häufigkeitsverteilungen werden die besten Korrelationskoeffizienten zwischen HS-/ASS- b z w . HSS-/ASS-Werten erzielt. Jedoch wirkt sich bei der ' H ä u f i g k e i t 1 die Wurzelung der Daten insgesamt sehr uneinheitlich aus. Die Korrelationskoeff i z i e n t e n zwischen den keit

1

-Werten und der Variablen

'Häufig-

nehmen mit jedem Wurzelungsschritt der Häufigkeits-

verteilung ab, während zu den AS-Werten die HS-Werte zu den besten und die HSS-Werte zu den schlechtesten Resultaten kommen. Mit den ASS-Werten liegt der Korrelationskoeffizient 62) V g l . Tab. 16, S. 108 dieser Arbeit.

Ill

der HS-Werte etwas höher als der der HSS-Werte. Dies kann als ein Indiz dafür angesehen werden, daß die doppelte Wurzelung beim Merkmal 'Häufigkeit 1 zu einer Überkorrektur führt. Gestützt wird dieses Argument durch die drastische Zunahme der far out values bei den HSS-Werten gegenüber den HS-Wert e n . 6 3 > Dies bewirkt o f f e n s i c h t l i c h weniger eine Symmetrisierung, sondern mehr eine Verschiebung der ausgeprägten Rechtsschiefe zu einer leichten L i n k s s c h i e f e , w e i l die Zahl der far out values, die unterhalb des Medians liegt, von Null (HS) auf 1143 (HSS) zunimmt. Der Anteil der erklärten Varianz bil wächst von 5.10 % (H-/A-Werte) auf 26.78 % (H-/ASS-Werte) bzw. 32.74 % (HSS-/ ASS-Werte) und 39.27 % (HS-/ASS-Werte). Damit liegt der Anteil der erklärten Varianz beim K o e f f i z i e n t e n zur HSS/ASSVerteilung nur geringfügig hinter der HS/ASS-Verteilung. Der höchste K o r r e l a t i o n s k o e f f i z i e n t (HS-/ASS-Werte) bedeutet, daß die Datentransformationen eine Steigerung der erklärten Varianz um nahezu das Achtfache (5.10 % (Rohdaten) auf 39.27 % (HS-/ASS-Werte)) bewirkt haben. Somit kann man den Erfolg der Datentransformationen als gut und das Resultat der Korrelationskoeffizientenberechnung zum Merkmalpaar 'Abstraktheit/Häufigkeit 1 als zufriedenstellend bezeichnen. 63) V g l . fenced letter displays, S. 96 f. dieser Arbeit. 64) Die Varianz setzt sich aus der erklärten (voraussagbaren) und der nicht erklärten Varianz zusammen: Var (Y) = r 2 ( X , Y ) Var(Y) + (l - r ^ X . Y ) ) Var(Y) . Die Varianz der durch lineare Regression auf X vorausgesagten Werte yi ist gleich Var (y) = r* ( X , Y ) Var ( Y ) ,

und das Quadrat des Korrelationskoeffizienten gibt den Anteil der erklärten Varianz wieder; vgl. Sievers 1987, S. 219. Durch M u l t i p l i k a t i o n mit 100 kann der Anteil der erklärten Varianz in Prozent angegeben werden, so daß eine einfache Vergleichbarkeit zwischen verschiedenen Verteilungen möglich ist.

112

6.4.2

Abstraktheit und Polysemie

Die Korrelationen sind anhand der Substantive, die sowohl einen -Wert als auch einen P-Wert enthalten, errechnet worden. Sehr niedrige Korrelationskoeffizienten ergeben sich zu der Distribution der -Werte. Jedoch verbessert sich beim Merkmal 'Abstraktheit 1 der K o e f f i z i e n t pro Wurzelungsschritt und erreicht die höchsten Korrelationskoeffizienten in der Spalte unter den ASS-Werten. Damit wird durch die Koeffizientenberechnung zwischen 'Polysemie 1 und 'Abstraktheit' bestätigt, daß die ASS-Verteilung die symmetrischste zum Merkmal 'Abstraktheit' darstellt.

Tabelle 1 :

Korrelationsmatrix zu den Variablen Abstraktheit und Polysemie

A-Werte AS-Werte ASS-Werte P-Werte PS-Werte PSS-Werte

A-Werte AS-Werte ASS-Werte P-Werte PS-Werte PSS-Werte

1.0000 0.8136 0.5653 0.0552 0.0580 0.0486

1.0000 0.9319 0.1483 0.1452 0.1169

1.0000 0.1879 0.1809 0.1438

1.0000 0.9159 0.7320

1.0000 0.9383

1.0000

Beim Attribut ' P o l y s e m i e ' , zu dem die PS-Verteilung die kleinsten Schiefemaße aufweist, liefert die P-Werteverteilung zu den Spalten der AS- und ASS-Werte sogar etwas bessere K o e f f i zienten als die PS-Werteverteilung. Lediglich mit den A-Werten (die aber sehr unsymmetrisch verteilt sind) liefern die PSWerte den besten K o e f f i z i e n t e n der Spalte. Dies steht im Widerspruch zu den oben angestellten Berechnungen der Schiefemaße und muß im Zusammenhang mit der gleichzeitigen, aber nicht synchron wirksamen Wurzelung der Abstraktheitsvertei-

113

lung stehen. Bestätigt wird allerdings die Überkorrektur der PSS-Verteilung, w e i l die PSS-Werte in a l l e n Spalten (A-/AS-/ ASS-Werte) die niedrigsten K o e f f i z i e n t e n der Polysemieverteilungen enthalten. Der Anteil der erklärten Varianz ist durch die Datentransformationen von 0.30 % (Rohdaten) auf 3 . 2 7 % (PS-/ASS-Werte) bzw. 3.53 % (P-/ASS-Werte) angewachsen. Auch wenn 3.5 % sehr wenig sind, ist immerhin eine Steigerung der erklärten Varianz um das Zehnfache erreicht worden. Die hohe E f f i z i e n z der Datentransformationen läßt sich im wesentlichen auf die Wurzelung der -Werte zurückführen, während sich bei der Verteilung der P-Werte die Wurzelung auf die Höhe des Korrelat i o n s k o e f f i z i e n t e n negativ auswirkt.

6.4.3

Häufigkeit und Polysemie

Diese Resultate sind auf der Basis a l l e r untersuchten 7179 Substantive ermittelt w o r d e n . b 5 i Die Verteilungen mit den kleinsten Schiefemaßen sind die PS-Werte und die HS- bzw. HSSWerte. Die besten Korrelationswerte pro Z e i l e finden sich für das Merkmal 'Häufigkeit 1 in der Spalte der HS-Werte. Während diese Koeffizentenverbesserung mit den Ergebnissen der Symmetrieberechnungen der Verteilungen korrespondiert, ist dies zum Merkmal 'Polysemie 1 nicht der F a l l , w e i l zur Distribution der P-Werte j e w e i l s höhere K o r r e l a t i o n s k o e f f i z i e n t e n erzielt werden als zur PS-Verteilung. Auch in dieser Matrix wird die Überkorrektur der PSS-Verteilung durch die niedrigen K o e f f i zienten pro Spalte bestätigt. Der Anteil erklärter Varianz beträgt 10.33 % (PS-/HS-Werte) und sogar 12.66 % (P-/HS-Werte). Beim K o e f f i z i e n t e n zur Verteilung der Rohdaten liegt der Anteil der erklärten Varianz nur bei 5.39 % , Damit wird mit 65) V g l . Tab. 19, S. 114 dieser Arbeit.

114 Tabelle 19:

Korrelationsmatrix zu den Variablen Häufigkeit und Polysemie

H-Werte HS-Werte HSS-Werte P-Werte PS-Werte PSS-Werte H-Werte HS-Werte HSS-Werte P-Werte PS-Werte PSS-Werte

1.0000 0.7984 0.4936 0.2321 0.1973 0.1426

1.0000 0.8830 0.3558 0.3214 0.2461

1.0000 0.2827 0.2596 0.1985

1.0000 0.9159 0.7320

1.0000 0.9383

1.0000

den einfach gewurzelten Daten (PS-/HS-Werte) ungefähr eine Verdoppelung der erklärten Varianz gegenüber den Rohdaten erreicht. Die E f f i z i e n z der Datentransformationen ist beim Merkmalpaar 'Häufigkeit/Polysemie' - gemessen an der Steigerung der erklärten Varianz - nicht besonders hoch.

6.5.

Die Interpretation der Resultate

Die Berechnungen verdeutlichen, daß die Korrelationskoeffizientenhöhe sehr stark von der individuellen Verteilung der jeweiligen Variablen abhängt. Die Datentransformationen modifizieren die Verteilungen unterschiedlich, und durch die gegenseitige Abhängigkeit der Variablen kommt es nach der Wurzelung einer oder beider Variablen zu nicht regelhaften Steigerungen der Koeffizienten. Vergleicht man die drei Matrizen aus Kapitel 6.4, so zeigt sich, daß innerhalb der einzelnen Merkmale die Verteilungen, die die höchsten Korrelationen liefern, immer die ASS-Werte und fast immer die HS- und P-Werte sind.*· 0 * Berücksichtigt 66) Zum Merkmalpaar 'Abstraktheit/Häufigkeit' erreichen die -Werte in der Spalte -Werte1 den höchsten Koeffizi-

115

man in jeder Matrix den j e w e i l s höchsten Korrelationskoeffizienten, so ist dieser nur zu den ASS-, HS- oder P-Werten zu finden. Damit stimmen die Resultate der Schiefemaße zum Merkmal 'Abstraktheit 1 mit denen der Korrelationskoeffizientenberechnungen durchweg überein; beim Attribut 'Häufigkeit 1 weisen die Verteilungen (HS-/HSS-Werte), die aufgrund der errechneten Schiefemaße als symmetrischer bezeichnet worden sind, insgesamt bessere K o e f f i z i e n t e n auf als die H-Werte. Die Resultate zu den HSS-Werten liegen immer hinter den HSWerten zurück. Die Variable 'Polysemie' verhält sich ganz anders, weil die Rohdaten (P-Werte), deren Verteilung eine extreme Schiefe aufweist, die besten K o e f f i z i e n t e n erzielen. W i l l man die Korrelationskoeffizienten qualitativ in ihrer Aussagekraft beurteilen, so wird bei den vorliegenden Resultaten deutlich, daß es kein objektives Maß gibt, das die Korrelationen in ihrer Güte q u a l i f i z i e r t . Das Urteil über die Bedeutung der Höhe eines Korrelationkoeffizienten bleibt immer subjektiv. Die Optimierung, die man durch die Datentransformation erreicht, wird durch einen Vergleich des Anteils erklärter Varianz meßbar, und es wird klar, daß man ohne die Datentransformationen kaum Zusammenhänge zwischen den Variablen konstatiert hätte, weil die K o e f f i z i e n t e n zu den Rohdaten sehr niedrig sind. Trotzdem kann das Resultat in dieser Form nicht zufriedenstellen. Zwar sind die Steigerungsraten, die die Wurzelungsoperationen für die erklärte Varianz erbringen, beachtlich ( l e d i g l i c h beim Merkmalpaar 'Polysemie/ Häufigkeit' kommt es n u r zu einer Verdoppelung), aber eindeutige Abhängigkeiten, die die oben aufgestellten Arbeitshypothesen stützen oder funktionale Zusammenhänge andeuten, werden durch die Korrelationskoeffizientenberechnung nicht indiziert. Lediglich die Variablen 'Abstraktheit' und 'Häufigkeit' korrelieren befriedigend; das Merkmal 'Polysemie 1 steht nach den erfolgten Berechnungen in keinem engen Zusammenhang mit anderen Variablen, und die K o e f f i z i e n t e n , die zwischen enten; die PS-Werte in der Spalte zu den A-Werten.

116

der ' P o l y s e m i e ' und den anderen Variablen errechnet werden, entwickeln sich nach den Datentransformationen unregelmäßig, z . T . widersprüchlich. Um die Ursachen für dieses Phänomen zu eruieren, s o l l e n die Zusammenhänge zwischen den Variablen mit ergänzenden Datenexplorationen analysiert w e r d e n . 6 7 ' Erst dann kann es zu einer abschließenden Beurteilung der Arbeitshypothesen kommen.

6.5.1

Das Variablenpaar

'Abstraktheit/Häufigkeit'

Die ermittelten Korrelationskoeffizienten zeigen einen Zusammenhang zwischen beiden Variablen, wenn man die Verteilungen durch einfache oder doppelte Wurzelung transformiert. Die durchgeführten Datentransformationen haben die durch die Statistik motivierten Bedenken gegen eine Koeffizientenberechnung der nicht normalverteilten Rohdatensätze erfolgreich überwunden. Damit ist die positive Korrelation zwischen den Aund -Werten formal (statistisch) nachgewiesen. Um die Art der Korrelation auch i n h a l t l i c h näher bestimmen zu können, s o l l e n weitere Analysen e r f o l g e n , die die lexikologischen und semantischen Zusammenhänge zwischen den Variablen verdeutlichen. Betrachtet man zu den Rohdaten die Countverteilung in Abhängigkeit von beiden Variablen, so kann man die bivariate Verteilung in einer Kontingenztafel d a r s t e l l e n . b 8 ; Die Form der 67) V g l . Tukey 1977, S. 1: "Exploratory data analysis is detective work — numerical detective work — or counting detective work — or graphical detective work." (Fettdruck im O r i g i n a l ) . 68) V g l . Tab. A6 im Anhang. Die Tafel ist mit H i l f e eines SPSS-X Programms erstellt worden; vgl. SPSS-X 1983, S. 571 ff. Die Tab. 20, S. 118 f. dieser Arbeit, s t e l l t eine übers i c h t l i c h e Zusammenfassung der Tab. A6 dar.

117

Countverteilung wird die Zusammenhänge zwischen den Variablen verdeutlichen und vergleichende Analysen zu den bisherigen Berechnungen zulassen. Anschließend s o l l die Dynamik des Korrel a t i o n s k o e f f i z i e n t e n bei wachsenden A- b z w . -Werten präsentiert werden, indem zu ausgewählten Variablenwerten der Jew e i l i g e K o e f f i z i e n t errechnet und in eine Tafel eingetragen w i r d . 6 ' ! Man erhält dann Aussagen über die Auswirkungen ind i v i d u e l l e r Werte auf die K o r r e l a t i o n s k o e f f i z i e n t e n , z . B . können so auch Ausreißer festgestellt w e r d e n . 7 0 »

6.5.1.1

Die Verteilung der Counts

In der Tabelle 20

7

i ' sind die Eintragungen zum A-Wert '-'

durch eine gestrichelte L i n i e abgeteilt, w e i l es sich hier um die Substantive handelt, die in V l nicht untersucht worden sind und keinen -Wert besitzen. Somit ist von den zur Korrelationskoeffizientenberechnung benutzten Werten das Wertepaar -Wert = 0.075/H-Wert = O 1 mit 841 Counts am höchsten 69) V g l . Tab. 22, S. 124 f. dieser Arbeit. Die Berechnung der Korrelationskoeffizientendynamik erfolgt mit einem zu diesem Zweck geschriebenen Commodore-BASIC-Programm. Die semantische Richtigkeit des Programms läßt sich durch einen Vergleich der errechneten Gesamtkorrelationskoe f f i z i e n t e n nachweisen. 70) In den Tabellen 20 und 22 enthalten die Skalen nur die Variablen, die in den Verteilungen auch Belege (Counts) besitzen. Somit bestehen zwischen den hohen Variablen numerisch größere Distanzen als in den Tafeln graphisch dargestellt, z . B . liegt unterhalb der Häufigkeitsvariable '100' nicht ' 9 9 ' , sondern der nächste Wert mit einer Eintragung, nämlich ' 8 5 ' . Die Extremwertdistanzen sind damit in der semigraphischen Darstellung gestaucht. Zum Attribut 'Abstraktheit' geben die Zahlen in Spalte II Jeweils den mittleren Wert eines Intervalls an, d . h . die Zeile .175 1 enthält a l l e -Werte zwischen .150 1 und 1 .199 . Auch hier liegen aus technischen und didaktischen Gründen keine Xquidistanzen für die gesamte Skalierung vor. Skalierungsänderungen sind durch einen Querstrich gekennzeichnet, Skalenwerte ohne Belege werden übersprungen. Eine Kontingenztafel zur Countverteilung mit a l l e n -Werten ist in Tab. A6 im Anhang enthalten. 71) V g l . S. 118 f. dieser Arbeit.

118

Countverteilung zur 'Abstraktheit 1 und 'H u f i g k e i t '

T a b e l l e 20: III

!1

0.075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0,525 0,575 0.625 0.875 0.725 0.775 0.625 0.675 0.925 0.975 1.025 1.075 1.125 1.175 1.225 1.275 1.325 1.375 1.425 1.475 1.525 1.575 1.675 1.725 1.775 1.625 1.875 1.975 2.05 .25 .35 .55 .65 .75 .85 3.65 4.1 4.3 4.9 5.5 6.3 8.5 O 12.5 15.5 53.5 83.5 I[ V

0 1 2 3 4 5 6 7 8 9 1 J 11 12 13 267 3041 717 235 110 33 23 13 8 2 1 1 _1 _1 Hl H&OiOIl4Γ 1Γ 1Γ 6~6 ~* Γ 3' TAJI JPJ? Π 14 12 6 7 3 1 1 2 2 I59\ 94 20321 19 13 10 10 ( 4 2 4 5 23 \16/12 IlMi Ui 5 6 4 5 2 2 2 2 3 T l 2 _l_jLn 2 2 L 58 33 13 9 ΓΤΤΪΓΤ 4 7 1 1 2 3 1 2 1 2 4 2 l \ i 2 JI j/~ 1 6 3 4 3T~TOT 1 4 2 2 1 1 ΤΪΓ 2 3 6 2 1 3 4 IM ] 1 2 1 1 1 1 1 1 2L 1 I 1 4 1 3 2 1 "Tj 6 5 2 2 1 C 2 5 2 1 1 "l_ 1 2 1 i i 2 2 1 1 1 1 3 1 3 1 1

S-

1

3 1

i

J

1 3 Γ

1

1

1

Γ Γ~ T 1 1 3 1 2 1 \Π· 1 1 1 1 1 1 1

1

"1

1 1 2 2 1 1 1 1 1 2 2 2 1 1 1 1

2

Λ

\1

M n

1

1

Γ

1,

1

1

1

r

—i

1

1

1

1

1

iaL

1

—Ί

i i

1 1

1 1 1

L

1

T

1

1 \

i

1

1

1

n.L

u n

1 t

1

': "^z:

^

1

14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

I

1

1 1 1

1 l

"

-j

1 1

π-

l i

i i

1

1

i

i i

1

1

t

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 1143 3671 1064 430 249 126 102 75 57 47 31 15 21 18 10 6 6 12 3 6 11 5 6 1 1 2 3 4 1 4 3

Erl uterungen zu Tab. 20: II = H-Werte III I = Mittelwerte pro Z e i l e

A-Werte Mittelwerte pro Spalte,

119

31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 l l

III

0,075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.825 0.875 0.925 0.975 1.025 1.075 125 175 225 275 325 375 425 1.475 1.525 1.575

1.675

1.725 1.775 1.825 1.875 1.975

ΟΓ 2.25 2.35 2.55 2.65 2.75 2.85 3.65

ΓΓ 4.3 4.9 5.5 6.3 8.5

12!s 15.5 53.5 83.5

IV 4455 1377 244 468 142 26 170 27 34 25

32 8 9 20 21 14 9 l 11 4 12 5 8 2 4 3 2 2 3 l 2 l l 3 l 2 3 3 l 2 l l l l l l 3 l 2 l l l 2 l l l l

31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 3 1 2 3 1 1 4 1 3 1 1 1 1 2 3 2 1 1 1 1 1

IV = Zeilensummen

l

l

l

l

l

l

l

Spaltensummen

7179

120

besetzt. Dies sind 73.58 % der im Master Corpus auftretenden 1143 Substantive, die nie als Kernkonstituente für ein Lemma fungieren. Pro Z e i l e (außer zum -Wert . 0 7 5 1 ) enthält der -Wert '!' jeweils die höchsten Counts, und fast regelmäßig ist eine Verringerung der Counts mit steigenden -Werten zu erkennen. Zum Merkmal 'Abstraktheit' verläuft diese Abnahme tend e n z i e l l g l e i c h , bedingt durch die Verteilungsform der A-Werte jedoch w e l l e n f ö r m i g . Der höchste H-Wert ( ' 2 6 1 ' ) besitzt einen Count bei einem hohen A-Wert ( ' 8 . 5 ' ) , und der höchste A-Wert ( ' 8 3 . 5 ' ) bei der Häufigkeit ' 3 5 ' . In der Tabelle 20 liegt nicht nur eine sehr hohe Punktedichte in der linken oberen Ecke vor, sondern auch in der rechten unteren Ecke (hohe Aund -Werte) finden sich v i e l e Belege. V ö l l i g frei ist die linke untere Ecke, d . h . es gibt keine Substantive mit hohem AWert und gleichzeitig niedrigem -Wert. Ebenso selten existieren niedrige -Werte bei hohen -Werten (die Wertepaare O/145' und O / 2 2 9 ' sind für die Berechnung der Korrelationen nicht berücksichtigt worden). Zusätzlich zur Countverteilung sind in der Tabelle 20 die Mittelwerte pro Spalte und pro Zeile eingetragen w o r d e n . 7 * ' Um die Beziehungsstruktur der beiden Mittelwertsysteme besser hervorzuheben, sind die Werte mit durchgezogenen Linien verbunden. Bei steigenden -Werten erhöht sich der Mittelwert pro Z e i l e , und mit steigenden -Werten der Mittelwert pro Spalte. Dabei kommt es zu einer wachsenden Mäanderisierung 7 3 > beider Mittelwertverbindungslinien, deren Verläufe sich zum Teil überlagern. Der durchschnittliche Verlauf der Mittelwerte pro Z e i l e und pro Spalte indiziert die Lage der beiden Regressionsgeraden, die für die Berechnung des Korrelationskoeffizienten ausschlaggebend sind. Würde man die Regressionskurven in die Kontingenztafel anhand der Mittelwertverteilungen legen, so erhielte man eine verhältnismäßig kleine Schere, 72) F ä l l t ein Mittelwert mit dem eingetragenen Count zusammen, so ist numerisch betrachtet die Markierung für die Spalten ( ) und Z e i l e n (I) immer unterhalb der Counteintragung (bei Spalten links und bei Zeilen oberhalb) gesetzt worden. 73) Dieser Terminus ist

gewählt worden, um die Schwingungen

121

durch die die Ermittlung eines guten Korrelationskoeffizienten gewährleistet ist. Mit der Repräsentation der Daten in der Kontingenztafel wird der Zusammenhang, der über die Rechenoperationen mit H i l f e der transformierten Datensätze gezeigt wird, auch anhand der Rohdaten deutlich demonstriert. Dies ist eine Bestätigung der errechneten Resultate durch eine semigraphische Repräsentation. Die semantischen Zusammenhänge zwischen den Variablen zeigt die Tabelle 21, in die die Substantive mit hohen H- und hohen -Werten eingetragen s i n d . 7 4 ) Die Substantive, die in den Spalten I und IV in Großbuchstaben stehen, erscheinen in beiden Spalten, gehören also sowohl zu den vierzig abstraktesten als auch vierzig häufigsten Wörtern aus V l b z w . V 2. Jedoch besitzen auch viele kleingeschriebene Substantive in Spalte I b z w . Spalte IV relativ hohe Werte der j e w e i l s anderen Variablen. Zu den Ausnahmen in Spalte I gehören "Gedankenaustausch" und "Einrichtungsgegenstand", die beide als Kompositum für eine Bedeutungserklärung schon aus lexikographischen Erwägungen weniger in Frage kommen. Beim Substantiv " V o l l z i e h u n g " kann angenommen werden, daß im DUDUNI häufiger "das V o l l z i e h e n " als Bedeutungserklärung verwendet wird, während bei "Gamet" eine Korrektur des -Wertes sinnvoll erscheint, weil dieses Substantiv als ein biologischer Fachbegriff anzusehen ist und dieser somit nur selten als Erklärungswort fungieren kann. Ä h n l i c h würde man aufgrund einer intuitiven Einschätzung des Abstrakheitsgrades dem Substantiv "Motor" mehr Konkretheit zuordnen; allerdings verwundert das seltene Vorkommen dieses Lexems als Kernkonstituente. Besondere A u f f ä l l i g k e i t e n bezüglich der häufigen Substantive in Spalte IV und V existieren kaum; a l l e n Wörtern läßt sich auch bei eigener Einschätzung eine hohe und umfangreiche Erklärungspotenz zuweisen. Bei den dazugehörigen -Werten (Spalte der Mittelwertverbindungslinien zu kennzeichnen. Köhler bezeichnet (allerdings in anderem Zusammenhang) derartige Schwingungen als " O s z i l l a t i o n " ; v g l . Köhler 1986, S. 137 ff. 74) V g l . S. 122 dieser Arbeit.

122

Tabelle 21:

Substantive mit hohen A- und H-Werten

I 1 2 3 4 5 6 7 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

II

83.402 53.14 MENSCH 15.16 GEGENSTAND 12.82 Sache 9.6825 Ding 9.075 TEIL 8.58 Substanz 6.29 STOFF 5.415 WEISE 4.96 PERSON 4.875 Organismus 4.2525 TIER 4.19 Plan 4.1375 Körper 4 3.625 GERÄT Motor 2.8 STÜCK 2.71 Tatsache 2.675 Konstruktion 2.54 EINHEIT 2.3375 Weg 2.2775 ART 2.26 Angelegenheit 2.045 PFLANZE 1.9625 Wettkampf 1.955 1.95 Gedankenaustausch ZUSTAND 1.875 Merkmal 1.8625 Größe 1.855 Produkt 1.64 Einrichtungsgegenstand 1.8 Dichtung 1.765 Satzglied 1.715 Verlangen 1.7 Gamet 1.7 Fahrzeug 1.69 Tag 1.5675 Vol 1 Ziehung 1 .535 BEREICH 1.5325 WESEN Lebewesen

III 35 13 85 84 27 9 261 21 48 47 100 8 44 7 17 53 2 65 3 7 44 26 143 16 54 12 1 55 12 21 12 3 6 3 10 2 12 11 1 54

IV

TEIL Gesamtheit

ART Stelle PERSON

MENSCH GEGENSTAND

Gruppe Raum STÜCK ZUSTAND

Vorrichtung PFLANZE Menge BEREICH

GERÄT Äußerung Form STOFF WEISE Ort TIER Fähigkeit EINHEIT Handlung Zeichen Wort Beschaffenheit Abschnitt Anzahl Gebäude Linie Gebiet Darstel lung WESEN Platz Fläche Zeit Gefühl Bewegung

V

VI

261

8.58 144 0.565 143 2 . 2 6 115 1.13 100 4.875 85 15.16 84 12.82 76 0.52 68 0.9125 65 2.71 55 1.875 55 1.035 54 1.9625 54 0.6625 54 1.5325 53 3.625 53 0 . 7 6 49 0.47 48 5.415 47 4.96 45 0.8275 44 4.19 44 0 . 2 4 44 2.3375 43 0.545 40 1.445 40 1.0325 40 0.5675 40 0.3725 39 0 . 4 37 0.4475 36 0.325 36 0.985 36 0.65 35 83.402 35 0.94 32 0.7875 31 0.405 31 0.1375 31 0.54

Erläuterungen zu Tab. 21: I II III IV V VI

= = = = = =

Substantive mit höchsten A-Werten A-Werte H-Werte Substantive mit höchsten H-Werten H-Werte A-Werte.

Die in Großbuchstaben geschriebenen Substantive stehen sowohl in der Spalte I als auch in der Spalte IV.

123

VI) f a l l e n nur wenige Substantive a u f . 7 5 » Die niedrigsten Werte besitzen " G e f ü h l " , " L i n i e " , "Abschnitt" und "Fähigk e i t " , wobei in einer Beurteilung dieser B e g r i f f e "Linie" sicherlich konkreter einzuschätzen ist als "Fähigkeit". A l l e r dings birgt gerade die intuitive Einschätzung eine große Fehlergefahr in sich und enthält genau die subjektiven Beurteilungen, die durch die angewendete Methode in V l reduziert werden s o l l e n . Andererseits kann man einwenden, daß zur Überprüfung der entwickelten Abstraktheitsmethode am ehesten die intuitive Einschätzung geeignet sei. In verschiedenen Fachdiskussionen mit Linguisten hat sich jedoch gezeigt, daß das Spektrum der subjektiven Skalierung oft breit gefächert ist ( z . B . "Gott" a l s Abstraktum oder Konkretum ? ) . 7 f e > Zu berücksichtigen ist ferner, daß die Tabelle 21 nur einen kleinen Ausschnitt des Zusammenhangs beider Variablen zeigt. Um die Entwicklung dieses Verhältnisses umfassend zu demonstrieren, soll eine Analyse der Korrelationskoeffizientendynamik e r f o l g e n .

6.5.1.2

Die Verteilung der dynamischen K o e f f i z i e n t e n

In der Tabelle 22 7 7 > ist die schrittweise Entwicklung des Korrelationskoeffizienten (von -Wert = 0.175/H-Wert = 4 ' bis -Wert = 83.5/H-Wert = 2 6 1 ' ) eingetragen w o r d e n . 7 8 » 75) Man muß berücksichtigen, daß ein -Wert von .65 1 ("Darstellung") auf Rang 161 unter a l l e n -Werten steht und somit zu den oberen -Werten zu rechnen ist. 76) Eine Beurteilung der verwendeten Methode zur Abstraktheitsbestimmung wird in Kap. 7.1 e r f o l g e n . 77) V g l . S. 124 f. dieser Arbeit. 78) Da sich eine Berechnung für kleinste A- und -Werte nicht lohnt, ist mit ' 0 . 1 7 5 ' und ' 4 ' begonnen worden. Zur besseren Übersicht wird bei mittleren A- und H- Werten nur jede zweite Variable berücksichtigt und die Skalierung aus Tab. 20 übernommen. Die errechneten Korrelationskoeffizienten sind aus Gründen der Übersichtlichkeit mit 100 m u l t i p l i z i e r t und auf zwei Stellen begrenzt, so daß der erste K o e f f i z i e n t oben links (= 39) .39' zu lesen ist.

124

T a b e l l e 22: Ι Ο

II

1

Korrelationskoeffizientendynamik 2

3

0,075 0.125 0.175 0.215 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.825 0.875 0.925 0.975 1.025 1.075 1.125 1.175 1.225 1.275 1.325 1.375 1.425 1.475 1.525 1.575 1.675 1.725 1.775 1.825 1.875 1.975

or

.25 .35 .55 .65 .75 .85 3.65 ΓΓ 4.3 4.9 5.5 6.3 8.5

975

12.5 15.5 53.5 83.5

1 0

1

2

3

4

5

6 7 β 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

40

39

38

38

37

37

37

37

37

36

*!

47

47

47

47

47

48

$48

48

46

41

43

43

43

43

43

45

46

$46

45

45

42

43

45

45

46

47

47

49

49

$49

49

48

38

41

42

45

45

47

47

48

48

48

49

49

49

38

40

43

46

47

48

48

48

49

49

50

50

49

35

36

39

41

42

42

43

44

45

45

45

45

46

35

35

38

40

41

42

43

44

45

45

45

46

47

35

35

38

40

41

41

42

43

45

46

46

47

48

35

35

38

39

40

40

41

42

44

44

44

45

46

33

33

36

36

38

39

39

40

42

42

43

44

45

32

32

34

36

37

37

37

38

40

41

42

43

43

32

32

35

37

37

37

37

38

41

42

42

43

44

32

32

35

37

37

37

37

38

40

42

43

44

44

32 32

31 31

34 34

36 36

37 38

37 37

37 38

38 38

40 40

42 42

43 43

43 43

44 44

31

31

34

36

37

37

37

37

39

41

42

42

42

31 30

31 30

33 33

35 35

38 38

37 37

37 37

38 37

39 39

42 41

42 42

43 42

43 42

30

30

33

35

38

37

38

38

40

42

42

44

44

30

30

33

35

38

37

38

38

39

41

42

43

43

29 29 19 19 29 29 29 29 29 29 29 (29 )29

28 28 28 28 28 28 28 28 28 28 28 28 28

31 31 31 31 31 31 31 31 31 31 31 31 31

33 33 32 32 32 32 32 32 29 29 29 29 29

36 36 35 35 35 35 35 35 31 31 31 31 31

35 35 34 34 34 34 34 34 30 30 30 15 15

36 36 35 34 34 34 34 34 30 30 30 15 15

36 36 36 35 35 35 35 35 31 31 31 15 15

37 37 37 36 36 36 36 36 32 32 32 15 15

39 39 39 38 38 38 38 38 34 34 34 16 16

40 40 39 38 38 38 39 39 35 35 35 16 16

42 42 40 40 40 40 40 40 36 36 36 16 16

42 42 40 39 39 39 40 40 37 37 37 17 17

39

940

41

45

38

41

39

4

5

40

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Erl uterungen zu Tab. 22; I = H-Werte

II = A-Werte

= Maximalwerte

125

30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 129 261

36

35 35

35 35 35 35

35 35

35 35

35 35 35 35 35 35 35 35 35 35

35

46

46 46

46 46 46 46

45 45

45 45

45 45 45 45 45 45 45 45 45 45

45

45

44 44

44 44 45 45

44 44

44 44

44 44 44 44 44 44 44 44 44 44

44

49

48 48

49 49 49 49

48 48

48 48

48 48 48 48 48 48 48 48 48 48

48

49

49 49

49 49 50)50

50 50

50 50

50 50 50 49 49 49 49 49 49 46

46

50

50 50

50 50 50)51

50 50

50 50

51 51 51 50 50 50 50 50 50 47

47

47

47 47

47 47 47 47

47 47

47 47

48)48 48 47 47 47 47 47 47 44

44

48

48 48

48 48 48 48

48 48

48 49

49)49 49 48 48 48 48 48 48 45

45

48

48 49

50 50 50 50

50 50

50 50

50 50)51 50 50 50 50 50 50 47

47

46

46 47

48 47 48 48

48 48

48 48

49 49)50 49 49 49 49 49 49 46

46

45

45 45

46 46 46 46

46 46

46 46

47 47)48 47 47 47 47 47 47 45

45

43

43 44

45 44 45 45

45 45

45 45

46 46)46 45 45 45 45 46 46 43

43

44

44 44

45 44 45 45

45 45

44 45

45 45)46 45 45 45 45 45 45 43

43

44

44 44

45 44 46 46

46 46

45 46

46 46)47 46 46 46 46 46 46 43

43

43 44

43 44 43 44

44 44 45 45 44 44 45 45

45 45 45 45

45 45 45 45

47 47)47 47 47 47 47 47 47 44 47 47)47 46 46 46 46 46 46 44

44 44

41

42 43

43 43 44 44

44 44

43 44

45 45)46 45 45 45 45 45 45 42

42

43 41

42 43 42 42

43 43 44 44 42 42 43 43

44 44 43 43

43 44 43 43

47 47)47 46 46 46 46 46 46 43 47 47)47 47 47 47 47 46 46 44

43 44

44

43 44

44 43 44 44

44 44

44 44

48 48 48 47 47 47 47 47 )49 46

46

43

43 43

43 43 44 44

45 45

45 45

48 48 48 48 48 48 48 47 )49 47

47

41 41 40 39 39 39 39 39 36 36 36 17 17

41 41 40 38 38 38 38 38 35 35 35 16 16

41 41 40 39 39 39 38 38 35 35 35 16 20

43 43 43 42 42 42 42 42 37 37 37 17 19

43 43 43 42 44 47 46 46 41 41 41 19 20

46 48 48)50 48)50 47)48 48 50 50 51 495 49 50 43 45 43 45 43 45 10 10 19 19

41 41 40 39 39 39 39 39 35 35 35 16 11

41 41 40 38 38 38 38 38 35 35 35 16 10

42 42 40 39 39 39 39 39 35 35 35 16 19

42 42 40 39 39 39 39 39 35 35 35 16 19

43 43 43 42 45 45 44 44 39 39 39 18 19

43 45 45 44 46 48 47 47 42 42 42 19 20

48 50 49 48 50 51 5T 50 44 44 44 10 19

48 49 49 47 49 50 47 49 43 43 43 19 19

48 49 49 47 49 50 47 49 43 48 48 13 11

48 48 49 49 49 49 47 47 49 ISS 50 )54 47)53 49 53 43 46 48 51 51 )54

47 49 48 47 51 53

)49 50 49 47 51 53

5T 3Γ

51 45 49 52 28 17 28 23 24 13

46 48 46 45 50 50 47 49 43 46 49 26

51 45 49 51 27 12 21

46 48 46 45 50 50 49 $59

)Π )!3 54 29

21

30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 119 161

pro Spalte

$ = Maximalwerte pro Zeile.

II

0.075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.815 0.875 0.915 0.975 .015 .075 .115 .175 .115 .175 .315 .375 .415 1.475 1.515 1.575 1.675 1.715 1.775 1.815 1.875 1.975

las

.35 .55 .65 .75 .85 3.65 4ΤΓ 4.3 4.9 5.5 6.3 8.5 0 11.5 15.5 53.5 83.5

126

Jeder K o e f f i z i e n t zeigt die Korrelation zwischen der Abstraktheits- und Häufigkeitsverteilung bis einschließlich zu dem Wert der Skalierung in der gleichen Z e i l e bzw. Spalte, zu dem der K o e f f i z i e n t in der Tafel steht: Auf der Grundlage von 1 84 Counts, die man zu den Obergrenzen .175 1 als Zeilenwert und ' 4 ' a l s Spaltenwert erhält, 7 " » ) errechnet sich e i n Korrelat i o n s k o e f f i z i e n t von . 3 9 ' . A l l e darüberllegenden Z e i l e n - und Spaltenwerte werden abgetrennt, und durch eine schrittweise Verringerung dieser Menge abgeschnittener Werte läBt sich die Dynamik des Korrelationskoeffizienten bei veränderlichen Obergrenzen in den Z e i l e n b z w . Spalten darstellen. Tendenziell ist eine Steigerung der K o e f f i z i e n t e n mit wachsenden Obergrenzen in den Spalten zu erkennen. Die jew e i l s höchsten Werte sind pro Spalte unterstrichen und pro Z e i l e mit einem vorangestellten Dollarzeichen gekennzeichnet. 8 ° > Die maximalen Spaltenwerte erhöhen sich von links oben nach rechts unten, und der Verlauf v o l l z i e h t sich in drei Stufen ( ' 0 . 2 7 5 ' / ' 0 . 6 7 5 ' / ' 5 . 5 ' ) in gleicher Richtung. Ausnahmen bilden die Korrelationswerte auf der Basis der Counts bis zum -Wert = 15.5/H-Wert = 100' und -Wert = 8.5/H-Wert = 2 6 1 ' , w e l c h e z u g l e i c h die insgesamt höchsten Korrelationskoe f f i z i z i e n t e n zum betrachteten Variablenpaar d a r s t e l l e n . 8 i > Bei den maximalen Zeilenwerten ist zwar e b e n f a l l s eine Tendenz von oben links nach unten rechts zu erkennen, aber der Anstieg der maximalen Werte pro Z e i l e ist analog der generellen Entwicklung der K o e f f i z i e n t e n w e l l e n f ö r m i g . V ö l l i g entgegengesetzt zu dieser Dynamik beeinflussen die beiden höchsten -Werte die Höhe des Korrelationskoeffizienten. Dieser f ä l l t 79) V g l . Tab. 20, S. 118 f. dieser Arbeit: Die Addition a l l e r Counts vom -Wert = 0.075/H-Wert = 0 bis zum A-Wert = 0.175/H-Wert = 4 ergibt 1884. 80) Bei gleichen Werten in der Tabelle ergeben sich die Maxima, wenn man auch die dritte (in der Tafel nicht eingetragene) Stelle der K o e f f i z i e n t e n berücksichtigt. 81) Die genauen Werte sind: .5437' (zu -Wert = 15.5/ -Wert = 100') und ' 0 . 5 9 4 7 ' (zu -Wert = 8.5/H-Wert = 261' ) .

127

zu a l l e n Counts bis zu den Obergrenzen ' 5 3 . 5 ' oder ' 8 3 . 5 ' bei gleichzeitigen mittleren und hohen -Werten immer weit hinter die übrigen Spaltenwerte zurück. Der oben errechnete Gesamtk o r r e l a t i o n s k o e f f i z i e n t (= 0 . 2 2 5 9 ) zu a l l e n Substantiven, die einen A- und -Wert besitzen, ist also nur deshalb so niedrig, w e i l die beiden höchsten -Werte den K o e f f i z i e n t e n sehr negativ beeinflussen. Würde man diese AusreiBer bei der Koeffizientenberechnung auslassen, so würde sich der Korrelationskoeffizient mehr als verdoppeln: .54 1 zum -Wert = 15.5/HWert = 2 6 1 ' . Zwar läßt sich der K o e f f i z i e n t zu den Grenzen -Wert = 8.5/H-Wert = 261' noch optimieren (der K o e f f i z i e n t .59 1 bedeutet eine Steigerung gegenüber dem Gesamtkoeffizienten um das 2 . 6 f a c h e ) , aber nach Inspektion der Gesamtverteilung der Korrelationskoeffizienten in der Tabelle 22 ist ein Cut hinter dem A-Wert ' 1 5 . 5 ' als sinnvoll anzusehen. Einen vergleichbaren E i n f l u ß der höchsten Spaltenwerte ( ' 1 4 4 ' , ' 2 6 1 ' ) findet sich nur zu mittleren -Werten ( .575 1 '6.3'); jedoch lohnt hier der Cut nicht, w e i l die Korrelationsk o e f f i z i e n t e n bei Einbeziehung der hohen -Werte wieder ansteigen. Wenn man berücksichtigt, daß man den K o e f f i z i e n t e n zu a l l e n Rohdaten (= . 2 2 1 ) als Beleg für einen sehr geringen Zusammenhang zwischen den Variablen 'Abstraktheit' und 'Häufigkeit' interpretieren würde, so laßt sich ersehen, wie wichtig die wiederholte Datenexploration ist. Nicht nur durch die Transformation der Verteilungen, sondern auch durch das Weglassen der Extremwerte (Ausreißer) kann der Zusammenhang zwischen den beiden Variablen angemessen beurteilt werden. Die Ursache für die starke Wandlung des Korrelationskoeffizienten liegt in der großen Entfernung der beiden höchsten -Werte von den restlichen Variablenwerten. Wahrend die Distanz zwischen unteren -Werten nur 0 . 0 5 betragt, im mittleren Bereich zwischen 0 . 2 und 0.8 und bei hohen -Werten bis maximal 3 steigt ( ' 1 2 . 5 ' auf ' 1 5 . 5 ' ) , ist der Sprung von

12

' 1 5 . 5 ' ( -Wert zu "Mensch") auf ' 5 3 . 5 ' ( -Wert zu "Lebewesen") mit einer Distanz von 38 gewaltig. Zwar gibt es auch bezüglich der Variablen ' H ä u f i g k e i t 1 große Distanzen (117 bei 44' ("Gesamtheit") auf '261' ( " T e i l " ) ) , aber diese D i f f e renz bedeutet gegenüber den Distanzen zwischen den unteren -Werten ( z . B . von ' 3 ' auf ' 4 ' ) nur das l17fache, während der Sprung von ' 1 5 . 5 ' auf ' 5 3 . 5 ' das 720fache gegenüber den direkten Nachbarwerten der Abstraktheitsskalierung im unteren Bereich ( z . B . .175 1 z u . 2 2 5 1 ) darstellt. Diese Argumentation muß auch als ein Hinweis auf die Fragwürdigkeit der verwendeten Skalierungen, von denen a l l e weiteren Berechnungen abhängen, verstanden werden. Eine Häufigkeitserhöhung von ' 4 ' auf ' 6 ' ist ebenso gewichtet wie eine von ' 4 5 ' auf ' 4 7 ' , aber die in beiden Fällen gleiche Distanz von Zwei ist bei dem ersten Wertepaar viel bedeutsamer. Bei den Rechenoperationen wird diese unterschiedliche Bedeutung aber nur berücksichtigt, wenn die Verteilungswerte gewurzelt werden. Gleiches t r i f f t auf die ermittelten -Werte zu, wobei hier außerdem noch die Methode der Abstraktheitsbestimmung, die in V l neu entwickelt worden ist, zu prüfen ist. Das Wort "Wesen", welches den A-Wert ' 8 3 . 5 ' besitzt, hat zu einem Wort mit dem -Wert ' 0 . 1 7 5 ' eine D i f f e r e n z von 8 3 . 3 2 5 . 8 2 ) ob dies gerechtfertigt ist b z w . ob derartig große Abstände praktikabel sind, läßt sich nicht ohne weiteres beurteilen. Nur das erfolgreiche Arbeiten mit der ermittelten Skalierung der AWerte kann die Validität der vorgestellten Bestimmungsmethode erhöhen. 82) Betrachtet man die ermittelten -Werte als Einträge in einer Verhältnisskala, so läßt sich auch formulieren, daß "Wesen" 477mal stärker abstrakt bewertet wird als ein Wort mit dem -Wert .175 1 (Bei Intervallskalen - Beis p i e l : Temperaturskala - können derartige Vergleiche nicht durchgeführt werden, weil man die Werte nicht dividieren darf: Ein Temperaturwert von 20 Grad bedeutet gegenüber einem Wert von 10 Grad nicht, daß es doppelt so warm i s t ) . W i l l man - wie in V l geschehen - Divisionsverfahren zur Abstraktheitsbestimmung einsetzen, darf man die aus der Ebenenbildung resultierenden Ebenenwerte nicht als Ordnungszahlen auffassen, sondern als natürl i c h e Zahlen; vgl. S. 21 dieser Arbeit, Anm. 15.

129

6.5.1.3

Die Beurteilung der Resultate

D i e formulierte Arbeitshypothese z u diesem Variablenpaar 8 3 > kann anhand der durchgeführten Untersuchungen nicht f a l s i f i ziert werden. Sowohl der Weg über die Datentransformationen als auch die systematische Exploration der Dynamik der Korrelationskoeffizientenstruktur in Abhängigkeit von verschiedenen Substantivmengen hat zufriedenstellende Resultate erbracht. Geht man von einer unreflektierten Applikation der Koeffizientenberechnung aus, so erhält man einen Anteil erklärter Varianz von 5.10 % . S 4 > Durch Datentransformationen wird dieser Anteil auf maximal 39.27 % gesteigert und durch den Extremwertcut bei den -Werten auf 35.36 % . Die Ä h n l i c h keit der beiden Resultate kann als eine gegenseitige Bestätigung aufgefaßt werden und wird außerdem durch die v i s u e l l e Inspektion der Tabelle 20 unterstützt, in der die Countverteilung eindeutig zeigt, daß niedrige -Werte häufig mit niedrigen -Werten zusammenfallen und hohe -Werte mit hohen HWerten.es> Jedoch dürfte es sich aufgrund eines Anteils erklärter Varianz von knapp 40 % lohnen, die aufgestellte Arbeitshypothese anhand ähnlicher Daten, die mit anderen Methoden oder anhand anderer Corpora erhoben werden, zu wiederholen. Auch ist zu berücksichtigen, daß die Korrelationskoeffizientenbe83) V g l . Kap. l dieser Arbeit. 84) Zur Berechnung der erklärten Varianz v g l . S. 111 dieser Arbeit, Anm. 64. 85) Eine Kombination beider Analysemethoden erhält man, indem man die Dynamik der K o e f f i z i e n t e n zu den gewurzelten bzw. doppelt gewurzelten Verteilungen errechnet. Die entsprechenden T a f e l n sind im Anhang ( T a b e l l e n A8 bis A l l ) enthalten; die Resultate ergeben aber im wesentlichen nichts Neues. Die -Werte verbessern mit jedem Wurzelungsschritt den K o e f f i z i e n t e n , und die beiden Extremwerte können nach doppelter Wurzelung nicht mehr als Ausreißer betrachtet werden. Die Variable ' H ä u f i g k e i t 1 erfährt bei doppelter Wurzelung eine leichte tiberkorrektur, was sich vor a l l e m bei der Berücksichtigung hoher -Werte in k l e i n e r e n Koeffizienten gegenüber den K o e f f i z i e n t e n bei der einfach gewurzelten Häufigkeitsverteilung ausdrückt.

130

rechnung zu den Rohdaten nur dann zu einem guten K o e f f i z i e n ten gelangt, wenn man die Ausreißer zur 'Abstraktheit' weglaßt. Dafür mag es zwar vernünftige statistische Gründe geben, aber es muß natürlich analysiert werden, ob es inhaltliche Argumente, lexikographische Mängel des untersuchten Wörterbuchs oder methodische D e f i z i t e in V l gibt, die für die extremen -Werte verantwortlich sind. Diese Fragen s o l l e n in Kapitel 7.1 problematisiert werden, wenn unter Einbeziehung der Korrelationskoeffizientenbestimmung zum Variablenpaar 'Abstraktheit/Polysemie' eine kritische R e f l e x i o n der hier applizierten Methode der Abstraktheitsbestimmung erfolgen wird.

6.5.2

Das Variablenpaar 'Abstraktheit/Polysemie'

Bei der Analyse dieses Variablenpaares s o l l die Dynamik des Korrelationskoeffizienten bei wachsenden A- und P-Werten ausgelassen werden, weil der Zusammenhang zwischen beiden Variablen nur sehr schwach ausgeprägt ist. Dennoch muß die Countverteilung analysiert werden, um die oben beobachteten Eigenschaften der Distribution der -Werte bestätigen oder ergänzen zu können und zu einer abschließenden Interpretation des Attributs 'Abstraktheit 1 zu gelangen. Für die Variable 'Polysemie 1 sind supplementäre Datenexplorationen notwendig, weil es nach der Transformation der Daten und nach Errechnung der Schiefemaße teilweise zu widersprüchlichen Resultaten gekommen ist. Durch einen inhaltlichen Vergleich der Substantive, die die Form der Verteilungen beider Variablen stark beeinflussen, s o l l e n die numerischen und graphischen Interpretationen ergänzt werden. Die Countverteilung zu den Rohdaten 6 > wird in einer 86) V g l . Tab. A7 im Anhang. Die Tabelle ist mit H i l f e eines SPSS-X-Programms erstellt worden; v g l . SPSS-X 1983, S. 571 ff. Eine zusammenfassende Darstellung liefert Tab. 23, S. 132 dieser Arbeit.

131

Tafel dargestellt, so daß sich anhand der semigraphischen Darstellungen die Zusammenhänge zwischen den Variablen und die Bedeutungen einzelner Werte besser veranschaulichen l a s s e n . 8 7 1

6.5.2.1

Die Verteilung der Counts

In der Tabelle 23 8 ' sind die Eintragungen zum A-Wert '-' markiert, w e i l sie bei der Berechnung der Korrelationskoeffizienten nicht berücksichtigt worden sind. Von den übrigen Werten findet man die höchsten Counts zum Wertepaar -Wert = 1 0.075/H-Wert = l (567 Eintragungen). In der Spalte zum PWert '!' stehen bei niedrigen -Werten immer die höchsten Counts, die mit steigenden P-Werten langsam a b f a l l e n . Die AWerte haben bei ' 0 . 0 7 5 ' die meisten Eintragungen, und die Abnahme erfolgt mit steigenden -Werten w e l l e n f ö r m i g . Teilt man die Tafel in vier Quadranten, so liegen die Substantive mit hohen -Werten fast ausschließlich im dritten Quadranten, d . h . im unteren bis mittleren Polysemiewertebereich ( z . B . ' 8 3 . 5 ' mit P-Wert ' 7 ' ) , enthalten aber nie den P-Wert ' und nur selten den P-Wert ' ! ' . Ebenso existieren v i e l e Substantive mit hohen P- und niedrigen A-Werten. > a l s auch d i e Korrelationskoeffizientendynamik I C Q ) e r s t e l l t werden, u m durch d i e semigraphische Repräsentation der Daten einen überblick über die Form und Struktur der Distributionen b z w . über die Bedeutungen individueller Variablenwerte zu e r h a l t e n . i ° i > Dazu s o l l eine A u f l i s t u n g der häufigsten und polysemsten Substantive des Master Corpus die semantischen und lexikologischen Dependenzen einzelner Lexeme aufzeigen. 98) V g l . Kap. 6 . 4 . 3 dieser Arbeit. 99) V g l . Tab. 25, S. 138 dieser Arbeit. Die Tabelle ist mit H i l f e eines SPSS-X Programms erstellt worden; v g l . SPSS-X 1983, S. 571 ff. 100) V g l . Tab. 27, S. 143 dieser Arbeit. Die Korrelationskoe f f i z i e n t e n sind durch ein zu diesem Zweck geschriebenes Commodore-BASIC-Programm errechnet worden. Die semantische Richtigkeit des Programms läßt sich durch einen Vergleich des Gesamtkoeffizienten belegen. 101) In den Tabellen 25 und 27 enthalten die Skalierungen nur die Variablenwerte, die in den Verteilungen auch Belege haben. Somit bestehen zwischen den hohen Werten numerisch größere Distanzen als in den T a f e l n graphisch dargestellt, z . B . f o l g t in der Skala unterhalb des Häufigkeitswerts '261' nicht ' 2 6 0 ' , sondern der nächste Wert mit einer Eintragung, nämlich ' 2 2 9 ' .

Tabelle 25; nim

l

2

3

4

5

6

7

212 536 1174 77 58 37 14 12 870 1505 U» 301 147 98 48 45 , 75 44 56 27 30 101 1T~6T;;42 27 16 17 12 57 38 33 ΟΓΤ9\16 10 4 2 1 2 6 1 8 1Π11 Tfl\ 4 5 13 11 23 10 tii 10 T 2 7 11 8 β 2 6 10 5 7 8 3 2 3 7 8 4 5 3 3 2 1 4 5 3 4 Li 3 2 l 2 _2__!D 3 4 5 4 1 ΠΠΤ_

Ο l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261

l l

2 l CLT 2 l ^

1

β

9 10 Π 12 13 14 15 16 17 18 19 20 21 22 29

5 8 3 27 16 8 14 15 9 9 7 8 13 6 4 3.A3\ 2 Ϊ 3 3 2 2 l

2 3

l

l

2 2 l 6 3 2 2 4 l 2 2 4 8 4 l 2 2 1 1 2 3 1 1

l l

l

2 4 1 2 1 1 1 2

l

l

l

__ ,

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

114! 367] 106' 431 24! 121 10! 7! S] 4; 31 l! 21 U K ( l li ! ( 11 l (

25 26 27 28 29 30 31 32 35 36 37 39 40 43

3 · < l < ! 2 l J ! l l 4 l

45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261

l l l l l 2 J l l l l l l l l l l l l

23 24

44

II

V

0

Countverteilung zur ' H u f i g k e i t ' und ' P o l y s e m i e '

0 l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29 1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 l l l

Erl&uterungen zu Tab. 25: II = P-Werte III - H-Werte I = Mittelwerte pro Z e i l e

IV = Zeilensummen

V

= Spaltensununen = Mittelwerte pro Spalte,

l l

:

139

6.5.3.1

Die Verteilung der Counts

In der Tabelle 25 1 0 2 1 enthält die linke obere Ecke im zweiten Quadranten der Kontingenztafel die höchsten Counteintragungen. Dabei tritt das Merkmalpaar -Wert = 1/P-Wert = l ' am häufigsten (1505mal) auf. Jeweils von der Variablen '!' ausgehend verringern sich die Counts mit steigenden HWerten und mit steigenden P-Werten. Zum Wert ' N u l l 1 hin ist bei beiden Variablen ebenfalls ein A b f a l l der Counts zu verzeichnen. Die höchsten P-Werte treten selten mit niedrigen HWerten auf (die rechte obere Ecke des ersten Quadranten weist eine zumindest kleine freie Fläche a u f ) , sondern verteilen sich im mittleren Bereich der -Werte. Bei den hohen H-Werten existieren nur drei Substantive, die gleichzeitig niedrige PWerte enthalten. ° 3 > Ohne diese drei Ausreißer wäre die linke untere Ecke relativ f r e i . Der zweite Quadrant weist eine sehr hohe Wertedichte auf und da der vierte Quadrant nur wenige Belege enthält, kann man die Distribution der Counts in der Kontingenztafel zusammenfassend folgendermaßen beschreiben: Im Master Corpus der untersuchten Substantive existieren kaum Wörter, die gleichzeitig hohe H- und P-Werte enthalten, aber es liegen viele Substantive im unteren und mittleren Bereich der Werteverteilung v o r . 1 0 * ) Dennoch zeigt diese Kontingenztafel die relative Aussagekraft des Korrelationskoeffizienten zu den Rohdaten, weil die Konstellation zwischen den Variablen in der graphischen Darstellung deut102) V g l . S. 138 dieser Arbeit. 103) Es handelt sich hier um folgende Wörter (in Klammern die -Werte): "Gesamtheit" (144), "@Sache" (145), "©Person" ( 2 2 9 ) . Die mit einem Klammeraffen gekennzeichneten Wörter sind Ersatzkonstituenten (vgl. Kap. 2 . 2 . 9 dieser Arbeit), die die ErklärungsWörter "etwas, was" bzw. " j m d . , der" substituieren. 104) Problematisch ist in diesem Zusammenhang natürlich die Verwendung der Termini 'hoch' bzw. ' t i e f . Wenn ein PWert von ' 6 ' bereits als hoch angesehen werden würde, dann gäbe es viele Substantive, die neben einem hohen PWert auch einen hohen -Wert enthalten. Maßgebend für die hier verwendete Terminologie soll die Einteilung in die vier Quadranten sein.

140

l icher zu erkennen ist als es die erklärte Varianz zu den Rohdaten (5.39 %) ausdrückt. Allerdings ergibt der Eintrag der Mittelwerte pro Z e i l e und pro Spalte l ö s ) für die Mittelwertverbindungslinien Verl ä u f e , die eher den Linienverläufen zum Variablenpaar 'Abstraktheit/ Polysemie 1 i Q t > a l s z u m Variablenpaar 'Abstraktheit/Häufigkeit1 ? ' ähneln. Es kommt zu keinen Überschneidungen der Linien, und die Mittelwerte pro Spalte liegen nie höher als bis zum -Wert 3 ' . Zwar steigen die Mittelwerte pro Spalte insgesamt an, aber für höhere Spaltenwerte ist dieser Anstieg zu f l a c h , und die Mittelwertverbindungslinie wird bei steigenden Spaltenwerten zunehmend durch Mäanderisierung geprägt. Kur bis zum P-Wert ' 8 ' erhöht sich der Mittelwert kontinuierlich. Ä h n l i c h verhalten sich die Mittelwerte pro Z e i l e , die ebenf a l l s im unteren Bereich (bis zum H-Wert '11') ständig ansteigen, dann aber mit größer werdenden -Werten auch wachsende Amplituden in der Mittelwertschwankung aufweisen, so daß man fast schon von einem regeiförmigen Aufschaukeln der Amplituden sprechen kann. Tendenziell werden die Mittelwerte mit zunehmenden -Werten größer, erreichen aber nie mehr als den PWert ' 1 3 ' . Betrachtet man die gesamte Verteilung, so ergibt sich für die Lage der beiden Regressionskurven eine relativ große Schere, die auf keinen wesentlichen linearen Zusammenhang zwischen den Variablen hinweist. Die Tabelle 26 i o e > zeigt die vierzig Substantive mit den höchsten H- bzw. P-Werten. Nur ein Lexem ( " L I N I E " ) gehört zu beiden Gruppen und ist deshalb in den Spalten I und IV durch Großbuchstaben markiert. Die P-Werte der häufigsten Substantive sind sehr breit gestreut; elf Wörter besitzen einen P105) Wenn ein Mittelwert mit einem Count zusammenfällt, so ist die Markierung für die Spalten ( ) und Z e i l e n (I) numerisch immer unterhalb der Counteintragung (in Spalten links, in Zeilen oberhalb) e r f o l g t . 106) V g l . Kap. 6.5.1.1 dieser Arbeit. 107) V g l . Kap. 6 . 5 . 2 . 1 dieser Arbeit. 108) V g l . S. 141 dieser Arbeit.

141

Tabelle 26:

Substantive mit hohen H- und P-Werten

I 1 2 3 4 5 6 7 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 36 39 40

Teil gPerson PSache Gesamtheit Art Stelle Person Mensch Gegenstand Gruppe Raum Stück Zustand Vorrichtung Pflanze Menge Bereich Gerat Äußerung Form Stoff Weise Ort Tier Fähigkeit Einheit Handlung Zeichen Wort Beschaffenheit Abschnitt Anzahl Gebäude LINIE Gebiet Darstellung Wesen Platz Fläche Zeit

II

III

261 229

10 0 0 1 11 12 7 5 7 13 6 12 7 3 2 5 5 4 5 10 5 3 9 1 1 6 8 7 11 0 11 3 8 17 4 4 7 11 4 11

145 144 143 115 100 85 4 76 68 65 55 55 54 54 54 53 53 49 48 47 45 44 44 44 43 40 40 40 40 39 37 36 36 36 35 35 32 31

IV

Zug Gang Element Seite Satz Runde Spiel Schlag Modell Sinn Arbeit Alte Stufe Stock Stand Spiegel Schluß LINIE Härte Ausdruck Strich Strenge Stimme Spitze Schnitt Punkt Lager Lage Grund Galerie Ansatz Welt Verbindung Stärke Schale Ruf Moral Kreis Haus Grosse

Erläuterungen zu Tab. 26: I II III IV V VI

= Substantive mit höchsten H-Werten = H-Werte = P-Werte = Substantive mit höchsten P-Werten = P-Werte = H-Werte.

Substantive in Großbuchstaben stehen sowohl in Spalte I als auch in Spalte IV. Die mit einem Klammeraffen gekennzeichneten Wörter sind Ersatzkernkonsrituenten.

V

VI

29 22 21 20 20 20 19 19 19 18 18 18 17 17 17

8 13 7 19 12 4 14 13 3 9 20 0 16 5 10

17 17 17 16 16 16 16 16 16 16 16 16 16 16 15 15 15 15 15 15 15 15 15

36 3 19 3 3 4 6 3 27 5 10 6 0 3 4 29 9 2 4 1 13 8 21

17 17

2 2

142

Wert größer als ' 9 ' und vierzehn Wörter einen P-Wert kleiner als ' 5 ' . Ähnlich sieht es bei den Substantiven mit hohen PWerten aus: Fünfzehn Wörter besitzen -Werte, die größer als ' 9 ' sind und sechzehn Wörter einen P-Wert, der niedriger als ' 5 ' ist. Die verwendeten Ersatzkernkonstituenten, die aus lexikologischen und lexikographischen Überlegungen in die Untersuchungen einbezogen worden sind, beeinflussen die Berechnungen des Korrelationskoeffizienten natürlich sehr negativ, aber auch "Gesamtheit" und " P f l a n z e " weisen niedrige PWerte auf. Es wird in Kapitel 7 zu untersuchen sein, ob lexikographische Mangel des DUDUNI die Ursache für zu niedrige P-Werte sein können.

6.5.3.2

Die Verteilung der dynamischen K o e f f i z i e n t e n

In der Tabelle 27 i ° - ist die Entwicklung der Korrelationsk o e f f i z i e n t e n mit steigenden Variablenwerten dargestel1t.11 > Die Maximalwerte pro Z e i l e finden sich fast immer zu den beiden höchsten P-Werten als Obergrenze, wobei die D i f f e r e n z e n zwischen den Spaltenwerten unter ' 2 2 ' und ' 2 9 ' nur minimal s i n d . 1 1 1 ' Die Maximalwerte steigen zunächst kontinuierlich an (von den H-Werten ' 4 ' bis ' 1 4 ' ) / liegen dann etwa auf gleicher Höhe, erreichen zum -Wert ' 2 ' als Zeilenobergrenze den höchsten K o e f f i z i e n t e n und f a l l e n mit weiter zunehmenden Zeilenwerten a l l m ä h l i c h wieder ab. Der jeweilige Maximalwert pro Spalte klettert mit wachsenden P-Werten von ' 0 . 2 3 6 ' ( -Wert = 4/P-Wert = 4 als Grenze) 109) V g l . S. 143 dieser Arbeit. 110) In den Spalten ist ab dem P-Wert ' 4 ' jeder zweite Wert und der Höchstwert ' 2 9 ' vertreten; die Z e i l e n enthalten bei unteren und mittleren -Werten jeden zweiten und bei oberen -Werten ausgewählte Werte. Die eingetragenen K o e f f i z i e n t e n sind mit 1000 multipliziert und auf drei S t e l l e n begrenzt, so daß der Wert '189' als '0.189' zu lesen ist. 111) Die höchsten Werte pro Spalte sind unterstrichen und die pro Z e i l e mit einem vorangestellten Dollarzeichen gekennzeichnet.

Tabelle 27: ,1 I

0

1

Korrelat i onskoe f f i z i entendynamik 1 3 4

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 1 0

1

2

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21 22

29

189

227

244

251

258

254

260

258

261

$261 261

226

271

280

283

297

298

305

304

305

1305 305

236

297

306

308

320

335

342

340

340

342 $346

229

296

309

310

324

344

355

358

357

359 {362

225

293

307

307

322

345

354

356

359

360 $362

224

288

304

304

319

342

353

354

364

369 $371

221

283

298

297

311

332

342

347

357

362 $363

216

279

195

300

314

341

349

353

362

366 $367

213

273

293

300

312

336

343

355

367

371 $372

218

274

290

296

307

337

346

357

369

372 $373

217

273

290

296

306

335

344

355

367

370 $371

217

272

293

298

310

342

350

360

371

374 $375

217

275

299

302

313

343

355

365

375

378 $378

215

268

292

293

304

337

352

361

370

373 $373

216 216

272 272

292 294

293 294

306 310

337 340

352 354

360 362

369 370

372 $372 373 $373

219

270

294

292

308

337

350

363

371

$373 373

210 210

261 261

286 289

285 287

307 308

333 334

346 346

357 357

365 365

$367 367 $367 366

198

251

279

279

299

324

335

347

354

$355 355

197

248

275

275

294

319

330

341

347

$349 349

198

246

271

274

292

315

325

336

342

$344 343

192

239

263

265

281

302

311

321

327

$329 328

192

240

262

264

284

304

312

321

326

$328 327

192

240

262

262

282

305

312

320

325

$326 326

192 192 192 159 132 095 095 3 4

238 238 238 210 186 149 149 5 6

256 256 256 234 213 178 178 7 8

256 256 256 234 214 181 180

274 277 276 258 241 210 206

302 303 299 281 264 232 224 16 17

310 310 305 287 270 238 229 18 19

$315 314 314 $315 309 $310 291 $292 $274 274 241 $242 232 $232 20 21 22

9 10

296 297 294 276 259 228 221 12 13 14 15

315 314 309 291 274 242 232 29

Erläuterungen zu Tab. 27: I

= P-Werte = Maximalwerte pro Spalte

II = H-Werte $ = Maximalwerte pro Z e i l e

II 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261

144

auf 0.37 ( -Wert = 28/P-Wert = 2 9 ) . Je größer der P-Wert ist, desto größer ist auch der -Wert, der den höchsten Korrelationskoeffizienten pro Spalte b e s t i m m t . 1 1 2 ' Betrachtet man die Gesamtdynamik der Korrelationskoeffizienten, so lassen sich keine ausgesprochenen Ausreißer finden. L e d i g l i c h zwischen den -Werten 43' ( " A r t " ) und 44 1 ("Gesamtheit") liegt zu a l l e n K o e f f i z i e n t e n ein größerer Sprung vor. Ein Cut dieser Werte würde den Gesamtkoeffizienten allerdings nur von .2321 1 (Berücksichtigung a l l e r 7179 Substantive) auf .3095 1 (zu den Variablenwerten -Wert - 143/P-Wert = 2 9 ' ) verbessern. Die Ursache liegt in der großen P-Wertedifferenz zwischen den Wörtern "Gesamtheit" (P-Wert = 1) und "Art" (PWert = 11) . t ! 3 > Zur Variablen ' P o l y s e m i e 1 ist ein Extremwertcut an keinem Punkt gerechtfertigt, weil die Maximalkoeffizienten pro Z e i l e immer zu den höchsten P-Werten a u f t r e t e n . 1 1 4 ' Betrachtet man die Tafel nur bis zum -Wert = 28/P-Wert = 2 9 ' , so steigen innerhalb dieses Bereichs nicht nur der Maximalkoeffizient, sondern a l l e K o e f f i z i e n t e n bei wachsenden H- bzw. P-Werten.

6.5.3.3

Die Beurteilung der Resultate

Berücksichtigt man ausschließlich den Gesamtkorrelations· k o e f f i z i e n t e n , so muß unter Berücksichtigung der hier benutzten Methoden die Arbeitshypothese zum Variablenpaar

112) Lediglich zum P-Wert 6 1 liegt der höchste K o e f f i zient pro Spalte in einer niedrigeren Z e i l e ( ' 1 0 ' ) als der vorherige; allerdings sind die benachbarten höheren Koeffizienten in der gleichen Spalte (zu den H-Werten ' 1 2 ' und ' 1 4 ' ) nur geringfügig niedriger als der Koeffizient .355' zu -Wert = 10/P-Wert = 16'. 113) V g l . Tab. 26, S. 141 dieser Arbeit. 114) Berechnet man die Korrelationskoeffizientendynamik zu den PS- oder PSS-Werten, so verringern sich sämtliche K o e f f i z i e n t e n gegenüber den Resultaten zu den P-Werten. Die dazugehörigen Tafeln sind in den Tabellen 12 bis AI5 im Anhang enthalten.

145

'Häufigkeit/Polysemie'

i i s i zurückgewiesen werden. D e r K o -

e f f i z i e n t zu den Rohdaten erreicht l e d i g l i c h einen Anteil erklärter Varianz von 5.39 % . i i f c i Dieser läßt sich durch Datentransformationen auf höchstens 12.66 % (P-/HS-Werte) steigern, und durch die Ermittlung des maximalen Korrelationskoe f f i z i e n t e n in der Kontingenztafel auf 14.32 % ( -Wert ' 2 8 ' / P Wert ' 2 9 ' ) . Für einen eindeutigen Zusammenhang dieser beiden Variablen muß dies als zu wenig angesehen werden. Allerdings existieren innerhalb der ersten beiden Quadranten der Kontingenztafein mehrere a u f f ä l l i g e Tendenzen. Zu 7130 Substantiven (bis zum H-Wert ' 2 8 ' ) bestätigt sich die Annahme, daß die untersuchten Wörter mit zunehmenden HWerten auch steigende P-Werte enthalten. Die Mittelwertverbindungslinien verlaufen zu den Spalten bzw. Zeilen im Bereich der unteren Variablenwerte relativ p a r a l l e l und verzeichnen einen kontinuierlichen Anstieg pro Z e i l e bis zum -Wert 1' und pro Spalte bis zum P-Wert ' 8 ' . Im ersten Quadranten existiert eine starke Akkumulation der Counts, insbesondere in der linken oberen Ecke. Somit steigen bis zu einem Limes (H-Wert = 2 8 ) die H- und P-Werte gleichermaßen, und für kleine Variablenwerte g i l t , daß niedrige Hilfe diese taf e l

-Werte mit niedrigen P-Werten z u s a m m e n f a l l e n . 1 1 7 ' Mit einer Korrelationskoeffizientenberechnung läßt sich R e l a t i o n nicht zeigen; jedoch belegen die Kontingenzzur Countverteilung und die Mittelwertverbindungslinien

diesen Zusammenhang zwischen beiden Variablen. Beim Merkmal 'Polysemie' ist die Verwendung von Äquidistanzen zur Polysemiedifferenzierung unter linguistischen Aspekten problematisiert w o r d e n . 1 1 8 ' Für die Berechnung der Korre115) V g l . Kap. l dieser Arbeit. 116) Zur Berechnung der erklärten Varianz vgl. S. 111 dieser Arbeit, Anm. 64. 117) Es scheint eher so zu sein, daß die Formulierung der Arbeitshypothese "Je häufiger ein Substantiv desto umfangreicher die Polysemie" geändert werden müßte in: Je seltener ein Substantiv vorkommt, desto weniger Bedeutungen hat es. 118) Vgl. Kap. 6 . 2 . 2 dieser Arbeit.

146

lationskoeffizienten zwischen 'Polysemie 1 und 'Abstraktheit 1 bzw. 'Häufigkeit' haben diese Äquidistanzen jedoch keinen negativen E i n f l u ß auf die Höhe des K o e f f i z i e n t e n . In nahezu a l l e n Fällen führen die gewurzelten P-Werte zu schlechteren Koeffizienten im Zusammenhang mit den beiden anderen Variablen als die R o h d a t e n . 1 1 9 ) Somit widerspricht die Form der Polysemieverteilung, die wegen ihrer Schiefe aus statistischen Überlegungen eine Transformation verlangt, den Resultaten, die bei der Koeffizientenberechnung erzielt werden. Allerdings ist in Frage zu stellen, ob das Resultat einer empirischen Untersuchung - hier: die Korrelationskoeffizienten - überhaupt nachtraglich die applizierte Methode mit H i l f e eines Vergleichs der j e w e i l s höchsten K o e f f i z i e n t e n q u a l i f i z i e r e n sollte. Angesichts der vorliegenden Ergebnisse lassen sich die Widersprüche zwischen den inhaltlich motivierten Argumenten bzw. Schiefemaßen und den Korrelationskoeffizientenvergleichen nicht eindeutig auflösen. Zum Attribut 'Häufigkeit 1 sind die äquidistanten Skalierungen ebenfalls unter inhaltlichen Gesichtspunkten nicht zu rechtfertigen, wenn man eine Überbewertung hoher -Werte vermeiden w i l l . Unter statistischen Betrachtungen ist eine Datentransformation a l l e i n wegen der großen Schiefe der Verteilung gerechtfertigt. Während die Wurzelung der -Werte für den Gesamtkorrelationskoeffizienten positive Auswirkungen hat, läßt sich anhand der Koeffizientendynamik zu den gewurzelten Verteilungen i 2 0 ) eine Verschiebung des maximalen Korrelationskoeffizienten pro Z e i l e zu höheren -Werten, eine N i v e l l i e rung der Differenzen zwischen den Koeffizienten und eine Verbesserung der Koeffizienten zu hohen -Werten feststellen. Dagegen verschlechtert eine doppelte Wurzelung die H-Werteverteilung in jedem Falle (die Koeffizienten zu niedrigen H119) V g l . Kap. 6 . 4 . 2 und 6 . 4 . 3 dieser Arbeit. 120) V g l . Tabellen A12 bis A15 im Anhang.

147

Werten werden auch schon durch die einfache Würze lung negativ b e e i n f l u ß t ) . Der maximale Korrelationskoeffizient zum Variablenpaar 'Häufigkeit/Polysemie 1 wird jedoch bei keinem Transformationsschritt von einem der K o e f f i z i e n t e n in den Tafeln erreicht.

6.5.4

Fazit aus den Berechnungen

Für die Beurteilung der drei Arbeitshypothesen sind verschiedene Methoden der Datendeskription, -exploration und -interpretation eingesetzt worden. Dabei hat sich erwiesen, daß die m u l t i p l e n Datenanalysen unbedingt notwendig sind, um eine umfassende Interpretation der Zusammenhänge zwischen den Variablen vornehmen zu können. Hütte man die ermittelten Daten einfach mit einem der üblichen Statistikprogramme analysiert, um die Korrelationskoeffizienten ermitteln zu lassen, wäre in a l l e n F ä l l e n eine relativ große Unabhängigkeit zwischen den Variablen herausgekommen. Es ist auch deutlich geworden, daß die vorgenommenen Datentransformationen kein statistischer Kunstgriff s i n d , 1 2 1 ) sondern das Modell der linearen Korrelation und die Definition der Variablen einen E i n f l u ß auf die Resultate haben und daß Transformationen die Variablen modifizieren, um eine bessere Ausnutzung des M o d e l l s zu gewährleisten. Für Forschungsarbeiten im Bereich der Quantitativen Linguistik ergibt sich daraus das Desiderat, grundsätzlich umfangreiche Datenanalysen und vor a l l e m die Methoden der EDA einzusetzen, w e i l dann die Palette der Eigenschaften von Vertei121) Man kann noch weitere Transformationen vornehmen; dies würde jedoch den Rahmen dieser Arbeit sprengen und über das Z i e l der Wurzelungsoperationen, die extreme Schiefe der Verteilungen zu korrigieren, hinausgehen.

148

lungen bzw. Datenmengen detaillierter eruiert werden kann. Dies gilt insbesondere in bezug auf die Berechnung von Korrelationskoeffizienten, ist aber für andere quantitative Untersuchungen zur Struktur der Sprache in ähnlicher Weise anzustreben. Für die hier vorliegenden Datensätze müssen die Explorationen zu Ende geführt werden, indem eine Reflexion der applizierten Methoden bei der Datenerhebung erfolgt. Nur dann kann der E i n f l u ß von möglicherweise vorliegenden Fehlern in der Datenerhebung (hierunter f a l l e n z . B . die Verwendung von äquidistanten Zählmaßen oder die entwickelte Methode der Abstraktheitsbestimmung) auf die erzielten Resultate richtig eingeschätzt werden.

7.

Die Bewertung der Resultate

In einer abschließenden Betrachtung der drei untersuchten Variablen s o l l e n die Untersuchungsmethoden aus V l, V 2 und V 3 sowie die benutzte Datenbasis, das DUDUNI, einer kritischen R e f l e x i o n unterzogen werden. Neben den unmittelbaren Auswirkungen, die die lexikographischen Kodifikationsprinzipien des Wörterbuchs auf die Untersuchungsresultate haben, wird auch die lexikographische Qualität des DUDUNI zur Diskussion stehen, und es s o l l e n Vorschläge zur Wörterbuchoptimierung gemacht werden.

7.l

Die Abstraktheitsbestimmung

Nach ADMONI erscheinen Abstrakta als unteilbare Gesamtbegriffe, die Merkmale, Zustände, Eigenschaften oder Vorgänge bezeichnen, während Konkreta, zu denen Gattungs-, Stoff-, Eigenund Sammelnamen gehören, etwas Wahrnehmbares, Gegenständliches oder Dinghaftes benennen. 1 ' In ähnlicher Weise werden in der DUDEN-Grammatik 2 > Abstrakta als Begriffswörter definiert, die Nichtgegenständliches, etwas Gedachtes, bezeichnen und von den Konkreta, den Gegenstandswörtern, abzugrenzen s i n d . 3 » Zwar sind die Definitionskriterien in beiden Arbeiten recht unscharf, so werden auch in der DUDEN-Grammatik Gattungsbezeichnungen ("Personen", "Tiere", " P f l a n z e n " , " D i n g e " ) * > als Konkreta betrachtet, die 1) 2) 3) 4)

V g l . Admoni 1982, S. 90 ff. Duden 19 4. V g l . Duden-Grammatik 1984, S. 196 ff. V g l . Duden-Grammatik 19 4, S. 198.

150

Kriterien können aber für eine subjektive Einschätzung des Abstraktheitsgrades von Substantiven h i l f r e i c h sein. Unter den hundert Substantiven, die in V l die höchsten AWerte erhalten, 5 > findet man bei Benutzung der Abgrenzungskriterien der DUDEN-Grammatik sowohl Konkreta ( u . a . "Motor", "Wettkampf", "Fahrzeug", "Wirbeltier", "Foto", "Schreibpapier", "Schriftstück") als auch Abstrakta ( u . a . "Wesen", "Tatsache", "Zustand", "Verlangen", "Einigung", "Masse"). Vergleicht man dagegen eine Auswahl von hundert Substantiven mit dem niedrigsten gemessenen -Wert, . 0 7 1 , * ' so ist ein deutlicher Unterschied zwischen den Substantivgruppen beider Tabellen feststellbar. Die Tabelle A17 beinhaltet überwiegend Konkreta, und man findet nur wenige Wörter, die nach der DUDEN-Grammatik als abstrakt anzusehen sind, z . B . "Kastration", "Kasus", "Kriminalität", "Kündigung" oder "Lähmung". Bei der subjektiven Beurteilung des Abstraktheitsgrades von Substantiven der Tabelle A16 wird deutlich, daß die Mehrdeutigkeit einiger Lexeme eine eindeutige Entscheidung für Konkretheit oder für Abstraktheit verhindert. ? > Bei der Verwendung dieser Wörter in Texten werden vor a l l e m die ko- und kontextuellen Bedingungen den Abstraktheitsgrad des j e w e i l i gen Substantivs beeinflussen oder bestimmen. Jedoch muß man auch in Betracht ziehen, daß die Abstraktheitsbestimmungsmethode in V l ein neu entwickeltes Verfahren darstellt und die Resultate bezüglich ihrer Validität möglicherweise eine nicht ausreichende Stabilität aufweisen. Zu einer Verbesserung der Abstraktheitsbestimmung kann auch die Überprüfung und Optimierung der definitorischen Abgrenzungen > beitragen. Besondere Probleme hat in V l die Verwendung der Ersatzkernkonstituenten bereitet. Jede Erklärung mit " j m d . , der" 5) V g l . Tab. A16 im Anhang. 6) V g l . Tab. A17 im Anhang. 7) U . a . sind folgende Wörter gemeint: "Motor", "Weg", "Dichtung", "Verfügung", "Verfassung". ) V g l . Kap. 2 und Kap. 3.2 dieser Arbeit.

151

wird durch die Substantivkette "Mensch - Lebewesen - Wesen" und jede Erklärung mit " e t w . , das" 9 | durch "Gegenstand", "Sache" oder "Ding" fortgesetzt. Dies führt dazu, daß die genannten Substantive ("Mensch", "Lebewesen", "Wesen", "Gegenstand", "Sache", "Ding") die höchsten -Werte besitzen. Zwar treten diese Substantive auch in anderen Ketten auf ( z . B . "Mensch" hinter " K i n d " , "Gegenstand" hinter "Gerät"), aber die -Werte werden durch die Ersatzkernkonstituenten besonders erhöht, so daß im Verhältnis zu diesen Substantiven die übrigen Wörter mit sehr hohen -Werten ( " T e i l " , "Substanz", " S t o f f " , " W e i s e " ) 1 0 1 nicht optimal bewertet werden. Die anderen D e f i n i t i o n e n haben keinen erkennbaren negativen E i n f l u ß auf die A-Wertebestimmung gehabt; die Zahl der Lemmalücken und das Auftreten des lexikographischen Z i r k e l s , zwei Aspekte, die in früheren Untersuchungen 1 1 ( zu Resultatsverzerrungen geführt haben, sind nur selten zu beobachten. ! 2 ' Für die beiden Substantive "Lebewesen" und "Wesen" hat sich gezeigt, daß ihre -Werte zu weit vom Körper der Verteilung entfernt l i e g e n . 1 3 > Diese Extremwerte werden sowohl durch die hohe Häufigkeit, mit der beide Wörter in den Ketten vorkommen, als auch durch die Anzahl der Ebenen, in denen die Substantive auftreten, bestimmt. Anhand der Tabelle 2 1 4 > kann man beobachten, daß beide Substantive in fast a l l e n Ebenen der Kettenbildung mindestens einmal erscheinen. Für hohe Abstraktheitsindices auf den oberen Ebenen ist insbesondere die M u l t i p l i k a t i o n mit dem Ebenenwert 1 5 > verantwortlich. Zwar kommt es durch die Entscheidung, den Mediän 9) Statt "etw., das" kann auch " e t w . , was", "das, was" oder " a l l e s , was" in der Erklärung stehen. 10) V g l . Tab. A16 im Anhang. 11) Schierholz 1989, S. 125 f. 12) In der Stichprobe I mußten 96 Ketten wegen eines nichtlemmatisierten Substantivs in einer Kette abgebrochen werden, in der Stichprobe II 125 Ketten. 13) V g l . Kap. 6 . 5 . 1 . 2 dieser Arbeit. 14) V g l . S. 152 dieser Arbeit. 15) Zum Berechnungsmodus für die Abstraktheitsindices vgl. Kap. 3.8 dieser Arbeit.

152

Tabelle 28:

Abstraktheitsindices zu "Lebewesen" und "Wesen"

Lebewesen

I

Ebene

1 2 3 4 5 6 7

II

_..

1.6 27.18 53.72 78.45 62.04 210 ^

2.08 22.74 48.4 73.65 42 80.78 133.36

Wesen

I 0.67 0.32 3.39 54.48 123.55 234.48 210 533.36

II

0.54 0.32 4.29 47.68 107.9 204 188.44 400

Erläuterungen zu Tab. 28: I = Stichprobe I II = Stichprobe II. Ein fettgedruckter Wert kennzeichnet den in der Mitte liegenden Abstraktheitsindex (Median) der beiden Substantive pro Stichprobe. Wenn in einer Spalte zwei Werte fettgedruckt sind, so ist zwischen beiden das arithmetische Mittel zu b i l d e n .

als

-Wert zu benutzen, zu einer erheblichen Verkleinerung

der Abstraktheitsindices, aber noch günstiger wäre es, die E i n f l ü s s e hoher Ebenenwerte zu minimieren, um extreme A-Werte zu senken. Dies kann z . B . durch einen Proportionalitätsfaktor, der k l e i n e r als Eins ist und mit den Ebenenwerten multip l i z i e r t wird, geschehen. Eine derart m o d i f i z i e r t e Berechnungsmethode ergäbe für jedes Wort neue -Werte, die eine weniger breite Streuung der Variablen zur Folge hätten. Zur direkten Vergleichbarkeit mit den in V l ermittelten Werten wäre eine erneute Untersuchung an dem hier benutzten Datenmaterial angebracht. Bei der vorgeschlagenen Berechnungsmodifikation würden sich jedoch die Rangplätze der e i n z e l n e n Substantive kaum verändern. Somit wären die neuen -Werte für eine Berechnung der K o r r e l a t i o n s k o e f f i z i e n t e n zwar besser

153

operational isierbar, aber es ist nicht vorhersagbar, in welcher Weise sich die K o e f f i z i e n t e n ändern würden. Eine Alternative besteht darin, zu jedem -Wert den Einf l u ß der Auftretenshäufigkeit der Substantive in den B e g r i f f s ketten zu m i n i m i e r e n : Dividiert man den -Wert Jeden Substantivs durch die Summe der Auftretenshäufigkeit in a l l e n Ketten, so rechnet man die Auftretenshäufigkeit wieder heraus und erreicht somit eine Normierung für jeden -Wert, der in V l ermittelt worden i s t . 1 6 ' Dieses Divisionsverfahren ist mit den 1664 Substantiven der ersten Stichprobe aus V l durchgeführt worden. Eine Liste der 100 Substantive, die die höchsten normierten Werte (= A ' Werte) besitzen, ist in der Tabelle 1 e n t h a l t e n . - 7 Vergleicht man die Resultate mit denen der Tabelle A16 1 8 : , in der die 100 Substantive mit den höchsten -Werten aus V l enthalten sind, so erkennt man bei subjektiver Einschätzung, daß die A'-Werte den Abstraktheitsgrad der einzelnen Substantive wesentlich schlechter wiedergeben als die in V l ermittelten A-Werte. Dadurch wird auch d e u t l i c h , daß die Auftretenshäufigkeit in den Begriffsketten i n h a l t l i c h nicht stabil ist und ledigl i c h als ein Gewichtungsfaktor bei der A-Wertebestimmung in V l anzusehen i s t . i Q Insgesamt zeigt die Diskussion um eine optimale Bestimmungsmethode zur Abstraktheit von Substantiven, daß es letzt16) Eine andere Vorgehensweise schlägt Hammerl vor: Eine Normierung kann durchgeführt werden, wenn man für die Countverteilung der Wörter nach deren -Werten eine begründete, diskrete Verteilung wählt und aus den empirischen Counts die Ordinatenwerte a b l i e s t . Somit ließe sich jedem -Wert aus V l ein genormter -Wert (Ordinatenwert) zuordnen, so daß unter der Voraussetzung, daß die gewählte Countverteilung der Abstraktheit g i l t , die -Werte untereinander vergleichbar sind (Persönliche Mitteilung von Herrn H a m m e r l ) . 17) V g l . Anhang, A 30. 18) V g l . Anhang, A 28. 19) Die Häufigkeit als Gewichtungsfaktor ist nicht zu verwechseln mit der Häufigkeit als Variable, wie sie in V 2 auf der Basis anderer D e f i n i t i o n e n verwendet wird.

154

lieh dem einzelnen Forscher überlassen bleibt, welche Operational isierungsschritte vorgenommen, warum und mit welcher Gewlchtung bestimmte Variablen oder Werte berücksichtigt w e r d e n . 2 0 ' So hat auch HAMMERL, der sich von den oben genannten Autoren 2 i ) am intensivsten mit der Abstraktheitsbestimmung auf der Basis des MARTINschen Verfahrens auseinandergesetzt hat, unterschiedliche Ansätze entwickelt b z w . wieder verworfen, um die Zusammenhänge besser zu erklären. Zugleich ist eine wissenschaftliche Diskussion zu diesem Thema ständig im Wandel, und der Optimierungsprozeß kann innerhalb einer Untersuchung nicht unendlich lange fortgesetzt werden, w e i l man dann nie zu einem Abschluß käme. Es soll jedoch demonstriert werden, daß die in V l verwendete Methode eine Verbesserung gegenüber Resultaten darstellt, die nur durch die Begriffskettenbildung Zustandekommen. Dazu sind in der Tabelle 29 2 2 > die abstraktesten Substantive beider Ansätze a u f g e l i s t e t . 2 3 ) Betrachtet man die Substantive, die nach der Kettenbildung in beiden Stichproben auf den Ebenen Sieben und Acht stehen, so kann man erkennen, wie die Berechnungsmethode in V l auf die A-Wertebestimmung der abstraktesten Substantive wirkt: Falls ein Substantiv nur z u f ä l lig oder nur einmal in einer der oberen Ebenen vorkommt, so führt das nicht grundsätzlich zu einem hohen -Wert: Das Substantiv "Grundbestandteil" ist in der Kettenbildung als Erklärungswort zu "Element" aufgetreten und ist selbst nicht im DUDUNI lemmatisiert. Dadurch kann das genus proximum zu "Grundbestandteil", nämlich "Bestandteil" nicht in einer höheren Ebene vorkommen. Hier liegt ein lexikographischer Mangel der Da20) Es ist denkbar, das vorgeschlagene Normierungsverfahren durch Benutzung eines kleineren Divisors, z . B . die Wurzel oder den Logarithmus der Auftretenshäufigkeit in den Ketten, zu optimieren, bis die Verteilung weder eine extreme Schiefe aufweist noch die -Werte einzelner Substantive einer subjektiven Einschätzung widersprechen. 21) V g l . S. 22 dieser Arbeit, Anm. 19.

22) V g l . S. 155 dieser Arbeit. 23) Die Zielsetzungen beider Untersuchungen verlaufen nicht ganz in die gleiche Richtung: In den semantischen Modellen Altmann/Kinds und Hammerl s wird versucht, mit H i l f e

155

Tabelle 29:

Substantive auf oberen Abstraktheitsebenen

Eheine

V 1

Wort

I

II

Wesen Ding Einheit Lebewesen Sache Gegenstand Strecke Substanz Aktion Grundbestandtei 1 Kunstwerk Mensch Organismus Tatsache Wort

8,7 8,7

8,7 7 8,7 8,7 8,7 7

7 7 7 7 7

7 7 7 7 7 7 7 7

Rang 1 6 21 2 5 4 192 6 195 125 240 3 12 19 76

A-Wert 83.402 9.075 2.3375 53.14 9.6825 12.82 0.525 6.29 0.5225 0.74 0.44 15.16 4.2525 2.675 1.0325

Erläuterungen zu Tab. 29: I = Stichprobe I II = Stichprobe I I . tenbasis vor, der die Resultate der Kettenbildung beeinflußt, aber die Ergebnisse in V l kaum, weil der Berechnungsmodus die Häufigkeit des Auftretens in den Ebenen berücksichtigt. Von den Wörtern, die zu den zehn Substantiven mit den höchsten -Werten z ä h l e n , 2 * ) ist " T e i l " das erste Löxem, welches nicht in der Ebene Sieben oder Acht auftritt, bei dem der Martinschen Daten die strukturellen Beziehungen im System der Sprache zu erfassen. Dagegen ist in V l intendiert, jedem untersuchten Substantiv einen empirischen AWert zuzuordnen, um damit Analysen zur StrukturbeZiehung zwischen Substantiven anstellen zu können. Natürlich ist es auch möglich, die Zielsetzungen von Altmann/Kind mit H i l f e der Resultate aus V l zu verfolgen, nur wären dann noch weitere Arbeitsschritte, wie der Entwurf eines mathematisch formulierten Modells zur Beschreibung der Struktur der ermittelten -Werte, erforderlich. 24) Vgl. Tab. AI6 im Anhang.

156

also die Häufigkeit des Auftretens in einer Explikationskette den Ausschlag für einen hohen -Wert gibt. Natürlich kann und s o l l an dieser Stelle nicht jeder Einz e l f a l l danach untersucht werden, wie abstrakt das Wort einzuschätzen ist, wo es in den Explikationsketten auftritt oder welche Faktoren für die Höhe des j e w e i l i g e n -Wertes verantw o r t l i c h sind. Die genannten Beispiele können l e d i g l i c h als Repräsentanten einiger typischer F ä l l e angesehen werden. W i l l man die Resultate aus V l besser evaluieren, kann ein Vergleich mit anderen Verfahren der Abstraktheitsmessung von Substantiven angestellt werden. Allerdings s o l l dies nur exemplarisch e r f o l g e n , w e i l eine V i e l z a h l von Abstraktheitsbestimmungen, die sich sowohl in der Methodik als auch der Zielsetzung stark unterscheiden, in verschiedenen w i s s e n s c h a f t l i c h e n D i s z i p l i n e n anzutreffen sind. Ein weiteres Problem besteht darin, daß viele Untersuchungen, insbesondere d i e j e n i g e n , die mit empirischen Methoden arbeiten, zum Z i e l haben, die Abstraktheit von Texten oder die Abstraktheit einzelner Wörter unter kognitionspsychologischen Gesichtspunkten zu b e s t i m m e n . 2 - ' Einen empirischen Ansatz zur Abstraktheitsmessung, das "Abstraktheitssuffix-Verfahren", haben GÜNTHER/GROEBEN ^ b ; i n Anlehnung an GILLIE 2 7 · entwickelt. Das Verfahren ist erfolgreich zur Differenzierung verschiedener Textsorten (wissenschaftliche Texte versus narrativen Texten) eingesetzt worden. * ; Dabei wird die Abstraktheit durch eine Auswahl von 25) V g l . u . a . Baschek/Bredenkamp/Oehrle/Wippich 1977, Flesh 1950, G i l l i e 1957, Günther/Groeben 1978, Hoffmann 1983, Hoffmann/Zießler/Grosser/Kämpf 1985, K l i x 1967, K l i x 1976, K l i x 1985a, K l i x 1985b, Pikas 1965, Schwibbe 1981, Tancr6 1975. 26) Günther/Groeben 1978. 27) G i l l i e 1957. 28) Die von Günther/Groeben benutzten Suffixe kennzeichnen einerseits Texte, die durch Nominalstil geprägt sind, andererseits Texte, in denen viele Fremdwörter benutzt werden. Die Addition dieser beiden Kriterien dürfte aber für

157

Substantivsuffixen (-heit, -ie, -ik, -ion, -ismus, -ität, -keit, -nz, -tur, -ung) ermittelt. Eine Applikation dieses Verfahrens an den Resultaten aus V l kann nur mit einem Teil der Suffixe durchgeführt werden, w e i l v i e l e S u f f i x e , die GÜNTHER/GEGEBEN benutzen, fast nur in Fremdwörtern auftreten. Diese werden in der Wissenschaftssprache und besonders in wissenschaftlichen Arbeiten häufig erscheinen, während in einer Bedeutungserklärung eines Bedeutungswörterbuchs des Deutschen gerade keine Fremdwörter stehen s o l l t e n . Untersucht man die Suffixe der hundert abstraktesten Wörter aus V I , so findet man insgesamt 24 Suffixe aus der Liste GtiNTHER/GROEBENS, von denen die Endungen '-ung' (14mal) und '-heit' ( 3 m a l ) am häufigsten belegt s i n d . 2 9 » Die typischen Fremdwortendungen (-ie, -ik, -ion, -ismus, -itat, -nz, -tur) treten nur selten a u f . Vergleicht man dagegen die Suffixe der Substantive mit niedrigen A - W e r t e n , 3 0 > so existieren hier nur neun Substantive, die die aufgelisteten Endungen enthalten, und darunter sind fünf Fremdwortsuffixe. Bei der Durchsicht der Wörter mit hohen -Werten f ä l l t außerdem auf, dafl das Abstraktheitssuffix-Verfahren wichtige abstrakte Wörter, insbesondere kurze Wörter ("Wesen", "Sache", "Ding", " T e i l " ) , nicht erfassen kann.a i > Jedoch s o l l t e man versuchen, mit H i l f e der in V l ermittelten Resultate die Abstraktheit von Texten zu bestimmen 3 2 ) und einen Vergleich mit dem Abstraktheitssuffix-Verfahren vor-

29) 30) 31) 32)

die Erkennung wissenschaftlicher Texte schon ausreichen, so daß die erfolgreiche Abgrenzung gegenüber narrativen Texten nicht verwundert. Man findet auch dreimal die Endung ' - n i s ' , die in der Liste von Günther/Groeben nicht enthalten ist. V g l . Tab. A17 im Anhang. V g l . Schwibbe 19 4, S. 39, vgl. Kisro-Völker 1984, S. 140. Es würde den Rahmen dieser Arbeit sprengen und den aufgestellten Zielsetzungen widersprechen, wenn an dieser S t e l l e eine empirische Untersuchung zur Abstraktheitsmessung von Texten angestellt werden würde.

158

nehmen. Denkbar ist, daß eine Kombination beider Methoden eine verbesserte Abstraktheitsmessung ergeben würde, weil die Schwachen des Verfahrens von GÜNTHER/GROEBEN durch die empirischen Werte aus V l behoben werden könnten. Ein Verfahren, das auf der Lexemebene entwickelt worden ist und auch auf Texte angewendet werden kann, wäre wegen seiner Vielseitigkeit anderen Verfahren der Abstraktheitsbestimmung überlegen. Um die in V l applizierte Methode von einer a l l z u großen Wörterbuchabhängigkeit zu befreien, s o l l t e n in Wiederholungsversuchen mehrere Wörterbücher bei der Begriffskettenbildung benutzt werden. Zwar birgt das die Gefahr subjektiver Entscheidungen, - welche Kernkonstituente wähle ich, wenn die Wörterbücher verschiedene anbieten ? - aber man erreicht dadurch einen allgemeineren Gültigkeitsanspruch der Resultate. Da es sich bei der Methode der A-Wertebestimmung um ein sehr langwieriges Verfahren handelt, das im ersten Schritt (der Kettenbildung) nicht mit dem Computer erfolgen kann, wäre es wünschenswert, wenn man anhand von Stichproben (etwa in der Größe der hier angelegten) mit einem Schätzverfahren auch die -Werte weiterer Substantive ermitteln kann. Besonders geeignet sind dazu Variablen, die mit den hier ermittelten Werten hohe Korrelationen a u f w e i s e n . 3 3 > Mit einem Schätzverfahren ließe sich die Bestimmung der Abstraktheit von Substantiven erheblich schneller und ökonomischer durchführen . 33) In einem Probeversuch ist mit H i l f e der Variablen 'Häufigk e i t 1 und 'Polysemie 1 versucht worden, die A-Wertebestimmung der in V l nicht analysierten Wörter vorzunehmen. Dabei hat sich herausgestellt, daß die gute Korrelation zwischen 'Häufigkeit' und 'Abstraktheit 1 brauchbare A-Werte ergibt, die jedoch durch die schlechte Korrelation zwischen ' P o l y s e m i e 1 und 'Abstraktheit 1 immer nach unten korrigiert werden. Dadurch ergaben sich für jedes Substantiv grunds ä t z l i c h nur -Werte zwischen ' und ' ! ' , so daß dieser Ansatz nicht weiterverfolgt worden ist.

159

7 .2

Die Häuf igkeitsbestimtnung

Durch die Häufigkeitsbestimmung der Kernkonstituenten erhält man einen Einblick in die innere Struktur des Wörterbuchs. Die Gültigkeit der Resultate muß aber nicht nur auf das Wörterbuch beschränkt bleiben, sondern kann bei Übereinstimmungen mit Häufigkeitsuntersuchungen zum Deutschen, die auf Texte als Datenbasis zurückgreifen, erweitert werden. Außerdem s o l l eine mathematische Beschreibung der univariaten Distribution versucht werden, um ein formalisiertes Verfahren zur Beschreibung der Lexik zu entwickeln.

7.2.1

Lexikologischer Vergleich

Die benutzten definitorischen Abgrenzungen 3 * > zu V 2 konnten optimal formuliert werden, weil Untersuchungserfahrungen zur Häufigkeitsbestimmung am "dtv-Wörterbuch der deutschen Sprache" 3 5 ) v o r l i e g e n . 3 6 ' In der Durchführung von V 2 hat sich die Benutzung von Ersatzkernkonstituenten als richtig erwiesen. Insgesamt treten diese 374mal a u f . Die Lexeme "jemand" und "etwas" ( b z w . die zusammengesetzten Formeln " j m d . , der" und "etw., das"), die zu den häufigsten Erklärungswörtern in V 2 gehören, können jedoch semantisch noch genauer d i f f e r e n z i e r t werden, weil sie nicht nur Personen b z w . Sachen erklären, sondern u . a . auch Vorgänge, Tätigkeiten oder H a n d l u n g e n . 3 7 > W i l l man jedoch die Häufigkeitsuntersuchungen mit H i l f e eines Wörterbuchs ausdehnen und 34) 35) 36) 37)

V g l . Kap. 2 und Kap. 4 dieser Arbeit. Wahrig 19 1. V g l . Schierholz 198 . V g l . im DUDUNI u . a . die Lemmata: "Begebenheit", "Folge", "Glück", "Unheil", " Z u f a l l " .

160

wortartenübergreifend arbeiten, so ist es von Vorteil, die Indefinitpronomen nicht durch ein Substantiv zu ersetzen. Dadurch hätte man eine Verbindung, eine Schnittstelle, zwischen Substantiven und Pronomina gewonnen, die sich aus dem existierenden Datencorpus ergibt. Eine zweite Schnittstelle bilden die substantivierten Verben, die in dieser Untersuchung nicht als Kernkonstituente berücksichtigt worden s i n d . a e i i n dem untersuchten Datencorpus sind insgesamt 577 verschiedene Wörter aufgetreten, die nicht als Erklärungswort benutzt werden konnten. Davon sind v i e l e wegen ihrer zirkulären Bedeutungserklärung ( z . B . für "Beseelung" "das Beseelen") nicht gezählt worden. Wenn man "das Beseelen" als Verb "beseelen" in das Datencorpus implementieren würde, hätte man eine Verbindung zwischen den Verben und den Substantiven, die im DUDUNI zum Erklärungswortschatz gehören, hergestellt. Für derartige Untersuchungen bietet sich das Master Corpus als Ausgangsbasis an. Damit würde das Datencorpus erheblich anwachsen, aber man bekäme einen E i n b l i c k in die innere Wortschatzstruktur des DUDUNI, der nicht auf eine Wortart beschränkt b l e i b t . Ein großes Problem bei Wortschatzuntersuchungen anhand eines Wörterbuchs stellen die Lemmalücken dar. Im Gegensatz zu anderen Untersuchungen 3 9 > liegt im DUDUNI der Anteil der nicht lemmatisierten Kernkonstituenten (682 Wörter) am Gesamtwortschatz der Erklärungswörter (6036 Wörter) bei 11.3 % . Dies ist immer noch ein relativ hoher Prozentsatz, allerdings handelt es sich bei diesen Substantiven um nicht sehr häufig auftretende Erklärungswörter; mit der Häufigkeit ' 3 1 oder mehr existieren nur acht Substantive, die als Kernkonstituente fungieren und selbst nicht lemmatisiert sind. Von diesen Wörtern treten nur "Geldbetrag" (9mal) und "Personengruppe" ( 6 m a l ) häufiger als dreimal a u f . Dies kann als ein befriedi38) V g l . Kap. 2 . 2 . 8 dieser Arbeit. 39) V g l . Schierholz 1988, S. 465 ff. Im dtv-Wahrig sind vom Wortschatz der Erklärungswörter (9119 Substantive) 5191 Wörter (= 57 %) nicht lemmatisiert.

161

gendes Resultat betrachtet werden, so daß das DUDUNI für zukünftige Wortschatzunteruchungen - zumindestens für den Bereich der Substantive - eine gute Datenbasis d a r s t e l l t . 4 0 ; Durch eine Gegenüberstellung der Substantive, die in zwei verschiedenen Wörterbüchern zu den häufigsten gehören, läßt sich prüfen, ob die Resultate aus V 2 auch auf andere Wörterbücher übertragbar sind. Die Tabelle 30 4 1 ' zeigt eine hohe Übereinstimmung zwischen den häufigsten Erklärungswörtern im DUDUNI und im WAHRIG-Wörterbuch. Ein Vergleich der absoluten Zahlen kann durchaus erfolgen, w e i l die untersuchte Lemmamenge in beiden Wörterbüchern ungefähr gleichgroß ist. Von 40 Substantiven treten 27 ( a l l e in Großbuchstaben geschriebenen Wörter) sowohl im DUDUNI (Spalte I) als auch bei WAHRIG (Spalte IV) a u f . Von den restlichen Substantiven hat kein Lexem einen -Wert unter ' Z e h n 1 , und unter den 15 häufigsten Wörtern ist nur "Angehörige(r)" bei WAHRIG und nicht im DUDUNI unter den häufigsten 40 L e x e m e n . 4 ' 1 Somit kennzeichnen die ermittelten -Werte nicht nur das Auftreten der Substantive als Kernkonstituente im DUDUNI, sondern Substantive, die in Wörterbüchern häufig in den lexikalischen Paraphrasen auftreten und demnach ein besonders hohes Explikationspotential besitzen. Wenn diese Lexeme auch in Häufigkeitsuntersuchungen, die auf Textauszählungen beruhen, besonders häufig erscheinen, so kann die Bedeutung und Stabilität der in V 2 ermittelten Werte noch intensiviert werden. Zu diesem Zweck wird ein Vergleich zu dem Frequenzwörterbuch von MEIER 4 3 > durchgeführt. 40) Lemmalücken sind lexikographisch vor a l l e m von Bedeutung, wenn es sich dabei um Lexeme aus dem Explikationsvokabular handelt oder um Wörter, die in den Benutzungshinweisen eines Wörterbuchs auftreten. Z i e m l i c h fruchtlos erscheint es, wenn man im Wörterbuch nach irgendwelchen seltenen Wörtern sucht, um Lemmalücken aufzudecken; v g l . u . a . Bergenholtz/Mugdan 1986, S. 32 und 100 ff. 41) V g l . S. 162 dieser Arbeit. 42) Da in der Untersuchung zum Wahrig-Wörterbuch keine Ersatzkernkonstituenten gezählt worden sind, haben diese in Spalte III keine Eintragungen. 43) Meier 1967.

162

Tabelle 30;

I

Substantivvergleich zu zwei Wörterbüchern

II

261 229 145 4 GESAMTHEIT 144 143 5 ART 115 6 STELLE 100 7 PERSON 85 8 MENSCH 9 GEGENSTAND 4 76 10 GRUPPE 68 11 RAUM 12 STÜCK 65 13 ZUSTAND 55 14 VORRICHTUNG 55 15 PFLANZE 54 54 16 MENGE 17 Bereich 54 18 GERÄT 53 19 Äußerung 53 20 FORM 49 21 STOFF 48 22 Weise 47 23 ORT 45 44 24 TIER 44 25 FÄHIGKEIT 26 EINHEIT 44 43 27 Handlung 28 ZEICHEN 40 29 Wort 40 30 Beschaffenheit 40 31 ABSCHNITT 40 32 Anzahl 39 33 Gebäude 37 34 Linie 36 35 GEBIET 36 36 DARSTELLUNG 36 37 WESEN 35 38 Platz 35 39 Fläche 32 40 ZEIT 31

1 TEIL

2 ©Person 3 ©Sache

263 136 71 76 74 180 95 71 91 67 55 75 36 74 14 92 24 45 51 15 50 46 42 40 32 44 28 28 39 24 32 26 39 35 42 34 31 50

V

IV

III

1 TEIL 2 MENSCH

3 Angehörige(r) 4 GESAMTHEIT 5 GEGENSTAND 6 GERÄT 7 RAUM 8 STELLE 9 VORRICHTUNG 10 MENGE 11 PERSON 12 ART 13 GRUPPE 14 STÜCK 15 ZUSTAND

16 17 18 19

Bewegung Verbindung STOFF ORT

20 ZEIT

21 Kind 22 TIER 23 FORM

24 Lehre

25 ZEICHEN 26 FÄHIGKEIT 27 WESEN

28 Masse

29 30 31 32 33 34 35 36 37 38 39

EINHEIT ABSCHNITT GEBIET Behälter Körper Land PFLANZE Weg DARSTELLUNG Ende Frucht

40 Werkzeug

263 180 167 136 95 92 91 76 75 74 74 71 71 67 55 54 52 51 50 50 46 46 45 45 44 42 42 41 40 39 39 38 37 36 36 36 35 35 35 35

Erläuterungen zu Tab. 30; I

= Substantive aus dem DUDUNI

I I , VI =

III, IV

-Werte aus V 2

V = Häufigkeiten aus dem dtv-WAHRIG-Wörterbuch = Substantive aus dem dtv-WAHRIG-Wörterbuch.

Die Wörter in Großbuchstaben stehen in Spalte I und IV.

VI 261 85 21 144 84 53 68 115 55 54 100 143 76 65 55 31 29 48 45 31 15 44 49 10 40 44 35 27 44 40 36 19 17 22 54 26 35 17 20 16

163

MEIERS Untersuchungen, die sich auf die Auszählungen KAEDINGS 4 4 > stützen, stellen zwar keine aktuelle Repräsentation des deutschen Wortschatzes dar, dafür l i e f e r n sie aber umfangreiches Datenmaterial, das auf 10 910 777 Wortformen (Tokens) basiert. Für 2240 Wörter existiert auch eine Häufigkeitszählung der Types (bei MEIER B e g r i f f s w ö r t e r ) , die nach Wortarten und in "Begriffswörter, deren verschiedene Wortformen n i c h t i n a n dere Begriffswörter ü b e r g r e i f e n " , 4 5 ' "Begriffswörter, die eine oder mehrere Wortformen g e m e i n s a m haben" 4 6 > u n d "Begriffswörter, d i e m e h r e r e Wortformen gemeinsam haben" « 7 > , aufgeteilt sind. In der Tabelle 31 4 e > sind die 100 häufigsten Substantive mit ihren Häufigkeitswerten aus V 2 und den Häufigkeitswerten nach MEIER eingetragen. Wenn die Werte von MEIER auf mehreren Tokens beruhen, so ist dies markiert. Für Substantive, die sich nicht in der Begriffswortliste MEIERS befinden, sind aus der alphabetisch sortierten Häufigkeitsverteilung * ·» > der Tokens die Types errechnet, indem die Häufigkeiten a l l e r Flexionsformen zu einem Lemma addiert worden sind. Für die Ersatzkernkonstituenten sind die Häufigkeiten zu "jemand" b z w . "etwas" eingetragen worden. Nur 22 Substantive der T a b e l l e 31 haben bei MEIER einen Häufigkeitswert unter ' 5 0 0 ' , 9 Substantive unter ' 2 5 0 ' . Für die markierten Substantive ist der Vergleich nur unter Einschränkungen möglich, w e i l die Zahlen MEIERS die Tokens aus Wörtern verschiedener Wortarten zusammenfassen. Jedoch läßt sich anhand der häufigen Substantive eine relativ gute Übereinstimmung beider Untersuchungsresultate f e s t s t e l l e n . Auch die Form der Verteilung sieht bei MEIER ähnlich wie in V 2 aus: Das "Vergleichsspektrum" enthält wenige Wörter, die häufig auftre44) 45) 46) 47) 48) 49)

Kaeding 1898. Meier 1967, Bd. 2, Meier 1967, Bd. 2, Meier 1967, Bd. 2, V g l . S. 164 dieser Meier 1967, Bd. 2,

S. 138 ff. (Hervorhebungen im O r i g i n a l ) . S. 141 f. (Hervorhebungen im O r i g i n a l ) . S. 142 ff. (Hervorhebungen im O r i g i n a l ) . Arbeit. S. 3 ff.

Tabelle 31:

100 Substantive mit höchsten II

I

1 Teil 2 @Person 3 »Sache 4 Gesamtheit 5 Art 6 Stelle 7 Person 8 Mensch 9 Gegenstand 10 Gruppe 1 1 Raum 12 Stück 13 Zustand 14 Vorrichtung 15 P f l a n z e 16 Menge 17 Bereich 18 Gerat 19 Äußerung 20 Form 21 Stoff 22 Weise 23 Ort 24 Tier 25 Fähigkeit 26 Einheit 27 Handlung 28 Zeichen 29 Wort 30 Beschaffenheit 31 Abschnitt 32 Anzahl 33 Gebäude 34 Linie 35 Gebiet 36 Darstellung 37 Wesen 38 Platz 39 Fläche 40 Zeit 41 Gefühl 42 Bewegung 43 Schicht 44 Kraft 45 Gebilde 46 Werk 47 Verhalten 48 Verbindung 49 Gefäß 50 Anlage

III

-Werten in V 2 IV

261 9410 51 Sache 229 1234 52 Punkt 145 8462 53 Masse 144 230 54 Haltung 143 5430 55 Wert 115 10610(+) 56 Weg 100 3360 57 Einrichtung 85 8750 58 Stellung 84 2410 59 Folge 76 600 60 Ergebnis 68 2 1 8 0 ( + ) 61 Verhältnis 65 2220 62 Zeitraum 55 2430 63 Organ 55 202 64 Mann 54 7 1 0 ( + ) 65 Land 54 2050 66 Eigenschaft 54 210 67 Bild 53 2 5 8 ( + ) 68 Wirkung 53 730 69 Tätigkeit 49 4210(+) 70 Substanz 48 1570 71 Größe 47 14750(*) 72 Angehörige 45 2760 73 Vorstellung 44 1220 74 Vertiefung 44 429 75 Veranstaltung 44 383 76 Meinung 43 1450 77 Material 40 1150 78 Frucht 40 8310 79 Frau 40 443 80 Flüssigkeit 40 500 81 Beziehung 39 1220 82 Auseinandersetzung 37 670 83 Arbeit 36 1710 84 Zahl 36 6 0 3 0 ( * ) 85 Umstand 36 1075 86 Seite 35 2240 87 Maß 35 2500 88 Behälter 32 493 89 Ausdruck 31 16270 90 Strecke 31 2280 91 Mittel 31 2690 92 Blatt 30 406 93 Vorgang 30 479K + ) 94 Text 30 95 Spieler 172 29 4040 96 Reihe 29 687(+) 97 Mitglied 29 2290 98 Körper 29 496 99 Geld 28 830 100 Figur

V 27

4790 27 2220 27 1670 27 471 26 3 4 5 9 ( * ) 26 9 6 2 1 ( * ) 26 1280 25 3000 25 4506(+) 24 630 23 5519 22 339 22 690 22 10670 22 5780 22 1070 22 3280 21 2139 21 1590 293 21 21 1150 21 285 20 1030 20 155 20 89 20 2360 20 940 920 20 20 6350 20 400 20 1970 20 115 20 6190(+) 19 3 8 7 0 ( + ) 19 2840 19 8210 19 2160(*) 57 19 19 2 3 7 0 ( + ) 18 860(+) 18 3470(+) 18 1597(+) 17 650 17 393 17 56 17 1870 17 2220 17 1940 17 2520 17 1670

Erläuterungen zu Tab. 31: I , IV II, V I I I , VI (+) (*)

= Substantive mit höchsten H-Werten = -Werte aus V 2 = Häufigkeiten nach MEIER 1967, Bd. 2, S. 3 = Häufigkeitswert zu Wörtern aus zwei verschiedenen Wortarten = Häufigkeitswert zu Wörtern aus mehreren verschiedenen Wortarten.

VI

ff.

165

ten und v i e l e Wörter, die nur zwei- oder einmal vorkommen.s o Betrachtet man ROSENGRENS H ä u f i g k e i t s z ä h l u n g e n zur deutschen Z e i t u n g s s p r a c h e , 5 1 ' so kann man zwar auf aktuellere Frequenzangaben als bei MEIER z u r ü c k g r e i f e n , die Resultate verändern sich indes kaum. Von den 100 häufigsten Substantiven des Master Corpus sind 83 unter den 3000 häufigsten Wörtern ( a l l e Wortarten) der Zählungen zur "Süddeutschen Zeitung" zu finden. 5 2 ) von den 83 Substantiven sind 48 ( b z w . 51 bei den Frequenzangaben zur Zeitung "Die W e l t " 5 3 ! ) unter den häufigsten 1000 Wörtern bei ROSENGREN a u f z u f i n d e n . s * > gen,

Abweichun-

die für die in dieser Arbeit getätigten Untersuchungen

relevant sind, lassen sich zwischen MEIERS und ROSENGRENS Daten bei einer v i s u e l l e n Inspektion nicht entdecken. Häufigkeitsverteilungen, die auf der Basis von Kernkonstituenten in den lexikalischen Paraphrasen eines Wörterbuchs beruhen, unterscheiden sich a l s o nicht grundsätzlich von den Zählungen, die anhand der Auszählung von Texten e n t s t e h e n . 5 5 · Zur Entdeckung von Sprachstrukturen bietet das Wörterbuch jedoch Vorteile, w e i l das Wörterbuch das Produkt einer lexikographischen Bearbeitung von Texten und somit eine andere Qualität darstellt als sonstige Textsorten.

Zudem ist eine Häufig-

k e i t s z ä h l u n g mit einem Wörterbuch ökonomischer, w e i l die Rückführung der Tokens auf Types einfacher ist. Untersucht man das ganze Wörterbuch oder Stichproben aus mehreren Wörterbüchern, e n t f ä l l t das bekannte Corpusproblem (Repräsentativität der auszuwertenden Texte). 50) 51) 52) 53) 54) 55)

V g l . Meier 1967, Bd. l, S. 54 und S. 408. Rosengren 1977. V g l . Rosengren 1977, S. 313 ff. V g l . Rosengren 1977, S. 223 ff. V g l . Rosengren 1977, S. 313 ff. Um dies als eine gesicherte Aussage betrachten zu können, s o l l t e n mathematische Vergleiche auf der Basis großer Wortmengen durchgeführt werden.

166

Der Variablen ' H ä u f i g k e i t ' kann nach Abschluß der Untersuchungen eine grundlegende Funktion bei der Deskription von WortschatzStrukturen zugesprochen werden. Mit der Häufigkeit, mit der ein Substantiv als Erklärungswort für ein anderes Substantiv stehen kann, wird g l e i c h z e i t i g ausgedrückt, wie polyfunktional dieses Substantiv ist. Um dies auch terminologisch zum Ausdruck zu bringen, s o l l t e man in lexikologischen Zusammenhängen statt von der 'Häufigkeit' von der P o l y f u n k t i o n a l i t ä t sprechen. Für lexikologische Untersuchungen wird der Aufbau eines Polyfunktionalitätswörterbuchs 5 6 > angeregt, welches d a s Explikationsvokabular als Lemmata und die erklärten Stichwörter als lexikalische Paraphrasen enthält. Auch für die Ermittlung von Grund- und Kernwortschätzen stellt die Polyfunktionalität eine wichtige R o l l e dar. Zwar wird man zu einer empirisch orientierten Kernwortschatzisolation auch andere Variablen benötigen, aber da die Polyfunktional ität eines Wortes seine Explikationspotenz für andere lexematische Einheiten widerspiegelt, scheint diese Variable eine dominante R o l l e zu spielen. Nicht nur für den Schulunterricht, sondern vor a l l e m für Fremdsprachl er und insbesondere für diejenigen, die nur wenig Deutsch sprechen, ist es von groSer Bedeutung, wenn sie am Anfang die Wörter lernen, die eine hohe Extension und eine große Benutzungsvielfalt aufweisen. Dazu reichen natürlich Substantive nicht aus, sondern es müssen auch andere Wortarten untersucht werden. Der unmittelbare Nutzen von Häufigkeitszählungen in der Lexikographie wird in einem gesonderten Kapitel erörtert werden. 5 7 '

56) Der Terminus "Häufigkeitswörterbuch" ( b z w . "Frequenzwörterbuch"), der sich aufgrund der Terminologie in V 2 ergeben würde, ist in der Lexikographie schon eindeutig belegt (für Häufigkeiten in Texten), so daß es nur zu Verwechselungen kommen könnte. 57) V g l . Kap. 7.5 dieser Arbeit.

167

7.2.2

Der Versuch einer mathematischen Beschreibung

Häufigkeitszahlungen von Substantiven liegen zu zwei Wörterbüchern, dem DUDUNI und dem "dtv-Wörterbuch der deutschen Sprache" s » ) , v o r . s " ) Um die Ähnlichkeit der Resultate genau prüfen zu können, s o l l e n die Charakteristika der Distributionsdaten zum DUDUNI erfaßt werden, indem eine Anpassung mathematischer Funktionen an die Daten versucht wird. Dazu werden die gleichen vier curvilinearen Funktionen mit zwei Kenngrößen o i benutzt, die bereits zum WAHRIG-Wörterbuch ausgewählt worden waren, um eine unmittelbare Vergleichbarkeit der Verteilungen aus beiden Wörterbüchern zu ermöglichen. 6 l )

7.2.2.1

Die Potenzfunktion

Diese curvilineare Funktion kann progressiv b z w . degressiv und steigend b z w . f a l l e n d verlaufen. Das Ausgangsmodell lautet: y = ax .

Es erfolgt Linearisierung durch Logarithmieren: l o g y = l o g a + b log

.

Die Anwendung des Kleinst-Quadrat-Kriteriums auf die logarithmierte Fassung ergibt die Normalgleichungen (Struktur des linearen Ansatzes): 5 ) Wahrig 19 1. 59) V g l . Schierholz 1988, S. 466.

60) V g l . Dietrich/Schmutzler 1968. 61) Beide Anpassungen werden mit dem gleichen DV-Programm berechnet, das zur Anpassung der Wahrig-Daten entwickelt worden ist, so daß auf der Ebene der Berechnung Vergleichbarkeit herrscht.

168

Σ log y

= N l o g a

+ b Σ log x

Σ log x log y

= l o g a Z l o g x + b Z ( l o g x )

ο

Die Aufl sung der Gleichungen nach den Unbekannten ergibt:

(Σ log y) (Σ ( l o g x ) 2 ) - (Σ log χ) (Σ log χ log y) log a =

N Σ (log x ) 2 - (Σ log χ) (Σ log x)

N Σ log x log y - (Σ log y) (Σ log x) b =

N Σ ( l o g χΓ - (Σ log χ) (Σ log x)

W i l l man die Daten einsetzen, mu man delogarithmieren, um die urspr ngliche Fassung der Potenzfunktion zu erhalten: a = exp ( l o g a) .

7.2.2.2

Die Exponentialfunktion

Der Verlauf dieser Funktion ist durch progressives Ansteigen oder F a l l e n gekennzeichnet. Das Ausgangsmodell lautet: y = ab x .

Es erfolgt Linearisierung durch Logarithmieren: l o g y = log a + l o g b x . Die Anwendung des Kleinst-Quadrat-Kriteriums auf die logarithmierte Fassung ergibt die Normalgleichungen: Σlogy

= N l o g a + l o g b Σ x

Σ x log y

= log a Σ χ + log b Σ x

.

169

Die A u f l sung nach den Unbekannten ergibt:

(Σ log y) (Σ x 2 ) - (Σ χ) (Σ χ log y) log a =

log b =

N (Σ x 2 ) - (Σ χ) (Σ x) N (Σ χ log y) - (Σ log y) (Σ x) ~ N (Σ x*) - (Σ χ) (Σ x)

Man mu delogarithmieren, um die urspr ngliche Fassung der Exponentialfunktion zu erhalten:

a = exp ( l o g a) b = exp ( l o g b ) .

7.2.2.3

Die Logarithmusfunktion

Diese Funktion verl uft degressiv steigend bzw. f a l l e n d und erreicht keinen S ttigungspunkt. Das Ausgangsmodell lautet: y = a + b logx . Da hier keine Linearisierung notwendig ist, NormaIgle i chungen:

Σy

lauten die

= N a + b Σ l o g x

Σ y log x = a Σ log x + b Σ ( l o g x) Die A u f l sung der Gleichungen nach den Unbekannten ergibt:

170

(Σ y) (Σ ( l o g χ ) 2 ) - (Σ log χ) (Σ y log x) a =

Ν Σ ( l o g χ ) 2 - (Σ log χ) (Σ log χ)

Ν Σ y log χ

- (Σ y) (Σ log χ)

Ν Σ ( l o g χΓ - (Σ log χ) (Σ log χ) 7.2.2.4

Die Hyperbel

Der Verlauf dieser Funktion ist degressiv steigend b z w . f a l lend mit einer S ttigung bei a. Das Ausgangsmodel l lautet:

y= Es ist keine Linearisierung notwendig, so da gleichungen lauten:

die Normal-

Die Aufl sung der Gleichungen nach den Unbekannten ergibt;

(Σ y) (Σ a =

2)

- (Σ



N

N (I £> - (Σ y) (Σ s b =

N (t i a ) - (Σ i, (Σ i

Tabelle 32:

Beobachtete und berechnete Countwerte nach Häufigkeiten

X

y

*P

*E

*L

*H

1

3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4 3 3 1 2 3 1 1 4 1 3 1 1 1 1

1882.7 624.4 327.4 207.1 145.1 108.6 84.9 68.7 56.9 48.1 41.3 36.0 31.7 28.2 25.2 22.8 20.7 18.9 17.3 16.0 14.8 13.8 12.8 11.9 11.2 10.5 9.9 9.3 8.8 8.4 7.9 7.6 6.6 6.3 6.0 5.5 5.3 4.7 4.5 4.4 4.1 4.0 3.8

394.1 386.2 378.6 371.0 363.7 356.4 349.3 342.4 335.6 329.0 322.4 316.0 309.7 303.6 297.5 291.6 285.8 280.2 274.6 269.1 263.8 258.5 253.4 248.4 243.4 238.6 233.9 229.2 224.7 220.2 215.8 211.6 199.2 195.2 191 .4 183.8 160.2 169.6 166.3 163.0 156.5 153.4 150.4

888.1 723.5 627.2 558.8 505.8 462.5 425.9 394.2 366.2 341.2 318.5 297.9 278.9 261.3 244.9 229.5 215.1 201.6 188.7 176.5 164.9 153.9 143.3 133.2 123.5 114.2 105.3 96.6 88.3 80.3 72.4 64.9 43.6 36.9 30.4 17.9 11.9 - 5.3 - 10.7 - 16.1 - 26.4 - 31.4 - 36.3

3012.9 1436.4 910.8 648.1 490.4 385.3 310.2 253.9 210.1 175.1 146.4 122.5 102.3 85.0 70.0 56.9 45.3 35.0 25.8 17.4 9.9 3.1 - 3.1 - 8.8 - 14.1 - 18.9 - 23.4 - 27.6 - 31.5 - 35.1 - 38.5 - 41.7 - 50.1 - 52.6 - 55.0 - 59.4 - 61.4 - 66.9 - 68.6 - 70.1 - 73.1 - 74.5 - 75.9

2 3 4 5 6 7 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35 36 37 39 40 43 44 45 47 48 49

172

Tabelle 32:

(Fortsetzung)

yp

y

X

53 54 55 65 6Θ 76 Θ4 85 100 115 143 144 145 229 261

2 3 2 1 1 1 1 1 1 1 1 1 1 1 1

3.4 3.3 3.2 2.4 2.3 1.9 1.6 1.6 1.2 1.0 0.7 0.7 0.7 0.3 0.3

yE 138.8 136.0 133.3 109.1 102.7 87.5 74.5 73.0 54.0 40.0 22.8 22.3 21 .9 4.1 2.1

yL

yH

- 55.0 - 59.4 - 63.8 -103.4 -114.1 -140.6 -164.3 -167.2 -205.8 -239.0 -290.7 -292.4 -294.1 -402.6 -433.6

- 80.7 - 81.8 - 82.9 - 91.7 - 93.8 - 98.7 -102.7 -103.1 -108.7 -112.8 -118.2 -118.3 -118.5 -126.5 -128.1

Erl uterungen zu Tabelle 32: χ y Yp YE γ^ YH

7.2.2.5

= = = = = =

absolute H ufigkeit beobachtete Werte errechnete Werte der errechnete Werte der errechnete Werte der errechnete Werte der

Potenzfunktion Exponentialfunktion Logarithmusfunktion Hyperbel.

Der Vergleich der theoretischen Funktionen

W i l l man die Deskriptionsleistung der theoretischen Funktionen berpr f e n , so l t sich dies durch einen Vergleich der Determinationskoeffizienten erreichen:

D = l -

Σ (y - y)

Σ (y - y) 6 2

Σ (y - y ) '

Σ (y - y)

62) y = Mittelwert, y = vorausgesagter y-Wert, y = wahrer y-Wert.

173

Mit diesem Verfahren kann man den optimalen Funktionstyp erm i t t e l n . Es ist allerdings zu beachten, daß bei der Potenzund Exponentialfunktion die Kenngrößen a und b im Ansatz für die Prädikation der logarithmierten y-Werte und nicht der y-Werte selbst optimiert werden. Dadurch wird die Abbildungsleistung der Potenz- und Exponentialfunktion geringfügig unterschätzt. 7.2.2.6

Die Berechnung und Beurteilung der Werte

Die Mittelwert- und Varianzberechnung ergibt: Mittelwert von Varianz von Mittelwert von y Varianz von y

46.00 2622.41 104.07 245993.31

Die Summe der Abweichungsquadrate von y ist: 14267611.7 Die Berechnung der Kenngrößen a und b ergibt: Potenzfunkti on Exponentialfunktion Logarithmusfunktion Hyperbel

a a a a

1882.70 402.04 888.13 -140.22

b b b b

1.59 0.98 - 237.53 3153.16

Bei der Berechnung des Determinationskoeffizienten erhält man die Tabelle 33 ( z u m Vergleich sind die Resultate zum dtvWAHRIG angefügt). Tabelle 33:

Determinationskoeffizienten

Potenz funkt i on Exponentialfunktion Logar i thmus funkt ion Hyperbe 1

DUDUNI

Wahr i g

0.7611 0.0496 0.2827 0.8883

0.9969 0.0963 0.3027 0.8982

174

Zum DUDUNI erhält man für die Potenz funktion und die Hyperbel sehr gute D e t e r m i n a t i o n s k o e f f i z i e n t e n . 6 3 ) Für die Potenzfunktion ließe sich der K o e f f i z i e n t noch etwas verbessern, wenn man nicht die Kenngrößen a und b zuerst an den logarithmierten y-Werten optimiert hätte. Da dazu jedoch umfangreiche Verfahren notwendig wären, s o l l darauf verzichtet werden. Die Hyperbel erreicht zwar das bessere Resultat (89 % ) , aber störend wirkt sich das Schneiden der x-Achse aus, w e i l ab = 23 die berechneten y-Werte negativ werden. Die Exponential- und Logarithmusfunktionen erreichen keine guten Beschreibungsleistungen. Vergleicht man die Determinationskoeffizienten zu beiden Wörterbüchern 6 4 > , so wird d e u t l i c h , daß sich die Exponential- und Logarithmusfunktion für die Deskription der Wortschat z Strukturen 6 5 im Wörterbuch nicht eignen. Zwar wird die sehr gute Beschreibungsleistung, die die Potenzfunktion zum WAHRIG-Wörterbuch erreicht, beim DUDUNI nicht e r z i e l t , aber 76 % s t e l l e n ein befriedigendes Resultat dar. Die Hyperbel kann in beiden Wörterbüchern ähnlich gut angepaßt werden, allerdings schneiden die errechneten Werte die x-Achse, weil die berechneten y-Werte zu den unteren x-Werten den weiteren Verlauf der Kurve wesentlich bestimmen.*>*> Für weitere Wörterbuchvergleiche sollte man ausschließlich diese beiden Funktionen betrachten, über den Zusammenhang dieser mathematischen Resultate mit den lexikographischen wird in Kapitel 7.6 berichtet. 63) Der Determinationskoeffizient liegt zwischen 0 und 1. Je näher der K o e f f i z i e n t an l liegt, desto besser ist die Anpassung der Funktion. Setzt man den Determinationskoeffizienten l gleich 100 % , so lassen sich die Werte zu den Funktionen in Prozent ausdrücken. 64) Da hier nur der Wortschatz des Kernkonstituentenvokabulars betrachtet wird, haben die lexikographischen Mängel, die zum Wahrig-Wörterbuch festgestellt worden sind, hier keine Auswirkungen. 65) Es s o l l in Kapitel 7.5 gezeigt werden, daß die untersuchten Substantive repräsentativ für den Wortschatz des Wörterbuchs stehen. Dies gilt zumindestens für das DUDUNI. 66) Dies ist bei den Wahrig-Daten ab = 24 der F a l l .

175

7.3

Die Polysemiebestimmung

Für die Durchführung von V 3 hat sich die aufgestellte Polysemiedefinition b 7 ' als praktikabel erwiesen. Jedoch können die definitorischen Abgrenzungen in einigen Punkten m o d i f i ziert werden. So werden durch das Zählen von Kernkonstituenten keine qualitativen Unterschiede der Bedeutungserklärungen in einem Wörterbuchartikel registriert. 6 > Mit einem verbesserten Verfahren zur P-Werteermittlung, das zwischen verschiedenen Explikationstypen d i f f e r e n z i e r t , können Wortbedeutungen in Haupt-, Unter- oder Nebenbedeutungen - ahnlich wie es im DUDUNI durch arabische Zahlen und Kleinbuchstaben geschieht gegliedert werden. Ein derartiges Vorgehen muß aber weiterhin die intersubjektive überprüfbarkeit der Polysemiebestimmung gewährleisten. Dies dürfte nur mit einem sehr umfangreichen Regelapparat umsetzbar sein, der den Anteil subjektiver Entscheidungen des Untersuchenden auf ein Minimum zu reduzieren hätte. Ob indes eine differenziertere Polysemiebestimmung tatsächlich bessere Resultate als die in V 3 erzielten erbringt, bleibt a n z u z w e i f e l n . Betrachtet man die P-Werte der 40 Wörter, die am häufigsten im DUDUNI v o r k o m m e n , 6 9 ' so f a l l e n besonders die folgenden mit sehr niedrigen Werten auf (P-Werte in Klammern): "§Person" ( 0 ) , "©Sache" ( 0 ) , "Gesamtheit" ( 1 ) , " P f l a n z e " ( 2 ) , "Tier" ( 1 ) , "Fähigkeit" ( 1 ) , "Beschaffenheit" ( 0 ) . Bei einer Ermittlung der P-Werte zu den Ersatzkernkonstitu67) V g l . Kap. 5.2 dieser Arbeit. 68) V g l . das Beispiel zum Lemma "Landwirt", S. 77 dieser Arbeit. Aufgrund der definitorischen Abgrenzungen können die Kernkonstituenten " j m d . , der" und "Bauer" nicht unterschiedlich bewertet werden, obwohl sie einen verschiedenen semantischen Gehalt und eine unterschiedliche lexikographische Struktur aufweisen. 69) V g l . Tab. 26, S. 141 dieser Arbeit.

176

enten erhält man für "jemand" (©Person) zwei Erklärungswörter und für "etwas" (©Sache) keine Kernkonstituente, weil im Wörterbuchartikel zu "etwas" keine Bedeutungserklärung in Kursivschrift vorliegt. Der niedrige P-Wert zu "Gesamtheit" läßt sich durch eine Ergänzung in den definitorischen Abgrenzungen verändern, indem hinter "alle" jedes Substantiv als Erklärungswort zu zählen ist, das in dem Substitutionstest eingesetzt werden kann. Beispiel: S. 1472 GESAMTHEIT : 1. alle Personen, Dinge, Vorgänge, Erscheinungen, die auf Grund von bestimmten übereinstimmenden Eigenschaften, Merkmalen, Bedingungen u.a. zusammengehören, alle ... zusammen 2. Allgemeinheit.

Somit erhielte man für "Gesamtheit" den P-Wert ' 5 ' , der aus den Kernkonstituenten "Person", "Ding", "Vorgang", "Erscheinung" und "Allgemeinheit" entsteht. Allerdings wird an diesem Beispiel die unterschiedliche Erklärungspotenz eines Lexems in der Plural- bzw. Singularform verdeutlicht; denn die Erklärungswörter zu "Gesamtheit" können nur im Plural den Substitutionstest bestehen. Somit müßte man als Folge der vorgeschlagenen Definitionsergänzung eine Differenzierung der Kernkonstituenten nach grammatischen Kategorien in Erwägung ziehen. Der niedrige P-Wert zu "Fähigkeit" und "Beschaffenheit" beruht auf einer unzureichenden lexikographischen Bearbeitung der Wörterbuchartikel zu diesen Lemmata. Zu "Fähigkeit" existieren im DUDUNI neben "Anlage" drei weitere Bedeutungen

177

("Befähigtsein", "Imstandesein" und "In-der-Lage-Sein"), die wegen des S u f f i x e s "-sein" in V 3 nicht berücksichtigt worden sind und die als zirkuläre Erklärungen (insbesondere "Befähigtsein") aufgefaßt werden müssen. Zum Substantiv "Beschaffenheit" erhält man im DUDUNI nur die lexikalische Paraphrase "das Beschaffensein einer Sache". Für ein Wort, das unter 7179 Lemmata insgesamt 40mal (Rang 28 in der Häufigkeitsverteilung) auftritt, ist diese zirkuläre Explikation sehr dürftig. Da die niedrigen P-Werte zu den oben genannten Substantiven (allerdings auch zu anderen) auf lexikographische Mängel des DUDUNI zurückzuführen sind, bietet die Verwendung mehrerer Wörterbücher einen Ausweg, um den E i n f l u ß der Datenbasis auf die lexikologischen Untersuchungen zu relativieren. Benutzt man als Vergleich das "Deutsche Wörterbuch" 7 ° ' , so erhält man zu den oben genannten Substantiven folgende P-Werte (in Klammern): "jemand" ( 2 ) , "etwas" ( 1 ) , "Gesamtheit" (3), " P f l a n z e " ( 2 ) , "Tier" ( 1 ) , "Fähigkeit" ( 3 ) , "Beschaffenheit" ( 3 ) . O f f e n s i c h t l i c h ist der niedrige P-Wert zu "Tier" kein lexikographisches Fehlprodukt des DUDUNI, denn in beiden Wörterbüchern kommt (im Zusammenhang mit den Modifikatoren) nur die Kernkonstituente "Lebewesen" vor. Anders verhält es sich bei " P f l a n z e " : Hier bietet zwar jedes Wörterbuch niedrige P-Werte, aber während im DUDUNI die Erklärungswörter zu "Pflanze" "Organismus" und "Mensch" sind, findet man im "Deutschen Wörterbuch" von WAHRIG "Lebewesen" und "Person". In der Summe ließen sich somit vier verschiedene Bedeutungen zu "Pflanze" ermitteln. Wendet man dieses Verfahren (zwei Wörterbücher als Datenbasis) auf die restlichen oben aufgezählten Lemmata an, so kommt man auf folgende Ergebnisse (P-Werte in Klammern): "jemand" ( 2 ) , "etwas" ( 1 ) , "Gesamtheit" ( ) , "Fähigkeit" ( 4 ) , 70) Wahrig 1980.

178

"Beschaffenheit" ( 3 ) . Damit gelangt man zu einer Erhöhung des Polysemieumfangs, die sich über a l l e P-Werteklassen relativ gleichmäßig verteilen d ü r f t e . 7 1 » Die Erhöhung bei den Lexemen mit hohen -Werten ist jedoch von besonderer Bedeutung, weil sich dadurch erhebliche Veränderungen in der Korrelationskoeffizientenberechnung zum Variablenpaar 'Häufigkeit/ Polysemie' ergeben würden. Gerade die oben genannten Substantive beeinflussen wegen ihrer hohen Häufigkeit und niedrigen Polysemie den Korrelationskoeffizienten sehr negativ. Wenn diese Lexeme höhere P-Werte besitzen würden, dürfte der Koeff i z i e n t , der bis zum H-Wert ' 2 8 ' ständig wächst, auch bei hohen -Werten weiter ansteigen. Zwar ist damit auch ein erheblich größerer Bearbeitungsaufwand verbunden, aber unter Beibehaltung der aufgestellten Definitionen zur Polysemiebestimmung gelangt man zu einer größeren Unabhängigkeit von dem untersuchten Wörterbuch und somit zu einem verbesserten Datencorpus. G l e i c h z e i t i g würde sich auch die Liste der NA-Lemmata verkleinern, denn es ist nicht zu erwarten, daß die gleichen Lexeme, die im DUDUNI nicht lemmatisiert sind, auch in anderen Wörterbüchern f e h l e n . Weiterhin ließen sich zu den 577 KE-Lemmata, zu denen u.a. "Beschaffenheit" gehört, Bedeutungserklärungen aus anderen Wörterbüchern f i n d e n . Dies erscheint besonders wichtig zu sein, weil es unter semantischen Gesichtspunkten unsinnig ist, wenn in einer Polysemiebestimmung einigen Lexemen der PWert ' N u l l ' zugewiesen wird. An diesem Punkt wird die Abhängigkeit der Untersuchungen von dem benutzten Wörterbuch be71) Wenn man die P o l y s e m i e d e f i n i t i o n etwas weiter fassen würde und nicht nur Substantive als ErklärungsWörter zuließe, sondern auch Pronomen und substantivierte Formen, die keine zirkulären Erklärungen zum Lemma sind, dann erhielte man zu den sieben Substantiven folgende P-Werte (in Klammern): "jemand" ( 3 ) , "etwas" ( 5 ) , "Gesamtheit" ( 9 ) , P f l a n z e " ( 4 ) , "Tier" ( 1 ) , "Fähigkeit" ( 6 ) , "Beschaffenheit" ( 4 ) .

179

sonders deutlich. Diese Überlegungen zeigen, daß die Bestimmung der Polysemie erheblich stärker von der untersuchten Datenbasis, dem DUDUNI, abhängt als die Bestimmung der anderen V a r i a b l e n . 7 2 ' Somit enthält die F a l s i f i k a t i o n der dritten Arbeitshypothese keine Gültigkeit für den Wortschatz der deutschen Sprache, sondern nur für das Master Corpus, das aus dem DUDUNI ermittelt worden ist. Während für die Häufigkeitsverteilung die Gültigkeit der Resultate über das Wörterbuch h i n a u s w e i s t , 7 3 > g i l t dies für die Polysemieverteilung nicht. Die Falsifikation der Arbeitshypothesen zur Abstraktheit - Polysemie und Häufigkeit - Polysemie liegt im wesentlichen bei der Variablen ' P o l y s e m i e ' begründet. Mit ähnlichen Methoden wie in V 3 ist von KRYLOV 7 * > eine Bestimmung der Polysemie zu russischen Verben durchgeführt worden. KRYLOV hat den semantischen Gehalt von Verben anhand verschiedener Bedeutungswörterbücher ("Definitionswörterbücher" 7 5 i ) untersucht. Auch wenn aus seinen definitorischen Abgrenzungen nicht eindeutig hervorgeht, mit welchem Verfahren KRYLOV den Polysemiegehalt ermittelt h a t , 7 ' ' ) lassen sich aufgrund des Umfangs seines Datencorpus, der mathematischen Berechnungen und der resultierenden Zusammenhänge Vergleiche zu den Ergebnissen aus V 3 ziehen. KRYLOV hat das Gesetz des maximalen semantischen Gehalts formuliert, welches folgendes ausdrückt: " ( . . . ) die Menge der zweideutigen Wörter beträgt die H ä l f t e der der eindeutigen, die Menge der dreideutigen d i e H ä l f t e d e r d e r zweideutigen u s w . " 7 7 > A l l e r d i n g s i s t 72) Es kann hier zur Polysemiebestimmung nur auf eine Auswahl von (besonders wichtigen) Beispielen eingegangen werden, die für die Zielsetzungen dieser Arbeit von Bedeutung sind. 73) V g l . Kap. 7.2 dieser Arbeit. 74) Krylov 1982. 75) V g l . Krylov 19 2 , S. 234.

76) V g l . Krylov 1982, S. 237 ff. 77) V g l . Krylov 1982, S. 250.

180

KRYLOVS Annahme, daß es sich bei dem von ihm beobachteten Zusammenhang um ein "universelles Gesetz, gültig für beliebige Sprachen" 7 8 > , h a n d e l t , inzwischen von ihm selbst anhand weiterer empirischer Überprüfungen f a l s i f i z i e r t w o r d e n . 7 9 · Verg l e i c h t man die Countverteilung zur Variablen ' P o l y s e m i e ' 9 0 ) mit dem KRYLOVschen Zusammenhang, so g i l t dieser im Deutschen nur für ein-, zwei- und dreideutige Wörter. Ab X4 sind die y-Werte zu Xi größer als die Hälfte des y-Wertes zu X i - i Somit kann das KRYLOVsche Modell durch die P-Werteverteilung aus V 3 nicht bestätigt werden. Jedoch s o l l t e beachtet werden, daß die t e n d e n z i e l l e Reduktion der Wortmengen pro P-Wert im Deutschen ähnlich wie im Russischen verläuft. Die unterschiedliche Intensität der Abnahme könnte verschiedene Ausprägungen einzelner Sprachen in bezug auf ihre semantische Divers i f i k a t i o n kennzeichnen. A l l e r d i n g s läßt sich nicht nachprüfen, ob die unterschiedlichen Methoden der Polysemiebestimmung in beiden Untersuchungen für die Resultate verantwortlich sind. KRYLOV scheint die lexikographische Zuverlässigkeit des von ihm benutzten Wörterbuchs nicht in Z w e i f e l zu z i e h e n , 8 1 ein Umstand, der auf das Deutsche nicht ohne weiteres übertragen werden kann. Dies gilt aufgrund der oben festgestellten Mängel in den l e x i k a l i s c h e n Paraphrasen und der lexikographischen Kritik am Untersuchungsgegenstand. 8 2 ' Eine grundsätzliche Modifikation der Polysemiebestimmung ergibt sich, wenn man von einer Zählmethode ausgeht, die nicht auf äquidistanten Intervallen a u f b a u t . 8 3 > Unter linguistischen Gesichtspunkten erscheint die Argumentation gegen eine Verwendung von Äquidistanzen sinnvoll zu sein; jedoch sollte dieser Ansatz zukünftigen Untersuchungen zur Polysemiebestimmung vorbehalten bleiben. 78) V g l . Krylov 1982, S. 250. 79) Persönliche Mitteilung von J. Sambor und G. Altmann. 80) V g l . Tab. 14, S. 79 dieser Arbeit. 81) V g l . Krylov 1982, S. 242.

82) V g l . Kap. 7.5 dieser Arbeit. 83) V g l . Kap. 6 . 2 . 2 dieser Arbeit.

181

7.4

Der Substitutionstest

In der Diskussion zu den einzelnen Variablen sind bereits problematische F ä l l e der Datenerhebung vorgestellt worden, die in unmittelbarem Zusammenhang mit der lexikographischen Qualität des DUDUNI stehen. Es ist bislang aber noch nicht auf den Substitutionstest eingegangen worden. Dieser Test, der während der Datenerhebung die Entscheidungsgrundlage zur Bildung der Explikationsketten und Bestimmung der Polyfunktionalität sowie Polysemie der Lexeme darstellt, bildet für statistische Untersuchungen eine hervorragende Basis und stellt den Untersuchenden nur selten vor Entscheidungsprobleme. Aus lexikographischer Sicht ist der Test jedoch unzureichend, weil aus den lexikalischen Paraphrasen der Wörterbuchartikel nur das genus proximum ( f a l l s vorhanden) bzw. das erklärende Synonym oder Quasisynonym berücksichtigt wird, nicht aber die d i f f e r e n t i a s p e c i f i c a . Gerade diese kennzeichnen jedoch in einer Bedeutungserklärung die unterschiedlichen Bedeutungen der Lemmata. Beispiele: S. 537

HAMMONDORGEL

S. 693

KLAVICHORD

elektroakustisches Tasteninstrument mit variierbarer Klangfarbe, das bes. in der Unterhaltungsmusik verwendet wird.

altes Tasteninstrument, dessen Tasten am Ende Metal l stifte od. -plättchen tragen, mit denen die waagrecht liegenden Saiten angeschlagen werden.

182

Die Lexeme "Hammondorgel" und "Klavichord" sind zwar beide "Tasteninstrumente", aber der Unterschied zwischen beiden wird durch d i e d i f f e r e n t i a specifica, d i e Modifikatoren e * > , erklärt. Somit enthalten diese den entscheidenden Teil der lexikalischen Paraphrase. Dies gilt jedoch nur für umfassende Bedeutungserklärungen, die mit großer lexikographischer Sorgf a l t sowohl genus proximum als auch d i f f e r e n t i a specifica enthalten. Prüft man daraufhin das DUDUNI, so findet man (bei zufälliger Auswahl irgendeiner Wörterbuchseite) etwa gleich viele ausführliche lexikalische Paraphrasen wie Einworterklärungen. Ob dafür lexikalische Ursachen vorliegen oder ob sich ausführliche Bedeutungserklärungen für ein einbändiges Wörterbuch als unökonomisch erweisen würden oder kaufmännisch-verlegerische Gründe eine R o l l e spielen, kann hier nicht entschieden werden. Für eine Untersuchung, die insbesondere die Modifikatoren einbeziehen w i l l , müßte die Zielsetzung anders formuliert werden als in dieser Arbeit. Für die Analysen zu den strukturellen Beziehungen zwischen Substantiven reicht die Bestimmung von genus proximum, Quasisynonymen oder Synonymen aus. Für ein semantisches Netz hat man dadurch die Knoten der Netzstruktur ermittelt. In einem weiteren Schritt wären die Kanten, die Verknüpfungen zwischen den Substantiven, qualitativ zu beschreiben. Dazu benötigt man aus den Wörterbüchern die Modifikatoren, kann quantitative Merkmale (Abstraktheit, Häufigkeit, Polysemie, Wortlänge, Silbenzahl, . . . ) hinzufügen und weitere lexikalische Variablen (Hyponym, Superonym, Antonym, . . . ) 8 5 > ergänzen. * > Z u r qualitativen Beschreibung reichte auch hier die Verwendung eines einzigen Wörterbuchs nicht aus, weil man sehr stark von der lexikographischen Qualität dieses Wörterbuchs abhinge. Der Substitutionstest bildet jedoch für ein derartiges Vorhaben den ersten Arbeitsschritt und kann in der Form, wie er 84) V g l . Jansen 1977, S. 348 f. 85) V g l . u . a . Wiegand 1977b, S. 72 ff. 86) Skorochod'ko entwirft ein semantisches Netz, das weitere semantische Relationen der Lexik zur Beschreibung eines Modells enthält; vgl. Skorochod'ko 1981. Neubauer zeigt 40 "elementare lexikalische Funktionen"

183

in diesen Untersuchungen eingesetzt worden ist, lung der Netzknoten verwendet werden.

7.5

zur Ermitt-

Zur Qualität des Untersuchungsgegenstands

Als die Datenerhebungen zu den Versuchen V l, V 2 und V 3 vorgenommen worden sind, war das DUDUNI das aktuellste einbändige Bedeutungswörterbuch der deutschen Sprache, das auf dem Wörterbuchmarkt zu erhalten war. In verschiedenen Analysen zur Qualität des DUDUNI ist festgestellt worden, daß es in bezug auf die Wortschatzrepräsentation als eines der besseren Wörterbücher in der deutschen Wörterbuchlandschaft anzusehen s e i . e 7 » Dennoch haben die gleichen Autoren auch eine Fülle von kritischen Anmerkungen und Verbesserungsvorschlägen zum DUDUNI gegeben, so daß eine Überprüfung des Wörterbuchs für die Bereiche, die in unmittelbarem Zusammenhang mit den hier durchgeführten Versuchen stehen, notwendig ist.

7.5.1

Die lexikographische Kritik

Es geht in diesem Kapitel nicht darum, die umfangreiche und kritische Arbeit von BERGENHOLTZ/MUGDAN zu wiederholen oder die mangelnde Konsequenz des DUDUNI in formalen Fragen zu thematisieren. Für die in dieser Arbeit durchgeführten Untersuchungen ist es vor a l l e m wichtig, ob der Substantivwortschatz der deutschen Sprache im DUDUNI angemessen repräsentiert ist und ob sich die lexikographischen Kodifikationsprinzipien oder unbrauchbare Informationen in den lexikali-

(nach M e l ' c u k 1974), in denen die Relationen zwischen Wörtern abgebildet sind; vgl. Neubauer 1980, S. 22 ff. 87) U . a . Bergenholtz/Mugdan 1986, Knobloch 1984, Hausmann 1984. 88) Bergenholtz/Nugdan 1986.

184

sehen Paraphrasen auf die ermittelten Resultate negativ ausgewirkt haben. Durch eine Interpretation der Tabelle 34 8 9 ) wird demonstriert werden, wie man mit quantitativen Methoden die Repräsentation des Wortschatzes und - für Teilbereiche - die lexikographische Qualität eines Wörterbuchs auf einfache Weise analysieren k a n n . " > Die Werte werden in der Tabelle nach I n i t i a l e n der Lemmata (Spalte I) sortiert. In der Spalte II ist die Seitenanzahl, die im DUDUNI pro I n i tial der Lemmata zur Verfügung steht, aufgeführt. In der Spalte III findet man den durchschnittlichen Seitenumfang aus drei Bedeutungswörterbüchern 9 J ! (auf ganze Zahlenwerte gerundet), wobei diese Werte auf die Gesamtseitenzahl im DUDUNI umgerechnet worden sind, so daß man die Zahlen in Spalte II und III unmittelbar miteinander vergleichen k a n n . 9 2 1 Die Lemmamengen pro Buchstabe sind im DUDUNI gemessen an den drei anderen Wörterbüchern r e l a t i v gleichmäßig repräsentiert; < ) 3 : Ausnahmen findet man unter den Initialen "B" (DUDUNI: 81, Durchschnitt: 94) und "P" (DUDUNI: 74, Durchschnitt: 59) . Die Spalte IV enthält die Substantivmengen des Master Corpus, aufgeteilt nach Anfangsbuchstaben und umgerechnet auf die Gesamtseitenzahl des DUDUNI (1482). Ein Vergleich mit der Spalte II gibt darüber Aufschluß, ob es unter e i n z e l n e n Anfangsbuchstaben besondere Abweichungen der Lemmamengen im untersuchten Datencorpus gibt. 89) V g l . S. 185 dieser Arbeit. 90) In einigen Punkten deutet Krylov ähnliche Verfahren an; v g l . Krylov 1982, S. 240 ff. 91) Folgende Wörterbücher, die sich im Aufbau ( z . B . Art der Kompositalemmatisierung) ä h n e l n , sind benutzt worden: Wahrig 1980, Duden 1976 f f . , dtv-Wahrig 1981. 92) Die Gesamtseitenzahl im DUDUNI beträgt 1482 Seiten (1504 minus 22 Seiten Benutzungshinweise). 93) In den quantitativen Analysen zur Tabelle 34 werden die Werte zu den Buchstaben "C", " I " , "J", "Q", "X" und "Y" nicht ausgewertet, weil z . T . nur sehr k l e i n e Werte vorliegen.

185

Tabelle 34:

Lexemverteilung nach Anfangsbuchstaben

I

B C D E F G H I J K L M N 0 P Q R S T U V W X

y z

II

III

IV

V

129 81 12 61 78 66 78 87 29 11 101 48 62 34 17 74 6 61 189 56 44 62 50 1 0 45

125 94 8 59 87 72 88 93 23 10 97 49 62 36 16 59 5 58 186 49 44 60 54 1 0 47

121 116 4 43 78 82 112 70 14 6 97 55 64 28 16 55 4 58 178 58 48 70 61 0 0 44

584 561 21 208 379 398 539 341 69 27 468 266 309 135 78 268 20 283 863 281 232 341 296 0 0 212

1482

1482

1482

7179

X

VII

VIII

6.5 9.7 0 9.6 11.6 9.9 10.8 12.3 4.4 7.5 7.4 9.8 14.3 6.7 12.8 7.9 10.1 9.9 10.0 9.7 6.9 8.3 12.2 0 0 7.2

12.1 8.6 4.7 4.7 10.2 6.0 5.1 5.2 7.1 0 3.1 3.7 5.1 11.9 1.1 5.2 10.0 7.7 4.8 6.8 23.7 19.1 9.7 0 0 12.7

2.7 2.2 2.6 2.2 2.0 2. 1 2.2 2.3 2.8 1.8 2.6 2.3 2.3 1.9 2.2 2.5 2.0 2.2 2.5 2.1 1.6 1.6 1.9 0 0 2.2

9.4

8. 1

2.3

VI

Erläuterungen zu Tab. 34: I II III

= Initialen der Substantive = Seitenanzahl im DUDUNI = Durchschnittliche Seitenanzahl aus drei Wörterbüchern IV = Substantivmenge im Master Corpus pro I n i t i a l , umgerechnet auf Seitenzahl im DUDUNI V = Substantivmenge im Master Corpus VI = Prozentualer Anteil der NA-Lemmata an den Werten in Spalte V VII = Prozentualer Anteil der KE-Lemmata an den Werten in Spalte V V I I I = Polysemieverhältnis im Master Corpus.

I

B C D E F G H I J K L M N 0 P

Q

R S T U V W X

z

186

Bei einer Inspektion der Werte f a l l e n die Buchstaben "B", "F", "G" und "W" mit relativ vielen und die Buchstaben " D " , "H" und "P" mit relativ wenigen Substantiven a u f . Diese Werte, die das Verhältnis der untersuchten Substantive zur gesamten Lemmamenge im DUDUNI angeben, sind zunächst ohne entscheidende Aussagekraft, werden aber im folgenden zur Stützung lexikographischer Resultate benötigt. In der Spalte V sind die tatsächlich vorhandenen Substantive des Master Corpus nach Anfangsbuchstaben sortiert. Diese Werte bilden für die Berechnung der Daten in den Spalten VI bis V I I I den Bezugspunkt. In der Spalte VI findet man den prozentualen Anteil der NALemmata an der Gesamtzahl der Lemmata des Master Corpus. Der durchschnittliche Anteil a l l e r NA-Lemmata beträgt 9.4 % ; die meisten Lemmalücken existieren bei Substantiven mit dem Anfangsbuchstaben "M" ( 1 4 . 3 % ) , : ) 4 1 während die Lemmaauswahl zu den Buchstaben "A" ( 6 . 5 % ) , "N" ( 6 . 7 *) und "U" ( 6 . 9 %) o f f e n s i c h t l i c h sehr sorgfältig erfolgt ist. Die Spalte VII enthält den prozentualen Anteil der KE-Lemmata an a l l e n Lemmata des Master Corpus. KE-Lemmata verweisen auf Mängel in der lexikalischen Paraphrase, insbesondere das Vorkommen von Bedeutungserklärungen ohne Explikationswert, in v i e l e n F ä l l e n substantivierte Verben zu Derivaten des gleichen Grundwortes. Besonders gut scheint die lexikographische Arbeit zum Buchstaben "K" gelungen zu sein, denn dort ist der Anteil der KE-Lemmata sehr gering. Nahezu katastrophal ist der Anteil der KE-Lemmata zu "U" ( 2 3 . 7 %) und "V" (19.1 %) sowie etwas günstiger zu "Z" ( 1 2 . 7 % ) , "A" (12.1 %) und "N" (11.9 % ) . In der Spalte V I I I ist das Verhältnis von Erklärungswörtern zu Lemmata im Master Corpus angegeben. Der Durchschnitts94) Von den 44 NA-Lemmata mit dem I n i t i a l e n "M" existieren a l l e i n 11 (25 %) mit dem Kompositumsglied " M e t a l l " . Eine vergleichbare A u f f ä l l i g k e i t gibt es zum Buchstaben "H": Von 42 NA-Lemmata beginnen Komposita (19 %) mit " H o l z " .

187

wert liegt bei 2.3 Kernkonstituenten pro L e m m a ; 9 5 ) abweichende Werte findet man zum Buchstaben "A" ( 2 . 7 ) sowie zu "U" ( 1 . 6 ) , " V " ( 1 . 6 ) u n d " N " ( 1 . 9 ) . Wenn m a n nicht voraussetzt,' < > · daß die Polysemie von Substantiven sich je nach I n i t i a l verändert, dann lassen diese Abweichungen vom Durchschnitt nur den Schluß zu, daß die Substantive mit den Initialen "U", "V" und "N" mit geringerer lexikographischer Sorgfalt bearbeitet worden sind als die ü b r i g e n . 9 7 > Dies wird besonders dadurch hervorgehoben, daß in den Spalten VI bis V I I I die größten Abweichungen vom Durchschnittswert bei den zuletzt genannten Buchstaben auftreten, so daß für einige Anfangsbuchstaben folgende Schlüsse gezogen werden müssen: Der Buchstabe "U" ist lexikographisch besonders mangelhaft bearbeitet worden, weil zu den lemmatisierten Substantiven im DUDUNI die semantische Diversifikation unzureichend erarbeitet worden ist und in v i e l e n F ä l l e n nur eine Bedeutungserklärung mit H i l f e eines lexikographischen Z i r k e l s (KE-Lemmata) e r f o l g t . Zugleich sind die in der deutschen Sprache existierenden Substantive, die mit "U" beginnen, in ausreichendem Maße lemmatisiert worden, denn es gibt zum Buchstaben "U" nur wenige NA-Lemmata, und der Anteil der Substantive mit "U" liegt im Master Corpus gemessen an den Seiten, die im DUDUNI für den Buchstaben "U" zur Verfügung stehen, proportional zum Durchschnitt. Die Buchstaben "V" und "N" weisen ähnliche Tendenzen wie 95) Zu beachten ist, daß hier der durchschnittliche P-Wert auf der Basis a l l e r lemmatisierten Substantive des Master Corpus errechnet worden ist und dieser Wert vom durchschnittlichen P-Wert der im DUDUNI lemmatisierten Substantive zu unterscheiden ist ( v g l . Kap. 5.3 dieser Arbeit). 96) Es ist keine Untersuchung bekannt, die diesen Sachverhalt zum Thema hat. 97) Die Resultate Krylovs, die im Russischen den Polysemiegehalt der Lemmata mit den Initialen " I " , "K" und "S" als repräsentativ für die P-Werte des ganzen Wörterbuchs beschreiben, lassen sich auf die deutsche Sprache nicht ohne weiteres übertragen; vgl.

K r y l o v 19 2, S. 251 f.

188

"U" a u f , nur sind die Ausprägungen zu den einzelnen Merkmalen etwas schwächer. Die lexikalischen Paraphrasen zum Buchstaben "A" sind gut bearbeitet, w e i l die Polysemiedarstellung der Lemmata mit "A" sehr d i f f e r e n z i e r t erfolgt und der Anteil der NA-Lemmata sehr k l e i n ist. Die lexikographische Qualität ließe sich noch verbessern, wenn man den relativ hohen Anteil der KE-Lemmata minimieren würde. Greift man auf die Spalten I bis IV der T a b e l l e 34 zurück, so ist bemerkenswert, daß gerade die Initialen " A " , " N " , "U" und " V " , die in den Spalten VI bis V I I I die a u f f ä l l i g s t e n Werte beinhalten, bei der Verteilung der Seiten pro Anfangsbuchstaben keine nennenswerten Abweichungen aufweisen. Auch im Vergleich zu den Durchschnittswerten aus anderen Wörterbüchern (Spalte I I I ) treten diese I n i t i a l e n nicht besonders in Erscheinung. Dies belegt, daß zu den vier I n i t i a l e n " A " , " N " , "U" und "V" im DUDUNI genügend Raum zur Verfügung steht. Zudem entspricht pro Initial der Substantivanteil im DUDUNI dem durchschnittlichen Lexemanteil pro I n i t i a l . Aufgrund dieser Zusammenhänge sind nicht f a l s c h e Relationen der lemmatisierten Wortmengen im DUDUNI oder f a l s c h e Substantivanteile, sondern eine unzureichende Bearbeitung der lexikalischen Paraphrasen bei den genannten I n i t i a l e n die Ursache für die abweichenden Werte in der Tabelle 34 . "> e Zu den Substantiven mit dem Anfangsbuchstaben "U" sind jedoch noch weitere wichtige Anmerkungen zu m a c h e n . 9 9 > Zählt man a l l e Lemmata mit einem großgeschriebenen "U" am Anfang, die eine kursiv gedruckte Bedeutungserklärung enthal98) Bei Krylovs Versuch, die Wortschatzrepräsentation im Wörterbuch mit H i l f e eines Vergleichs des Polysemiegehalts verschiedener Lemmainitialen einzuschätzen, kommen lexikographische Analysen zu kurz, so daß lediglich quantitative Aussagen, aber keine qualitativen gemacht werden können; vgl. Krylov 1982, S. 243. 99) V g l . Bergenholtz/Mugdan 1986, S. 41. Die Autoren untersuchen nur das Präfix "un-" und versäumen damit wichtige Erkenntnisse. Zudem ist der Substantivanteil mit 531 Wörtern f a l s c h errechnet oder gezählt. Es sind 590 Substantive, die mit "Un" beginnen.

189

ten, so kommt man auf 1766 W ö r t e r . 1 0 0 ' Von diesen Lemmata werden d i e j e n i g e n markiert, d i e a u s s c h l i e ß l i c h eine lexikalische Paraphrase in Form einer Substantivierung der folgenden Typen enthalten: Beispiel: Typ 1:

S. 1304

ÜBEREINSTIMMUNG : das übereinstimmen.

Typ 2:

S. 1327

UNGEZWUNGENHEIT : das Ungezwungensein.

Man erhält 489 Substantive ( 2 7 . 7 % ) , die sich auf den Typ l (207 Wörter) oder den Typ 2 ( 2 8 2 Wörter) verteilen. ° > Besonders merkwürdig ist es, daß unter den ersten 640 lemmatisierten Substantiven (bis "Umzugstag"), die 177 markierte Substantive enthalten, der Typ l mit 90 % vorkommt und der Typ 2 mit 10 % . 1 0 2 » Unter den restlichen 1126 Substantivlemmata kann man 312 Wörter markieren, von denen der Typ 2 einen Anteil von 85 % , der Typ l von 15 % besitzt. Zwar enthalten die ersten 640 Lexeme häufig die Präfixe "über-" und "Um-" und die restlichen Lexeme oft die Präfixe "Un-", "Unter-" und "Ur-", aber es existiert keine linguistisch begründete Hypothese, daß Präfixe die Verwendung von substanti100)

Die Gesamtzahl ist nicht ein zweites Mal geprüft worden, so daß mit einer Fehlerquote von plus minus fünf Lemmata gerechnet werden muß. 101) Wenn in einem Wörterbuchartikel neben einer Erklärung des des Typs l oder 2 auch eine Explikation enthalten ist, die aufgrund der definitorischen Abgrenzungen in Kap. 2.2 zu berücksichtigen ist, dann ist dieses Lemma nicht bei den 489 Lemmata mitgezählt worden. 102) Das Zählverfahren sieht folgendermaßen aus: Wenn zu einem Lemma nur der Typ l oder der Typ l plus dem Typ 2 vorkommt, wird eine Eintragung unter Typ l gemacht. Unter die Gesamtmenge zum Typ 2 f a l l e n also nur die Lemmata, die nur zum Typ 2 gehören.

190

vischen Erklärungen determinieren und dies auch noch für verschiedene Präfixe nach den oben gebildeten Typen geschieht. Auch wenn für die gezeigten Phänomene zur Zeit keine befriedigende linguistische Erklärung abgegeben werden kann, so zeigen die ermittelten Daten doch deutliche Unterschiede pro I n i t i a l , die unmöglich dem Z u f a l l unterliegen können. S o l l t e beim Dudenverlag die lexikographische Bearbeitung der Wörterbuchartikel in irgendeiner Weise nach Lemmainitialen organisiert sein, so hat es sich der Bearbeiter oder das Bearbeitungsteam zum Buchstaben "U" extrem leicht gemacht. Durch die angewandten Methoden ist deutlich gezeigt worden, in welcher Weise quantitative Analysen für Wörterbücher wichtige Unregelmäßigkeiten aufdecken können. Dieser Hinweis erscheint notwendig, w e i l bisher nur selten quantitative Methoden in der Lexikographie a p p l i z i e r t worden sind, dies aber in Zukunft wünschenswert und vor a l l e m unter Z u h i l f e nahme computerlinguistischer Verfahren m ö g l i c h sein wird. Die folgenden Beispiele betreffen vornehmlich die lexikalischen Paraphrasen in den Wörterbuchartikeln. Die Gliederung der Bedeutungserklärungen in arabische Zahlen und nach Kleinbuchstaben f o l g t keiner für den Benutzer erkennbaren Systematik. 3 ; Besonders störend wirkt es sich aus, daß die Bedeutungen der Lemmata nicht in einer bestimmten R e i h e n f o l g e angegeben w e r d e n . 1 ° « ' Zu dem Lemma "Teil" existieren neun Bedeutungen, wenn man die in dieser Arbeit verwendete Polysemiedefinition zur Grundlage n i m m t . 1 0 - ' Das Lexem "Stück", das bei der Bildung von Explikationsketten in den meisten F ä l l e n die passende Kernkonstituente hinter "Teil" bedeuten würde, steht erst an neunter S t e l l e . Das Substantiv " T e i l " wird durch die anderen Kernkonstituenten des Wörterbuchartikels ( " e t w . , w a s " , "Menge", "Masse", "Teilbe103) V g l . Kap. 5 . 1 . 3 dieser Arbeit. 104) V g l . Bergenholtz/Mugdan 19 6, S. 86. 105) V g l . S. 76 dieser Arbeit.

191

r e i c h " , " A n t e i l " , "Beitrag", "Person", "Gruppe") unpräziser erklärt als durch "Stück". Von diesen anderen Erklärungswörtern weisen "Teilbereich" und "Anteil" die größte semantische Ä h n l i c h k e i t mit "Stück" a u f . Während "Anteil" wiederum " T e i l " als erste Kernkonstituente enthält, findet man in der Bedeutungserklärung zu "Teilbereich" recte geschrieben: "vgl. Teilb e g r i f f " . Da "Teilbereich" und " T e i l b e g r i f f " von unterschiedlicher Bedeutung sind, handelt es sich um einen v ö l l i g unsinnigen V e r w e i s . i O b ) F ü r d i e Kettenbildungen haben d i e Wörterbucheintragungen zu diesem Lemma eine besondere R o l l e gespielt, weil das Wort "Teil" häufig als Erklärungswort in den Ketten auftritt und in sehr v i e l e n Fällen das erste verwendbare Erklärungswort zu "Teil" "Teilbereich" war. Dies hat hinter "Teilbereich" immer zu einem Kettenabbruch geführt, weil keine Bedeutungserklärung in Kursivschrift v o r l i e g t . l ° 7 > Neben diesen Auswirkungen ist es auch für den Wörterbuchbenutzer von großem Nachteil, wenn er mit Verweisen durch das Wörterbuch geschickt wird oder er die einfachste b z w . wichtigste Bedeutungserklärung erst am Ende eines Wörterbuchartikels findet. Die Verwendung von eckigen und runden Klammern w i r f t beim Wörterbuchbenutzer viele Fragen a u f . i o a > D i e Verwendungsweise eckiger Klammern in Bedeutungsangaben wird in "Anlage und Artike laufbau" * ° 9 ' nicht erklärt, und über runde Klammern findet man folgendes: "Bedeutungsschattierungen, Kontextbedeutungen und die Bedeutungen der idiomatischen Ausdrücke stehen in runden Klammern hinter dem betreffenden Wort oder betref106) 107)

108) 109)

Zur Sinnhaftigkeit der Verweise im DUDUNI v g l . Bergenholtz/Mugdan 1986, S. 90 ff. Auswahl weiterer Lemmata, die keine Explikationen, sondern nur Verweise enthalten: Abbauverfahren, Lehranstalt, Lehrwerk, Mengenbegriff, M e t a l l s c h e i b e , Metalls t i f t , Münzeinheit, Nebeneingang, Uniformhemd, Weinbrandbohne . V g l . Bergenholtz/Mugdan 1986, S. 94 ff. V g l . DUDUNI 1983, S. 9 ff.

192

fen den Fügung und sind kursiv gedruckt, ( . . . ) " 1 1 0 ) Das f o l gende Beispiel zeigt jedoch, daß eckige Klammern auch in Bedeutungsangaben vorkommen und runde Klammern auch anders als angegeben benutzt werden. Beispiel: S. 1187

< i ' S P I R I T U S : technischen Zwecken dienender, vergrällter (Äthyl)alkohol < 2'SPIRITUS : Hauch, Atem, [Lebens]geist,

Der Benutzer weiß nicht, ob die runde Klammer etwas anderes bedeutet als die eckige, der erfahrene Wörterbuchbenutzer ahnt, daß beide Klammern aus Platzersparnisgründen gesetzt werden und sowohl "Äthylalkohol" als auch "Alkohol" b z w . "Lebensgeist" und "Geist" als Bedeutungen für "Spiritus" gelten sollen. Die häufige Verwendung eines substantivierten Verbs in der lexikalischen Paraphrase konzentriert sich nicht nur auf die oben genannten Initialen. Besonders oft werden Lemmata mit dem Suffix "-ung" durch ein substantiviertes Verb des gleichen Worts erklart.111' Dies bringt jedoch für den Wörterbuchbenutzer keinen Erkenntnisgewinn. Der lexikographische Zirkel erscheint im DUDUNI nicht übermaßig h ä u f i g , 1 1 2 ) aber es gibt eine Reihe von Beispielen zu konkreten und seltenen Wörtern, die dort besonders ungünstige 110) V g l . DUDUNI 1983, S. 17. 111) Substantive dieses Typs aus dem Master Corpus, die mit "E" beginnen: Einhaltung, Einspritzung, Einstülpung, Einweisung, Einwirkung, Einziehung, Entladung, Entscheidung, Entstehung, Entwicklung, Entzündung, Erfassung, Erforschung, Erfüllung, Erneuerung, Errichtung, Erschließung, Erschwerung, Erstreckung, Erteilung, Erwähnung , Erwei terung. 112) Die Untersuchungen Burghardts ergeben zu Nominalausdrükken in verschiedenen Bedeutungswörterbüchern einen Anteil von 30 bis 40 % an zirkulären Ausdrücken; vgl. Burghardt 1977, S. 22. Derart hohe Werte werden im DUDUNI - auch, wenn man Zirkularitat über mehrere Explikationsstufen betrachtet - nicht erreicht.

193

Auswirkungen h a b e n . 1 1 3 ' Dazu gehören auch die Erklärungen mit lateinischen Fachausdrücken, die keinem Benutzer des DUDUNI dienlich sein k ö n n e n . 1 1 4 1 Unter lexikographischem Blickwinkel sind diese Zirkel überflussig und können insbesondere fremdsprachliche Benutzer am Wert des DUDUNI z w e i f e l n lassen. Die folgenden Wortfolgen enthalten nach jedem Doppelpunkt die Bedeutungserklärungen, wobei in einigen F ä l l e n nur die in diesem Zusammenhang wesentlichen Teile der lexikalischen Paraphrase aus dem DUDUNI übernommen worden sind: Beispiele: Espe : Zitterpappel : Espe Scheidenentzündung : Kolpitis : Entzündung der Scheide Quillaja : Seifenbaum : (nicht lemmatisiert) Abmachung : Vereinbarung : Abmachung, übereinkommen Abmachung, Einigung : das Sicheinigen, Einigwerden überpflanze : Epiphyt : P f l a n z e Wiederholungszahlwort : Multiplikativum Vervielfältigungszahlwort : Multiplikativum :

Zahlwort, Wiederholungs-, Zellehre

:

Umverteilung : Gebäckstück : Hersteller :

Einsiedler

:

Vervielfältigungszahlwort Zytologie : Wissenschaft, Zellforschung, Z e l l e n l e h r e , Zellehre Redistribution : Korrektur geformtes Stück Gebäck Produzent ( . . . ) : j m d . , der etw. produziert, Hersteller, Erzeuger : Vater, j m d . , der etw. produziert, erzeugt, . . . Eremit : Einsiedler, Klausner : Einsiedler, Bewohner einer Klause jmd.,, der etwas bewohnt, Ungeziefer, . . . : . . . .

113) V g l . Bergenholtz/Mugdan l986, S. 99 f. 114) V g l . Bergenholtz/Mugdan 1986, S. 89.

194

7.5.2

Wörterbuchvergleich

Es liegen Daten zur lexikologischen Struktur der Substantive aus zwei Wörterbüchern, dem DUDUNI und dem "dtv-Wörterbuch der deutschen Sprache" i i S ) , vor. In der Untersuchung zum WAHRIG-Wörterbuch ist f e s t g e s t e l l t worden, daß der Substantivwortschatz der deutschen Sprache in dem Wörterbuch mangelhaft lemmatisiert worden i s t . i i 6 ' Bei einem V e r g l e i c h der beiden Wörterbücher ist zu erwarten, daß das DUDUNI trotz der oben aufgeführten Kritik eine erheblich bessere lexikographische Qualität a u f w e i s t . In der Tabelle 35 > sind die wichtigsten Vergleichsdaten, die zu den Wörterbüchern erhoben worden sind, zusammengestellt worden. Von besonderem Vorteil ist es, daß die Menge der untersuchten Lemmata in beiden Datencorpora ungefähr gleichgroß ist. Dadurch können die weiteren Daten einfach verglichen werden. Das Wörterbuch von WAHRIG enthält pro Lemma mehr Bedeutungen; der durchschnittliche P-Wert ist mit 3.21 Erklärungswörtern um fast 50 % höher als der Wert zum DUDUNI. Dies kann auf eine sorgfältigere Bearbeitung der semantischen D i v e r s i f i kation der Substantive im dtv-Wörterbuch hinweisen. Der Substantivwortschatz, der zur Erklärung der Lemmata verwendet wird, ist im "dtv-Wörterbuch der deutschen Sprache" erheblich umfangreicher. Allerdings muß dies kein Vorteil sein, w e i l man unter lexikographischen Gesichtspunkten auch die Verwendung eines limitierten Kernwortschatzes in den lexikalischen Paraphrasen bevorzugen kann. Die Z e i l e "Nurlemmata" enthält die Summe der Lexeme, die nur als Lemma vorkommen, aber niemals als Kernkonstituente. Zusammen mit den Werten in der darüberllegenden Z e i l e ("Ver115) 116)

Wahrig 19 1. V g l . Schierholz 1988, S. 466 ff.

117) V g l . S. 195 dieser Arbeit.

195

Tabelle 35:

Daten zu zwei Wörterbüchern

Lemmata Erk 1 ärungswört er Erklärungswörter pro Lemma

DUDUNI

WAHR IG

7179

7421

16202

23813

2.26

3.21

Verschiedene Erklärungswörter

6036

9119

Nur lemmata

1143

3493

Verschiedene Erklärungswörter, die lemmatisiert sind

5354

3928

Anteil der NA-Lemmata an verschiedenen Erklärungswörtern

11.3 %

56.9 %

A n t e i l der NA-Lemmata an a l l e n Lemmata

9.4 %

41.2 %

Anteil der KE-Lemmata an a l l e n Lemmata

8.1 %

-

Häufigkeit des häufigsten Erklärungswortes: Teil

261

263

118)

schiedene Erklärungswörter") erkennt man, daß der Wortschatz a l l e r verschiedenen Substantive,

die als Lemma oder in einer

l e x i k a l i s c h e n Paraphrase zu den Substantiven vorkommen, WAHRIG w e s e n t l i c h umfangreicher i s t

als

i m DUDUNI.

bei

'>

118) KE-Lemmata sind in der Untersuchung zum Wahrig-Wörterbuch nicht gezählt worden. 119) A l l e r d i n g s ist zu beachten, daß im dtv-Wörterbuch a l l e lemmatisierten Substantive untersucht worden sind, während im DUDUNI nur ein T e i l der Substantivlemmata - vor a l l e m die häufigen - das Master Corpus b i l d e t . Würde man die Untersuchungen im DUDUNI auf den gesamten Lemmabestand der Substantive ausdehnen, so würde der A n t e i l an neuen Wörtern anwachsen, so daß die Summe der verschiedenen Substantive erheblich zunehmen würde.

196

Jedoch sind im dtv-Wörterbuch von 9119 verschiedenen Erklärungswörtern nur 3928 im Wörterbuch lemmatisiert, während im DUDUNI von 6036 Erklärungswörtern 5354 lemmatisiert sind. Deutlicher zeigt die Z e i l e mit dem Anteil der NA-Lemmata das lexikalische Mißverhältnis im WAHRIG-Wörterbuch: 56.9 % a l l e r verschiedenen Kernkonstituenten sind nicht lemmatisiert, während es im DUDUNI nur 11.3 % sind. Man kann diesen Anteil auch an der Gesamtzahl a l l e r Lemmata der beiden Datencorpora berechnen, dann sind die Resultate etwas niedriger. In bezug auf die lexikologische Bearbeitung der Substantive weist das DUDUNI also eine bedeutend bessere lexikographische Qualität a u f . Der relativ umfangreiche Wortschatz an Erklärungswörtern im WAHRIG-Wörterbuch ist ohne Nutzen, w e i l über die H ä l f t e der Kernkonstituenten nicht lemmatisiert ist. Dieser Aspekt wiegt um so mehr, als im WAHRIG-Wörterbuch unter den nicht lemmatisierten Erklärungswörtern v i e l e Substantive vorkommen, die sehr häufig als Kernkonstituente auftret e n , 1 2 0 5 während dieser Sachverhalt im Master Corpus nicht existiert. A l l e r d i n g s wird im DUDUNI der Anteil der NA-Lemmata zunehmen, wenn man a l l e lemmatisierten Substantive untersucht, w e i l im existierenden Master Corpus die häufigen Substantive enthalten s i n d . 1 2 1 Ein Vergleich der KE-Lemmata kann nicht e r f o l g e n , weil diese in der WAHRIG-Untersuchung nicht gezählt worden sind. Das größte Explikationspotential a l l e r Kernkonstituenten, die in den lexikalischen Paraphrasen auftreten, besitzt das Lexem " T e i l " , w e i l es in beiden Wörterbüchern am häufigsten (und mit fast gleicher Frequenz) auftritt. 120) V g l . Schierholz 1988, S. 466, Anm 13. 121) Dies wird dadurch belegt, daß von den NA-Lemmata nur zwei ("Geldbetrag", "Personengruppe") häufiger als dreimal als Kernkonstituente auftreten.

197

7.5.3

Wörterbuchoptimierung

Aus den Überlegungen und Vergleichen der Kapitel 7.5.1 und 7 . 5 . 2 läßt sich ein kleiner Katalog erstellen, der von Lexikographen zur Wörterbuchverbesserung eingesetzt werden sollte. Natürlich handelt es sich nur um den Ausschnitt von Optimierungsmöglichkeiten, die sich aus den drei angestellten lexikologischen Versuchen ergeben, die aber sämtlich auf quantitativen Analysen beruhen. Wörterbücher müssen mit quantitativen Methoden analysiert werden. Diese Untersuchungen sollte man auf a l l e Wortarten ausdehnen. Besonders die Häufigkeitszählung des ExplikationeVokabulars ergibt wichtige Aufschlüsse über die lexikologischen Strukturen innerhalb eines Wörterbuchs. Durch den Aufbau eines Polyfunktional itätswörterbuchs, in dem das Explikationsvokabular von Bedeutungswörterbüchern lemmatisiert ist, wird das Prinzip traditioneller Bedeutungswörterbücher umgedreht und ein neuer Wörterbuchtyp geschaffen, mit dem sich zahlreiche lexikologische Studien betreiben lassen. Zwar entstehen damit Überschneidungen zu onomasiologisch aufgebauten Lexika, aber da diese nicht auf der Basis empirischer Analysen entstanden sind, bieten die Polyfunktionalitätswörterbücher eine bessere Basis für quantitative Untersuchungen. Mit H i l f e eines Polyfunktionalitätswörterbuchs können intersubjektiv überprüfbare Aussagen über die Qualität bestehender Wörterbücher gemacht werden. Neuauflagen und zukünftige Wörterbücher werden dadurch in ihren lexikologischen Strukturen verbessert. Durch den Einsatz von Methoden der Datenverarbeitung lassen sich die sehr umfangreichen Arbeitsprozesse bewältigen.

198

A l l e Kernkonstituenten, die in den lexikalischen Paraphrasen zur Erklärung der Lemmata benutzt werden, müssen selbst lemmatisiert w e r d e n . 1 2 2 ) Zur Überprüfung dieses Sachverhalts eignet sich ein Polyfunktionalitätswörterbuch. Der lexikographische Zirkel sollte bei einer ausgewählten Wortgruppe (Kriterium: hoher Häufigkeitswert) akzeptiert werden. Bei Substantiven, die selten vorkommen und konkret sind, muß der Zirkel vermieden w e r d e n . i z a » Das Aufspüren eines lexikographischen Zirkels in einem Bedeutungswörterbuch kann mit H i l f e eines Polyfunktionalitätswörterbuchs erfolgen. Ist ein Lemma polysem, so müssen die verschiedenen Bedeutungserklärungen in eine sinnvolle Reihenfolge gebracht werden. Jeweils die wichtigste oder allgemeinste Explikation sollte am Anfang stehen. Die Kriterien für diese Reihung lassen sich durch die Extension und die Häufigkeit eines Wortes ermitteln. Es ist denkbar, daß weitere Kriterien herangezogen werden müssen. Zu bevorzugen sind dabei empirisch meßbare Werte, die für a l l e Lexeme ermittelt werden können. Neben einer Reihung der Bedeutungen ist auch eine Differenzierung der Bedeutungen nach Haupt-, Neben- oder Unterbedeutung aus lexikologischen und semantisehen Gründen sinnvoll sowie für den Wörterbuchbenutzer h i l f r e i c h . Das System, nach dem diese Differenzierung stattfindet, muß sowohl für den Benutzer durchschaubar als auch für den Linguisten intersubjektiv nachprüfbar sein. Der Einsatz von quantitativen und algebraischen Verfahren scheint dazu unabdingbar zu sein. Die Isolierung eines gesonderten Explikationsvokabulars die Ermittlung von "semantischen Primitiven" i 2 * > - ist anzustreben. Dieses Vokabular sollte vor a l l e m aus Lexemen be122) Natürlich muß dies auf die restlichen Lexeme einer Bedeutungserklärung (die Modifikatoren) ausgedehnt werden. 123) Neubauer kritisiert grundsätzlich die Zirkularität von Explikationen, so auch zu der Begriffskette "Lebewesen Organismus - Lebewesen". Dabei fehlt eine differenzierte Betrachtung der Substantive, z . B . aufgrund der Häufigkeitswerte; vgl. Neubauer 1980, S. 2 ff. 124) Vgl. Neubauer 1980, S. 9

ff.

199

stehen, die häufig für andere als Kernkonstituente fungieren und die in einem lexikographischen Z i r k e l v e r h ä l t n i s zueinander s t e h e n . - - - ·

7.5.4

Die Auswirkungen auf die durchgeführten Versuche

Die umfangreiche Kritik zum DUDUNI ist vor a l l e m von lexikographischer Bedeutung. Es würde jedoch die Güte der Untersuchungsresultate erheblich beeinträchtigen, wenn die lexikographischen Mängel eine Ursache für eine Resultatsverzerrung darstellen würden. Die oben aufgezählten Kritikpunkte sind in ihrer Bedeutung für die Durchführung der Versuche und die Untersuchungsergebnisse an verschiedenen S t e l l e n aufgeführt worden, so daß im folgenden eine zusammenfassende A u f l i s t u n g der wichtigsten Punkte gegeben wird. Der Anteil der NA- und KE-Lemmata ist nicht so hoch, daß dadurch die lexikologischen Zusammenhänge zwischen den Substantiven nicht repräsentiert werden können. Bei der Polysemiebestimmung sind wenige Substantive unzureichend erklärt. Die lexikographische Bearbeitung zum Buchstaben "U" wirkt sich auf die Höhe des durchschnittlichen P-Wertes aus. Dieser würde geringfügig höher liegen, wenn die semantische Diversifikation der Lemmata mit dem Initial "U" besser ausgearbeitet wäre. Die R e i h e n f o l g e der Erklärungswörter hat einen erheblichen E i n f l u ß auf die Bildung der Explikationsketten g e h a b t . 1 2 ° ' 125) Der oben vorgenommene V e r g l e i c h zwischen den häufigsten Substantiven aus V 2 und den Frequenzwörterbüchern, die auf Textwörtern basieren, hat zwar gute Übereinstimmungen gezeigt, aber es scheint außerdem ein besonderes lexikographisches Vokabular zu existieren, das in lexikalischen Paraphrasen häufig a u f z u f i n d e n ist, w e i l es Vorgänge, Zustände, Eigenschaften u . a . kennzeichnet. Dazu gehören u . a . folgende Substantive, die auch in der T a b e l l e 31 stehen: Gesamtheit, Vorrichtung, Beschaffenheit, Abschnitt, Fläche, Gebilde, Gefäß, Substanz, Angehörige, Vertiefung, Flüssigkeit, Behälter, Spieler. 126) V g l . Kap. 3.2 dieser Arbeit.

200

Die uneinheitliche Verwendung eckiger und runder Klammern ist ein Ärgernis für den Benutzer. Durch die definitorischen Abgrenzungen ist die Ermittlung der Erklärungswörter in diesen Fällen klar geregelt. Der lexikographische Zirkel hat auf die lexikologischen Untersuchungen keinen wesentlichen Einfluß gehabt. Die Verwendung lateinischer Fachausdrücke anstelle eines genus proximum führt zu einem etwas höheren Anteil verschiedener Substantive mit der Häufigkeit ' E i n s 1 und gleichzeitig zu einer geringeren Häufigkeit bei Wörtern mit hohen H-Werten. Somit kann man das DUDUNI als ein Wörterbuch bezeichnen, das für lexikologische Untersuchungen eine gute lexikographische Datenbasis darstellt und für ähnliche linguistische Forschungsvorhaben empfohlen werden k a n n . 1 2 7 '

7.6

Resultatsapplikationen

In der Bewertung der Ergebnisse sind bereits unterschiedliche Applikationen in der Linguistik b z w . deren Nachbardisziplinen dargestellt worden. Dies b e t r i f f t methodische Fragen zur Datenerhebung, Datendeskription sowie zur statistischen Auswertung der Distributionen. Die ausführliche Diskussion über die Form und Struktur der ermittelten Verteilungen hat die E f f i zienz der Methoden der EDA und ihre Bedeutung für die Quantitative Linguistik demonstriert. Das aufgebaute Master Corpus eignet sich nicht nur zur Ermittlung weiterer semantischer Zusammenhänge zwischen den Substantiven, sondern sollte als Ausgangsbasis zu einer wortartenübergreifenden Erfassung lexikalischer Strukturen verwendet 127)

Dieses Resultat unterstützt die von der Dudenredaktion im Vorwort verfaßte Bemerkung, daß das DUDUNI "in erster Linie ein Bedeutungswörterbuch mit ausführlichen Bedeutungsangaben ( . . . ) " sei; vgl. DUDUNI 1983, S. 5.

201

werden. Eine Benutzung verschiedener Wörterbücher ist auch für die Begriffskettenbildung von V o r t e i l , während dies für die Bestimmung der P o l y f u n k t i o n a l i t ä t wegen der hohen Stabilität der Resultate überflüssig erscheint. In bezug auf die Lexikographie bieten die Untersuchungsmethoden und -ergebnisse wichtige Ansätze zur Beurteilung und Optimierung von Wörterbüchern. Vergleiche mit anderen wissenschaflichen Untersuchungen weisen darauf h i n , daß die in dieser Arbeit ermittelten Resultate über das DUDUNI hinaus Gültigkeit besitzen. Dies bet r i f f t zunächst die Strukturen weiterer Bedeutungswörterbücher der deutschen Sprache. Außerdem lassen sich struktur e l l e lexikologische Beziehungen, die in der deutschen Sprache existieren, mit den durchgeführten Versuchen aufdecken, wie die obigen Vergleiche der Untersuchungsresultate zu Frequenzwörterbüchern und Abstraktheitsbestimmungen zeigen. Somit kann durchaus die Auffassung vertreten werden, daß ein gut konzipiertes Wörterbuch die R o l l e eines Mediums innehat, das dem Linguisten allgemeine Sprachstrukturen auf eine einfachere Weise als ein Textcorpus zugänglich macht. Das entwickelte Verfahren zur Abstraktheitsbestimmung liefert nicht nur -Werte zu einer Auswahl von Substantiven des DUDUNI, sondern läßt sich auch zur Abstraktheitsmessung von Texten einsetzen, wenn eine Kombination mit dem Abstraktheitssuffix-Verfahren von GÜNTHER/GROEBEN erreicht werden kann.12 Die Untersuchungen zur Häufigkeitsverteilung der Kernkonstituenten im DUDUNI zeigen die Polyfunktionalität der Substantive im Wörterbuch. Diese ist nicht nur lexikographisch relevant, sondern enthält auch eine lexikologische Komponente, w e i l andere Bedeutungswörterbücher ä h n l i c h strukturiert sind und gleiche Substantive in verschiedenen Wörterbüchern eine hohe Erklärungspotenz enthalten. 128)

V g l . S. 156 ff.

dieser Arbeit.

202

Um weitere Wörterbücher auf diesen Sachverhalt hin zu untersuchen, reicht das Arbeiten mit kleineren Stichproben aus. Da die Polyfunktionalitatswerte der Substantive aus V 2 Übereinstimmungen mit den Häufigkeitswerten aus Frequenzwörterbüchern aufweisen, sollten Untersuchungen angestrebt werden, in denen die Polyfunktional itat der Substantive aus Texten eruiert wird. Für die Polysemiebestimmung ist eine Translation der Resultate schwierig, weil sich die entwickelte Definition zur Polysemie im Zusammenhang mit den lexikographischen Mangeln des DUDUNI auf die Ermittlung der P-Werte negativ ausgewirkt hat. Die applizierte Bestimmungsmethode ist allerdings wegen ihrer intersubjektiven überprüfbarkeit auch für die Zukunft als geeignet anzusehen. Ein Wiederholungsversuch zur Ermittlung empirischer P-Werte s o l l t e unter Einbeziehung mehrerer Wörterbücher durchgeführt werden und die oben aufgeführten Kritikpunkte b e r ü c k s i c h t i g e n . 1 2 ^ > Die Häufigkeitswerte, die sich aus Frequenzwörterbüchern ermitteln lassen, haben in der Vergangenheit eine ausschlaggebende R o l l e bei der Erstellung von Grundwortschatz listen, Grundschulwörterbüchern und Rechtschreibgrundwortschatzlisten g e s p i e l t . 1 3 0 ) Dabei sind die Häufigkeitslisten von KAED I N G , 1 3 1 > die unter stenographischen Zielsetzungen erstellt worden sind, f ä l s c h l i c h e r w e i s e zur Grundlage für sprachpädagogische und lexikographische Zwecke umformuliert w o r d e n . 1 3 2 ' Diese defektive Anwendung läßt sich jedoch durch die Verwendung anderer Häufigkeitszählungen, z . B . der Begriffswörterzählung bei M E I E R , 1 3 3 > die auch auf dem KAEDINGschen Datencorpus beruht, verhindern. Auch die in V 2 erzielten Resultate zur Häufigkeitsverteilung der Kernkonstituenten können herangezogen werden, vor a l l e m , weil aktuelle Ergebnisse zum deutschen Substantivwortschatz vorliegen. A l l e r d i n g s handelt es 129) 130) 131) 132)

V g l . Kap. 7.3 dieser Arbeit. V g l . Kühn 1987, S. 18 ff. Kaeding 1898. V g l . Kühn 1987, S. 19.

133) Vgl. Meier 1967, Bd. 2, S. 137

ff.

203

sich in V 2 um sprachsystematische Untersuchungen, die nicht unter der Zielperspektive angefertigt worden sind, einen Grundwortschatz für die Unterrichtspraxis zu erstellen. Gleichwohl ist das Attribut 'Häufigkeit 1 als grundlegend anzusehen, das sich im Zusammenspiel mit anderen Variablen zur Ermittlung von Grundwortschätzen eignet.* 3 * ) Damit entsteht aber nicht automatisch ein Grundschulwörterbuch bzw. eine Rechtschreibgrundwortschatzliste, weil für diese lernpraktischen Wortschatze neben dem Attribut 'Häufigkeit 1 vor allem anthropogene und situative Faktoren des jeweiligen Unterrichtsgeschehens ausschlaggebend s i n d . 1 3 5 ) Beim Grundwortschatz ist zudem zu differenzieren zwischen einem allgemeinen Grundwortschatz, der nach dem Kriterium 'Häufigkeit 1 entstanden ist (und z . B . auf der Basis von Häufigkeiten des Explikationsvokabulars in Bedeutungswörterbüchern entstanden sein kann), und vielen Grundwortschätzen, die sich nach Benutzungssituationen und individuellen Anforderungen ausrichten, z . B . für den Schulunterricht oder Deutsch für Fremdsprachler. Ein weiteres breites Anwendungsgebiet für die ermittelten Ergebnisse läßt sich im Bereich der Künstlichen Intelligenz finden. In der KI-Forschung besteht eine wesentliche Komponente aus der Darstellung des Weltwissens bzw. des semantischen Wissens in Form von semantischen Netzen, deren Struktur durch Kanten und Knoten gekennzeichnet i s t . 1 3 6 » Die Kanten stellen die verschiedenen Relationen zwischen den lexematischen Einheiten dar. Eine dieser Relationen 1st die Relation ISA (von engl. is a ) , i 3 7 > die auch bei den in dieser Arbeit untersuchten Substantiven existiert. Die festgestellten H- und P-Werte demonstrieren Netzausschnitte, da die Häufigkeit eines Substantivs Aussagen über die verschiedenen Vorgänger eines Substantivs macht, die Polysemie eines Substantivs die Anzahl der verschiedenen Nachfolger bezeichnet. Die ISA-Relation wird somit 134) V g l . Schuhmacher 1978, S. 42. 135) V g l . Kühn 19 7, S. 41. 136) V g l . u . a . Hefl/Brustkern/Lenders 1983, S. 137 f f . , Laubsch 1985, S. 60 f f . , Lenders/Willee 1986, S. 76 ff. 137) V g l . Lenders/Willee 1986, S. 78.

204

von zwei Seiten beschrieben, die sich darin zeigen, daß z . B . das Lexem "Teil" 261 Vorgänger besitzt und das Lexem "Zug" 29 Nachfolger. Die H- und P-Werte determinieren somit die Position eines Substantivs in dem Netz, da die zentralen Positionen nur von Substantiven mit v i e l e n ISA-Relationen (Zentralwörter) eingenommen werden können, wahrend die Randpositionen durch die Peripheriewörter (wenige ISA-Relationen) gekennzeichnet sind. Um semantische Netze zu konstruieren, die in der KI-Forschung eingesetzt werden können, ist eine detailliertere Deskription der qualitativen Relationen zwischen den Wörtern e r f o r d e r l i c h . * ^ 8 > Dabei wird man sich auch nicht nur auf eine Wortart - Substantive - beschränken können. Die vorhandenen Verteilungen der H- b z w . P-Werte ermöglichen es dem Untersuchenden, beim Aufbau eines semantischen Netzes vorab zu entscheiden, an welcher Stelle im Netz er seine Untersuchungen beginnen w i l l . Der Vorteil des existierenden Master Corpus besteht vor a l l e m darin, daß ein Wortschatz der Allgemeinsprache durch empirische Methoden aufgebaut worden ist. Die Forschungen im KI-Bereich beziehen sich aus Gründen der Komplexitätsreduktion meist auf M i n i - W e l t e n , l 3 9 > in denen ein überschaubares Vokabular in den semantischen Netzen gebraucht wird. Um zwischen verschiedenen Mini-Welten Verbindungen herzustellen, wird ein allgemeiner Wortschatz gebraucht. Zu diesem Vorhaben kann das Master Corpus eine wertvolle Ausgangsbasis sein, weil es die Grobstruktur eines Netzes allgemeinsprachlicher Substantive enthält. Ausführliche Darstellungen von Resultatsapplikationen ließen 138) V g l . u . a . Hahn/Hoeppner/Jameson/WahIster 1980, S. 148. 139) Hier sei auf HAM-RPM (Hamburger Redepartnermodell) bzw. das Nachfolgesystem HAM-ANS (Hamburger Anwendungsorientiertes Natürlichsprachliches System) verwiesen, in dem vier Miniwelten (bürgerliches Wohnzimmer, Zimmer mit kaputten Möbeln, Verkehrsszene, Hotelreservierung) enthalten sind; v g l . Heß/Brustkern/Lenders 1983, S. 134 f f . , vgl. Huonker 1987, S.68 f f .

205

sich nahezu beliebig ausdehnen. In» weiteren sollen jedoch nur noch kurze Hinweise auf einzelne Forschungsgebiete erfolgen. Die Variable 'Wortlänge', die in verschiedenen Untersuchungen der Quantitativen Linguistik eine wesentliche R o l l e s p i e l t , 1 4 0 » kann zu den vorliegenden Ergebnissen der 'Abstraktheit', 'Häufigkeit 1 und 'Polysemie' in Beziehung gesetzt werden. Die von ALTMANN entwickelten Hypothesen zu deutschen Komposita i * i > lassen sich - soweit sie sich auf die Variablen "meaning" 1 * 2 1 , "length" i * 3 > oder "frequency" 1 4 4 > beziehen - mit H i l f e des vorliegenden Datencorpus überprüfen. In einem weiteren Schritt sollte versucht werden, die Resultate in das von ALTMANN und KÖHLER entwickelte Modell der linguistischen Synergetik 1 4 5 > z u integrieren. Häufigkeitsverteilungen, die auf der Basis von Wörterbuchanalysen entstanden sind, sollten auch in diachronen Sprachuntersuchungen verwendet werden. Mit H i l f e von Wörterbüchern aus verschiedenen Epochen können Erkenntnisse über den lexikologischen Wandel einer natürlichen Sprache gewonnen werden. Einerseits lassen sich somit die Arbeiten zum Sprachwandel, die auf Textanalysen b a s i e r e n , 1 4 6 ) ergänzen, andererseits können im Bereich des Sprachgebrauchs und der Sprachschöpfung, in denen die sprachverändernden Wirkungen bisher nur wenig systematisch untersucht worden s i n d , 1 4 7 » Annahmen zum Wandel (Kontinuitäts-, Reguläritats-, Korrekturprinzip) 1 4 s > mit umfangreichen Datenmengen aus Wörterbüchern systematisch überprüft werden. Auch interlinguale Vergleiche sollten unter Anwendung quantitativer Methoden durchgeführt werden. Damit lassen sich 140) 141) 142) 143) 144) 145) 146) 147) 148)

Vgl. u . a . Altmann/Beöthy/Best 1982, Fickermann/ Markner-Jäger/Rothe 1984, Köhler 1986, Rothe 1983. V g l . Altmann 1989, S. 100 ff. V g l . Altmann 1989, S. 102 f. V g l . Altmann 1989, S. 104. V g l . Altmann 1989, S. 105. V g l . Köhler 1986. V g l . u . a . Best/Kohlhase 1983, S. l ff. V g l . Cherubim 1980b, S. 133. Vgl. Cherubim 1980b, S. 128 f.

206

auch die Zusammenhänge zwischen der Häufigkeit und dem Alter lexematischer Einheiten sowie Fragestellungen der Glottochronologie u n t e r s u c h e n . J * 9 > In der Kognitionspsychologie existieren zur Abstraktheitsmessung Analysen, in denen von Versuchspersonen die Begriffsketten von Substantiven gebildet w e r d e n . 1 5 0 ' Die große Ähnlichkeit dieser Verfahren mit dem in Kapitel 3 vorgestellten s o l l t e ein Anlaß sein, die gebildeten Begriffsketten der Versuchspersonen mit denen aus einem Wörterbuch zu vergleichen. Somit ließe sich möglicherweise die Frage, welches Gewicht die Komplettierung der Begriffsketten nach eigener Kompetenz bei sonstiger Datenentnahme aus dem Wörterbuch hat, empirisch klären. Dabei ergeben sich auch Vergleichsmöglichkeiten zwischen den Resultaten individueller Sprachbenutzer und überindividueller Daten, die anhand eines Wörterbuchs ermittelt worden sind. Durch die erfolgte Anpassung der Häufigkeitsverteilung an die Hyperbel und Potenzfunktion 1 5 i > lassen sich weitere interlinguale Untersuchungen, die auf quantifizierbaren Resultaten basieren, durchführen. Somit können Annahmen der qualitativen Linguistik - z . B . die Hypothese, daß Sprachen mit vielen kurzen Wörtern (Englisch, Französisch) mehr Homonyme als Sprachen mit längeren Wörtern und reicher Kompositabildung (Deutsch, Italienisch) enthalten 1 5 2 > - empirisch geprüft werden. Die in dieser Arbeit durchgeführten Untersuchungen haben somit neben wesentlichen Erkenntnissen über die R o l l e statistischer Verfahren in der Quantitativen Linguistik und die Zusammenhänge zwischen bedeutenden Variablen in einem semantisehen Netz deutscher Substantive gezeigt, daß die empirisch erhobenen Daten einen Ausgangspunkt für verschiedene linguistische Forschungsarbeiten bieten. 149) 150) 151) 152)

V g l . Arapov/Cherc 1983. V g l . u.a. K l i x 1985a. V g l . Kap. 7 . 2 . 2 dieser Arbeit. V g l . U l l m a n n 1972, S. 86 ff.

8.

Zusammenfassung und Kritik

Die Konzeption der vorliegenden lexikologischen Analysen von deutschen Substantiven hat ursprünglich die folgende einfache Abfolge von Arbeitsschritten beinhaltet: 1. Formulierung von Hypothesen, 2. Datenerhebungen, 3. Datenauswertungen bzw. Hypothesenüberprüfungen. Im Verlauf der Durchführung hat sich jedoch gezeigt, daß diese Vorgehensweise nur in bezug auf die ersten beiden Schritte durchzuhalten war. Die Entwicklung von Arbeitshypothesen beruht l e t z t l i c h auf der Intuition und dem Vorwissen des Untersuchenden. In dieser Arbeit orientiert sich die Formulierung außerdem daran, inwieweit statistische Verfahren und Methoden der Quantitativen Linguistik zur Überprüfung eingesetzt werden können. Bei der Erhebung der Sprachdaten wird darauf Wert gelegt, in jeder Phase eine intersubjektive tiberprüf barkeit der Erhebungsprozeduren gewährleisten zu können. Dabei ist die Erfahrung aus früheren Untersuchungen sehr h i l f r e i c h und eine genaue Kenntnis des benutzten Wörterbuchs notwendig gewesen. Die Probleme, die während der Datenauswertung aufgetreten sind, lassen sich zum einen mit einer etwas zu naiven Einstellung zur Statistik, das vor Untersuchungsbeginn bestanden hat, zum anderen mit den existierenden eingeschränkten Applikationsmöglichkeiten, die von den gebräuchlichen Methoden der beurteilenden Statistik zur Verfügung gestellt werden, begründen. Aufgrund der Struktur der ermittelten Verteilungen sind differenzierte Inspektionen und Deskriptionen zu den Datensätzen sowie ausgewählten Einzeldaten notwendig geworden. Dadurch sind umfangreiche und gegenüber der Statistik kritische Analysen entstanden, die weit über den üblichen Rahmen quantitativer Arbeiten in der Linguistik hinausgehen. Somit

208

wird in den vorgestellten Untersuchungen auf der Basis linguistischer Daten ein Forschungsbeitrag zur Integration von traditionellen statistischen Methoden und Ansätzen der EDA geliefert. Ein wesentliches Resultat stellt dabei die Erkenntnis dar, daß man umfangreiche Datenmengen nicht ohne detaillierte Strukturanalysen der Daten von einem Computerprogramm bearbeiten lassen sollte, wenn man die Ergebnisse als reliabel und valide repräsentieren w i l l . Neben einer genauen Betrachtung der Datenstrukturen, einer kritischen Reflexion der Auswertungsmethoden und benutzten Algorithmen werden aber auch die Erhebungsmethoden, mit denen die Sprachdaten ermittelt worden sind, geprüft. Dies betrifft in dieser Arbeit insbesondere die Variable 'Abstraktheit 1 , weil hier - basierend auf den Untersuchungen MARTINS, ALTMANNS, HAMMERLS u.a. - eine neue Methode zur Abstrakheitsbestimmung von Substantiven entwickelt wird. Im Anschluß an die durchgeführten Analysen wird versucht, mögliche Optimierungsschritte v o r z u s t e l l e n . Während deutlich wird, daß die in V l benutzte Methode gegenüber existenten Verfahren Vorteile bietet, ist das Gesamtresultat noch keinesf a l l s so befriedigend, daß eine Anwendung für Bereiche der Psycholinguistik oder zur Abstraktheitsbestimmung von Texten derzeit möglich erscheint. 1 » Die Ermittlung der Häufigkeitswerte der Substantive geschieht mit H i l f e einfacher definitorischer Abgrenzungen, folgt aber nicht dem üblichen Vorgehen bei Frequenzuntersuchungen, w e i l nicht Texte, sondern das Explikationsvokabular des untersuchten Wörterbuchs die Basis für die Häufigkeitsverteilung darstellt. Es wird der Vorschlag gemacht, mit einem neuen Wörterbuchtyp, einem Polyfunktionalitätswörterbuch, eine Grundlage für lexikographische und lexikologische Untersuchungen sowie zur Optimierung von Wörterbüchern zu 1) Allerdings ist dies auch nicht unmittelbar in der Z i e l setzung dieser Arbeit enthalten.

209

schaffen. Die Herstellung eines Polyfunktionalitätswörterbuchs wird weniger Probleme bereiten, wenn in Zukunft Bedeutungswörterbücher in Datenbanken implementiert sein werden. Die erfolgte Anpassung verschiedener mathematischer Funktionen an die ermittelte Häufigkeitsverteilung eröffnet insbesondere der Quantitativen Linguistik gute Perspektiven für weitere Verwendungen. Aus einer vergleichenden Analyse bestehender Polysemiedefinitionen wird für die 'Polysemie 1 eine neue Definition konzipiert, die sich vor a l l e m an Kriterien wie Nachvollziehbarkeit und Operational isierung orientiert. Für die Falsifikation von zwei Arbeitshypothesen können aufgrund der inhaltlichen Auswertung die Resultate der P-Wertebestimmung verantwortlich gemacht werden. Für zukünftige linguistische Arbeiten können Differenzierungen in Haupt- und Nebenbedeutungen b e h i l f l i c h sein, die 'Polysemie 1 von Substantiven exakter erfassen und für sprachwissenschaftliche Forschungen besser verwenden zu können. Die Berechnungen der Korrelationskoeffizienten, die zur mathematischen Überprüfung der Arbeitshypothesen dienen, haben einerseits an den geschilderten Auswertungsproblemen gelitten, andererseits wichtige Aufschlüsse über das Explikationsvokabular und die lexikologische Struktur des Wörterbuchs gel i e f e r t . Demnach lassen sich die Substantive in Peripheriewörter, die selten vorkommen und relativ konkret einzuschätzen sind, und ZentralWörter, die sehr häufig auftreten und abstrakt sind, einteilen. Dies kann als eine brauchbare Ausgangsbasis für lexikologische Untersuchungen und quantitative Arbeiten sowie für die Konstruktion semantischer Netze angesehen werden, welche in der modernen Linguistik, insbesondere der Semantik, der Computerlinguistik und der KI-Forschung eine bedeutende R o l l e spielen. Zu dem benutzten Datenmaterial, dem DUDUNI, laßt sich insgesamt ein positives Urteil abgeben. Dies gilt im wesentlichen für die Bereiche der Lexikographie, Lexikologie und Semantik, während die aufgeführte lexikographische Kritik -

210

vor a l l e m im Vergleich zu anderen Wörterbüchern - sehr milde ausfällt. Dennoch sollten ähnlich angelegte wissenschaftliche Untersuchungen (insbesondere zu Polysemiebestimmungen) in Zukunft mehrere Wörterbücher als Datenbasis benutzen, um die Abhängigkeit von lexikographischen Unzulänglichkeiten eines einzelnen Wörterbuchs zu vermeiden und den Gültigkeitsbereich der erz i e l t e n Resultate zu maximieren. Im Verlauf der Arbeit wird gezeigt, daß die Ursachen für die niedrigen Korrelationskoeffizienten sowohl in den statistischen Methoden als auch in den benutzten linguistischen Verfahren b z w . in der Abfolge der Untersuchungsschritte zu suchen sind. Ausgehend von einem an der Quantitativen Linguistik orientierten Ansatz ist somit eine interdisziplinäre Arbeit entstanden, in der neue Verfahren zur Ermittlung von Variablen, verschiedene Methoden der Statistik und diverse Applikationen für unterschiedliche wissenschaftliche Forschungsbereiche integriert werden.

9. Literatur

Admoni, Wladimir : Der deutsche Sprachbau. 4 . , überarbeitete und erweiterte Auflage. München 1982. Altmann, Gabriel : Status und Ziele der ALTMANN 1972 quantitativen Sprachwissenschaft. In: Jäger, Siegfried ( H r s g . ) : Linguistik und Statistik (= Schriften zur Linguistik Bd. 6 ) . Braunschweig 1972, S. 1-9. Altmann, Gabriel : Zur Funktionalanalyse in ALTMANN 1981 der Linguistik. In: Esser, Jürgen/Hübler, Axel ( e d . ) : Forms and Functions (= Tübinger Beiträge zur Linguistik Bd. 149). Tübingen 1981, S. 25-32. ALTMANN/BEÖTHY/BEST 1982 Altmann, Gabriel/Beöthy, E./Best, Karl Heinz : Die Bedeutungskomplexität der Wörter und das Menzerathsche Gesetz. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung 35. 1982, S. 537-543. ADMONI l982

ALTMANN/KIND 1983

ALTMANN 1985a ALTMANN 1985b ALTMANN 1988 ALTMANN

1989

Altmann, Gabriel/Kind, Bernd : Ein semantisches Gesetz. In: Köhler, Reinhard/ Boy, Joachim ( H r s g . ) : Glottometrika 5 (= Quantitative Linguistics V o l . 2 0 ) . Bochum 1983, S. 1-13. Altmann, Gabriel : Semantische Diversifikation. In: Folia Linguistica Bd. 19. 1985, S. 177-200. Altmann, Gabriel : Sprachtheorie und mathematische Modelle. In: SAIS Arbeitsberichte H. 8. K i e l 1985, S. 1-13. Altmann, Gabriel : Wiederholungen in Texten (= Quantitative Linguistics V o l . 36). Bochum 1988. Altmann, Gabriel : Hypotheses about compounds. In: Hammerl, Rolf ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 38). Bochum 1989, S. 100-107.

ARAPOV/CHERC 1983

Arapov, Michail V./Cherc, Maja M. : Mathematische Methoden in der historischen Linguistik (= Quantitative Linguistics V o l . 17). Bochum 1983.

212 BASCHEK/BREDENKAMP/OEHRLE/WIPPICH 1977

Baschek, Ilse-Lore/Bredenkamp, Jürgen/ Oehrle, Brigitte/Wippich, Werner : Bestimmung der Bildhaftigkeit ( I ) , Konkretheit (C) und der Bedeutungshaltigkeit ( m 1 ) von 800 Substantiven. In: Zeitschrift für experimentelle und angewandte Psychologie Bd. 24. 1977, S. 353-396. BERGENHOLTZ/MUGDAN 1986

BERGMANN 1973

BERGMANN 1977

Bergenholtz, Henning/Mugdan, Joachim : Der neue "Super-Duden". Die authentische Darstellung des deutschen Wortschatzes ? In: Studien zur neuhochdeutschen Lexikographie VI, 1. Teilbd. (= Germanistische Linguistik 84-86). 1986, S. 1-149. Bergmann, R o l f : Zur Abgrenzung von Homonymie und Polysemie im Neuhochdeutschen. In: Archiv für das Studium der neueren Sprachen und Literaturen Bd. 210. 1973, S. 22-40. Bergmann, R o l f : Homonymie und Polysemie in Semantik und Lexikographie. In: Sprachwissenschaft 2. 1977, S.27-60.

BEST/KOHLHASE 1983

BIEHLER 1982

BLANKE 1973

BMDP P2D 1985 BMDP P8D 1985 BOLC 1979 BOY/KÖHLER 1984 BURGHARDT 1977

CHERUBIM 1980a

Best, Karl-Heinz/Kohlhase, Jörg (Hrsg.) : Exakte Sprachwandelforschung. Göttingen 1983. Biehler, R o l f : Explorative Datenanalyse Eine Untersuchung aus der Perspektive einer deskriptiv-empirischen Wissenschaftstheorie (= Materialien und Studien Bd. 2 4 ) . B i e l e f e l d 1982. Blanke, Gustav H. : Einführung in die semantische Analyse. München 1973. Dixon, W . J . et a l . : BMDP. Statistical software 1985 Printing. Berkeley/ Los Angel es/London 1985. Dixon, W . J . et al. : BMDP. Statistical software 1985 Printing. Berkeley/ Los Angeles/London 1985. B o l e , Leonard ( e d . ) : Natural Language Based Computer Systems. München/Wien 1980. Boy, Joachim/Köhler, Reinhard ( H r s g . ) : Glottometrika 6 (= Quantitative Linguistics V o l . 2 5 ) . Bochum 1984. Burghardt, Wolfgang : Wie h i l f r e i c h sind fachund umgangssprachliche Wörterbücher? In: P e t ö f i , Janos S./Bredemeier, Jürgen ( H r s g . ) : Das Lexikon in der Grammatik - die Grammatik im Lexikon (= Papiere zur Textlinguistik Bd. 13). Hamburg 1977, S. 1-25. Cherubim, Dieter ( H r s g . ) : Fehlerlinguistik (= Reihe Germanistische Linguistik 2 4 ) . Tübingen 1980.

213

CHERUBIM 1980b

Cherubim, Dieter : Abweichung und Sprachw a n d e l . In: Cherubim, Dieter ( H r s g . ) : F e h l e r l i n g u i s t i k (= Reihe Germanistische Linguistik 2 4 ) . Tübingen 1980, S. 124-152.

DAVID/MARTIN 1974 David, J . / M ä r t i n , Robert ( H r s g . ) : Statistique et linguistique. Paris 1974. DIETRICH/SCHMUTZLER 1968 Dietrich, Hans/Schmutzler, Olaf : Statistische Methoden in der Marktforschung. B e r l i n 1968. DROSDOWSKI/HENNE/WIEGAND 1977 Drosdowski, Günther/Henne, Helmut/Wiegand, Herbert E. : Nachdenken über Wörterbücher. Mannheim 1977. DUDEN 1984 Duden. Grammatik der deutschen Gegenwartssprache. 4 . , v ö l l i g neu bearbeitete und erweiterte A u f l a g e . Hrsg. und bearb. von Günter Drosdowski in Zusammenarbeit mit Gerhard Äugst, Hermann Gelhaus, Helmut Gipper, Max Mangold, Horst Sitta, Hans Wellmann und Christian W i n k l e r . Mannheim/Wien/Zürich 1984. DUDEN 1976 f f , Duden. Das große Wörterbuch der deutschen Sprache in sechs Bänden. Hrsg. und bearb. vom Wissenschaftlichen Rat und den Mitarbeitern der Dudenredaktion unter Leitung von Günther Drosdowski. Mannheim/Wien/Zürich 1976-1981. DUDEN 1983 Duden. Deutsches UniversalWörterbuch. Hrsg. und bearb. vom W i s s e n s c h a f t l i c h e n Rat und den Mitarbeitern der Dudenredaktion unter Leitung von Günther Drosdowski. Mannheim/Wien/Zürich 1983. EMERSON/STOTO 1983 Emerson, John D./Stoto, Michael A. : Transforming Data. In: Hoaglin, David C./ M o s t e l l e r , Frederic/Tukey, John W . ( e d . ) : Understanding Robust and Exploratory Data A n a l y s i s . New York 1983, S. 97-127. ERBEN 1965 Erben, Johannes : Abriß der deutschen Sprache. 8. A u f l . B e r l i n 1965. ESSER/HÜBLER 1981 Esser, Jürgen/Hübler, Axel ( e d . ) : Forms and Functions (= Tübinger Beitrage zur Linguistik Bd. 149). Tübingen 1981. FICKERMANN 1987 Fickermann, Ingeborg ( H r s g . ) : Glottometrika 8 (= Quantitative Linguistics V o l . 3 2 ) . Bochum 1987. FICKERMANN/MARKNER-JÄGER/ROTHE 1984 Fickermann, Ingeborg/Markner-Jäger, B . / R o t h e , Ursula : Wort länge und Bedeutungskomplexität. In: Boy, Joachim/Köhler, Reinhard ( H r s g . ) : Glottometrika 6 (= Quantitative Linguistics V o l . 2 5 ) . Bochum 1984, S. 115-126.

214

FLESH 1950

Flesh, R . F . : Measuring the level of abstraction. In: Journal of Applied Psychology 34. 1950, S. 384-390. Fries, Norbert : Ambiguität und Vagheit (= Linguistische Arbeiten 84). Tübingen 1980. G i l l i e , P . J . : A s i m p l i f i e d formula for measuring abstraction in writing. In: Journal of Applied Psychology 41. 1957, S. 214-217. Gipper, Helmut : Polysemie, Homonymie und Kontext. In: Schweisthal, Klaus Günther ( H r s g . ) : Grammatik - Kybernetik - Kommunikation. Bonn 1971, S. 202-214.

FRIES 1980 GILLIE 1957 GIPPER 1971

GÜNTHER/GROEBEN

1978

Günther, UlIrich/Groeben, Norbert : Abstraktheitssuffix-Verfahren: Vorschlag einer objektiven ökonomischen Messung der Abstraktheit/ Konkretheit von Texten. In: Zeitschrift für experimentelle und angewandte Psychologie Bd. 25. 1978, S. 55-74. GUITER/ARAPOV 1982

HABEL 1985

Guiter, Henri/Arapov, Michail V. : Studies on Z i p f ' s law (= Quantitative Linguistics V o l . 16). Bochum 1982. Habel, Christopher (Hrsg.) : Künstliche Intelligenz (= Informatik Fachberichte Bd. 9 3 ) . Berlin/Heidelberg/New York/Tokyo 1985.

HAHN/HOEPPNER/JAMESON/WAHLSTER I960

HAMMERL 1987

HAMMERL 1988a

HAMMERL 1988b HAMMERL 1989a

Hahn, Walther von/Hoeppner, Wolfgang/ Jameson, Anthony/Wahlster, Wolfgang : The Anatomy of the Natural Language Dialogue System HAM-RPM. In: Bole, Leonard ( e d . ) : Natural Language Based Computer Systems. München/Wien 1980, S. 119-253. Hammerl, Rolf : Untersuchungen zur mathematischen Beschreibung des Martingesetzes der Abstraktionsebenen. In: Fickermann, Ingeborg ( H r s g . ) : Glottometrika 8 (= Quantitative Linguistics V o l . 3 2 ) . Bochum 1987, S. 113-129. Hammerl, Rolf : Neue Model ltheoretische ( s i e ! ) Untersuchungen im Zusammenhang mit dem Martingesetz der Abstraktionsebenen. In: Schulz, Klaus-Peter ( H r s g . ) : Glottometrika 9 (= Quantitative Linguistics V o l . 3 5 ) . Bochum 1988, S.105-121. Hammerl, Rolf : Vom Martingesetz zu einem neuen semantischen Strukturgesetz (unveröffentllches Manuskript). Bochum 1988. Hammerl, Rolf ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 38). Bochum 1989.

215

HAMMERL 1989b

HAMMERL 1989c

HAMMERL 1989d HAMMERL 1989e

HAUSMANN 1984 HEGER 1963 HEGER 1969

HENNE 1972 HENNE 1976

HENNE 1977

Hammerl, Rolf : Neue Perspektiven der sprachlichen Synergetik: Begriffsstrukturen kognitive Gesetze. In: Hammerl, R o l f ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 3 8 ) . Bochum 1989, S. 129-140. Hammerl, R o l f : Untersuchung struktureller Eigenschaften von B e g r i f f s n e t z e n . In: Hammerl, R o l f ( e d . ) : Glottometrika 10 (= Quantitative Linguistics V o l . 3 8 ) . Bochum 1989, S. 141-154. Hammerl, R o l f : Überprüfung des Martingesetzes an deutschem Sprachmaterial. Bochum 1989 (erscheint). Hammerl, R o l f : Synergetic aspects of the formation of d e f i n i t i o n chains. In: Köhler, Reinhard ( e d . ) : Studies in language Synergetics. Bochum 1989 ( e r s c h e i n t ) . Hausmann, Franz Josef : Kurzrezension zu Duden. Deutsches Universalwörterbuch. In: Sprache und Literatur 54. 1984, S. 123-124. Heger, Klaus : Homographie, Homonymie und Kontext. In: Zeitschrift für Romanische Philologie Bd. 79. 1963, S. 471-491. Heger, Klaus : Die Semantik und die Dichotomie von Langue und Parole. In: Zeitschrift für Romanische P h i l o l o g i e Bd. 85. 1969, S.144-215. Henne, Helmut : Semantik und Lexikographie. Berlin 1972. Henne, Helmut Prinzipien einsprachiger Lexikographie, In: Moser, Hugo ( H r s g . ) : Probleme der Lexikologie und Lexikographie (= Sprache der Gegenwart Bd. 3 9 ) . Düsseldorf 1976, S. 95-117. Henne, Helmut : Was die Valenz lexikographie bedenken s o l l t e . In: Kopenhagener Beiträge zur germanistischen Linguistik 12. 1977. S. 5-18.

HEfl/BRUSTKERN/LENDERS 1983

HJELMSLEV 1963

Heß, Kl aus/Brustkern, Jan/Lenders, W i n f r i e d : Maschinenlesbare deutsche Wörterbücher (= Sprache und Information Bd. 6 ) . Tübingen 1983. H j e l m s l e v , Louis : Prolegomena to a theory of language. Translated by Francis J. W h i t f i e l d . M a d i s o n ( W i s e . ) 1963.

HOAGLIN/MOSTELLER/TUKEY 1983

H o a g l i n , David C . / M o s t e l l e r . Frederic/Tukey, John W. ( e d . ) : Understanding Robust and Exploratory Data A n a l y s i s . New York 1983, S. 97-127.

216

HOFFMANN 1983

Hoffmann, Joachim : Das aktive Gedächtnis. Psychologische Experimente und Theorien zur menschlichen Gedächtnistätigkeit. Berlin/Heidelberg/New York 1983.

HOFFMANN/ZIBßLER/GROSSER/KÄMPF 1985

Hoffmann, Joachim/Zießler, M./Grosser, U . / Kampf, U. : Struktur- und Prozeßkomponenten in b e g r i f f l i c h e n Identifikations Ieistungen. In: Zeitschrift für Psychologie Bd. 193. 1985, HORLITZ 1975

HUONKER 1987 JÄGER 1972 JANSEN 1977

KAEDING 1898

S. 51-70.

H o r l i t z , Bernd : Theorie und Praxis der Lexikographie. In: Zeitschrift für germanistische Linguistik Bd. 3. 1975, S. 212-220. Huonker, Hans : Maschinenlesbare Wörterbücher als Instrument für syntaktische und semantische Analysen. Zürich 1987. Jäger, Siegfried (Hrsg.) : Linguistik und Statistik (= Schriften zur Linguistik Bd. 6 ) . Braunschweig 1972. Jansen, Louise, M. : Zur b e g r i f f l i c h e n Ordnung substantivischer Lexikoneinheiten. In: P e t ö f i , Janos S./Bredemeier, Jürgen ( H r s g . ) : Das Lexikon in der Grammatik - die Grammatik im Lexikon (= Papiere zur Textlinguistik Bd. 13). Hamburg 1977, S. 335-379. Kaeding, F . W . : Häufigkeitswörterbuch der deutschen Sprache. Berlin-Steglitz 1898.

KISRO-VÖLKER 1984

KLIX 1967

KLIX 1976

KLIX 1985a KLIX 1985b

Kisro-Völker, S. : On the measurement of abstractness in lexicon. In: Boy, Joachim/ K ö h l e r , Reinhard ( H r s g . ) : Glottometrika 6 (= Quantitative Linguistics V o l . 2 5 ) . Bochum 1984, S. 139-151. Kl ix, Friedhardt : Untersuchungen zur Begriff sbildung I. Psychologische Probleme des Ursprungs, des Erwerbs und der Struktur beg r i f f l i c h e n K l a s s i f i z i e r e n s . I n : Zeitschrift für Psychologie Bd. 173. 1967, S. 159-207. K l ix, Friedhardt : Information und Verhalten. 3. A u f l . Berlin (DDR) 1976. Kl ix, Friedhardt : über Basisprozesse für geistige Dispositionen. In: Zeitschrift für Psychologie Bd. 193. 1985, S.27-49. Kl ix, Friedhardt : über die Nachbildung von Denkanforderungen, die Wahrnehmungseigenschaften, GedächtnisStruktur und Entscheidungsoperationen e i n s c h l i e ß e n . In: Zeitschrift für Psychologie Bd. 193. 1985, S. 175-211.

217

KNOBLOCH 1984

KÖHLER 19 6

KÖHLER l989 KÖHLER/BOY

1983

KRYLOV 1982

KÜHN

1979

KÜHN

1987

LAUBSCH

1985

Knobloch, Clemens : Duden kontra Wahrig. Zwei einbändige Wörterbücher der deutschen Gegenwartssprache im V e r g l e i c h . In: Der Deutschunterricht 36. 1984, S. 101-107. K ö h l e r , Reinhard : Zur linguistischen Synergetik: Struktur und Dynamik der Lexik O Quantitative Linguistics V o l . 31). Bochum 1986. Köhler, Reinhard ( e d . ) : Studies in language Synergetics. Bochum 1989 ( e r s c h e i n t ) . K ö h l e r , Reinhard/Boy, Joachim (Hrsg.) : Glottometrika 5 (= Quantitative Linguistics V o l . 2 0 ) . Bochum 1983. Krylov, J u . K . : Eine Untersuchung statistischer Gesetzmäßigkeiten auf der paradigmatischen Ebene der Lexik natürlicher Sprachen. I n : Guiter, Henri/Arapov, Michail V . : Studies on Z i p f ' s law (= Quantitative Linguistics V o l . 16). Bochum 1982, S. 234-262. Kühn, Peter : Der Grundwortschatz (= Reihe Germanistische Linguistik 1 7 ) . Tübingen 1979. Mit dem Wörterbuch arbeiten. Eine Einführung in die Didaktik und Methodik der Wörterbuchbenutzung. (= Schriften zur DeutschDidaktik) Bonn - Bad Godesberg 1987. Laubsch, Joachim : Techniken der Wissensdarstellung. In: Habel, Christopher ( H r s g . ) : Künstliche I n t e l l i g e n z (= Informatik Fachberichte Bd. 9 3 ) . Berlin/Heidelberg/ New York/Tokyo 1985, S. 48-93.

LENDERS/WILLSE 1986 LYONS

1977

MARTIN

MARX

1974

1979

MEIER 1967 MEL'&JK 1974

Lenders, W i n f r i e d / W i l Ue, Gerd : Linguistische Datenverarbeitung. Opladen 1986 Lyons, John : Semantics V o l . I / I I . Cambridge. University Press 1977. Martin, Robert : Syntaxe de la d e f i n i t i o n lexicographique: etude quantitative des definissants dans le "Dictionnaire fondamental de la langue francaise". In: David, J . / M a r t i n , Robert ( H r s g . ) : Statistique et linguistique. Paris 1974, S. 61-71. Marx, Wolfgang : Die Dominanz des Substantivs als Träger der Assoziativen Bedeutung. In: Z e i t s c h r i f t für experimentelle und angewandte Psychologie Bd. 26. 1979, S. 596-602. Meier, Helmut : Deutsche Sprachstatistik Bd. 1-2. 2 . , erweiterte und verbesserte A u f l a g e . Hildesheim 1967. M e l ' c u k , Igor 1 A. : Opyt teorii lingvisticeskich m o d e l e j "smysl < = > tekst": Semantika. sintaksis. Moskva 1974.

21

Moser, Hugo (Hrsg.) : Probleme der Lexikologie und Lexikographie (= Sprache der Gegenwart Bd. 3 9 ) . Düsseldorf 1976. Mull er, Charles : Einführung in die SprachMULLER 1972 statistik. München 1972. NEUBAUER 19 Neubauer, Fritz : Die Struktur der Explikationen in deutschen einsprachigen Wörterbüchern (= Papiere zur Textlinguistik Bd. 2 7 ) . Hamburg 1980. Oldenbürger, Hartmut A. : Zur Erhebung und OLDENBÜRGER 1986 Repräsentation kognitiver Strukturen. (= Braunschweiger Studien zur Erziehungsund Sozialarbeitswissenschaft Bd. 18). Braunschweig 1986. PETÖFI/BREDEMEIER 1977 P e t ö f i , Janos S./Bredemeier, Jürgen (Hrsg.) : Das Lexikon in der Grammatik die Grammatik im Lexikon (= Papiere zur Textlinguistik Bd. 13). Hamburg 1977. Pikas, Anatol : Abstraction and concept PIKAS 1965 formation (= Studia scientiale paedagogicae Upsaliensia V I I ) . Stockholm 1965. Pinkai, Manfred : Logik und Lexikon - Die PINKAL 1985 Semantik des Unbestimmten. Berlin/New York 1985. Rosengren, Inger : Ein Frequenzwörterbuch ROSENGREN 1977 der deutschen Zeitungssprache. Die W e l t . Süddeutsche Zeitung Bd. 2 (= Lunder germanistische Forschungen 43). Gleerup 1977. ROTHE 1983 Rothe, Ursula : Wortlange und Bedeutungsmenge: Eine Untersuchung zum Menzerathschen Gesetz an drei romanischen Sprachen. In: Köhler, Reinhard/Boy, Joachim ( H r s g . ) : Glottometrika 5 (= Quantitative Linguistics V o l . 2 0 ) . Bochum 1983, S. 101-112. SAMBOR 1982 Sambor, Jadwiga : Lexikographische Definitionen (unveröffentlichte Sammlung von 1000 Begriffsketten für die polnische Sprache unter Ausnutzung folgenden Wörterbuchs: Skorupka, S./Auderska, H./bempicka, Z . : Maiy stownik jezyka pol skiego. Warszawa, Panstwowe Wydawnictwo Naukowe 1968). Bochum 1982. Sambor, Jadwiga : 0 budowie tzw. ciagow SAMBOR 1983 definicyjnych (na materiale d e f i n i c j i leksykalnych). Biuletyn Polskiego Towarzysztwa Jezykoznawczego 40. 1983, S. 151-165. SCHAEDER 1981 Schaeder, Burkhard : Lexikographie als Praxis und Theorie (= Reihe Germanistische Linguistik 34). Tübingen 1981. MOSER 1976

219

SCHIERHOLZ 1982

SCHIERHOLZ 19

SCHIERHOLZ 1989

SCHILDT 1969

SCHIPPAN 1984 SCHNEIDER 1988

Schierholz, Stefan : Untersuchungen zur Polysemie im Deutschen ( U n v e r ö f f e n t l i c h t e s c h r i f t l i c h e Hausarbeit im Rahmen der fachwissenschaftlichen Prüfung für das Lehramt an Gymnasien). Göttingen 1982. S c h i e r h o l z , Stefan : Bedeutungswörterbücher als Grundlage empirischer Wortschatzuntersuchungen. In: Studien zur neuhochdeutschen Lexikographie V I , 2 . T e i l b d . (= Germanistische Linguistik 87-90). Hildesheim 1988, S. 463-478. S c h i e r h o l z , Stefan : Kritische Aspekte zum Martinschen Gesetz. In: Hammerl, Rolf ( e d . ) : Glottometrika 10 (= Quantitative Linguistics Vol. 38). Bochum 1989, S. 108-128. Schildt, Joachim : Gedanken zum Problem Homonymie - Polysemie in synchronischer Sicht. In: Zeitschrift für Phonetik, Sprachwissenschaft und Kommunikationsforschung Bd. 22. 1969, S. 352-359. Schippan, Thea : Lexikologie der deutschen Gegenwartssprache. Leipzig 1984. Schneider, Edgar W. : Variabilität, Polysemie und Unscharfe der Wortbedeutung Bd. l (= Linguistische Arbeiten 196). Tübingen 1988.

SCHUHMACHER 1978

Schuhmacher, Helmut : Grundwortschatzsammlungen des Deutschen. In: Jahrbuch Deutsch als Fremdsprache 1978 Bd. 4, S. 41-55. SCHULZ 1988 Schulz, Klaus-Peter ( H r s g . ) : Glottometrika 9 (= Quantitative Linguistics V o l . 35). Bochum 1988. SCHULZ-OTTO/HAMMERL 1989 Schulz-Otto, Klaus-Peter und Hammerl, R o l f : Untersuchungen von Strukturen sprachlicher B e g r i f f e . In : W i l l e , Rudolf ( H r s g . ) : K l a s s i f i k a t i o n und Ordnung (= Studien zur K l a s s i f i k a t i o n Bd. 19). Frankfurt/M. 1989, S. 221-223. SCHWEISTHAL 1971

SCHWIBBE 1984 SCHWIBBE 1981

Schweisthal, Klaus Günther ( H r s g . ) : Grammatik - Kybernetik - Kommunikation. Bonn 1971. Schwibbe, Gudrun : Intelligenz und Sprache (= Quantitative Linguistics V o l . 2 3 ) . Bochum 1984. Schwibbe, Michael : Untersuchungen zur Validierung kontentanalytischer Indikatoren: Dogmatisierung, Abstraktheit, Redundanz. Göttingen 1981.

220

SIEVERS 1987

Sievers, Walter Göttingen 1987.

Elemente der Statistik.

SKOROCHOD'KO 19 1

SPIEGEL 1961 SPILLNER 1971

SPSS-X 1983 STECHOW 1971 TANCR* 1975

TUKEY 1977 ULLMANN 1972 ULLMANN 1973 VIEHWEGER 1977 WAHRIG 1980

WAHRIG 1981

WEBER 1974

WERSIG 1978

WICHTER 1988 WIEGAND 1970

Skorochod'ko, Eduard F. : Semantische Relationen in der Lexik und in Texten (= Quantitative Linguistics V o l . 10). Bochum 1981. Spiegel, Murray R. : Theory and Problems of statistics. New York 1961. S p i l l n e r , Bernd : Polysemie und Disambiguierung. In: v. Stechow, Arnim ( H r s g . ) : Beiträge zur generativen Grammatik. Braunschweig 1971, S. 247-257. SPSS I n c . : Spssx U s e r ' s Guide, o . O . 1983. Stechow, Arnim von ( H r s g . ) : Beiträge zur generativen Grammatik. Braunschweig 1971. Tancre, Ines : Transformationelle Analyse von Abstraktheitskomposita (= Forschungsberichte des Instituts für deutsche Sprache 2 2 ) . Tübingen 1975. Tukey, John W. : Exploratory Data Analysis. Reading ( M a s s . ) 1977. U l l m a n n , Stephen : Sprache und Stil. Tübingen 1972. U l l m a n n , Stephen : Semantik. Eine Einführung in die Bedeutungslehre. Deutsche Fassung von S. Koopmann. Frankfurt/M. 1973. Viehweger, Dieter ( A u t o r e n k o l l e k t i v ) : Probleme der semantischen Analyse (= studia grammatica X V ) . B e r l i n 1977. Wahrig, Gerhard : Deutsches Wörterbuch. Hrsg. in Zusammenarbeit mit zahlreichen Wissenschaftlern und anderen Fachleuten. V ö l l i g überarbeitete Neuausgabe, o . O . 1980. Wahrig, Gerhard : dtv-Wörterbuch der deutschen Sprache. Hrsg. in Zusammenarbeit mit zahlreichen Wissenschaftlern und anderen Fachleuten. 4. A u f l . München 1981. Weber, Heinz Josef : Mehrdeutige Wortformen im heutigen Deutsch. Studien zu ihrer grammatischen Beschreibung und lexikographischen Erfassung. Tübingen 1974. Wersig, Gernot : Thesaurus - Leitfaden. Eine Einführung in das Thesaurus - P r i n z i p in Theorie und Praxis. DGD Schriftenreihe 8. München 1978. Wichter, Sigurd : Signifikantgleiche Zeichen (= Tübinger Beiträge zur Linguistik Bd. 160) Tübingen 1988. Wiegand, Herbert E. : Onomasiologie und Semasiologie (= Germanistische Linguistik H. 3 ) . Hildesheim 1970.

221

WIEGAND 1977a

WIEGAND 1977b

Wiegand, Herbert E. : Nachdenken über Wörterbücher. Aktuelle Probleme. In: Drosdowski, Günther/Henne, Helmut/Wiegand, Herbert E . : Nachdenken über Wörterbücher. Mannheim 1977, S. 51-102. Wiegand, Herbert E. : Einige grundlegende semantisch - pragmatische Aspekte von Wörterbucheinträgen. In: Kopenhagener Beitrage zur germanistischen Linguistik 12. 1977, S. 59-149.

WIEGAND/KUCERA l98l

WILLE 1989 WOTJAK 1971 ZEPIO 1970 ZIPF 1949

Wiegand, Herbert E./Kucera, Antonin : Brockhaus - Wahrig : Deutsches Wörterbuch auf dem Prüfstand der praktischen Lexikologie I . T e i l . In: Kopenhagener Beiträge zur Germanistischen Linguistik 18. 1981, S. 94-217. W i l l e , Rudolf (Hrsg.) : Klassifikation und Ordnung (= Studien zur K l a s s i f i k a t i o n Bd. 19). Frankfurt/M. 1989. Wotjak, Gerd : Untersuchungen zur Struktur der Bedeutung. Berlin 1971. Zepic, Stanko : Morphologie und Semantik der deutschen Nominalkomposita. Zagreb 1970. Z i p f , George Kingsley : Human behavior and the principle of least e f f o r t . Cambridge/Mass. 1949.

10.

Anhang

Tabelle A I :

BegriffskettenbiIdung in V l (Zu den ersten 20 und letzten 20 Stichwörtern der ersten Stichprobe)

Aa - Ausscheidung - Stoffwechselprodukt - Stoff - Substanz Stoff. Abate - Weltgeistlicher- Geistlicher - Seelsorger Geistlicher. Abblende - Übergang - Phase - Abschnitt - Zeitspanne Spanne - Zeitraum - KE. Abdämmung - Bereich - Gebiet - Bereich. Abendland - Einheit - Ganzheit - Einheit. Abfall - Rest - Überrest - KE. Abfuhr - Abtransport - das Abtransportieren. Abgemessenheit - Art - Weise - Art. Abgrund - T i e f e - Ausdehnung - KE. Abhitze - Abwärme - Wärme - Wärmeenergie - Energie Kraft - KE. Abkochung - Lösung - Flüssigkeit - Stoff - Substanz - S t o f f , Ablaut - Vokalwechsel - NA. Ablösungssumme - Ablösesumme - Geldsumme - Summe Geldbetrag - NA. Abonnement - Bezug - das Beziehen. Abreißkalender - Kalender - Verzeichnis - Zusammenstellung QSache - Gegenstand - Sache. Abschaum - Teil - Gruppe - Kreis - Gruppe. Abschmierfett - Fett - Stoff - Substanz - S t o f f . Abschwung - Rückgang - Verminderung - das Vermindern. Absinth - Branntwein - Getränk - Flüssigkeit - Stoff Substanz - S t o f f . Abstammung - Herkunft - Abstammung.

A 2

Tabelle A I :

(Fortsetzung)

Zugkontrolle - Kontrolle - Überprüfung - das überprüfen. Zukost - Beikost - Nahrung - Eßbares. Zumischung - Mischung - Gemisch - Mischung. Zungenakrobatik - Bewegung - das Sichbewegen. Zurechtweisung - Äußerung - Bemerkung - Äußerung. Zurückgezogenheit - Zustand - Art - Weise - Art. Zurücksetzung - Handlung - Ergebnis - Folge - Auswirkung das Sichauswirken. Zurückzahlung - Rückzahlung - KE. Zusammenfassung - Darstellung - etw. Dargestelltes. Zusammenrottung - Menschenmenge - KE. Zusatz - Beigabe - das Beigeben. Zuschrift - Schreiben - Mitteilung - KE. Zustimmung - Bejahung - das Bejahen. Zuwendung - Geld - Summe - Geldbetrag - NA. Zwangsvollstreckung - Verfahren - Folge - Auswirkung das Sichauswirken. Z w e i f e l s f a l l - Fall - Angelegenheit - Sachverhalt - Umstand Tatsache - Umstand. Zwenke - Süßgras - NA. Z w i l l i n g s f o r m e l - Verbindung - Kombination - Verbindung. Zwischenlager - Lager - Platz - Fläche - Bereich - Raum Platz. Zyklide - Fläche - Oberfläche - Fläche.

Erläuterungen zu Tab. A I ; KE = Es ist im untersuchten Wörterbuch kein Kettenglied gemäß den aufgestellten Definitionen zu ermitteln. NA = Das Substantiv ist im DUDUNI nicht lemmatisiert.

Tabelle A2:

c 4455 1366 11 15 3 120 3 71 1 2 15 2 10 2 1 3 9 415 2 1 2 19 2 3 10 1 39 7 3 1 1 1 3 6 2 5 4 1 1 14 2 51 1 3 1 5 1 3 4 3 1 2 1 1 1 1 1 1 1

Verteilung der Α-Werte, AS-Werte und ASS-Werte

A

AS

ASS

_

_

_

0.07 0.0925 0.1 0.1075 0.115 0.1225 0.13 0.1325 0.135 0.1375 0.1425 0.145 0.1475 0.15 0.1525 0.1575 0.16 0.165 0. 17 0.1775 0. 18 0.1875 0.1925 0.195 0.1975 0.2 0.2025 0.205 0.2075 0.2125 0.215 0.2175 0.2225 0.225 0.23 0.2325 0.235 0.2375 0.24 0.2425 0.245 0.2475 0.26 0.2625 0.265 0.2725 0.275 0.2775 0.2825 0.285 0.2875 0.2925 0.295 0.2975 0.3 0.3025 0.3075 0.31

0.2646 0.3041 0.3162 0.3279 0.3391 0.35 0.3606 0.364 0.3674 0.3708 0.3775 0.3808 0.3841 0.3873 0.3905 0.3969 0.40 0.4062 0.4123 0.4213 0.4243 0.433 0.4387 0.4416 0.4444 0.4472 0.45 0.4528 0.4555 0.461 0.4637 0.4664 0.4717 0.4743 0.4796 0.4822 0.4848 0.4873 0.4899 0.4924 0.495 0.4975 0.5099 0.5123 0.5148 0.522 0.5244 0.5268 0.5315 0.5339 0.5362 0.5408 0.5431 0.5454 0.5477 0.55 0.5545 0.5568

0.5144 0.5515 0.5623 0.5726 0.5823 0.5916 0.6005 0.6033 0.6062 0.6089 0.6144 0.6171 0.6197 0.6223 0.6249 0.63 0.6325 0.6373 0.6421 0.6491 0.6514 0.658 0.6624 0.6645 0.6666 0.6687 0.6708 0.6729 0.6749 0.679 0.6809 0.6829 0.6868 0.6887 0.6925 0.6944 0.6963 0.6981 0.6999 0.7017 0.7035 0.7053 0.7141 0.7158 0.7175 0.7225 0.7242 0.7258 0.729 0.7307 0.7323 0.7354 0.737 0.7385 0.7401 0.7416 0.7447 0.7462

C 1 1 1 1 1 1 2 3 1 4 1 1 1 3 1 1 3 1 1 2 11 1 1 1 3 1 1 10 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 4 1 1 1 1 1 1 1 1 1 1 2 1 1 2 1

A

0.6075 0.62 0.625 0.6325 0.6375 0.64 0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0,7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0 9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 1.01 1.015 1.025 1.0325 1.035 1.0375

AS

0.7794 0.7874 0.7906 0.7953 0.79Θ4 0.80 0.8016 0.8062 0.8093 0.8124 0.8139 0.817 0.8185 0.8216 0.8246 0.8292 0.8307 0.8322 0.8367 0.8426 0.8485 0.8515 0.8544 0.8559 0.8602 0.8646 0.8689 0.8718 0.8775 0.8874 0.8888 0.90 0.9028 0.9042 0.9055 0.9097 0.9165 0.9192 0.9247 0.9487 0.9539 0.9552 0.9566 0.9644 0.9657 0.9682 0.9695 0.9747 0.9823 0.9925 0.9937 1.0025 1.0037 1.005 1.0075 1.0124 1.0161 1.0173 1.0186

ASS

0.8828 0.8874 0.8891 0.8918 0.8936 0.8944 0.8953 0.8979 0.8996 0.9013 0.9022 0.9039 0.9047 0.9064 0.9081 0.9106 0.9114 0.9122 0.9147 0.9179 0.9212 0.9228 0.9243 0.9251 0.9275 0.9298 0.9322 0.9337 0.9367 0.942 0.9428 0.9487 0.9501 0.9509 0.9516 0.9538 0.9573 0.9588 0.9616 0.974 0.9767 0.9774 0.978 0.982 0.9827 0.984 0.9847 0.9873 0.9911 0.9962 0.9969 1.0012 1.0019 1.0025 1.0037 1.0062 1.008 1.0086 1.0092

Tabelle A2: 31 2 12 5 109 1 3 2 1 1 1 1 1 4 5 2 1 1 1 4 1 4 5 3 1 4 1 1 6 1 2 3 6 1 2 4 1 2 2 6 2 1 1 1 3 3 1 7 5 1 3 1 3 1 7 1 1 2 1 1 1 1 1

0.32

(Fortsetzung)

0.3225 0.325 0.3275 0.33 0.3325 0.34 0.3425 0.345 0.35 0.3525 0.3575 0.36 0.3625 0.365 0.3675 0.37 0.3725 0.3775 0.385 0.3925 0.395 0.4 0.405 0.4075 0.41 0.4125 0.42 0.425 0.43 0.435 0.4375 0.44 0.4475 0.455 0.46 0.4625 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4925 0.495 0.5025 0.505 0.51 0.52 0.5225 0.525 0.535 0.54 0.5425 0.545 0.55 0.5525 0.565 0.5675 0.5725 0.59 0.5925 0.6025

0.5657 0.5679 0.5701 0.5723 0.5745 0.5766 0.5831 0.5852 0.5874 0.5916 0.5937 0.5979 0.60 0.6021 0.6042 0.6062 0.6083 0.6103 0.6144 0.6205 0.6265 0.6285 0.6325 0.6364 0.6384 0.6403 0.6423 0.6481 0.6519 0.6557 0.6595 0.6614 0.6633 0.669 0.6745 0.6782 0.6801 0.6837 0.6856 0.6928 0.6964 0.6982 0.70 0.7018 0.7036 0.7089 0.7106 0.7141 0.7211 0.7228 0.7246 0.7314 0.7348 0.7365 0.7382 0.7416 0.7433 0.7517 0.7533 0.7566 0.7681 0.7697 0.7762

0.7521 0.7536 0.755 0.7565 0.7579 0.7594 0.7636 0.765 0.7664 0.7692 0.7705 0.7732 0.7746 0.7759 0.7773 0.7786 0.7799 0.7812 0.7838 0.7877 0.7915 0.7928 0.7953 0.7977 0.799 0.8002 0.8014 0.805 0.8074 0.8098 0.8121 0.8133 0.8144 0.8179 0.8213 0.8235 0.8247 0.8269 0.828 0.8324 0.8345 0.8356 0.8367 0.8377 0.8388 O. 8419 0.843 0.8451 0.8492 0.8502 0.8512 0.8552 0.8572 0.8582 0.8592 0.8612 0.8622 0.867 0.8679 0.8698 0.8764 0.8773 0.881

2 3 1 1 1 1 1 1 4 1 1 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1

1 2 1 1 1 1 1 1

1

1 1 1 1 1

1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1.04 1.0525 1.055 1.07 1.1 1.1225 1.1275 1.13 1.14 1.18 1.1825 1.2175 1.22 1.255 1.2825 1.29 1.335 1.3375 1.3675 1.3725 1.4 1.42 1 .445 1.46 1.5325 1.535 1.5675 1.69 1.7 1.715 1.765 1.8 1.84 1.855 1.8625 1.875 1.95 1.955 1.9625 2.045 2.26 2.2775 2.3375 2.54 2.675 2.71 2.8 3.625 4.0 4.1375 4.19 4.2525 4.875 4.96 5.415 6.29 8.58 9.075 9.6825 12.82 15.16 53.14 83.402

Erläuterungen zu Tab. A2 : C = Counts pro Wert A = -Werte

AS = AS-Werte ASS = ASS-Werte.

1.0198 1.0259 1.0271 1.0344 1.0488 1.0595 1.0618 1.0630 1.0677 1.0863 1.0874 1.1034 1.1045 1.1203 1.1325 1.1358 1.1554 1.1565 1. 1694 1.1715 1.1832 1.1916 1.2021 1.2083 1.2379 1.239 1.252 1.30 1.3038 1.3096 1.3285 1.3416 1.3565 1.362 1.3647 1.3693 1.3964 1.3982 1.4009 1.43 1.5033 1.5091 1.5289 1.5937 1.6355 1.6462 1.6733 1.9039 2.00 2.0341 2.0469 2.0622 2.2079 2.2271 2.327 2.508 2.9292 3.0125 3.1117 3.5805 3.8936 7.2897 9.1325

1.0099 1.0129 1.0135 1.0171 1.0241 1.0293 1 .0305 1.031 1.0333 1.0422 1.0428 1.0504 1.051 1.0584 1.0642 1.0657 1.0749 1.0754 1.0814 1.0824 1.0878 1.0916 1.0964 1.0992 1.1126 1.1131 1.1189 1.1402 1.1419 1.1444 1.1526 1.1583 1.1647 1.167 1.1682 1.1702 1.1817 1.1825 1.1836 1.1958 1.2261 1.2285 1.2365 1.2624 1.2789 1.283 1.2936 1.3798 1.4142 1.4262 1.4307 1.436 1.4859 1.4923 1.5255 1.5837 1.7115 1.7356 1.764 1.8922 1.9732 2.6999 3.022

Tabelle A3:

Verteilung der

-Werte, HS-Werte und HSS-Werte

C

H

HS

HSS

c

1143 3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4

0.00 1 .00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 23.00 24.00 25,00 26.00 27.00 28.00 29.00

0.00 1.00 1.414 1.732 2.00 2.236 2.449 2.646 2.828 3.00 3.162 3.317 3.464 3.606 3.742 3.873 4.00 4.123 4.243 4.359 4.472 4.583 4.690 4.796 4.899 5.00 5.099 5.196 5.292 5.385

0.00 1.00 1.189 1.316 1.414 1.495 1.565 1.627 1.682 1.732 1.778 1.821 1.861 1.899 1.934 1.968 2.00 2.031 2.060 2.088 2.115 2.141 2.166 2.190 2.213 2.236 2.258 2.260 2.300 2.321

3 3 1 2 3 1 1 4 1 3 1 1 1 1 2 3 2 1 1 1 1 1 1 1 1 1 1 1 1

H

30.00 31.00 32.00 35.00 36.00 37.00 39.00 40.00 43.00 44.00 45.00 47.00 48.00 49.00 53.00 54.00 55.00 65.00 68.00 76.00 84.00 85.00 100.00 115.00 143.00 144.00 145.00 229.00 261.00

HS

HSS

5.477 5.568 5.657 5.916 6.000 6.083 6.245 6.325 6.557 6.633 6.708 6.856 6.928 7.00 7.280 7.348 7.416 8.062 8.246 8.718 9.165 9.220 10.00 10.724 11.958 12.00 12.042 15.133 16.155

2.340 2.360 2.378 2.432 2.449 2.466 2.499 2.515 2.561 2.576 2.590 2.618 2.632 2.646 2.698 2.711 2.723 2.839 2.872 2.953 3.027 3.036 3.162 3.275 3.458 3.464 3.470 3.890 4.019

Erläuterungen zu Tab. A3; C = Counts pro Wert H = H-Werte

HS = HS-Werte HSS = HSS-Werte

A 6

Tabelle A4:

Verteilung der P-Werte, PS-Werte und PSS-Werte

c

P

PS

PSS

1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 1 1 1

0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00 18.00 19.00 20.00 21.00 22.00 29.00

0.00 1.00 1.414 1.732 2.00 2.236 2.449 2.646 2.828 3.00 3.162 3.317 3.464 3.606 3.742 3.873 4.00 4.123 4.243 4.359 4.472 4.583 4.690 5.385

0.00 1.00 1.189 1.316 1.414 1.495 1.565 1.627 1.682 1.732 1.778 1.821 1.861 1.899 1.934 1.968 2.00 2.031 2.060 2.088 2.115 2.141 2.166 2.321

Erl&uterungen zu Tab. A4: C P PS PSS

= = = =

Counts pro Wert P-Werte PS-Werte PSS-Werte.

A 7

Tabelle A5:

c 4455 1377 244 46 142 26 170 27 34 25 32 9 20 21 14 9 1 11 4 12 5 2 4 3 2 2 3 1 2 1 — 1

Verteilung zusammengefaßter A-, AS- und ASS-Werte

A

AS

ASS

_

__

__

0.075 0.125 0.175 0.225 0.275 0.325 0.375 0.425 0.475 0.525 0.575 0.625 0.675 0.725 0.775 0.825 0.875 0.925 0.975 1.025 1.075 1.125 1.175 1.225 1.275 1.325 1.375 1.425 1.475 1.525 1.575 1.625 1.675

0.2738 0.3535 0.4183 0.4743 0.5244 0.5700 0.6123 0.6519 0.6892 0.7245 0.7582 0.7905 0.8215 0.8514 0.8803 0.9082 0.9354 0.9617 0.9874 1.0124 1.0368 1.0606 1.0839 1.1067 1.1291 1.1510 1.1726 1.1937 1.2144 1.2349 1.2549 1.2747 1.2942

0.5233 0.5946 0.6467 0.6887 0.7241 0.7550 0.7825 0.8074 0.8301 0.8512 0.8707 0.8891 0.9064 0.9227 0.9382 0.9530 0.9671 0.9806 0.9936 1.0061 1 .0182 1.0298 1.0411 1.0520 1.0626 1.0728 1.0828 1.0925 1.1020 1.1112 1.1202 1.1290 1.1376

C 3 1 2 3 3 1 2 1 —1

1

1 1 -

—1

3 1 —2 1 1 — 1 2 1 1 2

A

1.725 1.775 1.825 1.875 1.925 1.975 2.05 2.15 2.25 2.35 2.45 2.55 2.65 2.75 2.85 2.95 3.15 3.35 3.55 3.75 3.95 4.1 4.3 4.5 4.7 4.9 5.5 6.5 7.5 8.5 9.5 12.5 15.5 >50.00

AS

1.3133 1 .3322 1.3509 1.3693 1.3874 1.4053 1.4317 1.4662 1.5000 1.5329 1.5652 1.5968 1.6278 1.6583 1.6881 1.7175 1.7748 1.8303 1.8841 1.9364 1.9874 2.0248 2.0736 2.1213 2.1679 2.2135 2.3452 2.5495 2.7386 2.9154 3.0822 3.5355 3.9370 7.0710

Erläuterungen zu Tab. A5: C = Counts pro Wert A = A-Werte

AS = AS-Werte ASS = ASS-Werte.

Die Werte in den Spalten A, AS, ASS sind j e w e i l s die mittleren Werte eines I n t e r v a l l s ; eine d e t a i l l i e r t e Verteilung der Counts enthält Tabelle A2.

ASS

1.1460 1.1542 1.1622 1.1701 1.1778 1.1854 1.1965 1.2109 1.2247 1.2381 1.2510 1.2636 1.2758 1.2877 1.2993 1.3105 1.3322 1.3528 1.3726 1.3915 1.4097 1.4229 1.4400 1.4564 1.4723 1.4878 1.5314 1.5967 1.6548 1 .7074 1.7556 1.8803 1.9841 2.6591

A 8

Tabelie A6;

II

I

0

Kontingenztafel zu den Variablen Abstraktheit und H ufigkeit

1

0.0 267 3041 0.07 841 262 0.0925 2 0. 3 3 0. 075 0. 15 1 32 0. 225 0. 3 23 9 0. 325 0. 35 1 0. 375 1 0. 425 1 0. 45 0. 475 0, 5 0. 525 0.1 575 1 0.16 2 203 0.165 0.17 0.1775 0.18 2 0.1 875 0. 925 0. 95 3 ο.: 975 5 9 0.1 1 0.] 025 0.205 0.2075 0.2125 0.215 0.2175 0.3 225 1 0.! 25 ο.; 3 1 ο.; 325 ο.; 35 0.! 375 0.! i 2 0.! 425 9 0.! 45 ο.: 475 ο.; 6 ο.; 625 0.2 65 2 0.2725 1 0.275 0.2775 0.2825 0.285 0.2875 0.2925 0.295 0.2975 0.3 0.3025 0.3075 0.31 7 0.32 0.3225

2

3

4

5

6 7 8 9 10 Π 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35

717 235 110 33 23 13 B 2 110 58 45 16 10 6 6 4 3 3 2 1 3 2 2 1 2 21 18 13 11 6 6 5 1 1 1 1 10 9 6 4 4 3 1 2 1 2 3 2 4 2 1 3 1 1 3 1 1 1 1 1 2 2 1 1 90 50 15 15 12 10 6 6 1 1 1 1 2 3 3 2 1 1 1 1 1 2 1 2 2 1 1 1 1 1 6 5 3 3 i 1 2 1 1 1 1 2 1

4

1 1 1 1 1 5 9 2 3 1 2 1 1

1

1

1

2

1

1

1

1 1 2

2

1 2 1

1 1 1 1 1 1

1 1 1

11

1 1

1 1 1

1

2

1

1

1 1

1

1

1

1

1 1

1

1

1 1 1

1

2

1

1

1 i

1

1

1 1 1 1 1 1 1 2 1 1 1

1

1 1 ]

4

1 1 1 1 1 3 2 1 1 3 1 1

2

3 2 1

1

2 1 1 2 1

1 1 11

1

A 9

Tabelle A6: II

0.315 0.3175 0.33 0.3315 0.34 0,3415 0.345 0.35 0.3515 0,3575 0.36 0.3615 0.365 0,3675 0,37 0,3715 0.3775 0.385 0.3915 0.395 0,4 0,405 0.4075 0.41 0.4115 0.41 0.415 0.43 0.435 0.4375 0.44 0,4475 0.455 0.46 0.4615 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4915 0.495 0.5015 0.505 0.51 0.51 0.5115 0.515 0.535 0.54 0.5415 0.545 0.55 0.5515 0.565 0.5675 0.5715 0,59 0.5915 0.6015 0.6075 0.61 0.615 0.6315 0.6375 0.64

I

0

l

l 50

(Fortsetzung) 2

3

4 13 11

l

4

5

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 11 13 14 15 16 17 18 19 3D 31 31 35

1 1 1 1 3 8 4 4 3 1 1 l l l

1 1

1 1 1

1

l

l l l

1

l l l l

l l

l

l

l

l l

l

l l

l l

l

l

l

l

l l l l 2 l

l l l

l

l

l

l l

l l l

l l

l l l

l

l l

l l

A 10

Tabelle A6: II

I

0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0,93 0.9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 1.01 1.015 1.025 1.0325 1.035 1.0375 04 1.0525 055 07

0

l

(Fortsetzung) 2

4

5

6 7 ί 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35

l l

l l

l

l

5

l 2

1

2

2

5

l l 2

l l

225 275

8 1825 2175 22 1.255

3

2 l

l 2

l

l l

l

l

l

A 11

labelle A6: II

I

0

1.2825 1.29 1.335 1.3375 1.3675 1.3725 1.4 1.42 1.445 1.46 1.5325 1.535 1.5675 1.69

1

2

3

4

5

6 7 S 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35

1

1

1 1 1 1

1 1

!?15 .765 .8 .84 .855 .8625 ,875 1.95 1.955 1.9625 .045 .26 .2775 .3375 .54 .675 .71

1 1

1 1

.625 .0 .1375 .19 .2525 .875 .96 .415 .29 .58 .075 .6825 12.82 15.16 53.14 83.402

1 1

I IV

(Fortsetzung)

0

1

2

3

4

5

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 35

1143 3671 1064 430 249 128 102 75 57 47 31 15 21 18 10 6 8 12 3 6 11 5 6 1 1 2 3 4 1 4 3 3 1 2

A

12

TabeHe A6 :

(Fortsetzung)

36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261 1

1

1

II

III

O.I) 4455 0.07 1366 0.925 11 0. 1 15 0.1075 3 0.115 120 0,1225 3 0,13 71 0, 325 1 0. 35 2 0. 375 15 0. 425 2 0. 45 10 0. 475 2 0. 5 1 0. 525 3 0.1575 9 0.16 415 0.165 2 0.17 1 0.1775 2 0.18 19 0. 875 2 0. 925 3 0. 95 10 0. 975 1 0. 39 0. 025 7 0.205 3 0.2075 1 0.2125 1 0.215 1 0.2175 3 0.2225 6 0,225 2 0.23 5 0.2325 4 0.235 1 1 0.2375 0.24 14 0.2425 2 0.245 51 1 0.2475 0.26 3 0.2625 1 0.265 5 0.2725 1 0.275 3 4 0.2775 0.2825 3 0.3 85 1 o.: 875 2 0.! 925 1 o.: 95 1 o.: 975 1 0.2 1 0.3025 1 0.3075 1 0.31 1 0.32 31 0.3225 2

A 13

Tabelle A6:

(Fortsetzung)

36 37 39 40 43 44 45 47 48 49 S3 54 55 65 6ί 76 84 85 100 115 143 144 145 129 261 1

1

1

1

1

1

1 1

1

11

III

0.325 0.3175 0.33 0.3325 0.34 0.3425 0.345 0.35 0.3525 0.3575 0.36 0.3625 0.365 0.3675 0.37 0.3725 0.3775 0.385 0.3925 0.395 0.4 0.405 0.4075 0.41 0.4125 0.42 0.425 0.43 0.435 0.4375 0.44 0.4475 0.455 0.46 0.4625 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4925 0.495 0.5025 0.505 0.51 0.52 0.5225 0.525 0.535 0.54 0.5425 0.545 0.55 0.5525 0.565 0.5675 0.5725 0.59 0.5925 0.6025 0.6075 0.62 0.625 0.6325 0.6375 0.64

1 109 1 3 2 1 1 1 1 1 4 5 2 1 1 1 4 1

1 1 1 3 3 1 7 5 1 3 1 3 1 7 1 1 2 1

1 1

A 14

Tabelle AS:

(Fortsetzung)

36 3? 39 40 43 44 45 47 46 49 S3 54 55 65 68 76 Θ4 85 100 115 143 144 145 229 261

H

0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.6β 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0.9325 0.9375 0.94 0.95

1 1

1

1

1

0.965

1

1

1

1

0.985 0.9875 1.005 1.0075 1.01 1.015 1.025 1.0325 1.035 .0375 .04 .0525 .055 .07 .1 .1225 .1275 1.13 1.14 1. β 1.1825 1.2175 1.22 1.255

III 2 3 1 4 1 1 1 3 1 1 3 1 1 2

11

1 1 3 1 1 10 1 1

3

4

1 1 1 1 1 2

1

3 1 1 1

1

1 4 1 1 3 1 1

A 15

T a b e l l e A6:

(Fortsetzung)

36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 229 261

1.2825 1.29 1.335 1.3375 1.3675 1.3725 1.4 1.42 1.445 1.46 1.5325 1.535 1.5675 1.69 .7 1.715 ,765 1.8 1.84 1,855 .8625 ,875 1.95 1.955 1,9625 2.045 2.26 2.2775 2.3375 2.54 2.675 2.71 .8 .625 .0 .1375 .19 .2525 .875 4.96 5.415 6.29 1 8.58 9.075 9.6825 12.82 15.16 53.14 83.402

1 1

1 1 1 1 1 1 1 1

1 1

1

II

1

III 1 1 1 1 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

1 1

36 37 39 40 43 44 45 47 48 49 53 54 55 65 68 76 84 85 100 115 143 144 145 129 261 3 1 1 4 1 3 L 1 1 1 2 3 2 1 1 1 1 1

1

1

1

Erläuterungen zu Tab. A6: I = H-Werte III = Zeilensummen I I = A-Werte IV = Spaltensummen.

1

1

1

1

7179

A 16

T a b e l l e A7:

X

\

iN 0.0 0.07 0.0925 0.1 0.1075 0.115 0.1225 0.13 0.1325 0.135 0.1375 0.1425 0.145 0.1475 0.15 0.1525 0.1575 0.16 0.165 0.17 0.1775 0.18 0,1875 0.1925 0.195 0.1975 0.2 0.2025 0.205 0,2075 0.2125 0.215 0.2175 0.2225 0.225 0.23 0.2325 0.235 0.2375 0.24 0.2425 0.245 0.2475 0.26 0.2625 0.265 0.2725 0.275 0.2775 0.2625 0.285 0.2875 0.2925 0.295 0.2975 0.3 0.3025 0.3075 0.31 0.32 0.3225

1

0

Kontingenztafel zu den Variablen Abstraktheit und Polysemie 1

J

3

4

896 1680 780 447 230 210 565 216 99 81 1 2 3 2 1 1 5 1 1 1 1 10 25 22 15 13 2 7 16 12 6 3 1 1 1 2 5 2 1 1 1 1 1 2 1

1 5 65 149

2

3 1

1

4

7

13

1 2 2

5

6

3

1 4 2 1 1

39 19 1 2 1 1 3

22 13 8 11 4 5 3 2 1 1 27 9 6 5 4 3 11

1 2 1 2 2 3 3 1

1 2 1 1 7 8

1

1 1 1 1

1 7 9 4 4 3 2 1 1

2 1

1

1

2 1 1 2 1

1

1 1

1

1 1 1

4

l

1 1

1

3

1

1

5

2

3

1

2

II 0. ) 0,07 0.925 0. l 0.1075 0. 15 0. 225 0. 0. 325 0. 35 0. 375 0. 425 0. 45 0. 475 0. 5 0. 525 0. 575 0.16 0,165 0.17 0.1775 0.18 0.1875 0.1925 0.195 0.1975

D.;

1 1 1 1

1 2 1 1

1

1

1

1 1 1 1 1 1 1 1

3

1 1 3

1

1

1

1

1

4

1

1 1

1

1

1 1 5 1

1

1 1

1

1 1 1 1 1 1 1 1 2 1 1 1 1 1

1 1 1 3 2

7 8 9 10 11 12 13 14 15 16 17 1β 19 20 21 22 29

147 100 64 51 30 38 2 1 2 13 9 5 6 5 3

1 1 1 1 65 40 27 23 11 1 1 1 1 4 3 2 3 1 2 1 4 2 1 2 1 10 6 3 3 2 4 4 1 1

2 2

1

5

0.2025 0.205 0.2075 0.2125 0.215 0.2175 0.2225 0.225 0.23 0.2325 0,235 0.2375 0.24 0.2425 0.245 0,2475 0.26 0.2625 0.265 0.2725 0.275 0.2775 0.2825 0.2 85 o.; 875 0.! 925 0.! 95 o.: 975 0.3 0,3025 0.3075 0.31 0.32 0.3225

III

4455 1366 11 15 3 120 71 2 15 2 10 2 1 9 415 2 2 19 2 3 10 1 39 7 3 1 1 1 3 6 2 5 4 1 1 14 2 51 1 3 1 1 3 4 3

1 1 31 2

A 17

Tabelle A7:

(Fortsetzung)

"N.

0.325 0.3275 0.33 0.3325 0.34 0.3425 0.345 0.35 0.3525 0.3575 0.36 0.3625 0.365 0.3675 0.37 0.3725 0.3775 0.385 0.3925 0.395 0.4 0.405 0.4075 0.41 0.4125 0.42 0.425 0.43 0,435 0.4375 0.44 0.4475 0.455 0.46 0.4625 0.4675 0.47 0.48 0.485 0.4875 0.49 0.4925 0,495 0.5025 0.505 0.51 0.52 0.5225 0.525 0.535 0.54 0.5425 0.545 0.55 0,5525 0.565 0.5675 0.5725 0.59 0.5925 0.6025 0.6075 0.62 0.625 0.6325 0.6375 0.64

I

0

1

2

4

2 3 29 1

2

21

1

1 1 1 1 2 1 1 2 5 1 1

1

1

3

4

1

20 15 1

1 7

5

1 4 1 1

1 1 1

2

1

2 1 1

1 1

1 1

1 1 6

1 1 2 1

2

1

2

1 1 1 1 2 1 1

1 1

1 3 2 1

1 1

2 1

, 2

1

1 1

2 1

1 1

1 1 1

11 1 1

1 1 1 3 1

1 1

1

1

1 1

1

1

1

1

1 1

1

1

1

1

1

1

1 1

1

1

1 1

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29

1

1 1

6

1

1 2

1

1

1

1

1 1

1 1

1

l

1 1

1 1 1

l 1 1 1

1

II

111

0.325 12 5 0.3275 0.33 109 1 0.3325 3 0.34 : 0.3425 0.345 0.35 0.3525 0.3575 0.36 4 0.3625 5 0.365 0.3675 2 1 0.37 1 0.3725 1 0.3775 4 0.385 1 0.3925 0.395 4 5 0.4 3 0.405 1 0.4075 4 0.41 1 0.4125 1 0.42 0.425 6 1 0.43 2 0.435 3 0.4375 6 0.44 1 0.4475 0.455 2 0.46 1 0.4625 0.4675 2 0.47 2 6 0.48 2 0.485 1 0.4875 1 0.49 0.4925 3 0.495 0.5025 3 1 0.505 0.51 5 0.52 0.5225 1 0.525 1 0.535 3 0.54 1 0.5425 0.545 1 0.55 0.5525 2 0.565 1 0.5675 0.5725 1 1 0.59 1 0.5925 0.6025 0.6075 1 0.62 0.625 • 0.6325 0.6375 0.64 •

A 18

Tabelle A7:

(Fortsetzung)

V 0.6425 0.65 0.655 0.66 0.66]5 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0,84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0.9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 .01 1.015 1.025 1.0325 1.035 1,0375 1.04 1.0525 1.055 1.07 1.1 1.1225 1.1275 1.13 1.14 1.18 1.1825 1.2175 1.22 1.255

I

0

1

2

3

4

1

1 1

2

1 1 1

1 1 1

1 1 2

1

3 2 3

2

1 1 3 1

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29 1 1

1 1

1

1

1 1

1 1 1 1 2 1

1

1 1

1

1

1 1 1

1

2 1 1 1

1

1

1 1

1 1

1

1

1

1 2 1 2

1

1

1 1

1

1

4 1

1 1 1

6

1

1 1 1 1 1

5

1 1

1 1

1

1

1 1

1 1 1 1 1

1 1

l

II 0.6425 0.65 0.655 0.66 0.6625 0.6675 0.67 0.675 0.68 0.6875 0.69 0.6925 0.7 0.71 0.72 0.725 0.73 0.7325 0.74 0.7475 0.755 0.76 0.77 0.7875 0.79 0.81 0.815 0.8175 0.82 0.8275 0.84 0.845 0.855 0.9 0.91 0.9125 0.915 0.93 0.9325 0.9375 0.94 0.95 0.965 0.985 0.9875 1.005 1.0075 1.01 .015 .025 .0325 .035 .0375 .04 .0525 1.055 1.07 l.l 1.1225 1.1275 1.13 1,14 1.18 1,1825 1.2175 1.22 1.255

III 2 3 4 1 1 1 3

2 11 1 1 3 1 1 10 1 1 1

i

1 1 3

1

4 1 1 1 1

' • '

; ; 1

3 1 1

A 19 Tabe 1J.J5_ A7 :

(Fortsetzung)

ViN

2

I

1,2625 1.29 .335 1.3375 1.3675 1,3725 1.4 1.42 1.445 1,46 1.5325 1.535 1.5675 1.69 .7 .715 .765 .8 .4 .855 .8625 .875 .95 .955 .9625 .045 .26 .2775 .3375 .54 .675 .71 .8 3.625 4.0 4.1375 4.19 4.2525 4.875 4.96 5.415 6.29 8.58 9.075 9.6825 11,82 15.16 53.14 83.402

1

1

3

4

5

6

1

1

1 1 1 1

1 1 1

1 1

1 1

1

1 1 1

1

1 1 1

1 1

1 1

1

1

1

1

1

1

1 1

1 1 1 1 1

1

1

1

1

1

1

0

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29

1 1

I IV

0

2

1

1

1 1

3

4

5

6

II

III 1 1 1 1

1.2825 1.29 1.335 ,3375 1.3675 1.3725 1.4 1.42 1.445 1.46 1,5325 1.535 1.5675 1,69 1.7 1.715 1.765 1.8 1.84 1.855 1.8625 1.875 1.95 1.955 1.9625 .045 .26 .2775 .3375 .54 .675 .71 .8 .625 .0 .1375 .19 .2525 .875 .96 5.415 6.29 8.58 9.075 9.6825 12.82 15.16 53.14 B3.401

j

1 1 1 1 2 1 1 1 1 1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 29

1260 2602 1221 692 412 294 209 144 94 70 41 38 25 18 17 11 11 8 3 3 3 1 1 1

Erläuterungen zu Tab. A7: I = P-Werte III II = A-Werte IV

= Z e i l ansummen = Spaltensummen.

7179

20

Tabelle A8:

Korrelationskoeffizientendynamik zu ausgewählten ASS- und HS-Werten

30

35

37

40

45

49

55

68

85 100

143 144

261

0.675

60

60

60

61

61

61

6l

61

61 61

61 61

61

0.675

0.875

59

59

59

59

60

60

60

60

60 60

60 60

60

0.875

1.075

59

59

59

60

60

60

60

61

61 60

61 61

61 1.075

1.275

57

58

58

58

59

59

59

59

59 59

60 59

59 1.275

1.475

58

58

58

59

59

59

60

60

60 60

60 60

60 1.475

1.675

58

58

58

59

59

59

60

60

60 60

60 60

60 1.675

1.875

57

58

58

59

59

59

60

60

60 60

60 60

60 1.875

2.25

58

58

58

59

59

59

60

60

60 60

61 61

61 2.25

2.55

58

58

58

59

59

59

60

61

60 60

61 61

61 2 . 5 5

2.85

57

57

58

58

59

59

60

60

60 60

61 61

61 2.85

4.1

57

57

58

58

59

59

61

61

61 61

61 61

61

4.9 5.5 6.3 8.5 975 12.5 15.5 53.5 83.5

57 57 57 57 57 57 57 56 56

57 57 57 57 57 57 57 56 55

57 57 58 58 57 57 57 56 56

58 58 58 58 58 58 58 57 56

59 59 59 59 59 59 59 57 57

59 60 60 60 59 59 59 58 57

61 61 61 61 61 61 61 60 59

61 62 62 62 61 61 61 60 59

61 62 62 62 61 62 63 61 60

62 63 63 63 62 63 63 62 61

62 4.9 62 5.5 62 6.3 63 8.5 63 975 64 12.5 64 15.5 63 53.5 62 83.5

30

35

37

40

45

49

55

68

85 100

11

I

I

62 62 62 62 62 63 63 62 61

62 62 62 62 62 63 63 62 61

143 144

n

4.1

261

Erläuterungen zu Tab. A8: I = Häufigkeit II = Abstraktheit. Um einen vergleich der Tafeln untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

A 21

Tabelle A9:

30

35

37

40

45

49

55

68

85 100 115 143 144

261



0.675

60

60

60

60

61

61

61

61

61 61

61 61

61

0.675

O.S75

59

59

59

59

60

60

60

60

60 60

60 60

60

0.875

1.075

58

58

59

59

59

59

60

60

60 60

60 60

60 1.075

1.275

57

57

58

58

58

58

59

59

59 59

59 59

59 1.275

1.475

57

57

58

58

58

58

59

59

59 59

59 59

59 1.475

1.675

57

57

58

58

58

58

59

59

59 59

59 59

59 1.675

1.875

57

57

57

58

58

58

58

59

59 59

59 59

59 1.875

1.25

57

57

57

57

58

58

58

59

59 59

59 59

59 2 . 2 5

2.55

56

57

57

57

58

58

59

59

59 59

59 59

59 2.55

2.85

56

56

57

57

57

57

58

58

58 58

59 59

59 2.85

4.1

56

56

56

57

57

57

58

58

58 58

59 59

59

4.1

4.9 5.5 6.3 8.5

56 56 56 56 55 55 55 54 54

56 56 56 56 55 55 55 54 52

56 56 56 56 56 56 56 54 53

57 57 56 56 56 56 56 54 53

57 57 57 57 56 56 56 55 53

57 57 57 57 57 57 57 55 54

58 58 58 58 58 58 58 56 55

58 58 58 58 58 58 58 56 55

58 58 58 58 58 58 58 57 55

59 59 59 59 58 59 59 57 56

59 59 59 59 59 59 59 57 56

59 59 59 59 59 59 59 58 56

4.9 5.5 6. 8. O 12. 15. 53. 83.

30

35

37

40

45

49

55

68

85 100

143 144

261

II

I

Korrelationskoeffizientendynamik zu ausgewählten ASS- und HSS-Werten

12.5 15.5 53.5 83.5 I

59 59 59 59 58 58 58 57 56

Erläuterungen zu Tab. A9: I = Häufigkeit II = Abstraktheit. Um einen vergleich der T a f e l n untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

22

Tabelle A I 0 :

30

35

37

40

45

49

55

6

85 100

143 144

261

0,675

59

59

59

60

60

60

60

60

60 60

60 60

60

0.675

0.875

57

57

58

58

58

58

59

59

59 59

59 59

59

0.875

1.075

56

57

57

58

58

58

59

59

59 59

59 59

59 1.075

1.275

55

55

56

56

56

56

57

57

57 57

57 57

57 1.275

1.475

55

55

56

56

57

57

57

57

57 57

58 58

58 1.475

1.675

55

55

55

56

56

56

57

58

58 58

58 58

58 1.675

1.875

54

55

55

56

56

56

57

57

57 57

58 57

57

2.25

54

55

55

56

56

56

57

58

58 58

59 58

58 2 . 2 5

2.55

54

54

55

55

56

56

58

58

58 58

59 59

59 2.55

2.85

53

54

54

55

55

55

57

58

58 58

58 58

58

2.85

4.1

53

53

54

54

55

55

57

58

58 58

59 58

58

4.1

4.9 5.5 6.3 8.5 575 12.5 15.5 53.5 83.5

53 53 53 53 52 52 52 46 46

53 53 53 53 52 52 52 46 42

53 53 53 53 52 52 52 46 42

54 54 54 54 53 53 53 47 43

55 55 55 55 54 54 54 47 44

55 56 56 56 55 55 55 49 45

57 58 58 58 56 56 56 50 46

58 58 58 58 57 57 57 51 47

58 58 58 58 57 58 58 52 48

60 60 60 60 58 59 59 54 50

59 60 59 59 58 59 59 54 49

59 60 59 61 60 60 61 55 51

4.9 5.5 6.3 8.5 5 12.5 15.5 53.5 83.5

30

35

37

40

45

49

55

68

85 100

143 144

261

11

I

K o r r e l a t i o n s k o e f f i z i e n t e n d y n a m i k zu ausgewählten AS- und HS-Werten

I

Erläuterungen

59 59 59 59 58 58 59 54 49

n

1.875

zu Tab. A10:

I = Häufigkeit II = Abstraktheit. Um einen vergleich der Tafeln untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

A 23

Tabelle A l l :

30

35

37

40

45

49

55

68

85 100

143 144

261

0.675

58

58

58

5}

59

59

59

59

59 59

59 59

59

0.675

0.875

56

56

57

57

57

57

57

57

58 58

58 58

58

0.875

1.075

55

55

56

56

56

56

57

57

57 57

57 57

57 1.075

1.275

54

54

54

55

55

55

55

55

56 56

56 56

56 1.275

1.475

53

54

54

55

55

55

55

55

55 55

56 56

56 1.475

1.675

53

53

54

54

54

55

55

55

55 55

56 56

56 1.675

1.875

53

53

53

54

54

54

55

55

55 55

55 55

55 1.875

3.25

52

53

53

53

54

54

54

55

55 55

55 55

55 2.25

2.55

52

52

53

53

53

54

54

55

55 55

55 55

55 2.55

2. β5

51

52

52

53

53

53

54

54

54 54

55 55

55 2.85

4.1

51

51

51

52

52

52

53

54

54 54

54 54

54

4.1

4.9 5.5 6.3 8.5 Ο 12.5 15.5 53.5 83.5

51 51 50 50 49 49 49 42 42

51 51 50 50 49 49 49 43 38

51 51 51 51 49 49 49 43 38

52 52 51 51 50 50 50 43 38

52 52 52 52 50 50 50 44 39

52 52 52 52 50 50 50 44 39

53 53 53 53 51 51 51 45 40

53 53 53 53 51 51 51 46 41

53 53 53 53 52 51 51 46 41

54 54 54 54 52 52 52 47 42

54 54 54 54 52 52 52 47 42

54 54 54 54 53 53 52 47 43

4.9 5.5 6.3 8.5 ΓΤ 12.5 15.5 53.5 83.5

30

35

37

40

45

49

55

68

85 100

143 144

261

II

I

Korrelationskoeffizientendynamik zu ausgew hlten AS- und HSS-Werten

I

54 54 53 53 52 52 51 46 42

n

Erl uterungen zu Tab. A l l : I = H ufigkeit II = Abstraktheit. Um einen vergleich der T a f e l n untereinander zu vereinfachen, sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

A 24

Tabelle AI2:

Korrelationskoeffizientendynamik zu ausgewählten HS- und P-Werten 4

6

8

10

12

14

16

18

20

22

29

II

139

170

187

191

196

193

197

195

197

197

197

4

193

246

259

261

271

281

286

284

285

286

288

8

12

199

260

277

279

291

307

314

314

316

318

319

12

16

204

263

281

282

293

309

317

320

326

329

330

16

20

205

265

286

292

303

321

328

335

343

346

346

20

24

211

268

288

294

304

326

334

340

348

351

351

24

28

211

271

297

300

312

335

345

351

358

360

361

28

32

215

276

299

301

314

338

350

355

362

364

364

32

37

218

277

302

304

318

342

353

361

367

369

370

37

43

216

274

304

304

323

345

356

363

369

371

372

43

48

214

273

301

303

321

343

353

360

366

368

368

48

55

215

276

302

306

322

342

351

358

364

366

366

55

68

215

278

303

306

325

345

354

361

366

368

368

68

84

215

278

305

307

326

349

357

364

369

370

370

84

100

215

279

307

308

326

348

356

363

368

369

369

100

143 144 145 229 261

215 210 204 194 194

279 274 267 258 258

307 302 296 288 288

308 304 298 290 293

333 329 323 316 317

354 349 344 336 337

361 357 351 344 344

367 362 357 349 350

372 367 362 354 354

373 368 363 355 356

373 368 363 355 355

143 144 145 229 261

4

6

8

10

12

14

16

18

20

22

29

11

I

4

I

Erläuterungen zu Tab. AI2: I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

A 25

Tabelle AI3;

Korrelationskoeffizientendynamik zu ausgewählten HSS- und P-Werten 4

6

8

10

12

14

16

18

20

22

29

II

4

093

115

130

132

135

133

135

133

134

134

134

4

8

131

170

183

185

191

197

200

198

199

200

200

8

12

139

184

200

201

209

219

224

223

225

225

226

12

16

144

189

206

207

215

225

230

230

234

236

236

16

20

146

192

211

216

223

235

239

242

247

249

249

20

U

150

195

214

218

225

239

245

247

252

254

254

24

28

151

197

220

223

231

246

252

255

259

261

261

28

32

153

201

223

225

234

250

257

260

264

265

265

32

37

155

202

226

227

237

253

260

264

268

270

270

37

43

155

202

227

229

241

256

263

267

271

273

273

43

48

155

203

228

230

243

257

264

268

272

273

273

48

55

157

207

231

234

246

260

267

270

274

275

275

55

68

157

208

232

235

249

263

269

272

276

277

277

68

84

157

208

234

236

250

265

272

275

278

280

280

84

100

157

209

236

238

251

267

273

276

279

281

281

100

143 144 145 229 261

157 156 155 153 153

209 208 207 205 205

236 235 234 232 232

238 237 236 234 237

256 255 253 252 254

271 270 269 267 269

276 276 274 273 275

280 279 277 276 278

283 282 281 279 281

284 283 282 281 282

284 283 282 281 282

143 144 145 229 261

4

6

8

10

12

14

16

18

20

22

29

II

I

I

Erläuterungen zu Tab. A I 3 : I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

A 26

Tabelle A I 4 :

Korrelationskoeffizientendynamik zu ausgewählten HS- und PS-Werten 4

6

8

10

12

14

16

18

20

11

19

II

4

118

150

169

177

183

182

186

185

187

187

187

4

8

165

217

136

244

255

264

269

269

170

171

273

8

12

172

229

153

161

273

286

294

295

197

298

299

12

16

177

233

157

265

177

290

298

301

305

308

309

16

20

179

235

161

273

185

299

306

312

318

320

321

20

24

183

239

264

174

186

303

311

317

323

325

326

24

18

183

241

269

179

292

310

319

324

330

332

333

28

31

186

144

271

180

193

311

323

328

333

335

336

32

37

188

145

174

182

197

315

325

332

337

339

340

37

43

185

242

173

181

298

316

326

333

338

339

340

43

48

184

241

171

281

297

314

324

330

335

337

338

48

SS

185

243

171

282

298

314

313

330

334

336

337

55

68

185

244

273

283

300

316

325

331

336

337

338

68

84

185

144

274

283

300

318

327

333

337

339

339

84

100

185

145

275

284

300

318

326

332

337

338

339

100

143 144 145 229 261

185 182 174 164 164

245 241 234 214 224

275 271 264 255 155

284 280 273 164 265

303 299 293 284 285

320 316 310 301 301

328 324 318 310 309

334 330 314 315 315

338 334 328 320 319

340 336 330 321 320

340 336 330 321 321

143 144 145 229

4

6

8

10

12

14

16

18

20

22

29

I

11

I

Erläuterungen zu Tab. A14: I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

261

A 27

Tabelle AI5:

Korrelationskoeffizientendynamik zu ausgewählten HSS- und PS-Werten 4

6

8

10

12

14

16

18

20

22

29

II

4

073

096

112

117

121

121

123

123

124

124

124

4

8

107

145

163

169

176

182

166

185

166

187

188

8

12

114

156

176

185

194

203

208

208

210

210

211

12

16

119

163

164

190

199

208

214

216

219

220

221

16

20

122

166

189

198

207

217

223

226

230

231

232

20

24

125

169

192

201

209

221

227

230

234

236

236

24

26

125

171

196

204

214

226

233

236

240

241

242

28

32

127

174

199

207

217

230

238

241

244

246

246

32

37

129

175

201

209

220

233

240

244

246

249

250

37

43

128

174

202

209

222

235

242

246

250

251

252

43

46

128

176

203

211

223

236

243

247

151

252

253

46

55

130

179

206

214

227

239

246

250

254

255

255

55

68

130

180

206

215

228

241

248

252

255

256

257

68

64

130

180

207

216

229

243

250

254

257

258

259

84

100

130

181

209

217

230

244

251

255

258

259

260

100

143 144 145 229 261

130 130 126 126 126

181 180 178 176 176

209 208 207 205 205

217 217 215 213 215

233 233 231 229 230

247 246 244 242 244

253 253 251 249 250

257 256 255 253 254

260 260 256 256 257

262 261 259 257 258

262 261 260 258 259

143 144 145 229 261

4

6

8

10

12

14

16

18

20

22

29

I

II

I

Erl&uterungen zu Tab. A I 5 : I = Polysemie II = Häufigkeit. Zur besseren Vergleichbarkeit sind die Variablenwerte in den Skalierungen nicht als gewurzelte Werte eingetragen worden.

28

T a b e l l e A16:

100 Substantive mit höchsten A-Werten

I

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50

II

83.402 Wesen 53.14 Lebewesen 15.16 Mensch 12.82 Gegenstand 9.6825 Sache 9.075 Ding 8.58 Teil 6.29 Substanz 5.415 Stoff 4.96 Weise 4.875 Person 4.2525 Organismus 4.19 Tier 4.1375 Plan Körper 4 Gerät 3.625 2.8 Motor 2.71 Stück Tatsache 2.675 Konstruktion 2.54 Einheit 2.3375 2.2775 Weg Art 2.26 Angelegenheit 2.045 1 .9625 Pflanze 1.955 Wettkampf 1.95 Gedankenaustausch 1.875 Zustand 1.8625 Merkmal Größe 1.855 Produkt 1.84 Einrichtungsgegenstand 1.8 1.765 Dichtung 1.715 Satzglied Verlangen 1.7 Game t 1.7 Fahrzeug 1.69 1.5675 Tag Vollziehung 1.535 Bereich 1.5325 Zeitspanne 1.46 1.445 Zeichen Tätigkeit 1.42 Teilbereich 1.4 Verfügung 1.3725 1.3675 Flüssigkeit Bau 1.3375 Erzeugnis 1.335 1 .29 Gesamtanlage Vorhaben 1.2825

Erl&uterungen zu Tab. A I 6 ; I II

= Substantive = A-Werte.

I

51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100

Zeitraum Einigung Wirbeltier Verrichtung Symbol Ganzheit Vereinbarung Spanne Geldbetrag Foto Außenseite Stelle Verhältnis Bemühung Schreibpapier Apparatur Leben Schriftstück Druckerzeugnis Abmachung Sachverhalt Arbeit Benennung Vorrichtung Jahrestag Wort Amt Schreiben Objekt Reihenfolge Apparat Wasserfahrzeug Verfassung Gebiet Eigenart Mitglied Platz Mechanismus Auswirkung Wert Mischung Gedicht Bodenerhebung Material Raum Angehörige Kampf Gedenktag Möbel Masse

II

1.255 1.22 1.2175

1.2175 1.2175 1.1825 1.18 1.14 1.14 1.14 1.14 1.13 1.1275 1.1225 1.1 1.07 1.055 1.0525 1.0525 1.0525 1.04 1.04 1.0375 1.035 1.035 1.0325 1.025 1.015 1.015 1.01 1.0075 1.005 0.9875 0.985 0.965 0.95 0.94 0.9375 0.9325 0.93 0.93 0.93 0.93 0.915 0.9125 0.91 0.9 0.855 0.84 0.84

A 29

Tabelle

17:

Auswahl von 100 Substantiven mit dem k l e i n s t e n -Wert .07'

1 Kapuzineraffe 2 Karnevalsumzug 3 Karpfenfisch 4 Kassenbuch 5 Kastration 6 Kasus 7 Kaufmann Kegel 9 Kegelbahn 10 K e h l k o p f s p i e g e l 11 Kehrbesen 12 Kehrreim 13 Keimblatt 14 Kelch 15 Ketzer 16 K i e f e r n z a p f e n 17 Kies 18 Kinderpflegerin 19 Kissen 20 K l a f t e r h o l z 21 Klagelaut 22 Klassenarbeit 23 Klatsch 24 Klecks 25 Kleingebäck 26 Knacks 27 Knitter 28 Knochenbruch 29 Kochtopf 30 Kölnischwasser 31 Königskerze 32 Kohlenwasserstoff 33 Kokosflocken 34 Kolk 35 Kolonialtruppe 36 Kolpitis 37 Komassation 38 Kommentar 39 Kondolenzkarte 40 Konkurrent 41 Kontinentalklima 42 Kontrabaß 43 Kontrahent 44 Konverter 45 Kopfbahnhof 46 Kopfschutz 47 Kopierstift 48 Koralle 49 Kost 50 Kosten

51 Kraftfahrzeugschein 52 Kraftwagen 53 Kragen 54 Krampe 55 Krapfen 56 Kriminalität 57 K r i t i k 58 Küche 59 Kücheneinrichtung 60 Küchenherd 61 Kündigung 62 Kür 63 Kunstobjekt 64 Kupferlegierung 65 Kupferstich 66 Kurzstreckenläufer 67 Kuß 6 Labferment 69 Labial stimme 70 Lähmung 71 Lagerarbeiter 72 Lama 73 L a m m f e l l m ü t z e 74 Landgut 75 Landstreicher 76 Landungsplatz 77 Lastkann 78 Lastkraftwagen 79 Laub 80 Laubbaum 81 Laufschuh 82 Lauge 83 Laute 84 Lautmalerei 85 Lebensalter 86 Lebensfreude 87 Lederhose 88 Legitimation 89 Legitimationspapier 90 Lehrer 91 Leichenbegräbnis 92 Leichtsinn 93 Leinwand 94 Leiter 95 Lemure 96 Lichtbündel 97 Lichtschalter 98 Liebste 99 Liederjahn 100 Liter

A 30

Tabelle A18:

100 Substantive mit höchsten A'-Werten

II

I

II

2.2125 1.95 1 .95 1.95 1.95 1.95 1.95 1.265 1.1717 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .76 .7467 .74 .705 .6775 .5717 .57 .57 .57 .57 .5275 .5275 .5275 .4896 .4407 .37 .37 .37 .345 .345 .345 .345 .345

51 Augenblick 52 übereinkommen 53 Fertigkeit 54 Zusammenlegung 55 Zusammenkunft 56 Zusammenklang 57 Zusammenhang 58 Zusammengehörigkeit 59 Wirkung 60 Wehrdienstpflichtige 61 Wahl spruch 62 Vorlage 63 Vorführung 64 V o l l z i e h u n g 65 Vokal part 66 V i e l z e l l e r 67 Unterscheidung 68 Unterhaltung 69 Trieb 70 Tonfolge 71 Territorium 72 Straße 73 Spielplatte 74 Sphäre 75 Sorte 76 Silbe 77 Sektor 78 Schema 79 Sachbereich 80 R i c h t l i n i e 81 Reproduktion 82 Repräsentant 83 Rennen 84 Quantum 85 Ornament 86 Niederschlag 87 Nachricht 88 Mineral 89 Materie 90 Marsch 91 Luftfahrzeug 92 Ladung 93 Laden 94 Kriechtier 95 Kreis 96 Kontakt 97 Körperteil 98 Knochenfisch 99 Kaufangebot 100 Kärtchen

.345 .34 .34

I

1 Plan 2 Verhältnis 3 Tatsache 4 Reihenfolge 5 Motor 6 Gedankenaustausch 7 Außenseite 8 Wettkampf 9 Weg 10 Zusammenleben 11 Verwaltungseinheit 12 Verkehrsweg 13 Veranlassung 14 Tauglichkeit 15 Rohmaterial 16 Moment 17 Kurve 18 Konzept 19 Grundbestandteil 20 Gespräch 21 Gemüts läge 22 Frachtgut 23 Erde 24 Entwurf 25 Container 26 Bewegtheit 27 Ausspruch 28 Aufeinanderfolge 29 Einigung 30 Schreibpapier 31 Symbol 32 Vorhaben 33 Verrichtung 34 Wert 35 Spanne 36 Gesamtanlage 37 Foto 38 Sendung 39 Leben 40 Erscheinungsweise 41 Ding 42 Wesen 43 Mechanismus 44 Kampf 45 Einrichtungsgegenstand 46 Nahrungsmittel 47 Kraftmaschine 48 Kleidungsstück 49 Kennzeichnung 50 Aussage

Erläuterungen zu Tab. AI8; I II

= Substantive = Normierte A-Werte.

.33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33 .33