198 44 22MB
German Pages 332 [336] Year 1981
Marketing Management 5 Herausgegeben von Günther Haedrich in Zusammenarbeit mit Edgar Kreilkamp und Alfred Kuß
Herbert Büning • Günther Haedrich Höret Kleinert • Alfred Kuß • Bernd Streitberg
Operationale Verfahren der Markt- und Sozialforschung Datenerhebung und Datenanalyse
W G Walter de Gruyter • Berlin • New York 1981 DE
Dr. Herbert Büning, Professor für Statistik am Institut für Angewandte Statistik der Freien Universität Berlin Dr. Günther Haedrich, Professor für Allgemeine Betriebswirtschaftslehre und Marketing am Institut für Markt- und Verbrauchsforschung der Freien Universität Berlin Dipl.-Kfm. Horst Kleinert, wissenschaftlicher Mitarbeiter am Institut für Markt- und Verbrauchsforschung der Freien Universität Berlin, Projektleiter im Modellversuch Tourismus mit Schwerpunkt Management und regionale Planung an der Freien Universität Berlin Dr. Alfred Kuß, Hochschulassistent am Institut für Markt- und Verbrauchsforschung der Freien Universität Berlin Dr. Bernd
Streitberg,
Assistenzprofessor am Institut für Angewandte Statistik der Freien Universität Berlin Das Buch enthält 75 Abbildungen und 61 Tabellen
CIP-Kurztitelaufnahme
der Deutschen
Bibliothek
Operationale Verfahren der Markt- und Sozialforschung: Datenerhebung u. Datenanalyse / Herbert Büning . . . - Berlin; New York: de Gruyter, 1981. (Marketing-Management; 5) ISBN 3-11-006980-6 NE: Büning, Herbert [Mitverf.]; GT
© Copyright 1981 by Walter de Gruyter & Co., vormals G J . Göschen'sehe Verlagshandlung, J. Guttentag, Verlagsbuchhandlung Georg Reimer, Karl J. Trübner, Veit & Comp., Berlin 30. Alle Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung sowie der Übersetzung, vorbehalten. Kein Teil des Werkes darf in irgendeiner Form (durch Photokopie, Mikrofilm oder Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden. Satz: Satzstudio Frohberg, 6463 Freigericht 1. - Druck: Karl Gerike, Berlin. Bindearbeiten: Dieter Mikolai, Berlin. Einbandentwurf: Dirk Ulrich, Berlin. Printed in Germany.
Vorwort Dieses Buch ist sowohl für den Bereich der Ausbildung als auch für Praktiker der Markt- und Sozialforschung geschrieben worden. Der Titel setzt den Schwerpunkt auf die Operationalität der Verfahren, die zur Datenerhebung und Datenanalyse verwendet werden. Operational sind empirische Verfahren nach dem Verständnis dieses Buches dann, wenn sie quasi als „Bordwaffen" des Praktikers möglichst rasch unter geringem Kostenaufwand und in eigener Regie eingesetzt werden können. In der Marktforschung bieten sich zwei große Einsatzbereiche an: Einmal handelt es sich um die Gewinnung von Konzeptionsansätzen im Marketing, zum anderen um die Überprüfung von Konzeptionen. Dabei verstehen wir hier unter dem Begriff Konzeption sowohl die zentrale Idee für eine Strategie in der Phase der Grundsatzplanung als auch die Ideen für die Realisierung dieser Strategie durch Maßnahmen oder Bündelungen von Maßnahmen in der Phase der Detailplanung (z.B. im Marketingbereich das Angebot eines Unternehmens als Ergebnis von Einzelmaßnahmen hinsichtlich der Qualität, Ausstattung und des Preises der Produkte). In der Sozialforschung sind die dargestellten Methoden zum einen in der explorativen Vorphase einer Untersuchung von Nutzen, zum anderen aber auch in der eigentlichen Hauptuntersuchung bei kleineren Projekten oder im Rahmen eines Mehrmethodenansatzes. Mit diesem Buch soll weder die vorliegende allgemeine Literatur auf dem Gebiet der Markt- und Sozialforschung noch Spezialliteratur beispielsweise über einzelne Verfahren ersetzt werden. Vielmehr soll eine Lücke geschlossen werden: Häufig werden vor, parallel zu oder nach größeren Forschungsprojekten im Bereich der Markt- und Sozialforschung, die mit institutionalisierten Beratern abgewikkelt werden, kleinere Studien „in eigener Regie" geplant und durchgeführt, für die bisher praktische Anleitungen in zusammengefaßter und systematischer Form fehlen. Im Teil A des Buches (Datenerhebung) wird zunächst der Begriff der Operationalität eingeführt (Haedrich), wobei die Darstellung der generellen Bedeutung operationaler Forschungsverfahren in der Marketing-Grundsatzplanung (Haedrich), der Marketing-Detailplanung (Kleinert) und der Sozialforschung (Streitberg) breiten Raum einnimmt. Im Rahmen der Informationsbeschaffung wird der Leser anhand eines einfachen Beispiels mit der Bayes-Analyse vertraut gemacht (Kuß); anschließend werden konkrete operationale Forschungsmethoden beschrieben, und zwar die Sekundäranalyse als Grundlage der Datengewinnung (Kleinert), Gruppendiskussionen, die explorativen Erhebungstechniken Brainstorming, Delphi-Methode und Expertenbefragung (Haedrich) sowie Befragungs- und Beobachtungsverfahren; außerdem wird eine kurze Einführung in die experimentelle Versuchsanordnung gegeben (Kuß).
6
Vorwort
Im Teil B (Datenanalyse) geht es um die für den Praktiker wichtigsten Techniken der Datenanalyse und Statistik. Nach einer Einführung (Kap. 1, Büning) in der Grundbegriffe wie Modell, Hypothese, Messniveau präzisiert werden, besprechen wir die Analyse eindimensionaler Datensätze (Kap. 2, Streitberg), Vergleiche mehrerer Gruppen von Daten (Kap. 3, Büning), Anwendung und kritische Überprüfung von Regressionsmodellen (Kap. 4, Streitberg), die Analyse qualitativer Daten (Kap. 5, Büning) und geben einen Überblick der wichtigsten Verfahren der multivariaten Analyse (Kap. 6, Streitberg). Ein abschließendes Kapitel stellt eine Einführung in die Zeitreihenanalyse und Prognose dar (Kap. 7, Büning). Generell ist die Darstellung eher an Beispielen als an der mathematischen Theorie orientiert. Wir haben versucht, an einer Reihe von Stellen neue Wege zu gehen und Methoden einzubeziehen, die bisher in der deutschsprachigen Literatur vernachlässigt wurden. So geben wir der Behandlung explorativer Techniken (Stemleafs, Boxplots etc.) breiten Raum (insbes. in Kap. 2 und 3), da uns diese Verfahren meist instruktiver zu sein scheinen als die klassische (und langweilige) deskriptive Statistik. An vielen Punkten (insbes. in Kap. 4) gehen wir auf Techniken zur kritischen Überprüfung von Modellannahmen ein, um einer blinden Anwendung statistischer Methoden vorzubeugen. Was das eigentliche Gebiet der statistischen Inferenz betrifft, so sei zum einen auf sog. simultane Schlußweisen hingewiesen, die in Kapitel 3 und 5 diskutiert werden und sonst in der einfuhrenden Literatur im allgemeinen nicht zu finden sind. Sie ermöglichen dem Anwender weit detailliertere Aussagen über Zusammenhänge in seinen Daten als globale Tests wie etwa der beliebte (und so oft mißbrauchte) Chiquadrattest. In Kap. 6 findet sich zum anderen eine Einführung in loglineare Modelle, die dem geringen Meßniveau sozialwissenschaftlicher Daten oft besser entsprechen als andere multivariate Modelle. Jedes Kapitel schließt mit einem kommentierten Literaturverzeichnis, das detaillierte Hinweise auf einführende Literatur für die jeweils erforderlichen Vorkenntnisse gibt. Auch die Symbolliste am Ende von Teil B enthält zum Teil ausführliche Erläuterungen. Alle für die Anwendung notwendigen Tabellen sind im Anhang zusammengestellt. Ein ausführliches Literaturverzeichnis für die Teile A und B befindet sich am Ende des Buches. Außerdem sind Literaturempfehlungen in die einzelnen Kapitel integriert worden, um dem Leser einen leichten Zugriff zu erläuternder bzw. weiterführender Literatur zu geben. Besonderer Dank gilt Frau M. Bless, Frau M. Kehrbaum, Frau R. Materne, Frau L. Meyer für die Leistung, eine sorgfältige Reinschrift angefertigt zu haben, und Frau Beatrix Wortmann und Frau Dipl.-Kfm. H. Selinski für die gründliche Korrektur des Manuskriptes. Berlin, im Februar 1981
Herbert Büning/Günther Horst Kleinert/Alfred Kuß/Bernd
Haedrich Streitberg
Inhalt Verzeichnis der Übersichten Verzeichnis der Tabellen Verzeichnis der Abbildungen
12 14 17
Teil A Datenerhebung
21
1. Grundlagen operationaler Methoden 1.1 „Quantitative" versus „qualitative" Forschung 1.2 Bedeutung operationaler Methoden in der Marktforschung 1.2.1 Der Gesichtspunkt der Operationalität 1.2.2 Leistungsfähigkeit operationaler Verfahren 1.2.3 Stellenwert operationaler Verfahren bei der Gewinnung und Überprüfung von Marketingkonzeptionen 1.2.4 Einordnung operationaler Verfahren in die strategische Marketingplanung 1.2.5 Einordnung operationaler Verfahren in die Marketing-Detailplanung 1.3 Bedeutung operationaler Methoden in der Sozialforschung
23 23 26 26 29
2. Informationsbeschaffung als Entscheidungsgegenstand 2.1 Problemstellung 2.2 Entscheidungskriterien 2.3 Posterior-Analyse 2.4 Preposterior-Analyse 2.4.1 Preposterior-Analyse einer Testmarktentscheidung 2.4.2 Preposterior-Analyse für eine Stichprobenuntersuchung 2.5 Hinweise zum praktischen Einsatz der Bayes-Analyse
46 46 46 53 55 55 60 64
30 32 36 43
...
3. Sekundäranalyse 3.1 Unternehmensexterne Informationsquellen 3.2 Unternehmensinterne Informationsquellen 3.3 Sozialwissenschaftliche Informationsquellen 3.4 Vorbereitung und Durchführung sekundärstatistischer Analysen
67 69 72 72
4. Gruppendiskussion 4.1 Anlage von Gruppendiskussionen
79 79
77
8
Inhalt
4.2 Beispiele für die Durchführung von Gruppendiskussionen 4.3 Auswertung und Darstellung der Ergebnisse
81 85
5. Explorative Erhebungstechniken 5.1 Brainstorming 5.1.1 Anwendung der Methoden 5.1.2 Anlage und Auswertung 5.2 Delphi-Technik 5.2.1 Anwendung der Methode 5.2.2 Anlage und Auswertung 5.3 Expertenbefragung
87 87 87 88 90 90 91 93
6. Befragungsverfahren 6.1 Einführung 6.2 Allgemeine Probleme der Frageformulierung und des Fragebogenaufbaus 6.2.1 Grundsätze der Frageformulierung 6.2.2 Fragetypen 6.2.3 Fragebogenaufbau 6.3 Befragungstaktiken 6.3.1 Direkte Befragungstaktik 6.3.2 Indirekte Befragungstaktik 6.4 Befragungszielgruppen 6.4.1 Bevölkerungsumfragen 6.4.2 Unternehmensbefragungen in Industrie und Handel 6.5 Kommunikationsformen bei der Befragung 6.5.1 Vergleichskriterien 6.5.2 Mündliche Befragung 6.5.3 Telefonische Befragung 6.5.4 Schriftliche Befragung
95 95 98 98 100 101 102 102 103 105 105 108 110 110 111 113 114
7. Beobachtungsverfahren 7.1 Einführung 7.2 Auswahlprobleme 7.3 Gestaltungsmöglichkeiten der Beobachtung 7.4 Möglichkeiten der Datenerfassung bei Beobachtungen
119 119 120 120 122
8. Experimente 8.1 Einführung 8.2 Anlage von Experimenten 8.3 F e l d - u n d Laborexperimente
124 124 125 128
Inhalt
9
Teil B Datenanalyse
131
1. Modell-Hypothese-Daten 1.1 Modell und Hypothese 1.2 Phasen einer statistischen Untersuchung 1.2.1 Hypothesenbildung 1.2.2 Datengewinnung 1.2.3 Datenverdichtung 1.2.4 Datenanalyse 1.3 Meßniveau von Daten
133 133 135 135 135 137 138 139
2. Eindimensionale Datensätze 2.1 Explorative Verfahren: Datenverdichtung 2.1.1 Beispiele 2.1.2 Überblick 2.1.3 Graphische Darstellung der Verteilung: Stemleafs 2.1.4 Maße für Lokation und Dispersion 2.1.5 Ausreißer, Cluster, schiefe Verteilung 2.1.6 Datentransformationen 2.2 Statistische Inferenz 2.2.1 Überblick 2.2.2 Überprüfung der Symmetrie 2.2.3 Überprüfung der Normalverteilungsannahme 2.2.4 Inferenz über den Median 2.2.4.1 Schätzung des Medians 2.2.4.2 Konfidenzintervall für den Median 2.2.4.3 Einseitige Konfidenzintervalle für den Median 2.2.4.4 Zweiseitiger Test für den Median 2.2.4.5 Einseitige Tests für den Median 2.2.4.6 Bemerkungen zur Inferenz über den Median 2.2.5 Inferenz über den Erwartungswert 2.2.5.1 Punktschätzung des Erwartungswertes 2.2.5.2 Zweiseitiges Konfidenzintervall 2.2.5.3 Test der Hypothese H:ß = ß0 gegen G:ju¥=// 0 2.2.5.4 Einseitige Konfidenzintervalle und Tests 3. Vergleich zweier und mehrerer unabhängiger Datensätze 3.1 Explorative Verfahren: Datenverdichtung 3.1.1 Beispiele für mehrere unabhängige Datensätze 3.1.2 Stemleaf-Diagramme und Boxplots
143 143 143 143 144 146 151 154 163 163 164 166 170 170 170 172 172 174 175 176 176 176 • • • 176 176 178 178 178 179
10
Inhalt
3.1.3 Scatterplot 3.1.4 Da ten transforma tionen 3.2 Zweistichproben-Fall 3.2.1 Problemstellung 3.2.2 Tests für Lagealternativen 3.3 c-Stichproben-Fall 3.3.1 Einführung 3.3.2 Tests für Lagealternativen 3.3.3 Multipler Vergleich
181 182 184 184 185 192 192 192 195
4. Lineare Modelle 4.1 Einleitung 4.2 Grundidee des linearen Modells 4.3 Residuen und Residuenanalyse 4.4 Formale Behandlung des linearen Modells 4.5 Transformationen (Box-Cox-Analyse)
197 197 197 202 206 213
5. Qualitative Variablen 5.1 Einführung 5.2 Eindimensionale Daten 5.2.1 Binomial test 5.2.2 x 2 -Test auf Anpassung 5.2.3 Multipler Vergleich 5.3 Vergleich eindimensionaler unabhängiger Daten 5.3.1 Exakter Fisher-Test 5.3.2 x 2 -Test auf Homogenität 5.3.3 Multipler Vergleich 5.4 Analyse zweidimensionaler Daten 5.4.1 x 2 -Test auf Unabhängigkeit 5.4.2 McNemar-Test 5.4.3 Abhängigkeitsmaße 5.4.4 Multipler Vergleich
218 218 219 219 220 222 223 223 227 229 231 231 234 237 239
6. Multivariate Analyse 6.1 Einleitung 6.2 Multivariate lineare Modelle 6.3 Pfadmodelle 6.4 Multivariate Varianz-und Diskriminanzanalyse 6.5 Faktorenanalyse und Hauptkomponentenanalyse 6.6 Clusteranalyse 6.7 Loglineare Modelle
242 242 244 248 250 255 261 266
Inhalt
1 1
7. Einführung in die Zeitreihenanalyse und Prognose 7.1 Problemstellung — Beispiele 7.2 Komponentenmodell 7.2.1 Modellannahmen 7.2.2 Schätzen der Parameter 7.2.3 Gleitende Durchschnitte 7.2.4 Differenzenbildung 7.3 Prognose 7.3.1 Einführung 7.3.2 Trend-Saison-Modell
279 279 283 283 284 290 293 295 295 295
Symbolliste und Erläuterungen
322
Literaturverzeichnis
325
Sachverzeichnis
329
Verzeichnis der Übersichten Teil A Übersicht 1.1 Der Gesichtspunkt der Operationalität Übersicht 1.2 Der Stellenwert operationaler Verfahren in der Marketingplanung
27 ...
Übersicht 1.3 Entwicklung der Marketing-Grundsatzstrategie
31 34
Übersicht 1.4 Einsatzmöglichkeit operationaler Verfahren zur Entscheidungsfindung in der Phase der Strategieplanung
35
Übersicht 1.5 Die Instrumente des Marketing
37
Übersicht 1.6 Rückkopplungseffekte zwischen den Planungsstufen des Marketing . . .
38
Übersicht 1.7 Phasen der Detail-oder Feinplanung
39
Übersicht 1.8 Phasen der integrierten Absatzplanung
41
Übersicht 3.1 Gesamtwirtschaftliche Informationen und Informationsquellen
73
Übersicht 3.2 Brancheninformationen und Informationsquellen
74
Übersicht 3.3 Firmenbezogene Informationen und externe Informationsquellen
...
75
Übersicht 4.1 Auszug aus dem Erhebungsleitfaden für Gruppendiskussionen
82
Übersicht 4.2 Konzeptionelle Ansatzpunkte für die Variation eines Produktes (Auszug aus den Ergebnissen von zwei Gruppendiskussionen)
83
Übersicht 4.3 Die Gruppendiskussion als operationales Forschungsinstrument
85
Übersicht 5.1 Die wichtigsten Ergebnisse einer Brainstorming-Sitzung
87
Übersicht 5.2 Brainstorming
89
Übersicht 5.3 Der Prozeß der Delphi-Technik
91
Übersicht 5.4 Auszug aus dem Erhebungsleitfaden für Expertengespräche.
93
Übersicht 6.1 Gestaltungsdimensionen der Befragung
98
Verzeichnis der Tabellen Teil A Tab. 2.1
Werte der Handlungsalternativen
49
Tab. 2.2
Opportunitätskosten
50
Tab. 2.3
Bedingte Wahrscheinlichkeiten
54
Tab. 2.4
A-Posteriori-Wahrscheinlichkeiten
55
Tab. 2.5
Bedingte Wahrscheinlichkeiten für die verschiedenen Testmarktergebnisse P(T k |Zj)
57
Tab. 2.6
Bedingte Wahrscheinlichkeiten P(Zj|T k )
59
Tab. 2.7
Absatzmengen und Marktanteile
61
Tab. 2.8
Marktanteile und Wahrscheinlichkeiten
62
Tab. 2.9
Bedingte Wahrscheinlichkeiten P(T |Zj), berechnet aus Binomialverteilung mit p und n = k100
62
Tab. 2.10
Bedingte Wahrscheinlichkeiten P(Zj|T k )
63
Teil B Tab. 2.1
Änderungsraten Xj = Displayumsatz/Regalumsatz von 79 Produkten . . . .
Tab. 2.2
Orderstatistik X(i), x(2) . . . x(79) der (vereinfachten)
144
Änderungsraten
145
Tab. 2.3
Fünf-Zahlen-Schema für (vereinfachte) Änderungsraten
151
Tab. 2.4
Kennzahlen für Änderungsraten
151
Tab. 2.5
Kehrwerte der Änderungsraten ^
Tab. 2.6
Kennzahlen der Kehrwerte
Tab. 2.7
Faustregel für Änderungsraten
167
Tab. 2.8
Faustregel für Kehrwerte
167
Tab. 2.9
10% - Schranken für Schnelltest auf Normalverteilung
168
x
Orderstatistik
i
160 161
14 Tab. 2.10
Verzeichnis der Tabellen Faktor für Approximationsformel in Abhängigkeit vom gewünschten Konfidenzniveau P
171
Alter der Entwöhnung (E) und der Sauberkeitserziehung (S) in 20 primitiven Gesellschaften
173
Tab. 3.1
4-Phasen-Daten
178
Tab. 3.2
Multipler Vergleich
196
Tab. 4.1
Einschaltquoten
198
Tab. 4.2
Minimaloutput eines Regressionsprogramms
200
Tab. 4.3
Daten für Beispiel: Vietcongstützpunkte
206
Tab. 4.4
Ergebnis der Regressionsanalyse (Vietcongstützpunkte)
208
Tab. 4.5
Beobachtungsmatrix X
210
Tab. 4.6
Matrix C der inneren Produkte
210
Tab. 4.7
Inverse C - 1 von C
211
Tab. 4.8
X'y
211
Tab. 4.9
ß = ( X ' X ) - 1 X'y
211
Tab. 4.10
Regressionsmodell für Logarithmen
217
Tab. 5.1
Multipler Vergleich bei p-Werten
223
Tab. 5.2
Geschlecht-Verpackungsart
224
Tab. 5.3
2x2-Tabelle für unabhängige Daten
224
Tab. 5.4
2x2-Tabelle mit festen Randsummen
225
Tab. 5.5
Geschlecht-Verpackung
225
Tab. 5.6
cxr-Tabelle mit variablen Spaltensummen
227
Tab. 5.7
Schicht-Beurteilung
228
Tab. 5.8
Ausschnitt einer cxr-Tabelle
230
Tab. 5.9
cxr-Tabelle mit variablen Randsummen
231
Tab. 2.11
Verzeichnis der Tabellen
15
Tab. 5.10
Familienstand Mann-Frau
232
Tab. 5.11
Vorher-Nachher-Messung
234
Tab. 5.12
Wahrscheinlichkeitsmodell für Vorher-Nachher-Messung
235
Tab. 5.13
Einstellung vor und nach Werbeaktion
235
Tab. 5.14
Multipler Vergleich
240
Tab. 6.1
Grobeinteilung multivariater Verfahren
243
Tab. 6.2
Datenmatrix für Organisationsstudie
246
Tab. 6.3
Regressionsparameter
246
Tab. 6.4
Diskriminanzfunktion
254
Tab. 6.5
Datenmatrix „Wohnblöcke"
259
Tab. 7.1
Bruttosozialprodukt der BRD
290
Tab. 7.2
Holt-Winters-Prognose
298
Tab. 7.3
Prognosevergleich
299
Tabellenanhang Tab. A
Normalverteilung
304
Tab. B
t-Verteilung
305
Tab. C
X
-Verteilung
308
Tab. D
F-Verteilung
310
Tab. E
Verteilung der Wilcoxon-Statistik
316
Tab. F
Binomialverteilung (p = 0.5)
320
2
Verzeichnis der Abbildungen Teil A A b b . 8.1
EBA-Typ
126
A b b . 8.2
EA-CA-Typ
126
A b b . 8.3
EBA-CBA-Typ
127
A b b . 2.1
G r o b e s Stemleaf für Änderungsraten
145
A b b . 2.2
Feines Stemleaf für Ä n d e r u n g s r a t e n
146
A b b . 2.3
Dispersion
148
A b b . 2.4
Z e i c h n u n g eines B o x p l o t s (1. Schritt)
• • • 149
A b b . 2.5
Z e i c h n u n g eines B o x p l o t s (2. Schritt)
150
A b b . 2.6
Zeichnung eines B o x p l o t s (3. Schritt)
150
A b b . 2.7
B o x p l o t der Änderungsraten
150
A b b . 2.8
Verteilung mit 2 Clustern
152
A b b . 2.9
Schiefe u n d symmetrische Verteilung
153
Abb. 210
Schiefe Verteilung u n d Ausreißer
153
A b b . 2.11
Stemleaf der Änderungsraten Xj
154
A b b . 2.12
Die T r a n s f o r m a t i o n x -> x 2
155
Abb. 2.13
Stemleaf der quadrierten Änderungsraten x (
156
A b b . 2.14
Stemleaf der V x [
156
A b b . 2.15
Stemleaf von lnx,
157
A b b . 2.16
Stemleaf der K e h r w e r t e ( X = - l )
158
A b b . 2.17
Stemleaf für \=-2
158
A b b . 2.18
Leiter der T r a n s f o r m a t i o n e n
159
Teil B
Verzeichnis der Abbildungen
17
Abb. 2.19 Stemleaf der Kehrwerte ^
160
Abb. 2.20 Boxplot der Kehrwerte ^
161
Abb. 2.21 Schnellverfahren zur Auswahl einer Transformation
162
Abb. 2.22 Überprüfung der Symmetrie bei den Änderungsraten
165
Abb. 2.23 Überprüfung der Symmetrie bei den Kehrwerten der Änderungsraten
. . . 166
Abb. 2.24 Normalplot der Änderungsraten xj
168
Abb. 2.25 Normalplot der Mißerfolgsraten rp
169
Abb. 3.1
Stemleafs
179
Abb. 3.2
Boxplots
180
Abb. 3.3
Scatterplot
181
Abb. 3.4
Stemleafs
182
Abb. 3.5
Scatterplot
182
Abb. 3.6
Boxplots
183
Abb. 3.7
6 > 0
186
Abb. 4.1
Illustration der Größen des linearen Modells
199
Abb. 4.2
Residuenplot
203
Abb. 4.3
Nichtlinearer Zusammenhang
205
Abb. 4.4
Heteroskedastizität
205
Abb. 4.5
Residuenplot (Vietcongstützpunkte)
209
Abb. 4.6
Likelihoodfunktion-Änderung
215
Abb. 4.7
Likelihoodfunktion: Vietcongstützpunkte
216
Abb. 6.1
Lineares Modell
244
Abb. 6.2
Multivariates lineares Modell
244
Abb. 6.3
Pfadmodelle
249
18
Verzeichnis der Abbildungen
Abb. 6.4
Bivariater Datensatz in zwei Gruppen
252
Abb. 6.5
Univariate Varianzanalysen der Daten
253
Abb. 6.6
Varianzanalyse von Y 2 - Y ,
254
Abb. 6.7
Schema der Faktorenanalyse
255
Abb. 6.8
Zweidimensionaler Datensatz
257
Abb. 6.9
Geometrische Veranschaulichung der Hauptkomponentenanalyse
259
Abb. 6.10
Zeichnerische Darstellung der Wohnblöcke
260
Abb. 6.11
Idealsituation der Clusteranalyse
262
Abb. 6.12
Formen von Punktwolken
262
Abb. 6.13
Hierarchische Klassifikation
263
Abb. 6.14
Beispieldaten
263
Abb. 6.15
Graph G(3)
265
Abb. 6.16
Dendrogramm
265
Abb. 6.17
Zweidimensionale Kontingenztafel
266
Abb. 6.18
Hierarchiediagramm
271
Abb. 6.19
Hierarchiediagramm
272
Abb. 6.20
Graphische Darstellung einer dreidimensionalen Kontingenztabelle
273
Abb. 6.21
Kontingenztabelle
273
Abb. 6.22
Hierarchie von Modellen über dreidimensionalen Tabelle
275
Abb. 6.23
Hierachiediagramm der Tabelle (Geschlecht, Schicht, Wahlabsicht)
277
Abb. 7.1
Bruttosozialprodukt der BRD
280
Abb. 7.2
Anzahl der Paketsendungen
281
Abb. 7.3
Endverbraucherabsatz des Likörs „ X Y "
281
Abb. 7.4
Verkauf des Likörs „ X Y " ab Fabrik
282
Abb. 7.5
Bewegungskomponenten von Zeitreihen
284
Verzeichnis der Abbildungen
19
A b b . 7.6
Gleitende D u r c h s c h n i t t e
291
A b b . 7.7
Gleitende D u r c h s c h n i t t e
293
A b b . 7.8
1. D i f f e r e n z e n
294
A b b . 7.9
Additives Saison-Modell
300
Abb. 7.10
Multiplikatives Saison-Modell
300
Teil A Datenerhebung
1.
Grundlagen operationaler Methoden
1.1
„Quantitative" versus „qualitative" Forschung
In der wissenschaftlichen Literatur des deutschen Sprachraums etwa seit Beginn der sechziger Jahre wird als wissenschaftlich-systematische Markt- und Sozialforschung im wesentlichen diejenige Forschungsrichtung bezeichnet, die auf repräsentativen Auswahlverfahren bei der Bestimmung der Auskunftspersonen, auf standardisierten Fragebögen und bestimmten, dem Untersuchungsgegenstand angemessenen Befragungstaktiken basiert, (vgl. Behrens, 1966, S. 2 4 f f . ) Die wissenschaftlich-systematische Forschung grenzte sich methodisch durch den Einsatz psychotaktisch-zweckmäßiger Erhebungsmethoden (vgl. Behrens, 1966, S. 33) von zwei Forschungsrichtungen ab: Von der „quantitativen" Forschung, die als mehr oder weniger bloßes „Nasenzählen" klassifiziert wurde, und der als „qualitativ" apostrophierten Forschung, die vorwiegend mit unstrukturierten Tiefeninterviews und direkten Erhebungstaktiken (vgl. Behrens, 1966, S. 55) arbeitete. Als die Markt- und Sozialforschung als junge Disziplin zur Informationsgewinnung nach dem Ende des 2. Weltkrieges in Deutschland verstärkt Fuß faßte, dominierte in der Primärforschung lange Zeit die Vorgehensweise, die zu ermittelnden Sachverhalte durch direkt auf den Untersuchungsgegenstand abgestellte Verfahren der Befragung bzw. Beobachtung zu erheben. Sobald die befragten oder beobachteten Personen nicht wollten, daß ihr Verhalten erkennbar wird (z.B. bei prestigehaltigen Ermittlungsgegenständen), gaben sie bewußt falsche Auskünfte bzw. wählten eine Form des Handelns, die den Beobachter in die Irre leitete. Die inzwischen historische direkt gestellte Frage an eine Repräsentativauswahl von Amerikanern: „Haben Sie den bekannten Roman „Vom Winde verweht" gelesen?", ergab z.B. eine unwahrscheinlich hohe Zahl von Lesern, die lediglich aus Prestigegründen positiv geantwortet hatten. Als unbrauchbar erwiesen sich auch viele direkte Beobachtungen, beispielsweise im Einzelhandel, durch die Aufschlüsse über das Einkaufsverhalten gesammelt werden sollten. Auf der anderen Seite ergaben Fragen nach Sachverhalten, die den Auskunftspersonen gar nicht bewußt waren — z.B. direkt gestellte „Warum"-Fragen, bezogen auf das Kauf- bzw. Konsumverhalten oder auf soziale Verhaltensweisen —, keine verwertbaren Resultate. Obwohl damals bereits verschiedene Markt- und Sozialforschungsinstitute bemüht waren, durch Grundlagenforschung psychotaktisch-zweckmäßige indirekte Befragungs- und Beobachtungstaktiken auf dem Wege über den Ausbau der quantitativ abgesicherten Ursachen- oder Relationsforschung und den Einsatz experimenteller Erhebungsformen (vgl. hierzu Behrens, 1959, S. 4 7 f f . ) zu entwickeln,
24
Datenerhebung
mit denen die bestehenden methodischen Schwierigkeiten überwunden werden konnten, mehrten sich die Fehlschläge bei der Umsetzung von Marktforschungsergebnissen in neue Produkte oder soziale Maßnahmen. Die Mehrzahl der kommerziell arbeitenden Marktforscher verfügte noch nicht über die notwendigen Erkenntnisse und Erfahrungen beim Einsatz indirekter Taktiken, und es hatte den Anschein, daß die „quantitative" Forschungsrichtung versagt hatte, weil sie sich mit ihren verbreiteten direkten Erhebungsmethoden zur Eingrenzung des Entscheidungsrisikos vielfach als ungeeignet erwies. In dieser Situation traten Psychologen auf den Plan, die grundsätzlich die Erforschung „subjektiver" Erhebungsgegenstände aus der konventionellen Marktforschung auszugliedern und in einen neuen Forschungsbereich einzubringen versuchten — in das Gebiet der Motiv-Forschung: „Motiv-Forschung ist eine Phase der Marktforschung, die die Frage nach dem Warum zu beantworten sucht. Warum verhalten sich die Menschen in Bezug auf einen bestimmten Werbe-, Verkaufs- oder Kommunikations-Akt in einer bestimmten Weise?" (Smith, 1955, S. 21.) Dichter weitet die zunächst im wirtschaftlichen Bereich angesiedelten Techniken der Verhaltensforschung auf den sozialen Bereich aus: „Die Techniken des Verkaufens, der Werbung, der Public Relations und der Motiv-Forschung lassen sich nicht nur auf wirtschaftliche Probleme anwenden. Ihr Anwendungsbereich geht viel weiter und dient ebenso sozial ausgerichteten Zielen." (Dichter, 1964, S. 21.) Damit sollte die „quantitative" Forschung gleichzeitig im Bausch und Bogen als reines „Nasenzählen" abgetan werden (vgl. hierzu auch: Noelle-Neumann, 1963, Anmerkung auf S. 273), indem von der Seite der Psychologie kaum der Versuch unternommen wurde, die methodisch-systematische Markt- und Sozialforschung mit psychotaktisch-zweckmäßigen Vorgehensweisen ernsthaft zu würdigen. Dichter veranschaulicht das: „Der blinde Glaube, daß alles mengenmäßig Erfaßbare auch wissenschaftlich sei, ist weit verbreitet. Aus diesem Grunde ist heutzutage ein Großteil aller Diskussionen um neue Wege diagnostischer Motiv-Forschung überladen mit sinn- und zwecklosen Erörterungen des Umfangs der befragten Masse." (Dichter, 1964, S. 64.) Im Gegensatz zu der „quantitativen" Marktforschung arbeitete die Motiv-Forschung dieser Ausprägung im allgemeinen mit kleineren Gruppen von Testpersonen auf nicht-repräsentativer Basis und verwendete bei Befragungen die Form des nicht- oder halbstrukturierten Fragebogens, der mehr den Charakter eines Befragungsleitfadens hatte („Unstrukturiertes bzw. strukturiertes Tiefeninterview"). Trotzdem wurden die Ergebnisse meist quantifiziert und verallgemeinert; besonders extrem ist der Standpunkt von Dichter: „Selbstverständlich ist unsere Forschungstätigkeit bewertend, quantifizierend und wissenschaftlich. Dennoch aber glauben wir, daß ein echt wissenschaftliches Vorgehen in drei Stufen zu erfolgen hat: 1.) durch die Formulierung der Hypothesen,
1. Grundlagen operationaler Methoden
25
2.) durch deren Beweis und 3.) durch die mengenmäßige Bestimmung (Quantifizierung)." (Dichter, 1964, S. 64 f.) Auf den aus diesem Methoden-Dualismus resultierenden wissenschaftlichen Methodenstreit braucht an dieser Stelle nicht eingegangen zu werden (siehe hierzu beispielsweise den Aufsatz von Schmidtchen, 1964, S. 29 ff.); das wissenschaftliche Streitgespräch lieferte Munition für zahlreiche pseudo-wissenschaftliche Veröffentlichungen, die dazu beitrugen, daß die Markt-und Sozialforschung ganz allgemein in die Schußlinie der Öffentlichkeit geriet. Ein in dieser Beziehung erfolgreiches Buch stammt von Packard; es trägt den bezeichnenden Titel: „Die geheimen Verführer" und die Unterzeile: „Der Griff nach dem Unbewußten in jedermann." Eine besonders markante Stelle soll hier zitiert werden: „Aus der heiteren Thurberschen Welt geraten wir jedoch in die eisige Welt George Orwells und seines Großen Bruders, sobald wir einige der extremen Versuche beleuchten, wie sie zur Erforschung und Bearbeitung des Verbrauchers bereits im Gange sind. Irgendwelche Untersucher kundschaften z.B. systematisch unsere geheimen Schwächen und Fehler in der Hoffnung aus, unser Verhalten desto ergiebiger beeinflussen zu können . . . Anscheinend schrecken die Tester und Manipulatoren vor keiner Frage zurück und nichts ist ihnen heilig." (Packard, 1959, S. 11 f.) Als Resultat ist festzuhalten, daß die Begriffe „quantitative" und „qualitative" Markt- und Sozialforschung aus dem wissenschaftlichen Sprachgebrauch nach und nach verdrängt wurden und heute noch in Wissenschaft und Praxis Argwohn hervorrufen. (Vgl. auch: Hüttner, 1965, S. 23) Während sich die Kritik an „quantitativer" Forschung im wesentlichen darauf richtet, daß dieser Forschungszweig im allgemeinen nur direkte Erhebungsmethoden verwendet, durch die grundsätzlich nur „objektive Tatbestände" gemessen werden können, konzentriert sich das Mißtrauen bei der „qualitativen" Forschung zunächst darauf, daß die Forschungsergebnisse oft überinterpretiert werden. Deutlicher gesagt: Aus nicht-repräsentativ erhobenen Befunden wird auf eine bestimmte Grundgesamtheit (Zielgruppe) geschlossen, und die Schlußfolgerungen dienen oft als Nachweis für die quantitative Verteilung bestimmter Merkmale in dieser Zielgruppe, was schlechthin als Täuschung des Benutzers der Ergebnisse und als Implikation für Fehldeutungen angesehen werden muß. Die zweite Kritik gegen die „qualitative" Forschung wendet sich dagegen, daß ihre Befunde oft isoliert interpretiert werden, m.a.W. losgelöst von der sozialen und ökonomischen Umwelt. Schmidtchen bringt dazu ein einprägsames Beispiel, das im Wortlaut wiedergegeben werden soll: „Vor einigen Jahren, als unsere Getränkekarten noch nicht die heutige Internationalität aufwiesen, unterhielt ich mich mit einem bekannten deutschen Motiv-Forscher in einem hübschen Hotel im Thurgau am Ufer des Bodensees über Methodenfragen, und wir tranken Bier und zwar die Marke „Hopfenperle".
26
Datenerhebung
Die Flasche reizte durch eigenartige, etwas antike Glasform und das einfach gehaltene Etikett den Betrachter. Ich bat den Psychologen, er möge doch einmal die Flasche analysieren, es handele sich um ein Bier, daß hier sehr häufig getrunken werde. Er begann, sich nun sehr ausfuhrlich mit den Anmutungsqualitäten dieser Flasche, mit ihrer Tiefensymbolik und ihren Beziehungen zu dem ernsten und vermutlich traditionsbestimmten Menschenschlag im Norden der Schweiz zu beschäftigen. Nach einer Viertelstunde unterbrach ich schließlich seine Meditationen mit dem Hinweis, daß ich ganz genau wisse, warum dieses Bier hier so viel getrunken werde, und er war sehr gespannt, die Ergebnisse seiner Interpretation mit meinem Befund zu vergleichen. Ich sagte ihm, es gäbe hier kein anderes Bier. (Schmidtchen, 1964, S. 32.) Wir wollen in diesem Buch weder den einen noch den anderen Forschungsbegriff verwenden. Vielmehr sprechen wir von operationalen Verfahren der Markt- und Sozialforschung und meinen damit solche, die von denjenigen Benutzern, die über notwendige wirtschaftliche bzw. soziologische Grundkenntnisse verfügen, ohne Schwierigkeiten selbst angewendet werden können, ohne auf den Apparat von Forschungs- bzw. Beratungsinstituten zurückgreifen zu müssen. Weder werden komplexe Verfahren der weiterentwickelten, psychotaktischen Richtung der „quantitativen" Datenerhebung auf der Basis großer repräsentativer Stichproben behandelt, noch geht es um die Darstellung der Methode der „psychologischen Forschung", die geschulte Psychologen als Anwender voraussetzt.
1.2
Bedeutung operationaler Methoden in der Marktforschung
1.2.1
Der Gesichtspunkt der Operationalität
Der Leser ist bereits daraufhingewiesen worden, daß sich dieses Buch denjenigen empirischen Untersuchungsverfahren zuwendet, die operational in dem Sinne sind, daß sie von Unternehmen, die auf empirischem Wege Informationen sammeln wollen, selbst gehandhabt werden können. Product-Management oder Marketing-Service-Abteilung sollten in der Lage sein, die Verfahren im wesentlichen ohne Zuhilfenahme Dritter (z.B. Marktforschungs-, Sozialforschungs- und Marketingberatungsinstitute) einzusetzen. Wenn es sich darum handelt, eine Marketingkonzeption zu entwickeln (z.B. für ein neues Produkt oder für eine Produktvariation) bzw. diese hinsichtlich ihrer Tragfähigkeit zu überprüfen, m u ß der Kontakt zwischen Planer und Forscher so eng wie möglich sein; außerdem kommt es darauf an, daß die Forschungsergebnisse möglichst schnell beschafft werden können. Schließlich setzt Operationalität voraus, daß die empirischen Untersuchungen den konzeptionellen Hintergrund einbeziehen — gemeint sind Vergangenheits-
1. Grundlagen operationaler Methoden
27
daten aus dem planenden U n t e r n e h m e n und alle marktlichen u n d internen Gegebenheiten, die mit der Konzeption in einem Beziehungsgefüge stehen. Bei der Suche u n d Überprüfung einer neuen P r o d u k t k o n z e p t i o n heißt das beispielsweise, daß Rücksicht g e n o m m e n werden m u ß auf das gesamte eigene Programm u n d daß wichtige K o n k u r r e n z p r o d u k t e in die Untersuchung mit einbezogen werden. Der von Schmidtchen artikulierte Vorwurf der Loslösung einer bestimmten Forschungsrichtung von der realen Situation (vgl. Schmidtchen, 1964, S. 3 2 ) ist unter diesem Aspekt eine Kritik an mangelnder Operationalität von Forschungsergebnissen. Die in der Praxis teilweise gängige Einteilung in „ q u a n t i t a t i v e " u n d in „qualitative" Forschung kann nicht dazu b e n u t z t werden, operationale empirische Verfahren von nicht operationaler Forschung abzugrenzen, beispielsweise in dem Sinne, daß die Begriffe „qualitativ" und „ o p e r a t i o n a l " gleichgesetzt werden. Vielmehr ist davon auszugehen, daß Verfahrens-Operationalität u n t e r den oben genannten Voraussetzungen durch zwei Aspekte definiert werden kann (vgl. Übersicht 1.1.):
Übersicht 1.1.: Der Gesichtspunkt der Operationalität Operationale Verfahren der Informationsgewinnung
Komplexere Verfahren der Informationsgewinnung ( 1 ) Erhebungsbasis
a)
Mündt. Interviews, Beobachtungen Stichproben von 3 0 - 5 0 Fällen, repräsentative, teilweise auch nicht-repräsentative Auswahlverfahren
b)
Im allgemeinen größere repräsentative Stichproben, seltener größere Erhebungsmassen auf nicht-repräsentativer Basis (z.T. in der psychologischen Markt- und Sozialforschung)
Telef./schriftl. Umfragen Maximal 3 0 0 - 4 0 0 Fälle
(2) Erhebung und Auswertung a)
Mündl./telef. Interviews, Beobachtungen
a)
Überwiegend direkte Befragungstaktiken; halb- bzw. vollstrukturierte, teilweise auch standardisierte Erhebungsunterlagen
b)
Schriftl. Umfragen Überwiegend direkte Fragen, standardisierte Strategie In beiden Fällen überwiegend Verwendung einfacherer Datenanalyseverfahren
Mündl./telef. Interviews, Beobachtungen Direkte und indirekte Erhebungstaktiken; überwiegend standardisierte Strategie
b)
Schriftl. Umfragen Überwiegend direkte Fragen, standardisierte Strategie In beiden Fällen auch Einsatz komplexerer Verfahren zur Datenanalyse
28
Datenerhebung
(1) Bei mündlichen Befragungen und bei Beobachtungen ist die Zahl der Testpersonen begrenzt; im allgemeinen können nicht mehr als 30 bis 50 Fälle „in eigener Regie" bewältigt werden. Bei telefonischen und schriftlichen Umfragen sind diese Grenzen weiter zu ziehen (erfahrungsgemäß etwa 300 bis 400 Fälle); allerdings ist diese Form der Kommunikation mit den Auskunftspersonen aus methodischen Gründen nur in bestimmten Bereichen der Konzeptionsflndung und -Überprüfung einsetzbar. (vgl. hierzu Abschnitt 6.5.2 und 6.5.3, Teil A.) In allen Fällen werden repräsentative, teilweise aber auch nicht repräsentative Auswahlverfahren herangezogen, um die Testpersonen zu bestimmen; entsprechend unterschiedlich ist der Stellenwert der Erhebungsresultate einzuordnen. (2) Komplexe Erhebungstaktiken indirekter Art, die nur von Psychologen oder qualifizierten, erfahrenen Marktforschern beherrscht werden, können nicht Gegenstand operationaler Verfahren sein. Ebenso kann davon ausgegangen werden, daß nur im Grenzfalle komplexere Datenanalyseverfahren Verwendung finden werden. Damit werden große Bereiche der herkömmlichen Marktforschung, die überwiegend mit standardisierten Erhebungsstrategien arbeitet, ausgeklammert, ebenso die sog. psychologische Forschung, die sich durch solche psychologischen Erhebungstaktiken auszeichnet, die in der Regel nicht mehr in der Regie des planenden Unternehmens ohne Fachpsychologen gehandhabt werden können, (vgl. hierzu Salcher, 1978.) Operationalität setzt stets voraus, daß die Forschungsergebnisse in die ökonomische und soziale Realität eingebettet sind. Im allgemeinen geht der Suche nach einer neuen Marketingkonzeption die Sammlung und Analyse von Sekundärmaterial über Unternehmen und Markt — aus unternehmensinternen und -externen Quellen - voraus; eine Marketingkonzeption, die quasi im „luftleeren" Raum steht, ist zwangsläufig gehaltlos.
Es ist zweckmäßig, die Gruppe der operationalen empirischen Forschungsmethoden zur Entscheidungsvorbereitung in der Konzeptionsphase der Marketingplanung um solche Verfahren zu ergänzen, die nicht in den engeren Bereich der Marktforschung gehören, wohl aber einen empirischen Ansatz haben: um Verfahren aus der Kategorie der sog. Kreativitätstechniken, beispielsweise Brainstorming und die Delphi-Methode. Auf den Kern zurückgeführt handelt es sich darum, Prozesse der Ideenfindung und -Selektion durch eine klare Problemdefinition, durch Strukturierung und damit systematische Ausschöpfung aller unter den gegebenen Umständen vorhandenen Möglichkeiten zur Informationsgewinnung zu steuern, so daß das Kreativ- und Erfahrungspotential der beteiligten Planungskräfte optimal genutzt wird.
1. Grundlagen operationaler Methoden
29
Brainstorming und die Delphi-Methode sind nach unserer Definition operationale Verfahren; sie sind oft als sinnvolle Ergänzung und Erweiterung empirischer Forschungsmethoden anzusehen, vorausgesetzt, daß ihre Aussagefähigkeit nicht überschätzt wird. Ebenso wie bei der „qualitativen" Marktforschung sind hier in den letzten Jahren viele Fehler begangen worden; der wohl häufigste kann darin gesehen werden, daß die Verfahren „überstrapaziert" worden sind, d.h. man betrachtete sie nicht als Entscheidungs/izV/im/tte/ - ebenso wie die Marktforschung —, sondern ging davon aus, daß sie fertige Lösungen produzieren.
1.2.2
Leistungsfähigkeit operationaler Verfahren
Nachdem operationale empirische Verfahren abgegrenzt worden sind, kommt es jetzt auf die Beleuchtung ihrer Leistungsfähigkeit im Hinblick auf die Gewinnung und Überprüfung von Marketingkonzeptionen an. Unter Leistungsfähigkeit werden hier die beiden Kriterien Verläßlichkeit (Reliability) und Gültigkeit (Validity) verstanden. Verläßlichkeit als Ausdruck für die Reproduzierbarkeit eines Befundes unter gleichen Bedingungen ist nur dann gegeben, wenn die Erhebungsunterlagen streng normiert sind (u.a. gleiche Anweisung an alle Interviewer bzw. Beobachter, gleiche Abfolge der Erhebungsthemen, gleicher Fragenwortlaut), so daß systematische Fehler, die sich unter anderem durch die Erhebungsstrategie und das Verhalten der Interviewer bzw. Beobachter ergeben können, unter Kontrolle bleiben. Sofern operationale Forschung mit halb- bzw. unstrukturierten Erhebungsunterlagen arbeitet, ist die Verläßlichkeit der Befunde stark eingeschränkt; das gleiche gilt, wenn „bewußte" Auswahlverfahren eingesetzt werden, indem die Auskunftspersonen nach „typischen" Merkmalen ausgesucht werden, die dem Untersuchungsgegenstand besonders angemessen erscheinen (beispielsweise je 10 Intensiwerbraucher des eigenen Produktes und wichtiger Konkurrenzmarken und je 10 NichtVerbraucher dieser Produkte). Es handelt sich hier im allgemeinen nicht um eine zufallsgesteuerte, sondern um eine willkürliche Auswahl der Testpersonen. Eine Wiederholung derartiger Untersuchungen unter gleichen Bedingungen ist wissenschaftlich nicht haltbar. Allerdings stellt sich in der Praxis der operationalen Forschung häufig keine Alternative, und man geht davon aus, daß Tendenzaussagen hinsichtlich wesentlicher abzutestender Konzeptionsansätze gemacht werden können. Probleme der Gültigkeit von Erhebungsbefunden — Gültigkeit verstanden als Übereinstimmung zwischen dem zu erhebenden Sachverhalt und den Erhebungsergebnissen — treten u.a. dann auf, wenn unzweckmäßige Erhebungstaktiken verwendet werden — beispielsweise direkte Fragen zur Aufdeckung von unbewußten Sachverhalten, die nur auf indirektem Wege erfaßbar sind. Hier kommt es darauf an, den Fragebogen bzw. Befragungsleitfaden psychotaktisch richtig aufzubauen bzw. bei Beobachtungsverfahren darauf zu achten, daß Beobach-
30
Datenerhebung
tungsobjekt und Beobachtungsziel klar definiert sind, die zweckentsprechende Methode angewendet wird und nicht zuletzt, daß die Grenzen des Beobachtungsvermögens nicht überschritten werden. Das könnte beispielsweise der Fall sein, wenn versucht wird, den Einfluß von Kindern auf die Markenwahl durch bloße Beobachtung einkaufender Familien mit Kindern in Testgeschäften zu rekonstruieren, (vgl. hierzu Kapitel 7, Teil A.) Im Hinblick auf Verläßlichkeit und Gültigkeit existieren naturgemäß Unterschiede zwischen Ergebnissen, die beispielsweise aufgrund einer repräsentativen Stichprobe von 300 Fällen auf schriftlichem Wege mit Hilfe eines standardisierten Fragebogens erhoben worden sind, und Befunden aus einer Gruppendiskussion mit 10 bewußt ausgewählten Teilnehmern anhand eines halbstrukturierten Befragungsleitfadens. Im letzteren Falle sind lediglich nicht quantifizierbare Tendenzaussagen möglich. Der Anwender operationaler Forschung sollte diesen Gesichtspunkt nie aus den Augen verlieren. Ein Hinweis sei noch auf die Interpretation von Sekundärmaterial gestattet: Hier ist jeweils auf die Quelle zu achten. Vielfach werden Marktforschungsergebnisse aus früherer Zeit als Basismaterial ausgewählt, die im allgemeinen hinsichtlich ihrer Leistungsfähigkeit ohne Schwierigkeiten beurteilt werden können. Wichtig ist in jedem Falle, daß aus dem methodischen Teil des Untersuchungsberichts klar hervorgeht, wie die Erhebung erfolgte. Andere Quellen — z.B. Verbandsmitteilungen, Unterlagen aus der amtlichen bzw. halbamtlichen Statistik — sind bezüglich ihrer Aussagekraft im Hinblick auf den Untersuchungsgegenstand sehr unterschiedlich zu bewerten. Amtliche Statistiken können u.a. den Nachteil haben, daß sie den Untersuchungsgegenstand anders abgrenzen als dies im Sinne der individuellen Planung notwendig ist (indem z.B. das Marktsegment zu weit gefaßt ist oder die Marktdefinition im Zeitablauf geändert wird). Verbandsnachrichten andererseits können auf amtlichen Statistiken basieren, können aber auch stark subjektiv gefärbt sein, so daß hier die Quellenermittlung besonders wichtig ist, um die Aussagefähigkeit solcher Informationen richtig einschätzen zu können, (vgl. dazu das Kapitel 3, Teil A.) Beim Einsatz von Kreativitätstechniken schließlich werden Maßstäbe für die Gültigkeit der Ergebnisse und die Verläßlichkeit des Instrumentariums durch die Struktur des Expertenteams, die Qualität und Quantität des Informations-Input und die Art und Weise der Durchführung des Verfahrens gesetzt.
1.2.3
Stellenwert operationaler Verfahren bei der Gewinnung und Überprüfung von Marketingkonzeptionen
Offensichtlich läßt sich im Hinblick auf die Leistungsfähigkeit einzelner operationaler empirischer Verfahren eine deutliche Trennlinie ziehen: Die eine Gruppe von Verfahren, die nur Tendenzaussagen ermöglichen, können in der Planungspraxis vor allem zur Entwicklung von Marketingkonzeptionen eingesetzt werden,
1. Grundlagen operationaler Methoden
31
während die zweite Gruppe mit einem höheren Grad erzielbarer Genauigkeit bei der Überprüfung von Konzeptionsansätzen Verwendung findet. In beiden Fällen handelt es sich um die Verbesserung der Entscheidungsgrundlage, nicht um die Verifizierung bzw. den „Beweis" von Hypothesen, wie Forschungsergebnisse manchmal fälschlicherweise interpretiert werden. Die Einsatzmöglichkeit eines Verfahrens kann nur im konkreten Anwendungsfall beurteilt werden, der die jeweiligen Anforderungen transparent macht und Leistungsfähigkeit und Kosten des ausgewählten Verfahrens in ein ökonomisch vertretbares Verhältnis bringt. „Vollkommene" Information anzustreben ist unrealistisch; vielmehr handelt es sich stets darum, das dem jeweiligen Erhebungsgegenstand angemessenste Verfahren einzusetzen — an und für sich eine triviale Aussage, die hier jedoch deshalb besonders betont wird, weil in der Praxis der Informationsgewinnung täglich dagegen verstoßen wird. In dem nächsten Abschnitt gehen wir auf die Einordnung operationaler Untersuchungsverfahren in die Marketingplanung näher ein. Wenn man über den grundsätzlichen Stellenwert bestimmter Verfahren Aussagen machen möchte, dann ist es zweckmäßig, Überlegungen dazu anhand des Ablaufs der Marketingplanung anzustellen. In der Marketingplanung handelt es sich bekanntlich zunächst darum, Konzeptionsalternativen zu sammeln und diese ggf. nach der Rangfolge ihrer Erfolgsaussichten — gemessen an vorgegebenen Zielen — zu ordnen. Beispielsweise werden Ideen für eine Werbung gesucht, um die drei erfolgversprechendsten konzeptionell weiter auszuarbeiten. Die Genauigkeitsanforderungen sind dabei verhältnismäßig gering: An dieser Stelle soll ein möglichst großes Spektrum von Konzeptansätzen gefunden und gesichtet werden, um Denkanstöße für die Planung auf möglichst breiter Basis zu vermitteln, ohne von vornherein auch für extrem erscheinende Lösungsansätze den Weg zu verbauen. Bei der sich anschließenden Selektionsphase erhöhen sich die Genauigkeitsanforderungen; wenn es um die Entscheidung geht, ob in die Weiterverfolgung bestimmter Konzeptionsansätze unter Umständen erhebliche Mittel investiert werden sollen, müssen operationale Verfahren dazu in der Lage sein, die Erfolgsaussichten und -unterschiede einzelner Alternativen zu quantifizieren, um alle Ressourcen auf erfolgsträchtige Ansätze zu konzentrieren, (vgl. Übersicht 1.2.) Übersicht 1.2.: Der Stellenwert operationaler Verfahren in der Marke tingplanung Allgemeine Zielsetzung: Gewinnung und Überprüfung von Konzeptionsansätzen
(1) Phase der
Konzeptionssuche
Einsatz von Verfahren, die dazu in der Lage sind, möglichst viele Konzeptionsansätze zu sammeln und zu ordnen Ziel: Denkanstöße auf breiter Basis vermitteln, auch e x t r e m e Lösungsansätze aufzeigen
32 (2)
Datenerhebung Phase der
Konzeptionsüberprüfung
Einsatz von Verfahren, die dazu in der Lage sind, die Erfolgsaussichten einzelner Konzeptionsalternativen zu quantifizieren. Ziel: Filterung vorhandener Ansätze, „Kanalisierung" der weiteren Arbeit
Operationale empirische Verfahren dienen sowohl der Gewinnung von Konzeptionsalternativen in der Marketingplanung als auch der Überprüfung von Marketingkonzeptionen. Bekanntlich vollzieht sich in der Marketingplanung eine stufenweise Einschränkung des Entscheidungsrisikos mit zahlreichen Rückkoppelungsprozessen; operationale Verfahren können in sämtlichen Phasen der Maßnahmenplanung wirksam eingesetzt werden, vom Beginn der konzeptionellen Arbeiten an, über die Gestaltung der einzelnen Marketinginstrumente, die Festlegung einzelner Teilprogramme (im Rahmen der Angebots-, der Vertriebs- und Kommunikationspolitik) bis hin zur Entwicklung des Marketing-Mix als Synthese aus den einzelnen Marketing-Teilprogrammen. Unter diesem Blickwinkel haben operationale Verfahren einen hohen Stellenwert. Wenn die beschriebenen Grenzen ihrer Leistungsfähigkeit klar erkannt und bestimmte Prämissen bei der Anlage und Durchführung der Erhebungen sowie in der Interpretation der Ergebnisse eingehalten werden, sind operationale Verfahren in der Maßnahmenplanung systematische Instrumente zur Informationsgewinnung. Oft schlagen sie auch als Pilot-Studie die Brücke zum Einsatz von empirischen Untersuchungen auf der Basis größerer Erhebungsmassen und standardisierter Erhebungsstrategien, die anschließend unter Einschaltung von Marktforschungsinstituten durchgeführt werden.
1.2.4
Einordnung operationaler Verfahren in die strategische Marketingplanung
Im Ablaufschema der Marketingplanung (vgl. Haedrich/Kuss, 1979, S. 7f.) schließt sich an die Phasen — Erfassung der gegenwärtigen Marktsituation des Unternehmens (Marktdiagnose) — Markt- und Absatzvorausschätzung (Marktprognose) —
Festlegung der Marketingziele
die Maßnahmenplanung an, in der es darum geht, die einzusetzenden absatzpolitischen Instrumente nach Art, Gestaltungsqualität, quantitativer Intensität und Kombination festzulegen. Jeweils ausgerichtet auf die Marketingziele vollzieht sich hier ein mehrstufiger Planungsprozeß mit zahlreichen Rückkoppelungen, der in folgende Stufen
1. Grundlagen operationaler Methoden
33
gegliedert werden kann: -
Strategie- oder Grobplanung (Rahmenplanung)
-
Detailplanung (taktische Planung)
-
Integrierte Planung (Planung der Sub-Mixe im Angebots-, Vertriebs- und Kommunikationsbereich und des Marketing-Mix).
In der Strategie- oder Grobplanung sind Grundsatzentscheidungen hinsichtlich des Marketing-Mix zu fällen, die im allgemeinen auf mittelfristige bzw. langfristige Planungszeiträume (je nach den marktlichen und unternehmensinternen Gegebenheiten auf drei bis fünf Jahre und darüber hinaus) angelegt sind und für das unternehmerische Verhalten einen Rahmen vorgeben. „Strategie-Modelle" als übergeordnete Denkansätze werden hier oft dazu verwendet, die Kerngedanken der Rahmenplanung plastisch zusammenzufassen und gleichzeitig bestimmte strategische Schwerpunkte zu verdeutlichen, nach denen die unternehmerischen Aktivitäten auszurichten sind. Schwerpunkte der Grundsatzstrategie können liegen im Leistungs- oder Angebotsbereich (mögliche strategische Leitlinien: Marktsegmentierungs-, Diversifikations-, Zukaufstrategje), im Vertriebsbereich (z.B. Franchise-, Filialisierungs-, Lizenz-, Frequenz-Strategie) oder im Kommunikationsbereich (u.a. Markenartikel-, Präferenz-, Penetrations-Strategie). Damit wird ausgedrückt, daß die Rahmenstrategie von einzelnen Instrumentalbereichen ihren Ausgang nimmt bzw. besonders stark in einem bestimmten instrumenteilen Sektor verankert ist. Das darf jedoch nicht zu einer isolierten Bereichsplanung führen: (1) Sämtliche oben beispielhaft angeführten Strategien beziehen das gesamte Spektrum der Marketinginstrumente ein, wenn die Planung eine in sich geschlossene Ganzheit darstellen soll — und nur als solche kann sich eine Grundsatzstrategie im Markt mit Aussicht auf Erfolg positionieren. (2) Im Rahmen der Grundsatzentscheidungen des Unternehmens ist es erforderlich, die voraussehbaren Ergebnisse der Strategie zu ermitteln, m.a.W. Leistungen und Kosten vorauszuschätzen und gegenüberzustellen. Auch wenn das bei mittel- bzw. langfristiger Planung nur relativ grob erfolgen kann, ist anders eine Entscheidung über die Realisation der Strategie nicht denkbar. Auch hierfür ist eine grundsätzliche Planung aller in der Rahmenstrategie einzusetzenden Instrumente notwendig, wenn auch nicht bis ins Detail, weil das in diesem Stadium weder möglich noch wegen der sequenziell erfolgenden Umsetzung von lang- in kurzfristige Maßnahmen sinnvoll wäre. (3) Strategische Entscheidungen im Marketing lösen durch ihre enge Verzahnung mit anderen Funktionsbereichen des Unternehmens u.U. eine Kette von Maßnahmen aus, z.B. hinsichtlich der Organisations-, Führungs- und Informationsstruktur. Derartige „Nachfolge"-Maßnahmen sind unbedingt in
34
Datenerhebung
der strategischen Grundsatzplanung mit anzusprechen; einerseits, weil sie sich u.U. in der Ergebnisstruktur des Unternehmens niederschlagen, zum anderen ihres oft grundsätzlichen Charakters wegen, der auch in diesen Sektoren eine Mittel- bzw. Langfristplanung erforderlich macht. Nur dann, wenn alle internen und externen Notwendigkeiten erkannt worden sind, kann eine Entscheidung hinsichtlich einer Marketing-Rahmenstrategie getroffen werden. In Übersicht 1.3 ist die Phase der Strategieplanung in die beiden Teilphasen „Entwicklung des Strategie-Modells" und „Planung der zur Realisation notwendigen Instrumente" untergliedert worden. In der qualitativen Planungsphase handelt es sich um die Entwicklung und Überprüfung von konzeptionellen Ansätzen, die zur Formulierung eines „Strategie-Modells" dienen können. An dieser Stelle wird
Übersicht 1.3: Entwicklung
der
Marketing-Grundsatzstrategie
Konzeptionssuche, Konzeptionsüberprüfung, Selektion und ggf. Neuformulierung der Konzeption
Beginn der Detailplanung
1. Grundlagen operationaler Methoden
35
besonders deutlich, daß operationale Verfahren nur dann tauglich sind, wenn sie den ökonomischen und gesellschaftlichen Hintergrund einbeziehen, der unternehmensintern und durch die Unternehmensumwelt vorgezeichnet ist. Die daran anschließende grobe Planung der einzelnen Marketinginstrumente, die „Träger" bestimmter Strategien sind, mündet in quantitative Entscheidungen ein, wobei es sich darum handelt, Vorstellungen über Kosten und Leistungen einer Strategie zu ermitteln. Auch hier sind operationale Verfahren der systematischen Informationsgewinnung wesentliche Hilfsmittel, um Planungsansätze zu ermitteln und zu überprüfen. Qualitative und quantitative Überlegungen im Zusammenhang mit der Grundsatzstrategie vollziehen sich — wie in Übersicht 1.3. angedeutet — jeweils in mehreren Stufen, und zwar in der Reihenfolge Konzeptionssuche, Konzeptionsüberprüfung, Selektion und ggf. Neuformulierung der Konzeption. Einsetzbar sind unterschiedliche empirische Verfahren als operationale Entscheidungshilfsmittel: Neben der Sekundär-Analyse aller zugänglichen externen und internen Unterlagen Expertengespräche, z.B. auf Absatzmittlerebene, Gruppendiskussionen, sog. halb- bzw. vollstrukturierte Interviews auf Endverbraucherebene, Beobachtungsverfahren sowie Kreativitätstechniken. In Übersicht 1.4. sind einzelne Verfahren der Konzeptionsfindung und -Überprüfung zusammengestellt worden. Während die Sekundäranalyse und Gruppendiskussionen vor allem der Sammlung von Konzeptionsansätzen dienen, finden die unter 3—6 aufgezählten Verfahren (Expertengespräche, Kreativitätstechniken, sog. halb- bzw. vollstrukturierte Interviews, Beobachtungsverfahren) sowohl bei der Konzeptionsfindung als auch bei der Überprüfung von Marketingkonzeptionen Anwendung; die experimentelle Untersuchungsanordnung wird dagegen überwiegend zur Überprüfung von Marketingkonzeptionen eingesetzt. Übersicht 1.4.: Einsatzmöglichkeit operationaler Verfahren zur Entscheidungsfindung Phase der Strategieplanung (vgl. auch Kapitel 3 - 8 , Teil A.)
in der
(1)
Sekundärforschung: Analyse unternehmensexterner und -interner Unterlagen als Basis für die Entwicklung einer Marketingkonzeption; u.a. zugängliche Marktforschungsberichte über die Märkte des Unternehmens, Informationen aus der amtlichen und halbamtlichen Statistik, Umsatzstatistiken, Kostenrechnungs- und Kalkulationsunterlagen
(2)
Gruppendiskussion: Meist mit einer „bewußten" Auswahl von Testpersonen, um erste Ansätze für die Marketingkonzeption auf Endverbraucherebene zu sammeln; z.B. die Reaktionen auf eine Produktveränderung (Beispiel: Einbeziehung von Intensiwerwendern/Nicht-Verwendern des Testproduktes und relevanter Konkurrenzprodukte)
(3)
Expertenbefragung: z.B. mit wichtigen Absatzmittlern bzw. industriellen Abnehmern, um die Reaktionen auf ein neues Produkt zu messen; teils „bewußte", zum Teil repräsentative Auswahl der Befragten; in standardisierter Form (feste Formulierung der einzelnen Fragen, Bestimmung ihrer Reihenfolge im Fragebogen) bzw. nicht standardisiert, je nach Erkenntniszielen
36
Datenerhebung
(4)
Kreativitätstechniken: z.B. Brainstorming und Delphi-Technik; im allgemeinen mit Experten aus verschiedenen Funktionsbereichen des Unternehmens (u.U. einschließlich externer Experten); o f t als Ergänzung von Expertenbefragungen und Gruppendiskussionen, um das Erfahrungspotential sachkundiger Fachleute aus dem Unternehmen für die Entwicklung bzw. Beurteilung einer Marketingkonzeption zu erschließen
(5)
Sog. halb- bzw. vollstrukturierte Interviews: Hier geht es meist um eine Überprüfung von Konzeptionsalternativen, wobei im allgemeinen eine kleinere repräsentative Stichprobe der Zielgruppe (etwa 30 bis 50 Testpersonen auf Verbraucher- oder Unternehmerebene) zugrundegelegt wird. Teilweise wird auch die standardisierte Befragungsstrategie verwendet. Anschließend erfolgt oft eine Untersuchung mit einer größeren Stichprobe und anhand einer standardisierten Befragungsstrategie
(6)
Beobachtungsverfahren: Meist anhand einer kleineren nicht-repräsentativen Stichprobe; der Einsatz erfolgt z.B., um Anregungen für die Entwicklung einer Marketingkonzeption zu erhalten, um die Akzeptanz eines neuen bzw. veränderten Produktes am Verkaufsort zu messen, um festzustellen, wie eine Werbekonzeption wirkt usw. Oft in Verbindung mit Befragungsverfahren, z.B. indem die am Verkaufsort beobachteten Käufer unmittelbar bzw. in ihren Wohnungen hinsichtlich ihres Kauf- bzw. Konsumverhaltens befragt werden
(7)
Experimentelle Verfahren: Anhand kleinerer Fallzahlen (30 bis 50 Fälle) und standardisierter Erhebungsunterlagen, um die Vergleichbarkeit der Ergebnisse der Versuchsund KontrollgTuppe(n) zu gewährleisten. Einsatz beispielsweise zur Überprüfung der Wirkung einer Werbe- und Produktkonzeption
Wichtig ist, daß die Konzeptionssammlung möglichst breit ansetzt und daß der Planer selbst in den Informations-Gewinnungsprozeß integriert ist, um ein Gespür dafür zu bekommen, wie der Markt auf bestimmte strategische Vorgehensweisen reagiert. Daraus ergibt sich oft unmittelbar eine Verbreiterung und Vertiefung, teils auch eine Verlagerung der Informationsgewinnung, weil u.U. bestimmte Konzeptionsansätze von vornherein aus den weiteren Überlegungen ausscheiden, während andere dafür an Gewicht gewinnen. Auf diese Weise wird das Problemfeld neu strukturiert mit dem Vorteil, daß der Blick geöffnet wird für Lösungen, die bei engerer Sicht der Problemstellung u.U. gar nicht in Betracht gezogen worden wären — ein wesentlicher Schritt zur Gewinnung innovativer Konzeptionsansätze, entsprechend der Organisation kreativer Prozesse. In der Phase der Konzeptionsüberprüfung kommt es dann darauf an, eine Auswahl für eine oder mehrere Konzeptionsalternativen zu treffen, die besonders erfolgversprechend sind. Es empfiehlt sich jedoch, die auf diese Weise selektierten Alternativen unter Zuhilfenahme von Marktforschungsinstituten gründlich zu testen, bevor eine Entscheidung über die endgültige Markteinführung gefällt wird.
1.2.5
Einordnung operationaler Verfahren in die Marketing-Detailplanung
Im Gegensatz zur strategieorientierten Globalplanung stehen bei der Detailplanung Einzelmaßnahmen im Vordergrund des Planungsprozesses. Es empfiehlt
1. Grundlagen operationaler M e t h o d e n Übersicht
1.5: Die Instrumente
des
37
Marketing'
E n t n o m m e n aus Berger, R.: „Marketing-Mix". In: Marketing-Enzyklopädie, Band II, Seite 5 9 6 . München 1974.
38
Datenerhebung
sich, die potentiell zur Auswahl stehenden einzelnen Instrumente in Gruppen zu betrachten, die nach funktionalen Kriterien zusammengefaßt sind. (vgl. Übersicht 1.5.) Erst die Bildung derartiger Instrumentalbereiche ermöglicht die ökonomische, transparente Planung der Einzelmaßnahmen. Das Ziel der Detailplanung, die Bildung des sog. Marketing-Mix, ergibt sich aus der Kombination bzw. Integration der einzelnen taktischen Maßnahmeentscheidungen. Es sei aber daran erinnert, daß — wie in jeder Planungsphase — auch in dieser Endstufe der Maßnahmenplanung sich die Notwendigkeit der Modifizierung oder Korrektur des Zielsystems bzw. der Rahmenstrategie ergeben kann. Die Berücksichtigung derartiger „Rückkoppelungseffekte" ist für die gesamte Marketingplanung von außerordentlich großer Bedeutung, (vgl. Übersicht 1.6.) Übersicht 1.6: Rückkoppelungseffekte
zwischen den Planungsstufen des Marketing
Zielplanung Fixierung der Marketingziele
I Maßnahmenplanung Strategie- oder G r o b p l a n u n g
1 Detail- oder F e i n p l a n u n g
Integrierte
I
Absatzplanung
Planung des Marketing-Mix
In der Praxis hat sich in der Detailplanung der folgende Phasenablauf bewährt (in Orientierung an Berger, 1974, S. 595 ff.): In einer ersten - groben - Selektionsphase sind alle strategiekompatiblen Instrumente in operationale Maßnahmen „aufzufächern". Für diese vorselektierten Maßnahmen werden anschließend in der sog. Gestaltungsphase Alternativen der qualitativen (kreativen) Ausgestaltung bestimmt. In einer nun folgenden Quantifizierungsphase erfolgt die Durch-
39
1. G r u n d l a g e n operationaler M e t h o d e n
planung der Einsatzintensitäten der Maßnahmen. Diese Phasen sind jeweils bei der Planung jedes einzelnen Instrumentes bzw. zusammenhängender Gruppen von Instrumenten zu durchlaufen. Zweckmäßigerweise sollten die der Selektionsphase folgenden beiden Phasen jeweils in drei Subphasen gegliedert werden: In einer kreativen Phase ist sicherzustellen, daß wirklich alle möglichen strategiekonformen Instrumentarten, -gestaltungen oder -intensitäten in Betracht gezogen worden sind. Die Prüfung der Leistungsfähigkeit der Maßnahmen erfolgt in einer Überprüfungsphase, die Auswahl der „ o p t i m a l e n " Mittel u n d Maßnahmen in der Wahlphase. Auf diese Weise reduziert sich von Phase zu Phase mit z u n e h m e n d e m Konkretisierungsgrad die Zahl der in Frage k o m m e n d e n Maßnahmen. Erst ein derartig strukturiertes, rationales Vorgehen erlaubt den wirtschaftlich sinnvollen Einsatz von empirisch-statistischen Verfahren zur Gewinnung u n d Überprüfung von Konzeptionen. Deshalb sei in der folgenden Übersicht 1.7. der eben skizzierte Planungsablauf noch einmal graphisch dargestellt u n d ausführlich beschrieben.
Übersicht 1.7: Phasen der Detail- oder Feinplanung Detail- o d e r F e i n p l a n u n g Angebotspolitik
Kommunikationspolitik
Vertriebs- u. Strukturpolitik
I. Selektionsphase ( A u f f ä c h e r u n g der Marketinginstrumente in o p e r a t i o n a l e M a ß n a h m e n )
II. Gestaltungsphase 1. kreative Phase 2. Überprüfungsphase 3. Wahlphase
III. Quantifizierungsphase 1. kreative Phase 2. Überprüfungsphase 3. Wahlphase
I
Integrierte A b s a t z p l a n u n g
40 Anmerkung
Datenerhebung zur Übersicht
1.7.:
Durch die Rahmenplanung sind zwar schon die einzusetzenden Marketinginstrumente generell vorbestimmt, nicht aber die einzelnen operativen Maßnahmen. In der ersten Selektionsphase müssen daher diejenigen Einzelmaßnahmen aufgelistet, ausgewählt und gewichtet werden, die mit den definierten Zielen und Strategien übereinstimmen. Beurteilungskriterien sollten dabei die mutmaßlichen spezifischen Leistungen der jeweiligen Einzelmaßnahmen zur Erfüllung der Marketingziele sein. Zwangsläufig kann und muß es sich hierbei nur um eine relativ grobe Vorselektion alternativ möglicher Maßnahmen handeln. In der sich nun anschließenden Gestaltungsphase werden die auf diese Weise ausgewählten Maßnahmen - gemäß den Vorgaben der Rahmenplanung - qualitativ ausgestaltet. Selbstverständlich sind dabei - soweit wie möglich - alle denkbaren Gestaltungsalternativen ein und desselben Instruments zu berücksichtigen. Aufgabe dieser Phase ist allerdings noch nicht die konkrete, detaillierte Maßnahmengestaltung, sondern eher die verbale oder bildliche Skizzierung in Form von Konzepten und Layouts. Auch die Gestaltungsphase führt zu einer weiteren Eingrenzung der potentiellen Instrumente: Die augenscheinlich oder erfahrungsgemäß ungeeigneten Gestaltungsalternativen scheiden aus, die noch verbleibenden Varianten werden auf Zielkonformität und Erfolgsbeitrag genau überprüft, bewertet und selektiert. Die Gestaltungsphase gliedert sich demzufolge in eine gestalterische (kreative) Phase, in eine Überprüfungsphase und in eine Wahlphase. Nächster Schritt ist die Bestimmung der quantitativen Einsatzintensitäten der ausgewählten Instrumente. Entsprechend der vorangegangenen Phase kann auch diese Quantifizierungsphase in eine Kreativ-, in eine Überprüfungs- und in eine Wahlphase strukturiert werden. In der Kreativphase müssen die einzelnen Instrumente quantitativ - damit also auch monetär - bestimmt werden. Hierbei sind selbstverständlich mögliche restriktive Etatvorgaben zu beachten. In der Überprüfungsphase wird versucht, den Erfolg bzw. die Rentabilität der nun qualitativ und quantitativ bestimmten Instrumente zu prognostizieren. Diejenigen Alternativen, die die besten Prüfergebnisse erbracht haben, werden im Rahmen der Wahlphase als realisierungsfähig ausgewählt.
Mit der quantitativen u n d qualitativen B e s t i m m u n g einzelner absatzpolitischer I n s t r u m e n t e ist der Marketing-Planungsprozeß n o c h nicht abgeschlossen. N e b e n der F e s t l e g u n g des o p t i m a l e n T i m i n g ( E i n s a t z z e i t e n , Einsatzdauer) sind insbesondere — im R a h m e n der „integrierten A b s a t z p l a n u n g " — die P r o b l e m e der K o m b i n a t i o n u n d Integration der Instrumente z u lösen. Grundsätzlich sind hierbei z w e i V o r g e h e n s w e i s e n denkbar: Die e i n z e l n e n angebots-, Vertriebs- u n d k o m m u n i k a t i o n s p o l i t i s c h e n M a ß n a h m e n k ö n n e n — j e w e i l s g e s o n d e r t — z u Instrumentalbereichen z u s a m m e n g e f a ß t w e r d e n ; das MarketingMix ergäbe sich dann aus der K o m b i n a t i o n der drei S u b m i x e . Die andere Möglichkeit ist die direkte K o m b i n a t i o n u n d Integration der E i n z e l m a ß n a h m e n z u m g e s a m t e n Marketing-Mix — also o h n e vorherige Bildung v o n S u b m i x - B e r e i c h e n . Im allgemeinen wird m a n w e g e n der engen V e r z a h n u n g der Marketinginstrumente der letzteren V o r g e h e n s w e i s e den V o r z u g g e b e n , da sich auf diese Weise spez i f i s c h e k o m p l e m e n t ä r e o d e r substitutive B e z i e h u n g e n z w i s c h e n e i n z e l n e n Maßn a h m e n bei der Planung besser berücksichtigen lassen.
1. Grundlagen operationaler M e t h o d e n
41
Hierfür ein Beispiel: Ist zur Nachfragebelebung eines PKW-Typs vorgesehen, ein bestimmtes Modell mit einer Sonderausstattung und zu einem ermäßigten Preis anzubieten, wäre es sinnvoll, die hierfür erforderlichen preis- bzw. produktpolitischen Maßnahmen mit den speziellen kommunikationspolitischen Maßnahmen von vornherein zusammen zu planen und zu kombinieren. Preisreduzierung und die erforderlichen werbepolitischen Maßnahmen zur Information der Zielgruppen über das Sonderangebot wirken in unserem Beispiel komplementär; d.h. die Maßnahmen ergänzen und bedingen einander. Bei einer submixorientierten Vorgehensweise — im Gegensatz zur hier erläuterten einzelinstrumentorientierten Planung - könnten derartige spezifische starke interdependente Beziehungen zweier oder mehrerer Instrumente leicht aus dem Blickfeld geraten. Auch in der Kombinationsphase - also bei der „integrierten Absatzplanung" geht man zweckmäßigerweise in drei Schritten vor: In einem ersten Schritt (kreative Phase) werden unterschiedliche Kombinationsalternativen unter Berücksichtigung vermuteter Leistungen und Wirkungen gebildet. Ergebnis ist die grobe Vorselektion bestimmter Kombinationen. Diese ausgewählten Kombinationen sind in einer Überprüfungsphase auf Zielrealisierung und Strategie-Kompatibilität zu untersuchen. Die Kombination, für die im Rahmen der sich anschließenden Wahlphase die Entscheidung fiel, kann nun in die Phase der Realisierung treten, (vgl. Übersicht 1.8.)
Übersicht 1.8: Phasen der integrierten
Absatzplanung
Integrierte Absatzplanung
Kombinationsphase 1. Kreative Phase (Bildung von Konzeptionsalternativen) 2. Überprüfungsphase 3. Wahlphase
1 Marketing-Mix
42
Datenerhebung
Die vorangegangenen Ausführungen haben deutlich gemacht, in welchen Planungsstufen die in diesem Buch enthaltenen Verfahren zur Entscheidungsfindung und -absicherung eingesetzt werden können: In den beschriebenen kreativen Phasen müssen Maßnahmenalternativen entwickelt werden, in den Überprüfungsphasen sind sie zu bewerten. Es ist unbedingt erforderlich, in jeder Planungsphase Untersuchungsziele und Untersuchungsansprüche genau zu definieren, um entscheiden zu können, welche Methoden im einzelnen sinnvoll einsetzbar sind. Insbesondere müssen dabei die folgenden Punkte berücksichtigt werden: —
Umfang der Konzeption (Sollen umfassende integrierte Marketing-Konzeptionen oder sollen einzelne Teile wie Werbemittel-Gestaltungsalternativen, Mediakonzeptionen, Produktkonzepte, preispolitische Alternativen usw. überprüft werden?)
—
Konkretisierungsgrad der Konzeption (Sollen nur verbale Definitionen der Konzeptionen selbst oder sollen bereits instrumentell geplante Konzeptionen überprüft werden?)
—
„Trennschärfe" der Überprüfungsergebnisse (Genügen globale Selektionen, oder sind differenzierte Ergebnisse in Form von Rangreihen, Skalen usw. notwendig?)
—
Prognostischer Wert der Ergebnisse (Sollen die Ergebnisse quantitative Aussagen über die voraussichtlichen Wirkungen der Konzeptionen erlauben, oder genügen tendenzielle, qualitative Beurteilungen?)
—
Sicherheitsgrad der Ergebnisse (Welche Ansprüche werden an Zuverlässigkeit und Gültigkeit der Untersuchung gestellt? In welchem Sicherheitsbereich sollen die Ergebnisse liegen?)
Für diese Fragen gibt es keine allgemeingültigen Antworten. Sie werden sich nach den jeweiligen Planungsaufgaben und natürlich nach dem zur Verfügung stehenden Kosten- und Zeitrahmen richten. Grundsätzlich aber gilt, daß mit zunehmendem Konzeptionsumfang und bei hohen Genauigkeits- bzw. Sicherheitsansprüchen Verfahren erforderlich werden, die der Marketing-Praktiker nicht mehr selbst durchführen kann. Deshalb gilt auch für die Detailplanung, daß die in diesem Buch erläuterten Methoden in erster Linie nur der Findung und groben Überprüfung von Planungsalternativen dienen können. In den darauf aufbauenden weiteren Planungsstufen werden dann in der Regel aufwendigere und kompliziertere Verfahren zur Überprüfung von Entscheidungen notwendig sein. Die in Übersicht 1.4. dargestellten Verfahren der Konzeptions-Gewinnung und -Überprüfung im Rahmen der Marketing-Strategieplanung sind ohne Ausnahme auch in der Detailplanung anwendbar. Im Gegensatz zur Strategieplanung, bei der in erster Linie Gruppendiskussionen, Expertenbefragungen, Kreativitäts-
1. Grundlagen operationaler Methoden
43
techniken, Tiefeninterviews u.ä. Verfahren herangezogen werden, nehmen in der Phase der Detailplanung allerdings die statistisch absicherbaren Methoden breiteren Raum ein. Jedoch kann auch in der Detailplanung nicht auf die erstgenannten Verfahren verzichtet werden: Gerade für Entscheidungen in der Selektionsphase und in den einzelnen kreativen Phasen stellen derartige Methoden wichtige Planungs-Hilfsmittel dar. Mit steigendem Konkretisierungsgrad einer Konzeption werden dann die wissenschaftlich-systematischen Erhebungsmethoden immer mehr an Bedeutung gewinnen. So lassen sich beispielsweise globale Produktkonzepte oder -ideen durch Tiefeninterviews, Gruppendiskussionen oder ähnliche Verfahren abtesten, Neuprodukt-Prototypen sinnvollerweise aber nur durch repräsentative, standardisierte Zielgruppenbefragungen. Literaturempfehlungen Die folgenden Bücher sind weitverbreitete lehrbuchartige „Klassiker" der Marketingliteratur, die einen umfassenden Überblick über Planungsprobleme vermitteln: Bidlingmaier, J.: Marketing 1, 2. Reinbek bei Hamburg 1973. Kotler, P.: Marketing-Management. Stuttgart 1974. Meffert, //.. Marketing. Wiesbaden 1978. Nieschlag, R., Dichtl, £'., Hörschgert, H ; Marketing. Berlin 1976. Gut lesbare Aufsätze zu einzelnen Problemen des Marketing-Mix und der Marketingplanung finden sich in der umfangreichen Marketing-Enzyklopädie. (München 1974)
1.3
Bedeutung operationaler Methoden in der Sozialforschung
Unter dem Begriff „empirische Sozialforschung" werden im Regelfall sozialwissenschaftliche Großuntersuchungen verstanden. Man denkt an ausgefeilte Stichprobenpläne, die Samples von mehreren tausend Personen auswählen - an Interviewerstäbe, die standardisierte Fragebögen mit hunderten von Fragen anwenden — an aufwendige Auswertungsprogramme, die meterdicken Computeroutput produzieren. Im Gegensatz zu dieser landläufigen Vorstellung soll hier ein kurzes Plädoyer für operationale Methoden in der Sozialforschung gehalten werden. Unter operationalen Methoden verstehen wir kurz gesagt Erhebungs- und Auswertungstechniken, die mit geringem Zeitaufwand, niedrigen Kosten und ohne Hinzuziehen von Experten der empirischen Sozialforschung, der Statistik oder der EDV durchgeführt werden können. Im Regelfall streben operationale Methoden nur Datensätze relativ kleinen Umfangs an, d.h. mit relativ wenigen Beobachtungseinheiten (ca. 20—100) und einer geringen Zahl an erfaßten Variablen (ca. 1—20).
44
Datenerhebung
Betrachten wir als Beispiel die folgende Problemstellung: Inwieweit treffen die gängigen Vorstellungen über Charaktereigenschaften oder Fähigkeiten von Personen mit verschiedenen Tierkreiszeichen zu? Sind „Waage-Menschen" tatsächlich ausgeglichener, „ L ö w e n " ehrlicher, „Stiere" aggressiver als andere Personen? Passen „Steinböcke" und „Schützen" in Partnerbeziehungen tatsächlich besonders gut zusammen? Es gibt ganz unterschiedliche Möglichkeiten, einen Untersuchungsplan für diese Problemstellung zu entwerfen: (1) Ein repräsentatives Sample von Bundesbürgern wird nach ihrem Geburtstag befragt sowie einer Vielzahl von Merkmalen zur Messung von Persönlichkeitseigenschaften, Fähigkeiten und sozialen Verhaltensweisen. (2) Mit Hilfe eines Lexikons wird geprüft, ob bei berühmten Persönlichkeiten überzufällige Unterschiede der Berufswahl je nach Tierkreiszeichen auftreten und ob diese Unterschiede in die Richtung der „astrologischen" Voraussagen gehen. (3) Eine Befragung von Ehepaaren nach verschiedener Operationalisierung von „Eheerfolg" und eine Aufschlüsselung der Ergebnisse nach den Tierkreiszeichen der Partner. (4) Bei den Einwohnermeldeämtern werden die vorliegenden Daten über Scheidungsziffernhäufigkeiten in ihrer Abhängigkeit von den Geburtstagen des Ehepartners erfaßt. (5) In Form eines „Schneeballsystems" sollen Personen ihre Bekannten nach Charaktereigenschaften einschätzen, wobei die Geburtstage der Bekannten erfaßt werden. (6) In psychologischen Beratungsstellen existieren die Ergebnisse von Persönlichkeitstests (wie dem MMPI) zusammen mit Angaben über das Geburtsdatum. Diese Daten können im Lichte der Problemstellung ausgewertet werden. Während die Untersuchungsdesigns für (1) und (3) mit Sicherheit zu aufwendigen und zeitintensiven Projekten führen, handelt es sich bei (2), (4) und (6) (evtl. auch (5)) um operationale Designs, die in sehr kurzer Zeit und von wenigen Personen durchgeführt werden können. Welche Vorteile bieten operationale Designs gegenüber Großuntersuchungen, abgesehen von den auf der Hand liegenden Vorteilen einer Zeit- und Kostenersparnis? Zum ersten existiert häufig ein Zielkonflikt zwischen Präzision und Umfang einer Untersuchung. Wer insgesamt nur wenige Personen befragt, hat im allgemeinen weit bessere Kontrolle des Ablaufs jeder einzelnen Befragung als der or-
1. Grundlagen operationaler M e t h o d e n
45
ganisatorische Leiter des Interviewerstabs einer Großuntersuchung. Ebenso ermöglicht die bewußte Konzentration auf nur wenige Variablen eine validere und reliablere Messung dieser Größen. Zum zweiten erlauben operationale Verfahren einen Mehrmethodenansatz. Da jeder einzelne Datensatz relativ leicht erhoben werden kann, ist es möglich, die Problemstellung mit unterschiedlichen operationalen Designs anzugehen. Im gleichen Zeitraum, in dem das Design ( 1 ) realisiert wird, lassen sich etwa alle genannten operationalen Alternativen durchführen. Durch einen derartigen Mehrmethodenansatz können die jeder einzelnen Methode inhärenten Fehlerquellen und Einseitigkeiten ausgeglichen werden und validere, weil relativ methodenunabhängige, Aussagen gewonnen werden. Schließlich ermutigen operationale Methoden eine sequentielle Anlage der Untersuchung. Wenn nach der Analyse des ersten Datensatzes noch keine gesicherten Aussagen gemacht werden können, so erlaubt die Operationalität der Methoden noch die Erhebung zusätzlicher Datensätze, wobei die bereits gewonnenen Erfahrungen gezielt eingesetzt werden können.
2.
Informationsbeschaffung als Entscheidungsgegenstand
2.1
Problemstellung
Derjenige, der über die Beschaffung von Informationen zur Entscheidungsabsicherung zu befinden hat, steht unter anderem vor der Fragestellung, ob der mit der Informationsbeschaffung verbundene finanzielle Aufwand geringer ist als die durch die daraus resultierende Entscheidungsverbesserung verursachte Ertragserhöhung, ob sich also die Informationsbeschaffung lohnt. Für dieses Problem bietet sich die Anwendung von Verfahrensweisen an, die im folgenden als BayesAnalyse bezeichnet werden, wobei darauf hinzuweisen ist, daß hier nur ein Teilbereich der in der Statistik unter diesem Begriff subsumierten Theorie und ihrer Anwendungen dargestellt wird. Mit Hilfe der Bayes-Analyse können bereits vorhandene Informationen (z.B. Ergebnisse früherer Untersuchungen oder auf dem Erfahrungspotential des Managers beruhende subjektive Schätzungen) so verarbeitet werden, daß ein Vergleich des Aufwandes für die Beschaffung zusätzlicher Informationen mit den sich dadurch ergebenden verbesserten Ertragserwartungen ermöglicht wird. Die Konzentration der Analyse auf den Vergleich von Aufwendungen und Erträgen schränkt allerdings die Anwendbarkeit des Verfahrens für sozialwissenschaftliche Untersuchungen, wo meist eine Quantifizierung von Erträgen bestimmter Maßnahmen nicht möglich ist, erheblich ein. Die Bayes-Analyse ist benannt nach dem englischen Mathematiker und Theologen Thomas Bayes (1702-1761), dessen Theorem über bedingte Wahrscheinlichkeiten die Grundlage des Verfahrens bildet. Bevor auf das Bayes-Theorem und seine Anwendung auf Marketingprobleme im einzelnen eingegangen wird, sollen zunächst notwendige Grundlagen der Entscheidungstheorie skizziert werden.
2.2
Entscheidungskriterien
Ganz allgemein läßt sich eine Entscheidung als eine Auswahl unter mindestens zwei Handlungsalternativen charakterisieren. Diese Auswahl wird vor dem Hintergrund von Randbedingungen — den sogenannten Umweltzuständen — getroffen. In symbolischer Schreibweise läßt sich die Entscheidungssituation darstellen als
2. Informationsbeschaffung als Entscheidungsgegenstand
47
Wjj = f (Hj, Zj) mit
Hj
= Handlungsalternative i (i = 1, 2 , . . . , n)
Zj
= Umweltzustand j (j = 1, 2 , . . . , m)
Wy = „Wert" des Handlungsergebnisses der Alternative Hj beim Umweltzustand Zj f(. . .) = funktionale Beziehung zwischen den unabhängigen Variablen H und Z und der abhängigen Variablen W.
Zunächst stellt sich das Problem, den Wert Wjj zu bestimmen. Für die Anwendung der Entscheidungstheorie im Marketingbereich erscheint es zweckmäßig, den Wert als den in Geldeinheiten auszudrückenden Ertrag zu messen. Der Ertrag stellt eine Größe dar, die wohl bei den meisten Entscheidungen die bedeutendste Rolle spielt und relativ leicht und eindeutig meßbar ist. Jetzt m u ß ein Kriterium gefunden werden, um aus den verschiedenen Handlungsalternativen Hj diejenigen auszuwählen, die realisiert werden sollen. Für die Erörterung möglicher Entscheidungskriterien wird ein vereinfachtes Beispiel aus dem Marketingbereich verwendet.
Beispiel Der Marketingleiter eines großen Unternehmens der Lebensmittelbranche steht vor der Frage, ob er für ein hochwertiges flüssiges Nahrungsmittel zusätzlich zur normalen Packungsgröße eine kleine Packung, die vor allem für Einpersonenhaushalte gedacht ist, einführen soll. Die Kalkulation hat ergeben, daß die Packungsdifferenzierung mit relativ höheren Kosten pro Mengeneinheit (größerer Packungskostenanteil bei kleineren Einheiten, stärkere Außendienstbelastung etc.) verbunden ist, die aber durch einen höheren Preis pro Mengeneinheit ausgeglichen werden, so daß der Deckungsbeitrag pro Mengeneinheit bei der Normal- und Kleinpackung gleich ist. Der Marketingleiter erhofft sich von der Maßnahme eine Erschließung neuer Käuferkreise und über diese Marktanteilssteigerung bei konstantem Gesamtmarkt eine Erhöhung des Gesamt-Deckungsbeitrages. Es besteht aber Unsicherheit hinsichtlich für den Erfolg der Packungsdifferenzierung wichtiger Faktoren wie z.B. —
Reaktion der Zielgruppe Wie stark ist der Bedarf an Kleinpackungen bei Einpersonenhaushalten?
—
Reaktion der Konkurrenz Wird die Konkurrenz reagieren? Wie stark? Mit welchen Maßnahmen?
—
Reaktion des Handels Wird der Handel zusätzliche Regalfläche zur Verfügung stellen?
48
Datenerhebung
—
Substitutionsbeziehungen Wieviel Kunden, die bisher die Normalpackung gekauft haben, werden zur Kleinpackung übergehen?
Alle derartigen Gesichtspunkte subsumiert man in der Sprache der Entscheidungstheorie unter dem Begriff „Umweltzustand". Ein Maß, das diese Reaktionen der Unternehmensumwelt zusammenfaßt, ist der Marktanteil. Der Marketingleiter hält drei verschiedene Umweltzustände für realistisch: —
Die Konsumenten sind ziemlich desinteressiert, während die Konkurrenz heftig reagiert, beispielsweise durch preisliche Aktionen oder durch die kurzfristige Einführung einer eigenen Kleinpackung. Am bisherigen Marktanteil von 18% (mengenmäßig) wird sich unter diesen Umständen nicht viel ändern: er wird irgendwo zwischen 17% und 19% liegen (Z]).
—
Bei der ins Auge gefaßten Zielgruppe ist ein großer Bedarf an Kleinpackungen vorhanden, und die Konkurrenz ist nicht in der Lage, angemessen zu reagieren. Der Marktanteil wird auf 21 % bis 23% ansteigen (Z 3 ).
—
Die Reaktion von Konsumenten und Konkurrenten liegt zwischen diesen Extremen. Unter diesen Bedingungen wird ein Marktanteil von 19% bis 21 % erwartet (Z 2 ).
Für eine entscheidungstheoretische Behandlung des Problems sind also bisher die Handlungsalternativen — Kleinpackung einführen oder nicht einführen — und die Umweltzustände, die aus Gründen der rechentechnischen Vereinfachung durch die Mittelwerte der sie charakterisierenden Marktanteilsspannen (18%, 20%, 22%) beschrieben werden sollen, festgelegt. Es gilt nun, für jeden Umweltzustand die Werte der Handlungsalternativen zu bestimmen. Dazu werden einige Markt- und Kalkulationsdaten benötigt. Es wird von einer konstant bleibenden Gesamtmarktgröße von 100 Mio. Liter pro Jahr ausgegangen. Der Deckungsbeitrag beträgt 1.00 DM pro Liter. Die in Form von Investitionen für neue Verpackungsmaschinen, Einführungswerbung, Sonderkonditionen für den Handel etc. anfallenden Kosten der Einführung einer Kleinpackung sind mit 4.0 Mio. DM veranschlagt worden. Als Planungshorizont sind drei Jahre festgelegt worden. Für den ungünstigsten Umweltzustand Zi (18% MA bei Einführung der Kleinpackung) ergibt sich für die Handlungsalternative Hi (Einführung der Kleinpackung) eine Absatzmenge von insgesamt 18 Mio. Litern pro Jahr, was über 3 Jahre einem Gesamtdeckungsbeitrag von 54 Mio. DM entspricht, von dem aber noch die 4 Mio. DM Einführungskosten abzuziehen sind. Eine Abzinsung zukünftiger Erträge wird aus Gründen der Vereinfachung nicht berücksichtigt. Der Wert ( W n ) der Handlungsalternative H , beim Umweltzustand Z t beträgt somit 50 Mio. DM. Wenn man auf die Einführung der Kleinpackung verzichtet (Handlungsalternative H 2 ), könnte man
49
2. Informationsbeschaffung als Entscheidungsgegenstand
seinen Marktanteil von 18% genauso halten und würde durch den Wegfall der Einführungskosten einen Gesamtdeckungsbeitrag (W 2 i) von 54 Mio. DM erwirtschaften. Bei größerer Aufnahmebereitschaft des Marktes für die geplante Packungsvariante (Umweltzustand Z 2 = 20% MA) verändern sich die Werte der Handlungsalternativen schon deutlich. 20% Marktanteil entspricht einer Absatzmenge von 60 Mio. Litern in drei Jahren oder einem Deckungsbeitrag von 60 Mio. DM abzüglich 4 Mio. DM Einführungskosten. Dagegen nutzt man beim Verzicht auf die Kleinpackung das dafür vorhandene Absatzpotential nicht aus, bleibt bei einem Marktanteil von 18% und damit bei einem Gesamtdeckungsbeitrag von 54 Mio. DM. Analog werden die Berechnungen für den dritten möglichen Umweltzustand Z3 vorgenommen und die Ergebnisse in einer Tabelle dargestellt (vgl. Tabelle 2.1.). Tabelle 2.1. Werte der Handlungsalternativen Umweltzustand Zj Handlungsalternative H¡
z,
H, : Einführung H ; : Keine Einführung
50 54
18% MA
Z2 20% MA
Z3 22% MA
56 54
62 54
Hätte das Management jetzt Gewißheit über den zu erwartenden Umweltzustand, wäre die Entscheidung klar: Bei Z x wird H 2 gewählt, bei Z 2 und Z 3 jeweils die Alternative Hi. Der Fall, daß bereits zum Zeitpunkt der Entscheidung der Umweltzustand, innerhalb dessen eine Maßnahme zu wirken hat, mit Sicherheit bekannt ist, stellt natürlich im allgemeinen nur eine theoretische Ausnahme dar. In der Realität hat man es dagegen mit Situationen zu tun, in denen keine vollkommenen Informationen, sondern bestenfalls Wahrscheinlichkeitsaussagen über die Umweltzustände vorliegen. Deshalb sind einige Kriterien zur Auswahl der günstigsten Handlungsalternative unter diesen Bedingungen entwickelt worden. Das Maximax-Kriterium entspricht einer sehr optimistischen Grundhaltung des Entscheidungsträgers, indem aus allen möglichen Handlungsalternativen diejenige ausgesucht wird, die beim günstigsten Umweltzustand den größten Ertrag verspricht. Das wäre in dem Beispiel H t mit einem Deckungsbeitrag von 62 Mio. DM beim günstigsten Umweltzustand Z 3 . Dieses Kriterium ist wenig realistisch, da es eine Alternative auch dann für die beste hält, wenn sie bei anderen ebenso möglichen Umweltzuständen zu gravierenden Verlusten führt. Lediglich in dem extremen Ausnahmefall, daß die Existenz eines Unternehmens schon so gefährdet
50
Datenerhebung
ist, daß eine Rettung nur noch möglich ist, wenn der maximal mögliche Deckungsbeitrag erzielt wird, könnte die unbedingte Auswahl der entsprechenden Handlungsalternative sinnvoll sein. Analog - aber mit einer pessimistischen Grundhaltung - verfährt das MaximinKriterium: Es wird dabei immer die Alternative ausgewählt, die unter ungünstigsten Umständen den im Vergleich zu den anderen Handlungsmöglichkeiten besten Ertrag erwarten läßt. Das ist im Beispiel die Alternative H 2 , die bei dem ungünstigen Umweltzustand Z, noch den relativ besten Deckungsbeitrag von 54 Mio DM verspricht. Auch dieses Kriterium dürfte höchstens für ein extrem vorsichtiges Management realistisch sein, da sehr günstige Ertragsmöglichkeiten bei weniger ungünstigen Umweltzuständen völlig ignoriert werden. Ebenfalls pessimistisch ist das Minimax-Regretkriterium. Entscheidungen nach diesem Kriterium werden auf der Grundlage einer Opportunitätskostenmatrix getroffen. Unter Opportunitätskosten versteht man einen Gewinn-Entgang (Regret), der dadurch entsteht, daß man sich auf der Grundlage unsicherer Informationen über die möglichen Umweltzustände für eine Handlung entschieden hat, die nachträglich — wenn sich nämlich herausgestellt hat, daß ein anderer als der erwartete Umweltzustand eingetreten ist — nicht mehr optimal ist. Die Opportunitätskostenmatrix enthält dementsprechend für jede Handlungs-Umweltzustands-Kombination die Differenz zwischen dem Wert der realisierten Handlungsalternative und dem Wert der beim tatsächlichen Eintreten des betreffenden Umweltzustandes optimalen Alternative. Wenn der Marketingleiter in dem Beispiel sich für Hi entschieden hat, und es ist der Umweltzustand Zi eingetreten, dann ist gegenüber der Alternative H 2 ein Verlust V u von 4 Mio. DM entstanden. Analog dazu entspricht die Wahl von H 2 , wenn später Z 2 bzw. Z 3 eintreten, einem Verlust von 2 Mio. bzw. 8 Mio. DM gegenüber Hi. Diese Werte werden tabellarisch dargestellt (vgl. Tabelle 2.2.).
Tabelle 2.2. Opportunitätskosten Umweltzustand Zj Handlungsalternative H¡
Z, 18% MA
Z2 20% MA
Z3 22% MA
H, : Einführung H2 : Keine Einführung
V„ =4
v „ =o
v „ =o
V 22 = 2
V,3 = 0 V„ =8
Dem Minimax-Verlustkriterium entspricht eine Entscheidung zu Gunsten der Alternative, die mit den geringsten relativen Verlusten verbunden ist. Das ist in dem Beispiel H! mit einem relativen Verlust von 4 Mio. DM.
51
2. Informationsbeschaffung als Entscheidungsgegenstand
Die bisher beschriebenen Entscheidungskriterien berücksichtigen in keiner Weise Wahrscheinlichkeiten für das Auftreten der möglichen Umweltzustände. Dieser Gesichtspunkt spielt beim Laplace-Kriterium eine Rolle. Hier werden zunächst allen Umweltzuständen die gleichen Eintrittswahrscheinlichkeiten zugeordnet, da man keine Informationen darüber hat und keinen der Umweltzustände „bevorzugen" will. Die drei möglichen Zustände des Beispiels hätten also jeweils eine Wahrscheinlichkeit von 0.33. In Matrix-Schreibweise läßt sich der erwartete Geldwert (EGW) für die Handlungsalternativen Hj darstellen als: EGW
HA H2/
=
50 54
56 54
62 54
0.33 • 50 + 0.33 • 56 + 0.33 0.33 • 54 + 0.33 • 54 + 0.33
0.33 0.33 0.33 62 54
56.0 54.0 Die Entscheidung für die Alternative Hi, die mit einem erwarteten Wert von 56.0 Mio. DM verbunden ist, würde dem Laplace-Kriterium, bei dem immer die Alternative mit dem höchsten erwarteten Geldwert ausgewählt werden soll, entsprechen. In der Realität dürfte der Entscheidungsträger meist in der Lage sein, auf Grund von bestimmten Informationen bzw. Erfahrungen näherungsweise Wahrscheinlichkeiten für die verschiedenen Umweltzustände anzugeben. Unter dieser Voraussetzung kann das Kriterium des erwarteten Geldwertes zum Zuge kommen. Es wird verfahren wie beim Laplace-Kriterium mit dem Unterschied, daß die Eintrittswahrscheinlichkeiten der verschiedenen Umweltzustände nicht mehr als gleich angenommen werden. In diesem Sinn stellt das Laplace-Kriterium einen Spezialfall des Kriterium des erwarteten Geldwertes dar. Wenn also das Management in dem Beispiel davon ausgeht, daß die extrem ungünstigen bzw. günstigen Umweltzustände Zt und Z 3 jeweils mit einer Wahrscheinlichkeit von 0.3 zu erwarten sind, während Z 2 die Wahrscheinlichkeit 0.4 zugeordnet wird, ergibt sich der erwartete Geldwert durch. EGW
/H, \H2
50 54 0.3 0.3 56,0' 54,0
50 54
56 54 + +
0.4 0.4
56 54
62 54 +
0.3 + 0.3
0.3 0.4 0.3 62 54
52
Datenerhebung
Der erwartete Geldwert wäre also mit 56.0 Mio. DM bei Hi maximal. Es ist jetzt zu beachten, daß die Auswahl der günstigsten Handlungsalternative nicht mehr nur von den Werten der Handlungen bei verschiedenen Umweltzuständen und vom Entscheidungskriterium sondern auch von den Zustandswahrscheinlichkeiten abhängt. Wenn beispielsweise mit einer Wahrscheinlichkeit von 0.8 und Z2 und Z 3 mit jeweils 0.1 zu erwarten wären, ergäbe sich:
EGW
50 54 [0.8 [0.8
50 54
56 54 +
0.1
+ 0.1
62 54 +
56 54
0.8 0.1 0.1
0.1
62 54
+ 0.1
51,8 54,0 Bei dieser Konstellation wäre also H 2 die günstigste Alternative. Als letztes sei noch das Kriterium der erwarteten Opportunitätskosten erläutert. Dabei wird erneut die weiter oben beschriebene Opportunitätskostenmatrix (vgl. Tabelle 2) verwendet. Wenn man die Eintrittswahrscheinlichkeiten für die drei Umweltzustände wieder mit 0.3 bzw. 0.4 bzw. 0.3 schätzt, ergeben sich die erwarteten Opportunitätskosten (EOK) in Abhängigkeit von der Handlung Hj durch:
EOK
4 0 0.3 0.3
0.4 0.4
0 8 +
0.3 + 0.3
0.3 0.4 0.3
0
1,2' 3,2
Die Alternative mit den kleinsten erwarteten Opportunitätskosten (also mit dem kleinsten Gewinnentgang), in diesem Falle H! mit 1.2 Mio. DM, wird gewählt. Auf die gleiche Entscheidungssituation (gleiche Umweltzustände mit gleichen Eintrittwahrscheinlichkeiten und gleiche Werte der Handlungsalternativen) angewandt, führen die beiden letztgenannten Kriterien immer zum gleichen Ergebnis. Die Alternative mit dem höchsten erwarteten Ertrag ist also auch immer mit den geringsten erwarteten Opportunitätskosten verbunden. Diese beiden Kri-
2. Informationsbeschaffung als Entscheidungsgegenstand
53
terien können deshalb wahlweise eingesetzt werden, ohne daß die Entscheidung dadurch verändert wird. Bei der weiteren Diskussion der Bayes-Analyse sollen nur noch diese beiden Kriterien verwendet werden, da sie am ehesten für eine möglichst umfassende Berücksichtigung vorhandener Informationen — sowohl objektiver Daten als auch subjektiver Schätzungen — geeignet sind. Das Entscheidungsproblem ist jetzt soweit bearbeitet, daß die Werte der Handlungsalternativen für die verschiedenen Umweltzustände berechnet sind und die Informationen über die Eintrittswahrscheinlichkeiten der Umweltzustände durch eine entsprechende Verteilung dargestellt sind. Da die bisherige Analyse vorder Sammlung zusätzlicher Informationen vorgenommen wurde, nennt man sie PriorAnalyse. Im folgenden sollen Techniken diskutiert werden, die es ermöglichen zu entscheiden, ob die Beschaffung weiterer Informationen über die zu erwartenden Umweltzustände, die ja in der Regel mit Kosten verbunden ist, aber andererseits auch zu größerer Sicherheit und damit besseren Entscheidungen beiträgt, lohnend ist. Dazu wird zunächst die Möglichkeit, neue Informationen zu verarbeiten und mit alten Informationen zu verknüpfen (Posterior-Analyse), diskutiert.
2.3
Posterior-Analyse
Neu gewonnene Informationen fuhren normalerweise nicht dazu, daß man alles bisherige Wissen, alle bisherigen Erfahrungen über Bord wirft. Vielmehr wird man meist so vorgehen, das vorhandene Wissen (A-Priori-Verteilung) im Lichte der neuen Erfahrung zu überprüfen und gegebenenfalls zu korrigieren. Zur Erläuterung des dafür vorhandenen Instrumentariums wird hier auf das bereits verwendete Beispiel zurückgegriffen. Es sei zunächst angenommen, daß die Erprobung der kleinen Packungsvariante in einem Testmarkt stattgefunden hat. Dabei wurde für das Produkt insgesamt — also Normal- und Kleinpackung zusammen — ein Marktanteil von 21% erzielt. Nun hat der Marketingleiter einige Erfahrungen mit Testmärkten. Er weiß, daß in seinem Markt diese Ergebnisse meist positiver ausfallen als das mittel- und langfristige Ergebnis nach der endgültigen Einfuhrung eines Produktes, da die Konsumenten auf Neuheiten positiv reagieren, der Außendienst besonders engagiert ist etc.. Andererseits hat er aber auch schon in seltenen Fällen Testmarktergebnisse gehabt, die ungünstiger waren als der langfristige Marktanteil. Der Marketingleiter formuliert diese Erfahrungen mit der Unsicherheit von Testmarktergebnissen als Wahrscheinlichkeitsaussagen. Dazu versetzt er sich jeweils hypothetisch in die Lage, daß einer der drei möglichen Umweltzustände tatsächlich vorliegt und schätzt, mit welcher Wahrscheinlichkeit dann das Test-
54
Datenerhebung
marktergebnis T k von 21% MA zu erwarten ist. Die bedingten Wahrscheinlichkeiten (Testmarkergebnis von 21% unter der Bedingung, daß bestimmte Umweltzustände vorliegen) sind in Tabelle 2.3. dargestellt.
Tabelle
2.3. Bedingte Wahrscheinlichkeiten Wahrscheinlichkeit für das Testmarktergebnis 21% unter der Bedingung, daß der U m w e l t z u s t a n d Zj vorliegt P(Tk|Zj)
Z,
18% MA
0.4
Z2
20% MA
0.3
Z,
22% MA
0.05
Nun will man sich in dieser Situation natürlich nicht darauf beschränken anzugeben, welche Eintrittswahrscheinlichkeit das Testmarktergebnis bei verschienen Umweltzuständen hat. Vielmehr interessiert die Frage, ob und wie durch die neue Information die für die Entscheidung so wichtigen Eintrittswahrscheinlichkeiten der Umweltzustände verändert worden sind. Für die entsprechende Berechnung bedient man sich des Theorems von Bayes über bedingte Wahrscheinlichkeiten. Auf das vorliegende Problem angewandt lautet es:
P(ZjlTk) =
P(Tk|Z,)-P(Zj) m
2P(Tk|Zj)-P(Zj)
j=i
mit P ( T k | Z j ) — Wahrscheinlichkeit für das Auftreten des Testmarktergebnisses T k wenn der Umweltzustand Zj vorliegt P(Zj)
— Wahrscheinlichkeit
für das Auftreten des Umweltzustandes Zj
(A-Priori-Wahrscheinlichkeit) P ( Z j | T k ) — Eintrittwahrscheinlichkeit für den Umweltzustand Zj nachdem das Testmarktergebnis T k beobachtet wurde (A-Posteriori-Wahrscheinlichkeit) Die Werte für P ( T k | Z j ) sind in Tabelle 2.3. enthalten; die Werte für P(Zj) sind aus der Prior-Analyse bekannt (0.3; 0.4; 0.3). Damit können die gesuchten A-Posteriori-Wahrscheinlichkeiten, d.h. die auf Grund des Testmarktergebnisses revidierten Eintrittswahrscheinlichkeiten der drei möglichen Umweltzustände, berechnet werden, (vgl. Tabelle 2.4.)
55
2. Informationsbeschaffung als Entscheidungsgegenstand Tabelle 2.4. A-Posteriori-Wahrscheinlichkeiten Umweltzustand
Wahrscheinlichkeiten P(Zj)
Z, Z2 Z3
18% MA 20% MA 22% MA
P(T k |Zj)
0.3 0.4 0.3
P(Tk|Zj)P(Zj)
0.4 0.3 0.05
0.12 0.12 0.015 0.255
P(ZjlTk) 0.471 0.471 0.058 1.000
m 2P(TklZj)P(Zj) = 0.255
Im nächsten Schritt k ö n n e n die ermittelten
A-Posteriori-Wahrscheinlichkeiten
zur erneuten Berechnung der erwarteten Deckungsbeiträge für die beiden Handlungsalternativen — Einführung der Kleinpackung oder nicht — herangezogen werden. Man erhält dann
EGW
(\HHl 2
50
56
62
.54
54
54.
0.471 0.471 0.058
+ 0.471 • 50 0 . 4 7 1 • 54
+
0.471
56
+
0:058
62
0.471
54
+
0.058
54
53.522 54.0 Im Gegensatz zu der auf Basis der Prior-Analyse zu treffenden Entscheidung wäre jetzt — nach der Berücksichtigung des Testmarktergebnisses — die Handlungsalternative H 2 mit einem erwarteten Deckungsbeitrag von 5 4 . 0 Mio. DM die günstigere.
2.4
Preposterior-Analyse
2.4.1
Preposterior-Analyse einer Testmarkt-Entscheidung
Mit der Posterior-Analyse ist diskutiert worden, wie man alte und neue Informationen verknüpfen kann, um zu einer Verbesserung der Prior-Informationen zu gelangen. Das im Rahmen dieses Buches wichtigere Einsatzgebiet der Bayes-
56
Datenerhebung
Analyse besteht aber darin, Entscheidungen über die Beschaffung zusätzlicher Informationen besser zu fundieren. Während die Posterior-Analyse also dazu diente, Zusatz-Informationen zu verarbeiten, hat die Preposterior-Analyse den Zweck, noch vor der Informationsbeschaffung zu ermitteln, ob die Ergebnisse dieser Aktivitäten eine Entscheidungsverbesserung erwarten lassen, deren Wert die damit verbundenen Kosten übersteigt. Zunächst wird das schon bekannte Beispiel fortgesetzt. Der Marketingleiter hat die Prior-Analyse abgeschlossen. Danach läßt die Einführung einer Kleinpackung bei Einführungskosten von 4 Mio. DM über einen Planungszeitraum von 3 Jahren einen um 2 Mio. DM höheren Deckungsbeitrag als bei der Beschränkung auf die Normalpackung erwarten. Diese Einschätzung ist natürlich durch die Unsicherheit hinsichtlich der Umweltzustände, mit denen zu rechnen ist, mit Risiko behaftet. Der Marketingleiter hat die Möglichkeit, die Packungsvariante zunächst in einem Testmarkt zu erproben, um damit das Risiko einer Einführung auf dem Gesamtmarkt zu vermindern. Die durch den Testmarkt zusätzlich zu den kalkulierten Einführungskosten von 4 Mio. DM entstehenden Kosten werden mit 0,3 Mio. DM veranschlagt. Damit sollen die Aufwendungen für Einführungswerbung und Marktforschung im Testmarktgebiet abgedeckt sein. Die Entscheidungssituation hat sich dadurch so verändert, daß, wenn das Testmarktergebnis mit großer Wahrscheinlichkeit einen der günstigen Umweltzustände Z 2 oder Z 3 erwarten läßt und die Einführung der Kleinpackung vorgenommen wird, die Einführungskosten einschließlich Testmarktkosten auf 4,3 Mio. DM steigen. Wenn aber nach dem Testmarktergebnis mit großer Wahrscheinlichkeit mit dem ungünstigen Zustand Zi gerechnet werden muß und auf die Einführung verzichtet wird, sinkt der Verlust, der durch die 4 Mio. DM kostende aber erfolglose Einführung auf dem Gesamtmarkt entsteht, auf den Betrag der Testmarktkosten von 0,3 Mio. DM. Der zu erwartende Wert der Informationsverbesserung durch den geplanten Testmarkt soll jetzt quantifiziert werden. Zunächst wird festgestellt, wie groß die erwarteten Erträge wären, wenn man von vollkommener Voraussicht ausgehen könnte. Der Marketingleiter würde unter dieser theoretischen Voraussetzung für jeden Umweltzustand die objektiv günstigste Entscheidung treffen. Das wäre bei Z] die Alternative H 2 und bei Z 2 und Z 3 jeweils H , . Es ergäbe sich für den erwarteten Geldwert unter vollkommener Voraussicht (EGWVV):
Der erwartete Wert vollkommener Information (EWVI) ist dann definiert als die Differenz zwischen dem erwarteten Ertrag unter vollkommener Voraussicht und
2. Informationsbeschaffung als Entscheidungsgegenstand
57
dem mit der auf Basis der Prior-Informationen günstiger erscheinenden Alternative Hi verbundenen erwarteten Ertrag. EWVI
= = =
EGWVV - EGW ( H j ) 57.2 Mio. - 56 Mio. 1.2 Mio.
Dieser Betrag stellt die Obergrenze des überhaupt sinnvollen Informationsaufwandes in dieser Entscheidungssituation dar. In dem Beispiel würde man also maximal 1.2 Mio. DM aufwenden, um vollkommene Information über die Umweltzustände zu erlangen. In der Praxis geht es natürlich nicht darum, vollkommene Informationen zu beschaffen. Die Bestimmung einer derartigen Obergrenze kann aber schon einige Hinweise auf die Höhe eines angemessenen Informationsaufwandes liefern. Um zu bestimmen, wieviel Geld der Entscheidungsträger für unvollkommene, aber bessere als die bisher vorliegenden Informationen ausgeben soll, muß er wissen, wie groß der Grad der Unsicherheit der zu beschaffenden Information ist. Eine ähnliche Fragestellung tauchte schon bei der Posterior-Analyse auf, als es darum ging, die Zuverlässigkeit eines vorliegenden Testmarktergebnisses zu beurteilen. Für die jetzt diskutierte Entscheidung müssen aber, bevor gegebenenfalls eine Testmarkt-Aktion beschlossen wird, die möglichen Ergebnisse dieses Testmarktes antizipiert werden. In ähnlicher Weise wie bei der Definition der möglichen Umweltzustände werden also vom Marketingleiter mögliche Testmarktergebnisse definiert. Er geht nach seiner Erfahrung davon aus, daß diese Ergebnisse mit wenigen Ausnahmen günstiger liegen als der langfristig zu erzielende Marktanteil. Da bei einem Testmarkt mancherlei Verzerrungen auftreten können, wird die Spannweite möglicher Ergebnisse (MA im Testmarkt) größer eingeschätzt als die Spannweite möglicher Umweltzustände (MA im Gesamtmarkt). Der Marketingleiter legt deshalb die möglichen Testmarktergebnisse, gemessen in Marktanteilen, mit 19%, 21%, 23% und 25% fest. Im nächsten Schritt zieht er wieder seine Erfahrung im HinTabelle 2.5. P(Tk|Zj)
Bedingte
Umweltzustand Z
j
Wahrscheinlichkeiten
pczj)
18% MA 20% MA 22% MA
0.3 0.4 0.3
Testmarktergebnisse
Testmarktergebnisse T^ T, 19% MA
Z, Z2 Zä
für die verschiedenen
0.5 0.1 0.05
T, 21 % MA 0.4 0.3 0.05
T 3 23% MA 0.1 0.4 0.3
T, 25% MA 0 0.2 0.6
58
Datenerhebung
blick auf die Verläßlichkeit von Testmärkten heran. Formal wird die Unsicherheit derartiger Ergebnisse — wie bei der Posterior-Analyse — durch bedingte Wahrscheinlichkeiten ausgedrückt. Man nimmt hypothetisch an, daß jeweils ein Umweltzustand tatsächlich gegeben ist und schätzt, mit welcher Wahrscheinlichkeit die möglichen Testmarktergebnisse unter dieser Bedingung zu erwarten sind. Diese Schätzung für alle Umweltzustände werden wieder in eine entsprechende Tabelle eingetragen. (Vgl. Tabelle 2.5.) Beispielsweise ist die Wahrscheinlichkeit für das Testergebnis T 2 (21 % MA) unter der Bedingung, daß der Zustand Z 2 (20% MA) tatsächlich vorliegt: P ( T 2 | Z 2 ) = 0.3 Nun ist natürlich in der beschriebenen Entscheidungssituation die umgekehrte Aussage interessanter: Mit welcher Wahrscheinlichkeit ist der Umweltzustand Zj zu erwarten unter der Bedingung, daß das Untersuchungsergebnis Tk vorliegt; wie groß ist also P(Zj|T k )? An dieser Stelle wird wieder das Bayes'sche Theorem herangezogen: P(T k |Zj) • P(Zj) P(Zj|Tk) =
m
SPOTkiZji-PiZj) J = I
Die im Nenner des Ausdrucks stehende Summe gibt die Wahrscheinlichkeit für das Auftreten des Testergebnisses Tk an, da wegen des Satzes von der totalen Wahrscheinlichkeit gilt: P(Tk) = P(Tk n z 1 ) + P ( T k n z 2 ) + . . , + P ( T k n z m ) = P ( T k | Z , ) • P(Z,) + P(Tk|Z2) • P(Z2) + . . . + P ( T k | Z m ) • P ( Z m )
=
£ P(T k |Zj) • P(Zj) j=i
Jetzt lassen sich mit den in Tabelle 2.5. angegebenen Daten alle bedingten Wahrscheinlichkeiten P(Zj|Tk) berechnen. Beispielsweise ergibt sich für P ( Z i l T 2 ) :
P(Z,|T2) =
P(T2|Z,) • P(Z,) — 2 P(T 2 |Zj) • P(Zj) 3
J = I
0.4 • 0.3 0.4 • 0 . 3 + 0 . 3 • 0.4 + 0 . 0 5 • 0.3
2. Informationsbeschaffung als Entscheidungsgegenstand =
59
0.12 0.255
= 0.471 Sämtliche Berechnungsergebnisse sind in Tabelle 2.6. eingetragen. Tabelle 2.6. Bedingte Wahrscheinlichkeiten P(ZjlTk)
T,
T,
t3
Z, z, Z3
0.732 0.195 0.073
0.471 0.471 0.058
0.107 0.571 0.322
0 0.308 0.692
P(T k )
0.205
0.255
0.280
0.260
Damit liegen für alle möglichen Untersuchungsergebnisse die Umweltzustandswahrscheinlichkeiten so vor, wie sie beim tatsächlichen Auftreten des jeweiligen Untersuchungsergebnisses durch die Posterior-Analyse zu revidieren wären. Die Posterior-Analyse wird also für alle möglichen Ergebnisse schon vorweggenommen — von daher kommt der Name Preposterior-Analyse. Die vorliegenden Daten werden jetzt verwendet, um analog zur Posterior-Analyse für die verschiedenen zu erwartenden Ergebnisse die revidierten erwarteten Werte der Handlungsalternativen zu berechnen. Dies geschieht formal durch eine einfache MatrizenMultiplikation. 50 54
56 54 52.05 54.0
62 54
•
"0.732 0.195 0.073
53.53 54.0
0.471 0.471 0.058 57.29 54.0
0.107 0.571 0.322
0 0.308 0.692
60.15 54.0
Man kann also jetzt schon für jedes Untersuchungsergebnis die optimale Handlungsalternative festlegen: Bei T , (19% MA) oder T 2 (21% MA) ist H 2 (keine Einführung) mit einem erwarteten Deckungsbeitrag von 54.0 Mio. DM am günstigsten, bei T 3 (23% MA) bzw. T 4 (25% MA) wird H! (Einführung) mit 57.29 Mio. bzw. 60.15 Mio. DM erwartetem Deckungsbeitrag gewählt. Darüber hinaus liegen auch — indirekt aus den subjektiven Schätzungen des Marketingleiters ermittelt — die Wahrscheinlichkeiten für das Auftreten dieser vier Ergebnisse P(Tk) vor (vgl. Tabelle 2.6.). Daraus läßt sich jetzt der erwartete Geldwert mit Untersuchung (EGWU) errechnen:
60
Datenerhebung
EGWU = [54.0 =
54.0
57.29
60.15]
•
0.205 0.255 0.280 0.260
56.52
In einem letzten Schritt zieht man von diesem Wert die Kosten der Untersuchung — das sind in diesem Fall Testmarktkosten von 0.3 Mio. DM — ab und erhält den erwarteten Netto-Wert mit Untersuchung (ENWU): ENWU
= 56.52 M i o . - 0 . 3 Mio. = 56.22 Mio.
Da dieser erwartete Ertrag höher ist als der auf Grund der Prior-Analyse bei der günstigsten Handlungsalternative H! zu erwartende Ertrag von 56.0 Mio. DM, erscheint die Erprobung der Kleinpackung auf einem Testmarkt als lohnend.
2.4.2
Preposterior-Analyse für eine Stichprobenuntersuchung
Wegen der großen Bedeutung von Stichprobenuntersuchungen für die Marktforschung soll hier noch der Einsatz der Bayes-Analyse in einem derartigen Fall beschrieben werden. Dazu wird wieder auf das schon bekannte Beispiel zurückgegriffen. Der Marketingleiter kennt aus früheren Untersuchungen einige weitere Marktdaten: Im Absatzgebiet seines Produktes verwenden 10 Mio. Haushalte die entsprechende Produkt-Gattung, davon sind 4 Mio. Ein-Personen-Haushalte (EPHH) und 6 Mio. Mehr-Personen-Haushalte (MPHH). Der Durchschnittsverbrauch der EPHH liegt bei 7.5 1 pro Jahr, während die MPHH 11.7 1 pro Jahr verbrauchen. Von den 100 Mio. 1 pro Jahr, die auf dem Gesamtmarkt abgesetzt werden, gehen also ca. 70 Mio. 1 an MPHH und 30 Mio. 1 an EPHH. Der Marketingleiter geht davon aus, daß sein augenblicklicher Marktanteil in beiden Teilgruppen gleichmäßig 18% beträgt. Er setzt also 12.6 Mio. 1 an MPHH und 5.4 Mio. 1 an EPHH ab. Um die weiteren Erörterungen nicht unnötig zu komplizieren, sollen an dieser Stelle einige vereinfachende Annahmen gemacht werden. Es werden Beeinflussungen des Marktanteils durch Substitutionseffekte, Konkurrenzreaktion etc. ausgeschlossen. Da die Marktgröße ebenfalls mit 100 Mio. 1 pro Jahr konstant bleiben soll, kann eine Absatzmengensteigerung nur über eine Steigerung des Marktanteils erzielt werden. Zur Vereinfachung wird hier angenommen, daß die Steigerung des Gesamtanteils durch die Einführung einer Kleinpackung ausschließlich
61
2. Informationsbeschaffung als Entscheidungsgegenstand
durch eine Steigerung des Marktanteils bei der Kernzielgruppe „Ein-PersonenHaushalte" erzielt wird. Wenn also der Marktanteil auf insgesamt 20% steigen soll, heißt das, daß die entsprechende Absatzmengensteigerung von 18 auf 20 Mio. 1 pro Jahr auf die EPHH zurückzuführen sind. Folglich m u ß in dieser Gruppe die Absatzmenge von 5.4 auf 7.4 Mio. 1 pro Jahr steigen, was bei einem Gesamtverbrauch von 30 Mio. 1 einem Marktanteil in der Zielgruppe von 24.6% entspricht. Für die drei als mögliche Umweltzustände festgelegten Marktanteile sind diese Berechnungen in Tabelle 2.7. niedergelegt. Tabelle 2.7. Absatzmengen und Marktanteile Umweltzustand Z
Z, Z2 Z3
j
18% MA 20% MA 22% MA
Absatzmenge insg. Mio. 1 pro Jahr
18 20 22
Absatzmenge bei EPHH Mio. 1 pro Jahr
MA bei EPHH
5.4 7.4 9.4
18.0% 24.6% 31.3%
An den Ergebnissen der Prior-Analyse hat sich ansonsten nichts geändert. In dieser Situation bietet ein Marktforschungsinstitut dem Marketingleiter eine Spezialuntersuchung zum Preise von 10 000 DM an. Bei einer Zufallsstichprobe von 100 Ein-Personen-Haushalten soll mit Hilfe eines speziell entwickelten und getesteten Fragebogens festgestellt werden, wie viele dieser Haushalte das Produkt nach Einführung der Kleinpackung kaufen würden. Von der Anzahl der positiven Antworten in der Befragung soll dann auf den zu erwartenden Marktanteil geschlossen werden. Eine solche direkte Schlußweise ist in der Praxis nur selten realistisch, da man von geäußerten Kaufabsichten nicht unbedingt auf tatsächlich erfolgende Käufe schließen kann. Sie soll aber ebenfalls aus Vereinfachungsgründen hier verwendet werden. Der Marketingleiter, der inzwischen ein überzeugter Bayesianer geworden ist, nimmt sich also Papier und Bleistift, um zu berechnen, ob die 10 000 DM für so eine Untersuchung sinnvoll angelegt sind. Bei einer Stichprobenuntersuchung m u ß man natürlich immer damit rechnen, daß die Ergebnisse der Untersuchung von der Verteilung in der Grundgesamtheit — 4 Mio. Ein-Personen-Haushalte — abweichen. In diesem Fall müssen die Wahrscheinlichkeiten für derartige Abweichungen aber nicht wie beim Testmarktproblem geschätzt werden, sondern können mit Hilfe der Binomialverteilung exakt errechnet werden, d.h. es läßt sich angeben wie groß bei einer Stichprobengröße n und einer als bekannt angenommenen Wahrscheinlichkeit p für das Auftreten eines Ereignisses (Kauf des Produktes durch einen Ein-Personen-Haushalt) in der Grundgesamtheit die Wahrscheinlichkeit für das Auftreten des Stichpro-
62
Datenerhebung
benergebnisses Tk ist. Bei gegebener Stichprobengröße kann man also mit Hilfe der Binomialverteilung die für den ersten Schritt der Preposterior-Analyse notwendigen bedingten Wahrscheinlichkeiten P ( T i J Z j ) berechnen, wobei der den Umweltzustand Zj beschreibende Marktanteil als Wahrscheinlichkeit dafür, in der Grundgesamtheit Käufer des eigenen P r o d u k t s zu finden, interpretiert wird. Die betrachtete Grundgesamtheit u m f a ß t durch die oben aufgeführten Annahmen jetzt nur noch Ein-Personen-Haushalte. Deshalb werden jetzt die möglichen Umweltzustände nicht mehr durch den Gesamt-Marktanteil, sondern durch den Marktanteil in der Zielgruppe EPHH beschrieben (vgl. Tabelle 2.7.). Für die weiteren Betrachtungen ist es zweckmäßig, die Marktanteile als Wahrscheinlichkeit ( p ) dafür, bei der zufälligen Auswahl einer Person einen Käufer bzw. Kaufinteressenten für das eigene Produkt zu finden, umzuformulieren (vgl. Tab. 2.8.). Tabelle 2.8. Marktanteile und Wahrscheinlichkeiten Marktanteil bei Ein-Personen-Haushalten
Wahrscheinlichkeit p, einen Käufer bei zufälliger Auswahl eines Ein-Personen-Haushalts zu finden
18.0% 24.6% 31.3%
0.180 0.246 0.313
Eine 100er Stichprobe kann natürlich sehr vielfältige Ergebnisse bringen, die in den meisten — aber eben nicht in allen — Fällen nicht extrem von den realen Verhältnissen in der Grundgesamtheit (Marktanteil bzw. p ) abweichen werden. Einer Tabelle der Binomialverteilung (z.B. Wetzel u.a. 1967 oder Aiken u.a. 1955) ist jetzt beispielsweise zu e n t n e h m e n , daß beim Vorliegen eines Marktanteils von 18% in der Grundgesamtheit (p = 0 . 1 8 ) die Wahrscheinlichkeit für ein Tabelle 2.9. Bedingte Wahrscheinlichkeiten PfT^IZj) (Berechnet aus Binomialverteilung mit p und n = 100) Umweltzustand Zj Z
Marktanteil
P
z, Z2 Z3
18.0% 24.6% 31.3%
0.180 0.246 0.313
A-PrioriWahrscheinl. (Zj)
0.3 0.4 0.3
Stichprobenergebnisse T,
T,
T3
T4
Ts
KI < 15
15 « KI < 21
21 « KI < 28 28 « KI < 35 35 « KI
0.1823 0.0072 0.0001
0.5652 0.1653 0.0083
0.2434 0.5791 0.2023
0.0091 0.2350 0.5498
0.0000 0.0134 0.2395
63
2. Informationsbeschaffung als Entscheidungsgegenstand
Stichprobenergebnis von 16 Kaufinteressenten ( K I ) 0 . 0 9 4 1 ist. Damit lassen sich für alle möglichen Stichprobenergebnisse T k ( z . B . KI = 8, KI = 2 0 oder KI = 3 5 ) bei vorausgesetztem Umweltzustand Z j , der durch den Marktanteil oder p beschrieben
wird,
die bedingten Wahrscheinlichkeiten P ( T k | Z j ) ermitteln.
Aus
Gründen der Übersichtlichkeit wird hier eine Klassenzusammenfassung für die möglichen Ergebnisse der Stichprobenziehung vorgenommen ( 5 Klassen). In dieser F o r m finden sich die Wahrscheinlichkeiten P ( T k | Z j ) in Tabelle 2 . 9 .
Alle weiteren Berechnungen vollziehen sich analog zur Vorgehensweise bei der Preposterior-Analyse
einer Testmarkt-Entscheidung.
Sie sollen deswegen
hier
sehr knapp dargestellt werden. Im nächsten Schritt werden über das T h e o r e m von Bayes die bedingten Wahrscheinlichkeiten
P ( Z j | T k ) berechnet (vgl. Tab.
2.10). Tabelle 2.10. Bedingte Wahrscheinlichkeiten P(ZjlT k ) Stichprobenergebnisse Umweltzustand
T,
T2
Z3
0.9437 0.0503 0.0000
0.7120 0.2775 0.0105
0.1998 0.6340 0.1662
0.0103 0.3593 0.6304
0.0000 0.0699 0.9301
P(T k )
0.0576
0.2382
0.3653
0.2616
0.0773
z, z2
T,
Ts
Die revidierten erwarteten Werte der Handlungsalternativen ergeben sich jetzt durch: 50
56
62
54
54
54
0.9497
0.7120
0.1998
0.0103
0.0000
0.0503
0.2775
0.6340
0.3593
0.0699
0.0000
0.0105
0.1662
0.6304
0.9301
50.302
51.791
55.798
59.721
61.581
54.0
54.0
54.0
54.0
54.0
Der erwartete Geldwert mit Untersuchung beträgt in diesem Fall: 0.0576 0.2382 EGWU
=
[54.0
54.0
55.798
59.721
61.581]
0.3653 0.2616 0.0773
=
56.739
64
Datenerhebung
Durch Subtraktion der Untersuchungskosten von 0.01 Mio. DM erhält man leicht den erwarteten Netto-Wert mit Untersuchung. ENWU
= =
56.739 Mio. DM - 0.01 Mio. DM 56.729 Mio. DM
Die Untersuchung ist lohnend, da ENWU größer als der ursprünglich bei H] erwartete Ertrag von 56.0 Mio. DM ist.
2.5
Hinweise zum praktischen Einsatz der Bayes-Analyse
Abschließend soll noch auf einige praktische Gesichtspunkte beim Einsatz der Bayes-Analyse eingegangen werden. —
Anwendungsbereich Der Anwendungsbereich der Bayes-Analyse für InformationsbeschaffungsEntscheidungen geht natürlich über die beiden im Beispiel dargestellten Situationen weit hinaus. Zunächst ist die Möglichkeit zu nennen, an Hand des erwarteten Netto-Ertrages mit Untersuchung (ENWU) nicht nur zu entscheiden, ob man zusätzliche Informationen beschafft oder nicht, sondern auch unterschiedliche Informationsmöglichkeiten zu vergleichen und sich dann für diejenige, die mit dem höchsten ENWU verbunden ist, zu entscheiden. Im Zusammenhang dieses Buches, in dem es um „handliche" Methoden der Informationsbeschaffung gehen soll, erscheint der Einsatz der PosteriorAnalyse zur Verknüpfung der Ergebnisse aufeinanderfolgender Untersuchungen als wichtig. Hier sei nur an die Situation gedacht, daß man selbst eine kleinere Untersuchung durchführt, deren Ergebnisse natürlich durch eine anschließende größere Erhebung nicht völlig irrelevant werden. Die Anwendung der Bayes-Analyse auf preispolitische Entscheidungen kann an dieser Stelle nur erwähnt werden (siehe Green, 1963). Neben der Ermittlung der bedingten Wahrscheinlichkeiten P(TklZj) durch subjektive Schätzungen oder mit Hilfe der Binomialverteilung ist natürlich auch die Verwendung anderer (andere Verhältnisse beschreibender) Wahrscheinlichkeitsverteilungen möglich. Eine Behandlung dieser Möglichkeiten ist hier aus Raumgründen nicht möglich. Es muß deshalb auf die im Anhang aufgeführte Literatur verwiesen werden.
— Genauigkeit der Ergebnisse In dem an Hand der Beispiele dargestellten Rechenvorgang sind — insbesondere durch die Diskretisierung (Betrachtung einzelner Werte an Stelle von Intervallen) der möglichen Umweltzustände und Untersuchungsergebnisse —
2. Informationsbeschaffung als Entscheidungsgegenstand
65
einige Vereinfachungen eingeflossen, die natürlich die Genauigkeit der Ergebnisse beeinträchtigen. Diese Ungenauigkeiten lassen sich durch differenzierte Angaben, d.h. eine größere Zahl möglicher Umweltzustände und Untersuchungsergebnisse, verringern. Dabei muß aber darauf geachtet werden, daß man nicht durch übertrieben differenzierte Angaben eine Genauigkeit vortäuscht, die den durch sonstige Faktoren (z.B. Kalkulationen) einfließenden Fehlern nicht entspricht. Einer zu weit getriebenen Differenzierung der Input-Daten sind ohnehin durch den entsprechend steigenden Rechenaufwand und die begrenzte Genauigkeit subjektiver Schätzungen Grenzen gesetzt. Eine weitere Ungenauigkeit entsteht in den bisher diskutierten Fällen dadurch, daß zeitliche Faktoren unberücksichtigt bleiben. In der Praxis wird es aber häufig zu beachtlich unterschiedlichen Deckungsbeiträgen führen, wenn man eine Maßnahme nicht sofort ergreift, sondern erst ein Untersuchungsergebnis abwartet. Gegebenenfalls kann diese Differenz den Untersuchungskosten zugerechnet werden. —
Rechenaufwand Bei den betrachteten kleinen Beispielen war der Rechenaufwand schon recht beträchtlich. Andererseits rechtfertigen die bei Marktforschungsentscheidungen auf dem Spiel stehenden Beträge schon einigen analytischen Aufwand. In den Beispielen ist aus Gründen der Anschaulichkeit jeweils mit der Matrix der Werte der Handlungsalternativen (vgl. Abschnitt 2.2) gerechnet worden. Eine Verwendung der Matrix der Opportunitätskosten, die ja zu entsprechenden Ergebnissen führt, bringt schon Rechenerleichterungen, da diese Matrix kleinere Werte, in mindestens j (Anzahl der Umweltzustände) Fällen den Wert Null enthält. Daneben ist an die zahlreichen Computer-Installationen zu denken, die es erlauben, Programme in APL oder auch in BASIC zu erstellen; beides Prorammiersprachen, die gerade im Hinblick auf die für die Bayes-Analyse wichtigen Matrix-Operationen sehr komfortabel sind. In vielen Fällen wird aber schon ein gehobener Taschenrechner für eine derartige Analyse ausreichen.
— Subjektive Schätzungen Subjektive Schätzungen spielen in vielen Fällen, nicht nur wenn keine geeignete Verteilung für die bedingten Wahrscheinlichkeiten P(TklZj) vorliegt, innerhalb der Bayes-Analyse eine zentrale Rolle. Sie sind dabei keine „Notlösung" an Stelle von „objektiven" Daten („harten" Daten), sie sind vielmehr ein Mittel, um das Erfahrungspotential des Managers in eine derartig formale Analyse einfließen zu lassen. Allerdings bedarf es häufig spezieller Techniken, um von Praktikern, die mit der Wahrscheinlichkeitstheorie weniger vertraut sind, derartige Schätzungen zu erhalten. Dazu muß wieder auf die einschlägige Literatur (insbesondere Hampton u.a. 1973; Kotler 1970 und
66
Datenerhebung Spetzler u.a. 1 9 7 5 ) verwiesen w e r d e n . Ein b e s o n d e r e s P r o b l e m k ö n n e n die S c h ä t z u n g e n der Wahrscheinlichkeiten P ( T k l Z j ) darstellen, da sie d o c h häufig als „aus der L u f t g e g r i f f e n " erscheinen. Es soll n ä m l i c h j e w e i l s unter der hypothetischen
Annahme
e i n e s b e s t i m m t e n U m w e l t z u s t a n d e s die Wahr-
scheinlichkeit für ein b e s t i m m t e s Testergebnis geschätzt w e r d e n . Der Praxis näherliegend ist natürlich die S c h l u ß w e i s e v o n e i n e m b e s t i m m t e n Untersuchungsergebnis auf e i n e n U m w e l t z u s t a n d . D e m e n t s p r e c h e n d ist es natürlich a u c h m ö g l i c h , P ( Z j | T k ) z u s c h ä t z e n . U m P(Tij |Zj) zu b e s t i m m e n , sind dann aber zusätzlich n o c h S c h ä t z u n g e n der Wahrscheinlichkeit für das A u f t r e t e n der v e r s c h i e d e n e n Untersuchungsergebnisse P ( T k ) n o t w e n d i g . Literaturempfehlungen Für eine tiefergehende und weiterreichende Behandlung der im vorliegenden Abschnitt skizzierten Verfahrensweisen: Enis, B. / Broome, C.: Marketing Decisions - A Bayesian Approach. New York 1971. Mag, W.: Entscheidung und Information. München 1977. Raiffa, H.: Einführung in die Entscheidungstheorie. München 1973. Schlaifer, R.: Introduction to Statistics for Business Decisions. New York u.a.O. 1961. Schlaifer, R.: Analysis of Decisions under Uncertainty. New York u.a.O. 1969. Praktische Erfahrungen beim Einsatz der Bayes-Analyse für Marketing-Probleme: Krautter, J.: Bayes'sche versus klassische Statistik im Marketing. In: Haedrich, G. (Hrsg.), Operationale Entscheidungshilfen für die Marketingplanung. Berlin/New York 1977. Newman, J.: Management Applications of Decision Theory. New York u.a.O. 1971. Einige wichtige Zeitschriften-Aufsätze zu dem behandelten Problemkreis sind gesammelt in: Cox, K., Enis, B. (Hrsg.): Readings in the Marketing Research Process. Pacific Palisades (Calif.) 1973. Day, R., Parsons, L. (Hrsg.): Marketing Models - Quantitative Applications. Scranton u.a.O. 1971. Tummala, V., Henshaw, R. (Hrsg.): Concepts and Applications of Modern Decision Models. East Lansing (Mich.) 1976.
3.
Sekundäranalyse
Wie bei jeder Planungsarbeit hängt auch bei der Marketing-Konzeptionsphase die Planungsqualität vom Umfang und von der Güte der zugrundeliegenden Informationen ab. Bekanntlich gibt es zwei Arten der Informationsgewinnung: Einmal kann der Planer auf vorhandene bzw. verfügbare bereits erhobene Informationen zurückgreifen; zum anderen besteht die Möglichkeit der Informationsbeschaffung durch die Anwendung von empirischen Befragungs- und Beobachtungstechniken. Die erste Art wird im allgemeinen als Sekundärforschung, die zweite Art als Primärforschung bezeichnet. Beide Forschungsarten schließen einander nicht aus, sondern ergänzen sich: Erst wenn alle Möglichkeiten der Beschaffung und Analyse sekundärstatistischen Datenmaterials ausgeschöpft sind, sollten zur Informationsgewinnung die — in der Regel weitaus zeit- und kostenaufwendigeren — Methoden der Primärforschung (mündliche und schriftliche Erhebungen, Telefoninterviews, Verbraucherexplorationen, experimentelle Befragungen, Pretests usw.) zum Einsatz kommen. Aber nicht nur aus Zeit- und Kostengründen empfiehlt sich eine derartige zweistufige Vorgehensweise; viele Sachverhalte lassen sich — zumindest im Rahmen der im Sinne dieses Buches operationalen Verfahren — nur durch sekundärstatistische Analysen untersuchen, andere dagegen nur durch die Anwendung primärer Marktforschungsmethoden. Hierzu zwei Beispiele: Für die Überprüfung alternativer Werbemittelentwürfe gibt es nur die Möglichkeit der Befragung oder Beobachtung; sekundärstatistische Analysen könnten nicht durchgeführt werden, weil hierfür relevantes Informationsmaterial fehlen würde. Andererseits lassen sich beispielsweise Marktanteile oder Absatztrends nur durch Methoden der Sekundärforschung (Analyse von Umsatzstatistiken, Nielsen-Daten o.ä.) ermitteln; Erhebungen mit geringem Stichprobenumfang würden nur außerordentlich unsichere Ergebnisse bringen, repräsentative Massenbefragungen wären für den Marketingpraktiker nicht mehr selbst durchführbar und wegen der hohen Kosten darüber hinaus auch in vielen Fällen höchst unwirtschaftlich. Aus diesen Gründen m u ß am Anfang jeglicher Planungstätigkeit die Beantwortung der folgenden Fragen stehen: —
Welche Informationen werden benötigt?
—
Wie umfassend und zuverlässig müssen diese Informationen sein?
—
Sind diese Informationen bereits vorhanden?
Nur wenn die letzte Fragestellung nach gründlicher Überprüfung verneint wird, ist es sinnvoll, die interessierenden Sachverhalte durch Methoden der Primärforschung zu untersuchen. Der weitaus größere Teil relevanter Marketinginfor-
68
Datenerhebung
mationen wird aber in den meisten Fällen vom Schreibtisch aus beschaffbar sein. (Im amerikanischen Sprachgebrauch hat sich für Sekundärforschung daher übrigens auch die recht treffende Bezeichnung „desk research" durchgesetzt.) Allerdings werden nicht immer die Möglichkeiten sekundärstatistischer Analysen erkannt und genutzt — nicht zuletzt wegen des in vielen Unternehmen noch recht unterentwickelten Informationssystems. Ohne nun den an späterer Stelle dargestellten Ausführungen zu operationalen Verfahren der statistischen Datenanalyse vorgreifen zu wollen, seien an dieser Stelle einige grundsätzliche Anmerkungen zu Möglichkeiten und Grenzen sekundärstatistischer Analysen erlaubt: Nur in seltenen Fällen sind die vorhandenen bzw. verfügbaren Sekundär-Informationen direkt als Planungs- und Entscheidungsgrundlagen verwendbar. Vielfach ist das Daten- und Informationsmaterial erst zu ordnen, zu gruppieren, zu aggregieren oder zu klassifizieren, um die ursprüngliche Datenfülle transparent machen zu können. Denn nicht nur jedes Zuwenig an Information kann zu Fehlentscheidungen führen, sondern auch jedes Zuviel. Erst aufbereitetes und zahlenmäßig, tabellarisch oder graphisch überschaubar dargestelltes Datenmaterial erlaubt sinnvolle Interpretationen und Analysen. Den eingangs erläuterten Fragestellungen sollten aus diesen Gründen zur sinnvollen Strukturierung des Informations-Beschaffungs- und -Verarbeitungsprozesses weitere Fragen hinzugefügt werden: —
Wie lassen sich die sekundärstatistischen Informationen zusammenfassen, ordnen oder klassifizieren?
—
Wie können die auf diese Weise aufbereiteten Informationen übersichtlich dargestellt werden?
—
Welche Interpretations- und Analysemöglichkeiten bieten sich an?
Gerade die letzte Fragestellung ist sehr sorgfältig zu beantworten. Beträgt beispielsweise das Nettoeinkommen einer Person A DM 1.000, einer Person B ebenfalls DM 1.000 und einer Person C DM 13.000, so beläuft sich das durchschnittliche Einkommen pro Person auf DM 5.000. Eine derartige Aussage wäre zwar statistisch formal einwandfrei, würde aber nichts zur Verdeutlichung der Einkommensstruktur beitragen — im Gegenteil. Mit Hilfe von statistischen Methoden errechnete Ergebnisse täuschen zudem manchmal eine unrealistische Genauigkeit vor, die leicht dazu führt, die ermittelten Resultate als „wahr" anzusehen. Es darf aber nicht vergessen werden, daß der den Verfahren zugrunde gelegte Informations-Input veraltet, nicht repräsentativ, fehlerbehaftet, subjektiv gefärbt, mit anderen Worten also höchst unzuverlässig sein kann.
3. Sekundäranalyse
3.1
69
Unternehmensexterne Informationsquellen
Entscheidende Grundlage für die erfolgreiche Verwendung sekundärstatistischen Materials ist die umfassende Kenntnis über die zahlreichen zur Verfügung stehenden unternehmensinternen und -externen Informationsquellen. Zwar ist es im Rahmen dieses Kapitels unmöglich, sämtliche für die Marketingplanung relevanten Quellen aufzuzählen; einige Hinweise sollen jedoch die Suche nach geeigneten Materialquellen erleichtern helfen. (Es sei an dieser Stelle auf das „Jahrbuch des Marketing" - Hrsg. Klaus M. Schöttle, Vulkan-Verlag Dr. W. Classen, Essen verwiesen. In diesem Buch, das leider nicht regelmäßig in einer aktualisierten Ausgabe erscheint, sind für den absatzwirtschaftlichen Planungs- und Entscheidungsprozeß relevante externe Informationsquellen systematisiert und übersichtlich verzeichnet.) Notwendig bleibt in jedem Falle das regelmäßige, aufmerksame Lesen von Fachzeitschriften, Wirtschaftszeitungen, Bücherprospekten, Anzeigen von Verlagen und Instituten, Branchen-Informationsdiensten usw., in denen sehr häufig als Informationsquellen geeignete Nachschlagewerke, Handbücher, Institutsberichte, Statistiken, Kataloge oder Marktübersichten erwähnt werden. Es kostet nicht viel Zeit, derartige Hinweise karteimäßig zu erfassen und — zusammen mit redaktionellen Veröffentlichungen über gesamtwirtschaftliche und branchenspezifische Entwicklungen — zu archivieren. Im Bedarfsfall stehen auf diese Weise Informationen direkt zur Verfügung, außerdem kann relevantes Material gezielt angefordert werden. Darüber hinaus sollten einige statistische „Standardpublikationen" jederzeit verfügbar sein: In erster Linie sind hier das „Statistische Jahrbuch ßr die Bundesrepublik Deutschland" oder die jeweils relevanten Fachserien des Statistischen Bundesamtes zu nennen. (Vom W. Kohlhammer Verlag, Postfach 800430, 7 Stuttgart 80, kann das regelmäßig erscheinende „Veröffentlichungsverzeichnis des Statistischen Bundesamtes" bezogen werden, das einen Überblick über die herausgegebenen Publikationen vermittelt.) Als Ergänzung zu den amtlichen Statistiken empfiehlt es sich, die im Verlag Weltarchiv GmbH, Neuer Jungfernstieg 21, 2 Hamburg 36, erschienenen „Quellen ßr statistische Marktdaten - Führer durch die amtliche Statistik der Bundesrepublik Deutschland" zu Rate zu ziehen. Übrigens können beim Statistischen Bundesamt, bei den Statistischen Landes-, Kreis-und Gemeindeämtern detaillierte Informationen auch mündlich oder schriftlich eingeholt werden. Auch von einigen privaten wirtschaftswissenschaftlichen Institutionen werden nützliche Jahrbücher und Broschüren mit ökonomischen und soziologischen Zahlen und Fakten herausgegeben, die — zumindest sehr häufig — noch den Vorteil besitzen, lesefreundlicher als die amtlichen Statistiken zu sein. Als Beispiele für die Vielzahl der Veröffentlichungen dieser Forschungseinrichtungen seien hier einige Publikationen des Münchener Ifo-Instituts ßr Wirtschaftsforschung e. V. (Postfach 860460, 8 München 86) genannt: Der „Ifo-Spiegel der Wirtschaft" gibt einen umfassenden Überblick über die wirtschaftliche Entwicklung in der Bun-
70
Datenerhebung
desrepublik Deutschland. Eine Reihe von internationalen Übersichten ergänzt dieses jährlich erscheinende Werk. Ausgewertet werden die Statistiken internationaler Behörden, des Statistischen Bundesamtes, von Verbänden und Instituten sowie die Ergebnisse der Ifo-Konjunktur- und Investitionserhebungen. In den „Ifo-Schriftenreihen" werden die Ergebnisse der Forschungen zu speziellen wirtschafts- und finanzpolitischen Fragen, zu Konjunkturprognosen für einzelne Branchen der Industrie, der Bau- und Wohnungswirtschaft, der Verkehrswirtschaft, der Landwirtschaft oder z.B. des Handels vorgestellt. Darüber hinaus gibt das Ifo-Institut eine Vielzahl von Veröffentlichungen zu strukturellen und regionalen Tendenzen, Planungs- und Entscheidungsproblemen, wirtschaftstheoretischen Entwicklungen usw. heraus. Ein Verzeichnis aller Publikationen kann direkt beim Ifo-Institut angefordert werden. In regelmäßiger Folge veröffentlichen die Wirtschaftsverbände, die Industrieund Handelskammern und einige Dienststellen der staatlichen und kommunalen Verwaltung (Bundesämter, Bundesbank, Kreditinstitute, Ministerien usw.) konjunkturpolitische und branchenspezifische Daten. Auch hier empfiehlt es sich, Detailinformationen direkt zu erfragen. Ein weiterer Weg zur Informationsbeschaffung ist die Inanspruchnahme der Dienste der Marketing-Service- oder Anzeigenabteilungen der großen Zeitungsund Zeitschriftenverlage, die in den meisten Fällen Archivmaterial oder spezielle Markt- und Branchenberichte Werbungtreibenden und Marketingmanagern zur Verfügung stellen. Aus den verlagseigenen Mediaanalysen (Reichweitenstudien, Imageuntersuchungen, Typologien usw.), die Interessenten in der Regel kostenlos zugeschickt bekommen, lassen sich darüber hinaus wertvolle Daten über Größe und Struktur einzelner Abnehmergruppen ablesen — Informationen, die ja nicht nur bei der Entwicklung der Mediakonzeption von Nutzen sind. So bietet beispielsweise der Verlag Gruner & Jahr (LeitungMarketing-Service, Postfach
302040, 2 Hamburg 36) Geschäftspartnern das sog. Schnellinformations-System MARIA an, ein Quellen-Lexikon für Branchen- und Zielgruppeninformationen, das laufend aktualisierte Materialsammlungen zu 47 Produktfeldern und 188 Produktgruppen umfaßt. Auch bei Fachzeitschriftenverlagen — wie z.B. dem Deutschen Fachverlag (6 Frankfurt/M., Schumannstraße 27) mit seiner Vielzahl fachspezifischer Publikationen — können Archivunterlagen oder spezielle Marktberichte nachgefragt werden. Von großer Bedeutung für die Informationsbeschaffung sind die Dienste, die private Spezialinstitute gegen Berechnung anbieten. Zwar sind die Kosten — auch für standardisierte Berichte — mitunter relativ hoch, doch dafür liefern diese Institutionen spezielle Informationen, die in den meisten Fällen ohne eigene Primärerhebungen ansonsten nicht verfügbar wären. Hier einige der für den Marketingplaner wichtigsten Institute:
3. Sekundäranalyse
71
-
A.C. Nielsen Company GmbH (Friedrich-Ebert-Anlage 2-14, 6 Frankfurt/M. 16): Herausgabe von Informationen über Marktbewegungen, Umsatz- und Distributionsanteile, Absatzentwicklungen und andere Kennzahlen, Daten und Informationen für Markenhersteller von Nahrungs- und Genußmitteln, Produkten der Haushaltspflege, Kosmetika, Pharmazeutika und anderer Produktbereiche.
-
Schmidt & Pohlmann - Gesellschaft für Werbestatistik (Heidenkampsweg 74, 2 Hamburg 1): Herausgabe von statistischen Informationen zur Werbeintensität und Mediapolitik für sämtliche Marken und Dienstleistungen, für die regionaloder überregional inden klassischen Medien geworben wird.
-
GfK - Gesellschaft für Konsum-, Markt- und Absatzforschung e. V. (Burgschmietstr. 2, 85 Nürnberg): Herausgabe von Informationen über Verbrauchsdaten, Kaufkraftentwicklungen, speziellen Handelsforschungs-Ergebnissen usw.
-
G + I (Forschungsgemeinschaft GfK und Infratest) in 85 Nürnberg (Burgschmietstr. 6): Herausgabe von Haushalts- und Verbraucherpanel-Daten, speziellen Handels- und Konsumforschungsergebnissen usw.
-
M-I-D - Marktinformationsdienst GmbH (Adlerstr. 34-40, 4Düsseldorf 1): Beschaffung und Bereitstellung sekundärstatistischer Daten, Informationen und Anzeigen. Schwerpunkt sind Materialsammlungen für die Bereiche: Absatzwirtschaft — Marketing — Werbung — PR und Verkaufsförderung. M-I-D kann ad hoc bei aktuellen Informationsproblemen (Einzelauftrag), aber auch kontinuierlich (Dauerauftrag) für gezielte Markt- und Anzeigenbeobachtungen genutzt werden.
Neben diesen — wohl bekanntesten — Instituten gibt es eine Vielzahl weiterer Forschungssstellen, die für die Marketingplanung außerordentlich wertvolle Dienste leisten. Es empfiehlt sich, bei den in Frage kommenden Einrichtungen Verzeichnisse über Serviceleistungen und Veröffentlichungen anzufordern; eine umfangreiche Liste mit den Anschriften findet sich im bereits erwähnten Jahrbuch des Marketing. Es sei daran erinnert, daß statistische Daten aus unternehmensexternen Informationsquellen in jedem Falle auf Methodik, Aktualität, Repräsentanz, Grad der Verallgemeinerung usw. kritisch zu untersuchen sind. Außerdem empfiehlt es sich, auch bei bereits „aufbereiteten" Informationen zu überprüfen, ob die ausgewiesenen Datenmeiigen nicht durch geeignete Analyse- und Darstellungsmöglichkeiten übersichtlicher zu gestalten sind. Die folgenden Abbildungen (entnommen aus J. Bidlingmaier: Marketing 1, Rowohlt Taschenbuch Verlag GmbH, Reinbek bei Hamburg, 1973) geben noch einmal einen Überblick über wichtige gesamtwirtschaftliche, branchenrelevante und firmenbezogene Informationen und verfugbare externe Informationsquellen.
72
Datenerhebung
Allgemeine Wirtschaftslage Arbeitsmarkt Auftragseingang
X
Auslandskonjunktur
X
X
X
X
X
X
X
X
X
X
X
X
X
Bauüberhang
X
X
X
X
X
X
X X
X
X
X
Erzeugerpreise X
Großhandelspreise
Importe
X
X X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
Preisentwicklung
X
X
X
X
X
X
X X X
X
X
Produktivität
X
X
X
X
X
Sozialprodukt
X
Spareinlagen
X
X
Steuern X
X
X
X
X
X
X
X
Umsätze
X
X
X
X
X
X X
X
X
X
Volkseinkommen
X
X
X
Volkswirt.Gesamliechnung
X
Währungsreserven X
X
X
X
X
X
X
X
Verbrauch
Zahlungsbilanz
X X
X
Lebenshaltungskosten
Mindestreserven
X
X
X
Leistungsbilanz (Außenhandel) Masseneinkommen
J
X
X
X
Investitionen Kapitalmarkt
X
X
X
Industrielle Produktion
X
X X
X
X
X
X
Haushaltswirtschaft, Bund Länder, Gemeinden
X
X
X
X
X
X
X
Einzelhandelspreise
Exporte
X X
Bevölkerungsstand Branchenkonjunktur
X
X X
X X
X
X
X
X
X
X
X
X
X
X
Beurteilung d. Wirtschaftslage
s
X
X
X
Beschäftigung
.s
Wirtschaftszeitschriftcn
| X
Baugenehmigungen
X
•C
| Wirtschaftswissensch. Institute
|
Die Weltwirtschaft (Institut für Weltwirtschaft, Kiel) [Wirtschaft u. Statistik (St.BA.)
|
| Tageszeitungen
| Statist. Jahrbuch (St.BA.)
| | I Preis- und Lohnstatistik (St.BA.)
1 Produktionsstatistik (St.BA.)
|
| | Meinungsforschungsinstitute
X
X
X
1
X
X
X X
Bargeldumlauf
X X
X
Bankeinlagen
X
Industriebericht (St.BA.)
«2
| Jahresschlußbericht d. Firmen
c c«
| 1 | .2
[ Ifo-Wirtschaftsbilder [Ifo-Wirtschaftskonjunktur | (z.T. graph.Darstellungen)
|
N.
|
Informationsart
| Handelsstatistik (St.BA.)
lnformationsquellen
Baustatistik (St.BA.) Bundesbank-Berichte (Monats-, Jahresbericht) Bundesverband der deutschen Industrie-Mitteilungen
N.
| Finanzstatistik (St.BA.)
X
Gesamtwirtschaft bezogene Informationen
Bundesminister für Wirtschaft Die wirtschafte Lage in der BRD (mtl. u. viertelj., z.T. graph.Darstcll.)
| 1 Außenhandclsstat. (St.BA)
X
\ 1 |
| , Auftragseingangsstal. (St.BA.)
Übersicht 3.1.: Gesamtwirtschaftliche Informationen und Informationsquellen
X
X X
X
73
3. Sekundäranalyse
X X
X
X
X
X
X
X
X
X
X
X
X
!
| Umsatz
X
X
X
X
X
X
X
X
X
E r h e b u n g e n über nichtdeutsche Arbeitnehmer (St.BA.)
X
X
Erzeugerpreise industrieller Produkte, Index der (St.BA.)
X
Erzeuger- u. G r o ß h a n d e l s v e r kaufspreise d. Inlandes (St.BA.)
X
F a c h d o k u m e n t a t i o n (vorwiegend technisch)
X X
Firmenberichte
X
X X
X
X
Großhandelsstatistik (St.BA.)
X
Handelskammerberichte und -in f o r m a t i o n o n
X
X
X
X
X
X
X
X
X
X
\
X
X X
X
Industriebericht (St.BA.)
X
X
Kapitalgesellschaften, Statistik der (St.BA.)
X
X
X
Preis- u . L o h n s t a t i s t i k ( S t . B A . )
X
X
Produktions-Eilbericht, mtl. (St.BA.)
X
P r o d u k t i o n s e r h e b u n g , vierteljährlich (St.BA.)
X
Tageszeitungen
X
X
X
Umsatzsteuerstatistik (St.BA.)
X
X
X X
X
X X
X
X
X
X
X
X X
X
X
X
X
X
X X
Vcrflechtungs-Kataloge ( H o p p e n s t e d t Vlg., Darmstadt)
X
X
X
X
X
X
X
X
X X
X
Werbeaufwand-Erhebung von Schmidt & Pohlmann, Hamburg
X
Wirtschaftskonjunktur, Berichte des Ifo-Instituts
Zolltarif
Werbung
I
1
X
X X
Bundeswirtschaftsministerium Berichte
Zeitschriften „Wirtschaft u n d Statistik" (St.BA.)
: 0 N
X
Bundesbank-Monatsberichte
Verbandsstatistik
io >
X
X
Bundesstellc für Außenhandelsinformation (BfA)
Verbandsberichte
Regionale S c h w e r p u n k t e
X
X
X
Bundesverband der Deutschen Industrie-Mitteilungen
Fachpresse (redaktionell)
Produktionsprogramme
I
1 Produktion
J -O j
Löhne u. Gehälter
c
uo
Offene Stollen
|
1
1
1 Investitionen
Inlandsumsatz
•a
X
Bezugsquellennachweis, Einkau fsführer Branchen-Monographien
co
X X
X
Importe
X
(St.BA.)
Beschäftigungsstatistik (St.BA.)
o o. X ilJ
Großhandel
tJ c Erzeugerpreise
I
1
Informationsquellen
X
Aus- u n d Einfuhrpreise Statistik d e r (St.BA.) Außenhandelsstatistik
Einkaufspreise für Auslandsgüter, Index
I Branchenkonjunktur
A d r e ß b ü c h e r , F i r m e n - u. Branchcnhandbücher A u f t r a g s e i n g a n g in d e r I n d u s t r i e , Statistik über d e n (St.BA.)
Branchenstruktur
[
] Beschäftigte (Arb.u.Angest.)
1
J
Auftragseingang
Informationsquellen
I Arbeitslose
Informationsart
Absatzlage
\
Absatzförderung
BRANCHEN-bczogene Informationen
Arbeitsstunden
1
1
Übersicht 3.2.: Brancheninformationen und
X X
X
X X
X
X X
X
X X
74
Datenerhebung
|
|
Übersicht 3.3.: Firmenbezogene Informationen und externe Informationsquellen
Informationsart
3
x. n.
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
f
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
'e
• St
X
X
X X
X
X
c 1
1
;
i 1 X
X
X
X X
X X
X
X
X
X
Finanzierung
X
X X
X
Export
X
X
X X
X
X X
Auslandsniederlassungen
X
X
Auftragslage
Branchenzugehörigkeit
X
5 3
Tapszeitungen (Anzeigen und
Informationsquellen
Messen und Ausstellungen
n.
Kataloge und Preislisten
n.
(Anzeigèn C u nf redakt. Texte)
l'IRMEN-bezogenc Informationen
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
Gewinn
X
X
X
X
X
Investitionen
X
X
X
X
X
G e s c h ä f t s leitung
X
Jahresabschluß
X
X
Kapitalstruktur
X
Konkurrenz
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X X
X
Lieferbedingungen
X
X
Liquiditätsstatus
X
X
X
Marktstellung
X
Preise
X
Produktion (Ausstoß) Produktionsprogramm
X
X
Rechtsform
X
X
Umsatz
X
x
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
X
X
X
X
Werbung
X
X
X
X
X
X
X X
Verkaufsbüros Vermögensstruktur
X
X
X
x
X
Verbandszugehörigkeit Verflechtungen
X
X
X
X
X
X
X
X X
X
X
X
X
X
X X
X
X X
X
\
X
X
X
X
X
\
3. Sekundäranalyse
3.2
75
Unternehmensinterne Informationsquellen
Ebenso bedeutungsvoll wie die externen Informationsbeschaffungsmöglichkeiten für Sekundäranalysen sind die — leider nur allzu oft vernachlässigten — unternehmensinternen Informationsquellen. Insbesondere die innerbetriebliche Produktions- und Absatzstatistik, das Rechnungswesen, der Außendienst und die Forschungs- und Entwicklungsabteilung sind für die Konzeptionsplanung unentbehrliche Informationslieferanten. Je besser das innerbetriebliche Kommunikations- und Dokumentationswesen organisiert ist, desto leichter fällt auch der Zugriff nicht nur auf generelle Grundinformationen, sondern auch auf problemspezifische Detaildaten. Der Marketingplaner sollte deshalb seinen Einfluß geltend machen, daß sich die entsprechenden Abteilungen auch als Service-Institutionen — also als Datenlieferanten mit Informationspflichten — verstehen; eine Aufgabe, die in den meisten Fällen allerdings nur mittel- oder langfristig zu lösen sein dürfte. Im Mittelpunkt innerbetrieblicher Analysen für die Marketingkonzeptionsplanung steht der Absatzbereich; übersichtlich aufbereitete statistische Daten über Abnehmergruppen, Auftragsgrößen, Distributionsorgane und -kanäle, Absatzregionen, Absatzkosten, Deckungsbeiträge usw. sind aus diesem Grunde unabdingbare Grundlagen für marketingpolitische Planungen und Entscheidungen. Zu ergänzen sind diese Daten u.a. durch ein standardisiertes Berichtswesen, durch das dem Marketingplaner beispielsweise Informationen des Außendienstes über Verkaufsgespräche, Messe- und Ausstellungsverläufe, Konkurrenzsituationen usw. schnell und präzise zugänglich gemacht werden.
3.3
Sozialwissenschaftliche Informationsquellen
Genau wie bei der Marketingplanung ist auch in der Sozialforschung im Rahmen der Konzeptionsphase vor der Inangriffnahme von Primärerhebungen sorgfältig zu prüfen, ob und wo relevante Informationen für eine Sekundäranalyse vorhanden sind. Die große Zahl der als Datenlieferanten in Frage kommenden Institutionen erschwert allerdings diese Aufgabe beträchtlich. Hinzu kommt, daß es sich hier vielfach um privatwirtschaftliche Forschungsinstitute handelt, die ihre im Auftrag erstellten Untersuchungen Dritten nicht zugänglich machen dürfen. Ein Ausweg aus diesen Schwierigkeiten besteht in der Inanspruchnahme sog. Archive für Umfrageforschung, die — über die Durchführung von „Umfragen über Umfragen" — die deutsche und z.T. auch ausländische Datenproduktion beobachten, gegebenenfalls archivieren und Interessenten für ihre Sekundäranalysen meist gegen Benutzungsentgelt zur Verfugung stellen. Eines der ältesten Umfrage-
76
Datenerhebung
archive dieser Art ist das Zentralarchiv fiir empirische Sozialforschung (ZA) der Universität Köln (Bachemer Str. 40, 5 Köln 41), das über einen Bestand von ca. 2.000 zur Benutzung freigegebenen archivierten Untersuchungen sozialwissenschaftlicher Art verfugt. Das ZA gibt jährlich die Dokumentation „Empirische Sozialforschung" (mit der Liste der archivierten Untersuchungen) und darüber hinaus kontinuierlich Soziologie-Literaturdokumentationen heraus. Von großer Bedeutung für den Sozialforscher sind auch die Dienste des Informationszentrums Sozialwissenschaften (Lennéstr. 30, 53 Bonn 1), das sich als eine „zentrale Clearingstelle zur Informationsvermittlung zwischen Forschern sowie zwischen Wissenschaft und Praxis" versteht. Im Rahmen einer Dokumentationsreihe veröffentlicht diese Einrichtung der Arbeitsgemeinschaft sozialwissenschaftlicher Institute e.V. jährlich ein Verzeichnis über Forschungs- und Entwicklungsarbeiten aus allen Bereichen der Sozialwissenschaften bzw. aus anderen Fachdisziplinen mit sozialwissenschaftlichem Bezug wie z.B. aus den Gebieten: — Soziologie — Politikwissenschaft, Politik — Kommunikationswissenschaft, Publizistik — Psychologie — Sozialpolitik — Arbeitsmarkt- und Berufsforschung — Historische Sozialforschung — Erziehungswissenschaft
— Bildungsforschung — Wirtschaftswissenschaften — Stadt- und Regionalforschung - Rechtswissenschaften — Arbeitswissenschaft und -schütz — Umweltforschung - Medizin - Verkehrswesen
Außerdem steht ein individueller Auskunftsdienst auf der Basis eines EDV-Informationssystems zur Verfügung. Da mit ca. 30 Informationseinrichtungen, Dokumentationszentren, Bundesanstalten, Arbeitskreisen, Forschungsinstituten usw. Kooperationsabkommen getroffen wurden, empfiehlt es sich in jedem Falle, eine Broschüre mit dem Dienstleistungsangebot des Informationszentrums Sozialwissenschaften anzufordern, um unnötige Doppelanfragen zu vermeiden. Selbstverständlich können auch an die Informations- und Presseabteilungen der jeweils in Frage kommenden Ministerien, Behörden, Ämter, Verbände usw., die zum großen Teil über gut ausgebaute Datenbanken verfugen, Anfragen gerichtet werden. Hier sei deshalb noch einmal auf die Ausführungen im Abschnitt über unternehmensexterne Informationsquellen verwiesen, insbesondere auf das auch für den Sozialforscher interessante Jahrbuch des Marketing und auf die Bedeutung des Statistischen Bundesamtes sowie der statistischen Landes- und Gemeindeämter für die Sekundärforschung. Auch die bereits erwähnte M-I-D GmbH kann zur Beantwortung sozialwissenschaftlicher Fragestellungen herangezogen werden. Aus der großen Breite der von der M-I-D GmbH regelmäßig beobachte-
3. Sekundäranalyse
77
ten und archivierten Publikationen werden Veröffentlichungen zu den jeweils interessierenden Themenkreisen selektiert und auf Abruf „maßgeschneidert" geliefert.
3.4
Vorbereitung und Durchführung sekundärstatistischer Analysen
Voraussetzung für den Erfolg marketingpolitischer Maßnahmen ist die genaue Kenntnis der Strukturen und Tendenzen des Marktes, auf dem ein Unternehmen tätig sein will. Jeder Marketingplanung muß aus diesem Grunde die umfassende Analyse der Marktsituation und der voraussichtlichen Entwicklungen vorangehen. Ein großer Teil des dazu notwendigen Informationsbedarfs kann durch bereits vorhandene bzw. verfügbare Informationen, die aber vielfach noch statistisch „aufzubereiten" sind, gedeckt werden. Die Möglichkeiten der Informationsbeschaffung sind nun allerdings so außerordentlich groß, daß ungezieltes, planloses Suchen und Sammeln von Informationen eher zur Verwirrung als zur Aufklärung über Marktstrukturen fuhren dürfte. Zweckmäßigerweise sollte deshalb ein „Informationsprogramm" entwickelt werden, in dem zusammengestellt ist, welche Informationen für bestimmte Analyse-, Prognose- und Planungsaufgaben notwendig und woher die erforderlichen Informationen zu bekommen sind. Besonders geeignet zur Strukturierung des Informationsbedarfs sind Checklisten; sie erleichtern es, Informationen systematisch und lückenlos zusammenzutragen und regen zu weiterführenden Fragestellungen an. Die vorangegangenen Ausführungen haben bereits deutlich gemacht, daß sekundärstatistische Verfahren durchaus nicht nur bei der Marktdiagnose und -prognose bzw. bei der Marketing-Globalplanung eingesetzt werden können, sondern auch bei der Konzipierung und Überprüfung taktischer Maßnahmen innerhalb der Detailplanung. Die Notwendigkeit der Strukturierung des Planungsprozesses in einzelne Phasen mit zahlreichen Rückkoppelungen zwingt zur permanenten Informationsbeschaffung: In jeder Planungsstufe sind unternehmensinterne und -externe Daten zu sammeln, aufzubereiten und zu analysieren, um das Risiko von Fehlentscheidungen so gering wie möglich halten zu können. Die Informationsgewinnung darf deshalb nicht als ein einmaliger, in sich geschlossener Vorgang betrachtet werden, sondern als integraler Bestandteil jeglicher Planungsarbeit. Hier werden noch einmal die Bedeutung eines gut ausgebauten Berichtsund Informationswesens und die Kenntnis statistischer Auswertungs- und Darstellungsmethoden für die Planungsqualität und damit für den Marketingerfolg sichtbar. Allerdings sollte die Zweckmäßigkeit der Einrichtung oder des Ausbaus eines unternehmenseigenen Informations-Pools (mit externen Daten und Fakten) auch unter Kostengesichtspunkten betrachtet werden. Viele Unter-
78
Datenerhebung
nehmen und Agenturen sind deshalb dazu übergegangen, auf ein umfangreiches eigenes Archiv — das von einem oder mehreren Mitarbeitern betreut werden müßte — zu verzichten; im Bedarfsfalle werden Datenpakete von kommerziellen Informationsdiensten gegen Entgelt gezielt bezogen. Die hauseigene Dokumentationsabteilung dient in diesen Fällen nur noch der Sammlung unternehmensinterner Daten sowie der Archivierung und Verteilung von Standardinformationen. Literaturempfehlungen Die in den Literaturempfehlungen zu Kapitel 1 genannten Marketing-Werke befassen sich auch mit der Sekundäranalyse. Ausführlicher als in diesen Büchern werden Probleme, Methoden und Quellen der Sekundärforschung behandelt bei: Hüttner, M.: Grundzüge der Marktforschung. Wiesbaden 1977. An dieser Stelle sei auch noch einmal auf die bereits im Kapitel 3 genannten Werke und Broschüren verwiesen.
4.
4.1
Gruppendiskussion
Anlage von Gruppendiskussionen
Grundsätzlich dienen Verfahren der Gruppendiskussion in erster Linie der Gewinnung von Konzeptionsansätzen. Dafür sind zwei Tatbestände maßgebend: Zusammensetzung und Größe der Gruppen lassen im allgemeinen keine Aussage zu, die den Anforderungen an die Genauigkeit von Erhebungsergebnissen im Stadium der Konzeptionsüberprüfung entsprechen würden. Vielmehr ist es oft Ziel dieser Verfahren, durch Einsatz von Primär-Erhebungen im Zusammenhang mit einem bestimmten Untersuchungsgegenstand erstmalig eine Orientierungshilfe an die Hand zu bekommen, z.B. nachdem ein Marktsegment durch die Aufbereitung von Sekundär-Material aus den verschiedensten unternehmensinternen und -externen Quellen beleuchtet worden ist. Hinweise sollen gefunden werden, die das Problem strukturieren helfen, den Planer bei der Konzeptionssuche unterstützen und die seine Aufmerksamkeit auf Überlegungen hinlenken, deren weitere Verfolgung zweckmäßig sein könnte. Wichtig ist es, daß gleichzeitig Denkanstöße, die intuitiv gefunden bzw. aus dem Sekundärmaterial abgeleitet worden sind, in diesen Untersuchungsschritt mit einfließen, beispielsweise um festzustellen, wie der Markt darauf reagiert. Intuition ist oft das Ergebnis von Wissen und langjähriger Erfahrung, verbunden mit kreativen Ideen, und es m u ß sichergestellt sein, daß dieses Potential des Praktikers so weit wie möglich ausgeschöpft wird. Was die Gruppengröße betrifft, so schließen Gruppendiskussionen im allgemeinen 6 bis 10 Probanden ein. Einerseits hat sich gezeigt, daß die Zahl von 10 Teilnehmern für den Forschungsleiter meist gerade noch überschaubar ist, auf der anderen Seite ist eine Mindestgröße der Gruppe von 6 Personen o f t notwendig, um noch aussagekräftige Ergebnisse zu erhalten. Allerdings darf die Verläßlichkeit der Ergebnisse wegen der generell geringen Fallzahlen und des Ablaufs der Diskussionen in keinem Falle überbewertet werden. Hinsichtlich der Gruppenstruktur ist festzuhalten, daß Repräsentanz für eine bestimmte Zielgruppe im allgemeinen weder realisiert werden kann noch soll. Dieser Aspekt berührt oftmals die Schwierigkeit, eine Diskussionsgruppe so zusammenzusetzen, daß Personen mit allen für die betreffende Grundgesamtheit ausschlaggebenden Verhaltenskriterien repräsentativ in der Gruppe vertreten sind. Das verhindert zum einen meist die relativ geringe Gruppengröße; oft sind für die repräsentative Zielgruppenauswahl zahlreiche Abgrenzungsmerkmale auf unterschiedlichen Ebenen heranzuziehen, von denen nur einige wichtige bei der
80
Datenerhebung
Auswahl der Probanden berücksichtigt werden können. Außerdem sind erfahrungsgemäß nur besonders kontaktfreudige Personen dazu bereit, sich in einer Gruppe offen über ihr Kauf- bzw. Konsumverhalten zu artikulieren, und vorwiegend Probanden aus mittleren bzw. höheren Sozialschichten sind dazu in der Lage, ergiebige Diskussionsbeiträge zu liefern. Noch schwieriger ist die Veranstaltung von Gruppendiskussionen mit Experten, beispielsweise auf Absatzmittlerebene, die nicht ohne weiteres dazu bereit sind, mit Personen auf derselben Erfahrungsebene zu diskutieren. Deshalb finden bei der Entwicklung von Konzeptionsansätzen weitaus häufiger Gruppendiskussionen mit Verbrauchern als mit Handelspartnern statt. Der Gesichtspunkt der bewußten Hereinnahme von „typischen" Testpersonen beruht andererseits auf der Überlegung, daß in dieser ersten Phase der Sammlung von Konzeptionsansätzen vor allem Probanden von Bedeutung sein werden, die sich durch ihr ausgeprägt positives bzw. negatives Verhalten im Hinblick auf den Untersuchungsgegenstand von der übrigen Bevölkerung abheben. Wenn beispielsweise Ansätze zur Positionierung eines neuen Produktes in einem bestimmten Marktsegment gesucht werden, ist es o f t zweckmäßig, in die Gruppendiskussion einerseits intensive Käufer und Benutzer der Produktgattung, auf der anderen Seite Nicht-Konsumenten einzubeziehen, da davon auszugehen ist, daß beide Gruppen positive oder negative Haltungen besonders deutlich artikulieren werden. Nicht-Konsumenten können wichtige Argumente liefern, die als Konzeptionsansätze in die Planung des neuen Produktes eingehen, zumal dann, wenn sie als potentielle Käufer bzw. Verbraucher in Betracht kommen. Man spricht davon, daß als Probanden am ehesten solche Personen geeignet sind, die durch ihre „typischen" Verhaltensweisen eine positive bzw. negative „Polarisierung" in die Diskussionsgruppe hineinbringen. Generell sind Gruppendiskussionen für die Überprüfung von Konzeptionsansätzen wenig geeignet; dagegen stellen sie ein unentbehrliches, relativ leicht handhabbares und häufig verwendetes Forschungsinstrument im Stadium der Konzeptionsgewinnung dar. Oft wird versucht, die Aussagekraft von Gruppendiskussionen zu erhöhen, indem parallel bzw. nacheinander mehrere Gruppen befragt werden. Damit werden im allgemeinen drei Forschungsziele verfolgt: (1) U.U. ist es zweckmäßig, Personen mit extrem positiven bzw. negativen Verhaltensweisen zu einem bestimmten Untersuchungsgegenstand nicht in einer Gruppe zusammenzufassen, sondern in zwei oder mehrere separate Gruppen aufzuteilen. Dadurch soll verhindert werden, daß es durch gruppendynamische Einflüsse u.U. zu einer „Einpendelung" der Gruppenmeinung auf ein mittleres Verhaltensniveau k o m m t bzw. daß positive oder aber auch negative Ausrichtungen des Verhaltens dominieren, je nachdem, wie sich der Polarisierungsprozeß in der Gruppe abspielt. In diesem Zusammenhang ist es dann u.U. notwendig, den Erhebungsleitfaden hinsichtlich bestimmter Fragen
4. Gruppendiskussion
81
zu variieren, um unterschiedlichen Verhaltensausprägungen Rechnung tragen zu können. (2) Parallel durchgeführte bzw. aufeinanderfolgende Gruppendiskussionen — z.B. in verschiedenen regionalen Bereichen — sollen dazu beitragen, die Forschungsbasis zu verbreitern. Eine derartige Anlage wird daher beispielsweise bei Untersuchungsgegenständen eingesetzt, die regional streuen können. (3) Werden mehrere Gruppendiskussionen mit unterschiedlichen Forschungsleitern parallel oder aufeinanderfolgend durchgeführt, dann sollen systematische Fehler eingegrenzt werden, die u.a. durch unterschiedliche Akzentsetzung in den Diskussionen und durch verschiedene Erfahrungshintergründe der Forschungsleiter Zustandekommen können. Diese Anlage entspricht oberflächlich betrachtet der experimentellen Versuchsanordnung mit verschiedenen Gruppen; allerdings sind die Gruppen u.a. in ihrer Struktur nicht streng vergleichbar, unterschiedliche Zeitpunkte und Orte der Durchfuhrung der Erhebungen können bei der Ergebnisermittlung eine Rolle spielen, und es fehlt außerdem die Bezugsmöglichkeit auf eine gültige Meßbasis (Kontrollgruppe). Auf diese Weise nimmt zwar die Aussagekraft bei übereinstimmenden Befunden aus mehreren Gruppendiskussionen „gefühlsmäßig" zu, ohne daß jedoch im strengen Sinne Schlußfolgerungen auf die Verläßlichkeit des Erhebungsinstrumentariums gezogen werden dürfen. Allerdings bedeutet das wiederholte Antreffen wichtiger konzeptioneller Ansätze durch zwei oder mehrere parallel bzw. nacheinander durchgeführte Gruppendiskussionen in dieser frühen Planungsphase bereits eine deutliche Risikoeingrenzung und bietet in der Praxis eine wesentlich verbesserte Basis für die anschließenden Planungsschritte.
4.2
Beispiele für die Durchfuhrung von Gruppendiskussionen
An dieser Stelle sollen einige grundsätzliche Ausführungen über die zweckmäßige Durchführung von Gruppendiskussionen folgen. Der Erhebungsleitfaden sollte auf jeden Fall strukturiert sein, d.h. er sollte mindestens einen kompletten und detaillierten Katalog der Untersuchungsthematik enthalten um sicherzustellen, daß alle wichtigen Problembereiche aus der Sicht des Unternehmens und des Marktes angesprochen werden. Relevante Diskussionspunkte ergeben sich einerseits aus der Analyse von Sekundärmaterial, zum anderen aus bereits vorhandenen intuitiv formulierten Konzeptionsideen; unbedingt ist darauf zu achten — und gegen diese Forderung wird o f t in der Praxis verstoßen —, daß das Konkurrenzumfeld in die Untersuchung einbezogen wird. Außerdem sollte die Reihen-
82
Datenerhebung
folge der U n t e r s u c h u n g s t h e m e n
g r o b festgelegt sein, u m eine
unerwünschte
B e e i n f l u s s u n g der e i n z e l n e n P r o b l e m b e r e i c h e v o n v o r n h e r e i n a u s z u s c h a l t e n . Ü b e r s i c h t 4 . 1 . zeigt e i n e n A u s z u g aus d e m h a l b s t r u k t u r i e r t e n F r a g e b o g e n für z w e i in u n t e r s c h i e d l i c h e n G e b i e t e n u n d d u r c h v e r s c h i e d e n e parallel
durchgeführte
Gruppendiskussionen
Forschungsleiter
im M a r k t s e g m e n t
Französischer
Weichkäse.
Übersicht 4.1. Auszug aus dem Erhebungsleitfaden ment Französischer Weichkäse
für Gruppendiskussionen
im Marktseg-
(1)
Gesichtspunkte beim Kauf/Verbrauch, Ablauf der Kaufentscheidung; u.a. - Geschmack - Sorte / Sortenwechsel - Marke - Fettgehalt - Ausstattung der Packung - Haltbarkeit, Aussehen, Reifezustand - Preislage - Packungsgrößen / Packungsarten - Für den täglichen Konsum / zu besonderen Anlässen - Viel Werbung / wenig Werbung
(2)
Packungen von französischem Weichkäse zeigen und einstufen lassen; u.a. nach - Käseart (Camembert / französische Spezialität / Weichkäse / Brie; besonders auf Differenzierungsmöglichkeit zwischen französischem Camembert / deutschem Camembert achten) - geschätztem Packungsinhalt (für jede Packung einzeln) - Preisvorstellung (für jede Packung einzeln) - Preis im Verhältnis zur Packungsgröße
(3)
Unterschiede zwischen einzelnen Produkten, nach den Gesichtspunkten bei 1. erfassen.
(4)
Lagerung im Haushalt; u.a. - generell bei Käse - bei Weichkäse (Unterschiede zwischen Marken bzw. Sorten festhalten)
(5)
Einkauf / Konsum / Konsumanlässe; u.a. - wie wird Käse dieser Art verzehrt (z.B. in Scheiben / gestrichen wann und bei welchen Gelegenheiten / im Verhältnis zu anderen Sorten) - wo und aus welchen Anlässen wird eingekauft?
(6)
Verkostung; Beurteilung; u.a. nach - Aussehen - Geschmack - Alter, Reifezustand - Glaubwürdigkeit der Werbung im Verhältnis zum Produkterlebnis - Fettgehalt (welche Rolle spielt der Fettgehalt / wünschenswerter Fettgehalt)
(7)
Problembereich Weichkäse mit Kräutern bzw. in anderen Variationen
(8)
Problembereich naturbelassener / stabilisierter Weichkäse
4. Gruppendiskussion
83
Ziel war es u.a., a u f b a u e n d auf einer gründlichen Sekundäranalyse des Marktes u n d daraus abgeleiteten Konzeptionsansätzen (1) eine Vorstellung über die Positionen der wichtigsten Marken in diesem Marktsegment zu gewinnen (2) eine erste Reaktion auf Verbraucherebene betreffend die neuen Konzeptionsansätze zu erhalten (3) die Konzeptionsansätze weiter zu entwickeln, d.h. Anhaltspunkte b e t r e f f e n d die Richtung einer geplanten Variation des eigenen Produktes zu finden. Als Probanden wurden in zwei Gebieten der Bundesrepublik Deutschland je 8 Intensivkäufer u n d -Verbraucher von Französischem Weichkäse ausgewählt, davon je 4 I n t e n s i w e r w e n d e r der eigenen Marke u n d 4 K o n s u m e n t e n von wichtigen K o n k u r r e n z p r o d u k t e n . Die wichtigsten Ergebnisse aus beiden Gruppendiskussionen, die aus dem Beispiel in Übersicht 4.2. ersichtlich sind, zeigen eine hohe Übereinstimmung in wesentlichen Teilen der konzeptionellen Ansätze. In einer kurz danach stattfindenden Seminarveranstaltung des Instituts für Markt- u n d Verbrauchsforschung der Freien Universität Berlin wurde an S t u d e n t e n dieselbe Aufgabe gestellt, konzeptionelle Ansatzpunkte für das bezeichnete Marktsegment mit Hilfe des in Übersicht 4.1. auszugsweise abgedruckten Befragungsleitfadens zu entwickeln, u n d zwar durch 2 Gruppendiskussionen mit je 8 Intensivkäufern u n d -Verbrauchern von Französischem Weichkäse. Die den S t u d e n t e n über Unternehmen u n d Markt zur Verfügung gestellten Basisinformationen waren identisch mit denen, die die beiden Forschungsleiter seinerzeit vor der Durchführung der Gruppendiskussionen gehabt h a t t e n . Die Ergebnisse zeigten wiederum hinsichtlich der wichtigsten konzeptionellen Ansatzpunkte einen h o h e n Grad an Übereinstimmung, sowohl im Vergleich der beiden durch Studenten geleiteten Gruppendiskussionen als auch im Verhältnis zu den Resultaten der beiden ersten Studien mit qualifizierten Forschungsleitern. Allerdings war j e t z t das S p e k t r u m der abgehandelten P r o b l e m p u n k t e deutlich weniger tief ausgeleuchtet als in den Untersuchungen, die von erfahrenen Forschungsleitern durchgeführt worden waren. Übersicht 4.2. Konzeptionelle Ansatzpunkte ßr die Variation eines Produktes im Marktsegment Französischer Weichkäse (Auszug aus den Ergebnissen von zwei Gruppendiskussionen) (1) Dem Preis kommt beim Kauf von Französischem Weichkäse eine hohe Bedeutung zu; der Konsument sucht eine optimale Kombination zwischen den Faktoren Preis/Gewicht und Fettgehalt (wobei der Fettgehalt im allgemeinen ein Indiz für die Qualität, d.h. für den guten Geschmack des Käses, ist). Zusätzlicher Qualitätsmaßstab ist die Frische der Produkte. (2) Alle Marken - auch die eigenen - sind sehr preisempfindlich und reagieren stark auf preisliche Sonderaktionen.
84
Datenerhebung
(3)
Die eigene Marke gilt als besonders teuer; der Markenname allein ist relativ unbekannt, jedoch hat die Verpackung einen hohen Bekanntheitsgrad. Die Verpackung symbolisiert ein traditionsreiches Produkt aus Frankreich mit charakteristischem Erscheinungsbild.
(4)
Die Erhöhung des Marken- und des Qualitätsbewußtseins bei dem eigenen Produkt dürfte daher eine wichtige Rolle in der Konzeption spielen (Image-Aufbau).
(5)
Dem k o m m t entgegen, daß das eigene Produkt als einziges im Marktsegment einen treuen Kernverbraucherkreis besitzt; es wird im Geschmackstest besonders von Kennern vergleichsweise positiv beurteilt, und zwar aufgrund des typischen Geschmacks.
(6)
Produkt-Variationen werden nur begrenzt akzeptiert, evtl. der Zusatz von Kräutern. Das Angebot einer fett- und damit kalorienarmen Variante dürfte auf erhebliche Schwierigkeiten stoßen (Geschmacksverlust).
(7)
Der Konsument unterscheidet nicht zwischen stabilisiertem und nicht stabilisiertem Französischem Weichkäse. Die Herausstellung des einen oder anderen Kriteriums könnte einen negativen Effekt hervorrufen.
Offensichtlich k o m m t es zunächst wesentlich darauf an, daß die Forschungsleiter bezüglich des Untersuchungsgegenstandes über ein vergleichbares und relativ hohes Informationsniveau verfügen, damit der Diskussionsablauf in richtige Bahnen gelenkt werden kann u n d die Diskussionen ergiebige Konzeptionsansätze liefern. Die Aufgabe der Forschungsleiter besteht darüber hinaus in einer möglichst unmerklichen Diskussionsleitung mit dem Ziel, alle problemrelevanten objektiven und subjektiven Sachverhalte so weit wie möglich offenzulegen. Gutes soziales und psychologisches Einfühlungsvermögen der Forschungsleiter scheint uns hierbei eine wichtigere Rolle zu spielen als soziologische bzw. psychologische Fachkenntnisse. In diesem Untersuchungsstadium eines Problems dürfte es o f t nicht zweckmäßig sein, standardisierte Erhebungsleitfäden (unter Verwendung von fertig formulierten und in der Reihenfolge festgelegten Fragen) zu verwenden; häufig m u ß sich der Forschungsleiter insoweit der Diskussionsgruppe und Problemstellung anpassen, als er Erläuterungen zu einzelnen Fragen gibt, u.U. auch einzelne Fragen in der Reihenfolge austauscht bzw. neue Aspekte aufgreift und weiterentwickelt, die sich spontan aus der Diskussion herleiten u n d die dem Untersuchungsgegenstand dienlich sind. In der Phase der Konzeptionsfindung ist das ein sehr wichtiger Gesichtspunkt. Die Vernachlässigung gruppendynamischer Gesetzmäßigkeiten, die u.a. die Einstellung seitens des Forschungsleiters auf die Gruppenmitglieder im Sinne der optimalen Ausschöpfung ihres Informationspotentials erforderlich machen, kann im übrigen leicht zu einem Auseinanderfallen der Diskussion und zur vorzeitigen Auflösung der Gruppe fuhren, während auf der anderen Seite die Integration des Forschungsleiters in die Gruppe deren Zusammenhalt und damit auch die Diskussionsbereitschaft der einzelnen Mitglieder fördert.
4. Gruppendiskussion
4.3
85
Auswertung und Darstellung der Ergebnisse
Bei der Auswertung der Ergebnisse aus Gruppendiskussionen k o m m t es auf ein möglichst vollständiges Protokoll der Sitzungen an, wozu elektronische Tonaufzeichnungen am besten geeignet sind. Dabei sollte man sich darum bemühen, die Resultate der oftmals von einem zum nächsten Thema und wieder zurückspringenden Diskussion so darzustellen, daß der Planer bzw. das Planungsteam ein anschauliches Bild erhält. Wörtliche Zitate vom Tonträger verringern die Gefahr einer subjektiven Ergebnisauslegung; günstig ist die rasche Aufeinanderfolge von Gruppendiskussion und Ergebnisauswertung. Besonders bewährt hat sich hier im übrigen die Anwesenheit des Planers selbst bzw. eines Beteiligten aus dem Planungsteam während der Gruppendiskussion, ohne sich den anderen Mitgliedern zu erkennen zu geben. In der Praxis verzichtet man allgemein auf eine quantifizierte Ergebnisdarstellung und gibt sich mit einer verbalen Beschreibung zufrieden. Allerdings ist es vielfach möglich und auch wichtig, die mutmaßliche relative Erfolgschance verschiedener konzeptioneller Gedanken anzudeuten, vor allem dann, wenn wiederholte Erhebungen die Durchschlagschance eines bestimmten Konzeptionsansatzes aufzeigen. Damit wird zwar noch kein Nachweis im wissenschaftlichen Sinne erbracht, wohl aber eine brauchbare Grundlage für weitere Arbeitsschritte geschaffen. Übersicht 4.3. faßt die wichtigsten Ergebnisse über Anlage, Durchführung und Auswertung von Gruppendiskussionen zusammen.
Übersicht
4.3. Die Gruppendiskussion
als operationales
Forschungsinstrument
Einsatzmöglichkeit Phase der Konzeptionsfindung im Rahmen der Grundsatz- und Detailstrategie, o f t im Anschluß an eine Sekundäranalyse (1)
Anlage Gruppengröße: allgemein 6 - 1 0 Probanden Gruppenstruktur: meist „typische" Testpersonen im Hinblick auf den Forschungsgegenstand (positive bzw. negative „Polarisierung" der Gruppe) möglichst Einbeziehung regionaler Schwerpunkte des Marktes durch mehrere parallel bzw. sukzessiv durchgeführte Gruppendiskussionen; u.U. Durchführung von mehreren Gruppendiskussionen, um die Ergebnisbasis zu verbreitern
(2)
Durchführung meist halbstrukturierter Erhebungsleitfaden (Vorgabe der einzelnen Untersuchungspunkte und der Reihenfolge der einzelnen Fragen, wobei der Forschungsleiter die Möglichkeit hat, u.U. Frageformulierung und -reihenfolge zu variieren) Einbeziehung aller relevanten Problembereiche aus der Sicht des Unternehmens und des Marktes (dazu gehört unbedingt auch die Berücksichtigung von Aktivitäten der wichtigsten Mitbewerber)
86
Datenerhebung Wichtig: Einbeziehung von ersten Konzeptionsansätzen! Die Güte (Breite und Tiefe) der ermittelten Informationen hängt von der Qualität und Erfahrung des Forschungsleiters und seiner Kenntnisse des Untersuchungsgegenstandes ab Optimale Dauer: erfahrungsgemäß 45 bis 90 Min.
(3)
Auswertung Anhand von elektronischen Tonaufzeichnungen, am besten durch den Forschungsleiter selbst, möglichst bald nach Durchführung der Gruppendiskussion (Vermeidung von Fehlinterpretationen!)
Literaturempfehlungen Salcher, E.: Psychologische Marktforschung. (Marketing Management 4) Berlin/New York 1978, S. 73ff. Salcher gibt einen ausführlichen Einblick in Anlage und Durchführung von Gruppendiskussionen, der sowohl für den Markt- als auch den Sozialforscher aufschlußreich sein dürfte. Empfehlenswert ist außerdem der Aufsatz über Gruppendiskussionen: Bellenger, D.N., u.a.: Qualitative Research in Marketing. In: Monograph Series No. 3 (1976), American Marketing Association, Chicago (III.). Der Aufsatz befaßt sich u.a. mit den Vor- und Nachteilen von Gruppendiskussionen; im Anhang zu dem Heft ist ein ausführliches Beispiel einer Gruppendiskussion im Marketingbereich abgedruckt.
5.
Explorative Erhebungstechniken
5.1
Brainstorming
5.1.1 Anwendung der Methode „Brainstorming ist die spezielle Form einer Gruppensitzung, in der kreative Leistungen erbracht werden sollen". (Schlicksupp, 1977, S. 215) Es handelt sich um eine operationale explorative Technik, die auf dem Denkprinzip der Assoziation aufbaut und die mit gutem Erfolg sowohl vor, parallel zu als auch nach Abschluß von empirischer Primärforschung (z.B. Gruppendiskussionen, Befragungen, Beobachtungen) eingesetzt werden kann. Teilnehmer an BrainstormingSitzungen sind in der Marktforschung im allgemeinen Experten aus einzelnen Funktionsbereichen und Hierarchien des planenden Unternehmens, die eine relevante Problemkenntnis mitbringen. Bei der Anwendung dieses Verfahrens vor der Durchfuhrung von empirischer Primärforschung geht es darum, Konzeptionsansätze zu sammeln, um diese dann in die Forschung hineingeben und dort überprüfen zu können. Da die Probanden beispielsweise im Rahmen von Gruppendiskussionen wohl vorgegebene konzeptionelle Ansätze beurteilen und weiterentwickeln können, kaum aber dazu in der Lage sind, völlig neue Konzepte zu erfinden, kann die Frage der vorgelagerten Konzeptionssuche o f t die Ergiebigkeit von Gruppendiskussionen entscheidend erhöhen. Beispielsweise diente eine Brainstorming-Sitzung dazu, den als Übersicht 4.1 abgedruckten Erhebungsleitfaden für eine Gruppendiskussion (vgl. Abschnitt 4.2) strukturieren zu helfen, wobei wesentliche konzeptionelle Ansatzpunkte gefunden wurden. Die Ergebnisse dieser Sitzung sind in Übersicht 5.1. zusammengetragen worden. Wird das Verfahren des Brainstorming dagegen parallel zu bzw. im Anschluß an die Durchfuhrung von Primärforschung angewendet, dann sollen entweder verschiedene unabhängige Wege der Konzeptionssuche eingeschlagen werden bzw. es wird angestrebt, durch Primärforschung gefundene Ansätze zu diskutieren, um diese kritisch zu beleuchten, ggf. weiter zu entwickeln und die neuen Konzeptionsansätze evtl. wiederum auf dem Wege empirischer Forschung — z.B. durch Gruppendiskussionen oder Expertengespräche - zu untersuchen. Übersicht 5.1. Die wichtigsten Ergebnisse einer Brainstorming-Sitzung über den Markt von Französischem Weichkäse (vgl. auch den Erhebungsleitfaden für die anschließende Gruppendiskussion in Übersicht 4.1.) (1)
Teilnehmer an dem Brainstorming: 10 Experten aus den Funktionsbereichen Marketing, Vertrieb und Produktion des Auftraggebers; die Beratungsgruppe der betreuenden Werbeagentur.
88
Datenerhebung
(2)
Informations-Input: Der Input für die Brainstorming-Sitzung erfolgte aufgrund einer gründlichen Sekundäranalyse, die u.a. die Umsatzentwicklung einzelner Marken (Fabrik-Absatz) sowie Daten aus den Nielsen-Panels einbezog. Nachteile bestanden darin, daß Marktuntersuchungen über die Images einzelner Marken sowie über relevante Verhaltensweisen der Käufer bzw. Verbraucher einzelner Marken nicht vorhanden waren.
(3)
Hypothesen: Der Markt von Französischem Weichkäse unterscheidet sich in Markenartikel und anonyme Ware. Es ist denkbar, daß vom Verbraucher unter den Marken stabilisierte und nicht-stabilisierte Artikel (aus H-Milch bzw. Frischmilch hergestellte Produkte) getrennt werden. In dieser zweiten Kategorie der nicht-stabilisierten französischen Artikel gibt es praktisch nur 2 Marken, die auf unterschiedliche Weise etabliert sind : Caprice des Dieux als eine traditionelle Marke, die von einem hohen Markenimage Vorteile bezieht; Creme des Près dagegen als Marke, die sich vor allem durch dynamische Preispolitik durchgesetzt hat. Unter den stabilisierten Französischen Weichkäsen befindet sich Suprême als Marke, die sich in erster Linie durch ein einzigartiges Produkt und durch ihre besondere Preispolitik, später auch durch starke Markenwerbung und darauf aufbauende Imagebildung Vorteile erworben hat. Géramont ist ein stabilisierter Käse, dem es gelungen ist, die Erfolge von Suprême abzubremsen; sein Preis liegt leicht unterhalb des von Suprême, und seine Werbeplattform basiert auf dem Argument der Frische, die vom Verbraucher in besonderer Weise honoriert wird. Anschließend erarbeitete die Brainstorming-Gruppe Vorstellungen über die psychologische und sozio-demographische Zielgruppendefinition und entwickelte Hypothesen über die Positionierung der einzelnen oben behandelten Marken.
D i e V o r g e h e n s w e i s e , das V e r f a h r e n des B r a i n s t o r m i n g b e g l e i t e n d z u e m p i r i s c h e r P r i m ä r f o r s c h u n g e i n z u s e t z e n , ist a u c h i n s o f e r n o f t a n g e r a t e n , als der P r o b a n d e n kreis dadurch u.U. maßgeblich erweitert wird. An Brainstorming-Sitzungen nehm e n n e b e n F a c h l e u t e n aus v e r s c h i e d e n e n F u n k t i o n s b e r e i c h e n
des
planenden
U n t e r n e h m e n s u . U . a u c h e x t e r n e Berater z . B . aus Werbeagenturen, Marktfors c h u n g s i n s t i t u t e n u s w . teil, die an d e m b e t r e f f e n d e n P r o j e k t b e t e i l i g t s i n d u n d m i t i h r e n o f t l a n g j ä h r i g e n K e n n t n i s s e n u n d E r f a h r u n g e n a u f die n e u e P r o b l e m s t e l l u n g a n g e s e t z t w e r d e n . D a d u r c h steigt die C h a n c e , die f ü r die P r o b l e m l ö s u n g wesentlichen Aspekte weitgehend einzufangen u n d auch extreme Lösungsansätze a u f z u s p ü r e n . In allen F ä l l e n ist es z w e c k m ä ß i g , e i n e g r ü n d l i c h e S e k u n d ä r - A n a l y s e v o r z u s c h a l t e n , u m alle z u g ä n g l i c h e n I n f o r m a t i o n e n ü b e r M a r k t u n d U n t e r n e h m e n a u f z u b e r e i t e n u n d als I n p u t f ü r die B r a i n s t o r m i n g - S i t z u n g e n z u r V e r f ü g u n g zu h a b e n .
5.1.2
Anlage und Auswertung
D i e o p t i m a l e G r u p p e n g r ö ß e b e i m B r a i n s t o r m i n g legt O s b o r n aus d e r E r f a h r u n g bei e t w a 12 P e r s o n e n f e s t . ( V g l . O s b o r n , 1 9 6 3 , S. 1 6 6 f f . u n d C l a r k , 1 9 7 3 ) D i e G r ü n d e d a f ü r d ü r f t e n ä h n l i c h wie bei G r u p p e n d i s k u s s i o n e n e i n e r s e i t s in d e r Aus-
5. Explorative Erhebungstechniken
89
sagefähigkeit des Verfahrens, auf der anderen Seite vor allem in Steuerungsproblemen zu suchen sein. Moderator ist bei Marketingprojekten o f t der Marketingleiter, der zuständige Product-Manager oder Projektleiter; wichtig ist auch hier wie bei Gruppendiskussionen das Einfühlungsvermögen in die Gruppe, in der hierarchische Spannungen weitgehend abgebaut werden sollten (in der Praxis allerdings o f t schwer realisierbar). An Stelle des Erhebungsleitfadens steht hier die rechtzeitige u n d möglichst umfassend problembezogene Information aller Beteiligten, so daß der Gesprächsablauf auf diese Weise grob vorstrukturiert ist. Allerdings hat der Sitzungsleiter die wichtige Aufgabe, den „Einstieg" in die Diskussion zu erleichtern — für die Ergebnisfindung von großer Bedeutung — u n d den Gesprächsablauf so zu steuern, daß systematisch auf die Problemlösung hingearbeitet wird. Zu diesem Zweck kann es vorteilhaft sein, wenn er sich selbst eine A r t Diskussionsleitfaden ausarbeitet, u m sicher zu sein, daß die wichtigsten P r o b l e m p u n k t e ausgeleuchtet werden. Wichtig ist auf jeden Fall, daß jeder Beteiligte das Gefühl hat, sich frei äußern zu k ö n n e n , ohne daß abwertende Bemerkungen fallen bzw. bestimmte Äußerungen evtl. für seine Karriere schädlich sein k ö n n t e n . Osborn setzt als optimale Diskussionsdauer 15 bis 3 0 Minuten an (vgl. Osborn, 1963, S. 178); aus eigener Erfahrung kann j e d o c h gesagt werden, daß Brainstorming-Sitzungen bei bestimmten Themen 4 5 bis 6 0 Min. dauern k ö n n e n , ohne daß die Intensität der Ergebnisfindung a b n i m m t . Danach macht sich allerdings im allgemeinen ein deutlicher Effizienzabfall bemerkbar; u.U. ist ein zweiter Ansatz in einer gesonderten Sitzung empfehlenswert. Von Brainstorming-Sitzungen wird meist keine Tonaufzeichnung gemacht, weil das die Teilnehmer verunsichern k ö n n t e . Ein schriftliches Protokoll durch den Teamleiter oder einen von ihm beauftragten Teilnehmer ist j e d o c h wesentlich, um das Diskussionsergebnis ohne die Gefahr von Fehlinterpretationen in anschließende Stufen des Planungsprozesses hineinbringen zu k ö n n e n . In Übersicht 5.2. sind wesentliche Merkmale des Brainstorming zusammengefaßt worden. Übersicht 5.2. Brainstorming Einsatzmöglichkeit Phase der Konzeptfindung im Rahmen der Grundsatz- und Detailstrategie, vor, parallel zu bzw. nach Abschluß von Primärforschung (im Anschluß an eine gründliche Sekundäranalyse aller markt- und unternehmensrelevanten Daten, die als Informations-Input für Brainstorming-Sitzungen notwendig ist)
(1)
Anlage Gruppengröße: maximal 12 Probanden Gruppenstruktur: An dem Projekt beteiligte Experten aus verschiedenen Funktionsbereichen und Hierarchien des Unternehmens, u.U. zusätzlich außenstehende Berater
90
Datenerhebung
(2)
Durchführung: Rechtzeitige und umfassende problembezogene Information der Probanden vor der Sitzung Problemspezifische Kenntnisse sowie gutes soziales Einfühlungsvermögen des Teamleiters sind von Vorteil Wichtig: Abbau hierarchischer Spannungen; keine Kritik an geäußerten Vorschlägen, kein „Urheberrecht" an geäußerten Ideen (Teamarbeit) Optimale Dauer: 3 0 - 6 0 Min. (themenabhängig)
(3)
Auswertung: Schriftliches Protokoll durch Teamleiter oder von ihm beauftragten Teilnehmer ist wichtig, um spätere Fehlinterpretationen zu vermeiden
Schlicksupp nennt noch abgewandelte Formen des Brainstorming: u.a. die Methode des anonymen Brainstorming (das eigentliche Brainstorming, d.h. das Sammeln von Lösungsansätzen, findet hier vor der Brainstorming-Sitzung statt, in der die einzelnen Ansätze dann diskutiert werden), das didaktische Brainstorming (bei dem nur der Moderator der Gruppe in die Untersuchungsproblematik eingeweiht ist) und verschiedene Brainwriting-Methoden, u.a. die Methode 635 (6 Teilnehmer kommen zusammen; jeder von ihnen trägt in der ersten Runde 3 Lösungsvorschläge innerhalb von 5 Minuten in ein Formular ein und gibt dieses dann an seinen Nachbarn weiter). (Vgl. Schlicksupp, 1977, S. 216ff.) Diese Verfahren haben in der Praxis einige Bedeutung erlangt, in letzter Zeit vor allem die Methode 635, die u.U. dazu geeignet ist, die Teilnehmer zu größerer Offenheit zu bewegen und keine Spannungen in der Sitzung aufkommen zu lassen.
5.2
Delphi-Technik
5.2.1
Anwendung der Methode
Im Gegensatz zum Brainstorming liegen die Vorteile der Delphi-Technik ähnlich wie bei den Brainwriting-Methoden in der Unabhängigkeit schriftlich abgegebener Expertenurteile. Auch hier ist der Einsatz — analog zum Brainstorming — vor, parallel zu bzw. nach der Durchfuhrung von Primärforschung möglich: Im letzteren Falle stellt die Delphi-Technik ein Bewertungsverfahren dar, um Konzeptionsansätze zu überprüfen, während der Einsatz vor bzw. parallel zu empirischer Forschung — beispielsweise vor bzw. parallel zu Gruppendiskussionen, Befragungen bzw. Beobachtungen — dazu dient, konzeptionelle Ansatzpunkte ausfindig zu machen oder zu diskutieren (Ideen-Delphi). Eine gründliche Sekundäranalyse als Basis für den Einsatz der Delphi-Technik ist in jedem Falle von großem Nutzen.
5. Explorative Erhebungstechniken
5.2.2
91
Anlage und Auswertung
Die Delphi-Teilnehmer - 5 - 2 0 Experten (vgl. Schlicksupp, 1977, S. 220) aus verschiedenen problemrelevanten Funktionsbereichen des Unternehmens, z.T. auch externe Berater - werden zunächst einzeln über die Fragestellung eingehend informiert und gebeten, auf Bewertungsbögen dazu schriftlich Stellung zu beziehen, ohne untereinander in Kontakt zu treten. Die jeweils abgegebenen Urteile müssen begründet werden; als Zeitraum für die Beantwortung der Fragen können je nach Problemstellung bis zu 14 Tagen angesetzt werden. Nach empirischen Erhebungen von Best ist es äußerst wichtig, daß die Delphi-Gruppe aus problemerfahrenen Fachleuten besteht (eine Rolle dürfte in diesem Zusammenhang auch der Informations-Input zu Beginn, des Verfahrens spielen), da diese wesentlich bessere Urteile abgeben als Nicht-Fachleute. (Vgl. Best, 1974, S. 450) Der Delphi-Koordinator sorgt nach der Auswertung der Ergebnisse der ersten Befragungsrunde für eine Informations-Rückkoppelung zwischen allen Beteiligten, die wiederum auf schriftlichem Wege geschieht. Er fordert die Experten dazu auf, ihre in der ersten Runde abgegebenen Meinungen noch einmal zu überdenken und ggf. zu revidieren, falls das für erforderlich gehalten werden sollte. U.U. können weitere schriftliche Informations-Rückkoppelungen mit der Bitte an die Teilnehmer um erneute Stellungnahme vorgenommen werden; im allgemeinen erfolgen maximal 3 bis 5 Befragungsrunden, da anschließend das Phänomen der „Übersteuerung" eintritt, die die Aussagekraft der Ergebnisse herabsetzt (u.a. neigen die Experten dann dazu, ihre Urteile dem allgemeinen Niveau der abgegebenen Urteile anzugleichen, da sie nach und nach lustlos werden). Brockhoff zählt 9 Schritte als „klassischen" Ablauf einer Delphi-Prognose auf, die allgemein für das Delphi-Verfahren zugrunde gelegt werden können. (Vgl. Brockhoff, 1979, S. 2) In Übersicht 5.3. ist der Ablauf in gestraffter Form zusammengefaßt worden. Allerdings muß betont werden, daß es erfahrungsgemäß im strengen Sinne keine Regelung gibt, die für den Delphi-Prozeß als verbindlich erklärt werden könnte; eine Erweiterung des Verfahrens kann beispielsweise darin gesehen werden, daß vielfach versucht wird, die Urteile einzelner Experten entsprechend ihrer problembezogenen Erfahrung unterschiedlich zu gewichten (u.a. bei der Entwicklung einer Marketingkonzeption die Urteile des Marketingleiters stärker zu gewichten als die von Product-Managern mit u.U. geringerem Erfahrungshintergrund).
Übersicht 5.3. Der Prozeß der (1)
Delphi-Technik
Zusammensetzung der Expertengruppe: Spezialisten aus unterschiedlichen Funktionsbereichen des Unternehmens, u.U. ergänzt durch externe Spezialisten; Bestimmung eines Delphi-Koordinators
92
Datenerhebung
(2)
Aufforderung zur Beurteilung einer bestimmten Problemstellung; gleichzeitig Vermittlung von problemrelevanten Basisinformationen an alle Teilnehmer (u.U. besteht die Möglichkeit weiterer Informationsanforderungen durch einzelne Experten)
(3)
1. Delphi-Runde Abgabe unabhängiger und begründeter Urteile durch die einzelnen Experten (u.U. anhand eines vorgegebenen Kriterienkatalogs), in schriftlicher Form (wichtig: kein Erfahrungsaustausch zwischen den Gruppenmitgliedern!)
(4)
Ermittlung des Ergebnisses durch den Delphi-Koordinator; Informations-Rückkoppelung an alle Gruppenmitglieder
(5)
2. bis 5. Delphi-Runde Aufgrund der Informations-Rückkoppelung, wie unter (3) und (4) dargestellt (bei weiteren Delphi-Runden besteht die Gefahr einer „Übersteuerung" des Beurteilungsprozesses)
Was die Verläßlichkeit von Ergebnissen betrifft, die anhand der Delphi-Methode zustandegekommen sind, sind die Erfahrungen allgemein positiv. Beispielsweise zeigten die Ergebnisse aus verschiedenen Expertengruppen einen hohen Grad an Reproduzierbarkeit, den Wechsler als informationelle im Gegensatz zur experimentellen Reproduzierbaikeit bezeichnet. (Vgl. Wechsler, 1978, S. 177 und die dort angegebene Literatur). Für die Gültigkeit der Ergebnisse fehlen zur Zeit noch Nachweise auf breiterer Ebene. Aufgrund der nicht standardisierten Vorgehensweise bei der Anwendung der Delphi-Technik fehlen bisher auch zuverlässige Kriterien zur Beurteilung von Verläßlichkeit und Gültigkeit dieses Verfahrens. Der Einsatz des Delphi-Verfahrens im Gegensatz zum Brainstorming ist erfahrungsgemäß immer dann angezeigt, wenn es sich darum handelt, relativ schwierige analytische Probleme zu lösen, weil unabhängig voneinander urteilende Experten wohl eher dazu in der Lage sind, den Informations-Input sachlich aufzubereiten und anzuwenden. Dabei dürfte auch eine Rolle spielen, daß die zur Verfügung stehende Zeit bei dem Delphi-Verfahren generell größer bemessen ist und daß die Informationsplattform ausführlicher sein kann; die Experten haben beim Delphi-Verfahren bekanntlich die Möglichkeit, weitere Informationen als Beurteilungsgrundlage heranzuziehen, falls ihnen die übermittelten Informationen nicht auszureichen scheinen. Außerdem überwindet das Delphi-Verfahren die Schwierigkeit, daß Experten aus unterschiedlichen hierarchischen Ebenen in persönlichen Sitzungen häufig trotz aller Motivierungsversuche nicht dazu bereit sind, offen über grundlegende Probleme zu diskutieren. Bewährt hat sich das Delphi-Verfahren zum Beispiel bei der Einschätzung von zukünftigen Entwicklungen (Prognosen) oder bei der Abgrenzung von relevanten Zielgruppen- bzw. Marktsegmenten. (Vgl. Blom/Haedrich/Kleinert/Kuss, 1977, S. 56).
5. Explorative Erhebungstechniken
5.3
93
Expertenbefragung
Im Zusammenhang mit explorativen Erhebungstechniken ist schließlich noch die Expertenbefragung zu n e n n e n . Diese F o r m der Befragung ist insofern nicht mit der Delphi-Methode identisch, weil es sich bei Expertenbefragungen zunächst u m die individuelle mündliche Befragung von Experten handelt. Während beim Delphi-Verfahren die E x p e r t e n verschiedenen problemrelevanten Funktionsbereichen eines Unternehmens angehören, ist die Befragungszielgruppe bei der Expertenbefragung im allgemeinen homogener: Um beispielsweise Ideen für eine neue Marketingkonzeption für ein P r o d u k t im Marktsegment Französischer Weichkäse zu finden, war es zweckdienlich, Einkäufer in G r o ß f o r m e n des organisierten Lebensmittelhandels zu befragen, u.a. u m ihre Meinungen über einzelne Marken in diesem Marktsegment zu e r k u n d e n . Als Experten werden also in diesem Zusammenhang Fachleute bezeichnet, die einer bestimmten Grundgesamtheit (z.B. dem organisierten Lebensmittelhandel) zugehörig sind u n d von deren R e a k t i o n m a n wichtige Erkenntnisse b e t r e f f e n d die Entwicklung bzw. Überprüfung einer Konzeption erwartet. Ubersicht 5.4. vermittelt einen Einblick in Anlage u n d Ergebnisse dieser Expertenbefragung. Als Modell für die Lösung auftretender Probleme bei der Frageformulierung, beim Fragebogenaufbau u n d bei der Stichprobenauswahl dienen die Ausführungen über Befragungsverfahren in diesem Buch. (Vgl. Kapitel 6, Teil A). Häufiger k o m m t es allerdings wie im Beispiel vor, daß halbstrukturierte Befragungsleitfäden verwendet u n d daß die Befragten „ b e w u ß t " ausgewählt werden, wenn es lediglich darum geht, erste grobe Ideen für eine Konzeption zu ermitteln. Die „ b e w u ß t e " Steuerung der Auswahl erfolgt dabei nach den Kriterien „problemrelevantes Wissen u n d E r f a h r u n g " , über das die Auskunftspersonen in h o h e m Maße verfügen müssen. Übersicht 5.4. Auszug aus dem Erhebungsleitfaden für Expertengespräche mit Einkäufern in Großformen des organisierten Lebensmittelhandels über Französischen Weichkäse (1)
Kriterien für die Differenzierung zwischen einzelnen Herstellern bzw. Marken: u.a. Qualität, Preis, Service, Werbung, Verkaufsförderung.
(2)
Das Vertriebssystem der Hersteller: Kooperation zwischen Herstellern und dem Handel in der Produktvermarktung (vertikales Marketing).
(3)
Unterscheidung in stabilisierten/naturbelassenen Französischen Weichkäse, eventuelle Auswirkungen auf den Absatzerfolg.
(4)
Einstellung zu einzelnen Marken im Marktsegment Französischer Weichkäse.
Auszug aus den Ergebnissen dieser Expertengespräche Zu (1) Der Markt für Französischen Weichkäse ist sehr preisempfindlich; die Konsumenten reagieren stark auf Sonderpreisaktionen.
94
Datenerhebung
Der Handel trennt klar zwischen aktionsfreudigen und weniger aktionsfreudigen Marken; das eigene Produkt wird eher in die zweite Kategorie eingestuft. In bezug auf Qualität, Beratung und Service durch die Hersteller werden keine deutlichen Unterschiede gemacht, wohl aber, was die Intensität der Werbung und Verkaufsförderung anbetrifft: Das eigene Produkt schneidet hier wiederum in den Vorstellungen der Einkäufer relativ ungünstig ab. Zu (2) Grossisten und/oder Importeure besitzen eine entscheidende Schlüsselstellung; nur in enger Kooperation mit diesen Firmen kann ein Produkt erfolgreich eingeführt und aufgebaut werden. Die Bedeutung des vertikalen Marketing tritt klar hervor. Zu (3) Unterschiede zwischen stabilisiertem und nicht stabilisiertem (naturbelassenem) Französischen Käse werden nur von Importeuren wahrgenommen; der Einzelhandel, auch die Zentralen, kennen diese Differenzierung nicht. Gründe für Erfolgsentwicklungen sind direkt abhängig von den Marketingmaßnahmen der jeweiligen Hersteller. Zu (4) Die eigene Marke hat sich am Markt durchgesetzt; allerdings nicht ausschließlich durch den Markennamen, sondern vielmehr durch das Zusammenwirken von Markenname, typischer Produktform, Ausstattung und Packungsbild.
Literaturempfehlungen Schlicksupp, H.: Kreative Ideenfindung in der Unternehmung - Methoden und Modelle. Berlin/New York 1977, S. 215ff. Schlicksupp gibt eine knappe, aber instruktive Zusammenstellung über die Methode des „klassischen Brainstorming" und über abgewandelte Brainstorming-Verfahren, u.a. über die Methode 635. Wechsler, W.: Delphi-Methode: Gestaltung und Potential für betriebliche Planungsprozesse. München 1978. Der Autor beschäftigt sich nach einer Einführung in die Entstehungsgeschichte der DelphiMethode ausführlich mit der Anwendung dieses Verfahrens, indem er auf Gestaltungsgrundsätze und anschließend auf das Potential dieser Methode im betrieblichen Prognoseprozeß eingeht. Das Buch ist empfehlenswert, aber nicht immer leicht zu lesen, da es sich um eine Dissertation handelt. Als weiterführende Literatur ist zu empfehlen: Linstone, H.A., Turoff, M. (Hrsg.): The Delphi Method - Techniques and Applications. London usw. 1975. Hier werden die Einsatzmöglichkeiten der Delphi-Methode anhand empirischer Anwendungen in verschiedenen Bereichen untersucht. Empfehlenswert ist auf jeden Fall die Einführung in die Delphi-Methode auf Seite 3 ff. Einen lediglich knappen Überblick über das Verfahren vermittelt: Brockhoff,
K.: Prognoseverfahren für die Unternehmensplanung. Wiesbaden 1977, S. 80 ff.
Expertenbefragungen werden in der Literatur meist unter das Stichwort „Delphi-Methode" eingeordnet und nicht explizit als Befragungsverfahren behandelt. Hinsichtlich Literaturempfehlungen siehe die Ausführungen im Anschluß an Kap. 6.
6.
Befragungsverfahren
6.1
Einführung
Die Befragung gilt heute als die wichtigste Methode der Informationsbeschaffung in der Markt- und Sozialforschung. Diese zentrale Stellung zeigt sich in zweierlei Hinsicht: Kein anderes Instrument wird häufiger eingesetzt; die Befragung ist wohl die Methode, die den gewichtigsten Beitrag zu den empirisch gewonnenen Erkenntnissen der Markt- und Sozialforschung geliefert hat. Die Befragung wird hier verstanden als „ein planmäßiges Vorgehen mit wissenschaftlicher Zielsetzung, bei dem die Versuchsperson durch eine Reihe gezielter Fragen oder mitgeteilter Stimuli zu verbalen Informationen veranlaßt werden soll" (Scheuch 1962, S. 138). Grundlage für diesen Ansatz ist natürlich die Vorstellung, daß die Antworten der Auskunftsperson Aufschluß über die zu untersuchende soziale oder ökonomische Realität geben. Damit ist ein Kernproblem der empirischen Forschung angesprochen: das Problem der Gültigkeit (Validität) einer Messung. Jede Erhebung eines Merkmals des Befragten stellt eine Messung dar. Beispielsweise kann gemessen werden, welche Partei er präferiert oder wie hoch sein Einkommen ist. Eine Messung wird als gültig angesehen, wenn ihr Ergebnis den Sachverhalt, der ermittelt und interpretiert werden soll, tatsächlich wiedergibt. Bei zahlreichen Befragungsgegenständen wie z.B. dem Alter der Auskunftsperson oder der Haushaltsgröße werden keine großen Gültigkeitsprobleme auftreten. Aber schon wenn man Merkmale wie Bildung oder Zugehörigkeit zu einer sozialen Schicht des Befragten messen will, ist man gezwungen, Operationalisierungen vorzunehmen, d.h. diese relativ abstrakten Untersuchungsgegenstände in konkrete Fragestellungen zu übersetzen. Man könnte beispielsweise versuchen, „Bildung" durch Fragen nach dem Schulabschluß und „soziale Schichtung" durch Ermittlung des Haushaltseinkommens zu messen. Dabei stellt sich dann sogleich die Frage, ob diese Indikatoren den zu untersuchenden Sachverhalt tatsächlich wiedergeben, also die Frage nach der Gültigkeit. Ähnliche Probleme treten auf, wenn man damit rechnen muß, daß die Antworten des Befragten nicht seinen Meinungen, Einstellungen etc. entsprechen. Hier ist an Fragestellungen zu denken, die den Intimbereich berühren, die prestigebeladen sind oder an Situationen, in denen sich die Auskunftsperson an ein vom Untersuchenden vermeintlich gewünschtes Antwortverhalten anpaßt (Sponsorship-Effekt). Während sich die Gültigkeit also auf die inhaltliche Genauigkeit eines Meßinstrumentes bezieht, entspricht die Verläßlichkeit (Reliabilität) der formalen Genauigkeit der Messung. Als Verläßlichkeit bezeichnet man im allgemeinen „die Unabhängigkeit eines Resultats von einem einmaligen Meßvorgang bzw. die Reprodu-
96
Datenerhebung
zierbarkeit eines Wertes unter den gewählten Versuchsbedingungen (Scheuch 1962, S. 173). Es geht also um die naheliegende Forderung, daß eine Befragung beim Vorliegen der gleichen realen Situation stets die gleichen Ergebnisse hat. Wie bei allen Verfahren der Informationssammlung, bei denen von Informationen über eine Teilgesamtheit auf die Gesamtheit geschlossen werden soll, m u ß die Auswahl der Auskunftspersonen durch entsprechende Verfahren der Stichprobenziehung so vorgenommen werden, daß eine für die Grundgesamtheit repräsentative Gruppe befragt wird. Wir werden hier auf einige praktische Probleme der Stichprobenziehung im Zusammenhang mit der Diskussion verschiedener Befragungszielgruppen eingehen. Das Instrument der Befragung bietet eine Fülle von Gestaltungsmöglichkeiten, mit denen es sich an zahlreiche unterschiedliche Ausgangssituationen und Erkenntnisziele anpassen läßt. Diese Gestaltungsdimensionen sollen hier in Anlehnung an die grundlegende Strukturierung von Behrens (Behrens 1966, S. 35ff.) kurz diskutiert werden. Zunächst ist insbesondere für den Bereich der Marktforschung die Unterscheidung im Hinblick auf die Zielpersonen einer Befragung von Interesse. Als wichtigste Kategorien sind hier Bevölkerungsumfragen, Unternehmensbefragungen und Expertenbefragungen zu nennen. Bei Bevölkerungsumfragen bilden die Einwohner eines Gebietes oder eine ihrer Teilgruppen (z.B. Wahlberechtigte, Kaffeetrinker, Werktätige) die Grundgesamtheit. Die Zielgruppe von Unternehmensbefragungen bilden im Bereich des Investitionsgüter-Marketing meist Führungskräfte in Unternehmen, die als potentielle Abnehmer von Investitionsgütern in Frage kommen. Im Konsumgüter-Bereich haben durch die stark gewachsene Macht des Handels Befragungen von Handelsunternehmen an Bedeutung gewonnen. Expertenbefragungen, die unter anderem für längerfristige Prognosen verwendet werden, nehmen eine Sonderstellung ein, vor allem weil die fachliche Kompetenz der Befragten wichtiger ist als deren Repräsentanz (Vgl. auch Abschnitt 5.3, Teil A dieses Buches). Im Zusammenhang mit der Anlage einer Untersuchung spielt die Befragungsstrategie eine wichtige Rolle. Hier werden hauptsächlich das standardisierte Inter-
view, das strukturierte Interview und das freie Gespräch unterschieden. Das standardisierte Interview ist durch festgelegte, einheitliche Frageformulierungen und Fragereihenfolge gekennzeichnet. Bei der strukturierten Befragung sind bestimmte Kernfragen vorgegeben. Innerhalb dieses Rahmens kann der Interviewer Zusatzfragen stellen und die Fragereihenfolge ändern. Beim freien Gespräch ist lediglich das Untersuchungsthema festgelegt; die Art und Reihenfolge der Fragen bleibt dem Interviewer überlassen. Die beiden nicht standardisierten Befragungs-Formen stellen besonders hohe Anforderungen an den Interviewer und den Interpretierenden. Der Interviewer m u ß dabei mit dem Untersuchungsthema wohlvertraut sein und sehr konzentriert vorgehen, um gleichzeitig die
6. Befragungsverfahren
97
Antworten der Auskunftsperson aufzunehmen und neue Fragen zu formulieren. Vor allem bedarf es aber psychologischer Schulung und beträchtlicher Erfahrungen, um das freie Gespräch so führen zu können, daß keine Beeinflussung des Befragten erfolgt. Bei der Auswertung derartiger Interviews entsteht das Problem, individuelle Antworten zu einer überschaubaren Zahl von Kategorien zusammenfassen zu müssen. Dabei können gravierende Fehler auftreten durch mangelnde Vergleichbarkeit der Antworten, die ja auf unterschiedlichen im Gespräch entstandenen Frageformulierungen basieren, u n d durch subjektive Einflüsse bei der Zuordnung der einzelnen Antworten zu für eine Auswertung notwendigen Kategorien. Die beiden nicht standardisierten Befragungsformen stellen auch dann, wenn geschulte Interviewer vorhanden sind und beim Untersuchungsleiter entsprechende Erfahrungen vorliegen, erhebliche Probleme. Für Untersuchungen mit geringem Aufwand, wie sie in diesem Buch behandelt werden sollen, erscheinen deshalb vor allem standardisierte Untersuchungen als geeignet. Die beiden anderen Befragungsstrategien werden deshalb hier nicht weiter behandelt. Eine weitere Gestaltungsdimension der Befragung ist die Befragungstaktik. Hier wird zwischen direkter und indirekter Befragungstaktik unterschieden. Bei direkten Fragen ist für die Auskunftsperson aus der Frageformulierung das entsprechende Erkenntnisziel erkennbar. Von indirekter Befragungstaktik spricht man, „wenn die Auskunftsperson durch psychologisch geschickte Frageformulierung veranlaßt wird, Sachverhalte zu berichten, deren Existenz sie bei direkter Ansprache u.U. aus Gründen des Prestiges oder der Konvention verschwiegen oder verzerrt wiedergegeben h ä t t e " (Behrens 1966, S. 55) bzw. wenn die Aussagen durch die Zusammenfassung mehrerer Antworten eines Befragten oder durch Gruppenvergleiche gewonnen werden. Indirekte Befragungstaktiken erfordern bei der Anlage und Durchführung einer Untersuchung meist einen höheren Aufwand als direkte, sie sind aber häufig die einzige Möglichkeit, bestimmte Einstellungen, Meinungen etc. zu messen. Im Hinblick auf die Zahl der Untersuchungsthemen werden Einthemenund Mehrthemen-Umfragen (Omnibus-Umfragen) unterschieden. Die MehrthemenUmfrage bietet zwar einige methodische Vorteile (siehe Behrens 1966, S. 62), ist aber im Zusammenhang dieses Buches, wo es vor allem um kleinere Untersuchungen für überschaubare Probleme geht, weniger relevant. Als letztes Unterscheidungskriterium von Befragungen sei die Art der Kommunikation genannt. Hier wird zwischen mündlicher Befragung, bei der die Auskunftsperson vom Interviewer in der Regel in der Wohnung oder am Arbeitsplatz aufgesucht wird, telefonischer Befragung und schriftlicher Befragung, bei der der Auskunftsperson meist auf postalischem Wege der Fragebogen zugesandt wird, den diese dann ausfüllen und zurücksenden soll, unterschieden.
98
Datenerhebung
Übersicht 6.1. Gestaltungsdimensionen der Befragung Gestaltungsdimension
Ausprägung
Zielpersonen
Bevölkerungsumfrage Unternehmensbefragung Expertenbefragung
Befragungsstrategie
standardisiertes Interview strukturiertes Interview freies Gespräch
Befragungstaktik
direkte Befragungstaktik indirekte Befragungstaktik
Zahl der Untersuchungsthemen
Einthemen-Umfrage Mehrthemen-Umfrage
Art der Kommunikation
mündliche Befragung schriftliche Befragung telefonische Befragung
6.2
Allgemeine Probleme der Frageformulierung und des Fragebogenaufbaus
6.2.1
Grundsätze der Frageformulierung
Der E n t w u r f eines Fragebogens gehört bis h e u t e zu den Tätigkeiten, die vor allem durch Erfahrung zu erlernen sind. In der Literatur sind zwar eine Fülle von Einzelergebnissen d o k u m e n t i e r t , bisher liegt aber keine geschlossene praxisrelevante Theorie der Frageformulierung vor. Beim Fragebogenentwurf ist man nach wie vor darauf angewiesen, u n t e r Beachtung sehr allgemeiner Grundsätze, die im folgenden kurz erörtert werden sollen, auf der Basis von Einzelerfahrungen aus früheren Untersuchungen u n d von genauer Kenntnis des zu untersuchenden T h e m a s mehr oder minder subjektiv zu entscheiden, welche Formulierung bzw. welcher Fragebogenaufbau zu gültigen u n d verläßlichen Ergebnissen f ü h r t . Als allgemeine Grundsätze der Frageformulierung sind vor allem zu nennen: Einfachheit Jede Frage m u ß so formuliert werden, daß sie für alle — auch die sprachlich weniger geschulten — Auskunftspersonen voll verständlich ist. Es ist also eine möglichst kurze, grammatikalisch einfache u n d dem Wortschatz der Alltagssprache angepaßte Frageformulierung zu suchen. Das schließt natürlich nicht aus, daß
6. Befragungsverfahren
99
man bei der Befragung spezieller Zielgruppen auch deren möglicherweise hochentwickelte Fachsprache benutzt. Neutralität Fragen, bei denen die „Attraktivität" verschiedener Antwortmöglichkeiten unterschiedlich ist, fuhren zu entsprechend verzerrten Ergebnissen. Hier ist vor allem an die Auswirkungen suggestiver Formulierungen („Sind Sie mit mir der Meinung, daß . . . ? " ) , an im Hinblick auf zustimmende und ablehnende Meinungen ungleichgewichtige Antwortvorgaben („Sehr gut", „gut", ,^nittel", „schlecht") und an die Bindung einzelner Antwortmöglichkeiten an Wertvorstellungen (,,Sind Sie für einen Lohnstopp zur Inflationsdämpfung?") zu denken. In derartigen Fällen werden der Auskunftsperson abweichend von deren eigentlichen Meinungen, Einstellungen etc., die ja ermittelt werden sollen, eine oder mehrere Antwortkategorien nahegelegt. Die Gefahr der Verzerrung der Ergebnisse durch diese Einflüsse ist dann besonders groß, wenn Sachverhalte erfragt werden, zu denen sich der Befragte erst im Augenblick der Befragung eine Meinung bildet. Die Neutralität einer Frage ist auch dann problematisch, wenn die Gefahr besteht, daß die Auskunftsperson z.B. aus Prestigegründen Antworten gibt, die nicht der Realität entsprechen. In diesen Fällen müssen meist indirekte Befragungstaktiken eingesetzt werden. Präzision Die entscheidende Voraussetzung für präzise Ergebnisse ist eine eindeutige Frageformulierung, d.h. daß jede Frage von allen Auskunftspersonen einheitlich im Sinne des Untersuchungszieles verstanden wird („Haben Sie in letzter Z e i t . . . ? " präziser: „ H a b e n sie in den letzten drei Monaten . . .?"). Für den Präzisionsgrad einer Frage ist weiterhin das Meßniveau, mit dem operiert wird, von großer Bedeutung. In den Sozialwissenschaften werden gemeinhin vier Meßniveaus unterschieden, die von der einfachen Klassifizierung (Nominalskala) als niedrigster Stufe über Rangordnungen (Ordinalskala) und Rangordnungen mit Aussagen über die Abstände zwischen den Meßpunkten (Intervallskala) bis zur Rangordnung mit interpretierbaren Abständen zwischen den Skalenwerten und absolutem Nullpunkt (Verhältnis- oder Ratioskala) als höchster Stufe reichen. Eine ausfuhrliche Erläuterung der verschiedenen Meßniveaus findet sich im Teil B dieses Buches, Abschnitt 1.3. Bei der Frageformulierung ist ein möglichst hohes Meßniveau anzustreben, da dann der Gehalt einer Information entsprechend größer ist. Je höher das Meßniveau ist, desto größer und besser sind auch die Möglichkeiten der statistischen Datenanalyse, zumal sich eine Messung auf höherem Niveau ohne Schwierigkeiten in eine Messung auf niedrigerem Niveau transformieren läßt, was umgekehrt
100
Datenerhebung
natürlich nicht der Fall ist. Im Hinblick auf das Niveau einer Messung sind in der Praxis der Befragung — manchmal recht enge — Grenzen gesetzt, weil sehr genaue (intervall- oder ratioskalierte) Antworten für den Befragten vielfach nicht möglich oder nicht zumutbar sind. Zur Präzision der Frageformulierung tragen im Rahmen des Möglichen (Interviewdauer, Überforderung des Befragten) möglichst feingegliederte Antwortvorgaben bei. Bei einigen quantitativen Merkmalen (Alter, Verbrauchsmengen etc.) sollte man auf Klassenbildungen völlig verzichten und die Originaldaten erheben. Klassenzusammenfassungen können dann später bei Bedarf je nach Analysezweck vorgenommen werden, z.B. durch Festlegung der Alterskategorie 16—25 Jahre für Analysen des Konsumverhaltens und 18—25 Jahre zur Untersuchung des Wahlverhaltens.
6.2.2
Fragetypen
Im folgenden soll der Gestaltungsspielraum bei der Formulierung von Fragen durch die Charakterisierung und Diskussion wichtiger Fragetypen kurz skizziert werden. Zunächst bietet sich die Unterscheidung zwischen offenen und geschlossenen Fragen an. Bei offenen Fragen wird der Wortlaut der Antwort (evtl. stichwortartig) in den Fragebogen eingetragen, während bei geschlossenen Fragen Antwortmöglichkeiten vorgegeben sind, von denen die der Auffassung des Befragten am ehesten entsprechenden durch Ankreuzen o.a. gekennzeichnet werden. Offene Fragen bieten den Vorteil, daß eine Verzerrung der Ergebnisse durch in die Wahl der Antwortkategorien eingeflossene vorgefaßte Meinungen des Untersuchenden vermieden wird und durch das Auftreten eines breiten Spektrums von Antworten differenzierte und möglicherweise überraschende Ergebnisse erzielt werden. Allerdings wird dieser Vorteil oft dadurch zunichte gemacht, daß es für eine Auswertung größerer Datenmengen notwendig ist, die Einzelantworten nachträglich zu Kategorien zusammenzufassen, was in der Regel erhebliche Mühe macht. Dabei geht natürlich ein Teil der Informationen verloren; subjektive Einflüsse des Forschers bei der Zuordnung der einzelnen Antworten zu den festgelegten Kategorien sind zu befürchten. Bei offenen Fragen werden im Vergleich zu geschlossenen höhere Anforderungen an den Interviewer und den Befragten gestellt: Der Interviewer muß u.U. umfangreiche Antworten möglichst unverfälscht notieren; der Befragte muß sich nicht nur zu einer Antwortmöglichkeit bekennen, sondern diese auch formulieren. Vor- und Nachteilen der offenen Frage stehen entsprechende Nach- und Vorteile der geschlossenen Frage gegenüber, die nicht mehr gesondert diskutiert werden müssen. Eine elementare Anforderung an die Konstruktion geschlossener Fragen besteht darin, daß die vorgegebenen Antwortkategorien überschneidungsfrei (disjunkt)
6. Befragungsverfahren
101
sind und das Spektrum möglicher Antworten voll abdecken. Jede auftretende Antwort muß einer Kategorie eindeutig zuzuordnen sein. In manchen Fällen wird es deshalb notwendig sein, Restkategorien („Sonstiges" o.ä.) oder offene Kategorien (z.B. „Einkommen 10.000 DM und mehr") zu benutzen. Beim Entwurf geschlossener Fragen gibt es je nach Erhebungsgegenstand die Möglichkeit, zwei (Alternativfrage) oder mehrere (Auswahlfrage) Antwortkategorien vorzugeben. Bei der Alternativfrage steht dem Vorteil erhebungs- und auswertungstechnischer Einfachheit der Nachteil gegenüber, daß der Erhebungsgegenstand häufig zu stark vereinfacht werden muß. Bei der Datenanalyse hat die Alternativfrage aber einen gravierenden Vorteil gegenüber der Auswahlfrage: Alle auf dieser Basis gewonnenen dichotomen Daten („Ja—Nein", „Vorhanden— Nicht vorhanden" etc.) bieten vielfältigere Analysemöglichkeiten als andere nominalskalierte Variable. Dagegen kann man mit einer Auswahlfrage natürlich differenziertere Daten erfassen. Dabei können auch Mehrfachantworten zugelassen werden (z.B. „Welche der aufgeführten Gegenstände besitzen Sie?" Auto Farbfernseher Eigenheim Stereoanlage was aber bei der Anwendung statistischer Methoden der Datenanalyse zu Problemen führt. Bei mündlichen Interviews steht ein weiteres Gestaltlingsmittel zur Verfügung: die Verwendung von Vorlagen. Man beschränkt sich dabei nicht mehr auf die ausschließlich mündliche Kommunikation zwischen Interviewer und Auskunftsperson, sondern unterstützt diese durch optische Hilfsmittel. Diese Unterstützung besteht darin, den Befragten z.B. Bilder, Texte, Listen, Abbildungen von Markenzeichen vorzulegen. Derartige Vorlagenfragen werden hauptsächlich eingesetzt, wenn es gilt, abstrakte Sachverhalte zu veranschaulichen oder die Erinnerung des Befragten aufzufrischen.
6.2.3
Fragebogenaufbau
Neben der Frageformulierung haben die Probleme der Fragenreihenfolge, der Gliederung und formalen Gestaltung des Fragebogens häufig eine gleichrangige Stellung. In der Praxis hat es sich bewährt, den Fragebogen mit einigen leicht zu beantwortenden, das Interesse der Auskunftsperson weckenden Fragen einzuleiten („Eisbrecherfragen"). Damit soll die Atmosphäre des Interviews zunächst etwas gelockert und die Aufgeschlossenheit des Befragten vergrößert werden. Den Hauptteil des Fragebogens bilden daran anschließend die Sachfragen, mit denen die vor Beginn der Untersuchung festgelegten Programmfragen und Hypothesen beantwortet bzw. überprüft werden sollen. In diesem Abschnitt des Fragebogens hat sich eine Mischung der Themenkomplexe als zweckmäßig erwiesen. Damit wird nicht nur eine Ermüdung der Auskunftsperson, sondern vor allem eine wechselseitige Beeinflussung zusammenhängender Fragen vermindert. In vielen
102
Datenerhebung
Fällen ist es notwendig, über die Trennung der Fragen hinaus eine zweckmäßige Reihenfolge zu wählen, um Verzerrungen zu vermeiden. So wird man beispielsweise erst erfragen, ob ein Produkt bekannt ist, bevor man die Einstellungen zu diesem Produkt ermittelt. Manchmal kann es auch notwendig sein, sog. „Filterfragen" zu verwenden, die den Ablauf des Interviews steuern sollen. Sie dienen dazu, daß Auskunftspersonen, für die ein bestimmter Teil des Fragebogens nicht zutrifft, diesen Teil überspringen. So würde man z.B. bei Fragen zum Rauchverhalten (Häufigkeit, Markenwahl etc.) zunächst ermitteln, wer Nichtraucher ist, und diese Personen direkt zum folgenden Teil des Fragebogens übergehen lassen. Den Abschluß des Fragebogens bildet in der Regel die Feststellung der Strukturmerkmale. Bei Personenstichproben sind das hauptsächlich sozio-demographische Merkmale (Alter, Geschlecht etc.), bei Betriebsstichproben Daten wie Betriebsgröße, Branche etc. Die Stellung dieses Komplexes am Ende des Fragebogens bietet sich an, da diese Fragen einerseits leicht und schnell zu beantworten sind und auch nach einem langen Interview noch gestellt werden können, andererseits aber erst am Ende des Interviews der Auskunftsperson klar wird, daß derartige Fragen nicht dazu da sind, in ihre Intimsphäre einzudringen, sondern zur Interpretation der inhaltlichen Fragen dienen. Im Hinblick auf die Reihenfolge der Fragen muß hier noch angemerkt werden, daß die dabei angesprochenen Überlegungen bei schriftlichen Befragungen höchstens teilweise von Bedeutung sind, da in diesem Fall der Befragte die Möglichkeit hat, sich vor der Beantwortung erst einen Gesamtüberblick über den Fragebogen zu verschaffen, die meist auch genutzt wird.
6.3
Befragungstaktiken
6.3.1
Direkte Befragungstaktik
In Fällen, in denen die im Fragebogen verwendete Testfrage der das Erkenntnisziel beschreibenden Problemfrage entspricht, liegt eine direkte Befragungstaktik vor (z.B. Problemfrage: „Alter des Befragten"; Testfrage: „Wie alt sind Sie?"). Sie wird zur Ermittlung einer Vielzahl von Sachverhalten eingesetzt, bei denen nicht die Gefahr von Verzerrungen der Ergebnisse z.B. durch mangelnde Artikulationsfähigkeit der Auskunftspersonen oder prestigeempfindliche Untersuchungsthemen besteht. Die Formulierung direkter Fragen unter Beachtung der schon skizzierten allgemeinen Grundsätze der Frageformulierung ist in der Regel einfach und bedarf keiner besonderen Erörterung.
6. Befragungsverfahren
6.3.2
103
Indirekte Befragungstatik
Indirekte Frageformulierung Eine der Möglichkeiten der indirekten Befragungstaktik besteht darin, eine Frage psychologisch so geschickt zu formulieren, daß der Befragte Auskünfte gibt, die er bei direkter Fragestellung nicht oder nur verzerrt gegeben hätte. Hier ist zunächst zwischen vollkommenen und unvollkommenen Indikatoren zu unterscheiden. Vollkommene Indikatoren sind dadurch gekennzeichnet, daß sich die Antwort auf die Problemfrage mit Sicherheit aus der Antwort auf die Testfrage ableiten läßt. Durch den Operationalisierungsvorgang von der Problemfrage zur Testfrage entstehen hier also keine Gültigkeitsprobleme. In der Literatur wird als klassisches Beispiel eine amerikanische Untersuchung genannt, in der festgestellt werden sollte, wie viele Amerikaner den seinerzeit stark beachteten Roman „Vom Winde verweht" gelesen hatten. Eine direkte Frage führte zu offensichtlich stark positiv verzerrten Ergebnissen, da viele Befragte vermutlich aus Prestigegründen nicht zugeben wollten, daß sie dieses damals sehr bekannte Buch nicht gelesen hatten. Erst die indirekte Fragestellung: „Haben Sie die Absicht, demnächst das Buch ,Vom Winde verweht' zu lesen?" mit den Antwortkategorien „Ja", „Nein, habe ich schon gelesen' und „Nein" führte zu Ergebnissen, die mit den bekannten Auflagenzahlen des Buches verträglich waren. Bei dieser Fragestellung hatten Nicht-Leser die Gelegenheit, „ihr Gesicht zu wahren", indem sie angaben, das Buch demnächst lesen zu wollen (siehe Behrens 1966, S. 55 f. und Abschnitt 1.1 Teil A dieses Buches). Häufiger werden unvollkommene Indikatoren verwandt. Diese werden immer dann eingesetzt, wenn es gilt, an Stelle eines schlecht meßbaren Tatbestandes (z.B. Bildungsstand des Befragten) einen leichter zugänglichen (z.B. Schulabschluß des Befragten) zu messen. Dieser Vorgehensweise liegt natürlich die — mit Gültigkeitsproblemen verbundene — Annahme zu Grunde, daß beide Tatbestände in einem engen, aber eben nicht vollkommenen Zusammenhang stehen. Im Bereich der unvollkommenen Indikatoren haben projektive Fragen einige praktische Bedeutungen erlangt. Dabei wird im allgemeinen so verfahren, daß der Befragte Eigenschaften einer ihm unbekannten Person nennen soll, von der er lediglich weiß, daß bei ihr ein den Untersuchungsgegenstand bildendes Merkmal gegeben ist (z.B. Käufer eines bestimmten Produktes, Angehöriger einer bestimmten sozialen Gruppe). Diese von der Auskunftsperson genannten Eigenschaften werden dann als Indikatoren für deren Einstellung zum Untersuchungsgegenstand interpretiert. Zusammenfassung von Einzelaussagen eines Befragten Eine weitere Möglichkeit der Anwendung einer indirekten Befragungstaktik besteht darin, Einzelaussagen des Befragten, die sich auf Teilaspekte des Untersuchungsgegenstandes beziehen, zusammenzufassen und als Information über den
104
Datenerhebung
Untersuchungsgegenstand insgesamt zu interpretieren. Beispielsweise könnte man versuchen, die politische Position des Befragten in der Dimension konservativ-progressiv dadurch zu erfassen, daß man ihm eine Anzahl von Aussagen mit progressiver Tendenz vorlegt und jeweils seine Zustimmung bzw. Ablehnung erfragt. Eine hohe Zahl von Zustimmungen wird dann als progressive Haltung insgesamt, eine hohe Zahl von Ablehnungen als konservative Haltung angesehen. Derartige Verfahren der Indexbildung zeichnen sich durch relativ einfache Handhabung aus. Andererseits ist zu bedenken, daß die Auswahl und Formulierung der einzelnen Items in der Regel doch stark von den subjektiven Einschätzungen des Untersuchungsleiters abhängen, weil eine Validierung der Messung aus zeitlichen und finanziellen Gründen häufig nicht erfolgt. Bei einer Indexbildung, wie sie in dem Beispiel skizziert wurde, wäre lediglich allgemein zu beachten, daß die Einzelaussagen gleichgewichtige Teilaspekte des Untersuchungsgegenstandes betreffen, da sonst die beschriebene additive Zusammenfassung nicht sinnvoll wäre. Uber die Zahl der Items und deren Themen lassen sich keine allgemeingültigen Aussagen machen. Auf aussagekräftigere Verfahren der Zusammenfassung von Einzelaussagen eines Befragten, wie die Skalierungsverfahren von Thurstone, Likert und Guttman (siehe z.B. Wettschureck 1977), deren methodischer Aufwand den Rahmen der in diesem Buch beschriebenen „handlichen" Verfahren sprengt, kann an dieser Stelle nur hingewiesen werden. Vergleich von Aussagen verschiedener Gruppen von Befragten Eine dritte Richtung der indirekten Befragungstaktik stellt der Vergleich von Aussagen verschiedener, im Hinblick auf die untersuchte Grundgesamtheit jeweils repräsentativer Gruppen dar (Split Bailot). Jede dieser Gruppen wird mit einer hinsichtlich eines für den Untersuchungsgegenstand relevanten Merkmals abweichenden Fragestellung konfrontiert. Aus der Abweichung der Gruppenergebnisse voneinander wird auf die Einstellung zu den verschiedenen Ausprägungen des Merkmals geschlossen. In der Literatur wird dazu häufig auf das Beispiel eines Einkaufszettel-Tests verwiesen (Vgl. Koeppler 1974, S. 145f.). Dabei wurde zwei repräsentativen Gruppen von Hausfrauen jeweils ein Einkaufszettel vorgelegt. Beide Einkaufszettel unterschieden sich nur dadurch, daß bei einem „Maxwell Kaffee" und beim anderen „Pulverkaffee" an der entsprechenden Stelle stand. Die Befragten sollten Eigenschaften nennen, die sie einer Hausfrau, die einen derartigen Einkaufszettel verwendet, zuordnen. Die Unterschiede in den Nennungshäufigkeiten der beiden Gruppen sind — abgesehen von berechenbaren Zufallsfehlern — der genannten einzigen Variation in den Einkaufszetteln zuzurechnen. Aus dieser Untersuchung konnten Schlüsse bezüglich der Einstellungen gegenüber Maxwell-Kaffee im Vergleich zu Pulverkaffee allgemein gezogen werden.
6. Befragungsverfahren
6.4
Befragungszielgruppen
6.4.1
Bevölkerungsumfragen
105
Unter Bevölkerungsumfragen werden hier Befragungen verstanden, bei denen die gesamte Bevölkerung eines geographischen Gebietes oder eine ihrer Teilgruppen die Grundgesamtheit bildet, aus der die Stichprobe gezogen wird. Die entscheidende Anforderung an Zufallsstichproben besteht darin, daß jedes Element der Grundgesamtheit eine berechenbare (bei der einfachen Zufallsauswahl: die gleiche) Wahrscheinlichkeit hat, in die Stichprobe zu kommen. Auf dieser Basis, die dem in der Literatur häufig benutzten „Urnenmodell" entspricht, beruhen statistische Techniken zur Schätzung von Stichprobenfehlern. Die Berechenbarkeit der Auswahlchance der Stichprobenelemente wird dadurch gewährleistet, daß die Auswahl zufällig erfolgt. Dabei wird in der Praxis meist so verfahren, daß zunächst eine der gewünschten Stichprobengröße entsprechende Menge von Zufallszahlen bereitgestellt wird. Diese Zufallszahlen können aus Tabellen (z.B. Wetzel u.a. 1967) entnommen oder durch entsprechende Algorithmen mit Hilfe eines Computers selbst erzeugt werden. Parallel zur Ziehung von Zufallszahlen wird jedem Element der Grundgesamtheit eine Nummer zugeordnet. Es werden dann die Einheiten in die Stichprobe einbezogen, deren Nummern den zur Verfügung stehenden Zufallszahlen entsprechen. Eine etwas problematische Spielart dieses Verfahrens, die sogenannte „systematische Zufallsauswahl" besteht darin, nur das erste Element mit Hilfe einer Zufallszahl auszuwählen und dann in gleichgroßen Schritten, die so bemessen sein müssen, daß sich die gewünschte Stichprobengröße ergibt, im Verzeichnis der Grundgesamtheit weiterzugehen und damit die restlichen Stichprobenelemente auszuwählen. Voraussetzung für eine Stichprobenziehung in der beschriebenen Weise ist in jedem Falle das Vorliegen eines Verzeichnisses (Kartei, Liste etc.) der Grundgesamtheit. Dabei kann es sich um ein Verzeichnis von Adressen der Personen oder Haushalte, die die Grundgesamtheit bilden, handeln (Auswahl auf Adressenbasis) oder um das Verzeichnis einer großen Zahl von Teilgebieten der Region, innerhalb derer die Befragung vorgenommen werden soll, aus dem dann die Teilgebiete ausgewählt werden, in denen die Interviews durchgeführt werden sollen (Auswahl auf Flächenbasis). Bei Bevölkerungsstichproben bereitet die Auswahl auf Adressenbasis erhebliche Probleme. Zunächst ist zu bedenken, daß die als Grundlage der Stichprobenziehung ins Auge zu fassenden Karteien der Einwohnermeldeämter und die Verzeichnisse von Wahlberechtigten räumlich so zersplittert aufbewahrt werden, daß die Auswahl einer Stichprobe für ein größeres Gebiet schon erhebliche rein praktische Schwierigkeiten machen würde. Erschwerend k o m m t hinzu, daß der Zugang zu diesen Adressenbeständen - insbesondere nach dem Inkrafttreten des Datenschutzgesetzes — vor allem für kommerzielle Zwecke sehr behindert ist.
106
Datenerhebung
Um diese Probleme in den Griff zu bekommen, werden in der Praxis ein- und mehrstufige Auswahlverfahren verwandt. Dabei handelt es sich um Verfahren der Stichprobenziehung, bei denen die Grundgesamtheit zunächst in eine Vielzahl überschneidungsfreier Gruppen von Elementen — in der Praxis meist nach regionalen Gesichtspunkten — eingeteilt wird und dann zufällig einzelne dieser Gruppen ausgewählt werden (Vgl. dazu auch die sehr anschauliche Darstellung bei Wettschureck 1974, S. 197ff.). Es werden dann entweder alle Elemente der ausgewählten Gruppen befragt (einstufiges Verfahren bzw. Klumpenverfahren) oder aus den ausgewählten Gruppen jeweils wiederum eine Stichprobe gezogen (zweistufiges Verfahren). Bei zweckmäßiger Definition der in der ersten Stufe ausgewählten Gruppen kann damit das Problem der Zersplitterung von Adressenbeständen gelöst werden. Sofern der Zugang zu den bei Behörden befindlichen Adressenverzeichnissen versperrt ist, besteht oft die Möglichkeit, innerhalb der ausgewählten Teilgebiete die Auflistung der zugehörigen Personen oder Haushalte selbst vorzunehmen. Bei ein- oder mehrstufigen Stichprobenverfahren nimmt man ein verfahrensbedingtes Anwachsen des Zufallsfehlers aus praktischen Erwägungen in Kauf. Derartige Stichprobenpläne bilden ein wichtiges Anwendungsgebiet der erwähnten Auswahlen auf Flächenbasis. An Auswahlen auf Flächenbasis knüpft auch ein in der Praxis gelegentlich benutztes Verfahren an, bei dem man ganz ohne Adressenverzeichnisse auskommt. Das sogenannte „Random-Route-Verfahren" besteht darin, innerhalb der ausgewählten Gebiete dem Interviewer genaue Anweisungen über seinen Weg und die auf diesem Weg zu befragenden Personen/Haushalte vorzugeben (z.B. „Erste Straße links, zweites Haus auf der rechten Straßenseite, älteste Person im Haushalt in der ersten Etage"), was natürlich auch mit zahlreichen praktischen Problemen verbunden sein kann. Ebenfalls ohne Adressenverzeichnisse arbeitet das „Quota-Verfahren". Dabei wird zunächst die Verteilung einiger — meist soziodemographischer — Merkmale in der Grundgesamtheit festgestellt (z.B. unter Zuhilfenahme der Amtlichen Statistik). Dann werden für jeden Interviewer sogenannte Quotenanweisungen erstellt, die angeben, mit welchen Häufigkeiten die verschiedenen Merkmalsausprägungen (Alter, Geschlecht etc.) bei der von ihm verlangten Zahl von Interviews auftreten müssen. Die Quotenanweisungen werden so angelegt, daß die Verteilung der ausgewählten Merkmale in der Stichprobe der Verteilung in der Grundgesamtheit entspricht. Man erhofft sich dadurch, die Repräsentativität der Stichprobe für die Grundgesamtheit sicherstellen zu können. Innerhalb der Quotenanweisungen, die auch Vorschriften über Kombinationen einzelner Merkmale umfassen können, ist der Interviewer frei bei der Auswahl seiner Auskunftspersonen. Den beiden zuletzt skizzierten Verfahren ist zu eigen, daß der Stichprobenfehler höchstens unter zusätzlichen Modellannahmen abschätzbar ist, da es sich nicht um Zufallsauswahlen handelt. Diesem grundlegenden Einwand stehen aber einerseits die praktischen Probleme gegenüber, die es häufig nicht erlauben, Zufalls-
6. Befragungsverfahren
107
Stichproben zu ziehen, und andererseits die recht positiven Erfahrungen, die man beim Vergleich der Ergebnisse von Random- und Quota-Stichproben hinsichtlich ihrer Repräsentanz gemacht hat. Ein weiterer Einwand bezieht sich auf den Einsatzbereich der beiden Verfahren: Das Random-Route-Verfahren ist nur bei mündlichen Interviews verwendbar, das Quota-Verfahren bei mündlichen und telefonischen Interviews, kaum aber bei schriftlichen Befragungen. Einen Überblick über theoretische und praktische Probleme der Stichprobenbildung gibt Wettschureck (1974). In der Markt- und Sozialforschung werden je nach Untersuchungsziel und zur Verfügung stehendem Adressenmaterial Haushalts- und Personenstichproben verwendet. Es werden auf dieser Basis dann Aussagen über Haushalte bzw. Personen gemacht. Manchmal kann es notwendig sein, ausgehend von einer Personenstichprobe Aussagen über die entsprechenden Haushalte zu machen (oder umgekehrt). Dabei ist zu beachten, daß auf diesem Wege Haushalte mit vielen Personen, von denen ja jede die gleiche Chance hat, wie Personen aus kleinen Haushalten, in die Stichprobe zu kommen, eine große Auswahlchance haben als kleine Haushalte. Die Stichprobe wäre unter diesen Umständen im Hinblick auf Aussagen über Haushalte zugunsten der großen Haushalte verzerrt. Umgekehrt wäre eine Haushaltsstichprobe, die als Basis für Aussagen über Personen benutzt wird, zugunsten der Angehörigen kleiner Haushalte verzerrt, da diese eine größere Chance haben, befragt zu werden als die Angehörigen großer Haushalte. In den beiden beschriebenen Situationen ist es also notwendig, Gewichtungen der Daten so vorzunehmen, daß die auftretenden Verzerrungen ausgeglichen werden. Bei der Umwandlung einer Personenstichprobe in eine Haushaltsstichprobe könnte man beispielsweise 5-Personen-Haushalte mit 0.2, 4-Personen-Haushalte mit 0.25 usw. gewichten. Besondere — über die bisher beschriebenen hinausgehende — Probleme treten auf, wenn nicht die Gesamtheit der Einwohner bzw. Haushalte eines Gebietes die Grundgesamtheit bei der Stichprobenziehung bildet, sondern eine speziell definierte Teilgruppe (z.B. Angehörige bestimmter Berufe, Verbraucher eines bestimmten Produktes). Hier gibt es zwei Vorgehensweisen, um eine entsprechende Stichprobe zu erhalten: Die erste besteht darin, sich Verzeichnisse der definierten Grundgesamtheit zu verschaffen, und dann in der üblichen Weise mit Hilfe von Zufallszahlen (evtl. auch mehrstufig) die Stichprobe zu ziehen. Dabei können Mitgliedsverzeichnisse von Verbänden, Kammern etc., Listen von Kunden, Mitarbeitern etc. und Material von kommerziellen Adressenverlagen verwendet werden, das im Hinblick auf seine Zuverlässigkeit (Vollständigkeit, Aktualität, Doppelnennungen etc.) allerdings mit Vorsicht zu handhaben ist. (Vgl. o.V. 1975) Die zweite Methode, zu einer Spezialstichprobe zu kommen, geht von einer (relativ großen) allgemeinen Bevölkerungsstichprobe aus, bei der die die zu un-
108
Datenerhebung
tersuchende Teilgruppe definierenden Merkmale erhoben werden. Die Hauptuntersuchung richtet sich dann nur noch an die Personen/Haushalte, bei denen die entsprechenden Merkmalsausprägungen festgestellt worden sind. In der Praxis kann man dabei so verfahren, daß die Erhebung der für die zu untersuchende Gruppe charakteristischen Merkmale innerhalb einer anderen an eine allgemeine Bevölkerungsstichprobe gerichteten Umfrage vorgenommen wird, beispielsweise einer der von kommerziellen Marktforschungsinstituten regelmäßig durchgeführten Mehrthemen-Umfragen („Omnibus-Umfrage")- Außerdem besteht die Möglichkeit, bei einer allgemeinen Bevölkerungsstichprobe kurze Befragungen hinsichtlich der relevanten Merkmale selbst vorzunehmen („Einsammelinterview" ), und dann die in Frage kommenden Personen weiterzubefragen. Hier könnte man beispielsweise die Einsammelinterviews schriftlich und/oder telefonisch durchführen und dann die ermittelten Zielpersonen zu einem längeren mündlichen Interview aufsuchen.
6.4.2
Unternehmensbefragungen in Industrie und Handel
Unternehmensbefragungen spielen insbesondere bei der Marktforschung für Unternehmen eine Rolle, die ihre Produkte an industrielle Abnehmer und/oder über selbständige Sortimentspolitik treibende Handelsunternehmen absetzen. Das sind hauptsächlich Hersteller von Investitionsgütern und im Konsumgüterbereich vor allem Hersteller, die sich hochkonzentrierten und deshalb nachfragemächtigen Organisationen des Handels gegenübersehen. Bei Unternehmensbefragungen handelt es sich also in der Regel um Abnehmerbefragungen (bzw. Befragungen potentieller Abnehmer), womit schon das Problem der Abgrenzung der Grundgesamtheit angesprochen ist. Wenig Schwierigkeiten bereiten hier spezialisierte Investitionsgüter; so wird man z.B. für Druckmaschinen einer bestimmten Leistungsklasse die Druckereibetriebe einer gewissen Betriebsgrößenklasse als potentielle Abnehmerbetriebe angeben können, und muß nur noch das Absatzgebiet räumlich definieren, um die Grundgesamtheit festzulegen (z.B. Druckereien mit 100—1000 Beschäftigten in der EG). Bei breiter einsetzbaren Produkten (z.B. Bohrmaschinen, Drehbänke) muß zur Bestimmung der Grundgesamtheit zunächst eine möglicherweise aufwendige Analyse des Anwendungsbereichs dieser Produkte durchgeführt werden. Bei universell verwendbaren Gütern, wie z.B. Büromaschinen, reduziert sich das Problem der Abgrenzung der Grundgesamtheit wieder auf die Frage nach dem Absatzgebiet und in Einzelfällen nach der Betriebsgröße. Ähnliches gilt für den Konsumgüterbereich, wo in der Regel das Absatzgebiet und die Vertriebskanäle in der Marketingstrategie festgelegt sind und damit die Grundgesamtheit einer Handelsbefragung definiert ist. Zur Stichprobenziehung aus einer so definierten Grundgesamtheit ist meist eine Auflistung der Elemente dieser Grundgesamtheit notwendig. Dabei können Kundenlisten der eigenen Firma, Messekataloge, Mitgliederlisten einschlägiger Fach-
6. Befragungsverfahren
109
verbände etc. herangezogen werden. Bei der Auswahl der in die Stichprobe einzubeziehenden Firmen stellen sich aber andere Probleme als bei Bevölkerungsumfragen: Viele — vielleicht sogar die meisten — der Absatzmärke, bei denen Industrie- und Handelsunternehmen als Abnehmer auftreten, sind oligopolistisch strukturiert, d.h. ein großer Teil des Marktpotentials konzentriert sich auf relativ wenige Abnehmerbetriebe, während sich der restliche kleine Teil des Marktpotentials auf relativ viele Abnehmer verteilt. In diesen Fällen weicht man vom Prinzip der gleichen Auswahlchance für alle Elemente der Grundgesamtheit bei der Stichprobenziehung ab und bemüht sich, die Firmen, auf die sich ein großer Teil des Absatzpotentials konzentriert, möglichst weitgehend zu erfassen. Dabei wird so verfahren, daß die Grundgesamtheit an Hand des Merkmals Absatzpotential in Klassen (sogenannte Schichten) eingeteilt wird und beispielsweise folgende Klassen entstehen: a)
die 10 größten Betriebe, die insgesamt 50% des Absatzpotentials auf sich vereinigen
b)
die 30 Betriebe, die weitere 25% des Absatzpotentials auf sich vereinigen
c)
die 100 Betriebe, die die restlichen 25% des Absatzpotentials darstellen.
Im nächsten Schritt wird dann aus jeder dieser Schichten eine Stichprobe gezogen. Im vorliegenden Falle würde man vielleicht bei der Gruppe der Großabnehmer eine Totalerhebung durchführen und bei der mittleren Gruppe einen Auswahlsatz von 50% bzw. bei der letzten Gruppe von 20% für die Stichprobenziehung wählen. Man erhält auf diese Weise eine disproportional geschichtete Stichprobe, d.h. nicht jedes Element hat die gleiche Wahrscheinlichkeit gezogen zu werden. Auf dieser Basis kann man recht gut Aussagen wie „In Firmen, die ca. 35% des Absatzpotentials repräsentieren, wird die Meinung vertreten, daß . . . " machen, die für die Marketingplanung auch die wichtigsten sein dürften. Will man dagegen Aussagen machen, die sich auf die Gesamtheit der Firmen beziehen (z.B. „In 35% der Firmen ist man der Meinung, daß . . ."), muß man die Verzerrung, die durch die disproportionale Schichtung der Stichprobe entstanden ist, wieder durch eine entsprechende Gewichtung aufheben. Liegt die Voraussetzung einer oligopolistischen Struktur des Absatzmarktes nicht vor, bildet also eine große Zahl relativ kleiner potentieller Abnehmer den Absatzmarkt, kommen natürlich vorwiegend die aus dem Abschnitt über Bevölkerungsumfragen bekannten Verfahren der Stichprobenziehung zum Einsatz, nämlich die einfache Stichprobe, bei der aus der Auflistung der Grundgesamtheit die zu befragenden Firmen mit Chancengleichheit zufällig ausgewählt werden, oder ein- und mehrstufige Verfahren, bei denen die erste Stufe meist in einer Auswahl auf Flächenbasis besteht. Im Gegensatz zu Bevölkerungsumfragen stellt sich bei Unternehmensbefragungen nach der Stichprobenziehung noch ein weiteres Auswahlproblem: Für jedes
110
Datenerhebung
Unternehmen m u ß die Zielperson der Befragung bestimmt werden. Dabei m u ß zunächst gewährleistet sein, daß die Zielperson für den Untersuchungsgegenstand hinsichtlich Sachkenntnis und Entscheidungsgewalt kompetent ist. Eine für den gleichen Gegenstand kompetente Person kann aber in verschiedenen Unternehmen völlig unterschiedlich organisatorisch eingeordnet sein. Damit ist die erste Schwierigkeit bei der Zielpersonenfestlegung schon genannt. Erschwerend k o m m t hinzu, daß heute wichtige Einkaufsentscheidungen o f t in Gremien getroffen werden, daß also aus mehreren in Frage kommenden Zielpersonen die geeignetste ausgewählt werden m u ß . Auf den Aspekt der mangelnden Auskunftswilligkeit zeitlich manchmal stark belasteter Fachleute sei hier nur hingewiesen. Das Problem einer exakten, operationalen und gleichzeitig allgemeingültigen Definition der Zielperson stellt sich weniger scharf bei mündlichen oder telefonischen Befragungen als bei schriftlichen. In den ersteren Fällen kann der Interviewer im Gespräch durch zweckmäßige Fragen zunächst die geeignete Zielperson ermitteln, was auch dadurch erleichtert wird, daß bei Unternehmerbefragungen meist Interviewer eingesetzt werden, die mit dem Untersuchungsgegenstand soweit vertraut sind, daß sie für die befragten Fachleute angemessene Gesprächspartner sind.
6.5
Kommunikationsformen bei der Befragung
6.5.1
Vergleichskriterien
Im Hinblick auf die Art der Kommunikation bei der Befragung werden bekanntlich die mündliche, die telefonische und die schriftliche Befragung unterschieden. Diese drei Formen sollen hier kurz diskutiert, ihre Probleme genannt und Lösungsansätze für einige dieser Probleme aufgezeigt werden. Dabei wird jeweils an Hand dreier wichtiger Kriterien vorgegangen: —
Repräsentanz,
—
Qualität der Daten und
—
Organisatorischer und finanzieller Aufwand.
Im Zusammenhang mit der Repräsentanz geht es zunächst darum, ob das wichtigste Prinzip bei der Auswahl einer repräsentativen Stichprobe, die Berechenbarkeit der Chance für alle Elemente der Grundgesamtheit, Element der Stichprobe zu werden, durch die Kommunikationsform der Befragung beeinflußt wird. Weiterhin ist das wichtige Problem der mangelnden Stichprobenausschöpfung dadurch, daß ein Teil der in der Stichprobe befindlichen Zielpersonen den Fragebogen nicht erhält (z.B. wegen einer Adressenänderung) oder die Antwort verweigert, zu erörtern. Wenn man eine Stichprobe in die Gruppe der Antwortenden und derer, die nicht antworten (Verweigerer u.a.), unterteilt, kann es
6. Befragungsverfahren
111
sein, daß sich diese beiden Gruppen hinsichtlich einiger für die Untersuchung relevanter Merkmale unterscheiden. Beispielsweise könnte man damit rechnen, daß bei einer Untersuchung über soziale Kontakte die Ergebnisse dadurch verzerrt werden, daß kontaktarme Leute besonders häufig Auskünfte verweigern und damit unterrepräsentiert sind. Dieses Problem ist durch eine Vergrößerung der Stichprobe natürlich nicht zu lösen. Vielmehr würden dadurch lediglich Erhebungen über die Antwortverweigerer erschwert. Allein eine möglichst weitgehende Ausschöpfung der Stichprobe kann die Repräsentanz einer Umfrage verbessern. Ein weiteres Repräsentanzproblem bei Befragungen besteht darin zu gewährleisten, daß die für die Stichprobe ausgewählte Person den Fragebogen auch selbst beantwortet (Identitätsproblem). Analog zur Problematik geringer Stichprobenausschöpfung können die Ergebnisse einer Umfrage verzerrt werden, wenn die in der Stichpobe genannte nicht mit der antwortenden Person identisch ist (beispielsweise weil der Interviewer an Stelle der eigentlich zu befragenden Person, die er nicht angetroffen hat, deren Ehepartner befragt), da damit die Zufälligkeit der Auswahl der Erhebungselemente in Frage gestellt wird. Bei der Erörterung der Beeinflussung der Qualität der zu erhebenden Daten durch die Kommunikationsform der Befragung steht die Frage im Vordergrund, in welchem Maße das umrissene Instrumentarium der Frageformulierung (z.B. Verwendung von Vorlagen), des Fragebogenaufbaus (z.B. Steuerung der Fragenreihenfolge) und der Befragungstaktik (z.B. Verwendung umfangreicher ItemBatterien zur Indexbildung oder Skalierung) einsetzbar ist. Weiterhin sind in diesem Zusammenhang auch mögliche Antwortverzerrungen, die mit der Form der Befragung zusammenhängen, zu diskutieren. Der bei mündlicher, telefonischer und schriftlicher Befragung entstehende durchaus unterschiedliche organisatorische und finanzielle Aufwand muß in einem Buch, in dem schwerpunktmäßig leicht zu handhabende Verfahren behandelt werden sollen, natürlich auch eine Rolle spielen. Ein Teil des mit einer Umfrage verbundenen Aufwandes — wie z.B. der für die Fragebogenerstellung, die Auswertung und die Berichterstattung — ist von der Kommunikationsart weitgehend unabhängig und braucht deswegen an dieser Stelle nicht besonders beachtet zu werden. Deutliche Unterschiede zeigen sich vor allem beim Erhebungsaufwand pro Interview und in geringerem Maße bei den mit der Stichprobenziehung zusammenhängenden Tätigkeiten. 6.5.2
Mündliche Befragung
Die mündliche Befragung kann bei Stichproben aus beliebigen Grundgesamtheiten eingesetzt werden. Im Gegensatz beispielsweise zur telefonischen Befragung kann bei diesem Instrument prinzipiell jede Person ausgewählt werden. Hinsicht-
112
Datenerhebung
lieh der Stichprobenausschöpfung führt eine mündliche Umfrage im allgemeinen zu befriedigenden Resultaten, wobei allerdings eine vollständige oder fast vollständige Ausschöpfung nur im Ausnahmefall erreicht wird. Meist muß man sich mit Ausschöpfungsraten von 70% bis 90% zufriedengeben; dabei wird allerdings vorausgesetzt, daß der Interviewer noch zwei bis drei Wiederholungsbesuche macht, wenn er eine Auskunftsperson nicht auf Anhieb antrifft. Ursachen für Interviewausfälle sind Verweigerungen aus verschiedenen Gründen (z.B. Zeitmangel), mangelnde Erreichbarkeit der Zielperson und Adressenmängel. Bei Quotenstichproben, wo der Interviewer ja nicht an bestimmte Auskunftspersonen gebunden ist, entfällt das Problem der Stichprobenausschöpfung. Das Identitätsproblem stellt sich bei mündlichen Befragungen im Zusammenhang mit der Qualität des Interviewerstabes. Bei absolut zuverlässigen Interviewern, die so lange Wiederholungsbesuche machen, bis sie die vorgegebene Zielperson tatsächlich antreffen, zeigt sich dieses Problem natürlich nicht. In der Praxis wird man aber damit rechnen müssen, daß mancher Interviewer der Versuchung nicht widerstehen kann, eine andere Person aus dem gleichen Haushalt oder eine sonstige „ähnliche" Person zu befragen, um einen Wiederholungsbesuch zu vermeiden. Das kann so weit gehen, daß Interviews vollständig gefälscht werden. Zur Sicherung der Identität von zu befragender und antwortender Person können entsprechende Interviewerkontrollen durch Nachbefragungen auf telefonischem oder postalischem Wege vorgenommen werden. Bei der Anwendung des Quotenverfahrens steht man — analog zum Identitätsproblem — vor der Schwierigkeit, den Interviewer zur präzisen Einhaltung der vorgegebenen Quoten zu veranlassen und diese auch zu kontrollieren. Der entscheidende Vorteil der mündlichen Umfrage liegt in der Qualität der erhobenen Daten. Diese Form der Befragung gestattet den Einsatz des gesamten Instrumentariums der Frageformulierung und der Befragungstaktik, da die Befragungssituation vom Interviewer den Anweisungen des Untersuchungsleiters entsprechend gestaltet werden kann. Dadurch kann die Einhaltung einer für den Untersuchungszweck notwendigen Fragenreihenfolge garantiert werden. Es können bei der Befragung Vorlagen (Bilder und Texte) ohne besondere Schwierigkeiten verwendet werden. Der Interviewer kann bei komplexen Fragen Hilfen geben und gegebenenfalls auch die Informationen, die das Interview liefert, durch eigene Beobachtungen ergänzen (z.B. „Produkt A ist im Haushalt vorrätig"). Durch die vielfältigen Möglichkeiten der Fragebogengestaltung kann man eine mündliche Befragung recht abwechslungsreich anlegen und deswegen auch relativ lange Interviews durchführen. Lediglich eine qualitative Einschränkung muß gemacht werden: Beim persönlichen Interview besteht die Gefahr, daß Verzerrungen durch einen Einfluß des Interviewers entstehen (Interviewer-Bias). Dieser kann einerseits darin liegen, daß der Interviewer durch seine Persönlichkeit (Beispiel: Farbiger fuhrt Interviews
6. Befragungsverfahren
über Rassendiskriminierung durch) oder sein Verhalten (z.B. Auftreten, persönliche Bemerkungen) das Antwortverhalten der Auskunftsperson beeinflußt. (Vgl. Haedrich 1964) Andererseits kann - insbesondere dann, wenn der Interviewer selbst eine prononcierte Meinung zum Untersuchungsgegenstand hat - das Phänomen der selektiven Wahrnehmung auftreten. Es handelt sich dabei um eine meist unbewußte Tendenz des Interviewers, die gegebenen Antworten in Richtung auf seine eigenen Erwartungen verfälscht aufzunehmen. Mittel zur Erreichung eines möglichst neutralen Verhaltens des Interviewers sind vor allem in der weitgehenden Standardisierung des Fragebogens, in der klaren personellen Trennung von Untersuchungsanlage und Interviewdurchfuhrung und in der zweckmäßigen Interviewerauswahl und -Schulung zu sehen. Den bisher dargestellten überwiegend positiven Eigenschaften der mündlichen Befragung muß gegenübergestellt werden, daß sie das weitaus aufwendigste der drei behandelten Erhebungsinstrumente ist. Hier ist vor allem an die Kosten für die Interviewer-Honorare zu denken, die insbesondere bei Spezialinterviews (z.B. Unternehmerbefragungen) sehr zu Buche schlagen. Dazu kommen die Spesen des Interviewers, die sich natürlich gerade bei starker räumlicher Trennung der Auskunftspersonen sehr bemerkbar machen. Erschwerend kommt der beträchtliche organisatorische und finanzielle Aufwand für die Rekrutierung, Betreuung, Schulung und Kontrolle der Interviewer hinzu. Dieser Aufwand ist so groß, daß er nur in Fällen lohnend ist, in denen eine größere Zahl von Untersuchungen über einen längeren Zeitraum geplant ist. Für eine einzelne Untersuchung ist man aus diesen Gründen gezwungen, sich der Interviewerorganisation eines Marktforschungsinstituts zu bedienen. Andererseits bietet die mündliche Befragung durch die Möglichkeit, unter Verzicht auf eine wahrscheinlichkeitstheoretische Fundierung der Untersuchung Quota- und Random-Route-Verfahren benutzen zu können, in den entsprechenden Fällen Kostenvorteile bei der Stichprobenfestlegung, die aber den relativ großen organisatorischen und finanziellen Aufwand, der mit der Durchführung der Interviews verbunden ist, nicht aufwiegen können.
6.5.3
Telefonische Befragung
Telefonische Befragungen eignen sich nur für Zielgruppen, bei denen in der Grundgesamtheit eine hohe Telefondichte, möglichst eine vollständige Verbreitung des Telefons, gegeben ist, da ansonsten das Prinzip der Gleichheit der Auswahlchance verletzt wäre. Diese Befragungsart ist also für allgemeine Bevölkerungsumfragen weniger geeignet, da dazu die Telefondichte in der Bundesrepublik Deutschland zur Zeit noch nicht ausreicht, zumal bekannt ist, daß der Besitz eines Telefons mit Merkmalen wie sozialer Schichtung, Einkommen etc. hoch korreliert ist. Eine so angelegte allgemeine Umfrage würde also zu verzerrten Ergebnissen führen. Andererseits kann die telefonische Befragung aber ein zweck-
114
Datenerhebung
mäßiges Instrument bei speziellen Zielgruppen mit hoher Telefondichte sein. Hier seien als Beispiele Befragungen von niedergelassenen Ärzten und Unternehmern genannt. In beiden Fällen kann man davon ausgehen, daß praktisch jedes Element der Grundgesamtheit telefonisch zu erreichen ist. Bei solchen Zielgruppen dürften auch günstige Voraussetzungen für eine hohe Stichprobenausschöpfung gegeben sein, da hier Adressenänderungen und damit verbundene Änderungen des Telefonanschlusses wohl seltener auftreten als Umzüge privater Haushalte. Mangelnde Stichprobenausschöpfung dadurch, daß man Auskunftspersonen nicht antrifft, spielt ebenfalls eine geringere Rolle als bei der mündlichen Befragung, da eine große Zahl von Wiederholungsanrufen leicht und ohne nennenswerten Mehraufwand durchführbar ist. Das für die Repräsentanz einer Untersuchung ebenfalls bedeutsame Identitätsproblem stellt sich ähnlich wie bei der mündlichen Befragung. Die Qualität der erhebbaren Daten ist bei telefonischer Befragung deutlich geringer als bei mündlicher, da man sich auf relativ undifferenzierte Fragestellungen beschränken muß. Die Beschränkung auf den rein akustischen Kontakt läßt komplexere Fragen, die dem Befragten oft nur durch optische Hilfsmittel verständlich werden, nicht zu. Andererseits wird durch die Verringerung des Kontakts zwischen Interviewer und Interviewten auch die Gefahr eines InterviewerBias geringer. Im allgemeinen geht man davon aus, daß ein telefonisches Interview deutlich kürzer sein muß als ein mündliches, nicht zuletzt deswegen, weil bei der Auskunftsperson meist die Hemmung, den Telefonhörer einfach aufzuhängen, geringer ist als die, ein persönliches Gespräch abzubrechen. Ein ganz gravierender Vorzug der telefonischen Befragung besteht in ihrer organisatorisch/finanziellen Seite. Die Kosten pro Interview sind durch den damit verbundenen relativ geringen Zeitaufwand entsprechend niedrig. Spesen für den Interviewer entfallen weitgehend. Man erhält auf telefonischem Wege mit niedrigem organisatorischem Aufwand sehr schnell Ergebnisse. Dabei wirkt sich auch die einfache Stichprobenziehung aus, für die mit den Telefonbüchern — insbesondere den Branchenbüchern - eine gute Grundlage gegeben ist.
6.5.4
Schriftliche Befragung
Nach der Form der Zustellung der Fragebogen werden verschiedene Arten der schriftlichen Befragung unterschieden: -
der durch die Post versandte Fragebogen,
-
der persönlich verteilte und abgeholte Fragebogen,
—
der zeitungsgestreute Fragebogen (Beilagen von Zeitungen u.ä.),
—
der Fragebogen, der an die zu befragenden Personen, die in einem Raum versammelt sind, verteilt und nach der Ausfüllung wieder eingesammelt wird („Klassenzimmer-Interview").
6. Befragungsverfahren
115
Im folgenden soll ausschließlich die postalische Zustellung eines standardisierten Fragebogens als weitaus wichtigste Methode untersucht werden. Diese Methode kann hierzulande bei der Befragung beliebiger Grundgesamtheiten eingesetzt werden. In der Literatur gilt der Hinweis auf die mangelnde Repräsentanz als der schwerstwiegende Einwand gegen die schriftliche Befragung. Dabei wird insbesondere auf eine im Vergleich zur mündlichen Befragung große Zahl von nicht antwortenden Personen verwiesen. Bei einer mündlichen Befragung ist durch die Anwesenheit eines Interviewers, der in irgendeiner Form auf die Beantwortung des Fragebogens drängt und dabei noch behilflich ist, ein so starkes Stimulans gegeben, daß sich die Ausfallquote auf einen „harten Kern" von Antwortverweigerern, die Gruppe der zu Hause nicht anzutreffenden Personen, und die Fälle, bei denen sich die Anschrift geändert hat, reduzieren läßt. Eine schriftliche Befragung, die nicht speziell gestaltet ist, würde weit geringere Rücklaufquoten erzielen, weil viele Auskunftspersonen wegen einer gewissen Gleichgültigkeit, wirklichem oder eingebildetem Zeitmangel oder wegen mangelnder Schreibgewandtheit den Fragebogen nicht ausfüllen. Nur zu einem geringen Teil werden diese Gründe für einen geringeren Rücklauf dadurch kompensiert, daß bei einer postalischen Umfrage der Befragte den Eindruck größerer Anonymität haben kann, und daß Bevölkerungsgruppen, die aus beruflichen oder sonstigen Gründen zu Hause schwer anzutreffen sind, besser als bei einer mündlichen Befragung erreicht werden können. Dementsprechend geht man in der älteren Literatur davon aus, daß bei einer schriftlichen Befragung die Rücklaufquote nur selten größer als 25% ist. Erst in neuerer Zeit ist die Gestaltung von schriftlichen Befragungen so weit entwickelt worden, daß bei Bevölkerungsumfragen Antwortquoten in der Größenordnung von 70% ohne weiteres erreichbar zu sein scheinen. Um dem Befragten eine Motivation zur Beantwortung zu geben, wird dem Fragebogen ein Begleitschreiben beigelegt. Dieses Schreiben muß zunächst Auskunft darüber geben, wer für die Umfrage verantwortlich ist. Im allgemeinen dürften die besten Ergebnisse zu erzielen sein, wenn als Absender eine vertrauenerweckende Institution wissenschaftlichen oder „hoheitlichen" Charakters auftritt. Weiterhin muß in dem Begleitschreiben dargestellt werden, weshalb der Veranstalter der Umfrage an einer Beantwortung des Fragebogens interessiert ist. Oftmals kann man dadurch, daß man auf die wegen der relativ kleinen Stichprobe große Bedeutung jeder einzelnen Antwort im Zusammenhang mit der Wichtigkeit der Umfrage insgesamt hinweist, dem Befragten einen gewissen Anreiz geben, sich zu beteiligen. Eine ausdrückliche Zusicherung der vertraulichen Behandlung der Angaben dürfte für einen Teil der Auskunftspersonen eine Voraussetzung für die Rücksendung sein.
116
Datenerhebung
Beträchtliche Wirkungen in Hinsicht auf eine hohe Antwortquote lassen sich durch den Versand von Mahnschreiben an diejenigen, die bis zu einem bestimmten Zeitpunkt nicht geantwortet haben, erreichen. Dabei wird man zunächst Briefe versenden, die nur an die Umfrage erinnern, und erst bei wiederholten Mahnungen ein weiteres Exemplar des Fragebogens beilegen. Da der Erfolg dieser Schreiben mit der Anzahl der Wiederholungen abnimmt, beschänkt man sich, um die Kosten und die Dauer einer Untersuchung nicht übermäßig anwachsen zu lassen, meist auf zwei oder drei Erinnerungsschreiben. Wenn die Auskunftsperson anonym bleiben soll, macht es natürlich Schwierigkeiten festzustellen, wer nicht geantwortet hat und deswegen gemahnt werden muß. Man behilft sich dann damit, daß man entweder jeden Fragebogen unmerklich kennzeichnet oder den Befragten bittet, getrennt vom Fragebogen ein weiteres Schreiben mit seinem Namen und seiner Adresse zurückzusenden. Vor allem durch Erinnerungsschreiben sind in diversen Untersuchungen hohe Antwortquoten erreicht worden. Dieses Instrument muß daher als sehr wichtig angesehen werden. Bei der Gestaltung des Fragebogens hat man bei schriftlicher Befragung stärker als bei mündlicher auf leichte Lesbarkeit zu achten. Fragebogen, die unübersichtlich aufgeteilt sind, schwer verständliche Fragen enthalten oder einen wenig attraktiven Gesamteindruck hinterlassen, könnten einige Auskunftspersonen veranlassen, gar nicht zu antworten. Interessanterweise scheint nach den Untersuchungen von Scott (1961) die Länge eines Fragebogens keinen gravierenden Einfluß auf die Zahl der Antwortverweigerer auszuüben. Fast immer wird dem Fragebogen ein freigemachter fertig adressierter Rückumschlag beigelegt. Dadurch wird dem Befragten nicht nur die Rücksendung des Fragebogens erleichtert, sondern auf ihn auch ein gewisser Druck ausgeübt. Prämien, (z.B. kleine Geschenke, Teilnahme an Verlosungen) für die Teilnahme an der Umfrage dürften zwar zu höheren Antwortquoten führen, schränken aber die Kostenvorteile einer schriftlichen Befragung ein und bergen außerdem die Gefahr in sich, daß ein Sponsorship-Effekt auftritt. Neben dem der Stichprobenausschöpfung ergeben sich weitere Probleme für die Repräsentanz einer postalischen Befragung dadurch, daß nicht garantiert ist, daß die für die Stichprobe ausgewählte Person den Fragebogen auch tatsächlich ausfüllt (Identitätsproblem). Jegliche Kontrolle durch einen Interviewer entfällt. Die Auskunftsperson hat die Möglichkeit, den Fragebogen beispielsweise durch den Ehepartner bzw. eine Person, die für „kompetent" gehalten wird, ausfüllen zu lassen oder ihn nach Beratung mit anderen Personen auszufüllen. In welchem Ausmaß Fragebogen an Personen, die nicht zur Stichprobe gehören, zur Beantwortung weitergegeben werden, ist weitgehend davon abhängig, ob die zu befragende Person den Eindruck hat, für das Thema der Umfrage „unzuständig" zu sein, bzw. daß es keine Rolle spielt, wer antwortet.
6. Befragungsverfahren
Zur Lösung des Problems bietet es sich zunächst an, im Begleitschreiben ausdrücklich mit der entsprechenden Begründung darum zu bitten, daß nur der richtige Adressat den Fragebogen ausfüllt. Darüber hinaus läßt sich bei nicht anonymen Befragungen eine Kontrolle durchführen, indem man die den Fragebogen ausfüllende Person bittet, ihren Namen anzugeben, der dann jeweils mit dem des eigentlichen Adressaten verglichen wird. Bei Befragungen, die anonym wirken sollen, kann man gegebenenfalls durch Fragen z.B. nach Geschlecht und Alter eine ähnliche Kontrolle erhalten, wenn die Fragebogen trotz der fehlenden Namensangaben identifizierbar sind und die entsprechenden Daten der eigentlich angeschriebenen Personen vorliegen. Bei vielen Umfragen spielt der Einsatz befragungstaktischer Instrumente eine erhebliche Rolle. , J)ie modernen Verfahren der indirekten Fragestellungen verlangen oftmals, daß die Auskunftsperson bei der Beantwortung einer bestimmten Frage den weiteren Ablauf des Interviews noch nicht kennt. Diese Fragetaktiken bleiben bei der schriftlichen Befragung ohne Erfolg, weil die Auskunftsperson die Möglichkeit hat — und in der Regel auch von ihr Gebrauch macht —, zunächst den Fragebogen im ganzen durchzulesen und dann die Antworten aufeinander abzustimmen." (Behrens 1966, S. 63) Auch die Möglichkeit, Vorlagen (Bilder und Texte) zu verwenden, ist gegenüber der mündlichen Befragung eingeschränkt. Die Tatsache, daß die Auskunftsperson den Fragebogen vor der Beantwortung durchlesen kann, beeinträchtigt auch die Verwendbarkeit einiger experimenteller Verfahren. Methoden, bei denen innerhalb einer Versuchsgruppe vor und nach der Auswirkung eines Einflußfaktors eine Messung vorgenommen und aus der Differenz der Ergebnisse auf die Faktorwirkung geschlossen wird, sind bei einer schriftlichen Befragung kaum anwendbar. Wenn man beispielsweise zunächst die Meinung der Auskunftsperson zu irgendeinem Problem erfragt, dann einen Wirkungsfaktor in Form einer diesbezüglichen Information einsetzt, und dann noch einmal nach der Meinung zu diesem Problem fragt, muß man damit rechnen, daß die Auskunftsperson die Information schon vor der Beantwortung der ersten Frage erhält, indem sie den Fragebogen zunächst durchliest. Ein Vergleich der ersten mit der zweiten Messung wäre hier zur Messung der Faktorwirkung nicht brauchbar. Dagegen sind experimentelle Verfahren, die darin bestehen, daß die Messungen aus zwei verschiedenen Untersuchungsgruppen, von denen nur eine dem Einfluß eines Wirkungsfaktors unterworfen war, miteinander verglichen werden, auch bei schriftlichen Befragungen anwendbar. In bezug auf die Qualität schriftlich erhobener Daten gilt es nicht zuletzt, den Fragebogen so zu gestalten, daß die Beantwortung auch weniger gebildeten Personen keine Schwierigkeiten macht. Dabei ist insbesondere an eine präzise, leicht verständliche Formulierung der Fragen, eine möglichst übersichtliche Auf-
118 teilung
Datenerhebung des F r a g e b o g e n s u n d deutliche A n w e i s u n g e n für eine A u s f ü l l u n g z u
d e n k e n . Für eine o p t i m a l e G e s t a l t u n g des F r a g e b o g e n s ist es nützlich, ihn vor der Fertigstellung der E n d f a s s u n g m i t Hilfe kleinerer S t i c h p r o b e n , die ein m ö g l i c h s t breites S p e k t r u m v o n B e v ö l k e r u n g s s c h i c h t e n u m f a s s e n s o l l t e n , g e g e b e n e n f a l l s m e h r f a c h z u testen u n d ihn e n t s p r e c h e n d den dabei g e w o n n e n e n Erfahrungen zu verbessern. Ein gravierender Vorteil der schriftlichen gegenüber der m ü n d l i c h e n Befragung, der den hier beschriebenen recht h o h e n m e t h o d i s c h e n A u f w a n d rechtfertigt, liegt in ihren relativ
niedrigen
Kosten
pro Interview,
die sich im w e s e n t l i c h e n auf
das e n t s p r e c h e n d e P o r t o beschränken. A u c h in organisatorischer Hinsicht hat die schriftliche Befragung V o r t e i l e , da sie nicht den Apparat e i n e s p r o f e s s i o n e l l e n Marktforschungsinstituts voraussetzt, sondern m i t d e m in vielen Büros vorhanden e n apparativen u n d personellen Potential a u s k o m m t . Bei der S t i c h p r o b e n z i e h u n g ist aber i m m e r ein Adressenverzeichnis n o t w e n d i g ; Q u o t a - u n d R a n d o m R o u t e - V e r f a h r e n w e r d e n auf s c h r i f t l i c h e m Wege im allgemeinen nicht praktiziert. Literaturempfehhingen Hier seien zunächst drei „Klassiker" empfohlen, die auch 20 bis 30 Jahre nach ihrem ersten Erscheinen kaum an Aktualität eingebüßt haben und dem Interessenten eine Fülle leicht verständlicher Informationen mit zahlreichen Beispielen bieten: Behrens, K.-Chr.: Demoskopische Marktforschung. 2. Aufl. Wiesbaden 1966. König, R. (Hrsg.): Das Interview. 7. Aufl. Köln 1972. Noelle-Neumann, E.: Umfragen in der Massengesellschaft. Reinbek 1963. Die Autoren bzw. Herausgeber dieser drei Bücher haben die methodische Fundierung und Weiterentwicklung der Umfrageforschung in Deutschland entscheidend geprägt. Umfassende Darstellungen der Befragungsverfahren und zahlreicher ihrer Spezialgebiete finden sich in folgenden Sammelwerken: Behrens, K.-Chr. (Hrsg.): Handbuch der Marktforschung. 1. Bd. Wiesbaden 1974. Ferber, R. (Hrsg.): Handbook of Marketing Research. New York u.a.O. 1974. Ferber, R. (Hrsg.): Readings in Survey Research. Chicago 1978. König, R. (Hrsg.): Handbuch der empirischen Sozialforschung. 2. Aufl. Stuttgart 1967. Koolwijk, J., Wieken-Mayser, M. (Hrsg.): Techniken der empirischen Sozialforschung. Bd. 4. München /Wien 1974. Hinsichtlich der speziellen Probleme schriftlicher Befragungen sei hingewiesen auf: Erdos, P.: Professional Mail Surveys. New York u.a.O. 1970. Hafermalz, O.: Schriftliche Befragung. Wiesbaden 1976. Kanuk, L., Berenson, C.: Mail Surveys and Response Rates - A Literature Review. In: Journal of Marketing Research 12 (Nov. 1975), S. 4 4 0 - 4 5 3 . Über die Probleme der telefonischen und schriftlichen Befragung mit zahlreichen Beispielen: Blankenship, A.: Professional Telephone Surveys. New York u.a.0. 1977. Dillman, D.: Mail and Telephone Surveys. New York u.a.O. 1978.
7.
Beobachtungsverfahren
7.1
Einführung
Die Beobachtung ist eine Technik der Datenerhebung, die auf eine Kommunikation zwischen Erhebendem und Auskunftsperson durch Fragen und Antworten verzichtet. Dabei wird so verfahren, daß die zu untersuchenden Gegebenheiten und Verhaltensweisen direkt erfaßt werden. Dadurch kann drei Problemen der Befragungsverfahren begegnet werden: — In einigen Situationen sind Befragungsverfahren nicht einsetzbar (Beispiel: Untersuchungen bei Kleinkindern). — Befragungen erfassen nur verbale Äußerungen der Auskunftsperson, die keineswegs immer mit dem eigentlich interessierenden tatsächlichen Verhalten übereinstimmen müssen. Beobachtungen können in bestimmten Fällen zu genaueren Ergebnissen führen (Beispiel: Untersuchungen von Kaufverhalten und Kommunikationsverhalten). — Bei Befragungen ist mit Ergebnisverzerrungen durch Einflüsse der Frageformulierung und des Interviewers zu rechnen. Bei entsprechend angelegten Beobachtungsverfahren können derartige Verzerrungen vermieden werden. Andererseits sind — wie noch zu zeigen sein wird — Beobachtungsverfahren natürlich auch nicht frei von Fehlermöglichkeiten. Im Vergleich mit Befragungsverfahren sind sie mit dem gravierenden Nachteil behaftet, bei weitem nicht so breit einsetzbar zu sein wie diese. Gegenstand der Beobachtung können Eigenschaften und Verhaltensweisen von Personen (z.B. Wege einer Person in einem Supermarkt), von Gruppen von Personen (z.B. Kommunikationsprozeß in einer Gruppe) und von Sachen (z.B. Plazierung eines Produktes in den Einzelhandels-Regalen) sein. In diesem Zusammenhang ist hervorzuheben, daß die Untersuchung verbalen Verhaltens durchaus Gegenstand einer Beobachtung sein kann. Durch diesen Weg ist lediglich eine Erhebungstechnik, die sich nicht Frage und Antwort bedient, festgelegt. Die Möglichkeit, für bestimmte Untersuchungen Befragung und Beobachtung zu kombinieren, bleibt davon natürlich unberührt. Aus praktischen Gründen muß man sich bei der Beobachtung auf Sachverhalte beschränken, die hinreichend oft auftreten und nicht zu lange dauern. Beispielsweise wird man kaum die Ursachen für tödliche Verkehrsunfälle durch Beobachtung des fließenden Verkehrs, wo glücklicherweise nur selten Unfälle zu sehen sind, klären oder den Einfluß der schulischen Erziehung auf das Kommunikationsverhalten von Erwachsenen durch die langjährige Beobachtung der Entwicklung von ausgewählten Personen
120
Datenerhebung
überprüfen können. In diesen Fällen wäre der Einsatz von Beobachtungsverfahren zu aufwendig und/oder zu langwierig.
7.2
Auswahlprobleme
Bei der Beobachtung stellen sich dem Forscher meist komplexere Auswahlprobleme als bei der Befragung. Zunächst müssen die für den Untersuchungsgegenstand als relevant erscheinenden Merkmale, die in die Erhebung einbezogen werden sollen, ausgewählt werden. Analog zur Befragung, bei der festgelegt werden muß, mit welchen konkreten Fragestellungen welche Teilaspekte des Untersuchungsthemas geklärt werden können, muß bei der Beobachtung entschieden werden, welche Einzelmerkmale beobachtet werden sollen, da es in der Regel unmöglich ist, alle beobachtbaren Tatbestände zu erfassen. Hier stellt sich wieder das Problem der Gültigkeit einer Messung: Kann man von dem beobachteten Merkmal tatsächlich auf den untersuchten Sachverhalt schließen; kann man beispielsweise daraus, daß in einem Haushalt ein bestimmtes Produkt vorrätig ist, darauf schließen, daß dieses Produkt dort auch verwendet wird? Weiterhin sind Beobachtungseinheiten auszuwählen. Während sich eine Befragung immer an eine Zielperson richtet, können hier auch Personengruppen und Sachen untersucht werden. Dabei sind die Auswahlprobleme aber komplexer als bei der relativ übersichtlichen Ziehung einer Personenstichprobe, da sowohl die Definition der Grundgesamtheit als auch die Abgrenzung der Untersuchungseinheiten Schwierigkeiten bereiten kann (Beispiel: Untersuchung von Kontakten in Nachbarschaftsgruppen). Mit Hilfe von Befragungsverfahren kann man durch vergangenheits- oder zukunftsbezogene Fragen auch Aussagen machen, die vom Befragungszeitpunkt unabhängig sind. Dagegen ist das Ergebnis einer Beobachtung (mit Ausnahme der noch zu behandelnden nichtreaktiven Verfahren) immer auf die Erhebungszeit bezogen. Es stellt sich also zusätzlich das Problem, diese Zeit festzulegen. Dafür sind Anfang und Ende des Beobachtungszeitraumes, die Zahl der Beobachtungsintervalle und die Dauer der Einzelbeobachtung zu bestimmen.
7.3
Gestaltungsmöglichkeiten der Beobachtung
Der Gestaltungsspielraum von Beobachtungsverfahren läßt sich durch vier Dimensionen charakterisieren: — Strukturierte und unstrukturierte Beobachtung Die strukturierte Beobachtung ist durch vorherige Festlegung der zu untersuchenden Einzel-Merkmale und der entsprechenden Erfassungskategorien
7. Beobachtungsverfahren
121
gekennzeichnet, während sich die unstrukturierte Beobachtung als eher impressionistische Informationssammlung darstellt. Letztere ist hauptsächlich für Vorstudien einsetzbar, während die strukturierte Beobachtung in der Regel eine weitgehende Konkretisierung des Untersuchungsgegenstandes voraussetzt. Die eindeutige Zuordnung von beobachteten Tatbeständen zu festgelegten Erfassungskategorien erfordert eine angemessene Schulung des für die Beobachtungen eingesetzten Personals. — Teilnehmende und nicht-teilnehmende Beobachtung Bei der teilnehmenden Beobachtung ist der Beobachter selbst in den untersuchten Prozeß einbezogen. Bei einer Untersuchung über das Verhalten am Arbeitsplatz kann das sich z.B. so vollziehen, daß der Beobachter selbst Arbeitnehmer wird und in dieser Rolle versucht, seine Beobachtungen vorzunehmen. Berühmte Beispiele teilnehmender Beobachtung finden sich auch in der kulturanthropologischen Forschung, wo die Rolle des Beobachters oftmals nicht getarnt sein konnte wie das bei anderen Untersuchungen (trotz forschungsethischer Bedenken) in Hinblick auf unverzerrte Ergebnisse oft als zweckmäßig erscheint. Die teilnehmende Beobachtung hat gegenüber der nicht-teilnehmenden den Vorteil eines engen und tiefen Kontaktes zur Untersuchungseinheit (z.B. einer Gruppe), bringt aber Probleme hinsichtlich der Genauigkeit der Ergebnisse mit sich, die durch die beschränkte Aufnahmekapazität des Beobachters, seine Doppelrolle beim beobachteten Prozeß (Teilnahme und Distanziertheit) und durch den Einfluß des Beobachters auf den zu untersuchenden Vorgang verursacht sein können. -
Offene und getarnte Beobachtung Die offene Beobachtung ist für die beobachtete Person oder Gruppe erkennbar. Diese Form ist zwar aus forschungsethischen Gründen zu bevorzugen, führt aber häufig zu dem Problem, daß das Bewußtsein, beobachtet zu werden, eine unerwünschte Verhaltensänderung der betroffenen Personen mit sich bringt. So könnte beispielsweise eine Untersuchung über den Einfluß von Verkaufsgesprächen für den Verkaufserfolg eines Produktes daran scheitern, daß die beobachteten Verkäufer für den Untersuchungszeitraum von ihrem üblichen Verhalten abweichen und sich an bestimmte Normen, die sie für erwünscht halten, anpassen. Die Mittel zur Tarnung von Beobachtungen sind recht vielfältig. Sie können die Person des Beobachters betreffen, indem z.B. bei Kaufverhaltensuntersuchungen in einem Supermarkt der Beobachter durch eine dem sonstigen Personal entsprechende Arbeitskleidung getarnt wird (Extremfall: teilnehmende, getarnte Beobachtung z.B. in der Rolle des Verkäufers). Andererseits können auch technische Hilfsmittel wie z.B. versteckte Fernsehkameras oder einseitig durchsichtige Spiegel zur Verdeckung von Beobachtungen dienen.
122
-
7.4
Datenerhebung
Feld- und Labor-Beobachtung Wird die Situation, in der die Beobachtung durchgeführt wird, vom Forscher geschaffen oder beeinflußt, so spricht man von einer Labor-Beobachtung, im anderen Falle — bei einer unbeeinflußten Situation — von einer FeldBeobachtung. Wenn für die Beobachtung spezielle technische Geräte (z.B. Hautgalvanometer zur Messung von emotionalen Reaktionen) notwendig sind, ist man in der Regel auf Labor-Untersuchungen angewiesen. Meist ist bei einer Labor-Beobachtung eine Tarnung nicht oder nur eingeschränkt möglich.
Möglichkeiten der Datenerfassung bei Beobachtungen
Für die Datenerfassung bei Beobachtungen gibt es im allgemeinen drei Wege: — den Einsatz von Beobachtern — die Verwendung von technischen Geräten — indirekte Beobachtungen (nichtreaktive Verfahren). Bei der Auswahl der Personen, die den Erhebungsvorgang einer Beobachtung durchfähren, gilt analog zur Interviewerauswahl, wo die Interviewer möglichst wenig über die Ziele einer Untersuchung wissen sollen, das Prinzip der Trennung von Untersuchungsanlage und Datenerhebung, um (z.B. im Hinblick auf selektive Wahrnehmung) unverzerrte Ergebnisse zu erhalten. Zur Erfassung der beobachteten Vorgänge existieren hier mehrere Möglichkeiten: Die erste besteht in der parallel laufenden oder nachträglichen Protokollierung. Hier sind oft recht enge Grenzen der Aufnahme- und Wiedergabefähigkeit des Beobachters gesetzt. Eine Vereinfachung kann darin bestehen, ein übersichtliches und eindeutiges Kategoriensystem zu verwenden. Andererseits bestehen heute technische Möglichkeiten (Tonband, Film, Video-Apparate), die eine fast vollständige Aufzeichnung des beobachteten Vorganges zur nachträglichen Protokollierung und deswegen eine durch die Aufnahmekapazität der beobachteten Person weniger behinderte Analyse erlauben. Bestimmte Beobachtungen lassen sich nur mit Hilfe entsprechender technischer Geräte vornehmen. Hier ist z.B. an die schon erwähnten Hautgalvanometer oder an Augenkameras zu denken, mit deren Hilfe man den Blickverlauf beim Betrachten von Zeitschriften, Anzeigen etc. erfassen kann. In anderen Fällen kann durch den Einsatz technischer Hilfsmittel die sehr aufwendige persönliche Beobachtung oder Befragung ersetzt werden. Hier sei als Beispiel auf die Spezialgeräte zur Hörer- und Seher-Forschung hingewiesen.
7. Beobachtungsverfahren
123
Ein gerade in der Sozialforschung sich stark entwickelndes Gebiet sind indirekte Beobachtungen, die den nichtreaktiven Verfahren zugerechnet werden. Diese Verfahren sind dadurch gekennzeichnet, daß kein Kontakt zwischen Forscher und beobachteten Personen besteht. Es werden vielmehr Auswirkungen von Verhalten untersucht und von daher auf Verhalten geschlossen. Als wichtiges Beispiel aus der Marktforschung sind hier Handelspanels zu nennen, wo regelmäßig Warenbestände und Bestandsänderungen erfaßt werden, was wiederum auf das Kaufverhalten von Verbrauchern schließen läßt. Die mit relativ geringem Aufwand durchführbaren Store-Checks, bei denen in ausgewählten Geschäften z.B. die Plazierung, Vorratshaltung und Preisstellung eines Produktes im Vergleich zu Konkurrenzprodukten beobachtet wird, lassen Schlüsse auf das Verhalten des Handels gegenüber dem untersuchten Produkt zu. Im Bereich der Sozialforschung finden sich zahlreiche Anwendungen nicht-reaktiver Verfahren wie z.B. die Durchsuchung des Mülls in bestimmten Gebieten nach Flaschen, um Anhaltspunkte für den Alkoholkonsum zu bekommen oder die Betrachtung unterschiedlicher Abnutzung von Fußbodenbelägen in Museen, um Aufschlüsse über besonders interessante Ausstellungsstücke und Besucherwege zu erhalten. Indirekte Beobachtungen sind ein Weg der Datenerfassung, der beim Forscher in der Regel einige Phantasie erfordert, aber andererseits bei oft relativ geringem Aufwand zu interessanten — und häufig mit weniger Meßfehlern als Befragung und direkte Beobachtung behafteten — Ergebnissen fuhren kann. Literaturempfehlungen Für tiefergehende Informationen über Beobachtungsverfahren'. Grümer, K.W.: Beobachtung. Stuttgart 1974. König, R. (Hrsg.): Beobachtung und Experiment in der Sozialforschung. 8. Aufl. Köln 1972. Koolwijk, J„ Wieken-Mayser, M. (Hrsg.): Techniken der empirischen Sozialforschung. 3. Bd. München/Wien 1974. Spezialliteratur zu den nichtreaktiven Verfahren: Albrecht, G.: Nicht-reaktive Messung und Anwendung historischer Methoden. In: Koolwijk, J., Wieken-Mayser, M. (Hrsg.): Techniken der empirischen Sozialforschung. 2. Bd. München/Wien 1975. Bungard, W.,Luck,H.: Forschungsartefakte und nichtreaktive Meßverfahren. Stuttgart 1974. Webb, E., Campbell, D., Schwartz, R., Sechrest, L.: Nichtreaktive Meßverfahren. Weinheim/ Basel 1975.
8.
Experimente
8.1
Einführung
In der Markt- und Sozialforschung versteht man unter einem Experiment eine Methode, bei der eine oder mehrere unabhängige Variable dergestalt manipuliert werden, daß die Auswirkungen dieser Manipulation auf eine oder mehrere abhängige Variable gemessen werden können. Je nach Problemstellung können die entsprechenden Messungen durch Befragungs- oder Beobachtungsverfahren vorgenommen werden. Die Anwendung experimenteller Untersuchungen ist also nicht an eines dieser Erhebungsverfahren gebunden. Ein Beispiel für Befragungsexperimente wurde mit dem Einkaufszettel-Test in Abschnitt 6.3.2 (Indirekte Befragungstaktik) schon skizziert. In diesem Falle wurden für zwei Einkaufszettel, die sich nur im Hinblick auf eine bestimmte Kaffeemarke unterschieden (unabhängige Variable), bei getrennten Personengruppen die Einstellungen, die man gegenüber potentiellen Verwendern des jeweiligen Einkaufszettels hat (abhängige Variable), gemessen. Als Beispiel für ein Experiment, bei dem der Schwerpunkt auf der Beobachtung liegt, sei ein Untersuchungsansatz zur Messung der Wirkung des Werbefernsehens bei Kindern kurz dargestellt, der bereits mehrfach angewandt worden ist (vgl. Goldberg/Gorn 1974 und Büning u.a. 1979). Beispiel Es soll untersucht werden, inwieweit ein Werbespot das Verhalten von Kindern beeinflußt. Dabei wird so vorgegangen, daß zunächst allen Kindern einer Gruppe (z.B. Schulklasse) zwei Testprodukte vorgeführt werden und dann mit Hilfe eines Fragebogens die Einstellung der Kinder zu den Testprodukten sowie einige Daten über Spiel- und Fernsehverhalten erhoben werden. Auf der Grundlage dieser Informationen werden zwei vergleichbare Gruppen mit jeweils 15 Kindern gebildet. Im nächsten Schritt wird jeder dieser beiden Gruppen ein kurzes Fernsehprogramm vorgeführt, das sich aus Zeichentrickfilmen und Werbespots zusammensetzt. Die Versuchsgruppe bekommt ein Programm zu sehen, das einen Spot für eines der Testprodukte enthält; die Kontrollgruppe sieht das gleiche Programm ohne diesen Spot. Im letzten Schritt erfolgt dann zunächst wieder eine Einstellungsmessung. Zur Verhaltensmessung wird ein Wettbewerbsspiel durchgeführt, bei dem als Hauptpreis in der Versuchs- und in der Kontrollgruppe das Testprodukt zu gewinnen ist, das in dem Fernsehprogramm der Versuchsgruppe beworben worden ist. Der Kern dieses Teils der experimentellen Anordnung be-
8. Experimente
125
steht darin, daß die drei Kinder, die die Aufgabe (z.B. Zusammenlegen eines Puzzles) am schnellsten lösen, den Hauptpreis bekommen, die Kinder, die das Spiel vor dem Ende aufgeben, das andere Testprodukt (Trostpreis) bekommen und die Kinder, die bis zum Ende spielen, ohne die Lösung zu finden, völlig leer ausgehen. Wer lange versucht, die Aufgabe zu bewältigen und damit den Hauptpreis zu gewinnen, nimmt also nicht nur einige Mühe auf sich, sondern auch ein im Laufe der Zeit steigendes Risiko, überhaupt keinen Preis zu bekommen. Es wird in beiden Gruppen beobachtet, wie lange die Kinder versuchen, die Aufgabe zu lösen. Wenn die Werbung für den Hauptpreis sich auf das Verhalten der Kinder auswirkt, müßte die Versuchsgruppe, die den entsprechenden Werbespot gesehen hat, im Mittel längere Zeit versuchen, zur Lösung zu kommen, was sich in den bisherigen Untersuchungen auch bestätigt hat. Hinweise zur statistischen Auswertung dieses Experiments finden sich im Teil B, Kapitel 3 des vorliegenden Buches. Mit der Kontrolle der Bedingungen des Experiments durch den Forscher ist die entscheidende Voraussetzung zur Verwendung der entsprechenden Ergebnisse für die Überprüfung von Kausalhypothesen gegeben. Die Kontrolle der Variablen führt oftmals dazu, daß die untersuchten Stichproben bei experimentellen Untersuchungen relativ klein sein können. Das ist ein Vorteil, der im Zusammenhang dieses Buches nicht geringzuschätzen ist.
8.2
Anlage von Experimenten
An Hand eines kleinen Beispiels sollen die einfachsten Experiment-Typen kurz vorgestellt werden. In dem Beispiel geht es darum, die Auswirkungen einer Pak kungsänderung auf den Marktanteil eines Produktes als aggregierte Größe für das Kaufverhalten von Individuen zu untersuchen. Die Packungsänderung ist also die unabhängige, der Marktanteil die abhängige Variable. Die Messungen finden in für den Gesamtmarkt möglichst repräsentativen Testgebieten statt; es handelt sich also um ein Feld-Experiment (s.u.). Bei der Darstellung wird auf die von Behrens (vgl. Behrens 1966, S. 70ff.) begründete Terminologie zur Beschreibung der Grundtypen des Experiments zurückgegriffen. Dort werden vier Symbole verwendet: E:
Experimental group (Versuchsgruppe, Experimentiergruppe)
C: Control group (Kontrollgruppe) B: Before (Messung vor Wirkung der unabhängigen Variablen) A: After (Messung nach Wirkung der unabhängigen Variablen)
126
Datenerhebung
Damit lassen sich u.a. die folgenden drei besonders wichtigen Formen der Anlage von Experimenten beschreiben. (Vgl. Abb. 8.1 bis 8.3) Packungsänderung im Testgebiet Marktanteil im Testgebiet vor der Packungsänderung ( X ^
1 •
w
(Vormessung)
Marktanteil im Testgebiet nach der Packungsänderung (X 2 ) (Nachmessung)
Abb. 8.1 (EBA-Typ) Die Differenz (X 2 — X ^ der beiden beobachteten Marktanteile wird als Wirkung der Packungsänderung betrachtet. Bei einer solchen Anordnung entsteht natürlich das Problem, daß auch Wirkungen, die zwischen der Vor- und der Nachmessung von nicht kontrollierten Einflußfaktoren (z.B. Preissenkungen der Konkurrenz) ausgehen, der unabhängigen Variablen „Packungsänderung" zugerechnet werden. Eine sorgfältige Beobachtung der Randbedingungen ist für eine sinnvolle Interpretation von Ergebnissen von Experimenten des EBA-Typs also unabdingbar. Packungsänderung im Testgebiet
Testgebiet:
1
Marktanteil mit der neuen Packung (X 2 ) (Nachmessung)
Kontrollgebiet: •
Marktanteil mit der alten Packung (Y a ) (Nachmessung)
Abb. 8.2 (EA-CA-Typ) Auch hier wird die Differenz (X 2 - Y 2 ) der beiden Marktanteile als durch die unabhängige Variable verursacht interpretiert. Eine entscheidende Voraussetzung für aussagefähige Experimente dieser Art (ohne Vormessung) besteht darin, daß Test- und Kontrollgebiet sehr gut vergleichbar sind. Sollten sich in dem Beispiel
127
8. Experimente
die Marktanteile in den beiden beobachteten Gebieten schon vor dem Einsatz der geänderten Packung deutlich unterscheiden, so würde ein Experiment von EA-CA-Typ natürlich zu absurden Ergebnissen führen. Weiterhin wird angenommen, daß auch externe Faktoren (z.B. Konkurrenzaktivitäten) in beiden Gebieten gleichmäßig wirken. Packungsänderung im Testgebiet Marktanteil im Testgebiet vor der Packungsänderung ( X ^
1
Marktanteil im Testgebiet nach der Packungsänderung (X 2 )
(Vormessung)
(Nachmessung)
Marktanteil im Kontrollgebiet (vor der Packungsänderung im Testgebiet) (Y,)
Marktanteil im Kontrollgebiet (nach der Packungsänderung im Testgebiet)
(Vormessung)
(Nachmessung)
Abb. 8.3
(Y2)
(EBA-CBA-Typ)
Bei dieser Anordnung kann eine durch die Packungsumstellung verursachte „Netto-Änderung" des Marktanteils gemessen werden. Entwicklungseffekte, die vom Einsatz der Variablen ,.Packungsänderung" unabhängig sind, können im Kontrollgebiet beobachtet und durch die Differenz (Y 2 — Y ^ der beiden Marktanteile gemessen werden. Die Marktanteilsänderung (X 2 — X]) im Testgebiet wird dann entsprechend bereinigt, so daß sich als Effekt der Packungsänderung ( X 2 - X , ) - ( Y a - Y , ) ergibt. Aufwendigere Anordnungen Den bisher skizzierten experimentellen Designs sind zwei wichtige Nachteile zu eigen: -
Es kann immer nur die Auswirkung einer einzelnen unabhängigen Variablen gemessen werden.
— Es wird angenommen, daß externe Variable in Versuchs- und Kontrollgruppe gleichmäßig wirken. Eine Kontrolle externer Variablen, die die Ergebnisse entscheidend beeinflussen können, kann besondere Schwierigkeiten bereiten.
128
Datenerhebung
Deswegen sind für die unterschiedlichsten Untersuchungssituationen experimentelle Anordnungen entwickelt worden, die diese Nachteile nicht mehr haben. Hier sei nur auf faktorielle Anordnungen hingewiesen.
8.3
Feld- und Laborexperimente
Analog zur Einteilung der Beobachtungsverfahren spielt auch für den praktischen Einsatz experimenteller Anordnungen die Unterscheidung von Feld- und Laborexperimenten eine Rolle. Vorgehensweisen, bei denen die Wirkung der unabhängigen Variablen und die Messungen der abhängigen Variablen sich in einer natürlichen, realistischen Umgebung vollziehen, werden als Feldexperimente bezeichnet, während man bei Experimenten in einer künstlichen, stark vom Forscher beeinflußten Situation von Laborexperimenten spricht. Diese beiden Typen sind aber keine eindeutig abgrenzbaren Klassen von Experimenten, sondern lediglich die extremen Ausprägungen einer Vielfalt von Gestaltungsmöglichkeiten. Bei Feldexperimenten steht dem Vorteil der Realitätsnähe der Untersuchungssituation und damit der guten Verallgemeinerungsfähigkeit der Ergebnisse das Problem der relativ schlechten Kontrollierbarkeit der Randbedingungen des Experiments gegenüber. Typische Anwendungen von Feldexperimenten finden sich im Bereich der Sozialforschung vor allem bei Untersuchungen in Organisationen (z.B. Betriebe, Schulen), wo es möglich ist, über die Leitung dieser Organisationen die unabhängige(n) Variable(n) (z.B. Entlohnung, Führungsstil) zu beeinflussen. Eine klassische Einsatzmöglichkeit des Feldexperiments in der Marktforschung ist in der entsprechenden Anlage von Testmärkten und Markttests zu sehen. Die Probleme bei der Anlage von Laborexperimenten stellen sich umgekehrt zu denen des Feldexperiments: Einerseits lassen sich in einer stark vom Forscher beeinflußten Untersuchungssituation die Randbedingungen des Experiments gut kontrollieren, andererseits wird die Übertragbarkeit von Ergebnissen, die in einer künstlichen Umgebung gewonnen wurden, natürlich fraglich. Weitverbreitet ist der Einsatz von Laborexperimenten für Produkt-, Packungs- und Werbemitteltests in der Marktforschung. Da der Einsatz des Laborexperiments aus praktischen Gründen in der Regel auf die Untersuchung von relativ wenigen Versuchspersonen beschränkt ist, konzentrieren sich die sozialwissenschaftlichen Anwendungen auf die psychologische Forschung und die Kleingruppenforschung. Literaturempfehlungen Für eine weitere Befassung mit der Anlage und Durchführung von Experimenten in der Markt- und Sozialforschung:
8. Experimente
129
Cox, K., Enis, B.: Experimentation for Marketing Decisions. New York 1969. Hüttner, M.: Informationen für Marketing-Entscheidungen. München 1979. König, R. (Hrsg.): Beobachtung und Experiment in der Sozialforschung. 8. Aufl. Köln 1972. Pagès, R.: Das Experiment in der Soziologie. In: König, R. (Hrsg.): Handbuch der empirischen Sozialforschung. 2. Aufl. Stuttgart 1967. Stelzl, /.: Experimentelle Versuchsanordnungen. In: Koolwijk, J., Wieken-May ser, M. (Hrsg.): Techniken der empirischen Sozialforschung, 6. Band. München/Wien 1974. Tuli, D., Hawkins, D.: Marketing Research. New York/London 1976. Zimmermann, E.: Das Experiment in der Sozialforschung. Stuttgart 1972.
Teil B Datenanalyse
1.
Modell - Hypothese - Daten
1.1
Modell und Hypothese
Unter einem statistischen Modell wollen wir - im allgemeinsten Sinne - eine Menge von Annahmen zur Beschreibung von Phänomenen, insbesondere von Strukturen in den beobachteten Daten verstehen. Diese Annahmen können Ausdruck von Vorinformationen, aber auch von Vermutungen über die Eigenschaften der Phänomene bzw. über die Datenstrukturen sein. Wir nehmen also an, daß Beobachtungen „nicht vom Himmel" gefallen sind, sondern von einem Prozeß erzeugt wurden, den wir durch ein bestimmtes Modell beschreiben. Natürlich können verschiedene Modelle zur Erklärung desselben Phänomens vorgeschlagen werden. Es stellt sich dann die Frage, welches Modell dieses Phänomen bzw. diese Datenstruktur „am besten" beschreibt. Da Vorinformationen bzw. Vermutungen in der Regel nicht sämtliche Charakteristika des zu untersuchenden Phänomens eindeutig festlegen können, werden zur genaueren Spezifikation statistische Hypothesen formuliert und mit Hilfe geeigneter Verfahren überprüft. Modellannahmen, die wir als a-priori Hypothesen auffassen können, sind im Gegensatz dazu nicht der eigentliche Gegenstand einer statistischen Untersuchung. Vereinfacht mag der Unterschied zwischen Modell und Hypothese wie folgt formuliert werden: Ein Modell wird unterstellt, eine Hypothese ¿(«/gestellt, um sie zu überprüfen. Diese Unterscheidung ist jedoch nicht absolut zu sehen, denn was in einem Fall als „gegeben" angenommen wird und somit Bestandteil des Modells ist, mag im anderen Fall Gegenstand des „Disputs" und somit Teil der Hypothese sein. Wir wollen das an einem Beispiel veranschaulichen: Zur Untersuchung der Intelligenz von Studenten aus den Fachrichtungen Wirtschaftswissenschaft (W) und Sozialwissenschaften (S) werden aus jeder der beiden Fachrichtungen einige Studenten zufällig ausgewählt und ihre IQ-Werte gemessen. Folgendes (restriktive) Modell werde zugrundegelegt: 1.
Die Stichprobenvariablen Xj und Yj, die die IQ-Werte der ausgewählten Studenten aus W bzw. S angeben, sind unabhängig.
2.
Die IQ-Werte in W sind normalverteilt mit Erwartungswert und die in S normalverteilt mit ß Y und a \
3.
^x = °y > w °bei o^ und Oy unbekannt sind. (Die Annahme bekannter Varianzen ist wenig realistisch.)
Für einen Test der Hypothese H : ß x = ßy G:Mx tMy
gegen die Gegenhypothese
und Varianz
134
Datenanalyse
ist der t-Test der geeignete (parametrische) Test (siehe Kapitel 3). Es mögen aber nun berechtigte Zweifel an der 2. Modellannahme bestehen. Dann wird an die Stelle der Annahme der Normalverteilung eine Hypothese der Normalverteilung treten, die mit dem im 2. Kapitel dargestellten „Anpassungstest" überprüft werden kann. Für das eigentliche Untersuchungsziel des Vergleichs der Intelligenz der Studenten aus W und S ist aber die Annahme einer ganz bestimmten Verteilung der IQWerte (hier: die Normalverteilung) nicht unbedingt notwendig. Wir könnten auch die Hypothese prüfen, daß die Verteilungen der IQ-Werte in W und S gleich sind, welche Gestalt sie auch immer haben mögen. Tests, die ohne die (restriktive) Modellannahme einer bestimmten Verteilung auskommen, gehören zu den sogenannten nichtparametrischen Tests, von denen wir in den folgenden Kapiteln eine Reihe vorstellen werden. Wie reagieren nun statistische Verfahren auf Abweichungen von bestimmten Modellannahmen, d.h. wie robust, wie unempfindlich sind sie gegenüber Änderungen der Postulate des Modells? So könnte im obigen Beispiel statt 3. die Annahme: =(= a \ gemacht werden oder an die Stelle von 1. eine bestimmte Abhängigkeitsstruktur (realistisch?) der Daten treten. Dieses Problem der Robustheit statistischer Verfahren, das in jüngster Zeit stark an Bedeutung gewonnen hat, werden wir in den folgenden Kapiteln beispielhaft aufgreifen und untersuchen. Auf die Frage nach der Auswahl eines adäquaten Modells kann hier nur eine wenig befriedigende, allgemeine Antwort gegeben werden, denn eine konkrete „Empfehlung" hängt zu sehr von der substanzwissenschaftlichen Fragestellung ab. Modelle können nur so gut oder so schlecht, besser: so sehr oder so wenig angemessen sein, wie ihr Erklärungswert für das zu untersuchende Phänomen hoch oder gering ist. Als Kriterium hinsichtlich der Angemessenheit eines Modells könnte die Prognose im Zusammenhang mit der Diskussion verschiedener Zeitreihenmodelle dienen (s. Kapitel 7). Wer auch immer für die Konstruktion des Modells verantwortlich ist, sei es der Substanzwissenschaftler selbst, sei es der (angewandte) Statistiker, einer Tatsache sollten sich beide stets bewußt sein: Die Brauchbarkeit einzelner Modelle hängt nicht von einer (quasi im Elfenbeinturm entwickelten) mathematischstatistischen Theorie ab, sondern von ihrer Angemessenheit hinsichtlich der substanzwissenschaftlichen Fragestellung, wie schwer auch immer diese Angemessenheit im Einzelfall zu überprüfen ist.
1. Modell - Hypothese - Daten
1.2
Phasen einer statistischen Untersuchung
1.2.1
Hypothesenbildung
135
In dem konventionellen Ablaufplan einer statistischen Untersuchung steht an erster Stelle die exakte Formulierung des Untersuchungsgegenstandes, speziell einer Hypothese, die dann mit Hilfe empirischer Daten überprüft werden soll. Es gibt zahlreiche Beispiele (Qualitätskontrolle eines Produkts u.a.), für die eine solche Reihenfolge „Hypothese-Daten" unumgänglich ist, um sich nicht dem Verdacht der Manipulation des Untersuchungsziels auszusetzen. Es lassen sich aber auch Bereiche anführen, in denen ein solches Schema zu starr und nicht auf die reale Situation zugeschnitten ist, so z.B. in der Markt- und Sozialforschung. Daten werden im täglichen Leben oft nicht gezielt erhoben, sondern sie „fallen an". Dabei mag es sich um Aktienkurse, Wachstumsraten, Umsätze von Firmen, Marktanteile, Leistungsprüfungen, Daten über Lebensverhältnisse von Kindern u.a. handeln. Die Aufgabe des Statistikers besteht dann darin, Strukturen in den Daten zu erkennen und nach Theorien zu suchen, die dieses Datenmuster erklären sollen. Diese Vorgehensweise „Daten-Hypothese" mit dem Ziel der Hypothesenfindung wollen wir nach Tukey als explorative Daten-Analyse (EDA) bezeichnen, die von ihm eine „numerische Detektiv-Arbeit" genannt wird. EDA basiert also nicht auf einem strikten Festhalten an der „Hände weg von den Daten-Vorschrift", die den Statistiker in eine Rolle drängt, in der persönlicher Einbezug in den Prozeß wissenschaftlicher Entdeckung ausgeschlossen ist. Der Statistiker sollte also nicht blind sein für neue Theorienbildung und Hypothesenfindung, ganz gleich, ob die Daten gezielt erhoben wurden oder zwangsläufig anfielen. 1.2.2
Datengewinnung
Werden zum Zwecke einer statistischen Untersuchung Daten herangezogen, die nicht direkt für diese Untersuchung erhoben wurden, so sprechen wir von sekundärstatistischem, im Falle einer eigens durchgeführten Erhebung von primärsta.tistischem Datenmaterial. Sekundärdaten können einerseits aus früheren statistischen Untersuchungen vorliegen, andererseits auch „permanent anfallen", ohne in erster Linie statistischen Analysen zu dienen. Zum letzteren gehören weite Bereiche der betrieblichen und amtlichen Statistik, sowie Daten einer Volkswirtschaft: Aktienkurse, Konsum und Einkommen in der zeitlichen Entwicklung u.a. Für den Statistiker geht es also hier mehr um eine Datenbesc/w/fung (wie schwierig auch immer sich dieses Unterfangen gestalten mag) als um eine Datengewinnung beim primärstatistischen Aspekt. Zu den wichtigsten Methoden der Datenbeschaffung bzw. -gewinnung gehören: Das Beobachten von Sachverhalten und Vorgängen in der realen Welt, das Befragen von Personen und die Durchführung von Experimenten. In der Markt- und
136
Datenanalyse
Sozialforschung spielt die (mündliche) Befragung eine dominierende Rolle, in der Sozialforschung außerdem das Gruppen-Experiment. Bei der Datenerhebung selbst kann es sich um eine Totalerhebung (z.B. Volkszählung eines Landes, Personalkartei eines Betriebes) oder um eine Teilerhebung handeln, die entweder als bewußte Auswahl oder als zufällige Auswahl (random sampling) durchgeführt werden kann. Wir wollen an dieser Stelle nicht näher auf Vor- und Nachteile einer Totalerhebung gegenüber einer Teilerhebung bzw. einer bewußten Auswahl gegenüber einer zufälligen Auswahl eingehen. Darüber sind wohl in jedem Lehrbuch der Statistik, speziell der Stichprobentheorie erschöpfende Informationen zu finden, siehe Kellerer (1963). Stattdessen sei auf ein Problem hingewiesen, das sich gerade im Zusammenhang mit der zufälligen Auswahl stellt, das aber in der Regel wenig Beachtung findet: Inferenzstatistik hinsichtlich endlicher Grundgesamtheiten. Wenn eine (zufällige) Stichprobe vom Umfang n aus einer Grundgesamtheit mit N Elementen gezogen wird, so wissen wir alles über die ausgewählten n Elemente und nichts über die restlichen N-n Elemente, wenn wir nicht gewisse stochastische Modellannahmen über die Grundgesamtheit treffen. Daran ändert auch die Tatsache nichts, daß durch die zufällige Auswahl (künstlich) eine Wahrscheinlichkeitsverteilung erzeugt wird. Royall (1976) veranschaulicht diesen Sachverhalt an einem einprägsamen Beispiel: Ob wir eine Axt, einen Esel oder eine Büchse von Pferdehufen wiegen, das Gewicht eines zufällig ausgewählten Objekts sagt uns nichts über die Gewichte der beiden anderen Objekte, und das unabhängig davon, nach welchem Zufallsprinzip wir das Objekt ausgewählt haben. Erst die Annahme, daß die endliche Grundgesamtheit selbst als Zufallsstichprobe aus einer unendlichen Grundgesamtheit stammt und ein Wahrscheinlichkeitsmodell den Zusammenhang zwischen den Zufallsvariablen dieser Stichprobe beschreibt, macht den Weg frei für inferenzstatistische Methoden. Wie wir bereits im vorangegangenen Abschnitt angedeutet haben, muß die Stochastik nicht unbedingt auf einer Zufallsauswahl basieren. Wollen wir z.B. aufgrund zeitlich anfallender (nicht zufällig ausgewählter) Daten den (linearen) Zusammenhang zwischen den beiden Variablen Volkseinkommen (Y) und Konsum (C) einer Volkswirtschaft beschreiben, um ihn dann mit Methoden der Inferenzstatistik zu spezifizieren, so können wir folgendes stochastische Modell zugrundelegen: C, = a + ß Y t + U t
(t als Zeitindex).
Hierin bedeuten a, ß unbekannte, zu schätzende oder zu testende Parameter und U t eine „Störvariable" (Zufallsvariable!), über die gewisse, noch zu präzisierende wahrscheinlichkeitstheoretische Annahmen hinsichtlich ihres Erwartungswertes, ihrer Varianz, ihrer Verteilung, der Korreliertheit der U t untereinander
1. Modell - Hypothese - Daten
137
o.ä. zu machen sind. Mit diesem Modellansatz werden also die über einen gewissen Zeitraum beobachteten Konsumwerte als Realisationen von Zufallsvariablen C t aufgefaßt, wohingegen die Variablen Y t als stochastisch, aber auch als deterministisch interpretiert werden können. Statt einer ZufallsaMswaW liegt hier also eine Zufallsawifl/ime vor. Ob obiges Modell für den Zusammenhang zwischen Einkommen und Konsum mit den Annahmen der Linearität (bezogen auf denselben Zeitpunkt t), der Verteilung von U t u.a. angemessen ist, soll hier nicht weiter diskutiert werden. Solche und ähnliche Probleme hinsichtlich der Beziehung von zwei oder mehreren Variablen werden wir ab dem 3. Kapitel untersuchen. Wir wollen noch auf weitere Situationen hinweisen, in denen im Rahmen einer statistischen Untersuchung eine Zufallsauswahl kaum praktikabel, oder sogar wenig sinnvoll ist, so z.B. im Experiment oder im Gruppengespräch zur Findung oder Überprüfung von Hypothesen; sei es in der Medizin, sei es in der Markt- und Sozialforschung. Soll z.B. die Wirkung gewisser Medikamente auf schwangere Frauen im Rahmen einer klinischen Untersuchung getestet werden, so wird man wohl kaum erst sämtliche(?) schwangeren Frauen zu erfassen versuchen und dann eine Zufallsauswahl vornehmen (auch eine Quotenauswahl scheidet aus verständlichen Gründen aus), sondern solange bereitwillige schwangere Frauen für die Untersuchung erfassen, bis ein gewünschter Stichprobenumfang erreicht ist. Inwieweit das Untersuchungsergebnis repräsentativ für alle schwangeren Frauen ist, darüber mögen sich dann die Experten streiten. Oder ein Beispiel aus der Marktforschung: Im Rahmen eines Gruppengesprächs soll die Reaktion der Teilnehmer auf gewisse Werbespots für ein bestimmtes Produkt getestet werden. Wie sollte die Grundgesamtheit aller Personen der Zielgruppe, die dieses Produkt kaufen könnten, abgegrenzt werden, um daraus eine Stichprobe ziehen zu können? Zur praktischen Durchführung der Untersuchung liegt es nahe, eine möglichst heterogene Gruppe zusammenzustellen (wobei Kriterien für die Heterogenität noch festzulegen wären), um aus dem Gruppengespräch dann auf Reaktionen der Kunden im allgemeinen schließen zu können. Natürlich stellt sich auch hier die Frage nach der Verallgemeinerungsfähigkeit der gewonnenen Erkenntnisse. Schon diese beiden einfachen Beispiele machen deutlich, daß die praktische Durchführung einer Zufallsauswahl häufig nicht möglich oder zumindest recht problematisch ist; ganz abgesehen von der Frage, ob eine Zufallsauswahl überhaupt dem Problem angemessen ist.
1.2.3
Datenverdichtung
Ganz gleich, ob es sich um primär- oder sekundärstatistisches Material handelt, in der 3. Phase der Untersuchung geht es um die Verdichtung einer (möglichen) Fülle vorliegender Daten, um die Information überschaubar zu machen. Es ver-
138
Datenanalyse
steht sich von selbst, daß nur solche Daten in den Prozeß der Verdichtung einbezogen werden, die für die Problemstellung wesentlich sind. Dabei soll aber nicht grundsätzlich die Möglichkeit ausgeschlossen werden, mit Blick auf die „Restdaten" zusätzliche Fragestellungen aufzuwerfen und damit Hypothesen zu finden, so wie wir es in Abschnitt 1.2.1 mit dem Begriff der explorativen Datenanalyse gekennzeichnet haben. Datenverdichtung wird hier zum einen als Datenaufbereitung, z.B. in Form von Häufigkeitstabellen oder graphischen Darstellungen (Ordnen der Daten), verstanden und zum anderen als Datenreduktion durch geeignete Transformationen, wie z.B. die Berechnung der Maßzahlen x und s2. Die Auswahl geeigneter Transformationen ist aber nicht nur im Zusammenhang mit der Reduktion der Daten auf einige wenige charakteristische Kennzahlen zu sehen, sondern z.B. auch verbunden mit der Frage der Anpassung der vorliegenden Daten an einen bestimmten Verteilungstyp wie den der Normalverteilung u.a. (siehe Kap. 2). Bei der Datenverdichtung stellt sich vorab die Frage nach der Wahl geeigneter Maßzahlen, die das Wesentliche der Daten zusammenfassen sollen. Und da zeigt sich häufig das Dilemma in der Praxis. So dürfen und werden zumeist in der statistischen Auswertung als Lagemaß x und als Streuungsmaß s2 nicht fehlen, ohne Berücksichtigung der Frage, ob diese Maße hinsichtlich des Meßniveaus der Daten (siehe 1.3), der zugrundeliegenden Verteilung des zu untersuchenden Merkmals oder bei Vorliegen von „Ausreißern" überhaupt geeignet oder die „besten" unter den Lage- bzw. Streuungsmaßen sind. Wir werden im 2. Kapitel mit dem Median, dem „a-trimmed mean", dem Interquartilabstand u.a. Konkurrenten von x bzw. s2 kennenlernen, die häufig nicht nur der Problemstellung angemessener sind, sondern auch bessere Eigenschaften als x bzw. s2 haben. Ebenfalls im 2. Kapitel sind einige neuere Verfahren zur Datenaufbereitung, speziell zur Darstellung der Daten beschrieben. Zum Schluß dieses Abschnitts noch eine Bemerkung zur maschinellen Aufbereitung und Transformation der Daten. Der Computer ist hierfür in den verschiedensten Bereichen der empirischen Forschung zu einem unentbehrlichen Werkzeug geworden. Der älteste Computer, so hat es McNeil (1977) formuliert, ist der Mensch, ausgerüstet mit Papier und Bleistift... und der elektronische Computer ist nichts anderes als eine besondere Menge von Händen; oder, um mit R. Hamming zu sprechen: „eine Ausdehnung des Körpers, nicht des Geistes". Wir möchten an dieser Stelle den Leser ausdrücklich davor warnen, den Analyseergebnissen von Standardprogrammpaketen der Statistik unkritisch und ungeprüft Glauben zu schenken. 1.2.4
Datenanalyse
Ziel einer statistischen Untersuchung ist aber zumeist nicht die Beschreibung eines einmaligen Vorgangs, so z.B. nicht die Auswertung einer Stichprobe über
1. Modell - Hypothese - Daten
139
die Einstellung zu einer Partei oder eines Gruppenexperiments über soziales Verhalten oder einer vorliegenden Zeitreihe über die Preisentwicklung eines Produkts, sondern die Antwort auf die Frage: Ist das gewonnene Ergebnis repräsentativ für eine umfassendere Menge von Objekten (Grundgesamtheit), bzw. gibt es Aufschluß über die zukünftige Entwicklung (Prognose)? Diese Probleme der Übertragung von Einzelergebnissen auf eine „höhere" allgemeingültige Ebene sind zentrales Thema der Inferenzstatistik (induktiven Statistik). Zu ihr gehören die Methoden der Schätztheorie (Punkt-Intervallschätzung) und die der Testtheorie (parametrische und nichtparametrische Verfahren). So mag es darum gehen, aufgrund der beobachteten Zeitreihen für Y t und C t im linearen Modell aus Abschnitt 1.2.2 den Parameter ß zu schätzen oder zu testen. Oder ein anderes Beispiel aus der Marktforschung: Inwieweit wirkt sich der Verpackungstyp (nach Farbe, Form o.ä.) eines neuen Produkts auf die Kaufintensität des Produkts aus? Mit anderen Worten: Sind Verpackungstyp und Absatzmenge unabhängig? Weiterhin, wenn eine Abhängigkeit vorliegt: Wo „schlägt diese Abhängigkeit durch", d.h. welche Farbe, Form o.ä. hat starke Auswirkungen auf die Absatzmenge? Alle diese Methoden der Inferenzstatistik machen die (vorläufig) letzte Phase der statistischen Untersuchung, die Datenanalyse, aus. Die Einbeziehung von „vorläufig" soll hier noch einmal zum Ausdruck bringen, daß mit dem einen, über inferenzstatistische Methoden gewonnenen Ergebnis der Weg für weitere Untersuchungen aufgrund des vorliegenden Datenmaterials offen bleibt, d.h. der wechselseitige Prozeß des Findens und Uberprüfens von Hypothesen (trial and error) nicht beendet sein muß. Was die Auswahl adäquater Schätz- und Testverfahren für speziell formulierte Probleme betrifft, so werden wir uns in den folgenden Kapiteln von drei Kriterien leiten lassen, der Zulässigkeit, der Optimalität und der rechentechnischen Einfachheit. Die ersten beiden Kriterien beziehen sich auf die Berücksichtigung der Modellannahme (Verteilungstyp, Meßniveau der Daten u.a.) und bedingen damit die Entscheidung für ein parametrisches oder ein nichtparametrisches bzw. robustes Verfahren. Optimalität ist dabei im Sinne maximaler Güte eines Tests bzw. minimaler Varianz einer Schätzfunktion zu verstehen. Das dritte Kriterium bedeutet eine Reduzierung des Rechenaufwandes zur „schnelleren" Datenanalyse (Quick-Verfahren), gerade auch im Hinblick auf das Ziel dieses Buches, dem Markt- und Sozialforscher operationale Verfahren anzubieten.
1.3
Meßniveau von Daten
Wir haben im Abschnitt 1.2.2 über Datengewinnung das Problem der Datenmessung, d.h. des Vorgangs, den Objekten Zahlen oder Symbole (unter Einhaltung von Verträglichkeitsbedingungen) zuzuweisen, bewußt ausgeklammert, weil wir.
140
Datenanalyse
diesem Problem wegen seiner Bedeutung — auch im Hinblick auf die Entscheidung für adäquate Schätz- und Testverfahren — einen besonderen Abschnitt widmen wollen. Als erstes Beispiel sei das aus 1.2.4 angeführt, in dem von Verpackungstyp nach Farbe (blau, rot, . . . ) und von der Absatzmenge ( 2 0 , 3 1 , . . . Stück) die Rede ist; hier liegen offensichtlich zwei unterschiedliche Meßniveaus der Daten vor. Wir werden nun die vier verschiedenen Skalen des Messens angeben und jeweils an Beispielen erläutern. 1. Nominalskala Die Objekte werden gemäß bestimmter Regeln in Klassen (Gruppen) eingeteilt; die Klassencharakterisierung geschieht durch Zuordnung von Symbolen oder Zahlen. Betrachtet werden hier nur die Relationen „gleich" oder „ungleich" (= und *), d.h. ein Objekt gehört oder gehört nicht zu einer bestimmten Klasse. Zulässig (im Sinne der Informationserhaltung) sind alle eineindeutigen Transformationen. So ist es z.B. völlig unerheblich, ob den Produkten eines Marktes die Ziffern 1 , 2 , 3 , . . . oder die Buchstaben A , B , C , . . . zugewiesen werden. Beispiele Blutgruppen, Postleitzahlen, Geschlecht, Berufe, Autonummer. Bemerkung: Die Bildung des arithmetischen Mittels x ist hier offensichtlich sinnlos, so z.B. die durchschnittliche Autonummer für alle in Berlin zugelassenen Kraftfahrzeuge. 2. Ordinalskala Die Objekte werden in eine Rangordnung gebracht; es findet eine Auszeichnung von Objekten vor anderen statt. Zusätzlich zu den Relationen der Nominalskala werden hier die Relationen „kleiner" und „größer" ( < und > ) betrachtet, d.h. ein Objekt ist kleiner oder größer, besser oder schlechter usw. als ein anderes Objekt. Zulässig sind hier nur noch alle echt monoton wachsenden Transformationen T (d.h. aus x , < x 2 folgt T ( x , ) < T ( x 2 ) ) . Beispiele Schulnoten, Windstärke, Güteklassen von Produkten, Rangordnungen bei Wettbewerben. Bemerkung: Auch hier ist die Bildung des arithmetischen Mittels x nicht sinnvoll (wenngleich es in der Praxis häufig getan wird), denn nur die gemessenen Daten selbst, nicht aber ihre Differenzen können in eine Rangordnung gebracht werden. So wird z.B. bei einem Schönheitswettbewerb nicht gesagt werden können, um wieviel „schöner" die Siegerin gegenüber der Zweitplacierten ist. Auch aus der Vergabe von Schulnoten mit einer 2 für Schüler A, einer 3 für Schüler B,
1. Modell - Hypothese - Daten
141
einer 4 für Schüler C und einer 5 für Schüler D kann sicherlich nicht abgeleitet werden, daß A gegenüber B so viel besser ist wie C gegenüber D. 3. Intervallskala Die Intervallskala realisiert sich ausschließlich durch reelle Zahlen, d.h. sie ist quantitativ, und die Intervalle zwischen zwei Zahlen haben einen empirischen Sinn. Als Erweiterung der =, + , < , > - Relationen der Ordinalskala für die Meßwerte der Objekte selbst erlauben obige Relationen nun auch Aussagen über die Differenzen zwischen je zwei Zahlen. Zulässig sind hier alle linearen Transformationen T (d.h. T : x -»• ax + b). Beispiele Temperatur (gemessen in Celsius oder Fahrenheit), Kalenderdaten, Zeitdauer (bei verschiedenen Startpunkten). Bemerkung: Die Bildung von x ist nun zulässig. Da mit einer Intervallskala aber noch kein fester Nullpunkt ausgezeichnet ist, können wir z.B. nicht sagen, daß es in Raum F mit 20 °C doppelt so warm ist wie in Raum E mit 10 °C, wohl aber, wenn Raum G 30 °C und Raum H 40 °C haben: Raum F ist gegenüber Raum E genausoviel wärmer wie Raum H gegenüber Raum G. 4. Verhältnisskala Bei diesem Skalentyp existiert ein fester Nullpunkt. Zulässig sind hier nur noch alle proportionalen Transformationen T (d.h. T : x -*• ax), unter denen der Quotient zweier Skalenwerte erhalten bleibt: ax t _ x t ax 2 Xj Beispiele Kosten, Gewinn, Länge, Volumen, Gewicht, Fläche. Bemerkung: Neben den bei Intervallskalen zulässigen Maßzahlen wie dem arithmetische Mittel x, der Streuung s 2 oder dem Korrelationskoeffizient r (siehe Kapitel 4) kommen nun noch z.B. der Variationskoeffizient -=• und das geometrische Mittel hinzu; Maßzahlen, welche die Festlegung des Nullpunktes erforderlich machen. Die obigen vier Skalenarten werden häufig noch in zwei Klassen zu je zwei Skalen zusammengefaßt: Topologische Skala Nominalskala Ordinalskala
Kardinalskala Intervall skala Verhältnisskala
142
Datenanalyse
Daten mit topologischem Meßniveau können als qualitative und solche mit kardinalem Meßniveau als quantitative Daten gekennzeichnet werden. Wir wollen anschließend alle vier Skalen noch an einem Beispiel erläutern: Ein Produkt kann „gemessen" werden hinsichtlich Farbe (Nominalskala), Qualität (Ordinalskala), Haltbarkeit mit Temperaturangaben (Intervallskala) und des Preises (Verhältnisskala). Was dann im konkreten Fall gemessen wird, hängt natürlich vom Untersuchungsgegenstand ab. In der Markt- und Sozialforschung liegen häufig Daten mit nur nominalem oder ordinalem Meßniveau vor. Dieser Tatsache werden wir in den folgenden Kapiteln durch eine bevorzugte Darstellung entsprechender Verfahren bei der Datenanalyse Rechnung tragen.
2.
Eindimensionale Datensätze
2.1
Explorative Verfahren: Datenverdichtung
2.1.1
Beispiele
(1) Ein Sozialforscher beobachtet Kinder auf einem Spielplatz und erhält eine Liste von Zahlen, in der für jedes Kind angegeben wird, wie oft es (im Beobachtungszeitraum) aggressives Verhalten zeigte. (2) Ein Marktforscher liest die Tageszeitung und notiert die Preise für VW-Käfer, die in den Anzeigen gefordert werden. Das sind Beispiele für die einfachsten Datensätze, die wir betrachten wollen: unstrukturierte Listen x 1 , x 2 , . . . , x n von Zahlen. Die Methoden zur Analyse solcher Datensätze werden wir relativ ausfuhrlich besprechen. Dies aus zwei Gründen: Zum ersten werden diese Methoden beim Vergleich von Datensätzen (Beispiel: Wie unterscheiden sich männliche und weibliche Kinder hinsichtlich ihrer Aggressivität?) und bei der Aufdeckung von Beziehungen zwischen Datensätzen (Beispiel: Wie verändern sich die Preise mit dem Baujahr?) eine wichtige Rolle spielen. Zum zweiten tauchen eindimensionale Datensätze als „Zwischenprodukt" einer typischen Analysesituation auf: dem Vergleich von Beobachtungseinheiten unter zwei verschiedenen Bedingungen. Beispiel: In Filialen eines Supermarkts wird eine Werbemaßnahme durchgeführt. Umsätze Xj einer Filiale Nr. i vor und Umsätze y, nach Einführung der Werbemaßnahmen können z.B. durch Berechnung der Differenzen (zj=yi-x,) verglichen werden. Die Umsatzzuwächse Zj bilden einen eindimensionalen Datensatz, eine unstrukturierte Liste
2.1.2
Überblick
Eine unstrukturierte Liste ist nicht sehr instruktiv, solange man die Information nicht geeignet verdichtet. Wir benötigen (1) einfache Methoden, um unsere Liste von Zahlen graphisch darzustellen (ein Bild ist besser als 1 000 Zahlen!); (2) Kennzahlen, um bestimmte Charakteristika der Daten beurteilen zu können. Schließlich sollte man Daten niemals als sakrosankt ansehen, sondern stets nach passenden Transformationen suchen, die es erlauben, die Struktur des Datensatzes durch wenige Kennzahlen zu beschreiben. Es werden uns also (3) Datentransformationen beschäftigen. Wir stellen diese Methoden mit Hilfe eines ausführlichen Beispiels dar.
144
Datenanalyse
Beispiel 1: Wie wirkt sich in einem Supermarkt das Display für ein Produkt auf den Umsatz aus? Für n = 79 Produkte, die wir mit i = 1 , 2 , . . 7 9 durchnumerieren, sei jeweils bekannt, wieviel Stücke a; im regulären Regalangebot während eines Monats verkauft werden. Man bietet das Produkt jetzt einen Monat lang mit Displaymaterial an und erhält entsprechende Zahlen b ; von verkauften Stücken. Ein Vergleich von Display- und Regalangebot ist z.B. möglich, wenn man die „Änderungsraten" x, = bj/aj bildet. Werte dieser Änderungsraten x,, die größer 1 sind, signalisieren, daß ein Displayangebot für das betreffende Produkt eine Umsatzerhöhung erbracht hat. In einer Untersuchung ergaben sich folgende Werte X j , X 2 , . . . X79: Tabelle 2.1. Änderungsraten Xj = Displayumsatz/Regalumsatz von 79 Produkten 1. 36 0. 89 0.88 0. 80 0. 99 1.,05 0..83 1. 38 1..14 1. 00 1.,41 1.40 1. 15 1..25 1. 20 0. 88 1. 33 1..07 1. 55 1. 36 1..36 1..09 1. 86 1.28 1.,61 1. 50 1. 22 1,,99 1..65 1. 15 1.89 1. 55 1.,34 1. 80 1,.75 2.,24 1. 80 1.63 2. 33 1.,34 2. 40 1,,77 1. 35 2.55 1..89 1. 78 1. 36 5..06 1.,90 1. 94 7..87 1..40 2..23 2..19 2. 06 2.10 10. 48 1..46 2. 37 1. 63 1.,46 1 .54 1. 60 1,,70 1..80 4. 50 3. 65 1.53
1. 20 1. 08 1..46 1..43
2.1.3
1..10 1..05 1..39 1.,32 1..80 1..39 5..32
Graphische Darstellung der Verteilung: Stemleafs
(1) Bei fast allen Datensätzen ist es sinnvoll, nur zwei (höchstens drei) signifikante Ziffern zu behalten - der Verlust an Genauigkeit ist meist irrelevant, der Gewinn an Überschaubarkeit beträchtlich. Notfalls wird man die Daten linear transformieren (d.h. Übergang zu ax; + b : *). Bei Zahlen etwa, die im Bereich 3 007 bis 3 089 schwanken, wird man überall 3 000 subtrahieren, um Zahlen im Bereich 7 bis 89 zu erhalten. Lineare Transformation empfehlen sich auch, um lästige Dezimalpunkte verschwinden zu lassen. Im Beispiel können wir alle Xj mit 10 multiplizieren und dann auf ganze Zahlen runden (aus 1.20 wird also 12, aus 0.89 wird 9). Statistische Verfahren sind im allgemeinen „linear invariant", d.h. die inhaltlichen Aussagen ändern sich nicht, wenn man den gesamten Datensatz einer linearen Transformation unterwirft. Die transformierten Daten geben bereits ein freundlicheres Bild ab - sie sind in folgender Tabelle bereits der Größe nach geordnet worden. Wir nennen die liste der sortierten Beobachtungen geordnete Stichprobe oder order statistic und bezeichnen die geordneten Daten mit X(!),X(2), - . . , X( 79 ).
•Multiplikation mit einer Konstanten a, Addition einer Konstanten b
145
2. Eindimensionale Datensätze Tabelle 2.2. Orderstatistik x ( i ) , x ( 2 ) , . . " ( 7 9 ) der (vereinfachten) Anderungsraten 8 11 13 14 15 17 19 24
8 11 13 14 15 18 19 24
9 11 13 14 15 18 19 26
9 11 13 14 16 18 20 37
9 12 13 14 16 18 21 45
10 12 14 14 16 18 21 51
10 12 14 14 16 18 22 53
11 12 14 15 16 18 22 79
11 12 14 15 16 19 22 105
11 13 14 15 17 19 23
(2) Sobald wir nur 2 oder 3 Ziffern pro Datum haben, können wir leicht eine Graphik produzieren, die uns die Verteilung der Daten zeigt: das sogenannte Stemleaf-(„Stamm-und-Blatt"-)Diagramm. Wie der Name andeutet, besteht ein derartiges Diagramm aus zwei Teilen: einem Stamm und den Blättern an diesem Stamm. Der Stamm gibt an, in welchem Bereich die führenden Ziffern unseres Datensatzes variieren (im Beispiel sind die führenden Ziffern der Reihe nach: 0 , 1 , 2 , . . . , 9,10). Wir schreiben diese Zahlen senkrecht untereinander und rechts davon einen Strich, um den Stamm von den Blättern zu trennen. Jetzt tragen wir die Blätter ein, d.h. wir gehen den Datensatz durch und schreiben die letzte Ziffer jeder Zahl in diejenige Zeile im Stamm, die ihrer führenden Ziffer entspricht. Das Endergebnis ist ein Stemleaf-Diagramm (im wesentlichen also ein Histogramm mit zusätzlichen Informationen):
00188999 0110011111112222233333344444444444455555566666677888888899999 0210112223446 0317 0415 05113
061
0719 081 091 1015 Abb. 2.1 Grobes Stemleaf für Änderungsraten
(3) Ein derartiges Diagramm kann natürlich auf naheliegende Weise modifiziert werden: Wenn bestimmte Zeilen z.B. zu häufig besetzt sind (wie hier die Zeile 1), empfiehlt es sich, die Zeilen aufzuteilen:
146
Datenanalyse
00188999 01100111111122222333333444444444444 01155555566666677888888899999 021011222344 0216 031 0317 041 0415 05113 051 061 061 071 0719 081 081 091 091 101 1015 Abb. 2.2 Feines Steamleaf fiir Änderungsraten
Analog kann man auch zwei oder mehrere Zeilen zusammenfassen, wenn zuviele Zeilen das Diagramm unübersichtlich machen würden. Hier ist die Form der Abb. 2.2. am instruktivsten: sie zeigt deutlich die schiefe Verteilung unserer Änderungsraten (fast alle Produkte liegen im Bereich 0.8—2.6, bei 6 Produkten hat das Displayangebot zu erheblichen Verbesserungen geführt: Änderungsraten von 3.7 bis 10.5).
2.1.4
Maße für Lokation und Dispersion
Eine kurze Beschreibung einer Verteilung sucht man durch die Angabe bestimmter Maßzahlen zu erreichen. Am wichtigsten sind dabei Lokationsmaße, durch welche die mittlere Lage, und Dispersionsmaße, durch welche die Streuung um die mittlere Lage beschrieben werden. (1) Lokationsmaße. Das bekannteste Lokationsmaß ist das arithmetische Mittel: x = ^(x1+x2+...+xn), also die Summe aller Beobachtungen, dividiert durch ihre Anzahl. Im Beispiel ist (vgl. Tabelle 2.2.) x = ^ - ( 8 + 8 . . . + 105)= 18.76 .
2. Eindimensionale Datensätze
147
Das arithmetische Mittel ist sehr gebräuchlich, hat aber bestimmte Nachteile, sofern Ausreißer (extrem große oder extrem kleine Werte) oder schiefe Verteilungen vorliegen. Wenn in einem ärmlichen Dorf 999 Kleinbauern mit einem Monatseinkommen von 500 DM und ein einziger Millionär (Monatseinkommen 1 Mill. DM) leben, ergibt sich ein Prokopfeinkommen von x = 1 500 DM. Ein Maß, das diesen Nachteil nicht aufweist (also robust gegen Ausreißer ist), finden wir im sogenannten Median (50-Prozentpunkt) x o s o . Es handelt sich um denjenigen Wert, der die geordnete Stichprobe genau in 2 Hälften teilt: 50 % liegen unterhalb, 50 % oberhalb von x 0 .so- Wir illustrieren die Berechnung an zwei kleinen Datensätzen. Beispiel 2: (ungeradzahlig viele Beobachtungen) Liegt eine ungerade Zahl von Beobachtungen vor, etwa die 5 Zahlen 30, 75, 150, 170, 15 000, so ist x o s o einfach die mittlere Beobachtung in der geordneten Stichprobe (hier also 150). Beispiel 3: (geradzahlig viele Beobachtungen) Bei gerader Zahl von Beobachtungen liegt x 0 .so zwischen den beiden mittleren Beobachtungen, man wählt z.B. das arithmetische Mittel dieser beiden mittleren Zahlen. Die 6 Daten 30, 75, 150, 160, 170, 15 000 haben also den Median x o .5o=(150+160)/2= 155. Im Beispiel der Änderungsraten finden wir durch Abzählen aus Tabelle 2.2. den Wert Xq.so = 1 5 (warum ist hier x 0 .s 0 < x ?). Ein Kompromiß zwischen Median und arithmetischem Mittel kann durch die Verwendung eines getrimmten Mittels erreicht werden. Die Grundidee ist, aus der geordneten Stichprobe einen bestimmten Anteil der kleinsten und größten Werte zu entfernen und das arithmetische Mittel der verbleibenden Beobachtungen zu berechnen. Läßt man z.B. die ersten 7 und letzten 7 Zahlen aus Tabelle 2.2. fort, so ergibt sich ein getrimmtes Mittel aus 65 Zahlen: g j (11 + 1 1 + . . . +24+24) = 15.7.
Da auf jeder Seite ein Anteil von 7/79 « 0.09 der Beobachtungen weggelassen („getrimmt") wurde, handelt es sich hier um ein sogenanntes 0.09-getrimmtes Mittel. (2) Dispersionsmaße geben an, wie stark die Werte um ihr mittleres Niveau streuen:
148
Datenanalyse
„kleine" Dispersion
.große" Dispersion
mittleres Niveau Abb. 2.3 Dispersion
Wir beschränken uns auf zwei Maße, die dem arithmetischen Mittel bzw. dem Median entsprechen. Das klassische Maß ist die Varianz s 2 , also die mittlere quadrierte Abweichung der Beobachtungen von ihrem arithmetischen Mittel: i
,2 i=l
bzw. die Standardabweichung s als Wurzel der Varianz. Im Beispiel war x = 18.76, also s2
(8-18.76) 2 + (8-18.76) 2 + . . . + (105-18.76) 2 = 210.3
bzw. s = 14.5 . Ebenso wie x wird auch s sehr stark von etwa vorkommenden Ausreißern beeinflußt. In extremem Maße gilt dies auch für die sogenannte Spannweite, d.h. die Differenz des größten und des kleinsten Wertes der Stichprobe: X(n) — x ^ ) . Robuster ist der sogenannte Interquartilsabstand (midspread) sq : S
Q
=
X
0.7S
—
x
0.25 •
x 0 . 7 S bzw. x 0 .2s sind der 75-Prozentpunkt bzw. der 25-Prozentpunkt der Daten. Generell ist der p-Prozentpunkt x p eine Zahl, welche die geordnete Stichprobe so in zwei Teile zerlegt, daß im ersten Teil ungefähr 100 • p % der Beobachtungen und im zweiten Teil ungefähr 100 • ( l - p ) % der Beobachtungen liegen.
2. Eindimensionale Datensätze
149
Die Berechnung von x p geschieht ähnlich wie beim Median x 0 . 5 0 . Etwas formaler kann man sich überlegen, welcher Anteil p der i't-kleinsten Beobachtung X(i) entspricht. Man setzt
(*)
_ i - 0-5 P=—fi—
und bezeichnet diese Größe als Anteilsrang der i't-kleinsten Beobachtung X(j). Im Beispiel hat x ^ j den Anteilsrang 0.0063, X( 40 ) den Anteilsrang 0.50, X( 79 ) den Anteilsrang 0.9937. Wenn nun der p-Prozentpunkt gesucht wird, löst man die Gleichung (*) nach i auf i = 0.5 + n • p . Ergibt sich für i eine ganze Zahl, wählt man als p-Prozentpunkt x p den i'tkleinsten Wert x ( i ) der Stichprobe. Beispiel: Für p = 0.50 ist i = 0.50 + 79 • 0.50 = 40, also xq.so = X(40) = 1 5 Liegt i zwischen zwei aufeinanderfolgenden ganzen Zahlen ( j < i < j +1), so wählt man als Prozentpunkt x p das arithmetische Mittel der entsprechenden Werte in der geordneten Stichprobe. Beispiel: Für p = 0.25 ist i = 20.25, also X(20) + X(21) 13 + 13 , , m c •* i x = o.2s = 2 —2—= • P= analog _X(60) + X ( 6 1 )_ 0.7S 2 ~
X
•
Wird i schließlich kleiner als 1 oder größer als n, so setzt man x p gleich x ( 1 ) bzw. gleich x ( n ) . (3) Graphische Darstellung der Maßzahlen (Boxplot). Eine einfache Übersicht der Daten liefert ein sogenannter Boxplot („Schachtelplot"). Wir markieren zunächst auf einer Skala die Prozentpunkte x 0 .2s, Xq.so. Xqjs -
13 X
0.2S
x
15
19
0.50
X0.75
Abb. 2.4 Zeichnung eines Boxplots (1. Schritt) und zeichnen ein Rechteck mit linker Kante bei x0.2S und rechter Kante bei x 0 7 S . Den Medianpunkt markieren wir mit einem * .
150
Datenanalyse
*
Abb. 2.5 Zeichnung eines Boxplots (2. Schritt)
Das Rechteck symbolisiert den mittleren Bereich der Verteilung - seine Länge ist der midspread SQ. Als nächsten Schritt ziehen wir links und rechts vom Rechteck Striche der Länge s Q und markieren die Enden durch „Zäune". Mit Kreuzen x kennzeichnen wir die Extremwerte innerhalb dieser Zäune. Hier liegen die Zäune bei 1 3 - 6 = 7 und 19 + 6 = 25, aus Tab. 2.2. sehen wir, daß die Kreuze bei 8 und 24 anzubringen sind.
Abb. 2.6 Zeichnung eines Boxplots (3. Schritt)
Alle Werte, die außerhalb dieser „Zäune" liegen, werden mit kleinen Kreisen markiert (es handelt sich um mögliche Ausreißer, die gesondert untersucht werden sollten). Zusätzlich kann man noch besonders extreme Werte (etwa solche, die mehr als SQ von den Zäunen entfernt sind) durch ® kennzeichnen.
105
x— *
—xo
Abb. 2.7 Boxplot der Änderungsraten
Die Form der Verteilung und die Existenz von extremen Werten sind aus diesem Diagramm deutlich abzulesen. Fallen mehrere extreme Werte praktisch auf den gleichen Punkt in der Zeichnung, so kann man dies durch Angabe der Anzahl dieser Werte unter dem Symbol o bzw. ® andeuten (vgl. z.B. Abb. 2.20.).
151
2. Eindimensionale Datensätze
(4) Fünf-Zahlen-Schema Eine kompakte Übersicht eines Datensatzes kann durch Angabe der 5 Größen: = min kleinster Wert, x 0 s , x 0 5 0 , x 0 7 5 , x m a x = größter Wert geliefert werden. Man bezeichnet dies als Fünf-Zahlen-Schema. x
2
Tabelle 2.3. Fünf-Zahlen-Schema für (vereinfachte) Änderungsraten x
min
8
x
0.25
13
x
0.50
15
X
0.7S
19
x
max
105
n 79
Ein derartiges Schema ist vor allem beim Vergleich mehrerer Datensätze (vgl. Kapitel 3) nützlich. (5) Zusammenfassung Um später darauf zurückgreifen zu können, stellen wir tabellarisch die Kennzahlen für die vereinfachten Änderungsraten und für die Originalwerte zusammen. Tabelle 2.4. Kennzahlen für Änderungsraten Änderungsraten (vereinfacht) x
min
x
0.25
x
0.50
x
0.75
max X x
s SQ
2.1.5
8 13 15 19 105 18.76 14.41 6
Änderungsraten (Original werte) 0.800 1.265 1.460 1.875 10.480 1.866 1.439 0.610
Ausreißer, Cluster, schiefe Verteilung
Wer einige Erfahrung in der Analyse von Daten besitzt, stellt fest, daß bei der Betrachtung von Verteilungen immer wieder bestimmte Strukturen auftauchen: Ausreißer, Cluster und Schiefe. Wir sollten daher wissen, wie man mit diesen Problemen fertig werden kann. (1) Ausreißer sind extrem große oder extrem kleine Beobachtungen. Sie können auf Meßfehler zurückzuführen sein, auf untypische Untersuchungseinheiten oder auf stochastische Vorgänge, die hochgradig schwankungsanfällig sind (Verteilungen mit langen „tails"). Die detaillierte Einzeluntersuchung von Ausreißern kann wesentlich wichtigere Aufschlüsse bringen als der ganze Rest der Daten. In einer
152
Datenanalyse
Untersuchung über die Wirksamkeit unterschiedlicher Werbespots ist ein außergewöhnlich erfolgreicher Spot sicherlich auch außergewöhnlich lehrreich für den Marktforscher! Statistische Verfahren können mehr oder weniger robust sein gegenüber dem Auftreten von Ausreißern. Eine einzige untypische Beobachtung kann statistische Maßzahlen wie Mittelwerte, Varianzen, Korrelationen, Regressionskoeffizienten etc. völlig verfälschen! Vor der eigentlichen statistischen Analyse sollten also im allgemeinen Ausreißer aus dem Datensatz entfernt werden. (2) Cluster liegen vor, wenn der Datensatz eine zwei- oder mehrgipfelige Verteilung mit relativ deutlich getrennten Beobachtungsgruppen zeigt („bizarre Verteilungsform").
Man sollte hier nach einer bisher vernachlässigten qualitativen Variablen suchen, durch welche die Clusterzugehörigkeit bestimmt wird. Bei einer Aggressionsstudie auf dem Kinderspielplatz könnten zwei Cluster etwa darauf zurückzuführen sein, daß gleichzeitig Mädchen und Jungen untersucht wurden. In statistischen Analysen sollten Cluster getrennt behandelt werden (so wäre z.B. die Berechnung eines Lokationsmaßes für die gesamte Verteilung in Abb. 2.8. sinnlos!). (3) Schiefe Verteilungen. Die meisten statistischen Verfahren setzen implizit oder explizit annähernd symmetrische Verteilungen voraus. Ein Beispiel liefert bereits die Auswahl eines Lokationsparameters, die bei schiefen Verteilungen nicht eindeutig ist. Im Fall einer exakten symmetrischen Verteilung fallen dagegen alle „vernünftigen" Lokationsmaße wie Median, arithmetisches Mittel, getrimmte Mittel etc. mit dem Symmetriepunkt der Verteilung zusammen. Wir werden im nächsten Abschnitt ein Verfahren kennenlernen, schiefe Verteilungen dadurch zu symmetrisieren, daß man die Beobachtungen nichtlinear transformiert (etwa logarithmiert oder zu Kehrwerten übergeht). Der Leser
2. Eindimensionale Datensätze
x
\ 0.50
153
l *
x
- x0.50
Abb. 2.9 Schiefe und symmetrische Verteilung
beachte, daß eine extreme Beobachtung erst dann als Ausreißer klassifiziert werden kann, wenn die Hauptmasse der Verteilung eine annähernd symmetrische Gestalt hat. Im folgenden Beispiel liegen etwa die Ausreißer nicht dort, wo man sie bei oberflächlicher Betrachtung der (schiefen) Verteilung von X vermuten würde:
x
In x Abb. 2.10 Schiefe Verteilung und Ausreißer
Erst die Symmetrisierung der Verteilung (durch Bilden von In X) zeigt, daß die größten Werte ganz „normal" sind und die wirklichen Ausreißer am unteren Ende der Verteilung auftreten.
154
2.1.6
Datenanalyse
Datentransformationen
Wir haben gesehen, daß näherungsweise Symmetrie der Verteilung von eindimensionalen Datensätzen eine äußerst wünschenswerte Eigenschaft ist. Sie vereinfacht die Interpretation statistischer Kennzahlen, erlaubt die Identifikation von Ausreißern und stellt für viele Verfahren der statistischen Inferenz eine notwendige Voraussetzung dar. In den meisten Fällen kann die Symmetrie der Verteilung zufriedenstellend durch eine sogenannte nichtlineare Datentransformation erreicht werden. Wir behandeln die Vorgehensweise bei der Auswahl einer solchen Transformation am Beispiel der Änderungsraten, deren Stemleaf eine deutliche Asymmetrie zeigt die Verteilung ist „oben-steil", d.h. „kleine" Änderungsraten sind häufiger als „große".
00188999 01100111111122222333333444444444444 01155555566666677888888899999 021011222344 0216 031 0317 041 0415 05113 051 061 061 071 0719 081 081 091 091 101
1015 Abb. 2.11 Stemleaf der Änderungsraten x.
Jede lineare Transformation Xj -»• axj + b würde die Gestalt des Stemleafs unverändert lassen. Um die Verteilung symmetrisch zu machen, müssen wir also zu nichtlinearen Transformationen der Beobachtungen x, greifen, d.h. jede Beobachtung X; durch eine nichtlineare Funktion f(xj) ersetzen. Wir erkennen aus Abb. 2.11., daß kleine Werte der Änderungsraten häufig sind, d.h. relativ dicht beieinander liegen, während große Werte vergleichsweise selten
2. Eindimensionale Datensätze
sind, d.h. durch größere Abstände voneinander nach einer Transformation suchen, durch die und große Werte zusammengeschoben werden. ten Beobachtungen sollte dann der Symmetrie verteilung.
155
getrennt sind. Wir werden daher kleine Werte auseinandergezerrt Die Verteilung der transformiernäherkommen als die Ausgangs-
Diese Überlegung macht plausibel, warum etwa eine Transformation wie x, -»• xf hier ungeeignet ist.
Abb. 2.12 Die Transformation x->x2
1 Betrachtet man nämlich drei gleichabständige x-Werte (etwa: ist in der entsprechenden Reihe der x2-Werte (hier: x 2 =
x=
3
2 " > l>y)>
so
1 , ^ ) der Abstand
der beiden größten Werte voneinander relativ vergrößert worden während der Abstand der beiden kleineren Werte sich relativ verringert hat (—). Die Transformation Xj
x? (und noch extremer z.B. Xj ->• x?) verstärkt also die Asymme-
trie der Verteilung, anstatt sie abzuschwächen.
156
Datenanalyse
0011111111111111111111222222222222222222222222223333333333333344444445555667 0113 021068 031 041 051 0612 071 081 091 101
1110 Abb. 2.13
Stemleaf der quadrierten Änderungsraten xf
In die gewünschte Richtung führen uns dagegen Transformationen wie x ; x? /2 = V x j , Xj -»• x? /3 etc., die den Abstand kleiner Werte relativ vergrößern und den Abstand großer Werte relativ verkleinern. Das Stemleaf von (\/x7,\/x2 chung der Asymmetrie:
\/xn)
zeigt bereits eine gewisse Abschwä-
081914449 101022344577700023556667777788889 121011124444678880233444467789 141145890345 1610 1811
2012 22151 241 261 2811 301 3214 Abb. 2.14
Stemleaf der \/x\
Der Übergang zu den Wurzeln der Änderungsraten ist jedoch noch nicht ausreichend, um die Verteilung der transformierten Beobachtungen zu symmetrisieren. Wir benötigen also eine „stärkere" Transformation als Xj Xj1/2. Man könnte nun Xj -»• x ' / 3 , Xj x/ / 4 etc. versuchen, wobei man in unserem Fall jedoch feststellen würde, daß es mit keiner dieser Transformationen gelingt, näherungsweise Symmetrie herzustellen. Wie können wir uns also eine Transformation verschaffen, die „stärker" ist als jede Transformation Xj -> x* mit X > 0? Dazu beachten wir, daß das Stemleaf von x x die gleiche Gestalt hat wie das Stemleaf jeder linearen Transformation
2. Eindimensionale Datensätze
157
x x x — 1 ax + b von x . Speziell hat daher das Stemleaf — ^ — die gleiche Gestalt wie x x* — 1 das Stemleaf von x . Für X = 0 ist — - — nicht definiert, besitzt jedoch einen Grenzwert, wenn X gegen 0 strebt. Dieser Grenzwert ist gerade In x. Diese Überlegung legt es nahe, die logarithmische Transformation x ; ->• In Xj als eine Transformation anzusehen, die „stärker" ist als jede Transformation x x mit X > 0 . Tatsächlich führt die Anwendung des Logarithmus auf unsere Daten zu einer besseren Angleichung an eine symmetrische Verteilung als alle bisher betrachteten Transformationen. -041 -0212 -001933210 00155789034488 0210258999011112334446888 041133447899036789999 061244469248 081015684 101 1219 1410 16127 181 2016 2215 Abb. 2.15
Stemleaf von In x;
Die „Standardform"
X — 1 — r — der nichtlinearen Transformation hat zunächst X
den Vorteil, daß sich in natürlicher Weise die sehr häufig verwendete logarithmische Transformation als Spezialfall (für X = 0) der Potenztransformation einordnen läßt. xx — 1 Darüber hinaus bewirkt für negative Werte von X die Division durch X in — - — , daß sich die Ordnung der Daten durch die Transformation nicht umkehrt. Es würden ja z.B. beim Übergang zu Kehrwerten (X= —1) die drei Zahlen x 1, 1 1 2 in die Werte - = 2 , 1 , ^ - übergehen. Dagegen bleibt bei der Transformation x z x -*• x - i _j—1 = 1 - 1x" die Anordnung der Beobachtungen erhalten — den Werten x=
1, 2 entsprechen nun 1 - ^- = - 1 , 0 , ^ - . Dies hat bei der Suche nach Z A Z einer geeigneten nichtlinearen Transformation offenbare Vorteile.
158
Datenanalyse
Da in unserem Beispiel die logarithmische Transformation (X=0) noch keine zufriedenstellende Symmetrie erzeugt hat, liegt es nahe, nun Transformationen mit X < 0 zu versuchen. Tatsächlich führt der Übergang zu den Kehrwerten ( X = - l ) hier zum Ziel - die Verteilung der Kehrwerte ist näherungsweise symmetrisch. -031 -02150 -011442
-00110
001557789 011233778 02102455566666888999 03102223555588999 0411344444467778 0510 1 2455 788
0611
07138 081017 0910 Abb. 2.16 Steamleaf (X. = - 1 )
Eine noch stärkere Transformation - etwa für X = —2 die Transformation X: -*• 2 (1— —r) — erbrächte hier nun nicht etwa eine Verbesserung der Symmex i
-031 -0318 -0213 -02155 -01|3
-011 -00110 001 001556789 011222
01155689 02112223333344444 0215677789999 031011123444 031555566667789 0410001112 04168889 0510 Abb. 2.17 Steamleaf
= -2)
159
2. Eindimensionale Datensätze
trie, sondern einen Übergang von einer „oben-steilen" Verteilung zu einer „unten-steilen" Verteilung. Wir wollen den eben beschriebenen trial-und-error-Prozeß bei der Suche nach einer nichtlinearen Transformation, welche die Verteilung der Daten symmetrisiert, nun in systematischer Form darstellen. Betrachtet werden die sogenannten BOX-COX-Transformationen durch xx- 1
für X * 0
In x
für X = 0
x^,
die
,00 =
definiert sind. Vorausgesetzt ist dabei, daß alle Beobachtungen Xj > 0 sind, was in den meisten Anwendungen zutreffen wird. Wir stellen uns die Transformationen in Form einer „Leiter" vor:
x (2)
¿1)
;o/2) >3) >)
;(-i/3> ;(-i/2)
Abb. 2.18 Leiter der Transformationen
160
Datenanalyse
Um eine Verteilung symmetrisch zu machen, die oben-steil ist, geht man in der Leiter der Transformationen nach unten. Um eine Verteilung symmetrisch zu machen, die unten-steü ist, geht man in der Leiter der Transformationen nach oben. Sofern die Verteilung der transformierten Daten nicht symmetrisch, sondern oben-steil (bzw. unten-steil) ist, schreitet man in der Leiter der Transformationen weiter nach unten (bzw. oben) fort. x^ - 1 Die Benutzung der speziellen Form x t ->• ' ^
ist nur während des Auswahl-
prozesses anzuraten. Man wird anschließend im allgemeinen die einfachere Form x* bevorzugen, in unserem Falle also die Kehrwerte der Änderungsraten betrachten. Für spätere Berechnungen seien hier die transformierten Daten -^7, Stemleaf, Boxplot sowie die wichtigsten Kennzahlen der Kehrwerte wiedergegeben. Man beachte besonders, daß die „Ausreißer", die sich im Stemleaf der Xj zeigten, im Stemleaf der Kehrwerte verschwunden sind, also nur auf die schiefe Form der Verteilung zurückzufuhren waren.
0. 10 0. 45 0. 54 0. 61 0. 68 0. .74 0. 82 0. 95
0.13 0.45 0.56 0.61 0.68 0.74 0.83 0.95
0. 19 0. 46 0. 56 0. 62 0. 70 0. 74 0. 83 1. 00
0. 20 0. 48 0. 56 0. 63 0. 71 0. .74 0. 87 1. 01
0. 22 0. 49 0. 56 0. 65 0. 71 0. 75 0. 87 1. 12
Tabelle 2.5. Kehrwerte der Änderungsraten
011039 021027 0319 04122355689 05102333466666679 0611112355557888 07101112224444455568 0810233778 091123355 10101 111244 12105 Abb. 2.19
Stemleaf der Kehrwerte — x i
0. 27 0. 50 0. 56 0. 65 0. 71 0. .75 0. 88 1. 14
0. 39 0. 52 0. 56 0. ,65 0. .72 0. .75 0. 91 1..14
— Orderstatistik
0. 42 0. 53 0. .57 0. 65 0. 72 0. 76 0. 92 1. 20
0. 0. 0. 0. 0. 0. 0. 1.
42 53 59 67 72 78 93 25
0. 0. 0. 0. 0. 0. 0.
43 53 61 68 74 80 93
161
2. Eindimensionale Datensätze
.1
1.3
I © O
OO 2
x
1 I
I *
I I
X
o 3
® ®
Abb. 2.20 Boxplot der Kehrwerte
Tabelle 2.6. Kennzahlen der Kehrwerte Jr Kehrwerte der Änderungsraten x
min
X
0.2S
X
0.S0
x
0.75
0.095 0.533 0.685 0.791
x max X
s SQ
1.250 0.670 0.234 0.257
Sofern es gelungen ist, die Verteilung in symmetrische Form zu überführen, sollten wir versuchen, für die resultierende transformierte Variable eine inhaltliche Begründung zu finden. Dies kann sehr aufschlußreich sein, da die transformierte Variable häufig den beobachteten Sachverhalt „besser", „realitätsgerechter" beschreibt als die ursprünglich gemessene Größe. Betrachtet man nämlich die Verteilung eines Datensatzes als Resultat zufälliger Schwankungen um einen mittleren Wert, so ist nicht einzusehen, warum etwa Schwankungen nach oben häufiger auftreten sollten als Schwankungen nach unten. In unserem Beispiel ist die Interpretation einfach, da es sich bei den Ausgangsmessungen um Verhältniszahlen handelte: x=
Displayumsatz Regalumsatz
Der Kehrwert ist also einfach die Umkehrung dieses Verhältnisses 1 _ x
Regalumsatz Displayumsatz
und ließe sich etwa als „relative Mißerfolgsquote" der Displaydarbietung interpretieren. Die häufig auftretende log-Transformation läßt sich als Übergang zu der Größenordnung der beobachteten Variablen deuten (das Weber-Fechner'sche „Gesetz" legt z.B. nahe, daß es bei der Wirkung von Stimuli nur auf deren Größenordnung ankommt) — Transformationen wie x 1/2 , x" 1/2 , x 2 , x~ 2 ,. . . können oft aufgrund
162
Datenanalyse
dimensionaler Betrachtungen interpretiert werden (Übergang von Flächen zu Radien, von Volumina zu Oberflächen etc.)- Wenn x etwa den Umsatz eines Vertreters bedeutet und der Übergang zu x 1 / 2 die Verteilung derartiger Umsatzdaten symmetrisiert, so legt diese Transformation die Vermutung nahe, daß der Umsatz proportional zur Fläche des Verkaufsgebietes ist, wonach dann x 1 / 2 proportional zum „Radius" des Gebiets wäre. Ohne Computer ist der beschriebene trial-und-error Prozeß zur Auswahl einer Transformation relativ mühsam (es müssen ja immer alle Beobachtungen transformiert werden, um das neue Stemleaf-Diagramm beurteilen zu können). Ein Schnellverfahren beruht auf der einfachen Idee, daß in einer symmetrischen Verteilung x 0 .s und der Mittelwert zweier symmetrisch gelegener Prozentpunkte x p und Xi_p identisch sein müssen. Eine mögliche Maßzahl zur Beurteilung der Asymmetrie wäre also z.B.
A(X) = In
x£>
i(x*>
+
x£>)
Abb. 2.21 Schnellverfahren zur Auswahl einer Transformation X.
2. Eindimensionale Datensätze
163
A (X) ist leicht zu berechnen, denn die Prozentpunkte x ^ der transformierten Daten sind einfach die entsprechend transformierten Prozentpunkte x p der Originaldaten. Das Maß ist erfahrungsgemäß für kleine p (etwa p = 0.05 oder 0.10) valider als für p in der Nähe von 0.50. Zeichnet man A (X) für verschiedene X, so liefert das Minimum der Kurve einen Hinweis auf die geeignete Transformation. Das vorstehende Diagramm zeigt den Verlauf von A(X) für p = 0.10 im Bereich X = - 3 bis +2. Aus den Daten sind x0.50 = 1-46, xo.io = 1-05 und X0.90 = 2.3 85 zu berechnen. Die beschriebenen Techniken zur Auswahl einer Transformation sind heuristisch. Ein „objektives" (d.h. auf expliziten Modellannahmen beruhendes) Verfahren werden wir im Kapitel „Lineare Modelle" in Gestalt des BOX-COX-Ansatzes kennenlernen.
2.2
Statistische Inferenz
2.2.1
Überblick
Bisher haben wir explorative Techniken der Datenanalyse verwendet, um einen Einblick in den Datensatz zu bekommen, ohne explizite stochastische Modelle aufstellen zu müssen. Mit diesen Techniken allein sind jedoch noch nicht alle Fragen zu behandeln, die wir an den Datensatz richten können. Ein Beispiel für eine Fragestellung der Inferenzstatistik wäre die Frage, ob es überhaupt lohnend ist, Produkte mit Displaymaterial anzubieten. Die Verfahren der statistischen Inferenz benötigen allerdings eine Reihe von Modellannahmen. Diese Modellannahmen können entweder relativ schwach sein (nichtparametrische Modelle) oder sie können sehr starke Forderungen an die Daten stellen (parametrische Modelle). In beiden Fällen wird angenommen, daß die beobachteten Daten ( x , , x 2 , . . . , x n ) eine Realisierung von n Zufallsvariablen (X!,X 2 ,. .., X n ) darstellen. Für nichtparametrische Inferenz ist die Gültigkeit folgender Annahmen vorausgesetzt, die wir zunächst formal nennen und deren praktische Bedeutung wir anschließend diskutieren. (AI) Die Zufallsvariablen Xj sind stetig. [Stetigkeit] (A2) Die Zufallsvariablen Xj sind unabhängig. [Unabhängigkeit] (A3) Alle Zufallsvariablen sind identisch verteilt. [Identische Verteilung] Einige nichtparametrische Verfahren fordern zusätzlich: (A4) Jede Zufallsvariable ist symmetrisch um ihren Median 8 verteilt. [Symmetrie].
164
Datenanalyse
In der Praxis werden diese Voraussetzungen akzeptabel sein, wenn (1) (2) (3) (4)
die gemessenen Größen quantitatives Meßniveau besitzen, die Beobachtungseinheiten sich gegenseitig nicht beeinflussen, die Beobachtungseinheiten relativ homogen sind (keine Cluster!), die empirische Verteilung der Beobachtungen approximativ symmetrisch ist.
Beispiel 4 In einer Spielplatzuntersuchung wurden für jedes Kind die Anzahl aggresiver Verhaltensweisen in einem bestimmten Zeitraum gemessen: (1) ist erfüllt, wenn der Beobachtungszeitraum lang genug ist; (2) ist wohl nicht zutreffend, da aggressive Akte eines Kindes bei anderen Kindern aggressives Verhalten produzieren können; (3) ist fragwürdig, wenn z.B. sowohl Mädchen als auch Jungen gleichzeitig untersucht werden; (4) kann anhand der Daten beurteilt werden. In den Methoden der parametrischen Inferenz, die wir hier betrachten wollen, kommt die sehr starke Annahme (A5) Jede Zufallsvariable Xf ist normalverteilt mit Erwartungswert ß und Varianz a2. [Identische Normalverteilung] hinzu (A5 impliziert AI, A3 und A4). Viele in der Praxis auftretende Fragestellungen können mittels der folgenden Verfahren behandelt werden: (1) Verfahren zur Überprüfung der Zusatzannahmen A4 (Symmetrie) und A5 (Normalverteilung), (2) Nichtparametrische Inferenz über den Median 0, (3) Parametrische Inferenz über den Erwartungswert ß.
2.2.2
Überprüfung der Symmetrie
Wir geben nur eine graphische Methode (ohne Inferenzcharakter) zur Überprüfung der Symmetrieannahme (A4), da existierende nichtparametrische Tests nur sehr umständlich durchzuführen sind.
165
2. Eindimensionale Datensätze
Sei Xq.so der Median der Daten und x ^ ) < X(2) < X(3) < . . . < X(n) die geordnete Stichprobe. Wir bezeichnen also mit X(j) den i't-kleinsten Wert - entsprechend bezeichnen wir mit x ^ = X( n _ i+1 ) den i't-größten Wert. Für symmetrische Daten sollten die Abweichungen x® — X0.50 und x 0 .so — x(i) gleich sein. Zeichnet man also die y Punkte mit den Koordinaten ( x 0 5 0 — x ^ j , x ' 1 ' — x 0 5 0 ) , (X0.SO-X(2), X ( 2 ) - X 0 50) . . . , so sollten diese Punkte näherungsweise auf der Winkelhalbierenden des I. Quadranten liegen.
Beispiel 5 (Änderungsraten): Die Daten zeigen eine extreme Abweichung von der Symmetrie.
9--
8-7--
6-5-4-3--
2--
0.0
0.1
0.2
0.3
0.4
0.5
Abb. 2.22 Überprüfung der Symmetrie bei den Änderungsraten
0.6
0.7
166
Datenanalyse
Beispiel 6 (Kehrwerte der Änderungsraten): Die folgende Zeichnung zeigt, daß die in 2.1.6 ausgewählte Kehrwerttransformation die Beobachtungen effektiv symmetrisiert hat:
Abb. 2.23 Überprüfung der Symmetrie bei den Kehrwerten der Änderungsraten
2.2.3
Uberprüfung der Normalverteilungsannahme
Eine einfache Faustregel zur Überprüfung der Normalverteilungsannahme lautet: (1) Fast alle Daten sollten im Intervall [x-3s, x+3s] liegen. (2) Rund 69% aller Daten sollten im Intervall [x-s, x+s] liegen. (3) Rund 50% aller Daten sollten im Intervall [x-0.675s, x+0.675s] liegen.
2. Eindimensionale Datensätze
167
Für Änderungsraten und Kehrwerte der Änderungsraten ergeben sich folgende Auszählungen:
Tabelle 2.7. Faustregel für Änderungsraten
Im Intervall [ x - 3 s , x + 3s] Im Intervall [ x - s , x + s ] Im Intervall [x-0.675s, x+0.675s]
Anzahl
Anteil
77 73 68
97.5 % 92.4% 86.1 %
Anzahl
Anteil
79 56 45
100% 70.1 % 56.9%
Tabelle 2.8. Faustregel für Kehrwerte
Im Intervall [ x - 3 s , x + 3s] Im Intervall [ x - s , x + s ] Im Intervall [x-0.675s, x+0.675s]
Die Kehrwerte zeigen im Gegensatz zu den Änderungsraten eine zufriedenstellende Übereinstimmung mit der Faustregel. Ein Schnellverfahren zur Überprüfung der Normalverteilung benutzt als Teststatistik das Verhältnis Q von Spannweite (x( n )-x ( 1 )) und Standardabweichung s. Im Fall der Änderungsraten ergibt sich (vgl. Tab. 2.4.): _ 10.48 - 0.80 _ , Q-6.73. n
Für diesen Test ist eine Irrtumswahrscheinlichkeit a = 0.10 üblich. Liegt der beobachtete Wert innerhalb der im folgenden angegebenen Bereiche, so kann die Normalverteilungsannahme aufgrund der Daten beibehalten werden. Hier ist n = 79, also ist der gesuchte Bereich ««[4.27, 5.50]. Da der beobachtete Wert 6.73 nicht im Intervall [4.27, 5.50] liegt, wird die Normalverteilungshypothese abgelehnt. Hier ist die Spannweite im Vergleich zur Standardabweichung zu groß, was auf Ausreißer hindeutet.
168
Datenanalyse
Tabelle 2.9. 10%-Schranken für Schnelltest auf Normalverteilung n Untergrenze Obergrenze
3 1.78 2.00
4 2.04 2.41
5 2.22 2.71
6 2.37 2.95
7 2.49 3.14
8 2.59 3.31
9 2.68 3.45
10 2.76 3.57
11 2.84 3.68
12 2.90 3.78
n Untergrenze Obergrenze
13 2.96 3.87
14 3.02 3.95
15 3.07 4.02
16 3.12 4.09
17 3.17 4.15
18 3.21 4.21
19 3.25 4.27
20 3.29 4.32
25 3.45 4.53
30 3.59 4.70
n Untergrenze Obergrenze
35 3.70 4.84
40 3.79 4.96
45 3.88 5.06
50 3.95 5.14
55 4.02 5.22
60 4.08 5.29
65 4.14 5.35
70 4.19 5.41
75 4.24 5.46
80 4.28 5.51
n Untergrenze Obergrenze
85 4.33 5.56
90 4.36 5.60
95 4.40 5.64
100 4.44 5.68
150 4.72 5.96
200 4.90 6.15
500 5.49 6.72
1 000 5.92 7.11
Abb. 2.24 Normalplot der Änderungsraten Xj
169
2. Eindimensionale Datensätze
Für die Kehrwerte ergibt sich dagegen (vgl. Tab. 2.5.): n _ W
1.25 - 0 . 0 9 5 0.23
4 V
'
ein Wert, der innerhalb des zulässigen Bereiches liegt. Es sei hier darauf hingewiesen, daß eine Vielzahl von (im allgemeinen mächtigeren) Tests zur Überprüfung der Normalverteilungsannahme existiert, die jedoch durchgängig schwieriger anzuwenden sind. Ein alternativer statistischer Test, der auch zur Überprüfung der Symmetrie dienen kann, wird im Kapitel 4 anläßlich der Beschreibung des BOX-COX-Verfahrens angegeben. Eine detaillierte Untersuchung der Normalverteilungsannahme sollte mit Hilfe von „Wahrscheinlichkeitspapier" erfolgen. Hier werden die geordneten Beobachtungen X(j) auf der Abszisse aufgetragen gegen ihre Anteilsränge
auf der
Ordinate. Die Ordinatenachse ist im Wahrscheinlichkeitspapier so verzerrt, daß normalverteilte Daten näherungsweise auf einer Geraden liegen, welche die Punk-
99-
0,20,02 J
1
1
1
1
1
1
1
1
1
1
1
1
r—
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
Abb. 2.25 Normalplot der Mißerfolgsrate
170
Datenanalyse
te ( x - s , 0.16) und (x+s, 0.84) verbindet. Während die Änderungsraten extrem von dieser Geraden abweichen, passen sich deren Kehrwerte im relevanten Bereich (0.10-0.90) der Geraden ausgezeichnet an.
2.2.4
Inferenz über den Median
2.2.4.1 Schätzung des Medians Einen Schätzwert 0 für den unbekannten Median der Verteilung können wir naheliegenderweise dadurch erhalten, daß wir den Median x 0 5 0 der Daten berechnen. Im Beispiel 1 finden wir also 0 = 1.46 (aus Abb. 2.1.).
2.2.4.2 Konfidenzintervall
für den Median
Aussagekräftiger als ein einzelner Wert ist die Angabe von zwei Werten 0 U , 0 O , d.h. eines Intervalls [0 U , 0 O ], mit dem Ziel, daß 0 mit großer Wahrscheinlichkeit von diesem (zufälligen) Intervall eingeschlossen wird. Einfach zu berechnende Intervalle erhält man Uber die geordnete Stichprobe. Wir schreiben X(c) für den c't-kleinsten Wert und x ( c ' = X( n _ c + 1 ) für den c't-größten Wert unter den Beobachtungen. Man kann leicht zeigen, daß die Wahrscheinlichkeit P c , mit welcher das zufällige Intervall [X(C), x ( c ) ] den Median 0 überdeckt, mit Hilfe der Binomialverteilung angegeben werden kann: P c = P[x (c) < 0 < x ( c ) ] = T ( p ( i ) n = 1 - 2Z* ( p (|)n
.
Beispiel 7: Mit welcher Wahrscheinlichkeit schließt bei 10 Beobachtungen das Intervall [X(3), x ( 3 ) ] den Median 0 ein? P 3 = 1 - 2 • \ 20 kann c approximativ aus folgender Formel bestimmt werden (die darauf beruht, daß für „großes" n die Binomialverteilung durch die Normalverteilung angenähert werden kann): c = y ( n + l ) - Faktor •
.
Dabei entnimmt man den Faktor der folgenden Tabelle. Tabelle 2.10. Faktor für Approximationsformel in Abhängigkeit vom gewünschten Konfidenzniveau P P
Faktor
0.999 0.998 0.99 0.98 0.95 0.90 0.50
3.29 3.09 2.58 2.33 1.96 1.645 0.67
172
Datenanalyse
Für n = 79 und P = 0.95 ergibt sich c = 4p - 1 . 9 6 - y n/79 , = 31.3 « 3 1 . 2.2.4.3 Einseitige
Konfidenzintervalle
für den Median
Wir wollen folgende Frage beantworten: Kann man eine Untergrenze für 0 angeben, also eine Zahl 0U, so daß mit großer Sicherheit gilt 0 > 0U („der Median hat mindestens den Wert 0„ ") ? Wir werden uns wieder eine Konfidenzwahrscheinlichkeit P* vorgeben, mit der die Aussage 0 > 0 U richtig sein soll (etwa P*=0.95), d.h. P(0>0 U ) = P *Man erhält eine Untergrenze 0U für den Median aus der Untergrenze eines zweiseitigen Konfidenzintervalls mit dem Konfidenzniveau P = 2P* - 1. Für P* = 0.95 berechnet man also beispielsweise ein zweiseitiges Konfidenzintervall zum Niveau P = 0.90. Analog bekommen wir eine Obergrenze 0O mit Konfidenzwahrscheinlichkeit P[0 lehne H zugunsten von G ab! Beispiel 11: Es soll ein Test mit dem Signifikanzniveau 0.05 für das Beispiel 10 mit H : 0 = 0 durchgeführt werden. (1) Aus Tab. F im Anhang finden wir für n = 20 und P = 0.95 den Wert c = 6. Die 6't-kleinste Differenz ist —0.5, die 6't-größte Differenz ist +0.5. Also lautet das Konfidenzintervall [-0.5, +0.5], (2) Der Wert 0O = 0 liegt im Konfidenzintervall, also wird H beibehalten. Wir würden hier aufgrund der Daten den Schluß ziehen, daß in den betrachteten „primitiven" Gesellschaften tatsächlich kein Unterschied zwischen Entwöhnungsalter und dem Alter der Sauberkeitserziehung nachgewiesen werden kann. 2.2.4.5 Einseitige Tests für den Median Häufig werden wir die Gegenhypothese präziser formulieren wollen (und können): Beispiel 12 (Änderungsraten): Kein Unterschied zwischen Displayangebot und Regalangebot heißt H : 0 = 1. Man wird hier wissen wollen, ob sich der Umsatz erhöht, wenn ein Produkt mit Display angeboten wird. Die Alternativhypothese ist also G : 0 > 1. Die Vorgehensweise beim Testen ist ganz analog dem zweiseitigen Fall — wir benutzen nur ein einseitiges Konfidenzintervall. Ein Test zum Signifikanzniveau a der Hypothese
2. Eindimensionale Datensätze
H : 0 = 0O
gegen
175
G : 0 > 0O
wird so durchgeführt: (1) Berechne eine Untergrenze (1-a).
0U für 0 mit Konfidenzwahrscheinlichkeit
(2) Ist 0 O > 0 U ? Wenn ja = > Behalte H bei. Wenn nein ==> Lehne H ab. Ein Test zum Signifikanzniveau a der Hypothese
H : 0 = 0O
gegen
G : 0 < 0O
wird so durchgeführt: (1) Berechne eine Obergrenze (1-a).
0O für 0 mit Konfidenzwahrscheinlichkeit
(2) Ist 0 O < 0 O ? Wenn ja = > Behalte H bei. Wenn nein Lehne H ab. Beispiel 13 (Anderungsraten): Sei a = 0.05. Untergrenze 0U = 1.390. Wegen 1.390 > 1 wird H abgelehnt. Die Daten deuten darauf hin, daß das Displayangebot zur Umsatzerhöhung führt.
2.2.4.6 Bemerkungen
zur Inferenz über den Median
(a) Unter der Voraussetzung der Symmetrie können effizientere Verfahren angegeben werden. Für diese Verfahren (Wilcoxon-signed-ranks und WalshIntervalle) vgl. Büning/Trenkler (1978). (b) Die Annahme der identischen Verteilung ist nicht nötig. Es genügt (A3*) Alle Zufallsvariablen haben den gleichen Median 0. (c) Sofern nur Tests gewünscht werden, könnten die Berechnungen etwas vereinfacht werden. Wir meinen aber, daß die Aussagekraft eines Konfidenzintervalls größer ist als die bloße Angabe, ob H abgelehnt oder beibehalten wird. Die zusätzliche Arbeit lohnt sich also!
176
Datenanalyse
2.2.5
Inferenz über den Erwartungswert
2.2.5.1 Punkt Schätzung des
Erwartungswertes
Wenn ( ! ) alle Xj normalverteilt mit Erwartungswert ¡i und Varianz o 2 sind, schätn — — 1 n zen wir u durch ü = X und a 2 durch CT2 = — r 2 ( X ; - X ) 2 = — r s 2 . Im Gen - 1 i=i n-1
gensatz zu s 2 ist a 2 unverzerrt, d.h. E [ d 2 ] = a 2 .
2.2.5.2
Zweiseitiges
Konfidenzintervall
Ein zweiseitiges Konfidenzintervall für ß (bei unbekanntem a 2 ) erhält man durch [ x - t • — ? = , x + t • —?=]. Dabei bestimmt man t in Abhängigkeit von der Vn vi sogenannten Zahl der Freiheitsgrade u = n — 1 und dem gewünschten Konfidenzniveau P aus der Tabelle B im Anhang.
Schnellverfahren: Für P = 0.95 ist t ^ y ^ - • 1.96. Für P = 0.99 ist \ n-4
2.2.5.3
' 2.58.
Test der Hypothese
H: p = pQ gegen G : m t Mo
(Signifikanzniveau a ) Berechne das (1— a ) — Konfidenzintervall und entscheide für H, wenn ß 0 im Intervall liegt — für G, wenn ß 0 nicht im Intervall liegt. Beispiel 14 (Änderungsraten): Sei a = 0.05. Für n = 79 liefert die Tab. B t = 1.990. Wir berechnen ein zweiseitiges Konfidenzintervall für den erwarteten Kehrwert der Änderungsraten. Der Mittelwert ist hier x = 0.67, die Standardabweichung a = 0.236. Das gesuchte Intervall ist also x±t-
[0.617,0.723]
2.2.5.4 Einseitige Konfidenzintervalle
und Tests
Wir brauchen wieder die Unter- bzw. Obergrenze eines zweiseitigen Konfidenzintervalls mit P = 2 P * - 1 . Für P * = 0.95 ist P = 0.90. Ein Test wird völlig analog zum Test für den Median durchgeführt.
2. Eindimensionale Datensätze
177
Beispiel 15: Für die Kehrwerte der Änderungsraten wollen wir überprüfen, ob das Displayangebot zu einer Umsatzerhöhung geführt hat; d.h. ob der Erwartungswert der K e h r w e r t e kleiner als 1 ist:
H:ß=l
G : ß < l .
Sei a = 0.05, also P = 0.90. Der zugehörige t-Wert ist 1.664. Wir berechnen eine Obergrenze für ß ¿oben = x + t •
0.714
und sehen nach, ob diese Obergrenze den Wert 1 überschreitet. Das ist offenbar nicht der Fall - also wird H abgelehnt. Erforderliche Kenntnisse (B = Bleymüller u.a. (1979), M * Müller-Merbach (1974)) 1.
2 = Summenzeichen, Potenzfunktion x \ 13.2.
Logarithmus In x, siehe M, Kap.
2.
Wahrscheinlichkeitstheorie: Zufallsvariable, Unabhängigkeit, Verteilung, Erwartungswert, Varianz, siehe B, Kap. 7 und Kap. 8.
3.
Normalverteilung, t-Verteilung, siehe B, Kap. 10.3, Binomialverteilung, siehe B, Kap. 9.3.
4.
Grundidee des statistischen Tests, siehe B, Kap. 16.1,16.2.
5.
Grundidee des Konfidenzintervalls, siehe B, Kap. 14.1, 14.2.
3.
Vergleich zweier und mehrerer unabhängiger Datensätze
3.1
Explorative Verfahren: Datenverdichtung
3.1.1
Beispiel für mehrere unabhängige Datensätze
Im 2. Kapitel haben wir für n = 79 verschiedene Produkte eines Supermarkts die eindimensionalen unabhängigen Daten X j , . . .,x 7 9
1
_ Anzahl der mit Display verkauften Stücke Anzahl der im Regal verkauften Stücke
betrachtet, die wir kurz als Änderungsraten bezeichnet haben. Wir gehen nun davon aus, daß aufgrund der Einschätzung eines Produktmanagers im Rahmen einer Marktanalyse die einzelnen Produkte den 4 Phasen des sogenannten Produkt — Lebenszyklus zugeordnet sind: Einführungsphase (E), Wachstumsphase (W), Sättigungsphase (S) und Degenerationsphase (D). Es mögen sich somit folTabelle
0.. 8 0 0,. 8 3 0,. 8 8 1.. 0 0 1.. 0 5 1.. 0 7 1. 0 7 1.. 1 5 1. 2 2 1. 3 2 1. 3 4 1. 3 4 1. 35 1. 36 1. 3 9 1. 4 0 1. 4 6 1. 4 6 1. 53 1.54
1.60
1.63 1.70 1.80 4.50
3.1.
(4-Phasen-Daten)
0 .88 1.. 0 5 1,. 0 8 1.. 1 5 1 .20 1., 2 8 1.. 3 6 1.. 4 3 1.. 5 0 1.. 5 5 1.. 6 3 1. 7 5 1. 7 7 1. 7 8 1. 94 2. 1 0 2. 19 5. 32
0.. 9 8 0.. 9 9 1 .10 1.. 1 4 1., 2 5 1.. 3 3 1. 36 1. 3 9 1. 6 1 1. 6 5 1. 8 0 1. 8 0 1. 8 0 1. 8 9 1. 9 0 2. 06 2 . 23 2. 37 3 . 65
1. 2 0 1 .36 1.. 3 8 1 .40 1. 4 4 1 .46 1., 5 5 1.. 8 6 1.. 8 9 1. 9 9 2 . 24 2 . 33 2. 4 0 2 . 55 5. 06 7 . 87 10. 48
3. Vergleich zweier und mehrerer unabhängiger Datensätze
179
gende 4 Gruppen von Daten x^ ergeben, i = 1 , . . .,4 (Phasen), j = 1 , . . ..n; (Anzahl der Produkte in der i-ten Phase, 2 n; = n). Die Änderungsraten in den 4 Phasen sind bereits der Größe nach geordnet. Vom modelltheoretischen Standpunkt aus betrachten wir nun also nicht mehr eine Grundgesamtheit von Produkten aller Phasen und eine Stichprobe vom Umfang n = 79, sondern 4 Grundgesamtheiten von Produkten, definiert jeweils nach einer der 4 Phasen ihres Lebenszyklus, und die 4 entsprechenden Stichproben vom Umfang n! = 25, n 2 = 18, n 3 = 19 bzw. n 4 = 17. Alle die in 2.1.2 vorgestellten Verfahren zur graphischen Darstellung der Daten aus einer Stichprobe können wir nun auf unseren 4-Stichproben-Fall übertragen, getrennt für jede der 4 Stichproben. Gegenstand der Untersuchung wird es sein, Vergleiche zwischen diesen 4 Grundgesamtheiten bzw. Stichproben anzustellen und mögliche Unterschiede aufzudecken.
3.1.2
Stemleaf-Diagramme und Boxplots
Die Stemleafs für die in der Tabelle 3.1. angeführten Daten der 4 Stichproben haben folgende Gestalt: E
W
001889 0110111223334444 01155556678 021 021 031 031 041 0415
0019 0111122344 0115668889 02112 021 031 031 041 041 0513
S
D
01100113344 0116788899 021124 021 031 0317
01124444 0115699 0210234 0216 031 031 041 041 0511 051 061 061 071 0719 081 081 091 091 101 1015
Abb. 3.1 (Stemleafs)
Offensichtlich sprechen die beobachteten Werte aus den 4 Grundgesamtheiten für eine asymmetrische (linksschiefe) Verteilung der einzelnen Zufallsvariablen Xj,i = 1 , . . .,4, (siehe auch 2.1.2 für den Fall einer Stichprobe).
180
Datenanalyse
In 3.1.4 werden wir über eine geeignete Transformation der Daten Symmetrie zu erreichen versuchen. Betrachten wir noch die entsprechenden 4 Boxplots, E
w
s
D ®
®
X X
T=I T X
J-
I
1
TT
t=T
T-J
J-J.
i i
T
T
x
T
X
Abb. 3.2 (Boxplots)
so können wir in den ersten drei Stichproben jeweils einen, in der vierten Stichprobe 3 mögliche Ausreißer erkennen. Die wichtigsten Kennzahlen für jede der 4 Stichproben fassen wir analog dem Einstichproben-Fall im 5-Zahlen-Schema zusammen. E : W : S : D :
0.8 0.88 0.89 1.20 "min
1.07
1.35
1.20 1.25 1.44
1.53 1.65 1.89
1.53 1.78 1.90 2.40
4.50 5.32 3.65 10.48
25 18 19 17
x
x
x
X
"i
0.25
0.5
0.75
max
Auf den ersten Blick scheinen sich die Beobachtungen in der Phase D von denen in den drei anderen Phasen hinsichtlich Lage und Streuung zu unterscheiden. In den Abschnitten 3.2 und 3.3 werden wir auf entsprechende Tests zur Überprüfung der Lage-Hypothese eingehen.
3. Vergleich zweier und mehrerer unabhängiger Datensätze
3.1.3
181
Scatterplot
Zum Zwecke des Vergleichs verschiedener Stichproben hinsichtlich Lage und Streuung empfiehlt sich vorab die graphische Darstellung der Paare (Median, Quartilabstand) aus den einzelnen Stichproben in einem Koordinatensystem: das sogenannte Scatterplot. In unserem Beispiel ergibt sich folgende Graphik (m = Median, q = Quartilabstand):
i
i 1.4
i
i 1.6
l
i 1.x
l
i 10
Abb. 3.3 (Scatterplot)
Die einzelnen Punktepaare (2-Zahlen-Schema) lauten: E (m, q) : (1.35,0.46)
W S (1.53,0.58) (1.65,0.65)
D (1.89,0.96).
Offensichtlich besteht hier ein positiver Zusammenhang zwischen Medianen und Quartilabständen in den 4 Stichproben, d.h. je größer m, desto größer q. Es ist jedoch einleuchtend, daß ein Lage-Vergleich der Stichproben bezüglich der Mediane leichter und auch sinnvoller ist, wenn keine solche Abhängigkeit zwischen m und q vorliegt, weil andernfalls (wie in unserem Beispiel) das Ausmaß des möglichen Lage-Unterschieds nicht deutlich sichtbar wird. So liegt z.B. bei E und D neben einem Lageunterschied von 1.89 — 1.35 = 0.54 auch ein Streuungsunterschied von 0.96 — 0.46 = 0.50 vor. Wir werden also die Daten so zu transformieren versuchen, daß einerseits zum Vergleich der Lage (d.h. der m-Werte) die q-Werte ungefähr gleich sind und andererseits zum Vergleich der Streuung (d.h. der q-Werte) die m-Werte annähernd gleich sind. Für E und D fällt dann (bei gleicher Streuung) der Lageunterschied deutlich geringer als 0.54 aus, siehe 3.1.4.
182
Datenanalyse
3.1.4
Datentransformationen
Um zum einen Symmetrie der Daten in den einzelnen Stichproben zu erzeugen und zum anderen ungefähr gleiche Quartilabstände q zu erhalten, können wir die in Kapitel 2 angegebenen Datentransformationen, die sogenannten Box-CoxTransformationen, log x, 1/x, 1/%/x", — l/y/x u.a. nach dem „trial-and-errorPrinzip" anwenden. Es zeigt sich, daß das Erreichen beider Ziele nicht selten mit Hilfe einer Transformation gelingt; andernfalls sollte hinsichtlich eines Lagevergleichs die zu erstrebende Gleichheit der q-Werte Vorrang vor dem Wunsch nach
Die Stemleafs und das Scatterplot zu den über 1/x transformierten Daten haben folgende Gestalt: E 0212 031 041 05169 061135588 0711244556 08127 091335 1010 1114 12105
D
W
S
0119 021 031 04168 0512667 061157 071048 08137 09135 101 1114
0217 031 041259 05133666 06112 071245 08108 0911 10112
01103 0210 0319 041235 051034 061589 071124 0813
Abb. 3.4 (Steamleafs der Kehrwerte)
q *
W
1 0.5
1 0.6
Abb. 3.5 (Scatterplot)
1
1 0.7
1
1 0.8
3. Vergleich zweier und mehrerer unabhängiger Datensätze
183
Symmetrie haben. Wenden wir auf die Daten in unserem Beispiel der Reihe nach die oben aufgeführten Transformationen an, so stellt sich heraus, daß wir mit Hilfe von 1/x sowohl der Symmetrie der Daten auch als der Gleichheit der Quartilabstände q am nächsten kommen. Statt der ursprünglichen Änderungsraten Xi betrachten wir nun also die Kehrwerte 1 _ Anzahl der im Regal verkauften Stücke x; Anzahl der mit Display verkauften Stücke
Die Punktepaare (2-Zahlen-Schema) lauten nun:
(m,q)
E W S : (0.74,0.28) (0.66,0.27) (0.61,0.27)
D (0.53,0.27).
Das Scatterplot zeigt uns also, daß die ursprüngliche positive Korrelation zwischen Median und Quartilabstand nach der Datentransformation über 1/x aufgehoben wurde; alle 4 Quartilabstände q sind nahezu gleich (0.27), während die reziproken Änderungsraten (Kehrwerte) im Mittel verschieden sind (m = 0.53 bis 0.74). Betrachten wir noch die 4 Boxplots,
l l I x TT I I I I I I l-l II r I
l
i T T
I I I I I l l-l
11
T
I I
X
I I I I X
T T
I I
x T T
I I I I l-l I I J _L T
I I I
O o Abb. 3.6 (Boxplots der Kehrwerte)
184
Datenanalyse
so wird zum einen der Lageunterschied verdeutlicht und zum anderen (siehe Abb. 3.2.) die Tatsache, daß sich die Anzahl der Ausreißer in W auf zwei erhöht, in D auf zwei erniedrigt hat, in S kein Ausreißer mehr vorliegt, wohingegen die Anzahl in E wie vor der Transformation gleich 1 ist.
3.2
Zweistichproben-Fall
3.2.1
Problemstellung
Der Zweistichproben-Fall ist eines der am meisten diskutierten Probleme der statistischen Testtheorie. Er kann wie folgt beschrieben werden: Gegeben seien Stichprobenvariablen X ! , . . . , X m aus einer Grundgesamtheit mit einer (stetigen) Verteilungsfunktion F x und Stichprobenvariablen Y j , . . ,,Y n aus einer anderen Grundgesamtheit mit einer (stetigen) Verteilung Fy. Es werde angenommen, daß alle N = m + n Variablen unabhängig sind. Zu testen ist die Hypothese H : Die beiden Verteilungen sind gleich, d.h. Fy (z) = F x (z) für alle reellen Zahlen z, gegen die Gegenhypothese (Alternative): G : Die beiden Verteilungen sind nicht gleich, d.h. F Y (z) == t Fx( z ) für mindestens eine reelle Zahl z. Dabei bleibt völlig offen, um welche Verteilungen F x und F Y es sich handelt. Es geht lediglich um die Prüfung der Hypothese, daß ein Merkmal X in der einen Grundgesamtheit dieselbe Verteilung hat wie ein Merkmal Y in einer anderen Grundgesamtheit, welche Verteilung auch immer in beiden Grundgesamtheiten vorliegen mag. So sei z.B. zu überprüfen, ob das Merkmal Änderungsrate X in der Sättigungsphase S (1. Grundgesamtheit) dieselbe Verteilung hat wie das Merkmal Änderungsrate Y in der Degenerationsphase D (2. Grundgesamtheit). Wird zusätzlich unterstellt, daß F x und F Y Normalverteilungen oder irgendwelche anderen speziellen Verteilungen sind, dann sprechen wir von einem parametrischen Testproblem im Gegensatz zum obigen nichtparametrischen bei unspezifizierten F x und Fy. Die Gegenhypothese G : Fy + F x wird auch als allgemeine Alternative zu H : Fy = F x bezeichnet; sie gibt keinen Hinweis auf die Art des Unterschieds zwischen den Verteilungen F x und Fy. So können F x und Fy völlig verschiedene Verteilungstypen sein, oder sie mögen vom gleichen Typ sein und sich nur bezgl. der Lage oder der Streuung der Variablen X und Y unterscheiden. Sowohl für die allgemeine Alternative als auch für die sog. Lageoder Streuungsalternativen gibt es geeignete statistische Tests, siehe Büning/ Trenkler (1978). Wir wollen uns in diesem Kapitel auf die Beschreibung eines
3. Vergleich zweier und mehrerer unabhängiger Datensätze
185
parametrischen und eines nichtparametrischen Tests für Lagealternativen beschränken.
3.2.2
Tests für Lagealternativen
Bevor wir die Lagealternativen näher beschreiben, betrachten wir zwei Beispiele: Beispiel 1: Wir beschränken uns auf 2 der 4 Grundgesamtheiten aus 3.1.1, nämlich S und D; das eigentliche 4-Stichproben-Beispiel E, W, S, D wird in 3.3 aufgegriffen. Die entsprechenden, bereits der Größe nach geordneten Änderungsraten in S bzw. D lauten: S(x-Werte,m= 19): 0.89,0.99, 1.10, 1.14,1.25,1.33, 1.36,1.39, 1.61, 1.65, 1.80, 1.80, 1.80, 1.89,1.90, 2.06, 2.23, 2.37, 3.65 D (y-Werte, n = 17): 1.20, 1.36,1.38,1.40,1.44,1.46, 1.55,1.86, 1.89, 1.99, 2.24, 2.33, 2.40, 2.55, 5.06, 7.87, 10.48 . Unterscheiden sich die Änderungsraten im Mittel in den beiden Phasen S und D? Beispiel 2: Zwei Produkte Pi, P 2 sollen von jeweils 10 zufällig ausgewählten Personen über eine 7-Punkte-Skala hinsichtlich ihrer Qualität beurteilt werden. Es ergeben sich folgende Werte: Produkt P! (x-Werte, m = 10) 2 5 1 6 5 5
4
3
7
Produkt P 2 (y-Werte, n = 10) 4 1 1 3 2 6
3
3
5
6 2.
Können die Produkte Pi,P2 als qualitativ gleichwertig angesehen werden? Im Beispiel 1 liegen quantitative Daten (kardinales Meßniveau), im Beispiel 2 qualitative Daten (ordinales Meßniveau) vor. Formal lautet das Testproblem mit Lagealternativen wie folgt: H : Die beiden Verteilungen von X und Y sind gleich, d.h. F Y ( z ) = F x ( z ) für alle reellen Zahlen z. G : Die beiden Verteilungen von X und Y sind vom selben Verteilungstyp, unterscheiden sich jedoch durch ihre Lage, d.h. F y ( z ) = F x ( z - 0 ) mit 0 + 0 .
186
Datenanalyse
Dabei gibt 0 die Verschiebung der Verteilung von X um 0 gegenüber der von Y an; X und Y - 0 haben dann dieselbe Verteilung. Hinsichtlich G sind 3 Fälle zu unterscheiden, die wir am Beispiel 1 erläutern wollen: (1) Gi : 0 + 0 : zweiseitige Alternative Die Änderungsraten x in S sind im Mittel entweder größer oder kleiner als die Änderungsraten y in D. Diese Alternative zeichnet also keine bestimmte Richtung beim Größenvergleich aus. (2) G 2 : 0 < 0 : einseitige Alternative Die Änderungsraten y in D sind im Mittel kleiner als die Änderungsraten x in S. (3) G 3 : 0 > 0 : einseitige Alternative Die Änderungsraten y in D sind im Mittel größer als die Änderungsraten x in S. In unserem Beispiel 1 würde man von der Fragestellung her die Alternative G 3 wählen. Der Fall 0 = 0 entspricht der Nullhypothese H : F x = F y . Eine Graphik möge obigen Sachverhalt für 0 > 0 veranschaulichen, dabei seien f x und fy die zu F x bzw. Fy gehörenden Dichten.
e Abb. 3.7 (0>O)
3. Vergleich zweier und mehrerer unabhängiger Datensätze
187
Wir sagen auch, die Zufallsvariablen Xj mit der Dichte f x sind stochastisch kleiner als die Yj mit der Dichte f Y , falls 6 > 0. Der am häufigsten angewendete (nichtparametrische) Test für diese Lagealternative ist der Rangsummentest von Wilcoxon. (Kurz W-Test). Dieser Test ist äquivalent zu dem sogenannten Mann-Whitney-Test. (1) Wir kombinieren die N = m + n Beobachtungen X i , . . . , x m , y i , . . .,y n und ordnen sie der Größe nach. Beispiel 1 (x-Werte unterstrichen): 0.89,0.99. 1.10, 1.14, 1.20, 1.25. 1.33, 1.3.6, 1.36, 1 . 3 8 , 1 3 9 , 1.40, 1.44, 1.46, 1.55. 1.61, 1.65, 1.80, 1.80, 1.80, 1.86, 1.89, 1.89, 1.90, 1.99,2.06,2.23, 2.24, 2.33, 2 3 7 , 2.40, 2.55,3.65, 5.06, 7.87, 10.48 (2) Wir weisen dem kleinsten aller N Werte die Zahl 1, dem zweitkleinsten die Zahl 2 . . . und dem größten die Zahl N zu. Diese Zahlen werden als Ränge bezeichnet. Wir bilden dann die Summe aller derjenigen Ränge, die zu x-Werten gehören (genauso gut könnten wir uns natürlich auf die Ränge der y-Werte beschränken). Diese Summe ist die Testgröße von Wilcoxon: m
W=
2
i=l
RJ-1
>
worin R, also der zu Xj gehörende Rang ist (i= 1 , . . .,m). Für die Berechnung von W ist es somit völlig unerheblich, welcher der (in der vorgegebenen Reihenfolge) beobachteten x-Werte einen bestimmten Rang erhalten hat; nur die insgesamt für alle x-Werte vergebenen Ränge fallen bei der Summenbildung ins Gewicht. (3) Es ist unmittelbar einleuchtend, daß „zu kleine" bzw. „zu große" Werte von W für die Hypothesen G i , G 2 bzw. G 3 sprechen. Die Entscheidungsregel lautet im Hinblick auf die einzelnen Gegenhypothesen: G j : H ablehnen, wenn W > w j _ a / 2 oder W < w a / 2 G 2 : H ablehnen, wenn W > W!_ a G 3 : H ablehnen, wenn W < w 0 . Kritische Werte w a können für a = 0.05 und m, n < 25 der Tabelle E entnommen werden. Für größere Stichprobenumfänge ist eine Approximation der Verteilung von W durch die Normalverteilung möglich: Sei Z =
W — m(N+l)/2 Vmn(N+l)/12 '
Dann gilt:
188
Datenanalyse
G, : H ablehnen, wenn |Z| > Zi_ a ß G 2 : H ablehnen, wenn Z > Z i _ a G 3 : H ablehnen, wenn Z < za . Die kritischen Werte Zi_ a , za sind bei vorgegebenem a in der Tabelle A der standardisierten Normalverteilung zu finden. Bevor wir die Anwendung des Wilcoxon-Tests an den Beispielen 1 und 2 erläutern, müssen wir noch eine Bemerkung zum Problem der Bindungen (gleich große Werte) machen. (4) Treten keine Bindungen auf, so ist die Rangzuweisung eindeutig möglich; andernfalls können wir das auftretende Problem der Rangzuweisung z.B. mit Hilfe der sogenannten „Methode der Durchschnittsränge" lösen: Es wird das arithmetische Mittel aus den Rängen gebildet, die für die gleichen x- oder yWerte insgesamt zu vergeben sind. Beispiel 1: Für die x- und y-Beobachtung 1.36 kommen die Ränge 8 und 9 in Frage; beide Beobachtungen enthalten also den Rang 8.5. Die beiden x-Werte 1.80 enthalten analog jeweils den Rang 19.5 und der x- und y-Wert 1.89 jeweils den Rang 22.5. Weitere Bindungen treten nicht auf. Es ergibt sich: W = l + 2 + 3 + 4 + 6 + 7 + 8 . 5 + 1 1 + . . . + 30 + 33 = 295. Beispiel 2: i l 1 2 2 2 3 3 3 3 1 2 3 4 5 6 7 8 9 10 Ränge:
2
5
8.5
z.B. für die 3 Beobachtungen
4 4 11 12
5,5.5.5 13 14 15 16
6 6 6 17 18 19
1_ 20
11.5
14.5
18
20
1 1 1 : Durchschnittsrang =
1+2 + 3 ^ =2.
Insgesamt ergibt sich: W = 2 + 5 + 8.5 + 11.5 + 3 • 14.5 + 2 - 1 8 + 2 0 = 126.5 . (5) Wir wollen nun den Wilcoxon-Test für a = 0.05 auf das Beispiel 2 anwenden mit der Alternative G 2 : 0 < 0, d.h. das Produkt P 2 wird im Mittel als qualitativ schlechter eingestuft als P!. Aus der Tabelle E ist für m = n = 10 zu entnehmen: W0.9s = 210 - 82 = 128. Wegen W = 126.5 < 128 wird H auf diesem Testniveau nicht abgelehnt. Im Beispiel 1 mit G 3 : 0 > 0 führt der Beobachtungsbefund auf dem Niveau a = 0.05 zur Ablehnung von H, was der Leser überprüfen möge.
3. Vergleich zweier und mehrerer unabhängiger Datensätze
189
Für die Anwendung des Wilcoxon-Tests ist keine spezielle Verteilung, nur die Stetigkeit von F , G und nur ordinales Meßniveau der Daten Voraussetzung. Die Stetigkeit impliziert, daß die Wahrscheinlichkeit für das Auftreten gleich großer x- oder y-Werte gleich Null ist, daß also (theoretisch!) keine Bindungen auftreten und somit die Zuweisung der Ränge eindeutig ist. (Inwieweit trifft das für die Beispiele 1 und 2 zu?). In der Praxis können aber aufgrund der Ungenauigkeit der Messungen auch im stetigen Fall gleich große Werte auftreten (siehe insbesondere das Beispiel 3 am Ende dieses Abschnitts). Wird eine Normalverteilung
N=F =G
unterstellt, so ist der t-Test das parametrische „Gegenstück" zum Wilcoxon-Test. Der t-Test setzt auch die Gleichheit der unbekannten Varianzen a\
(der Xj)
und Oy (der Yj) voraus. Bezeichnen wir mit ß x und £iY die Erwartungswerte der Xj bzw. Yj, so lauten die (parametrische) Nullhypothese H und die 3 verschiedenen Gegenhypothesen (erläutert am Beispiel 1): H : M Y = Mx •
Die Änderungsraten x in S und y in D sind im Mittel gleich. (1)
G! : / z Y + J"x
Die Änderungsraten x in S und y in D sind im Mittel verschieden. (2)
G 2 :MY Mx •
Die Änderungsraten y in D sind im Mittel größer als die Änderungsraten x in S. Diese Gegenhypothesen sind für 0 = / / Y — äquivalent zu den angegebenen Lagealternativen 6 1 0 , 0 < 0, 0 > 0 ; ^Y = Mx entspricht der Nullhypothese 0 = 0, d.h. N(z) = G(z) = F ( z ) für alle reellen Zahlen wegen der Voraussetzung ax = Oy. Die T-Teststatistik für diese parametrischen Testprobleme lautet: X - Y
Während die Verteilung von W unter H : F = G nicht vom speziellen Typ der Verteilung F = G abhängt, geht in die Verteilung von T ganz wesentlich die Annahme der Normalverteilung N ein. T hat dann unter H : /¿ Y = Hx e i n e sogenannte t-Verteilung (deshalb die Bezeichnung t-Test) mit Parameter v = m+n—2. Dieser Parameter wird allgemein als Freiheitsgrad (FG) bezeichnet. Die Entscheidungsregel lautet dann analog dem Wilcoxon-Test:
190
Datenanalyse
G j : H ablehnen, wenn T > t ^ ^ . u oder T < ta/2,v G 2 : H ablehnen, wenn T > t j _ a v G 3 : H ablehnen, wenn T < t a u . Kritische Werte t a
u
können der Tabelle B entnommen werden.
Während die Anwendung des t-Tests für das Beispiel 2 problematisch ist (warum?), wollen wir nun diesen Test bezüglich der Alternative G 3 : /uy >Mx im Beispiel 1 durchführen; allerdings nicht für die Original da ten, weil wohl kaum davon ausgegangen werden kann, daß sie normalverteilt sind. (Der Leser überprüfe dies mit dem im Kapitel 2 vorgestellten Anpassungstest.) Wir wenden den t-Test auf die durch 1/x bzw. 1/y transformierten Daten an (s. 3.1.4.):
1/x - Stichprobe (der Größe nach geordnet) 0.27 0.42 0.45 0.49 0.53 0.53 0.56 0.56 0.56 0.61 0.62 0.72 0.74 0.75 0.80 0.88 0.91 1.01 1.12
1/y - Stichprobe (der Größe nach geordnet) 0.10 0.13 0.20 0.39 0.42 0.43 0.45 0.50 0.53 0.54 0.65 0.68 0.69 0.71 0.72 0.74 0.83. Ist y > x , so gilt 1/y < 1/x. Die Gegenhypothese G 3 : m y > M x ist somit aufgrund der Transformation der Daten durch G 2 : Mi/y < M i / x zu ersetzen, d.h. die Kehrwerte 1/Y der Änderungsraten in D sind im Mittel kleiner als die Kehrwerte 1/X der Änderungsraten in S. Die Ausrechnung ergibt: T=
0.659 - 0 . 5 1 2
? m
Wegen t 0 . 9 5 ; 3 4 = 1.69 wird H auf dem Niveau a = 0.05 abgelehnt. Der Leser prüfe, ob auch der Wilcoxon-Test für die transformierten Daten zur Ablehnung von H führt. Wir wollen noch ein weiteres Beispiel zur Beschreibung und Untersuchung des Zweistichproben-Problems anführen und greifen dabei auf die im 8. Kapitel des Teils A beschriebene Werbewirkungsstudie bei Kindern zurück. Dabei beschränken wir uns auf die Untersuchung des Einflusses der Werbung auf das Verhalten der Kinder, gemessen über die individuelle Länge der Spielzeit beim Lösen des Puzzles. Beispiel 3 Für die 15 Kinder aus der Kontrollgruppe und die 15 Kinder aus der Versuchsgruppe wurden folgende, bereits der Größe nach geordneten Werte (in min) ermittelt
3. Vergleich zweier und mehrerer unabhängiger Datensätze
191
(aus rechentechnischen Gründen sind die hier angeführten Daten gegenüber den Originaldaten vereinfacht). Kontrollgruppe (X): 2.3, 3.0,4.7, 6.8, 6.9, 9.9, 12.2, 13,4, 19.5,19.7, 20.1, 23.0, 34.8, 65.0, 70.1 Versuchsgruppe (Y): 2.0, 2.1, 7.7,11.5, 16.0,28.3, 36.7, 41.7,41.8,47.8, 65.0, 68.7, 70.5, 72.3,74.0 Übt die Werbung einen Einfluß auf das Verhalten der Kinder aus? Zu testen ist die Hypothese H, daß die Verteilungen der Spielzeiten in der Kontroll- und Versuchsgruppe gleich sind gegen die Alternative G 3 , daß die Spielzeiten in der Versuchsgruppe im Mittel größer sind als die in der Kontrollgruppe (a=0.05). Wir wollen zur Überprüfung dieser Hypothese den W-Test anwenden; inwieweit auch die Durchfuhrung des t-Tests gerechtfertigt erscheint (sind die Spielzeiten in der Kontroll- und Versuchsgruppe normalverteilt?), mag der Leser überprüfen. Wir erhalten als kombinierte, geordnete Stichprobe (x-Werte unterstrichen): 2.0, 2 . 0 , 2 3 , 3 ^ , 4 ^ 0 , ( ^ 7 . 7 , 9 ^ 11-5, 12.2, 13.4. 16.0, 19.5, 19.7, 20.1, 23.0, 28.3, 34J5, 36.7,41.7,41.8,47.8,65.0,65.0, 68.7, 70.1, 70.5, 72.3, 74.0. Es ergibt sich: W = 3 + 4 + 5 + 6 + 7 + 9 + 11+ 12 + 14+ 15 + 16 + 17 + 19 + 24.5 + 27= 189.5 Aus Tabelle E ist für m = n = 15, a = 0.05 zu entnehmen: Wo o s = 192. Wegen W = 189.5 < 192 wird die Hypothese H auf diesem Testniveau abgelehnt. Zum Schluß noch einige Bemerkungen: Der t-Test ist bei Annahme der Normalverteilung der beste Test (d.h. Test mit größter Güte) für Lagealternativen d = jUy — Mx- Diese Annahme ist aber in der Empirie durchaus nicht immer gerechtfertigt. Insofern ist also der W-Test universeller, weil er keinen speziellen Verteilungstyp vorschreibt. Aber selbst bei Annahme der Normalverteilung schneidet der W-Test nicht viel schlechter ab als der t-Test, und für nichtnormale Alternativen kann der W-Test (teilweise erheblich) besser sein als der t-Test, s. Büning/Trenkler (1978). Das mag überraschend klingen, weil wir davon ausgehen könnten, daß mit der Reduktion der Beobachtungen auf ihre Ränge ein großer Informations- und damit Effizienzverlust verbunden sein müßte. Weitere Verfahren: v.d. Waerden-Test, Fisher-Yates-Test, Gastwirth-Test (QuickTest), siehe Büning/Trenkler (1978).
192
Datenanalyse
3.3
C-Stichproben-Fall
3.3.1
Einführung
In Abschnitt 3.2.1 haben wir den Zweistichproben-Fall für unabhängige Stichproben diskutiert. Im folgenden werden wir dieses Problem auf c (c>3) unabhängige Stichproben erweitern; allerdings nur für den wichtigsten Spezialfall von Lagealternativen, für die im Falle c = 2 der nichtparametrische Wilcoxon-Test bzw. der parametrische t-Test geeignete Testverfahren sind (vgl. Abschn. 3.2.2). Auf die Problematik des globalen und multiplen Vergleichs von c Stichproben wird in 3.3.3 eingegangen. Betrachten wir Beispiel 4 Gegeben seien die Daten aus den 4 Grundgesamtheiten (Phasen) E, W, S, D (s. 3.1.1). Zu testen ist die Hypothese, daß die Änderungsraten in allen 4 Phasen dieselbe Verteilung haben. Wir wollen zwei für solche Testprobleme in Frage kommenden Tests erst allgemein darstellen. 3.3.2
Tests für Lagealternativen
Es seien X ^ , . . .,X inj unabhängige Stichprobenvariablen mit stetiger Verteic
lungsfunktion Fj,i= 1 , . . .,c. Insgesamt liegen also N = 2 n, Beobachtungen 1-1 vor: 1. 2.
Stichprobe: x 1 1 ; x 1 2 , • • - , x l n i Stichprobe: x 2 1 ,x 2 2 , • • .,x 2r , 2
c-te Stichprobe: x c j, Xc2, • • •, x crlc . Es werde angenommen, daß die Daten mindestens ordinales Meßniveau haben. Zu testen ist die Hypothese: H : Alle Verteilungen sind gleich, d.h. F, (z) = F2(Z) = . . . = F c (z) für alle reellen Zahlen z. gegen die Alternative: G : Mindestens zwei Verteilungen unterscheiden sich bezüglich der Lage (s. 3.2.2).
3. Vergleich zweier und mehrerer unabhängiger Datensätze
193
Der bekannteste nichtparametrische Test für dieses Problem ist der KruskalWallis-Test (K-Test), den wir später am Beispiel 4 demonstrieren werden. c
(1) Wir kombinieren alle N= 2 nj Beobachtungen und ordnen sie der Größe i=1 nach. (2) Wir weisen dem kleinsten aller N Werte den Rang 1, dem zweitkleinsten den Rang 2 . . . und dem größten den Rang N zu. Mit Rjj bezeichnen wir den n i Rang von Xjj und mit Rj = Z Ry die Rangsumme in der i-ten Stichprobe. j=i Die Teststatistik von Kruskal-Wallis lautet:
K K
12 2 — (R N(N+1) i=, nj
"i(N+1V 2 > '
(3) Unter der Annahme der Gleichheit der Verteilungen (Nullhypothese H) ist zu erwarten, daß Rj gleich
—— ist. Das bedeutet dementsprechend, daß
„zu große" Werte von K zur Ablehnung von H führen. Die exakte Verteilung von K unter H liegt nur für c = 3, ni,n 2 ,n 3 < 5 vor. Jedoch die vorgenommene Gewichtung der Summanden (Rj—
——)2 in K gewährleistet, daß
K unter H asymptotisch x2-(CHIQUADRAT) - verteilt ist mit c - 1 FG. Als Faustregel können wir für Stichprobenumfänge größer als 5 folgende Entscheidungsregel angeben: H ablehnen, wenn gilt: K > x ? _ a f C _ i • Kritische Werte
x i _
a c
- i
sind Tabelle C zu entnehmen.
An dieser Stelle sei vermerkt, daß der K-Test im Gegensatz zum WilcoxonTest nur für zweiseitige Lagealternativen konstruiert ist, denn wegen der in K eingehenden Abweichungsquadrate werden nur die absoluten Differenzen, nicht ihre Vorzeichen berücksichtigt. (4) Treten Bindungen auf, so ist die Rangzuweisung nicht eindeutig. In diesem Fall bietet sich die Methode der Durchschnittsränge an (s. (4) in 3.2.2). (5) Wir wollen nun die Anwendung des K-Tests am Beispiel 3 mit den Daten aus 3.1.1 durchführen. Es ist: c = 4, ni = 25, n 2 = 18, n 3 = 19, n 4 = 17, N = 79. Kombinieren wir alle 79 Beobachtungen, ordnen sie der Größe nach (auf die Auflistung der 79 Daten wollen wir hier verzichten) und weisen ihnen dann die Ränge 1 bis 79 zu, so ergibt sich für die Rangsumme unter Anwendung der Methode der Durchschnittsränge in der
194
Datenanalyse
1. 2. 3. 4.
Stichprobe: Stichprobe: Stichprobe: Stichprobe:
1^=710 R 2 = 708.5 R 3 = 809 R4 = 932.5.
Wir erhalten K = 13.76. Für a = 0.01 ist X2 0.99,3 gelehnt.
= 1135
• d.h. H wird ab-
So wie im Zweistichproben-Fall der t-Test das parametrische Analogon zum Wilcoxon-Test ist (s. 3.2.2), stellt der parametrische F-Test das Gegenstück zum Kruskal-Wallis-Test dar. Der F-Test basiert auf der Annahme der Normalverteilung NO/;,CT?) der Stichprobenvariablen X j , , . . . X^., i= 1 , . . ,,c, mit af = a 2 (unbekannt). Zu testen ist die Hypothese der Gleichheit der Mittelwerte: H : Mi = M2 = • • • = Mc • Beispiel 5: Die Änderungsraten in allen c = 4 Phasen E, W, S, D sind im Mittel gleich. Die F-Statistik für den Test dieser Hypothese lautet: 2 nj (Xj—X)2 , C"1
2niS?
i= 1
worin Xj den Mittelwert, S\ die Streuung der Beobachtungen in der i-ten Stich_ c probe und X den Mittelwert aller N = 2 n; Beobachtungen bedeuten. In den Zähler von F geht also die Varianz Vz zwischen den Stichproben und in den Nenner die Varianz Vi innerhalb der Stichproben ein. Da die Summe aus V7 und V[ im wesentlichen (d.h. abgesehen von Konstanten) gleich der Gesamtvarianz V G und damit konstant ist, wird also unter H zu erwarten sein, daß der Zähler von F relativ klein gegenüber dem Nenner ist; mit anderen Worten: „zu große" Werte von F führen zur Ablehnung von H. Die Teststatistik F hat unter H eine F-Verteilung mit (c—1, N—c) FG. Kritische Werte für die Anwendung des Tests sind Tabelle D zu entnehmen. Bei dem hier vorgestellten Modell handelt es sich um ein sogenanntes Varianzanalyse-Modell, das einen Spezialfall des allgemeinen linearen Modells darstellt, siehe 4. Kapitel. In der Praxis ist jedoch häufig die Annahme der Normalverteilung nicht gerechtfertigt, wie z.B. für die Daten in 3.1.1, oder es liegt nur ordinales Meßniveau der Daten vor. In diesem Fall ist der K-Test dem F-Test vorzuziehen.
3. Vergleich zweier und mehrerer unabhängiger Datensätze
195
Weitere Verfahren für den c-Stichproben-Fall: Kolmogorow-Smirnow-Test, Mediantest, Meyer-Bahlburg-Test, siehe Büning/Trenkler (1978). 3.3.3
Multipler Vergleich
Der K-Test und der F-Test sind sogenannte globale Tests, d.h. sie vermögen nur Unterschiede in den Verteilungen bezüglich aller c Grundgesamtheiten aufzudekken. Führt der Beobachtungsbefund zur Ablehnung der Nullhypothese der Gleichheit aller c Verteilungen, so ist es jedoch gerade aus praktischer Sicht oft wünschenswert zu wissen, welche Grundgesamtheiten sich unterscheiden. Dazu könnten wir der Reihe nach auf je zwei Stichproben jeweils einen Zweistichproben-Test anwenden, z.B. den Wilcoxon-Test oder den t-Test, insgesamt also (2)= c(c—1)/2 verschiedene Tests, oder auch den K-Test bzw. F-Test für k der c Stichproben durchführen mit 2 < k < c. Ein solcher multipler Vergleich ist jedoch problematisch, denn das vorgegebene Testniveau a kann bei dieser Vorgehensweise erheblich überschritten oder verzerrt werden, ja jegliche Bedeutung verlieren. Es sind jedoch einige Verfahren für simultane multiple Vergleiche zwischen allen Paaren von zwei der c Stichproben entwickelt worden. Diese Verfahren haben die gewünschte Eigenschaft, daß simultane Feststellungen der Unterschiede zwischen je zwei Verteilungen bei einem einzigen „global vergebenen" Testniveau a gemacht werden können. Dieses a gibt dabei die Wahrscheinlichkeit dafür an, daß zumindest eine Feststellung falsch ist, wenn die Nullhypothese der Gleichheit aller c Verteilungen zutrifft; mit anderen Worten: 1—a ist die Wahrscheinlichkeit dafür, daß alle Feststellungen korrekt sind. Das globale a ist in der Regel größer als das a, das gewöhnlich bei nur einem Vergleich zweier Stichproben vorgegeben wird; je größer c ist, desto größer wird a gewählt werden. Wir wollen als Beispiel das nichtparametrische Verfahren von Dunn anfuhren: Es bezeichne Rj = Rj/rij den Durchschnittsrang in der i-ten Stichprobe, 1 < i < c (zur Bezeichnung siehe 3.3.1). In Abhängigkeit vom vorgebenen globalen a und der Anzahl c(c—1)/2 der simultanen Vergleiche suchen wir aus der Tabelle A der standardisierten Normalverteilung das Quantil z, für das gilt:
Dann ist die Wahrscheinlichkeit dafür, daß die folgende Ungleichung für alle Paare von Mittelwerten Rj, Rj, i+j, gilt, wenn die Nullhypothese H richtig ist, mindestens gleich 1— a:
196
Datenanalyse
mit anderen Worten: alle Differenzen |Ri - Rj|, die größer sind als die rechte Seite der Ungleichung, sind signifikant auf dem Testniveau a. Es kann vorkommen, daß der globale Test zur Ablehnung von H führt, hingegen keines der Paare sich signifikant unterscheidet, d.h. obige Ungleichung für alle i,j mit 1 < i < j < c gilt. Wenden wir dieses Verfahren von Dunn auf das Beispiel 4 an, so ist c = 4 und z = 2.128 für a = 0.2. Die Ergebnisse aller weiteren notwendigen Berechnungen sind in der folgenden Tabelle zusammengestellt ( E = l . Stichprobe, W = 2 . Stichprobe, S = 3. Stichprobe, D = 4. Stichprobe) Tabelle 3.2. (Multipler Vergleich) /N(N+1) , 1 . 1 , ( 12 "i + nj >
Stichprobenpaar (i,j)
t Z V
(1,2) (1,3) (1,4) (2,3) (2,4) (3,4)
15.10 14.86 15.35 16.10 16.52 16.30
IRi-Rjl 10.96 14.18 26.45 3.22 15.49 12.27
Bei einem simultanen multiplen Vergleich ist also für a = 0.2 nur die Differenz beim Paar (1,4) signifikant. Weitere Verfahren für simultane multiple Vergleiche (parametrische und nichtparametrische), so z.B. die Tests von Newman-Keuls, Duncan, Tukey, sind bei Weber (1967) und Winer (1962) zu finden. Erforderliche Kenntnisse (B = Bleymüller u.a. (1979)) 1.
2 = Summenzeichen, | | = Absolutbetrag einer Zahl, siehe Symbolliste.
2.
Zufallsvariable — Verteilung — Dichte(-funktion) - Parameter einer (eindimensionalen) Verteilung wie z.B. Erwartungswert, Varianz, siehe B, Kap. 7.
3.
Unabhängigkeit von Zufallsvariablen, siehe B, Kap. 8.
4.
Normalverteilung, t-Verteilung, x 2 -Verteilung, siehe B, Kap. 10.
5.
Zufallsauswahl-Stichprobe, siehe B, Kap. 12.
6.
F-Verteilung, siehe B, Kap. 13.
7.
Testbegriff - Hypothese (einseitig, zweiseitig) - Teststatistik (Prüfgröße), Testniveau (Irrtumswahrscheinlichkeit) — kritischer Bereich — kritischer Wert - Güte (Macht), siehe B, Kap. 16.
4.
Lineare Modelle
4.1
Einleitung
Viele Fragestellungen der Datenanalyse haben eine typische Form: Eine quantitative Größe Y soll mit Hilfe einer Reihe von Einflußfaktoren X! ,X 2 . . . X p erklärt werden. Das einfachste Modell über den Zusammenhang von Y und den Einflußfaktoren ist ein lineares Modell: Y ~ 0 o + iJ1X1+02X2 + . . . + 0 p X p mit unbekannten Parametern ßa,ßi sollen.
• • • ßp, die aus den Daten geschätzt werden
Im Regelfall wird sich Y nicht exakt als lineare Funktion der X, darstellen lassen — die obige Gleichung muß daher noch durch eine (unbeobachtbare) Variable U, die den Effekt von „Störfaktoren" darstellen soll, ergänzt werden: Y = 0o + ß1X1 + . . . + 0 p X p + U . Die „Störvariable" U kann man sich als Zusammenfassung der Wirkungen aller nicht ins Modell aufgenommenen Einflußfaktoren vorstellen. An einer Reihe von Beispielen werden wir in diesem Buch illustrieren, wie vielfältig die Probleme sind, die sich mittels derartiger linearer Modelle angehen lassen.
4.2
Grundidee des linearen Modells
Beispiel 1: Eine amerikanische Fernsehstation sendet jeden Freitag um 20.00 eine Showsendung und anschließend um 21.00 Nachrichten (TVNEWS). Es wird vermutet, daß sich die Einschaltquote Y von TVNEWS vorwiegend durch die Einschaltquote X j der vorangegangenen Show erklären läßt. Ein mögliches lineares Modell wäre (1)
Y = ßQ + ßtXt
+ U.
Um die Parameter des Modells zu schätzen, müssen Beobachtungen der Variablen Y und X j vorliegen (sowie bestimmte Annahmen über die unbeobachtete Stör-
198
Datenanalyse
variable U erfüllt sein - auf diese Annahmen gehen wir erst später ein). An 34 aufeinanderfolgenden Freitagen ( t = l , 2 , . . .,34) wurde jeweils die Einschaltquote y t der Nachrichtensendung sowie die Einschaltquote x t l der Show gemessen. Tabelle 4.1. Einschaltquoten t
yt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
21 19 17 29 28 29 27 23 34 34 18 20 34 27 36 19
17 17 18 18 18 18 18 19 19 21 21 21 21 23 23 23
t
yt
*tl
17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
29 20 26 20 26 21 32 27 32 24 28 30 35 23 7 10 42 45
27 27 27 27 29 29 30 30 31 31 31 33 34 34 10 12 37 40
Aus der allgemeinen Gleichung (1) folgen dann die 34 Gleichungen: (2)
yt =
ft,+0ix„+ut
für die einzelnen Freitage, t = 1 , 2 , . . .,34. Wir wollen die Bedeutung der hier auftauchenden Größen durch ein Gedankenexperiment illustrieren. Dazu nehmen wir an, daß die y t tatsächlich einer Gleichung der angegebenen Form mit den Parametern ß0 = 10 und ßt = 0.6 folgen: (3)
y t = 10 + 0.6 x t l + u t .
Die Gleichung y = 10 + 0.6 x stellt eine Gerade mit der Steigung 0.6 und dem y-Achsenabschnitt 10 dar. Da eine Einschaltquote y t jedoch noch von vielen anderen Faktoren als x t l abhängt, werden die 34 Beobachtungen ( y t , x u ) nicht exakt auf dieser Geraden liegen, sondern mehr oder minder davon abweichen. Wir können nun jede Beobachtung y t in 2 Bestandteile zerlegen - einmal den durch x t l „vorhergesagten" Wert auf der Geraden (also den Effekt der Einfluß-
199
4. Lineare Modelle
faktoren) und zum zweiten die Abweichung von dieser Geraden (also den Effekt der Störvariablen): y t = (10 + 0.6 x t l ) Effekt der Einflußfaktoren
+ ( y t - ( 1 0 + 0.6xtl)). Effekt der Störvariablen ut
Abbildung 4.1. veranschaulicht diese Zerlegung exemplarisch für t = 34. Hier ist y t = 45 und x t l = 40, also ergibt sich als Effekt der Einflußfaktoren 10 + 0.6 • 40 = 34 und als Effekt der Störvariablen u 3 0 = 11.
Abb. 4.1 Illustration der Größen des linearen Modells
Es wurden hier die 34 Punkte ( y t , x t l ) in ein Koordinatensystem (y,x) eingezeichnet, sowie die „wahre" Gerade y = 10 + 0.6 x durch diesen Punkteschwarm gelegt. Jeder Wert y t setzt sich also aus 2 Bestandteilen zusammen — dem „systematischen Effekt" 10 + 0 . 6 x t l und dem Störterm u t . In der Praxis sind nun die „wahren" Koeffizienten ßQ, ßi nicht bekannt, sondern müssen aus den Daten geschätzt werden. Man versucht dazu, die Gerade möglichst „optimal" durch den beobachteten Punkteschwarm zu legen. Die Idee dahinter („Kleinstquadratprinzip") ist folgende: Für beliebige Schätzungen ßQ und ßi der Parameter stellt y, — ( 0 o + i ' i x t i ) die Abweichung des Wertes y t von der geschätzten Geraden = p 0 + P i x t i ) dar. Die Abweichung u t = y t — y t ist also eine Schätzung fit des unbekannten Störterms u t .
200
Datenanalyse
Man versucht nun, ßQ und ßl so zu bestimmen, daß die Summe der quadrierten Abweichungen Dû? möglichst klein wird. Explizite Formeln zur Berechnung der „optimalen" Schätzungen ßQ,ßi, die sich nach diesem Prinzip ergeben, werden wir noch kennenlernen. Der Leser, der in der glücklichen Lage ist, eines der in jedem Rechenzentrum vorhandenen Programme zur Regressionsanalyse verwenden zu können, kann allerdings auch diesem Programm die Berechnung anvertrauen und wird dann ungefähr folgenden Minimaloutput erhalten: Tabelle 4.2.
Minimaloutput eines Regiessionsprogramms
REGRESSIONI
============ I I
BETA
9.8281
I
BETA
0.6691
IT IT
2.4141 4.195 1
====== I
r== I RSS
.
I R2.
..
IS2 . . .
1389.7431 43.4291 0.355 1
I R2ADJ
0.3151
I F-REG
17.6001
I PRESS
69.9701 =========+
+====
Für uns sind zunächst die geschätzten Koeffizienten ßa und ßt interessant: ß 0 = 9.828 und & = 0.669 . Eine anschauliche (aber etwas gewagte) Interpretation dieser Koeffizienten wäre, daß 67% der Zuschauer der Show auch bei TVNEWS den Apparat eingeschaltet lassen, während 9.8% aller Zuschauer erst bei der Nachrichtensendung dazukommen. Was besagen die restlichen Angaben im „Minimaloutput" (am wichtigsten sind R2, F-REG, TO und Tl)? (1) R2 („R-Quadrat", R 2 , Bestimmtheitsmaß, multipler Korrelationskoeffizient) mißt den Anteil an der Gesamtvarianz der Einschaltquoten y t , der durch das Modell „erklärt" wird. Formal handelt es sich um den Quotienten aus der Varianz der geschätzten Werte 9t = ßo + $1 Xtl
201
4. Lineare Modelle
(also der Punkte auf der geschätzten Geraden) und der Varianz der ursprünglichen Werte y t . Große Werte von R-Quadrat (0.8-0.99) deuten auf eine gute Anpassung der Punktwolke an die Gerade hin. Ein Wert von R 2 = 1 heißt, daß die Punkte exakt auf der Geraden liegen. Hier erfassen wir ungefähr 35% (R 2 =0.355) der Gesamtvarianz durch das Modell - ein Wert, der bei nur einem unterstellten Einflußfaktor durchaus akzeptabel ist. In einem Modell mit nur einem Einflußfaktor ist R 2 einfach das Quadrat des gewöhnlichen (Pearson'sehen) Korrelationskoeffizienten r zwischen der zu erklärenden Variablen Y und dem Einflußfaktor Xj. Wir erinnern an die Definition des Korrelationskoeffizienten r xy zwischen zwei Variablen X und Y, von denen n Beobachtungspaare (x 1 ,y 1 ),(x 2 ,y 2 ),.. ., (x n ,y n ) vorliegen. Es gilt
wobei sx die Standardabweichung der Werte x 1 ; x 2 , . . .,x n , s y die Standardabweichung der Werte y i , y 2 , . • .,y n und s x y die Kovarianz der Xj und der yj ist: ] n xy = TT . 2 (xj—x) (yj—y). i= i
s
r xy ist ein Maß für Stärke und Richtung der linearen Beziehung von X und Y: r x y = +1
:
rxy = 0 r xy = - 1
perfekte gleichläufige lineare Beziehung, keine lineare Beziehung
:
perfekte gegenläufige lineare Beziehung .
(2) F-REG („F-Statistik für Regression") liefert einen Test zur Überprüfung der Frage, ob alle p Einflußfaktoren zusammengenommen keinen Beitrag zur Erklärung von y t liefern (d.h. ob die wahren Koeffizienten ßy ,ß 2 ,/3 3 ,.. .,j3p sämtlich gleich 0 sind). Berechnung:
Ist der Anteil der erklärten Varianz R 2 also nahe bei 1, wird F sehr große Werte annehmen — der Test führt dann zur Ablehnung der Hypothese, daß alle Koeffizienten ßt bis ßp gleich 0 sind.
202
Datenanalyse
Genauer gilt: Wenn in Wahrheit alle Koeffizienten 0 sind (Nullhypothese H) und alle y; unabhängig und identisch normalverteilt sind, folgt F der sogenannten F-Verteilung mit den Parametern („Freiheitsgraden") p und n — p — 1. Ist das beobachtete F größer als der 95%-Punkt dieser Verteilung, so kann H mit Signifikanzniveau 5% abgelehnt werden. Im Beispiel 1 ist der 95%-Punkt der F 1 i 3 2 . Verteilung gleich 4.1 und F = 17.6 - die Nullhypothese wird also abgelehnt (d.h. ßi ist „signifikant" von 0 verschieden). (3) TO, T1 („T-Statistiken") erlauben einen Test, ob die einzelnen Koeffizienten des Modells ( ß a bzw. ß j ) gleich 0 sind. Da wir hier nur einen Einflußfaktor haben, ist der F-Test „auf Regression" hier dem Test „auf ßi = 0 " äquivalent. Tj ist eine Teststatistik für den Test von H : ßj = 0 gegen G : ßj + 0. Allgemein gilt unter Normalverteilungsannahmen für die y t und sofern ßj tatsächlich gleich 0 ist, daß Tj t-verteilt ist mit n — p — 1 Freiheitsgraden. Sofern |Tj| zu groß ist, wird H abgelehnt. Der Praktiker der Regressionsanalyse benutzt als grobe Richtschnur: lehne H ab, wenn Tj kleiner als —2 oder größer als +2 ist. Im Beispiel 1 ist sowohl ßQ als auch ßt „signifikant" von Null verschieden. Zur Berechnung der Tj vgl. Abschnitt 4.4.
4.3
Residuen und Residuenanalyse
Aus all den Größen des Minimaloutputs ergibt sich ein eindeutiges Bild: das Modell liefert eine brauchbare Erklärung der Einschaltquoten von TVNEWS. Ein R 2 von 0.35 ist akzeptabel, die Tests zeigen, daß alle Parameter signifikant von 0 verschieden sind, die Parameterschätzungen sind gut interpretierbar. Wenn die Fernsehanstalt also will, daß TVNEWS öfter gesehen wird, sollte sie spannendere Shows bringen, um Xi zu erhöhen. Das Bild ist eindeutig - aber falsch. Dies wird insbesondere den Leser freuen, der sich über unsere knappe und unverständliche Beschreibung des Minimaloutputs geärgert hat. Alle diese schönen Größen sind nämlich völlig sinnlos, wenn die Voraussetzungen des Modells nicht stimmen. Bevor wir uns diese Voraussetzungen näher ansehen, wollen wir erst ein Verfahren kennenlernen, wie man zumindest grobe Verletzungen der Annahmen erkennen kann. Das Verfahren („Residuenplot") ist einfacher zu verstehen als die mathematischen Annahmen, die es überprüft. Die Schätzung eines Regressionsmodells produziert eine Zerlegung der Beobachtungen y t in zwei Bestandteile: (1) die geschätzten Beobachtungen y t (die auf der Geraden liegen) und
203
4. Lineare Modelle
(2) die Abweichungen u t = y t — y t der Beobachtungen von dieser Geraden, die sog. Residuen oder Fehler: Beobachtungen = Schätzungen + Fehler . Wenn das Modell korrekt ist, sollte keinerlei erkennbarer Zusammenhang zwischen den Schätzungen y t und den Residuen u t mehr bestehen. Die Korrektheit des Modells kann man (und muß man, wenn man valide Modelle bekommen will) nun dadurch überprüfen, daß man die Residuen u t gegen die Schätzungen y t als Punkte in einem zweidimensionalen Koordinatensystem aufträgt. Die entstehende Punktwolke sollte völlig zufällig aussehen und keine Struktur aufweisen. Noch etwas verbessern kann man dieses Diagramm, wenn nicht die Residuen u t , sondern die sog. studentisierten Residuen a t benutzt werden. Dies sind die Residuen, dividiert durch ihre geschätzten Standardabweichungen (Formel wird etwa in Seber (1977) angegeben). Werte außerhalb des Bereichs - 3 bis +3 deuten auf Ausreißer hin. Wie sieht dieses Diagramm (d t gegen y t ) im Fall der Einschaltquoten aus? 2.0 1.5 1.0
0.5 0.0 -0.5 -1.0 -1.5 -2.0
10 Abb. 4.2
15
20
25
30
35
40
Residuenplot
Hier ist eine klare Struktur zu erkennen: die Punkte bilden drei Unterwolken. Zwei Wolken aus je zwei Punkten, die extrem hohe y und extrem hohe d bzw. extrem kleine y und extrem kleine d besitzen — es handelt sich um vier Ausreißer mit untypischen Wertekombinationen. Der Rest der Punkte zeigt einen fal-
204
Datenanalyse
lenden Trend - mit steigendem y fällt d. Der Residuenplot deutet darauf hin, daß das Modell nicht korrekt ist! Sofern nur eine Einflußgröße vorhanden ist (wie in unserem Fall), kann man diese Inkorrektheit auch anhand einer Zeichnung von y t gegen x t l erkennen (allerdings nicht so klar, wie im Residuenplot) — vgl. dazu Abb. 4.1. Die vier Ausreißerpunkte verzerren die geschätzte Gerade. Würde man diese Punkte weglassen, so ergäbe sich nahezu eine Waagerechte, d.h. keine Veränderung von y durch Variation von x. Unser Minimaloutput hat also im wesentlichen nur die untypische Situation dieser vier Punkte (sehr niedrige bzw. sehr hohe Einschaltquoten in beiden Sendungen) wiedergegeben. Eine Neuschätzung des Modells ohne diese vier Punkte ergibt ein R 2 bei 0.03 sowie eine nicht signifikante und nahe bei 0 liegende Schätzung von ß,! Generell gilt, daß die Ergebnisse eines Regressionslaufs ohne Residuenplot nicht vertrauenswürdig sind — einzelne extreme Punkte können völlig irreführende Resultate produzieren! Im Idealfall — wenn die Voraussetzungen des linearen Modells erfüllt sind — wird eine derartige Situation nicht auftreten. Diese Voraussetzungen lassen sich für y oder äquivalent für u aussprechen: (1) Die y t sind normalverteilt (bzw. die u t sind normalverteilt). (2) Der Erwartungswert E[y t ] ist eine lineare Funktion E[y,] = ßo + M t i + 0 2 x t 2 + .. . + 0 p x,p der p Einflußgrößen (bzw. der Erwartungswert der u t ist 0). Die Größen x tj werden als deterministisch angesehen. (3) Die Varianz aller y t ist gleich: var[yt] = o 2
(bzw. var[ut] = o 2 ) für alle t .
(4) Alle y t sind unabhängig (bzw. alle u t sind unabhängig). Exakt werden diese Voraussetzungen niemals zutreffen. Die approximative Gültigkeit der Voraussetzungen sollte jedoch überprüft werden. In der Praxis haben sich dazu eine Reihe von Heuristiken bewährt: (1) Die Schätzungen u t sollten näherungsweise normalverteilt sein. Dies kann mittels der Boxplots und Stemleafs aus Kapitel 2 beurteilt werden. Insbesondere sollten keine Ausreißer auftauchen (d, außerhalb des Bereichs —3 bis +3), und es sollten keine „untypischen" Punkte im Residuenplot sichtbar sein. (2) Die Linearität der Beziehung ist leicht im Residuenplot zu überprüfen. Es sollte dort kein Zusammenhang zwischen y t und d t bestehen. Eine Zeichnung wie die folgende wäre ein extremes Gegenbeispiel:
4. Lineare Modelle
205
yt
Abb. 4.3 Nichtlinearer Zusammenhang
Wir würden in einem solchen Fall entweder y transformieren - etwa zu log y oder y 2 übergehen — oder aber eine oder mehrere der X-Variablen transformieren — also z.B. ein Modell Y = ßQ + ß1X + ß2X2 schätzen. Ob jedoch alle relevanten Einflußgrößen erfaßt wurden (und auch nur diese), ist sehr schwer zu überprüfen und setzt Techniken der Modellsuche voraus, auf die wir in diesem Buch nicht eingehen können. Einen gewissen Hinweis liefert das PRESS-Kriterium sowie sog. Modellvalidierungstechniken (vgl. Dixon (1978)). (3) Varianzunterschiede der y t (sog. „Heteroskedastizität") treten meist in der Form auf, daß mit steigendem E[y t ] auch var[y t ] steigt. Im Residuenplot ergibt sich dann eine typische Keilform.
yt
Abb. 4.4 Heteroskedastizität
206
Datenanalyse
Häufig kann diese Erscheinung durch Transformation der y t (etwa Übergang zu log y t ) beseitigt werden. (4) Verletzungen der Unabhängigkeitsannahme sind die Regel, wenn es sich um zeitlich oder räumlich angeordnete Beobachtungen handelt (Beispiel: y t = Bruttosozialprodukt im Jahr t). Wir werden diese Situation im Kapitel 7 über Zeitreihenanalyse betrachten.
4.4
Formale Behandlung des linearen Modells
Beispiel 2: Zu Beginn des Vietnamkriegs war in Regierungskreisen der USA die These verbreitet, daß es politisch gefährlich sei, arme Gebiete in Südvietnam ökonomisch zu entwickeln. Eine Studie der RAND-Corporation hatte nämlich zu zeigen versucht, daß eine positive Beziehung zwischen der ökonomischen Entwicklung in südvietnamesischen Regionen und dem Ausmaß bestand, in dem der Vietcong dort die Kontrolle innehatte: je ärmer ein Gebiet — desto stärker die Saigonregierung! Tabelle 4.3. Daten für Beispiel: Vietcongstützpunkte t
y
Xl
x
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
13 31 40 65 17 21 19 18 34 64 32 28 35 25 40 28 31 41 47 36 35 31 56 25 26 62
236 290 334 405 292 283 222 332 390 394 438 390 475 431 633 440 480 402 517 471 590 387 664 332 453 596
38 66 62 74 59 40 45 45 50 62 44 60 67 54 49 69 57 60 48 42 55 42 69 41 45 44
2
"3 ZENTRAL ZENTRAL ZENTRAL ZENTRAL ZENTRAL ZENTRAL ZENTRAL ZENTRAL ZENTRAL SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED SUED
207
4. Lineare Modelle
Bestätigt die Empirie diese These? Betrachten wir eine Reihe ökonomischer und sozialer Daten (aus dem Jahr 1965) über die Gebiete der zentralen und südlichen Provinz von Südvietnam. Es handelt sich um folgende Variablen: Y = Prozentsatz an Dörfern unter Saigonkontrolle X! = Prokopfeinkommen X 2 = Konzentrationsindex für Landbesitz X 3 = Provinz (südlich oder zentral)
Wir wollen die These der RAND-Corporation mit einem linearen Modell Y = 0 O + 0 1 X 1 + 0 2 X 2 + |33X3 + U . überprüfen — die Variable X 3 („Provinz") wurde hinzugenommen, da Unterschiede zwischen zentralen und südlichen Gebieten von Vietnam vermutet werden. Hier tritt jedoch ein technisches Problem auf: wie kann eine qualitative Variable wie „Provinz" in das Modell einbezogen werden? Dies geschieht mit Hilfe einer sog. Dummy-Variablen: wir setzen X 3 = 1 für alle Gebiete der Zentralprovinz und X 3 = 0 für alle Gebiete der Südprovinz. ß3 beschreibt dann den zusätzlichen Effekt, den die Zugehörigkeit zur Zentralprovinz ausübt. Diese Technik funktioniert ganz allgemein für beliebige qualitative Variable und läßt offenbar zahlreiche Variationen zu, z.B.: (a) 1 und —1 anstelle von 1 und 0 (wie ist die Bedeutung von ß3 in dieser Codierung?). (b) Eine qualitative Variable mit mehr als zwei Ausprägungen kann durch einen Satz von Dummy-Variablen, die nur Werte 0 oder 1 annehmen, beschrieben werden. Hätten wir z.B. Gebiete aus den 3 Provinzen Zentral, Süd, Nord, so würden zur Kodierung der Variable „Provinz" 2 Dummy-Variable X 3 , X 4 verwendet werden mit den folgenden Wertekombinationen: Provinz
x3
X4
Zentral Süd Nord
1 0 0
0 1 0
208
Datenanalyse
(c) Es ist weiterhin möglich, auch den Effekt des Zusammenwirkens mehrerer Variablen (sog. „Interaktionseffekte") zu berücksichtigen. Hätten wir z.B. die Variable X 2 folgendermaßen codiert:
1
0, wenn niedrige Konzentration 1, wenn hohe Konzentration ,
so könnten wir eventuell zusätzliche Auswirkungen der Kombination (hohe Konzentration in der Zentralprovinz) durch Aufnahme der Variablen X2 • X 3 erfassen. Lineare Modelle, die als Einflußgrößen nur qualitative Variable aufweisen, werden mit dem Begriff „varianz-analytische Modelle" bezeichnet. Der Leser beachte, daß wir im Kapitel 3 gerade das Modell mit einer qualitativen Variablen behandelt haben (jede Stichprobe entspricht einer unterschiedlichen Ausprägung der Einflußgröße). Mit der angegebenen Codierung von X 3 können wir nun eine Regressionsanalyse durchfuhren. Wäre die These der RAND-Corporation zutreffend, so müßte der Koeffizient ß1 von X t ein negatives Vorzeichen haben. Tabelle 4.4. Ergebnisse der Regressionsanalyse (Vietcongstützpunkte) I 1 1 1 1 1
BETA BETA BETA BETA
0 1 2 3
I REGRESSIONI 1 1 — -20.9421 1 | 0.0741 0.4431 1 3.2651 1
IT 0 1 IT 1 I 2 1 1T IT 3 1 1 ==- 1 1 RSS. . . 1 1 S2 .. 1 1 R2 .. 1 I R2ADJ. . . . 1 1 F-REG.• • 1 1 PRESS... • 1
-1.3531 2.6441 2.0231 0.4991 1 2769.0001 125.8641 0.4601 0.3611 6.2371 73.5691
Die Regressionsanalyse zeigt jedoch ein anderes Resultat, d a ß 1 ein signifikantes posivites Vorzeichen hat (Ti =2.644). Der im folgenden wiedergegebene Resi-
4. Lineare Modelle
209
duenplot macht allerdings ebenso wie das nicht signifikante Vorzeichen von X 3 deutlich, daß das Modell noch bestimmte Defekte aufweist. 3.0-j 2.5-2.0-
1.51.0
0.50.0
—
-0.5- ' -1.0-
-1.5-1
1 20
1 30
1 40
1 50
60
Abb. 4.5 Residuenplot (Vietcongstützpunkte)
Wir wollen der Entwicklung eines korrekteren Modells hier jedoch nicht nachgehen, sondern uns damit beschäftigen, wie die Schätzungen in Tabelle 4.4. zustandegekommen sind. Die Schätzung der Regressionskoeffizienten genden Schritten:
ß0,ßi,ß2>ß3 vollzieht sich in fol-
(1) Bilden der Beobachtungsmatrix X. Wir stellen eine Matrix X auf, in der zu jedem Parameter ßj eine Spalte Xj gehört, welche die Werte des betreffenden Einflußfaktors enthält. Für ßQ fügen wir eine Spalte mit lauter Einsen ein: Das lineare Modell y t = ßo + M t i + • • • + 0 p x t p + u t lautet dann in Matrixschreibweise y = X ß + u .
Wenn n Beobachtungen und p Einflußfaktoren vorliegen, so ist y (und ebenso u) ein Vektor der Länge n, ß ein Vektor der Länge p + 1 und X eine Matrix mit n Zeilen und (p+1) Spalten.
210
Datenanalyse
Tabelle 4.5. Beobachtungsmatrix X 236 290 334 405 292 283 222 332 390 394 438 390 475 431 633 440 480 402 517 471 590 387 664 332 453 596
38 66 62 74 59 40 45 45 50 62 44 60 67 54 49 69 57 60 48 42 55 42 69 41 45 44
1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
In unserem Beispiel ist y einfach die Spalte „y" in Tab. 4.3. (2) Wir berechnen nun die Matrix C der inneren Produkte zwischen je 2 Spalten in X. Wenn X p + 1 Spalten enthält, so ist C eine symmetrische (p+1, p+1)Matrix, die in Zeile i und Spalte j das innere Produkt
Cjj -
2 xti xtj t=i
der Spalte i und der Spalte j von X enthält. Kurz C = X'X . (p+1, p+1) (p+1, n) (n, p+1) Tabelle 4.6. Matrix C der inneren Produkte / 26 [ 10877 \ 1387 \ 9
10877 4887741 586159 2784
1387 586159 76807 479
2784 479 9,
4. Lineare Modelle
211
( 3 ) Nun wird C invertiert — es ergibt sich C
1
=(X'X)"'.
C besitzt genau dann eine Inverse, wenn alle Spalten in X linear unabhängig sind, was hier der Fall ist. Tabelle 4.7. Inverse C"1 von C 1.904497 -0.002266 -0.014361 „-0.439301
-0.014361 -0.000013 0.000381 -0.002019
-0.002266 0.000006 -0.000013 0.001026
( 4 ) Analog zur Matrix C = X ' X
-0.439301 0.001026 -0.002019 0. 340570 ,
mit den inneren Produkten der Einflußfakto-
ren untereinander bilden wir nun einen Vektor X ' y der Länge ( p + 1 ) , der die inneren Produkte der p + 1 Spalten in X mit dem Vektor y enthält. Tabelle 4.8. X'y / 900 \ / 400774 \ l 49690 J \ 258/
( 5 ) Man erhält nun ß durch Multiplikation von ( X ' X ) - 1 = C " 1 mit X ' y
ß = (X'X)~l X'y
Tabelle 4.9. ß = (X'X)" 1 X'y -20.941911\ / 1.903397 0.073647 \ _ ( - 0 . 0 0 2 2 6 6 0.442715 j 1 - 0 . 0 1 4 3 6 1 3 264742/ \ - 0 . 4 3 9 3 0 1
-0.002266 0.000006 -0.000013 0.001026 (X'X)
-0.014361 -0.000013 0.000381 -0.002019
-0.43930l\ 0.001026 \ -0.002019 I " 0.340570/
-1
/ 900^ [400774 \ 49690 \ 258/ (X'y)
( 6 ) Hat man einmal die Regressionskoeffizienten ß geschätzt, so lassen sich daraus einfach die anderen Größen des „Minimaloutputs" berechnen.
212
Datenanalyse
Die geschätzten y-Werte sind y = Xß und die Residuen ergeben sich durch u = y - y (d.h. u t = y t - y t ). Die Summe der quadrierten Residuen (RSS = residual sum of squares) RSS = u'u = 2 u? t=i liefert eine unverzerrte Schätzung für die Störvarianz a mittels =
RSS n-(p+l) "
Die Summe der quadrierten Residuen kann mit der entsprechenden Größe für die Beobachtungen y t („total sum of squares") verglichen werden: TSS=
2(yt-y)\ t=i
wodurch sich der Anteil R 2 erklärter Varianz ergibt: R,22 _= 1,
RSS TSS '
Schließlich stellt die Matrix a 2 (X'X)"' eine Schätzung für die Varianz-Kovarianzmatrix der geschätzten Regressionskoeffizienten dar, insbesondere findet man in der Diagonale dieser Matrix Schätzungen a? für die Varianz der Koeffizientenßj. A
J
Die T-Statistik für den Test auf H : ß-, = 0 ist X-J = —
-j'
Es soll abschließend ein heuristisches Argument für die Gleichung ß= (X'X)-'X'y A
zur Berechnung der Kleinstquadrateschätzer gegeben werden. Wir wollen ja ß so wählen, daß möglichst genau
4. Lineare Modelle
213
gilt. Multipliziert man beide Seiten dieser „Gleichung" mit X' (der Transponierten von X), geht also zu den Kreuzprodukten über, so entsteht X'y = X'Xß
.
Im Gegensatz zur Gleichung y Xß kann die entsprechende Beziehung für die Kreuzprodukte (die sog. Normalgleichung) exakt erfüllt werden, wenn man die letzte Gleichung nach ß auflöst, d.h. ß = (X'X)"'X'y .
4.5
Transformationen (BOX-COX-Analyse)
Das lineare Modell ist ein weit flexibleres Instrument, als es bei oberflächlicher Betrachtung erscheinen mag. So lassen sich mit Hilfe von linearen Modellen auch zahlreiche nichtlineare Beziehungen zwischen Variablen überprüfen. Ein Beispiel für eine derartige Beziehung wäre etwa die zeitliche Entwicklung des Umsatzes einer rasch expandierenden Firma. Hier könnte man möglicherweise ein exponentielles Wachstum des Umsatzes (y) mit der Zeit (t) unterstellen: (*) y, = e ' o + 0 . t .
Das nichtlineare Modell ( • ) kann durch Logarithmieren beider Seiten in ein äquivalentes lineares Modell überführt werden logy t = 0 o + ß i t . Die Techniken der früheren Abschnitte können nun zur Untersuchung dieses Modells verwendet werden. Ganz analog kann ein Potenzmodell yt = ß o t 0 1 durch Übergang zu den Logarithmen „linearisiert" werden: log y t = (log ß 0 ) + ß, • ( l o g t ) . Wieder handelt es sich um ein lineares Modell mit den Variablen (log y t ) und (logt).
214
Datenanalyse
Diese zusätzliche Flexibilität bringt freilich für den Anwender die „Qual der 1 Wahl" mit sich: soll er y oder log y oder — oder . . . , soll er x oder irgendeine nichtlineare Funktion von x in das Modell nehmen? Wir wollen eine Methode kurz ansprechen, die eine gewisse Entscheidungshilfe bei der Suche nach geeigneten Transformationen der abhängigen Variablen y bietet. Es handelt sich dabei um ein von B O X und C O X entwickeltes Verfahren, mit dem eine Auswahl unter allen Potenztransformationen (vgl. Kapitel 2)
yW =
1—
für X * 0
log y
für X = 0
X
getroffen werden kann (vorausgesetzt, daß alle Beobachtungen y t positiv sind). Das Verfahren geht von der Annahme aus, daß ein X existiert, so daß die transformierten Beobachtungen y ^ . y ^ , • • • > e i n e m linearen Modell (**) y(*> = ßQ + ß l X „ + ß2xt2 + . . . + 0pXtp + u t folgen. Dabei sind x t l , x t 2 , . . .,x t p Werte vorgegebener Einflußfaktoren, und u t ist eine normalverteilte Störvariable. Um Aufschluß über das unbekannte X zu erhalten, ist es nötig, das Modell (**) für verschiedene alternative X-Werte mit Hilfe der Methoden aus Abschnitt 4.3 zu schätzen. In jeder solchen Schätzung wird also ein jeweils anders transformierter Vektor von Beobachtungen X zugrundegelegt.
aber immer die gleiche Beobachtungsmatrix
Zur Beurteilung der Schätzung benutzt man die Standardabweichung der Residuen:
Diese Standardabweichungen S(X) sind jedoch für verschiedene X nicht direkt vergleichbar — ein geeignetes Maß stellt die sogenannte konzentrierte Likelihood L(X) = — n (log S(X) +(X—1) log y) dar, in der log y den Mittelwert der logarithmierten Beobachtungen bezeichnet. Intuitiv gesprochen, mißt L(X) die Plausibilität der durch X beschriebenen Transformation.
4. Lineare Modelle
215
Man wählt nun denjenigen unter den betrachteten X-Werten aus, für den L(X) maximiert wird. Dieser Wert X stellt eine (approximative) Maximum-LikelihoodSchätzung für X dar. Ein (approximatives) 100(l-a)%-Konfidenzintervall für X besteht aus allen Werten X für die gilt
L(X)>L(X)-|X?_a,i
,
wobei Xi_
\
\
\
\
-10-•
\
\ \
-30-
\
\
-50--
\ \
-70 -3.0
-2.0
-1.0
1 0.0
Abb. 4.6 Likelihoodfunktion - Änderungsraten
1 1.0
216
Datenanalyse
L(X) wurde für X-Werte zwischen —2 und +2 im Abstand von 7 7 berechnet. Die 16 Zeichnung der konzentrierten Likelihood-Funktion in Abb. 4.6. weist deutlich auf eine Kehrwerttransformation hin (X = —1, 99%-Konfidenzintervall für X: [ - 1 . 5 , - 0 . 5 ] . ) Im Vietcong-Beispiel finden wir dagegen folgende konzentrierte LikelihoodFunktion:
Abb. 4.7 Likelihoodfunktion: Vietcongstützpunkte
Der Maximum-Likelihood-Schätzer ist X = - 0 . 1 8 7 5 und das 99%-Konfidenzintervall ist [ - 1 . 1 1 2 5 , 0.8125], Da eine Potenztransformation y^01875 schlecht interpretierbar ist, würden wir in diesem Beispiel eine logarithmische Transformation (X=0) vorziehen. Tatsächlich zeigt die Regressionsanalyse der Logarithmen von y eine deutlich bessere Anpassung des Modells (R 2 =0.541) als die Analyse der Originaldaten (R 2 =0.460).
4. Lineare Modelle
217
Tabelle 4.10. Regressionsmodell für Logarithmen (Vietcongstützpunkte)
— 1= = = = = = = = = = = = = + 1 1 REGRESSIONI 1 1 - 1 1 BETA 0 1 1.8761 0.0021 I BETA 1 | 1 BETA 2 1 0.0131 -0.0021 1 BETA 3 1 1 1 4.5561 0 1 1T 1 | 2.8161 1T 2.3041 IT 2 1 IT -0.0091 3 1 1 1 1 IRSS 1.9581 .. 1 0.0891 I S2 . .. . • • 1 1 R2 0.5411 .• 1 I R2ADJ. .. 1 0.4581 1 F-REG . . 1 8.6591 I HIESS. . . 1=============+ 61.5081 +======= — 1
+=======
Wir würden diese Analyse zum Ausgangspunkt für weitere Verbesserungsversuche des Modells nehmen.
Erforderliche Kenntnisse (B ^ Bleymüller u.a. (1979), M £ Müller-Merbach (1974)) 1.
2 = Summenzeichen, siehe Symbolliste.
2.
Grundbegriffe der Matrizenrechnung (Matrix, Addition und Multiplikation von Matrizen, Transponierte), siehe M, Kap. 8.
3.
Inversion von Matrizen, siehe M, Kap. 9.
4.
Wahrscheinlichkeitstheorie: Zufallsvariable, Unabhängigkeit, Verteilung, Erwartungswert, Varianz, siehe B, Kap. 7 und Kap. 8.
5.
Normalverteilung, t-Verteilung, siehe B, Kap. 10.3, Binomialverteilung, siehe B, Kap. 9.3.
6.
Grundidee des statistischen Tests, siehe B, Kap. 16.1,16.2.
7.
Grundidee des Konfidenzintervalls, siehe B, Kap. 14.1, 14.2.
8.
Maximum-Likelihood-Schätzung, siehe B, Kap. 15.5.
9.
Zur Ergänzung siehe B, Kap. 20, 21, 22, 23 und 24.
5.
Qualitative Variablen
5.1
Einführung
In den vorangegangenen Kapiteln stand die statistische Analyse quantitativer Daten im Vordergrund; in diesem Kapitel wollen wir ausschließlich qualitative Daten untersuchen, d.h. Daten, die nominales oder ordinales Meßniveau haben (siehe Kapitel 1). Beispiele für qualitative Variablen: 1. 2. 3. 4. 5. 6.
Familienstand: Sozialer Status: Qualität von Produkten: Steuerklassen: Schulnoten: Geschlecht:
ledig, verheiratet, verwitwet, geschieden hoch, mittel, niedrig 1. Wahl, 2. Wahl, Ausschuß I, II, III, IV, V 1,2,3,4,5,6 männlich, weiblich
Die Beispiele 1 , 4 , 6 kennzeichnen qualitative Variablen, deren Klassen (Kategorien) nicht geordnet sind im Gegensatz zu den Beispielen 2, 3, 5. Es ist unmittelbar einleuchtend, daß für Daten mit höherem (ordinalem) Meßniveau effizientere statistische Verfahren angegeben werden können. In statistischen Untersuchungen werden häufig Objekte jeweils nach 2 oder mehreren Variablen klassifiziert, so z.B. Personen nach Geschlecht, Familienstand und sozialem Status oder Produkte nach ihrer Verpackungsart und Qualität. Das führt zu einer Zusammenfassung der Daten in Form einer sogenannten zweioder mehrdimensionalen Kontingenztabelle. Statistische Analyse qualitativer Variablen ist in erster Linie die Analyse von Kontingenztabellen. Das wird in den nächsten Abschnitten dieses Kapitels deutlich werden, mag es sich dabei um unabhängige oder auch um abhängige Variablen handeln. Wenngleich wir dabei von teilweise recht unterschiedlichen Fragestellungen ausgehen werden, so wird sich jedoch zeigen, daß der y^-Test oft ein geeignetes Verfahren zur Lösung des vorgelegten Problems darstellt.
5. Qualitative Variablen
219
5.2
Eindimensionale Daten
5.2.1
Binomialtest
Beginnen wir mit einem einführenden Beispiel 1: Bei den letzten Wahlen erhielt die Partei A ungefähr 45% der abgegebenen Stimmen. Eine jüngste Meinungsumfrage von n = 100 Wahlberechtigten ergab 39 Stimmen für die Partei A. Spricht dies für die Hypothese, daß der Anteil der Wähler der Partei A nicht abgenommen hat (a=0.10)? Zur Beantwortung dieser und ähnlicher Fragestellungen dient der sogenannte Binomialtest, den wir zunächst allgemein beschreiben wollen: Es liegt eine Einteilung der qualitativen (unabhängigen) Daten in zwei sich ausschließende Klassen vor (Alternativdaten); im Beispiel 1: Wähler der Partei A, Nicht-Wähler der Partei A. Die Wahrscheinlichkeit, daß eine Beobachtung der Klasse 1 angehört, sei für alle n Beobachtungen gleich p und damit für die Klasse 2 gleich 1—p. Als Hypothesen kommen in Frage: H : p = po
gegen
G : p + p0
(zweiseitig)
H : p < po
gegen
G : p > p0
(einseitig)
H : p > po
gegen
G : p < p0
(einseitig),
worin po eine feste Zahl mit 0 < p 0 < 1 ist. (1) Als Teststatistik wählen wir die Anzahl T der Beobachtungen, die in die Klasse 1 fallen. T ist binomialverteilt mit den Parametern n und p (daher der Name Binomialtest). (2) Die Entscheidungsregeln hinsichtlich der oben angeführten 3 Hypothesen lauten: H : p = po
ablehnen, wenn gilt
Tt,_«
H : p > p0
ablehnen, wenn gilt
Tt1_a/2
Die Werte t a , t , _ a sind Quantile der Binomialverteilung mit den Parametern n und po und sind für n < 100 und verschiedene p 0 zwischen 0.05 und 0.50 in Wetzel u.a. (1967) tabelliert.
220
Datenanalyse
(3) Ist n in Abhängigkeit von p 0 hinreichend groß (Faustregel: 10 < np 0 < n - 1 0 ) , so kann die Binomialverteilung durch die Normalverteilung approximiert werden, und die Entscheidungsregeln unter (2) können wie folgt angegeben werden: H : p = po
ablehnen, wenn gilt:
T < np 0 - Z \ - a ß
Vnpo(l-po)
oder
T > n p 0 + z1_a/2
Vnpo(l-po)'
H:p n p 0 + z1_a VnpoO~Po)
H:p>p0
ablehnen, wenn gilt:
T < n p 0 - Z ] _ a Vnpo(l-po) »
worin zx_a das (l-a)-Quantil der standardisierten Normalverteilung bedeutet; np 0 ist der Erwartungswert und n p 0 ( l - p 0 ) die Varianz von T unter H. (4) Betrachten wir zur Veranschaulichung der Hypothesenformulierung und Anwendung der Entscheidungsregeln (2) bzw. (3) das Beispiel 1. Die Hypothese lautet H : p > 0.45 gegen G : p < 0.45 . Bestimmen wir den exakten kritischen Wert t a über die Binomialverteilung, so ist t a = 38 für n = 100, p 0 = 0.45 und a = 0.1. Der approximative kritische Wert beträgt: np 0 - z , _ a V n p o O - P o ) ' = 45 - 1.282 V45 • 0.55' = 38.62 ; er ist also eine gute Annäherung für den exakten Wert (die Faustregel ist wegen 10 < 100 • 0.45 < 90 erfüllt). Auf jeden Fall wird H wegen T = 39 auf dem Niveau a = 0.1 nicht abgelehnt. Zum Schluß dieses Abschnitts noch eine Bemerkung: Da T eine diskrete Zufallsvariable ist, gibt es in der Regel zu vorgegebenem a, z.B. a = 0.05 oder a = 0.1, keine natürlichen Zahlen t a bzw. t]_ a , für die exakt P ( T < t a ) = a bzw. P ( T > t ! _ „ ) = a gilt. Dann darf das vorgegebene Testniveau a durch die Angabe eines notwendigerweise ganzzahligen kritischen Wertes t a bzw. t j _ a wohl unterschritten, d.h. P ( T < t a ) < a bzw. P ( T > t ] _ a ) < a, nicht aber überschritten werden. Meist empfiehlt es sich, nachträglich das zum kritischen Wert gehörende exakte Testniveau a*, a* < a, anzugeben; im obigen Beispiel: a* = 0.0951.
5.2.2
x 2 -Test auf Anpassung
Als Verallgemeinerung des Binomialtests diskutieren wir in diesem Abschnitt den X 2 - T e s t für mehr als 2 Klassen. Zur Veranschaulichung der Problemstellung betrachten wir in Erweiterung von Beispiel 1 folgendes
221
5. Qualitative Variablen
Beispiel 2: Bei den letzten Wahlen hatten die insgesamt 4 kandidierenden Parteien A, B, C und D die Stimmenanteile: p, = 0.45, p 2 = 0.30, p 3 = 0.15 bzw. p 4 = 0 . 1 0 . Eine jüngste Meinungsumfrage von n = 100 Wahlberechtigten brachte n j = 39, n 2 = 37, n 3 = 20
bzw.
n4 = 4
Stimmen für die einzelnen Parteien. Haben sich die Stimmenanteile signifikant geändert (a=0.1)? Wir könnten zur Lösung dieses Problems so vorgehen, daß wir für jede der 4 Parteien getrennt die Hypothese einer gezielten Wahrscheinlichkeit formulieren und dann jeweils den Binomialtest durchführen, so z.B. für Partei B: H : p 2 = 0.30
gegen
G : p 2 + 0.30 .
Dann kann der Fall eintreten, daß einige der 4 Binomialtests zur Ablehnung der jeweiligen Hypothese führen, die restlichen nicht. Wie soll dann die Frage in Beispiel 2 beantwortet werden? Offensichtlich stellen bei der Überprüfung mehrerer Wahrscheinlichkeiten die sukzessiven Entscheidungen kein geeignetes Mittel zur Beantwortung der globalen Frage nach der Veränderung des Wählerverhaltens dar. Wir müssen daher ein Verfahren für das simultane Testen mehrerer Wahrscheinlichkeiten angeben. Als Beispiel wählen wir den x2-Test mit folgender allgemeiner Beschreibung: Es liegt eine Einteilung der n unabhängigen Beobachtungen in k sich ausschließende Klassen vor: Klasse Anzahl der Beobachtungen
mit
1
2
nx
n2
. . .
.
k n^
k 2 nj = n . i=l
Die Wahrscheinlichkeit dafür, daß eine Beobachtung in die i-te Klasse fällt, sei k Pi mit 2 p, = 1. Zu testen ist die Hypothese, daß die Wahrscheinlichkeiten i= 1 p i , . . . , p k für die einzelnen k Klassen ganz bestimmte Werte c , , . . . , C k sind
222
Datenanalyse
gegen die Alternative, daß sich mindestens eine Wahrscheinlichkeit pj von q unterscheidet, d.h. H : p j = C ! , . . ,,p k = c k gegen G : pj * Cj für mindestens ein i, 1 < i < k und 0 < q < 1. (1) Als Teststatistik betrachten wir: k (n,—nq) 2
Darin bedeutet nc, die zu erwartende Anzahl der Beobachtungen in der i-ten Klasse, wenn H zutrifft. (2) Es ist offensichtlich, daß „zu große" Werte von X 2 zur Ablehnung von H führen. Die exakte Verteilung von X 2 ist wegen der Vielzahl der auftretenden Parameter sehr mühselig zu berechnen und liegt nur in wenigen Auszügen tabelliert vor. Es kann jedoch gezeigt werden, daß X 2 näherungsweise x 2 -verteilt ist mit k—1 Freiheitsgraden (daher der Name x 2 -Test); die Entscheidungsregel lautet dann: H ablehnen, wenn gilt: X 2 > Xi_ a ,k_i • Quantile der x 2 -Verteilung sind in der Tabelle C zu finden. Für die Anwendung der (approximativen) x 2 -Verteilung wird in der Literatur zumeist nq > 5 bezüglich aller k Klassen gefordert. Falls dies nicht erfüllt ist, müssen Klassen zusammengelegt werden. (3) Für das Beispiel 2 lautet die Hypothese: H : p, = 0.45, p 2 = 0.30, p 3 = 0.15, p 4 = 0.10 . Es ergibt sich: (39—45)2 45
+
(37-30)2 30
+
(20-15)2 15
+
( 4 - 1 0 ),:2 = 7.7 . 10
Wegen Xo 9 3 = 6.25 wird H auf dem Testniveau a = 0.1 abgelehnt. Im Gegensatz dazu führte der einseitige und damit auch der zweiseitige Binomialtest im Beispiel 1 mit H : p = 0.45, bezogen auf die Partei A allein, nicht zur Ablehnung von H (siehe dazu die Bemerkungen zu Beginn dieses Abschnitts). 5.2.3.
M u l t i p l e r Vergleich
Führt der x 2 -Test zur Ablehnung der Nullhypothese, so stellt sich in der Praxis häufig die Frage, in welchen Klassen die Abweichungen von H „durchschlagen" (siehe 3.3.3); d.h. ein Test für einen simultanen multiplen Vergleich zwischen
223
5. Qualitative Variablen
den Klassen ist wünschenswert. Als Beispiel sei folgender Test nach Scheffc genannt: Wir bestimmen alle k Konfidenzintervalle Kj der Form:
y
~
Kj = .
n n >
mit it P i =
. 1_
~
*
Pi~ qi . - .+ -H—
p\
r2
>Pi vxi-c,^!
~>
• / P i • qi
v ^ —
P i f " 1 ^ 6 i . i = !»• • ->k-
Überdeckt das i-te Konfidenzintervall nicht das in der Hypothese H spezifizierte Ci (siehe S. 222), so ist die Abweichung bezüglich der i-ten Klasse auf dem Testniveau a signifikant. Wir wollen dieses Verfahren am Beispiel 2 erläutern. Die folgende Tabelle gibt die einzelnen berechneten Werte an (Vx^9
= V 6 . 2 5 ' = 2.5); + bedeutet Signifikanz.
3
Tabelle 5.1. (Multipler Vergleich bei p-Werten) Partei
q
Pi
Kj
Entscheidung
A B C D
0.45 0.30 0.15 0.10
0.39 0.37 0.20 0.04
[0.268;0.512] [0.249;0.49 ] [0.10; 0 . 3 0 ] [0.009; 0 . 0 9 ]
+
5.3
Vergleich eindimensionaler unabhängiger Daten
5.3.1
E x a k t e r Fisher-Test
Im vorangegangenen Abschnitt haben wir 2 Tests bei Vorliegen eines eindimensionalen unabhängigen Datensatzes kennengelernt; in diesem Abschnitt beschäftigen wir uns mit dem Vergleich zweier (Fisher-Test) und mehrerer (x 2 -Test) eindimensionaler unabhängiger Datensätze. Der Fisher-Test ist eine Erweiterung des Einstichproben-Binomialtests auf zwei unabhängige Stichproben und wird häufig für den Fall angewendet, daß die beiden Stichprobenumfänge klein sind. Betrachten wir vorab Beispiel 3: Ein Produkt ist in zwei Verpackungen A und B auf dem Markt. Es werden 8 weibliche und 8 männliche Personen befragt, ob sie sich beim Kauf des Produkts für die Verpackung A oder für B entscheiden.
224
Datenanalyse
In der nachstehenden Kontingenztabelle ist das Ergebnis der Befragung angegeben: Tabelle 5.2. (Geschlecht - Verpackungsart) Geschlecht
Verpackung A
B
weiblich
2
6
8
männlich
3
5
8
5
11
16
Neigen Männer bzw. Frauen mehr zu einer bestimmten Verpackungsart A oder B? Im allgemeinen Fall liegt folgende Situation vor: Jedes Element zweier unabhängiger Stichproben S i , S 2 , die aus 2 verschiedenen Grundgesamtheiten Gi bzw. G 2 stammen (im obigen Beispiel weiblich - männlich), ist genau eine von zwei sich gegenseitig ausschließenden Klassen A und B einer qualitativen Variablen zugeordnet. Seien p! und p 2 die Wahrscheinlichkeiten dafür, daß ein Objekt aus G! bzw. aus G 2 zu A gehört. Zu testen ist die Hypothese, daß die Anteile der Objekte aus G! und G 2 , die zu A gehören, gleich sind, d.h. H : p! = p 2
gegen
G : p! + p 2 .
Die Bezeichnungen für die Anzahlen der Beobachtungen nach obiger Aufteilung sind folgender 2x2-Tabelle zu entnehmen: Tabelle 5.3. (2x2-Tabelle für unabhängige Daten) S
A
B
S,
a
b
a+b
S,
c
d
c +d
a+c
b+d
n
(1) Für das Testproblem geben wir nun eine Teststatistik an, deren Verteilung unter der Annahme fest vorgegebener Randsummen, d.h. Zeilen- und Spaltensummen, bestimmt wird. Diese Festlegung bedeutet eine erhebliche Reduktion der Anzahl der möglichen 2x 2-Kontingenztabellen im Vergleich zu dem Fall, daß z.B. nur n, a + b und c + d oder sogar nur n vorgegeben sind. Bei festen
5. Qualitative Variablen
225
Randsummen kann jede 2x2-Tabelle in der nachstehenden Form dargestellt werden: Tabelle 5.4. (2x2-Tabelle mit festen Randsummen)
S, S,
A
B
X
a+b - x
a+b
d - a+x
c+d
b+d
n
a+c - x a+c
So hat in der Tabelle 5.2 für das Beispiel x den Wert 2; die restlichen 3 Werte der Tabelle sind dann wegen der festen Randsummen a + b = 8, c + d = 8, a + c = 5 , b + d = l l festgelegt: a + b - x = 6 usw. Natürlich hätte sich bei der Befragung für x auch z.B. der Wert 1 ergeben können, dann hätte die Tabelle folgende Gestalt erhalten: Tabelle 5.5. (Geschlecht - Verpackung) A
B
weiblich
1
7
8
männlich
4
4
8
5
11
16
Weil im allgemeinen durch die Angabe eines Wertes für x in der 2x2-Tabelle 5.4. bei vorgegebenen Zeilen- und Spaltensummen die 3 restlichen Werte eindeutig festgelegt sind, sprechen wir auch von einer 2x2-Tabelle mit einem Freiheitsgrad. Als Teststatistik betrachten wir die Anzahl X der Beobachtungen aus Sj, die zu A gehören. Es ist unmittelbar einleuchtend, daß zu große oder zu kleine Werte von X zur Ablehnung von H führen. Die Teststatistik X hat unter H eine Verteilung, die dem Fall ohne Zurücklegen entspricht, so wie die Binomialverteilung den Fall mit Zurücklegen beschreibt. Die Wahrscheinlichkeiten für X sind bestimmt durch:
226
Datenanalyse
die zugehörige Verteilung wird in der Literatur hypergeometrische Verteilung genannt. Die Entscheidungsregel lautet dann: H ablehnen, wenn gilt: X < x a / 2
oder X >
-
Quantile xa der hypergeometrischen Verteilung können Finney u.a. (1963) entnommen werden. (3) Die Verteilung von X läßt sich auch leicht mit Hilfe eines Taschenrechners über folgende Rekursionsformel bestimmen:
Für Beispiel 3 ergibt sich speziell: P(x=0, -
I l L j j = 0.0128
P(X=1) = 0.0128 • 7—7 = 0.128 1 •4 P(X=2) = 0.128
•
b i
=
•
P(X=3) = 0.360
° =
3 6 ° -
3
° 6
0
5 * 6
P(X=4) = 0.360
• f ^ = 0.128 4 •7
P(X=5) = 0.128
•
J ' o
= 0.0128
(Größere Werte als 5 kann X nicht annehmen, warum?) (4) Im Beispiel 3 mit Tabelle 5.2 ist X = 2; d.h. die Hypothese H, daß der Anteil der weiblichen Personen für Verpackung A gleich dem der männlichen ist, wird selbst auf einem Testniveau von a = 0.2816 nicht abgelehnt, denn es ist: x
0.1408= 1
un(
l XQ.8592
=
4.
(5) Mit wachsendem n wird die Berechnung der Verteilung von X entsprechend aufwendiger. Dann ist eine Approximation über die x 2 -Verteilung möglich. Dies
227
5. Qualitative Variablen
wollen wir im nächsten Abschnitt für den allgemeinen Fall von mehr als zwei Grundgesamtheiten erläutern.
x 2 -Test auf Homogenität
5.3.2
Als Erweiterung des Modells in 5.3.1 betrachten wir nun folgenden Fall: Es liegen insgesamt c-Stichproben S t , . . .,SC mit den Umfangen u i , . . . , u c aus c Grundgesamtheiten G j , . . .,G C vor. Jede Beobachtung in den einzelnen Stichproben gehört zu genau einer von r sich gegenseitig ausschließenden Klassen K l 5 . . ,,K r einer qualitiven Variablen. Dies werde durch die folgende (cxr)Kontingenztabelle veranschaulicht: Tabelle 5.6. (cxr-Tabelle mit variablen Spaltensummen) Klassen
K2
Kr
Gesamt
ll
n
12
n
U
n
21
n
22
njr
u2
Sc
n
cl
n
c2
"er
uc
Gesamt
V
1
v
2
Vr
n
Stichproben
K
l
Si
n
s2
lr
1
Es bezeichne n^ die Anzahl der Beobachtungen aus der i-ten Stichprobe Sj, die zur j-ten Klasse Kj gehören; z.B. gibt n 2 4 die Anzahl der Beobachtungen aus der 2. Stichprobe an, die zur 4. Klasse gehören. Im Gegensatz zu Abschnitt 5.3.1 werden hier nur die Zeilensummen u 1 ; . . . , u c als fest angenommen, die Spaltensummen v j , . . . , v r sind variabel. Es sei pjj die Wahrscheinlichkeit dafür, daß eine Beobachtung der i-ten Grundgesamtheit in die j-te Klasse fällt. Zu testen ist die Hypothese, daß die Wahrscheinlichkeitsverteilungen für jede der c Grundgesamtheiten identisch (homogen) sind; d.h. H : Pij = P2j = • • • = Pcj für alle j = 1 , . . . , r gegen die Alternative G, daß mindestens zwei Wahrscheinlichkeiten aus zwei Grundgesamtheiten für irgendeine Klasse j verschieden voneinander sind. Es sei vermerkt, daß mit H nur die Gleichheit von (unbekannten) Wahrscheinlichkeiten postuliert wird und nichts über die Größe ausgesagt ist.
228
Datenanalyse
Beispiel 4: Personen aus verschiedenen sozialen Schichten (hoch = G ^ mittel = G 2 , niedrig = G 3 ) werden zufällig ausgewählt, um eine Beurteilung (positiv = K t , neutral = K 2 , negativ = K 3 ) über eine laufende Werbeaktion für ein bestimmtes Produkt abzugeben. Ist das folgende Datenmaterial mit der Hypothese gleicher Beurteilungen in allen drei Schichten verträglich? Tabelle 5.7. (Schicht - Beurteilung) Beurteilung negativ neutral
positiv
Soziale Schicht
Gesamt
2
4
14
20
mittel
24
7
19
50
niedrig
22
5
3
30
Gesamt
48
16
36
100
hoch
Die Zeilensummen 20, 50, 30 sind fest, statt der Spaltensummen 48, 16, 36 hätten sich auch andere Spaltensummen (Gesamtsumme aber 100) ergeben können. (1) Als Teststatistik betrachten wir im allgemeinen Fall (Tabelle 5.6.):
T=
c 2
£ (nij~eij)
i=i j=i
mit
d.h. e;j bedeutet die unter H (geschätzte) erwartete Anzahl der Beobachtungen der i-ten Stichprobe, die in die j-te Klasse fallen. Zu große Werte von T führen zur Ablehnung von H. (2) Die exakte Verteilung von T unter H liegt wegen des schon bei kleinen Stichprobenumfängen großen Rechenaufwandes und wegen der Unübersichtlichkeit ihrer Darstellung für die verschiedenen Werte c, r nicht tabelliert vor. Für ejj > 5 kann die Verteilung von T durch die x 2 -Verteilung approximiert werden (daher der Name x 2 -Test). Die Entscheidungsregel lautet dann: H ablehnen, wenn gilt: T > x i _ a „ , worin xi_ a ,K das (l-a)-Quantil der x 2 -Verteilung mit v = ( c - 1 ) ( r - 1 ) Freiheitsgraden (FG) bedeutet.
5. Qualitative Variablen
229
(3) Für Beispiel 4 mit c = r = 3 ergibt sich zunächst
e
"
Ui • Vi _ 20 • 48 ~ r n " 100 " 9 6 '
_ ui • v2 _ 16 • 20 _ ,, . ' " n " 100 " 3 2
e 2
usw.; insgesamt für T: (2—9.6)2 9.6
(4—3.2)2 3.2
(14-7.2) 2 7.2
"
(3-10.8) 2 10.8
Aus dem 1. und 3. Summanden ist bereits zu erkennen: T > Xo.95,4 = 9.49; d.h. die Hypothese H gleicher Beurteilungen in den verschiedenen Schichten wird abgelehnt.
5.3.3
Multipler Vergleich
Wie in Abschnitt 5.2.3 können wir auch hier, wenn der globale x2-Test zur Ablehnung von H geführt hat, die Frage aufwerfen, zwischen welchen Grundgesamtheiten beim paarweisen Vergleich Differenzen auftreten. Wir geben nun analog 5.2.3 einen Test zum Niveau 1— a nach Scheffe an, der auf der Konstruktion simultaner Konfidenzintervalle basiert: Es sei d = V xi_ a ,v mit v = (c—1) (r-1) = Anzahl der Freiheitsgrade. Für irgendein Feld (i, j) der Kontingenztabelle sei:
/s nij , ^ , ^ Pij = ljT und qjj = 1 - Pij .
c(c-l) Für alle — ^ paarweisen Vergleiche der c Grundgesamtheiten hinsichtlich einer festen Klasse j können dann simultane Konfidenzintervalle mit folgenden oberen bzw. unteren Grenzen angegeben werden: (PVP«) ± d
mit 1 < k < / < c
Überdeckt ein Konfidenzintervall nicht die Zahl Null, so ist die Differenz der entsprechenden Wahrscheinlichkeiten signifikant von Null verschieden. Bevor wir dieses Verfahren am Beispiel 4 demonstrieren, betrachten wir zur Veranschaulichung folgenden Ausschnitt der cxr-Tabelle: j = 1, k = 2, 1 = 3
230
Datenanalyse
Tabelle 5.8. (Ausschnitt einer cxr-Tabelle) Klasse j = 1 Grundgesamtheit k = 2
P21
Schätzwert
P*.
Grundgesamtheit 1 = 3
P31
Schätzwert
P31
Unter der Hypothese H gilt: p 2 1 = p 3 1 , d.h. p 2 i - p 3 i = 0. Überdeckt nun das Intervall t(P2i —P31) - z, (P21-P31) + z], worin z=d J * » ^
+
ist, nicht die Zahl Null, so ist p 21 - p 3 1 signifi-
kant von Null verschieden. Betrachten wir Beispiel 4: Es sei j = 1 (1. Klasse = positiv) und a = 0.05. Wegen c = r =3 ist v = 2 • 2 = 4 u n d d a m i t Xo.95,4 = 9 . 4 9 , d.h. d = y/9.49'
3.08 .
Weiterhin: p u = 0.10
q„=0.90
u, = 20
p 21 = 0.48
q 2 i = 0.52
u 2 = 50
p 3 i = 0.733
q 3 1 = 0.267
u 3 = 30 .
Damit erhalten wir als Konfidenzintervalle für P11 — P21 : [—0.68, - 0 . 0 8 ] PI.-P3I:[-0.96,
-0.31
]
P21-P31 : [ - 0 - 5 8 , +0.08 ] . Da die beiden ersten Konfidenzintervalle die Null nicht überdecken, sind also die Differenzen dieser Wahrscheinlichkeiten signifikant von Null verschieden.
5. Qualitative Variablen
231
5.4
Analyse zweidimensionaler Daten
5.4.1
x 2 -Test auf Unabhängigkeit
Im Abschnitt 5.3.2 haben wir den x 2 -Test für mehrere eindimensionale Datensätze beschrieben. In diesem Abschnitt wenden wir ihn als sogenannten Unabhängigkeitstest auf zweidimensionale Daten an. Wenngleich wir hier von einer anderen Fragestellung als der in 5.3.2 ausgehen, so werden wir dennoch formal denselben Test durchfuhren wie in 5.3.2. Die Datensituation beim Unabhängigkeitstest ist die folgende: An jedem von n Objekten (Personen) werden zwei Variablen X und Y gemessen. Für die Variable X liegen insgesamt c sich gegenseitig ausschließende Klassen A ! , . . . , Ac vor und für die Variable Y insgesamt r solcher Klassen B], . . .,B r . Dies möge durch die folgende cxr-Kontingenztabelle veranschaulicht werden: Tabelle 5.9. ((cxr)-Tabelle mit variablen Randsummen)
Variable X
B,
B2
AI
"11
n
A2
N
21
n
AC
n
Gesamt
V
Variable Y BR
Gesamt
12
"lr
"1
22
n
2r
u2
cl
"c2
n
cr
UC
1
v
VF
2
n
Jede Beobachtung ist also genau einem der c • r Felder zugeordnet, und die Zahl njj im Feld (i, j) gibt die Anzahl der Beobachtungen an, die zur i-ten Klasse Aj der Variablen X und zur j-ten Klasse Bj der Variablen Y gehören. Im Unterschied zum Modell in 5.3.1 und 5.3.2 sind hier alle Randsummen U j , . . .,u c bzw. v, vr variabel, nur der Stichprobenumfang n ist fest vorgegeben. Zu testen ist die Hypothese: H : X und Y sind unabhängig gegen G : X und Y sind abhängig.
Datenanalyse
Beispiel 5: Bei n = 200 zufällig ausgewählten Ehepaaren wurde der Familienstand des Mannes (X) und der der Frau (Y) vor ihrer Eheschließung erfragt. Das Ergebnis ist in folgender (3x3)-Kontingenztabelle zusammengestellt: Tabelle 5.10. (Familienstand Mann - Frau) Familienstand des Mannes X
B, = ledig
A, = ledig
132
6
10
148
A 2 = verwitwet
8
1
3
12
A 3 = geschieden
25
5
10
40
165
12
23
200
Gesamt
Familienstand der Frau Y Bj = verwitwet B 3 = geschieden
Gesamt
Sind Familienstand des Mannes und der der Frau (vor der Eheschließung) unabhängig (a = 0.05)? Bemerkung: Bei festem n = 200 hätten sich als Zeilen oder auch als Spaltensummen ganz andere Werte ergeben können. Nach Definition der Unabhängigkeit zweier Variablen X und Y kann obige Hypothese H wie folgt formuliert werden: H : P(AjBj) = P(Aj) • P(Bj)
für alle i = l , . . ,,c und für alle j = l , . . .,r .
Darin bedeutet: P(AjBj) = Wahrscheinlichkeit dafür, daß eine Beobachtung zu Aj und Bj gehört. P(Aj)
= Wahrscheinlichkeit dafür, daß eine Beobachtung zu Aj gehört (RandWahrscheinlichkeit); d.h. P(Aj) = 2 P(A;Bj) . j=i
P(Bj)
= Wahrscheinlichkeit dafür, daß eine Beobachtung zu Bj gehört (Randwahrscheinlichkeit); d.h. P(Bj) = 2 P(AjBj) .
5. Qualitative Variablen
233
(1) Als Teststatistik betrachten wir c I
T=
' (njj-ejj) 2 mit c j=i u
d.h. ejj bedeutet die unter H (geschätzte) erwartete Anzahl der Beobachtungen, die zu Aj und Bj gehören. Zu große Werte von T führen zur Ablehnung von H. (2) Die Herleitung der exakten Verteilung von T unter H ist noch komplizierter als beim x 2 -Test auf Homogenität, weil nun alle Randsummen variabel sind und somit (bei festem n) weit mehr Kontingenztabellen möglich sind. Für ey > 5 kann die Verteilung von T wieder über die x 2 -Verteilung approximiert werden. Die Entscheidungsregel lautet dann wie in 5.3.2: H ablehnen, wenn gilt: T > x ? _ a , worin x i _ a deutet.
v
das (l-a)-Quantil der x 2 -Verteilung mit v = ( c - 1 ) ( r - 1 ) FG be-
(3) Für Beispiel 5 mit c = r = 3 ergibt sich: _ u , - v i _ 148 • 165 _ 11
~
n
~
200
"
, 1 2 2 A
_ u, • v 2 _ 148 • 12 e
i
2
_
_
-
~~2ÖÖ~
Q 0Q =
usw.; insgesamt für T:
1
(132-122.1)* 122.1
+
(6-8.88)* 8.88
+
•' *
+
(10-4.6) 2 , 4.6
18
"10 "
Für a = 0.05 ist Xo.9s,4 = 9.49, d.h. die Hypothese der Unabhängigkeit wird abgelehnt. (4) Der x 2 -Test auf Unabhängigkeit kann auf m ( m > 2 ) Variable erweitert werden; d.h. an jedem der n Objekte werden m Variable gemessen, die dann auf Unabhängigkeit überprüft werden. Zum Beispiel im Fall m = 3 mit den Variablen X, Y, Z und den zugehörigen Klassen A i , . . .,A C ; B 1 ( . . .,B r bzw. C j , . . .,C S liegt dann eine (cxrxs)-Kontingenztabelle vor. Wir wollen hier den in diesem Sinne zu verallgemeinernden x 2 -Test auf Unabhängigkeit nicht weiter ausfuhren (vgl. auch Kapitel 6 über multivariate Analyse).
234
Datenanalyse
5.4.2
M cNemar-Test
Während der x2-Test des letzten Abschnitts die Unabhängigkeit zweier Variablen X und Y — gemessen an jedem von n Objekten — prüft, liegt der Anwendung des McNemar-Tests folgendes Vorher-Nachher-Modell zugrunde: An n Objekten (Personen) wird jeweils vor und nach einer „Behandlung" (Werbeaktion, Heilmethode, Lernprogramm u.a.) eine Variable (Einstellung zu einem Produkt, Gesundheitszustand, Soziales Verhalten u.a.) mit zwei sich gegenseitig ausschließenden Klassen A und B gemessen und jedes Objekt dann genau einer der beiden Klassen zugeordnet. Es gilt die Hypothese zu überprüfen, ob die Behandlung die Anteile der Objekte der beiden Klassen verändert hat. Jedes Objekt wird also in diesem Modell zur eigenen Kontrolle herangezogen. Das bedeutet, daß die Variable X mit den Werten der Vorher-Messung und die Variable Y mit Werten der Nachher-Messung nicht als unabhängig angenommen werden können, sondern u. U. hoch positiv korreliert sind, da sie an derselben Person gemessen werden. Wir sprechen hier von sogenannten verbundenen Stichproben. Ein solches Verfahren der Kontrolle an der selben Person ist in vielen praktischen Situationen geeigneter als das Modell verschiedener Kontroll- und Behandlungsgruppen, weil in diesem Modell vorhandene Effekte der Behandlung durch die Verschiedenheit der Objekte (Personen) verwischt werden können; es sei denn, es gelingt, sehr homogene, unabhängige Kontroll- und Behandlungsgruppen zu schaffen, für die dann der x2-Test in 5.3.2 mit c = r = 2 angewendet werden könnte. Verbundene Stichproben tauchen in der Markt- und Sozialforschung häufig auch im Rahmen sogenannter Panel-Untersuchungen (wiederholte Befragungen desselben Personenkreises) auf. Die oben beschriebene Einteilung der Daten wird durch folgende 2 x 2-Kon tingenz tabelle veranschaulicht: Tabelle 5.11. (Vorher-Nachher-Messung) X (Vorher-Messung)
Y (Nachher-Messung) A B
A
nu
n
B
n
n„
Gesamt
21
V,
Gesamt
i2
V
2
n
So ist z.B. p 21 die Wahrscheinlichkeit dafür, daß irgendein Objekt vor der Behandlung zu B und nach der Behandlung zu A gehört und p. 2 die (Rand-)Wahrscheinlichkeit dafür, daß ein Objekt nach der Behandlung zur Klasse B gezählt wird, wobei es vorher zu A oder B gehörte, d.h. p. 2 = P12 + P22- Zu testen ist
5. Qualitative Variablen
235
Das zugehörige Wahrscheinlichkeits-Modell wird durch die nachstehende Tabelle spezifiziert: Tabelle 5.12. (Wahrscheinlichkeits-Modell für Vorher-Nachher-Messung) Vorher
Nachher A
B
Gesamt
A
Pn
Pu
Pi-
B
P >1
P»
Pi-
Gesamt
P-,
P- 2
1
die Hypothese, daß die Behandlung keinen Effekt hatte, d.h. daß die Wahrscheinlichkeiten p 12 und p 2 i für einen Wechsel von A (vorher) nach B (nachher) bzw. von B (vorher) nach A (nachher) gleich sind: H : p n = P21
gegen
Gi : P12 < P21
einseitige Alternative
G 2 : p n > P21
einseitige Alternative
G3: P12 + P21
zweiseitige Alternative .
Der Leser mache sich klar, daß obige Hypothese H äquivalent zu H : p.i = pj. oder H : p. 2 = P2- ist. Beispiel 6: n = 60 Personen wurden hinsichtlich ihrer Einstellung (A = positiv, B = negativ) zu einem bestimmten Produkt vor und nach einer Werbeaktion für dieses Produkt befragt mit dem folgenden Ergebnis: Tabelle 5.13. (Einstellung vor und nach Werbeaktion) Vorher
Nachher positiv negativ
Gesamt
positiv
28
8
36
negativ
20
4
24
Gesamt
48
12
60
236
Datenanalyse
Lassen die Daten den Schluß zu, daß sich die Einstellung zum Produkt durch die Werbeaktion im positiven Sinne verändert hat (einseitiger Test mit a = 0.05)? (1) Bei kleinem n können wir als Teststatistik für einen exakten Test der Hypothese H : p 21 = p 12 die Anzahl N21 der n Personen wählen, die vor der Behandlung zu B und nach der Behandlung zu A gehören (oder entsprechend N 12 ). N 21 ist unter H binomialverteilt mit den Parametern m = n 2 i + n 12 und p =
Die
Entscheidungsregel für einen einseitigen oder zweiseitigen Test ist dann über die entsprechenden Quantile der Binomialverteilung anzugeben, siehe 5.2.1. Wir betrachten hier jedoch folgende Teststatistik: w
(N21-N12)5
die unter H approximativ x2-verteilt ist mit 1 FG;eine Faustregel für die Anwendung der Approximation ist: N21 + N 12 > 10. Dann lautet die Entscheidungsregeln bei einseitigen Alternativen: H ablehnen zugunsten von Gi, wenn gilt: N 12 < N 2 i und M > Xi-2u,i , H ablehnen zugunsten von G 2 , wenn gilt: N 1 2 > N 2 i und M > X i - 2 < * , i und bei zweiseitigen Alternativen: H ablehnen zugunsten von G 3 , wenn gilt: M > Xi-a,i • (2) Im Beispiel 6 ist N21 = 20 und N 12 = 8 (20—8)
2
und damit
.
Da es sich um einen Test für die einseitige Alternative G! : p I 2 < p 2 1 (positive Wirkung) handelt, ist der kritische Wert für a = 0.05 durch Xi_ 2 a l = *o.9,i = 2.71 bestimmt. Wegen M > 2.71 wird H abgelehnt, d.h. die Werbung hat einen positiven Einfluß auf die Einstellung ausgeübt. (3) Der McNemar-Test ist wegen H : p 21 = p 12 ein Test auf Symmetrie zweier qualitativer Variablen X und Y. Eine Verallgemeinerung dieses Tests für mehr als eine Stichprobe und c > 2 Behandlungen stellt der Cochran-Test dar, siehe dazu Büning/Trenkler (1978).
5. Qualitative Variablen
5.4.3
237
Abhängigkeitsmaße
In 5.4.1 haben wir den xJ-Test auf Unabhängigkeit zweier Variablen X und Y diskutiert. Wird die Hypothese der Unabhängigkeit H : P(AiBj) = P(Aj) • P(Bj) verworfen, so liegt es nahe, nach einem Maß des Zusammenhangs (Korrelation, Abhängigkeit) zwischen X und Y zu suchen. Ein solches Maß, den sogenannten Korrelationskoeffizienten r, haben wir bereits in Kapitel 4 kennengelernt. Die dem x2-Test zugrunde liegende Teststatistik r
T= 2
2
(nij-ejj) 2
i n: : —
i=i j = i
selbst ist ein Maß für die Übereinstimmung zwischen den beobachteten Häufigkeiten njj und den unter H zu erwartenden (geschätzten) Häufigkeiten ey. In diesem Sinne kann T als ein Maß aufgefaßt werden, das ungefähr gleich 0 ist, wenn X und Y unabhängig sind (n^ ~ e,j) und das mit wachsenden Differenzen n,j — e^ größer wird. Die Teststatistik T ist jedoch kein geeignetes Maß für die Stärke der Korrelation zwischen X und Y, weil der Wert von T wesentlich von der Anzahl der Klasse und vom Stichprobenumfang n abhängt. So nimmt z.B. für einen Stichprobenumfang kn und beobachteten Häufigkeiten kny die Teststatistik den Wert kT an. (1) Der Kontingenz-Koeffizient von Cramir für zwei Variable X und Y in einer cxr-Kontingenztabelle ist definiert als
n(t-l)
'
worin t den kleineren der beiden Werte c oder r bedeutet, d.h. t = min(c, r). Es läßt sich zeigen, daß der Nenner n(t—1) gerade gleich dem größtmöglichen Wert von T bei festen c,r,n ist. Das bedeutet, daß C - wie gewünscht - nur Werte zwischen 0 und 1 annehmen kann: Werte nahe bei 0 sprechen für Unabhängigkeit (Unkorreliertheit) von X und Y und Werte nahe 1 für starke Abhängigkeit (Korrelation). Im Beispiel 5 aus 5.4.1 ist: n = 200, t = min(3,3) = 3 und T = 18.10, d.h. rC =
18 10 = oU U4:> 045 200-2 •
Dieser Wert von C läßt eine extrem schwache (dennoch signifikante, s. 5.4.1) Abhängigkeit von X und Y vermuten. Es sei vermerkt, daß die Wahrscheinlichkeitsverteilungen von C und T sich entsprechen, da C eine lineare Funktion von T ist.
238
Datenanalyse
T In einer 2x2-Kontingenztabelle ist t = 2 und damit C =—. Dieses spezielle Maß wird Phi-Koeffizient genannt und meist mit 0 bezeichnet. (2) Der Goodman-Koeffizient ist neben dem Phi-Koeffizienten ein weiteres Maß für die Abhängigkeit zweier Variablen X und Y in einer 2x2-Tabelle. Wir betrachten zunächst das Maß: P n P22 8 =
piTpü
mit
P u - P C M j ) , Siehe 5.4.1 .
Sind X und Y unabhängig, so gilt: = g
P(A,) • P(B,) • P(A 2 ) • P(B 2 )
=
P(A,) • P(B 2 ) • P(A 2 ) • P(Bj)
In der Regel sind jedoch Maße für den Grad der Abhängigkeit zwischen zwei Variablen so definiert, daß im Falle der Unabhängigkeit das Maß den Wert 0 annimmt. Um dies auch hier zu erreichen, bilden wir den Logarithmus von g (zur Basis e) und erhalten als sogenannten Goodman-Koefflzienten: 7 = log g = log p n + log p 2 2 - log p 1 2 - log p 2 I . Sind X und Y unabhängig, so ist y = log 1 = 0 . Bei positiver Korrelation ist y > 0, bei negativer y < 0. Die Wahrscheinlichkeiten py, die in die Maßzahl y eingehen, sind unbekannt; sie können über die entsprechenden beobachteten Häufigkeiten geschätzt werden. Das führt zu ^
.
, n u • n 22
= log n n + log n 2 2 - (log n 1 2 + log n 2 1 ) . Für das Beispiel 6 ist: 7 = log
= log 0.7 s» —0.357 .
Um allgemein einen Test für die Hypothese H : y = 0 gegen G : y 4= 0 anzugeben, nutzen wir die Tatsache aus, daß unter H:
239
5. Qualitative Variablen
7 /I Z = r mit s = n / ^ +
1
1
1 '
+
für große n approximativ N(0,l)-verteilt ist. Dann lautet die Entscheidungsregel: H ablehnen, wenn gilt: y < - s • Zj_ a / 2 oder y >
s • zi_a/2 ,
wobei z ^ a / 2 das 1 -o/2-Quantil der N(0,1)-Verteilung bedeutet. Im Beispiel 6 ist: 7 = -0.357, s =
+
|
+
|
+
^ °-679
^
und für a = 0.05 : Z \ - a j 2 ~ 1.96 und damit ± s • z x _ a i 2 wird nicht abgelehnt. (Vergl. dazu das Ergebnis in 5.4.1). 5.4.4
555
± 1.331; d.h. H
Multipler Vergleich
Wird die Hypothese der Unabhängigkeit H : P(A i B j ) = P(A i ) • P(Bj) für zwei Variable X und Y mit den Klassen A 1 ( . . ,,AC bzw. B , , . . ,,B r mit Hilfe des globalen x 2 -Tests abgelehnt, so liegt die Frage nahe, zwischen welchen Klassen von X und Y die Abhängigkeit „durchschlägt", d.h. ein multipler Vergleich sollte angestellt werden. Wir wollen hier einen Test zum Niveau 1— a angeben, der auf der Konstruktion simultaner Konfidenzintervalle für die einzelnen GoodmanKoeffizienten (siehe 5.4.3) bezüglich aller möglichen (2x2)-Tabellen basiert, die sich aus der (cxr)-Tabelle bilden lassen. Insgesamt gibt es
^
•
^
sol-
cher 2x2-Tabellen und somit ebenso viele Konfidenzintervalle, deren Form wie folgt angegeben sei: KI = [ 7 - d • s, 7 + d • s]. Darin bedeuten:
d=
> i> = ( c - 1 ) ( r - 1 ) = Anzahl der FG, f den ge-
schätzten Goodman-Koeffizienten und s =
+
n^
+
nTJ
+
n^"
die
entsprechende (2x2)-Tabelle. Überdeckt KI nicht die Zahl 0, so wird die Hypothese H : y = 0 für die zugehörige 2x2-Tabelle abgelehnt. Wir wollen dieses Verfahren am Beispiel 5 aus 5.4.1 veranschaulichen. Wegen c = r = 3 gibt es insgesamt
3
*2 •
=9
Konfidenzintervalle, die in der
240
Datenanalyse
folgenden Tabelle für a = 0.05, d.h. d = V 9.49 = 3.08, zusammengestellt sind; + bedeutet Signifikanz, d.h. die Zahl 0 wird nicht vom KI überdeckt. Tabelle 5.14. (Multipler Vergleich) 7
s
6 1
1.01
1.14
[ - 2 . 5 0 , 4.52]
132 8
10 3
1.60
0.75
[ - 0 . 7 5 , 3.91]
6 1
10 3
0.59
1.27
[ - 3 . 3 2 , 4.50]
B3
A, A3
B, B2
132 25
6
1.48
0.64
[ - 0 . 4 9 , 3.45]
5
A,
B,
132 25
10 10
1.66
0.50
[
B3
A, A3
B2 B3
6 5
10 10
0.18
0.75
[ - 2 . 1 3 , 3.49]
A, A3
B, B2
8 25
1 5
0.47
1.17
[ - 3 . 1 3 , 4.07]
A,
B,
3 10
0.77
[ - 2 . 3 0 , 2.44]
B3
8 25
0.07
A3 A, A3
B2 B3
3 10
-0.41
1.28
[ - 4 . 3 5 , 3.53]
5
X
Y
A, A,
B, B,
132 8
A,
B,
A2
B3
A, A,
B2
A3
1
KI
Entscheidung:
0.12, 3.20]
Es zeigt sich also, daß der Familienstand des Mannes von dem der Frau nur abhängig ist hinsichtlich der Ausprägungen ledig — geschieden, die verwitweten Männer und Frauen also keinen Beitrag zur Aufdeckung von Abhängigkeiten liefern.
Erforderliche Kenntnisse (B = Bleymüller u.a. (1979)) 1.
£ = Summenzeichen, E 2 = Doppelsumme, n! (n-Fakultät), I ^ A b s o l u t betrag, siehe Symbolliste.
5. Qualitative Variablen
241
2.
Wahrscheinlichkeit - Wahrscheinlichkeitsrechnung - Unabhängige Ereignisse, siehe B, Kap. 6.
3.
Unabhängige Zufallsvariablen, siehe B, Kap. 8.
4.
Binomialverteilung - Hypergeometrische Verteilung, siehe B, Kap. 9 und Kap. 12.
4.
Normalverteilung - x 2 -Verteilung, siehe B, Kap. 10.
5.
Zufallsauswahl — Stichprobe, siehe B, Kap. 12.
6
Schätzfunktion - Punktschätzung - Konfidenzintervall, siehe B, Kap. 14 und Kap. 15.
7.
Testbegriff — Hypothese (einseitig, zweiseitig) — Teststatistik (Prüfgröße), Testniveau (Irrtumswahrscheinlichkeit) - kritischer Bereich - kritischer Wert - Güte (Macht), siehe B, Kap. 16.
6.
Multivariate Analyse
6.1
Einleitung
Unter dem Begriff „Multivariate Analyse" wird eine Vielzahl von Verfahren subsumiert, deren gemeinsames Ziel es ist, die Beziehungsstruktur eines Systems von mehr als 2 beobachteten Variablen zu analysieren. Eine präzise Beschreibung dieser Verfahren würde ein eigenes Buch erfordern — es sollen daher hier nur die zugrunde liegenden Ideen soweit dargestellt werden, daß der Anwender befähigt wird, publizierte empirische Untersuchungen, welche multivariate Methoden verwenden, in Grundzügen beurteilen zu können. Wir können das umfangreiche Spektrum multivariater Methoden zunächst grob in 2 Teilbereiche klassifizieren: Methoden zur Analyse manifester Strukturen (d.h. Methoden, die explizit postulierte Zusammenhänge zwischen beobachteten Variablen beurteilen) und Methoden zur Aufdeckung latenter Strukturen (d.h. Methoden, die beobachtete Beziehungen auf unbeobachtete Variablen zurückzuführen suchen). Ein typisches Beispiel für die erste Klasse von Methoden ist ein lineares Modell (vgl. Kapitel 4). Hier wird versucht, eine beobachtete Variable (die „abhängige Variable") durch den Effekt anderer beobachteter Variablen (der „unabhängigen Variablen") zu erklären. Eine naheliegende Verallgemeinerung stellen die multivariaten linearen Modelle dar, in denen ein ganzer Satz von abhängigen Variablen durch gewisse beobachtete unabhängige Variablen erklärt werden soll. Ein Pendant zum multivariaten linearen Modell unter den Methoden der 2. Klasse ist die sogenannte Faktorenanalyse. Hier werden alle wirklich gemessenen Variablen als abhängig betrachtet und man sucht unbeobachtete (latente) Variablen zu finden, welche die beobachteten Variablen „erklären". Ein zweites Einteilungskriterium benutzt das Meßniveau der abhängigen und unabhängigen Variablen. (Hinsichtlich des Meßniveaus von Daten mit der Einteilung qualitativ — quantitativ sei auf Abschnitt 1.3 verwiesen.) Unterscheiden wir nur zwischen qualitativen und quantitativen Variablen, so entstehen also 4 Gruppen, je nach dem Meßniveau der abhängigen bzw. unabhängigen Variablen. Die folgende Tabelle schlüsselt die im weiteren zu besprechenden multivariaten Verfahren nach den beiden genannten Kriterien auf (dabei wurde von vornherein auf seltener angewandte Verfahren wie etwa die kanonische Analyse verzichtet):
243
6. Multivariate Analyse Tabelle 6.1. Grobeinteilung multivariater Verfahren Beobachtung der
Analyse beobachteter Zusammenhänge (beobachtete unabhängige Variablen)
Aufdeckung latenter Strukturen (unbeobachtete unabhängige Variablen)
Multivariate lineare Modelle (Multivariate Regressionsanalyse) Pfadanalyse
Faktorenanalyse
Meßniveau alle Variablen quantitativ
abhängige Var. quantitativ /
Hauptkomponentenanalyse
Multivariate lineare Modelle (Multivariate Varianzanalyse) Diskriminanzanalyse
Clusteranalyse
abhängige Var. qualitativ / unabhängige Var. quantitativ
Loglineare Modelle
Latente Strukturanalyse
alle Variablen qualitativ
Loglineare Modelle
Latente Klassenanalyse
unabhängige Var. qualitativ
Man erkennt, daß die beiden Einteilungskriterien nicht zu einer disjunkten Klassifizierung führen — so können etwa multivariate lineare Modelle sowohl qualitative als auch quantitative unabhängige Variablen einbeziehen. Des weiteren existieren Verfahren (wie multidimensionale Skalierungsmethoden), die sich unserer Einteilung aufgrund ihrer anders gearteten Datenstrukturen überhaupt entziehen. Bei der multidimensionalen Skalierung handelt es sich zwar um ein Verfahren zur Aufdeckung latenter Strukturen, es werden jedoch keine Variablen beobachtet, sondern z.B. Matrizen mit Maßen der Ähnlichkeit verschiedener Objekte oder Stimuli, und das Ziel ist die geometrische Darstellung derartiger Matrizen. Zu betonen ist, daß in der Praxis insbesondere die linearen Modelle und die Faktorenanalyse häufig auch zur Analyse qualitativer abhängiger Variablen benutzt werden, da korrektere Verfahren wie loglineare Modelle und latente Klassenanalyse noch kaum bekannt sind. Während die Darstellung der latenten Klassen- und Strukturanalyse den hier gesteckten Rahmen überschreiten würde (es handelt sich im wesentlichen um Versionen der Faktorenanalyse für qualitative Variablen, vgl. Goodman (1978), Lazarsfeld/Henry (1968)), soll zumindest eine kurze Einführung in die Theorie der loglinearen Modelle geboten werden, da in „weichen" Disziplinen wie der Markt- und Sozialforschung häufig qualitative Daten vorliegen.
244
6.2
Datenanalyse
Multivariate lineare Modelle
Mit Hilfe linearer Modelle untersucht man die Wirkung mehrerer beobachteter Einflußfaktoren X ^ X i , . . .,Xp auf eine abhängige Variable Y, wobei der Effekt anderer möglicherweise existierender Einflußfaktoren in einer unbeobachteten Störvariable U zusammengefaßt wird. Schema tische Darstellung:
Abb. 6.2 Multivariates lineares Modell
6. Multivariate Analyse
245
Beispiel: In einer Organisationsuntersuchung könnte der Effekt von verschiedenen Organisationsstrukturen einzelner Abteilungen (operationalisiert durch Variablen X i , X 2 , . . .,X p wie z.B. Arbeitsbelastung, Mitbestimmungsmöglichkeiten, etc.) auf die Arbeitszufriedenheit mit einem linearen Modell studiert werden. Zu einem multivariaten linearen Modell kommt man, wenn nicht nur eine, sondern gleichzeitig mehrere abhängige Variablen betrachtet werden (die alle quantitatives Meßniveau haben sollten). Im Beispiel also etwa neben der Arbeitszufriedenheit noch die Produktivität oder der Krankenstand der Abteilung. Das multivariate lineare Modell für s abhängige Variablen besteht also aus s parallelen univariaten linearen Modellen für die einzelnen abhängigen Variablen Yj:
Y , = 0 , o + 0 1 i X I + . . . + 0 l p Xp + U1 Y 2 =02O + 02iX, + . . . + (32pXp + U 2
Y s = / 3 s 0 + & i X 1 + . . . + ftpXp + U p .
Man beachte, daß in jeder Gleichung des Modells die gleichen Einflußfaktoren X l f . . . , X p auftauchen und daß über die Beziehung der Y; (bzw. Uj) untereinander nichts ausgesagt wird (sie können also durchaus korreliert sein). Unter analogen Verteilungsannahmen (multivariate Normalverteilung!) wie im univariaten linearen Modell kann die Schätzung der Regressionskoeffizienten ßij in den verschiedenen Gleichungen getrennt durch einen Kleinstquadratenansatz vorgenommen werden. Diese s einzelnen Regressionsanalysen liefern zusätzlich Residuen U j , U 2 , . . .,U S , die zur Schätzung der Störvarianzen var[Uj] und der Kovarianzen cov[Uj,UiJ der Störvariablen benutzt werden können. Beispiel 1 Als Beispiel betrachten wir eine Organisationsstudie, in der die Abhängigkeit von Arbeitszufriedenheit Y t und Produktivität Y2 in 50 Abteilungen von der Arbeitsbelastung Xi, den Mitbestimmungsmöglichkeiten X2 und dem gewerkschaftlichen Organisierungsgrad X 3 untersucht wurde (alle Größen wurden durch Indizes mit Werten im Bereich 0 bis 100 operationalisiert). Ausgangspunkt der Analyse ist eine Datenmatrix mit den Werten der 5 Variablen, die auszugsweise wie folgt lautet:
246
Datenanalyse
Tabelle 6.2. Datenmatrix für Organisationsstudie (t) Abteilung
Y, (Arb. zufr.)
Y2 (Produktivität)
X, (Arb. bei.)
x;
x3
(Mit. best.)
(gew. Org.)
1 2
5 65
10 50
45 20
2 70
15 20
n = 50
30
28
40
30
30
Zur Koeffizientenschätzung wurden 2 Regressionen Yti = 010+011 X t l + 0i 2 X, 2 + U t l
(t=l,2,
..
,50) ,
sowie Y, 2
=
020 + 021 X t i + 022 Xt2 + Ut2
(t= 1,2,. .
,50)
gerechnet, die folgende Regressionskoeffizienten ß]) ergaben (in Klammern die t-Werte):
Tabelle 6.3. Regressionsparameter Arb. bei.
Arb. zufr.
Produktiv.
-
0.50
( - 3.5)
- 0.01 (0.0)
Mitbest.
gewerk. Org.
+ 0.80 (4.2)
+ 0.12 (1-9)
+ 0.30 (3.1)
-0.20 ( - 1.4)
Während also Mitbestimmungsmöglichkeiten sich sowohl auf Arbeitszufriedenheit als auch auf Produktivität sehr positiv auswirken, hat hohe Arbeitsbelastung einen negativen Effekt bzgl. der Arbeitszufriedenheit und praktisch keine Auswirkung auf die Produktivität. Der Einfluß der gewerkschaftlichen Organisierung ist durchgängig schwach. Wie im univariaten Fall sollten die Residuen der beiden abhängigen Variablen Ö t i = Y t i - Y t i = Y t i - I ftjXtj, i = 1, 2, j=o
247
6. Multivariate Analyse
natürlich auf Modelldefekte geprüft werden, bevor den genannten Ergebnissen vertraut werden kann. (Es ist ein wichtiges Beurteilungskriterium für publizierte Untersuchungen, ob derartige Residualanalysen durchgeführt wurden!) Neu gegenüber dem univariaten Fall ist die Möglichkeit, nicht nur die Varianzen Oj2 der Störgrößen, sondern auch ihre Kovarianzen a i k schätzen zu können. Die geschätzten Varianzen und Kovarianzen können in einer Varianz-KovarianzMatrix £ zusammengestellt werden: Arb. zufr. (80 \50
Prod. 5o\ 125/
Arb. zufr. Prod.
Dabei stellt die Zahl 50 die Kovarianz CT12 der Residuen U, und U 2 dar:
2 U t I U t2 . n - (p+1) t=i Der Divisor n —(p+1) (also hier 5 0 — 4 = 46) wird dabei gewählt, um unverzerrte Schätzungen zu erhalten. Häufig ist es instruktiver, die Informationen der Varianz-Kovarianzmatrix in 2 Bestandteile zu zerlegen: die Varianzen o, = 80, a \ = 125 und die Korrelationskoeffizienten.etwa p 1 2 = ^ l 2 =0.5, der Residuen: a, a 2 R =
i
1 0.50
0.50 1
Die Varianzen können wie im univariaten Fall zur Beurteilung der Erklärungskraft des Modells für die einzelnen abhängigen Variablen herangezogen werden (Berechnung von R 2 ), die Korrelationen der Residuen geben Aufschluß über Zusammenhänge zwischen den unbeobachtbaren Störfaktoren, die auf die einzelnen abhängigen Variablen wirken. In unserem Fall deutet die relativ hohe Korrelation von 0.5 möglicherweise auf die Existenz bisher unbeobachteter Faktoren hin, die beide Variablen gleichartig beeinflussen. Die Korrelationskoeffizienten, die wir eben berechnet haben, bezeichnet man auch als partielle Korrelationen. Sie messen die Stärke des linearen Zusammen-
248
Datenanalyse
hangs zwischen Y! und Y 2 , nachdem Effekte der Einflußfaktoren Xi,X 2 ,X 3 (mit Hilfe der Regression) eliminiert wurden. Testprobleme im multivariaten linearen Modell sind äußerst vielfältig, entsprechend der Vielzahl von Hypothesen, die untersucht werden können, z.B.: — sind alle Effekte der Einflußfaktoren zu vernachlässigen? — sind alle Effekte eines bestimmten Einflußfaktors gleich 0? — sind die Effekte der Einflußfaktoren in einer Gleichung des Modells gleich 0? — sind die Effekte der Einflußfaktoren in 2 verschiedenen Gleichungen identisch? Im univariaten Modell wurden Testprobleme mit Hilfe von F-Statistiken gelöst, die auf dem Vergleich zweier Residualvarianzen beruhen, und zwar der Residualvarianz SQ eines Modells, das der Nullhypothese entspricht (also bestimmte Einflußfaktoren, deren Wirkung überprüft werden soll, nicht enthält) und der Residualvarianz a 2 im vollen Modell. Ist a 2 wesentlich größer als o 2 , so besitzt das reduzierte Modell eine deutlich geringere Erklärungskraft als das volle Modell — man wird also die Nullhypothese nicht annehmen können. Dagegen müssen im multivariaten Modell die Varianz-Kovarianzmatrizen der Residuen zur Beurteilung herangezogen werden. Um etwa die Hypothese HQ : kein Effekt der gewerkschaftlichen Organisation zu überprüfen, wird man die beobachtete Varianz-Kovarianzmatrix 2 mit derjenigen Varianz-Kovarianzmatrix £ 0 vergleichen, die sich ergibt, wenn man das Modell ohne den Einflußfaktor „gewerkschaftliche Organisation" rechnet. Der Vergleich zweier Matrizen ist nun nicht mehr eindeutig durchzufuhren, da unterschiedliche Maße für die „Größe" einer Matrix gewählt werden können (z.B. Spur, Determinante, größter Eigenwert etc.). Entsprechend existieren eine ganze Reihe von konkurrierenden Teststatistiken zur Beurteilung der Nullhypothese, wie Wilks Lambda-Statistik, die Union-Intersection-Statistik, die Spurstatistik etc. Literatur: Timm (1975).
6.3
Pfadmodelle
Im multivariaten linearen Modell werden zwar gleichzeitig mehrere abhängige Variablen betrachtet, jedoch keine explizite Struktur des Zusammenhangs zwischen diesen Variablen postuliert. Dies geschieht in sogenannten Pfadmodellen
249
6. Multivariate Analyse
(interdependente Mehrgleichungsmodelle). Ein Pfadmodell für die Daten der Tabelle 6.2. könnte etwa folgende Struktur haben:
•
0
(y,-y2), wobei y; den Vektor der s Mittelwerte der endogenen Variablen in der i'ten Gruppe darstellt. Die Koeffizienten der Linearkombination C sind nur bis auf Multiplikation mit einer Proportionalitätskonstanten bestimmt und werden daher gerne so angegeben, daß der absolut größte Koeffizient den Wert +1 bzw. —1 annimmt. Für unser Beispiel mit 5 Variablen ergibt sich z.B. Tabelle 6.4. Diskriminanzfunktion Diskriminanzfunktion Arbeitszufr. Produktivität Arbeitsbelastung Mitbestimmung gewerksch. Org.
- 0.4 0.0 1.0 - 0.3 -0.2
6. Multivariate Analyse
255
d.h., daß der hauptsächliche Unterschied zwischen den beiden Werken in der verschieden großen Arbeitsbelastung besteht. Ausgehend von der Grundfragestellung der Diskriminanzanalyse (wo sind die Unterschiede zwischen den Gruppen zu suchen?) lassen sich eine Vielzahl weiterer Techniken entwickeln, für die auf die Literatur verwiesen werden muß, vgl. z.B. Lachenbruch (1975).
6.5
Faktorenanalyse und Hauptkomponentenanalyse
Die schematische Darstellung des faktorenanalytischen Modells ist formal identisch mit der des multivariaten linearen Modells:
Abb. 6.7 Schema der Faktorenanalyse
Es wird angenommen, daß ein Satz von s (im Schema s = 4) endogenen Variablen Y „ Y 2 ) . . . . Y s von p Einflußfaktoren F I , F 2 , . . . , F p (im Schema p = 2) und von s Störvariablen („Einzelrestfaktoren") bestimmt wird. Der entscheidende Unterschied ist nun jedoch, daß nicht nur die Störvariablen Uj, sondern auch die Faktoren Fj unbeobachtet sind, also Informationen über diese Faktoren rein rechnerisch aus den Daten erschlossen werden sollen. Historisch ist die Faktorenanalyse aus der Intelligenzforschung entstanden - die beobachteten Variablen Y; stellen hier Messungen verschiedener Einzeltests dar, hinter denen Faktoren wie „verbale Intelligenz" bzw. „non-verbale Intelligenz" vermutet wurden.
256
Datenanalyse
Der Vergleich mit dem multivariaten linearen Modell zeigt deutlich, wie „verwegen" die Fragestellung der Faktorenanalyse ist: es soll ja eine Regression der endogenen Variablen auf gänzlich unbekannte „exogene Variablen" (Faktoren) durchgeführt werden! Die Lösung dieses Problems ist offenbar völlig unbestimmt, solange nicht sehr scharfe Restriktionen über die möglichen Zusammenhänge zwischen Faktoren, beobachteten Variablen und Einzelrestfaktoren eingeführt werden. Typische Restriktionen sind: — Unkorreliertheit der Einzelrestfaktoren untereinander -
Unkorreliertheit aller Faktoren mit den Einzelrestfaktoren
— Unkorreliertheit der Faktoren untereinander (diese Forderung kann eingeschränkt werden) -
„Einfachstruktur" der Beziehungen zwischen Faktoren und beobachteten Variablen (grob ausgedrückt: möglichst viele Effekte, die nahe bei 0 liegen).
Man beachte, daß die Gültigkeit dieser Restriktionen im allgemeinen nicht empirisch überprüft werden kann (Faktoren und Einzelrestfaktoren sind ja unbeobachtbar). Von vielen Statistikern wird das Modell daher als etwas fragwürdig betrachtet und höchstens als exploratives Verfahren benutzt. Ein zentrales Problem ist insbesondere die Interpretation der gefundenen Faktoren anhand der „Regressionskoeffizienten" ftj. Wir gehen auf die Faktorenanalyse aus diesen Gründen nicht weiter ein (vgl. etwa zur Einfuhrung Morrison (1967)) und beschränken uns auf die kurze Darstellung eines mit der Faktorenanalyse eng verwandten Verfahrens, der sogenannten Hauptkomponentenanalyse, mit dessen Hilfe sehr viele Probleme, die üblicherweise durch Faktorenanalysen angegangen werden, auf methodologisch begründetere und rechentechnisch einfachere Weise gelöst werden können. Der Ausgangspunkt der Hauptkomponentenanalyse ist die Schwierigkeit, einen hochdimensionalen Datensatz intuitiv einsichtig zu machen. Es liegt daher nahe, nach einer Darstellung der Daten in einem niederdimensionalen Raum (etwa zwei- oder dreidimensional) zu suchen, durch welche die wesentlichen Aspekte des Datensatzes erfaßt werden. Stellen wir uns etwa die Datenmatrix aus Tabelle 6.2. als eine Wolke von 50 Punkten in einem 5-dimensionalen Raum vor. Im Regelfall wird diese Wolke nun nicht gleichförmig (etwa wie eine 5-dimensionale Kugel) über den gesamten Raum verteilt sein, sondern sich in verschiedene Richtungen unterschiedlich weit ausdehnen (etwa wie ein 5-dimensionales Ei).
257
6. Multivariate Analyse
yi
o
yi Abb. 6.8 Zweidimensionaler Datensatz
Es könnte so durchaus die Situation eintreten, daß die gesamte Wolke im wesentlichen in einer Ebene des 5-dimensionalen Raums konzentriert ist (ebenso wie die zweidimensionalen Daten in Abb. 6.8. im wesentlichen auf einer (eindimensionalen) Geraden liegen). Wenn wir in der Lage sind, diese Ebene aufzufinden und die gesamte Wolke auf diese Ebene zu projizieren, so können die hervorstechenden Eigenschaften des 5-dimensionalen Datensatzes in einer 2-dimensionalen Zeichnung wiedergegeben werden. Die Hauptkomponentenanalyse dient nun dazu, Geraden, Ebenen etc. zu finden, entlang derer die Punktekonfiguration der Daten möglichst konzentriert ist. Diese Methode besteht darin, daß man neue, hypothetische Variablen (sog. Hauptkomponenten) sucht, die folgende Eigenschaften haben: 1.
Die Hauptkomponenten ergeben sich als lineare Funktionen der Ausgangsvariablen.
2.
Die Hauptkomponenten sind untereinander unkorreliert (orthogonal).
3.
Die Hauptkomponenten sind standardisiert (d.h. sie haben den Mittelwert 0 und die Varianz 1).
4.
Die erste Hauptkomponente erfaßt möglichst viel Variation der Daten, die zweite möglichst viel von der verbleibenden Varianz etc.
258
Datenanalyse
Bei geeigneter Operationalisierung des 4. Kriteriums ist die Problemstellung äquivalent der Forderung nach Diagonalisierung der Kovarianzmatrix £ der betrachteten Variablen, also auf das Problem zurückzuführen, eine orthogonale Matrix T so zu finden, daß T' 2 T = A (s,s) (s,s) (s,s) (s,s) eine Diagonalmatrix ist. Die Diagonalelemente von A heißen Eigenwerte von 2 die Spalten von T heißen Eigenvektoren von Wenn Y die (n,s) Matrix der zentrierten (mittelwertbereinigten) Daten ist, so ergeben sich die Hauptkomponenten durch F = Y T A "1/2, (n,s) (n,s) (s,s) (s,s) wobei die erste Hauptkomponente dem größten Eigenwert zugeordnet ist, die zweite dem zweitgrößten, etc. Die Hauptkomponenten erfüllen unsere zwei Forderungen (2) und (3): i-F'F = i
A~ 1/2 T'Y'YTA- 1 ' 2 = A" 1 / 2 T'STA" 1 ' 2
= A" 1 / 2 AA" 1/2 = I — die Einheitsmatrix. Stellen wir uns vor, daß die beobachtete Punktwolke die Form eines Hyperellipsoids („mehrdimensionales Ei") hat, so verläuft der Übergang von den Ausgangsvariablen zu den Hauptkomponenten in zwei Schritten: 1. Schritt: Das Koordinatensystem wird so gedreht, daß die Hauptachsen des Ellipsoids parallel zu den neuen Koordinatenachsen verlaufen. Dies entspricht inhaltlich einer Beseitigung der Korrelation zwischen den Variablen (Übergang von Y zu YT). 2. Schritt: Die entstandenen Koordinatenachsen werden nun so gestreckt oder gestaucht, daß sich das Ellipsoid in einen Kreis verwandelt. Dies entspricht inhaltlich der Wahl neuer Maßeinheiten für die Achsen, so daß die neuen Variablen gleiche Standardabweichungen besitzen (Übergang von YT zu YTA~ 1/2 ).
259
6. Multivariate Analyse
Y
F,
Darstellung von Y
Darstellung von YT
Darstellung von YTA" 1 / 2
Abb. 6.9 Geometrische Veranschaulichung der Hauptkomponentenanalyse
Der Vorteil dieser Transformation besteht in zwei Punkten: 1.
Die Hauptkomponenten sind untereinander unkorreliert, stellen also unabhängige Beschreibungsdimensionen dar. Dies vereinfacht viele Zusammenhänge.
2.
Die Hauptkomponenten erfassen nacheinander einen immer größeren Anteil der Varianz in den Daten — diese Beschreibungsdimensionen sind also nach ihrer Wichtigkeit geordnet, die durch die Größe der Eigenwerte numerisch bestimmbar wird.
Beispiel 3 (s = 2 Variable): In 9 Wohnblöcken eines Gebiets wurde der Gastarbeiteranteil Y, und das durchschnittliche Baualter Y 2 erfaßt. Da die Maßeinheiten der beiden Variablen nicht vergleichbar sind, wurden sowohl Y] wie auch Y2 standardisiert. Datenmatrix:
Tabelle 6.5. Datenmatrix „Wohnblöcke"
A B C D E F G H I
Gastarbeiter (Y,)
Baualter (Y 2 )
-0.43 0.19 1.96 -0.92 0.46 1.04 -1.50 -0.15 - 0.65
-1.04 -0.17 1.56 -1.18 0.12 1.27 -1.10 -0.46 0.98
260
Datenanalyse
4
F
c
E
B
H G
D
• yi
A
Abb. 6.10 Zeichnerische Darstellung der Wohnblöcke
Berechnung der Kovarianzmatrix (hier auch Korrelationsmatrix, da die Variablen standardisiert sind): /l.OOO
0.785'
\ 0.785
1.000,
Eigenwerte: /1.785 A = [ 0
0 0.215,
Eigenvektoren: /0.707 T = [ \ 0.707
0.707' — 0.707,
Transformierte Daten (YTA" 1 / 2 ):
261
6. Multivariate Analyse
1. Hauptkomponente
2. Hauptkomponente
-0.78 0.01 1.88 - 1.12 0.31 1.23 - 1.38 -0.32 0.18
0.93 0.56 0.61 0.39 0.53 -0.35 -0.62 0.46 -2.51
A B C D E F G H I
Darstellung der Daten auf der 1. Hauptkomponente F!: 1 -
G D • • 2 -
1 1
A •
H B I E •—f«—•—• O
F C 1—• •l
Die erste Hauptkomponente Fj erfaßt einen Anteil von 1.785 1.785 +0.215
1.785 = 89.2% 2.000
der Gesamtvarianz. Die erste Spalte in der Matrix T zeigt, daß Fi im wesentlichen die Summe der beiden beobachteten Variablen darstellt (also sowohl mit dem Gastarbeiteranteil als auch mit dem Baualter steigt). Man könnte F, z.B. als ein Maß der sozialen Benachteiligung des Wohnblocks interpretieren. Generell kann die Summe der Eigenwerte der ersten r Hauptkomponenten als Maß dafür verwendet werden, wie gut eine r-dimensionale Darstellung die Daten wiedergibt (ein Anteil von 70—80% an der Summe aller Eigenwerte ist in sozialwissenschaftlichen Daten im allgemeinen befriedigend). Die ersten r Hauptkomponenten liefern dann ein spezielles Koordinatensystem für den entsprechenden r-dimensionalen Unterraum. Dieses Koordinatensystem kann dann mit Hilfe der in der Faktorenanalyse üblichen Rotationsmethoden (wie VARIMAX etc.) noch in eine leichter zu interpretierende Form gedreht werden. Literatur: Morrison (1967).
6.6
Clusteranalyse
Während in der Diskriminanzanalyse bereits bekannte Gruppen verglichen werden sollen, geht es in der Clusteranalyse um die Auffindung einer Gruppierung in
262
Datenanalyse
den Daten. Ein typisches Beispiel ist der Versuch, Konsumenten aufgrund von empirischen Daten zu klassifizieren („Konsumententypologie"). Die Grundidee der Clusteranalyse kann am einfachsten geometrisch beschrieben werden. Wir stellen uns die n Zeilen einer Datenmatrix mit n Beobachtungen und s Variablen als Punkte in einem s-dimensionalen Raum vor. Es kann nun sein, daß die gesamte Punktwolke in mehr oder minder deutlich getrennte Teilwolken („Cluster") zerfällt. Das Ziel clusteranalytischer Verfahren ist es, diese Teilwolken aufzufinden, d.h. die Menge der n Beobachtungen in Teilmengen zu zerlegen. Im Idealfall klar getrennter Gruppen (wie in Abb. 6.11.) wird dies jedem Verfahren ohne Schwierigkeiten gelingen.
yz Cluster 2
Cluster 1
Cluster 3
Abb. 6.11 Idealsituation der Clusteranalyse
Reale Daten weisen im Regelfall jedoch keineswegs so klare Strukturen auf:
Abb. 6.12 Formen von Punktwolken
6. Multivariate Analyse
263
Hier hängt das Ergebnis einer Clusteranalyse sehr stark davon ab, wie das jeweils verwendete Verfahren den Begriff „Cluster" definiert. Von den vielen Verfahren stellen wir nur ein sehr einfach anzuwendendes dar: die sogenannte Single-Linkage-Analyse. Das Verfahren sucht eine hierarchische Klassifizierung zu erreichen (etwa in der Art biologischer Klassifikationen), d.h. eine Folge von ineinander geschachtelten Zerlegungen der Beobachtungsmenge. Geometrisch liegt hierarchischen Klassifizierungsverfahren etwa die Vorstellung der folgenden Abbildung zugrunde.
Beispiel 4 Als Beispiel betrachten wir sechs zweidimensionale Beobachtungen, die wie folgt angeordnet seien:
1 2 3 4 5 6
Abb. 6.14 Beispieldaten
Yi
y*
0 2 2 3 5 6
2 2 3 0 0 3
264
Datenanalyse
Der erste Schritt besteht in der Wahl eines Distanzmaßes zwischen den Punkten. Häufig wird als Distanz der Punkte i und j die sogenannte euklidische Distanz
2 (yik-yjk)2 k= 1
dü= J
benutzt. Vorausgesetzt dabei (und bei fast allen anderen Distanzmaßen) ist, daß die Maßeinheiten der s Variablen vergleichbar sind (etwa durch vorherige Standardisierung aller Variablen). Wir wählen hier die sogenannte City-Block-Distanz s d
ij=
k
2 lyik-yjkl.
deren Werte sich direkt aus der Zeichnung ablesen lassen (Länge des kürzesten Weges zwischen zwei Punkten, wenn nur Wege entlang des eingezeichneten „Straßennetzes" gegangen werden dürfen). Das Ergebnis ist eine Distanzmatrix mit den Distanzen aller Paare von Beobachtungen 1
2
3
4
5
6
1
0
2
3
5
7
7
2
2
0
1
3
5
5
3
3
1
0
4
6
4
4
5
3
4
0
2
6
5
7
5
6
2
0
4
6
7
5
4
6
4
0
Im 2. Schritt können wir aus dieser Distanzmatrix in folgender Weise einen sogenannten ungerichteten Graphen G[d] definieren: Wir geben uns einen Schwellwert d für die Distanzen vor und bezeichnen zwei Punkte i u n d j als verbunden, wenn ihre Distanz d¡j < d ist. Der Graph G[3] für d = 3 ist in Abb. 6.15 wiedergegeben: Als Cluster der Distanz d bezeichnen wir dann die Zusammenhangskomponenten von G[d], d.h. zwei Punkte i und j gehören zum gleichen Cluster, wenn in G[d] die beiden Punkte direkt oder indirekt verbunden sind. Die Zusammenhangskomponenten von G[3] sind {1, 2, 3, 4, 5} und {6}. Läßt man d variieren, so entsteht eine Folge von Zerlegungen in Cluster, die sich etwa in Form eines Baumdiagramms (Dendrogramm) darstellen läßt (Abb. 6.16).
265
6. Multivariate Analyse
0 Abb. 6.15 Graph
G(3) d=4 d=3 d =2
d =1
Ô 0 0 Ô 0 © Abb. 6.16
Dendrogramm
Da eine einzige Verbindung zwischen zwei Punkten ausreicht, um einen Cluster einer bestimmten Distanz zu konstituieren, zeigt das Single-Linkage-Verfahren häufig sogenannte „Chaining-Effekte" — es entstehen sehr langgezogene Ketten von Punkten, die untereinander nur schwach verbunden sind. Die Clusteranalyse hat gewisse Analogien zur Faktorenanalyse — es wird zur Erklärung der Daten eine latente Variable gesucht, die bei der Clusteranalyse qualitativer Natur ist (also eine Zerlegung der Beobachtungen in Gruppen beschreibt). Die Clusteranalyse teilt daher mit der Faktorenanalyse eine gewisse Willkür in der Vorgehensweise (in der Single-Linkage-Analyse z.B. besteht Unklarheit bei der Wahl des Distanzmaßes und bei der Bestimmung des Schwellwerts d). Dem Anwender wird daher empfohlen, möglichst mehrere alternative clusteranalyti-
266
Datenanalyse
sehe Verfahren zu benutzen und die entstandenen Cluster sorgfältig zu interpretieren (etwa anhand der Mittelwerte und Varianz-Kovarianzmatrizen innerhalb der Cluster). Literatur: Bock (1974), Steinhausen/Langer (1977).
6.7
Loglineare Modelle
Wollen wir untersuchen, wie bestimmte Einflußfaktoren auf eine quantitative Variable wie Umsatz oder IQ-Wert wirken, so liefern lineare Modelle flexible und übersichtliche Techniken, um diese Untersuchung strukturiert anzulegen. Was tun wir jedoch, wenn die interessierende Größe qualitativer Natur ist, also etwa Präferenz für eine bestimmte Partei oder ein Waschmittel? In vielen Studien der Markt- und Sozialforschung wird (oft recht gezwungen) versucht, derartige Größen irgendwie zu quantifizieren (etwa durch Indexbildung), um Methoden wie Regressions- oder Varianzanalyse anwenden zu können. Dies ist jedoch unnötig, da in den letzten Jahren neuartige Verfahren zur Analyse qualitativer Daten entwickelt worden sind, die praktisch die gleiche Flexibilität wie die üblichen quantitativen Methoden bieten. Am wichtigsten sind dabei die sogenannten loglinearen Modelle, unter denen die hierarchischen loglinearen Modelle zur Analyse mehrdimensionaler Kontingenztabellen besonders geeignet sind. Diese Modelle können erklärt und angewendet werden, ohne auf die allgemeine Theorie loglinearer Verfahren einzugehen (insbesondere wird der Begriff,loglinear' dabei nicht vorkommen). Beispiel 5 Betrachten wir eine einfache zweidimensionale Kontingenztabelle Abb. 6.17. Zweidimensionale Kontingenztafel Familienstand (A)
A, verheiratet
psych. Störungen (B) ja
(B.)
nein (B 2 )
S
A2
getrennt verwitw. geschieden
ledig
2
20
(«.,)
(».,)
35
60 (nr)
70 (nai)
15 (n„)
15 (n 2 3 )
100 (n 2 .)
90
20
50
160 (n)
("„)
(n.,)
5
A,
(n. 3 )
267
6. Multivariate Analyse
Hier wurden 160 Personen nach zwei Merkmalen klassifiziert: dem Auftreten psychischer Störungen und ihrem Familienstand. Die statistische Analyse einer derartigen Tabelle besteht im Aufstellen eines möglichst einfachen Modells sowie in der Überprüfung, ob dieses Modell den Daten adäquat ist. Wenn ny die Häufigkeit in Zelle (i, j) der Tabelle bezeichnet, so beziehen sich diese Modelle auf die erwarteten Zellhäufigkeiten E[nij] = mij unter verschiedenen Annahmen. Modell 0: Das einfachste Modell (Nullmodell) wäre, daß alle my in der Tabelle gleich sind. Naheliegenderweise wird man dann my durch 160/6= 26.66 schätzen. Die einzige Übereinstimmung zwischen Daten ny und Schätzungen my, die dieses Modell verlangt, ist die Gleichheit der Gesamtzahl n an Beobachtungen. Offenbar weichen die Daten sehr deutlich von diesem Modell ab. Modell A: Etwas komplexer (aber immer noch unzureichend) wäre ein Modell, das nur die Übereinstimmung der Randverteilung eines Merkmals (etwa Familienstand) bei Beobachtungen ny und geschätzten Erwartungswerten my fordert. Wählt man das Merkmal A Familienstand, ergäbe sich dann folgende Tabelle der Schätzungen my:
45 45
10 10
25 25
80 80
90
20
50
160
ModeUB: Analog ergibt sich aufgrund der Forderung, nur die Randverteilung des Merkmals B zu verwenden, die geschätzte Tabelle
20 33.3
20 33.3
20 33.3
60 100
53.3
53.3
53.3
160
Wir brauchen keinen Test durchzuführen, um zu sehen, daß beide Modelle offenbar nicht akzeptabel sind.
Datenanalyse
268 Modell A,B:
Interessanter wird es, wenn wir fordern, sowohl die Randverteilung von A als auch die Randverteilung von B zu berücksichtigen. Gesucht wird eine möglichst einfache Tabelle mit m^, welche die gleichen Randverteilungen wie ny hat. Der Leser wird erraten, daß dies die Unabhängigkeitstabelle mit
n /\ i n j my =—jp— ist.
Wir wollen jedoch die Gelegenheit nutzen und einen allgemeinen Algorithmus illustrieren, der diese my liefert (und der ganz analog für beliebige hierarchische Modelle auch in hochdimensionalen Kontingenztabellen funktioniert). Wir starten mit der Tabelle, die nur dem einfachsten, dem Nullmodell genügt („alle Zellen gleich") und passen diese Tabelle nacheinander an die gewünschten Randverteilungen an. Starttabelle
der
m,v: 2
A,
A2
A,
B, B2
26.66 26.66
26.66 26.66
26.66 26.66
80 80
2
53.33
53.33
53.33
160
Wir beginnen mit der Anpassung der Randverteilung von A. Die Starttabelle my hat die A-Randsummen (53.33, 53.33, 53.33), gefordert sind jedoch die Randsummen (90, 20, 50). Wir können die Starttabelle an diese Randsummen adap90 tieren, wenn wir alle Elemente der 1. Spalte mit ^ alle Elemente der 2. Spalte mit ^ ^
und alle Elemente der 3. Spalte mit ^ ^
multiplizieren.
Dies gibt eine neue Tabelle my: m»:
1. Iterationsschritt 2
A,
A,
A3
B, B2
45 45
10 10
25 25
80 80
2
90
20
50
160
Hier ist die Randverteilung von A angepaßt - jedoch noch nicht die Randverteilung von B. Anstelle der Randsummen (80, 80) wollen wir ja (60, 100) haben. Wir gehen genauso vor wie eben - bilden also die Quotienten
,
und
multiplizieren alle Elemente einer Zeile mit dem entsprechenden Koeffizienten.
6. Multivariate Analyse
269
Resultat: m:: : 2. Iterationsschritt
A,
A2
Aä
E
B, B,
33.75 56.25
7.50 12.50
18.75 31.25
60.00 100.00
2
90.00
20.00
50.00
In Anwendungen des Algorithmus auf mehrdimensionale Kontingenztabellen kann es passieren, daß die Anpassung einer Randverteilung (etwa von B) vorher vollzogene Anpassungen an andere Randverteilungen (etwa A) wieder teilweise zerstört. Wir wenden den Algorithmus dann iterativ an und passen erneut A an die entstandene Tabelle an usw., bis der Prozeß konvergiert (was stets der Fall ist). Hier hat dieses „Iterative Proportionale Anpassungsverfahren" glücklicherweise die bereits geleistete Anpassung der Randverteilung von A nicht mehr gestört - wir sind also fertig. Tatsächlich ist die endgültige Tabelle die Unabhängigkeitstabelle - siehe etwa 33.75 = 16U Wie gut stimmen die Beobachtungen ny mit den Schätzungen mjj überein? Wir wählen als Abstandsmaß den sogenannten Likelihoodratio-Chiquadratkoeffizienten G. n
G -
2 U
ij
2nji • In —— . m U
Es werden also in allen Zellen der Tabelle die Verhältnisse von beobachteten Häufigkeiten ny und (geschätzten) erwarteten Häufigkeiten my logarithmiert, das Ergebnis mit 2ny gewichtet und über alle Zellen aufsummiert. Die numerischen Werte von G unterscheiden sich im allgemeinen nur geringfügig von den Werten, welche die bekannte Chiquadratstatistik X 2 annimmt. Dies liegt daran, daß X 2 eine quadratische Approximation von G darstellt. Mit einem Taschenrechner kann G schnell bestimmt werden:
20 • In + 70 • In
15 15 70 + 15 • In + 15 • In ^56.25/ \12.50J 131.25
= 32.77 (X 2 hätte den Wert 32.83 erreicht). Ist dieser Wert so groß, daß wir an Modell A, B nicht glauben wollen? Diese Fra-
270
Datenanalyse
ge kann beantwortet werden, wenn man die Verteilung von G kennt. Allgemein ist G approximativ x2-verteilt, sofern das betreffende Modell (hier A, B) gilt. Die Zahl der Freiheitsgrade ist FG = Anzahl Zellen in der Kontingenztabelle — Anzahl angepaßter Randhäufigkeiten. Hier ist also FG = 2 • 3 — (3+2— 1) = 2 Die —1 rührt daher, daß die Anpassung der drei A-Randsummen bereits die Summe der B-Randsummen festlegt. Es bleibt dann nur noch, 2 — 1 = 1 B-Randsummen anzupassen. Der Praktiker beurteilt die Größe von G anhand des empirischen Signifikanzniveaus P(G) („P-Wert"). Dies ist die Wahrscheinlichkeit, daß einex 2 [FG]-verteilte Zufallsvariable mindestens so groß ist wie der beobachtete Wert G. P(G) kann also als die Wahrscheinlichkeit interpretiert werden, daß die Unterschiede zwischen Beobachtungen und Schätzungen rein zufällig zustandegekommen sind, unter der Annahme der Korrektheit des jeweils unterstellten Modells. Hier ist P(G), wie wir aus Tabellen der x2-Verteilung ablesen können, auf vier Stellen genau gleich 0.0000, das Modell ist also sehr unplausibel (selbst ein Test mit dem Signifikanzniveau a > 0.0001 würde ja zur Ablehnung fuhren!). Modell AB: Zwischen A und B besteht also ein Abhängigkeit, eine sogenannte Interaktion. Im Rahmen der hierarchischen Modelle heißt dies, daß ein Modell „geschätzt" werden muß, in dem alle einzelnen Schätzungen my gleich den beobachteten Häufigkeiten ny sind. Dies ist das sogenannte saturierte Modell für die zweidimensionale Kontingenztabelle. Es wird also die gesamte zweidimensionale Verteilung AB angepaßt. Offenbar ist hier my = n,j und G = 0 mit 0 FG. Damit haben wir alle möglichen hierarchischen Modelle für die zweidimensionale Kontingenztabelle kennengelernt. Die Ergebnisse unserer Schätzungen können wir übersichtlich in einem Hierarchiediagramm zusammenfassen. Jedes Kästchen entspricht einem geschätzten Modell. Greifen wir uns das Kästchen für das Unabhängigkeitsmodell A,B heraus: Die Kopfzeile gibt die angepaßten Randverteilungen an. Die mittlere Zeile liefert den Wert der G-Statistik und die zugehörigen Freiheitsgrade, die unterste Zeile enthält das empirische Signifikanzniveau des Modells. Die gezogenen Striche geben die hierarchischen Beziehungen zwischen den Mo-
6. Multivariate Analyse
Abb. 6.18
271
Hierarchiediagramm
dellen wieder. Das Modell AB ist schwächer als das Modell A,B und dieses schwächer als Modell A, denn Anpassung der gemeinsamen Verteilung AB von A und B schließt automatisch auch die Anpassung der Randverteilungen A und B ein etc. Das stärkste Modell (mit den stärksten Annahmen) ist das Nullmodell, das schwächste Modell (mit den schwächsten Annahmen) das saturierte Modell. Die Modelle A und B sind nicht vergleichbar, da keines das andere einschließt. Entdeckt der Leser eine Beziehung zwischen den G-Werten der verschiedenen Modelle? Wenn ein Modell X schwächer ist als ein Modell Y (d.h. also wenn X unterhalb von Y steht und Y direkt oder indirekt durch nach unten führende Striche mit X verbunden ist), dann gilt G(X) < G(Y) (dies ist offensichtlich — denn das Modell X paßt ja mehr Informationen aus den Daten an die my an),und für die Zahl der Freiheitsgrade gilt: FG(X) < FG(Y). Wir können die Größe G(Y) — G(X) also als Verbesserung der Anpassung interpretieren, die durch den Übergang von Y zu X erzielt wurde. Wir werden wieder fragen, ob es lohnend war, von Y zu X überzugehen (also ein weniger sparsames Modell zu wählen). Es gilt nun, daß G(Y) — G(X) wiederum approximativ x 2 -
272
Datenanalyse
verteilt ist mit FG(Y) — FG(X) Freiheitsgraden, sofern das Modell Y zutrifft. Von einem bereits akzeptablen Modell Y werden wir also nur dann durch Erweiterung des Modells zu einem Modell X fortschreiten, wenn das empirische Signifikanzniveau für G(Y) - G(X) klein ist (etwa
also die Tabelle: A,
A2
c,
B, B2
66.3 38.1
73.7 41.9
c2
B, B2
23.7 61.9
26.3 68.1
Das Modell besagt, daß A und C unabhängig sind in jeder der beiden Untertabellen für B( bzw. B2 (kennt man die soziale Schicht einer Person, so besteht kein Zusammenhang mehr zwischen Geschlecht und Wahlabsicht!). Schließlich bedeutet das Modell AB, AC, BC, daß nur paarweise Abhängigkeiten zwischen den drei Variablen auftreten und keine Abhängigkeiten höherer Ordnung existieren. Die Schätzungen m ^ können hier nicht explizit angegeben werden, sondern müssen über den beschriebenen Algorithmus berechnet werden. Wir finden: A,
A2
c,
B, B2
60.1 29.9
79.9 50.1
c2
B, B2
29.8 70.1
20.1 59.9
Der Leser erkennt, daß die Abhängigkeit in beiden Teiltabellen gleichartig ist /s (z.B. ergeben sich die gleichen Werte für das Kreuzprodukt: ^ 111 ^ 2 2 1 bzw. m 12 i m 2 u A A 111 j jj III222 Ts t; haben jeweils den Wert 1.25). Die gleiche Erscheinung würde sich zeim 122 m 212 gen, wenn wir die Tabelle anders anordnen: etwa die Untertabellen für A t bzw. A 2 angeben.
277
6. Multivariate Analyse
In einer dreidimensionalen Tabelle können noch ohne größere Probleme alle hierarchischen Modelle geschätzt und im Hierarchiediagramm dargestellt werden:
Abb. 6.23 Hierarchiediagramm der Tabelle (Geschlecht, Schicht, Wahlabsicht)
Marschiert man vom totalen Unabhängigkeitsmodell A,B,C in Richtung des saturierten Modells ABC auf dem fett ausgezogenen Pfad, so entsteht folgende Zerlegung von G: G ( A 3 , C ) = 62.11 52.40 Hinzunahme von BC
+
8.54 Hinzunahme von AC
+
1.15 Hinzunahme von AB
+
0.01 Hinzunahme von ABC
278
Datenanalyse
Wir erkennen, daß nur die ersten beiden Übergänge „signifikante" Verbesserungen gebracht haben. Insgesamt liefern zwei Modelle eine ausgezeichnete Anpassung an die Daten: Das Modell (AC, BC): Es besteht keine Abhängigkeit zwischen Klasse und Geschlecht. Die Wahlabsicht kann durch die getrennte Wirkung von Klassenzugehörigkeit und Geschlecht erklärt werden. Dabei zeigen die Daten, daß diese Wirkung folgendermaßen aussieht: Unterschichtmitglieder wählen eher die Arbeiterpartei als Mittelschichtmitglieder, Frauen wählen eher die Konservativen als Männer. Das Modell (AC,BC,AB): Es besteht keine Dreivariablen-Interaktion. Die Wahlabsicht kann durch die Wirkung von Klassenzugehörigkeit und Geschlecht erklärt werden, wobei die Abhängigkeit zwischen diesen beiden Variablen zu berücksichtigen ist. Wegen der Abwesenheit höherer Interaktionseffekte gilt jedoch, daß sich etwa Frauen der Unterschicht genauso verhalten wie Frauen der Mittelschicht. Vorzuziehen ist dann im allgemeinen das einfachere Modell, d.h. das Modell AC,BC. In mehr als dreidimensionalen Tabellen ist es im allgemeinen nicht mehr möglich, alle hierarchischen Modelle zu berechnen — es ist dann nötig, sogenannte „Modelljagd"-Techniken zur Auswahl eines brauchbaren Modells anzuwenden. Diese Techniken sind mit Programmierungshinweisen beschrieben in Recke (1979). Erforderliche Kenntnisse: keine, da es sich nur um einen Überblick der Verfahren handelt. Vorherige Lektüre von Kap. 4 ist nützlich.
7.
Einführung in die Zeitreihenanalyse und Prognose
7.1
Problemstellung - Beispiele
In diesem Kapitel wollen wir eine kurze Einführung in die statistische Analyse von Zeitreihen und in die Prognose zukünftiger Zeitreihenwerte geben. Wir werden uns dabei im Rahmen einer solchen Einführung auf Untersuchungen im Zeitbereich beschränken und damit solche im Frequenzbereich (Spektraltheorie) ausklammern. Unter einer univariaten Zeitreihe verstehen wir eine zeitgeordnete Folge von Beobachtungen, die an einer Variablen Y in diskreten (meist äquidistanten) Zeitpunkten t = 1,. . ,,T gemessen werden. Die Beobachtungen bezeichnen wir mit y t , t = 1 , . . ,,T. Beispiele für Zeitreihen aus dem Bereich der empirischen Wirtschaftsforschung sind die über mehrere Jahre registrierte jährliche Energieproduktion eines Landes, die Anzahl der pro Quartal abgeschlossenen Verträge einer Versicherungsfirma — beobachtet über einen gewissen Zeitraum — die monatliche Preisentwicklung oder Absatzmenge eines Produkts in den letzten Jahren usw. Die statistische Analyse von Zeitreihen solcher wirtschaftlicher Variablen hat nun zum Ziel, Gesetz- oder Regelmäßigkeiten in der temporalen Entwicklung der Variablen zu erfassen oder gar nachzuweisen. Um einen ersten (visuellen) Eindruck von dieser Entwicklung zu bekommen, liegt es nahe, die Daten über die Zeit in ein Koordinatensystem einzutragen. Es gibt nicht wenige, die provokatorisch behaupten, daß die statistische Analyse einer Zeitreihe kaum mehr zu leisten vermag als das „bloße Auge" aus dieser graphischen Darstellung „herausholen" kann. Der Leser mag dies für die hier dargestellten statistischen Verfahren am Ende des Kapitels selbst entscheiden. Auf das Problem der Länge einer Zeitreihe, d.h. der Anzahl der Beobachtungen y t für Analyse- und Prognosezwecke, kann im Rahmen dieser Einführung nicht näher eingegangen werden. Es ist jedoch unmittelbar einleuchtend, daß zur Anwendung von Schätzverfahren, die asymptotisch (T->°°) optimale Eigenschaften haben, eine „hinreichend" lange Zeitreihe vorliegen sollte. Was dabei „hinreichend" bedeutet, hängt vom speziellen Problem und vom gewählten Verfahren ab. Ein wichtiger Tatbestand, der bereits im 2. Kapitel angeklungen ist, sei hier hervorgehoben: Die Unabhängigkeit der Beobachtungen als Voraussetzung für die Anwendung der meisten statistischen Verfahren in den vorangegangenen Kapiteln ist bei einer Zeitreihe im allgemeinen nicht mehr gegeben. Es ist einsichtig, daß eine Beobachtung zum Zeitpunkt t von der oder den zeitlich vorangehenden
280
Datenanalyse
Beobachtungen abhängt, so z.B. beim Preis oder bei der Absatzmenge eines Produkts. Die statistische Analyse von Daten setzt stets ein Modell voraus. Bevor wir ein solches (lineares) Modell für die Zeitreihenanalyse angeben, wollen wir an 4 Beispielen den ersten Eindruck von unterschiedlichen Zeitreihenverläufen gewinnen. Die Daten aus diesen 4 Beispielen sind am Ende dieses Kapitels aufgelistet. Beispiel 1: Bruttosozialprodukt der BRD in Preisen von 1970 (in Mrd. DM) (Jahresdaten)
Abb. 7.1 (Bruttosozialprodukt der BRD) Beispiel 2: Anzahl der Paketsendungen (in Mill.) bei der Deutschen Bundespost in den Jahren 1 9 7 5 - 1 9 7 7 (Monatsdaten) Beispiel 3: Endverbraucherabsatz des Likörs „XY" (in 1 0 0 0 / ) von Februar 1966 bis Januar 1975 (Zwei-Monatsdaten)
Abb. 7.2 (Anzahl der Paketsendungen)
Abb. 7.3 (Endverbraucherabsatz des Likörs „XY")
282
Datenanalyse
Beispiel 4: Verkauf des Likörs „XY" (in 1 0 0 0 / ) ab Fabrik von 1966-1974 (Dateneinteilung wie in Beispiel 3) 450
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
Abb. 7.4 (Verkauf des Likörs „XY"ab Fabrik)
Vergleichen wir die 4 Zeitreihen miteinander, so zeigt die erste eine nahezu gradlinige steigende Tendenz, wohingegen die zweite im Jahresmittel keine nennenswerte Tendenz nach oben oder unten (konstant im Mittel) aufweist, dafür aber deutliche sogenannte saisonale Schwankungen (Zyklen), und zwar zu Weihnachten (obere Spitzen) und zu Ostern (untere Spitzen). Diese Schwankungen treten im Unterschied zu Beispiel 1 natürlich dadurch zu Tage, daß nun Monatsdaten vorliegen. Aber auch bei volkswirtschaftlichen Variablen mit Jahresdaten können Zyklen beobachtet werden, deren Perioden länger als ein Jahr sind (Konjunkturschwankungen). Im Beispiel 3 sind ebenfalls saisonale Schwankungen (Muttertag — Weihnachten) zu erkennen, dazu eine zunächst leicht steigende und dann fallende Tendenz (Branntweinsteuererhöhung!). Im Beispiel 4 sind die saisonalen Schwankungen nicht so deutlich ausgeprägt wie in den Beispielen 2 und 3; hier erscheint die Datensituation komplexer. Weitere Beispiele für saisonunabhängige Produkte mögen bestimmte Lebensmittel wie Brot, Butter sein, und solche für saisonabhängi-
7. Einführung in die Zeitreihenanalyse und Prognose
283
ge Produkte Eis oder Getränke wie Bier, Rum. Neben der Analyse von Zeitreihen spielt die Prognose zukünftiger Zeitreihenwerte eine fundamentale Rolle. So möchte z.B. die Firma, die den Likör der Marke „XY" herstellt, den Absatz ihres Produkts in den folgenden Monaten, vielleicht im Verlauf der nächsten Jahre prognostizieren, um mit Hilfe dieser prognostizierten Absatzwerte die Produktions- und Lagerplanung durchzuführen. Hier bekommen statistische Prognoseverfahren eine für die Praxis ganz wichtige Funktion. Von der Methodik her gesehen handelt es sich dabei um das Problem der Punktschätzung, d.h. um die Schätzung zukünftiger (unbekannter) Werte der zu untersuchenden Variablen. Auf die Prognose werden wir in 7.3 näher eingehen. Im nächsten Abschnitt wollen wir zunächst eine statistische Analyse von Zeitreihen unter Zugrundelegung des sogenannten Komponentenmodells durchführen.
7.2
Komponentenmodell
7.2.1
Modellannahmen
Bei der statistischen Analyse ökonomischer Zeitreihen wollen wir von folgender additiven Zerlegung der Zeitreihe y t , t = 1 , . . . ,T ausgehen: y t = g t + z t + u t . Darin bedeuten g t die allgemeine Grundrichtung oder Trend (glatte Komponente), z t den saisonalen Effekt (zyklische Komponente) und u t die RestSchwankungen (Restkomponente); für u t gelten die im Kapitel 4 getroffenen Annahmen: E(u t ) = 0, Var(u t ) = a 2 , E(u t u s ) = 0 für t + s. Die Annahme E ( u t u s ) = 0 (d.h. die Störvariablen sind unkorreliert) ist häufig fragwürdig. Für die Analyse von Zeitreihen bei unterstellten korrelierten Störvariablen sind jedoch Kenntnisse statistischer Methoden notwendig, deren Beschreibung den Rahmen dieser Einführung übersteigt, vgl. dazu Schlittgen/Streitberg (1981). Nehmen die y t im Beobachtungszeitraum im großen und ganzen zu (ab), so sprechen wir von einem steigenden (fallenden) Trend. Saisonale Effekte sind ein oft zu beobachtendes Phänomen ökonomischer Variablen (Beispiele 2, 3). Dabei handelt es sich um mehr oder weniger deutliche, periodisch auftretende Auf- und Abbewegungen innerhalb einer Saison (z.B. eines Jahres), die wir als Saisonfigur bezeichnen. Wiederholt sich diese Saisonfigur Jahr für Jahr in gleicher Weise, so sprechen wir von konstanter, andernfalls von variabler Saisonfigur. Es sei an dieser Stelle betont, daß das obige additive Modell keine kausale Erklärung für einen speziellen Zeitreihenverlauf liefert, sondern nur einen formalen Zusammenhang zwischen zeitabhängigen Funktionen postuliert. Eine schematische Darstellung dieses Zusammenhangs bringt die folgende Graphik (siehe Wetzel (1971)):
284
Datenanalyse
yt
Zur vollständigen Beschreibung des Modells müssen noch g t und z t spezifiziert werden. Es wird sich zeigen, daß das dann vorliegende Modell ein Spezialfall des allgemeinen linearen Modells y = Xß + u aus Kapitel 4 mit bestimmter (bekannter) Matrix X und bestimmtem (unbekanntem) Parametervektor ß ist. Im folgenden wollen wir uns zunächst auf Modelle beschränken, die nur eine Komponente, entweder gt oder nur z t , enthalten. 7.2.2
Schätzen der Parameter
Betrachten wir zunächst das „reine" Trendmodell: y t = g, + u t ,
t=l,...,T.
Zur (mathematisch einfachen) Darstellung von g t bietet sich ein Polynom k-ter Ordnung - bei geeigneter Wahl von k - an: g, = a 0 + a,t + . . . +
aktk,
das den wichtigen Spezialfall einer linearen Funktion ( k = 1, siehe Beispiel 1) einschließt. Die Schätzung der k + 1 unbekannten Parameter a o . a j , . . ..a^ erfolgt nach der im Kapitel 4 beschriebenen Kleinst-Quadrate-Methode. Es ist y, = a 0 + a 1 t + . . . + a k t k + u t ,
t=l,...,T,
285
7. Einführung in die Zeitreihenanalyse und Prognose
und in Matrizenschreibweise: l
I y,1
l
1
l
2
2
1 2
a
0
a
l
u2 +
•
yT
1
T
T2
•
uT
|ak
i
I y
u
Xg
(Das „ g " in Xg und ß g symbolisiert die glatte Komponente.) Nach der Methode der Kleinsten Quadrate (MKQ) ergibt sich: ao = (XgXg)~ 1 Xgy 3k mit der obigen Matrix X g und dem Beobachtungsvektor y. Für den Speziallfall k = 1, auf den wir uns im folgenden beschränken wollen, erhalten wir: 1 faoi
= ( x ; x g ) " 1 X ; y mit X g =
l\
1
2
1
T
Die Ausrechnung ergibt: ^
_
^
—
a 0 = y - aj t
.2(yt-y)(t-t) t i - *
l (t-t)2 t=i
Unterstellen wir in Beispiel 1 einen linearen Trend (realistisch?), so erhalten wir als Schätzungen für a 0 und a , : ä 0 = 397.82
a , = 23.91
286
Datenanalyse
und damit als (geschätzte) Regressionsgerade: y t = 397.82 + 23.91t
(steigender Trend).
Es ist klar, daß allgemein an Hand einer berechneten Regressionsgeraden bzgl. Beobachtungen y ! , . . . ,y T nicht zukünftige Zeitreihenwerte für beliebiges t > T prognostiziert werden können. Dazu ist das lineare Modell mit festen a 0 und a! über den gesamten Zeitraum zu starr. In 7.3 werden wir dieses Problem wieder aufgreifen. Betrachten wir nun das „reine" Saisonmodell: y t = z t + u t mit der Annahme einer konstanten Saisonfigur. Zur Darstellung jahreszeitlich bedingter Schwankungen, die in z, zusammengefaßt sind, könnten wir geeignete Funktionen des Sinus und Cosinus heranziehen. Äquivalent dazu ist die folgende, einfachere Darstellung: Wir bezeichnen mit 1 0
0
0 1
• •
•
•
o\
•
•
0
0 -
die (n,n)-Einheitsmatrix, und je nachdem, ob Quartalsdaten, Zwei-Monatsdaten oder Monatsdaten vorliegen, gehen in die Matrix X des linearen Modells y = Xß + u als Blöcke die Einheitsmatrizen I 4 , 1 6 bzw. I 12 ein (Konzept der sogenannten Dummy-Variablen, s. Kap. 4), z.B. für Quartalsdaten:
/u, u2
I y,\ y2
Uf
UT
i
;
I
x7
U
Yt/ I
Xzßz
287
7. Einführung in die Zeitreihenanalyse und Prognose
(Das „z" in X z und ßz symbolisiert die zyklische Komponente.) Die „Block-Matrix" X z besteht aus T/4 Einheitsmatrizen I 4 und ßz aus den vier Saisonparametern s , , . . .,s 4 . (Liegen für ein Jahr nicht alle vier Daten vor, so wird (werden) in der zugehörigen Matrix I 4 die entsprechende Zeile(n) gestrichen). Bei vollständigen Quartalsdaten über z.B. drei Jahre ist T = 12, und Xz besteht aus drei Matrizen I 4 . Bei Monatsdaten ergibt sich ganz analog das lineare Modell: yi •
1.2
Si
1.2
S
=
2
•
yT
y
=
xz
U
+
1
•
S.2
uT
i
l
ßz
+ U
Das eigentliche Ziel, die Schätzung des unbekannten Parametervektors ßz s4 (Quartalsdaten),
ßz =
(Zwei-Monatsdaten) bzw. ßz =
(Monatsda-
s6 ten), können wir wie im „reinen" Trendmodell mit Hilfe der Methode der kleinI/\ s2 /S
sten Quadrate (MKQ) erreichen (s. Kap. 4). Es ist: ß z = ^
= (X Z X Z ) _ 1 X z y
mit der entsprechenden Matrix X z und dem Datenvektor y. Für das Beispiel 2 mit Monatsdaten erhalten wir (gerundet): S! = 18.7,
s 2 = 19.7,
s 3 = 24,
s 4 = 21.7,
s s = 18.7,
s 6 = 17.7,
s 7 = 17.3,
s 8 = 17.7,
s 9 = 22,
s 10 = 24,
s n = 28.7,
s 12 = 33 .
Wir sehen also, daß die Paketsendungen zu Ostern in den Monaten März (s 3 = 24) und April (§ 4 =21.7) sowie zu Weihnachten in den Monaten November C§n = 28.7) und Dezember (S, 2 = 33) „durchschlagen".
288
Datenanalyse
Mag die Annahme eines reinen Trendmodells in Beispiel 1 und die eines reinen Saisonmodells in Beispiel 2 noch einigermaßen plausibel erscheinen, so erweist sich eine solche Festlegung auf eine einzige Komponente für die meisten ökonomischen Zeitreihen als zu restriktiv (siehe Beispiele 3 , 4 ) . Die Untersuchung des für viele Zeitreihen relevanten Modells y t = g t + z t + u t macht aber keine zusätzlichen formalen Schwierigkeiten. In der Matrix X — bezogen auf y t = gt + z, + u t — sind die Matrix Xg des Trendmodells und die Matrix X z des Saisonmodells „zusammengefaßt", entsprechend im Parametervektor ß . Um die Existenz einer Lösung ß der Normalgleichung zu sichern (siehe Kap. 4), betrachten wir zunächst einen Trend ohne absolutes Glied a 0 ; das bedeutet z.B. beim linearen Trend g t = a,t. Für diesen Fall ergibt sich dann bei Vorlage von Zwei-Monatsdaten das Modell: y
X
t
t M s. 51 52 s3 s4
ye
yi
u6
Ss
s6
U7
yn u, 2
ut l
xg
l
xz
Wir wollen zur Veranschaulichung die Einzelgleichungen für herausstellen: y, =
a, + s, + u , ,
y 7 = 7a, + s, + u 7 ,
y 2 = 2a, + s 2 + u 2 , y 8 = 8a, + s 2 + u 8 .
yi, y 2 , y 7 , y 8
289
7. Einfuhrung in die Zeitreihenanalyse und Prognose
Die Schätzung des unbekannten Parametervektors ß nach der MKQ ergibt:
(X'X)- 1 X'y
mit obiger Matrix X und Beobachtungsvektor y
\s6 xxxx
xxxx
xxxx
xxxx
Speziell für das Beispiel 3: a, = - 0 . 7 1
S! = 160.94
s 2 = 166.07
s 3 = 135.64
s 4 = 131.16
s 5 = 152.73
St, = 265.01 .
Wir sehen also, daß beim Endverbrauch des Likörs „XY" generell eine fallende Tendenz (a! = - 0 . 7 1 ) zu verzeichnen ist und darüberhinaus der Verbrauch in den Monaten Aprü-Mai ( s 2 = 166.07, Ostern-Muttertag) und November-Dezember (s 6 = 265.01, Weihnachten) stark ansteigt. Nehmen wir ein absolutes Glied a 0 in das Modell auf, so können wir über die gewonnenen Schätzungen S [ , . . . , s 6 mit a 0 = ~ (s, + . . . + s 6 ) einen Schätzwert für a 0 angeben und6 darüberhinaus die geschätzten Saisonparamter s| normieren: sj — ä 0 = sj und E sj = 0 . i=l Ganz analog kann das lineare Modell bzgl. y t = g t + z t + u t für Quartals- oder Monatsdaten und auch bei Annahme eines polynomialen Trends aufgestellt werden. Auf ein wichtiges Problem sei hier noch besonders hingewiesen: Sei y = Xß die Gleichung der (geschätzten) Regressionsebene, so gilt bei Vorliegen eines AbsoT
lutgliedes a 0 für die Komponenten des Residualvektors
u = y — y : 2 u. = 0 . t=i Die Tatsache, daß die Summe der Residuen gleich 0 ist, impliziert jedoch keine Aussage über die einzelnen u t , t = 1 , . . .,T (Ausreißer, Abhängigkeit der u t etc.), deren Analyse wesentlichen Aufschluß über die Güte der Anpassung und über die Relevanz des unterstellten (linearen, additiven) Trend-Saison-Modells gibt. Auf eine solche unbedingt notwendige Residualanalyse, die dann im konkreten Einzelfall zu erfolgen hat, ist in Kapitel 4 näher eingegangen worden, so daß wir hier darauf verzichten können.
290
Datenanalyse
7.2.3
Gleitende Durchschnitte
Neben der Kleinst-Quadrate-Methode werden häufig sogenannte gleitende Durchschnitte (GLD) zur Ausschaltung der Restschwankungen u t (bzw. kurzfristiger Saisonschwankungen) und damit zur Schätzung der Trendkomponente g t angewendet. Im (ungewichteten) Fall ist der p-gliedrige GLD, wobei p = 2k + 1 und k eine geeignet gewählte natürliche Zahl ist, definiert als:
Yt =
yt_k + yt-k+i +
+ yt+i + •• - + yt+k 2k + 1
mit t = k + 1 , . . . , T - k; y t ist das arithmetische Mittel aus 2k + 1 Zeitreihenwerten, in das y t , die k vorangehenden und die k nachfolgenden Zeitreihenwerte eingehen. Auf diese Weise wird jedem Zeitpunkt t (t = k + 1 , . . .,T—k) nicht wie in der Originalzeitreihe der Wert y t , sondern y t zugeordnet. Mit dieser Zuordnung ist die Zeitreihe der GLD am Anfang und Ende um je k Werte kürzer als die Originalreihe. Es leuchtet ein, daß y t eine bessere Schätzung für g t als y t darstellt. (Wir können statt y t auch g t schreiben, um zu verdeutlichen, daß es sich um eine Schätzung für g, handelt.) Bevor wir auf den Fall p = 2k und auf das Problem einer geeigneten Wahl von p bzw. k eingehen, wollen wir einen fünfgliedrigen GLD (d.h. p = 5, k = 2) auf die Daten in Beispiel 1 anwenden: Tabelle 7.1. (Bruttosozialprodukt der BRD) Jahr
t
Vt
1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
429.5 450.4 470.3 484.3 516.4 545.0 558.8 558.1 594.4 641.3 679.0 701.7 727.3 763.0 765.7 746.8 789.1
yt = i t — -
-
470.18 493.38 515.06 532.62 554.64 579.62 606.42 635.00 668.84 702.56 727.44 741.00 758.48
z.B. 4 8 4 . 3 + 5 1 6 . 4 + 5 4 5 + 5 5 8 . 8 + 558.1
= 532.62
-
In der folgenden Graphik sind die Originalreihe y t und die Reihe der GLD y t
7. Einführung in die Zeitreihenanalyse und Prognose
291
dargestellt. Es zeigt sich, daß durch y t der lineare Trend gut „herausgehoben" wird.
Abb. 7.6 (Gleitende Durchschnitte)
Wie wir noch sehen werden, erweist es sich in vielen praktischen Situationen als nützlich, die GLD bezüglich einer geraden Zahl von Zeitreihenwerten zu bilden, d.h. p = 2k. Um zu vermeiden, daß dann diesem Durchschnitt die Mitte zwischen zwei Zeitpunkten t und t + 1 zuzuordnen wäre, wird y, definiert durch: J ^ ) y t _ k + y t - k + i + . . • + ( y t ) + y t +i + • • • + y t + k - i y t =
2k
+
(T)yt+k
•
Im Zähler stehen wieder 2k + 1 Werte, wobei der — auf y t bezogene — k-te vorangehende und der k-te folgende Wert jeweils mit
gewichtet sind, y t wird
dann wieder dem Zeitpunkt t zugeordnet. Wir werden dieses Prinzip später am Beispiel 3 erläutern. Zuvor noch einige Bemerkungen: 1. Die Methodik der GLD beruht im wesentlichen darauf, daß die Kurve gt zwischen je p aufeinanderfolgenden Zeitpunkten durch eine Gerade approximiert wird, genauer: Wird zu vorgegebenen Zeitreihenwerten Yt-k. • • - .yt. • • - .yt+k die bezüglich des Kleinst-Quadrate-Kriteriums „optimale" Gerade bestimmt und wird dann der Wert y t dieser linearen Funktion an der Stelle t bestimmt, so gilt: y t = y t .
292
Datenanalyse
Mit der Methode der GLD wird also nicht die gesamte Kurve durch eine Gerade approximiert (gewöhnliche MKQ), sondern jeweils nur ein „Ausschnitt" der Kurve, d.h. die Zeitreihe wird geglättet durch lokale Approximation. Dabei bedeutet Glättung Ausschaltung von (zufälligen) Restschwankungen. Dies gilt jedoch nicht für das Trend-Saison-Modell y t = g t + z t + u t , in dem g t + z t (also nicht nur der Trend g t ) möglichst deutlich erfaßt werden soll. Die Methode der GLD erweist sich hier als unbrauchbar, weil z t j a gerade durch mehr oder weniger starke Schwingungen gekennzeichnet ist, die bei Anwendung von GLD zusammen mit den Restschwankungen „abgeschliffen" werden. Eine alleinige Ausschaltung von u t in y t = g t + z t + u t kann mit gleitenden Durchschnitten höherer Ordnung durchgeführt werden, worauf hier nicht näher eingegangen wird. 2.
Es kann gezeigt werden, daß für den Fall eines linearen Trends g t = a 0 + a, t
der GLD y t = g t eine unverzerrte Schätzung für g t ist, d.h. E [ y t ] = g t . Dies gilt nicht für einen polynomialen Trend g t = a 0 + a j t + . . . + a k t k . Die bislang betrachteten (einfachen) GLD ( k o n s t a n t e Gewichtung von 2 ^ + 1 bzw. ~
für alle
Beobachtungen) lassen sich jedoch durch unterschiedliche Gewichtung der einzelnen y t so verallgemeinern, daß sie den polynomialen Trend k-ter Ordnung unverzerrt schätzen. Die auf gleichgewichteten und verschieden gewichteten Beobachtungen basierenden GLD sind Spezialfälle des sogenannten linearen Filters, der als lineare Transformation einer Zeitreihe y t in eine andere Zeitreihe vt mit vt =
n
2
i=—m
a¡ y t _ ¡
t = n+ l , . . . , T —m
definiert ist; a _ m , . . .,a n heißen die Gewichte lineare Filter mit 2 a ¡ = 1
des Filters. Als GLD werden dann
bezeichnet; im (einfachen) G L D ist a¡ =
für
alle i. 3. Vom Prinzip der GLD her ist klar, daß die Glättung der Zeitreihe umso stärker ist, j e mehr Werte in y t einbezogen werden, d.h. j e größer k ist. Es sollte jedoch beachtet werden, daß mit wachsendem k immer mehr Werte am Anfang und Ende der Zeitreihe „abgeschnitten" werden. Es existieren allerdings Verfahren der Randergänzung, die aus dem beschriebenen Ansatz einer „lokalen linearen Approximation" abgeleitet werden können. 4 . Unter der Voraussetzung einer konstanten Saisonfigur muß die Festlegung von k im Hinblick auf das Ziel der Eliminierung der saisonalen Komponente z, von der temporalen Folge der Daten abhängig gemacht werden. Liegen Monatsdaten vor, so ist p = 12, d.h. k = 6 zu wählen, bei Zwei-Monatsdaten p = 6, d.h. k = 3 , bei Quartalsdaten p = 4, d.h. k = 2 usw. Für alle diese in der Praxis relevanten Fälle ist also p geradzahlig, p = 2k. Wir führen die Methode der GLD für k = 3, d.h. p = 6 am Beispiel 3 mit Zwei-Monatsdaten durch und erhalten
7. Einführung in die Zeitreihenanalyse und Prognose
293
die nachstehende Graphik der GLD. So ist z.B. der 1. GLD: y4=
j • 145.7 + 147.8 + 122.8 + 129.3 + 154.4 + 305.6 + y • 172.5 -
= 169.83
( y 4 = 129.3)
Abb. 7.7 (Gleitende Durchschnitte)
Die graphische Darstellung der GLD verdeutlicht die „Bereinigung" der beobachteten Zeitreihe vom saisonalen Einfluß. Zum Schluß dieses Abschnitts sei noch erwähnt, daß neben gleitenden Durchschnitten auch gleitende Mediane zur Glättung der Zeitreihe angewendet werden können. Dieses Verfahren ist u.W. zum ersten Mal von Tukey (1977) vorgeschlagen worden.
7.2.4
Differenzenbildung
Im vorangegangenen Abschnitt haben wir mit der Methode der GLD ein Verfahren zur Ausschaltung von Rest- und (kurzfristigen) Saisonschwankungen kennengelernt, um den Trend sichtbarer zu machen. Das nun darzustellende Prinzip der Differenzenbfldung führt zur Elimination des Trends. Zu diesem Zweck bilden wir die 1. Differenz d' 1 ' aus dem Zeitreihenwert y t und dem des Vorjahres (Vormonats o.ä.) y t _ j : dj 1 ' = y t — y t _! und betrachten nun die Folge der Differenzen t = 2 , . . .,T. Unterstellen wir einen linearen Trend g, = a 0 + ait im Modell y t = gt + u t , so gilt (unter Vernachlässigung von u t ) für d ^ :
Datenanalyse
294 dt1}
=
Vt - y t - i = a 0 + a j t - a 0 - a t ( t - 1 ) = a , ,
d.h. die Reihe
dj1'
ist vom linearen Trend bereinigt und „ s c h w a n k t " (bedingt
durch u t ) um die Konstante a t . Differenzen k-ter Ordnung sind rekursiv definiert durch: d
(k)=
d
(k-i)_d(k-i))
k = 2
, . . .
und
t = k + 1 , . . ,,T .
Es kann gezeigt werden, daß ein polynomialer Trend der Ordnung k : g t = a 0 + a j t + . . . + aj(t k
durch Differenzenbildung k-ter Ordnung eliminiert
werden kann. Um also den Grad des Polynoms für die Approximation des Trends zu bestimmen, kann mit der Methode der Differenzenbildung untersucht werden, ab welcher Ordnung k der Differenzen die Reihe
d(k> sich wie eine Folge
von unabhängigen Zufallsvariablen verhält. Darauf wollen wir nicht weiter eingehen. Bevor wir am Beispiel 1 die Differenzenbildung 1. Ordnung veranschaulichen, sei noch erwähnt, daß die 1. Differenzen (und auch die höherer Ordnung) wie die G L D aus 7 . 2 . 3 ein Spezialfall des linearen Filters vt =
n 2 i=-m
aj y t _ j
vt = d < ° = 1 • y t -
sind; es ist: 1 • yt_1;
d.h.
a0 = aj = 0
= -1 , sonst.
Die folgende Graphik zeigt die Anwendung des 1. Differenzenfilters auf Beispiel 1:
Abb. 7.8 (1. Differenzen)
7. Einführung in die Zeitreihenanalyse und Prognose
7.3
Prognose
7.3.1
Einführung
295
Wir hatten in 7.1 bereits daraufhingewiesen, daß in vielen Anwendungsbereichen die Analyse von Zeitreihen eng verknüpft ist mit der Prognose zukünftiger Zeitreihenwerten, so z.B. bei der Vorhersage der Absatzentwicklung eines oder mehrerer Produkte eines Betriebes. Ausgehend von der Analyse „historischer" Daten soll der Absatz des Produkts für einen zukünftigen Zeitpunkt geschätzt werden. Wie soll nun generell eine solche „Extrapolation" der Daten durchgeführt werden? Es wäre z.B. im linearen Trendmodell y, = a 0 + a ^ + u t offensichtlich wenig sinnvoll im Hinblick auf eine gute Prognose, mit Hilfe der historischen Daten y l t . . .,y T die Paramter a 0 und a! zu schätzen (a 0 , a,), um dann für einen beliebigen Zeitpunkt t > T den Wert y t über y t = a 0 + äjt zu berechnen (siehe 7.2.2). Erfolgversprechender sind offensichtlich solche Prognoseverfahren, die zur Schätzung von a 0 , a ( Daten aus jüngster Vergangenheit stärker gewichten als solche aus weiter Vergangenheit und die auf einer adaptiven Schätzung von a 0 ,ai basieren, d.h. a 0 ,a! nach jeder zusätzlichen Beobachtung aufs neue berechnen. Die Auswahl eines bestimmten Prognoseverfahrens und damit die Güte der Prognose hängt entscheidend vom unterstellten Zeitreihenmodell ab; sie ist letztlich nicht davon zu trennen. Mit anderen Worten: ein auf das Modell zugeschnittenes Verfahren, das zu einem großen Prognosefehler (Differenz zwischen prognostiziertem und tatsächlich beobachtetem Wert) führt, deutet — abgesehen von einem möglichen Strukturbruch - auf eine Fehlspezifikation des Modells hin. Was die Auswahl des Verfahrens betrifft, so ist es unmittelbar einsichtig, daß z.B. bei Annahme eines reinen Trendmodells ein anderes Prognoseverfahren zu wählen ist als bei Annahme eines Trend-Saison-Modells. So wird man für die Absatzentwicklung eines Produkts, bei der saisonale Schwankungen auftreten, nicht entlang einer Trendgeraden die Absätze für die nächsten Monate prognostizieren. Im Rahmen dieser Einfuhrung in die Prognoserechnung wollen wir uns im nächsten Abschnitt auf das für den Marketing-Bereich wichtige (additive) Trend-Saison-Modell beschränken (siehe 7.2.2) und dafür ein Prognoseverfahren angeben, das ein Analogon zu dem von Holt-Winters für das multiplikative Trend-Saison-Modell darstellt, siehe Montgomery/Johnson (1976).
7.3.2
Trend-Saison-Modell
Das in 7.2.2 in Matrizenform angegebene (lineare) Trend-Saison-Modell können wir wie folgt als Einzelgleichungen schreiben: y t = a 0 + a t t + st + u t , t = 1 , . . . ,T. Darin bedeuten a0 die absolute Komponente, a t den Trendparameter und s t die Saisonparameter. Wir nehmen an, daß die Länge einer Saison (z.B. eines Jahres) L Zeitabschnitte beträgt (z.B. L= 12 Monate, L = 6 Zwei-Monatsabschnitte,
296
Datenanalyse
L = 4 Quartale). Bei m vollständigen Saisons (Jahren) liegen also insgesamt mL Beobachtungen vor: y t = a 0 + a ^ + st + u t ,
t=l,...,mL.
Der Leser beachte (siehe 7.2.2), daß bei konstanter Saisonfigur jedoch nicht alle s t , sondern höchstens L dieser st verschieden sind wegen s = S t t+L = • • • = s t+(m-i)L- Zur Vereinfachung der Schreibweise der folgenden Schätz-Prognose-Formeln wollen wir jeweils am Ende eines Beobachtungszeitpunktes T diesen Punkt T als neuen Ursprung der Zeitachse wählen (Start: T = 0), d.h. wir setzen E(y t ) = a 0 + a ^ = b 0 (T). Diese Verschiebung des Ursprungs beeinflußt natürlich nicht die Steigung ai der Trendgeraden. Die Schreibweise b 0 (T) soll verdeutlichen, daß b 0 (T) nicht wie a 0 konstant, sondern vom variablen Zeitendpunkt T abhängt. Im folgenden bezeichnen b 0 (T), äi(T) und ST(T) die Schätzungen von b 0 (T), des Trendparameters a,(T) bzw. des Saisonparameters ST(T) für den Zeitpunkt T; SJ(T—L) ist die Schätzung von s-J-, berechnet eine Saison (z.B. ein Jahr), d.h. L Zeitabschnitte früher. Die Schätzungen b 0 (T), ä 1 (T) und s t ( T ) , die - wie wir sehen werden - in die Formel für den zu prognostizierenden Zeitreihenwert eingehen, sind nach Beobachten von y t wie folgt zu berechnen: (a) b 0 (T) = a [ y T - s T ( T - L ) ] + ( 1 - a ) [ b 0 ( T - l ) + S , ( T - 1 ) ] , wobei a , 0 < a < 1, eine geeignete Gewichtungskonstante ist. Die Subtraktion des Ausdrucks ST(T—L) von y T bewirkt eine Elimination des Saison/N
einflusses von y x , so daß b 0 (T) nur noch auf der Schätzung der absoluten Komponente und des Trendparameters zum vorangegangenen Zeitpunkt T — 1 basiert. In die Berechnung von b 0 (T) geht nicht S T (T), sondern SX(T—L) ein, weil s j ( T ) bei diesem Stand der Berechnungen noch unbekannt ist. (b) a , ( T ) = ß [ b o ( T ) - b o ( T - l ) ] + ( l - Ö S 1 ( T - l ) , wobei ß,0