182 55 86MB
German Pages 300 Year 2000
Managementwissen für Studium und Praxis Herausgegeben von
Professor Dr. Dietmar Dorn und Professor Dr. Rainer Fischbach Bisher erschienene Werke: Behrens • Kirspel, Grundlagen der Volkswirtschaftslehre Bichler • Dörr, Personalwirtschaft Einführung mit Beispielen aus SAP® R/3® HR® Blum, Grundzüge anwendungsorientierter Organisationslehre Bontrup, Volkswirtschaftslehre Bontrup, Lohn und Gewinn Bradtke, Mathematische Grundlagen für Ökonomen Bradtke, Statistische Grundlagen für Ökonomen Busse, Betriebliche Finanzwirtschaft, 4. Auflage Clausius, Betriebswirtschaftslehre I Clausius, Betriebswirtschaftslehre II Dorn • Fischbach, Volkswirtschaftslehre II, 3. Auflage Ellinghaus, Werbewirkung und Markterfolg Fank, Informationsmanagement Fank • Schildhauer • Klotz, Informationsmanagement: Umfeld - Fallbeispiele Fiedler, Einführung in das Controlling Fischbach, Volkswirtschaftslehre I, 10. Auflage Frodl, Dienstleistungslogistik Haas, Marketing mit EXCEL, 2. Auflage Hardt, Kostenmanagement Heine • Herr, Volkswirtschaftslehre Hofmann, Globale Informationswirtschaft Hoppen, Vertriebsmanagement Koch, Marketing Koch, Marktforschung, 2. Auflage Koch, Gesundheitsökonomie: Kosten- und Leistungsrechnung Krech, Grundriß der strategischen Unternehmensplanung Kreis, Betriebswirtschaftslehre, Band I, 5. Auflage Kreis, Betriebswirtschaftslehre, Band II, 5. Auflage Kreis, Betriebswirtschaftslehre, Band III, S.Auflage
Lebefromm, Controlling - Einführung mit Beispielen aus SAP® R/3®, 2. Auflage Lebefromm, Produktionsmanagement Einführung mit Beispielen aus SAP® R/3®, 4. Auflage Martens, Statistische Datenanalyse mit SPSS für Windows Mensch, Kosten-Controlling Olivier, Windows-C - Betriebswirtschaftliche Programmierung für Windows Peto, Einführung in das volkswirtschaftliche Rechnungswesen, 5. Auflage Piontek, Controlling Piontek, Beschaffungscontrolling, 2. Auflage Piontek, Global Sourcing Posluschny, Kostenrechnung für die Gastronomie Posluschny • von Schorlemer, Erfolgreiche Existenzgründungen in der Praxis Reiter • Matthäus, Marktforschung und Datenanalyse mit EXCEL, 2. Auflage Reiter • Matthäus, Marketing-Management mit EXCEL Rudolph, Tourismus-Betriebswirtschaftslehre Rüth, Kostenrechnung, Band I Sauerbier, Statistik für Wirtschaftswissenschaftler Schaal, Geldtheorie und Geldpolitik, 4. Auflage Scharnbacher • Kiefer, Kundenzufriedenheit, 2. Auflage Schuchmann • Sanns, Datenmanagement mit MS ACCESS Schuster, Kommunale Kosten- und Leistungsrechnung Stahl, Internationaler Einsatz von Führungskräften Steger, Kosten- und Leistungsrechnung, 2. Auflage Stock, Informationswirtschaft Weindl • Woyke, Europäische Union, 4. Auflage Zwerenz, Statistik
Marktforschung und Datenanalyse mit EXCEL Moderne Software zur professionellen Datenanalyse Mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben Buch mit Diskette Von
Dr. Gerhard Reiter Dr. Wolf-Gert Matthäus
2., unwesentlich veränderte Auflage
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Marktforschung und Datenanalyse mit EXCEL : moderne Software zur professionellen Datenanalyse ; mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben / von Gerhard Reiter ; Wolf-Gert Matthäus. - 2., unwes. veränd. Aufl. München ; Wien : Oldenbourg. (Managementwissen für Studium und Praxis) ISBN 3-486-25394-8 NE: Reiter, Gerhard; Matthäus, Wolf-Gert Buch. - 2000 Marktforschung und Datenanalyse mit EXCEL : moderne Software zur professionellen Datenanalyse ; mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben / von Gerhard Reiter ; Wolf-Gert Matthäus. - 2., unwes. veränd. Aufl. München ; Wien : Oldenbourg. (Managementwissen fÜrStudium und Praxis) ISBN 3-486-25394-8 NE: Reiter, Gerhard; Matthäus, Wolf-Gert Diskette. - 2000
© 2000 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Druck: R. Oldenbourg Graphische Betriebe Druckerei GmbH ISBN 3-486-25394-8
VORWORT ZUR ZWEITEN AUFLAGE Das vorliegende Werk wurde in der zweiten Auflage inhaltlich nicht verändert, da sich das formale u n d didaktische Konzept in der bestehenden Form bewährt hat. Geringfügige Veränderungen könnten sich für Leser u n d Anwender d a n n ergeben, wenn anstelle der von u n s verwendeten Excel-Version 5.0 mit der neueren Version Excel 97 gearbeitet wird. Dabei werden aber die Anwendungen n u r erleichtert, durch
beispielsweise
den verbesserten Diagramm-Assistenten: Der Diagramm-Assistent von Excel 97 beinhaltet zusätzliche Optionen und neue Diagrammtypen (Blasen-, Kreis-aus-Kreis- und Balken-aus-Kreis-Diagramme; Pyramide, Kegel und Zylinder für 3D-Balken und 3D-Säulendiagramme) den erweiterten Zeilenbereich: Excel 97 ermöglicht 65.536 Zeilen pro Tabellenblatt. Der Spaltenbereich von 256 Spalten wurde beibehalten. Damit können noch umfangreichere Datenbestände gespeichert und bearbeitet werden. neue Funktionen: Excel 97 bietet z.B. mit MAXA, MINA Funktionen zur Datenanalyse an, die die Berechnung von Zellen, die Text enthalten, mit einschließen. Wer sich über weitere Excel-Anwendungen in der Marktforschung u n d im Marketing informieren möchte (z.B. Trendberechnung, Exponentielles Glätten, Multiple Regression, Zeitreihenanalyse, t-Test, F-Test etc.) sei auf das Buch „Marketing-Management mit Excel" verwiesen, das von den selben Autoren verfaßt wurde (Oldenbourg Verlag). Gerhard Reiter und Wolf-Gert Matthäus
VORWORT ZUR ERSTEN AUFLAGE Mit dem vorliegenden Buch haben wir das Ziel verfolgt, auf möglichst anschauliche u n d praxisbezogene Weise den Leser in die mit der Marktforschung u n d insbesondere in die mit der Datenanalyse verbundenen Probleme einzuführen. Wir stellen hierzu einen praktischen Fall - eine Fragebogenaktion - in den Mittelpunkt der Ausführungen.
6
Vorwort
Durch diese Vorgehensweise wollen wir den Nutzer dazu anregen, sich tatsächlich - und nicht nur theoretisch - mit einer Marktforschungsuntersuchung auseinanderzusetzen. Dies können Untersuchungen im Betrieb oder für Diplom- und Doktorarbeiten sein. Die in diesem Buch vorgestellten Arbeitsschritte werden sich in gleicher Weise bei jeder anderen Marktforschungsuntersuchung auch stellen. Einen starken Praxisbezug versuchten wir durch die Wahl von EXCEL als Hilfsmittel bei der Datenanalyse zu gewährleisten. EXCEL gehört inzwischen zu den verbreitetsten Softwarepaketen, die in Unternehmen und in Universitäten eingesetzt und angeboten werden. Dabei werden in der praktischen Anwendung aus unserer Sicht die Möglichkeiten der Datenanalyse mit Hilfe von EXCEL bisher nicht ausreichend berücksichtigt. Die Beschränkung auf das Thema der Datenanalyse begründet sich darin, daß dieses Themengebiet alleine schon so umfangreich ist, daß es ein eigenes Lehrbuch (nämlich das vorliegende) zu füllen vermag. Zusätzlicher Lehrstoff hätte das Volumen des vorliegenden Buches unnötigerweise überfordert. Ein weiterer Grund für die Beschränkung auf das Thema Datenanalyse ist darin zu sehen, daß das Programmpaket EXCEL für diesen Themenschwerpunkt spezifische Anwendungsmöglichkeiten bereitstellt, die wir in aller Ausführlichkeit darstellen wollen. Obwohl wir annehmen können, daß viele Leser bereits Erfahrungen mit EXCEL besitzen, haben wir bei unseren Ausführungen darauf Wert gelegt, dem Anfänger und dem Fortgeschrittenen den Einstieg in die Benutzung von EXCEL gleichermaßen leicht zu machen. Wir hoffen, daß das vorliegende Lehrbuch bei Praktikern im Unternehmen und bei Lehrenden und Studenten an Universitäten und Fachhochschulen gleichermaßen Anklang findet. Gerhard Reiter und Wolf-Gert Matthäus
INHALTSVERZEICHNIS Einleitung
15
Kapitel 1: Der Forschungsprozeß
17
1.1. 1.1.1. 1.1.1.1. 1.1.1.2. 1.1.1.3.
Problemdefinition Wissenschaftliche Problemdefinition Kausale Untersuchungen Deskriptive Untersuchungen Explorative Untersuchungen
17 17 17 19 20
1.1.2.
Praxisbezogene Problemdefinition
22
1.2. 1.2.1. 1.2.2. 1.2.3.
Informationsquellen Primär- und Sekundärforschung Vor- und Nachteile der Sekundärforschung Standardisierte Marktinformationsdienste
26 26 29 30
1.3. 1.3.1. 1.3.2.
Wahl des Forschungsdesigns Arten der Befragung Der Fragebogen
32 33 36
1.4. 1.4.1. 1.4.2. 1.4.3. 1.4.3.1. 1.4.3.2.
Operationalisierung und Messung Operationalisierung Das Meßniveau von Daten Skalen und Skalierungsverfahren Rating-Skalen Das Semantische Differential
39 39 41 45 47 52
8
Inhaltsverzeichnis
1.5.
Auswahl verfahren
54
1.5.1. 1.5.2. 1.5.3. 1.5.3.1. 1.5.3.2. 1.5.3.3. 1.5.3.4.
Voll- oder Teilerhebung? Vollerhebung Teilerhebungen Grundsätze Teilerhebungen ohne Zufallsprinzip Teilerhebungen nach dem Zufallsprinzip Stichprobengröße und statistischer Fehler
54 55 55 55 57 60 63
1.6. 1.6.1. 1.6.2. 1.6.3.
Durchführung und Überwachung der Datenerhebung ..66 Vorbereitung der Datenerhebung 66 Durchführung der Datenerhebung 67 Kontrolle und Überwachung der Erhebung 68
1.7. 1.7.1. 1.7.2. 1.7.3.
Datenerfassung und Datenanalyse Univariate, bivariate und multivariate Datenanalyse Deskriptive und induktive Datenanalyse Dependenz- und Interdependenzanalyse
70 70 72 73
1.8.
Präsentation der Ergebnisse
74
Kapitel 2: Codierung der Daten 2.1.
2.2. 2.2.1. 2.2.2. 2.2.3.
Vorstellung des Anwendungsbeispiels "Deutsche Touristen in Istanbul" Grundsätze der Codierung Begriffliche Grundlagen: Datenmatrix, Variable, Merkmalsausprägung Codierungsgrundsätze Der Codeplan
77 77 81 81 87 90
Inhaltsverzeichnis
9
Kapitel 3: Datenerfassung und Datenaufbereitung mit EXCEL 5.0
93
3.1. 3.1.1. 3.1.2.
Kurzeinführung in EXCEL 5.0 Begriffe Bedienung von EXCEL 5.0
93 93 97
3.2. 3.2.1. 3.2.2. 3.2.3.
Erfassung der Daten mit EXCEL 5.0 Vorbereitung des Tabellenblattes Dateneingabe Datensicherung
106 106 113 114
3.3.
Überprüfung der Daten auf Eingabefehler
115
3.4.
Gewichtung des Datensatzes
116
3.5.
Herstellung von Untergruppen
11 7
Kapitel 4: Univariate Datenanalyse
121
4.1. 4.1.1. 4.1.2. 4.1.3. 4.1.4.
Allgemeines Das Beispiel "Touristenbefragung Ostern 1995" Grundaufgaben der univariaten Datenanalyse Zusatzaufgabe der univariaten Datenanalyse Übersicht über weitere Aufgaben
121 121 125 126 127
4.2.
Tabellarische Darstellungen (Häufigkeitstabellen)
128
4.3.
Grafische Darstellungen (Histogramme)
132
Inhal tsverzei chni s
10 4.4. 4.4.1. 4.4.2. 4.4.3. 4.4.4.
Statistische Kenngrößen der univariaten Datenanalyse Allgemeines Lageparameter Streuungsparameter Formparameter
133 133 133 139 141
4.5. 4.5.1. 4.5.1.1. 4.5.1.2. 4.5.1.3. 4.5.1.4. 4.5.1.5.
EXCEL 5.0 und die Lösung der Grundaufgaben Niveaustufen der Arbeit mit Excel 5.0 Übersicht Formeln in EXCEL 5.0 Funktionen in EXCEL 5.0 Der Statistik-Werkzeugkasten von EXCEL 5.0 Die Assistenten von EXCEL 5.0
142 142 142 142 148 152 155
4.5.2. 4.5.3. 4.5.4. 4.5.5. 4.5.5.1. 4.5.5.2.
Ermittlung von Häufigkeitstabellen Ermittlung von stat istischen Kenngrößen Ermittlung von Histogrammen Weitere grafische Darstellungen univariater Daten Übersicht Grafische Darstellungen mit EXCEL 5.0
155 161 164 166 166 167
4.5.6.
Gewinnung von Übersicht in großen Datenbeständen
178
Kapitel 5: Bivariate Datenanalyse
191
5.1. 5.1.1. 5.1.2. 5.1.3.
191 191 194 195
Allgemeines Das Beispiel "Touristenbefragung Ostern 1995" Grundaufgaben der bivariaten Datenanalyse Weitere Aufgaben der bivariaten Datenanalyse
Inhaltsverzeichnis
11
5.2. 5.2.1. 5.2.2. 5.2.3.
Kreuztabellen und die Zahl CHI-Quadrat Allgemeines Klassenbildung Die Zahl CHI-Quadrat
198 198 199 200
5.3. 5.3.1. 5.3.2.
Weitere statistische Kenngrößen Der Korrelationskoeffizient von Bravais-Pearson Regressionsparameter und Bestimmtheitsmaß
201 201 205
5.4. 5.4.1. 5.4.1.1. 5.4.1.2. 5.4.1.3.
EXCEL 5.0 und die bivariate Datenanalyse Übersicht Funktionen Werkzeuge Assistenten
207 207 207 208 208
5.4.2. 5.4.2.1.
208
5.4.2.2. 5.4.2.3. 5.4.2.4.
Erzeugung von Kreuztabellen Notwendige Vorbemerkung zum Pivot-TabellenAssistenten Kreuztabellen mit dem Pivot-Tabellen-Assistenten Kreuztabellen für drei Variablen Kreuztabellen und Klassenbildung
208 211 221 224
5.4.3. 5.4.4.
Korrelation Regression
227 230
Kapitel 6: Induktive Datenanalyse
235
6.1. 6.1.1. 6.1.2. 6.1.3. 6.1.3.1. 6.1.3.2. 6.1.3.3.
Grundlagen Keine Hypothese ohne Gegenhypothese Keine Entscheidung ohne möglichen Fehler Keine Subjektivität bei der Entscheidung Allgemeines Methode I: Prüfgröße und kritische Werte Methode 2: Überschreitungswahrscheinlichkeit
235 235 237 239 239 240 241
6.1.4.
Entscheidungsregeln
241
Inhaltsverzeichnis
12
6.2.
EXCEL 5.0 und die induktive Datenanalyse
242
6.3. 6.3.1. 6.3.2. 6.3.3. 6.3.3.1. 6.3.3.2.
Der einfache t-Test der univariaten Datenanalyse Problemstellung Rechnung Entscheidungen Entscheidungen mit der Prüfgröße Entscheidungen mit der Überschreitungswahrscheinlichkeit
243 243 244 245 245 245
6.3.4.
Rechnung mit EXCEL
246
6.4.
Der CHI-Quadrat-Anpassungstest der univariaten Datenanalyse Problemstellung Rechnung mit EXCEL
248 248 250
6.4.1. 6.4.2. 6.5. 6.5.1. 6.5.2. 6.5.3. 6.5.3.1. 6.5.3.2.
Der doppelte t-Test der bivariaten Datenanalyse Problemstellung Rechnung Entscheidungen Entscheidungen mit der Prüfgröße Entscheidungen mit der Uberschreitungswahrscheinlichkeit
252 252 252 253 253
6.5.4.
Rechnung mit EXCEL
255
6.6. 6.6.1. 6.6.2.
Der CHI-Quadrat-Unabhängigkeitstest Problemstellung Rechnung mit EXCEL
257 257 258
254
Inhaltsverzeichnis
13
Kapitel 7: Präsentation der Ergebnisse
265
7.1.
A b f a s s u n g e i n e s Marktforschungsberichts
265
7.2.
G r a f i s c h e u n d tabellarische D a r s t e l l u n g der Ergebnisse
266
7.2.1.
Grafische Darstellungsmöglichkeiten
266
7.2.2.
Das Auswahlmodell von Zelazny
268
7.2.3.
Persönliche Präsentation
271
Anhang A:
Statistische Kenngrößen der "Touristenbefragung Ostern 1995"
273
Anhang B:
Schnellwahl-Tastenkombinationen
280
Anhang C:
Hinweise und Lösungen zu den
Computer-Übungen 1 bis 23
282
Literaturverzeichnis
297
Stichwortverzeichnis
299
EINLEITUNG: Marktforschung und Datenanalyse Marktforschungsstudien werden nicht an einem Stück und nicht an einem Tag erledigt. Sie erstrecken sich für gewöhnlich über einen längeren Zeitraum und setzen sich aus verschiedenen Teilaufgaben zusammen. Aus Gründen der Übersichtlichkeit ist es vorteilhaft, einzelne Arbeitsschritte zusammenzufassen und die Arbeitsschritte in einer zeitlichen Abfolge abzuarbeiten. Der sich so ergebende Forschungsprozeß läßt sich als ein Phasenmodell mit mehreren hintereinanderfolgenden Phasen darstellen. Die Phasen vereinen jeweils einzelne Arbeitsschritte in sich und können noch weiter in Teilschritte untergliedert werden. Die Abgrenzung der einzelnen Phasen dient zur Strukturierung der Teilaufgaben, die mit einer Marktforschungsstudie verbunden sind. Das nachfolgend beschriebene Phasenmodell legt auch die Grundstruktur für die Gliederung des vorliegenden Lehrbuchs fest. Die einzelnen Phasen müssen nicht immer in der beschriebenen Reihenfolge durchschritten werden. Je nach Aufgabenstellung können einzelne Phasen übersprungen werden. Wir legen hier ein Modell mit acht nacheinander folgenden Stufen zugrunde. Die Strukturierung des Marktforschungsprozesses anhand eines Phasenmodells hat auch in zahlreichen anderen Lehrbüchern Eingang gefunden, wobei die Anzahl der Phasen unterschiedlich ist. Man findet Modelle mit nur fünf (vgl. Nieschlag/Dichtl/Hörschgen 1985, S. 634), sechs (vgl. Weis/Steinmetz 1991, S. 25) oder sieben Phasen (vgl. Böhler 1992, S. 24) aber auch mit acht (vgl. Hammann/Erichson 1990, S. 55) und neun Phasen (vgl. Schnell^/Hill/Esser 1995, S. 7 ff.). Die acht Phasen können Abbildung 1 entnommen werden.
Einleitung
16
Phase 1 :
Problemdefinition
Phase 2:
Informa tionsquellen
Phase 3:
Wahl des Forschungsdesigns
Phase 4:
Operationalisierung und Messung
Phase 5:
A us wahlverfahren
Phase 6:
Phase 7:
Phase 8:
Durchführung und Überwachung der
Datenerfassung
und
Datenerhebung
Datenanalyse
Präsentation der Ergebnisse
Abb. 1: Phasen des Forschungsprozesses
In diesem Lehrbuch werden nicht alle Phasen gleichberechtigt behandelt und vorgestellt. Wir legen vielmehr den Schwerpunkt auf die Analyse von Marktforschungsdaten, die im Phasenmodell in Phase 7 abgehandelt wird. Die anderen Teilschritte werden im nachfolgenden Kapitel 1 übersichtsartig vorgestellt, um den Gesamtzusammenhang des Forschungsprozesses sichtbar zu machen. Wer sich für die einzelnen Arbeitsschritte näher interessiert bzw. sich darüber informieren möchte, sei auf die angegebene Literatur verwiesen und wird sicherlich in jedem Standard-Lehrbuch zur Marktforschung entsprechende Angaben finden.
Kapitel 1: Der Forschungsprozeß 1.1. Problemdefinition Der Forschungsprozeß beginnt mit einer möglichst genauen Problembestimmung. Dies ist schon allein deshalb eine sehr wichtige Aufgabe, der größte Aufmerksamkeit zu widmen ist, weil alle danach folgenden Arbeitsschritte darauf aufbauen. Fehler, die bei der Definition des Forschungsproblems gemacht werden, lassen sich nur sehr schwer nachträglich korrigieren! Da sich zwischen Wissenschaft und Praxis eine unterschiedliche Vorgehensweise bei der Problemdefinition eingebürgert hat, sollen diese beiden Bereiche nachfolgend getrennt behandelt werden. 1.1.1. Wissenschaftliche Problemdefinition Innerhalb der wissenschaftlichen Problemdefinition können drei verschiedene Aufgabenstellungen unterschieden werden, nach denen sich Marktforschungs-Untersuchungen einteilen lassen (vgl. Nieschlag/ Dichtl/Hörschgen 1985, S. 621; Green/Tull 1982, S. 62 ff.): • kausale Untersuchungen, • deskriptive Untersuchungen, • explorative Untersuchungen. Im folgenden sollen die einzelnen Ansätze kurz vorgestellt werden. 1.1.1.1. Kausale Untersuchungen Im Rahmen kausaler Untersuchungen dienen Marktforschungsstudien der Erklärung der Realität und damit der Verbesserung der Aussagekraft von wissenschaftlichen Theorien.
18
Kapitel 1: Der Forschungsprozeß
Ausgangspunkt kausaler Studien ist => entweder eine neue oder bestehende Theorie, die überprüft werden soll, oder aber => ein reales Problem, das mit Hilfe einer Theorie erklärt werden soll. Wichtigstes Ziel kausaler Studien ist es, zu verläßlichen Erklärungen der beobachteten Phänomene zu gelangen. Zur Erldärung des Problems werden verschiedene sogenannte Hypothesen aufgestellt. Hypothesen sind mögliche Antworten auf ein Forschungsproblem. An Hypothesen sind, sollen sie wissenschaftlichen Ansprüchen genügen, strenge inhaltliche und formale Kriterien zu richten (vgl. Schnell/ Hill/Esser 1995, S. 51 ff.). Anforderungen an wissenschaftliche Hypothesen: • Hypothesen müssen sich empirisch messen lassen. • Hypothesen müssen sich widerlegen lassen. • Hypothesen sollen eine allgemeine Gültigkeit aufweisen. • Hypothesen müssen einen "Wenn, dann"-Charakter aufweisen. Im Anschluß an die Hypothesenformulierung und -operationalisierung erfolgt die Datensammlung. Es schließt sich daran der Vergleich der Ergebnisse mit den aufgestellten Hypothesen an, die dann entweder bestätigt oder verworfen werden können. Nach strenger wissenschaftlicher Interpretation gibt es allerdings keine Möglichkeiten, Hypothesen endgültig zu bestätigen. Letzlich gelingt es nur, sie mangels gegenteiliger Beweise nicht zu verwerfen ("Falsifikationsprinzip").
1.1. Problemdefinition
19
"Gesetze können somit niemals verifiziert, sondern bestenfalls vorläufig bestätigt werden." (Schnell/Hill/Esser 1995, S. 58). Der Vorgang der Formulierung und der Überprüfung empirischer Hypothesen wird damit zum Motor der Gewinnung wissenschaftlicher Erkenntnisse. Beispiel für kausale Studien: Betrachten wir den Zusammenhang zwischen Aktivierungspotential einer Anzeige und der Erinnerungsquote an die Anzeige. Haben Anzeigen mit hohem Aktivierungspotential auch eine höhere Erinnerungsquote? Eührt eine Verdoppelung des Aktivierungspotentials auch zu einer Verdoppelung der Erinnerungsquote? Kausale Studien beziehen sich häufig auf Daten, die in Experimenten oder quasi-experimentellen Versuchsanordnungen gewonnen werden, und die dann mittels statistischer Analysen (z. B. Korrelations- und Regressionsanalyse, Pfadanalyse) und spezieller statistischer Tests überprüft werden (z. B. t-Test, z-Test). Allerdings wird von den strengen Anforderungen an wissenschaftliche Erkenntnisgewinnung häufig abgewichen. Oftmals ist es zum einen nicht möglich, die strengen Anforderungen an wissenschaftliche Hypothesenformulierung zu erfüllen, zum anderen sind zahlreiche Phänomene der Realität nicht durch das Falsifikationsprinzip zu erklären. Man unterscheidet deshalb weniger strenge wissenschaftliche Vorgehensweisen, wie die deskriptiven und die explorativen Untersuchungen.
1.1.1.2. Deskriptive Untersuchungen Nahezu die meisten der durchgeführten wissenschaftlichen und praktischen Untersuchungen lassen sich dieser Kategorie zuordnen.
Die Aufgabe deskriptiver Studien besteht in der möglichst genauen Erfassung und Beschreibung problemrelevanter Sachverhalte.
20
Kapitel 1 : Der Forschungsprozeß
Deskriptive Studien dienen folgenden Zielen (vgl. Böhler 1992, S. 31): • Beschreibung von Markttatbeständen (z.B. Häufigkeiten), • Ermittlung der Zusammenhänge zwischen Variablen (z.B. Korrelationen), • Prognose von Entwicklungen. Deskriptive Studien folgen - im Gegensatz zu den nachfolgend beschriebenen explorativen Studien - einem genau vorgegebenen Forschungsziel. Sie bauen auf dem Prinzip der Wahrscheinlichkeitstheorie auf und versuchen, Rückschlüsse über die Verteilung von Merkmalen in der Grundgesamtheit zu ziehen. Bei deskriptiven Studien steht weniger die Erklärung als vielmehr die umfassende Beschreibung der Realität im Vordergrund. Beispiele für deskriptive
Studien:
Die Ermittlung von soziodemographischen und psychographischen Käuferin erkmalen. Die Bestimmung
von
Marktanteilen.
Zu den wichtigsten Forschungsmethoden gehören Querschnitts- und Längsschnittsuntersuchungen. Die Ergebnisse von deskriptiven Studien erheben keine universelle Gültigkeit; ihre Gültigkeit bezieht sich auf bestimmte eingeschränkte räumliche und zeitliche Gegebenheiten.
1.1.1.3. Explorative Untersuchungen Die explorative Forschung hat nicht die Uberprüfung kausaler Hypothesen zum Ziel, sondern dient der Gewinnung von Hypothesen. Dies ist insbesondere dann eine sinnvolle Vorgehensweise, wenn über ein Forschungsgebiet noch wenig bekannt ist und wissenschaftliches Neuland betreten wird.
21
1.1. Problemdefinition
Explorative Untersuchungen dienen einer ersten Aufhellung und Strukturierung des interessierenden Problemfeldes. Die Forschungsziele der explorativen Forschung sind deshalb (vgl. Böhler 1992, S. 30): • Präzisierung von Marktforschungsproblemen (Hypothesenfindung), • Prioritätensetzung bei der Projektauswahl, • Gewinnung von Anhaltspunkten für die Projektabwicklung. Im Rahmen explorativer Studien steht die unstrukturierte Suche nach Zusammenhängen in den Daten im Vordergrund. Es wurden für diese Vorgehensweise des unstrukturierten Suchens einige Forschungstechniken entwickelt, die unter dem Stichwort "explorative Datenanalyse" (vgl. Reiter/Zeiger 1990, S. 129 ff.) diskutiert werden. Beispiele fiir explorative
Studien:
llxpertenbefragungen, Sekundäranalyse
(vgl. Kap.
1.2.),
Gruppendiskussionen, Fallstudien, Simulation.
Kausale, deskriptive und explorative Untersuchungsansätze müssen sich nicht gegenseitig ausschließen. Sie können sich sinnvoll ergänzen, indem beispielsweise explorative Studien im Vorfeld der kausalen und deskriptiven Untersuchungen durchgeführt werden. Ebenso können deskriptive Studien die Grundlage für kausale Studien bilden (über die Zusammenhänge vgl. Nieschlag^Dichtl/Hörschgen 1985, S. 623).
22
Kapitel 1: Der Forschungsprozeß
1.1.2. Praxisbezogene Problemdefinition Sieht sich ein Unternehmen mit einem Marktforschungsproblem konfrontiert, dann wird man sich zunächst die Frage stellen, ob man das Forschungsproblem => selbst lösen kann (Eigenforschung) oder ob man =^>ein externes Institut dafür zu Rate ziehen soll (Institutsforschung). Für die Vergabe von Marktforschungsaufträgen an externe Institute sprechen einige gewichtige Argumente (vgl. auch Berekoven u.a. 1989, S. 37; Meffert 1986, S. 142): • Institute verfügen i.d.R. über bessere Methodenkenntnisse. • Institute verfügen i.d.R. über eine bessere technische Ausstattung. • Institute verfügen meist über einen erfahrenen Interviewerstab. • Institute verfügen über mehr Objektivität hinsichtlich des Forschungsproblems. Allerdings muß man dann auch einige Nachteile in Kauf nehmen. Hier sind zu nennen: • Es entsteht ein Abhängigkeitsverhältnis zum Institut. • Es bedarf eines hohen Kommunikations- und Koordinationsaufwands. • Es entstehen zusätzliche Kosten. • Die Vertraulichkeit der Ergebnisse ist nicht mehr zu 100% sichergestellt.
1.1. Problemdefinition
23
Vor der Entscheidung über die Vergabe von Aufträgen ist auch daran zu denken, ob betriebsintern geschultes Personal in ausreichendem Umfang vorhanden ist, um das Forschungsproblem lösen zu können. Die Entscheidung über Eigen- bzw. Institutsforschung wird aber auch vom Umfang des Forschungsproblems und der Häufigkeit seines Auftretens abhängen. W e n n man sich dazu entschließt, mit einem externen Institut zusammenzuarbeiten stellt sich das Problem der Auswahl eines geeigneten
Kooperationspartners.
Diese Auswahl kann anhand folgender Kriterien vorgenommen werden: • Erfahrungen bzw. Spezialisierung des Instituts mit bestimmten Märkten oder Techniken (z.B. Pharmaforschung, Auslandsmarktforschung), • Personelle und sachliche Aussattung (Interviewerstab; etc.),
Projektleiter
• Erfahrungen in der bisherigen Zusammenarbeit, • Qualität und Kosten des schriftlichen Angebots. Mit Hilfe von Punktbewertungsverfahren (vgl. Weis 1 9 8 7 , S. 158) lassen sich mehrere Institute bzw. Angebote einer objektiven Bewertung unterziehen. Gegenüber der wissenschaftlichen Problemdefinition ist man in der Praxis in der Regel freier gestellt hinsichtlich des methodischen Vorgehens.
Dennoch ist es auch hier unabdingbar, das Forschungsproblem genau zu erfassen. W e n n es sich um auftragsbezogene Forschung handelt, ist man dem Auftraggeber auf Erfüllung des Vertrags verpflichtet. Um Unsicherheiten hinsichtlich des Ziels und des Umfangs der Marktforschungsuntersuchung von vornherein zu vermeiden, ist es notwendig, sich auf ein schriftliches Angebot zu verständigen. Im Angebot werden alle Leistungen des Auftragnehmers genau beschrieben sowie ein Zeit- und Kostenplan vereinbart.
24
Kapitel 1: Der Forschungsprozeß
Eine Präzisierung des Forschungsproblems ist aber nicht nur aus rechtlicher Sicht zu empfehlen; oftmals werden sich Auftraggeber und Auftragnehmer erst dann über das tatsächliche Ziel der Untersuchung klar, wenn sie gemeinsam versuchen, es präzise zu beschreiben. Beispiel für die Herausarbeitung der Problem deßnition: Bei der ersten Kontaktaufnahme mit einem Mark forscher bzw. einem Mark forschungsinstitut besitzt der Auftraggeber in vielen Fällen nur eine sehr vage Vorstellung über Umfang und Struktur des Problems (z.B. "Unsere Umsätze gehen zurück. Was sollen wir tun ?"). Unter Umständen stellt sich im Prozeß der Problemformulierung heraus, daß das beschriebene Problem im Rahmen der Mark forschung nicht gelöst werden kann. Dies könnte dann der Fall sein, wenn z.B. der Rückgang der Umsätze durch personalpolitische Faktoren, wie z.B. geringe Bezahlung und schlechte Schulung des Außendienstes, begründet liegt etc. Andererseits ist es aber auch denkbar, daß das tatsächliche Problem weitaus komplizierter ist als ursprünglich angenommen.
Das schriftliche Angebot sollte möglichst präzise Angaben über die Methode der Datenerhebung und den Umfang der Stichprobe bzw. Anzahl der Erhebungseinheiten beinhalten. Auf diese Weise kann sich der Marktforscher bzw. der Auftragnehmer vor nachträglichen Forderungen, wie zusätzlichen Erhebungen oder weiteren Analyseverfahren etc., schützen bzw. diese gegen Aufpreis dem Auftraggeber nachreichen. Bei praxisbezogenen Problemen, z.B. Marktanteilsbestimmung, Verwendungstest, Werbewirkungsmessung, ist oftmals auch die Unterstützung des Auftraggebers bei der Durchführung der Marktforschungsstudie erforderlich. So muß der Auftraggeber beispielsweise rechtzeitig die zu untersuchenden Werbemittel zur Verfügung stellen oder dem Marktforscher bei der Bestimmung der Konkurrenzunternehmen behilflich sein.
1.1. Problemdefinition
25
Häufig ist auch eine Einführung in die mit der Befragung verbundene Problemstellung (technische Produktmerkmale etc.) erforderlich. Diese Leistungen des Auftraggebers sollten im Rahmen der schriftlichen Angebotserstellung ebenfalls erfaßt werden. Wenn sich Marktforschungsstudien über einen längeren Zeitraum erstrecken, ist der Auftraggeber zumeist daran interessiert, über den laufenden Stand der Untersuchung unterrichtet zu werden. Da die Erstellung von Zwischenberichten mit Zeit und Mühen verbunden ist, sollte auch dieser Sachverhalt in der Angebotserstellung festgehalten werden. Zusammenfassend beinhaltet das schriftliche Angebot folgende Punkte: • Ziele der Untersuchung • Methodisches Vorgehen der Untersuchung • Umfang der Stichprobe bzw. Anzahl der Erhebungseinheiten • Umfang der Auswertung (Datenanalyse) • Zwischenberichterstattung (Zeitpunkt, Umfang) • Art der Ergebnispräsentation (schriftlich, persönlich, tabellarisch etc.) • Leistungen durch den Auftraggeber • Zeitplan • Kostenaufstellung, Zahlungsplan • Ansprechpartner und Betreuer (Projektleiter) der Untersuchung Nachdem man sich mit dem Auftraggeber über diese Punkte geeinigt hat, kann mit der Konzeption und Durchführung der Marktforschungsuntersuchung begonnen werden.
26
Kapitel I: Der Forschungsprozeß
1.2. Informationsquellen 1.2.1. Primär- und Sekundärforschung Nachdem das Marktforschungsproblem ausreichend definiert und geklärt ist, wird es notwendig, sich mit dem Vorgang der Datenbeschaffung zu befassen. Dabei ist zunächst zu ermitteln, welche Datenquellen zur Lösung des Informationsproblems zur Verfügung stehen. Aus Gründen der Zeitersparnis wird man zuerst versuchen, das Informationsproblem mit bereits vorhandenen Daten/Informationen zu lösen. Daten, die bereits zu einem früheren Zeitpunkt und für andere oder ähnliche Zwecke erhoben wurden, nennt man Sekundärdaten. Den Prozeß der Suche und Analyse von Sekundärdaten nennt man Sekundärforschung. Davon zu unterscheiden ist die Primärforschung, die sich auf den Prozeß der Erhebung und Analyse von Daten bezieht, die eigens zur Lösung des Forschungsproblems am Markt erhoben werden. Als Sekundärforschung bezeichnet man die Beschaffung und Auswertung bereits vorhandener Daten, sog. Sekundärdaten, die ursprünglich für andere Zwecke erhoben und gespeichert wurden. Als Primärforschung bezeichnet man die Beschaffung und Auswertung von Daten, die speziell für den jeweiligen Forschungszweck eigens erhoben werden. Die wichtigsten Formen der Datenbeschaffung im Rahmen der Primärforschung sind die Befragung, die Beobachtung und das Experiment. Neben der Unterscheidung zwischen Primär- und Sekundärforschung, die sich auf die Art der Erhebungsmethode bezieht, kann man die Informationsquellen noch nach der Herkunft der Daten in interne und externe Datenquellen unterscheiden (vgl. Berekoven u.a. 1989, S.40ff.).
27
1.2. Informationsquellen
Interne Daten sind solche, die man sich innerhalb des eigenen Unternehmens beschaffen kann, z.B. durch Auswertung der Absatzstatistik, Reklamationsstatistik oder aus internen Informationsdatenbanken. Externe Daten sind solche, die man sich von außerhalb des Unternehmens beschaffen muß, z.B. über andere Marktforschungsinstitute oder externe Statistiken. Bei Zugrundelegung dieser beiden Unterscheidungen ergibt sich folgende Klassifikation: Erhebungsmethoden Sekundärerhebung Infor-
inner-
mations-
betrieb-
quellen
lich
z.B.
0
Absatzstatistik
0
Kosten-
Primärerhebung z.B.
0
dienstes
rechnung 0
Befragung des Außen-
0
Außen-
Befragung der Kundenberater
dienstberichte 0
Reklamationsstatistik
außer-
z.B.
0
betrieblich
Amtliche
z.B.
0
Statistik 0
Verbandsstatistiken
0
Kundenbefragung
0
Händlerbefragung
Verbraucherund Handelspanels
0
Media-Analysen
Abb. 2: Informationsquellen und Erhebungsmethoden
28
Kapitel 1: Der Forschungsprozeß
Sekundärforschung und Primärforschung sollten sich im Rahmen von Marktforschungsstudien sinnvoll ergänzen, um => den Informationsbedarf möglichst umfassend zu befriedigen und => den Beschaffungsaufwand möglichst gering zu halten. Dabei sollte nach dem folgenden Grundsatz verfahren werden: • Erst Sekundärforschung, dann Primärforschung! Die Befolgung dieses Grundsatzes bietet einige Vorteile: Erster Vorteil: Sekundärforschung kann Primärforschung ersetzen! Möglicherweise stellt sich nach Sichtung des vorliegenden Materials heraus, daß das Forschungsproblem durch bereits vorliegende Daten umfassend beantwortet werden kann. Sollte dies der Fall sein, kann man sich weiteres Suchen ersparen und auf aufwendige eigene Datenerhebung verzichten. Zweiter Vorteil: Sekundärforschung hilft bei der Vorbereitung von Primärforschung! Bereits vorliegende Daten und Untersuchungsergebnisse können wertvolle Hinweise bei der Vorbereitung eigener Untersuchungen geben. So lassen sich möglicherweise Fehler vermeiden und bereits bestehende Analyseinstrumente, z.B. Fragebögen, können verbessert oder aktualisiert werden. Dritter Vorteil: Sekundärforschung dient als Ergänzung der Primärforschung! Es ist in jedem Fall wichtig, bestehende Daten und Ergebnisse von Untersuchungen als Vergleichsmöglichkeiten und Ergänzung der eigenen Untersuchungsergebnisse heranzuziehen. Durch den Vergleich mit ähnlichen Untersuchungsergebnissen läßt sich der Wahrheitsgehalt der eigenen Daten besser beurteilen und es können wertvolle Hinweise hinsichtlich der Interpretation der Daten gewonnen werden.
1.2. Informationsquellen
29
1.2.2. Vor- und Nachteile der Sekundärforschung Neben den aufgeführten Punkten gibt es beim Einsatz von Sekundärdaten noch zahlreiche handfeste Vorteile, die die Nutzung dieser Informationsquellen begünstigen (vgl. Böhler 1992, S. 55; Weis/Steinmetz 1991, S. 58; Berekoven u.a. 1989, S. 44 f.): Vorteile der Nutzung von Sekundärdaten: • Sekundärdaten sind i.d.R. schnell und damit kostengünstig erhältlich. • Sekundärinformationen beziehen sich häufig auf Totalerhebungen (z.B. amtliche Statistik). • Sekundärinformationen sind oftmals auch für die Vergangenheit verfügbar (Zeitreihendaten). Wer allerdings schon einmal mit amtlichen Statistiken gearbeitet hat, der weiß, daß damit auch zahlreiche Probleme verbunden sind. Neben dem Problem, die richtigen Daten zu finden und zu verstehen, können sich weitere Schwierigkeiten ergeben. Nachteile bei der Nutzung von Sekundärinformationen: • Die Daten beziehen sich nicht genau auf das jeweilige Forschungsproblem. • Die Daten sind nicht ausreichend aktuell. • Die Daten stehen auch Konkurrenzunternehmen zur Verfügung. • Die Berechnungseinheiten (Meßgrößen, Klassengrößen etc.) sind unterschiedlich. • Die speziellen Nomenklaturen der verschiedenen Statistiken sind unterschiedlich. • Die Validität (Gültigkeit) der Daten läßt sich nicht überprüfen.
30
Kapitel 1: Der Forschungsprozeß
Neben der amtlichen Statistik (Statistisches Bundesamt, Statistische Landesämter etc.) mit ihrem umfangreichen Informationsangebot stehen auch Marktforschungsinstitute, Wirtschaftsverbände, Fachverlage, Zeitschriftenarchive, Nachrichtendienste und Anbieter von Datenbanken und Informationsdiensten als Informationsquellen zur Verfügung (vgl. Böhler 1992, S. 57 ff.; Weis/Steinmetz 1991, S. 60 ff.; Langer/Sand 1983, S. 28 ff.; Hüttner 1989, S. 144 ff.). Für den Neueinsteiger in diese Materie ist der Umgang mit Anbietern von Sekundärdaten mit einiger Einarbeitungszeit verbunden.
1.2.3. Standardisierte Marktinformationsdienste Neben den oben beschriebenen sekundärstatistischen Informationsquellen gibt es noch sogenannte "standardisierte Marktinformationsdienste", die zur Lösung spezieller Probleme im Rahmen der Absatzsteuerung des Unternehmens von externen Dienstleistern angeboten werden. Hierbei sind insbesondere Paneldaten und Daten für die Werbeplanung (Media-Analysen) zu nennen. Die Bedeutung dieser Informationsdienste läßt sich daran ermessen, daß zahlreiche der größten Marktforschungsinstitute sich auf die Bereitstellung diesbezüglicher Daten spezialisiert haben und andererseits bei vielen Konsumgüteranbietern ein Großteil des Marktforschungsetats für die Beschaffung der betreffenden Informationen verwendet wird (vgl. Böhler 1992, S. 59; Hammann/Erichson 1990, S. 133). Ein Panel ist eine Gruppe von Personen, Haushalten oder Betrieben, die sich laufend zum gleichen Thema befragen läßt und auch selbst Aufzeichnungen über das eigene Verhalten vornimmt.
31
1.2. Informationsquellen
Panel
r
C JHandels^ane^^ C Untemehmens^anel^ C Verbraudierganel^ ^^gezialgane^
1
)
Einzel^ f GroßhandelsJiandelsgane^ j)ane^
Jk
Haushai ts^^ane^^
J
1
Individual-
J
Abb. 3: Arten von Panels Die im Rahmen eines Panels erhobenen Daten nennt man dementsprechend Paneldaten. Der besondere Vorteil der Paneldaten liegt darin, daß sich aus den Daten sowohl Querschnittsanalysen (Marktvolumen, Marktanteile, Käufermerkmale) erstellen als auch zeitliche Entwicklungen untersuchen lassen (z.B. Marktanteilsveränderungen, Käuferwanderung, Nachfrageveränderungen) (vgl. Böhler 1992, S. 60 ff.; Weis/Steinmetz 1991, S. 121 ff.; Hammann/Erichson 1990, S. 142 ff.). Einen Überblick über die wichtigsten Panelarten gibt Abbildung 3. Media-Analysen geben Auskunft über die Reichweite und Nutzung (Leser, Hörer, Zuschauer) bestimmter Werbeträger (Zeitungen, Zeitschriften, Fachzeitschriften, Fernsehen, Hörfunk, Kino). Media-Analysen sind wichtige Hilfsmittel bei der Auswahl der Werbeträger durch werbetreibende Unternehmen und bei der Erstellung von Mediaplänen für Werbekampagnen. Für werbetreibende Unternehmen ist es sinnvoll, die Werbebotschaft in denjenigen Medien (Zeitungen, Zeitschriften etc.) zu plazieren, die auch von der potentiellen Zielgruppe, der das Unternehmen seine Produkte und Dienste anbieten möchte, gelesen bzw. benutzt werden.
Kapitel 1: Der Forschungsprozeß
32
Als wichtigste M e d i a - D a t e n werden u.a. folgende Informationen ausgewiesen: •
Nutzer pro Ausgabe bzw. Sendung,
•
Soziodemographische Merkmale der Nutzer,
•
Konsumgewohnheiten der Nutzer,
•
Markenkenntnis der Nutzer.
Media-Analysen werden entweder von den jeweiligen Verlagen, die die entsprechenden Zeitungen und Zeitschriften herausgeben (z.B. Burda Verlag, Spiegel-Verlag, Verlag Gruner Kommunikationsform, nach dem => Standardisierungsgrad und nach der => Anzahl der Teilnehmer unterschieden werden. Unterscheidungskriterium 1: Die Art der Kommunikationsform • persönliche Befragung (face to face, telefonisch), • schriftliche Befragung, • computergestützte Befragung. Mit der Unterscheidung nach der Art der Kommunikationsform (verbal, schriftlich, telefonisch, computerunterstützt) ist das wichtigste Unterscheidungskriterium zur Kennzeichnung von Befragungen genannt. Mit der Zunahme der Telefondichte in einem Land ist es zunehmend möglich, auch telefonische Befragungen zur Informationsgewinnung einzusetzen. Die wesentlichen Vorteile der telefonischen Befragung liegen in der schnellen Durchführbarkeit der Befragung und in den geringen Kosten, die für die Datenerhebung anfallen. Abbildung 4 vermittelt eine Zusammenfassung über die spezifische Eignung von schriftlicher, telefonischer und mündlicher Befragung.
34
Kapitel 1: Der Forschungsprozeß
Befragungsart Kriterien
schriftlich
telefonisch
mündlich
unterschiedlich
hoch
hoch
möglich
nicht möglich
kaum möglich
mittel
kurz
lang
nicht möglich
relativ groß
groß
relativ niedrig
hoch
niedrig
6. Kosten
niedrig
relativ niedrig
hoch
7. Repräsentanz
relativ niedrig
gering
relativ hoch
nicht möglich
möglich
möglich
1. Rücklaufquote 2 . Beeinflussung durch Dritte 3 . Länge des Interviews 4 . Interviewereinfluß 5 . Geschwindigkeit der Durchführung
8. Erklärung der Fragen
Abb. 4: Vergleich von schriftlicher, telefonischer und mündlicher Befragung Neben der Kommunikationsform sind als weitere wichtige Unterscheidungskriterien der Befragung der => Grad der Standardisierung der Befragung sowie die Anzahl der Teilnehmer, die gleichzeitig befragt werden, möglich (für weitere Unterscheidungskriterien vgl. Weis/Steinmetz 1991, S. 71 ff.).
1.3. Wahl des Forschungsdesigns
35
Unterscheidungskriterium 2: Der Standardisierungsgrad • standardisierte Befragung, • teilstandardisierte Befragung, • nichtstandardisierte Befragung. Während die standardisierte Befragung den Vorteil der quantitativen Auswertung der Ergebnisse besitzt und deshalb häufig im Rahmen der Marktforschung Anwendung findet, wird bei der teilstandardisierten Befragung bzw. der nichtstandardisierten Befragung auf diesen Vorzug bewußt verzichtet. Die nichtstandardisierte Befragung wird zumeist im Rahmen von psychologischen oder marktpsychologischen Studien eingesetzt, wo die Gewinnung qualitativer Ergebnisse im Vordergrund steht (vgl. Salcher 1978). Vorteile der standardisierten Befragung: • beste Vergleichbarkeit der Antworten, • gute Möglichkeiten der quantitativen Auswertung, • starke Einschränkung äußerer Verzerrungsfehler (Formulierung etc.), • geringe Anforderungen an den Interviewer.
Probleme der standardisierten Befragung: • geringe Anpassung an die individuelle Interviewsituation, • geringe Erfaßbarkeit qualitativer Bedeutungsunterschiede, • Notwendigkeit der sprachlichen Anpassung an die jeweils sprachlich schwächsten Befragten.
36
Kapitel 1: Der Forschungsprozeß
Unterscheidungskriterium 3: Anzahl der Teilnehmer • Einzelbefragung, • Gruppenbefragung. Einzelbefragungen sind immer dann von Interesse, wenn die Meinungen einzelner Personen erfaßt und nach soziodemographischen Daten ausgewertet werden sollen. Stehen hingegen die Entwicklung neuer Konzepte oder die Gewinnung von neuen Ideen im Vordergrund, dann sollte auf die Methode der Gruppendiskussionen zurückgegriffen werden. Einer Gruppendiskussion liegt zumeist ein geringer Standardisierungsgrad zugrunde (z.B. Themenliste, Interviewleitfaden).
1.3.2. Der Fragebogen Den meisten Befragungen liegt ein Fragebogen zugrunde. Dies gilt im besonderen Maße bei der standardisierten Befragung, wobei der Fragebogen der Standardisierung von Fragen und Aritwortmöglichkeiten dient. Der Gestaltung des Fragebogens kommt im Rahmen von Befragungen eine besondere Bedeutung bei, da der Fragebogen ein zentrales Bindeglied bei der Gewinnung der Informationen vom Befragten darstellt. Dies trifft gleichermaßen für die schriftliche, persönliche und computergestützte Befragung zu. Durch eine überdachte Gestaltung des Fragebogens läßt sich der Ubertragungsfehler (vgl. Böhler 1992, S. 87), der bei der Datengewinnung unvermeidlich ist, möglichst gering halten und die Informationsmenge optimieren. Die höchsten Anforderungen bei der Gestaltung eines Fragebogens sind dann anzulegen, wenn der Fragebogen im Rahmen einer schriftlichen Befragung eingesetzt werden soll.
1.3. Wahl des Forschungsdesigns
37
Schriftliche Befragung bedeutet: Der Befragte soll den Fragebogen, nachdem er die Fragen gelesen hat, selbst ausfüllen. Dabei ist es unerheblich, ob der Fragebogen mit der Post, per Fax oder persönlich zugestellt wird. Leider gibt es kein "Patentrezept" für die "richtige" Gestaltung eines Fragebogens. Fast jede Befragung hat ihr eigenes Befragungsziel und muß deshalb immer wieder neu überdacht werden. Es lassen sich aber aufgrund von Vorüberlegungen und Erfahrungen einige Anhaltspunkte zur "richtigen" Fragebogengestaltung nennen. Folgende Entscheidungstatbestände sollten besonders bedacht werden: • Optische Gestaltung des Fragebogens, • Abfassen des persönlichen Anschreibens bzw. Begleitschreibens, • Thematische Gestaltung des Fragebogens, • Umfang des Fragebogens, • Frageformulierung und Antwortmöglichkeiten. Weiterhin ist es wichtig, auf das "richtige Umfeld" (Zeitpunkt der Befragung, Ansprechpartner, Wahl der Anrede, Begleitschreiben, Motivation zur Teilnahme etc.) bei der Durchführung der Befragung zu achten. Noch ein paar Bemerkungen zum Aufbau eines Fragebogens. Der endgültige Fragebogen ergibt sich nicht durch die ungeordnete Aneinanderreihung der einzelnen Fragen. Neben der Anordnung der Fragen in übersichtliche und sinnvoll logische Themenblöcke sollte der Fragebogen in => vier Fragengruppen geordnet werden: • Einleitungsfragen bzw. "Eisbrecherfragen", •
Sachfragen,
•
Kontrollfragen,
• Fragen zur Person / z u m Unternehmen.
38
Kapitel 1: Der Forschungsprozeß
Einleitungsfragen dienen als Einstieg in das Interview. Sie sollten den Interviewten neugierig auf den weiteren Verlauf des Interviews machen und ihn für die Zusammenarbeit motivieren. Deshalb ist es ratsam, diese Fragen möglichst leicht und allgemein zu gestalten. Jeder Befragte sollte die Einleitungsfragen beantworten können. Sachfragen umfassen den größten Teil des Interviews. Sie beziehen sich auf das eigentliche Thema der Befragung, z.B. Nutzung eines Produktes, Beurteilung einer Werbeanzeige etc. Die Sachfragen sind in Themenblöcke zu ordnen. Kontrollfragen dienen der Kontrolle des Verständnisses durch den Interviewten oder der Kontrolle des Interviewers. Kontrollfragen können sich auf einen Sachverhalt beziehen, der bereits an einer anderen Stelle des Fragebogens abgefragt wurde. Mit Kontrollfragen läßt sich die logische Konsistenz der Antworten überprüfen. Treten bei der Datenanalyse erkennbare Inkonsistenzen auf, sollte der Fragebogen nicht in die Auswertung einbezogen werden. Der Fragebogen schließt mit den Fragen zur Person des Befragten ab. Diese Fragen lassen sich durch einen überleitenden Satz von den anderen Fragen trennen: "Zum Abschluß noch einige Fragen zur Person." Fragen zur Person umfassen z.B. Alter, Geschlecht, Wohnort, Einkommen, Produktbesitz etc. Fragen zum Unternehmen umfassen z.B. Anzahl der Mitarbeiter des Unternehmens, Branche des Unternehmens, Umsatzgrößenklasse, Stellung des Befragten etc. Die Fragen zur Person bzw. zum Unternehmen dienen bei der Datenanalyse zur Abgrenzung von Untergruppen (z.B. männlich, weiblich etc.). Deshalb ist es ratsam, sich bereits bei der Fragebogenkonstruktion über die Ziele der Datenanalyse Gedanken zu machen (Welche Untergruppen sollen getrennt ausgezählt und miteinander verglichen werden?).
1.4. Operationalisierung und Messung
39
1.4. Operationalisierung und Messung 1.4.1. Operationalisierung Die in diesem Abschnitt beschriebenen Überlegungen sind simultan mit den vorhergehenden Überlegungen über die Gestaltung der Befragung zu erfüllen. So trifft das Problem der Formulierung von Fragen und Antworten auf dem Fragebogen unmittelbar zusammen mit dem Problem der Operationalisierung und Messung von Eigenschaften (vgl. Hammann/Erichson 1990, S. 68). Die hier vorgeschlagene Trennung dieser beiden Arbeitsschritte wird nur aus Gründen der Übersichtlichkeit vorgenommen. Der Vorgang der Operationalisierung ist wiederum eng verbunden mit der eingangs beschriebenen Phase der Problemformulierung. Im Rahmen der Operationalisierung gilt es, die bei der Problemformulierung festgelegten Ziele der Untersuchung in konkrete Fragestellungen zu überführen (vgl. Schnell/Hill/Esser 1995, S. 1 19 ff.). Unter Operationalisierung versteht man die begriffliche Erfassung der relevanten Eigenschaften und die Bestimmung der korrespondierenden empirischen Meßgrößen (Indikatoren). Beispiel für
Operationalisierung:
Im Rahmen der nachfolgend vorgestellten Untersuchung "Deutsche Touristen in Istanbul" sollte festgestellt werden, aus welchen Informationsquellen sich die Befragten auf ihren Istanbulurlaub vorbereitet haben. Der Begriff "Informationsquelle" brauchte in diesem Zusammenhang nicht weiter definiert werden, da er unmittelbar verständlich ist. Als empirische Meßgrößen (Indikatoren) wurden den Befragten verschiedene mögliche Informationsquellen vorgegeben, die sie ankreuzen konnten, z.B. Zeitungen, Zeitschriften, Reiseführer, Freunde/Bekannte etc.
Kapitel 1: Der Forschungsprozeß
40
Die Operationalisierung kann sich dann als ein komplizierter Vorgang erweisen, wenn sich hinter dem zu untersuchenden Sachverhalt ein spezielles theoretisches IConstrukt verbirgt. Dies gilt z.B. für bestimmte Begriffe im Rahmen marktpsychologischer Untersuchungen (z.B. "Image", "Risikoverhalten", "Involvement", "Motivation") (vgl. Böhler 1992, S.97f.). Unmittelbar verbunden mit dem Vorgang der Operationalisierung ist der Vorgang der Festlegung der Messung. Unter Messung versteht man das systematische Beobachten von Sachverhalten und das Zuordnen von Symbolen (Zahlen, Zeichen) zu Eigenschaften (vgl. Berekoven u.a. 1989, S. 66; Hüttner 1989,S. 9).
Beispiel für
Messung:
Für die oben erwähnte Operationalisierung der Informationsquellen wurden die Touristen gefragt, ob sie diese Informationsquelle genutzt haben (ja = 1) oder nicht genutzt haben (nein = Leerzeichen). Der Meßvorgang war also in diesem Fall denkbar einfach und umfaßte nur die Antwortalternativen Ja oder Nein.
Unmittelbar mit dem Meßvorgang verbunden sind die Möglichkeiten der Analyse der Daten. So ist es nicht immer sinnvoll, den Meßvorgang möglichst einfach zu gestalten, da der Forscher später bei der Analyse der Daten möglicherweise ungewollte Beschränkungen hinnehmen muß. Das Meßniveau der Daten bestimmt weitestgehend die Möglichkeiten der Datenanalyse. Deshalb sollte bereits bei der Festlegung der Messung über die Möglichkeiten der Datenanalyse nachgedacht werden.
1.4. Operationalisierung und Messung
41
1.4.2. Das Meßniveau von Daten Hinsichtlich der Meßmöglichkeiten unterscheidet man vier Arten von Meßniveaus: • Nominalskalenniveau, • Ordinalskalenniveau, • Intervallskalenniveau, • Ratio- oder Verhältnisskalenniveau. Als Nominalskalierung bezeichnet man die beliebige Zuordnung von Werten zu empirischen Sachverhalten. Die Nominalskalierung ist die einfachste Form der Messung. Den empirischen Sachverhalten werden lediglich einfache Klassen oder Werte zugeordnet. Zwischen der Zuordnung der Werte und den empirischen Sachverhalten besteht keinerlei Zusammenhang. Beispiel für
Nominalskalen:
Es wurde willkürlich festgelegt: männlich = l, weiblich = 2, keine Antwort = 3. Man hätte die Zuordnung auch umgekehrt vornehmen können: männlich = 2, weiblich = 1, keine Antwort — 3. Oder: weiblich = 2, männlich = 3, keine Antwort = I. Dies hätte offensichtlich keinen Einßuß auf das Ergebnis der Datenanalyse gehabt.
Entsprechend beschränkt sind die Auswertungsmöglichkeiten von Daten mit Nominalskalenniveau: Häufigkeitsauszählungen und Bestimmung des Modalwertes (häufigster Wert) sind die einzigen zulässigen Berechnungsmöglichkeiten. Ordinalskalen bringen die Untersuchungsmerkmale hinsichtlich der Merkmalsausprägung in eine steigende oder fallende Rangfolge.
Kapitel 1: Der Forschungsprozeß
42
Zwischen der Zuordnung der Werte und den empirischen Sachverhalten besteht also ein bestimmter Zusammenhang. Da über die Abstände zwischen den einzelnen Abstufungen keine Aussage gemacht wird, dürfen mit Daten auf Ordinalskalenniveau keine Durchschnittswerte berechnet werden. Zulässige Transformationen, zusätzlich zu den beim Nominalskalenniveau genannten, sind: Berechnung von Median, Quantilen und Rangkorrelationskoeffizienten. Beispiel für
Ordinalskalen:
Die Reihenfolge der Markenpräferenz: Marke A vor Marke B und Marke B vor Marke C etc. Die Rangreihe nach Größe: A größer als B, B größer als C etc.
Daten auf Intervallskalenniveau sind den beiden vorgenannten Typen insofern überlegen, als sie sich in einer steigenden oder fallenden Ordnung einfügen und die Abstände zwischen den Einzelwerten genau definiert sind. Beispiel für Intervallskalen: Die Thermometerskalen. Der Intelligenzquotient. Die Schulnoten (Anmerkung: Schulnoten werden manchmal auch als ordinal eingestuft).
Zulässige Transformationen sind in diesen Fällen, in Ergänzung zu den bereits genannten Transformationen, die Berechnung des Mittelwertes, der Standardabweichung, der Schiefe und des Exzess. Damit sind nahezu alle Zusammenhangsmaße berechenbar, die im Rahmen der Marktforschung Anwendung finden (Regression, Korrelation).
1.4. Operationalisierung und Messung
43
Ratio- oder Verhältnisskalen beziehen sich in Ergänzung zu den Intervallskalen auf einen natürlichen Nullpunkt.
Beispiele für Ratio- oder
Verhältnisskalen:
Umsätze, Preise, Körpergrößen, Alter.
Auf Daten auf Ratio- oder Verhältnisskalenniveau sind alle mathematischen Transformationen anwendbar. Im Rahmen von empirischen Untersuchungen ist es vorteilhaft, Daten mit einem möglichst hohen Datenniveau zu erfassen, da sich dann die Einschränkungen bei der Datenanalyse vermindern. Ein großer Vorteil ergibt sich für den Datenanalytiker dann, wenn die Daten mindestens Intervallskalenniveau aufweisen. Insofern ist diesem Sachverhalt besondere Aufmerksamkeit zu widmen. Grundsatz der Messung: Je höher das Meßniveau, desto besser die Möglichkeiten der Datenanalyse! Bei vielen Anwendungen liegt der entscheidende Schritt bei der Erreichung des Intervallskalenniveaus! Die Übersicht in Tabelle 1 zeigt zusammenfassend die vier Skalentypen mit ihren jeweiligen Transformationsmöglichkeiten und Beispielen.
Kapitel 1: Der Forschungsprozeß
44
Skalentyp
Nominalskala
Ordinalskala
Intervallskala
Verhältnisskala
empirische Operationen
Bestimmung von Gleichheit und Ungleichheit
zusätzlich: Best, einer Rangfolge. z.B. x > y > z
zusätzlich: Intervalle gleich (z.B. i0-7»7-4) willkürlich festgelegter Nullpunkt
zulässige Transformationen
Umbenennung
nur: monoton steigende Transformationen
Statistische Maßzahlen (Beispiele)
Häufigkeit, ModaTwert
zusätzlich: Median, Quartile, Prozentrangwerte
nur: lineare Transformationen: f(x)=v+ u.f(x) (wobei u > 0 ) zusätzlich: arithmetisches Mittel (x) Standardabweichung (s) Schiefe, Exzeß
zusätzlich: Bestimmung gleicher Verhältnisse x k (z.B. - » - - ) ; y i absoluter Nullpunkt nur: Ahnlichkeitstransformationen f(x) = u.f(x) (wobei u > 0 ) zusätzlich: geometrisches Mittel, Variationskoeffizient
Zusammenhangsmaße
Kontingenzkoeffizient (C) Vierfelderkoeffizient (Phi)
zusätzlich: Rangkorr.Koeffizient (Spearmans Rho, Kendalls Tau)
zusätzlich: ProduktMomentKorrelation (r), Regressionskoeffizient
Beispiele
Numerierung von Fußballspielern, Kontonummern,Quantifizierung von dichotomen Merkmalen (z.B. Geschlecht)
Schulnoten, Richtersche Erdbebenskala, Testrohwerte
Temperatur (nach Celsius, Fahrenheit, Reaumur)
Länge, Masse, Zeit, Winkel, Temperatur (nach Kelvin)
Tab. 1: Skalentypen (Quelle: Weis/Steinmetz 1991, S. 91)
1.4. Operationalisierung und Messung
45
1.4.3. Skalen und Skalierungsverfahren Bisher wurde stillschweigend der Begriff Skala verwendet, der nunmehr nochmals aufgegriffen und präzisiert werden soll. Während man als Messen den Vorgang bezeichnet, empirischen Sachverhalten Zahlen bzw. Zeichen zuzuordnen (vgl. die Definition weiter oben), umfaßt die Skala die Menge der Ausprägungen eines Merkmals. Eine Skala ist eine numerische Abbildung eines Merkmals entlang einer Dimension. Beispiel für eine Skala: Die Schulnoten von 1 bis 6 repräsentieren eine Skala; diese Skala besitzt sechs Ausprägungen und zwei Pole (bipolare Skala).
In den Sozialwissenschaften, zu denen auch die Marketingwissenschaft gehört, steht man häufig vor dem Problem, daß man (psychische) Phänomene messen möchte, die sich nicht unmittelbar beobachten lassen. Beispiele für solche Phänomene sind: Einstellung zu Produkten und
Unternehmen,
Produkttreue, Risikoverhalten, Vorurteile, Traditionsbewußtsein.
Um derartige Phänomene dennoch der Messung zugänglich zu machen, bedarf es zunächst der exakten Definition der Begriffe, dann der Ableitung entsprechender Indikatoren und schließlich der nach bestimmten Vorschriften konstruierten Skala. Diesen Vorgang, die theoretisch abgesicherte, nach strengen Regeln durchgeführte Konstruktion einer Skala bezeichnet man als Skalierung (vgl. Nieschlag/Dichtl/Hörschgen 1985, S. 639; Hammann/Erichson 1990, S. 69; Schnell/Esser 1995, S. 171 ff.).
46
Kapitel 1 : Der Forschungsprozeß
Von Skalierung spricht man, wenn man einen theoretischen, nicht unmittelbar beobachtbaren Sachverhalt mit Hilfe einer Skala abbildet. Das Resultat der Skalierung ist eine Skala. Die Methoden, die zur Konstruktion einer Skala eingesetzt werden, nennt man Skalierungsverfahren. Da man in den Sozialwissenschaften häufig mit Skalierungsproblemen konfrontiert wird, hat man einen reichen Methodenschatz entwickelt, um Skalen konstruieren zu können. Einen Uberblick über verschiedene Skalierungsverfahren und die dazugehörigen Skalen bringt Abbildung 5.
Abb. 5: Skalierungsverfahren in der Markt- und Sozialforschung (Quelle: Berekoven u.a. 1989, S. 70)
47
1.4. Operationalisierung und Messung
An dieser Stelle wollen wir lediglich die beiden einfachsten, aber zugleich die am häufigsten eingesetzten Formen der Skalen vorstellen: die Rating-Skala und das Semantische Differential. (Für weitere Skalierungsverfahren vgl. Schnell/Hill/Esser 1995, S. 171 ff.; Böhler 1992, S. 107 ff.)
1.4.3.1. Rating-Skalen Unter einer Rating-Skala versteht man die Zuordnung v o n Meßwerten, die eine Tendenzaussage beinhalten, zu einem Einstellungsobjekt. Beispiel einer Rating-Skala: Frage: Wie beurteilen Sie die Einkaufsmöglichkeiten in Istanbul? Skala:
sehr gut
gut
mittel
schlecht
sehr schlecht
()
()
()
()
()
Rating-Skalen sind relativ leicht zu konstruieren, und die erhobenen Daten werden im Rahmen der Datenanalyse wie intervallskalierte Daten behandelt. O b diese Vorgehensweise gerechtfertigt ist, hängt davon ab, ob man den Auskunftspersonen ein entsprechendes Differenzierungsvermögen unterstellen kann: "Die Erfahrung zeigt, daß Verbraucher zumindest in den mittleren Bereichen der Ratingskala zu äquidistanten Urteilen fähig sind, während in Extrembereichen jedoch eine systematisch verzerrte Einstufung der zu beurteilenden Objekte erfolgt. (Dieser Fall ist z.B. dann gegeben, wenn die Auskunftspersonen neben PKW's wie Golf, Opel Ascona und BMW 316 auch gehobene Fabrikate von Mercedes oder gar von Rolls Royce einstufen müssen.) Im Grunde liegt somit ein Skalenniveau vor, das zwischen Ordinal- und Intervallskala liegt." (Böhler 1992, S. 101).
48
Kapitel 1: Der Forschungsprozeß
Bei einer Verwendung von fünf- oder sechs- oder siebenstufigen Skalen kann in der Regel (unter den zitierten Einschränkungen) ein Intervallskalenniveau unterstellt werden (vgl. Hammann/Erichson 1990, S. 2 6 2 ; Nieschlag/Dichtl/Hörschgen 1985, S. 643). Dem Anwender ist es freigestellt, unter einer Vielzahl möglicher Darstellungsweisen von Rating-Skalen die für seinen Untersuchungszweck passende auszuwählen. Angeboten werden (vgl. Weis/Steinmetz 1991, S. 90 ff.): • grafische Skalen, • verbale Skalen, • numerische Skalen, • bipolare Skalen, • unipolare Skalen, • gegliederte Skalen, • ungegliederte Skalen und eine Kombination aus allen Elementen. Abbildung 6 zeigt einige Skalentypen. Bei der Konstruktion und Interpretation von Rating-Skalen sollten allerdings folgende Punkte beachtet werden: • Die Anzahl der Skalenpunkte ist abhängig vom Diskriminierungsvermögen der Befragten zu wählen (üblich sind fünf- oder siebenstufige Skalen). • Gleichmäßige ("sprachliche" und "optische") Abstände zwischen den Skalenpunkten beachten! • Eventuell ist eine Kategorie "weiß nicht" zu ergänzen, wenn anzunehmen ist, daß viele Befragte keine Meinung äußern können/wollen. • Bei bipolaren Skalen kann es zu Schwierigkeiten bei der Interpretation des Indifferenzpunktes der Skala kommen, da nicht eindeutig gesagt werden kann, ob der Befragte "sowohl als auch" oder "weder noch" damit ausdrücken möchte (vgl. Hammann/Erichson 1990, S. 263).
1.4. Operationalisierung und Messung
49 gefällt mir gar nicht
gefällt mir sehr
1
1
Stimme voll und ganz zu, ist richtig
Stimme ganz und gar nicht zu, ist falsch
ä
l
1
«
l
0
1
2
3
4
Stimme überhaupt nicht zu
Stimme voll zu
i
i
i
1
2
3
i 4
5
n 6
trifft nicht zu
i
6
7
] • •
d
n 5
4
3
Stimme eher zu
Stimme voll und ganz zu
i
lehne völlig ab
Stimme voll zu
n
O O
2
Stimme eher nicht zu
Stimme gar nicht zu
trifft zu
O
teuer
L
-4
-3
sehr unsympathisch
J - 2 - 1 0
il y
h
11
1
Úü
gefällt (Zustimmung)
monopolare Skalen mit Zahlenvergabe u. verbaler Extrempunktumschreibung
1
preisgünstig
I
reines Kontinuum
L 3
monopolare Skala mit verbaler Umschreibung aller Antwortabstufungen
monopolare Skala mit grafischer Unterstützung bipolare Skala
4 sehr sympathisch
bipolare Skala mit grafischer Unterstützung
würde ich kaufen würde ich kaufen
grafische Skala
würde ich kaufen
Flächenskala
würde ich kaufen würde ich kaufen mißfällt (Ablehnung)
würde ich kaufen
Abb. 6: Darstellungsmöglichkeiten von Rating-Skalen (Quelle: Berekoven u.a. 1989, S. 72)
Kapitel 1: Der Forschungsprozeß
50
Falls man eine dreistufige Rating-Skala verwendet (wie bei Frage 3 der Touristen-Befragung), sollte man von der Mittelwertberechnung Abstand nehmen. Dreistufige Rating-Skalen weisen in der Regel kein Intervallskalen-Niveau auf! Beispiele für Rating-Skalen
bei der Touristenbefragung
3-stufig-einpolige Frage 5
Rating-Skala:
Aus welchen Gründen befinden Sie sich in Istanbul? sehr etwas nidit wichtig widitig widitig
Geschichte/Kultur Q Erholung/Ferien O Türkisches Essen/Trinken O Freund/Bekannte besuchenO
U O O O O ü Q O
sehr etwas widitig widitig
Einkaufen/Shopping ü O Unterhaltung/Nachtleben O U Sprache lernen/verbessern Q U Allgemeine Neugierde O O
5-stufig-bipolare Frage 7
1995:
Rating-Skala:
Bitte machen Sie eine Beurteilung über Ihre Reise, in Hinblick auf folgende Punkte, indem Sie das jeweils zutreffende Kästchen ankreuzen Sehr eut
Unterkunft Reiseorganisation Türk. Speisen und Getränke Unterhaltung/ Nachtleben Einkaufsmöglichkeiten Museen/ Ausstellungen Hist. Sehenswürdigkeiten Alles in allem
Gut Mittelmäßig
Schlecht
a
Sehr sdiledit
a
a
a
ü
a
o
a
a
Q
a
Q
a
a
ü
a
Q
a
a
ü
a
ü
a
a
a
a
a
a
a
a
a
a
a
a
a
ü
Q
a
a
a
nicht widitig
O O O O
1.4. Operationalisierung und Messung
51
Weiterhin ist auf einige konzeptionelle Schwächen bei der Verwendung von Rating-Skalen hinzuweisen, die unter der Bezeichnung Nachsichteffekt, Zentralitätseffekt und Halo-Effekt in der Literatur diskutiert werden (vgl. Hammann/Erichson 1990, S. 262): • Nachsichteffekt Darunter verbirgt sich die Tendenz, daß Versuchspersonen solche Objekte tendenziell als günstiger einschätzen, die sie selbst kennen und benutzen. • Zentralitätseffekt Hiermit bezeichnet man die Bevorzugung von mittleren und gemäßigten Ausprägungen gegenüber extremen Ausprägungen. Diese Tendenz ist umso stärker, je weniger bekannt dem Befragten die Objekte sind, auf welche sich die Fragen beziehen. • Halo-Effekt Als Halo-Effekt bezeichnet man die Tendenz, daß sich Personen bei der Beurteilung von Objekten durch übergeordnete Sachverhalte leiten lassen. Die tritt z.B. bei der Beurteilung von Markenartikeln auf, wobei das übergeordnete Marken- bzw. Firmenimage die Qualitätswahrnehmung bezüglich des einzelnen Produktes positiv bzw. negativ beeinflussen kann. Die eben beschriebenen Effekte lassen sich z.T. dadurch vermeiden, daß man Versuchspersonen nur solche Produkte beurteilen läßt, über die sie eine Produkterfahrung besitzen. Die Urteile über Produkte ohne vorherige Produkterfahrung sollten getrennt ausgewertet werden. Bei der Beurteilung von Markenprodukten ist es anzuraten, die Produkte einem "Blindtest" (ohne Angabe des Markennamens) zu unterziehen.
52
Kapitel 1: Der Forschungsprozeß
1.4.3.2. Das Semantische Differential
Wegen seiner häufigen Anwendung im Marketingbereich soll noch das Sematische Differential (andere Bezeichnungen: Polaritätenprofil, Eindrucksprofil) vorgestellt werden. Das Semantische Differential gehört zu den mehrdimensionalen Skalierungsverfahren, da sich damit Ausprägungen eines Gegenstandes/Untersuchungsobjektes in verschiedenen Dimensionen (kognitive und gefühlsmäßige Dimension) messen lassen (vgl. Kroeber-Riel 1990, S. 106). Es handelt sich um ein Verfahren, das zum Zweck der Messung von Wortbedeutungen 1952 von Osgood entwickelt wurde. Hierdurch erklärt sich auch sein projektiver und indirekter Charakter. Von Hofstätter/Lübbert wurde dieses Meßverfahren 1 9 5 9 erstmals im Marketingbereich eingesetzt (vgl. Kroeber-Riel 1990, S. 191 f.; Nieschlag/Dichtl/ Hörschgen 1985, S. 6 6 6 ff.).
Das Sematische Differential besteht aus einer Menge von Eigenschaftsaussagen, mit denen der Untersuchungsgegenstand beschrieben werden soll. Die Eigenschaften sollten polar gefaßt sein (z.B. groß vs. klein), mehrere Abstufungen (zwischen fünf und sieben) aufweisen und sich sowohl auf gefühlsmäßige Umschreibung des Gegenstandes (z.B. angenehm vs. unangenehm; schön vs. häßlich) beziehen, als auch kognitiv-bewertende Eigens c h a f t e n u m f a s s e n ( z . B . kurz vs. lang-, billig vs. teuer).
Hinsichtlich der Anzahl der verwendeten Eigenschaftspaare sind dem Marktforscher keine Grenzen gesetzt, allerdings werden ca. 10 bis 15 Eigenschaftspaare genügen, um einen Gegenstand ausreichend zu umschreiben. Abbildung 7 zeigt das Eigenschaftsprofil für zwei Automarken.
53
1.4. Operationalisierung und Messung
1
TIEF
2
SCHWACH
3
UNZUVERLÄSSIG
4
BEWEGLICH
5
HEISS
6
LANGSAM
7
ALTMODISCH
8
SCHLECHT
9
FEINDLICH
10
SCHÖN
11
PASSIV
12
ALT
13
SORGLOS
14
GROSS
15
WILD
16
ABSTOSSEND
17
EMPFINDLICH
Abb. 7: Semantisches Differential (Eigenschaftsprofil für zwei Automarken) Die einfachste Art der Auswertung besteht darin, daß man die Durchschnittswerte über die einzelnen Eigenschaften für alle Befragten errechnet und diese Werte grafisch miteinander verbindet; dadurch ergibt sich das Polaritätenprofil (Eigenschaftsprofil). Als Auswertungsmöglichkeiten ergeben sich insgesamt folgende Analysen: • Betrachtung der Einzelaspekte, • Betrachtung des Gesamtprofils, • Berechnung von Distanzmaßen (Summenwerte).
Kapitel 1: Der Forschungsprozeß
54
Darüber hinaus lassen sich Vergleiche anstellen mit den Profilwerten von •
Konkurrenzmarken,
• Idealmarke, • Nutzer - Nichtnutzer, • vorher - nachher etc. Schließlich lassen sich die Ergebnisse der Bewertung mit Hilfe der Methoden der Diskriminanz- und Faktorenanalyse (vgl. Backhaus u.a. 1987) weiteren Betrachtungen unterziehen. Die leichte Handhabung, die vielfältigen Möglichkeiten der Datenanalyse und die anschauliche Darstellungsweise haben wesentlich zur Verbreitung des Semantischen Differentials im Marketingbereich beigetragen (zur Kritik des Semantischen Differentials vgl. Trommsdorff 1975, S. 81 ff.).
1.5. Aaswahlverfahren 1.5.1. Voll- oder Teilerhebung? Nach Abschluß der beschriebenen Vorarbeiten (Präzisierung des Forschungsproblems, Sichten der Sekundärliteratur, Auswahl des Forschungsdesigns, Operationalisierung der Forschungsfragen und Festlegung der Meßinstrumente) muß man sich mit den Fragen beschäftigen, welche und wieviele Erhebungseinheiten (z.B. Personen, Haushalte, Betriebe etc.) in die Untersuchung einbezogen werden sollen. Dieses zu lösende Problem wird hier unter der Überschrift Auswahlverfahren abgehandelt werden. Es stellen sich zunächst die beiden Möglichkeiten => alle infrage kommenden Untersuchungseinheiten oder => nur einen Teil davon zu erfassen (z.B. befragen). Den ersten Fall nennt man Vollerhebung; den zweiten Fall nennt man Teilerhebung.
1.5. Auswahlverfahren
55
1.5.2. Vollerhebung Vollerhebung bedeutet, daß man sämtliche Mitglieder der Grundgesamtheit im Rahmen der Untersuchung erfaßt (z.B. befragt). In der Praxis wird diese Vorgehensweise allerdings nur in seltenen Fällen gewählt. Vollerhebungen finden insbesondere Anwendung im Rahmen von Marktforschungsuntersuchungen im Investitionsgüterbereich. Dort hat man es z.T. mit Ideinen Grundgesamtheiten von 50 oder 100 Betrieben zu tun. In diesen Fällen ist es naheliegend, die gesamte Grundgesamtheit zu befragen. Ansonsten wird man aber aus Gründen der Praktikabilität auf Teilerhebungen zurückgreifen. Die Grundgesamtheit umfaßt alle Untersuchungseinheiten (Personen, Haushalte, Betriebe etc.), die die interessierenden Merkmale aufweisen.
1.5.3. Teilerhebungen 1.5.3.1. Grundsätze Die Grundgesamtheit stellt sozusagen das gesamte Potential an Untersuchungseinheiten dar. Will man beispielsweise eine Befragung bei Nichtrauchern durchführen, dann setzt sich die Grundgesamtheit aus allen Nichtrauchern zusammen. Oftmals begnügt man sich aber mit einem Teil der Grundgesamtheit (Teilerhebung). Entspricht dieser Teil hinsichtlich der interessierenden Merlanale der Struktur der Grundgesamtheit, dann spricht man von einer repräsentativen Stichprobe. Eine Stichprobe ist ein Teil der Grundgesamtheit, der hinsichtlich der zu untersuchenden Merkmale die gleiche Struktur aufweist, wie die Grundgesamtheit selbst. Damit eine Stichprobe aber tatsächlich als repräsentativ bezeichnet werden kann, muß sie nach bestimmten Kriterien zusammengestellt werden. Die nachfolgend vorgestellten Verfahren/Techniken, sollen die Repräsentativität von Stichproben sicherstellen.
Kapitel 1: Der Forschungsprozeß
56
Folgende Punkte sprechen für die Durchführung von Teilerhebungen (und damit gegen die Durchführung von Vollerhebungen) (vgl. Böhler 1992, S. 126): • • • •
Teilerhebungen sind weniger zeitaufwendig. Teilerhebungen sind billiger. Teilerhebungen sind genauer (man macht weniger Fehler). Oftmals sind die Daten nur durch Teilerhebungen zu erhalten, da kein Verzeichnis der Grundgesamtheit vorliegt (z.B. Deutsche Touristen in Istanbul 1995).
Aufgrund mathematisch-statistischer Verfahren (induktive Statistik, oft auch als beurteilende Statistik bezeichnet) kann aus den Ergebnissen von Teilerhebungen, wenn sie nach dem Zufallsprinzip durchgeführt werden, ziemlich genau auf die tatsächliche Verteilung der Merkmale in der Grundgesamtheit geschlossen werden (vgl. Kapitel 6). In der Praxis stellt sich deshalb vor allem die Frage nach der Art der Durchführung der Teilerhebung. Es kann hierbei zwischen Verfahren unterschieden werden, die => nach dem Zufallsprinzip die infrage kommenden Untersuchungseinheiten ausfindig machen, und solchen, die => nicht auf dem Zufallsprinzip basieren (vgl. Abb. 8). Prinzip:
Nach dem Zufallsprinzip
Verfahren:
1. 2. 3.
Einfache Zufallsauswahl Geschichtete Zufallsauswahl Klumpenauswahl
Nicht nach dem Zufallsprinzip 1. Willkürliche Auswahl 2. Konzentrationsverfahren 3. Quotenauswahl
Abb. 8: Wichtigste Auswahlprinzipien und -verfahren im Rahmen der Teilerhebung
57
1.5. Auswahlverfahren 1.5.3.2. Teilerhebungen ohne Zufallsprinzip
Die wichtigsten Verfahren der Teilerhebung, die nicht auf dem Zufallsprinzip beruhen, sind • die willkürliche Auswahl, • das Konzentrationsverfahren, • das Quotenverfahren. Bei der willkürlichen Auswahl bzw. der Auswahl aufs Geratewohl werden diejenigen Untersuchungseinheiten befragt, die leicht zugänglich sind.
Beispiele für willkürliche
Auswahl:
Studenten als Untersuchungsobjekte Universitäten ), Befragung von Mitarbeitern
(z.B. bei psychologischen Experimenten
an
im Hause,
zufällige Ansprache von Passanten.
Die willkürliche Auswahl ist im Grunde genommen als Auswahlverfahren nur dann zu rechtfertigen, wenn es um Vorstudien oder um explorative Studien geht. Hochrechnungen auf die Grundgesamtheit sind, wenn sie auf Ergebnissen aufbauen, die auf diesem Auswahlprinzip beruhen, nur sehr eingeschränkt möglich. Beim Konzentrationsverfahren (Cut-off Methode) beschränkt man sich im Rahmen der Untersuchung auf eine Befragung der wichtigsten Teilnehmer der Grundgesamtheit.
Kapitel 1 : Der Forschungsprozeß
58
Beispiel für Konzentrationsverfahren: Im Rahmen von Industrieerhebungen werden oftmals nur die größten Unternehmen befragt, da sie vom Umsatz her ebenfalls den größten Teil des Marktes bestimmen. Beim Quotenverfahren werden dem Interviewer eine Verteilung der wichtigsten Merkmale der Grundgesamtheit als "Quote" vorgegeben. Innerhalb dieser Quote kann der Interviewer die Auskunftspersonen frei wählen. Die beim Quotenverfahren zu berücksichtigenden Merkmale werden als Quotenmerkmale bezeichnet. Diese sollten leicht feststellbare soziodemographische Mermale sein, z.B. Alter, Geschlecht, Familienstand (vgl. Hammann/Erichson 1990, S. 111). Die Summe der einzelnen Quotenpläne begrenzt den Umfang der Stichprobe.
Beispiel für einen Quotenplan - Touristenbefragung 1995 (12 Interviews): Quotenplan Interviewer Anzahl der Interviews: 12 Hotel/Ort Alter:
Geschlecht:
Fragebogen-Nummer: von 37 bis 48.
...Swiss Hotel bis 25 Jahre:
1 2
26 bis 35 Jahre:
12
36 bis 45 Jahre:
1 2 3
46 bis 55 Jahre:
1 2
über 56 Jahre:
1
männlich: 12
3 4 5 6 7
weiblich: 12
3 4 5
3 4
1.5. Auswahlverfahren
59
Für die Durchführung von Quotenverfahren sind allerdings einige Punkte zu beachten (vgl. Noelle 1963, S. 147): • Es muß ein zuverlässiges Verzeichnis über die Verteilung der Quoten vorhanden sein. (Die Quoten für die Touristenbefragung wurden der amtlichen türkischen Tourismusstatistik entnommen: Quelle: State Institute of Statistics, Tourism Statistic, Ankara 1994) • Der einzelne Interviewer sollte höchstens 15 Interviews durchführen. • Der Interviewer sollte die Befragung außerhalb seines sozialen Milieus durchführen. • Die Befragung sollte solche Fragen umfassen, die in allen sozialen Milieus eingesetzt werden können.
Ein gravierender Nachteil des Quotenverfahren ist darin zu sehen, daß keine statistische Fehlerberechnung über die Verteilung des Merkmals in der Grundgesamtheit möglich ist. Alle Auswertungs- und Testverfahren, die auf einer Zufallsauswahl aufbauen (vgl. Kap. 6), sind eigentlich nicht anwendbar. Weiterhin ist auf das Problem der Quotenfälschung zu verweisen. Letzteres Problem tritt immer dann auf, wenn die Interviewer die Einhaltung des Quotenplans gefährdet sehen (weitere Nachteile des Quotenverfahrens bei: Noelle 1963, S. 132 ff.; Böhler 1992, S. 133). In der Praxis wird das Quotenverfahren wegen seiner einfachen und flexiblen Handhabung geschätzt. Beim Vergleich der Ergebnisse von Erhebungen, die auf dem Quotenverfahren und dem Zufallsverfahren als Auswahlverfahren beruhen, haben sich keine nennenswerten Unterschiede gezeigt (vgl. Böhler 1992, S. 133).
60
Kapitel 1: Der Forschungsprozeß
1.5.3.3. Teilerhebungen nach dem Zufallsprinzip Die wichtigsten Verfahren der Teilerhebung, die auf dem Zufallsprinzip aufbauen, sind • die einfache Zufallsauswahl, • die geschichtete Zufallsauswahl, • die Flächen- oder Klumpenauswahl. Die einfache Zufallsauswahl gehört zu den am häufigsten verwendeten Verfahren, die auf der Zufallsauswahl beruhen. Der einfachen Zufallsauswahl liegt das sogenannte "Urnenmodell" (vgl. Lotterie) zugrunde. Dies bedeutet, daß man davon ausgeht, daß die Elemente der Grundgesamtheit in einer Urne (Lottotrommel) zusammengefaßt sind, aus der man dann zufällig einige Elemente, nämlich die Stichprobe, herausgreift. Durch diese Vorgehensweise wird sichergestellt, daß jedes Element der Grundgesamtheit die gleiche (bekannte) Wahrscheinlichkeit besitzt, Element der Stichprobe zu werden. Dadurch wiederum wird es zum einen möglich, auf die Struktur der Grundgesamtheit von den Ergebnissen der Stichprobenziehung hochzurechnen, und zum zweiten wird es möglich, den Zufallsfehler (Stichprobenfehler) zu berechnen (vgl. Hammann/Erichson 1990, S. 113). Die Einsatzfähigkeit von Zufallsverfahren hängt also von mehreren Voraussetzungen ab: 1. Voraussetzung: Es muß ein vollständiges Grundgesamtheit vorliegen.
Verzeichnis
der
Häufig sind die in der Praxis vorliegenden Verzeichnisse der Grundgesamtheit aber nicht vollständig, da sie einer raschen Veralterung (keine aktuellen Daten) unterliegen.
61
1.5. Auswahlverfahren Beispiele für (relativ) vollständige Verzeichnisse von Grundgesamtheiten: Kundenkarteien, Einwohnermeldedateien, 7 elefon verzeich n isse, Wäh lerverzeich n isse, Mitgliederverzeichnisse.
2. V o r a u s s e t z u n g : Es m u ß eine T e c h n i k zur Z i e h u n g d e r E l e m e n t e der S t i c h p r o b e g e f u n d e n w e r d e n , d i e t a t s ä c h l i c h e i n e "zufällige" Z i e h u n g sicherstellt u n d V e r z e r r u n g e n v e r m e i d e t . Ein Beispiel für eine Technik der Zufallsauswahl ist die Benutzung von sogenannten "Zufallszahlen". Zufallszahlen entnimmt man entsprechenden Zufallstabellen. Eine Zufallstabelle findet sich in jedem guten Lehrbuch zur Statistik. (Für die Eigenkonstruktion von Zufallszahlen vgl. Nieschlag/Dichtl/Hörschgen 1985, S. 6 8 2 ) Selbstverständlich bietet auch E X C E L die Möglichkeit, Zufallszahlen zu erzeugen. Darüber wird in Kapitel 4.5. auf Seite 154 berichtet. Nehmen wir hier schon einmal 2 0 0 gleichverteilte Zufallszahlen zwischen 1 und 6 5 0 vorweg, berechnet mit E X C E L 5.0:
0 gleichmäßig im Bereich von 1 bis 650 verteilte Zufallszahien 649 592 40 135 466 423 ........
480 533 21 626 104 21 150 192 57 213 630 108 31
to 487 168 593 282 541 634 229 540 15
472 217 535 218 382 497 33 250 270 587
160 90 647 31 543 439 607 87 116 599
16 476 405 195 333 522 444 429 508 35
326 454 498 29 577 309 275 486 570 544
33 136 352 325 58 286 647 69 93 226
366 242 484 270 617 304 508 15 589 303
385 624 181 604 26 250 143 608 74 80
4 232 296 292 560 101 36 268 309 280
374 566 643 230 254 351 580 118 322 565
578 572 420 461 629 127 617 251 305 48
464 572 26 609 379 487 46 495 555 107
77 428 217 250 397 307 472 367 265 529
89 273 306 48 82 327 615 563 587 144
275 627 179 236 54 257 196 498 94 127
270 203 138 525 283 585 118 421 520 484
34 431 62 121 462 248 122 99 81 62
371 97 328 227 41 497 577 12 27 336
Für die Auswahl von ldeinen Stichproben sind Zufallszahlen die einfachste Vorgehensweise.
62
Kapitel 1 : Der Forschungsprozeß
Beispiel für die Benutzung von Zufallszahlen zur Auswahl von Stichproben: Angenommen, man will aus dem Telefonbuch eine Stichprobe von 200 Befragten ziehen; das Telefonbuch (einer Kleinstadt) umfasse 650 Seiten. Dann kann man z.B. folgendes Zufallsveifahren auswählen: Man sucht zunächst 200 Seiten aus dem Telefonbuch aus, und auf jeder Seite greift man die zehnte Telefonnummer heraus. Die betreffenden 200 Seiten findet man, indem man aus einer Zufallstabelle dreistellige Zahlen beliebig auswählt.
200
Neben Zufallszahlen kann man auch noch andere Techniken benutzen (Geburtstagsauswahl, Buchstabenauswahl, Schlußziffernauswahl etc.), um eine "zufällige" Auswahl sicherzustellen (vgl. Weis/Steinmetz 1991, S. 39). Gemeinsame Voraussetzung dieser Verfahren ist, daß die Ordnung der Elemente in der Auswahlbasis zufällig ist (vgl. Hammann/ Erichson 1990, S. 125). Neben der einfachen Zufallsauswahl findet auch die geschichtete Zufallsauswahl (vgl. Weis/Steinmetz 1991, S. 44 f.) und die Klumpenoder Flächenauswahl (vgl. Weis/Steinmetz 1991, S. 46 f.) häufig Anwendung in der Marktforschung. Diese beiden Verfahren werden insbesondere bei umfangreicheren Untersuchungen eingesetzt, wo sich die Elemente der Grundgesamtheit in Schichten (geschichtete Auswahl) oder in regionale Einheiten (Klumpenauswahl) einteilen lassen. Bei der geschichteten Auswahl teilt man die Grundgesamtheit in Schichten ein und zieht dann aus den Schichten eine proportionale Stichprobe. Bei der Klumpen- oder Flächenstichprobe erfolgt der Auswahlprozeß mehrstufig: Zunächst zieht man aus vorher festgelegten Flächeneinheiten eine Stichprobe an z.B. Landkreisen, Städten, und dann zieht man in einem zweiten oder dritten Schritt aus diesen Einheiten erneut eine Stichprobe an Erhebungseinheiten (vgl. auch: Schnell/Hill/Esser 1995, S. 266 ff.).
1.5. Auswahlverfahren
63
Eine häufig bei Bevölkerungsumfragen angewendete Auswahltechnik ist das Random-Route-Verfahren. Dabei wird dem Interviewer ein bestimmter, zufällig ausgewählter Ausgangspunkt (z. B. Straße, Platz) vorgegeben, sowie exakte Regeln, wie er ausgehend vom Ausgangspunkt seine Befragungspersonen auswählen soll (vgl. Berekoven u.a. 1989, S. 97). Gemeinsamer Nachteil all dieser auf dem Zufall aufbauenden Verfahren ist, daß sie relativ zeitaufwendig in der Vorbereitung und Durchführung sind. Weiterhin ergibt sich das Problem der Stichprobenausschöpfung: Das Zufallsprinzip geht von der vollständigen Ausschöpfung der Stichprobe aus, was aber in der Realität aufgrund von Ausfällen und Verweigerungen nicht gegeben sein wird. Durch Nachziehen von Stichprobenelementen wird dieses Problem nur unzureichend gelöst.
1.5.3.4. Stichprobengröße und statistischer Fehler
In den bisherigen Ausführungen blieb die Frage der Bestimmung der Stichprobengröße unbeantwortet. Soll man eine Stichprobe von 100, 200, 300 oder 1000 oder noch mehr Personen befragen, damit die Ergebnisse als statistisch signifikant angesehen werden können? Um den Leser an dieser Stelle nicht zu sehr mit statistischen Formeln und Berechnungen zu überfordern, wird eine einfache Methode zur Bestimmung der Stichprobengröße vorgestellt, die auch die Berechnung des statistischen Fehlers einschließt, nämlich die Benutzung eines Nomogramms (vgl. Weis/Steinmetz 1991, S. 43). Das Nomogramm (siehe Abbildung 8) ermöglicht eine einfache Bestimmung des Stichprobenumfangs (n) aus dem Merkmalsanteil (p) und der Fehlermarge (e). Diese Berechnung gilt für die statistische Sicherheit von 0.955 = 95,5%.
64
Kapitel 1: D e r Forschungsprozeß
Abb. 9: N o m o g r a m m z u r B e s t i m m u n g der Stichprobengröße (bei 9 5 , 5 % Sicherheitswahrscheinlichkeit) (Quelle: W e i s / S t e i n m e t z 1991, S. 4 3 )
Beispiel zur Ermittlung des
Stichprobenumfangs:
Ein Merkmal habe einen geschätzten Anteil von 20% in einer Grundgesamtheit, die höchste zulässige Abweichung, die man tolerieren würde, beträgt 4% (4% größer oder kleiner als der ermittelte Wert). Lösung: Man sucht auf der vertikalen Achse die Linie 20%/80% und folgt dieser bis zum Schnittpunkt mit der schrägen Linie von e — 4%; von diesem Schnittpunkt folgt man der senkrecht führenden Linie nach oben und kann dort den Wert 400 ablesen, d.h., man benötigt einen Stichprobenumfang von 400 Befrag-
M a n k a n n das N o m o g r a m m a u c h zur B e s t i m m u n g des Vertrauensintervalls bei einer g e g e b e n e n Stichprobengröße u n d einer gegebenen Sicherheitswahrscheinlichkeit v o n 9 5 , 5 % b e n u t z e n :
65
1.5. Auswahlverfahren
Beispiel zur Bestimmung des Vertrauensintervalls: Beträgt die Stichprobengröße 400 Befragte und der daraus ermittelte Anteilswert eines Merkmals 20%, dann kann man bei einer Vertrauenswahrscheinlichkeit von 95,5% davon ausgehen, daß der "wahre Wert" der Merkmalsverteilung in dem Intervall zwischen 16% und 24% liegt. Dieses Nomogramm gilt für den homograden Fall, d.h., das Untersuchungsmerkmal ist qualitativ bzw. diskret verteilt. Für den heterograden Fall, wenn das Untersuchungsmerkmal quantitativ bzw. stetig verteilt ist (z.B. Einkommen, Alter, Gewicht etc.), bestimmt sich die Stichprobengröße nach folgender Formel:
n
t2-s2
wobei e der zulässige Fehlerbereich ist, t der Sicherheitsfaktor (bei 9 5 , 5 % gilt: t = 2) und S die Standardabweichung (geschätzt aus der Stichprobe). (Für nähere Angaben vgl. Hammann/Erichson 1990, S. 114 ff.; Weis/Steinmetz 1990, S. 41 ff.; Berekoven u.a. 1989, S. 61 ff.) Für die Praxis ist ein Sicherheitsfaktor von 2 (entspricht einer Vertrauenswahrscheinlichkeit von 9 5 , 5 % ) durchaus üblich; ebenfalls üblich sind Stichprobengrößen von 150 bis 3 0 0 0 Einheiten (Befragte), denn => je größer die Stichprobe, desto größer wird der systematische Fehler (dies ist der Fehler, der durch Ungenauigkeiten in der Erhebung entsteht; er ist abzugrenzen vom statistischen Fehler), => zur Halbierung des (statistischen) Fehlers muß die Stichprobe vervierfacht werden. Es gilt also jeweils abzuwägen zwischen dem Umfang des Erhebungsaufwands und der Genauigkeit, mit der das Ergebnis gewünscht wird.
66
Kapitel 1: Der Forschungsprozeß
1.6. Durchführung und Überwachung der Datenerhebung Nach dem Abschluß der beschriebenen Vorarbeiten kann mit der Datenerhebung begonnen werden. Gemessen an der großen Bedeutung, die dem Erhebungsprozeß im Rahmen einer Marktstudie beikommt, fällt die Darstellung dieses Vorgangs in der Literatur denkbar gering aus. Meist wird dieses Kapitel nur am Rande erwähnt, wenn es nicht sogar ganz übersprungen ward. Dies läßt sich z.T. damit erklären, daß viele Forscher sich lieber mit theoretischen Problemen beschäftigen und die rein praktischen Vorgänge (z.B. die Datenbeschaffung) dabei übersehen. Ein anderer Grund für die geringe Beschäftigung mit dem Thema Datenerhebung mag darin liegen, daß viele Lehrbuchautoren bisher nicht mit der praktischen Durchführung von Erhebungen konfrontiert wurden. Die eigentliche Erhebung der Daten wird häufig kommerziellen Marktforschungsinstituten überlassen, die über einen festen und erfahrenen Interviewerstab verfügen. Der Vorgang der Erhebung läßt sich in die drei Planungsschritte unterteilen: • Vorbereitung, • Durchführung, • Kontrolle. 1.6.1. Vorbereitung der Datenerhebung Bei der Vorbereitung des Erhebungsvorgangs fallen folgende Entscheidungen an: • Auswahl der Interviewer, • Erstellung des Schulungsmaterials, • Erstellung und Vervielfältigung der Fragebögen,
1.6. Durchführung und Überwachung der Datenerhebung
67
• Erstellung einer Argumentationshilfe (für die Interviewer), • Schulung der Interviewer (Einführung in das Thema, Rollenspiele), • Einsatzplanung. Die Schulung der Interviewer umfaßt eine Einführung in das Thema und das Ziel der Erhebung. Diese Schulung sollte bei technischen Fragestellungen mit einer Vorstellung der betreffenden Produkte und technischen Begriffe verbunden sein. Argumentationshilfen (z.B. Zweck der Untersuchung?) und Stichwortlisten (z.B. Was ist ein Modul?) erleichtern die spätere Kommunikation mit den Befragten. Bei der Schulung der Interviewer haben sich Rollenspiele als ein sehr hilfreiches Instrument der Wissensvermittlung erwiesen. Beispiele für
Rollenspiele:
So können verschiedene Interviewsituationen,
z.B.
Kontaktaufnahme, Suche des Ansprechpartners, Verweigerung, Verzögerung, Abschweifiingen vom r[hema, in einer spielerischen Situation erprobt werden.
Parallel zu diesen Arbeitsschritten sollte ein Pre-Test des Erhebungsinstruments (Fragebogens) durchgeführt werden. Zumeist finden sich im Rahmen des Pre-Tests noch einige Verbesserungsmöglichkeiten am Fragebogen. 1.6.2. Durchführung der Datenerhebung Die eigentliche Datenerhebung umfaßt folgende Arbeitsschritte: • Kontaktieren der Auskunftspersonen, • Befragung und Ausfüllen der Fragebögen, • Rücksendung / Einsammeln der Fragebögen, • Nachfaßaktion.
68
Kapitel 1 : Der Forschungsprozeß
Bei der Kontaktierung der Auskunftsperson ist darauf zu achten, die Kontaktperson zu einem Zeitpunkt anzusprechen, zu dem sie auch genügend Zeit für eine Kontaktaufnahme hat. Es sollten mehrere Kontaktversuche (bis zu drei) eingeplant werden, bevor man eine Adresse als "nicht erreicht" ablegt. Werden zu viele Adressen "nicht erreicht", dann muß rechtzeitig eine Nachfaßaktion geplant und durchgeführt werden. Allerdings zeigen die Erfahrungen, daß die Antwortbereitschaft bei Nachfaßaktionen rapide abnimmt.
1.6.3. Kontrolle und Überwachung der Erhebung Die Kontrolle und Überwachung bezieht sich insbesondere auf die Überprüfung der Interviewer. Es muß unbedingt vor und bei der Durchführung der Befragung darüber nachgedacht werden, wie verhindert werden kann, daß die Interviewer die Fragebögen selbst ausfüllen. Mögliche Kontrollmechanismen sind z.B.: • telefonische Abfrage, ob das Interview durchgeführt wurde, • Wiederholung der Befragung (Stichproben), • Abstempeln-Lassen des Fragebogens bei Firmenbefragung, • Schriftliche Erklärung des Interviewers, • Unterschrift des Interviewten auf dem Fragebogen, • schriftliche Rücksendung einer unterschriebenen Erldärung durch den Interviewten, • Kontrollfragen im Fragebogen, • Interviewereinsatz in ldeinen Gruppen.
1.6. Durchführung und Überwachung der Datenerhebung
69
Als nächstes müssen die zurückgeschickten und ausgefüllten Fragebögen daraufhin untersucht werden, ob die Stichprobenmerkmale bzw. Quoten eingehalten wurden. Treten hier Verzerrungen auf, so ist nach den Gründen zu forschen und rechtzeitig über Abhilfemaßnahmen nachzudenken (z.B. Nachfaßaktionen, Gewichtung des Datensatzes, Ausweitung der Stichprobe), um eine mangelnde Repräsentanz der Daten zu verhindern. Zuletzt müssen die eingesammelten Fragebögen auf Vollständigkeit überprüft werden. Durch rechtzeitige Kontaktaufnahme mit den Interviewern oder durch Nachfrage bei den Interviewten lassen sich erkennbare Mängel unmittelbar nach der Befragung noch beheben. Allerdings wird trotzdem ein Teil der Fragebögen im Rahmen der Auswertung nicht berücksichtigt werden können, weil • durch Antwortverweigerungen oder versehentlich Teile des Fragebogens nicht ausgefüllt sind, • einige Fragen offensichtlich falsch verstanden wurden, • die Fragen von der falschen Person ausgefüllt wurden, • der Fragebogen verspätet zurückkommt, • der Fragebogen offensichtlich gefälscht ist, • der Fragebogen unleserlich ausgefüllt ist.
Durch sachkundiges Redigieren lassen sich möglicherweise fehlerhaft oder unvollständig ausgefüllte Fragebögen noch retten, um bei der Datenanalyse berücksichtigt zu werden.
70
Kapitel 1: Der Forschungsprozeß
1.7. Datenerfassung und Datenanalyse Da Datenerfassung und -analyse in den Kapiteln 3 bis 6 dieses Buches eingehend anhand eines praktischen Beispiels beschrieben werden, soll an dieser Stelle lediglich ein knapper Überblick erfolgen. Man unterscheidet die Methoden der Datenanalyse nach
• der Anzahl der Variablen, die untersucht werden sollen (univariate, bivariate, multivariate Datenanalyse) oder
• der Art der statistischen Rückschlüsse auf die Grundgesamtheit (deskriptive und induktive Datenanalyse) oder
• der Art der Analyse der Beziehungen zwischen den Variablen (Dependenz- und Interdependenzanalyse)
1.7.1. Univariate, bivariate, multivariate Datenanalyse Die Bezeichnung univariate, bivariate bzw. multivariate Datenanalyse beruht auf der Unterscheidung nach der Anzahl der Variablen, die gleichzeitig analysiert werden sollen. Bezieht sich die Analyse lediglich auf eine Variable, so spricht man von einer
=> univariaten Datenanalyse; bezieht sich die Analyse auf die Beziehung zwischen zwei Variablen, so bezeichnet man diese Vorgehensweise als
=> bivariate Datenanalyse; werden mehr als zwei Variablen gleichzeitig untersucht, so nennt man dies
=> multivariate Datenanalyse.
1.7. Datenerfassung und Datenanalyse
71
• Univariate Analysen untersuchen nur jeweils ein einziges Merkmal.
Beispielfür univariate Analyse: Wie zufrieden sind die Istanbul-Urlauber mit ihrer Unterkunft am Urlaubsort? Hierbei wird nur die Frage bezüglich der Zufriedenheit mit der Unterkunft untersucht (siehe Frage 7.1. des Fragebogens auf Seite 79).
• Bivariate Analysen untersuchen gleichzeitig je z w e i Merkmale in ihrem Zusammenhang.
Beispiel für bivariate Analyse: Wie zufrieden sind die älteren und jüngeren Istanbul-Urlauber kunft am Urlaubsort?
mit ihrer Unter-
Flierbei wird die Frage bezüglich der Zufriedenheit mit der Unterkunft getrennt für die Altersgruppe jüngerer und älterer Besucher untersucht (siehe Fragen 7.1. und 13.2. des Fragebogens auf Seite 79 und 80).
• Multivariate Analysen Merlanale.
untersuchen gleichzeitig mehr als zwei
Beispiel für multivariate Analyse: Kann man unter Gruppe der Istanbul-Besucher Teilgruppen feststellen, die sich hinsichtlich ihrer Reisemotive sehr ähnlich sind? Hierbei werden die Antworten über das Reisemotiv von allen Befragten gleichzeitig analysiert und es wird nach homogenen Teilgruppen bei den Antwortenden gesucht (siehe Fragen 3.1. bis 5.8. des Fragebogens auf Seite 78).
Kapitel 1: Der Forschungsprozeß
72
1.7.2. Deskriptive und induktive Datenanalyse Wenn sich die statistische Analyse lediglich auf die tatsächliche Beschreibung der vorliegenden Daten bezieht, dann spricht man von deskriptiver Datenanalyse (beschreibende Statistik). Die Daten werden anhand ihrer statistischen Merkmale (größter Wert, kleinster Wert, Mittelwert, Median etc.) beschrieben. Handelt es sich bei den Daten um eine Stichprobe aus einer größeren Datenmenge, so will man auch Rückschlüsse über die Verteilung der Merkmale in der Grundgesamtheit anstellen. Diese Vorgehensweise gelingt mit Hilfe der Wahrscheinlichkeitstheorie; der Vorgang der Datenanalyse nennt sich induktive Datenanalyse oder schließende Datenanalyse (beurteilende Statistik). Beispielfür
deskriptive
Datenanalyse:
Wieviel Prozent der befragten deutschen Istanbul-Touristen 5-Sterne-Hotel?
Beispielfiir
induktive
übernachten in einem
Datenanalyse:
Ist es möglich, unter Zugrundelegung der Stichprobenergebnisse eine Aussage zu erhalten, wieviel Prozent aller deutschen Istanbul-Touristen in einem 5-SterneHotel übernachten? Solch eine Aussage kann niemals allein aus einer Stichprobe abgeleitet werden! Immerhin liefert aber die induktive Statistik (siehe Kapitel 6) die Möglichkeit, eine Hypothese über die Anzahl aller 5-Sterne-Touristen anhand der vorliegenden Stichprobe mit gewisser Irrtumswahrscheinlichkeit zu prüfen. Spricht die Stichprobe signifikant gegen die Hypothese, ist sie abzulehnen. Andererseits gibt es keinen Grund für eine Ablehnung.
73
1.7. Datenerfassung und Datenanalyse 1 . 7 . 3 . Dependenz- und Interdependenzanalyse
Bei der Analyse der Beziehungen zwischen zwei und mehr Variablen können die Analysemethoden danach unterschieden werden, ob die Datenmatrix zur Datenanalyse in Untergruppen unterteilt wird. So wird bei den Verfahren der Dependenzanalyse zwischen einer abhängigen Variablen (Kriteriumsvariable) und einer unabhängigen Variablen (Prädikatorvariable) unterschieden. Die Prädikatorvariable soll bei der Bestimmung bzw. Vorhersage der Eigenschaften der Kriteriumsvariable herangezogen werden. Im Rahmen von Interdependenzanalysen wird in der Datenmatrix nicht zwischen abhängigen und unabhängigen Variablen unterschieden, sondern die Variablen werden als ein gemeinsamer Block zusammenhängend nach Strukturmerkmalen untersucht. Die wichtigsten Verfahren der Interdependenzanalyse sind die Faktorenanalyse und die Clusteranalyse. Verfahren der Interdependenzanalyse werden in diesem Buch nicht vorgestellt, da E X C E L dafür keine Voreinstellungen besitzt. Sie könnten dennoch mit EXCEL berechnet werden, wenn man die entsprechenden mathematischen Berechnungen schrittweise durchführt (vgl. hierzu: Weis/Steinmetz, 1 9 9 1 , S. 2 1 4 ff.; Backhaus u.a. 1987).
Beispiel für
Dependenzanalyse:
Besteht ein Zusammenhang zwischen dem Alter der Istanbul-Besucher Motiven für den Istanbulbesuch?
Beispiel für Interdependenzanalyse
(wie bei multivariaten
Gibt es unter der Gruppe der Istanbulbesucher ihrer Reisemotive sehr ähnlich sind?
und den
Analyseverfahren):
Teilgruppen, die sich hinsichtlich
74
Kapitel 1: Der Forschungsprozeß
1.8. Präsentation der Ergebnisse Der Forschungsprozeß schließt mit der Präsentation der Untersuchungsergebnisse ab. Die Präsentation der Ergebnisse umfaßt =>die Erstellung eines Abschlußberichts (mit allen dazugehörenden Abbildungen und Tabellen) und (möglicherweise) => die persönliche Vorstellung des Abschlußberichts. Weitere Ausführung zur Präsentation der Marktforschungsergebnisse finden sich in Kap. 7. In Abbildung 10 wird der gesamte Forschungsprozeß mit allen Unterschritten noch einmal zusammenfassend dargestellt.
75
1.8. Präsentation der Ergebnisse
Problemdefinition praxisbezogenes Problem
Phase 1:
wissenschaftliches Problem Phase 2:
Informationsquellen Sekundärforschung Primärforschung
Phase 3: Befragung Phase 4:
Experiment
Operationalisierung und M e s s u n g Skalierungsmehrdimensionale Messniveau verfahren Einstellungsvon Daten messung
Phase 5: Vollerhebung
Phase 6:
Wahl des Forschungsdesigns Beobachtung
Auswahlverfahren Teilerhebung
sonst. Auswahlverfahren
Durchführung und Überwachung der Datenerhebung InterviewerInterviewerPre-Test Organisation schulung und Kontrolle
Phase 7:
Datenerfassung und Datenanalyse bivariate univariate multivariate Datenanalyse Datenanalyse Datenanalyse
Phase 8:
Präsentation der Ergebnisse Abfassung grafische und persönliche eines Forschungstabellarische Präsentation berichts Darstellung
Abb. 10: Phasen des Forschungsprozesses (Detaildarstellung)
Kapitel 2: Codierung der Daten Wir haben für die Darstellung der Möglichkeiten der Datenanalyse mit EXCEL ein praktisches Beispiel ausgewählt, das aus unserem eigenen Forschungsumfeld stammt. Wir werden das Beispiel in diesem Kapitel soweit wie notwendig vorstellen und in den nachfolgenden Abschnitten darauf Bezug nehmen. Das Beispiel wurde ausgewählt, da sich daran unterschiedliche Fragestellungen untersuchen und die verschiedenen Anwendungsmöglichkeiten der Datenanalyse demonstrieren lassen.
2.1. Vorstellung des Anwendungsbeispiels "Deutsche Touristen in Istanbul" Die Untersuchung "Deutsche Touristen in Istanbul" hatte das Ziel, deutsche Touristen über ihren Urlaubsaufenthalt in Istanbul zu befragen. Die Touristen sollten über Art und Dauer ihres Aufenthalts und über die Motive für die Reise Auskunft geben. Aus den ermittelten Ergebnissen sollten Rückschlüsse für ein Städtemarketing gewonnen werden. Es wurden nur deutsche Urlauber, die sich aus privaten Gründen in Istanbul aufhielten, in die Untersuchung einbezogen. Die Touristen wurden auf der Straße, an belebten Plätzen und in ihren Hotels angesprochen. Befragungszeitraum war die zweite und dritte Woche im April 1995. Zu diesem Zeitpunkt konnte wegen des Osterurlaubs in Deutschland mit einer großen Anzahl von Istanbulbesuchern gerechnet werden. Zur Durchführung der Befragung wurde ein standardisierter Fragebogen mit 14 Fragen entworfen. Die Fragen konnten durch einfaches Ankreuzen von den Befragten selbst ausgefüllt werden.
78
Kapitel 2: Codierung der Daten
Beispiel: Fragebogen zur Touristenbefragung Ostern
Frage 1
Wie oft waren Sie schon in Istanbul?
Bin zum ersten Mal hier Q Bin zum zweiten Mal hier O Frage 2
1995
Bin zum dritten Mal hier ü Mehr als dreimal U
Wie lange haben Sie vor, in Istanbul zu bleiben?
1-3 Tage ca. eine Woche ca. zwei Wochen
O O Q
ca. drei Wochen über drei Wochen
O U
Frage 3
In welcher Art von Hotel bleiben Sie?
*****
ü
a
*
***
ü
Pension ü
Frage 4
Bitte kreuzen Sie an, wie Sie Ihre Reise organisiert haben.
****
**
Privat ü Reiseorganisation U Frage 5
a
a Sonstiges
Reiseorganisation mit Führer sonstiges
Q
Aus welchen Gründen befinden Sie sich in Istanbul? sehr etwas nidtt widitig widitig widitig
sehr etwas nicht widitig wichtig wichtig
Geschichte/Kultur
O
ü
O
Einkaufen/Shopping
ü
ü
Erholung/Ferien
O
O
O
Unterhaltung/Nachtleben
O
O
ü
Türkisches Essen/Trinken
Q
O
ü
Freund/Bekannte besuchenO Frage 6
U Q
O
Sprache lernen/verbessern ü U
Allgemeine Neugierde
Bitte kreuzen Sie an, wie Sie sich auf Ihre Reise vorbereitet haben. (Mehrfachantworten)
Reisefiihrer über ü Istanbul
Werbeprospekte des türkischen Fremdenverkehrsbüros
O
Sachbücher
O
Zeitschriften/Artikel
O
Vorträge/Filme
Q
O
Bericht von Freunden
Q
Information des Reisebüros/ Reiseveranstal ters sonstiges
Q
ü
U
O
2.1. Anwendungsbeispiel
79
Beispiel: Fragebogen zur Touristenbefragung Frage 7
Ostern 1995
(Fortsetzung)
Bitte machen Sie eine Beurteilung über Ihre Reise, in Hinblick auf folgende Punkte, indem Sie das jeweils zutreffende Kästchen ankreuzen Sehr eut
Gut
Mittelmäßig Schlecht
Sehr schlecht
a
a
a
a
a
a
a
a
a
a
Q
o
a
Q
a
a
ü
a
a
a
a
a
a
a
a
o
a
a
a
a
a
Alles in allem
a
a
a
a
a
Frage 8
Bitte kreuzen Sie an. welche Sehenswürdigkeiten auf Ihrem Programm stehen (Mehrfachantworten)
Unterkunft
a
Reiseorga-
a
nisation Türk. Speisen und Getränke Unterhaltung/ Nachtleben Einkaufsmöglichkeiten Museen/ Ausstellungen Ilist.
Sehens-
würdigkeiten
a
a
Museum flir antike Kunst
O
Galata-Turm
O
Bosporus-Schiffsfahrt
O
Großer Basar
ü
Topkapi-Palast/Harem (alter Sultanspalast)
Q
Hagia Sophia
O
Dolmabahfe-Palast (neuer Sultanspalast)
O
Blaue Moschee O (Sultan Ahmet Moschee)
Süleymaniye Moschee
O
Alte Stadtmauer
ü
Wassergewölbe (Zisterne)
O
Altstadtbummel
O
Chora-Kirche
ü
80
Kapitel 2: Codierung der Daten
Beispiel: Fragebogen zur Touristenbefragung Ostern 1995 Frage 9
(Fortsetzung)
Welche dieser Sehenswürdigkeiten hat Sie am meisten beeindruckt?
1. 2. 3. Frage 10
Bitte zählen Sie ein paar Dinge auf, die Ihnen an Istanbul ganz besonders gut gefallen.
1. 2. Frage 11
Bitte zählen Sie ein paar Dinge auf, die Sie persönlich an Istanbul ganz besonders stören, und die Ihrer Ansicht nach verbessert werden sollten.
1. 2. Frage 12
Werden Sie Istanbul nochmals besuchen?
Ja
Q
ü
Nein
Begründung: Frage 13
Bitte kreuzen Sie an bis 25 f.
Männlich
O
Weiblich
O
ü
26-35 J. O 35-45 f.
}.
Q
über 55 f.
46-55
Q
O
Frage 14
Mit wem sind Sie nach Istanbul gekommen?
Ehepartner
O
Reisegruppe
ü
Mit Familie
Alleine
U
Mit Freunden
O
Freund/Freundin U
Vielen Dank für Ihre
Mitarbeit!
O
2.1. Anwendungsbeispiel
81
Vor der Durchführung der Befragung wurde der Fragebogen einem PreTest unterzogen, um ihn auf Verständlichkeit zu prüfen. Die Interviewer (Studenten der Deutschsprachigen Abteilung der Marmara-Universität im Hauptstudium mit Studienschwerpunkt im Fach "Marketing") wurden im Rahmen einer Interviewerschulung auf ihre Aufgabe vorbereitet. Um eine Gleichverteilung der Stichprobe der Befragten hinsichtlich der Kriterien Alter und Geschlecht sicherzustellen, wurde den Interviewern ein Quotenplan vorgegeben. Die Quoten orientierten sich an der Verteilung, die sich aus der amtlichen Statistik über deutsche Türkeibesucher ergibt. Insgesamt konnten 184 auswertbare Interviews in die Untersuchung einbezogen werden. Im Rahmen der nachfolgenden Kapitel (Datenanalyse) wird auf die Daten aus dem Beispiel noch ausführlich eingegangen werden. Das Beispiel wurde für die weiteren Darstellungen ausgewählt, da ihm eine relativ einfach durchzuführende und nachvollziehbare Untersuchung zugrunde liegt. Es werden in diesem Beispiel alle Phasen im Phasenmodell des Marktforschungsprozesses abgehandelt (vgl. Abb. 10).
2.2. Grundsätze der Codierung 2.2.1. Begriffliche Grundlagen: Datenmatrix, Variable, Merkmalsausprägung Um die erhobenen Daten für den Rechner lesbar zu machen, müssen sie in eine maschinenlesbare Form überführt werden. Diesen Vorgang nennt man Codierung. Die Codierung ist eine notwendige Voraussetzung für die Datenanalyse. Man kennt den Begriff "Code" auch aus anderen Bereichen, z.B. aus Agentenfilmen, wo ein zu übermittelnder Text mit Hilfe eines Geheimcodes verschlüsselt wird, damit er für die "andere Seite" nicht mehr lesbar ist etc.
Kapitel 2: Codierung der Daten
82
Mit Codierung (bzw. Verschlüsselung) wird in unserem Zusammenhang der gleiche Vorgang umschrieben: Wir weisen unseren Befragungsergebnissen "verschlüsselte" Werte zu, die einer bestimmten Logik unterliegen. Diese Logik erlaubt es dem Rechner, die Daten zu lesen. Da ein Computer und ein Rechenprogramm i.d.R. nur Zahlen (= numerische Zeichen) lesen können, müssen wir die Antworten der Befragten in Zahlen umwandeln.
Beispiel für Codierung: Frage 1 des Fragebogens lautet: Wie oft waren Sie schon in Istanbul? Die Antwortkategorien bekommen jeweils einen numerischen Wert zugewiesen: Antwort:
Wert {Code):
"Bin zum ersten Mal hier.'"
1
"Bin zum zweiten Mal hier."
2
"Bin zum dritten Mal hier."
3
"Mehr als dreimal."
4
Gespeichert wird schließlich nur derjenige Wert, der vom Befragten angekreuzt wurde. Die Antworten bzw. die zu den Antworten gehörenden Codes werden in einer Matrix abgetragen und gespeichert. Diese Matrix nennt man Datenmatrix oder Rohdatensatz. Die Datenmatrix hat stets den gleichen Aufbau: Auf der waagerechten Achse werden die Antworten für jede Frage abgetragen; auf der senkrechten Achse werden die Fälle, d.h. die einzelnen Befragten abgetragen:
83
2.2. Grundsätze der Codierung
Variable (z.B. Antworten) 1 2 3 4 5 6 7
11112
1 . . .
2 1 2 2 2 3 1 1 2 . 4 1 1 . . 5 1 . . . 6
.
.
.
m
. . . . . . . . . .
.
Fälle (z.B. Befragte)
. . . . i . . . 2 2
. . 2 5 1 . 1 1 2
1115
5
1,
Abb. 11: Datenmatrix mit n Fällen bei m Variablen
Jeder Fall entspricht einem Befragten; da wir 184 Personen befragt haben, befinden sich in unserem Datensatz 184 Fälle oder 184 Zeilen. In der Datenmatrix wird für jede Frage ein Antwortplatz reserviert. Falls der Befragte die entsprechende Frage nicht beantwortet hat, wird dieser Platz durch ein Leerzeichen ausgefüllt. Die Fragen führen zu den "Variablen", da die Antworten auf die Fragen unterschiedliche Werte annehmen können.
Kapitel 2: Codierung der Daten
84
Beispiel: Variablen der "Touristenbefragung Ostern 1995 " FragenNummer
Kurzbezeichnung
VariablenName
1 2 3 4 5 5 5 5 6 6 6 6
Nr. des Bogens Interviewer Wie oft? Wie lange? Art d. Hotels Organisation Gesdiidite Ferien Essen Freunde Reiseführer Sadibüdier Vorträge Berichte
AI A2 A3 A4 A5 A6
7 7 7 7 7 7 7 7
Unterkunft Reiseorganisation Türk. Speisen Unterhaltung Einkauf Museen Sehenswürdigkeiten Alles in allem
Dl D2 D3 D4 D5 D6 D7 D8
8 8 8 8 8 8
Antike Kunst Bosporus Topkapi-Palast Dolmabahce-Palast Süleymaniye-Mosdtee Zisterne
El E2 E3 E4 E5 E6
12
Nodimal
Fl
13
Gesdiledit
14
Begleitung
Istanbul?
B1 B2 B3 B4
5 5 5 5
Einkaufen Naditleben Spradie Neugierde
B5 B6 B7 B8
CI C2 C3 C4
6 6 6 6
Werbeprospekte Zeitsdiriften Reisebüro Sonstiges
CS C6 C7 C8
8 8 8 8 8 8
Galata-Turm Großer Basar Hagia Sophia Blaue Mosdiee Alte Stadtmauer Altstadt
E7 E8 119 E10 Ell E12
F2
13
Altersgruppe
F3
1
Im obigen Beispiel sind als Antwort auf Frage 1 vier Antwortkategorien bzw. vier Werte denkbar. Den Wert (Antwort), den die Variable bei der Person m schließlich annimmt, nennt man Merkmalsausprägung (oder Variablenausprägung). Wenn der erste Befragte bereits dreimal in Istanbul war, so hat die Merlarialsausprägung (Antwort) für die erste Variable den Wert 3. W i e man an dem Beispiel sieht, ist die Anzahl der Variablen nicht notwendigerweise identisch mit der Anzahl der Fragen auf dem Fragebogen. Dafür kann es insbesondere drei Gründe geben:
2.2. Grundsätze der Codierung
85
Erster Grund: Codierung von "offenen Fragen" Wenn man "offene Fragen" nicht codiert oder erst später codiert, werden sie nicht auf dem Datensatz erfaßt bzw. erst später hinzugefügt. Dadurch kann sich die Zahl der Variablen verkürzen. Beispiel für "offene Fragen": Frage 9 ("Welche dieser Sehenswürdigkeiten hat Sie am meisten beeindruckt?"), Frage 10 ("Bitte zählen Sie ein paar Dinge auf, die Ihnen an Istanbul ganz besonders gut gefallen.") und Frage II ("Bitte zählen Sie ein paar Dinge auf, die Sie persönlich an Istanbul ganz besonders stören, und die ihrer Ansicht nach verbessert werden sollten.").
Die Fragen 10 und 11 unterscheiden sich jedoch von Frage 9 darin, daß sie "völlig offen" sind, d.h. die Befragten in ihrem Antwortverhalten völlig frei waren. Wir haben diese beiden Fragen nicht über EXCEL ausgewertet, sondern per Hand (Strichliste) ausgezählt. Frage 9 ließe sich hingegen leicht vercoden, da sich die Antworten auf die unmittelbar vorhergehende Frage 8 bezogen; es könnte also für Frage 9 der gleiche "Schlüssel" wie für Frage 8 verwendet werden. Zweiter Grund: Codierung von Mehrfachantworten Wenn man Fragen erfaßt, die dem Befragten mehrere Möglichkeiten gleichzeitig als Antwort bereitstellen, dann muß jede dieser Antwortmöglichkeiten als eine eigene Variable erfaßt weden; dadurch kann sich die Anzahl der Variablen vergrößern. Beispiel zu
Mehrfachantworten:
Frage 6 lautet: "Bitte kreuzen Sie an, wie Sie sich auf die Reise vorbereitet haben." Als Antworten werden sieben Kategorien vorgegeben sowie die Kategorie "Sonstiges". Da der Befragte sowohl die Antwort "Reiseführer" als auch "Sachbücher" (und die anderen Kategorien auch) gleichzeitig ankreuzen kann, handelt es sich um eine Frage mit Mehrfachantworten.
86
Kapitel 2: Codierung der Daten
Es muß also jede einzelne Antwortkategorie getrennt als Variable erfaßt werden. Frage 6 umfaßt folglich acht Variablen. Die Variablen können als Ausprägung die Werte ja (= 1) oder nein (= kein Wert, oder 0) annehmen. Dritter Grund: Codierung von "neuen" Variablen Manche Variablen werden erst im Prozeß der Datenanalyse errechnet und dann den Merkmalsträgern (Personen) zugewiesen. Solche Variablen können zum Beispiel als Durchschnittswerte von anderen Variablen entstehen. Diese Durchschnittsnoten von mehreren Einzelnoten können dann am Ende des Datensatzes hinzugefügt werden, wodurch sich dieser verlängert. Ein anderes Beispiel sind Rohwerte, die erst später zu Kategorien (Klassen) zusammengefaßt werden. Damit werden die ursprünglichen Daten zweimal auf dem Datensatz gespeichert: Als Rohdaten und als codierte Daten. Beispiel für Zusammenfassen von Rohdaten in Kategorien: Die Altersangaben der Befragten (Jahre) wurden in die fünf Kategorien 1 2 3 4
= bis 25 Jahre, — 26 bis 35 Jahre, = 36 bis 45 Jahre, = 46 bis 55 Jahre,
5 = über 55 Jahre zusajn mengefaßt. Hier wurden die Rohdaten nicht gespeichert, es sind nur die Kategorien (F3) auf dem Datensatz abgespeichert. Insgesamt umfaßte der Datensatz schließlich 45 themenbezogene Variablen. Daneben wurden noch die Fragebogennummer und die Interviewernummer abgespeichert. (Diese Vorgehensweise empfiehlt sich, da man dadurch den einzelnen Datensatz leichter wiederfindet und ihn dem entsprechenden Fragebogen zuordnen kann.) Alles zusammen ergibt sich ein Datensatz mit 47 Variablen bei 184 Fällen.
2.2. Grundsätze der Codierung
87
Aus Gründen der Übersichtlichkeit ist es sinnvoll, den einzelnen Fragen Variablennamen zuzuordnen. Diese Variablennamen erleichtern die Arbeit am Rechner und sollten möglichst kurz sein. Üblicherweise verwendet man Buchstaben und Zahlen zur Kennzeichnung. Die Variablennamen selbst werden nicht ausgewertet, sondern dienen nur der Kennzeichnung der Variablen in der Kopfzeile der Datenmatrix. Beispiel zur Wahl der Variablennamen: Da als erstes die Fragebogennummer und der Interviewername abgespeichert werden sollten, wurden diesen beiden Variablen die Namen AI und A2 zugeordnet. Frage 1 bis Frage 4 wurden die Namen A3 bis A6 zugeordnet. Frage 5 ("Aus welchen Gründen befinden Sie sich in Istanbul") setzte sich aus acht Teilfragen zusammen, denen jede eine eigene Variable zugeordnet werden mußte. Um diese Fragen von den vorhergehenden zu unterscheiden, wurden ihnen die Variablennamen B1 bis B 8 zugewiesen usw.
2 . 2 . 2 . Codierungsgrundsätze Für die Zuordnung von Werten für die Antwortkategorien gibt es einige Grundsätze, die beachtet werden sollten (vgl. auch: Böhler 1992, S. 158): Grundsatz 1: Lesbare Codes verwenden! Beispiel fiir die Lesbarkeit von Codes: Die Codes sind leicht lesbar, wenn man sie beispielsweise in der gleichen Reihenfolge wie Schulnoten verwendet (1 = "sehr gut", 2 = "guf etc.), wie es bei Frage 7 gemacht wurde. Auf diese Weise kann sowohl der Rechner als auch der Mensch die Rohdaten unmittelbar verstehen und eventuelle Fehler rechtzeitig erkennen.
88
Kapitel 2: Codierung der Daten
Grundsatz 2: Für ähnliche Fragen sollten die gleichen Codes verwendet werden! Beispiel für die Ähnlichkeit von Codes bei ähnlichen Fragen: Die Antworten auf die Teilfragen von Frage 5 ("Aus welchen Gründen befinden Sie sich in Istanbul") sind alle in den gleichen Codes abgespeichert (1 = "sehr wichtig, 2= "wichtig", 3 = "nicht wichtig'). Ähnliche Codes für ähnliche Fragen zu verwenden erleichtert dem Befragten die Beantwortung der Fragen, da er nicht jedesmal neu über die Antwortskala nachdenken muß; es erleichtert aber auch das Einlesen der Daten in den Rechner.
Grundsatz 3: Die Antwortkategorien sollten vollständig sein und bei Bedarf mit "Sonstiges" ergänzt werden! Beispiel für die Vollständigkeit der Antwortkategorien: Auf Frage 6 wurden zahlreiche Informationsquellen, die in Frage kommen können, vorgegeben. Da aber nicht ausgeschlossen werden kann, daß trotzdem wichtige Informationsquellen nicht erfaßt sind oder auch einzelne Touristen spezielle (nicht genannte) Informationsquellen nutzen, wurde die Kategorie "Sonstiges" hinzugefügt (siehe auch Frage 3 und 4).
Grundsatz 4: Die Antwortkategorien sollten sich gegenseitig ausschließen! Wenn sich Antworten überschneiden, lassen sie sich nicht eindeutig auswerten. Auch wird der Antwortende dadurch irritiert, daß er nicht weiß, wo er sein Kreuzchen setzen soll. Oft zeigt sich erst im Pre-Test, daß sich Antworten überschneiden können.
89
2.2. Grundsätze der Codierung Beispiel für die (fehlende) Ausschließung von
Antwortkategorien:
In Frage 14 ("Mit wem sind Sie nach Istanbul gekommen?" ergab sich (leider) eine Überschneidung, da die befragten Touristen sowohl die Antwort "Ehepartner" als auch "mit Familie" ankreuzen konnten, wenn Sie mit dem Ehepartner und mit Kindern unterwegs waren.
Grundsatz 5: Die Antworten sollten möglichst als Originalwerte erfaßt werden. Oftmals ist es für nachfolgende Analysen wichtig, auf die Originaldaten zurückgreifen zu können, da man bestimmte Analyseverfahren durchführen will, die vorab nicht geplant waren. Durch spätere Codierung der Daten wird verhindert, daß wichtige Informationen frühzeitig verlorengehen. Beispiel für die Bewahrung der Originaldaten: So ist es bei Frage 13 (Alter) besser, wenn man das genaue Alter (in Jahren) erfaßt und auf dem Rohdatensatz speichert, als wenn man lediglich die Antwortcodes von 1 bis 5 erfaßt. Die Altersangaben in Jahren besitzen Kardinaldatenniveau und eröffnen deshalb bessere Möglichkeiten der Datenanalyse als die vercodeten Daten, die lediglich ordinales Dateniveau aufweisen.
Grundsatz 6: Die Codierung sollte bei der Konzeption des Fragebogens bereits beachtet werden (Pre-Coding)! Wenn man bereits bei der Gestaltung des Fragebogens wichtige Codierungsgrundsätze beachtet, dann lassen sich Fehler bei der Datenerfassung vermeiden bzw. die Datenerfassung kann erleichtert werden.
90
Kapitel 2: Codierung der Daten
Beispiel für Vorteile des Pre-Coding: Es lassen sich z.B. die Fragen übersichtlicher auf einzelne Seiten des Fragebogens ordnen, wenn man beachtet, daß eine Variablengruppe nicht durch Seitenumblättern unterbrochen wird.
Durch Pre-Coding, d.h. Codierung des Fragebogens vor der Befragung, können bereits auf dem Fragebogen die Antwortcodes in Weinen Ziffern neben den Antwortkästchen abgedruckt werden. Dies erleichtert erheblich die Erfassung der Daten am Rechner und hilft, Übertragungsfehler zu vermeiden. Hinsichtlich der Möglichkeiten der Überprüfung der Daten auf unzulässige Codes sei auf Abschnitt 3.3. (Überprüfung der Daten auf Eingabefehler) verwiesen. Hierbei kann EXCEL bereits hilfreich zur Seite stehen. Einfache Eingabefehler können aber bereits "per Hand" bzw. "per Auge" erkannt werden, indem man die entsprechenden Datenreihen auf unzulässige Werte hin kontrolliert.
2.2.3. Der Codeplan Der Codeplan faßt alle Entscheidungen übersichtlich zusammen, die im Rahmen der Codierung getroffen werden. Falls die Codierung bereits auf dem Fragebogen vermerkt ist (Pre-Coding), kann auf den Codeplan verzichtet werden. Ansonsten stellt der Code-Plan den Schlüssel für die "Rück-Codierung" der Ergebnisse dar. Man stelle sich den Geheimagenten vor, der seinen Codeplan verliert, und danach seine selbstvercodeten Nachrichten nicht mehr lesen kann. Genauso wird es dem Marktforscher ergehen, wenn er sich nicht rechtzeitig einen Codeplan erstellt. Der Codeplan dient als Merkzettel für den Analytiker. Er ist aber auch als Hilfe gedacht, wenn sich Dritte mit den Daten beschäftigen und sie lesen wollen.
91
2.2. Grundsätze der Codierung
Bei manchen Rechnerprogrammen, z.B. bei SPSS, erstellt das Programm auf Anfrage einen Codeplan (vgl. Saurwein/Hönekopp 1992, S. 47 f.). Bei der Datenanalyse mit EXCEL ist es sinnvoll, sich rechtzeitig eine Übersicht selbst zu erstellen. Der Codeplan enthält folgende wichtige Informationen: • • • • •
Fragenummer, Frageformulierung, Variablenname, Antwort, Antwortcode.
Beispiel
für
einen
Fragennuimer
Codeplan:
Frageformulierung
Variablenname
Fragebogen-Nr.
AI
In tervi
A2
Frage
Frage
ewername
1
2
Wie oft waren Sie schon in Istanbul?
Wie lange haben Sie vor, in I s t . zu bleiben?
Antwort
Herr Herr Herr Frau Frau
A B C A B
Antwortcode
1 2 3 4 5
A3
A4
zum ersten Mal zum zweiten Mal zum dritten Mal mehr als dreimal
2 3 4
1-3 Tage ca. eine Woche ca. zwei Wochen ca. drei Wochen über drei Wochen
1 2 3 4 5
1
92
Kapitel 2: Codierung der Daten
Oftmals werden auch nach Abschluß der Codierung noch wichtige Entscheidungen, z.B. im Rahmen der Datenerfassung, getroffen, die nachträglich auf dem Codeplan notiert werden sollten. Dies betrifft beispielsweise die Vergabe von Variablennamen für "neue" Variablen oder die Analyse von "Offenen" Fragen, für die im nachhinein Codes vergeben werden. Im Rahmen der Datenanalyse erweist es sich als vorteilhaft, wenn man sich neben dem Codeplan auch ein Verzeichnis der erzeugten Dateien anlegt.
Kapitel 3: Datenerfassung und Datenaufbereitung mit EXCEL 5.0 3.1. Kurzeinführung in EXCEL 5.0 3.1.1. Begriffe Nehmen wir an, daß auf Ihrem Computer bereits Microsoft EXCEL 5.0 in der Standard-Version installiert wurde. Wenn Sie nun EXCEL 5.0 starten, müßte sich folgendes auf dem Bildschirm zeigen: M
Datei
Bearbeiten
Ansicht
Microsoft Excel M a p p e ! Einfügen format Cxtras
Date.nFenster2
100«
wr Dies ist das übliche Startbild von EXCEL 5.0 - sehen wir uns seine Bestandteile an und lernen die Begriffe kennen.
94
Kapitel 3: Datenerfassung und Datenaufbereitung mit Excel 5.0
Ganz oben, in der Mitte des blauen Balkens, befindet sich die Fensterüberschrift Microsoft EXCEL - Mappe 1. Solange dieses "Mappe 1" sichtbar ist, sind die erfaßten Daten noch nicht gesichert. Hat man dagegen die Daten in einer Datei abgelegt, so steht anstelle des Mappe 1 dann der Name der Datei, in der sich die Daten befinden. Ganz links oben, neben dem blauen Balken, befindet sich ein kleines graues Quadrat mit einem Minuszeichen. Das ist die Schaltfläche für das Systemmenü - mit seiner Hilfe kann man die Arbeit mit EXCEL beenden oder zu einer anderen Windows-Anwendung wechseln. Bekanntlich läßt das Betriebssystem Windows es zu, mehrere Programme gleichzeitig im Zugriff zu haben und Daten wechselseitig zu übergeben. Für uns speziell ergibt sich damit die Möglichkeit, eine Textverarbeitung (Word für Windows oder WordPerfect für Windows) und gleichzeitig EXCEL zu nutzen. Damit können die EXCEL-Ergebnisse sofort in die Texte übernommen werden. Unter der blauen Zeile mit der Fensterüberschrift befindet sich die Menüleiste. Sie enthält mit den Worten Datei
Bearbeiten Ansicht
Einfügen Format Extras Daten Fenster ?
die Überschriften für kleine Fenster, die sich bei Auswahl eines Begriffes nach unten öffnen (sogenannte pull-down-Menüs). Diese pull-downMenüs präsentieren dann die zu dem jeweiligen Oberbegriff verfügbaren Leistungsangebote von EXCEL. Links neben der Menüzeile befindet sich wieder eine Schaltfläche für ein Systemmenü - dieses Menü allerdings bezieht sich nicht auf das gesamte EXCEL, sondern nur auf die im Moment bearbeitete Datei. Unter der Menüzeile befindet sich meist eine erste Symbolleiste. Hat sie das Aussehen wie in unserem abgebildeten EXCEL-Fenster, so ist es die Standard-Symbolleiste. Sie enthält 2 2 Schaltflächen, die jeweils mit der Maus angeldickt werden können, um bestimmte Wirkungen zu erzielen. Jede Schaltfläche wirkt wie eine herausstehende Taste - wird sie betätigt, dann verschwinden die "Schatten", man erkennt damit, welche Schaltfläche aktiviert ist.
3.1. Kurzeinführung in Excel 5.0
95
Unter dieser ersten befindet sich bei uns noch eine zweite Symbolleiste. Sie heißt Format-Symbolleiste und stellt Schaltflächen zur Formatierung von Text und Zahlen bereit. Richtet man den Mauszeiger auf eine Schaltfläche in solch einer Symbolleiste und wartet ein bis zwei Sekunden, dann erscheint ein ldeines Rechteck mit einem erläuternden Wort zu dieser Schaltfläche. Die beiden Symbolleisten, die in der Abbildung gezeigt werden, können aber auch fehlen - oder umgekehrt können mehrere oder andere Symbolleisten vorhanden sein. EXCEL 5 . 0 bietet jedem Nutzer an, bis zu zehn Symbolleisten verwenden zu können. Welche das im einzelnen sind, erfährt man, wenn man im Menü Ansicht die Leistung Symbolleisten... wählt. Die jeweils angekreuzten Symbolleisten sind dort erkennbar durch Anklicken mit der Maus schafft oder beseitigt man das Kreuz. Ob nun aber diese zwei oder andere oder gar keine Symbolleisten zu sehen sind - der darunter stehende Tabellenkopf ist immer zu sehen. Es enthält links die Adresse der aktiven Zelle (bei uns B3) und rechts die lange, helle Eingabezeile. Hier erscheint stets alles, was eingetippt wird. Unter dem Tabellenkopf dann die EXCEL-Tabelle. Sie besteht aus Zeilen und Spalten. Die Zeilen sind durchnumeriert von 1 bis 16384, die Zeilennummern befinden sich ganz links in den Zeilenköpfen. Die Spalten, wie an den Spaltenköpfen erkennbar, sind dagegen mit Buchstaben gekennzeichnet - zuerst von A bis Z, dann von AA bis AZ, von BA bis BZ und so weiter bis schließlich IA bis IV. Wer nachzählt, wird feststellen, daß also maximal 2 5 6 Spalten genutzt werden können! Durch Zeilen und Spalten sind die Zellen beschrieben - ihre Adresse beginnt stets mit dem Buchstaben oder dem Buchstabenpaar der Spalte, in der sich die Zelle befindet, und endet mit der Nummer ihrer Zeile. Die erste Zelle links oben trägt also die Adresse A1, die letzte Zelle rechts unten die Adresse IV16384. Die aktive Zelle wird durch einen Rahmen hervorgehoben - manchmal sagt man zu diesem Rahmen auch Tabellenkursor. In unserem Bild ist also die Zelle B3 aktiv.
96
Kapitel 3: Datenerfassung und Datenaufbereitung mit Excel 5.0
Bleiben wir bei dem Bild. Man sieht sofort, daß von den maximal 4194304 Zellen, die ein EXCEL-Tabellenblatt enthalten kann, gerade 133 Zellen vollständig sichtbar sind. Selbst wenn man daran denkt, die Spalten und die Zeilen schmaler zu machen (was natürlich möglich ist), so wird es doch bei Anwendungen aus der Praxis unmöglich sein, eine komplette große Tabelle auf dem ldeinen Computerbildschirm auf einen Blick erfassen zu können. Man sieht immer nur einen (zu ldeinen) Ausschnitt. Dieser Mangel läßt sich nicht beheben, man muß mit ihm leben. Natürlich kann man aber relativ schnell den Inhalt des sichtbaren Ausschnittes ändern, also je nach Sichtweise den Bildschirm "über die Tabelle" bewegen (oder anders gesehen - die Tabelle "hinter dem Bildschirm entlangziehen"). Will man das mit der Maus machen, so kann man dazu die Schieberegler am rechten und unteren Tabellenrand benutzen. Als letztes muß erklärt werden, was es mit diesem Register mit den Bezeichnungen Tabelle 1, Tabelle 2 usw. am unteren Bildschirmrand auf sich hat. Hier handelt es sich um eine Neuigkeit von EXCEL 5.0 im Vergleich zu seinen Vorgängern. Konnte man früher immer nur eine einzige Tabelle in einer Datei erfassen, so erlaubt EXCEL 5.0 nunmehr, bis zu 16 Tabellen in einer Arbeitsmappe zusammenzufassen. Allgemeiner muß man sogar sagen - es können bis zu 16 Blätter zusammengefaßt werden. Denn ein Blatt muß nicht in jedem Fall eine Tabelle enthalten. So sind beispielsweise auch Diagrammblätter denkbar. Am Ende dieses Abschnitts wollen wir schließlich für alle EXCEL-Nutzer, die eine englischsprachige Version nutzen, die wichtigsten der vorgestellten Begriffe in ihren deutschen und englischen Vokabeln nebeneinander stellen. Zeile Spalte Zelle
row column cell
3.1. Kurzeinführung in Excel 5 . 0
97
3 . 1 . 2 . Bedienung von E X C E L 5 . 0
Zur Eingabe von Zahlen oder von Text in die Zellen einer Tabelle benötigt man natürlich die Tastatur. Anders geht es nicht. Für diese Zwecke besitzt jede Computertastatur den separaten Ziffernblock, fast ausschließlich rechts angeordnet. Achtung! Sollte die Zahleneingabe über diesen Ziffernblock nicht möglich sein, dann prüfen Sie, ob die Anzeige NumLock leuchtet. Ist das nicht der Fall, muß die Taste 0 gedrückt werden.
Nach der Eingabe einer Zahl oder eines Textes in eine Zelle muß ihr Abschluß mitgeteilt werden. Das kann mit der ENTER-Taste 1 J J (oft auch als RETURN-Taste b e z e i c h n e n d e r einer der Richtungstasten [) steuern Sie das gewünschte Menü an. Druck auf die Taste (JQ öffnet Ihnen dann das Menü; Sie wählen die gewünschte Leistung aus, bestätigen mit der Eingabeabschlußtaste ENTER [ j ]. Öffnet sich Ihnen dann ein Dialogfeld mit vielen verschiedenen Eingaben, so steuern Sie mit der Tabulatortaste [ix[) über das Feld. Ist ein Kreuz einzutragen oder zu löschen, so ist dazu die Leertaste zu nutzen. Beispiel zur Bedienung von EXCEL über die Menüleiste: Sehen wir uns an, wie man die Format-Symbolleiste mit dieser Art der Bedienung entfernen könnte. Zuerst also mit jf10| zur Menüleiste. Dann dreimal Q nach rechts bis zum Menü Ansicht. Druck auf [Tj und das Menü öffnet sich, die dort angebotenen Leistungen sind sichtbar. Weiter zweimal ¡T] bis zur Leistung Symbolleisten. Bestätigung mit ENTER ( j ]. Das Verzeichnis aller Symbolleisten erscheint. Anwahl der Zeile Format mit |T} Mit der Leertaste beseitigt man das Kreuz. Bestätigung mit ENTER [ j ]. Die zweite Symbolleiste ist verschwunden. Dritte Möglichkeit der EXCEL-Bedienung: Die Arbeit mit der ("«__)Taste und den Steuerbuchstaben. In der Menüzeile ist jeweils ein Buchstabe durch Unterstreichung hervorgehoben. Drückt man die |*it ¡-Taste und dazu den Buchstaben des Menüs, das man wählen möchte, dann öffnet sich sofort dieses Menü. Wieder sind für die jeweiligen Leistungen Steuerbuchstaben hervorgehoben. Diese allerdings werden ohne die [*it [-Taste eingetippt, und weiter geht es. Erscheint ein Dialogfeld mit vielen verschiedenen Eingabemöglichkeiten, so sind auch hier wieder Steuerbuchstaben zu sehen - mit der |«t )-Taste und dem entsprechenden Buchstaben wählt man schnell die gewünschte Eingabe aus.
101
3.1. K u r z e i n f ü h r u n g in Excel 5.0
Beispiel zur Arbeit mit der (««" \Taste und den Steuerbuchstaben: Einige Daten sind in der EXCEL-Tabelle erfaßt, sie muß zum ersten Male auf Diskette gespeichert werden, soll bei irgendeiner Störung, und sei es auch nur ein kurzzeitiger Stromausfall, die Arbeit nicht umsonst gewesen sein. Die Diskette befindet sich im Laufwerk A. fit ]+fo] das Menü Datei gewählt.
Was ist zu tun? 'Zuerst wird mit
Für die Leistung Speichern unter drückt man danach nur die Steuertaste [uj Es erscheint das Dialogfeld für die Festlegung der Einzelheiten der Speicherung:
Datei
Oearbeiten
Ansicht
Microsolt Excel - M a p p e l Einfügen Format Extras
Daten
Fenster
A4
m
«
B 2; 5
M i
?
S
•
;
8: Speichern unter Datatane;
Xpjawchwit«;
OK
:|mappel xli
Abbrechen
J
j
Qjbeiipiel f l encelcbt CDmakio CD letup Cj»l«tait Laufwetka:
17
:
:| H e : m» dot E-2
11
19
"M 11 51
,T-t.ellet l I f i M ü l
j Vflbeitei / f ^ t e ë
"j"
n r
102
Kapitel 3: Datenerfassung und Datenaufbereitung mit Excel 5.0
Mit (ZELLEN->SCHRIFTART aus, wie die eingetragene Zahl 5 das Format Times Roman mit Größe 20 erhalten kann. Beschreiben Sie, was Sie dazu mit der Maus oder unter Verwendung der Steuerbuchstaben für Handlungen ausführen müssen.
103
3.1. Kurzeinführung in Excel 5.0 Vierte
Möglichkeit
der
EXCEL-Bedienung:
Die
Arbeit
mit
den
Schnellwahl-Tasten. Jede Taste auf der Computertastatur kann bis zu fünf verschiedene Bedeutungen haben. Zuerst die elementare Bedeutung - das sind die Kleinbuchstaben und Ziffern sowie die wichtigsten Sonderzeichen wie Punkt und Komma. Dann, in Verbindung mit der Umschalttaste (], kommen die Großbuchstaben und die anderen Sonderzeichen, die über den Ziffern stehen, wie Prozentzeichen, Klammern und Ausrufezeichen.
Umschalt
.Shift
Die dritte Belegung ergibt sich aus der Kombination mit der [sar T ßafawn I : Horizontal Ve»«kal ! r St Nichts ist bei der Arbeit mit Assistenten nicht nachträglich änderbar!
4.5.2. Ermittlung von Häufigkeitstabellen Kehren wir zurück zu unserem Beispiel "Touristenbefragung Ostern 1995". Bereits die erste Frage läßt den Wunsch nach Häufigkeitstabelle und Histogramm aufkommen. Frage I
Wie oft waren Sie schon in Istanbul?
Bin zum ersten Mal hier O Bin zum zweiten Mal hifrQ
Bin zum dritten Mal hier ü Mehr als dreimal O
156
Kapitel 4: Univariate Datenanalyse
Die Antworten zu dieser Frage wurden mit 1 bis 4 codiert und als Variable A3 bezeichnet. Sie befinden sich also im Bereich von E3 bis E186 unserer Tabelle. Bevor wir zur Arbeit mit dem Werkzeug Histogramm kommen, sollten zwei vorbereitende Schritte durchgeführt werden.
Schritt 1: Die infrage kommenden Daten werden in der großen Tabelle markiert und dann in ein neues, bisher leeres Blatt (beispielsweise Tabelles oder A3) kopiert. Damit umgeht man das Risiko, daß die wertvollen Daten in Tabellel zerstört werden; außerdem schafft man dort gleich den Raum für Häufigkeitstabelle und Histogramm. In unserem Beispiel bedeutet das also, daß wir den Bereich E3 bis E186 markieren, über Bearbeiten Kopieren zum Einfügen vorbereiten, das neue Arbeitsblatt wählen und dort ab A1 einfügen.
Schritt 2: Es müssen die Klassengrenzen festgelegt und eingetragen werden - bei der hier behandelten Variablen sind es nur die Merkmalswerte. Im Beispiel bedeutet das, daß wir in die Spalte B untereinander die Zahlen 1 bis 4 eintragen.
Nun kommen wir im Menü Extras über die Leistung Analyse-Funktionen zu dem Angebot der EXCEL-Statistik-Werkzeuge und entscheiden uns für Histogramm.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
157
16 2 1? 1 1» 2 19 2 3 i i i m i m ist Auf dem Bildschirm erscheint nun, wie bei jedem Werkzeug, ein Dialogfenster, in das wir nur noch die entsprechenden Angaben eintragen brauchen: Der Eingabebereich umfaßt die Daten - bei uns ist es also der Bereich von A1 bis A184. Der Klassenbereich umfaßt die vorgegebenen Klassenwerte - bei uns B1 bis B4. Diese beiden Spalten haben keine Beschriftungen. Standardmäßig wird vorgeschlagen, Häufigkeitstabelle und Histogramm auf ein neues Tabellenblatt auszugeben. Schließlich kreuzen wir noch Diagrammdarstellung und Kumulierte Häufigkeit an, damit EXCEL uns eine Tabelle mit möglichst vielen Angaben und dazu tatsächlich das Histogramm erzeugt.
Kapitel 4: Univariate Datenanalyse
158
Nach Bestätigung dieser Eingaben (entweder langsam mit der Maus die Schaltfläche OK suchend oder schneller mit der ENTER-Taste) erzeugt EXCEL uns dann die Tabelle mit den absoluten Häufigkeiten und den relativen Summenhäufigkeiten: Klasse
i 1 2 3 4
iund größer I
Häufigkeit i Kumuliert % \ 134: 7322%] 32 90,71% 4 92,90% 13 100,00% 0 100,00%
Leider hat man aus irgendwelchen Gründen vergessen, das Werkzeug Histogramm so zu programmieren, daß auch gleich die Summe, die relativen Häufigkeiten und die absoluten Summenhäufigkeiten mit erscheinen. Sollte dies noch gewünscht werden, muß es "per H a n d " durch Eintragen von Formeln erzeugt werden: Klasse
! Häufigkeit Kumuliert % ; Summenhäufigk 1 134 73,22%i=B2 9Ö,7i%:=Ö2+B3 2 32 4 92,90% =D3+B4 3i 4; 13 100,00%;=D4+B5 und größer i 0 100,00% =D5+B6 -SUMME(B2:B6)
eit \ relativ % ) |=C2 i=C3-C2 : !=C4-C3 ; !=C5-C4 j NC6-C5 !
159
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
Fügt man dann noch links eine Spalte mit den Inhalten an, so ergibt sich die Häufigkeitstabelle in der üblichen Form:
Wie oft? erstes Mal zweites Mal drittes Mal mehr als dreimal
Code 1 2 3 4
Häufigkeit 134 32 4 13
1
166 170 183
90,71% 92,90% 100,00%
17,49% 2,19% 7,10%
183
Gesamt
Ü
Kumuliert % Summenhäufigk eit relativ % 73,22% 134 73,22%
P n m n n l o r - Übung l l h n n n ß6 Computer •
^
M ^
^
Belügende Diskette enthält in der Datei TOUR02 in der Spalte A die Antworten auf die Frage 2 sowie daneben einige Klassenwerte. Stellen Sie mit dem EXCEL-Werkzeug Histogramm die Häufigkeitstabelle her. Beachten Sie dabei die richtige Eingabe von Eingabe- und Klassenbereich. Vervollständigen Sie die Häufigkeitstabelle durch Eintragen entsprechender Formeln mit den absoluten Summenhäufigkeiten und den relativen Häufigkeiten.
Bei solchen Aufgaben wie der gerade gestellten gibt es keine Probleme mit der Interpretation von Häufigkeitstabelle und Histogramm. Es werden die Merkmalswerte als Klassenwerte angegeben. Muß man allerdings wegen zu großer Anzahl an Merkmalswerten Klassen bilden, also Intervalle angeben, dann beginnt das Problem der Klassengrenzen: Arbeitet EXCEL rechtsoffen oder linksoffen? Oder kann man es sich aussuchen?
Kapitel 4: Univariate Datenanalyse
160
Die Antwort: Das EXCEL-Werkzeug Histogramm arbeitet stets linksoffen. Es wird stets abgezählt, wieviele Stichprobenwerte "links bis einschließlich" vom Klassenwert liegen. Beispiel für ein EXCEL-Ergebnis: In die Spalte A wurden untereinander zwölf Zahlen eingetragen: 25 / 26 / 38 / 25 / 31 / 40 / 24 / 33 / 37 / 37 / 21 / 29 Spalte B ¿r/zie/f ¿fe si-f/w Klassengrenzen 20 / 25 / 30 / 35 / 40 /45 EXCEL lieferte dann als Ergebnis folgende Häußgkeitstabelle: Klasse
20! 25 30! 35! 40; 45! !und größer !
Häufigkeit
! Kumuliert %!
0! 4! 2! 2: 4
0: o;
,00%; 33,33%! 50,00%! 66,67%; 100,00%! 100,00%! 100,00%;
Da jetzt bekannt ist, daß EXCEL linksoffen arbeitet, muß man dies also in folgender Weise lesen:
von 21 von 26 von 31 von 36 von 41 über 45
Klasse bis einschließlich 20 bis einschließlich 25 bis einschließlich 30 bis einschließlich 35 bis einschließlich 40 bis einschließlich 4 5
Anzahl 0 4 2 2 4 0 0
Das ist natürlich ein kleiner Mangel an diesem ansonsten sehr schönen Werkzeug aus dem EXCEL-Statistik-Werkzeugkasten: Will man eine rechtsoffene Auswertung erhalten, dann muß man die Klassengrenzen verschieben - oder die Werte, die genau auf eine Klassengrenze fallen, geringfügig modifizieren. Letzteres sollte man sich aber überlegen.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
S
C o m p u t e r - Ü b u n g
161
7
M
Auf beiliegender Diskette befinden sich in der Datei TOUR03 die Altersangaben von 179 Personen. Weiter sind vier verschiedene Klasseneinteilungen enthalten. Ermitteln Sie mit EXCEL die zugehörigen vier Häufigkeitsverteilungen und geben Sie jeweils an, wie man sie interpretieren muß! Vergleichen Sie mit den Lösungen auf Seite 285.
4.5.3. Ermittlung von statistischen Kenngrößen Erinnern wir uns - zur Lösung der Grundaufgaben der univariaten deskriptiven Datenanalyse gehörte auch die Bereitstellung der wichtigsten (und jeweils sinnvollen) statistischen Kenngrößen. Hier haben wir nominal skalierte Daten vorliegen - eigentlich brauchen wir nur den Modus und den Median. Wir könnten sie ermitteln, indem wir die entsprechenden Statistik-Funktionen nutzen. Doch es geht schneller - verwenden wir das Werkzeug Populationskenngrößen aus dem Statistik-Werkzeugkasten von EXCEL 5.0 und vergessen nicht, die Statistischen Kenngrößen anzukreuzen:
Kapitel 4: Univariate Datenanalyse
162 m
zivj
Microsoft Excel TOURIST.XLS Datei Bearbeiten Ansicht £intügen Formal Extras Daten Eenster 2
ü M s W f •ftU^iUM»l;
1,431693989 0,062690573 1 1 0,848062351 0,719209752 3,512929337 2,101703065 3 1 4 262 183
Eine Fülle an Zahlen erscheint dann auf dem Bildschirm. Fast alle sind
für nominale Daten sinnlos!
Aber immerhin - die uns interessierenden Kenngrößen Median und Modus sind auf jeden Fall mit dabei. Man kann also geteilter Meinung sein, ob man sich verwirren läßt mit unsinnigen Kenngrößen, dafür keine Formeln eintragen muß, oder das Werkzeug hier nicht verwendet. (Noch einmal kurz zu der untersten Angabe: Hätten wir Daten auf höchstem Meßniveau gehabt, dann ließe sich hiermit ableiten, daß mit 95-prozentiger Wahrscheinlichkeit der Erwartungswert der Grundgesamtheit im Intervall von 1 , 4 3 1 6 9 - 0 , 1 2 2 8 7 bis 1 , 4 3 1 6 9 + 0 , 1 2 2 8 7 liegt.) Damit haben wir einen schnellen W e g kennengelernt, zu einer beliebigen Variablen die wichtigsten statistischen Kenngrößen zu ermitteln. Das EXCEL-Werkzeug Populationskenngrößen erspart uns dabei das Suchen nach der richtigen Funktion für die jeweilige Kenngröße. Doch merken wir uns: Sinnvoll ist die Arbeit mit diesem Werkzeug
erst ab Daten mit Intervallskalenniveau!
Kapitel 4: Univariate Datenanalyse
164
^
1
Computer - Übung 8
S I S S I
Belügende Diskette enthält in der Datei TOUR02 in der Spalte A die Antworten auf die Frage 2. Ermittlen Sie mit dem EXCEL-Werkzeug Populationskenngrößen die statistischen Kenngrößen. Wählen Sie aus, welche der Kenngrößen für das gegebene Skalenniveau passend sind.
IKiinn 9 Q Computer _- IÜbung
P A m n i i t a r
S
Auf beiliegender Diskette befinden sich in der Datei TOUR03 die Altersangaben von 179 Personen. Ermittlen Sie mit dem EXCEL-Werkzeug Populationskenngrößen die zugehörigen statistischen Kenngrößen.
4.5.4. Ermittlung von Histogrammen Hier können wir uns kurz fassen - das Werkzeug Histogramm bringt uns zur Häufigkeitstabelle auch gleich ein Histogramm, sofern nur im Dialogfenster die Diagrammdarstellung markiert worden war:
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
165
Histogramm M «
200 •ü CT1flü4 1 o
•-» 3 Kloaae
» t 100,00% -• 50,00% J00%
Hnultfcel Kumüierl %
Es gibt nun selbstverständlich die Möglichkeit, dieses Roh-Histogramm zu verbessern. Durch Doppelklick (zweimal kurz hintereinander die Maustaste betätigen) in den Bereich des Histogramms steht dieses zur Bearbeitung zur Verfügung. Möchte man dort Änderungen anbringen, dann klickt man das zu ändernde Teil an, und wählt im Menü Format die erste Leistung, die sich dann immer auf das Markierte bezieht. Wird das Histogramm bearbeitet, so kann es auch separat gedruckt werden. Es kann auch kopiert und in Texte einbezogen werden. Doch für Präsentationen sollte man besser die im folgenden Abschnitt geschilderten Methoden nutzen.
m
Computer - Übung 10 1
^ ^
Beiligende Diskette enthält in der Datei TOUR02 in der Spalte A die Antworten auf die Frage 2 sowie daneben einige Klassenwerte. Stellen Sie mit dem EXCEL-Werkzeug Histogramm das zugehörige Histogramm her.
Computer - Übung 11 Auf beiliegender Diskette befinden sich in der Datei TOUR03 die Altersangaben von 179 Personen. Weiter sind vier verschiedene Klasseneinteilungen enthalten. Ermitteln Sie mit EXCEL die zugehörigen vier Histogramme und geben Sie jeweils an, wie man sie interpretieren muß!
Kapitel 4: Univariate Datenanalyse
166
4 . 5 . 5 . Weitere grafische Darstellungen univariater Daten 4.5.5.1. Übersicht Für die grafische Darstellung univariater Daten gibt es eine Fülle von Möglichkeiten. Sehen wir uns nur einmal das Angebot von EXCEL 5.0 an zweidimensionalen Grafiken an:
Balken
Flächen
ÄS! zwmwm
Linien / 7 < V
1
Punkt (XY)
Dabei sind hier nur die Grundmuster aufgeführt - für jede Grafikart existieren dann, wie wir noch sehen werden, vielfältige weitere Modifikationen. Neben diesen zweidimensionalen Grafiken kann man auch dreidimensional darstellen. Auch hier hat EXCEL ein vielfältiges Angebot.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
3D-Flächen
3D-Balken
3D-Säulen
3D-Linien
3D-Kreis
3D-Oberfl
167
Bis auf die 3D-Oberfläche, die erst in der bivariaten Analyse genutzt werden kann, lassen sich alle anderen Formen der grafischen Darstellung schon für eine Datenreihe verwenden. Dabei soll an dieser Stelle nicht näher darauf eingegangen werden, wann man welche Form der Darstellung nutzen soll - das ist vielmehr Gegenstand des Kapitels 7.2.. Wir werden uns jetzt vielmehr dem Handwerklichen zuwenden - welchen Weg muß man gehen, um von einer Datenreihe zu einer grafischen Darstellung zu kommen? 4.5.5.2. Grafische Darstellungen mit EXCEL 5.0 Grundsätzlich gibt es zwei Wege, um mit EXCEL 5.0 von den Daten zur ausgewählten grafischen Darstellung zu kommen, die =>| M1 1 - Methode und die Arbeit mit dem Diagrammassistenten
Kapitel 4: Univariate Datenanalyse
168
Die ( M1 1 - Methode wird man anwenden, wenn es nur darum geht, schnell das Diagramm zu erzeugen, zu gestalten und dann auszudrucken oder in ein Textdokument zu übernehmen. Allen Anfängern sei diese Methode empfohlen. Sie funktioniert schnell und problemlos - vorausgesetzt, die Daten sind sinnvoll vorbereitet. Wir werden das später sehen. Mit dem Diagrammassistenten H wird man dann arbeiten, wenn man ganz spezielle Wünsche hat oder wenn das Diagramm in bestimmter Größe an ganz bestimmter Stelle eines EXCEL-Tabellenblattes eingepaßt werden soll. Sehen wir uns das Vorgehen mit der [ F11 1 - Methode am besten wieder an unserem Anwendungsbeispiel, der Touristenbefragung Ostern 1995, an. Dort gab es die Frage 3 nach der Unterkunft:
Frage 3
In welcher Art von Hotel bleiben Sie?
* * * * * * * * * ***
O o O
* * U * a Pension O
Sonstiges
Die Antworten wurden von 1 bis 7 kodiert. Sie befinden sich nach der Erfassung in der im Abschnitt 3.2. beschriebenen EXCEL-Tabelle im Bereich von G3 bis G186 - allerdings haben nur 175 Befragte dazu eine Aussage gemacht. Ausgangspunkt für die Herstellung jeder grafischen Darstellung ist die Häufigkeitstabelle, die wir aus der Urliste mit dem Werkzeug Histogramm beschaffen, und die dann wie oben beschrieben (vgl. S. 158) vervollständigt wird. Kategorie Klasse Häufigkeit 5 Sterne 1 20 4 Sterne 2 65 3 Sterne 3 52 2 Sterne 4 4 Pension 8 6 privat 7 26 gesamt 175
Kumuliert % Summenhäufigk eit rel. 11,43% 20 48,57% 85 78,29% 137 80,57% 141 149 85,14% 100,00% 175
Häufigkeit 11,43% 37,14% 29,71% 2,29% 4,57% 14,86%
4.5. EXCEL 5 . 0 und die Lösung der Grundaufgaben
169
Nun kann es schon losgehen. Will man beispielsweise die absoluten Häufigkeiten präsentieren, dann müssen die beiden Spalten Kategorie und Häufigkeit markiert werden.
Kategorie Klasse Häufigkeit | 1H 5 Sterne 65 2 4 Sterne 52 3 3 Sterne 4 4 2 Sterne B 8 Pension 7 26 privat 175 gesamt
Kumuliert % Summenhäufigk eit rel. Häufigkeit 11,43% 20 11,43% 37,14% 85 48,57% 29,71% 137 78,29% 2,29% 141 80,57% 4,57% 85,14% 149 14,86% 175 100,00%
»
Getrennte Bereiche werden in EXCEL 5 . 0 in folgender Weise markiert: Zuerst wird ein zusammenhängender Bereich markiert. Dann drückt man die Taste [s»i | und markiert dabei den nächsten • Bereich. Jetzt kommt die Tätigkeit, die dieser Methode den Namen gibt: Man drücke auf die Taste »
•
F11
Was passiert? EXCEL 5.0 legt ein neues Blatt an - ein Diagrammblatt. Unten am Bildrand kann man es lesen - das Blatt bekam den Namen Diagramml. Und der Inhalt? Das ist der EXCEL-Sofortentwurf für jedes Diagramm, das einfache zweidimensionale Säulendiagramm:
Kapitel 4: Univariate Datenanalyse
170 Microsoft t x c e l Datei
Bearbeiten
Ansicht
Einfügen
T0URIST.XLS
Format
Extras
Fenster
?
Häufigkeit 70
t
5 Sterna
iccistx
4 Sterne
3 Sterne
2 Sterne
Pension
privat
™
"
W e n n uns dieses Diagramm bereits in seiner Aussagekraft ausreicht, so können war es jetzt ausdrucken lassen. Wählen wir vor dem Druck bei Seite einrichten das Querformat, so wird das Diagramm so groß wie möglich quer auf ein A4-Blatt ausgedruckt. Wählen wir Hochformat, so ist das Diagramm nicht so groß, läßt sich aber dafür problemlos auf eine Folie kopieren. Doch der Normalfall wird sein, daß dieses Diagramm uns noch nicht aussagekräftig genug ist. So wäre beispielsweise der Titel zu ändern. Klicken wir oben in Bildmitte Häufigkeit an und tragen dafür z.B. Unterkunft ein. Weiter stört und dieses Kästchen mit Häufigkeit am rechten Bildrand. Kein Problem, es wird einfach angeldickt, Druck auf die [EIU ] - Taste und schon ist die hier überflüssige Legende gelöscht.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
171
Nun möchten wir aber auch noch, daß an jeder Säule der genaue Wert erscheint. Setzen wir also den Mauszeiger auf eine Säule und klicken gleich zweimal - es erscheint ein Fenster Datenreihen formatieren mit sechs Registern, darin wählen wir Datenbeschriftung und kreuzen Wert anzeigen an. Es erscheinen jetzt über jeder Säule die zugehörigen Werte. Schließlich ist damit das einfache zweidimensionale Säulendiagramm von dem Entwurf, den uns EXCEL 5.0 vorschlug, schon ein wenig in unserem Sinne verbessert worden. Wobei nach wie vor der Ästhet viele Bemerkungen machen könnte - warum beispielsweise ist nun links überhaupt noch eine Achse nötig, wenn doch über den Säulen die Werte stehen? Auch das ist kein Problem, eine Zahl wird angeldickt, damit werden nämlich alle Beschriftungen dieser Achse markiert, mit ) werden sie gelöscht; die Achse wird angeldickt, mit |tno ) gelöscht, und auch dieser Wunsch wäre erfüllt.
Unterkunft 65
5 Sterne
4 Sterne
3 Sterne
2 Sterne
Pension
privat
172
Kapitel 4: Univariate Datenanalyse
Wählen wir nun im Menü Format die Leistung Diagrammtyp, dann könnten wir alle anderen gezeigten Diagrammformen erzeugen. Beispielsweise das dreidimensionale Säulendiagramm.
Nun könnte es also losgehen! Mittels einfachen Mausklicks wandert man durch die Welt der mit EXCEL 5.0 herstellbaren Diagramme, und wenn man ein Grundmuster ausgewählt hat, dann findet man unter Format AutoFormat noch vielfältige Varianten dazu.
Allerdings ist keinesfalls jede Diagrammform zur Präsentation geeignet • in Kapitel 7.2.2. (ab Seite 268) wird dazu eine Methode vorgestellt, wie die jeweils geeignete Diagrammform auszuwählen ist.
173
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
M
Computer-Übung 12
M
Auf beiliegender Diskette sind in der Datei TOURIST5 bereits vier Blätter mit Daten vorbereitet worden (erkennbar an den Registern am unteren Bildrand). Nutzen Sie diese vorbereiteten Daten, um mit der [ F11 ] - Methode die verschiedensten Diagramme herzustellen. Stellen Sie schließlich die Altersgruppen prozentual in einem dreidimensionalen Säulendiagramm dar. Auf dem Blatt Geschlecht sind die Beschriftungen nicht wie bisher spaltenweise angeordnet, sondern zeilenweise. Prüfen Sie, ob EXCEL auch in diesem Fall sofort ein sinnvolles erstes Säulendiagramm liefert. Stellen Sie schließlich ein dreidimensionales Kreisdiagramm der Geschlechterverteilung her! Das Blatt wie_oft enthält die absoluten Werte der Häufigkeit des Besuches in Istanbul. Stellen Sie damit ein Säulendiagramm her. Lassen Sie in der Tabelle solche Rechnungen ausführen, daß im Diagramm schließlich die Prozente erkennbar sind. Das vierte Blatt dieser Datei mit dem Titel Informationsquellen enthält weitere Daten aus der Touristenbefragung. Hier bietet sich eigentlich nur ein bestimmtes Diagramm an. Welches? Probieren Sie es aus! Bleiben wir deshalb vorerst beim einfachen Säulendiagramm und überlegen, wie wir die Darstellung der relativen Häufigkeit bekommen können. Es ist ganz einfach - man braucht nur in der Häufigkeitstabelle wieder die entsprechenden Spalten zu markieren
174
Kapitel 4: Univariate Datenanalyse
K at&cjon e : Klasse Häufigkeit 5 Sterne 1 20 65 4 Sterne 3 Sterne 52 2 Sterne 4 4! 6: 8 Pension privat 7| 26 Igesamt : 175
2; §1
Kumuliert % Summenhäufigkeit 11,43% 20 48,57% 85 78,29% 137 141 80,57% 85,14% 149 100,00% 175
und anschließend die Taste
F11
rel. Häufigkeit | 11,43% 37,14% 29,71% "l 99% 4,57% 14,86%
1
zu drücken.
37.14% 29,71%
Unterkunft
14,86%
5 Sterne
4 Sterne
3 Sterne
2 Sterne
Pension
privat
Auf gleiche Weise kann auch das Bild der relativen Summenhäufigkeit erzeugt werden. Sollte der Wunsch bestehen, relative Häufigkeit und relative Summenhäufigkeit gleichzeitig in einem Diagramm darzustellen, so werden die zugehörigen drei Spalten in der Häufigkeitstabelle markiert und die Taste F11 gedrückt:
175
4.5. E X C E L 5 . 0 und die Lösung der Grundaufgaben
100,00% 90,00% 80,00% 70,00%
60,00% 50,00% 40,00% 30,00%
s Kumuliert % s r e l . Häufigkeit
20,00% 10,00%
,00%
Die Arbeit mit dem Diagrammassistenten I I I bietet sich an, wenn man unmittelbar in eine Tabelle ein Diagramm einbetten wall. Hier ist es nicht unbedingt nötig, die Daten vor dem Aufruf des Diagrammassistenten schon markiert zu haben. Man ruft den Diagrammassistenten auf, indem mit der Maus das Symbol
angeldickt wird. Im selben Moment ändert sich der Mauszeiger zu einem ldeinen Kreuz - das ist gleichbedeutend mit der Aufforderung, die Stelle der Tabelle zu kennzeichnen, an der später das Diagramm erscheinen soll. Man drückt die Maustaste und zieht damit ein Rechteck gewünschter Größe auf. Läßt man danach wieder los, erscheint der Dialogassistent und erfragt im ersten Schritt den Bereich mit den Daten.
Kapitel 4: Univariate Datenanalyse
176
Diagramm-Assistent-Schritt 1 von 5
Wenn die markierten ZeBen rächt die Daten enthalten, die Sie im Diagramm darstellen machten, wählen Sie jetzt einen neuen Bereich SehßeBen Sie die Zelter» mit Zeiten- und Spaltenbeschriftungen ein, um Beschrtftungen im Diagtamra darzu*tetlen. Bereich: f &ilfe
; IIUrnrnttutummmuia 'Äbbtgcheh : ||lllilj|lll|.•:. Weitet > |
Ende
Ist der Bereich der darzustellenden Daten eingegeben, wird im zweiten Schritt der Katalog der verfügbaren Diagramme angeboten. Standardmäßig ist stets erst einmal das Säulendiagramm eingestellt.
Diagramm-Assistent - Schritt 2 von 5 Wahlen Sie einen Diagrammtyp mir Flächen
3D-Balken
Balken
3D-Säulen
Säulen
Linien
Punkt (XY)
Verbund
3D-Linien
3D-Flächen
3D GbetN
Abbrechen f iwwwwwww^twtoMarwti^MtiiiliiiiriiiiirirrifiTiiil < Zurück I Weiter > I V Inde
WWMHMWMWMJ
j
Anschließend bietet der Diagramm-Assistent die Varianten an - hier sind es die möglichen Varianten an zweidimensionalen Säulendiagrammen:
177
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben Diagramm-Assistent - Schritt 3 von 5
Wählen Sie ein AuloFwmat fw da* Säufewfiagiamre au*:
10
Haie
AWwedw» ; 1
1 Weite» > 1
îsëLJ
Nun erscheint im vierten Schritt bereits ein ldeines Vorschaubild, gleichzeitig kann gewählt werden, wie beschriftet wird.
Diagramm-Assistent - Schritt 4 von 5
BeispieJefiagtäimn:
Dfrteiwe9«m in: C Zeilen Spaiteli Xjerwerole fi SpattelnJ «1» Rubiikentieschiiftung JX) Vernende jl Legendentext Abbreche« I -Ii--r-nin-J
ZtW®) ab
< gutück I Weite! > I r- n m r t ; a a ; ; - - r ; . • a- H i n i m m t t i i i l t i r m m i d î i i
JLnde
i ; ;rwre-tt-re..*.
Schließlich fragt der Diagramm-Assistent noch nach Legende, Diagrammtitel und Achsenbeschriftungen.
Kapitel 4: Univariate Datenanalyse
178
Diagramm-Assistent - Schritt 5 v o n 5
B ätpiekltögc«*«:
AMweöfcer*
< £!utück
Wie zu erkennen ist, spielt dieser Assistent eine aktivere Rolle als ein bloßes EXCEL-5.0-Werkzeug. Denn stets gibt es die Möglichkeit, die getroffene Entscheidung wieder rückgängig zu machen, einen oder mehrere Schritte zurückzugehen. Hier ist gewissermaßen ein EntwicklungsDialog zwischen Nutzer und Programm möglich. 4 . 5 . 6 . Gewinnung von Übersicht in großen Datenbeständen Nachdem in den vorigen Abschnitten die Lösung der Grundaufgaben der deskriptiven univariaten Datenanalyse für eine Variable mit EXCEL 5.0 beschrieben wurde, wollen wir uns jetzt der kompletten Datenmatrix, abgespeichert als EXCEL-Tabelle, zuwenden und Möglichkeiten kennenlernen, Übersichten herzustellen. Eigentlich ist es ganz einfach - man => überlegt sich, welche Angaben man aus dem Datenbestand ablesen möchte, => trägt die dazu passenden Formeln ein und => kopiert sie gegebenenfalls an andere Stellen.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
179
Dabei muß man nur beachten, daß Formeln beim Kopieren angepaßt werden - soll das verhindert werden, muß mit dem Dollarzeichen $ gearbeitet werden. Sehen wir uns dieses Vorgehen am besten wieder an unserem Anwendungsbeispiel, der Touristenbefragung von Ostern 1995, an. Vor Beginn der Codierung der Fragebögen hatten wir zwei Kopfzeilen eingeführt: Die zweite Zeile erhielt die Variablennamen und die erste Zeile die stichwortartigen Erläuterungen zu den Variablen. Dann teilten wir das Fenster, damit diese beiden Kopfzeilen nicht beim Eintragen der Antworten verschwinden. Schließlich wurde Fragebogen für Fragebogen codiert. Die Datei TOURIST enthält nun also im Bereich A1:AU2 die beiden Kopfzeilen, darunter im Bereich A3:AU186 die codierten Daten. Bevor wir nun beginnen, Formeln einzutragen, sollten wir wiederum daran denken, daß zu den Ergebniswerten erläuternder Text gehört. Folglich sollten wir links (mindestens) zwei leere Spalten einfügen - durch Markieren der ersten Spalte und dann entweder über Einfügen Spalten oder mit l5',, ] und 0 . Weiter müssen wir daran denken, daß dieser erläuternde Text gewissermaßen links "aus dem Bild geschoben" werden könnte, wenn wir die Analyseergebnisse der letzten Fragen ansehen wollen. Also sollten wir den Bildschirm wieder günstig aufteilen. Dazu wird zuerst über Fenster und Teilung aufheben die bisherige Teilung rückgängig gemacht. Anschließend wird der Tabellenkursor auf A1 gesetzt - A1 wird die aktive Zelle. Das geht am schnellsten mit l S t t I l und 0. Schließlich steuern wir den Tabellenkursor auf C3 und wählen Fenster und Teilen. Nun haben wir den Bildschirm in vier Teile gespalten: Die beiden Kopfzeilen laufen nicht nach oben aus dem Bild und die beiden neuen und noch leeren Spalten A und B für die Texte können nicht nach links verschwinden. Probieren Sie es aus, indem Sie mit l> CD il •j 1
19®
m 191 m
1S3 194 195 JUjjS» J>Mv>';>/ l l M I l l i l l n
L»
Ii
ü •ZU
Wir können jetzt beginnen, uns zu überlegen, welche Angaben wir alle haben möchten.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
181
Bevor Sie anfangen, die Formeln einzutragen, sollten Sie sich schnell auf einem Zettel notieren, in welchen Bereichen welche Datenreihen stehen (Beispiel: Bewertung des Nachtlebens in N3 bis N186). Denn es ist einerseits unbedingt notwendig, diese Bereiche zu kennen, andererseits ist es ausgesprochen mühsam, jedesmal wieder nachzusehen.
Dieser Zettel läßt sich am bequemsten herstellen, indem Sie die ersten beiden Spalten markieren und ausdrucken lassen. Beachten Sie dabei, daß sie nach Datei und Drucken im Dialogfeld zum Druck unbedingt nur Markierung kennzeichnen sonst druckt Ihnen EXCEL die ganze große Tabelle aus!
Kommen wir nun zu den einzutragenden Formeln. Zuerst brauchen wir sicher die Gesamtzahl aller erfaßten Fragebögen sowie die Anzahl der bei den einzelnen Variablen vorhandenen Einträge.
=ANZAHL(...)
=COUNT(...)
Also schreiben wir in die Zelle A187 den Text "Anz. d. Einträge" und tragen in Zelle C187 die Formel =ANZAHL(C3:C186) ein. Es erscheint als Ergebnis die Zahl 184, und das ist gleichzeitig die Maximalzahl, denn in der Spalte C ist jede Zelle gefüllt.
182
Kapitel 4: Univariate Datenanalyse
M
Computer - Übung13
6E
Auf der beiliegenden Diskette befindet sich in der Datei TOUR05 die Datenmatrix zur Touristenbefragung. Es sind bereits die beiden neu eingefügten Spalten A und B in den Zeilen 187 bis 212 mit den Texten zu den Analyseergebnissen versehen. Nutzen Sie diese Datei, um noch einmal die Aufteilung des Bildschirmfensters zu üben. Tragen Sie einige Formeln ein und überzeugen Sie sich, daß tatsächlich die gewünschten Ergebnisse (und richtig) erscheinen. N u n kopieren wir den Inhalt der Zelle C187 auf den Bereich D187:AW187 und erhalten damit für jede Variable die Anzahl der Einträge. U n d schon können wir ablesen, daß gerade 21 Touristen in Frage 6 angekreuzt haben, daß sie sich mit Hilfe von Werbesprospekten vorbereitet haben. Natürlich interessieren als nächstes die zugehörigen Prozentzahlen. W i r bleiben im großen Datenfenster, machen die Zelle E188 zur aktiven Zelle (denn erst ab dort wird es interessant) und tragen ein =E187/$C$187*100. Denn in C187 steht die Gesamtzahl, und diese Zelle kann deshalb immer die Bezugszelle der Berechnung sein. Weiter kopieren wir dann die Formel von E188 auf den Bereich F188:AW188, und schließlich tragen wir ganz links noch die textliche Erläuterung ein: "Anz. der Einträge in %". Weiter kann es jetzt gehen mit der Information über ldeinste und größte Werte, über Mediane u n d Modalwerte. Dazu wären in die Zellen E189 bis E192 die Formeln =MIN(E3:E186), =MAX(E3:E186), =MEDIAN(E3:E186) bzw. =MODALWERT(E3:E186) einzutragen und auf den Bereich F189:AW192 zu kopieren.
183
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben Microsoft Excel - T 0 U R I S T . X L S «Iii D a t e i
Bearbeiten
Ansicht
Einfügen
Format
Extras
Daten
Fenster
«je»! £ Aliai A I 93
IK
A I i i :
W B
1002
fçy|
B E Z M S S I B B ! E
m ¡SI m
1
?
m
L
M
M
0
SP-
0
R
5
T
U
V
W
Anz. d. Eintrage: Anz. d. Eintrage in %: Kleinster Wert: Größter Wert: 1î*1 Median: Modalwert: 1 193 184 195 187 188 189 190
m
3 3 3
183 183 175 182 184 184 184 184 99 99 95 39 100 100 100 100 1 1 1 1 1 1 1 1 4 5 7 4 3 3 3 3 3 1 2 2 1 2 2 3 1 2 2 1 1 3 2 3
184 100 1 3
184 100 1 3 2 3 2 3
1 1
184 184 129 so 16 100 100 70 27 9 1 1 1 1 1 3 3 1 1 1 3 2 1 1 1 3 1 1 1 1
88 48 1 1 1 1
[Reisebüro
Zeitschriften
1 1 i 1
Werbeprospekte
3
2 1 3 3
Berichte
3
2 3 3 3
Vortrage
3 3 3
Sachbücher
3 2 3
Reiseführer
2
3
Neugierde
2 2 2
Sprache
1 3 1 2
Nachtleben
1 1 1 1
Einkaufen
4 3 7
1 1 1 1
Freunde
Essen
1
Ferien
löö
Geschichte
« a
1 2 1 2
Organisation
m
1 1 i
Art d. Hotels
1 183
Wie lange?
|Wie oft?
•ü
1
1
1 21 11 1 1 1 1
26 14 1 1 1 1
23 13 1 1 1 1 Mii
LI
Iii
Hier zeigt sich bereit, daß es keinesfalls immer sinnvoll ist, überall alle Werte berechnen zu lassen - bei Frage 8, die zu den Variablen E1 bis E13 führt, kann sowieso nur Null oder Eins stehen. Was sollen dort Median und Modalwert? = MEDIAN(...) = MODALWERT(...)
=MEDIAN(...) =MODUS(...)
Doch die Information über Ideinsten und größten Wert ist immer sinnvoll. Denn dabei finden wir doch zu unserer Überraschung, daß bei der Variablen E2, also bei der Antwort in Frage 8, ob man eine Bosporusrundfahrt beabsichtige, einmal eine 2 codiert wurde. Ein typischer Erfassungsfehler!
184
Kapitel 4: Univariate Datenanalyse
ö
P n m r M i t o r _ Übung f Ì K i i n n 14 AA Computer
M
Auf der beiliegenden Diskette befindet sich in der Datei TOURO6 wieder die Datenmatrix zur Touristenbefragung. Es sind bereits die beiden neu eingefügten Spalten A und B in den Zeilen 187 bis 212 mit den Texten zu den Analyseergebnissen versehen. Das Bildschirmfenster ist sinnvoll aufgeteilt. Weiter sind bereits viele Formeln eingetragen - aber noch nicht in die anderen, sinnvollen Bereiche kopiert. Nutzen Sie diese Datei, um das Kopieren der Formeln in die beschriebenen Bereiche zu üben. Vergleichen Sie Ihre Ergebnisse mit dem Anhang A. Zu Ihrer Information wurden dort auf den Seiten 274 bis 279 die Zeilen- und Spaltenköpfe zusätzlich mit ausgedruckt. Ebenso enthält jede Seite noch einmal die textlichen Erläuterungen (Spalten A und B) zu den einzelnen Kenngrößen.
Genau sollten wir uns aber überlegen, wo wir überall den Mittelwert eintragen lassen. Doch bevor wir das tun, beschäftigen wir uns lieber mit einer Sache, die weitaus häufiger bei Fragebogenaktionen gebraucht wird - mit der Ermittlung der Anzahl des Auftretens der einzelnen Merkmalswerte. Dazu gibt es eine ganz ökonomische Methode. Wir informieren uns zuerst, welche Merlanalswerte in der gesamten Tabelle die absolut ldeinsten und absolut größten sind. Das sind hier die 1 und die 7. Also tragen wir in die Zellen B194 bis B200 untereinander die Zahlen 1 bis 7 ein. Dann wechseln wir das Fenster, machen E194 zur aktiven Zelle. Und tragen dort ein =ZÄHLENWENN(E$3:E$186; $B194)
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
185
Anschließend kopieren wir diese Formel auf den gesamten Bereich E194:AW200. Und mit einem Schlag wird für jede Variable mitgeteilt, wie oft welcher Merkmalswert angenommen wird! Der Übersichtlichkeit halber sollten danach die vielen überflüssigen Nullen herausgelöscht werden. Das geht aber schneller, als wenn detailliert kopiert wird.
= Z A H L E N W E N N ( . . . ; ...)
= C O U N T I F ( . . . , ...)
Für diejenigen Leser, die mit einer englischsprachigen Version arbeiten, sei noch hinzugefügt, daß dort als Trennzeichen zwischen den Eintragungen in das Funktions-Klammerpaar ein Komma gesetzt werden muß in der deutschen Version muß das Semikolon stehen! Natürlich interessieren nun wieder die Prozentanteile. Aber da muß man sich genau überlegen, was zu tun ist. Manchmal nämlich, zum Beispiel schon bei Frage 1 (Variable A3, Spalte E), interessiert der Anteil der einzelnen Antworten, bezogen auf die Gesamtzahl der bei dieser Frage überhaupt gemachten Angaben. Dasselbe gilt bei Frage 2 (Variable A4, Spalte F), Frage 3 (Variable A5, Spalte G), Frage 4 (Variable A6, Spalte H), Frage 7, Teilfragen 1 bis 8 (Variablen D1 bis D8, Spalten Y bis AF), Frage 12 (Variable F l , Spalte AT), Frage 13, Teilfragen 1 und 2 (Variablen F2 und F3, Spalten AU und AV), Frage 14 (Variable F4, Spalte AW). Also tragen wir in die Spalte B ab B202 wieder untereinander die Zahlen 1 bis 7 ein und in die Zelle E202 die Formel =E194/E$187*100. Damit wird der Prozentsatz des ersten Merkmals wertes, bezogen auf die überhaupt gegebenen Antworten, ausgerechnet.
186
Kapitel 4: Univariate Datenanalyse
Entsprechend den Erkenntnissen über die Sinnfälligkeit dieser Berechnungen wird die Formel dann auf die Bereiche E202:H208, Y202:AF208 und AT202:AW208 kopiert. Was aber ist mit Frage 5, bei der erkundet wurde, welche Komponente die stärkste Zugkraft ausübte? Hier berechnen wir später die "Durchschnittszensur" für jede Komponente, ebenso wie auch bei Frage 7. Bei Frage 6 aber, wo nach der Art der Reisevorbereitung gefragt wurde, interessiert ganz offensichtlich etwas anderes. Wie groß ist der Anteil aller Befragten, die angekreuzt haben, daß sie sich mit Reiseführern vorbereitet haben? Wie groß der Anteil derjenigen, die Sachbücher benutzten usw. Dieselbe Situation treffen wir auch bei Frage 8 an. Also tragen wir in Zelle Q209 ein. =Q$187/$C$ 187*100 Anzahl der Kreuze pro Gesamtzahl aller abgegebenen Fragebögen in Prozent. Diese Formel wird dann auf die Bereiche Q209:X209 und AG209:AS209 kopiert. Damit erfahren wir sachlich wertvolle Aussagen, die zum Charakter der Variablen passen. Zum Schluß nun zu den Fragen 5 und 7. Hier gab es pro Teilantwort vorgegebene Wertungsstufen - interessant ist also die Durchschnittsw e r t u n g für jede Teilantwort. Tragen wir also in Zelle 1210 die Formel für den Durchschnittswert ein: =MITTELWERT(I3:I186) und kopieren sie auf die Bereiche I210:P210 und Y210:AF210. Nun lassen sich dort die Durchschnittswerte ablesen.
= M ITTEL W E R T (...)
=AVERAGE(...) ® l i
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
187
Wie leicht es ist, mit EXCEL spezielle Auskünfte zu erfragen, soll abschließend noch einmal deutlich gemacht werden. Aus irgend einem Grunde ist es von Interesse, wie hoch der Anteil der Spitzenprädikate bei Frage 5 ist. Man will also wissen, wieviel Prozent haben bei "Geschichte" die Rubrik "sehr wichtig" angekreuzt, wieviel Prozent der Befragten hielten das Nachtleben für sehr wichtig und so weiter. Wie können wir zu diesen Auskünften kommen? Nun, wir haben ja schon der Spitzenantworten (in abgegebenen Fragebögen noch an geeigneter Stelle die Formel
alles zur Verfügung. Wir kennen die Anzahlen den Zellen 1194 bis P194) und die Anzahl aller (in der Zelle C187). Folglich brauchen wir nur in der Spalte I (zum Beispiel in die Zelle 1212)
=l$194/$C$187*100 zu schreiben, diese Formel auf I212:P212 zu kopieren und links an den Rand einen zugehörigen Text zu schreiben. Mehr ist nicht nötig. Unsere EXCEL-Tabelle enthält nunmehr eine Kopfzeile, die die einzelnen Variablen erldärt, dann die Zeile mit den Variablennamen, darunter die Datenmatrix, wie sie aus der Codierung der 184 Fragebögen entstanden ist. Darunter enthält sie in 26 weiteren Zeilen zu den einzelnen Variablen jeweils sinnvolle statistische Kenngrößen. Und in zwei links angefügten Spalten wurde aufgeschrieben, welche Kenngrößen es sind bzw. welche Bedeutung sie haben. Insgesamt besteht unsere Tabelle also jetzt aus 212 Zeilen und 49 Spalten. Es ist absolut unmöglich, sie auf einem A4-Blatt unterzubringen. Anderseits will man zumindest die statistischen Kenngrößen bestimmt auch einmal schwarz auf weiß ausgedruckt vor sich auf dem Tisch liegen haben... Wie kann man vorgehen? Man wählt zuerst Datei und Seite einrichten und dann Seite und Querformat. Dann werden zuerst die beiden Kopfzeilen, also der Bereich von A1 bis AW2 markiert. Anschließend wird Datei und Drucken gewählt und nicht vergessen, in dem Druck-Dialogfenster dann Markierung anzuklicken. Dann werden also nur die beiden Kopfzeilen gedruckt. Und zwar im Querformat.
188
Kapitel 4: Univariate Datenanalyse
• Achtung! Auch wenn nur ein Teil einer EXCEL-Tabelle markiert ist, so I druckt EXCEL doch stets die ganze Tabelle, sofern nicht Markierung im • Druck-Dialogfenster gewählt wird! Anschließend markiert man den Bereich von A187 bis AW212 mit den Kenngrößen und läßt auch diese Markierung ausdrucken. Für das Markieren von Teilen des großen Datenbestandes und gezieltes Herauskopieren ist es vorteilhaft, die Teilung des Fensters zeitweilig über Fenster --> Teilung aufheben zu beseitigen.
Wenn dieser beschriebene Weg auch praktisch ist, so hat er doch auch Nachteile. Denn aus Gründen der Übersichtlichkeit wurde ja die komplette Tabelle sehr rationell formatiert, Texte und Zahlen wurden möglichst ldein eingetragen. Ästhetik spielte dabei vorerst eine untergeordnete Rolle. Für Präsentationen dagegen sollte man sich schon überlegen, welche Schriftart, welches Zahlenformat schließlich vorgelegt wird. Vielleicht sollte auch die eine oder andere Zeile oder Spalte mit einem Muster hinterlegt werden? Natürlich könnte man diese Formatierungen vor dem Druck auch in der großen Tabelle vornehmen - aber dort sollte man den wertvollen Datenbestand nicht durch solche Arbeiten gefährden. Es wird also empfohlen, vor der Gestaltung die zu druckenden Daten in eine andere Tabelle herauszukopieren.
»
Achtung! Will man nur die sichtbaren Einträge eines markierten Bereiches einer EXCEL-Tabelle an eine andere Stelle kopieren, so muß man beachten, ob sich nicht Formeln im markierten Bereich befinden. Dann muß man im Menü Bearbeiten die Leistung Inhalte einfügen wählen # und dann Werte anklicken.
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
189
Hat man übersehen, daß sich hinter einem Eintrag in einer Zelle eine Formel befindet, so merkt man das spätestens nach dem Betätigen der ENTER-Taste anhand auftretender Fehlermeldungen. Das ist aber kein Grund zur Sorge - mit Bearbeiten --> Rückgängig annuliert man die falsche Art des Einfügens und wählt anschließend richtig Inhalte einfügen und dann Werte.
®r i l l Computer - Übung 15 /jMggeaX ® Auf der beiliegenden Diskette befindet sich in der Datei TOUR07 wieder die Datenmatrix zur Touristenbefragung. Es sind bereits die beiden neu eingefügten Spalten A und B in den Zeilen 187 bis 212 mit den Texten zu den Analyseergebnissen versehen. Das Bildschirmfenster ist nicht aufgeteilt. Weiter sind bereits alle Formeln eingetragen und in die anderen Bereiche kopiert. Nutzen Sie diese Datei, um das sparsame Drucken und danach das Herstellen eines zweiten EXCEL-Blattes mit den statistischen Kenngrößen zu üben.
Kapitel 5: Bivariate Datenanalyse 5.1. Allgemeines 5 . 1 . 1 . Das Beispiel "Touristenbefragung Ostern 1 9 9 5 " Betrachten wir ein weiteres Mal unsere Befragung deutscher Touristen zu Ostern 1995, deren Ergebnis in Form codierter Daten als EXCEL5.0-Tabelle vorliegt. Betrachten wir nun gleichzeitig zwei Fragen: Frage 3
In welcher Art von Hotel bleiben Sie?
* * * * * **** ***
a a O
** a * a Pension O
Sonstiges
Die univariate Analyse der Antworten ergab, daß 2 0 Befragte in 5-SterneHotels abgestiegen waren, 65 logierten in 4-Sterne-Hotels, 52 wohnten in 3-Sterne-Hotels, vier Befragte logierten in einem 2-Sterne-Hotel, acht in einer Pension und 2 6 Befragte gaben sonstige Unterkünfte, zumeist privat, an. Niemand wohnte in einer 1-Stern-Herberge. Neun Befragte machten keine Angabe. Frage
13
Männlich
ü
Bitte kreuzen Sie an bis 25 J. Q Weiblich ü 26-35 J. O 35-45 J. a
46-55 J. über 55 J.
O O
Hier ergab die univariate Analyse, daß 35 Befragte unter 25 Jahre alt waren, 3 8 waren bis 35 Jahre alt, 37 bis 45 Jahre, 2 3 bis 55 Jahre, und 4 6 zählten über 55 Jahre. Fünf Interviewte trugen nichts ein. Diesmal bekommt eine Studentin als Hilfskraft den Auftrag, für einen Interessenten zusammenzustellen, was sich über Gemeinsamkeiten zwischen der Altersgruppe und der Art der gewählten Unterkunft so ablesen lasse.
192
Kapitel 5: Bivariate Datenanalyse
Als erstes sucht die Studentin die beiden Datenreihen zusammen - sie finden sich unter den Variablennamen F3 und A5. Dann stellt sie alle auftretenden Kombinationen zusammen. Doch allein diese Auflistung bringt ihr noch keinen wesentlichen Gewinn an Information. Natürlich liegt es auf der Hand, daß sie hier mit einer tabellarischen Anordnung arbeiten sollte. Sie stellt also die zugehörige Kreuztabelle auf: Zu Frage 13b: Welcher Altersgruppe gehören Sie an? (F3) Zu Frage 3: In welcher Art von Hotel bleiben Sie? (A5) Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 46 Jahre 46... 55 Jahre über 55 Jahre keine Angabe
2
*****
0 6 6 2
****
***
16 11 11 3
0
8 9 16 8 21 3
20
65
52
6
9
2
Art d. Hotels " Pension privat keine Angabe 2 1 2 5 3 35 1 3 3 5 38 0 0 1 3 37 0 2 7 1 23 2 0 6 2 46 0 0 0 0 5 4 8 26 9 184
Diese Studentin hat in der Vorlesung gut aufgepaßt und weiß, daß es üblich ist, zu einer Kreuztabelle mindestens eine charakterisierende Kennzahl hinzuzufügen. Dabei ist die Kennzahl % (gesprochen CHI2
Quadrat) die wichtigste. Sie berechnet also dieses % - natürlich nur für die Fragebögen, bei denen beide Fragen beantwortet wurden - und fügt sie hinzu. Weiter gibt sie an, wieviele Fragebögen unvollständig waren: Zu Frage 13b: Welcher Altersgruppe gehören Sie an? (F3) Zu Frage 3: In welcher Art von Ilotel bleiben Sie? (A5) Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 45 Jahre 46... 55 Jahre über 55 Jahre keine Angabe
2
*****
****
0 6
8 9
***
2 6 0
8 21 3
16 11 11 3 9 2
20
65
52
$
16
Art d. Hotels "" Pension privat keine Angabe 2 1 2 5 3 35 1 3 5 3 38 0 1 3 0 37 0 2 7 1 23 2 0 6 2 46 0 0 0 0 5 4 8 26 g 184
Fehlende Angaben: 14; CHI-Quadrat für die gültigen Fälle:
29,74
193
5.1. Allgemeines
Die Studentin will schon ihre Sachen zusammenpacken und das Ergebnis ihrer Arbeit abgeben, da fällt ihr ein, daß sie ja die Prozentangaben vergessen hat. Leider weiß sie aber nicht, in welcher Form sich der Auftraggeber die Prozenteintragungen wünscht. Deshalb fertigt sie vorsichtshalber drei Ausführungen an. Zuerst ergänzt sie die absoluten Feldhäufigkeiten im Innern der Tabelle mit den absoluten Randhäufigkeiten durch die relativen Randhäufigkeiten, indem sie jede Randhäufigkeit ins Verhältnis setzt zur Gesamtzahl aller Angaben (rechts unten). Zu Frage 13b: Welcher Altersgruppe gehören Sie an? (I:3) Zu Frage 3: In welcher Art von Hotel bleiben Sie? (A5) Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 45 Jahre 46... 55 Jahre über 55 Jahre keine Angabe
2
Art d. Hotels
**A*
*****
0 6 6 2 6 0
2
3
35
19,02%
5
3
20,65%
3
0
38 37 23
12,50%
46
25,00%
5
2,72%
16 11 11
3
9 2
1 1 0 0 2 0
65
52
4
8
26
9
2,17%
4,35%
14*13%
4,89%
16 8 21
3
10,87% 35,33% 28,26%
Fehlende Angaben:
keine Angabe
5
**
3 9
20
priuat
***
14;
Pension
2 3
1 2 0 0
7 6 0
1 2 0
20,11%
184 100,00%
CHI-Quadrat für die gültigen Fälle:
29,74
Falls jedoch andere Betrachtungen angestellt werden sollten, könnten die Spaltenprozente interessieren. Art d. Hotels *•
Altersgruppe bis 25 Jahre
0
0,0%
26... 35 Jahre
6
30,0%
36... 45 Jahre
6
30,0% 16
46... 55 Jahre
2
10,0%
8
über 55 Jahre
6
keine Angabe £
8 9
Pension
privat
12,3% 16
30,8% 1
25,0% 2
25,0% 5
19,2%
25,0% 3
37,5% 5
k.Ang.
I
3
33,3% 35 33,3% 38
13,8% 11
21,2%
1
19,2%
3
24,6% 11
21,2%
0
0,0%
1
12,5%
3
11,5%
0
0,0%
12,3%
3
5,8%
0
0,0%
2
25,0%
7
26,9%
1
11,1%
23
30,0% 21
3 2,3%
9
17,3%
2
50,0%
0
0,0%
6
23,1%
2
22,2%
46
3
4,6%
2
3,8%
0
0,0%
0
0,0%
0
0,0%
0
0,0%
5
20 100,0% 65 100,0% 52 100,0%
4
100,0%
8
100,0% 26 100,0%
9
0
0,0%
37
100,0% 184
194
Kapitel 5: Bivariate Datenanalyse
Schließlich ist es nur logisch, daß eine weitere Kreuztabelle mit den Zeilenprozenten hergestellt wird. —
Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 45 Jahre 46... 55 Jahre Uber 55 Jahre keine Angabe
Art d. Hotels Pension
••*
privat
keine Angabe
E
0
8
16
1
2
5
3
35
0,0%
22,9%
45,7%
2,9%
5,7%
14,3%
8,6%
100,0%
6
9
11
1
3
5
3
38
15,8%
23,7%
28,9%
2,6%
7,9%
13,2%
7,9%
100,0%
6
16
11
0
1
3
0
37
16,2%
43,2%
29,7%
0,0%
2,7%
8,1%
0,0%
100,0%
2
8
3
0
2
7
1
23
8,7%
34,8%
13,0%
0,0%
8,7%
3 0,4%
4,3%
100,0%
6
21
9
2
0
6
2
46
13,0%
45,7%
19,6%
4.3%
0,0%
13,0%
4,3%
100,0%
0
3
2
0
0
0
0
5
0,0%
60,0%
40,0%
0,0%
0,0%
0,0%
0,0%
100,0%
20
65
52
4
8
26
9
184
5 . 1 . 2 . Grundaufgaben der bivariaten Datenanalyse Die Beschäftigung mit univariaten Daten war nur der Einstieg in die umfassende Datenanalyse, wie sie für Zwecke der Marktforschung allgemein notwendig ist. Die univariate Datenanalyse dient der Vorbereitung der eigentlichen Analyse, die sich meist auf die Untersuchungen v o n Beziehungen (Assoziationen, Korrelationen) zwischen Variablen richtet. Bivariate Datenanalyse ist die Untersuchung der Beziehungen zwischen jeweils zwei Variablen. Auch bei der bivariaten Analyse unterscheidet man zwischen der deskriptiven (beschreibenden) Statistik und der induktiven (beurteilenden) Statistik. Fassen wir den Inhalt des vorigen Abschnitts zusammen: Die wichtigste Aufgabe der bivariaten Datenanalyse, weil Ausgangspunkt der meisten weiteren Untersuchungen, ist die => Herstellung v o n Kreuztabellen.
5 . 1 . Allgemeines
195
Anstelle der Bezeichnung Kreuztabelle sind noch die folgenden Namen gebräuchlich: •
Kontingenztabelle,
•
Assoziationstabelle,
•
Korrelationstabelle.
Zur Kreuztabelle gehören als selbstverständliche Bestandteile die Prozentwerte, je nach Wunsch als • relative Randhäufigkeiten, •
Spaltenprozente,
•
Zeilenprozente.
Dabei ist jeweils zu entscheiden, ob die ungültigen Fälle (d.h. "keine Angabe") in die Prozentberechnung einzubeziehen sind oder nicht. Schließlich wird oft die Zahl • CHI-Quadrat x 2 benötigt, weil Anwender mit ihrer Hilfe erste inhaltliche Informationen über mögliche Zusammenhänge entnehmen können (vgl. Benninghaus 1 9 9 6 , S. 2 0 4 ff.). Außerdem kann später mit Hilfe dieses Zahlenwertes der C H I - Q u a d r a t - U n a b h ä n g i g k e i t s t e s t durchgeführt werden (vgl. Kapitel 6).
5 . 1 . 3 . W e i t e r e Aufgaben der bivariaten D a t e n a n a l y s e Unmittelbar aus der Kreuztabelle abgeleitet gibt es neben der Kenngröße C h i - Q u a d r a t die Zahlen Phi und die L a m b d a - M a ß e (vgl. Benninghaus 1 9 9 6 , S. 2 1 0 ff., 2 1 8 ff.), die in der Literatur manchmal auch als Kontingenzkoeffizienten oder auch A s s o z i a t i o n s m a ß e bezeichnet werden. Die weiteren Aufgabenstellungen der deskriptiven (beschreibenden) bivariaten Datenanalyse hängen zuallererst in starkem Maße von dem Niv e a u der D a t e n ab.
196
Kapitel 5: Bivariate Datenanalyse
Haben die Daten der beiden betrachteten Variablen mindestens Intervallskalenniveau, dann darf man mit dem Korrelationskoeffizienten von Bravais-Pearson (oft nur kurz als Korrelationskoeffizient bezeichnet) eine statistische Kenngröße ausrechnen, die Aufschluß gibt über Grad und Stärke eines möglichen linearen Zusammenhanges zwischen den Variablen. Steht ein solcher linearer Zusammenhang an, so wird er quantifiziert durch die Durchführung einer Regressionsrechnung. Liegt das Datenniveau der Variablen aber unter dem Intervallskalenniveau, so ist dieser Korrelationskoeffizient zwar rein formal berechenbar, aber nicht mehr sinnvoll! Beispiel für Unsinn und Sinn der Berechnung des
Korrelationskoeffizienten:
Betrachten wir die Variablen F3 Altersgruppe und A5 Unterkunft unserer Touristenbefragung. Während F3 klassierte intervallskalierte Daten enthält, sind die Daten zu A5 nur nominalskaliert. Denn die Zuordnung des Codewertes 7 zu Sonstigem / Privatunterkunß hat ja nun sicher nichts damit zu tun, daß diese Unterkunftsart die höchst- oder niedrigstwertigste ist. Also ist es von vornherein sinnlos, die Frage nach einem möglichen linearen Zusammenhang zwischen Altersgruppe und Qualität der Unterkunft über den Korrelationskoeffizienten beantworten zu lassen. Anders dagegen sähe es aus, wenn nur die Hotelkategorien von fünf bis zu einem Stern betrachtet würden. Hier hätte man dann auch intervallskalierte Daten, und es ist sinnvoll zu fragen, ob beispielsweise mit zunehmendem Lebensalter die teureren Hotels bevorzugt würden. Auf Ordinalskalenniveau berechnet man anstelle des Bravais-PearsonICorrelationskoeffizienten den Rang-Korrelationskoeffizienten von Spearman. Und hat eine der Variablen nur Nominalskalenniveau, so darf man maximal Kontingenzkoeffizienten betrachten.
5.1. Allgemeines
197
Folgende Übersicht aus Bamberg/Baur (1991, S. 36), verdeutlicht diese Situation:
Skalierung v o n
X
mindestens intervallskaliert
ordinal
Y mindestens intervallskaliert ordinal
Bravais-PearsonKorrelationskoeffizient
A
nominal
•s.
1 1 Rangkorrelationskoeffizient von Spearman
nominal
Kontingenzkoeffizient
Abb. 13: Skalenniveau und Zusammenhangsmaße
Während sich mit dem Korrelationskoeffizienten die Stärke eines möglichen linearen Zusammenhanges zwischen den beiden betrachteten Merkmalen beurteilen läßt, versagt er bei der Beantwortung der Frage, ob es überhaupt einen, wie auch immer gearteten anderen (nichtlinearen) Zusammenhang geben kann. Ist die Vermutung also schwächer, besteht die Hypothese nur darin, daß zwischen beiden Merkmalen irgendein Zusammenhang, irgendeine Abhängigkeit existiert, dann muß man diese Hypothese prüfen. Der Test auf Unabhängigkeit, allgemein bekannt als CHI-QuadratTest, gehört dann aber schon zur induktiven Statistik (siehe Kapitel 6). Dort wird auch vorgestellt, wie man prüfen kann, ob zwei intervallskalierte Merkmale gleiche arithmetische Mittelwerte haben (doppelter t-Test). Schließlich ist auch in der bivariaten Datenanalyse der Wunsch verbreitet, mit geeigneter grafischer Darstellung eine anschauliche Vorstellung von der zweidimensionalen Verteilung zu bekommen.
198
Kapitel 5: Bivariate Datenanalyse
Hier benutzt man gern die dreidimensionale Säulengrafik.
keine Angabe über 55 Jahre 46...55 Jahre S6...45 Jahre 26...35 Jahre unter 25 Jahre
5.2. Kreuztabellen und die Zahl CHI-Quadrat ( % ) 5 . 2 . 1 . Allgemeines Kreuztabellen beschreiben die Verteilung der Wertepaare von zwei gleichzeitig betrachteten Variablen. Man sagt auch, sie beschreiben die Kreuzklassifikation oder Kreuztabulierung der beiden betrachteten Variablen. Sind beide Variablen nominal oder ordinal skaliert mit m bzw. n Merkmalsausprägungen, so ergeben sich Kreuztabellen mit m Zeilen und n Spalten bzw. n Zeilen und m Spalten - je nach Anordnung.
199
5.2. Kreuztabellen und die Zahl CHI-Quadrat
5.2.2. Klassenbildung Hat eine Variable dagegen viele Merkmalsausprägungen, so muß man diese zu Klassen zusammenfassen. Sehen wir uns dazu wieder unser Anwendungsbeispiel an. Die Antworten auf Frage 5 der Touristenbefragung geben Auskunft über das Motiv für den Besuch in Istanbul. Von Interesse sei nun, ob es einen Zusammenhang geben kann zwischen dem Alter der Befragten und dem Interesse für Geschichte. Nehmen wir nun einmal an, eine Spalte unserer Datenmatrix enthalte im Detail das Alter jedes Befragten. W e n n jeder der 6 0 verschiedenen Merlanalswerte für das Alter einzeln analysiert würde, ergäbe sich eine völlig sinnlose "Kreuztabelle"!
• Hier muß man zu Klassen zusammenfassen. Das führt dann zu einer sinnvollen Kreuztabelle (hier mit den Zeilenprozenten): Geschichte Alter unter 20 Jahre 20... 29 Jahre 30... 39 Jahre 40... 49 Jahre SO... 59 Jahre 60... 69 Jahre ab 70 Jahre
£
1 15
3 1
E 22
68,18%
6 27,27%
2
4,55%
100,00%
18
8
5
31
58,06%
25,81%
16,13%
100,00%
29
8
3
40
72,50%
20,00%
7,50%
100,00%
18
3
3
24
75,00%
12,50%
12,50%
100,00%
15
4
1
26
57,69%
15,38%
26,92%
100,00%
14
3
60,87%
13,04%
6 26,09%
100,00%
23
9
3
1
13
69,23%
23,08%
7,69%
100,00%
118
35
26
179
Und es stellt sich wohl heraus, daß quer durch die Altersgruppen ungefähr ein gleich hoher Prozentsatz die Historie als sehr wichtiges Motiv für den Istanbul-Besuch angab.
200
Kapitel 5: Bivariate Datenanalyse
5.2.3. Die Zahl C H I - Q u a d r a t ( x ) 2
Zur Berechnung der Zahl CHI-Quadrat (% ) geht man aus von der Kreuztabelle der gültigen Werte mit den (absoluten) Randhäufigkeiten (die Prozentangaben werden hier nicht benötigt): Z hu h2i
h« h 22
h13
...
...
hmi z
h23
hin h2n
hi. h2.
...
...
...
hm2
hm3
hmn
hm.
h.2
h.3
h.n
h..
Zu dieser gegebenen Kreuztabelle wird zuerst die sogenannte Interferenztabelle berechnet, die mit der Kreuztabelle identisch wäre, wenn beide Variablen völlig unabhängig voneinander wären: z
z
en e2i
e« e22
e« e23
ein e2n
»1. e2.
...
...
...
...
...
®m1
em2
em3
Gmn
®m«
e.i
e.2
e.3
e.n
e..
Dabei entstehen die Einträge ßjj nach der Formel
h,.Kj e"=~h7 (vergleiche auch das Beispiel auf Seite 147).
5.2. Kreuztabellen und die Zahl CHI-Quadrat
201
Schließlich wird aus den Häufigkeiten hy und den Interferenzen e^ die Tabelle der quadrierten Differenzen aufgestellt, wobei die Einträge djj nach der Formel
berechnet werden: E
E
du d2i ... dmi
d« d 22 ...
d« d23 ...
dm d 2n ...
dm2
dm3
d mn
di. d2. ... dm.
d.i
d.2
d.3
d. n
d..
Den gesuchten Wert CHI-Quadrat ( % ) erhält man dann als Summe aller quadrierten Differenzen:
5.3. Weitere statistische Kenngrößen 5.3.1. Der Korrelationskoeffizient von Bravais-Pearson Betrachten wir gleichzeitig zwei Datensätze, so haben wir zuerst den gemeinsamen Umfang gegeben, dazu die beiden Minima und Maxima, die Mediane und die Modalwerte. Sind die Daten von höherem als ordinalem Niveau so können wir weiter die beiden Mittelwerte und die beiden empirischen Standardabweichungen betrachten.
202
Kapitel 5: Bivariate Datenanalyse
Sind die Daten mindestens intervallskaliert und ist n der Umfang einer zweidimensionalen Datenmenge, sind xi,...,xn die Werte der ersten und ji,...,yn die Werte der zweiten Variablen und sind x und y die beiden Mittelwerte, dann wird der Korrelationskoeffizient von BravaisPearson (oft einfach nur als Korrelationskoeffizient bezeichnet) berechnet nach der Formel n
J £ (*,-*)2i>,-.F)2 V 1=1 1=1 Der Korrelationskoeffizient von Bravais-Pearson kann nur Werte zwischen -1 und +1 annehmen. Er schätzt den ICorrelationskoeffizienten der zweidimensionalen Grundgesamtheit - und dieser hat folgende Bedeutung: Ist der Korrelationskoeffizient dem Betrag nach gleich Eins (also gleich -1 oder +1), so gibt es zwischen den beiden Zufallsgrößen X und Y, für die die Stichproben und yh...,yn einige Realisierungen darstellen, einen linearen Zusammenhang, man kann also schreiben Y = a + bX oder X — a + bY, je nachdem, welche Variable man als Ursache und welche Variable man als Wirkung ansieht. Ist der Korrelationskoeffizient gleich Null, so gibt es überhaupt keinen linearen Zusammenhang zwischen X und Y. Der Korrelationskoeffizient beschreibt den Grad und die Richtung des linearen Zusammenhanges von zwei gleichzeitig betrachteten Variablen. (Ob es überhaupt sinnvoll ist, aus zwei beobachteten Variablen einen Zusammenhang abzuleiten, muß aus dem Kontext der Fragestellung geklärt werden!) Gern veranschaulicht man sich das anhand der sogenannten Punktwolke, die entsteht, wenn man auf der x-Achse die Stichprobenwerte xh...,xn aufträgt und darüber jeweils die zugehörigen Werte j;„ :
203
5.3. Weitere statistische Kenngrößen
100
T
90•
!
80
60 50
-
40 30 50
• 10 -18000
-16000
-14000
-12000
-10000
-8000
-6000
-4000
-2000
2000
X
Hier hat der Korrelationskoeffizient den Wert 0,09.
100 90 80 70 60 50
•
40 i so •
io, •fai < -10000
-8000
-6000
-4000
-2000 X
Für diese Stichprobe beträgt sein Wert -0,41.
2000
4000
6000
204
Kapitel 5: Bivariate Datenanalyse
100 90 80 70
«%
60
-
50 40 30
• . * I -3500
1 -3000
1 -2500
1 -2000
1
1
-1500
-1000
20
".v
1 --500
Man sieht, daß mit r=-0,84 linearer Zusammenhang zu vermuten ist.
100 T 90
;
80 70 60 Y
.
•
. •
•
••
j
•
50 -40 30 20 10
0
100
500
800
X
Hier ist r=0,98, Y scheint sichtbar linear von X abzuhängen.
900
1000
205
5.3. Weitere statistische Kenngrößen 5.3.2. Regressionsparameter und Bestimmtheitsmaß
Nehmen wir aber jetzt einmal an, daß der empirische Korrelationskoeffizient zweier verbundener Stichproben einen Wert n a h e 1 oder -1 ergibt, so wie das letzte Bild es zeigte. In diesem Fall kann man vermuten, daß in der Tat ein linearer Zusammenhang Y = a + bX zwischen den beiden betrachteten Variablen existieren könnte. Folglich gehören dann zu den wichtigsten statistischen Kennzahlen der Stichprobe auch die S c h ä t z u n g e n der Zahlenwerte für a u n d b. Die Gleichung
Y=a + bX nennt man dann Regressionsgleichung zwischen X und Y. Der Koeffizient b wird oft als Regressionskoeffizient bezeichnet; für a liest man seltener den Namen Regressionskonstante. E X C E L spricht in seiner deutschen Version von der S t e i g u n g b und vom A c h s e n a b s c h n i t t a (englisch slope bzw. intercept).
Steigung
Achsenabschnitt
slope
intercept
206
Kapitel 5: Bivariate Datenanalyse
Aus einer Stichprobe berechnet man die Schätzungen für b und a nach den Gleichungen n
b
=
J
=
L
~ n
Z u - * )
2
J=I
und a =
y-bx
Das typische Bild einer Regression zeigt folglich zuerst die Punktwolke der gegebenen Wertepaare und dazu eingezeichnet die Regressionsgerade.
Dabei wird auf der waagerechten Achse (x) die unabhängige Variable ("Ursache") aufgetragen, die senkrechte Achse (y) enthält die abhängige Variable ("Wirkung"). Das konstante Glied (a) beschreibt dann den Achsenabschnitt, während die Steigung (b) den Anstieg der Regressionsgeraden angibt. Wie kann man nun die Güte der Regression beurteilen? Hier gibt es das Bestimmtheitsmaß F?, eine Zahl zwischen Null und Eins.
5.3. Weitere statistische Kenngrößen
207
Das Bestimmtheitsmaß R2 wird nach Durchführung der Regression berechnet aus den Residuen - das sind die Abweichungen der gegebenen Werte von der erhaltenen Regressionsgerade. Liegen (im Idealfall) alle Punkte auf der Geraden, so hat das Bestimmtheitsmaß den Idealwert 1. Je ldeiner der Wert des Bestimmtheitsmaßes ist, desto stärker streuen die Punkte um die Regressionsgerade (vgl. Böhler 1992, S. 208; Bamberg/ Baur 1991, S. 45). Zusammenfassend lassen sich mit der Regression folgende Fragen klären (vgl. Backhaus u.a. 1987, S. 4): • Wie stark ist der Einfluß der unabhängigen Variablen auf die abhängige Variable (Ursachenanalyse) ? • Wie verändert sich die abhängige Variable, wenn die unabhängige Variable verändert wird (Wirkungsanalyse) ? • Wie wird sich die abhängige Variable im Zeitablauf ceteris paribus verändern (Trendprognose) ?
Für den Rangkorrelationskoeffizienten nach Spearman sowie für Kontingenzkoeffizienten sei der Leser aus Platzgründen leider auf die Literatur (z.B. Bamberg/Baur 1991, S. 38 ff.) verwiesen. Hier kommt hinzu, daß EXCEL 5.0 die Ermittlung dieser Kenngrößen auch nicht speziell unterstützt.
5.4. EXCEL 5.0 und die bivariate Datenanalyse 5.4.1. Übersicht 5.4.1.1. Funktionen Unter den in Abschnitt 4.5.1.3. auf den Seiten 148 bis 150 aufgezählten Statistik-Funktionen sind für die bivariate deskriptive Analyse zuerst auch wieder die elementar-unterstützenden Funktionen von Bedeutung. Dazu kommen nun speziell für den Fall der gleichzeitigen Betrachtung zweier Variablen weitere wichtige Funktionen.
208
Kapitel 5: Bivariate Datenanalyse
ICORREL liefert den Korrelationskoeffizienten von Bravais-Pearson. KOVAR liefert die Kovarianz. ACHSENABSCHNITT liefert die Konstante der Regressionsgeraden. STEIGUNG liefert den Regressionskoeffizienten. 5.4.1.2. Werkzeuge Im Werkzeugkasten Analyse-Funktionen (im Menü Extras) unterstützt die Mehrzahl der Werkzeuge die bivariate Analyse. Für die deskriptive Statistik sind dies die Werkzeuge • Populationskenngrößen, • Korrelation, • Kovarianz, • Regressionsanalyse. 5.4.1.3. Assistenten Besondere Bedeutung für die bivariate deskriptive Statistik besitzt der Pivot-Tabellen-Assistent. Mit ihm lassen sich vor allem schnell Kreuztabellen herstellen und beliebig modifizieren. Natürlich wird man auch den Funktionsassistenten noch benötigen, wenn man eine der Statistik-Funktionen nutzen will und Unterstützung bei der richtigen Anwendung braucht. Schließlich ist auch der Diagramm-Assistent in seiner Leistungsfähigkeit keinesfalls nur auf eine Variable eingeschränkt. Wer den Inhalt einer Kreuztabelle grafisch darstellen möchte, vertraue sich der Unterstützung dieses Assistenten an! 5.4.2. Erzeugung von Kreuztabellen 5.4.2.1. Notwendige Vorbemerkung zum Pivot-Tabellen-Assistenten Das Programm EXCEL entstand ursprünglich nicht vordergründig zur Durchführung statistischer Berechnungen. Sondern es wurde hergestellt für den kaufmännischen Bereich, für Zwecke der Buchhaltung und Kostenrechnung.
209
5.4. E X C E L 5.0 und die bivariate Datenanalyse
Auch der Pivot-Tabellen-Assistent diente (und dient) vorrangig diesen Aufgaben. Er ist ausgezeichnet ausgestattet mit allen Hilfsmitteln für diese Zwecke. Dazu ein Ideines Beispiel: Eine Firma hat sieben Verkäufer, die ihren Umsatz melden. Der Umsatz wird notiert, dazu das Quartal, in dem er erzielt wurde. Verkäufer
Quartal
Umsatz 616,06
Maier Müller
3/93 2/93
1723,41
Schulze Krause
1/93 3/93
995,21 1518,18
Gliehm
4/93
1874,70
Gleim Hansen
3/93 1/93
1507,30 1767,80
Müller
2/93
617,00
Müller Schulze
1/93
360,19
1/93
609,86
Krause
2/93
1267,46
Zur Analyse der Verkaufserfolge wird der Pivot-Tabellen-Assistent beauftragt, die Umsätze aller Verkäufer in den vier Quartalen 1993 zusammenzustellen: Summe - Umsatz Verkäufer Gleim
Quartal 1/93 56,78
2/93 102,01
3/93 5264,06
4/93 901,76
Gesamtergebnis 6324,61
Gliehm
1916,89
1841,63
258,23
1874,7
5891,45
Hansen
1767,8
2037,01
4930,71
4620,22
13355,74
3025,2
8539,34
8407,72
11387,4
31359,66
Maier
5315,67
10870,29
13343,56
16333,64
45863,16
Müller
4548,43
5269,86
4806,65
2340,63
16965,57
Schulze
1605,07
2306,05
1707,48
7167,95
12786,55
18235,84
30966,19
38718,41
44626,3
132546,74
Krause
Gesamtergebnis
Links oben ist es zu sehen - von der Spalte Umsatz wurde für jeden Verkäufer die S u m m e p r o Q u a r t a l gebildet. Nun interessiert aber auch, wie diese Umsätze zustande gekommen sind. Wieviele Verkäufe hat eigentlich jeder Verkäufer pro Quartal?
210
Kapitel 5: Bivariate Datenanalyse
Kein Problem - der Tabellenkursor wird auf eine Zahl im Innern der Tabelle gesetzt, dann wird Menü Daten und Pivot-Tabellen-Feld gewählt, und dort wird von Summe auf Anzahl umgestellt: «
Datei
Microsoft Excel - TOURIST O.XLS Ansicht Einfügen Format Extras Daten
Bearbeiten
Fenster
?