Marktforschung und Datenanalyse mit EXCEL: Moderne Software zur professionellen Datenanalyse Mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben [2., unwesentlich veränderte Auflage. Reprint 2015] 9783486803761, 9783486253948

An einem durchgehenden praktischen Fall - eine Marktforschungsuntersuchung mittels einer Fragebogenaktion - werden die B

185 57 86MB

German Pages 300 Year 2000

Table of contents :
Einleitung
Kapitel 1: Der Forschungsprozeß
1.1. Problemdefinition
1.1.1. Wissenschaftliche Problemdefinition
1.1.2. Praxisbezogene Problemdefinition
1.2. Informationsquellen
1.2.1. Primär- und Sekundärforschung
1.2.2. Vor- und Nachteile der Sekundärforschung
1.2.3. Standardisierte Marktinformationsdienste
1.3. Wahl des Forschungsdesigns
1.3.1. Arten der Befragung
1.3.2. Der Fragebogen
1.4. Operationalisierung und Messung
1.4.1. Operationalisierung
1.4.2. Das Meßniveau von Daten
1.4.3. Skalen und Skalierungsverfahren
1.5. Auswahlverfahren
1.5.1. Voll- oder Teilerhebung?
1.5.2. V ollerhebung
1.5.3. Teilerhebungen
1.6. Durchführung und Überwachung der Datenerhebung
1.6.1. Vorbereitung der Datenerhebung
1.6.2. Durchführung der Datenerhebung
1.6.3. Kontrolle und Überwachung der Erhebung
1.7. Datenerfassung und Datenanalyse
1.7.1. Univariate, bivariate und multivariate Datenanalyse
1.7.2. Deskriptive und induktive Datenanalyse
1.7.3. Dependenz- und Interdependenzanalyse
1.8. Präsentation der Ergebnisse
Kapitel 2: Codierung der Daten
2.1. Vorstellung des Anwendungsbeispiels "Deutsche Touristen in Istanbul”
2.2. Grundsätze der Codierung
2.2.1. Begriffliche Grundlagen: Datenmatrix, Variable, Merkmalsausprägung
2.2.2. Codierungsgrundsätze
2.2.3. Der Codeplan
Kapitel 3: Datenerfassung und Datenaufbereitung mit EXCEL 5.0
3.1. Kurzeinführung in EXCEL 5.0
3.1.1. Begriffe
3.1.2. Bedienung von EXCEL 5.0
3.2. Erfassung der Daten mit EXCEL 5.0
3.2.1. Vorbereitung des Tabellenblattes
3.2.2. Dateneingabe
3.2.3. Datensicherung
3.3. Überprüfung der Daten auf Eingabefehler
3.4. Gewichtung des Datensatzes
3.5. Herstellung von Untergruppen
Kapitel 4: Univariate Datenanalyse
4.1. Allgemeines
4.1.1. Das Beispiel “Touristenbefragung Ostern 1995”
4.1.2. Grundaufgaben der univariaten Datenanalyse
4.1.3. Zusatzaufgabe der univariaten Datenanalyse
4.1.4. Übersicht über weitere Aufgaben
4.2. Tabellarische Darstellungen (Häufigkeitstabellen)
4.3. Grafische Darstellungen (Histogramme)
4.4. Statistische Kenngrößen der univariaten Datenanalyse
4.4.1. Allgemeines
4.4.2. Lageparameter
4.4.3. Streuungsparameter
4.4.4. Formparameter
4.5. EXCEL 5.0 und die Lösung der Grundaufgaben
4.5.1. Niveaustufen der Arbeit mit Excel 5.0
4.5.2. Ermittlung von Häufigkeitstabellen
4.5.3. Ermittlung von statistischen Kenngrößen
4.5.4. Ermittlung von Histogrammen
4.5.5. Weitere grafische Darstellungen univariater Daten
4.5.6. Gewinnung von Übersicht in großen Datenbeständen
Kapitel 5: Bivariate Datenanalyse
5.1. Allgemeines
5.1.1. Das Beispiel “Touristenbefragung Ostern 1995”
5.1.2. Grundaufgaben der bivariaten Datenanalyse
5.1.3. Weitere Aufgaben der bivariaten Datenanalyse
5.2. Kreuztabellen und die Zahl CHI-Quadrat
5.2.1. Allgemeines
5.2.2. Klassenbildung
5.2.3. Die Zahl CHI-Quadrat
5.3. Weitere statistische Kenngrößen
5.3.1. Der Korrelationskoeffizient von Bravais-Pearson
5.3.2. Regressionsparameter und Bestimmtheitsmaß
5.4. EXCEL 5.0 und die bivariate Datenanalyse
5.4.1. Übersicht
5.4.2. Erzeugung von Kreuztabellen
5.4.3. Korrelation
5.4.4. Regression
Kapitel 6: Induktive Datenanalyse
6.1. Grundlagen
6.1.1. Keine Hypothese ohne Gegenhypothese
6.1.2. Keine Entscheidung ohne möglichen Fehler
6.1.3. Keine Subjektivität bei der Entscheidung
6.1.4. Entscheidungsregeln
6.2. EXCEL 5.0 und die induktive Datenanalyse
6.3. Der einfache t-Test der univariaten Datenanalyse
6.3.1. Problemstellung
6.3.2. Rechnung
6.3.3. Entscheidungen
6.3.4. Rechnung mit EXCEL
6.4. Der CHI-Quadrat-Anpassungstest der univariaten Datenanalyse
6.4.1. Problemstellung
6.4.2. Rechnung mit EXCEL
6.5. Der doppelte t-Test der bivariaten Datenanalyse
6.5.1. Problemstellung
6.5.2. Rechnung
6.5.3. Entscheidungen
6.5.4. Rechnung mit EXCEL
6.6. Der CHI-Quadrat-Unabhängigkeitstest
6.6.1. Problemstellung
6.6.2. Rechnung mit EXCEL
Kapitel 7: Präsentation der Ergebnisse
7.1. Abfassung eines Marktforschungsberichts
7.2. Grafische und tabellarische Darstellung der Ergebnisse
7.2.1. Grafische Darstellungsmöglichkeiten
7.2.2. Das Auswahlmodell von Zelazny
7.2.3. Persönliche Präsentation
Anhang A: Statistische Kenngrößen der “Touristenbefragung Ostern 1995”
Anhang B: Schnellwahl-Tastenkombinationen
Anhang C: Hinweise und Lösungen zu den Computer-Übungen 1 bis 23
Literaturverzeichnis
Stichwortverzeichnis

Recommend Papers

Datenanalyse und Modellierung mit STATISTICA 9783486594126, 9783486579598

STATISTICA unterstützt die statistische und grafische Analyse von Datenmaterial. Nach einer Einführung in die grundlegen

142 66 11MB Read more

Statistik mit Excel 5 oder 7: Lehr- und Übungsbuch mit zahlreichen Excel Beispieltabellen und mit Diskette [4., unwesentlich veränderte Auflage. Reprint 2018] 9783486798142, 9783486248203

139 18 55MB Read more

Moderne Marktforschung: Systematische Einführung mit zahlreichen Beispielen und Praxisanwendungen. Auswahlverfahren, Erhebungsmethoden, Datenauswertung, Absatzprognose [3 ed.] 9783428541959, 9783428141951

Wirtschaften heißt Entscheiden. Wer sachgerecht entscheiden will, braucht Informationen. Diese Informationen liefert im

109 12 13MB Read more

Datenanalyse mit Stata: Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung [5th updated edition] 9783110469509, 9783110472905

This book is conceived as an introduction to the statistics program Stata and to the techniques of data analysis. In add

240 107 7MB Read more

Datenanalyse mit Stata: Allgemeine Konzepte der Datenanalyse und ihre praktische Anwendung [5th updated edition] 9783110469509, 9783110472905

This book is conceived as an introduction to the statistics program Stata and to the techniques of data analysis. In add

151 73 31MB Read more

Datenanalyse mit SPSS für Windows [2., neubearbeitete Auflage. Reprint 2018] 9783486791105, 9783486238273

Einführendes Lehrbuch und Manual für die Datenanalyse mit SPSS für Windows.

141 35 27MB Read more

Statistische Datenanalyse mit SPSS für Windows [2., völlig überarb. und erw. Aufl. Reprint 2014] 9783486815085, 9783486274721

eine speziell für Wirtschafts- und Sozialwissenschaftler geeignete Einführung in die Grundlagen der Statistik und deren

144 112 22MB Read more

Statistische Datenanalyse mit Mikrocomputern: Einführung in P-STAT und SPSS [2., überarbeitete Auflage. Reprint 2018] 9783486791662, 9783486239164

Diese Einführung wendet sich vor allem an Sozial- und Wirtschaftswissenschaftler. Die Möglichkeiten der rechnergestützte

135 88 31MB Read more

Statistische Datenanalyse mit dem Programmsystem SPSSx und SPSS/PC+ [2., völlig überarbeitete Auflage. Reprint 2018] 9783486783261, 9783486217001

Das vorliegende Buch soll einen ersten Eindruck von den Möglichkeiten des Programmsystems SPSS vermitteln und die ersten

134 30 9MB Read more

Statistik: mit Datenanalyse und ökonometrischen Grundlagen [7., überarb. und erw. Aufl.] 9783486718478, 9783486717815

Obwohl statistische Analysen aufgrund der technischen Möglichkeiten immer einfacher werden, ist das grundlegende Verstän

168 114 4MB Read more

Marktforschung und Datenanalyse mit EXCEL: Moderne Software zur professionellen Datenanalyse Mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben [2., unwesentlich veränderte Auflage. Reprint 2015]
9783486803761, 9783486253948

Author / Uploaded
Gerhard Reiter
Wolf-Gert Matthaeus

0 0 0
Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up

File loading please wait...

Citation preview

Managementwissen für Studium und Praxis Herausgegeben von

Professor Dr. Dietmar Dorn und Professor Dr. Rainer Fischbach Bisher erschienene Werke: Behrens • Kirspel, Grundlagen der Volkswirtschaftslehre Bichler • Dörr, Personalwirtschaft Einführung mit Beispielen aus SAP® R/3® HR® Blum, Grundzüge anwendungsorientierter Organisationslehre Bontrup, Volkswirtschaftslehre Bontrup, Lohn und Gewinn Bradtke, Mathematische Grundlagen für Ökonomen Bradtke, Statistische Grundlagen für Ökonomen Busse, Betriebliche Finanzwirtschaft, 4. Auflage Clausius, Betriebswirtschaftslehre I Clausius, Betriebswirtschaftslehre II Dorn • Fischbach, Volkswirtschaftslehre II, 3. Auflage Ellinghaus, Werbewirkung und Markterfolg Fank, Informationsmanagement Fank • Schildhauer • Klotz, Informationsmanagement: Umfeld - Fallbeispiele Fiedler, Einführung in das Controlling Fischbach, Volkswirtschaftslehre I, 10. Auflage Frodl, Dienstleistungslogistik Haas, Marketing mit EXCEL, 2. Auflage Hardt, Kostenmanagement Heine • Herr, Volkswirtschaftslehre Hofmann, Globale Informationswirtschaft Hoppen, Vertriebsmanagement Koch, Marketing Koch, Marktforschung, 2. Auflage Koch, Gesundheitsökonomie: Kosten- und Leistungsrechnung Krech, Grundriß der strategischen Unternehmensplanung Kreis, Betriebswirtschaftslehre, Band I, 5. Auflage Kreis, Betriebswirtschaftslehre, Band II, 5. Auflage Kreis, Betriebswirtschaftslehre, Band III, S.Auflage

Lebefromm, Controlling - Einführung mit Beispielen aus SAP® R/3®, 2. Auflage Lebefromm, Produktionsmanagement Einführung mit Beispielen aus SAP® R/3®, 4. Auflage Martens, Statistische Datenanalyse mit SPSS für Windows Mensch, Kosten-Controlling Olivier, Windows-C - Betriebswirtschaftliche Programmierung für Windows Peto, Einführung in das volkswirtschaftliche Rechnungswesen, 5. Auflage Piontek, Controlling Piontek, Beschaffungscontrolling, 2. Auflage Piontek, Global Sourcing Posluschny, Kostenrechnung für die Gastronomie Posluschny • von Schorlemer, Erfolgreiche Existenzgründungen in der Praxis Reiter • Matthäus, Marktforschung und Datenanalyse mit EXCEL, 2. Auflage Reiter • Matthäus, Marketing-Management mit EXCEL Rudolph, Tourismus-Betriebswirtschaftslehre Rüth, Kostenrechnung, Band I Sauerbier, Statistik für Wirtschaftswissenschaftler Schaal, Geldtheorie und Geldpolitik, 4. Auflage Scharnbacher • Kiefer, Kundenzufriedenheit, 2. Auflage Schuchmann • Sanns, Datenmanagement mit MS ACCESS Schuster, Kommunale Kosten- und Leistungsrechnung Stahl, Internationaler Einsatz von Führungskräften Steger, Kosten- und Leistungsrechnung, 2. Auflage Stock, Informationswirtschaft Weindl • Woyke, Europäische Union, 4. Auflage Zwerenz, Statistik

Marktforschung und Datenanalyse mit EXCEL Moderne Software zur professionellen Datenanalyse Mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben Buch mit Diskette Von

Dr. Gerhard Reiter Dr. Wolf-Gert Matthäus

2., unwesentlich veränderte Auflage

R. Oldenbourg Verlag München Wien

Die Deutsche Bibliothek - CIP-Einheitsaufnahme Marktforschung und Datenanalyse mit EXCEL : moderne Software zur professionellen Datenanalyse ; mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben / von Gerhard Reiter ; Wolf-Gert Matthäus. - 2., unwes. veränd. Aufl. München ; Wien : Oldenbourg. (Managementwissen für Studium und Praxis) ISBN 3-486-25394-8 NE: Reiter, Gerhard; Matthäus, Wolf-Gert Buch. - 2000 Marktforschung und Datenanalyse mit EXCEL : moderne Software zur professionellen Datenanalyse ; mit praxisbezogenen Beispielen und zahlreichen Übungsaufgaben / von Gerhard Reiter ; Wolf-Gert Matthäus. - 2., unwes. veränd. Aufl. München ; Wien : Oldenbourg. (Managementwissen fÜrStudium und Praxis) ISBN 3-486-25394-8 NE: Reiter, Gerhard; Matthäus, Wolf-Gert Diskette. - 2000

© 2000 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Druck: R. Oldenbourg Graphische Betriebe Druckerei GmbH ISBN 3-486-25394-8

VORWORT ZUR ZWEITEN AUFLAGE Das vorliegende Werk wurde in der zweiten Auflage inhaltlich nicht verändert, da sich das formale u n d didaktische Konzept in der bestehenden Form bewährt hat. Geringfügige Veränderungen könnten sich für Leser u n d Anwender d a n n ergeben, wenn anstelle der von u n s verwendeten Excel-Version 5.0 mit der neueren Version Excel 97 gearbeitet wird. Dabei werden aber die Anwendungen n u r erleichtert, durch

beispielsweise

den verbesserten Diagramm-Assistenten: Der Diagramm-Assistent von Excel 97 beinhaltet zusätzliche Optionen und neue Diagrammtypen (Blasen-, Kreis-aus-Kreis- und Balken-aus-Kreis-Diagramme; Pyramide, Kegel und Zylinder für 3D-Balken und 3D-Säulendiagramme) den erweiterten Zeilenbereich: Excel 97 ermöglicht 65.536 Zeilen pro Tabellenblatt. Der Spaltenbereich von 256 Spalten wurde beibehalten. Damit können noch umfangreichere Datenbestände gespeichert und bearbeitet werden. neue Funktionen: Excel 97 bietet z.B. mit MAXA, MINA Funktionen zur Datenanalyse an, die die Berechnung von Zellen, die Text enthalten, mit einschließen. Wer sich über weitere Excel-Anwendungen in der Marktforschung u n d im Marketing informieren möchte (z.B. Trendberechnung, Exponentielles Glätten, Multiple Regression, Zeitreihenanalyse, t-Test, F-Test etc.) sei auf das Buch „Marketing-Management mit Excel" verwiesen, das von den selben Autoren verfaßt wurde (Oldenbourg Verlag). Gerhard Reiter und Wolf-Gert Matthäus

VORWORT ZUR ERSTEN AUFLAGE Mit dem vorliegenden Buch haben wir das Ziel verfolgt, auf möglichst anschauliche u n d praxisbezogene Weise den Leser in die mit der Marktforschung u n d insbesondere in die mit der Datenanalyse verbundenen Probleme einzuführen. Wir stellen hierzu einen praktischen Fall - eine Fragebogenaktion - in den Mittelpunkt der Ausführungen.

6

Vorwort

Durch diese Vorgehensweise wollen wir den Nutzer dazu anregen, sich tatsächlich - und nicht nur theoretisch - mit einer Marktforschungsuntersuchung auseinanderzusetzen. Dies können Untersuchungen im Betrieb oder für Diplom- und Doktorarbeiten sein. Die in diesem Buch vorgestellten Arbeitsschritte werden sich in gleicher Weise bei jeder anderen Marktforschungsuntersuchung auch stellen. Einen starken Praxisbezug versuchten wir durch die Wahl von EXCEL als Hilfsmittel bei der Datenanalyse zu gewährleisten. EXCEL gehört inzwischen zu den verbreitetsten Softwarepaketen, die in Unternehmen und in Universitäten eingesetzt und angeboten werden. Dabei werden in der praktischen Anwendung aus unserer Sicht die Möglichkeiten der Datenanalyse mit Hilfe von EXCEL bisher nicht ausreichend berücksichtigt. Die Beschränkung auf das Thema der Datenanalyse begründet sich darin, daß dieses Themengebiet alleine schon so umfangreich ist, daß es ein eigenes Lehrbuch (nämlich das vorliegende) zu füllen vermag. Zusätzlicher Lehrstoff hätte das Volumen des vorliegenden Buches unnötigerweise überfordert. Ein weiterer Grund für die Beschränkung auf das Thema Datenanalyse ist darin zu sehen, daß das Programmpaket EXCEL für diesen Themenschwerpunkt spezifische Anwendungsmöglichkeiten bereitstellt, die wir in aller Ausführlichkeit darstellen wollen. Obwohl wir annehmen können, daß viele Leser bereits Erfahrungen mit EXCEL besitzen, haben wir bei unseren Ausführungen darauf Wert gelegt, dem Anfänger und dem Fortgeschrittenen den Einstieg in die Benutzung von EXCEL gleichermaßen leicht zu machen. Wir hoffen, daß das vorliegende Lehrbuch bei Praktikern im Unternehmen und bei Lehrenden und Studenten an Universitäten und Fachhochschulen gleichermaßen Anklang findet. Gerhard Reiter und Wolf-Gert Matthäus

INHALTSVERZEICHNIS Einleitung

15

Kapitel 1: Der Forschungsprozeß

17

1.1. 1.1.1. 1.1.1.1. 1.1.1.2. 1.1.1.3.

Problemdefinition Wissenschaftliche Problemdefinition Kausale Untersuchungen Deskriptive Untersuchungen Explorative Untersuchungen

17 17 17 19 20

1.1.2.

Praxisbezogene Problemdefinition

22

1.2. 1.2.1. 1.2.2. 1.2.3.

Informationsquellen Primär- und Sekundärforschung Vor- und Nachteile der Sekundärforschung Standardisierte Marktinformationsdienste

26 26 29 30

1.3. 1.3.1. 1.3.2.

Wahl des Forschungsdesigns Arten der Befragung Der Fragebogen

32 33 36

1.4. 1.4.1. 1.4.2. 1.4.3. 1.4.3.1. 1.4.3.2.

Operationalisierung und Messung Operationalisierung Das Meßniveau von Daten Skalen und Skalierungsverfahren Rating-Skalen Das Semantische Differential

39 39 41 45 47 52

8

Inhaltsverzeichnis

1.5.

Auswahl verfahren

54

1.5.1. 1.5.2. 1.5.3. 1.5.3.1. 1.5.3.2. 1.5.3.3. 1.5.3.4.

Voll- oder Teilerhebung? Vollerhebung Teilerhebungen Grundsätze Teilerhebungen ohne Zufallsprinzip Teilerhebungen nach dem Zufallsprinzip Stichprobengröße und statistischer Fehler

54 55 55 55 57 60 63

1.6. 1.6.1. 1.6.2. 1.6.3.

Durchführung und Überwachung der Datenerhebung ..66 Vorbereitung der Datenerhebung 66 Durchführung der Datenerhebung 67 Kontrolle und Überwachung der Erhebung 68

1.7. 1.7.1. 1.7.2. 1.7.3.

Datenerfassung und Datenanalyse Univariate, bivariate und multivariate Datenanalyse Deskriptive und induktive Datenanalyse Dependenz- und Interdependenzanalyse

70 70 72 73

1.8.

Präsentation der Ergebnisse

74

Kapitel 2: Codierung der Daten 2.1.

2.2. 2.2.1. 2.2.2. 2.2.3.

Vorstellung des Anwendungsbeispiels "Deutsche Touristen in Istanbul" Grundsätze der Codierung Begriffliche Grundlagen: Datenmatrix, Variable, Merkmalsausprägung Codierungsgrundsätze Der Codeplan

77 77 81 81 87 90

Inhaltsverzeichnis

9

Kapitel 3: Datenerfassung und Datenaufbereitung mit EXCEL 5.0

93

3.1. 3.1.1. 3.1.2.

Kurzeinführung in EXCEL 5.0 Begriffe Bedienung von EXCEL 5.0

93 93 97

3.2. 3.2.1. 3.2.2. 3.2.3.

Erfassung der Daten mit EXCEL 5.0 Vorbereitung des Tabellenblattes Dateneingabe Datensicherung

106 106 113 114

3.3.

Überprüfung der Daten auf Eingabefehler

115

3.4.

Gewichtung des Datensatzes

116

3.5.

Herstellung von Untergruppen

11 7

Kapitel 4: Univariate Datenanalyse

121

4.1. 4.1.1. 4.1.2. 4.1.3. 4.1.4.

Allgemeines Das Beispiel "Touristenbefragung Ostern 1995" Grundaufgaben der univariaten Datenanalyse Zusatzaufgabe der univariaten Datenanalyse Übersicht über weitere Aufgaben

121 121 125 126 127

4.2.

Tabellarische Darstellungen (Häufigkeitstabellen)

128

4.3.

Grafische Darstellungen (Histogramme)

132

Inhal tsverzei chni s

10 4.4. 4.4.1. 4.4.2. 4.4.3. 4.4.4.

Statistische Kenngrößen der univariaten Datenanalyse Allgemeines Lageparameter Streuungsparameter Formparameter

133 133 133 139 141

4.5. 4.5.1. 4.5.1.1. 4.5.1.2. 4.5.1.3. 4.5.1.4. 4.5.1.5.

EXCEL 5.0 und die Lösung der Grundaufgaben Niveaustufen der Arbeit mit Excel 5.0 Übersicht Formeln in EXCEL 5.0 Funktionen in EXCEL 5.0 Der Statistik-Werkzeugkasten von EXCEL 5.0 Die Assistenten von EXCEL 5.0

142 142 142 142 148 152 155

4.5.2. 4.5.3. 4.5.4. 4.5.5. 4.5.5.1. 4.5.5.2.

Ermittlung von Häufigkeitstabellen Ermittlung von stat istischen Kenngrößen Ermittlung von Histogrammen Weitere grafische Darstellungen univariater Daten Übersicht Grafische Darstellungen mit EXCEL 5.0

155 161 164 166 166 167

4.5.6.

Gewinnung von Übersicht in großen Datenbeständen

178

Kapitel 5: Bivariate Datenanalyse

191

5.1. 5.1.1. 5.1.2. 5.1.3.

191 191 194 195

Allgemeines Das Beispiel "Touristenbefragung Ostern 1995" Grundaufgaben der bivariaten Datenanalyse Weitere Aufgaben der bivariaten Datenanalyse

Inhaltsverzeichnis

11

5.2. 5.2.1. 5.2.2. 5.2.3.

Kreuztabellen und die Zahl CHI-Quadrat Allgemeines Klassenbildung Die Zahl CHI-Quadrat

198 198 199 200

5.3. 5.3.1. 5.3.2.

Weitere statistische Kenngrößen Der Korrelationskoeffizient von Bravais-Pearson Regressionsparameter und Bestimmtheitsmaß

201 201 205

5.4. 5.4.1. 5.4.1.1. 5.4.1.2. 5.4.1.3.

EXCEL 5.0 und die bivariate Datenanalyse Übersicht Funktionen Werkzeuge Assistenten

207 207 207 208 208

5.4.2. 5.4.2.1.

208

5.4.2.2. 5.4.2.3. 5.4.2.4.

Erzeugung von Kreuztabellen Notwendige Vorbemerkung zum Pivot-TabellenAssistenten Kreuztabellen mit dem Pivot-Tabellen-Assistenten Kreuztabellen für drei Variablen Kreuztabellen und Klassenbildung

208 211 221 224

5.4.3. 5.4.4.

Korrelation Regression

227 230

Kapitel 6: Induktive Datenanalyse

235

6.1. 6.1.1. 6.1.2. 6.1.3. 6.1.3.1. 6.1.3.2. 6.1.3.3.

Grundlagen Keine Hypothese ohne Gegenhypothese Keine Entscheidung ohne möglichen Fehler Keine Subjektivität bei der Entscheidung Allgemeines Methode I: Prüfgröße und kritische Werte Methode 2: Überschreitungswahrscheinlichkeit

235 235 237 239 239 240 241

6.1.4.

Entscheidungsregeln

241

Inhaltsverzeichnis

12

6.2.

EXCEL 5.0 und die induktive Datenanalyse

242

6.3. 6.3.1. 6.3.2. 6.3.3. 6.3.3.1. 6.3.3.2.

Der einfache t-Test der univariaten Datenanalyse Problemstellung Rechnung Entscheidungen Entscheidungen mit der Prüfgröße Entscheidungen mit der Überschreitungswahrscheinlichkeit

243 243 244 245 245 245

6.3.4.

Rechnung mit EXCEL

246

6.4.

Der CHI-Quadrat-Anpassungstest der univariaten Datenanalyse Problemstellung Rechnung mit EXCEL

248 248 250

6.4.1. 6.4.2. 6.5. 6.5.1. 6.5.2. 6.5.3. 6.5.3.1. 6.5.3.2.

Der doppelte t-Test der bivariaten Datenanalyse Problemstellung Rechnung Entscheidungen Entscheidungen mit der Prüfgröße Entscheidungen mit der Uberschreitungswahrscheinlichkeit

252 252 252 253 253

6.5.4.

Rechnung mit EXCEL

255

6.6. 6.6.1. 6.6.2.

Der CHI-Quadrat-Unabhängigkeitstest Problemstellung Rechnung mit EXCEL

257 257 258

254

Inhaltsverzeichnis

13

Kapitel 7: Präsentation der Ergebnisse

265

7.1.

A b f a s s u n g e i n e s Marktforschungsberichts

265

7.2.

G r a f i s c h e u n d tabellarische D a r s t e l l u n g der Ergebnisse

266

7.2.1.

Grafische Darstellungsmöglichkeiten

266

7.2.2.

Das Auswahlmodell von Zelazny

268

7.2.3.

Persönliche Präsentation

271

Anhang A:

Statistische Kenngrößen der "Touristenbefragung Ostern 1995"

273

Anhang B:

Schnellwahl-Tastenkombinationen

280

Anhang C:

Hinweise und Lösungen zu den

Computer-Übungen 1 bis 23

282

Literaturverzeichnis

297

Stichwortverzeichnis

299

EINLEITUNG: Marktforschung und Datenanalyse Marktforschungsstudien werden nicht an einem Stück und nicht an einem Tag erledigt. Sie erstrecken sich für gewöhnlich über einen längeren Zeitraum und setzen sich aus verschiedenen Teilaufgaben zusammen. Aus Gründen der Übersichtlichkeit ist es vorteilhaft, einzelne Arbeitsschritte zusammenzufassen und die Arbeitsschritte in einer zeitlichen Abfolge abzuarbeiten. Der sich so ergebende Forschungsprozeß läßt sich als ein Phasenmodell mit mehreren hintereinanderfolgenden Phasen darstellen. Die Phasen vereinen jeweils einzelne Arbeitsschritte in sich und können noch weiter in Teilschritte untergliedert werden. Die Abgrenzung der einzelnen Phasen dient zur Strukturierung der Teilaufgaben, die mit einer Marktforschungsstudie verbunden sind. Das nachfolgend beschriebene Phasenmodell legt auch die Grundstruktur für die Gliederung des vorliegenden Lehrbuchs fest. Die einzelnen Phasen müssen nicht immer in der beschriebenen Reihenfolge durchschritten werden. Je nach Aufgabenstellung können einzelne Phasen übersprungen werden. Wir legen hier ein Modell mit acht nacheinander folgenden Stufen zugrunde. Die Strukturierung des Marktforschungsprozesses anhand eines Phasenmodells hat auch in zahlreichen anderen Lehrbüchern Eingang gefunden, wobei die Anzahl der Phasen unterschiedlich ist. Man findet Modelle mit nur fünf (vgl. Nieschlag/Dichtl/Hörschgen 1985, S. 634), sechs (vgl. Weis/Steinmetz 1991, S. 25) oder sieben Phasen (vgl. Böhler 1992, S. 24) aber auch mit acht (vgl. Hammann/Erichson 1990, S. 55) und neun Phasen (vgl. Schnell^/Hill/Esser 1995, S. 7 ff.). Die acht Phasen können Abbildung 1 entnommen werden.

Einleitung

16

Phase 1 :

Problemdefinition

Phase 2:

Informa tionsquellen

Phase 3:

Wahl des Forschungsdesigns

Phase 4:

Operationalisierung und Messung

Phase 5:

A us wahlverfahren

Phase 6:

Phase 7:

Phase 8:

Durchführung und Überwachung der

Datenerfassung

und

Datenerhebung

Datenanalyse

Präsentation der Ergebnisse

Abb. 1: Phasen des Forschungsprozesses

In diesem Lehrbuch werden nicht alle Phasen gleichberechtigt behandelt und vorgestellt. Wir legen vielmehr den Schwerpunkt auf die Analyse von Marktforschungsdaten, die im Phasenmodell in Phase 7 abgehandelt wird. Die anderen Teilschritte werden im nachfolgenden Kapitel 1 übersichtsartig vorgestellt, um den Gesamtzusammenhang des Forschungsprozesses sichtbar zu machen. Wer sich für die einzelnen Arbeitsschritte näher interessiert bzw. sich darüber informieren möchte, sei auf die angegebene Literatur verwiesen und wird sicherlich in jedem Standard-Lehrbuch zur Marktforschung entsprechende Angaben finden.

Kapitel 1: Der Forschungsprozeß 1.1. Problemdefinition Der Forschungsprozeß beginnt mit einer möglichst genauen Problembestimmung. Dies ist schon allein deshalb eine sehr wichtige Aufgabe, der größte Aufmerksamkeit zu widmen ist, weil alle danach folgenden Arbeitsschritte darauf aufbauen. Fehler, die bei der Definition des Forschungsproblems gemacht werden, lassen sich nur sehr schwer nachträglich korrigieren! Da sich zwischen Wissenschaft und Praxis eine unterschiedliche Vorgehensweise bei der Problemdefinition eingebürgert hat, sollen diese beiden Bereiche nachfolgend getrennt behandelt werden. 1.1.1. Wissenschaftliche Problemdefinition Innerhalb der wissenschaftlichen Problemdefinition können drei verschiedene Aufgabenstellungen unterschieden werden, nach denen sich Marktforschungs-Untersuchungen einteilen lassen (vgl. Nieschlag/ Dichtl/Hörschgen 1985, S. 621; Green/Tull 1982, S. 62 ff.): • kausale Untersuchungen, • deskriptive Untersuchungen, • explorative Untersuchungen. Im folgenden sollen die einzelnen Ansätze kurz vorgestellt werden. 1.1.1.1. Kausale Untersuchungen Im Rahmen kausaler Untersuchungen dienen Marktforschungsstudien der Erklärung der Realität und damit der Verbesserung der Aussagekraft von wissenschaftlichen Theorien.

18

Kapitel 1: Der Forschungsprozeß

Ausgangspunkt kausaler Studien ist => entweder eine neue oder bestehende Theorie, die überprüft werden soll, oder aber => ein reales Problem, das mit Hilfe einer Theorie erklärt werden soll. Wichtigstes Ziel kausaler Studien ist es, zu verläßlichen Erklärungen der beobachteten Phänomene zu gelangen. Zur Erldärung des Problems werden verschiedene sogenannte Hypothesen aufgestellt. Hypothesen sind mögliche Antworten auf ein Forschungsproblem. An Hypothesen sind, sollen sie wissenschaftlichen Ansprüchen genügen, strenge inhaltliche und formale Kriterien zu richten (vgl. Schnell/ Hill/Esser 1995, S. 51 ff.). Anforderungen an wissenschaftliche Hypothesen: • Hypothesen müssen sich empirisch messen lassen. • Hypothesen müssen sich widerlegen lassen. • Hypothesen sollen eine allgemeine Gültigkeit aufweisen. • Hypothesen müssen einen "Wenn, dann"-Charakter aufweisen. Im Anschluß an die Hypothesenformulierung und -operationalisierung erfolgt die Datensammlung. Es schließt sich daran der Vergleich der Ergebnisse mit den aufgestellten Hypothesen an, die dann entweder bestätigt oder verworfen werden können. Nach strenger wissenschaftlicher Interpretation gibt es allerdings keine Möglichkeiten, Hypothesen endgültig zu bestätigen. Letzlich gelingt es nur, sie mangels gegenteiliger Beweise nicht zu verwerfen ("Falsifikationsprinzip").

1.1. Problemdefinition

19

"Gesetze können somit niemals verifiziert, sondern bestenfalls vorläufig bestätigt werden." (Schnell/Hill/Esser 1995, S. 58). Der Vorgang der Formulierung und der Überprüfung empirischer Hypothesen wird damit zum Motor der Gewinnung wissenschaftlicher Erkenntnisse. Beispiel für kausale Studien: Betrachten wir den Zusammenhang zwischen Aktivierungspotential einer Anzeige und der Erinnerungsquote an die Anzeige. Haben Anzeigen mit hohem Aktivierungspotential auch eine höhere Erinnerungsquote? Eührt eine Verdoppelung des Aktivierungspotentials auch zu einer Verdoppelung der Erinnerungsquote? Kausale Studien beziehen sich häufig auf Daten, die in Experimenten oder quasi-experimentellen Versuchsanordnungen gewonnen werden, und die dann mittels statistischer Analysen (z. B. Korrelations- und Regressionsanalyse, Pfadanalyse) und spezieller statistischer Tests überprüft werden (z. B. t-Test, z-Test). Allerdings wird von den strengen Anforderungen an wissenschaftliche Erkenntnisgewinnung häufig abgewichen. Oftmals ist es zum einen nicht möglich, die strengen Anforderungen an wissenschaftliche Hypothesenformulierung zu erfüllen, zum anderen sind zahlreiche Phänomene der Realität nicht durch das Falsifikationsprinzip zu erklären. Man unterscheidet deshalb weniger strenge wissenschaftliche Vorgehensweisen, wie die deskriptiven und die explorativen Untersuchungen.

1.1.1.2. Deskriptive Untersuchungen Nahezu die meisten der durchgeführten wissenschaftlichen und praktischen Untersuchungen lassen sich dieser Kategorie zuordnen.

Die Aufgabe deskriptiver Studien besteht in der möglichst genauen Erfassung und Beschreibung problemrelevanter Sachverhalte.

20

Kapitel 1 : Der Forschungsprozeß

Deskriptive Studien dienen folgenden Zielen (vgl. Böhler 1992, S. 31): • Beschreibung von Markttatbeständen (z.B. Häufigkeiten), • Ermittlung der Zusammenhänge zwischen Variablen (z.B. Korrelationen), • Prognose von Entwicklungen. Deskriptive Studien folgen - im Gegensatz zu den nachfolgend beschriebenen explorativen Studien - einem genau vorgegebenen Forschungsziel. Sie bauen auf dem Prinzip der Wahrscheinlichkeitstheorie auf und versuchen, Rückschlüsse über die Verteilung von Merkmalen in der Grundgesamtheit zu ziehen. Bei deskriptiven Studien steht weniger die Erklärung als vielmehr die umfassende Beschreibung der Realität im Vordergrund. Beispiele für deskriptive

Studien:

Die Ermittlung von soziodemographischen und psychographischen Käuferin erkmalen. Die Bestimmung

von

Marktanteilen.

Zu den wichtigsten Forschungsmethoden gehören Querschnitts- und Längsschnittsuntersuchungen. Die Ergebnisse von deskriptiven Studien erheben keine universelle Gültigkeit; ihre Gültigkeit bezieht sich auf bestimmte eingeschränkte räumliche und zeitliche Gegebenheiten.

1.1.1.3. Explorative Untersuchungen Die explorative Forschung hat nicht die Uberprüfung kausaler Hypothesen zum Ziel, sondern dient der Gewinnung von Hypothesen. Dies ist insbesondere dann eine sinnvolle Vorgehensweise, wenn über ein Forschungsgebiet noch wenig bekannt ist und wissenschaftliches Neuland betreten wird.

21

1.1. Problemdefinition

Explorative Untersuchungen dienen einer ersten Aufhellung und Strukturierung des interessierenden Problemfeldes. Die Forschungsziele der explorativen Forschung sind deshalb (vgl. Böhler 1992, S. 30): • Präzisierung von Marktforschungsproblemen (Hypothesenfindung), • Prioritätensetzung bei der Projektauswahl, • Gewinnung von Anhaltspunkten für die Projektabwicklung. Im Rahmen explorativer Studien steht die unstrukturierte Suche nach Zusammenhängen in den Daten im Vordergrund. Es wurden für diese Vorgehensweise des unstrukturierten Suchens einige Forschungstechniken entwickelt, die unter dem Stichwort "explorative Datenanalyse" (vgl. Reiter/Zeiger 1990, S. 129 ff.) diskutiert werden. Beispiele fiir explorative

Studien:

llxpertenbefragungen, Sekundäranalyse

(vgl. Kap.

1.2.),

Gruppendiskussionen, Fallstudien, Simulation.

Kausale, deskriptive und explorative Untersuchungsansätze müssen sich nicht gegenseitig ausschließen. Sie können sich sinnvoll ergänzen, indem beispielsweise explorative Studien im Vorfeld der kausalen und deskriptiven Untersuchungen durchgeführt werden. Ebenso können deskriptive Studien die Grundlage für kausale Studien bilden (über die Zusammenhänge vgl. Nieschlag^Dichtl/Hörschgen 1985, S. 623).

22

Kapitel 1: Der Forschungsprozeß

1.1.2. Praxisbezogene Problemdefinition Sieht sich ein Unternehmen mit einem Marktforschungsproblem konfrontiert, dann wird man sich zunächst die Frage stellen, ob man das Forschungsproblem => selbst lösen kann (Eigenforschung) oder ob man =^>ein externes Institut dafür zu Rate ziehen soll (Institutsforschung). Für die Vergabe von Marktforschungsaufträgen an externe Institute sprechen einige gewichtige Argumente (vgl. auch Berekoven u.a. 1989, S. 37; Meffert 1986, S. 142): • Institute verfügen i.d.R. über bessere Methodenkenntnisse. • Institute verfügen i.d.R. über eine bessere technische Ausstattung. • Institute verfügen meist über einen erfahrenen Interviewerstab. • Institute verfügen über mehr Objektivität hinsichtlich des Forschungsproblems. Allerdings muß man dann auch einige Nachteile in Kauf nehmen. Hier sind zu nennen: • Es entsteht ein Abhängigkeitsverhältnis zum Institut. • Es bedarf eines hohen Kommunikations- und Koordinationsaufwands. • Es entstehen zusätzliche Kosten. • Die Vertraulichkeit der Ergebnisse ist nicht mehr zu 100% sichergestellt.

1.1. Problemdefinition

23

Vor der Entscheidung über die Vergabe von Aufträgen ist auch daran zu denken, ob betriebsintern geschultes Personal in ausreichendem Umfang vorhanden ist, um das Forschungsproblem lösen zu können. Die Entscheidung über Eigen- bzw. Institutsforschung wird aber auch vom Umfang des Forschungsproblems und der Häufigkeit seines Auftretens abhängen. W e n n man sich dazu entschließt, mit einem externen Institut zusammenzuarbeiten stellt sich das Problem der Auswahl eines geeigneten

Kooperationspartners.

Diese Auswahl kann anhand folgender Kriterien vorgenommen werden: • Erfahrungen bzw. Spezialisierung des Instituts mit bestimmten Märkten oder Techniken (z.B. Pharmaforschung, Auslandsmarktforschung), • Personelle und sachliche Aussattung (Interviewerstab; etc.),

Projektleiter

• Erfahrungen in der bisherigen Zusammenarbeit, • Qualität und Kosten des schriftlichen Angebots. Mit Hilfe von Punktbewertungsverfahren (vgl. Weis 1 9 8 7 , S. 158) lassen sich mehrere Institute bzw. Angebote einer objektiven Bewertung unterziehen. Gegenüber der wissenschaftlichen Problemdefinition ist man in der Praxis in der Regel freier gestellt hinsichtlich des methodischen Vorgehens.

Dennoch ist es auch hier unabdingbar, das Forschungsproblem genau zu erfassen. W e n n es sich um auftragsbezogene Forschung handelt, ist man dem Auftraggeber auf Erfüllung des Vertrags verpflichtet. Um Unsicherheiten hinsichtlich des Ziels und des Umfangs der Marktforschungsuntersuchung von vornherein zu vermeiden, ist es notwendig, sich auf ein schriftliches Angebot zu verständigen. Im Angebot werden alle Leistungen des Auftragnehmers genau beschrieben sowie ein Zeit- und Kostenplan vereinbart.

24

Kapitel 1: Der Forschungsprozeß

Eine Präzisierung des Forschungsproblems ist aber nicht nur aus rechtlicher Sicht zu empfehlen; oftmals werden sich Auftraggeber und Auftragnehmer erst dann über das tatsächliche Ziel der Untersuchung klar, wenn sie gemeinsam versuchen, es präzise zu beschreiben. Beispiel für die Herausarbeitung der Problem deßnition: Bei der ersten Kontaktaufnahme mit einem Mark forscher bzw. einem Mark forschungsinstitut besitzt der Auftraggeber in vielen Fällen nur eine sehr vage Vorstellung über Umfang und Struktur des Problems (z.B. "Unsere Umsätze gehen zurück. Was sollen wir tun ?"). Unter Umständen stellt sich im Prozeß der Problemformulierung heraus, daß das beschriebene Problem im Rahmen der Mark forschung nicht gelöst werden kann. Dies könnte dann der Fall sein, wenn z.B. der Rückgang der Umsätze durch personalpolitische Faktoren, wie z.B. geringe Bezahlung und schlechte Schulung des Außendienstes, begründet liegt etc. Andererseits ist es aber auch denkbar, daß das tatsächliche Problem weitaus komplizierter ist als ursprünglich angenommen.

Das schriftliche Angebot sollte möglichst präzise Angaben über die Methode der Datenerhebung und den Umfang der Stichprobe bzw. Anzahl der Erhebungseinheiten beinhalten. Auf diese Weise kann sich der Marktforscher bzw. der Auftragnehmer vor nachträglichen Forderungen, wie zusätzlichen Erhebungen oder weiteren Analyseverfahren etc., schützen bzw. diese gegen Aufpreis dem Auftraggeber nachreichen. Bei praxisbezogenen Problemen, z.B. Marktanteilsbestimmung, Verwendungstest, Werbewirkungsmessung, ist oftmals auch die Unterstützung des Auftraggebers bei der Durchführung der Marktforschungsstudie erforderlich. So muß der Auftraggeber beispielsweise rechtzeitig die zu untersuchenden Werbemittel zur Verfügung stellen oder dem Marktforscher bei der Bestimmung der Konkurrenzunternehmen behilflich sein.

1.1. Problemdefinition

25

Häufig ist auch eine Einführung in die mit der Befragung verbundene Problemstellung (technische Produktmerkmale etc.) erforderlich. Diese Leistungen des Auftraggebers sollten im Rahmen der schriftlichen Angebotserstellung ebenfalls erfaßt werden. Wenn sich Marktforschungsstudien über einen längeren Zeitraum erstrecken, ist der Auftraggeber zumeist daran interessiert, über den laufenden Stand der Untersuchung unterrichtet zu werden. Da die Erstellung von Zwischenberichten mit Zeit und Mühen verbunden ist, sollte auch dieser Sachverhalt in der Angebotserstellung festgehalten werden. Zusammenfassend beinhaltet das schriftliche Angebot folgende Punkte: • Ziele der Untersuchung • Methodisches Vorgehen der Untersuchung • Umfang der Stichprobe bzw. Anzahl der Erhebungseinheiten • Umfang der Auswertung (Datenanalyse) • Zwischenberichterstattung (Zeitpunkt, Umfang) • Art der Ergebnispräsentation (schriftlich, persönlich, tabellarisch etc.) • Leistungen durch den Auftraggeber • Zeitplan • Kostenaufstellung, Zahlungsplan • Ansprechpartner und Betreuer (Projektleiter) der Untersuchung Nachdem man sich mit dem Auftraggeber über diese Punkte geeinigt hat, kann mit der Konzeption und Durchführung der Marktforschungsuntersuchung begonnen werden.

26

Kapitel I: Der Forschungsprozeß

1.2. Informationsquellen 1.2.1. Primär- und Sekundärforschung Nachdem das Marktforschungsproblem ausreichend definiert und geklärt ist, wird es notwendig, sich mit dem Vorgang der Datenbeschaffung zu befassen. Dabei ist zunächst zu ermitteln, welche Datenquellen zur Lösung des Informationsproblems zur Verfügung stehen. Aus Gründen der Zeitersparnis wird man zuerst versuchen, das Informationsproblem mit bereits vorhandenen Daten/Informationen zu lösen. Daten, die bereits zu einem früheren Zeitpunkt und für andere oder ähnliche Zwecke erhoben wurden, nennt man Sekundärdaten. Den Prozeß der Suche und Analyse von Sekundärdaten nennt man Sekundärforschung. Davon zu unterscheiden ist die Primärforschung, die sich auf den Prozeß der Erhebung und Analyse von Daten bezieht, die eigens zur Lösung des Forschungsproblems am Markt erhoben werden. Als Sekundärforschung bezeichnet man die Beschaffung und Auswertung bereits vorhandener Daten, sog. Sekundärdaten, die ursprünglich für andere Zwecke erhoben und gespeichert wurden. Als Primärforschung bezeichnet man die Beschaffung und Auswertung von Daten, die speziell für den jeweiligen Forschungszweck eigens erhoben werden. Die wichtigsten Formen der Datenbeschaffung im Rahmen der Primärforschung sind die Befragung, die Beobachtung und das Experiment. Neben der Unterscheidung zwischen Primär- und Sekundärforschung, die sich auf die Art der Erhebungsmethode bezieht, kann man die Informationsquellen noch nach der Herkunft der Daten in interne und externe Datenquellen unterscheiden (vgl. Berekoven u.a. 1989, S.40ff.).

27

1.2. Informationsquellen

Interne Daten sind solche, die man sich innerhalb des eigenen Unternehmens beschaffen kann, z.B. durch Auswertung der Absatzstatistik, Reklamationsstatistik oder aus internen Informationsdatenbanken. Externe Daten sind solche, die man sich von außerhalb des Unternehmens beschaffen muß, z.B. über andere Marktforschungsinstitute oder externe Statistiken. Bei Zugrundelegung dieser beiden Unterscheidungen ergibt sich folgende Klassifikation: Erhebungsmethoden Sekundärerhebung Infor-

inner-

mations-

betrieb-

quellen

lich

z.B.

0

Absatzstatistik

0

Kosten-

Primärerhebung z.B.

0

dienstes

rechnung 0

Befragung des Außen-

0

Außen-

Befragung der Kundenberater

dienstberichte 0

Reklamationsstatistik

außer-

z.B.

0

betrieblich

Amtliche

z.B.

0

Statistik 0

Verbandsstatistiken

0

Kundenbefragung

0

Händlerbefragung

Verbraucherund Handelspanels

0

Media-Analysen

Abb. 2: Informationsquellen und Erhebungsmethoden

28

Kapitel 1: Der Forschungsprozeß

Sekundärforschung und Primärforschung sollten sich im Rahmen von Marktforschungsstudien sinnvoll ergänzen, um => den Informationsbedarf möglichst umfassend zu befriedigen und => den Beschaffungsaufwand möglichst gering zu halten. Dabei sollte nach dem folgenden Grundsatz verfahren werden: • Erst Sekundärforschung, dann Primärforschung! Die Befolgung dieses Grundsatzes bietet einige Vorteile: Erster Vorteil: Sekundärforschung kann Primärforschung ersetzen! Möglicherweise stellt sich nach Sichtung des vorliegenden Materials heraus, daß das Forschungsproblem durch bereits vorliegende Daten umfassend beantwortet werden kann. Sollte dies der Fall sein, kann man sich weiteres Suchen ersparen und auf aufwendige eigene Datenerhebung verzichten. Zweiter Vorteil: Sekundärforschung hilft bei der Vorbereitung von Primärforschung! Bereits vorliegende Daten und Untersuchungsergebnisse können wertvolle Hinweise bei der Vorbereitung eigener Untersuchungen geben. So lassen sich möglicherweise Fehler vermeiden und bereits bestehende Analyseinstrumente, z.B. Fragebögen, können verbessert oder aktualisiert werden. Dritter Vorteil: Sekundärforschung dient als Ergänzung der Primärforschung! Es ist in jedem Fall wichtig, bestehende Daten und Ergebnisse von Untersuchungen als Vergleichsmöglichkeiten und Ergänzung der eigenen Untersuchungsergebnisse heranzuziehen. Durch den Vergleich mit ähnlichen Untersuchungsergebnissen läßt sich der Wahrheitsgehalt der eigenen Daten besser beurteilen und es können wertvolle Hinweise hinsichtlich der Interpretation der Daten gewonnen werden.

1.2. Informationsquellen

29

1.2.2. Vor- und Nachteile der Sekundärforschung Neben den aufgeführten Punkten gibt es beim Einsatz von Sekundärdaten noch zahlreiche handfeste Vorteile, die die Nutzung dieser Informationsquellen begünstigen (vgl. Böhler 1992, S. 55; Weis/Steinmetz 1991, S. 58; Berekoven u.a. 1989, S. 44 f.): Vorteile der Nutzung von Sekundärdaten: • Sekundärdaten sind i.d.R. schnell und damit kostengünstig erhältlich. • Sekundärinformationen beziehen sich häufig auf Totalerhebungen (z.B. amtliche Statistik). • Sekundärinformationen sind oftmals auch für die Vergangenheit verfügbar (Zeitreihendaten). Wer allerdings schon einmal mit amtlichen Statistiken gearbeitet hat, der weiß, daß damit auch zahlreiche Probleme verbunden sind. Neben dem Problem, die richtigen Daten zu finden und zu verstehen, können sich weitere Schwierigkeiten ergeben. Nachteile bei der Nutzung von Sekundärinformationen: • Die Daten beziehen sich nicht genau auf das jeweilige Forschungsproblem. • Die Daten sind nicht ausreichend aktuell. • Die Daten stehen auch Konkurrenzunternehmen zur Verfügung. • Die Berechnungseinheiten (Meßgrößen, Klassengrößen etc.) sind unterschiedlich. • Die speziellen Nomenklaturen der verschiedenen Statistiken sind unterschiedlich. • Die Validität (Gültigkeit) der Daten läßt sich nicht überprüfen.

30

Kapitel 1: Der Forschungsprozeß

Neben der amtlichen Statistik (Statistisches Bundesamt, Statistische Landesämter etc.) mit ihrem umfangreichen Informationsangebot stehen auch Marktforschungsinstitute, Wirtschaftsverbände, Fachverlage, Zeitschriftenarchive, Nachrichtendienste und Anbieter von Datenbanken und Informationsdiensten als Informationsquellen zur Verfügung (vgl. Böhler 1992, S. 57 ff.; Weis/Steinmetz 1991, S. 60 ff.; Langer/Sand 1983, S. 28 ff.; Hüttner 1989, S. 144 ff.). Für den Neueinsteiger in diese Materie ist der Umgang mit Anbietern von Sekundärdaten mit einiger Einarbeitungszeit verbunden.

1.2.3. Standardisierte Marktinformationsdienste Neben den oben beschriebenen sekundärstatistischen Informationsquellen gibt es noch sogenannte "standardisierte Marktinformationsdienste", die zur Lösung spezieller Probleme im Rahmen der Absatzsteuerung des Unternehmens von externen Dienstleistern angeboten werden. Hierbei sind insbesondere Paneldaten und Daten für die Werbeplanung (Media-Analysen) zu nennen. Die Bedeutung dieser Informationsdienste läßt sich daran ermessen, daß zahlreiche der größten Marktforschungsinstitute sich auf die Bereitstellung diesbezüglicher Daten spezialisiert haben und andererseits bei vielen Konsumgüteranbietern ein Großteil des Marktforschungsetats für die Beschaffung der betreffenden Informationen verwendet wird (vgl. Böhler 1992, S. 59; Hammann/Erichson 1990, S. 133). Ein Panel ist eine Gruppe von Personen, Haushalten oder Betrieben, die sich laufend zum gleichen Thema befragen läßt und auch selbst Aufzeichnungen über das eigene Verhalten vornimmt.

31

1.2. Informationsquellen

Panel

r

C JHandels^ane^^ C Untemehmens^anel^ C Verbraudierganel^ ^^gezialgane^

1

)

Einzel^ f GroßhandelsJiandelsgane^ j)ane^

Jk

Haushai ts^^ane^^

J

1

Individual-

J

Abb. 3: Arten von Panels Die im Rahmen eines Panels erhobenen Daten nennt man dementsprechend Paneldaten. Der besondere Vorteil der Paneldaten liegt darin, daß sich aus den Daten sowohl Querschnittsanalysen (Marktvolumen, Marktanteile, Käufermerkmale) erstellen als auch zeitliche Entwicklungen untersuchen lassen (z.B. Marktanteilsveränderungen, Käuferwanderung, Nachfrageveränderungen) (vgl. Böhler 1992, S. 60 ff.; Weis/Steinmetz 1991, S. 121 ff.; Hammann/Erichson 1990, S. 142 ff.). Einen Überblick über die wichtigsten Panelarten gibt Abbildung 3. Media-Analysen geben Auskunft über die Reichweite und Nutzung (Leser, Hörer, Zuschauer) bestimmter Werbeträger (Zeitungen, Zeitschriften, Fachzeitschriften, Fernsehen, Hörfunk, Kino). Media-Analysen sind wichtige Hilfsmittel bei der Auswahl der Werbeträger durch werbetreibende Unternehmen und bei der Erstellung von Mediaplänen für Werbekampagnen. Für werbetreibende Unternehmen ist es sinnvoll, die Werbebotschaft in denjenigen Medien (Zeitungen, Zeitschriften etc.) zu plazieren, die auch von der potentiellen Zielgruppe, der das Unternehmen seine Produkte und Dienste anbieten möchte, gelesen bzw. benutzt werden.

Kapitel 1: Der Forschungsprozeß

32

Als wichtigste M e d i a - D a t e n werden u.a. folgende Informationen ausgewiesen: •

Nutzer pro Ausgabe bzw. Sendung,

•

Soziodemographische Merkmale der Nutzer,

•

Konsumgewohnheiten der Nutzer,

•

Markenkenntnis der Nutzer.

Media-Analysen werden entweder von den jeweiligen Verlagen, die die entsprechenden Zeitungen und Zeitschriften herausgeben (z.B. Burda Verlag, Spiegel-Verlag, Verlag Gruner Kommunikationsform, nach dem => Standardisierungsgrad und nach der => Anzahl der Teilnehmer unterschieden werden. Unterscheidungskriterium 1: Die Art der Kommunikationsform • persönliche Befragung (face to face, telefonisch), • schriftliche Befragung, • computergestützte Befragung. Mit der Unterscheidung nach der Art der Kommunikationsform (verbal, schriftlich, telefonisch, computerunterstützt) ist das wichtigste Unterscheidungskriterium zur Kennzeichnung von Befragungen genannt. Mit der Zunahme der Telefondichte in einem Land ist es zunehmend möglich, auch telefonische Befragungen zur Informationsgewinnung einzusetzen. Die wesentlichen Vorteile der telefonischen Befragung liegen in der schnellen Durchführbarkeit der Befragung und in den geringen Kosten, die für die Datenerhebung anfallen. Abbildung 4 vermittelt eine Zusammenfassung über die spezifische Eignung von schriftlicher, telefonischer und mündlicher Befragung.

34

Kapitel 1: Der Forschungsprozeß

Befragungsart Kriterien

schriftlich

telefonisch

mündlich

unterschiedlich

hoch

hoch

möglich

nicht möglich

kaum möglich

mittel

kurz

lang

nicht möglich

relativ groß

groß

relativ niedrig

hoch

niedrig

6. Kosten

niedrig

relativ niedrig

hoch

7. Repräsentanz

relativ niedrig

gering

relativ hoch

nicht möglich

möglich

möglich

1. Rücklaufquote 2 . Beeinflussung durch Dritte 3 . Länge des Interviews 4 . Interviewereinfluß 5 . Geschwindigkeit der Durchführung

8. Erklärung der Fragen

Abb. 4: Vergleich von schriftlicher, telefonischer und mündlicher Befragung Neben der Kommunikationsform sind als weitere wichtige Unterscheidungskriterien der Befragung der => Grad der Standardisierung der Befragung sowie die Anzahl der Teilnehmer, die gleichzeitig befragt werden, möglich (für weitere Unterscheidungskriterien vgl. Weis/Steinmetz 1991, S. 71 ff.).

1.3. Wahl des Forschungsdesigns

35

Unterscheidungskriterium 2: Der Standardisierungsgrad • standardisierte Befragung, • teilstandardisierte Befragung, • nichtstandardisierte Befragung. Während die standardisierte Befragung den Vorteil der quantitativen Auswertung der Ergebnisse besitzt und deshalb häufig im Rahmen der Marktforschung Anwendung findet, wird bei der teilstandardisierten Befragung bzw. der nichtstandardisierten Befragung auf diesen Vorzug bewußt verzichtet. Die nichtstandardisierte Befragung wird zumeist im Rahmen von psychologischen oder marktpsychologischen Studien eingesetzt, wo die Gewinnung qualitativer Ergebnisse im Vordergrund steht (vgl. Salcher 1978). Vorteile der standardisierten Befragung: • beste Vergleichbarkeit der Antworten, • gute Möglichkeiten der quantitativen Auswertung, • starke Einschränkung äußerer Verzerrungsfehler (Formulierung etc.), • geringe Anforderungen an den Interviewer.

Probleme der standardisierten Befragung: • geringe Anpassung an die individuelle Interviewsituation, • geringe Erfaßbarkeit qualitativer Bedeutungsunterschiede, • Notwendigkeit der sprachlichen Anpassung an die jeweils sprachlich schwächsten Befragten.

36

Kapitel 1: Der Forschungsprozeß

Unterscheidungskriterium 3: Anzahl der Teilnehmer • Einzelbefragung, • Gruppenbefragung. Einzelbefragungen sind immer dann von Interesse, wenn die Meinungen einzelner Personen erfaßt und nach soziodemographischen Daten ausgewertet werden sollen. Stehen hingegen die Entwicklung neuer Konzepte oder die Gewinnung von neuen Ideen im Vordergrund, dann sollte auf die Methode der Gruppendiskussionen zurückgegriffen werden. Einer Gruppendiskussion liegt zumeist ein geringer Standardisierungsgrad zugrunde (z.B. Themenliste, Interviewleitfaden).

1.3.2. Der Fragebogen Den meisten Befragungen liegt ein Fragebogen zugrunde. Dies gilt im besonderen Maße bei der standardisierten Befragung, wobei der Fragebogen der Standardisierung von Fragen und Aritwortmöglichkeiten dient. Der Gestaltung des Fragebogens kommt im Rahmen von Befragungen eine besondere Bedeutung bei, da der Fragebogen ein zentrales Bindeglied bei der Gewinnung der Informationen vom Befragten darstellt. Dies trifft gleichermaßen für die schriftliche, persönliche und computergestützte Befragung zu. Durch eine überdachte Gestaltung des Fragebogens läßt sich der Ubertragungsfehler (vgl. Böhler 1992, S. 87), der bei der Datengewinnung unvermeidlich ist, möglichst gering halten und die Informationsmenge optimieren. Die höchsten Anforderungen bei der Gestaltung eines Fragebogens sind dann anzulegen, wenn der Fragebogen im Rahmen einer schriftlichen Befragung eingesetzt werden soll.

1.3. Wahl des Forschungsdesigns

37

Schriftliche Befragung bedeutet: Der Befragte soll den Fragebogen, nachdem er die Fragen gelesen hat, selbst ausfüllen. Dabei ist es unerheblich, ob der Fragebogen mit der Post, per Fax oder persönlich zugestellt wird. Leider gibt es kein "Patentrezept" für die "richtige" Gestaltung eines Fragebogens. Fast jede Befragung hat ihr eigenes Befragungsziel und muß deshalb immer wieder neu überdacht werden. Es lassen sich aber aufgrund von Vorüberlegungen und Erfahrungen einige Anhaltspunkte zur "richtigen" Fragebogengestaltung nennen. Folgende Entscheidungstatbestände sollten besonders bedacht werden: • Optische Gestaltung des Fragebogens, • Abfassen des persönlichen Anschreibens bzw. Begleitschreibens, • Thematische Gestaltung des Fragebogens, • Umfang des Fragebogens, • Frageformulierung und Antwortmöglichkeiten. Weiterhin ist es wichtig, auf das "richtige Umfeld" (Zeitpunkt der Befragung, Ansprechpartner, Wahl der Anrede, Begleitschreiben, Motivation zur Teilnahme etc.) bei der Durchführung der Befragung zu achten. Noch ein paar Bemerkungen zum Aufbau eines Fragebogens. Der endgültige Fragebogen ergibt sich nicht durch die ungeordnete Aneinanderreihung der einzelnen Fragen. Neben der Anordnung der Fragen in übersichtliche und sinnvoll logische Themenblöcke sollte der Fragebogen in => vier Fragengruppen geordnet werden: • Einleitungsfragen bzw. "Eisbrecherfragen", •

Sachfragen,

•

Kontrollfragen,

• Fragen zur Person / z u m Unternehmen.

38

Kapitel 1: Der Forschungsprozeß

Einleitungsfragen dienen als Einstieg in das Interview. Sie sollten den Interviewten neugierig auf den weiteren Verlauf des Interviews machen und ihn für die Zusammenarbeit motivieren. Deshalb ist es ratsam, diese Fragen möglichst leicht und allgemein zu gestalten. Jeder Befragte sollte die Einleitungsfragen beantworten können. Sachfragen umfassen den größten Teil des Interviews. Sie beziehen sich auf das eigentliche Thema der Befragung, z.B. Nutzung eines Produktes, Beurteilung einer Werbeanzeige etc. Die Sachfragen sind in Themenblöcke zu ordnen. Kontrollfragen dienen der Kontrolle des Verständnisses durch den Interviewten oder der Kontrolle des Interviewers. Kontrollfragen können sich auf einen Sachverhalt beziehen, der bereits an einer anderen Stelle des Fragebogens abgefragt wurde. Mit Kontrollfragen läßt sich die logische Konsistenz der Antworten überprüfen. Treten bei der Datenanalyse erkennbare Inkonsistenzen auf, sollte der Fragebogen nicht in die Auswertung einbezogen werden. Der Fragebogen schließt mit den Fragen zur Person des Befragten ab. Diese Fragen lassen sich durch einen überleitenden Satz von den anderen Fragen trennen: "Zum Abschluß noch einige Fragen zur Person." Fragen zur Person umfassen z.B. Alter, Geschlecht, Wohnort, Einkommen, Produktbesitz etc. Fragen zum Unternehmen umfassen z.B. Anzahl der Mitarbeiter des Unternehmens, Branche des Unternehmens, Umsatzgrößenklasse, Stellung des Befragten etc. Die Fragen zur Person bzw. zum Unternehmen dienen bei der Datenanalyse zur Abgrenzung von Untergruppen (z.B. männlich, weiblich etc.). Deshalb ist es ratsam, sich bereits bei der Fragebogenkonstruktion über die Ziele der Datenanalyse Gedanken zu machen (Welche Untergruppen sollen getrennt ausgezählt und miteinander verglichen werden?).

1.4. Operationalisierung und Messung

39

1.4. Operationalisierung und Messung 1.4.1. Operationalisierung Die in diesem Abschnitt beschriebenen Überlegungen sind simultan mit den vorhergehenden Überlegungen über die Gestaltung der Befragung zu erfüllen. So trifft das Problem der Formulierung von Fragen und Antworten auf dem Fragebogen unmittelbar zusammen mit dem Problem der Operationalisierung und Messung von Eigenschaften (vgl. Hammann/Erichson 1990, S. 68). Die hier vorgeschlagene Trennung dieser beiden Arbeitsschritte wird nur aus Gründen der Übersichtlichkeit vorgenommen. Der Vorgang der Operationalisierung ist wiederum eng verbunden mit der eingangs beschriebenen Phase der Problemformulierung. Im Rahmen der Operationalisierung gilt es, die bei der Problemformulierung festgelegten Ziele der Untersuchung in konkrete Fragestellungen zu überführen (vgl. Schnell/Hill/Esser 1995, S. 1 19 ff.). Unter Operationalisierung versteht man die begriffliche Erfassung der relevanten Eigenschaften und die Bestimmung der korrespondierenden empirischen Meßgrößen (Indikatoren). Beispiel für

Operationalisierung:

Im Rahmen der nachfolgend vorgestellten Untersuchung "Deutsche Touristen in Istanbul" sollte festgestellt werden, aus welchen Informationsquellen sich die Befragten auf ihren Istanbulurlaub vorbereitet haben. Der Begriff "Informationsquelle" brauchte in diesem Zusammenhang nicht weiter definiert werden, da er unmittelbar verständlich ist. Als empirische Meßgrößen (Indikatoren) wurden den Befragten verschiedene mögliche Informationsquellen vorgegeben, die sie ankreuzen konnten, z.B. Zeitungen, Zeitschriften, Reiseführer, Freunde/Bekannte etc.

Kapitel 1: Der Forschungsprozeß

40

Die Operationalisierung kann sich dann als ein komplizierter Vorgang erweisen, wenn sich hinter dem zu untersuchenden Sachverhalt ein spezielles theoretisches IConstrukt verbirgt. Dies gilt z.B. für bestimmte Begriffe im Rahmen marktpsychologischer Untersuchungen (z.B. "Image", "Risikoverhalten", "Involvement", "Motivation") (vgl. Böhler 1992, S.97f.). Unmittelbar verbunden mit dem Vorgang der Operationalisierung ist der Vorgang der Festlegung der Messung. Unter Messung versteht man das systematische Beobachten von Sachverhalten und das Zuordnen von Symbolen (Zahlen, Zeichen) zu Eigenschaften (vgl. Berekoven u.a. 1989, S. 66; Hüttner 1989,S. 9).

Beispiel für

Messung:

Für die oben erwähnte Operationalisierung der Informationsquellen wurden die Touristen gefragt, ob sie diese Informationsquelle genutzt haben (ja = 1) oder nicht genutzt haben (nein = Leerzeichen). Der Meßvorgang war also in diesem Fall denkbar einfach und umfaßte nur die Antwortalternativen Ja oder Nein.

Unmittelbar mit dem Meßvorgang verbunden sind die Möglichkeiten der Analyse der Daten. So ist es nicht immer sinnvoll, den Meßvorgang möglichst einfach zu gestalten, da der Forscher später bei der Analyse der Daten möglicherweise ungewollte Beschränkungen hinnehmen muß. Das Meßniveau der Daten bestimmt weitestgehend die Möglichkeiten der Datenanalyse. Deshalb sollte bereits bei der Festlegung der Messung über die Möglichkeiten der Datenanalyse nachgedacht werden.

1.4. Operationalisierung und Messung

41

1.4.2. Das Meßniveau von Daten Hinsichtlich der Meßmöglichkeiten unterscheidet man vier Arten von Meßniveaus: • Nominalskalenniveau, • Ordinalskalenniveau, • Intervallskalenniveau, • Ratio- oder Verhältnisskalenniveau. Als Nominalskalierung bezeichnet man die beliebige Zuordnung von Werten zu empirischen Sachverhalten. Die Nominalskalierung ist die einfachste Form der Messung. Den empirischen Sachverhalten werden lediglich einfache Klassen oder Werte zugeordnet. Zwischen der Zuordnung der Werte und den empirischen Sachverhalten besteht keinerlei Zusammenhang. Beispiel für

Nominalskalen:

Es wurde willkürlich festgelegt: männlich = l, weiblich = 2, keine Antwort = 3. Man hätte die Zuordnung auch umgekehrt vornehmen können: männlich = 2, weiblich = 1, keine Antwort — 3. Oder: weiblich = 2, männlich = 3, keine Antwort = I. Dies hätte offensichtlich keinen Einßuß auf das Ergebnis der Datenanalyse gehabt.

Entsprechend beschränkt sind die Auswertungsmöglichkeiten von Daten mit Nominalskalenniveau: Häufigkeitsauszählungen und Bestimmung des Modalwertes (häufigster Wert) sind die einzigen zulässigen Berechnungsmöglichkeiten. Ordinalskalen bringen die Untersuchungsmerkmale hinsichtlich der Merkmalsausprägung in eine steigende oder fallende Rangfolge.

Kapitel 1: Der Forschungsprozeß

42

Zwischen der Zuordnung der Werte und den empirischen Sachverhalten besteht also ein bestimmter Zusammenhang. Da über die Abstände zwischen den einzelnen Abstufungen keine Aussage gemacht wird, dürfen mit Daten auf Ordinalskalenniveau keine Durchschnittswerte berechnet werden. Zulässige Transformationen, zusätzlich zu den beim Nominalskalenniveau genannten, sind: Berechnung von Median, Quantilen und Rangkorrelationskoeffizienten. Beispiel für

Ordinalskalen:

Die Reihenfolge der Markenpräferenz: Marke A vor Marke B und Marke B vor Marke C etc. Die Rangreihe nach Größe: A größer als B, B größer als C etc.

Daten auf Intervallskalenniveau sind den beiden vorgenannten Typen insofern überlegen, als sie sich in einer steigenden oder fallenden Ordnung einfügen und die Abstände zwischen den Einzelwerten genau definiert sind. Beispiel für Intervallskalen: Die Thermometerskalen. Der Intelligenzquotient. Die Schulnoten (Anmerkung: Schulnoten werden manchmal auch als ordinal eingestuft).

Zulässige Transformationen sind in diesen Fällen, in Ergänzung zu den bereits genannten Transformationen, die Berechnung des Mittelwertes, der Standardabweichung, der Schiefe und des Exzess. Damit sind nahezu alle Zusammenhangsmaße berechenbar, die im Rahmen der Marktforschung Anwendung finden (Regression, Korrelation).

1.4. Operationalisierung und Messung

43

Ratio- oder Verhältnisskalen beziehen sich in Ergänzung zu den Intervallskalen auf einen natürlichen Nullpunkt.

Beispiele für Ratio- oder

Verhältnisskalen:

Umsätze, Preise, Körpergrößen, Alter.

Auf Daten auf Ratio- oder Verhältnisskalenniveau sind alle mathematischen Transformationen anwendbar. Im Rahmen von empirischen Untersuchungen ist es vorteilhaft, Daten mit einem möglichst hohen Datenniveau zu erfassen, da sich dann die Einschränkungen bei der Datenanalyse vermindern. Ein großer Vorteil ergibt sich für den Datenanalytiker dann, wenn die Daten mindestens Intervallskalenniveau aufweisen. Insofern ist diesem Sachverhalt besondere Aufmerksamkeit zu widmen. Grundsatz der Messung: Je höher das Meßniveau, desto besser die Möglichkeiten der Datenanalyse! Bei vielen Anwendungen liegt der entscheidende Schritt bei der Erreichung des Intervallskalenniveaus! Die Übersicht in Tabelle 1 zeigt zusammenfassend die vier Skalentypen mit ihren jeweiligen Transformationsmöglichkeiten und Beispielen.

Kapitel 1: Der Forschungsprozeß

44

Skalentyp

Nominalskala

Ordinalskala

Intervallskala

Verhältnisskala

empirische Operationen

Bestimmung von Gleichheit und Ungleichheit

zusätzlich: Best, einer Rangfolge. z.B. x > y > z

zusätzlich: Intervalle gleich (z.B. i0-7»7-4) willkürlich festgelegter Nullpunkt

zulässige Transformationen

Umbenennung

nur: monoton steigende Transformationen

Statistische Maßzahlen (Beispiele)

Häufigkeit, ModaTwert

zusätzlich: Median, Quartile, Prozentrangwerte

nur: lineare Transformationen: f(x)=v+ u.f(x) (wobei u > 0 ) zusätzlich: arithmetisches Mittel (x) Standardabweichung (s) Schiefe, Exzeß

zusätzlich: Bestimmung gleicher Verhältnisse x k (z.B. - » - - ) ; y i absoluter Nullpunkt nur: Ahnlichkeitstransformationen f(x) = u.f(x) (wobei u > 0 ) zusätzlich: geometrisches Mittel, Variationskoeffizient

Zusammenhangsmaße

Kontingenzkoeffizient (C) Vierfelderkoeffizient (Phi)

zusätzlich: Rangkorr.Koeffizient (Spearmans Rho, Kendalls Tau)

zusätzlich: ProduktMomentKorrelation (r), Regressionskoeffizient

Beispiele

Numerierung von Fußballspielern, Kontonummern,Quantifizierung von dichotomen Merkmalen (z.B. Geschlecht)

Schulnoten, Richtersche Erdbebenskala, Testrohwerte

Temperatur (nach Celsius, Fahrenheit, Reaumur)

Länge, Masse, Zeit, Winkel, Temperatur (nach Kelvin)

Tab. 1: Skalentypen (Quelle: Weis/Steinmetz 1991, S. 91)

1.4. Operationalisierung und Messung

45

1.4.3. Skalen und Skalierungsverfahren Bisher wurde stillschweigend der Begriff Skala verwendet, der nunmehr nochmals aufgegriffen und präzisiert werden soll. Während man als Messen den Vorgang bezeichnet, empirischen Sachverhalten Zahlen bzw. Zeichen zuzuordnen (vgl. die Definition weiter oben), umfaßt die Skala die Menge der Ausprägungen eines Merkmals. Eine Skala ist eine numerische Abbildung eines Merkmals entlang einer Dimension. Beispiel für eine Skala: Die Schulnoten von 1 bis 6 repräsentieren eine Skala; diese Skala besitzt sechs Ausprägungen und zwei Pole (bipolare Skala).

In den Sozialwissenschaften, zu denen auch die Marketingwissenschaft gehört, steht man häufig vor dem Problem, daß man (psychische) Phänomene messen möchte, die sich nicht unmittelbar beobachten lassen. Beispiele für solche Phänomene sind: Einstellung zu Produkten und

Unternehmen,

Produkttreue, Risikoverhalten, Vorurteile, Traditionsbewußtsein.

Um derartige Phänomene dennoch der Messung zugänglich zu machen, bedarf es zunächst der exakten Definition der Begriffe, dann der Ableitung entsprechender Indikatoren und schließlich der nach bestimmten Vorschriften konstruierten Skala. Diesen Vorgang, die theoretisch abgesicherte, nach strengen Regeln durchgeführte Konstruktion einer Skala bezeichnet man als Skalierung (vgl. Nieschlag/Dichtl/Hörschgen 1985, S. 639; Hammann/Erichson 1990, S. 69; Schnell/Esser 1995, S. 171 ff.).

46

Kapitel 1 : Der Forschungsprozeß

Von Skalierung spricht man, wenn man einen theoretischen, nicht unmittelbar beobachtbaren Sachverhalt mit Hilfe einer Skala abbildet. Das Resultat der Skalierung ist eine Skala. Die Methoden, die zur Konstruktion einer Skala eingesetzt werden, nennt man Skalierungsverfahren. Da man in den Sozialwissenschaften häufig mit Skalierungsproblemen konfrontiert wird, hat man einen reichen Methodenschatz entwickelt, um Skalen konstruieren zu können. Einen Uberblick über verschiedene Skalierungsverfahren und die dazugehörigen Skalen bringt Abbildung 5.

Abb. 5: Skalierungsverfahren in der Markt- und Sozialforschung (Quelle: Berekoven u.a. 1989, S. 70)

47

1.4. Operationalisierung und Messung

An dieser Stelle wollen wir lediglich die beiden einfachsten, aber zugleich die am häufigsten eingesetzten Formen der Skalen vorstellen: die Rating-Skala und das Semantische Differential. (Für weitere Skalierungsverfahren vgl. Schnell/Hill/Esser 1995, S. 171 ff.; Böhler 1992, S. 107 ff.)

1.4.3.1. Rating-Skalen Unter einer Rating-Skala versteht man die Zuordnung v o n Meßwerten, die eine Tendenzaussage beinhalten, zu einem Einstellungsobjekt. Beispiel einer Rating-Skala: Frage: Wie beurteilen Sie die Einkaufsmöglichkeiten in Istanbul? Skala:

sehr gut

gut

mittel

schlecht

sehr schlecht

()

()

()

()

()

Rating-Skalen sind relativ leicht zu konstruieren, und die erhobenen Daten werden im Rahmen der Datenanalyse wie intervallskalierte Daten behandelt. O b diese Vorgehensweise gerechtfertigt ist, hängt davon ab, ob man den Auskunftspersonen ein entsprechendes Differenzierungsvermögen unterstellen kann: "Die Erfahrung zeigt, daß Verbraucher zumindest in den mittleren Bereichen der Ratingskala zu äquidistanten Urteilen fähig sind, während in Extrembereichen jedoch eine systematisch verzerrte Einstufung der zu beurteilenden Objekte erfolgt. (Dieser Fall ist z.B. dann gegeben, wenn die Auskunftspersonen neben PKW's wie Golf, Opel Ascona und BMW 316 auch gehobene Fabrikate von Mercedes oder gar von Rolls Royce einstufen müssen.) Im Grunde liegt somit ein Skalenniveau vor, das zwischen Ordinal- und Intervallskala liegt." (Böhler 1992, S. 101).

48

Kapitel 1: Der Forschungsprozeß

Bei einer Verwendung von fünf- oder sechs- oder siebenstufigen Skalen kann in der Regel (unter den zitierten Einschränkungen) ein Intervallskalenniveau unterstellt werden (vgl. Hammann/Erichson 1990, S. 2 6 2 ; Nieschlag/Dichtl/Hörschgen 1985, S. 643). Dem Anwender ist es freigestellt, unter einer Vielzahl möglicher Darstellungsweisen von Rating-Skalen die für seinen Untersuchungszweck passende auszuwählen. Angeboten werden (vgl. Weis/Steinmetz 1991, S. 90 ff.): • grafische Skalen, • verbale Skalen, • numerische Skalen, • bipolare Skalen, • unipolare Skalen, • gegliederte Skalen, • ungegliederte Skalen und eine Kombination aus allen Elementen. Abbildung 6 zeigt einige Skalentypen. Bei der Konstruktion und Interpretation von Rating-Skalen sollten allerdings folgende Punkte beachtet werden: • Die Anzahl der Skalenpunkte ist abhängig vom Diskriminierungsvermögen der Befragten zu wählen (üblich sind fünf- oder siebenstufige Skalen). • Gleichmäßige ("sprachliche" und "optische") Abstände zwischen den Skalenpunkten beachten! • Eventuell ist eine Kategorie "weiß nicht" zu ergänzen, wenn anzunehmen ist, daß viele Befragte keine Meinung äußern können/wollen. • Bei bipolaren Skalen kann es zu Schwierigkeiten bei der Interpretation des Indifferenzpunktes der Skala kommen, da nicht eindeutig gesagt werden kann, ob der Befragte "sowohl als auch" oder "weder noch" damit ausdrücken möchte (vgl. Hammann/Erichson 1990, S. 263).

1.4. Operationalisierung und Messung

49 gefällt mir gar nicht

gefällt mir sehr

1

1

Stimme voll und ganz zu, ist richtig

Stimme ganz und gar nicht zu, ist falsch

ä

l

1

«

l

0

1

2

3

4

Stimme überhaupt nicht zu

Stimme voll zu

i

i

i

1

2

3

i 4

5

n 6

trifft nicht zu

i

6

7

] • •

d

n 5

4

3

Stimme eher zu

Stimme voll und ganz zu

i

lehne völlig ab

Stimme voll zu

n

O O

2

Stimme eher nicht zu

Stimme gar nicht zu

trifft zu

O

teuer

L

-4

-3

sehr unsympathisch

J - 2 - 1 0

il y

h

11

1

Úü

gefällt (Zustimmung)

monopolare Skalen mit Zahlenvergabe u. verbaler Extrempunktumschreibung

1

preisgünstig

I

reines Kontinuum

L 3

monopolare Skala mit verbaler Umschreibung aller Antwortabstufungen

monopolare Skala mit grafischer Unterstützung bipolare Skala

4 sehr sympathisch

bipolare Skala mit grafischer Unterstützung

würde ich kaufen würde ich kaufen

grafische Skala

würde ich kaufen

Flächenskala

würde ich kaufen würde ich kaufen mißfällt (Ablehnung)

würde ich kaufen

Abb. 6: Darstellungsmöglichkeiten von Rating-Skalen (Quelle: Berekoven u.a. 1989, S. 72)

Kapitel 1: Der Forschungsprozeß

50

Falls man eine dreistufige Rating-Skala verwendet (wie bei Frage 3 der Touristen-Befragung), sollte man von der Mittelwertberechnung Abstand nehmen. Dreistufige Rating-Skalen weisen in der Regel kein Intervallskalen-Niveau auf! Beispiele für Rating-Skalen

bei der Touristenbefragung

3-stufig-einpolige Frage 5

Rating-Skala:

Aus welchen Gründen befinden Sie sich in Istanbul? sehr etwas nidit wichtig widitig widitig

Geschichte/Kultur Q Erholung/Ferien O Türkisches Essen/Trinken O Freund/Bekannte besuchenO

U O O O O ü Q O

sehr etwas widitig widitig

Einkaufen/Shopping ü O Unterhaltung/Nachtleben O U Sprache lernen/verbessern Q U Allgemeine Neugierde O O

5-stufig-bipolare Frage 7

1995:

Rating-Skala:

Bitte machen Sie eine Beurteilung über Ihre Reise, in Hinblick auf folgende Punkte, indem Sie das jeweils zutreffende Kästchen ankreuzen Sehr eut

Unterkunft Reiseorganisation Türk. Speisen und Getränke Unterhaltung/ Nachtleben Einkaufsmöglichkeiten Museen/ Ausstellungen Hist. Sehenswürdigkeiten Alles in allem

Gut Mittelmäßig

Schlecht

a

Sehr sdiledit

a

a

a

ü

a

o

a

a

Q

a

Q

a

a

ü

a

Q

a

a

ü

a

ü

a

a

a

a

a

a

a

a

a

a

a

a

a

ü

Q

a

a

a

nicht widitig

O O O O

1.4. Operationalisierung und Messung

51

Weiterhin ist auf einige konzeptionelle Schwächen bei der Verwendung von Rating-Skalen hinzuweisen, die unter der Bezeichnung Nachsichteffekt, Zentralitätseffekt und Halo-Effekt in der Literatur diskutiert werden (vgl. Hammann/Erichson 1990, S. 262): • Nachsichteffekt Darunter verbirgt sich die Tendenz, daß Versuchspersonen solche Objekte tendenziell als günstiger einschätzen, die sie selbst kennen und benutzen. • Zentralitätseffekt Hiermit bezeichnet man die Bevorzugung von mittleren und gemäßigten Ausprägungen gegenüber extremen Ausprägungen. Diese Tendenz ist umso stärker, je weniger bekannt dem Befragten die Objekte sind, auf welche sich die Fragen beziehen. • Halo-Effekt Als Halo-Effekt bezeichnet man die Tendenz, daß sich Personen bei der Beurteilung von Objekten durch übergeordnete Sachverhalte leiten lassen. Die tritt z.B. bei der Beurteilung von Markenartikeln auf, wobei das übergeordnete Marken- bzw. Firmenimage die Qualitätswahrnehmung bezüglich des einzelnen Produktes positiv bzw. negativ beeinflussen kann. Die eben beschriebenen Effekte lassen sich z.T. dadurch vermeiden, daß man Versuchspersonen nur solche Produkte beurteilen läßt, über die sie eine Produkterfahrung besitzen. Die Urteile über Produkte ohne vorherige Produkterfahrung sollten getrennt ausgewertet werden. Bei der Beurteilung von Markenprodukten ist es anzuraten, die Produkte einem "Blindtest" (ohne Angabe des Markennamens) zu unterziehen.

52

Kapitel 1: Der Forschungsprozeß

1.4.3.2. Das Semantische Differential

Wegen seiner häufigen Anwendung im Marketingbereich soll noch das Sematische Differential (andere Bezeichnungen: Polaritätenprofil, Eindrucksprofil) vorgestellt werden. Das Semantische Differential gehört zu den mehrdimensionalen Skalierungsverfahren, da sich damit Ausprägungen eines Gegenstandes/Untersuchungsobjektes in verschiedenen Dimensionen (kognitive und gefühlsmäßige Dimension) messen lassen (vgl. Kroeber-Riel 1990, S. 106). Es handelt sich um ein Verfahren, das zum Zweck der Messung von Wortbedeutungen 1952 von Osgood entwickelt wurde. Hierdurch erklärt sich auch sein projektiver und indirekter Charakter. Von Hofstätter/Lübbert wurde dieses Meßverfahren 1 9 5 9 erstmals im Marketingbereich eingesetzt (vgl. Kroeber-Riel 1990, S. 191 f.; Nieschlag/Dichtl/ Hörschgen 1985, S. 6 6 6 ff.).

Das Sematische Differential besteht aus einer Menge von Eigenschaftsaussagen, mit denen der Untersuchungsgegenstand beschrieben werden soll. Die Eigenschaften sollten polar gefaßt sein (z.B. groß vs. klein), mehrere Abstufungen (zwischen fünf und sieben) aufweisen und sich sowohl auf gefühlsmäßige Umschreibung des Gegenstandes (z.B. angenehm vs. unangenehm; schön vs. häßlich) beziehen, als auch kognitiv-bewertende Eigens c h a f t e n u m f a s s e n ( z . B . kurz vs. lang-, billig vs. teuer).

Hinsichtlich der Anzahl der verwendeten Eigenschaftspaare sind dem Marktforscher keine Grenzen gesetzt, allerdings werden ca. 10 bis 15 Eigenschaftspaare genügen, um einen Gegenstand ausreichend zu umschreiben. Abbildung 7 zeigt das Eigenschaftsprofil für zwei Automarken.

53

1.4. Operationalisierung und Messung

1

TIEF

2

SCHWACH

3

UNZUVERLÄSSIG

4

BEWEGLICH

5

HEISS

6

LANGSAM

7

ALTMODISCH

8

SCHLECHT

9

FEINDLICH

10

SCHÖN

11

PASSIV

12

ALT

13

SORGLOS

14

GROSS

15

WILD

16

ABSTOSSEND

17

EMPFINDLICH

Abb. 7: Semantisches Differential (Eigenschaftsprofil für zwei Automarken) Die einfachste Art der Auswertung besteht darin, daß man die Durchschnittswerte über die einzelnen Eigenschaften für alle Befragten errechnet und diese Werte grafisch miteinander verbindet; dadurch ergibt sich das Polaritätenprofil (Eigenschaftsprofil). Als Auswertungsmöglichkeiten ergeben sich insgesamt folgende Analysen: • Betrachtung der Einzelaspekte, • Betrachtung des Gesamtprofils, • Berechnung von Distanzmaßen (Summenwerte).

Kapitel 1: Der Forschungsprozeß

54

Darüber hinaus lassen sich Vergleiche anstellen mit den Profilwerten von •

Konkurrenzmarken,

• Idealmarke, • Nutzer - Nichtnutzer, • vorher - nachher etc. Schließlich lassen sich die Ergebnisse der Bewertung mit Hilfe der Methoden der Diskriminanz- und Faktorenanalyse (vgl. Backhaus u.a. 1987) weiteren Betrachtungen unterziehen. Die leichte Handhabung, die vielfältigen Möglichkeiten der Datenanalyse und die anschauliche Darstellungsweise haben wesentlich zur Verbreitung des Semantischen Differentials im Marketingbereich beigetragen (zur Kritik des Semantischen Differentials vgl. Trommsdorff 1975, S. 81 ff.).

1.5. Aaswahlverfahren 1.5.1. Voll- oder Teilerhebung? Nach Abschluß der beschriebenen Vorarbeiten (Präzisierung des Forschungsproblems, Sichten der Sekundärliteratur, Auswahl des Forschungsdesigns, Operationalisierung der Forschungsfragen und Festlegung der Meßinstrumente) muß man sich mit den Fragen beschäftigen, welche und wieviele Erhebungseinheiten (z.B. Personen, Haushalte, Betriebe etc.) in die Untersuchung einbezogen werden sollen. Dieses zu lösende Problem wird hier unter der Überschrift Auswahlverfahren abgehandelt werden. Es stellen sich zunächst die beiden Möglichkeiten => alle infrage kommenden Untersuchungseinheiten oder => nur einen Teil davon zu erfassen (z.B. befragen). Den ersten Fall nennt man Vollerhebung; den zweiten Fall nennt man Teilerhebung.

1.5. Auswahlverfahren

55

1.5.2. Vollerhebung Vollerhebung bedeutet, daß man sämtliche Mitglieder der Grundgesamtheit im Rahmen der Untersuchung erfaßt (z.B. befragt). In der Praxis wird diese Vorgehensweise allerdings nur in seltenen Fällen gewählt. Vollerhebungen finden insbesondere Anwendung im Rahmen von Marktforschungsuntersuchungen im Investitionsgüterbereich. Dort hat man es z.T. mit Ideinen Grundgesamtheiten von 50 oder 100 Betrieben zu tun. In diesen Fällen ist es naheliegend, die gesamte Grundgesamtheit zu befragen. Ansonsten wird man aber aus Gründen der Praktikabilität auf Teilerhebungen zurückgreifen. Die Grundgesamtheit umfaßt alle Untersuchungseinheiten (Personen, Haushalte, Betriebe etc.), die die interessierenden Merkmale aufweisen.

1.5.3. Teilerhebungen 1.5.3.1. Grundsätze Die Grundgesamtheit stellt sozusagen das gesamte Potential an Untersuchungseinheiten dar. Will man beispielsweise eine Befragung bei Nichtrauchern durchführen, dann setzt sich die Grundgesamtheit aus allen Nichtrauchern zusammen. Oftmals begnügt man sich aber mit einem Teil der Grundgesamtheit (Teilerhebung). Entspricht dieser Teil hinsichtlich der interessierenden Merlanale der Struktur der Grundgesamtheit, dann spricht man von einer repräsentativen Stichprobe. Eine Stichprobe ist ein Teil der Grundgesamtheit, der hinsichtlich der zu untersuchenden Merkmale die gleiche Struktur aufweist, wie die Grundgesamtheit selbst. Damit eine Stichprobe aber tatsächlich als repräsentativ bezeichnet werden kann, muß sie nach bestimmten Kriterien zusammengestellt werden. Die nachfolgend vorgestellten Verfahren/Techniken, sollen die Repräsentativität von Stichproben sicherstellen.

Kapitel 1: Der Forschungsprozeß

56

Folgende Punkte sprechen für die Durchführung von Teilerhebungen (und damit gegen die Durchführung von Vollerhebungen) (vgl. Böhler 1992, S. 126): • • • •

Teilerhebungen sind weniger zeitaufwendig. Teilerhebungen sind billiger. Teilerhebungen sind genauer (man macht weniger Fehler). Oftmals sind die Daten nur durch Teilerhebungen zu erhalten, da kein Verzeichnis der Grundgesamtheit vorliegt (z.B. Deutsche Touristen in Istanbul 1995).

Aufgrund mathematisch-statistischer Verfahren (induktive Statistik, oft auch als beurteilende Statistik bezeichnet) kann aus den Ergebnissen von Teilerhebungen, wenn sie nach dem Zufallsprinzip durchgeführt werden, ziemlich genau auf die tatsächliche Verteilung der Merkmale in der Grundgesamtheit geschlossen werden (vgl. Kapitel 6). In der Praxis stellt sich deshalb vor allem die Frage nach der Art der Durchführung der Teilerhebung. Es kann hierbei zwischen Verfahren unterschieden werden, die => nach dem Zufallsprinzip die infrage kommenden Untersuchungseinheiten ausfindig machen, und solchen, die => nicht auf dem Zufallsprinzip basieren (vgl. Abb. 8). Prinzip:

Nach dem Zufallsprinzip

Verfahren:

1. 2. 3.

Einfache Zufallsauswahl Geschichtete Zufallsauswahl Klumpenauswahl

Nicht nach dem Zufallsprinzip 1. Willkürliche Auswahl 2. Konzentrationsverfahren 3. Quotenauswahl

Abb. 8: Wichtigste Auswahlprinzipien und -verfahren im Rahmen der Teilerhebung

57

1.5. Auswahlverfahren 1.5.3.2. Teilerhebungen ohne Zufallsprinzip

Die wichtigsten Verfahren der Teilerhebung, die nicht auf dem Zufallsprinzip beruhen, sind • die willkürliche Auswahl, • das Konzentrationsverfahren, • das Quotenverfahren. Bei der willkürlichen Auswahl bzw. der Auswahl aufs Geratewohl werden diejenigen Untersuchungseinheiten befragt, die leicht zugänglich sind.

Beispiele für willkürliche

Auswahl:

Studenten als Untersuchungsobjekte Universitäten ), Befragung von Mitarbeitern

(z.B. bei psychologischen Experimenten

an

im Hause,

zufällige Ansprache von Passanten.

Die willkürliche Auswahl ist im Grunde genommen als Auswahlverfahren nur dann zu rechtfertigen, wenn es um Vorstudien oder um explorative Studien geht. Hochrechnungen auf die Grundgesamtheit sind, wenn sie auf Ergebnissen aufbauen, die auf diesem Auswahlprinzip beruhen, nur sehr eingeschränkt möglich. Beim Konzentrationsverfahren (Cut-off Methode) beschränkt man sich im Rahmen der Untersuchung auf eine Befragung der wichtigsten Teilnehmer der Grundgesamtheit.

Kapitel 1 : Der Forschungsprozeß

58

Beispiel für Konzentrationsverfahren: Im Rahmen von Industrieerhebungen werden oftmals nur die größten Unternehmen befragt, da sie vom Umsatz her ebenfalls den größten Teil des Marktes bestimmen. Beim Quotenverfahren werden dem Interviewer eine Verteilung der wichtigsten Merkmale der Grundgesamtheit als "Quote" vorgegeben. Innerhalb dieser Quote kann der Interviewer die Auskunftspersonen frei wählen. Die beim Quotenverfahren zu berücksichtigenden Merkmale werden als Quotenmerkmale bezeichnet. Diese sollten leicht feststellbare soziodemographische Mermale sein, z.B. Alter, Geschlecht, Familienstand (vgl. Hammann/Erichson 1990, S. 111). Die Summe der einzelnen Quotenpläne begrenzt den Umfang der Stichprobe.

Beispiel für einen Quotenplan - Touristenbefragung 1995 (12 Interviews): Quotenplan Interviewer Anzahl der Interviews: 12 Hotel/Ort Alter:

Geschlecht:

Fragebogen-Nummer: von 37 bis 48.

...Swiss Hotel bis 25 Jahre:

1 2

26 bis 35 Jahre:

12

36 bis 45 Jahre:

1 2 3

46 bis 55 Jahre:

1 2

über 56 Jahre:

1

männlich: 12

3 4 5 6 7

weiblich: 12

3 4 5

3 4

1.5. Auswahlverfahren

59

Für die Durchführung von Quotenverfahren sind allerdings einige Punkte zu beachten (vgl. Noelle 1963, S. 147): • Es muß ein zuverlässiges Verzeichnis über die Verteilung der Quoten vorhanden sein. (Die Quoten für die Touristenbefragung wurden der amtlichen türkischen Tourismusstatistik entnommen: Quelle: State Institute of Statistics, Tourism Statistic, Ankara 1994) • Der einzelne Interviewer sollte höchstens 15 Interviews durchführen. • Der Interviewer sollte die Befragung außerhalb seines sozialen Milieus durchführen. • Die Befragung sollte solche Fragen umfassen, die in allen sozialen Milieus eingesetzt werden können.

Ein gravierender Nachteil des Quotenverfahren ist darin zu sehen, daß keine statistische Fehlerberechnung über die Verteilung des Merkmals in der Grundgesamtheit möglich ist. Alle Auswertungs- und Testverfahren, die auf einer Zufallsauswahl aufbauen (vgl. Kap. 6), sind eigentlich nicht anwendbar. Weiterhin ist auf das Problem der Quotenfälschung zu verweisen. Letzteres Problem tritt immer dann auf, wenn die Interviewer die Einhaltung des Quotenplans gefährdet sehen (weitere Nachteile des Quotenverfahrens bei: Noelle 1963, S. 132 ff.; Böhler 1992, S. 133). In der Praxis wird das Quotenverfahren wegen seiner einfachen und flexiblen Handhabung geschätzt. Beim Vergleich der Ergebnisse von Erhebungen, die auf dem Quotenverfahren und dem Zufallsverfahren als Auswahlverfahren beruhen, haben sich keine nennenswerten Unterschiede gezeigt (vgl. Böhler 1992, S. 133).

60

Kapitel 1: Der Forschungsprozeß

1.5.3.3. Teilerhebungen nach dem Zufallsprinzip Die wichtigsten Verfahren der Teilerhebung, die auf dem Zufallsprinzip aufbauen, sind • die einfache Zufallsauswahl, • die geschichtete Zufallsauswahl, • die Flächen- oder Klumpenauswahl. Die einfache Zufallsauswahl gehört zu den am häufigsten verwendeten Verfahren, die auf der Zufallsauswahl beruhen. Der einfachen Zufallsauswahl liegt das sogenannte "Urnenmodell" (vgl. Lotterie) zugrunde. Dies bedeutet, daß man davon ausgeht, daß die Elemente der Grundgesamtheit in einer Urne (Lottotrommel) zusammengefaßt sind, aus der man dann zufällig einige Elemente, nämlich die Stichprobe, herausgreift. Durch diese Vorgehensweise wird sichergestellt, daß jedes Element der Grundgesamtheit die gleiche (bekannte) Wahrscheinlichkeit besitzt, Element der Stichprobe zu werden. Dadurch wiederum wird es zum einen möglich, auf die Struktur der Grundgesamtheit von den Ergebnissen der Stichprobenziehung hochzurechnen, und zum zweiten wird es möglich, den Zufallsfehler (Stichprobenfehler) zu berechnen (vgl. Hammann/Erichson 1990, S. 113). Die Einsatzfähigkeit von Zufallsverfahren hängt also von mehreren Voraussetzungen ab: 1. Voraussetzung: Es muß ein vollständiges Grundgesamtheit vorliegen.

Verzeichnis

der

Häufig sind die in der Praxis vorliegenden Verzeichnisse der Grundgesamtheit aber nicht vollständig, da sie einer raschen Veralterung (keine aktuellen Daten) unterliegen.

61

1.5. Auswahlverfahren Beispiele für (relativ) vollständige Verzeichnisse von Grundgesamtheiten: Kundenkarteien, Einwohnermeldedateien, 7 elefon verzeich n isse, Wäh lerverzeich n isse, Mitgliederverzeichnisse.

2. V o r a u s s e t z u n g : Es m u ß eine T e c h n i k zur Z i e h u n g d e r E l e m e n t e der S t i c h p r o b e g e f u n d e n w e r d e n , d i e t a t s ä c h l i c h e i n e "zufällige" Z i e h u n g sicherstellt u n d V e r z e r r u n g e n v e r m e i d e t . Ein Beispiel für eine Technik der Zufallsauswahl ist die Benutzung von sogenannten "Zufallszahlen". Zufallszahlen entnimmt man entsprechenden Zufallstabellen. Eine Zufallstabelle findet sich in jedem guten Lehrbuch zur Statistik. (Für die Eigenkonstruktion von Zufallszahlen vgl. Nieschlag/Dichtl/Hörschgen 1985, S. 6 8 2 ) Selbstverständlich bietet auch E X C E L die Möglichkeit, Zufallszahlen zu erzeugen. Darüber wird in Kapitel 4.5. auf Seite 154 berichtet. Nehmen wir hier schon einmal 2 0 0 gleichverteilte Zufallszahlen zwischen 1 und 6 5 0 vorweg, berechnet mit E X C E L 5.0:

0 gleichmäßig im Bereich von 1 bis 650 verteilte Zufallszahien 649 592 40 135 466 423 ........

480 533 21 626 104 21 150 192 57 213 630 108 31

to 487 168 593 282 541 634 229 540 15

472 217 535 218 382 497 33 250 270 587

160 90 647 31 543 439 607 87 116 599

16 476 405 195 333 522 444 429 508 35

326 454 498 29 577 309 275 486 570 544

33 136 352 325 58 286 647 69 93 226

366 242 484 270 617 304 508 15 589 303

385 624 181 604 26 250 143 608 74 80

4 232 296 292 560 101 36 268 309 280

374 566 643 230 254 351 580 118 322 565

578 572 420 461 629 127 617 251 305 48

464 572 26 609 379 487 46 495 555 107

77 428 217 250 397 307 472 367 265 529

89 273 306 48 82 327 615 563 587 144

275 627 179 236 54 257 196 498 94 127

270 203 138 525 283 585 118 421 520 484

34 431 62 121 462 248 122 99 81 62

371 97 328 227 41 497 577 12 27 336

Für die Auswahl von ldeinen Stichproben sind Zufallszahlen die einfachste Vorgehensweise.

62

Kapitel 1 : Der Forschungsprozeß

Beispiel für die Benutzung von Zufallszahlen zur Auswahl von Stichproben: Angenommen, man will aus dem Telefonbuch eine Stichprobe von 200 Befragten ziehen; das Telefonbuch (einer Kleinstadt) umfasse 650 Seiten. Dann kann man z.B. folgendes Zufallsveifahren auswählen: Man sucht zunächst 200 Seiten aus dem Telefonbuch aus, und auf jeder Seite greift man die zehnte Telefonnummer heraus. Die betreffenden 200 Seiten findet man, indem man aus einer Zufallstabelle dreistellige Zahlen beliebig auswählt.

200

Neben Zufallszahlen kann man auch noch andere Techniken benutzen (Geburtstagsauswahl, Buchstabenauswahl, Schlußziffernauswahl etc.), um eine "zufällige" Auswahl sicherzustellen (vgl. Weis/Steinmetz 1991, S. 39). Gemeinsame Voraussetzung dieser Verfahren ist, daß die Ordnung der Elemente in der Auswahlbasis zufällig ist (vgl. Hammann/ Erichson 1990, S. 125). Neben der einfachen Zufallsauswahl findet auch die geschichtete Zufallsauswahl (vgl. Weis/Steinmetz 1991, S. 44 f.) und die Klumpenoder Flächenauswahl (vgl. Weis/Steinmetz 1991, S. 46 f.) häufig Anwendung in der Marktforschung. Diese beiden Verfahren werden insbesondere bei umfangreicheren Untersuchungen eingesetzt, wo sich die Elemente der Grundgesamtheit in Schichten (geschichtete Auswahl) oder in regionale Einheiten (Klumpenauswahl) einteilen lassen. Bei der geschichteten Auswahl teilt man die Grundgesamtheit in Schichten ein und zieht dann aus den Schichten eine proportionale Stichprobe. Bei der Klumpen- oder Flächenstichprobe erfolgt der Auswahlprozeß mehrstufig: Zunächst zieht man aus vorher festgelegten Flächeneinheiten eine Stichprobe an z.B. Landkreisen, Städten, und dann zieht man in einem zweiten oder dritten Schritt aus diesen Einheiten erneut eine Stichprobe an Erhebungseinheiten (vgl. auch: Schnell/Hill/Esser 1995, S. 266 ff.).

1.5. Auswahlverfahren

63

Eine häufig bei Bevölkerungsumfragen angewendete Auswahltechnik ist das Random-Route-Verfahren. Dabei wird dem Interviewer ein bestimmter, zufällig ausgewählter Ausgangspunkt (z. B. Straße, Platz) vorgegeben, sowie exakte Regeln, wie er ausgehend vom Ausgangspunkt seine Befragungspersonen auswählen soll (vgl. Berekoven u.a. 1989, S. 97). Gemeinsamer Nachteil all dieser auf dem Zufall aufbauenden Verfahren ist, daß sie relativ zeitaufwendig in der Vorbereitung und Durchführung sind. Weiterhin ergibt sich das Problem der Stichprobenausschöpfung: Das Zufallsprinzip geht von der vollständigen Ausschöpfung der Stichprobe aus, was aber in der Realität aufgrund von Ausfällen und Verweigerungen nicht gegeben sein wird. Durch Nachziehen von Stichprobenelementen wird dieses Problem nur unzureichend gelöst.

1.5.3.4. Stichprobengröße und statistischer Fehler

In den bisherigen Ausführungen blieb die Frage der Bestimmung der Stichprobengröße unbeantwortet. Soll man eine Stichprobe von 100, 200, 300 oder 1000 oder noch mehr Personen befragen, damit die Ergebnisse als statistisch signifikant angesehen werden können? Um den Leser an dieser Stelle nicht zu sehr mit statistischen Formeln und Berechnungen zu überfordern, wird eine einfache Methode zur Bestimmung der Stichprobengröße vorgestellt, die auch die Berechnung des statistischen Fehlers einschließt, nämlich die Benutzung eines Nomogramms (vgl. Weis/Steinmetz 1991, S. 43). Das Nomogramm (siehe Abbildung 8) ermöglicht eine einfache Bestimmung des Stichprobenumfangs (n) aus dem Merkmalsanteil (p) und der Fehlermarge (e). Diese Berechnung gilt für die statistische Sicherheit von 0.955 = 95,5%.

64

Kapitel 1: D e r Forschungsprozeß

Abb. 9: N o m o g r a m m z u r B e s t i m m u n g der Stichprobengröße (bei 9 5 , 5 % Sicherheitswahrscheinlichkeit) (Quelle: W e i s / S t e i n m e t z 1991, S. 4 3 )

Beispiel zur Ermittlung des

Stichprobenumfangs:

Ein Merkmal habe einen geschätzten Anteil von 20% in einer Grundgesamtheit, die höchste zulässige Abweichung, die man tolerieren würde, beträgt 4% (4% größer oder kleiner als der ermittelte Wert). Lösung: Man sucht auf der vertikalen Achse die Linie 20%/80% und folgt dieser bis zum Schnittpunkt mit der schrägen Linie von e — 4%; von diesem Schnittpunkt folgt man der senkrecht führenden Linie nach oben und kann dort den Wert 400 ablesen, d.h., man benötigt einen Stichprobenumfang von 400 Befrag-

M a n k a n n das N o m o g r a m m a u c h zur B e s t i m m u n g des Vertrauensintervalls bei einer g e g e b e n e n Stichprobengröße u n d einer gegebenen Sicherheitswahrscheinlichkeit v o n 9 5 , 5 % b e n u t z e n :

65

1.5. Auswahlverfahren

Beispiel zur Bestimmung des Vertrauensintervalls: Beträgt die Stichprobengröße 400 Befragte und der daraus ermittelte Anteilswert eines Merkmals 20%, dann kann man bei einer Vertrauenswahrscheinlichkeit von 95,5% davon ausgehen, daß der "wahre Wert" der Merkmalsverteilung in dem Intervall zwischen 16% und 24% liegt. Dieses Nomogramm gilt für den homograden Fall, d.h., das Untersuchungsmerkmal ist qualitativ bzw. diskret verteilt. Für den heterograden Fall, wenn das Untersuchungsmerkmal quantitativ bzw. stetig verteilt ist (z.B. Einkommen, Alter, Gewicht etc.), bestimmt sich die Stichprobengröße nach folgender Formel:

n

t2-s2

wobei e der zulässige Fehlerbereich ist, t der Sicherheitsfaktor (bei 9 5 , 5 % gilt: t = 2) und S die Standardabweichung (geschätzt aus der Stichprobe). (Für nähere Angaben vgl. Hammann/Erichson 1990, S. 114 ff.; Weis/Steinmetz 1990, S. 41 ff.; Berekoven u.a. 1989, S. 61 ff.) Für die Praxis ist ein Sicherheitsfaktor von 2 (entspricht einer Vertrauenswahrscheinlichkeit von 9 5 , 5 % ) durchaus üblich; ebenfalls üblich sind Stichprobengrößen von 150 bis 3 0 0 0 Einheiten (Befragte), denn => je größer die Stichprobe, desto größer wird der systematische Fehler (dies ist der Fehler, der durch Ungenauigkeiten in der Erhebung entsteht; er ist abzugrenzen vom statistischen Fehler), => zur Halbierung des (statistischen) Fehlers muß die Stichprobe vervierfacht werden. Es gilt also jeweils abzuwägen zwischen dem Umfang des Erhebungsaufwands und der Genauigkeit, mit der das Ergebnis gewünscht wird.

66

Kapitel 1: Der Forschungsprozeß

1.6. Durchführung und Überwachung der Datenerhebung Nach dem Abschluß der beschriebenen Vorarbeiten kann mit der Datenerhebung begonnen werden. Gemessen an der großen Bedeutung, die dem Erhebungsprozeß im Rahmen einer Marktstudie beikommt, fällt die Darstellung dieses Vorgangs in der Literatur denkbar gering aus. Meist wird dieses Kapitel nur am Rande erwähnt, wenn es nicht sogar ganz übersprungen ward. Dies läßt sich z.T. damit erklären, daß viele Forscher sich lieber mit theoretischen Problemen beschäftigen und die rein praktischen Vorgänge (z.B. die Datenbeschaffung) dabei übersehen. Ein anderer Grund für die geringe Beschäftigung mit dem Thema Datenerhebung mag darin liegen, daß viele Lehrbuchautoren bisher nicht mit der praktischen Durchführung von Erhebungen konfrontiert wurden. Die eigentliche Erhebung der Daten wird häufig kommerziellen Marktforschungsinstituten überlassen, die über einen festen und erfahrenen Interviewerstab verfügen. Der Vorgang der Erhebung läßt sich in die drei Planungsschritte unterteilen: • Vorbereitung, • Durchführung, • Kontrolle. 1.6.1. Vorbereitung der Datenerhebung Bei der Vorbereitung des Erhebungsvorgangs fallen folgende Entscheidungen an: • Auswahl der Interviewer, • Erstellung des Schulungsmaterials, • Erstellung und Vervielfältigung der Fragebögen,

1.6. Durchführung und Überwachung der Datenerhebung

67

• Erstellung einer Argumentationshilfe (für die Interviewer), • Schulung der Interviewer (Einführung in das Thema, Rollenspiele), • Einsatzplanung. Die Schulung der Interviewer umfaßt eine Einführung in das Thema und das Ziel der Erhebung. Diese Schulung sollte bei technischen Fragestellungen mit einer Vorstellung der betreffenden Produkte und technischen Begriffe verbunden sein. Argumentationshilfen (z.B. Zweck der Untersuchung?) und Stichwortlisten (z.B. Was ist ein Modul?) erleichtern die spätere Kommunikation mit den Befragten. Bei der Schulung der Interviewer haben sich Rollenspiele als ein sehr hilfreiches Instrument der Wissensvermittlung erwiesen. Beispiele für

Rollenspiele:

So können verschiedene Interviewsituationen,

z.B.

Kontaktaufnahme, Suche des Ansprechpartners, Verweigerung, Verzögerung, Abschweifiingen vom r[hema, in einer spielerischen Situation erprobt werden.

Parallel zu diesen Arbeitsschritten sollte ein Pre-Test des Erhebungsinstruments (Fragebogens) durchgeführt werden. Zumeist finden sich im Rahmen des Pre-Tests noch einige Verbesserungsmöglichkeiten am Fragebogen. 1.6.2. Durchführung der Datenerhebung Die eigentliche Datenerhebung umfaßt folgende Arbeitsschritte: • Kontaktieren der Auskunftspersonen, • Befragung und Ausfüllen der Fragebögen, • Rücksendung / Einsammeln der Fragebögen, • Nachfaßaktion.

68

Kapitel 1 : Der Forschungsprozeß

Bei der Kontaktierung der Auskunftsperson ist darauf zu achten, die Kontaktperson zu einem Zeitpunkt anzusprechen, zu dem sie auch genügend Zeit für eine Kontaktaufnahme hat. Es sollten mehrere Kontaktversuche (bis zu drei) eingeplant werden, bevor man eine Adresse als "nicht erreicht" ablegt. Werden zu viele Adressen "nicht erreicht", dann muß rechtzeitig eine Nachfaßaktion geplant und durchgeführt werden. Allerdings zeigen die Erfahrungen, daß die Antwortbereitschaft bei Nachfaßaktionen rapide abnimmt.

1.6.3. Kontrolle und Überwachung der Erhebung Die Kontrolle und Überwachung bezieht sich insbesondere auf die Überprüfung der Interviewer. Es muß unbedingt vor und bei der Durchführung der Befragung darüber nachgedacht werden, wie verhindert werden kann, daß die Interviewer die Fragebögen selbst ausfüllen. Mögliche Kontrollmechanismen sind z.B.: • telefonische Abfrage, ob das Interview durchgeführt wurde, • Wiederholung der Befragung (Stichproben), • Abstempeln-Lassen des Fragebogens bei Firmenbefragung, • Schriftliche Erklärung des Interviewers, • Unterschrift des Interviewten auf dem Fragebogen, • schriftliche Rücksendung einer unterschriebenen Erldärung durch den Interviewten, • Kontrollfragen im Fragebogen, • Interviewereinsatz in ldeinen Gruppen.

1.6. Durchführung und Überwachung der Datenerhebung

69

Als nächstes müssen die zurückgeschickten und ausgefüllten Fragebögen daraufhin untersucht werden, ob die Stichprobenmerkmale bzw. Quoten eingehalten wurden. Treten hier Verzerrungen auf, so ist nach den Gründen zu forschen und rechtzeitig über Abhilfemaßnahmen nachzudenken (z.B. Nachfaßaktionen, Gewichtung des Datensatzes, Ausweitung der Stichprobe), um eine mangelnde Repräsentanz der Daten zu verhindern. Zuletzt müssen die eingesammelten Fragebögen auf Vollständigkeit überprüft werden. Durch rechtzeitige Kontaktaufnahme mit den Interviewern oder durch Nachfrage bei den Interviewten lassen sich erkennbare Mängel unmittelbar nach der Befragung noch beheben. Allerdings wird trotzdem ein Teil der Fragebögen im Rahmen der Auswertung nicht berücksichtigt werden können, weil • durch Antwortverweigerungen oder versehentlich Teile des Fragebogens nicht ausgefüllt sind, • einige Fragen offensichtlich falsch verstanden wurden, • die Fragen von der falschen Person ausgefüllt wurden, • der Fragebogen verspätet zurückkommt, • der Fragebogen offensichtlich gefälscht ist, • der Fragebogen unleserlich ausgefüllt ist.

Durch sachkundiges Redigieren lassen sich möglicherweise fehlerhaft oder unvollständig ausgefüllte Fragebögen noch retten, um bei der Datenanalyse berücksichtigt zu werden.

70

Kapitel 1: Der Forschungsprozeß

1.7. Datenerfassung und Datenanalyse Da Datenerfassung und -analyse in den Kapiteln 3 bis 6 dieses Buches eingehend anhand eines praktischen Beispiels beschrieben werden, soll an dieser Stelle lediglich ein knapper Überblick erfolgen. Man unterscheidet die Methoden der Datenanalyse nach

• der Anzahl der Variablen, die untersucht werden sollen (univariate, bivariate, multivariate Datenanalyse) oder

• der Art der statistischen Rückschlüsse auf die Grundgesamtheit (deskriptive und induktive Datenanalyse) oder

• der Art der Analyse der Beziehungen zwischen den Variablen (Dependenz- und Interdependenzanalyse)

1.7.1. Univariate, bivariate, multivariate Datenanalyse Die Bezeichnung univariate, bivariate bzw. multivariate Datenanalyse beruht auf der Unterscheidung nach der Anzahl der Variablen, die gleichzeitig analysiert werden sollen. Bezieht sich die Analyse lediglich auf eine Variable, so spricht man von einer

=> univariaten Datenanalyse; bezieht sich die Analyse auf die Beziehung zwischen zwei Variablen, so bezeichnet man diese Vorgehensweise als

=> bivariate Datenanalyse; werden mehr als zwei Variablen gleichzeitig untersucht, so nennt man dies

=> multivariate Datenanalyse.

1.7. Datenerfassung und Datenanalyse

71

• Univariate Analysen untersuchen nur jeweils ein einziges Merkmal.

Beispielfür univariate Analyse: Wie zufrieden sind die Istanbul-Urlauber mit ihrer Unterkunft am Urlaubsort? Hierbei wird nur die Frage bezüglich der Zufriedenheit mit der Unterkunft untersucht (siehe Frage 7.1. des Fragebogens auf Seite 79).

• Bivariate Analysen untersuchen gleichzeitig je z w e i Merkmale in ihrem Zusammenhang.

Beispiel für bivariate Analyse: Wie zufrieden sind die älteren und jüngeren Istanbul-Urlauber kunft am Urlaubsort?

mit ihrer Unter-

Flierbei wird die Frage bezüglich der Zufriedenheit mit der Unterkunft getrennt für die Altersgruppe jüngerer und älterer Besucher untersucht (siehe Fragen 7.1. und 13.2. des Fragebogens auf Seite 79 und 80).

• Multivariate Analysen Merlanale.

untersuchen gleichzeitig mehr als zwei

Beispiel für multivariate Analyse: Kann man unter Gruppe der Istanbul-Besucher Teilgruppen feststellen, die sich hinsichtlich ihrer Reisemotive sehr ähnlich sind? Hierbei werden die Antworten über das Reisemotiv von allen Befragten gleichzeitig analysiert und es wird nach homogenen Teilgruppen bei den Antwortenden gesucht (siehe Fragen 3.1. bis 5.8. des Fragebogens auf Seite 78).

Kapitel 1: Der Forschungsprozeß

72

1.7.2. Deskriptive und induktive Datenanalyse Wenn sich die statistische Analyse lediglich auf die tatsächliche Beschreibung der vorliegenden Daten bezieht, dann spricht man von deskriptiver Datenanalyse (beschreibende Statistik). Die Daten werden anhand ihrer statistischen Merkmale (größter Wert, kleinster Wert, Mittelwert, Median etc.) beschrieben. Handelt es sich bei den Daten um eine Stichprobe aus einer größeren Datenmenge, so will man auch Rückschlüsse über die Verteilung der Merkmale in der Grundgesamtheit anstellen. Diese Vorgehensweise gelingt mit Hilfe der Wahrscheinlichkeitstheorie; der Vorgang der Datenanalyse nennt sich induktive Datenanalyse oder schließende Datenanalyse (beurteilende Statistik). Beispielfür

deskriptive

Datenanalyse:

Wieviel Prozent der befragten deutschen Istanbul-Touristen 5-Sterne-Hotel?

Beispielfiir

induktive

übernachten in einem

Datenanalyse:

Ist es möglich, unter Zugrundelegung der Stichprobenergebnisse eine Aussage zu erhalten, wieviel Prozent aller deutschen Istanbul-Touristen in einem 5-SterneHotel übernachten? Solch eine Aussage kann niemals allein aus einer Stichprobe abgeleitet werden! Immerhin liefert aber die induktive Statistik (siehe Kapitel 6) die Möglichkeit, eine Hypothese über die Anzahl aller 5-Sterne-Touristen anhand der vorliegenden Stichprobe mit gewisser Irrtumswahrscheinlichkeit zu prüfen. Spricht die Stichprobe signifikant gegen die Hypothese, ist sie abzulehnen. Andererseits gibt es keinen Grund für eine Ablehnung.

73

1.7. Datenerfassung und Datenanalyse 1 . 7 . 3 . Dependenz- und Interdependenzanalyse

Bei der Analyse der Beziehungen zwischen zwei und mehr Variablen können die Analysemethoden danach unterschieden werden, ob die Datenmatrix zur Datenanalyse in Untergruppen unterteilt wird. So wird bei den Verfahren der Dependenzanalyse zwischen einer abhängigen Variablen (Kriteriumsvariable) und einer unabhängigen Variablen (Prädikatorvariable) unterschieden. Die Prädikatorvariable soll bei der Bestimmung bzw. Vorhersage der Eigenschaften der Kriteriumsvariable herangezogen werden. Im Rahmen von Interdependenzanalysen wird in der Datenmatrix nicht zwischen abhängigen und unabhängigen Variablen unterschieden, sondern die Variablen werden als ein gemeinsamer Block zusammenhängend nach Strukturmerkmalen untersucht. Die wichtigsten Verfahren der Interdependenzanalyse sind die Faktorenanalyse und die Clusteranalyse. Verfahren der Interdependenzanalyse werden in diesem Buch nicht vorgestellt, da E X C E L dafür keine Voreinstellungen besitzt. Sie könnten dennoch mit EXCEL berechnet werden, wenn man die entsprechenden mathematischen Berechnungen schrittweise durchführt (vgl. hierzu: Weis/Steinmetz, 1 9 9 1 , S. 2 1 4 ff.; Backhaus u.a. 1987).

Beispiel für

Dependenzanalyse:

Besteht ein Zusammenhang zwischen dem Alter der Istanbul-Besucher Motiven für den Istanbulbesuch?

Beispiel für Interdependenzanalyse

(wie bei multivariaten

Gibt es unter der Gruppe der Istanbulbesucher ihrer Reisemotive sehr ähnlich sind?

und den

Analyseverfahren):

Teilgruppen, die sich hinsichtlich

74

Kapitel 1: Der Forschungsprozeß

1.8. Präsentation der Ergebnisse Der Forschungsprozeß schließt mit der Präsentation der Untersuchungsergebnisse ab. Die Präsentation der Ergebnisse umfaßt =>die Erstellung eines Abschlußberichts (mit allen dazugehörenden Abbildungen und Tabellen) und (möglicherweise) => die persönliche Vorstellung des Abschlußberichts. Weitere Ausführung zur Präsentation der Marktforschungsergebnisse finden sich in Kap. 7. In Abbildung 10 wird der gesamte Forschungsprozeß mit allen Unterschritten noch einmal zusammenfassend dargestellt.

75

1.8. Präsentation der Ergebnisse

Problemdefinition praxisbezogenes Problem

Phase 1:

wissenschaftliches Problem Phase 2:

Informationsquellen Sekundärforschung Primärforschung

Phase 3: Befragung Phase 4:

Experiment

Operationalisierung und M e s s u n g Skalierungsmehrdimensionale Messniveau verfahren Einstellungsvon Daten messung

Phase 5: Vollerhebung

Phase 6:

Wahl des Forschungsdesigns Beobachtung

Auswahlverfahren Teilerhebung

sonst. Auswahlverfahren

Durchführung und Überwachung der Datenerhebung InterviewerInterviewerPre-Test Organisation schulung und Kontrolle

Phase 7:

Datenerfassung und Datenanalyse bivariate univariate multivariate Datenanalyse Datenanalyse Datenanalyse

Phase 8:

Präsentation der Ergebnisse Abfassung grafische und persönliche eines Forschungstabellarische Präsentation berichts Darstellung

Abb. 10: Phasen des Forschungsprozesses (Detaildarstellung)

Kapitel 2: Codierung der Daten Wir haben für die Darstellung der Möglichkeiten der Datenanalyse mit EXCEL ein praktisches Beispiel ausgewählt, das aus unserem eigenen Forschungsumfeld stammt. Wir werden das Beispiel in diesem Kapitel soweit wie notwendig vorstellen und in den nachfolgenden Abschnitten darauf Bezug nehmen. Das Beispiel wurde ausgewählt, da sich daran unterschiedliche Fragestellungen untersuchen und die verschiedenen Anwendungsmöglichkeiten der Datenanalyse demonstrieren lassen.

2.1. Vorstellung des Anwendungsbeispiels "Deutsche Touristen in Istanbul" Die Untersuchung "Deutsche Touristen in Istanbul" hatte das Ziel, deutsche Touristen über ihren Urlaubsaufenthalt in Istanbul zu befragen. Die Touristen sollten über Art und Dauer ihres Aufenthalts und über die Motive für die Reise Auskunft geben. Aus den ermittelten Ergebnissen sollten Rückschlüsse für ein Städtemarketing gewonnen werden. Es wurden nur deutsche Urlauber, die sich aus privaten Gründen in Istanbul aufhielten, in die Untersuchung einbezogen. Die Touristen wurden auf der Straße, an belebten Plätzen und in ihren Hotels angesprochen. Befragungszeitraum war die zweite und dritte Woche im April 1995. Zu diesem Zeitpunkt konnte wegen des Osterurlaubs in Deutschland mit einer großen Anzahl von Istanbulbesuchern gerechnet werden. Zur Durchführung der Befragung wurde ein standardisierter Fragebogen mit 14 Fragen entworfen. Die Fragen konnten durch einfaches Ankreuzen von den Befragten selbst ausgefüllt werden.

78

Kapitel 2: Codierung der Daten

Beispiel: Fragebogen zur Touristenbefragung Ostern

Frage 1

Wie oft waren Sie schon in Istanbul?

Bin zum ersten Mal hier Q Bin zum zweiten Mal hier O Frage 2

1995

Bin zum dritten Mal hier ü Mehr als dreimal U

Wie lange haben Sie vor, in Istanbul zu bleiben?

1-3 Tage ca. eine Woche ca. zwei Wochen

O O Q

ca. drei Wochen über drei Wochen

O U

Frage 3

In welcher Art von Hotel bleiben Sie?

*****

ü

a

*

***

ü

Pension ü

Frage 4

Bitte kreuzen Sie an, wie Sie Ihre Reise organisiert haben.

****

**

Privat ü Reiseorganisation U Frage 5

a

a Sonstiges

Reiseorganisation mit Führer sonstiges

Q

Aus welchen Gründen befinden Sie sich in Istanbul? sehr etwas nidtt widitig widitig widitig

sehr etwas nicht widitig wichtig wichtig

Geschichte/Kultur

O

ü

O

Einkaufen/Shopping

ü

ü

Erholung/Ferien

O

O

O

Unterhaltung/Nachtleben

O

O

ü

Türkisches Essen/Trinken

Q

O

ü

Freund/Bekannte besuchenO Frage 6

U Q

O

Sprache lernen/verbessern ü U

Allgemeine Neugierde

Bitte kreuzen Sie an, wie Sie sich auf Ihre Reise vorbereitet haben. (Mehrfachantworten)

Reisefiihrer über ü Istanbul

Werbeprospekte des türkischen Fremdenverkehrsbüros

O

Sachbücher

O

Zeitschriften/Artikel

O

Vorträge/Filme

Q

O

Bericht von Freunden

Q

Information des Reisebüros/ Reiseveranstal ters sonstiges

Q

ü

U

O

2.1. Anwendungsbeispiel

79

Beispiel: Fragebogen zur Touristenbefragung Frage 7

Ostern 1995

(Fortsetzung)

Bitte machen Sie eine Beurteilung über Ihre Reise, in Hinblick auf folgende Punkte, indem Sie das jeweils zutreffende Kästchen ankreuzen Sehr eut

Gut

Mittelmäßig Schlecht

Sehr schlecht

a

a

a

a

a

a

a

a

a

a

Q

o

a

Q

a

a

ü

a

a

a

a

a

a

a

a

o

a

a

a

a

a

Alles in allem

a

a

a

a

a

Frage 8

Bitte kreuzen Sie an. welche Sehenswürdigkeiten auf Ihrem Programm stehen (Mehrfachantworten)

Unterkunft

a

Reiseorga-

a

nisation Türk. Speisen und Getränke Unterhaltung/ Nachtleben Einkaufsmöglichkeiten Museen/ Ausstellungen Ilist.

Sehens-

würdigkeiten

a

a

Museum flir antike Kunst

O

Galata-Turm

O

Bosporus-Schiffsfahrt

O

Großer Basar

ü

Topkapi-Palast/Harem (alter Sultanspalast)

Q

Hagia Sophia

O

Dolmabahfe-Palast (neuer Sultanspalast)

O

Blaue Moschee O (Sultan Ahmet Moschee)

Süleymaniye Moschee

O

Alte Stadtmauer

ü

Wassergewölbe (Zisterne)

O

Altstadtbummel

O

Chora-Kirche

ü

80

Kapitel 2: Codierung der Daten

Beispiel: Fragebogen zur Touristenbefragung Ostern 1995 Frage 9

(Fortsetzung)

Welche dieser Sehenswürdigkeiten hat Sie am meisten beeindruckt?

1. 2. 3. Frage 10

Bitte zählen Sie ein paar Dinge auf, die Ihnen an Istanbul ganz besonders gut gefallen.

1. 2. Frage 11

Bitte zählen Sie ein paar Dinge auf, die Sie persönlich an Istanbul ganz besonders stören, und die Ihrer Ansicht nach verbessert werden sollten.

1. 2. Frage 12

Werden Sie Istanbul nochmals besuchen?

Ja

Q

ü

Nein

Begründung: Frage 13

Bitte kreuzen Sie an bis 25 f.

Männlich

O

Weiblich

O

ü

26-35 J. O 35-45 f.

}.

Q

über 55 f.

46-55

Q

O

Frage 14

Mit wem sind Sie nach Istanbul gekommen?

Ehepartner

O

Reisegruppe

ü

Mit Familie

Alleine

U

Mit Freunden

O

Freund/Freundin U

Vielen Dank für Ihre

Mitarbeit!

O

2.1. Anwendungsbeispiel

81

Vor der Durchführung der Befragung wurde der Fragebogen einem PreTest unterzogen, um ihn auf Verständlichkeit zu prüfen. Die Interviewer (Studenten der Deutschsprachigen Abteilung der Marmara-Universität im Hauptstudium mit Studienschwerpunkt im Fach "Marketing") wurden im Rahmen einer Interviewerschulung auf ihre Aufgabe vorbereitet. Um eine Gleichverteilung der Stichprobe der Befragten hinsichtlich der Kriterien Alter und Geschlecht sicherzustellen, wurde den Interviewern ein Quotenplan vorgegeben. Die Quoten orientierten sich an der Verteilung, die sich aus der amtlichen Statistik über deutsche Türkeibesucher ergibt. Insgesamt konnten 184 auswertbare Interviews in die Untersuchung einbezogen werden. Im Rahmen der nachfolgenden Kapitel (Datenanalyse) wird auf die Daten aus dem Beispiel noch ausführlich eingegangen werden. Das Beispiel wurde für die weiteren Darstellungen ausgewählt, da ihm eine relativ einfach durchzuführende und nachvollziehbare Untersuchung zugrunde liegt. Es werden in diesem Beispiel alle Phasen im Phasenmodell des Marktforschungsprozesses abgehandelt (vgl. Abb. 10).

2.2. Grundsätze der Codierung 2.2.1. Begriffliche Grundlagen: Datenmatrix, Variable, Merkmalsausprägung Um die erhobenen Daten für den Rechner lesbar zu machen, müssen sie in eine maschinenlesbare Form überführt werden. Diesen Vorgang nennt man Codierung. Die Codierung ist eine notwendige Voraussetzung für die Datenanalyse. Man kennt den Begriff "Code" auch aus anderen Bereichen, z.B. aus Agentenfilmen, wo ein zu übermittelnder Text mit Hilfe eines Geheimcodes verschlüsselt wird, damit er für die "andere Seite" nicht mehr lesbar ist etc.

Kapitel 2: Codierung der Daten

82

Mit Codierung (bzw. Verschlüsselung) wird in unserem Zusammenhang der gleiche Vorgang umschrieben: Wir weisen unseren Befragungsergebnissen "verschlüsselte" Werte zu, die einer bestimmten Logik unterliegen. Diese Logik erlaubt es dem Rechner, die Daten zu lesen. Da ein Computer und ein Rechenprogramm i.d.R. nur Zahlen (= numerische Zeichen) lesen können, müssen wir die Antworten der Befragten in Zahlen umwandeln.

Beispiel für Codierung: Frage 1 des Fragebogens lautet: Wie oft waren Sie schon in Istanbul? Die Antwortkategorien bekommen jeweils einen numerischen Wert zugewiesen: Antwort:

Wert {Code):

"Bin zum ersten Mal hier.'"

1

"Bin zum zweiten Mal hier."

2

"Bin zum dritten Mal hier."

3

"Mehr als dreimal."

4

Gespeichert wird schließlich nur derjenige Wert, der vom Befragten angekreuzt wurde. Die Antworten bzw. die zu den Antworten gehörenden Codes werden in einer Matrix abgetragen und gespeichert. Diese Matrix nennt man Datenmatrix oder Rohdatensatz. Die Datenmatrix hat stets den gleichen Aufbau: Auf der waagerechten Achse werden die Antworten für jede Frage abgetragen; auf der senkrechten Achse werden die Fälle, d.h. die einzelnen Befragten abgetragen:

83

2.2. Grundsätze der Codierung

Variable (z.B. Antworten) 1 2 3 4 5 6 7

11112

1 . . .

2 1 2 2 2 3 1 1 2 . 4 1 1 . . 5 1 . . . 6

.

.

.

m

. . . . . . . . . .

.

Fälle (z.B. Befragte)

. . . . i . . . 2 2

. . 2 5 1 . 1 1 2

1115

5

1,

Abb. 11: Datenmatrix mit n Fällen bei m Variablen

Jeder Fall entspricht einem Befragten; da wir 184 Personen befragt haben, befinden sich in unserem Datensatz 184 Fälle oder 184 Zeilen. In der Datenmatrix wird für jede Frage ein Antwortplatz reserviert. Falls der Befragte die entsprechende Frage nicht beantwortet hat, wird dieser Platz durch ein Leerzeichen ausgefüllt. Die Fragen führen zu den "Variablen", da die Antworten auf die Fragen unterschiedliche Werte annehmen können.

Kapitel 2: Codierung der Daten

84

Beispiel: Variablen der "Touristenbefragung Ostern 1995 " FragenNummer

Kurzbezeichnung

VariablenName

1 2 3 4 5 5 5 5 6 6 6 6

Nr. des Bogens Interviewer Wie oft? Wie lange? Art d. Hotels Organisation Gesdiidite Ferien Essen Freunde Reiseführer Sadibüdier Vorträge Berichte

AI A2 A3 A4 A5 A6

7 7 7 7 7 7 7 7

Unterkunft Reiseorganisation Türk. Speisen Unterhaltung Einkauf Museen Sehenswürdigkeiten Alles in allem

Dl D2 D3 D4 D5 D6 D7 D8

8 8 8 8 8 8

Antike Kunst Bosporus Topkapi-Palast Dolmabahce-Palast Süleymaniye-Mosdtee Zisterne

El E2 E3 E4 E5 E6

12

Nodimal

Fl

13

Gesdiledit

14

Begleitung

Istanbul?

B1 B2 B3 B4

5 5 5 5

Einkaufen Naditleben Spradie Neugierde

B5 B6 B7 B8

CI C2 C3 C4

6 6 6 6

Werbeprospekte Zeitsdiriften Reisebüro Sonstiges

CS C6 C7 C8

8 8 8 8 8 8

Galata-Turm Großer Basar Hagia Sophia Blaue Mosdiee Alte Stadtmauer Altstadt

E7 E8 119 E10 Ell E12

F2

13

Altersgruppe

F3

1

Im obigen Beispiel sind als Antwort auf Frage 1 vier Antwortkategorien bzw. vier Werte denkbar. Den Wert (Antwort), den die Variable bei der Person m schließlich annimmt, nennt man Merkmalsausprägung (oder Variablenausprägung). Wenn der erste Befragte bereits dreimal in Istanbul war, so hat die Merlarialsausprägung (Antwort) für die erste Variable den Wert 3. W i e man an dem Beispiel sieht, ist die Anzahl der Variablen nicht notwendigerweise identisch mit der Anzahl der Fragen auf dem Fragebogen. Dafür kann es insbesondere drei Gründe geben:

2.2. Grundsätze der Codierung

85

Erster Grund: Codierung von "offenen Fragen" Wenn man "offene Fragen" nicht codiert oder erst später codiert, werden sie nicht auf dem Datensatz erfaßt bzw. erst später hinzugefügt. Dadurch kann sich die Zahl der Variablen verkürzen. Beispiel für "offene Fragen": Frage 9 ("Welche dieser Sehenswürdigkeiten hat Sie am meisten beeindruckt?"), Frage 10 ("Bitte zählen Sie ein paar Dinge auf, die Ihnen an Istanbul ganz besonders gut gefallen.") und Frage II ("Bitte zählen Sie ein paar Dinge auf, die Sie persönlich an Istanbul ganz besonders stören, und die ihrer Ansicht nach verbessert werden sollten.").

Die Fragen 10 und 11 unterscheiden sich jedoch von Frage 9 darin, daß sie "völlig offen" sind, d.h. die Befragten in ihrem Antwortverhalten völlig frei waren. Wir haben diese beiden Fragen nicht über EXCEL ausgewertet, sondern per Hand (Strichliste) ausgezählt. Frage 9 ließe sich hingegen leicht vercoden, da sich die Antworten auf die unmittelbar vorhergehende Frage 8 bezogen; es könnte also für Frage 9 der gleiche "Schlüssel" wie für Frage 8 verwendet werden. Zweiter Grund: Codierung von Mehrfachantworten Wenn man Fragen erfaßt, die dem Befragten mehrere Möglichkeiten gleichzeitig als Antwort bereitstellen, dann muß jede dieser Antwortmöglichkeiten als eine eigene Variable erfaßt weden; dadurch kann sich die Anzahl der Variablen vergrößern. Beispiel zu

Mehrfachantworten:

Frage 6 lautet: "Bitte kreuzen Sie an, wie Sie sich auf die Reise vorbereitet haben." Als Antworten werden sieben Kategorien vorgegeben sowie die Kategorie "Sonstiges". Da der Befragte sowohl die Antwort "Reiseführer" als auch "Sachbücher" (und die anderen Kategorien auch) gleichzeitig ankreuzen kann, handelt es sich um eine Frage mit Mehrfachantworten.

86

Kapitel 2: Codierung der Daten

Es muß also jede einzelne Antwortkategorie getrennt als Variable erfaßt werden. Frage 6 umfaßt folglich acht Variablen. Die Variablen können als Ausprägung die Werte ja (= 1) oder nein (= kein Wert, oder 0) annehmen. Dritter Grund: Codierung von "neuen" Variablen Manche Variablen werden erst im Prozeß der Datenanalyse errechnet und dann den Merkmalsträgern (Personen) zugewiesen. Solche Variablen können zum Beispiel als Durchschnittswerte von anderen Variablen entstehen. Diese Durchschnittsnoten von mehreren Einzelnoten können dann am Ende des Datensatzes hinzugefügt werden, wodurch sich dieser verlängert. Ein anderes Beispiel sind Rohwerte, die erst später zu Kategorien (Klassen) zusammengefaßt werden. Damit werden die ursprünglichen Daten zweimal auf dem Datensatz gespeichert: Als Rohdaten und als codierte Daten. Beispiel für Zusammenfassen von Rohdaten in Kategorien: Die Altersangaben der Befragten (Jahre) wurden in die fünf Kategorien 1 2 3 4

= bis 25 Jahre, — 26 bis 35 Jahre, = 36 bis 45 Jahre, = 46 bis 55 Jahre,

5 = über 55 Jahre zusajn mengefaßt. Hier wurden die Rohdaten nicht gespeichert, es sind nur die Kategorien (F3) auf dem Datensatz abgespeichert. Insgesamt umfaßte der Datensatz schließlich 45 themenbezogene Variablen. Daneben wurden noch die Fragebogennummer und die Interviewernummer abgespeichert. (Diese Vorgehensweise empfiehlt sich, da man dadurch den einzelnen Datensatz leichter wiederfindet und ihn dem entsprechenden Fragebogen zuordnen kann.) Alles zusammen ergibt sich ein Datensatz mit 47 Variablen bei 184 Fällen.

2.2. Grundsätze der Codierung

87

Aus Gründen der Übersichtlichkeit ist es sinnvoll, den einzelnen Fragen Variablennamen zuzuordnen. Diese Variablennamen erleichtern die Arbeit am Rechner und sollten möglichst kurz sein. Üblicherweise verwendet man Buchstaben und Zahlen zur Kennzeichnung. Die Variablennamen selbst werden nicht ausgewertet, sondern dienen nur der Kennzeichnung der Variablen in der Kopfzeile der Datenmatrix. Beispiel zur Wahl der Variablennamen: Da als erstes die Fragebogennummer und der Interviewername abgespeichert werden sollten, wurden diesen beiden Variablen die Namen AI und A2 zugeordnet. Frage 1 bis Frage 4 wurden die Namen A3 bis A6 zugeordnet. Frage 5 ("Aus welchen Gründen befinden Sie sich in Istanbul") setzte sich aus acht Teilfragen zusammen, denen jede eine eigene Variable zugeordnet werden mußte. Um diese Fragen von den vorhergehenden zu unterscheiden, wurden ihnen die Variablennamen B1 bis B 8 zugewiesen usw.

2 . 2 . 2 . Codierungsgrundsätze Für die Zuordnung von Werten für die Antwortkategorien gibt es einige Grundsätze, die beachtet werden sollten (vgl. auch: Böhler 1992, S. 158): Grundsatz 1: Lesbare Codes verwenden! Beispiel fiir die Lesbarkeit von Codes: Die Codes sind leicht lesbar, wenn man sie beispielsweise in der gleichen Reihenfolge wie Schulnoten verwendet (1 = "sehr gut", 2 = "guf etc.), wie es bei Frage 7 gemacht wurde. Auf diese Weise kann sowohl der Rechner als auch der Mensch die Rohdaten unmittelbar verstehen und eventuelle Fehler rechtzeitig erkennen.

88

Kapitel 2: Codierung der Daten

Grundsatz 2: Für ähnliche Fragen sollten die gleichen Codes verwendet werden! Beispiel für die Ähnlichkeit von Codes bei ähnlichen Fragen: Die Antworten auf die Teilfragen von Frage 5 ("Aus welchen Gründen befinden Sie sich in Istanbul") sind alle in den gleichen Codes abgespeichert (1 = "sehr wichtig, 2= "wichtig", 3 = "nicht wichtig'). Ähnliche Codes für ähnliche Fragen zu verwenden erleichtert dem Befragten die Beantwortung der Fragen, da er nicht jedesmal neu über die Antwortskala nachdenken muß; es erleichtert aber auch das Einlesen der Daten in den Rechner.

Grundsatz 3: Die Antwortkategorien sollten vollständig sein und bei Bedarf mit "Sonstiges" ergänzt werden! Beispiel für die Vollständigkeit der Antwortkategorien: Auf Frage 6 wurden zahlreiche Informationsquellen, die in Frage kommen können, vorgegeben. Da aber nicht ausgeschlossen werden kann, daß trotzdem wichtige Informationsquellen nicht erfaßt sind oder auch einzelne Touristen spezielle (nicht genannte) Informationsquellen nutzen, wurde die Kategorie "Sonstiges" hinzugefügt (siehe auch Frage 3 und 4).

Grundsatz 4: Die Antwortkategorien sollten sich gegenseitig ausschließen! Wenn sich Antworten überschneiden, lassen sie sich nicht eindeutig auswerten. Auch wird der Antwortende dadurch irritiert, daß er nicht weiß, wo er sein Kreuzchen setzen soll. Oft zeigt sich erst im Pre-Test, daß sich Antworten überschneiden können.

89

2.2. Grundsätze der Codierung Beispiel für die (fehlende) Ausschließung von

Antwortkategorien:

In Frage 14 ("Mit wem sind Sie nach Istanbul gekommen?" ergab sich (leider) eine Überschneidung, da die befragten Touristen sowohl die Antwort "Ehepartner" als auch "mit Familie" ankreuzen konnten, wenn Sie mit dem Ehepartner und mit Kindern unterwegs waren.

Grundsatz 5: Die Antworten sollten möglichst als Originalwerte erfaßt werden. Oftmals ist es für nachfolgende Analysen wichtig, auf die Originaldaten zurückgreifen zu können, da man bestimmte Analyseverfahren durchführen will, die vorab nicht geplant waren. Durch spätere Codierung der Daten wird verhindert, daß wichtige Informationen frühzeitig verlorengehen. Beispiel für die Bewahrung der Originaldaten: So ist es bei Frage 13 (Alter) besser, wenn man das genaue Alter (in Jahren) erfaßt und auf dem Rohdatensatz speichert, als wenn man lediglich die Antwortcodes von 1 bis 5 erfaßt. Die Altersangaben in Jahren besitzen Kardinaldatenniveau und eröffnen deshalb bessere Möglichkeiten der Datenanalyse als die vercodeten Daten, die lediglich ordinales Dateniveau aufweisen.

Grundsatz 6: Die Codierung sollte bei der Konzeption des Fragebogens bereits beachtet werden (Pre-Coding)! Wenn man bereits bei der Gestaltung des Fragebogens wichtige Codierungsgrundsätze beachtet, dann lassen sich Fehler bei der Datenerfassung vermeiden bzw. die Datenerfassung kann erleichtert werden.

90

Kapitel 2: Codierung der Daten

Beispiel für Vorteile des Pre-Coding: Es lassen sich z.B. die Fragen übersichtlicher auf einzelne Seiten des Fragebogens ordnen, wenn man beachtet, daß eine Variablengruppe nicht durch Seitenumblättern unterbrochen wird.

Durch Pre-Coding, d.h. Codierung des Fragebogens vor der Befragung, können bereits auf dem Fragebogen die Antwortcodes in Weinen Ziffern neben den Antwortkästchen abgedruckt werden. Dies erleichtert erheblich die Erfassung der Daten am Rechner und hilft, Übertragungsfehler zu vermeiden. Hinsichtlich der Möglichkeiten der Überprüfung der Daten auf unzulässige Codes sei auf Abschnitt 3.3. (Überprüfung der Daten auf Eingabefehler) verwiesen. Hierbei kann EXCEL bereits hilfreich zur Seite stehen. Einfache Eingabefehler können aber bereits "per Hand" bzw. "per Auge" erkannt werden, indem man die entsprechenden Datenreihen auf unzulässige Werte hin kontrolliert.

2.2.3. Der Codeplan Der Codeplan faßt alle Entscheidungen übersichtlich zusammen, die im Rahmen der Codierung getroffen werden. Falls die Codierung bereits auf dem Fragebogen vermerkt ist (Pre-Coding), kann auf den Codeplan verzichtet werden. Ansonsten stellt der Code-Plan den Schlüssel für die "Rück-Codierung" der Ergebnisse dar. Man stelle sich den Geheimagenten vor, der seinen Codeplan verliert, und danach seine selbstvercodeten Nachrichten nicht mehr lesen kann. Genauso wird es dem Marktforscher ergehen, wenn er sich nicht rechtzeitig einen Codeplan erstellt. Der Codeplan dient als Merkzettel für den Analytiker. Er ist aber auch als Hilfe gedacht, wenn sich Dritte mit den Daten beschäftigen und sie lesen wollen.

91

2.2. Grundsätze der Codierung

Bei manchen Rechnerprogrammen, z.B. bei SPSS, erstellt das Programm auf Anfrage einen Codeplan (vgl. Saurwein/Hönekopp 1992, S. 47 f.). Bei der Datenanalyse mit EXCEL ist es sinnvoll, sich rechtzeitig eine Übersicht selbst zu erstellen. Der Codeplan enthält folgende wichtige Informationen: • • • • •

Fragenummer, Frageformulierung, Variablenname, Antwort, Antwortcode.

Beispiel

für

einen

Fragennuimer

Codeplan:

Frageformulierung

Variablenname

Fragebogen-Nr.

AI

In tervi

A2

Frage

Frage

ewername

1

2

Wie oft waren Sie schon in Istanbul?

Wie lange haben Sie vor, in I s t . zu bleiben?

Antwort

Herr Herr Herr Frau Frau

A B C A B

Antwortcode

1 2 3 4 5

A3

A4

zum ersten Mal zum zweiten Mal zum dritten Mal mehr als dreimal

2 3 4

1-3 Tage ca. eine Woche ca. zwei Wochen ca. drei Wochen über drei Wochen

1 2 3 4 5

1

92

Kapitel 2: Codierung der Daten

Oftmals werden auch nach Abschluß der Codierung noch wichtige Entscheidungen, z.B. im Rahmen der Datenerfassung, getroffen, die nachträglich auf dem Codeplan notiert werden sollten. Dies betrifft beispielsweise die Vergabe von Variablennamen für "neue" Variablen oder die Analyse von "Offenen" Fragen, für die im nachhinein Codes vergeben werden. Im Rahmen der Datenanalyse erweist es sich als vorteilhaft, wenn man sich neben dem Codeplan auch ein Verzeichnis der erzeugten Dateien anlegt.

Kapitel 3: Datenerfassung und Datenaufbereitung mit EXCEL 5.0 3.1. Kurzeinführung in EXCEL 5.0 3.1.1. Begriffe Nehmen wir an, daß auf Ihrem Computer bereits Microsoft EXCEL 5.0 in der Standard-Version installiert wurde. Wenn Sie nun EXCEL 5.0 starten, müßte sich folgendes auf dem Bildschirm zeigen: M

Datei

Bearbeiten

Ansicht

Microsoft Excel M a p p e ! Einfügen format Cxtras

Date.nFenster2

100«

wr Dies ist das übliche Startbild von EXCEL 5.0 - sehen wir uns seine Bestandteile an und lernen die Begriffe kennen.

94

Kapitel 3: Datenerfassung und Datenaufbereitung mit Excel 5.0

Ganz oben, in der Mitte des blauen Balkens, befindet sich die Fensterüberschrift Microsoft EXCEL - Mappe 1. Solange dieses "Mappe 1" sichtbar ist, sind die erfaßten Daten noch nicht gesichert. Hat man dagegen die Daten in einer Datei abgelegt, so steht anstelle des Mappe 1 dann der Name der Datei, in der sich die Daten befinden. Ganz links oben, neben dem blauen Balken, befindet sich ein kleines graues Quadrat mit einem Minuszeichen. Das ist die Schaltfläche für das Systemmenü - mit seiner Hilfe kann man die Arbeit mit EXCEL beenden oder zu einer anderen Windows-Anwendung wechseln. Bekanntlich läßt das Betriebssystem Windows es zu, mehrere Programme gleichzeitig im Zugriff zu haben und Daten wechselseitig zu übergeben. Für uns speziell ergibt sich damit die Möglichkeit, eine Textverarbeitung (Word für Windows oder WordPerfect für Windows) und gleichzeitig EXCEL zu nutzen. Damit können die EXCEL-Ergebnisse sofort in die Texte übernommen werden. Unter der blauen Zeile mit der Fensterüberschrift befindet sich die Menüleiste. Sie enthält mit den Worten Datei

Bearbeiten Ansicht

Einfügen Format Extras Daten Fenster ?

die Überschriften für kleine Fenster, die sich bei Auswahl eines Begriffes nach unten öffnen (sogenannte pull-down-Menüs). Diese pull-downMenüs präsentieren dann die zu dem jeweiligen Oberbegriff verfügbaren Leistungsangebote von EXCEL. Links neben der Menüzeile befindet sich wieder eine Schaltfläche für ein Systemmenü - dieses Menü allerdings bezieht sich nicht auf das gesamte EXCEL, sondern nur auf die im Moment bearbeitete Datei. Unter der Menüzeile befindet sich meist eine erste Symbolleiste. Hat sie das Aussehen wie in unserem abgebildeten EXCEL-Fenster, so ist es die Standard-Symbolleiste. Sie enthält 2 2 Schaltflächen, die jeweils mit der Maus angeldickt werden können, um bestimmte Wirkungen zu erzielen. Jede Schaltfläche wirkt wie eine herausstehende Taste - wird sie betätigt, dann verschwinden die "Schatten", man erkennt damit, welche Schaltfläche aktiviert ist.

3.1. Kurzeinführung in Excel 5.0

95

Unter dieser ersten befindet sich bei uns noch eine zweite Symbolleiste. Sie heißt Format-Symbolleiste und stellt Schaltflächen zur Formatierung von Text und Zahlen bereit. Richtet man den Mauszeiger auf eine Schaltfläche in solch einer Symbolleiste und wartet ein bis zwei Sekunden, dann erscheint ein ldeines Rechteck mit einem erläuternden Wort zu dieser Schaltfläche. Die beiden Symbolleisten, die in der Abbildung gezeigt werden, können aber auch fehlen - oder umgekehrt können mehrere oder andere Symbolleisten vorhanden sein. EXCEL 5 . 0 bietet jedem Nutzer an, bis zu zehn Symbolleisten verwenden zu können. Welche das im einzelnen sind, erfährt man, wenn man im Menü Ansicht die Leistung Symbolleisten... wählt. Die jeweils angekreuzten Symbolleisten sind dort erkennbar durch Anklicken mit der Maus schafft oder beseitigt man das Kreuz. Ob nun aber diese zwei oder andere oder gar keine Symbolleisten zu sehen sind - der darunter stehende Tabellenkopf ist immer zu sehen. Es enthält links die Adresse der aktiven Zelle (bei uns B3) und rechts die lange, helle Eingabezeile. Hier erscheint stets alles, was eingetippt wird. Unter dem Tabellenkopf dann die EXCEL-Tabelle. Sie besteht aus Zeilen und Spalten. Die Zeilen sind durchnumeriert von 1 bis 16384, die Zeilennummern befinden sich ganz links in den Zeilenköpfen. Die Spalten, wie an den Spaltenköpfen erkennbar, sind dagegen mit Buchstaben gekennzeichnet - zuerst von A bis Z, dann von AA bis AZ, von BA bis BZ und so weiter bis schließlich IA bis IV. Wer nachzählt, wird feststellen, daß also maximal 2 5 6 Spalten genutzt werden können! Durch Zeilen und Spalten sind die Zellen beschrieben - ihre Adresse beginnt stets mit dem Buchstaben oder dem Buchstabenpaar der Spalte, in der sich die Zelle befindet, und endet mit der Nummer ihrer Zeile. Die erste Zelle links oben trägt also die Adresse A1, die letzte Zelle rechts unten die Adresse IV16384. Die aktive Zelle wird durch einen Rahmen hervorgehoben - manchmal sagt man zu diesem Rahmen auch Tabellenkursor. In unserem Bild ist also die Zelle B3 aktiv.

96

Kapitel 3: Datenerfassung und Datenaufbereitung mit Excel 5.0

Bleiben wir bei dem Bild. Man sieht sofort, daß von den maximal 4194304 Zellen, die ein EXCEL-Tabellenblatt enthalten kann, gerade 133 Zellen vollständig sichtbar sind. Selbst wenn man daran denkt, die Spalten und die Zeilen schmaler zu machen (was natürlich möglich ist), so wird es doch bei Anwendungen aus der Praxis unmöglich sein, eine komplette große Tabelle auf dem ldeinen Computerbildschirm auf einen Blick erfassen zu können. Man sieht immer nur einen (zu ldeinen) Ausschnitt. Dieser Mangel läßt sich nicht beheben, man muß mit ihm leben. Natürlich kann man aber relativ schnell den Inhalt des sichtbaren Ausschnittes ändern, also je nach Sichtweise den Bildschirm "über die Tabelle" bewegen (oder anders gesehen - die Tabelle "hinter dem Bildschirm entlangziehen"). Will man das mit der Maus machen, so kann man dazu die Schieberegler am rechten und unteren Tabellenrand benutzen. Als letztes muß erklärt werden, was es mit diesem Register mit den Bezeichnungen Tabelle 1, Tabelle 2 usw. am unteren Bildschirmrand auf sich hat. Hier handelt es sich um eine Neuigkeit von EXCEL 5.0 im Vergleich zu seinen Vorgängern. Konnte man früher immer nur eine einzige Tabelle in einer Datei erfassen, so erlaubt EXCEL 5.0 nunmehr, bis zu 16 Tabellen in einer Arbeitsmappe zusammenzufassen. Allgemeiner muß man sogar sagen - es können bis zu 16 Blätter zusammengefaßt werden. Denn ein Blatt muß nicht in jedem Fall eine Tabelle enthalten. So sind beispielsweise auch Diagrammblätter denkbar. Am Ende dieses Abschnitts wollen wir schließlich für alle EXCEL-Nutzer, die eine englischsprachige Version nutzen, die wichtigsten der vorgestellten Begriffe in ihren deutschen und englischen Vokabeln nebeneinander stellen. Zeile Spalte Zelle

row column cell

3.1. Kurzeinführung in Excel 5 . 0

97

3 . 1 . 2 . Bedienung von E X C E L 5 . 0

Zur Eingabe von Zahlen oder von Text in die Zellen einer Tabelle benötigt man natürlich die Tastatur. Anders geht es nicht. Für diese Zwecke besitzt jede Computertastatur den separaten Ziffernblock, fast ausschließlich rechts angeordnet. Achtung! Sollte die Zahleneingabe über diesen Ziffernblock nicht möglich sein, dann prüfen Sie, ob die Anzeige NumLock leuchtet. Ist das nicht der Fall, muß die Taste 0 gedrückt werden.

Nach der Eingabe einer Zahl oder eines Textes in eine Zelle muß ihr Abschluß mitgeteilt werden. Das kann mit der ENTER-Taste 1 J J (oft auch als RETURN-Taste b e z e i c h n e n d e r einer der Richtungstasten [) steuern Sie das gewünschte Menü an. Druck auf die Taste (JQ öffnet Ihnen dann das Menü; Sie wählen die gewünschte Leistung aus, bestätigen mit der Eingabeabschlußtaste ENTER [ j ]. Öffnet sich Ihnen dann ein Dialogfeld mit vielen verschiedenen Eingaben, so steuern Sie mit der Tabulatortaste [ix[) über das Feld. Ist ein Kreuz einzutragen oder zu löschen, so ist dazu die Leertaste zu nutzen. Beispiel zur Bedienung von EXCEL über die Menüleiste: Sehen wir uns an, wie man die Format-Symbolleiste mit dieser Art der Bedienung entfernen könnte. Zuerst also mit jf10| zur Menüleiste. Dann dreimal Q nach rechts bis zum Menü Ansicht. Druck auf [Tj und das Menü öffnet sich, die dort angebotenen Leistungen sind sichtbar. Weiter zweimal ¡T] bis zur Leistung Symbolleisten. Bestätigung mit ENTER ( j ]. Das Verzeichnis aller Symbolleisten erscheint. Anwahl der Zeile Format mit |T} Mit der Leertaste beseitigt man das Kreuz. Bestätigung mit ENTER [ j ]. Die zweite Symbolleiste ist verschwunden. Dritte Möglichkeit der EXCEL-Bedienung: Die Arbeit mit der ("«__)Taste und den Steuerbuchstaben. In der Menüzeile ist jeweils ein Buchstabe durch Unterstreichung hervorgehoben. Drückt man die |*it ¡-Taste und dazu den Buchstaben des Menüs, das man wählen möchte, dann öffnet sich sofort dieses Menü. Wieder sind für die jeweiligen Leistungen Steuerbuchstaben hervorgehoben. Diese allerdings werden ohne die [*it [-Taste eingetippt, und weiter geht es. Erscheint ein Dialogfeld mit vielen verschiedenen Eingabemöglichkeiten, so sind auch hier wieder Steuerbuchstaben zu sehen - mit der |«t )-Taste und dem entsprechenden Buchstaben wählt man schnell die gewünschte Eingabe aus.

101

3.1. K u r z e i n f ü h r u n g in Excel 5.0

Beispiel zur Arbeit mit der (««" \Taste und den Steuerbuchstaben: Einige Daten sind in der EXCEL-Tabelle erfaßt, sie muß zum ersten Male auf Diskette gespeichert werden, soll bei irgendeiner Störung, und sei es auch nur ein kurzzeitiger Stromausfall, die Arbeit nicht umsonst gewesen sein. Die Diskette befindet sich im Laufwerk A. fit ]+fo] das Menü Datei gewählt.

Was ist zu tun? 'Zuerst wird mit

Für die Leistung Speichern unter drückt man danach nur die Steuertaste [uj Es erscheint das Dialogfeld für die Festlegung der Einzelheiten der Speicherung:

Datei

Oearbeiten

Ansicht

Microsolt Excel - M a p p e l Einfügen Format Extras

Daten

Fenster

A4

m

«

B 2; 5

M i

?

S

•

;

8: Speichern unter Datatane;

Xpjawchwit«;

OK

:|mappel xli

Abbrechen

J

j

Qjbeiipiel f l encelcbt CDmakio CD letup Cj»l«tait Laufwetka:

17

:

:| H e : m» dot E-2

11

19

"M 11 51

,T-t.ellet l I f i M ü l

j Vflbeitei / f ^ t e ë

"j"

n r

102

Kapitel 3: Datenerfassung und Datenaufbereitung mit Excel 5.0

Mit (ZELLEN->SCHRIFTART aus, wie die eingetragene Zahl 5 das Format Times Roman mit Größe 20 erhalten kann. Beschreiben Sie, was Sie dazu mit der Maus oder unter Verwendung der Steuerbuchstaben für Handlungen ausführen müssen.

103

3.1. Kurzeinführung in Excel 5.0 Vierte

Möglichkeit

der

EXCEL-Bedienung:

Die

Arbeit

mit

den

Schnellwahl-Tasten. Jede Taste auf der Computertastatur kann bis zu fünf verschiedene Bedeutungen haben. Zuerst die elementare Bedeutung - das sind die Kleinbuchstaben und Ziffern sowie die wichtigsten Sonderzeichen wie Punkt und Komma. Dann, in Verbindung mit der Umschalttaste (], kommen die Großbuchstaben und die anderen Sonderzeichen, die über den Ziffern stehen, wie Prozentzeichen, Klammern und Ausrufezeichen.

Umschalt

.Shift

Die dritte Belegung ergibt sich aus der Kombination mit der [sar T ßafawn I : Horizontal Ve»«kal ! r St Nichts ist bei der Arbeit mit Assistenten nicht nachträglich änderbar!

4.5.2. Ermittlung von Häufigkeitstabellen Kehren wir zurück zu unserem Beispiel "Touristenbefragung Ostern 1995". Bereits die erste Frage läßt den Wunsch nach Häufigkeitstabelle und Histogramm aufkommen. Frage I

Wie oft waren Sie schon in Istanbul?

Bin zum ersten Mal hier O Bin zum zweiten Mal hifrQ

Bin zum dritten Mal hier ü Mehr als dreimal O

156

Kapitel 4: Univariate Datenanalyse

Die Antworten zu dieser Frage wurden mit 1 bis 4 codiert und als Variable A3 bezeichnet. Sie befinden sich also im Bereich von E3 bis E186 unserer Tabelle. Bevor wir zur Arbeit mit dem Werkzeug Histogramm kommen, sollten zwei vorbereitende Schritte durchgeführt werden.

Schritt 1: Die infrage kommenden Daten werden in der großen Tabelle markiert und dann in ein neues, bisher leeres Blatt (beispielsweise Tabelles oder A3) kopiert. Damit umgeht man das Risiko, daß die wertvollen Daten in Tabellel zerstört werden; außerdem schafft man dort gleich den Raum für Häufigkeitstabelle und Histogramm. In unserem Beispiel bedeutet das also, daß wir den Bereich E3 bis E186 markieren, über Bearbeiten Kopieren zum Einfügen vorbereiten, das neue Arbeitsblatt wählen und dort ab A1 einfügen.

Schritt 2: Es müssen die Klassengrenzen festgelegt und eingetragen werden - bei der hier behandelten Variablen sind es nur die Merkmalswerte. Im Beispiel bedeutet das, daß wir in die Spalte B untereinander die Zahlen 1 bis 4 eintragen.

Nun kommen wir im Menü Extras über die Leistung Analyse-Funktionen zu dem Angebot der EXCEL-Statistik-Werkzeuge und entscheiden uns für Histogramm.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

157

16 2 1? 1 1» 2 19 2 3 i i i m i m ist Auf dem Bildschirm erscheint nun, wie bei jedem Werkzeug, ein Dialogfenster, in das wir nur noch die entsprechenden Angaben eintragen brauchen: Der Eingabebereich umfaßt die Daten - bei uns ist es also der Bereich von A1 bis A184. Der Klassenbereich umfaßt die vorgegebenen Klassenwerte - bei uns B1 bis B4. Diese beiden Spalten haben keine Beschriftungen. Standardmäßig wird vorgeschlagen, Häufigkeitstabelle und Histogramm auf ein neues Tabellenblatt auszugeben. Schließlich kreuzen wir noch Diagrammdarstellung und Kumulierte Häufigkeit an, damit EXCEL uns eine Tabelle mit möglichst vielen Angaben und dazu tatsächlich das Histogramm erzeugt.

Kapitel 4: Univariate Datenanalyse

158

Nach Bestätigung dieser Eingaben (entweder langsam mit der Maus die Schaltfläche OK suchend oder schneller mit der ENTER-Taste) erzeugt EXCEL uns dann die Tabelle mit den absoluten Häufigkeiten und den relativen Summenhäufigkeiten: Klasse

i 1 2 3 4

iund größer I

Häufigkeit i Kumuliert % \ 134: 7322%] 32 90,71% 4 92,90% 13 100,00% 0 100,00%

Leider hat man aus irgendwelchen Gründen vergessen, das Werkzeug Histogramm so zu programmieren, daß auch gleich die Summe, die relativen Häufigkeiten und die absoluten Summenhäufigkeiten mit erscheinen. Sollte dies noch gewünscht werden, muß es "per H a n d " durch Eintragen von Formeln erzeugt werden: Klasse

! Häufigkeit Kumuliert % ; Summenhäufigk 1 134 73,22%i=B2 9Ö,7i%:=Ö2+B3 2 32 4 92,90% =D3+B4 3i 4; 13 100,00%;=D4+B5 und größer i 0 100,00% =D5+B6 -SUMME(B2:B6)

eit \ relativ % ) |=C2 i=C3-C2 : !=C4-C3 ; !=C5-C4 j NC6-C5 !

159

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

Fügt man dann noch links eine Spalte mit den Inhalten an, so ergibt sich die Häufigkeitstabelle in der üblichen Form:

Wie oft? erstes Mal zweites Mal drittes Mal mehr als dreimal

Code 1 2 3 4

Häufigkeit 134 32 4 13

1

166 170 183

90,71% 92,90% 100,00%

17,49% 2,19% 7,10%

183

Gesamt

Ü

Kumuliert % Summenhäufigk eit relativ % 73,22% 134 73,22%

P n m n n l o r - Übung l l h n n n ß6 Computer •

^

M ^

^

Belügende Diskette enthält in der Datei TOUR02 in der Spalte A die Antworten auf die Frage 2 sowie daneben einige Klassenwerte. Stellen Sie mit dem EXCEL-Werkzeug Histogramm die Häufigkeitstabelle her. Beachten Sie dabei die richtige Eingabe von Eingabe- und Klassenbereich. Vervollständigen Sie die Häufigkeitstabelle durch Eintragen entsprechender Formeln mit den absoluten Summenhäufigkeiten und den relativen Häufigkeiten.

Bei solchen Aufgaben wie der gerade gestellten gibt es keine Probleme mit der Interpretation von Häufigkeitstabelle und Histogramm. Es werden die Merkmalswerte als Klassenwerte angegeben. Muß man allerdings wegen zu großer Anzahl an Merkmalswerten Klassen bilden, also Intervalle angeben, dann beginnt das Problem der Klassengrenzen: Arbeitet EXCEL rechtsoffen oder linksoffen? Oder kann man es sich aussuchen?

Kapitel 4: Univariate Datenanalyse

160

Die Antwort: Das EXCEL-Werkzeug Histogramm arbeitet stets linksoffen. Es wird stets abgezählt, wieviele Stichprobenwerte "links bis einschließlich" vom Klassenwert liegen. Beispiel für ein EXCEL-Ergebnis: In die Spalte A wurden untereinander zwölf Zahlen eingetragen: 25 / 26 / 38 / 25 / 31 / 40 / 24 / 33 / 37 / 37 / 21 / 29 Spalte B ¿r/zie/f ¿fe si-f/w Klassengrenzen 20 / 25 / 30 / 35 / 40 /45 EXCEL lieferte dann als Ergebnis folgende Häußgkeitstabelle: Klasse

20! 25 30! 35! 40; 45! !und größer !

Häufigkeit

! Kumuliert %!

0! 4! 2! 2: 4

0: o;

,00%; 33,33%! 50,00%! 66,67%; 100,00%! 100,00%! 100,00%;

Da jetzt bekannt ist, daß EXCEL linksoffen arbeitet, muß man dies also in folgender Weise lesen:

von 21 von 26 von 31 von 36 von 41 über 45

Klasse bis einschließlich 20 bis einschließlich 25 bis einschließlich 30 bis einschließlich 35 bis einschließlich 40 bis einschließlich 4 5

Anzahl 0 4 2 2 4 0 0

Das ist natürlich ein kleiner Mangel an diesem ansonsten sehr schönen Werkzeug aus dem EXCEL-Statistik-Werkzeugkasten: Will man eine rechtsoffene Auswertung erhalten, dann muß man die Klassengrenzen verschieben - oder die Werte, die genau auf eine Klassengrenze fallen, geringfügig modifizieren. Letzteres sollte man sich aber überlegen.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

S

C o m p u t e r - Ü b u n g

161

7

M

Auf beiliegender Diskette befinden sich in der Datei TOUR03 die Altersangaben von 179 Personen. Weiter sind vier verschiedene Klasseneinteilungen enthalten. Ermitteln Sie mit EXCEL die zugehörigen vier Häufigkeitsverteilungen und geben Sie jeweils an, wie man sie interpretieren muß! Vergleichen Sie mit den Lösungen auf Seite 285.

4.5.3. Ermittlung von statistischen Kenngrößen Erinnern wir uns - zur Lösung der Grundaufgaben der univariaten deskriptiven Datenanalyse gehörte auch die Bereitstellung der wichtigsten (und jeweils sinnvollen) statistischen Kenngrößen. Hier haben wir nominal skalierte Daten vorliegen - eigentlich brauchen wir nur den Modus und den Median. Wir könnten sie ermitteln, indem wir die entsprechenden Statistik-Funktionen nutzen. Doch es geht schneller - verwenden wir das Werkzeug Populationskenngrößen aus dem Statistik-Werkzeugkasten von EXCEL 5.0 und vergessen nicht, die Statistischen Kenngrößen anzukreuzen:

Kapitel 4: Univariate Datenanalyse

162 m

zivj

Microsoft Excel TOURIST.XLS Datei Bearbeiten Ansicht £intügen Formal Extras Daten Eenster 2

ü M s W f •ftU^iUM»l;

1,431693989 0,062690573 1 1 0,848062351 0,719209752 3,512929337 2,101703065 3 1 4 262 183

Eine Fülle an Zahlen erscheint dann auf dem Bildschirm. Fast alle sind

für nominale Daten sinnlos!

Aber immerhin - die uns interessierenden Kenngrößen Median und Modus sind auf jeden Fall mit dabei. Man kann also geteilter Meinung sein, ob man sich verwirren läßt mit unsinnigen Kenngrößen, dafür keine Formeln eintragen muß, oder das Werkzeug hier nicht verwendet. (Noch einmal kurz zu der untersten Angabe: Hätten wir Daten auf höchstem Meßniveau gehabt, dann ließe sich hiermit ableiten, daß mit 95-prozentiger Wahrscheinlichkeit der Erwartungswert der Grundgesamtheit im Intervall von 1 , 4 3 1 6 9 - 0 , 1 2 2 8 7 bis 1 , 4 3 1 6 9 + 0 , 1 2 2 8 7 liegt.) Damit haben wir einen schnellen W e g kennengelernt, zu einer beliebigen Variablen die wichtigsten statistischen Kenngrößen zu ermitteln. Das EXCEL-Werkzeug Populationskenngrößen erspart uns dabei das Suchen nach der richtigen Funktion für die jeweilige Kenngröße. Doch merken wir uns: Sinnvoll ist die Arbeit mit diesem Werkzeug

erst ab Daten mit Intervallskalenniveau!

Kapitel 4: Univariate Datenanalyse

164

^

1

Computer - Übung 8

S I S S I

Belügende Diskette enthält in der Datei TOUR02 in der Spalte A die Antworten auf die Frage 2. Ermittlen Sie mit dem EXCEL-Werkzeug Populationskenngrößen die statistischen Kenngrößen. Wählen Sie aus, welche der Kenngrößen für das gegebene Skalenniveau passend sind.

IKiinn 9 Q Computer _- IÜbung

P A m n i i t a r

S

Auf beiliegender Diskette befinden sich in der Datei TOUR03 die Altersangaben von 179 Personen. Ermittlen Sie mit dem EXCEL-Werkzeug Populationskenngrößen die zugehörigen statistischen Kenngrößen.

4.5.4. Ermittlung von Histogrammen Hier können wir uns kurz fassen - das Werkzeug Histogramm bringt uns zur Häufigkeitstabelle auch gleich ein Histogramm, sofern nur im Dialogfenster die Diagrammdarstellung markiert worden war:

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

165

Histogramm M «

200 •ü CT1flü4 1 o

•-» 3 Kloaae

» t 100,00% -• 50,00% J00%

Hnultfcel Kumüierl %

Es gibt nun selbstverständlich die Möglichkeit, dieses Roh-Histogramm zu verbessern. Durch Doppelklick (zweimal kurz hintereinander die Maustaste betätigen) in den Bereich des Histogramms steht dieses zur Bearbeitung zur Verfügung. Möchte man dort Änderungen anbringen, dann klickt man das zu ändernde Teil an, und wählt im Menü Format die erste Leistung, die sich dann immer auf das Markierte bezieht. Wird das Histogramm bearbeitet, so kann es auch separat gedruckt werden. Es kann auch kopiert und in Texte einbezogen werden. Doch für Präsentationen sollte man besser die im folgenden Abschnitt geschilderten Methoden nutzen.

m

Computer - Übung 10 1

^ ^

Beiligende Diskette enthält in der Datei TOUR02 in der Spalte A die Antworten auf die Frage 2 sowie daneben einige Klassenwerte. Stellen Sie mit dem EXCEL-Werkzeug Histogramm das zugehörige Histogramm her.

Computer - Übung 11 Auf beiliegender Diskette befinden sich in der Datei TOUR03 die Altersangaben von 179 Personen. Weiter sind vier verschiedene Klasseneinteilungen enthalten. Ermitteln Sie mit EXCEL die zugehörigen vier Histogramme und geben Sie jeweils an, wie man sie interpretieren muß!

Kapitel 4: Univariate Datenanalyse

166

4 . 5 . 5 . Weitere grafische Darstellungen univariater Daten 4.5.5.1. Übersicht Für die grafische Darstellung univariater Daten gibt es eine Fülle von Möglichkeiten. Sehen wir uns nur einmal das Angebot von EXCEL 5.0 an zweidimensionalen Grafiken an:

Balken

Flächen

ÄS! zwmwm

Linien / 7 < V

1

Punkt (XY)

Dabei sind hier nur die Grundmuster aufgeführt - für jede Grafikart existieren dann, wie wir noch sehen werden, vielfältige weitere Modifikationen. Neben diesen zweidimensionalen Grafiken kann man auch dreidimensional darstellen. Auch hier hat EXCEL ein vielfältiges Angebot.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

3D-Flächen

3D-Balken

3D-Säulen

3D-Linien

3D-Kreis

3D-Oberfl

167

Bis auf die 3D-Oberfläche, die erst in der bivariaten Analyse genutzt werden kann, lassen sich alle anderen Formen der grafischen Darstellung schon für eine Datenreihe verwenden. Dabei soll an dieser Stelle nicht näher darauf eingegangen werden, wann man welche Form der Darstellung nutzen soll - das ist vielmehr Gegenstand des Kapitels 7.2.. Wir werden uns jetzt vielmehr dem Handwerklichen zuwenden - welchen Weg muß man gehen, um von einer Datenreihe zu einer grafischen Darstellung zu kommen? 4.5.5.2. Grafische Darstellungen mit EXCEL 5.0 Grundsätzlich gibt es zwei Wege, um mit EXCEL 5.0 von den Daten zur ausgewählten grafischen Darstellung zu kommen, die =>| M1 1 - Methode und die Arbeit mit dem Diagrammassistenten

Kapitel 4: Univariate Datenanalyse

168

Die ( M1 1 - Methode wird man anwenden, wenn es nur darum geht, schnell das Diagramm zu erzeugen, zu gestalten und dann auszudrucken oder in ein Textdokument zu übernehmen. Allen Anfängern sei diese Methode empfohlen. Sie funktioniert schnell und problemlos - vorausgesetzt, die Daten sind sinnvoll vorbereitet. Wir werden das später sehen. Mit dem Diagrammassistenten H wird man dann arbeiten, wenn man ganz spezielle Wünsche hat oder wenn das Diagramm in bestimmter Größe an ganz bestimmter Stelle eines EXCEL-Tabellenblattes eingepaßt werden soll. Sehen wir uns das Vorgehen mit der [ F11 1 - Methode am besten wieder an unserem Anwendungsbeispiel, der Touristenbefragung Ostern 1995, an. Dort gab es die Frage 3 nach der Unterkunft:

Frage 3

In welcher Art von Hotel bleiben Sie?

* * * * * * * * * ***

O o O

* * U * a Pension O

Sonstiges

Die Antworten wurden von 1 bis 7 kodiert. Sie befinden sich nach der Erfassung in der im Abschnitt 3.2. beschriebenen EXCEL-Tabelle im Bereich von G3 bis G186 - allerdings haben nur 175 Befragte dazu eine Aussage gemacht. Ausgangspunkt für die Herstellung jeder grafischen Darstellung ist die Häufigkeitstabelle, die wir aus der Urliste mit dem Werkzeug Histogramm beschaffen, und die dann wie oben beschrieben (vgl. S. 158) vervollständigt wird. Kategorie Klasse Häufigkeit 5 Sterne 1 20 4 Sterne 2 65 3 Sterne 3 52 2 Sterne 4 4 Pension 8 6 privat 7 26 gesamt 175

Kumuliert % Summenhäufigk eit rel. 11,43% 20 48,57% 85 78,29% 137 80,57% 141 149 85,14% 100,00% 175

Häufigkeit 11,43% 37,14% 29,71% 2,29% 4,57% 14,86%

4.5. EXCEL 5 . 0 und die Lösung der Grundaufgaben

169

Nun kann es schon losgehen. Will man beispielsweise die absoluten Häufigkeiten präsentieren, dann müssen die beiden Spalten Kategorie und Häufigkeit markiert werden.

Kategorie Klasse Häufigkeit | 1H 5 Sterne 65 2 4 Sterne 52 3 3 Sterne 4 4 2 Sterne B 8 Pension 7 26 privat 175 gesamt

Kumuliert % Summenhäufigk eit rel. Häufigkeit 11,43% 20 11,43% 37,14% 85 48,57% 29,71% 137 78,29% 2,29% 141 80,57% 4,57% 85,14% 149 14,86% 175 100,00%

»

Getrennte Bereiche werden in EXCEL 5 . 0 in folgender Weise markiert: Zuerst wird ein zusammenhängender Bereich markiert. Dann drückt man die Taste [s»i | und markiert dabei den nächsten • Bereich. Jetzt kommt die Tätigkeit, die dieser Methode den Namen gibt: Man drücke auf die Taste »

•

F11

Was passiert? EXCEL 5.0 legt ein neues Blatt an - ein Diagrammblatt. Unten am Bildrand kann man es lesen - das Blatt bekam den Namen Diagramml. Und der Inhalt? Das ist der EXCEL-Sofortentwurf für jedes Diagramm, das einfache zweidimensionale Säulendiagramm:

Kapitel 4: Univariate Datenanalyse

170 Microsoft t x c e l Datei

Bearbeiten

Ansicht

Einfügen

T0URIST.XLS

Format

Extras

Fenster

?

Häufigkeit 70

t

5 Sterna

iccistx

4 Sterne

3 Sterne

2 Sterne

Pension

privat

™

"

W e n n uns dieses Diagramm bereits in seiner Aussagekraft ausreicht, so können war es jetzt ausdrucken lassen. Wählen wir vor dem Druck bei Seite einrichten das Querformat, so wird das Diagramm so groß wie möglich quer auf ein A4-Blatt ausgedruckt. Wählen wir Hochformat, so ist das Diagramm nicht so groß, läßt sich aber dafür problemlos auf eine Folie kopieren. Doch der Normalfall wird sein, daß dieses Diagramm uns noch nicht aussagekräftig genug ist. So wäre beispielsweise der Titel zu ändern. Klicken wir oben in Bildmitte Häufigkeit an und tragen dafür z.B. Unterkunft ein. Weiter stört und dieses Kästchen mit Häufigkeit am rechten Bildrand. Kein Problem, es wird einfach angeldickt, Druck auf die [EIU ] - Taste und schon ist die hier überflüssige Legende gelöscht.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

171

Nun möchten wir aber auch noch, daß an jeder Säule der genaue Wert erscheint. Setzen wir also den Mauszeiger auf eine Säule und klicken gleich zweimal - es erscheint ein Fenster Datenreihen formatieren mit sechs Registern, darin wählen wir Datenbeschriftung und kreuzen Wert anzeigen an. Es erscheinen jetzt über jeder Säule die zugehörigen Werte. Schließlich ist damit das einfache zweidimensionale Säulendiagramm von dem Entwurf, den uns EXCEL 5.0 vorschlug, schon ein wenig in unserem Sinne verbessert worden. Wobei nach wie vor der Ästhet viele Bemerkungen machen könnte - warum beispielsweise ist nun links überhaupt noch eine Achse nötig, wenn doch über den Säulen die Werte stehen? Auch das ist kein Problem, eine Zahl wird angeldickt, damit werden nämlich alle Beschriftungen dieser Achse markiert, mit ) werden sie gelöscht; die Achse wird angeldickt, mit |tno ) gelöscht, und auch dieser Wunsch wäre erfüllt.

Unterkunft 65

5 Sterne

4 Sterne

3 Sterne

2 Sterne

Pension

privat

172

Kapitel 4: Univariate Datenanalyse

Wählen wir nun im Menü Format die Leistung Diagrammtyp, dann könnten wir alle anderen gezeigten Diagrammformen erzeugen. Beispielsweise das dreidimensionale Säulendiagramm.

Nun könnte es also losgehen! Mittels einfachen Mausklicks wandert man durch die Welt der mit EXCEL 5.0 herstellbaren Diagramme, und wenn man ein Grundmuster ausgewählt hat, dann findet man unter Format AutoFormat noch vielfältige Varianten dazu.

Allerdings ist keinesfalls jede Diagrammform zur Präsentation geeignet • in Kapitel 7.2.2. (ab Seite 268) wird dazu eine Methode vorgestellt, wie die jeweils geeignete Diagrammform auszuwählen ist.

173

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

M

Computer-Übung 12

M

Auf beiliegender Diskette sind in der Datei TOURIST5 bereits vier Blätter mit Daten vorbereitet worden (erkennbar an den Registern am unteren Bildrand). Nutzen Sie diese vorbereiteten Daten, um mit der [ F11 ] - Methode die verschiedensten Diagramme herzustellen. Stellen Sie schließlich die Altersgruppen prozentual in einem dreidimensionalen Säulendiagramm dar. Auf dem Blatt Geschlecht sind die Beschriftungen nicht wie bisher spaltenweise angeordnet, sondern zeilenweise. Prüfen Sie, ob EXCEL auch in diesem Fall sofort ein sinnvolles erstes Säulendiagramm liefert. Stellen Sie schließlich ein dreidimensionales Kreisdiagramm der Geschlechterverteilung her! Das Blatt wie_oft enthält die absoluten Werte der Häufigkeit des Besuches in Istanbul. Stellen Sie damit ein Säulendiagramm her. Lassen Sie in der Tabelle solche Rechnungen ausführen, daß im Diagramm schließlich die Prozente erkennbar sind. Das vierte Blatt dieser Datei mit dem Titel Informationsquellen enthält weitere Daten aus der Touristenbefragung. Hier bietet sich eigentlich nur ein bestimmtes Diagramm an. Welches? Probieren Sie es aus! Bleiben wir deshalb vorerst beim einfachen Säulendiagramm und überlegen, wie wir die Darstellung der relativen Häufigkeit bekommen können. Es ist ganz einfach - man braucht nur in der Häufigkeitstabelle wieder die entsprechenden Spalten zu markieren

174

Kapitel 4: Univariate Datenanalyse

K at&cjon e : Klasse Häufigkeit 5 Sterne 1 20 65 4 Sterne 3 Sterne 52 2 Sterne 4 4! 6: 8 Pension privat 7| 26 Igesamt : 175

2; §1

Kumuliert % Summenhäufigkeit 11,43% 20 48,57% 85 78,29% 137 141 80,57% 85,14% 149 100,00% 175

und anschließend die Taste

F11

rel. Häufigkeit | 11,43% 37,14% 29,71% "l 99% 4,57% 14,86%

1

zu drücken.

37.14% 29,71%

Unterkunft

14,86%

5 Sterne

4 Sterne

3 Sterne

2 Sterne

Pension

privat

Auf gleiche Weise kann auch das Bild der relativen Summenhäufigkeit erzeugt werden. Sollte der Wunsch bestehen, relative Häufigkeit und relative Summenhäufigkeit gleichzeitig in einem Diagramm darzustellen, so werden die zugehörigen drei Spalten in der Häufigkeitstabelle markiert und die Taste F11 gedrückt:

175

4.5. E X C E L 5 . 0 und die Lösung der Grundaufgaben

100,00% 90,00% 80,00% 70,00%

60,00% 50,00% 40,00% 30,00%

s Kumuliert % s r e l . Häufigkeit

20,00% 10,00%

,00%

Die Arbeit mit dem Diagrammassistenten I I I bietet sich an, wenn man unmittelbar in eine Tabelle ein Diagramm einbetten wall. Hier ist es nicht unbedingt nötig, die Daten vor dem Aufruf des Diagrammassistenten schon markiert zu haben. Man ruft den Diagrammassistenten auf, indem mit der Maus das Symbol

angeldickt wird. Im selben Moment ändert sich der Mauszeiger zu einem ldeinen Kreuz - das ist gleichbedeutend mit der Aufforderung, die Stelle der Tabelle zu kennzeichnen, an der später das Diagramm erscheinen soll. Man drückt die Maustaste und zieht damit ein Rechteck gewünschter Größe auf. Läßt man danach wieder los, erscheint der Dialogassistent und erfragt im ersten Schritt den Bereich mit den Daten.

Kapitel 4: Univariate Datenanalyse

176

Diagramm-Assistent-Schritt 1 von 5

Wenn die markierten ZeBen rächt die Daten enthalten, die Sie im Diagramm darstellen machten, wählen Sie jetzt einen neuen Bereich SehßeBen Sie die Zelter» mit Zeiten- und Spaltenbeschriftungen ein, um Beschrtftungen im Diagtamra darzu*tetlen. Bereich: f &ilfe

; IIUrnrnttutummmuia 'Äbbtgcheh : ||lllilj|lll|.•:. Weitet > |

Ende

Ist der Bereich der darzustellenden Daten eingegeben, wird im zweiten Schritt der Katalog der verfügbaren Diagramme angeboten. Standardmäßig ist stets erst einmal das Säulendiagramm eingestellt.

Diagramm-Assistent - Schritt 2 von 5 Wahlen Sie einen Diagrammtyp mir Flächen

3D-Balken

Balken

3D-Säulen

Säulen

Linien

Punkt (XY)

Verbund

3D-Linien

3D-Flächen

3D GbetN

Abbrechen f iwwwwwww^twtoMarwti^MtiiiliiiiriiiiirirrifiTiiil < Zurück I Weiter > I V Inde

WWMHMWMWMJ

j

Anschließend bietet der Diagramm-Assistent die Varianten an - hier sind es die möglichen Varianten an zweidimensionalen Säulendiagrammen:

177

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben Diagramm-Assistent - Schritt 3 von 5

Wählen Sie ein AuloFwmat fw da* Säufewfiagiamre au*:

10

Haie

AWwedw» ; 1

1 Weite» > 1

îsëLJ

Nun erscheint im vierten Schritt bereits ein ldeines Vorschaubild, gleichzeitig kann gewählt werden, wie beschriftet wird.

Diagramm-Assistent - Schritt 4 von 5

BeispieJefiagtäimn:

Dfrteiwe9«m in: C Zeilen Spaiteli Xjerwerole fi SpattelnJ «1» Rubiikentieschiiftung JX) Vernende jl Legendentext Abbreche« I -Ii--r-nin-J

ZtW®) ab

< gutück I Weite! > I r- n m r t ; a a ; ; - - r ; . • a- H i n i m m t t i i i l t i r m m i d î i i

JLnde

i ; ;rwre-tt-re..*.

Schließlich fragt der Diagramm-Assistent noch nach Legende, Diagrammtitel und Achsenbeschriftungen.

Kapitel 4: Univariate Datenanalyse

178

Diagramm-Assistent - Schritt 5 v o n 5

B ätpiekltögc«*«:

AMweöfcer*

< £!utück

Wie zu erkennen ist, spielt dieser Assistent eine aktivere Rolle als ein bloßes EXCEL-5.0-Werkzeug. Denn stets gibt es die Möglichkeit, die getroffene Entscheidung wieder rückgängig zu machen, einen oder mehrere Schritte zurückzugehen. Hier ist gewissermaßen ein EntwicklungsDialog zwischen Nutzer und Programm möglich. 4 . 5 . 6 . Gewinnung von Übersicht in großen Datenbeständen Nachdem in den vorigen Abschnitten die Lösung der Grundaufgaben der deskriptiven univariaten Datenanalyse für eine Variable mit EXCEL 5.0 beschrieben wurde, wollen wir uns jetzt der kompletten Datenmatrix, abgespeichert als EXCEL-Tabelle, zuwenden und Möglichkeiten kennenlernen, Übersichten herzustellen. Eigentlich ist es ganz einfach - man => überlegt sich, welche Angaben man aus dem Datenbestand ablesen möchte, => trägt die dazu passenden Formeln ein und => kopiert sie gegebenenfalls an andere Stellen.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

179

Dabei muß man nur beachten, daß Formeln beim Kopieren angepaßt werden - soll das verhindert werden, muß mit dem Dollarzeichen $ gearbeitet werden. Sehen wir uns dieses Vorgehen am besten wieder an unserem Anwendungsbeispiel, der Touristenbefragung von Ostern 1995, an. Vor Beginn der Codierung der Fragebögen hatten wir zwei Kopfzeilen eingeführt: Die zweite Zeile erhielt die Variablennamen und die erste Zeile die stichwortartigen Erläuterungen zu den Variablen. Dann teilten wir das Fenster, damit diese beiden Kopfzeilen nicht beim Eintragen der Antworten verschwinden. Schließlich wurde Fragebogen für Fragebogen codiert. Die Datei TOURIST enthält nun also im Bereich A1:AU2 die beiden Kopfzeilen, darunter im Bereich A3:AU186 die codierten Daten. Bevor wir nun beginnen, Formeln einzutragen, sollten wir wiederum daran denken, daß zu den Ergebniswerten erläuternder Text gehört. Folglich sollten wir links (mindestens) zwei leere Spalten einfügen - durch Markieren der ersten Spalte und dann entweder über Einfügen Spalten oder mit l5',, ] und 0 . Weiter müssen wir daran denken, daß dieser erläuternde Text gewissermaßen links "aus dem Bild geschoben" werden könnte, wenn wir die Analyseergebnisse der letzten Fragen ansehen wollen. Also sollten wir den Bildschirm wieder günstig aufteilen. Dazu wird zuerst über Fenster und Teilung aufheben die bisherige Teilung rückgängig gemacht. Anschließend wird der Tabellenkursor auf A1 gesetzt - A1 wird die aktive Zelle. Das geht am schnellsten mit l S t t I l und 0. Schließlich steuern wir den Tabellenkursor auf C3 und wählen Fenster und Teilen. Nun haben wir den Bildschirm in vier Teile gespalten: Die beiden Kopfzeilen laufen nicht nach oben aus dem Bild und die beiden neuen und noch leeren Spalten A und B für die Texte können nicht nach links verschwinden. Probieren Sie es aus, indem Sie mit l> CD il •j 1

19®

m 191 m

1S3 194 195 JUjjS» J>Mv>';>/ l l M I l l i l l n

L»

Ii

ü •ZU

Wir können jetzt beginnen, uns zu überlegen, welche Angaben wir alle haben möchten.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

181

Bevor Sie anfangen, die Formeln einzutragen, sollten Sie sich schnell auf einem Zettel notieren, in welchen Bereichen welche Datenreihen stehen (Beispiel: Bewertung des Nachtlebens in N3 bis N186). Denn es ist einerseits unbedingt notwendig, diese Bereiche zu kennen, andererseits ist es ausgesprochen mühsam, jedesmal wieder nachzusehen.

Dieser Zettel läßt sich am bequemsten herstellen, indem Sie die ersten beiden Spalten markieren und ausdrucken lassen. Beachten Sie dabei, daß sie nach Datei und Drucken im Dialogfeld zum Druck unbedingt nur Markierung kennzeichnen sonst druckt Ihnen EXCEL die ganze große Tabelle aus!

Kommen wir nun zu den einzutragenden Formeln. Zuerst brauchen wir sicher die Gesamtzahl aller erfaßten Fragebögen sowie die Anzahl der bei den einzelnen Variablen vorhandenen Einträge.

=ANZAHL(...)

=COUNT(...)

Also schreiben wir in die Zelle A187 den Text "Anz. d. Einträge" und tragen in Zelle C187 die Formel =ANZAHL(C3:C186) ein. Es erscheint als Ergebnis die Zahl 184, und das ist gleichzeitig die Maximalzahl, denn in der Spalte C ist jede Zelle gefüllt.

182

Kapitel 4: Univariate Datenanalyse

M

Computer - Übung13

6E

Auf der beiliegenden Diskette befindet sich in der Datei TOUR05 die Datenmatrix zur Touristenbefragung. Es sind bereits die beiden neu eingefügten Spalten A und B in den Zeilen 187 bis 212 mit den Texten zu den Analyseergebnissen versehen. Nutzen Sie diese Datei, um noch einmal die Aufteilung des Bildschirmfensters zu üben. Tragen Sie einige Formeln ein und überzeugen Sie sich, daß tatsächlich die gewünschten Ergebnisse (und richtig) erscheinen. N u n kopieren wir den Inhalt der Zelle C187 auf den Bereich D187:AW187 und erhalten damit für jede Variable die Anzahl der Einträge. U n d schon können wir ablesen, daß gerade 21 Touristen in Frage 6 angekreuzt haben, daß sie sich mit Hilfe von Werbesprospekten vorbereitet haben. Natürlich interessieren als nächstes die zugehörigen Prozentzahlen. W i r bleiben im großen Datenfenster, machen die Zelle E188 zur aktiven Zelle (denn erst ab dort wird es interessant) und tragen ein =E187/$C$187*100. Denn in C187 steht die Gesamtzahl, und diese Zelle kann deshalb immer die Bezugszelle der Berechnung sein. Weiter kopieren wir dann die Formel von E188 auf den Bereich F188:AW188, und schließlich tragen wir ganz links noch die textliche Erläuterung ein: "Anz. der Einträge in %". Weiter kann es jetzt gehen mit der Information über ldeinste und größte Werte, über Mediane u n d Modalwerte. Dazu wären in die Zellen E189 bis E192 die Formeln =MIN(E3:E186), =MAX(E3:E186), =MEDIAN(E3:E186) bzw. =MODALWERT(E3:E186) einzutragen und auf den Bereich F189:AW192 zu kopieren.

183

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben Microsoft Excel - T 0 U R I S T . X L S «Iii D a t e i

Bearbeiten

Ansicht

Einfügen

Format

Extras

Daten

Fenster

«je»! £ Aliai A I 93

IK

A I i i :

W B

1002

fçy|

B E Z M S S I B B ! E

m ¡SI m

1

?

m

L

M

M

0

SP-

0

R

5

T

U

V

W

Anz. d. Eintrage: Anz. d. Eintrage in %: Kleinster Wert: Größter Wert: 1î*1 Median: Modalwert: 1 193 184 195 187 188 189 190

m

3 3 3

183 183 175 182 184 184 184 184 99 99 95 39 100 100 100 100 1 1 1 1 1 1 1 1 4 5 7 4 3 3 3 3 3 1 2 2 1 2 2 3 1 2 2 1 1 3 2 3

184 100 1 3

184 100 1 3 2 3 2 3

1 1

184 184 129 so 16 100 100 70 27 9 1 1 1 1 1 3 3 1 1 1 3 2 1 1 1 3 1 1 1 1

88 48 1 1 1 1

[Reisebüro

Zeitschriften

1 1 i 1

Werbeprospekte

3

2 1 3 3

Berichte

3

2 3 3 3

Vortrage

3 3 3

Sachbücher

3 2 3

Reiseführer

2

3

Neugierde

2 2 2

Sprache

1 3 1 2

Nachtleben

1 1 1 1

Einkaufen

4 3 7

1 1 1 1

Freunde

Essen

1

Ferien

löö

Geschichte

« a

1 2 1 2

Organisation

m

1 1 i

Art d. Hotels

1 183

Wie lange?

|Wie oft?

•ü

1

1

1 21 11 1 1 1 1

26 14 1 1 1 1

23 13 1 1 1 1 Mii

LI

Iii

Hier zeigt sich bereit, daß es keinesfalls immer sinnvoll ist, überall alle Werte berechnen zu lassen - bei Frage 8, die zu den Variablen E1 bis E13 führt, kann sowieso nur Null oder Eins stehen. Was sollen dort Median und Modalwert? = MEDIAN(...) = MODALWERT(...)

=MEDIAN(...) =MODUS(...)

Doch die Information über Ideinsten und größten Wert ist immer sinnvoll. Denn dabei finden wir doch zu unserer Überraschung, daß bei der Variablen E2, also bei der Antwort in Frage 8, ob man eine Bosporusrundfahrt beabsichtige, einmal eine 2 codiert wurde. Ein typischer Erfassungsfehler!

184

Kapitel 4: Univariate Datenanalyse

ö

P n m r M i t o r _ Übung f Ì K i i n n 14 AA Computer

M

Auf der beiliegenden Diskette befindet sich in der Datei TOURO6 wieder die Datenmatrix zur Touristenbefragung. Es sind bereits die beiden neu eingefügten Spalten A und B in den Zeilen 187 bis 212 mit den Texten zu den Analyseergebnissen versehen. Das Bildschirmfenster ist sinnvoll aufgeteilt. Weiter sind bereits viele Formeln eingetragen - aber noch nicht in die anderen, sinnvollen Bereiche kopiert. Nutzen Sie diese Datei, um das Kopieren der Formeln in die beschriebenen Bereiche zu üben. Vergleichen Sie Ihre Ergebnisse mit dem Anhang A. Zu Ihrer Information wurden dort auf den Seiten 274 bis 279 die Zeilen- und Spaltenköpfe zusätzlich mit ausgedruckt. Ebenso enthält jede Seite noch einmal die textlichen Erläuterungen (Spalten A und B) zu den einzelnen Kenngrößen.

Genau sollten wir uns aber überlegen, wo wir überall den Mittelwert eintragen lassen. Doch bevor wir das tun, beschäftigen wir uns lieber mit einer Sache, die weitaus häufiger bei Fragebogenaktionen gebraucht wird - mit der Ermittlung der Anzahl des Auftretens der einzelnen Merkmalswerte. Dazu gibt es eine ganz ökonomische Methode. Wir informieren uns zuerst, welche Merlanalswerte in der gesamten Tabelle die absolut ldeinsten und absolut größten sind. Das sind hier die 1 und die 7. Also tragen wir in die Zellen B194 bis B200 untereinander die Zahlen 1 bis 7 ein. Dann wechseln wir das Fenster, machen E194 zur aktiven Zelle. Und tragen dort ein =ZÄHLENWENN(E$3:E$186; $B194)

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

185

Anschließend kopieren wir diese Formel auf den gesamten Bereich E194:AW200. Und mit einem Schlag wird für jede Variable mitgeteilt, wie oft welcher Merkmalswert angenommen wird! Der Übersichtlichkeit halber sollten danach die vielen überflüssigen Nullen herausgelöscht werden. Das geht aber schneller, als wenn detailliert kopiert wird.

= Z A H L E N W E N N ( . . . ; ...)

= C O U N T I F ( . . . , ...)

Für diejenigen Leser, die mit einer englischsprachigen Version arbeiten, sei noch hinzugefügt, daß dort als Trennzeichen zwischen den Eintragungen in das Funktions-Klammerpaar ein Komma gesetzt werden muß in der deutschen Version muß das Semikolon stehen! Natürlich interessieren nun wieder die Prozentanteile. Aber da muß man sich genau überlegen, was zu tun ist. Manchmal nämlich, zum Beispiel schon bei Frage 1 (Variable A3, Spalte E), interessiert der Anteil der einzelnen Antworten, bezogen auf die Gesamtzahl der bei dieser Frage überhaupt gemachten Angaben. Dasselbe gilt bei Frage 2 (Variable A4, Spalte F), Frage 3 (Variable A5, Spalte G), Frage 4 (Variable A6, Spalte H), Frage 7, Teilfragen 1 bis 8 (Variablen D1 bis D8, Spalten Y bis AF), Frage 12 (Variable F l , Spalte AT), Frage 13, Teilfragen 1 und 2 (Variablen F2 und F3, Spalten AU und AV), Frage 14 (Variable F4, Spalte AW). Also tragen wir in die Spalte B ab B202 wieder untereinander die Zahlen 1 bis 7 ein und in die Zelle E202 die Formel =E194/E$187*100. Damit wird der Prozentsatz des ersten Merkmals wertes, bezogen auf die überhaupt gegebenen Antworten, ausgerechnet.

186

Kapitel 4: Univariate Datenanalyse

Entsprechend den Erkenntnissen über die Sinnfälligkeit dieser Berechnungen wird die Formel dann auf die Bereiche E202:H208, Y202:AF208 und AT202:AW208 kopiert. Was aber ist mit Frage 5, bei der erkundet wurde, welche Komponente die stärkste Zugkraft ausübte? Hier berechnen wir später die "Durchschnittszensur" für jede Komponente, ebenso wie auch bei Frage 7. Bei Frage 6 aber, wo nach der Art der Reisevorbereitung gefragt wurde, interessiert ganz offensichtlich etwas anderes. Wie groß ist der Anteil aller Befragten, die angekreuzt haben, daß sie sich mit Reiseführern vorbereitet haben? Wie groß der Anteil derjenigen, die Sachbücher benutzten usw. Dieselbe Situation treffen wir auch bei Frage 8 an. Also tragen wir in Zelle Q209 ein. =Q$187/$C$ 187*100 Anzahl der Kreuze pro Gesamtzahl aller abgegebenen Fragebögen in Prozent. Diese Formel wird dann auf die Bereiche Q209:X209 und AG209:AS209 kopiert. Damit erfahren wir sachlich wertvolle Aussagen, die zum Charakter der Variablen passen. Zum Schluß nun zu den Fragen 5 und 7. Hier gab es pro Teilantwort vorgegebene Wertungsstufen - interessant ist also die Durchschnittsw e r t u n g für jede Teilantwort. Tragen wir also in Zelle 1210 die Formel für den Durchschnittswert ein: =MITTELWERT(I3:I186) und kopieren sie auf die Bereiche I210:P210 und Y210:AF210. Nun lassen sich dort die Durchschnittswerte ablesen.

= M ITTEL W E R T (...)

=AVERAGE(...) ® l i

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

187

Wie leicht es ist, mit EXCEL spezielle Auskünfte zu erfragen, soll abschließend noch einmal deutlich gemacht werden. Aus irgend einem Grunde ist es von Interesse, wie hoch der Anteil der Spitzenprädikate bei Frage 5 ist. Man will also wissen, wieviel Prozent haben bei "Geschichte" die Rubrik "sehr wichtig" angekreuzt, wieviel Prozent der Befragten hielten das Nachtleben für sehr wichtig und so weiter. Wie können wir zu diesen Auskünften kommen? Nun, wir haben ja schon der Spitzenantworten (in abgegebenen Fragebögen noch an geeigneter Stelle die Formel

alles zur Verfügung. Wir kennen die Anzahlen den Zellen 1194 bis P194) und die Anzahl aller (in der Zelle C187). Folglich brauchen wir nur in der Spalte I (zum Beispiel in die Zelle 1212)

=l$194/$C$187*100 zu schreiben, diese Formel auf I212:P212 zu kopieren und links an den Rand einen zugehörigen Text zu schreiben. Mehr ist nicht nötig. Unsere EXCEL-Tabelle enthält nunmehr eine Kopfzeile, die die einzelnen Variablen erldärt, dann die Zeile mit den Variablennamen, darunter die Datenmatrix, wie sie aus der Codierung der 184 Fragebögen entstanden ist. Darunter enthält sie in 26 weiteren Zeilen zu den einzelnen Variablen jeweils sinnvolle statistische Kenngrößen. Und in zwei links angefügten Spalten wurde aufgeschrieben, welche Kenngrößen es sind bzw. welche Bedeutung sie haben. Insgesamt besteht unsere Tabelle also jetzt aus 212 Zeilen und 49 Spalten. Es ist absolut unmöglich, sie auf einem A4-Blatt unterzubringen. Anderseits will man zumindest die statistischen Kenngrößen bestimmt auch einmal schwarz auf weiß ausgedruckt vor sich auf dem Tisch liegen haben... Wie kann man vorgehen? Man wählt zuerst Datei und Seite einrichten und dann Seite und Querformat. Dann werden zuerst die beiden Kopfzeilen, also der Bereich von A1 bis AW2 markiert. Anschließend wird Datei und Drucken gewählt und nicht vergessen, in dem Druck-Dialogfenster dann Markierung anzuklicken. Dann werden also nur die beiden Kopfzeilen gedruckt. Und zwar im Querformat.

188

Kapitel 4: Univariate Datenanalyse

• Achtung! Auch wenn nur ein Teil einer EXCEL-Tabelle markiert ist, so I druckt EXCEL doch stets die ganze Tabelle, sofern nicht Markierung im • Druck-Dialogfenster gewählt wird! Anschließend markiert man den Bereich von A187 bis AW212 mit den Kenngrößen und läßt auch diese Markierung ausdrucken. Für das Markieren von Teilen des großen Datenbestandes und gezieltes Herauskopieren ist es vorteilhaft, die Teilung des Fensters zeitweilig über Fenster --> Teilung aufheben zu beseitigen.

Wenn dieser beschriebene Weg auch praktisch ist, so hat er doch auch Nachteile. Denn aus Gründen der Übersichtlichkeit wurde ja die komplette Tabelle sehr rationell formatiert, Texte und Zahlen wurden möglichst ldein eingetragen. Ästhetik spielte dabei vorerst eine untergeordnete Rolle. Für Präsentationen dagegen sollte man sich schon überlegen, welche Schriftart, welches Zahlenformat schließlich vorgelegt wird. Vielleicht sollte auch die eine oder andere Zeile oder Spalte mit einem Muster hinterlegt werden? Natürlich könnte man diese Formatierungen vor dem Druck auch in der großen Tabelle vornehmen - aber dort sollte man den wertvollen Datenbestand nicht durch solche Arbeiten gefährden. Es wird also empfohlen, vor der Gestaltung die zu druckenden Daten in eine andere Tabelle herauszukopieren.

»

Achtung! Will man nur die sichtbaren Einträge eines markierten Bereiches einer EXCEL-Tabelle an eine andere Stelle kopieren, so muß man beachten, ob sich nicht Formeln im markierten Bereich befinden. Dann muß man im Menü Bearbeiten die Leistung Inhalte einfügen wählen # und dann Werte anklicken.

4.5. EXCEL 5.0 und die Lösung der Grundaufgaben

189

Hat man übersehen, daß sich hinter einem Eintrag in einer Zelle eine Formel befindet, so merkt man das spätestens nach dem Betätigen der ENTER-Taste anhand auftretender Fehlermeldungen. Das ist aber kein Grund zur Sorge - mit Bearbeiten --> Rückgängig annuliert man die falsche Art des Einfügens und wählt anschließend richtig Inhalte einfügen und dann Werte.

®r i l l Computer - Übung 15 /jMggeaX ® Auf der beiliegenden Diskette befindet sich in der Datei TOUR07 wieder die Datenmatrix zur Touristenbefragung. Es sind bereits die beiden neu eingefügten Spalten A und B in den Zeilen 187 bis 212 mit den Texten zu den Analyseergebnissen versehen. Das Bildschirmfenster ist nicht aufgeteilt. Weiter sind bereits alle Formeln eingetragen und in die anderen Bereiche kopiert. Nutzen Sie diese Datei, um das sparsame Drucken und danach das Herstellen eines zweiten EXCEL-Blattes mit den statistischen Kenngrößen zu üben.

Kapitel 5: Bivariate Datenanalyse 5.1. Allgemeines 5 . 1 . 1 . Das Beispiel "Touristenbefragung Ostern 1 9 9 5 " Betrachten wir ein weiteres Mal unsere Befragung deutscher Touristen zu Ostern 1995, deren Ergebnis in Form codierter Daten als EXCEL5.0-Tabelle vorliegt. Betrachten wir nun gleichzeitig zwei Fragen: Frage 3

In welcher Art von Hotel bleiben Sie?

* * * * * **** ***

a a O

** a * a Pension O

Sonstiges

Die univariate Analyse der Antworten ergab, daß 2 0 Befragte in 5-SterneHotels abgestiegen waren, 65 logierten in 4-Sterne-Hotels, 52 wohnten in 3-Sterne-Hotels, vier Befragte logierten in einem 2-Sterne-Hotel, acht in einer Pension und 2 6 Befragte gaben sonstige Unterkünfte, zumeist privat, an. Niemand wohnte in einer 1-Stern-Herberge. Neun Befragte machten keine Angabe. Frage

13

Männlich

ü

Bitte kreuzen Sie an bis 25 J. Q Weiblich ü 26-35 J. O 35-45 J. a

46-55 J. über 55 J.

O O

Hier ergab die univariate Analyse, daß 35 Befragte unter 25 Jahre alt waren, 3 8 waren bis 35 Jahre alt, 37 bis 45 Jahre, 2 3 bis 55 Jahre, und 4 6 zählten über 55 Jahre. Fünf Interviewte trugen nichts ein. Diesmal bekommt eine Studentin als Hilfskraft den Auftrag, für einen Interessenten zusammenzustellen, was sich über Gemeinsamkeiten zwischen der Altersgruppe und der Art der gewählten Unterkunft so ablesen lasse.

192

Kapitel 5: Bivariate Datenanalyse

Als erstes sucht die Studentin die beiden Datenreihen zusammen - sie finden sich unter den Variablennamen F3 und A5. Dann stellt sie alle auftretenden Kombinationen zusammen. Doch allein diese Auflistung bringt ihr noch keinen wesentlichen Gewinn an Information. Natürlich liegt es auf der Hand, daß sie hier mit einer tabellarischen Anordnung arbeiten sollte. Sie stellt also die zugehörige Kreuztabelle auf: Zu Frage 13b: Welcher Altersgruppe gehören Sie an? (F3) Zu Frage 3: In welcher Art von Hotel bleiben Sie? (A5) Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 46 Jahre 46... 55 Jahre über 55 Jahre keine Angabe

2

*****

0 6 6 2

****

***

16 11 11 3

0

8 9 16 8 21 3

20

65

52

6

9

2

Art d. Hotels " Pension privat keine Angabe 2 1 2 5 3 35 1 3 3 5 38 0 0 1 3 37 0 2 7 1 23 2 0 6 2 46 0 0 0 0 5 4 8 26 9 184

Diese Studentin hat in der Vorlesung gut aufgepaßt und weiß, daß es üblich ist, zu einer Kreuztabelle mindestens eine charakterisierende Kennzahl hinzuzufügen. Dabei ist die Kennzahl % (gesprochen CHI2

Quadrat) die wichtigste. Sie berechnet also dieses % - natürlich nur für die Fragebögen, bei denen beide Fragen beantwortet wurden - und fügt sie hinzu. Weiter gibt sie an, wieviele Fragebögen unvollständig waren: Zu Frage 13b: Welcher Altersgruppe gehören Sie an? (F3) Zu Frage 3: In welcher Art von Ilotel bleiben Sie? (A5) Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 45 Jahre 46... 55 Jahre über 55 Jahre keine Angabe

2

*****

****

0 6

8 9

***

2 6 0

8 21 3

16 11 11 3 9 2

20

65

52

$

16

Art d. Hotels "" Pension privat keine Angabe 2 1 2 5 3 35 1 3 5 3 38 0 1 3 0 37 0 2 7 1 23 2 0 6 2 46 0 0 0 0 5 4 8 26 g 184

Fehlende Angaben: 14; CHI-Quadrat für die gültigen Fälle:

29,74

193

5.1. Allgemeines

Die Studentin will schon ihre Sachen zusammenpacken und das Ergebnis ihrer Arbeit abgeben, da fällt ihr ein, daß sie ja die Prozentangaben vergessen hat. Leider weiß sie aber nicht, in welcher Form sich der Auftraggeber die Prozenteintragungen wünscht. Deshalb fertigt sie vorsichtshalber drei Ausführungen an. Zuerst ergänzt sie die absoluten Feldhäufigkeiten im Innern der Tabelle mit den absoluten Randhäufigkeiten durch die relativen Randhäufigkeiten, indem sie jede Randhäufigkeit ins Verhältnis setzt zur Gesamtzahl aller Angaben (rechts unten). Zu Frage 13b: Welcher Altersgruppe gehören Sie an? (I:3) Zu Frage 3: In welcher Art von Hotel bleiben Sie? (A5) Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 45 Jahre 46... 55 Jahre über 55 Jahre keine Angabe

2

Art d. Hotels

**A*

*****

0 6 6 2 6 0

2

3

35

19,02%

5

3

20,65%

3

0

38 37 23

12,50%

46

25,00%

5

2,72%

16 11 11

3

9 2

1 1 0 0 2 0

65

52

4

8

26

9

2,17%

4,35%

14*13%

4,89%

16 8 21

3

10,87% 35,33% 28,26%

Fehlende Angaben:

keine Angabe

5

**

3 9

20

priuat

***

14;

Pension

2 3

1 2 0 0

7 6 0

1 2 0

20,11%

184 100,00%

CHI-Quadrat für die gültigen Fälle:

29,74

Falls jedoch andere Betrachtungen angestellt werden sollten, könnten die Spaltenprozente interessieren. Art d. Hotels *•

Altersgruppe bis 25 Jahre

0

0,0%

26... 35 Jahre

6

30,0%

36... 45 Jahre

6

30,0% 16

46... 55 Jahre

2

10,0%

8

über 55 Jahre

6

keine Angabe £

8 9

Pension

privat

12,3% 16

30,8% 1

25,0% 2

25,0% 5

19,2%

25,0% 3

37,5% 5

k.Ang.

I

3

33,3% 35 33,3% 38

13,8% 11

21,2%

1

19,2%

3

24,6% 11

21,2%

0

0,0%

1

12,5%

3

11,5%

0

0,0%

12,3%

3

5,8%

0

0,0%

2

25,0%

7

26,9%

1

11,1%

23

30,0% 21

3 2,3%

9

17,3%

2

50,0%

0

0,0%

6

23,1%

2

22,2%

46

3

4,6%

2

3,8%

0

0,0%

0

0,0%

0

0,0%

0

0,0%

5

20 100,0% 65 100,0% 52 100,0%

4

100,0%

8

100,0% 26 100,0%

9

0

0,0%

37

100,0% 184

194

Kapitel 5: Bivariate Datenanalyse

Schließlich ist es nur logisch, daß eine weitere Kreuztabelle mit den Zeilenprozenten hergestellt wird. —

Altersgruppe bis 25 Jahre 26... 35 Jahre 36... 45 Jahre 46... 55 Jahre Uber 55 Jahre keine Angabe

Art d. Hotels Pension

••*

privat

keine Angabe

E

0

8

16

1

2

5

3

35

0,0%

22,9%

45,7%

2,9%

5,7%

14,3%

8,6%

100,0%

6

9

11

1

3

5

3

38

15,8%

23,7%

28,9%

2,6%

7,9%

13,2%

7,9%

100,0%

6

16

11

0

1

3

0

37

16,2%

43,2%

29,7%

0,0%

2,7%

8,1%

0,0%

100,0%

2

8

3

0

2

7

1

23

8,7%

34,8%

13,0%

0,0%

8,7%

3 0,4%

4,3%

100,0%

6

21

9

2

0

6

2

46

13,0%

45,7%

19,6%

4.3%

0,0%

13,0%

4,3%

100,0%

0

3

2

0

0

0

0

5

0,0%

60,0%

40,0%

0,0%

0,0%

0,0%

0,0%

100,0%

20

65

52

4

8

26

9

184

5 . 1 . 2 . Grundaufgaben der bivariaten Datenanalyse Die Beschäftigung mit univariaten Daten war nur der Einstieg in die umfassende Datenanalyse, wie sie für Zwecke der Marktforschung allgemein notwendig ist. Die univariate Datenanalyse dient der Vorbereitung der eigentlichen Analyse, die sich meist auf die Untersuchungen v o n Beziehungen (Assoziationen, Korrelationen) zwischen Variablen richtet. Bivariate Datenanalyse ist die Untersuchung der Beziehungen zwischen jeweils zwei Variablen. Auch bei der bivariaten Analyse unterscheidet man zwischen der deskriptiven (beschreibenden) Statistik und der induktiven (beurteilenden) Statistik. Fassen wir den Inhalt des vorigen Abschnitts zusammen: Die wichtigste Aufgabe der bivariaten Datenanalyse, weil Ausgangspunkt der meisten weiteren Untersuchungen, ist die => Herstellung v o n Kreuztabellen.

5 . 1 . Allgemeines

195

Anstelle der Bezeichnung Kreuztabelle sind noch die folgenden Namen gebräuchlich: •

Kontingenztabelle,

•

Assoziationstabelle,

•

Korrelationstabelle.

Zur Kreuztabelle gehören als selbstverständliche Bestandteile die Prozentwerte, je nach Wunsch als • relative Randhäufigkeiten, •

Spaltenprozente,

•

Zeilenprozente.

Dabei ist jeweils zu entscheiden, ob die ungültigen Fälle (d.h. "keine Angabe") in die Prozentberechnung einzubeziehen sind oder nicht. Schließlich wird oft die Zahl • CHI-Quadrat x 2 benötigt, weil Anwender mit ihrer Hilfe erste inhaltliche Informationen über mögliche Zusammenhänge entnehmen können (vgl. Benninghaus 1 9 9 6 , S. 2 0 4 ff.). Außerdem kann später mit Hilfe dieses Zahlenwertes der C H I - Q u a d r a t - U n a b h ä n g i g k e i t s t e s t durchgeführt werden (vgl. Kapitel 6).

5 . 1 . 3 . W e i t e r e Aufgaben der bivariaten D a t e n a n a l y s e Unmittelbar aus der Kreuztabelle abgeleitet gibt es neben der Kenngröße C h i - Q u a d r a t die Zahlen Phi und die L a m b d a - M a ß e (vgl. Benninghaus 1 9 9 6 , S. 2 1 0 ff., 2 1 8 ff.), die in der Literatur manchmal auch als Kontingenzkoeffizienten oder auch A s s o z i a t i o n s m a ß e bezeichnet werden. Die weiteren Aufgabenstellungen der deskriptiven (beschreibenden) bivariaten Datenanalyse hängen zuallererst in starkem Maße von dem Niv e a u der D a t e n ab.

196

Kapitel 5: Bivariate Datenanalyse

Haben die Daten der beiden betrachteten Variablen mindestens Intervallskalenniveau, dann darf man mit dem Korrelationskoeffizienten von Bravais-Pearson (oft nur kurz als Korrelationskoeffizient bezeichnet) eine statistische Kenngröße ausrechnen, die Aufschluß gibt über Grad und Stärke eines möglichen linearen Zusammenhanges zwischen den Variablen. Steht ein solcher linearer Zusammenhang an, so wird er quantifiziert durch die Durchführung einer Regressionsrechnung. Liegt das Datenniveau der Variablen aber unter dem Intervallskalenniveau, so ist dieser Korrelationskoeffizient zwar rein formal berechenbar, aber nicht mehr sinnvoll! Beispiel für Unsinn und Sinn der Berechnung des

Korrelationskoeffizienten:

Betrachten wir die Variablen F3 Altersgruppe und A5 Unterkunft unserer Touristenbefragung. Während F3 klassierte intervallskalierte Daten enthält, sind die Daten zu A5 nur nominalskaliert. Denn die Zuordnung des Codewertes 7 zu Sonstigem / Privatunterkunß hat ja nun sicher nichts damit zu tun, daß diese Unterkunftsart die höchst- oder niedrigstwertigste ist. Also ist es von vornherein sinnlos, die Frage nach einem möglichen linearen Zusammenhang zwischen Altersgruppe und Qualität der Unterkunft über den Korrelationskoeffizienten beantworten zu lassen. Anders dagegen sähe es aus, wenn nur die Hotelkategorien von fünf bis zu einem Stern betrachtet würden. Hier hätte man dann auch intervallskalierte Daten, und es ist sinnvoll zu fragen, ob beispielsweise mit zunehmendem Lebensalter die teureren Hotels bevorzugt würden. Auf Ordinalskalenniveau berechnet man anstelle des Bravais-PearsonICorrelationskoeffizienten den Rang-Korrelationskoeffizienten von Spearman. Und hat eine der Variablen nur Nominalskalenniveau, so darf man maximal Kontingenzkoeffizienten betrachten.

5.1. Allgemeines

197

Folgende Übersicht aus Bamberg/Baur (1991, S. 36), verdeutlicht diese Situation:

Skalierung v o n

X

mindestens intervallskaliert

ordinal

Y mindestens intervallskaliert ordinal

Bravais-PearsonKorrelationskoeffizient

A

nominal

•s.

1 1 Rangkorrelationskoeffizient von Spearman

nominal

Kontingenzkoeffizient

Abb. 13: Skalenniveau und Zusammenhangsmaße

Während sich mit dem Korrelationskoeffizienten die Stärke eines möglichen linearen Zusammenhanges zwischen den beiden betrachteten Merkmalen beurteilen läßt, versagt er bei der Beantwortung der Frage, ob es überhaupt einen, wie auch immer gearteten anderen (nichtlinearen) Zusammenhang geben kann. Ist die Vermutung also schwächer, besteht die Hypothese nur darin, daß zwischen beiden Merkmalen irgendein Zusammenhang, irgendeine Abhängigkeit existiert, dann muß man diese Hypothese prüfen. Der Test auf Unabhängigkeit, allgemein bekannt als CHI-QuadratTest, gehört dann aber schon zur induktiven Statistik (siehe Kapitel 6). Dort wird auch vorgestellt, wie man prüfen kann, ob zwei intervallskalierte Merkmale gleiche arithmetische Mittelwerte haben (doppelter t-Test). Schließlich ist auch in der bivariaten Datenanalyse der Wunsch verbreitet, mit geeigneter grafischer Darstellung eine anschauliche Vorstellung von der zweidimensionalen Verteilung zu bekommen.

198

Kapitel 5: Bivariate Datenanalyse

Hier benutzt man gern die dreidimensionale Säulengrafik.

keine Angabe über 55 Jahre 46...55 Jahre S6...45 Jahre 26...35 Jahre unter 25 Jahre

5.2. Kreuztabellen und die Zahl CHI-Quadrat ( % ) 5 . 2 . 1 . Allgemeines Kreuztabellen beschreiben die Verteilung der Wertepaare von zwei gleichzeitig betrachteten Variablen. Man sagt auch, sie beschreiben die Kreuzklassifikation oder Kreuztabulierung der beiden betrachteten Variablen. Sind beide Variablen nominal oder ordinal skaliert mit m bzw. n Merkmalsausprägungen, so ergeben sich Kreuztabellen mit m Zeilen und n Spalten bzw. n Zeilen und m Spalten - je nach Anordnung.

199

5.2. Kreuztabellen und die Zahl CHI-Quadrat

5.2.2. Klassenbildung Hat eine Variable dagegen viele Merkmalsausprägungen, so muß man diese zu Klassen zusammenfassen. Sehen wir uns dazu wieder unser Anwendungsbeispiel an. Die Antworten auf Frage 5 der Touristenbefragung geben Auskunft über das Motiv für den Besuch in Istanbul. Von Interesse sei nun, ob es einen Zusammenhang geben kann zwischen dem Alter der Befragten und dem Interesse für Geschichte. Nehmen wir nun einmal an, eine Spalte unserer Datenmatrix enthalte im Detail das Alter jedes Befragten. W e n n jeder der 6 0 verschiedenen Merlanalswerte für das Alter einzeln analysiert würde, ergäbe sich eine völlig sinnlose "Kreuztabelle"!

• Hier muß man zu Klassen zusammenfassen. Das führt dann zu einer sinnvollen Kreuztabelle (hier mit den Zeilenprozenten): Geschichte Alter unter 20 Jahre 20... 29 Jahre 30... 39 Jahre 40... 49 Jahre SO... 59 Jahre 60... 69 Jahre ab 70 Jahre

£

1 15

3 1

E 22

68,18%

6 27,27%

2

4,55%

100,00%

18

8

5

31

58,06%

25,81%

16,13%

100,00%

29

8

3

40

72,50%

20,00%

7,50%

100,00%

18

3

3

24

75,00%

12,50%

12,50%

100,00%

15

4

1

26

57,69%

15,38%

26,92%

100,00%

14

3

60,87%

13,04%

6 26,09%

100,00%

23

9

3

1

13

69,23%

23,08%

7,69%

100,00%

118

35

26

179

Und es stellt sich wohl heraus, daß quer durch die Altersgruppen ungefähr ein gleich hoher Prozentsatz die Historie als sehr wichtiges Motiv für den Istanbul-Besuch angab.

200

Kapitel 5: Bivariate Datenanalyse

5.2.3. Die Zahl C H I - Q u a d r a t ( x ) 2

Zur Berechnung der Zahl CHI-Quadrat (% ) geht man aus von der Kreuztabelle der gültigen Werte mit den (absoluten) Randhäufigkeiten (die Prozentangaben werden hier nicht benötigt): Z hu h2i

h« h 22

h13

...

...

hmi z

h23

hin h2n

hi. h2.

...

...

...

hm2

hm3

hmn

hm.

h.2

h.3

h.n

h..

Zu dieser gegebenen Kreuztabelle wird zuerst die sogenannte Interferenztabelle berechnet, die mit der Kreuztabelle identisch wäre, wenn beide Variablen völlig unabhängig voneinander wären: z

z

en e2i

e« e22

e« e23

ein e2n

»1. e2.

...

...

...

...

...

®m1

em2

em3

Gmn

®m«

e.i

e.2

e.3

e.n

e..

Dabei entstehen die Einträge ßjj nach der Formel

h,.Kj e"=~h7 (vergleiche auch das Beispiel auf Seite 147).

5.2. Kreuztabellen und die Zahl CHI-Quadrat

201

Schließlich wird aus den Häufigkeiten hy und den Interferenzen e^ die Tabelle der quadrierten Differenzen aufgestellt, wobei die Einträge djj nach der Formel

berechnet werden: E

E

du d2i ... dmi

d« d 22 ...

d« d23 ...

dm d 2n ...

dm2

dm3

d mn

di. d2. ... dm.

d.i

d.2

d.3

d. n

d..

Den gesuchten Wert CHI-Quadrat ( % ) erhält man dann als Summe aller quadrierten Differenzen:

5.3. Weitere statistische Kenngrößen 5.3.1. Der Korrelationskoeffizient von Bravais-Pearson Betrachten wir gleichzeitig zwei Datensätze, so haben wir zuerst den gemeinsamen Umfang gegeben, dazu die beiden Minima und Maxima, die Mediane und die Modalwerte. Sind die Daten von höherem als ordinalem Niveau so können wir weiter die beiden Mittelwerte und die beiden empirischen Standardabweichungen betrachten.

202

Kapitel 5: Bivariate Datenanalyse

Sind die Daten mindestens intervallskaliert und ist n der Umfang einer zweidimensionalen Datenmenge, sind xi,...,xn die Werte der ersten und ji,...,yn die Werte der zweiten Variablen und sind x und y die beiden Mittelwerte, dann wird der Korrelationskoeffizient von BravaisPearson (oft einfach nur als Korrelationskoeffizient bezeichnet) berechnet nach der Formel n

J £ (*,-*)2i>,-.F)2 V 1=1 1=1 Der Korrelationskoeffizient von Bravais-Pearson kann nur Werte zwischen -1 und +1 annehmen. Er schätzt den ICorrelationskoeffizienten der zweidimensionalen Grundgesamtheit - und dieser hat folgende Bedeutung: Ist der Korrelationskoeffizient dem Betrag nach gleich Eins (also gleich -1 oder +1), so gibt es zwischen den beiden Zufallsgrößen X und Y, für die die Stichproben und yh...,yn einige Realisierungen darstellen, einen linearen Zusammenhang, man kann also schreiben Y = a + bX oder X — a + bY, je nachdem, welche Variable man als Ursache und welche Variable man als Wirkung ansieht. Ist der Korrelationskoeffizient gleich Null, so gibt es überhaupt keinen linearen Zusammenhang zwischen X und Y. Der Korrelationskoeffizient beschreibt den Grad und die Richtung des linearen Zusammenhanges von zwei gleichzeitig betrachteten Variablen. (Ob es überhaupt sinnvoll ist, aus zwei beobachteten Variablen einen Zusammenhang abzuleiten, muß aus dem Kontext der Fragestellung geklärt werden!) Gern veranschaulicht man sich das anhand der sogenannten Punktwolke, die entsteht, wenn man auf der x-Achse die Stichprobenwerte xh...,xn aufträgt und darüber jeweils die zugehörigen Werte j;„ :

203

5.3. Weitere statistische Kenngrößen

100

T

90•

!

80

60 50

-

40 30 50

• 10 -18000

-16000

-14000

-12000

-10000

-8000

-6000

-4000

-2000

2000

X

Hier hat der Korrelationskoeffizient den Wert 0,09.

100 90 80 70 60 50

•

40 i so •

io, •fai < -10000

-8000

-6000

-4000

-2000 X

Für diese Stichprobe beträgt sein Wert -0,41.

2000

4000

6000

204

Kapitel 5: Bivariate Datenanalyse

100 90 80 70

«%

60

-

50 40 30

• . * I -3500

1 -3000

1 -2500

1 -2000

1

1

-1500

-1000

20

".v

1 --500

Man sieht, daß mit r=-0,84 linearer Zusammenhang zu vermuten ist.

100 T 90

;

80 70 60 Y

.

•

. •

•

••

j

•

50 -40 30 20 10

0

100

500

800

X

Hier ist r=0,98, Y scheint sichtbar linear von X abzuhängen.

900

1000

205

5.3. Weitere statistische Kenngrößen 5.3.2. Regressionsparameter und Bestimmtheitsmaß

Nehmen wir aber jetzt einmal an, daß der empirische Korrelationskoeffizient zweier verbundener Stichproben einen Wert n a h e 1 oder -1 ergibt, so wie das letzte Bild es zeigte. In diesem Fall kann man vermuten, daß in der Tat ein linearer Zusammenhang Y = a + bX zwischen den beiden betrachteten Variablen existieren könnte. Folglich gehören dann zu den wichtigsten statistischen Kennzahlen der Stichprobe auch die S c h ä t z u n g e n der Zahlenwerte für a u n d b. Die Gleichung

Y=a + bX nennt man dann Regressionsgleichung zwischen X und Y. Der Koeffizient b wird oft als Regressionskoeffizient bezeichnet; für a liest man seltener den Namen Regressionskonstante. E X C E L spricht in seiner deutschen Version von der S t e i g u n g b und vom A c h s e n a b s c h n i t t a (englisch slope bzw. intercept).

Steigung

Achsenabschnitt

slope

intercept

206

Kapitel 5: Bivariate Datenanalyse

Aus einer Stichprobe berechnet man die Schätzungen für b und a nach den Gleichungen n

b

=

J

=

L

~ n

Z u - * )

2

J=I

und a =

y-bx

Das typische Bild einer Regression zeigt folglich zuerst die Punktwolke der gegebenen Wertepaare und dazu eingezeichnet die Regressionsgerade.

Dabei wird auf der waagerechten Achse (x) die unabhängige Variable ("Ursache") aufgetragen, die senkrechte Achse (y) enthält die abhängige Variable ("Wirkung"). Das konstante Glied (a) beschreibt dann den Achsenabschnitt, während die Steigung (b) den Anstieg der Regressionsgeraden angibt. Wie kann man nun die Güte der Regression beurteilen? Hier gibt es das Bestimmtheitsmaß F?, eine Zahl zwischen Null und Eins.

5.3. Weitere statistische Kenngrößen

207

Das Bestimmtheitsmaß R2 wird nach Durchführung der Regression berechnet aus den Residuen - das sind die Abweichungen der gegebenen Werte von der erhaltenen Regressionsgerade. Liegen (im Idealfall) alle Punkte auf der Geraden, so hat das Bestimmtheitsmaß den Idealwert 1. Je ldeiner der Wert des Bestimmtheitsmaßes ist, desto stärker streuen die Punkte um die Regressionsgerade (vgl. Böhler 1992, S. 208; Bamberg/ Baur 1991, S. 45). Zusammenfassend lassen sich mit der Regression folgende Fragen klären (vgl. Backhaus u.a. 1987, S. 4): • Wie stark ist der Einfluß der unabhängigen Variablen auf die abhängige Variable (Ursachenanalyse) ? • Wie verändert sich die abhängige Variable, wenn die unabhängige Variable verändert wird (Wirkungsanalyse) ? • Wie wird sich die abhängige Variable im Zeitablauf ceteris paribus verändern (Trendprognose) ?

Für den Rangkorrelationskoeffizienten nach Spearman sowie für Kontingenzkoeffizienten sei der Leser aus Platzgründen leider auf die Literatur (z.B. Bamberg/Baur 1991, S. 38 ff.) verwiesen. Hier kommt hinzu, daß EXCEL 5.0 die Ermittlung dieser Kenngrößen auch nicht speziell unterstützt.

5.4. EXCEL 5.0 und die bivariate Datenanalyse 5.4.1. Übersicht 5.4.1.1. Funktionen Unter den in Abschnitt 4.5.1.3. auf den Seiten 148 bis 150 aufgezählten Statistik-Funktionen sind für die bivariate deskriptive Analyse zuerst auch wieder die elementar-unterstützenden Funktionen von Bedeutung. Dazu kommen nun speziell für den Fall der gleichzeitigen Betrachtung zweier Variablen weitere wichtige Funktionen.

208

Kapitel 5: Bivariate Datenanalyse

ICORREL liefert den Korrelationskoeffizienten von Bravais-Pearson. KOVAR liefert die Kovarianz. ACHSENABSCHNITT liefert die Konstante der Regressionsgeraden. STEIGUNG liefert den Regressionskoeffizienten. 5.4.1.2. Werkzeuge Im Werkzeugkasten Analyse-Funktionen (im Menü Extras) unterstützt die Mehrzahl der Werkzeuge die bivariate Analyse. Für die deskriptive Statistik sind dies die Werkzeuge • Populationskenngrößen, • Korrelation, • Kovarianz, • Regressionsanalyse. 5.4.1.3. Assistenten Besondere Bedeutung für die bivariate deskriptive Statistik besitzt der Pivot-Tabellen-Assistent. Mit ihm lassen sich vor allem schnell Kreuztabellen herstellen und beliebig modifizieren. Natürlich wird man auch den Funktionsassistenten noch benötigen, wenn man eine der Statistik-Funktionen nutzen will und Unterstützung bei der richtigen Anwendung braucht. Schließlich ist auch der Diagramm-Assistent in seiner Leistungsfähigkeit keinesfalls nur auf eine Variable eingeschränkt. Wer den Inhalt einer Kreuztabelle grafisch darstellen möchte, vertraue sich der Unterstützung dieses Assistenten an! 5.4.2. Erzeugung von Kreuztabellen 5.4.2.1. Notwendige Vorbemerkung zum Pivot-Tabellen-Assistenten Das Programm EXCEL entstand ursprünglich nicht vordergründig zur Durchführung statistischer Berechnungen. Sondern es wurde hergestellt für den kaufmännischen Bereich, für Zwecke der Buchhaltung und Kostenrechnung.

209

5.4. E X C E L 5.0 und die bivariate Datenanalyse

Auch der Pivot-Tabellen-Assistent diente (und dient) vorrangig diesen Aufgaben. Er ist ausgezeichnet ausgestattet mit allen Hilfsmitteln für diese Zwecke. Dazu ein Ideines Beispiel: Eine Firma hat sieben Verkäufer, die ihren Umsatz melden. Der Umsatz wird notiert, dazu das Quartal, in dem er erzielt wurde. Verkäufer

Quartal

Umsatz 616,06

Maier Müller

3/93 2/93

1723,41

Schulze Krause

1/93 3/93

995,21 1518,18

Gliehm

4/93

1874,70

Gleim Hansen

3/93 1/93

1507,30 1767,80

Müller

2/93

617,00

Müller Schulze

1/93

360,19

1/93

609,86

Krause

2/93

1267,46

Zur Analyse der Verkaufserfolge wird der Pivot-Tabellen-Assistent beauftragt, die Umsätze aller Verkäufer in den vier Quartalen 1993 zusammenzustellen: Summe - Umsatz Verkäufer Gleim

Quartal 1/93 56,78

2/93 102,01

3/93 5264,06

4/93 901,76

Gesamtergebnis 6324,61

Gliehm

1916,89

1841,63

258,23

1874,7

5891,45

Hansen

1767,8

2037,01

4930,71

4620,22

13355,74

3025,2

8539,34

8407,72

11387,4

31359,66

Maier

5315,67

10870,29

13343,56

16333,64

45863,16

Müller

4548,43

5269,86

4806,65

2340,63

16965,57

Schulze

1605,07

2306,05

1707,48

7167,95

12786,55

18235,84

30966,19

38718,41

44626,3

132546,74

Krause

Gesamtergebnis

Links oben ist es zu sehen - von der Spalte Umsatz wurde für jeden Verkäufer die S u m m e p r o Q u a r t a l gebildet. Nun interessiert aber auch, wie diese Umsätze zustande gekommen sind. Wieviele Verkäufe hat eigentlich jeder Verkäufer pro Quartal?

210

Kapitel 5: Bivariate Datenanalyse

Kein Problem - der Tabellenkursor wird auf eine Zahl im Innern der Tabelle gesetzt, dann wird Menü Daten und Pivot-Tabellen-Feld gewählt, und dort wird von Summe auf Anzahl umgestellt: «

Datei

Microsoft Excel - TOURIST O.XLS Ansicht Einfügen Format Extras Daten

Bearbeiten

Fenster

?