198 13 16MB
German Pages 256 [252] Year 1997
Statistik mit SAS Von
Professor Dr. Andreas Pfeifer und
Dipl.-Math. Marco Schuchmann
R. Oldenbourg Verlag München Wien
Die Informationen in dieser Dokumentation wurden mit größter Sorgfalt erstellt. Trotzdem können Fehler nicht ausgeschlossen werden. Für fehlerhafte Angaben und deren Folgen werden weder juristische Verantwortung noch irgendeine Haftung übernommen. Für eine Mitteilung eventueller Fehler sind die Autoren dankbar. Das Buch ist nach den neuen Rechtschreibregeln (vgl. Duden, Rechtschreibung der deutschen Sprache, Bd. 1, 21. Aufl. 1996) abgefasst.
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Pfeifer, Andreas: Statistik mit SAS / von Andreas Pfeifer und Marco Schuchmann. - München ; Wien : Oldenbourg, 1997 ISBN 3-486-23953-8 NE: Schuchmann, Marco:
© 1997 R. Oldenbourg Verlag Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oIdenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München ISBN 3-486-23953-8
3
Vorwort Dieses Buch gibt einen Einstieg in SAS. Zielsetzung dieser Einführung ist es, den Leser zu befähigen, selbständig statistische Auswertungen mit SAS durchfuhren zu können. Alle in diesem Buch beschriebenen Möglichkeiten werden durch kommentierte Beispiele und SAS-Ergebnisausgaben dargestellt. Dieses Buch eignet sich sowohl zum selbständigen Einstieg in SAS, als auch als Begleitbuch zu Kursen und Seminaren. Wir beschreiben in diesem Buch die Durchführung statistischer Analysen mit der SAS-Programmierung. Somit sind alle Verfahren unabhängig vom Betriebssystem bzw. der Hardwareumgebung durchführbar. Im ersten Kapitel beziehen wir uns zwar auf die Version 6.11 von SAS, die beschriebenen Programme laufen aber auch in früheren Versionen. Natürlich können in dieser kompakten Dokumentation nicht alle Möglichkeiten von SAS für Windows umfassend beschrieben werden; dafür wird auf die umfangreichen Original-Handbücher von SAS verwiesen. Jedoch werden die wichtigsten Eigenschaften ausführlich mit Beispielen und Ergebnisinterpretationen erläutert. Ebenso werden der statistische Hintergrund dieser Befehle und die notwendigen Voraussetzungen der benutzten Verfahren dargestellt. Kapitel 1 schneidet die Problematik bei der Anwendung von Statistik-Software an und gibt eine Übersicht über die Möglichkeiten von SAS für Windows. Im zweiten Kapitel wird die Planung einer empirischen Studie bis zur Eingabe der Daten in SAS anhand einer Fragebogenauswertung geschildert. Kapitel 3 beschreibt das Datenmanagement mit SAS. Wie Sie zu ersten deskriptiven Statistiken und Grafiken gelangen, wird in den Kapiteln 4 und 5 beschrieben. Kapitel 6 geht auf statistische Tests näher ein. Im nächsten Kapitel werden einfache Methoden der schließenden Statistik erläutert. Kapitel 8 geht dann auf komplexere Methoden der Statistik, wie Varianz-, Kovarianz-, Faktoren- oder Clusteranalysen ein. Im Kapitel 9 zeigen wir Möglichkeiten, auch kategorielle Variablen, die oft bei der Auswertung von Fragebögen auftreten, mit linearen und loglinearen Modellen der kategoriellen Datenanalyse auszuwerten und diese Ergebnisse einfach darzustellen. Den Anhang bilden ein Verzeichnis englischer Ausdrücke, eine Tabelle der benutzten mathematischen Zeichen und Abkürzungen sowie das Literaturverzeichnis. Zu dem Buch gibt es eine Diskette mit Daten und Programmen. Weitere Informationen dazu stehen im Anhang D. Wir danken Herrn Dipl.-Math. Werner Sanns für die Durchsicht des Manuskripts und für Korrektur- und Verbesserungsvorschläge. Andreas Pfeifer, Marco Schuchmann
5
Inhaltsverzeichnis 1 Übersicht 1.1 Vorsicht bei Statistik-Programmpaketen 1.2 SAS und andere Programme zur Datenanalyse 1.3 Was leistet SAS? 1.4 Der erste Einstieg in SAS 1.5 Überblick über die wichtigsten Prozeduren in SAS
9 9 10 12 13 21
2 Planung einer empirischen Studie am Beispiel 2.1 Problemstellung und Konzeption des Fragebogens 2.2 Festlegung der Variablen und Kodierung 2.3 Deklaration der Variablen in SAS
23 23 25 28
3 Datenmanagement mit SAS 3.1 Berechnung neuer Variablen 3.2 Löschen von Variablen aus einer Datei 3.3 Filterung von Fällen 3.4 Rekodierung 3.5 Ergänzen einer SAS-Datei mit Fällen aus anderer SAS-Datei 3.6 Ergänzung einer SAS-Datei mit Variablen aus anderer SAS-Datei 3.7 Sortieren von Daten 3.8 Erzeugung von Zufallszahlen 3.9 Import von Datenfiles
31 31 34 35 36 37 39 41 42 44
4 Deskriptive Statistiken 4.1 Häufigkeitsauszählungen 4.2 Berechnung statistischer Kenngrößen (Univariate Statistik) 4.3 Berechnung statistischer Kenngrößen unter Berücksichtigung von Gruppierungen 4.4 Kontingenztafeln (Kreuztabellen)
46 46 49
5 Grafiken 5.1 Balkendiagramme und Histogramme 5.1.1 Einfache Balkendiagramme und Histogramme 5.1.2 Gruppierte Balkendiagramme 5.1.3 Gestapelte Balkendiagramme
61 61 61 67 68
55 57
6 5.2 Kreisdiagramme 5.3 x-y-Diagramme (Scatterplots) 5.3.1 Einfache x-y Diagramme 5.3.2 3D-Plots 5.4 Boxplots
70 74 74 80 83
6 Statistische Tests und ihre Grundlagen 6.1 Grundlagen von Tests 6.2 Skalenniveaus 6.3 Voraussetzungen fiir Tests 6.4 Abhängigkeit von Stichproben 6.5 Übersicht über Tests
87 87 92 94 99 100
7 Einfache Methoden der schließenden Statistik. 7.1 Mittelwertsvergleiche bei normalverteilten Stichproben (t-Test) 7.1.1 Mittelwertsvergleich bei unabhängigen Stichproben 7.1.2 Mittelwertsvergleich bei abhängigen Stichproben 7.1.3 Mittelwertsvergleich bei einer Stichprobe 7.2 Einfaktorielle Varianzanalyse 7.3 Bivariate Korrelation 7.3.1 Pearson'scher Korrelationskoeffizient 7.3.2 Rangkorrelationen 7.4 Chi-Quadrat-Test auf Unabhängigkeit 7.5 Chi-Quadrat-Anpassungstest 7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen (parameterfreie Tests) 7.6.1 Vergleich von zwei unabhängigen Stichproben 7.6.2 Vergleich von mehreren unabhängigen Stichproben 7.6.3 Vergleich von zwei abhängigen Stichproben 7.6.4 Vergleich von mehreren abhängigen Stichproben 7.6.5 Beurteilung dichotomer Variablen mit dem Binomialtest
103 103 104 109 112 114 123 123 128 130 134
8 Komplexere Methoden der schließenden Statistik 8.1 Regressionsanalyse 8.1.1 Lineare Regression 8.1.2 Nichtlineare Regression 8.1.3 Logistische Regression 8.2 Varianz- und Kovarianzanalyse 8.2.1 Durchführung der Varianz- und Kovarianzanalyse 8.2.2 Testen von allgemeinen linearen Hypothesen
156 156 156 168 175 185 185 192
137 138 142 145 150 154
7
8.3 Multivariate Varianzanalyse 8.4 Faktorenanalyse als Mittel zur Datenreduktion 8.5 Clusteranalyse
198 207 221
9 Modelle der kategoriellen Datenanalyse 9.1 Lineares Modell der kategoriellen Datenanalyse 9.2 Loglineares Modell der kategoriellen Datenanalyse
225 225 232
Anhang
237
Anhang Anhang Anhang Anhang
Register
A: Auswahl englischer Ausdrücke und Bezeichnungen B: Mathematische Zeichen und Abkürzungen C: Literatur D: Daten und Programme auf Diskette
237 245 247 249
250
1.1 Vorsicht bei Statistik-Programmpaketen
9
1 Übersicht 1.1 Vorsicht bei Statistik-Programmpaketen Bei statistischen Auswertungen und Datenanalysen werden Statistik-Programmsammlungen eingesetzt, um die benötigten statistischen Verfahren nicht selbst programmieren zu müssen. Sie brauchen für eine Datenanalyse keine Kenntnisse in einer Programmiersprache und auch kaum Kenntnisse der statistischen Verfahren, die Sie verwenden wollen. Statistik-Programmsammlungen verhalten sich wie ein "schwarzer Kasten". Auf der einen Seite kommen die Daten und wenige Steueranweisungen hinein, auf der anderen Seite erhalten Sie die fertigen Ergebnisse. Dabei können Sie viel falsch machen, wenn Sie nicht ungefähr wissen, was der schwarze Kasten macht. Dies soll an einem einfachen Beispiel verdeutlicht werden: Jemand möchte testen, ob er übernatürliche Fähigkeiten besitzt. Dazu geht er folgendermaßen vor: Zunächst lässt er fünfzig Personen mit einem ganz normalen, symmetrischen Würfel würfeln. Dann nimmt er die Würfelergebnisse von zehn Personen, die besonders wenig Augenzahlen hatten: 1, 1, 1, 1, 1,2, 1, 1, 1 und 2.
(Mittelwert: 1,2)
Diese Personen bittet er nun zu sich und spricht zu ihnen einen Zauberspruch. Er behauptet, dass wenn diese Personen jetzt nochmals würfeln, sie kein solches Pech mehr haben. Folgende Ergebnisse liegen nach dem zweiten Würfeln dieser zehn Personen vor: 4, 2, 6, 2, 1,5, 3, 5, 6 und 3.
(Mittelwert: 3,7)
Jetzt testet er mit einem Statistikprogramm, ob durch den Zauberspruch die Augenzahl erhöht wurde; genauer ausgedrückt, er gibt die beiden obigen Zahlenreihen mit den Würfelergebnissen in den Computer ein und führt einen t-Test durch, um signifikante Mittelwertsunterschiede nachzuweisen, d.h. um nachzuweisen, dass er übernatürliche Fähigkeiten besitzt. Diesen Test kann er mit dem Statistikpaket SAS durchführen. Der Test wird bei diesem Beispiel signifikante Unterschiede "mathematisch" bestätigen. Doch diese Vorgehensweise ist aus mehreren Gründen falsch: Ein Fehler liegt darin, dass die Testpersonen nicht zufällig ausgewählt wurden. Es wurden nämlich nur diejenigen zum Testen gewählt, die schlechte Testergebnisse
10
1 Übersicht
(d.h. niedrige Augenzahlen beim erstmaligen Würfeln) hatten. Ein anderer Fehler kommt dadurch zustande, dass der t-Test als eine Voraussetzung benötigt, dass die beiden Stichproben aus normalverteilten Grundgesamtheiten stammen. Dies ist nicht gegeben. An diesem Beispiel sollen Sie folgendes erkennen: Jedes Testverfahren benötigt gewisse Voraussetzungen. Wenn nun diese Voraussetzungen nicht erfüllt sind, dürfen Sie den Test nicht durchführen. Aber Statistik-Programmpakete überprüfen die Voraussetzungen nicht automatisch. Daher können Sie mit Programmpaketen in Statistik alles "beweisen", wenn Sie die Voraussetzungen nicht beachten. Bei dem Beispiel hier sieht sicherlich jeder, wo Fehler liegen. Im Allgemeinen ist es nicht so leicht, Fehler zu finden. Fehler in den Voraussetzungen können und sollten aber auch von Nicht-Statistikern erkannt werden. Dazu ist es nicht notwendig, den theoretischen Hintergrund des benutzten Tests genau zu kennen. Sie sollten aber wissen, welche Voraussetzungen gebraucht werden, um den jeweiligen Test sinnvoll anzuwenden. Deshalb sind statistische Grundkenntnisse unbedingt erforderlich. Grundkenntnisse in Statistik können beispielsweise durch das Studium der Bücher von Bortz (1993), Härtung (1995), Sachs (1992) oder Zöfel (1993) erworben werden. Bibliographische Angaben zu den Büchern sind im Anhang C zu finden.
1.2 SAS und andere Programme zur Datenanalyse SAS hat einen modularen Aufbau und besteht aus einem Grundpaket (SAS Base bzw. SAS CORE) und zahlreichen Zusatzpaketen. Mit dem Statistikmodul STAT können fast alle Verfahren der Statistik (von Häufigkeitsauszählungen bis Regressions- und Varianzanalysen oder Faktorenanalysen) durchgeführt werden. Grafiken aller Art können mit dem Modul GRAPH erzeugt werden. Weiteres zum Aufbau von SAS folgt im nächsten und übernächsten Kapitel. Kommen wir nun zuerst zu den anderen Softwareprodukten zur Datenanalyse. Es gibt eine Vielzahl anderer Programme für statistische Auswertungen, wie beispielsweise BMDP (Hersteller: BMDP), CSS (Hersteller: Statsoft), Danet-Statistik (DMB), Micro TSP (QMS), NCSS P r . Hintze /USA), PlotlT (ICS, S.P. Eisensmith), P-STAT (P-STAT), SPSS (SPSS GmbH), STASY-500 (PIC), Statgraphics (STSC), Systat (Systat, SPSS), Unscrambler (Camo). Dies sind nur einige der vielen Statistikprogramme für Mikrocomputer. Die Qualität dieser Programme ist sehr unterschiedlich. Übersichten über die Leistungsfähigkeiten verschiedener Programme werden regelmäßig in Computerzeitschriften ver-
1.2 SAS und andere Programme zur Datenanalyse
11
öffentlicht; doch sie veralten relativ schnell, da das Angebot an Software und an verschiedenen Versionen sehr stark wächst. Aber nicht nur "reine" Statistikprogramme, sondern auch andere Software-Produkte können bei einer statistischen Auswertung sinnvoll angewandt werden. Die Software, mit deren Hilfe statistische Auswertungen durchgeführt oder unterstützt werden, kann grob in vier Gruppen eingeteilt werden: -
Tabellenkalkulationsprogramme, Datenbankprogramme, Grafikprogramme und die."eigentlichen" Statistikprogramme.
Es gibt eine Vielzahl sogenannter "integrierter" Software-Pakete, in denen mehrere der oben genannten Gruppen integriert sind. Oftmals können z.B. auch mit einem Tabellenkalkulationsprogramm Grafiken erstellt werden. Eine klare Einordnung eines Software-Produktes in eine der vier Gruppen lässt sich deshalb nicht immer durchführen. Trotzdem ist diese Gruppeneinteilung sinnvoll, um einen Überblick über die vorhandene Software, die sich auch für statistische Auswertungen eignet, zu geben. Tabellenkalkulationsprogramme dienen zum mühelosen Erstellen von Tabellen, Berichten und Statistiken. Sie ermöglichen es, eine Vielzahl von aufeinander bezogenen Rechenvorgängen ablaufen zu lassen. Das kann sicherlich auch mit einem Taschenrechner bewältigt werden. Das Besondere an einem Tabellenkalkulationsprogramm besteht aber darin, dass es zwischen dem Rechenweg und den eingegebenen Zahlen unterscheidet. Der große Vorteil liegt darin, dass - sobald eine Zahl geändert wird - automatisch alle nachfolgenden Rechenschritte mit dem neuen Wert ausgeführt werden. Der Umgang mit einem Tabellenkalkulationsprogramm ist sehr einfach. Bezüglich statistischer Auswertungen können jedoch meist nur wenige Kenngrößen - wie beispielsweise Mittelwerte und Standardabweichungen - berechnet werden. Datenbank-Software dient hauptsächlich dazu, Datenbestände zu erstellen, zu verwalten und geeignet auszugeben. Auch komplexe Datenstrukturen können bei solchen Programmen im Gegensatz zu Statistik-Paketen berücksichtigt werden. Grafikprogramme dienen zwar hauptsächlich zum Erstellen von Zeichnungen. Allerdings lassen sich auch manchmal einige Statistiken (Prozentzahlen, Häufigkeiten oder lineare Regressionen) erzeugen. Für statistische Auswertungen sind diese Programme jedoch nur eingeschränkt tauglich.
12
1 Übersicht
1.3 Was leistet SAS? SAS bietet mit seinen Modulen sehr viele Möglichkeiten in diversen Bereichen Daten auszuwerten. Das Grundpaket BASE bietet u.a. die Möglichkeit, Datenmanagement zu betreiben. Hiermit können SAS-DATASETS (so nennt SAS seine Datendateien) professionell und ähnlich wie mit einem Datenbanksystem verwaltet werden. Mit der zu BASE gehörenden Prozedur SQL können sogar SQL-Abfragen durchgeführt werden. Außerdem können mit dem BASE-Modul einfache statistische Auswertungen, wie Mittelwertsberechnungen bzw. t-Tests (Prozedur MEANS), Häufigkeitsauszählungen (Prozedur FREQ) oder auch einfache Plots (Prozedur PLOT) erstellt werden. Interessant in Bezug auf statistische Auswertungen ist das SAS-Modul ST AT. Mit ihm können die meisten bekannten Verfahren in der Statistik durchgeführt werden. Hierzu zählen univariate Statistiken (Prozedur UNIVARIATE), Regressionsanalysen (Prozedur REG) und Varianzanalysen (Prozeduren ANOVA bzw. GLM) bis hin zu kategoriellen Modellen (Prozedur CATMOD) oder Faktorenanalysen (Prozedur FACTOR) und viele mehr. Unter Verwendung der SAS-Programmierung können zu jeder Prozedur auch eine Vielzahl von Optionen verwendet werden, um zusätzliche Statistiken zu erhalten. Die in diesem Buch beschriebenen Verfahren beziehen sich zum größten Teil, bis auf wenige Ausnahmen, auf das Modul ST AT. Zur Erstellung von Grafiken dient das Modul GRAPH. Innerhalb dieses Moduls stellt SAS eine Reihe von Prozeduren zur Verfügung, mit denen u.a. Balken-, Kreisund x-y-Diagramme erstellt werden können. Weitere SAS-Module sind: Der ASSIST, der Standardauswertungen mit einem Menü ohne Programmierung ermöglicht; das Modul OR für Optimierungsprobleme im Bereich des Operations Research; das Modul QC für statistische Qualitätskontrollen; das Modul INSIGHT für interaktive Auswertungen; das Modul IML für Matrizenoperationen, sowie die Module ACCESS, CALC, CONNECT, CPE, ETS, FSP, IMS-DL, LAB, PH, TOOLKIT, TUTOR und mehr. Damit SAS für Windows verwendet werden kann, müssen folgende Voraussetzungen erfüllt sein: -
Dos 5.0 oder höher Windows 3.1 oder höher 80386-Prozessor oder höher Mindestens 4 Megabyte Arbeitsspeicher (RAM) Zum sinnvollen Arbeiten mit SAS sind mindestens 8 Megabyte zu empfehlen. - Festplatte mit mindestens 80 Megabyte bis zu 300 Megabyte freiem Plattenplatz, je nachdem wie viele SAS-Module Sie installieren. Mit 80 Megabyte können Sie nur das Grundmodul und ST AT installieren. - 3 1/2" Diskettenlaufwerk hoher Dichte oder CD-ROM-Laufwerk
1.4 Der erste Einstieg in SAS
13
- Grafikadapter mit Mindestauflösung von 640 x 480 (VGA) - Microsoft Win32s. Dieses System wird von der SAS-Setup-Prozedur automatisch installiert. Weitere Informationen zu SAS erhalten Sie beim SAS Institute in Heidelberg.
1.4 Der erste Einstieg in SAS SAS bietet dem Benutzer mit dem ASSIST die Möglichkeit, eine Auswertung menügesteuert durchzufuhren. In unserem Buch werden wir aber alle Verfahren über die SAS-Programmierung realisieren, da diese dem Benutzer erstens mit zusätzlichen Optionen viel mehr Variationsmöglichkeiten bietet und einiges aus unserem Buch mit dem ASSIST nicht zu realisieren wäre, wie beispielsweise ein großer Teil unseres Kapitels über das Datenmanagement. Zweitens benötigen Sie die Programmierung, falls Sie bestimmte Auswertungen standardisieren möchten. Weiterhin sind die Programme mit drei bis fünf Zeilen sehr kurz, so dass Sie diese bei einer Auswertung schnell eingeben können. Wenn Sie nun SAS starten, erhalten Sie den folgenden Anfangsbildschirm:
fjPFtOfiRAM FniTOR - (1 Intillari)
Abb. 1-1
14
1 Übersicht
Wie Sie sehen können, ist dieser in drei Fenster geteilt. Das erste Fenster ist der PROGRAM-Editor. In diesem werden die Programme eingegeben. Um ein Programm zu starten, müssen Sie die Taste drücken oder auf die Ikone in der Leiste mit dem Männchen klicken. Das nächste Fenster ist das LOG-Fenster. In diesem werden von SAS Kommentare nach jeder Programmausführung geschrieben. U.a. werden hier die Programmzeilen wiederholt. Falls Sie ein SAS-Programm ausfuhren lassen und ein Fehler auftritt, wird dies in diesem Fenster mit einem Kommentar angezeigt. Fehlermeldungen erscheinen in Rot. Warnungen werden in der Farbe Grün ausgegeben. Einige Tippfehler kann SAS auch erkennen und interpretiert die Anweisung korrekt. In diesem Fall gibt SAS eine Warnung aus. Im dritten Fenster, dem OUTPUT-Fenster, wird die jeweilige Ergebnisausgabe angezeigt. Sollte ein Prozedur fehlerfrei sein, öffnet SAS automatisch das OUTPUTFenster, falls die entsprechende Prozedur eine Ausgabe liefert. Zwischen den Fenstern können Sie wechseln, indem Sie entweder mit der Maustaste in das entsprechende Fenster wechseln oder unter dem Menüpunkt WINDOW das entsprechende Fenster wählen. Eine weitere Möglichkeit zum Wechseln zwischen den Fenstern bieten die Funktionstasten. In der Regel gelangen Sie mit der Taste in den PROGRAM-Editor, mit der Taste in das LOG-Fenster und mit der Taste in das OUTPUT-Fenster. Um die Tastenbelegung der Funktionstasten zu erfahren oder zu verändern, wählen Sie unter dem Menüpunkt HELP den Punkt KEYS. Sie erhalten dann das folgende Fenster:
1.4 Der erste Einstieg in S AS
15
•f/SAS [KFYS ] »ew Stafaafs Qpt,wa Whsw
mm gdrt
3
..." oder "Prob" bezeichnet) ist das Kriterium für die Entscheidungsfindung. Bei diesem Beispiel kann also mit SAS aus den Häufigkeiten für das Auftreten jeder Zahl bei den 42 Versuchen eine Wahrscheinlichkeit berechnet werden, aus der dann geschlossen werden kann, ob die Hypothese zu verwerfen ist oder nicht. Ist diese Wahrscheinlichkeit sehr klein, kann HQ abgelehnt werden. Die errechnete Wahrscheinlichkeit wird damit zur sogenannten Irrtumswahrscheinlichkeit p, der Wahrscheinlichkeit für den Fehler erster Art, siehe dazu Abb. 6-1 und Abb. 6-2. Kommen Sie aufgrund eines großen Wertes dieser Wahrscheinlichkeit zu der Ent-
88
6 Statistische Tests und ihre Grundlagen
Scheidung, dass Hq nicht abgelehnt werden sollte, dürfen Sie nicht daraus schließen, dass Hq richtig ist, denn es kann auch eine Fehlentscheidung (Fehler 2. Art) vorliegen (siehe Abb. 6-1). Die Formulierung des Ergebnisses muss deshalb dann lauten: Bei dem beobachteten Ergebnis kann Hq nicht ablehnt werden.
in Wirklichkeit
Hypothese
falsch
richtig
nach Test verworfen
nach Test nicht verworfen
Entscheidung ist falsch (Fehler 1. Art)
Entscheidung ist richtig (Wirklichkeit stimmt mit dem Testergebnis überein)
Entscheidung ist richtig (Wirklichkeit stimmt mit dem Testergebnis überein)
Entscheidung ist falsch (Fehler 2. Art)
Abb. 6-1
SAS Hypothese und Alternative festlegen
>
Teststatistik und eventuelle Freiheitsgrad(e)
>
p-Wert
Vergleichen mit vorgegebener Wahrscheinlichkeit (z.B.0,05)
JL
Entscheiden (z.B. p-Wert Ablehnen der Nullhypothese) Abb. 6-2
6.1 Grundlagen von Tests
89
Sie als Anwender müssen bei allen Tests vorher einen Wert für den maximalen Fehler 1. Art festlegen. Diese Irrtumswahrscheinlichkeit (für den Fehler 1. Art) ist meist 0,05 (= 5%), 0,01 (= 1%) oder 0,001 (= 0,1%). Welchen Wert Sie vorgeben, müssen Sie selbst anhand des vorhandenen Fachproblems klären. In diesem Buch wird - wenn nichts anderes angegeben ist - stets mit 0,05 gearbeitet. Dies besagt, wenn der von SAS berechnete p-Wert kleiner als 0,05 ist, wird die Hypothese verworfen.
Fortsetzung des Beispiels vom Beginn dieses Kapitels: Getestet werden soll, ob ein Würfel symmetrisch ist. Dazu ist zunächst 42 mal gewürfelt worden. Im folgenden ist eine Tabelle zu sehen, in der die Häufigkeiten für das Auftreten der einzelnen Augenzahlen aufgelistet ist:
Augenzahl 1 2 3 4 5 6
Häufigkeit 11 9 4 3 7 8
Bei einem "fairen" Würfel müssten die Häufigkeiten für jede Augenzahl in etwa gleich groß sein, d.h. in etwa 7 betragen. Da wir aber nur insgesamt 42 mal gewürfelt haben, können diese Abweichungen noch zufallig sein. Wir fuhren also mit SAS einen Chi-Quadrat-Anpassungstest durch (siehe Kapitel über parameterfreie Verfahren). Hierzu dient das folgende SAS-Programm: DATA TEMP; INPUT N NEXPECT; CARDS; 11 7 9 7 4 7 3 7 7 7 8 7 RUN; DATA TEMP; SET TEMP;
90
6 Statistische Tests und ihre Grundlagen
Z = (N-NEXPECT)**2/NEXPECT; RUN; PROC MEANS; VAR Z ; OUTPUT OUT = XXX RUN;
SUM=PG;
DATA X X X ; SET X X X ; DF = _ F R E Q _ - 1 ; PROB = 1 - PROBCHI(PG,DF) ; DROP _ T Y P E FREQ_; RUN; PROC PRINT DATA = RUN;
XXX;
Das obige Programm speichert zunächst in einer temporären Datei mit dem Namen T E M P die Häufigkeiten (Variable N) und die erwarteten Häufigkeiten (Variable N E X P E C T ) . Danach wird eine neue Variable Z berechnet (die Erklärung zur Berechnung folgt im Kapitel 7.5). Mit der Prozedur MEANS wird danach die Summe über die Variable Z berechnet und in der temporären Datei X X X gespeichert. Mit der Funktion PROBCHI wird dann der p-Wert berechnet und mit der Prozedur P R I N T ausgegeben. Das SAS-Programm liefert die folgenden Ergebnisse: OBS 1
PG 6.57143
DF 5
PROB 0.25451
S A S berechnet die Chi-Quadrat-Teststatistik mit 6,571, die in diesem Beispiel mit P G bezeichnet wird, und die Freiheitsgrade (DF = 5). Dann wird der p-Wert (bei diesem Beispiel wird der p-Wert mit P R O B bezeichnet) angegeben. Da dieser pWert mit 0,2545 größer als 0,05 ist, wird die Hypothese, dass der Würfel symmetrisch ist, nicht verworfen. Somit kann mit den verwendeten Daten nicht nachgewiesen werden, dass es sich hier um einen 'unfairen' Würfel handelt. Die Teststatistik und die Freiheitsgrade sind eigentlich nur Hilfsgrößen; entscheidend ist der p-Wert. Bei Tests ist im allgemeinen noch die Art der Fragestellung wichtig: einseitig oder zweiseitig. Dies soll an einem Beispiel verdeutlicht werden. Wenn Sie wissen wollen, ob zwei Pflanzensorten einen unterschiedlichen Ertrag liefern, und Sie keine Vorstellung haben, welche der beiden Sorten einen höheren Ertrag liefert, stellen Sie folgende Frage: Liefert die Sorte 1 einen höheren Ertrag
6.1 Grundlagen von Tests
91
als die Sorte 2 oder liefert die Sorte 1 einen niedrigeren Ertrag als die Sorte 2? Also sind die Erträge der beiden Sorten unterschiedlich? Dies ist eine zweiseitige Fragestellung mit folgender Hypothese und Alternative: Hypothese (H0): Durchschnittsertrag Sorte 2 = Durchschnittsertrag Sorte 1 Alternative (HA oder Hi): Durchschnittsertrag Sorte 2 * Durchschnittsertrag Sorte 1
Ist dagegen die Sorte 1 gut bekannt und die Sorte 2 eine Neuentwicklung, von der der Züchter behauptet, dass sie höhere Erträge als die Sorte 1 liefert, liegt eine einseitige Fragestellung vor, nämlich: Liefert die Sorte 2 höhere Erträge als die Sorte 1? Man spricht dann auch von einseitiger Hypothese. Ein Test bei einer einseitigen Fragestellung darf dann angewandt werden, wenn aus theoretischen Erwägungen vor dem Versuch nur eine einseitige Veränderung interessiert und die Richtung der Veränderung festgelegt ist. Die Durchfuhrung eines Tests bei einseitiger Fragestellung ist bei SAS meist nicht ganz so einfach wie bei einer zweiseitigen Fragestellung. Dies liegt zum einen daran, dass der p-Wert für eine einseitige Fragestellung nicht immer angegeben ist. Sie müssen dann den p-Wert für die zweiseitige Fragestellung (2-tailed P) durch zwei dividieren, um den korrekten p-Wert zu erhalten. Zum anderen muss auch die zu testende Größe in die behauptete Richtung weisen. Dies soll an einem Beispiel erläutert werden. Es soll überprüft werden, ob die Sorte 2 einen höheren Ertrag liefert. Dazu wird folgende Hypothese aufgestellt: Hypothese: Durchschnittsertrag Sorte 2 < Durchschnittsertrag Sorte 1 Alternative: Durchschnittsertrag Sorte 2 > Durchschnittsertrag Sorte 1
Wenn Sie jetzt mit dem t-Test einen p-Wert von beispielsweise 0,082 erhalten, müssen Sie diesen Wert durch zwei teilen. Sie erhalten also 0,041. Wenn jetzt der Mittelwert des Ertrags der Stichprobe der Sorte 2 größer als der Mittelwert der Sorte 1 ist, dürfen Sie schließen, dass der Ertrag der Sorte 2 signifikant höher als bei der Sorte 1 ist, da 0,041 < 0,05. Ist der Mittelwert des Ertrags der Sorte 2 niedriger oder ist der durch zwei geteilte p-Wert größer als 0.05, wird die Hypothese beibehalten.
6 Statistische Tests und ihre Grundlagen
92
6.2 Skalenniveaus Welche Tests verwendet werden können, hängt auch vom Skalenniveau ab. Je nachdem welches Niveau vorliegt, müssen unterschiedliche statistische Verfahren verwendet werden.
1. Nominalskala 2 . Ordinalskala 3. Intervallskala 4 . Verhältnisskala
1 I 1
nichtmetrische Skalen
1 | 1
metrische Skalen
Abb. 6-3
Ausgangspunkt für statistische Analysen ist das Datenmaterial. Daten sind die Ergebnisse von Messvorgängen. Diese werden auch als Beobachtungen (in SAS mit OBS für Observations) bezeichnet. Messen bedeutet, Eigenschaften von "Objekten" festzustellen. Die "Messlatte", auf der die Ausprägung einer Eigenschaft eines Objektes abgetragen wird, heißt Skala. Man unterscheidet Skalen unterschiedlichen Messniveaus, je nachdem in welcher Art und Weise eine Eigenschaft in Zahlen ausgedrückt werden kann. In Abb. 6-3 sind die verschiedenen Skalen angegeben. Einige Beispiele für Nominalskalen sind: a)
Geschlecht (Antworten: männlich - weiblich)
b)
Haarfarbe (Antworten: schwarz - braun - blond - andere)
c)
Raucher
(Antworten: ja - nein)
Nominalskalen stellen also Klassifizierungen qualitativer Ausprägungen einer Eigenschaft dar. Werden die Ausprägungen der Eigenschaften in Zahlen ausgedrückt, z. B. 2 für männlich, 1 für weiblich, dienen diese Zahlen allein der leichteren Handhabung. Statt 1 und 2 hätten genausogut andere Symbole verwendet werden können. Mit den Kodierungen der Zahlen dürfen keinerlei rechnerische Transformationen (z. B. Additionen, Multiplikationen) durchgeführt werden; lediglich lassen sich Häufigkeiten in den einzelnen Merkmalsklassen ermitteln. Hat eine nominalskalierte Variable nur zwei Ausprägungen (wie im Beispiel c), so wird diese auch als dichotome Variable bezeichnet. Die Ordinalskala stellt das nächsthöhere Messniveau dar.
6.2 Skalenniveaus
93
Ein Beispiel: Mit der Fernsehsendung "Tagesschau" bin ich sehr zufrieden, meistens, aber nicht immer zufrieden, eher unzufrieden, meist nicht zufrieden.
Führen Sie bei diesem Beispiel eine Kodierung der Antworten von 1 bis 4 durch, sagen diese Werte nichts über die Abstände zwischen den Objekten aus. Ordinalskalenwerte geben nur "Rangwerte" wieder. Daher sollten ordinale Skalen auch keinen rechnerischen Transformationen, wie z.B. Addition, Subtraktion oder Multiplikation unterzogen werden. Statt des Mittelwerts der Datenwerte ist der Median heranzuziehen. Variablen, die einer Nominalskala oder auch Ordinalskala genügen, werden auch als kategorielle Variablen bezeichnet. Das nächsthöhere Messniveau stellt die Intervallskala dar. Diese weist gleich große Skalenabschnitte aus. Ein typisches Beispiel ist das Thermometer, das den Abstand zwischen Gefrierpunkt und Siedepunkt des Wassers in hundert gleich große Abschnitte einteilt. Intervallskalen erlauben die rechnerischen Operationen der Addition und Subtraktion. Das höchste Messniveau stellt die Verhältnisskala dar. Es unterscheidet sich von der Intervallskala dadurch, dass zusätzlich ein natürlicher Nullpunkt existiert. Beispiele sind Körpergröße oder Preise, aber auch die Temperatur in Grad Kelvin. Verhältnisskalen erlauben alle mathematischen Transformationen. Nominalskala und Ordinalskala werden auch als nichtmetrische Intervallskala und Verhältnisskala als metrische Skalen bezeichnet.
Skalen,
94
6 Statistische Tests und ihre Grundlagen
6.3 Voraussetzungen für Tests Alle statistischen Test haben gewisse Voraussetzungen an das Datenmaterial. Sind diese Voraussetzungen nicht erfüllt, dürfen die Tests nicht benutzt werden. Eine Gefahr bei SAS und auch bei allen anderen Statistik-Programmpaketen besteht darin, dass die Tests leider trotzdem durchgeführt werden können, wenn die Voraussetzungen nicht erfüllt sind. Die erhaltenen Ergebnisse sind aber nichts wert. Bei vielen Testverfahren wird eine Normalverteilung der Daten vorausgesetzt. Hier genügt es also nicht, dass die Daten einfach nur metrisch skaliert sind. Die Verfahren, die keine Verteilungsvoraussetzungen benötigen, sind die sogenannten parameterfreien oder nichtparametrischen Verfahren. Mit einem Histogramm (siehe Kapitel 5.5) kann man sich einen Überblick darüber verschaffen, bei welchen Variablen die Voraussetzung der Normalverteilung grob verletzt ist. Eine zweite Möglichkeit die Normalverteilung mit SAS graphisch zu überprüfen besteht darin, einen P-P-Plot durchzuführen. Dies zeigen wir später. Wir fuhren zunächst einen Test auf Normalverteilung durch. Ein Test, mit der die Normalverteilung überprüft werden kann, ist der ShapiroWilk-Test, sowie der Kolmogorov-Smirnov-Test. Bei diesen Tests besagt die Nullhypothese, dass die Daten aus einer normalverteilten Grundgesamtheit stammen. Man spricht in diesem Fall von einem sogenannten Anpassungstest. Üblicherweise wird hier oft ein Signifikanzniveau von 20% oder 25% gewählt. Falls die Nullhypothese dann trotz dieser hohen Fehlerwahrscheinlichkeit nicht verworfen werden kann, spricht nichts gegen eine Normalverteilung. Wir werden im Folgenden überprüfen, ob die Variable normalverteilt angesehen werden kann. Dies kann im UNIVARIATE mit der Option NORMAL getan werden. Beobachtungen wird automatisch der Shapiro-Wilk-Test anderen Fall der Kolmogorov-Smirnov-Test.
V6 (Körpergröße) als Rahmen der Prozedur Bei weniger als 2000 durchgeführt und im
SAS-Programm: PROC U N I V A R I A T E DATA = DISK.FRAGEBOG NORMAL; VAR V6 ; RUN;
SAS-Ergebnisausgabe:
95 Univariate Procedure Variable=V6 Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num "= 0 M(Sign) Sgn Rank W:Normal
21 173.5714 7.606388 -0.18253 633825 4.382281 104.5706 21 10.5 115.5 0.972815
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| PrF' = 0.8863 (2)
In der ersten Tabelle kann unter Mean (1) der Mittelwert für die Gruppe der Männer, welcher 178,2727273 beträgt, und darunter der Wert von 168,1111111 für die Gruppe der Frauen abgelesen werden. In der letzten Zeile der Ergebnisausgabe (2) ist ein F'-Wert von 1,08 und ein p-Wert von 0,8863 zu erkennen. Hier wird ein Test auf Gleichheit der Varianzen zwischen den beiden Gruppen durchgeführt. Diese Hypothese kann, wegen des p-Werts von 0,8863 (>0,20), nicht verworfen werden (siehe Kapitel 6.3). Dies ist wichtig, da die Gleichheit der Varianzen eine Voraussetzung für den klassischen t-Test ist. Sollte die Hypothese der Gleichheit der Varianzen verworfen werden, so kann der p-Wert von 0,0015 (3) für ungleiche Varianzen (unequal) verwendet werden. Der p-Wert für den t-Test bei gleichen Varianzen beträgt 0,0013 (4). Da dieser Wert kleiner als das gewählte Signifikanzniveau von 0,05 ist, besteht ein signifikanter Unterschied zwischen den Mittelwerten, d.h. die Nullhypothese der Gleichheit der Erwartungswerte wird verworfen.
7.1 Mittelwertsvergleiche bei normalverteilten Stichproben
105
Bemerkungen und genauere Beschreibung der SAS-Ergebnisausgabe: Der t-Test darf aber nur angewandt werden, wenn gewisse Voraussetzungen erfüllt sind. Andernfalls wird von SAS trotzdem ein p-Wert ausgerechnet; dieser Wert darf aber nicht interpretiert werden und liefert auch keine Aussagen über die Signifikanz. Welche Voraussetzungen notwendig sind, wird weiter unten erläutert. Zunächst sollen aber die einzelnen Ergebnisse ausfuhrlich erläutert werden. (1)
Es sei x, der Mittelwert (Mean), s j die Standardabweichung (Std Dev = Standard Deviation) und n j der Stichprobenumfang (N) der Gruppe 1, also der männlichen Personen. Es gilt (gerundet): x, = 178,273
s j = 5,850 nL = 11
Für die zweite Gruppe (Geschlecht weiblich) gilt: x 2 = 168,111
s 2 = 6,092 n 2 = 9
(2)
F-Test für die Varianzhomogenität der beiden Stichproben: Es wird getestet, ob die Varianzen der beiden Gruppen in der Grundgesamtheit gleich sind. Da ein relativ hohes Signifikanzniveau von 0,8863 berechnet wurde, schließt man auf die Varianzhomogenität in den Grundgesamtheiten. Korrekterweise dürfen Sie nur daraus schließen, dass die Hypothese (dass die Varianzen gleich sind) nicht verworfen wird.
(3)
Bei "equal" ist die 'klassische' Version des t-Tests aufgeführt. Wann sind die Mittelwerte signifikant verschieden? Dazu berechnet SAS die Teststatistik t.
Die Teststatistik ist Student-t-verteilt mit nj+n2~2 = 18 Freiheitsgraden (DF = Degrees of Freedom). Wenn t sehr groß ist, ist die Hypothese zu verwerfen, dass die Erwartungswerte in den Grundgesamtheiten gleich sind. Was heißt dabei sehr groß? Dazu wird der p-Wert, hier bezeichnet als "Prob > |T|", angegeben. Ist dieser Wert kleiner als die vorgegebene Irrtumswahrscheinlichkeit, sind die Mittelwerte signifikant verschieden. Bei einer Irrtumswahrscheinlichkeit (Niveau) von 5 % (5% = 0,05) wird die Hypothese der Gleichheit der Erwartungswerte verworfen, da 0,001 < 0,05; es existieren also zwischen den zwei Messreihen signifikante Mittelwertsunterschiede.
106
7 Einfache Methoden der schließenden Statistik Der t-Test setzt voraus, dass die Varianzen der beiden Gruppen in der Grundgesamtheit gleich sind. Aus (2) ergibt sich, dass diese Voraussetzung erfüllt ist. Hinweis: Durch Halbierung des angegebenen p-Werts erhalten Sie den p-Wert für den einseitigen Mittelwertstest. Vorausgesetzt wird natürlich, dass die in H j ausgesagte Richtung der Mittelwertsdifferenz vorliegt (vgl. Kapitel 6.1).
(4)
Sind die Varianzen nicht gleich, wird ein entsprechender approximativer Test bei 'unequal' durchgeführt. Ist der p-Wert kleiner als die vorgegebene Irrtumswahrscheinlichkeit, sind die Mittelwerte der beiden Gruppen signifikant verschieden. Hinweis: Die Ergebnisausgabe von SAS suggeriert, dass es adäquat ist, in Abhängigkeit von (2) eine Wahl zwischen (3) und (4) vorzunehmen. Es wird verschwiegen, dass sich die Verteilung der Tests unter der Nullhypothese durch die Bedingungen auf die Entscheidung (2) ändert und die berechneten p-Werte unter Umständen nicht korrekt sind. Trotzdem wird in der Praxis so vorgegangen.
Vorausgesetzt wird bei allen drei obigen Tests, dass die erste sowie die zweite Stichprobe aus normalverteilten Grundgesamtheiten stammen. Dies kann mit dem Shapiro-Wilk- bzw. Kolmogorov-Smirnov-Test überprüft werden. Hierzu muss also der Test auf Normalverteilung für die Körpergröße der Männer, sowie für die Körpergröße der Frauen getrennt durchgeführt werden. Im Kapitel 6 wird die Durchfuhrung dieses Tests mit SAS beschrieben. Wir verwenden wieder die Prozedur UNIVARIATE mit der Option NORMAL. Mit der BY-Anweisung wird der Test für jede Kategorie der BY-Variablen (V4 bzw. Geschlecht) durchgeführt. Hier muss zuvor aber nach der Variablen in der BY-Anweisung sortiert werden. Mit dem folgenden SAS-Programm erhalten Sie die beiden p-Werte für den Anpassungstest auf Normalverteilung: PROC SORT DATA = DISK.FRAGEBOG OUT = TEMP; BY V4; RUN; PROC UNIVARIATE DATA = TEMP NORMAL; VAR V6; BY V4; RUN;
7.1 Mittelwertsvergleiche bei normalverteilten Stichproben
107
Es folgt ein Teil der SAS-Ergebnisse:
V4 = l Univariate Variable=V6
Procedure
Größe Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num 0 M(Sign) Sgn Rank W:Normal
11 178.2727 5.849631 -0.66751 349935 3.281282 101.0771 11 5.5 33 0.90883
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr|T| Num > 0 Pr>=|M| Pr>=|S| Pr 0,20) noch bei den Männern (p-Wert von 0,2257) verworfen werden.
In einem weiteren Beispiel, soll überprüft werden, ob signifikante Mittelwertsunterschiede im Gewicht (V5) zwischen Rauchern und Nichtrauchern (V8) bestehen. Geben Sie dazu das folgende Programm ein und starten es mit : PROC TTEST DATA=DISK.FRAGEBOG; VAR V5 ; CLASS V8 ; RUN;
108
7 Einfache Methoden der schließenden Statistik
Sie erhalten dann die folgenden Ergebnisse: TTEST
PROCEDURE
Variable: V 5 V8
N
Mean
Std Dev
Std Error
1
7 14
71.57142857 66.28571429
10.04750621 9.89505371
3.79760039 2.64456434
2
Variances Unequal Equal
T
DF
1.1422 1.1483
11. 9 19.0
Prob>IT 0.2758 0.2651
For HO: Variances are equal, F' = 1.03
DF = (6,13)
Prob>F' = 0.8969
Wie zu sehen ist, besteht aufgrund des p-Wertes von 0,2651 kein signifikanter Unterschied im durchschnittlichen Körpergewicht zwischen Rauchern und Nichtrauchern. Die Hypothese der Varianzgleichheit kann ebenfalls aufgrund des p-Werts von 0,8969 nicht verworfen werden. Nun müsste ebenfalls die Hypothese der Normalverteilung bzgl. der Variablen V5 (Körpergewicht) in der Gruppe der Raucher und Nichtraucher (V8) überprüft werden. Wir wählen ein für Anpassungstests übliches Signifikanzniveau von 20% (vgl. Kapitel 6.3). Das folgende Programm liefert für die Gruppe der Raucher einen pWert von 0,4640 (> 0,20) und für die Gruppe der Nichtraucher den p-Wert von 0,8675 (> 0,20), so dass die Hypothesen der Normalverteilung mit dem ShapiroWilk-Test nicht verworfen werden können: PROC SORT DATA = DISK. FRAGEBOG OUT = TEMP; BY V8 ; RUN; PROC UNIVARIATE DATA = TEMP NORMAL; VAR V5 ; BY V8 ; RUN;
7.1 Mittelwertsvergleiche bei normalverteilten Stichproben
109
7.1.2 Mittelwertsvergleich bei abhängigen Stichproben Bei zehn Personen wurde das Gewicht vor und nach einer Behandlung festgestellt. Es soll getestet werden, ob ein signifikanter Unterschied zwischen den Mittelwerten der zwei Gewichte (Variablennamen: GEWICHT 1 und GEWICHT2) besteht. Es liegen abhängige Stichproben vor, da die Gewichte (GEWICHT1 und GEWICHT2) an den gleichen Personen (Fällen) ermittelt wurden. Beispielsweise könnte folgende Datenmatrix vorliegen:
GEWICHT 1 GEWICHT2 57 55 49 48 55 54 67 66 70 70 65 67 66 66 78 74 60 60 70 71 Daten: GEWICHT
Mit dem folgenden SAS-Programm wird die obige Datenmatrix in der Datei GEWICHT gespeichert: DATA DISK.GEWICHT; INPUT GEWICHT1 GEWICHT2; CARDS; 57 55 49 48 55 54 67 66 70 70 65 67 66 66 78 74 60 60 70 71 RUN;
Mit der Prozedur MEANS fiihren wir nun den t-Test durch. Hierzu berechnen wir zunächst die Differenz zwischen den beiden Gewichten und speichern diese in der Variablen DIFF. Geben Sie das folgende Programm ein und starten Sie es mit der Funktionstaste :
110
7 Einfache Methoden der schließenden Statistik
D A T A DISK.GEWICHT; SET DISK.GEWICHT; D I F F = GEWICHT1-GEWICHT2; RUN; PROC M E A N S DATA = DISK. GEWICHT MEAN T PRT; V A R DIFF; RUN; Sie erhalten die folgenden Ergebnisse: Analysis
Variable
:
DIFF Mean
T
Prob>|T|
0.6000000
1.1523319
0.2789
Unter Mean steht nun der Mittelwert über die Differenzen der Körpergewichte. Zur Überprüfung, ob signifikante Mittelwertsunterschiede bestehen, werden der tWert und die Freiheitsgrade berechnet. Daraus bestimmt sich der dann berechnete p-Wert. Für den t-Wert ergibt sich: x, - x , 63,7-63,1 , ,, t=— £ =— = 1,15 sD / v n 1,647/VlO mit: s D = Standardabweichung der paarweisen Differenzen, n = Stichprobenumfang. Die Teststatistik ist t-verteilt mit n-1 Freiheitsgraden. Freiheitsgrade = n - 1 = 1 0 - 1 = 9.
Den p-Wert für Mittelwertstest finden Sie in der letzten Spalte der Ergebnisausgabe. Wegen 0,2789 > 0,05 bestehen keine signifikanten Mittelwertsunterschiede. Der Mittelwertstest verlangt, dass die Differenzen aus einer normalverteilten Grundgesamtheit stammen. Zur Überprüfung auf Normalverteilung wird wieder die Prozedur UNIVARIATE benutzt: PROC U N I V A R I A T E DATA = DISK. GEWICHT NORMAL; V A R DIFF; RUN;
7.1 Mittelwertsvergleiche bei normalverteilten Stichproben
111
Sie erhalten die folgenden Ergebnisse: Univariate
Procedure
Variable=DIFF Moments N Mean Std Dev Skewness USS CV T:Mean=0 Num ~= 0 M(Sign) Sgn Rank W:Normal
10 0.6 1.646545 0. 619778 28 274.4242 1.152332 7 1. 5 6 0.944024
Sum Wgts Sum Variance Kurtosi s CSS Std Mean Pr> 1TI Num > 0 Pr>=•IMI Pr>=:ISI Pr0,20, spricht jedoch nichts gegen die Normalverteilungshypothese, vgl. Kapitel 6.3.
7 Einfache Methoden der schließenden Statistik
112
7.1.3 Mittelwertsvergleich bei einer Stichprobe Mit SAS können Sie ganz einfach, in Analogie zu den zuvor beschriebenen Beispielen, einen Mittelwertsvergleich bei einer Stichprobe durchführen. Hier ist die Nullhypothese, die Stichprobe stammt aus einer normalverteilten Grundgesamtheit mit einem bestimmten Erwartungswert Ho- Also: Ho : n = Ho gegen Ha : H
*
Mo
Mit Hilfe eines kleinen Tricks, den wir im Folgenden beschreiben, können Sie nun überprüfen, ob eine Stichprobe aus einer Grundgesamtheit mit einem bestimmten Erwartungswert (iD stammt. Es soll überprüft werden, ob der Erwartungswert der Variablen GEWICHT2 (im Beispiel aus Kapitel 7.1.2) 70kg beträgt. Wir erzeugen nun wieder eine Variable DIFF2, in der wir den Wert 70 von der Variablen GEWICHT2 subtrahieren. Danach testen wir wieder die Hypothese, dass der Erwartungswert der Variablen DIFF2 gleich Null ist, was äquivalent zu der Hypothese ist, dass der Erwartungswert der Variablen GEWICHT2 gleich 70 ist. Geben Sie nun das folgende Programm ein und starten Sie es mit : DATA DISK.GEWICHT; SET DISK.GEWICHT; DIFF2 = GEWICHT2-7 0 ; RUN; PROC MEANS DATA = DISK. GEWICHT MEAN T PRT; VAR D I F F 2 ; RUN; Sie erhalten die folgenden Ergebnisse: Analysis Variable
: DIFF2 Mean
T
Prob>|T|
-6.9000000
-2.5736635
0.0300
7.1 Mittelwertsvergleiche bei normalverteilten Stichproben
113
Wie zu erkennen ist, muss die Hypothese, dass der Erwartungswert gleich 70 kg beträgt, verworfen werden (da 0,03 < 0,05). Da der Mittelwert der Variablen DIFF2 gleich -6,9 ist, ist der Mittelwert der Variablen GEWICHT2 um 6,9 kleiner als 70. Hätten wir einen einseitigen Test mit der Nullhypothese, dass der Erwartungswert größer als 70 ist, gegen die alternative Hypothese, dass er kleiner als 70 ist, durchgeführt, so könnten wir die Nullhypothese zugunsten der alternativen Hypothese verwerfen (einseitiger p-Wert = 0,0300/2 = 0,0150 < 0,05). Wir hätten dann nachgewiesen, dass der Erwartungswert signifikant kleiner als 70 ist. Eine Voraussetzung für diesen Test ist die Normalverteilung der Variablen DIFF2, was aber gleichbedeutend ist mit der Normalverteilung der Variablen GEWICHT2. Die Überprüfung verläuft analog zum Kapitel 7.1.2. Sie ergibt einen p-Wert des Shapiro-Wilk-Tests von 0,4980 (>0,20), woraufhin die Hypothese der Normalverteilung der Variablen DIFF bzw. GEW1CHT2 nicht verworfen werden kann.
114
7 Einfache Methoden der schließenden Statistik
7.2 Einfaktorielle Varianzanalyse Mit der einfaktoriellen Varianzanalyse kann der Einfluss einer kategoriellen Variablen (Faktorvariable) auf eine metrisch skalierte Variable untersucht werden. Z.B. könnten Sie den Einfluss der Augenfarbe auf das Körpergewicht betrachten. Ob dieses Beispiel sinnvoll ist, ist natürlich eine andere Frage. In unserem Beispiel Fragebogen hat die Variable V l l , die die Augenfarbe repräsentiert, 4 mögliche Ausprägungen. Nach diesen Ausprägungen lässt sich die Variable V l l in 4 Gruppen einteilen, und es könnte für jede Gruppe die mittlere Körpergröße bestimmt werden. Hat nun die Augenfarbe einen signifikanten Einfluss auf die Körpergröße, so müssten die Mittelwerte der 4 Gruppen signifikant voneinander abweichen. Somit lässt sich die grundlegende Hypothese der Varianzanalyse spezifizieren: HQ : Alle Erwartungswerte sind gleich: n, = (i2 = |i 3 = n 4 = n H ^ : Mindestens ein Erwartungswert weicht ab: Es existiert ein j mit: Hj * |j. (j = 1, 2, 3, 4) Für die Varianzanalyse gelten u.a. folgende Voraussetzungen: - Metrische Skalierung der abhängigen Variablen. - Faktorvariable (unabhängige Variable) ist eine kategorielle (d.h. nominal- oder ordinalskalierte) Variable. - Die abhängige Variable stammt bezüglich jeder Kategorie der Faktorvariablen aus einer normalverteilten Grundgesamtheit, d.h., jede Gruppe stammt aus einer normalverteilten Grundgesamtheit. - Gleichheit der Varianzen in den einzelnen Gruppen. Bemerkung: Wir betrachten in diesem Kapitel die einfaktorielle Varianzanalyse. Bei der mehrfaktoriellen Varianzanalyse gelten die gleichen Voraussetzungen wie bei der einfaktoriellen Varianzanalyse, nur existieren mehrere Faktorvariablen.
Für die Varianzanalyse lässt sich ein sogenanntes lineares Modell aufstellen. Dies sieht wie folgt aus: Y^j) = n + ßj+E[ j )
( j = l,2,...,k)
7.2 Einfaktorielle Varianzanalyse
115
Mit dem Index j wird die Gruppe festgelegt und der Index i bezeichnet die i-te Beobachtung in der j-ten Gruppe. In unserem Fall kann der Index j Werte zwischen 1 und 4 annehmen, da die Variable VI 1 (Augenfarbe) vier Ausprägungen besitzt. ßj bezeichnet den Einfluss der j-ten Gruppe und Ep' den Fehler. Falls die Erwartungswerte aller Gruppen gleich wären, so wären alle ßj = 0. Wir führen im Folgenden eine einfaktorielle Varianzanalyse mit SAS durch. Hierfür stellt SAS die Prozedur ANOVA zur Verfügung. Mit ihr können auch mehrfaktorielle Varianzanalysen durchgeführt werden. Geben Sie nun das folgende Programm ein und starten Sie es mit : PROC ANOVA DATA = DISK.FRAGEBOG; CLASS V l l ; MODEL V6 = V l l ; MEANS V l l ; RUN; Wie Sie sehen, steht die abhängige Variable auf der linken Seite des Gleichheitszeichens in der MODEL-Anweisung des SAS-Programms. Auf der rechten Seite steht die Faktorvariable (oder die Faktorvariablen), d.h. die unabhängige Variable. Mit der MEANS-Anweisung erhalten Sie jeweils den Mittelwert über die Variable V6 für jede Kategorie der Variablen VI 1. Sie erhalten die folgenden Ergebnisse: Analysis of Variance
Procedure
Dependent Variable: V6 Source
DF
Sum of Squa res
Model
3
308.3333333
102.7777778
Error
8
416.5833333
52.0729167
11
724.9166667
Corrected Total
Mean Square
F Value 1.97
Pr > F 0.1966
R-Square
C.V.
Root MSE
V6 Mean
0. 425336
4.157171
7.216157
173.5833
Source
DF
Vll
3
Anova SS 308.3333333
Mean Square 102.7777778
F Value 1.97
Pr > F 0.1966
116
7 Einfache Methoden der schließenden Statistik
Analysis of Variance
Procedure Level of Vil
N
V6
1 2 3 4
3 2 4 3
Mean
SD
182.333333 170.500000 170.250000 171.333333
5.85946528 9.19238816 8.77021474 4.04145188
Unter "Analysis of Variance" (erste Zeile der SAS-Ergebnisse) ist die Tafel der Varianzanalyse zu finden, die im Folgenden erklärt wird:
Source Model (Between Groups)
k-1
Error (Within Groups)
n-k
Total
n-1
Mean Square
Sum of Squares
DF
SST = £
n j
(y
( j )
-y)
m s t =
2
j=i
SSE =
Ì Ì > P - y ^ )
2
MSE =
j=i i=i
s s G = £ i > i
J )
- y )
s s t
k-i
F
Value P _
MST MSE
S S E
n-k
2
j=l ¡=1
k ist hierbei die Anzahl der Gruppen und n die Anzahl der gesamten Fälle, nj bezeichnet die Anzahl der Beobachtungen in der j-ten Gruppe, y ( j ) den Mittelwert der j-ten Gruppe und y ist das Gesamtmittel. y, j ) ist der i-te Beobachtungswert der j-ten Gruppe. In unserem Beispiel ist k = 4 und n = 12. Für die Quadratsummen im Beispiel gilt: SST = 308,3333333 SSE = 416,5833333 SSG = 724,9166667
(Streuung zwischen den Gruppen) (Streuung innerhalb der Gruppen) (Gesamtstreuung)
Die Bezeichnungen SST, SSE und SSG sind aus Härtung (1995) übernommen. In der englischsprachigen Literatur finden Sie die Abkürzungen anders.
7.2 Einfaktorielle Varianzanalyse
117
Wie zu erkennen ist gilt: SSG = SST + SSE. Der F-Wert, der sich aus dem Quotient aus der mittleren Streuung zwischen den Gruppen und der mittleren Streuung innerhalb der Gruppen ergibt, wird wie folgt berechnet: p
_ 102,777778 _
{
52,0729167 Ist dieser Quotient zu groß, so spricht dies gegen die Hypothese der Gleichheit der Erwartungswerte. In unserem Fall ergibt sich ein p-Wert von 0,1966. Somit kann die Nullhypothese, dass die Erwartungswerte in jeder Gruppe gleich groß sind, nicht verworfen werden. Es gibt deshalb keinen signifikanten Unterschied zwischen den Gruppen. Den Mittelwert für jede Gruppe können Sie im letzten Teil der SAS-Ergebnisausgabe unter 'Mean' ablesen: y (1) = 182,333333 y
(2)
(n,=3)
= 170,500000
(n2=2)
y ( 3 ) = 170,250000
(n3=4)
y
(4)
= 171,333333
(n4=3)
Neben der Voraussetzung der Varianzhomogenität, die zu überprüfen ist, muss in unserem Beispiel noch überprüft werden, ob jede Gruppe aus einer normalverteilten Grundgesamtheit stammt. Wie dies mit SAS realisiert werden kann, wurde bereits im Kapitel 7.1.1 für zwei Gruppen gezeigt. Wird dies analog für die vier Gruppen getan, ergeben sich die folgenden p-Werte des Shapiro-Wilk-Tests für jede der vier Gruppen: p-Wert p-Wert p-Wert p-Wert
(für VI 1 = (für VI 1 = (für VI 1 = (für V l l =
1): 2): 3): 4):
0,3275 1,0000 0,7739 0,0001
Wie zu sehen ist, sind alle p-Werte, bis auf den letzten, größer als 0,25, womit die Hypothesen der Normalverteilung bei den ersten drei Gruppen nicht verworfen werden können, vgl. Kap. 6.3.
118
7 Einfache Methoden der schließenden Statistik
Wir werden nun eine weitere einfaktorielle Varianzanalyse durchfuhren. Wie wir bereits erläutert haben, ist bei einer Varianzanalyse, sofern es einen signifikanten Unterschied zwischen den Gruppen gibt, nicht bekannt, welche Gruppen sich signifikant unterscheiden. Aus diesem Grund wollen wir mit einem SchefFe-Test zusätzlich untersuchen, zwischen welchen Gruppen es einen signifikanten Unterschied gibt. In unserem Beispiel wurde die Zugfestigkeit von drei verschiedenen Drahtsorten untersucht und in der folgenden Tabelle eingetragen (Höchstbelastung in Newton pro mm 2 ): SORTE1
SORTE2
SORTE3
9,1 15,1 7,4
7,2 6,8 14,2 13,0 15,9 10,7
9,7 11,4 17,2 19,4 18,1 14,5
3,1 7,3 10,7
Daten: DRAHT
Wir wollen nun untersuchen, ob es einen signifikanten Unterschied in der Festigkeit zwischen den Gruppen gibt. Falls es einen signifikanten Unterschied gibt, wollen wir weiterhin wissen, zwischen welchen Sorten dieser besteht. Hierzu müssen die Daten zunächst in einem SAS-DATASET speichern. Um danach die Varianzanalyse durchführen zu können, müssen die Werte untereinander gespeichert werden, wobei eine Faktorvariable die jeweilige Sorte definiert. Mit dem folgenden Programm werden die Werte in dem SAS-DATASET DRAHT gespeichert: DATA DISK.DRAHT; INPUT SORTE FESTIGK; CARDS; 1 9 1 1 15 1 1 7 4 1 3 1 7 3 1 1 10 7 7 2 2 2 6 8 14 2 2 2 13 0 15 9 2 10 7 2
7.2 Einfaktorielle Varianzanalyse 3 3 3 3 3 3 RUN;
119
9.7 11.4 17.2 19.4 18.1
14.5
Mit dem folgenden Programm wird nun die Varianzanalyse mit dem Scheffe-Test durchgeführt: PROC ANOVA DATA = DISK.DRAHT; CLASS SORTE; MODEL FESTIGK = SORTE; MEANS SORTE / SCHEFFE; RUN; In unserem Modell zur Varianzanalyse ist nun die Variable FESTIGK abhängige Variable zu definieren und die Variable SORTE als unabhängige. der Option SCHEFFE in der MEANS-Anweisung, wird der Scheffe-Test als genanntes Post-hoc-Verfahren verwendet. Der Scheffe-Test gilt allgemein konservativer Test.
als Mit soals
Mit SAS können Sie eine ganze Reihe von Post-hoc-Verfahren verwenden. Die hierzu nötigen Optionen, sowie die Erklärung für die bekanntesten, finden Sie im Folgenden:
Geringste signifikante Differenzen (Option T): Hier werden t-Tests verwendet, um paarweise alle möglichen Gruppenunterschiede zu vergleichen. Es erfolgt dabei keine Korrektur des Fehlerniveaus für mehrfache Vergleiche. Bonferroni (Option BON): Viele multiple Vergleichsverfahren sind in SAS verfügbar. Sie unterscheiden sich in der Korrektur des Signifikanzniveaus. Der Bonferroni-Test korrigiert das beobachtete Signifikanzniveau anhand der durchzuführenden Vergleiche. Wenn Sie beispielsweise 20 paarweise Vergleiche durchführen, muss das beobachtete Signifikanzniveau für jeden Einzelvergleich kleiner als 0,05/20 oder 0,0025 sein, damit der Unterschied zum Niveau 0,05 als signifikant eingeschätzt werden kann.
120
7 Einfache Methoden der schließenden Statistik
Duncans Test für multiple Mittelwertsvergleiche (Option DUNCAN): Nimmt paarweise Vergleiche vor, wobei die Vergleiche schrittweise in der gleichen Reihenfolge wie beim Student-Newman-Keuls-Test ausgeführt werden. Allerdings wird eine Schutzstufe für die Fehlerrate einer Testsammlung gesetzt und keine Fehlerrate für individuelle Tests. Student-Newman-Keuls (Option SNK): Führt alle paarweise Vergleiche zwischen den Mittelwerten durch und verwendet dabei die studentisierte Bereichsverteilung. Bei gleicher Stichprobengröße, oder wenn "Harmonische Mittel über alle Gruppen" ausgewählt ist, werden auch innerhalb homogener Untergruppen Mittelwertpaare mit einer schrittweisen Prozedur verglichen. Mit dieser Prozedur werden Mittelwerte vom größten zum kleinsten sortiert und extreme Differenzen zuerst getestet. Tukey ehrlich signifikante Differenzen (Option TUKEY): Verwendet die studentisierte Rangstatistik, um alle paarweisen Vergleiche zwischen den Gruppen durchzuführen. Legt die Fehlerrate des Experiments bei der Fehlerrate der gesamten paarweisen Vergleiche fest. Scheffe (Option SCHEFFE): Führt für alle möglichen paarweisen Kombinationen gleichzeitige, gemeinsame und paarweise Vergleiche durch. Verwendet die F-Verteilung. Der Scheffe-Test kann im Gegensatz zu den Tukey-Tests auch bei ungleichen Gruppengrößen verwendet werden. Weitere Optionen sind: DUNNET, DUNNETL, DUNNETU, GABRIEL, GT2, LSD, REGWF, REGQ, SIDAK, SMM, WALLER. Wenn Sie das oben stehende SAS-Programm mit starten, erhalten Sie die folgenden Ergebnisse:
Analysis of Variance Procedure Class Level Information Class
Levels
SORTE
3
Values 12 3
Nuraber of observations in data set = 18
121
7.2 Einfaktorielle Varianzanalyse Analysis of Variance Procedure Dependent Variable: FESTIGK Source
DF
Sum of Squares
Model
2
119.33444444
59.66722222
Error
15
225.06333333
15.00422222
Corrected Total
17
344.39777778
R-Square 0.346502
DF
SORTE
2
F Value
Pr > F
3.98
0.0411
(1)
C.V. 33.07567
Source
Mean Square
Root MSE 3.87352839
Anova SS
Mean Square
FESTIGK Mean 11.71111111
F Value
Pr > F (2)
119.33444444
59.66722222
3.98
0.0411
Analysis of Variance Procedure Scheffe's test for variable: FESTIGK NOTE: This test controls the type I experimentwise error rate but generally has a higher type II error rate than REGWF for all pairwise comparisons Alpha= 0.05 df= 15 MSE= 15.00422 Critical Value of F= 3.68232 Minimum Significant Difference= 6.0691 the same letter are not significantly different. Scheffe Grouping
Mean
N
SORTE
A A A
15.050
6
3
11.300
6
2
8.783
6
1
B B B
Mit dem p-Wert (Pr > F, siehe (1) in der Varianzanalyse-Tafel) von 0,0411 haben wir einen signifikanten Unterschied der Mittelwerte nachgewiesen. Da es nur eine Faktorvariable gibt, ist der p-Wert fiir den Einfluss dieser Variablen (2) identisch mit dem p-Wert für den Gesamteinfluss (1). Weiterhin können wir nun mit dem Scheffe-Test untersuchen, zwischen welchen Gruppen es einen signifikanten Unter-
122
7 Einfache Methoden der schließenden Statistik
schied bei einem Signifikanzniveau von 5% (0,05) gibt. Hier wird jedoch kein pWert ausgegeben. Sie können allerdings das Signifikanzniveau selbst definieren, indem Sie in der 4. Programmzeile hinter der Option SCHEFFE die Option ALPHA = ... einfügen. In der Voreinstellung wird 0,05 gewählt. Den Scheffe-Test finden Sie im letzten Teil des Ergebnisausgabe. Hier sind die Gruppen (Sorten) mit verschiedenen Buchstaben signifikant verschieden. Die Sorte 2 (sie hat die mittlere Festigkeit von 11,300) hat die Buchstaben A und B und unterscheidet sich somit von keiner anderen signifikant. Die Sorte 3 hatte nur den Buchstaben A und die Sorte 1 den Buchstaben B. Es gibt damit in unserem Beispiel einen signifikanten Unterschied zwischen der ersten und dritten Gruppe bzw. Sorte, wobei die Sorte 1 eine mittlere Festigkeit von 15,05 und die Sorte 1 eine Festigkeit von 8,783 hat. Der Test kann auch so aufgefasst werden: Zwischen der zweiten und dritten Sorte sowie zwischen der ersten und zweiten Sorte bestehen keine signifikanten Unterschiede.
123
7.3 Bivariate Korrelation
7.3 Bivariate Korrelation 7.3.1 Pearson'scher Korrelationskoeffizient Mit der bivariaten Korrelation soll nun der Zusammenhang zweier intervallskalierter Stichproben, bzw. zweier Variablen X und Y, untersucht werden. Falls die beiden Variablen außerdem normalverteilt sind, kann zusätzlich ein Test durchgeführt werden, mit der Nullhypothese, dass die Korrelation gleich 0 ist. Als Beispiel dienen die Variable V5 (Körpergewicht) und V6 (Körpergröße) aus dem Beispiel Fragebogen. Da wir auch die Testergebnisse interpretieren wollen, sollten die Normalverteilungsannahmen untersucht werden. Die Normalverteilungsannahme wurde bereits bei der Variablen V6 im Kapitel 6 überprüft. Mit dem Shapiro-Wilk-Test überprüfen wir nun die Normalverteilungshypothese bei der Variablen V5. Hierzu dient das folgende Programm: PROC U N I V A R I A T E DATA = DISK.FRAGEBOG NORMAL; VAR V5 ; RUN;
In der Ergebnisausgabe finden Sie wieder die folgende Zeile zum Shapiro-WilkTest: W:Normal
0.969709
Pri-xXyi-y) r ^ = . i=1 ^ S 'S ( n n X " JZ(x,-x)2-Z(yi-y)2 Vi=l i=l Hierbei ist n die Anzahl der Fälle, x, die Beobachtungen der ersten Variablen (z.B. V5) und y, die Beobachtungen der zweiten Variablen (z.B. V6). x und y sind die jeweiligen Mittelwerte. Für den Korrelationskoeffizienten r gilt: -1 < r < 1. Ein Wert von +1 bedeutet, dass zwischen den Variablen X und Y ein positiver vollständiger linearer Zusammenhang besteht. Zeichnen Sie einem solchen Fall ein Streudiagramm, würden alle Punkte auf einer Geraden liegen, die (nach rechts hin) ansteigt. Ein Wert von -1 bedeutet dagegen, dass alle Punkte auf einer Geraden liegen, die (nach rechts hin) fallt. Auch hier besteht ein vollständiger linearer Zusammenhang. Ein Wert von 0 bedeutet, dass kein linearer Zusammenhang zwischen beiden Variablen vorliegt. In den folgenden Grafiken sind Beispiele für Korrelationen zwischen zwei Variablen X und Y dargestellt.
7 Einfache Methoden der schließenden Statistik
126
VKi: sl • •
m X
•
•
•
•
rxy « 0
rxy « 0,7 (hier quadratischer Zusammenhang)
In unserem Fall gilt r ^ =0,7093. Ob diese signifikant von Null verschieden ist, lässt sich mit einem Test untersuchen, mit der Nullhypothese, dass die Korrelation gleich Null ist. Die Alternative lautet ungleich Null. Die Teststatistik zu diesem Test berechnet sich wie folgt: I n-2
7.3 Bivariate Korrelation
127
Dieser Test liefert uns einen p-Wert von 0,0003. Somit kann die Nullhypothese verworfen werden. Es gibt also einen signifikanten Zusammenhang zwischen der Körpergröße und dem Körpergewicht. Es ist zu bemerken, dass der Korrelationskoeffizient von Pearson ein Maß für die lineare Korrelation zwischen zwei Variablen ist und demnach keine nichtlineare Zusammenhänge erfasst. Wenn Sie in dem SAS-Programm vor der RUN-Anweisung die Anweisung PARTIAL einfügen, können Sie eine Variable für eine Partialkorrelation definieren. Wir Aigen deshalb die Programm-Zeile PARTIAL
VI;
ein und erhalten die folgende Partialkorrelationsmatrix:
Pearson
Partial Correlation / Prob >
V5 Gewicht V6 Größe
Coefficients
|R| u n d e r H o : P a r t i a l R h o = 0
/ N = 21
V5
V6
1.00000
0.70930
0.0 0.70930 0.0005
0.0005 1.00000 0.0
Mit Hilfe der Partialkorrelation kann eine sogenannte Scheinkorrelation ausgeschlossen werden. Oft lässt sich eine Korrelation zwischen zwei Variablen X und Y nur deshalb finden, weil diese mit einer weiteren Variablen W korrelieren. Aus diesem Grund ist oft eine Korrelation zwischen X und Y unter Partialisierung einer Variablen W von Interesse. Somit kann untersucht werden, ob die beiden Variablen X und Y unabhängig vom Einfluss der Variablen W korrelieren. In unserem Beispiel hätten wir nun nachgewiesen, dass das Gewicht (V5) und die Größe (V6) unabhängig vom Einfluss der Variablen Alter (V7) korrelieren (p-Wert: 0,0005 < 0,05).
7 Einfache Methoden der schließenden Statistik
128 7.3.2 Rangkorrelationen
Wir werden nun mit zwei weiteren Korrelationskoeffizienten einen Zusammenhang zwischen den Variablen Körpergrößen (V6), Körpergewicht (V5) und Alter (V7) untersuchen. Der eine ist als der Korrelationskoeffizient von Spearman und der andere als Kendalls tau-b bekannt. Der Spearman'sche entspricht dem Pearson' sehen Korrelationskoeffizienten, nur ist dieser auch für ordinale Skalen und für metrische Skalen ohne Normalverteilungsannahmen geeignet. Kendalls tau-b ist ebenfalls ein Korrelationsmaß für ordinal skalierte Variablen. Beide Korrelationskoeffizienten werden als nichtparametrische Zusammenhangsmaße bezeichnet. Sie nehmen wie der Pearson'sche Korrelationskoeffizient nur Werte zwischen - 1 (negative Korrelation) und 1 (positive Korrelation) an. Die Korrelationskoeffizienten Kendalls tau-b und Spearman erhalten Sie wie den Pearson'sehen Korrelationskoeffizienten mit der Prozedur CORR. Mit der Option NOCORR wird die Ausgabe des Pearson'schen Korrelationskoeffizienten unterdrückt. Schreiben Sie nun das folgende Programm und starten Sie es mit : PROC CORR DATA = DISK.FRAGEBOG NOCORR SPEARMAN KENDALL; VAR V5 V6 V7; RUN; Sie erhalten die folgenden Ergebnisse: Correlation
Analysis 3
'VAR' V a r i a b l e s : Simple
Variable
V5
V6
V7
Statistics
N
Mean
Dev
Median
V5
21
68.047619
10.022356
70.000000
V6
21
173.571429
7.606388
175.000000
V7
21
25.952381
5.103687
25.000000
Simple Variable
Std
Statistics
Minimum
Maximum
V5
49.000000
85.000000
Label
V6
159.000000
189.000000
Größe
V7
21.000000
45.000000
Alter
Gewicht
7.3 Bivariate Korrelation
129
Spearman Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21 V5 V6 V7 V5 Gewicht
1.00000 0.0
0.69313 0.0005
0.04748 0.8381
V6 Größe
0.69313 0.0005
1.00000 0.0
-0.09827 0.6717
V7 Alter
0.04748 0.8381
-0.09827 0.6717
1.00000 0.0
Kendall Tau b Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21
V5 Gewicht V6 Größe V7 Alter
V5
V6
V7
1.00000
0.54722 0.0006
0.01996 0.9028
0.54722 0.0006
1.00000
-0.05002 0.7601
0.01996 0.9028
-0.05002 0.7601
0.0
0.0
1.00000 0.0
In der Form von Matrizen wurden die jeweiligen Korrelationskoeffizienten und darunter die entsprechenden p-Werte ausgegeben. In diesen Matrizen können dann die bivariaten Korrelationen abgelesen werden. Signifikant sind bei beiden Korrelationskoeffizienten nur die Korrelationen zwischen den Variablen V5 und V6. Hierbei ergibt sich bei Kendall tau-b ein Wert von 0,54722 (p-Wert von 0,0006) und bei Spearman ein Wert von 0,69313 (p-Wert von 0,0005).
130
7 Einfache Methoden der schließenden Statistik
7.4 Chi-Quadrat-Test auf Unabhängigkeit Mit dem Chi-Quadrat-Test auf Unabhängigkeit kann der Zusammenhang zwischen zwei kategoriellen bzw. nominalskalierten Variablen untersucht werden. Sie können z.B. untersuchen, ob es einen Zusammenhang zwischen dem Geschlecht und der Augenfarbe gibt. Die Teststatistik wird über die Zellenhäufigkeiten in einer Kreuztabelle berechnet. Aus diesem Grund finden Sie diesen Test in der Prozedur FREQ. Es kann dann mit einem Test untersucht werden, ob die Korrelationskoeffizienten signifikant von Null verschieden sind. Im folgenden soll anhand unseres Beispiels Fragebogen untersucht werden, ob ein Zusammenhang zwischen der Variable V4 (Geschlecht) und der Variablen V8 (Raucher) besteht. Hierzu dient das folgende SAS-Programm: PROC FREQ DATA = DISK.FRAGEBOG; TABLE V4*V8 / CHISQ; RUN; Wenn Sie das Programm mit starten, erhalten Sie die folgenden Ergebnisse: TABLE OF V4 BY V8 V4(Geschlecht)
V8(Rauchen Sie ?)
Frequency Expected Percent Row Pet Col Pet
1
1 3 20 36 57
4 85 00 36 14
7 7 15 35 00 63.64 53 85
3 15 33 42
3 15 00 33 86
5 30 66 46
2
Total
2
7 35.00
Frequency Missing = 1
6 85 00 67 15
13 65.00
20 100.00
7.4 Chi-Quadrat-Test auf Unabhängigkeit
131
STATISTICS FOR TABLE OF V4 BY V8 Statistic Chi-Square Likelihood Ratio Chi-Square Continuity Adj. Chi-Square Mantel-Haenszel Chi-Square Fisher's Exact Test (Left) (Right) (2-Tail) Phi Coefficient Contingency Coefficient Cramer's V
DF
Value
Prob
1 1 1 1
0.020 0.020 0.000 0.019
0.888 0.888 1.000 0.890 0.728 0.630 1.000
0.032 0.032 0.032
Effective Sample Size = 20 Frequency Missing = 1 WARNING: 50% of the cells have expected counts less than 5. Chi-Square may not be a valid test.
Ganz unten in der Ergebnisausgabe finden Sie die Warnung, dass 50% der Zellen mit weniger als 5 Werten besetzt sind. Hier sollten Sie auch in der Praxis darauf achten, dass möglichst alle Zellen gut besetzt sind. Falls Sie zwei Variablen mit mehreren Kategorien haben, so müssten Sie bei zu geringer Zellenbesetzung notfalls einzelnen Kategorien zusammenfassen. Dieses Problem tritt allgemein bei der Auswertung von kategoriellen Variablen auf. SAS gibt zunächst, wie üblich nach einer TABLE-Anweisung, eine Kreuztabelle aus. Hier stehen unter den jeweiligen Häufigkeiten die bei Unabhängigkeit erwartete Häufigkeit (Option EXPECT), die sich nach der folgenden Formel berechnen lassen: n' ,J Hierbei ist
n
nj. die Summe über die i-te Zeile und
n#J
die Summe über die j-te
Spalte. Somit ergibt sich beispielsweise für n ' n : nJ1JU1=7:ll 11
n
=
3
20
In der Ergebnisausgabe finden Sie unter Value in der ersten Zeile die Teststatistik des Chi-Quadrat-Tests auf Unabhängigkeit. Diese wird wie folgt berechnet:
7 Einfache Methoden der schließenden Statistik
132
n
Hier wird also über die Abweichungsquadrate der beobachteten Zellenhäufigkeiten von den erwarteten Zellenhäufigkeiten, geteilt durch die erwarteten Zellenhäufigkeiten, summiert. njj sind hierbei die beobachteten Zellenhäufigkeiten, in der i-ten Zeile und j-ten Spalte einer Kreuztabelle. Bei einer 2x2-Tabelle kann die Teststatistik auch wie folgt berechnet werden: 2=
n n
( l l -"22 ~ n 12 - n 2l) n1#-n2.-n.,-n.2
2
Da im Falle der Unabhängigkeit die erwarteten Zellenhäufigkeiten in etwa mit den relativen Zellenhäufigkeiten übereinstimmen müssten, muss die Quadratsumme deshalb relativ klein sein. In unserem Fall gilt: x 2 = 0,020 Der p-Wert zu dieser Teststatistik beträgt 0,888, womit die Nullhypothese der Unabhängigkeit nicht verworfen werden kann. Es kann kein signifikanter Zusammenhang zwischen den beiden Variablen nachgewiesen werden. Bemerkung: -
Der Chi-Quadrat-Test auf Unabhängigkeit sollte nur mit einem Stichprobenumfang von n > 60 durchgeführt werden, siehe Härtung (1995). Ansonsten sind die Ergebnisse, wie in unserem Fall, mit Vorsicht zu genießen. Bei 2x2-Tabellen kann bei einem Stichprobenumfang zwischen 20 und 60 eine nach Yates korrigierte Teststatistik verwendet werden, vgl Härtung (1995): Chi-Quadrat nach Yates =
n(|n n -n 22 - n l 2 - n 2 1 | - n / 2 )
2
n „ -n 2 . -n., -n. 2
Bei weniger als 20 Fällen kann der exakte Test von Fisher (siehe SAS-Ergebnisausgabe) verwendet werden.
7.4 Chi-Quadrat-Test auf Unabhängigkeit
-
133
Die Zellenhäufigkeiten sollten beim Chi-Quadrat-Test auf Unabhängigkeit einen Wert von 5, bei mehr als 20% der Zellen, nicht unterschreiten. Andernfalls SAS gibt eine Warnung aus.
In der unteren Tabelle befinden sich die Werte der Korrelationskoeffizienten Phi und Cramer's V. Diese werden auch als Assoziationsmaße bezeichnet. Diese Koeffizienten sind keine Teststatistiken, weshalb bei diesen Koeffizienten kein pWert angegeben wird. Die beiden Koeffizienten lassen sich wie folgt berechnen: Phi-Koefiizient = " " ~"22 ~ " 1 2 '" 2 I -n Vn)» " n 2. .2
Cramer'sches Zusammenhangsmaß = J \ n-(min(r,s)-l) min(r,s) ist hierbei das Minimum der Zeilenanzahl (r) bzw. Spaltenzahl (s) einer r x s - Tabelle. Bei einer 2x2-Tabelle stimmen die Beträge beider Maße überein. In unserem Beispiel haben beide einen Wert von 0,032. Zwischen den beiden Maßen finden Sie außerdem den Kontingenzkoeffizient mit einem Wert von 0,032.
134
7 Einfache Methoden der schließenden Statistik
7.5 Chi-Quadrat-Anpassungstest Mit dem Chi-Quadrat-Anpassungstest kann überprüft werden, ob ein signifikanter Unterschied zwischen beobachteten und erwarteten Häufigkeiten besteht. Als erstes Beispiel dient unsere Datei Fragebogen, mit der die Hypothese getestet werden soll, dass der Anteil der Raucher 40% beträgt. Die Variable V8 erfasst den Raucherstatus, wobei die Antwort "ja" auf die Frage "Rauchen Sie ?" mit ' 1' kodiert wurde und die Antwort "nein" mit 2. Nach der oben definierten Hypothese müssten 40% von den insgesamt 21 Personen, also 8,4 Personen, rauchen und 60% von 21 Personen (12,6) nicht rauchen. Wir erstellen nun ein Programm für den ChiQuadrat-Anpassungstest. Dieses Programm speichert zuerst die Häufigkeiten in dem DATASET mit dem Namen TEMP. Danach werden die erwarteten Häufigkeiten (EXPECTED) hinzugefügt. Im nächsten Schritt wird die Teststatistik genannt PG (Summe über die Variable Z) berechnet und danach der p-Wert. Die mathematische Beschreibung der Berechnung befindet sich weiter hinten in diesem Kapitel. PROC FREQ DATA = DISK. FRAGEBOG NOPRINT; TABLE V8 / OUT = TEMP; RUN; DATA TEMP; SET TEMP; IF V8 = 1 THEN EXPECTED = 8 . 4 ; IF V8 = 2 THEN EXPECTED = 1 2 . 6 ; RUN;
/ * 40% von 2 1 * / / * 60% von 21 * /
DATA TEMP; SET TEMP; Z = (COUNT-EXPECTED)**2/EXPECTED; RUN; PROC PRINT;RUN; /* Zwischenausgabe von TEMP */ PROC MEANS NOPRINT; VAR Z; OUTPUT OUT = XXX SUM=PG; RUN; DATA XXX; SET XXX; DF = _FREQ_ - 1; PROB = 1 - PROBCHI(PG, DF) ; DROP _TYPE FREQ_; RUN; PROC PRINT DATA = XXX; RUN;
7.5 Chi-Quadrat-Anpassungstest
135
Bemerkung: Dass insgesamt 21 Personen eine Antwort auf die Frage nach dem Raucherstatus gegeben haben, müssten Sie in der Praxis zuerst mit der Prozedur F R E Q realisieren.
Wenn Sie das obige Programm starten, erhalten Sie die folgenden Ergebnisse: OBS
V8
1 2
COUNT
1 2
7 14
PERCENT
EXPECTED
Z
33.3333 66.6667
8.4 12.6
0.23333 0.15556
OBS
PG
1
0.38889
DF
1
PROB
0.53288
Unter C O U N T sind die vorhandenen Häufigkeiten zu sehen und unter E X P E C T E D die erwarteten Häufigkeiten. Wie zu sehen ist, wären bei einem Raucheranteil von 40% 8,4 Raucher von 21 Personen zu erwarten. Die Teststatistik berechnet sich wie folgt: (ni-n',)2 n\
r
n'j ist dabei die erwartete Häufigkeit der i-ten Kategorie In unserem Beispiel hat diese Teststatistik einen Wert von 0,3889. Bei dem entsprechenden p-Wert von 0,53288 kann die Hypothese, dass es einen Raucheranteil von 4 0 % gibt, nicht verworfen werden. In einem zweiten Beispiel soll übeiprüft werden, ob ein Würfel als "fair" anzusehen ist, d.h. ob jede Augenzahl mit der gleichen Wahrscheinlichkeit auftritt. Dazu wird 42 mal gewürfelt und die Häufigkeit für jede Augenzahl in einer Tabelle notiert:
AUGENZ 1
ANZAHL 11
2
9
3
4
4
3
5
7
6
8
Daten: W Ü R F E L
7 Einfache Methoden der schließenden Statistik
136
Diese Tabelle wird im folgenden Programm im SAS-DATASET TEMP gespeichert. Führen Sie nun wie im obigen Beispiel den Chi-Quadrat-Anpassungstest durch, indem Sie das jetzt folgende Programm eingeben und mit starten: DATA TEMP; I N P U T N EXPECTED; CARDS; 11 7 9 7 7 4 3 7 7 7 7 8 RUN; DATA TEMP; SET TEMP; Z = (N-EXPECTED)**2/EXPECTED; RUN; PROC MEANS N O P R I N T ; VAR Z ; OUTPUT OUT = XXX SUM=PG; RUN; DATA XXX; SET XXX; DF = _ F R E Q _ - 1 ; PROB = 1 - P R O B C H I ( P G , DF) ; DROP _ T Y P E FREQ_; RUN; PROC P R I N T RUN;
DATA = XXX;
Sie erhalten als Ergebnisse: OBS
1
PG
6.57143
DF
5
PROB
0.25451
Wie zu sehen ist, müsste bei einem "fairen" Würfel nach 42 Würfen jede Augenzahl in etwa siebenmal auftreten. Die Abweichungen sind aber nicht signifikant, da der p-Wert 0,25451 größer als die gewählte Fehlerwahrscheinlichkeit von 0,05 (= 5%) ist.
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen
137
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen (parameterfreie Tests) Nichtparametrische Testverfahren werden eingesetzt, wenn die Verteilungsannahmen (z.B. Normalverteilung) anderer Testverfahren nicht erfüllt sind. Die nichtparametrischen Verfahren benötigen keinerlei Verteilungsvoraussetzungen für die Ausgangsdaten. Hier eine Übersicht über einige in SAS zur Verfugung stehenden nichtparametrischen Verfahren:
Art der Stichprobe eine
Testverfahren a) Kolmogorov-Smirnov-Anpassungstest b) Chi-Quadrat-Anpassungstest
Im Kapitel 6.3 7.5
c) Binomialtest
7.6.5
2 abhängige
Wilcoxon-Vorzeichenrang-Test
7.6.3
2 unabhängige
Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummen-Test
7.6.1
mehrere abhängige
Friedman-Test
7.6.4
mehrere unabhängige Kruskal-Wallis-Test
7.6.2
138
7 Einfache Methoden der schließenden Statistik
7.6.1 Vergleich von zwei unabhängigen Stichproben Hier steht uns der Wilcoxon-Rangsummen-Test (rechnerisch identisch mit dem Mann-Whitney-U-Test) zur Verfügung. Dieser überprüft, ob zwei Stichproben aus der gleichen Grundgesamtheit stammen, bzw. ob es signifikante Unterschiede zwischen zwei Stichproben gibt. In unserem Fragebogenbeispiel aus Kapitel 2 wollen wir untersuchen, ob es einen signifikanten Unterschied in der Körpergröße zwischen Männern und Frauen gibt. Parameterfreie Vergleiche zweier Stichproben können mit SAS mit der Prozedur NPAR1WAY durchgeführt werden. Mit der Option WILCOXON wird der Wilcoxon-Rangsummen-Test bzw. der Mann-Whitney-U-Test durchgeführt. Mit der Option MEDIAN könnte zusätzlich der Mediantest durchgeführt werden. Geben Sie nun das folgende Programm ein und starten Sie es mit : PROC N PARI W AY DATA = DISK. FRAGEBOG WILCOXON; CLASS V4; VAR V6; RUN; Sie erhalten die folgenden Ergebnisse: N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable V6 Classified by Variable V4
V4
N
2
9 11
Std Dev Under HO
Mean Score
55.500000 94.500000 13.1426385 154.500000 115.500000 13.1426385 Average Scores Were Used for Ties
6.1666667 14.0454545
Sum of Scores
Expected Under HO
Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S =
55.5000 Z = -2.92940 Prob > |Z| = 0.0034
T-Test Approx. Significance = 0.0086
Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = 8.8057 DF = 1 Prob > CHISQ = 0.0030
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen
139
Wie zu erkennen ist, kann mit beiden Tests ein signifikanter Unterschied in der Körpergröße zwischen den Männern und Frauen nachgewiesen werden, da der Wilcoxon-Rangsummen-Test einen p-Wert von 0,0034 (< 0,05) aufweist und der Kruskal-Wallis-Test einen von 0,0030 (< 0,05). Wir werden nun den Wilcoxon-Rangsummen-Test an diesem Beispiel nachrechnen. Hierzu stellen wir in einer Tabelle die Körpergrößen dar. Daneben werden die Ränge vergeben. Der kleinste Wert von 159 cm erhält den Rang 1, der zweitkleinste den Rang 2 usw.. Danach wird der Rang der entsprechenden Gruppe zugeteilt.
V4 2 2 1 2 2 1 1 1 2 2 1 2 2 1 1 1 2 1 1 1
V6 169 168 189 176 164 177 178 181 159 171 170 175 161 169 179 182 165 177 180 180 175
Rang 6,5 5,0 20,0 11,0 3,0 12,5 14,0 18,0 1,0 8,0 9,5 2,0 6,5 15,0 19,0 4,0 12,5 16,5 16,5 9,5 Summe
Rang bei V4=l
Rang bei V4=2 6,5 5,0
20,0 11,0 3,0 12,5 14,0 18,0 1,0 8,0 9,5 2,0 6,5 15,0 19,0 4,0 12,5 16,5 16,5 9,5 R, = 154,5
R 2 = 55,5
Die beiden Rangsummen Ri und R2 finden Sie in der Ergebnisausgabe unter "Sum of Scores". Wichtig ist, dass wenn mehrere gleich große Werte auftreten, der mittlere Rang genommen wird. Beispiel: Es kommt zweimal der Wert 180 vor. Zuvor wurde dem nächst kleineren Wert von 179 der Rang 15 zugeordnet. Da 180 zweimal auftritt, wäre normalerweise der Rang 16 und 17 zu vergeben. Somit erhalten die beiden Werte von 180, den Mittelwert von 16 und 17, also den Rang 16,5. Wenn zwei oder mehrere Fälle den gleichen Wert aufweisen, spricht man von verbundenen Rängen
140
7 Einfache Methoden der schließenden Statistik
(oder auch Bindung, engl. ties). Mit den beiden Rangsummen werden die mittleren Ränge für beide Gruppen berechnet: Für V4 = 1:
R, / n, = 154,5 / 11 = 14,0454545 (siehe unter "Mean Score")
Für V4 = 2:
R 2 / n 2 = 5 5 , 5 / 9 = 6,1666667
Der S-Wert von 55,5 (siehe SAS-Ergebnisausgabe) entspricht der Rangsumme R 2 . Wie zu sehen ist, treten in der zweiten Gruppe im Mittel kleinere Ränge auf, als bei der ersten. Ob dieser Unterschied nur Zufall oder signifikant ist, muss nun mit einem Test untersucht werden. Wir berechnen eine Teststatistik U: U = n 1 - n 2 + n 1 -(n 1 + l ) / 2
-
Rj .
Falls U > n, • n 2 / 2 , ist anstatt U ein wie folgt neu berechnetes U' zu verwenden: U'= n, -n 2 - U . In unserem Beispiel gilt: U = 11* 9 + 11* 12/2 -154,5 = 10,5. Da 10,5 < 11*9/2 = 49,5 gilt, muss U nicht durch U' ersetzt werden. SAS berechnet nun mit dem oberen U-Wert einen Z-Wert und den entsprechenden p-Wert, bei denen die verbundenen Ränge berücksichtigt werden (in der angelsächsischen Literatur als 'Corrected for ties' bezeichnet): U - n , -n2/2
( n,-n 2 n-(n-l)
n3- n 12
r ^ ZT>
i=1
12
wobei Tj = tf - tj . r bezeichnet die Anzahl der Bindungen und t, die Vielfachheit der i-ten Bindung, d.h. für jeden mehrfach vorkommenden Rang i = l,2,...,r die Anzahl der ranggleichen Werte. In unserem Beispiel gilt: t, =2 , da der Wert 169 bzw. Rang 6,5 zweimal vorkommt. t 2 =2 , da der Wert 175 bzw. Rang 9,5 zweimal vorkommt. t 3 =2 , da der Wert 177 bzw. Rang 12,5 zweimal vorkommt. t 4 =2 , da der Wert 180 bzw. Rang 16,5 zweimal vorkommt.
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen
141
Also: ¿ T , = ( 2 3 - 2 ) + (2 3 - 2 ) + ( 2 3 - 2 ) + ( 2 3 - 2 ) = 24
Somit gilt fur Z in unserem Beispiel. 10,5-11-9/2
Z =•
11-9
^20 3 - 2 0
120(19)
12
2,9674 24 12
Diesen Z-Wert können Sie auch über die SAS-Ergebnisse berechnen, wenn Sie von den 55,5 in der Ergebnisausgabe unter 'Sum of Scores' den Wert 94,5 unter 'Expected Under HO' subtrahieren und das Ergebnis durch 13,1426385 (unter 'Std Dev Under HO') teilen. Z ist asymptotisch standardnormalverteilt, somit könnte ein p-Wert ermittelt werden. SAS gibt jedoch diesen Z-Wert nicht aus, sondern einen um 0,5 korrigierten ('with Continuity Correction of .5'). SAS addiert zu dem Z-Wert 0,5 (falls der Z-Wert positiv ist, werden 0,5 subtrahiert) und teilt das Ergebnis nochmals durch den sogenannten standardisierten Z-Wert. Das Ergebnis wird von SAS als Z-Wert ausgegeben (-2,92940), und daneben ist der p-Wert (jeweils unter "Wilcoxon 2-Sample Test") abzulesen. Er beträgt 0,0034, womit die beiden Gruppen signifikant voneinander abweichen.
Hinweis: Wie in den obigen Ausführungen angegeben, ist die Verteilung nur asymtotisch normalverteilt. Insbesondere fiir kleine Fallzahlen sollte ein exakter Test angewandt werden. Der exakte Test, der sehr rechenintensiv ist, kann auch mit SAS durchgeführt werden. Dazu ist die Angabe EXACT zusätzlich zu verwenden. Geben Sie beispielsweise im obigen Programm vor der Zeile " VAR V6" zusätzlich die Zeile: EXACT WILCOXON; ein, erhalten Sie als Ergebnisausgabe auch:
Exact P-Values (One-sided) (Two-sided)
Prob = |S - Mean| = 0.0018
7 Einfache Methoden der schließenden Statistik
142
7.6.2 Vergleich von mehreren unabhängigen Stichproben Der Kruskal-Wallis-Test (auch H-Test genannt) prüft bei mehr als zwei unabhängigen Stichproben, ob die Stichproben aus der gleichen Grundgesamtheit stammen. Zur Durchführung des Kruskal-Wallis-Test mit SAS dient das folgende Beispiel: Drei Gruppen von Versuchspersonen wurden einem Leistungstest unterzogen. Personen der ersten Gruppe hatten vor dem Leistungstest an einem vierwöchigen Vorbereitungskurs teilgenommen. Personen der zweiten Gruppe nahmen an einem eintägigen Intensivtraining teil, und Personen der dritten Gruppe hatten "ohne Vorbereitung" am Leistungstest teilgenommen. Folgende Leistungswerte wurden erzielt: Gruppe 1: 71, 77, 85, 71; Gruppe 2: 59, 56, 54, 65; Gruppe 3: 62, 80, 62. Es liegt also die folgende Datenmatrix vor, die zuvor in SAS erfasst werden muss. GRUPPE 1 1 1 1 2 2
2 2 3 3 3
LEISTUNG 71 77 85 71 56 59 54 65 80 62 62
Daten: TEST
Wir wollen nun untersuchen, ob die drei Stichproben aus der gleichen Grandgesamtheit stammen, oder ob es einen signifikanten Unterschied zwischen den Gruppen gibt. Hierzu muss zunächst die Datenmatrix in einem SAS-DATASET gespeichert werden. Danach fuhren wir mit dem folgenden Programm den KruskalWallis-Test durch: PROC NPAR1WAY DATA = DISK.TEST WILCOXON; CLASS GRUPPE; VAR LEISTUNG; RUN; Drücken Sie die Taste , erhalten Sie die folgenden Ergebnisse:
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen N P A R 1 W A Y
P R O C E D U R E
W i l c o x o n S c o r e s (Rank Sums) for V a r i a b l e C l a s s i f i e d by V a r i a b l e G R U P P E
GRUPPE
143
Std Dev U n d e r HO
Mean Score
35.0 24.0 5.26739542 12.0 24.0 5.26739542 19.0 18.0 4.87666056 A v e r a g e S c o r e s W e r e Used for T i e s
8.75000000 3.00000000 6.33333333
S u m of Scores
N 4 4 3
Expected U n d e r HO
LEISTUNG
K r u s k a l - W a l l i s T e s t (Chi-Square A p p r o x i m a t i o n ) CHISQ = 6.1086 DF = 2 Prob > C H I S Q = 0 . 0 4 7 2
Die Fallzahlen sind in diesem Beispiel sehr gering. Die Hypothese, dass die drei Stichproben aus der gleichen Grundgesamtheit stammen, würde verworfen werden (Significance = 0,0472 < 0.05), wenn die benötigten Voraussetzungen des Tests erfüllt wären. Nun wird erklärt, wie die von SAS berechneten Größen ermittelt wurden:
Gruppe 3 2 1 3 2 1 2 3 1 1 2 Summen
Wert 62 59 71 80 56 77 54 62 85 71 65 R
j
n
j
Rang 4,5 3 7,5 10 2 9 1 4,5 11 7,5 6
Rang f ü r Gruppe 3 1 2 4,5 3 7,5 10 2 9 1 4,5 11 7,5 5 12,0 19,0 35,0 4
4
3
Die Ränge werden in Analogie zum Mann-Whitney-U-Test bzw. WilcoxonRangsummen-Test vergeben. Mit g = Anzahl der Gruppen = 3 ergibt sich der in der Literatur üblicherweise mit H bezeichnete Wert:
144
H =
7 Einfache Methoden der schließenden Statistik
- 3 ( n + l ) = - ^ - - ( 3 5 2 / 4 + 122 / 4 + 192 / 3 ) - 3 - 1 2 = 6,0530 11-12
— y ^ n - ( n + l) n,
Die Korrekturformel, mit der man aus H ein korrigiertes H' berechnen, falls Bindungen (mindestens zwei gleich große Werte) auftreten, lautet: H'=
» £(t?-t,) 1
36'0530 3 = 6,1086 (2 - 2 ) + (2 - 2 )
t
1 l3 — 1 1
' r
n -n
Diesen Wert finden Sie in der SAS-Ergebnisausgabe unter "CHISQ" bzw. "S" (versionsabhängig). tj ist die Anzahl der jeweils gleichen Rangplätze in der Bindung i sind. Bei unserem Beispiel gibt es mehrere Bindungen: 4,5 kommt zweimal vor, also tj=2; 7,5 kommt zweimal vor, als t2=2. Weitere Bindungen gibt es nicht. Hinweise: -
SAS benutzt auch bei kleinen Stichproben immer die Chi-Quadrat-Verteilung, wobei eigentlich die Durchfuhrung eines exakten Tests erforderlich ist. Die Prüfgröße Chi-Square ist annähernd Chi-Quadrat-verteilt, wenn der Stichprobenumfang pro Gruppe mindestens 5 beträgt und die Anzahl der Gruppen mindestens 4 ist, vgl. Lienert (1978). Diese Bedingung ist in unserem Beispiel nicht erfüllt. Somit sollte dieser durchgeführte Test wegen zu geringer Fallzahlen nicht verwendet werden. Geben Sie jedoch im SAS-Programm vor der Zeile "VAR LEISTUNG;" noch die Zeile EXACT WILCOXON; ein, erhalten Sie zusätzlich den exakten Test. Für das obige Beispiel ergibt sich: Kruskal-Wallis Test Exact P-Value
S =
Prob >= S
6.1086
= 0.0362
Auch hier besteht bei einer Irrtumswahrscheinlichkeit von 0,05 eine Signifikanz, da 0,0362 < 0,05. -
Hat sich mit dem Kruskal-Wallis-Test ein Verwerfen der Hypothese ergeben, sind nicht alle Grundgesamtheiten gleich. Mit einem multiplen Vergleich (z.B. mit dem Nemenyi-Test bei gleichen Stichprobenumfängen oder mit einem Dunn-Test bei ungleichen Stichprobenumfangen) können Sie prüfen, welche und wie viele der Grundgesamtheiten verschieden sind. Die mathematische Beschreibung zu Tests wie z.B. dem Nemenyi-Test finden Sie in Köhler u.a. (1984) und Sachs (1992), sowie den Dunn-Tests in Lienert (1973).
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen
145
7.6.3 Vergleich von zwei abhängigen Stichproben Bei zwei abhängigen Stichproben kann mit SAS der Wilcoxon-Vorzeichenrang-Test durchgeführt werden, um zu überprüfen, ob es einen signifikanten Unterschied zwischen den beiden Stichproben (Gruppen) gibt. Dies ist im Rahmen der Prozedur UNIVARIATE möglich. Als Beispiel für zwei abhängige Stichproben dienen uns die Punktzahlen von 39 Studenten bei zwei Klausuren. Gegeben sei die folgende Datenmatrix: NUMMER 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
KLAUSUR 1 KLAUSUR2 40 18 37 11 30 35 20 55 26 23 36 59 57 41 49 55 37 35 27 26 19 39 33 30 36 34 28 18 16 13 7 28 17 3 26 11 57 40 47 58 60 56 2 21 44 31 55 23 10 17 5 23 56 57 34 59 36 30 26 26 60 56 44 50 0 2 5 12 2 10 12 11 6 15 29 5 30 2
Daten: KLAUSUR
146
7 Einfache Methoden der schließenden Statistik
Diese Datenmatrix muss nun in einem SAS-DATASET gespeichert werden. Zunächst müssen wir in SAS die Differenz zwischen den beiden Klausurpunktzahlen berechnen (analog zum t-Test bei verbundenen Stichproben). Diese Differenz speichern wir in der Variablen DIFF, mit der wir dann den Wilcoxon-VorzeichenrangTest durchfuhren. Die Prozedur UNIVARIATE führt immer automatisch diesen Test durch, mit der Hypothese, dass die Daten aus einer Grundgesamtheit mit dem Symmetriezentrum Null stammen. Hier könnten Sie auch einen Einstichproben-Test mit der Hypothese, dass das Symmetriezentrum gleich a ist, durchfuhren. Sie müssten nur von jeder Beobachtung a subtrahieren (analog zum t-Test). Geben Sie nun das folgende Programm in SAS ein und starten Sie es mit : DATA DISK.KLAUSUR; SET DISK.KLAUSUR; DIFF = KLAUSUR2-KLAUSUR1; RUN; PROC UNIVARIATE DATA = DISK. KLAUSUR NORMAL; VAR DIFF; RUN; Sie erhalten die folgenden Ergebnisse: Univariate Procedure Variable=DIFF Moments N Mean Std Dev Skewness
uss cv
T:Mean=0 Num ~= 0 M(Sign) Sgn Rank W: Normal
39 -2.89744 15.32764 0.934044 9255 -529. 007 -1 . 18051 38 -12 -139.5 0.887625
Sum Wgts Sum Variance Kurtosis CSS Std Mean Pr>|T| Num > 0 Pr>=|M| Pr>=|S| Pr 25 sein soll, siehe z.B. Sachs (1992). Bei kleinen Stichprobenumfangen sollten Sie diesen p-Wert von SAS nicht verwenden, sondern statt dessen einen exakten Test verwenden, beispielsweise mit der SAS-Prozedur NPAR1WAY. In unserem Beispiel ist der Stichprobenumfang groß genug. Auf die Anwendung eines exakten Test kann deshalb verzichtet werden.
-
Wie Sie am obigen Beispiel sehen, werden die Fälle mit einer Differenz von Null nicht in die Berechnungen einbezogen. In unserem Beispiel wird deshalb der Fall 30 weggelassen. Insbesondere, wenn der Anteil der Fälle mit Nulldifferenzen sehr hoch ist, ist diese Vorgehensweise jedoch mathematisch nicht korrekt.
-
Für Bindungen gibt es keine Korrekturgröße in SAS.
Der übliche t-Test, der im obigen Beispiel auch berechnet wird, darf nicht verwendet werden, da die Normalverteilungshypothese (siehe SAS-Ergebnisausgabe auf Seite 146, Shapiro-Wilk-Statistik, p-Wert von 0,007) für die Differenz der beiden Variablen mit einem Shapiro-Wilk-Test verworfen werden kann.
150
7 Einfache Methoden der schließenden Statistik
7.6.4 Vergleich von mehreren abhängigen Stichproben Der Friedman-Test fuhrt bei mehreren abhängigen Stichproben eine Rang-Varianzanalyse durch; er dient zum Vergleich von mehr als zwei abhängigen Stichproben. Hat sich mit dem Friedman-Test ein Verwerfen der Hypothese ergeben, sind nicht alle Grundgesamtheiten gleich. Hier genügt es also, dass nur eine Gruppe verschieden von den anderen ist, und der Test fuhrt zum Verwerfen der Gleichheitshypothese. Mit einem multiplen Vergleich (z.B. mit dem Wilcoxon-Wilcox-Test) können Sie prüfen, welche und wie viele der Grundgesamtheiten verschieden sind. Diesen Test, der in SAS nicht vorhanden ist, findet man beispielsweise in Sachs (1992). Ein Beispiel für abhängige Stichproben sind die Noten von 8 Schülern in 5 verschiedenen Fächern. Da es sich in jeder Datenzeile um die Noten des gleichen Schülers bzw. Schülerin handelt, sind die Stichproben als abhängig anzusehen. Es folgt eine Datenmatrix mit den Noten in den einzelnen Fächern:
ENGLISCH MATHE 2,7 2,3 2,6 2,2 2,0 1,7 2,3 2,0 2,4 2,1 2,5 4,0 1,5 1,1 3,5 3,1 Daten: NOTEN
PHYSIK 2,3 2,4 1,9 2,0 2,1 4,0 1,1 3,1
DEUTSCH 2,6 2,5 1,8 2,4 2,6 3,6 1,6 3,7
SPORT 2,2 2,1 1,2 2,8 2,4 2,9 1,0 2,3
Diese Datenmatrix muss nun in einem SAS-DATASET gespeichert werden. Nachdem Sie den DATASET NOTEN erzeugt haben, wird dieser mit dem folgenden SAS-Programm in eine andere Form gebracht und in der temporären Datei mit dem Namen XXX gespeichert: DATA XXX(KEEP =B PUNKTE V ) ; SET D I S K . N O T E N ; V='ENGLISCH'; PUNKTE = ENGLISCH; DROP E N G L I S C H ; RUN; DATA X X X I ( K E E P =B PUNKTE V) ; SET D I S K . N O T E N ; V = 'MATHE' ; PUNKTE = MATHE;
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen
151
DROP MATHE; RUN; DATA XXX2(KEEP =B PUNKTE V ) ; SET D I S K . N O T E N ; V = 'PHYSIK'; PUNKTE = P H Y S I K ; DROP P H Y S I K ; RUN; DATA XXX3 (KEEP =B PUNKTE V ) ; SET D I S K . N O T E N ; V = 'DEUTSCH'; PUNKTE = DEUTSCH; DROP DEUTSCHRUN; DATA XXX4(KEEP =B PUNKTE V ) ; SET D I S K . N O T E N ; PUNKTE = SPORT; V = 'SPORT'; DROP SPORT; RUN; PROC RUN; PROC RUN; PROC RUN; PROC RUN;
APPEND DATA = XXXI BASE = XXX; APPEND DATA = XXX2 BASE = XXX; APPEND DATA = XXX3 BASE = XXX; APPEND DATA = XXX4 BASE = XXX;
Falls Sie den DATASET X X X mit der Prozedur PRINT ausgeben, so sehen Sie die folgende Struktur: OBS
B
V
1 2 3 4 5 6 7 8 9
1 1 1 1 1 2 2 2 2
ENGLISCH MATHE PHYSIK DEUTSCH SPORT ENGLISCH MATHE PHYSIK DEUTSCH
PUNKTE 2.7 2.3 2.3 2.6 2.2 2.6 2.2 2.4 2.5
152
7 Einfache Methoden der schließenden Statistik
Sie hätten auch den Datensatz direkt in der oberen Form speichern können. Die Variable B erfasst die jeweilige Datenzeile in der Datenmatrix. Danach wird mit einem SAS-Programm der Freedman-Test durchgeführt: Es soll untersucht werden, ob signifikante Unterschiede in den Noten der fünf Fächer bestehen. Das folgende SAS-Programm speichert zunächst (mit der Prozedur RANK) die Ränge in dem SAS-DATASET NOTENR in der Variablen RPUNKTE. Danach werden mit der Prozedur UNIVARIATE die Rangsummen und danach die Quadratsummen berechnet. Hieraus werden dann der V-Wert und der p-Wert berechnet: PROC SORT DATA = XXX; BY B ; RUN; PROC RANK DATA = XXX OUT = BY B ; VAR PUNKTE; RANKS RPUNKTE; RUN; PROC SORT DATA = BY V ; RUN;
DISK.NOTENR;
DISK.NOTENR;
PROC U N I V A R I A T E DATA = DISK.NOTENR VAR RPUNKTE; BY V ; OUTPUT OUT = TEMP SUM = S ; RUN; DATA TEMP; SET TEMP; SQ = S * * 2 ; RUN; PROC U N I V A R I A T E DATA = TEMP; VAR S Q ; OUTPUT OUT = TEMPI SUM = SSQ; RUN; DATA OUTPUT; SET T E M P I ; N = 8; G = 5; V = 12/(N*G*(g+1))*SSQ-3*N*(G+l); PROB_V = 1 - P R O B C H I ( V , G - l ) ; RUN; PROC P R I N T RUN;
DATA =
OUTPUT;
NOPRINT;
7.6 Tests zum Vergleich von Stichproben ohne Verteilungsvoraussetzungen
153
Sie erhalten die folgenden Ergebnisse: OBS 1
SSQ 3104.5
N
G
V
PROB_V
8
5
11.225
0.024148
Wir haben nun g = 5 Gruppen und jeweils n = 8 Beobachtungen. Der V-Wert ist die Realisierung einer annähernd Chi-Quadrat-verteilten Zufallsvariablen (mit g-1 = 51 = 4 Freiheitsgraden). Gilt bei einem Experiment g = 3 und n < 11 bzw. g = 4 und n < 5 ist, sollten Sie den von SAS ausgerechneten p-Wert (PROB_V) nicht verwenden, siehe Siegel (1956). In unserem Beispiel ist g = 4 und n = 8: Damit ist der Test anwendbar. Es gibt signifikante Unterschiede bei den fünf Fächern, weil 0,0241 < 0,05. Die Ränge werden für jede Zeile vergeben, wobei der kleinste Wert in einer Zeile den Rang 1 erhält, der nächstgrößere den Rang 2, usw. Kommen innerhalb einer Zeile gleiche Messwerte vor, so werden den jeweiligen Messwerten das arithmetische Mittel der normalerweise zugeteilten Ränge vergeben. D.h. wenn zuvor der Rang 4 vergeben wurde, und der nächst größere Wert doppelt vorkommt, so wird beiden Werten den Rang (5+6)/2 = 5,5 zugeteilt. Y„ 2,7 2,6 2,0 2,3 2,4 2,5 1,5 3,5 R j Rj/n
r
ii 5 5 5 3 3,5 1 4 4 30,5 3,81
YI2 2,3 2,2 1,7 2,0 2,1 4,0 1,1 3,1
r
>2 2,5 2 2 1,5 1,5 4,5 2,5 2,5 19,0 2,38
Yi3 2,3 2,4 1,9 2,0 2,1 4,0 1,1 3,1
r
,3 2,5 3 4 1,5 1,5 4,5 2,5 2,5 22,0 2,75
Y,4 2,6 2,5 1,8 2,4 2,6 3,6 1,6 3,7
r
i4 4 4 3 4 5 3 5 5 33,0 4,13
Yi5 2,2 2,1 1,2 2,8 2,4 2,9 1,0 2,3
r
i5 1 1 1 5 3,5 2 1 1 15,5 1,94
In den beiden letzten Zeilen der Tabelle sind die Rangsummen bzw. mittlere Rangsummen zu sehen. Die Teststatistik unter "V" in der SAS-Ergebnisausgabe berechnet sich wie folgt:
154
7 Einfache Methoden der schließenden Statistik
V=
^-tt-ZRJ
-3n-(g+l)
In unserem Beispiel gilt: V = — ^ - - ( 3 0 , 5 2 +19 2 + 2 2 2 + 332 +15,5 2 )-3-8-6 = — -3104,5-144 = 11,2250 8.5-6 240 (siehe SAS-Ergebnisausgabe)
7.6.5 Beurteilung dichotomer Variablen mit dem Binomialtest Mit einem Binomialtest kann bei dichotomen oder dichotomisierten Variablen untersucht werden, ob eine Kategorie der Variablen mit einer bestimmten Wahrscheinlichkeit auftritt. Dieser Test wird als Binomialtest bezeichnet, da bei dichotomen Variablen von einem Bernoulli-Experiment (Experiment mit nur zwei möglichen Ausgängen, z.B. männlich/weiblich, ja/nein oder Kopf/Zahl beim Münzwurf) ausgegangen werden kann. Zählt man die Häufigkeit für das Auftreten einer Kategorie dieser dichotomen Variablen, ist die Häufigkeit, falls diese Kategorien unabhängig voneinander auftreten, binomialverteilt. Der einzelne Fall wird also als Ausgang eines Bernoulli-Experiments betrachtet. Dieser Test ist ein sogenannter exakter Test. Es wird also mit diesem Test überprüft, ob eine Stichprobe aus einer binomialverteilten Grundgesamtheit mit dem Parameter p (Kategorie tritt mit Wahrscheinlichkeit von p% auf) stammen könnte. Wir wollen mit einem solchen Binomialtest in unserem Beispiel Fragebogen die Hypothese überprüfen, dass ein Frauenanteil von mindestens 70 % vorliegt. Wir testen also die Hypothese: Ho : p > 0,70 gegen Ha:
p
0,70 stammen könnte, wird unter 'EXACT P' mit einem Test überprüft. Die Hypothese ist aber aufgrund des p-Werts von 0,017145 zu verwerfen. Somit ist der Frauenanteil signifikant kleiner.
156
8 Komplexere Methoden der schließenden Statistik
8 Komplexere Methoden der schließenden Statistik 8.1 Regressionsanalyse 8.1.1 Lineare Regression Bei der Regressionsanalyse wird der Einfluss einer oder mehrerer unabhängiger Variablen (Regressoren) auf eine abhängige Variable (Regressand) untersucht. Hierbei wird vorausgesetzt, dass die unabhängigen und die abhängige Variablen metrisch-skalierte Variablen sind. Wir beziehen uns zuerst auf den Fall einer unabhängigen Variablen. Bei der Regressionsanalyse wird zunächst eine Funktion f(x) definiert, von der vermutet wird, dass sie den funktionalen Zusammenhang zwischen dem Regressor x und dem Regressanden y in der Form y = f(x) beschreibt. Da wir uns nur auf den linearen Fall beschränken, hat die Funktion f(x) die spezielle Form f(x) = ß 0 + ß , x . Ziel der Regressionsanalyse ist es nun, die Parameter ß 0 und ß , zu schätzen, Hypothesentests für die Parameter herzuleiten und zu untersuchen, inwieweit unsere gewählte Funktion f(x) auf das Datenmaterial passt, das heißt, ob der Zusammenhang womöglich nichtlinear ist. Die Variable x wird als nichtstochastische bzw. voreingestellte Variable angesehen. In der Praxis liegen uns also n Wertepaare ( x , , y , ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) v o r . Hierbei könnten z.B. die Werte xj die Körpergröße der Mütter und die Werte yi die Körpergrößen der Töchter sein. In diesem Fall würden wir den Einfluss der Körpergröße der Mutter auf die Körpergröße der Tochter untersuchen. Betrachten wir nun die theoretische Modellgleichung unter Berücksichtigung der zufälligen Abweichungen von der Regressionsgeraden, so ergibt sich folgende Gleichung: Yj = ßo +ßi x ,
i = l,2,...,n
Ej ist dabei die theoretische zufällige Abweichung der i-ten Beobachtung von der Regressionsgeraden. Diese Abweichungen werden im konkreten Fall als Residuen bezeichnet. Diese Residuen müssen normalverteilt sein. Wir werden nun in unserem Beispiel Fragebogen eine Regressionsanalyse mit der Variablen V6 (Körpergröße) als unabhängige und der Variable V5 (Körpergewicht) als abhängige Variable durchführen. Hierzu dient das folgende Programm:
8.1 Regressionsanalyse
157
PROC REG DATA = DISK.FRAGEBOG; MODEL V5 = V6 / DW CLM CLI; PLOT RESIDUAL.*V6 RESIDUAL.*PREDICTED. RUN;
/ SYMBOL =
'*';
Bemerkung: Mit der Option DW in der MODEL-Anweisung wird die Durbin-Watson-Testgröße ausgegeben. CLI und CLM gibt die Prognose- und Konfidenzbänder aus. Mit der PLOT-Anweisung können verschiedene Grafiken (Plots) ausgegeben werden. Wir erstellen eine Grafik mit den Residuen auf der y-Achse und der Variablen V6 auf der x-Achse, sowie eine Grafik mit den Residuen auf der y-Achse und den Prädiktorwerten auf der x-Achse. Hierbei sind die Residuen die Abweichungen der eigentlichen y-Werte von den über die Regressionsgerade berechneten y-Werten (Prädiktorwerten). Zusätzlich könnten Sie mit der Option NOINT in der MODELAnweisung ein Modell ohne Achsenabschnitt (ß0) berechnen lassen. Wenn Sie das oben stehende Programm in SAS erfasst haben und die Taste drücken, erhalten Sie im ersten Teil der Ergebnisausgabe die folgenden Statistiken:
Model: M O D E M Dependent Variable: V5
Gewicht Analysis of Variance
Source
DF
Model Error C Total
1 19 20
Root MSE Dep Mean C.V.
Sum of Squares 1010.66843 998.28395 2008.95238 7.24854 68.04762 10.65215
Mean Square 1010.66843 52.54126
R-square Adj R-sq
F Value
Prob>F
19.236
0.0003
0.5031 0.4769
Parameter Estimates
Variable
DF
INTERCEP V6
1 1
Parameter Estimate -94.166667 0.934568
Standard Error 37.01960579 0.21308690
T for HO: Parameter=0 -2.544 4.386
Prob > |T|
0.0198 0.0003
158
8 Komplexere Methoden der schließenden Statistik
Durbin-Watson D (For Number of Obs.) 1st Order Autocorrelation
2.144 21 -0.072
Eine wichtige Größe in den obigen Ergebnissen ist zunächst der Wert 0,5031, der als "R Square" bezeichnet wird. Anhand dieses Wertes kann die Güte unseres Regressionsmodells beurteilt werden. Diese Größe gibt den vom gewählten Modell erklärten Varianzanteil an. Das gewählte einfache lineare Regressionsmodell erklärt demnach 50,31 % der Gesamtvarianz. Die genauere Erklärung zur Berechnung des "R Square" finden auf den nächsten Seiten. Unter der Überschrift "Parameter Estimate" finden Sie die von SAS berechneten Schätzer ß 0 und ßi für die Modellparameter ß 0 und ßi . Es gilt somit: ßo = -94,166667 (SAS-Ergebnisausgabe "INTERCEPT"), ß, = 0,934568 (SAS-Ergebnisausgabe "V6"), womit sich die folgende Regressionsgleichung ergibt: y = 0,934568 x-94,166667. In der gleichen Zeile, in der die jeweiligen Parameterschätzungen stehen, wird ein Test mit der Hypothese durchgeführt, dass der jeweilige Parameter gleich 0 ist. Diese Hypothese kann für den Achsenabschnitt ß0 aufgrund des p-Werts von 0,0198, sowie für die Steigung ß, aufgrund des p-Werts von 0,0003, verworfen werden. Die beiden Koeffizienten sind also signifikant von Null verschieden.
Es folgt eine genauere Beschreibung der Ergebnisse: Unter "Analysis of Variance" wird eine Varianzanalyse durchgeführt. Hierbei wird 1 n die Streuung der yj um den Mittelwert y = - V y . zerlegt in die Streuung der, über die Regressionsgerade bestimmten, y; =ß 0 +ß|X i und in die Streuung der Abweichungen von der Regressionsgeraden, d.h. der Fehler:
S(y,-y) i=l
2
=S(y,-y)2+S(y,-yi) i = l
i=l
2
8.1 Regressionsanalyse
159
Hierbei ist zu beachten, dass der Mittelwert der y, gleich dem Mittelwert der über die Regressionsgeraden bestimmten y, ist. Die obige Gleichung lässt sich wie folgt in Worte fassen: Sum of Squares Total = Sum of Squares due to Regression + Sum of Squares due to Error Oder abgekürzt:
SST =
SSR +
SSE
In der Ergebnisausgabe finden Sie unter "Sum of Squares" SSR = 1010,66843 und SSE = 998,28395. Hierbei hat SSR r - 1 = 2 - 1 = 1 Freiheitsgrad (r ist Anzahl der Parameter im Regressionsmodell und hat somit im einfachen linearen Modell den Wert 2) und SSE h a t n - r = 2 1 - 2 = 1 9 Freiheitsgrade (D.F.). Es gilt für SST = SSR + SSE = 1010,66843 + 998,28395 = 2008,95238. Unter "Mean Square" finden Sie SSR/(r-l) und SSE/(n-r), d.h. die Quadratsummen durch die Freiheitsgrade (D.F.) geteilt. Die Teststatistik F berechnet sich dann aus dem Quotient der beiden mittleren Quadratsummen: P _ SSR / ( r - 1 ) ^ 1010,66843 SSE / (n - r) 52,54126
=1 F wird die Nullhypothese getestet, dass alle Steigungsparameter, d.h. alle ßi ; i > 1 gleich Null sind. Da es im einfachen linearen Modell nur einen Steigungsparameter, nämlich ß, gibt, wird hier die Nullhypothese getestet, dass dieser gleich Null ist. Diese kann verworfen werden, da der p-Wert 0,0003 < 0,05 ist. Somit ist die Steigung signifikant von Null verschieden. Kommt man im multiplen Fall zum Verwerfen der Hypothese, so ist mindestens ein Parameter ßi (i > 1) ungleich Null. Teilt man die Gleichung der Varianzzerlegung durch die Gesamtstreuung, so ergibt sich: _ SSR + SSE ~ SST + SST Da die einzelnen Quadratsummen immer größer oder gleich Null sind, gilt somit folgendes: . SSR , . SSE , n 0