197 41 10MB
German Pages 107 [108] Year 1999
Statistik transparent mit SAS, SPSS, Mathematica
Von
Dipl. Math. Marco Schuchmann und
Dipl. Math. Werner Sanns
R.Oldenbourg Verlag München Wien
Die Informationen in dieser Dokumentation wurden mit großer Sorgfalt erstellt. Trotzdem können Fehler nicht ausgeschlossen werden. Für fehlerhafte Angaben und deren Folgen werden weder juristische Verantwortung noch irgendeine Haftung übernommen. Für eine Mitteilung eventueller Fehler sind die Autoren dankbar, e-mail: [email protected]
Bisher im Oldenbourg Verlag erschienene Werke: Schuchmann, Sanns: Statistik mit Mathematica Sanns, Schuchmann: Mathematik fur Wirtschaftswissenschaftler und Ingenieure mit Mathematica Schuchmann, Sanns: Nichtparametrische Statistik mit Mathematica
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Schuchmann, Marco: Statistik transparent: mit SAS, SPSS, Mathematica / von Marco Schuchmann und Werner Sanns. - München ; Wien : Oldenbourg, 1999 ISBN 3-486-25225-9
© 1999 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: WB-Druck, Rieden ISBN 3-486-25225-9
Vorwort Zu den großen Statistikprogrammen, die an Hochschulen und in der Industrie bei der Analyse statistischer Daten vorrangig eingesetzt werden, gehören SAS („Statistical Analysis System") und SPSS (früher: „Statistical Package for the Social Sciences", heute: "Statistical Product and Service Solutions"). Beide Programmpakete gibt es auch als PC-Version. Die Kunst der Datenanalyse besteht weniger in der Eingabe und Bearbeitung der Daten mit diesen Systemen, als vielmehr in der Interpretation der erzeugten Ausgabe. Es ist das Ziel dieses Buches, die von beiden Programmpaketen erzeugten Ausgaben bei einigen grundlegenden statistischen Berechnungen zu erklären. Dabei wollen wir die ausgegebenen Zahlenwerte mit Hilfe des Programmpakets Mathematica selbst formelmäßig nachvollziehen und verstehen. Als Voraussetzung für das Arbeiten mit diesem Buch benötigen Sie Grundkenntnisse in der Statistik und nach Möglichkeit Zugang zu einem PC mit einer neueren Mathematica Version (wir haben die Version 3.01 benutzt, die Programme laufen aber größtenteils auch unter älteren Versionen, zum Beispiel Version 2.2.3). Wenn Sie überdies die im Buch gezeigten SAS und SPSS Programme und Ausgaben nicht nur im Buch nachlesen wollen, sondern selbst nachvollziehen wollen, brauchen Sie noch die SAS Version 6.12, bzw. SPSS 8.0 (oder Vorgängerversionen, die allerdings nicht unbedingt die hier beschriebene Reihenfolge und Bezeichnungen bei der Wahl der Menüpunkte aufweisen). Haben Sie umgekehrt eines der speziellen Statistikpakete SAS oder SPSS, nicht aber Mathematica zur Verfugung, so können Ihnen die Erklärungen innerhalb der einzelnen Kapitel doch bei der Interpretation ihres Programm-Outputs nützlich sein. Die Vorgehensweise in den einzelnen Kapiteln ist immer die folgende: Ausgehend von einer Problemstellung wird, sowohl von SAS als auch
4
Vorwort
von SPSS der zugehörige Programmcode und der Output gezeigt. Die uns interessierenden ausgegebenen Variablenwerte sind entsprechend im Output durch ©,©.. usw. gekennzeichnet und werden dann im Anschluß an die Ausgaben sowohl von der Theorie her erklärt, als auch mit Hilfe von Mathematica nachgerechnet. Auf diese Weise ergibt sich für den Leser eine Einsicht in die von SAS und SPSS verwendeten Methoden und Formeln. Eine Interpretation der Ergebnisse ist somit wesentlich vereinfacht. Die Statistikpakete, die sonst dem Anwender nur die Eingabe und Ausgabe, nicht aber das interne Vorgehen bei der Berechnung aufzeigen, werden dadurch transparenter. Der von uns angesprochene Leserkreis sollte den Wunsch verspüren, die Ausgaben von SAS und SPSS bei den gängigsten Verfahren der Datenanalyse verstehen und nachvollziehen zu können. Dabei ist es nicht unsere Absicht die Programmpakete in irgend einer Form zu bewerten oder in aller Vollständigkeit vorzustellen. Es sollen lediglich drei verschiedene Möglichkeiten vorgestellt und erklärt werden, wie Sie Anwendung der Statistik mit Hilfe von Softwaresystemen erlernen können. Noch ein Hinweis für die Leser, die an weitergehenden statistischen Verfahren und ihrer Realisierung mit Mathematica interessiert sind: Im gleichen Verlag sind unsere Bücher „Statistik mit Mathematica" und „Nichtparametrische Statistik mit Mathematica" erschienen (siehe Literaturverzeichnis am Ende dieses Buches).
Marco Schuchmann, Werner Sanns
Inhalt 1 UNIVARIATE STATISTIKEN 1.1 Parameterschätzung 1.1.1 SAS-Programm und Output 1.1.2 SPSS-Programm und Output 1.1.3 Erklärung mit Mathematica 1.2 Konfidenzintervalle für den Erwartungswert einer Normalverteilung.. 1.2.1 SAS-Programm und Output 1.2.2 SPSS-Programm und Output 1.2.3 Erklärung mit Mathematica 1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-Tests 1.3.1 SAS-Programm und Output 1.3.2 SPSS-Programm und Output 1.3.3 Erklärung mit Mathematica 2 KOVARIANZ UND KORRELATION 2.1 Parameterschätzung 2.1.1 SAS-Programm und Output 2.1.2 SPSS-Programm und Output 2.1.3 Erklärung mit Mathematica 2.2 Test auf Korrelation bei Normalverteilung 3 DER ZWEISTICHPROBEN T-TEST 3.1 SAS-Programm und Output 3.2 SPSS-Programm und Output 3.3 Erklärung mit Mathematica
6 6 6 12 18 24 24 25 27 28 38 39 41 45 46 46 49 52 55 57 57 59 63
4 LINEARE REGRESSIONSANALYSE
68
4.1 SAS-Programm und Output 4.2 SPSS-Programm und Output 4.3 Erklärung mit Mathematica 4.3.1 Einfache lineare Regression 4.3.2 Multiple lineare Regression
69 74 83 83 101
5 INDEX
105
6 LITERATURVERZEICHNIS
108
1 Univariate Statistiken In diesem Kapitel berechnen wir empirische Kenngrößen, wie zum Beispiel den Mittelwert und die empirische Varianz einer einzelnen Stichprobe. Die Stichprobe besteht aus Realisierungen von unabhängigen, identisch verteilten Zufallsvariablen, deren Verteilung wir als stetig voraussetzen. Bei der Berechnung der Konfidenzintervalle und dem von uns in diesem Kapitel vorgestellten t-Test ist diese stetige Verteilung die Normalverteilung. Die erwähnten empirischen Kenngrößen sind als Schätzer für die im allgemeinen unbekannten Kenngrößen der theoretischen Verteilungen zu verstehen.
1.1 Parameterschätzung Gegeben sei folgende Stichprobe: 167,163,155,167,161,177,173,179. Diese Werte könnten als Körpergrößen von zufällig ausgewählten Schülern einer Schule interpretiert werden. Wir wollen zeigen, wie mit SAS und SPSS diese Daten in ein Programm zur Berechnung von Kenngrößen eingefügt werden. Die Ausgabe wird dann im Anschluß mit Mathematica nachvollzogen. Der Leser, der nur Mathematica einsetzen will, kann im dritten Unterkapitel die Berechnung durchfuhren und eventuell mit dem hier aufgelisteten SAS- und SPSSOutput vergleichen. Alle Programme in SAS und SPSS, sowie die einzugebenden Zeilen in Mathematica werden hier im Buch im Fettdruck aufgeführt. Die Ausgaben erscheinen in Dünndruck. 1.1.1
S A S - P r o g r a m m und O u t p u t
Wir berechnen zunächst mit SAS einige statistische Kenngrößen. Nach dem Aufruf von SAS sehen Sie drei Fenster:
I Univariate Statistiken
7
Den Programm-Editor zur Eingabe von S AS-Programmen, das LogFenster, in welches SAS Kommentare während des Programmablaufs schreibt und das Output-Fenster, in welches SAS die Ausgabe nach einem erfolgreichen Programmstart schreibt. Wir beginnen mit der Definition eines temporären SAS-Datensatzes (SAS-Dataset) namens „TEMP". Dieser enthält eine Variable „x" und 8 Beobachtungen. Dieses Programm muß wie alle SAS-Programme in den Programmeditor von SAS geschrieben und mit F8 gestartet werden. Das SAS-Programm:
data temp; input x; cards; 167 163 155 167 161 177 173 179 run; Mit der nun folgenden Prozedur „PRINT" wird die Datei im OutputFenster angezeigt. Danach starten wir die Prozedur „UNIVARIATE" , mit der wir in SAS diverse statistische Kenngrößen berechnen. proc print data = temp; run; proc univariate data = temp; run;
8
I Univariate
Statistiken
Es folgt der SAS-Output: Univariate Procedure Variable=X Moments
o
N
© ©
Std Dev
8.20714
Variance
67.35714
Skewness
0.04419
Kurtosis
-0.88644
167.75
Mean
©
o o
©
8
USS
Sum Wgts
1342
Sum
225592
CV
8
57.81169 8 4 18
Num "= 0 M(Sign) Sgn Rank
o ©
471 .5
CSS
2.901662
4.892483
T:Mean=0
©
Std Mean 0.0001 (*) Pr>|T| 8 Num > 0 Pr>=|M| 0.0078 Pr>=[S| 0.0078
©
(*)siehe Einstichproben t-Test) Quantiles(Def=5)
OO O© OO O© OO
100% Max
179
99%
179
75% Q3
175
95%
179
50% Med
167
90%
179
25% Q1
162
10%
155
155
5%
0% Min
1%
o© OO OO
Range
24
Q3-Q1
13
Mode
Lowest 155 ( 161 ( 163 ( 167 ( 167 (
155 155
167
Obs
Extremes Highest 167 ( 3) 167 ( 5) 173 ( 2) 177( 4) 179( 1)
Obs 1) 4) 7) 6) 8)
Den Output von SAS (wie den folgenden von SPSS) werden wir nachher genauer beschreiben, wobei wir jede markierte Kenngröße mit Mathematica berechnen. Auf diese Art können unsere Leser die von
1 Univariate
Statistiken
9
den Statistikprogrammpaketen SAS und SPSS ausgegebenen Größen nachrechnen. Zu den Kenngrößen, die wir hier nicht beschreiben gehören die Zeile T:Mean=0 57.81169 Pr>|T| 0.0001 Auf diese gehen wir in dem Kapitel über den t-Test ein. Die Zeile Num A = 0 8 Num > 0 8 beschreibt die Anzahl der Werte (ohne missings) ungleich 0 ( A = 0) bzw. > 0. Dies sind hier jeweils 8 Werte. Die Zeilen M(Sign) 4 Pr>=|M| 0.0078 Sgn Rank 18 Pr>=|S| 0.0078 beschreiben Kenngrößen für nichtparametrische Verfahren. Zu diesen verweisen wir auf unser Buch "Nichtparametrische Statistik mit Mathematica" (siehe Literaturverzeichnis). In unserem Beispiel wurde der SAS-Datensatz „TEMP" als temporäre Datei definiert. Dieser Datensatz wird somit nach dem Schließen von SAS wieder gelöscht. Will man dagegen diesen Datensatz in ein Verzeichnis, z.B. in das Verzeichnis „c:\daten" schreiben, so muß man zunächst einen „Alias"-Namen für dieses Verzeichnis innerhalb von SAS festlegen. Nehmen wir an, wir möchten dieses Verzeichnis in SAS mit „DAT" ansprechen, so müssen wir zunächst die folgende Programmzeile in den Programmeditor eingeben und mit F8 starten müssen: LIBNAME DAT 'c:\daten'; Für die hier benutzten Hochkommata können auch Gänsefußchen gewählt werden. Danach müssen wir jeweils anstelle „TEMP" die vollständige Bezeichnung „DAT.TEMP" schreiben, wodurch der SAS-Datensatz „TEMP" in das definierte Verzeichnis geschrieben wird. Er steht dann auch beim nächsten SAS-Aufruf zur Verfugung. Die oben stehende „LIBNAME"-Anweisung muß allerdings dann nach einem neuen SASStart einmal gestartet werden (mit F8), so daß SAS wieder das Verzeichnis c:\daten kennt, falls man auf SAS-Datensätze in diesem Verzeichnis zugreifen möchte oder Datensätze in dieses Verzeichnis schreiben möchte.
10
I Univariate
Statistiken
Wir haben in unserem Beispiel zwei Prozeduren benutzt. Mit der ersten Prozedur (PRINT) kann man sich einen SAS-Datensatz im OutputFenster ausgeben lassen. Zu jeder Prozedur stehen in SAS viele Optionen zur Verfügung, auf die wir nicht alle eingehen können. Die Prozedur,,PRINT" ist folgendermaßen aufgebaut (die folgenden Zeilen dienen nur der Erklärung der Syntax und sind nicht in dieser Form einzugeben, stehen also hier im Dünndruck ): PROC PRINT D A T A = SAS-data-set V A R variable-list; B Y variable-list; S U M variable-list; RUN; Läßt man die Anweisung V A R weg, so wird die Prozedur für alle im Datensatz vorkommenden Variablen durchgeführt. Ansonsten müssen die Variablen mit einem Leerzeichen getrennt angegeben werden. Mit der „SUM"-Anweisung können Summen über die Beobachtungen innerhalb einer Variable gebildet werden. Eine Anweisung kann auch über mehrere Zeilen verlaufen und die Groß-Klein-Schreibung ist irrelevant. Eine Anweisung endet immer mit einem Semikolon. Als zweites haben wir die Prozedur „ U N I V A R I A T E " aufgerufen, mit der einige univariate (das heißt auf eine einzelne Stichprobe bezogene) Kenngrößen berechnet werden können. Allgemein hat diese Prozedur die folgende Gestalt.
PROC U N I V A R I A T E D A T A = SASdataset NOPRINT (keine Ausgabe) PLOT (Boxplot und Normal-Probability-Plot) NORMAL (Test auf Normalverteilung) V A R variables; B Y variables; FREQ variable; WEIGHT variable;
1 Univariate Statistiken
11
OUTPUT OUT= SASdataset keyword= names..., RUN;
Mit der OUTPUT Anweisung können einige Kenngrößen in einen SAS-Datensatz (SAS-dataset) geschrieben werden. Folgende Kenngrößen können dabei angeben und berechnet werden: KURTOSIS N SKEWNESS PI Q1 CSS MAX NMISS STD P5 Q3 MSIGN MEAN NOBS SUM P10 QRANGE TMEDIAN NORMAL SUMWGT P90 STDMEAN PROBN MIN RANGE VAR P95 CV PROBM MODE SIGNRANK P99 USS PROBS
Beispiel: OUTPUT OUT = TEMP2 MEAN = m, würde in den temporären Datensatz TEMP2 den Mittelwert unter dem Namen m speichern. Die oben stehenden Kenngrößen werden später mit Mathematica berechnet und beschrieben. Anstelle der Prozedur UNIVARIATE hätten wir auch die Prozedur MEANS verwenden können: PROC MEANS , VAR variable-list; BY variable-list; CLASS variable-list, FREQ variable; WEIGHT variable; OUTPUT < . . var-n=name-list>; RUN; Man kann Optional auch unter die folgenden Kenngrößen berechnen lassen. Ansonsten wird automatisch der Mittelwert, die empirische Standardabweichung, das Minimum und Maximum und der Stichprobenumfang ausgegeben.
12
1 Univariate
Statistiken
N NMISS MEAN STD MIN MAX RANGE SUM VAR USS CSS CV STDERR T PRT SUMWGT SKEWNESS KURTOSIS CLM LCLM UCLM
1.1.2 SPSS-Programm und Output Gegeben war folgende Stichprobe: 167,163,155,167,161,177,173,179. Nach dem Starten von SPSS sehen Sie eine Tabelle, in welche Sie Daten eingeben oder auch bereits bestehende SPSS-Dateien (mit der Endung SAV) laden können. Wir definieren zunächst unsere Variable mit dem Namen x. Dazu müssen Sie die folgenden Menüpunkte (im Buch immer mit einem Pfeil -> gekennzeichnet) wählen: ->Daten ->Variable definieren. SPSS schlägt Ihnen einen Variablennamen vor (VAR00001), den Sie überschreiben können. Variable definieren
Yariablenname:
E l
|3
Variablenbeschreibung Typ: Numerisch 8.0 Vatiabl enlabel: Fehlende Werte: Keine Ausrichtung: Rechtsbündig Einstellungen ändern
Meßniveau i®" Metlisch
Tj?p...
|
Fehlende Werte. - |
Labels...
j
Spaltenformat... |
— -
—
—
Ordinal OK
C |
* Ngminal
Abbrechen]
Hilfe
|
Mit der oben im Bild zu sehenden Option „Labels..." können Sie zu der Variable eine Beschreibung angeben, die auch länger als der
I Univariate
Statistiken
1 3
Variablenname von 8 Zeichen sein kann. Diese erscheint dann jeweils auch in der Ausgabe. Zusätzlich können Sie hier auch jeder Ausprägung ein Beschreibung geben. Mit J e h l e n d e Werte" können Ausprägungen als fehlende Werte definiert werden. Diese werden bei Statistiken nicht berücksichtigt (es wird ein Hinweis zur Anzahl der fehlenden Werte gegeben). Voreingestellt ist ein Komma als Kennzeichnung für fehlende Werte. In SAS ist dies ein Punkt. Wählen Sie nun ->Typ um den Typ zu definieren:
Numerisch
Weiter
Komma
C
Punkt
r
Wissenschaftliche Notation
f
Datum
r
Dollar
f
Spezielle Währung
C
Stnng
Abbrechen Dezimalstellen: |1
Hie
Wir wählen ->Numerisch (Voreinstellung) und 5 Vor- sowie eine Nachkommastelle. Danach müssen Sie auf ->Weiter->OK klicken. Nun können Die Daten wie im unteren Bild eingegeben werden:
14
I Univariate Statistiken •-IJlxl
£*•( B»*M»r emcH D«w> TfwtmhwB - W m i gnftan E*)« Eantt :
En-
Nun möchten wir einige Kenngrößen mit SPSS berechnen und wählen ->Statistik-> Z u s a m m e n f a s s e n d Häufigkeiten. Häufigkeiten
Variablefn);
OK Einfügen Zurücksetzen Abbrechen Hilfe
R HäuftgketetabeHen anzeigen Statistik.. | Diagramme.. j
Format-
1 Univariate Statistiken
15
Wählen Sie hier die Variable x aus indem Sie diese im linken Feld durch Mausklick markieren und durch die Schaltfläche mit dem Dreieck in das rechte Fenster transportieren. Danach wählen Sie ->Statistik.... Häufigkeiten: Statistik Perzentilwerte
Lagemaße
ff? Quartile
f ? Mittelwert
r
P
Median
P
Modalwert
P
Summe
Jtennen
gleiche Gruppen
ff? Perzentile:
r Streuung —
—
Ii? Std.-Abweichung W Varianz ff? [Spannweitel
—
--
ff?
ff?
Minimum Maximum
P
Weiter Abbrechen Hilfe
Werte sind Gruppenmittelpunkte Verteilung P
Schiefe
ff? &urtosis
Std.-Fehler
Die Auswertung wird berechnet mit ->Weiter-> OK
j
16
I Univariate
Statistiken Statistiken
X N
Gültig Fehlend
Mittelwert
8 0 167,750
Standardfehler des Mittelwertes
2,902
Median
167,000
Modus
167,0
Standardabweichung
8,207
Varianz
67,357
Schiefe
-,044
Standardfehler der Schiefe
,752
Kurtosis
-,886
Standardfehler der Kurtosis
1,481
Spannweite
24,0
Minimum
155,0
Maximum
179,0
Summe Perzentile
1342,0 25
161,500
50
167,000
75
176,000
Der durch Anklicken mit der Maus ermöglichte Ablauf der Berechnungen kann auch über die Syntax von SPSS gesteuert werden. Der Vorteil liegt darin, daß man die Syntax beim ersten Programmdurchlauf automatisch erstellen und dann abspeichern kann. Hat man viele Programmdurchläufe mit den selben oder nur leicht modifizierten Variablen bzw. Optionen, so kann man die gespeicherte Syntax Datei laden und ausfuhren. Sie können in SPSS 8.0 (auch mit einigen Vorgängerversionen ist dies auf ähnliche Weise möglich) mit der Menüwahl ->Bearbeiten->Optionen->allgemein->Begfehlssyntax in Journaldatei aufzeichnen
I Univariate Statistiken
17
erreichen, daß die von Ihnen durchgeführten Schritte in SPSS in einer Journaldatei mit dem Namen SPSS.JNL aufgezeichnet werden. Diese befindet sich standardmäßig im Verzeichnis „c:\windows\temp". Sie können die Journaldatei bearbeiten und als Syntaxdatei speichern. Dazu öffnen Sie die Datei in dem besagten Verzeichnis über die Menüpunkte ->Datei->Öflnen-> (Dateityp) alle Dateien. Dann entfernen Sie aus der Datei alle sonstigen Mitteilungen und Kommentare die keinen SPSS Programmcode darstellen und speichern die bearbeitete Datei unter neuem Namen als SPSS-Syntax-Datei ( sps- Datei) Sie sollten die bearbeitete Journaldatei unter einem anderen Namen speichern, denn sie wird in jeder Sitzung automatisch ergänzt oder überschrieben. Wenn Sie die so erhaltene Syntaxdatei laden, können Sie durch Markieren der Befehle, die Sie im Syntaxfenster ausfuhren möchten und anschließendem Klicken auf das Schaltfeld "Ausfuhren" auf der Symbolleiste des Syntaxfensters, die Programmzeilen starten. Wenn Sie dagegen selbst Programmcode in ein entsprechendes Fenster schreiben wollen, können Sie über die Menüpunkte ->Datei ->Neu->Syntax gleich ein neues Syntaxfenster öffnen und den Programmcode selbst eintippen. Über die Menüpunkte des SyntaxFensters ->Ausfiihren->Alles wird das Programm ausgeführt. Die SPSS-Syntax für das oben stehende Beispiel lautet: FREQUENCIES VARIABLES=x /NTILES= 4 /PERCENTILES= 25 75 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SUM SKEWNESS SESKEW KURTOSIS SEKURT /ORDER ANALYSIS.
18
1 Univariate
Statistiken
1.1.3 Erklärung mit Mathematica Kommen wir nun zur Erklärung und zum Nachrechnen mit Mathematica. Alle hier fettgedruckten Zeilen müssen Sie in das EditorFenster von Mathematica eingeben und jeweils mit der Tastenkombination „Shift" zusammen mit „Enter" abschicken. Die Antworten von Mathematica stehen hier im Dünndruck. Für Mathematica-Neulinge verweisen wir als Einstieg in dieses System auf unser Buch „Statistik mit Mathematica" (siehe Literaturverzeichnis). Wir definieren die Liste x der Beobachtungen. Needs["Statistics'hfester""] x = {167, 163, 155, 167, 161, 177, 173, 179}; Nun berechnen wir die Kenngrößen. Es handelt sich immer um empirische Größen, auch wenn wir im folgenden nicht immer drauf hinweisen. Der Stichprobenumfang, das heißt die Anzahl der Beobachtungen, errechnet sich wie folgt: n = Length[x] 8
O
Die Summe aller Beobachtungswerte können Sie über die SumAnweisung berechnen Sum[x[[i]],{i,l,n}], oder Sie wählen aus der Palette „Basiclnput" (über ->File->Palettes->BasicInput) das Summenzeichen aus. n
sum= £ x [ [ i ] ] i=l
1 Univariate Statistiken
1342
1 9
©
Der Mittelwert läßt sich mit der Mathematica-Anweisung ,JVlean" berechnen oder über die Definition als die durch den Stichprobenumfang n dividierte Summe der Stichprobenwerte x;.
Maanfx] // N 167.75
© n
1 m= -
n
V x [ [i] ]
// N
t i
167.75
Auch die Varianz berechnen wir auf zwei Arten: Variancefx] / / N 67.3571 ©
sq= —!— y (x[[i]] - m ) 2 / / N ui
67.3571
Die Standardabweichung ist die Wurzel aus der Varianz: StandardDeviation[x] // N 8.20714
©
s=Vsq//N 8.20714
/ Univariate Statistiken
20
Als nächstes berechnen wir die Schiefe und die Wölbung (engl, skewness & kurtosis). Mathematica berechnet mit den entsprechenden Funktionen den Schätzer für diese beiden Kenngrößen auf eine andere Art als SAS. Wir geben danach die Formel mit Berechnung dieser Kenngrößen fìir Mathematica und für SAS aus. Die Formeln finden Sie in dem Buch von Härtung (siehe Literaturverzeichnis). Skewness[x]// N -0.0354307 n ( n - 1) ( n - 2 ) -0.0441899
\ f (x[[i]] ss 33 ft- i
0
n Zi=i ( x t [ i ] 1 -
m) 3
(*[[*•]] - m ) 2 ) :
•J -0.0354307
K u r t o s i s [ x ] // N 1.91122 %-
3
-1.08878 K u r t o s i s E x o e s s [ x ] // N -1.08878
-m)3
1 Univariate
n (n+1) (n-1) (n-2) (n-3) -0.886441
Statistiken
21
1 A 4 (n-1)2 V (x[ [i] ] - m)4 - 3 s" £ (n-2)(n-3)
Q
1 ZLi (*[[i]] -m)4 —11 -3 (v -n Z L i ( x [ [ i ] ] - m ) 2 ) 2 '
-1.08878
Bei symmetrischen Verteilungen nimmt die theoretische Schiefe den Wert 0 an. Da es sich jeweils um die entsprechenden empirischen Werte, also um Schätzer der theoretischen Kenngrößen handelt, liegt der Wert bei Stichproben, die aus Realisierungen von symmetrisch verteilten Zufallsvariablen bestehen, in der Nähe der 0. Ist die Abweichung vom Wert 0 zu groß, so ist dies ein Hinweis darauf, daß die theoretische Verteilung nicht symmetrisch ist. Die Schiefe ist wie die Wölbung dimensionslos. Die theoretische Wölbung ist bei der Normalverteilung gleich 3. Wir geben zusätzlich den sogenannten Exzess (=Wölbung - 3) aus, der bei der Normalverteilung den Wert 0 annimmt. Die empirische Wölbung hat demnach bei normalverteilten Daten in etwa den Wert 3. Der Standardfehler des Mittelwerts se= s
j
V n
2.90166
Q
Der Variationskoeffizient setzt den Mittelwert ins Verhältnis zur empirischen Standardabweichung. : cv = m / s
22
1 Univariate
20.4395
Statistiken
q
Die Summe der Quadrate der Stichprobenwerte wird oft für Berechnungen benötigt: n s o f s = £ * [ [i] ]2 i=l 225592
0Q
Die korrigierte Quadratsumme : n css= 2 (x[[i]] -m)2 i=l 471.5 Kommen wir zur Berechnung der kleinsten und größten Beobachtung und der Spannweite, das heißt der Differenz zwischen diesen beiden extremen Beobachtungen. Das Minimum bzw. Maximum und die Spannweite {min, max} = {MLn[x] , Max[x] } {155, 179}
OO
ränge = max- min 24
o e
Der Modalwert (Mathematica:.Mode) ist die am häufigsten beobachtete Ausprägung in der Stichprobe (diese Kenngröße ist auch bei nichtmetrischen Daten sinnvoll). Mode[x]
/ Univariate Statistiken
167
23
O©
Der Median ist der Wert, für den gilt, das 50% der Beobachtungen kleiner oder gleich diesem Wert sind. Median[x] / / N 167.
OO
Während Mittelwert, Median und Modus eine Information über Lokalisation der Daten darstellen und daher als Lokalisationsmaße bezeichnet werden, ist die Varianz und die Standardabweichung ein Streuungsmaß. Unter diesen Begriff fallen auch die sogenannten Quantile. Wir benötigen daher noch den Quantiisbegriff, speziell den des 75% Quantiis und des 25% Quantiis, auch oberes und unteres Quartil genannt. Allgemein gilt für ein a Quantil, daß a% der Beobachtungen kleiner oder gleich dem Wert des entsprechenden Quantiis sind. Demnach ist der Median das 50% Quantil. Mathematica gibt den Quartilsabstand mit 12 an, dies ist nach Definition die Differenz aus dem 75% und des 25% Quartiis. q75 = Q u a n t i l e [ x , 0 . 7 5 ] 173
o e
q25 = Q u a n t i l e [ x , 0.25] 161
OO
i r q = q75 - c£5 12
OO
Die Berechnung der Quantile erfolgt allerdings, wie Sie oben feststellen konnten, nicht einheitlich in den Programmpaketen.
24
I Univariate
Statistiken
1.2 Konfidenzintervalle für den Erwartungswert einer Normalverteilung Wir berechnen nun ein 90%-iges Konfidenzintervall (KI) für den Erwartungswert einer Normalverteilung mit SAS auf der Basis der Stichprobe des Kapitels 1.1 (SAS-Datensatz TEMP) und danach mit SPSS. Beachten Sie bitte, daß im Gegensatz zu Mathematica bei SAS und SPSS die Groß- und Kleinschreibung unerheblich ist.
1.2.1 SAS-Programm und Output data temp; input x; cards; 167 163 155 167 161 177 173 179 run; PROC MEANS DATA=TEMP N MEAN CLM Alpha=0.10; VAR x; RUN; N
Mean
Lower 9 0 . 0 % CLM
Upper 9 0 . 0 % CLM
8
167.7500000
162.2525731
173.2474269
1 Univariate Statistiken
25
Da die Ausgabe hier nur aus einer Zeile besteht, haben wir in diesem Output auf die Markierungen verzichtet. Der Leser kann den Mathematica-Output sicher sofort dem SAS- bzw. SPSS-Output zuordnen.
1.2.2 SPSS-Programm und Output Tragen Sie die Werte in das Feld des Editors wie im Abschnitt 1.1.2 beschrieben ein. Dann wählen Sie die Menüpunkte Statistik->Mittelwert vergleichen ->T-Test bei einer Stichprobe
Testvariable(n):
OK Einfügen
Optionen und tragen Sie neben „Konfidenzintervall" den Wert 90 (fiir ein 90%-iges Konfidenzintervall) ein.
26
1 Univariate
Statistiken
T - T e s l bei einet Stichprobe:
Konfideranterva«:
pÜÖ
ptionen
~~ %
Weiter
Fehlende Werte
Abbrechen
y? Fallausschluß Test für Test
Hilfe
Listenweiser Fallausschluß
Wählen Sie nun ->Weiter->OK, womit Sie den folgenden Output erhalten. SPSS-Output: Test bei einer Sichprobe Testwert = 0
X
T 57,812
df 7
Sig. (2-seitig) ,000
Mittlere Differenz 167,75
Das zugehörige SPSS-Programm sieh so aus: T-TEST /TESTVAL=0 /MISSIN G=ANALYSIS /VARIABLES=x /CRITERIA=CIN (.9).
90% Konfidenzintervall der Differenz Untere Obere 162,25 173,25
1 Univariate Statistiken
7.1
1.2.3 Erklärung mit Mathematica Kommen wir nun zur Berechnung des 90%-igen Konfidenzintervalls für den Erwartungswert einer Normalverteilung mit Mathematica. Der unbekannte Erwartungswert befindet sich mit 90%-iger Sicherheit in diesem Intervall. Wir müssen voraussetzen, daß unsere Stichprobe aus Realisierungen von unabhängig und identisch normalverteilten Zufallsvariablen besteht. Wir beginnen mit der Definition der Konfidenzzahl y. Wenn Sie keine griechischen Buchstaben benutzen wollen, können Sie auch jeweils eine Bezeichnung wählen, wie z.B gamma: Y = 0.90; Aus dem ersten Kapitel benötigen wir den Mittelwert m, die empirische Standardabweichung s und den Stichprobenumfang n. Nun berechnen wir das {\+y)!2 Quantil der t-Verteilung mit n-1 Freiheitsgraden: c = Q u a n t i l e [ S t u d e n t T O i s t r i b u t i o c i [ n - 1 ] , (1 + 1 ) / 2] 1.89458 Es folgt die Berechnung der Intervallgrenzen: s s r l {m- c * —- — , m + c * —— j Vn V n {162.253, 173.247}
Also befindet sich der Erwartungswert mit einer Wahrscheinlichkeit von 90% in dem Intervall [162.253,173.247], Hierzu gibt es auch eine Mathematica-Funktion: lyfeanCI[x, C c n f i d e n c e L e v e l - > r ] {162.253,
173.247}
28
I Univariate Statistiken
1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-Tests Statistische Tests dienen dem Testen von Vermutungen, sogenannten Hypothesen, über Eigenschaften der Gesamtheit aller Daten („Grundgesamtheit" oder „Population"), aus denen man eine Stichprobe entnommen hat. Diesen Bereich der Statistik zählt man zur schließenden Statistik (Inferenz-Statistik, induktive Statistik), da man von einer Stichprobe auf die Grundgesamtheit, das heißt auf die unbekannten Parameter oder die unbekannte theoretische Verteilung schließt. Man unterscheidet: -Hypothesen über die unbekannten Parameter eines bekannten Verteilungstyps. Die zugehörigen Tests nennt man parametrische Tests. -Hypothesen über das Symmetriezentrum der Verteilung bei unbekanntem Verteilungstyp (nichtparametrische Tests), -Hypothesen über die Art einer Verteilung (Anpassungstests) -Hypothesen über die Abhängigkeit von Zufallsvariablen (Unabhängigkeittests). Bei einem statistischen Test geht man von einer sogenannten Nullhypothese „IIo" aus. Die Alternativhypothese nennt man „H A " oder „Hi". Ziel ist es anhand statistischer Schlußweisen die Nullhypothese zu widerlegen und damit die Alternative statistisch nachzuweisen. Man berechnet dazu mit Hilfe einer Stichprobe eine Prüfgröße, eine sogenannte Teststatistik, oft mit z (oder auch mit t ) bezeichnet. Diese ist Realisierung einer Zufallsvariablen Z (bzw. T), deren theoretische Verteilung (z.B. Normalverteilung, t-Verteilung usw.) man kennt, unter der Voraussetzung, daß die Nullhypothese richtig ist. Mit dem über die Stichprobe berechneten konkreten Wert z wird dann eine Entscheidung zugunsten von H 0 oder von H A getroffen. Wenn die Prüfgröße z extreme, dh. eigentlich der Nullhypothese widersprechende Werte annimmt, dann wird die Nullhypothese verworfen.
1 Univariate Statistiken
29
Die Wahrscheinlichkeit dafür, daß solche extremen der Nullhypothese widersprechenden Werte auftreten, kann man berechnen, da man die Verteilung unter der Nullhypothese kennt. Dies ist dann der maximale Fehler, den man beim Verwerfen einer richtigen Nullhypothese macht. Statistische Tests gibt es als einseitige oder zweiseitige Tests. Bei einem einseitigen Test zum Niveau a , wobei 0 < a < l , zerfällt der Wertebreich von Z in zwei Teilbereiche. In einen dieser Teilbereiche fällt z bei Gültigkeit der Hypothese H 0 mit einer Wahrscheinlichkeit von 1-a, in den anderen Bereich, der auch kritischer Bereich oder Ablehnungsbereich genannt wird, fallt z mit einer Wahrscheinlichkeit a. Die von uns vor Beginn des Tests zu treffende Wahl von a ist abhängig von den Konsequenzen einer möglichen Fehlentscheidung. Meist wählt man a=0.05 =5% oder a = 0.01=1 % Bemerkung: Wir weisen an dieser Stelle bereits darauf hin, daß es üblich ist, bei Anpassungstests meist 20% bzw. 25 % zugrunde zu legen. Dadurch wird in diesem Fall der kritische Bereich vergrößert und man kommt eher zum Verwerfen der Nullhypothese Dies ist erforderlich, da man bei Anpassungstests die Nullhypothese nachweisen will. Daher kann man sagen: Wenn man trotz dieses hohen Fehlerniveaus nicht zum Verwerfen der Nullhypothese kommt, spricht nichts gegen diese. Bei einem zweiseitigen Test gibt es 3 Teilbereiche, da hier der kritische Bereich nochmals in zwei Teilbereiche zerlegt wird. Der kritische Bereich beim einseitigen oder die kritischen Bereiche beim zweiseitigen Test ergeben sich durch die Formulierung der Alternativhypothese. So wird, wie wir gleich beim t-Test sehen werden, die Nullhypothese beim einseitigen Test entweder bei zu großen oder zu kleinen Werten der Prüfgröße z verworfen, je nachdem wie die Alternativhypothese formuliert wird. Beim zweiseitigen Test wird die Nullhypothese stets bei zu großen oder zu kleinen Werten der Prüfgröße z verworfen. Liegt nun z in dem Teilbereich der zu einer Wahrscheinlichkeit kleiner oder gleich a gehört, so wird die Hypothese H0 verworfen. Man sagt
30
/ Univariate
Statistiken
dann: "Die Alternative H A ist zum Niveau a signifikant". Der Fehler bei dieser Entscheidung, d.h. H 0 fälschlicherweise zu verwerfen, hat gerade eine Wahrscheinlichkeit kleiner oder gleich dem Niveau a des Tests. Man spricht auch vom a - Fehler oder vom Fehler 1. Art und nennt a auch Irrtumswahrscheinlichkeit oder Signifikanzniveau. Fällt z in den anderen Bereich, so bleibt man bei der Hypothese H0. Kann man Ho nicht verwerfen, ist diese noch nicht bewiesen, da man im praktischen Fall keine Aussage über den sogenannten Fehler zweiter Art ß machen kann, das heißt den Fehler H 0 anzunehmen obwohl H 0 falsch ist. Falls die Varianz bekannt wäre, so könnte man zu einem gegebenen maximal tolerierbaren Fehler erster und zweiter Art den nötigen Stichprobenumfang berechnen (die entsprechende Formeln hierzu sind im Buch von Härtung zu finden). Allgemein gilt für Tests, daß mit steigendem Stichprobenumfang auch der Fehler zweiter Art abnimmt, wobei sich dann die Teststärke \ -ß (Power) vergrößert. Die Aussage, die man eigentlich nachweisen möchte, formuliert man immer in der Alternativhypothese (soweit dies möglich ist, denn bei Anpassungstests ist dies im allgemeinen nicht möglich). Aus diesem Grund möchte man also zum Verwerfen der Hypothese H0 gelangen. Arbeitet man z.B. auf 5%-igem Signifikanzniveau, so kann man, falls es gelingt H 0 zu verwerfen, behaupten, daß diese Entscheidung in höchstens 5% der Fälle falsch ist (Fehler 1. Art). Man nimmt somit beim Verwerfen der Nullhypothese maximal einen Fehler von 5% in Kauf. Kann die Nullhypothese nicht verworfen werden, so kann man im praktischen Fall keine Aussage über den Fehler machen, den man beim Annehmen der Nullhypothese macht, da der Fehler 2. Art, wie bereits erwähnt, unbekannt ist. Stellvertretend für die zahlreichen Tests, die man in der Statistik kennt, wollen wir den t-Test besprechen und vorführen. Den t-Test gibt es als folgende Varianten: den t-Test für eine einzelne Stichprobe (Einstichproben t-Test, one-sample t-test), für zwei verbundene abhängige Stichproben (paired t-test) und für zwei unabhängige Stichproben (Zweistichproben t-Test, two-sample t-test).
I Univariate Statistiken
31
Voraussetzung für die Anwendung des t-Tests ist, daß die Stichprobe aus Realisierungen von identisch normalverteilten Zufallsvariablen besteht. Beim Zweistichproben t-Test gilt dies jeweils für die erste und zweite Stichprobe, wobei die Parameter der Normalverteilung bei der ersten Stichprobe natürlich nicht notwendigerweise die gleichen sein müssen wie bei der zweiten Stichprobe. Ist diese Voraussetzung nicht erfüllt, so ist der Test nicht anwendbar. Es wäre also zunächst ein Test auf Normal Verteilung durchzuführen. Gehen wir nun von dem einseitigen Einstichproben t-Test aus. Beim diesem Test geht jeweils darum, Hypothesen über den Erwartungswert (j. anhand einer Stichprobe zu überprüfen. Dabei ist die Varianz ebenso wie der Erwartungswert (i der zugrunde liegenden Normalverteilung unbekannt. Bemerkung: Der entsprechende Test bei bekannter Varianz heißt Gaußtest und arbeitet mit der Normalverteilung statt mit der tVert eilung. Der Erwartungswert wird bei den folgenden Hypothesen mit einem konkret festgelegten Wert JJ.0 verglichen. Wir stellen die Hypothese H0 auf: H0: [i< |io und testen diese gegen die Alternative HA: H > [io. Hier wird die Nullhypothese verworfen, falls die Prüfgröße z einen zu großen Wert aufweist, d.h. falls diese größer ist als das (1-a)- Quantil z* der t-Verteilung mit n-1 Freiheitsgraden (n = Stichprobenumfang). Es ist z* = F"1 ( 1 - a ) . Dabei ist F,n die Verteilungsfunktion der tVerteilung mit n-1 Freiheitsgraden. Die folgende Grafik zeigt die Dichtefunktion der t-Verteilung zusammen mit dem kritischen Wert z* und den Flächen mit dem Wert a beziehungsweise 1-a, die die
32
I Univariate
Statistiken
Wahrscheinlichkeiten repräsentieren, daß eine Realisierung der Zufallsvariablen Z in das entsprechende Intervall auf der x-Achse fällt.
Die nächste Grafik zeigt diesen Sachverhalt anhand der Verteilungsfunktion F der t-Verteilung. Hier wird der Zusammenhang zwischen den Quantilen und den kritischen Werten deutlich. Es gilt F(z*)=l-a bzw. F" 1 (l-a)= z .
1 Univariate Statistiken
33
Demnach wird die Nullhypothese verworfen, wenn: z > z* = F,^ (1 - a )
ö F,^ (z) > 1 - a o a > 1 - F,n _ (z) = p - Wert
Dies bedeutet, daß die Nullhypothese verworfen wird, falls die Prüfgröße z größer als das (l-a)-Quantil z* der t-Verteilung mit n-1 Freiheitsgraden z ist, was äquivalent dazu ist, daß der p-Wert kleiner als das gewählte Signifikanzniveau a ist. Der p-Wert wird von den meisten Statistikprogrammpaketen ausgegeben, wobei hier aber immer der zweiseitige t-Test durchgeführt wird. Bemerkung: Da die t-Verteilung eine stetige Verteilung ist, können in der oberen Gleichung zur Herleitung des p-Wertes auch alle „>"Zeichen durch „>" ersetzt werden. Dabei wird die Prüfgröße z wie folgt berechnet: z = Vn
s
34
I Univariate
Statistiken
Es ist s die aus der Stichprobe berechnete Standardabweichung, x das arithmetische Mittel und n der Stichprobenumfang. Im folgenden ist eine Grafik zu sehen, in der die Fläche zwischen dem kritischen Bereich (dies ist das Intervall (z*, oo) auf der x-Achse) und dem Graph der Dichtefunktion der t-Verteilung mit n-1 Freiheitsgraden eingefärbt ist. Der Punkt auf der x-Achse soll die Prüfgröße z darstellen, die man aus einer konkreten Stichprobe vom Umfang n gewonnen hat. Nach der unteren Grafik käme man nicht zum Verwerfen der Nullhypothese, da z < z* ist, also z in einen Bereich fällt, in dem eine Realisierung von Z mit der Wahrscheinlichkeit 1-a auftritt. Je nachdem wir man wie groß man a wählt, wird der kritische Bereich größer (für größere a ) oder kleiner.
Beim zweiseitigen Test gibt es, wie bereits beschrieben, zwei kritische Bereiche, für die gilt, daß die Fläche zwischen Kurve und den beiden kritischen Bereichen insgesamt a ist.
I Univariate
Statistiken
35
Da die t-Verteilung symmetrisch ist, genügt es hier, einen kritischen Wert z anstelle von zwei kritischen Werten z\ und Zi zu berechnen. Denn hier gilt -z\ = z2* = z . Dabei sind die Hypothesen: H0:
[L=
|io
gegen HA:
Wir verwerfen die Nullhypothese zugunsten der Alternativhypothese, falls die Prüfgröße z „zu große" oder „zu kleine" Werte annimmt, d.h. wir kommen zum Verwerfen, falls z größer als das l - a / 2 Quantil z2* oder kleiner als das all Quantil z\ der t-Verteilung mit n-1 Freiheitsgraden ist. Hier würde die Nullhypothese also verworfen werden, falls gilt: z < zi* = F,^ ( a / 2) oder z > z2* = F,"^ ( l - a / 2 )
36
1 Univariate
Statistiken
Dieses Kriterium ist wegen der beschriebenen Symmetrie der tVerteilung äquivalent zu |z|>z* = ^ ( 1 - 0 6 / 2 ) Um auf den p-Wert zu kommen, der von SAS bzw. SPSS ausgegeben wird, kann man die obere Gleichung durch Äuqivalenzumformungen auf die folgende Form bringen: F,^ (| z |) > 1 - a / 2 o a > 2(1 - F,o i (| z |)) = p - Wert Also wird die Nullhypothese verworfen, wenn gilt: p-Wert < a. Sie können mit diesem p-Wert und der Prüfgröße aus dem zweiseitigen t-Test auch einen einseitigen t-Test durchfuhren. Der p-Wert ist zu halbieren, da beim einseitigen t-Test nicht das (l-a/2)-Quantil, sondern das (1-a)- bzw. a-Quantil der entsprechenden t-Verteilung verwendet wird, je nachdem wie die Alternativhypothese formuliert wurde. Ist dann die Hälfte des p-Wertes aus dem zweiseitigen t-Test kleiner als das gewählte Signifikanzniveau und gilt für die Prüfgröße z < 0 (hier muß natürlich auch das Vorzeichen der Prüfgröße z beachtet werden, da in der Formel zur Berechnung des zweiseitigen p-Wertes, wie oben zu sehen ist, nur der Betrag von z verwendet wird), so kann die einseitige Nullhypothese Ho: /i > fio zugunsten der Alternativhypothese Hi: /x verworfen werden. Ist die Hälfte des p-Wertes aus dem zweiseitigen t-Test kleiner als das gewählte Signifikanzniveau und gilt für die Prüfgröße z > 0, so kann die einseitige Nullhypothese H0: /i < Ho zugunsten der Alternativhypothese Hi: fi > fio
I Univariate
Statistiken
37
verworfen werden. Achtung: Ein „sauberes" Vorgehen verlangt, daß man vor der Interpretation des zweiseitigen p-Wertes sich für einen einseitigen oder zweiseitigen tTest entscheidet. Hat man zuerst einen zweiseitigen t-Test durchgeführt und sich nach der Interpretation des p-Wertes bereits für eine Hypothese entschieden, so sollte man sich erst einen neuen Datensatz besorgen, mit dem man dann zusätzlich den einseitigen tTest durchführt. Kommen wir nun zu unserem Beispiel für das erste einseitige Testproblem. Dazu berechnen wir mit Hilfe des Stichprobenumfangs n, der Stichprobenstandardabweichung s und dem Stichprobenmittelwert m die Prüfgröße z, die eine Realisierung einer (bei Gültigkeit von H0) t„-i verteilten Zufallsvariablen Z darstellt. Wir wollen nun den t-Test auf einem Signifikanzniveau von 5% (also ist a = 0.05) durchführen und müssen somit die berechnete Prüfgröße z mit dem 0.05-Quantil der tn-i-Verteilung vergleichen. Die für uns relevante Verteilungsfünktion ist die der t-Verteilung mit n-1 Freiheitsgraden, daher der Name t-Test. Einige Programmpakete vergleichen in ihrer Ausgabe nicht den Wert z der Prüfgröße mit dem kritischen Wert, sondern geben, wie wir bereits beschrieben haben, den p-Wert aus, den man mit dem gewählten Signifikanzniveau a vergleichen muß. Hier gilt: Ist der p-Wert kleiner als a , so kann die Nullhypothese zugunsten der Alternative verworfen werden: Der p-Wert stellt somit eine Untergrenze für das Signifikanzniveau dar, ab dem man noch zum Verwerfen kommt. In unserem Beispiel haben wir die folgende Hypothese mit SAS und SPSS getestet. H o : ^ = 175
38
1 Univariate
Statistiken
gegen H a : M * 175 Wir gehen von den gleichen Daten wie im Kapitel 1.1 aus. Den Test werden wir im folgenden mit Mathematica nachrechnen und erläutern.
1.3.1 SAS-Programm und Output Den t Test kann man mit der bereits verwendeten Prozedur Univariate durchführen. Diese fuhrt allerdings automatisch einen t-Test durch mit den Hypothesen H0: ¡x = 0 und HÄ: /i ^ 0. Aus diesem Grund definieren wir zunächst eine transformierte Variable y = x-175, so daß wir die Nullhypothese H0: /i = 175 gegen die Alternative HA: ¡j. + 175 testen können. Es gilt nämlich: Hat die Zufallsvariable X den Erwartungswert 175, so hat die Zufallsvariable Y = X - 175 den Erwartungswert 0, was direkt aus der Linearität des Erwartungswertes folgt. Es ist zu beachten: Wenn wir im Zusammenhang von SAS oder SPSS von einer Variablen sprechen, so ist damit eine Stichprobe gemeint (diese wird auch als „Item" bezeichnet). Es handelt sich dabei um keine Zufallsvariable. Formal gilt dann: Die Stichprobe x besteht aus Realisierungen xi, x2, ..., x„ der Zufallsvariablen Xj, X 2 ,..., X„. Somit sind die Hypothesen H0: ¡j. = 0 und HA: ß * 0 für die Variable (Stichprobe) y äquivalent zu den Hypothesen H0: fx = 175 und H a : // ^ 175 für die Variable (Stichprobe) x. data temp; input x; cards; 167 163 155
1 Univariate Statistiken
39
167 161 177 173 179 run;
data temp; set temp; y=x-175; run; proc univariate data=temp; vary; run; Wir reduzieren den Output auf die eine Zeile, die für uns nun von Interesse ist, da wir die Prozedur univariate bereits besprochen haben. T:Mean=0
-2.49857
Pr>|T|
0.0411
1.3.2 SPSS-Programm und Output In SPSS müssen die Daten wieder, wie bereits im vorangegangenen Kapitel beschrieben, im Editorfeld eingegeben sein. Die Werte waren 167, 163, 155, 167, 161, 177, 173, 179. Der Variablenname ist x Nun müssen Sie wählen: ->Statistik->Mittelwert vergleichen ->T-Test bei einer Stichprobe
40
/ Univariate
Statistiken
El
T-Test bei einer Stichprobe Iestvariable(ri):
OK Einfügen Zurücksehen Abbrechen Hilfe
Testwert:
¡175
Optionen... |
Wenn Sie nun ->Weiter -> OK wählen, erhalten Sie den SPSSOutput:
Statistik bei einer Stichprobe
N X
8
Mittelwert 167,750
Standardabweichung 8,207
Standardfehler des Mittelwertes 2,902
Test bei einer Sichprobe Testwert = 175
X
T -2,499
df 7
Sig. (2-seitig) ,041
Die SPSS- Syntax sieht so aus:
Mittlere Differenz -7,250
90% Konfidenzintervall der Differenz Untere -12,747
Obere -1,753
1 Univariate
Statistiken
41
T-TEST /TESTVAL=175 /MISSIN G=ANALYSIS /VARIABLES=x /CRITERIA=CIN (.90).
1.3.3 Erklärung mit Mathematica Im folgenden erklären wir den mit SAS und SPSS durchgeführten tTest mit Mathematica. Als erstes fuhren wir den Test über den p-Wert durch: Needs [ " Statistics^ Master " ] x={167,163,155,167,161,177,173,179}; n=Length[x] 8 m=Mean[x]//N 167.75 s=Variance[x] A (l/2)//N 8.20714 ^0=175;
42
/ Univariate
I—
z =y n
Statistiken
m - uO s
-2.49857 F[t_]:=CDF[StudentTDistribution[n-l],t] Der p-Wert prob (SAS-Output „Pr > |t|") errechnet sich so: Prob=2(l-F[Abs[z]]) 0.0410782 Aufgrund des p-Wertes von 0,041..(F' = 0.4078
3 Der Zweistichproben
t-Test
59
Bemerkung: Die Gleichheit der Varianzen kann wegen des p-Wertes von 0.4078 nicht verworfen werden, selbst auf dem 25% Niveau. Man könnte also auch den Test für gleiche Varianzen verwenden („Equal"). Wir beschreiben aber allgemeiner den Test für ungleiche Varianzen. Der Aufbau der Prozedur TTEST sieht in allgemeiner Form so aus (nicht eingeben): PROC TTEST DATA= SAS-data-set CLASS variable; VAR variables; BY variables; RUN;
3.2 SPSS-Programm und Output Geben Sie wie gewohnt die Daten in Ihrem SPSS-Editor ein. ja- s*steto «ad« Wer Trstftmai SWtofc
Ejte £™ta Mfc
«M It-ltlul-rli'-l Eüaini^äl VM
*
a 1
1
170
2
1
175
3
1
178
4
1
172
4
2
181
•
2
183
7
2
181
*
2
184
•» it Vi ' 'if'i ii
« h
ViH'
__ v:
-
60
3 Der Zweistichproben t-Test
Die folgende Wahl der Optionen ermöglicht den Zweistichproben tTest: ->Statistik->Mittelwertvergleich-> T-Test bei unabhängigen Stichproben Nun ist x als Gruppenvariable zu wählen: T-Test bei unabhängigen Stichpioben Iestvariable{n):
#>y
OK Einfügen Zurückselzen Abbrechen Hilfe
Giuppenvariable:
Q iGiupp^leTTn]
Optionen..
Klicken Sie den Button ->Gruppen def... und geben Sie die unten gezeigten Zahlen für die Gruppen-Codes ein. E3
¡Gruppen definieren ff Angegebene Werte verwenden Gruppe 1:
jö
Gruppe 2:
|2
f* Jrennwert:
|
Weiter Abbrechen Häfe
3 Der Zweistichproben
61
t-Test
Anschließend betätigen Sie die Schaltflächen ->Weiter->OK. Gruppenstatistiken
Y
X 1 2
4
Mittelwert 173,75
Standardabweichung 3,50
Standardfehler des Mittelwertes 1,75
4
182,75
2,06
1,03
N
Test bei unabhängigen Stichproben Levene-Test der >/arianzgleichheit
Y
T-Test für die Mittelwertgleichheit
F Signifikanz T df Varianzen sind gleich 1,714 6 ,238 4,431 Varianzen sind nicht 4,431 4,858 gleich
Sig. (2-seitig) ,004 ,007
Mittlere Standardfeh lei Differenz der Differenz 2,03 -9,00 -9,00
2,03
Wir haben auch hier auf die Numerierung des Tableaus verzichtet, da diese wie bei SAS aufgebaut ist und nur geringen Umfang aufweist. Die SPSS-Syntax lautet: T-TEST GROUPS=x(l 2) /MISSIN G=ANALYSIS /VARIABLES^ /CRITERIA=CIN(.95).
Wir wollen nun noch eine Grafik zur Gegenüberstellung der Mittelwerte mit SPSS erzeugen. Dazu müssen Sie wählen ->Grafiken -> Balken -> Definieren, womit Sie das untere Fenster erhalten. Hier müssen Sie auf „ A n d e r e Auswertefunktion klicken und daneben die Variable y auswählen. Wie Sie dann sehen können, ist der Mittelwert (MEAN) als Auswertefunktion voreingestellt. Danach wählen Sie noch die Variable x unter „Kategorienachse" aus.
62
3 Der Zweistichproben
t-Test
; F i n i a e h e s B a l k e n d i a g r a m m definieren* A u s w e r t u n g ü h e r K a t e g o r i e n e i n e r V a r i a b l e n Bedeutung dar Balken
OK
x1
Methode:
OK
Zurücksetzen Abbrechen Hilfe
¡Einschluß Auswahlvariable:
Falfoeschnftungen:
WLS »
Statistik... j Diagramme... j Speichern.
Sie erhalten das folgende Menü:
| Optionen...
4 Lineare Regressionsanalyse
99
Lineare R e g r e s s i o n : S p e i c h e r n Residuen
Vorhergesagte Werte r
pciit standardisier^
i ~ Nicht standardisiert
r
Standardisiert
P " Standardisiert
r
Korrigiert
l*~ Studentjsiert
r
Standardfehler des Mittelwerts
f
Ausgeschlossen
r
Studentisiert, ausgeschl.
Weiter Abbrechen Hilfe
Distanzen Einflußstatistiken
r
Mahalariobis
r
nach Cook
r
DfBeta
Hebelwerte
r
Standardisierte^) DfBeta
r
DfFit
I
-
Vorhersageintervalle (w* Mittelwert KonfidenzintervaH:
r Individuell [95
I
Standardisiertes DfFit -
Kovariarizverhaltnis
X
In neuer Datei speichern f " Koeffizientenstatistik
Wie sie oben sehen können, haben wir bereits die Optionen unter dem Punkt Vorhersageintervall gewählt (Mittelwert für das Konfidenz- und Individuell für das Prognoseintervall). Die von uns gewählte Konfidenzzahl ist bereits mit 0,95 bzw. 95% voreigestellt. Mit „Weiter" und „OK" sehen Sie im Datenfenster von SPSS die berechneten Intervallgrenzen:
100
4 Lineare Regressionsanalyse •(fflarsriggTr I
1
58t70öü7
«1,17976
fcU 48,77497
a
mmj
67,67976
48,7748?
7656074
66,3467t
H t U R 4
«
m mim 74,76806
«
68 78488
92,62462
64,44487
46J4H6
T4.T68Q6
T
49,47480
64,16241
41,32630
58,70807
17,67876
48,77487
S7,40Ȋ!
66,7HS4
76J54787
63,53868
76,1190®
84.30493
• • 10
66,73018
66,67931
W,I1?I7
M ¡2
to l±J
J
Die SPSS-Syntax: lautet
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.IO) CIN(95) /NOORICIN /DEPENDENT y /METHOD=ENTER xl /SAVE MCIN ICIN.
j.
4 Lineare Regressionsanalyse
101
4.3.2 Multiple lineare Regression 4.3.2.1 Parameterschätzung und Tests bezüglich der Parameter Auf die gleich Art wie die einfache lineare Regression wird nun die multiple lineare Regression durchgeführt. Dabei untersuchen wir nun mit der Datenmatrix Y, welche wir zu Beginn des Kapitels zur einfachen linearen Regression definiert haben, den Einfluß der Körpergröße und des Alters auf das Gewicht. Hierzu wird einfach nur die Designmatrix mit der Spalte, in der die Altersangaben stehen, erweitert. Der Rest verläuft analog: Xt={xl,Transpose[Y][[2]],Transpose[Y][[3)]}; X=Transpose[Xt] ; X//MatrixForm fl 1 1 1 1 1 1 1 1 u
170 170 167 177 182 167 164 170 169 176
20' 21 22 23 23 24 25 25 26 27J
b=Inverse[Xt.X].Xt.y; b//MatrixForm//N f- 147.037 1.03715 1.43543 ,
oo o© oe
Q[betaJ:=Transpose[y-X.beta].(y-X.beta)
102
4 Lineare
Regressionsanalyse
SSE=Q[b]; SSE//N {{189.551}}
OO
n=Length[y]; my=Apply[Plus,y]/n; m=Table[my,{n}]; SST=Transpose[y-m].(y-m); SST//N {{576.4}}
O©
SSR=Transpose[X.b-m].(X.b-m); SSR//N {{386.849}}
O©
Das Bestimmtheitsmaß R-Square (RSq) ist im Vergleich zur einfachen linearen Regression angestiegen: RSq=SSR/SST; RSq//N {{0.671146}}
©O
Mit Hilfe der Fehlerquadratsumme SSE kann ebenfalls die Standardabweichung bzw. Varianz der Residuen geschätzt werden, r (=3) ist die Anzahl der Parameter im Modell. r=Length[Xt]; estsigma=Sqrt [Flatten [SSE] [ [1 ] ]/(n-r)]; estsigma A 2//N 27.0788
©O
4 Lineare Regressionsanalyse
1 03
VarB=estsigma A 2*Inverse[Xt.X]; VarB//MatrixForm//N ( 3254.22 -17.104 1 - 13.6998
-17.104 0.100468 -0.00407302
-13.6998 ] -0.00407302; 0.610047 ) Q Q
tValues=Inverse[Sqrt[IdentityMatrix[r]*VarB]].b; tValues//N {{-2.57752},{3.27212},{1.83781}} © © , © © ,
©©
PValues=2(l-CDF[StudentTDistribution[n-r],Abs[tValues]])//N {{0.0366044},{0.0136344},{0.108694}} ©@, © O , © © , In diesem Modell ist ebenfalls der Parameter ßi (dieser Parameter erfaßt die Steigung der Regressionsgeraden bezüglich der Körpergröße) signifikant von Null verschieden (0,0136344 < 0,05), während ß2 (dieser Parameter erfaßt die Steigung der Regressionsfunktion bezüglich des Alters) nicht signifikant von Null verschieden (0,108694 > 0,05) ist. Der Parameter ß 0 (der Achsenabschnitt der Regressionsfunktion) ist signifikant von Null verschieden (0,0366044 < 0,05). Da ßi signifikant ungleich Null ist, kann ein Einfluß der Körpergröße auf das Gewicht nachgewiesen werden, während kein Einfluß des Alters nachgewiesen werden kann (vgl. bivariate Korrelation). Bei dem globalen F-Test kommt man zu dem Ergebnis, daß mindestens ein Steigungsparameter ungleich Null ist (PValueF < 0,05), wie bereits gezeigt: FRatio=(SSR/(r-l))/(SSE/(n-r)); FRatio//N {{7.14302}} © ©
104
4 Lineare Regressionsanalyse
PValueF=l-CDF[FRatioDistribution[r-l,n-r],FRatio]//N {{0.0203944}}
© O
Bemerkung: Sie k ö n n e n die multiple lineare Regression auch mit einer speziellen M a t h e m a t i c a - A n w e i s u n g durchfuhren: Fit[Y, {1, xa, xb>, {xa, xb}] 48.4868+ 0.226738 x a - 0.230658 xb Regress[Y, {1, x a , xb}, {xa, xb}] ParameterTable 1 xa xb
Estimate 48.4868 0.226738 -0.230658
SE 25.8077 0.123374 0.180396
TStat 1.87877 1.83781 -1.27862
PValue 0.102351 0.108694' 0.241786
RSquared0.325649, AdjustedRSquared^ 0.132977, EstimatedVariance-> 4.27731, ANOVATable^ Model Error Total
DF 2 7 9
SumOfSq 14.4588 29.9412 44.4
LfeanSq 7.22941 4.27731
FRatio 1.69018
PValue 0.251826
5 Index „LIBNAME"-Anweisung 9 90%-iges Konfidenzintervall 25 Abs 4; 25; 42; 45; 55; 66; 87; 103 Achsenabschnitt der Regressionsgeraden 87 Alternative 28; 30; 31; 37; 38: 42 Alternativhypothese 28 28; 29; 30 Anpassungstests Bestimmtheitsmaß 85 Bivariat 49 BY 10; 11; 48; 59; 63 cards 7; 24; 38; 46; 58; 69 CDF 42; 66; 87; 90; 103; 104 ColumnTake 64; 65 CORR 46; 48; 51 Count 64 data 7; 10; 11; 24; 38; 39; 46; 58; 59; 69; 72; 90; 92; 94; 97 Dünndruck 6; 10; 18 empirisch . 6; 11; 18; 21; 27; 45; 46; 48; 49; 52; 53; 54; 55; 65; 86; 87; 92 Erwartungswert .. 24; 27; 31; 38; 42; 43; 57; 64; 66; 68; 72; 91 extrem 22; 28; 29 Fehlende Werte 13 Fehler 1. Art 30 Fehler 2. Art 30 Fehlerquadratsumme 85 Fettdruck 6 FilledPlot 43 Fit 94 Freiheitsgraden 27; 31; 33; 34; 35; 37; 42; 55; 93 Gaußtest 31 Grafik 31; 32; 34; 42; 44; 61; 62; 63; 66; 76; 77; 78; 90; 93 Groß-Klein-Schreibung 10 Härtung 20; 30; 65 Häufigkeiten 14
Hypothesen 28 input 7; 24; 38; 46; 58; 69 INTERCEPT 70; 71; 72 Intervallgrenzen 27; 96; 97; 99 Journaldatei 16; 17 48 KENDALL Kenngrößen 6; 7; 9; 10; 11; 14; 18; 20; 21; 45 Konfidenzintervall..6; 24; 25; 27; 72; 73; 91; 96 Konfidenzzahl 27; 91; 93; 99 Korrelationskoeffizient 45 Kovarianz 45 kritisch 29; 31; 32; 34; 35; 37; 42; 43 Labels 12 Length 41; 64; 84; 85; 87; 102 LIBNAME 9 Maximum 11; 22; 47 Mean 8; 9; 19; 24; 39; 41; 44; 47; 58; 65; 67; 70; 71 MEANS 11; 24 Median 23 Minimum 11 ; 22; 47 Mittelwert..6; 11; 19; 21; 23; 25; 27; 39; 52; 60; 61; 65; 66; 85; 92; 99 Modalwert 22 multivariat 45 Needs 41; 43; 63; 66; 83 Nichtparametrisch 2; 4; 9; 28; 56 nichtparametrische Tests 28 Niveau a 29 Normalverteilung...6; 10; 21; 24; 27; 28; 31; 55; 56; 92 Nullhypothese 28; 29; 30; 31; 33; 34; 35; 36; 37; 38; 42; 43; 55; 56; 66; 86; 89 Numerisch 13 Öffnen 17
106
5 Index
OK13; 15; 26; 40; 50: 61: 62; 75; 78; 79: 99 Optionen. .10; 16; 25; 48; 50; 60; 72; 78; 79; 96; 99 Output... 3; 4; 6; 7; 8; 10; 12; 24; 25; 26; 38: 39; 40; 42; 46; 47: 49: 50; 57; 58; 59: 69: 70: 72; 74; 96; 97 Palette 18 Parameter .. 6; 28; 31; 46; 68; 70; 71; 83: 84; 86; 87; 89; 101; 102; 103 Parameterschätzung 6; 46; 101 parametrische Tests 28 Point 43: 90 Power 30 PRINT 7; 10; 48; 51; 96 Prob 3: 10; 42; 47; 55: 56: 58; 66: 70; 71 Prozedur. .. 7; 10; 11; 38; 39; 46; 48; 57; 59; 69: 72: 96 Prüfgröße.,28; 29; 31; 33; 34; 35; 36; 37; 42; 43; 55; 65; 87; 89; 94 p-Wert33; 36: 37; 41; 42; 43; 44; 48; 55; 66 Quadratsumme 22; 84; 85; 94 Quadratsummen 84 Quantil .8; 23; 27; 31; 32; 33; 35; 36; 37; 42; 43; 93 Quantile 23 Quartil 23 Quartilsabstand 23 Realisierung 4; 6; 21; 27; 28; 31: 32; 34; 37; 38; 55; 57; 65; 85 Regress 94 Regressionsanalyse 68; 72; 83; 86; 89; 94 RGBColor 43: 90; 93 R-Square 85 run. 3; 4; 6; 7; 10; 11; 18; 21; 24; 25; 27; 28; 29; 30; 31; 32; 34; 37; 38; 39; 41; 42: 46; 47; 48; 55; 57; 58; 59; 63; 64; 65; 68: 69; 70; 72; 85; 86: 96: 97
SAS....1: 3: 6: 7: 8: 9: 10: 11: 13: 20: 24: 25; 36: 37; 38; 41; 42; 46; 47; 48; 57; 58; 59; 69; 70; 71; 72; 96 S AS-Dataset 7 SAS-Datensatz 7; 9; 10; 11; 24 Schiefe 20; 21 Semikolon 10 Sicherheit 27 signifikant 30; 42; 43; 66; 86; 87; 90; 103 Signifikanzniveau.30; 33; 36; 37; 42; 43: 56: 66 Spannweite 22 SPEARMAN 48 SPSS 1; 3; 4; 6; 8: 12; 14; 16; 17; 24; 25; 26: 36: 37; 38; 39: 40; 41; 49: 51; 59; 61; 63: 74; 76; 77; 96; 97: 99; 100 Sqrt 66; 87: 93; 102; 103 SSE 84 SSR 84 SST 84 Standardabweichung ..11; 19; 21; 23; 27; 34; 52; 65; 86: 102 Standardfehler 21 Statistics'Master....41; 54; 63; 64; 83 statistische Kenngrößen 7 Steigung der Regressionsgeraden.. 87 stetige Verteilung 6; 33 Stichprobe. 6; 10; 11; 12; 18; 19; 21; 22; 24; 25; 27; 28; 30; 31; 34; 37; 38; 39; 45; 46: 52; 55; 57; 60; 63; 64 StudentTDistribution. 42; 43; 66; 87; 93; 103 Sum8; 10; 11; 12; 17; 18; 19: 22; 47: 70; 71; 85: 94 temporäre Datei 9 Teststärke 30 Transpose.64; 65; 83; 84; 85; 90; 92; 101; 102 t-Test..6; 8; 9; 25; 28; 29: 30: 31; 33:
5 Index 36: 37; 38; 39; 41; 57; 60; 89 Unabhängigkeittests 28 UNIVARIATE 7: 11 VAR7; 10; 11; 12; 17; 24; 26; 41; 47; 48; 51; 59; 61; 77 Variance 8; 41; 58; 65; 70; 71 Varianz 6; 19; 23; 30; 31; 45; 46; 48: 51; 52; 54; 57; 68; 72; 83; 84; 85; 87: 92; 94; 102 Variationskoeffizient 21 Verteilungsfunktion 31; 32: 37
1 07
verwerfen 30; 35; 42: 43: 56 Verzeichnis 9; 17 Voraussetzung 3; 28; 31; 55 Wahrscheinlichkeit 27: 29; 32; 34; 91; 92 Wertebreich 29 Wölbung 20: 21 Zufallsvariable..6; 21; 27; 28; 31; 32; 37; 38; 55; 57; 65; 68; 85 Zusammenhang 32; 38; 45; 56; 88 zweiseitigen Test 29; 34; 57
6 Literaturverzeichnis [1] [2] [3] [4] [5] [6] [7] [8] [9]
Bosch: Statistik Taschenbuch; Oldenbourg Verlag; 2. Auflage Härtung: Statistik; Oldenbourg Verlag; 7. Auflage Kofler: Mathematica; Addison-Wesley Pruscha: Angewandte Methoden der Mathematischen Statistik; B.G. Teubner Stuttgart Sachs: Angewandte Statistik; Springer Verlag; 8. Auflage Searle: Linear Models; John Wiley & Sons, Inc. Schuchmann, Sanns. Statistik mit Mathematica; Oldenbourg 1999 Schuchmann, Sanns: Nichtparametrische Statistik mit Mathematica; Oldenbourg 1999 Wolfram: Mathematica; Addison-Wesley; 2. Auflage