179 67 93MB
German Pages 394 [393] Year 1990
H. Läuter • R. Pincus Mathematisch-statistische Datenanalyse
Mathematische Lehrbücher und Monographien Herausgegeben von der Akademie der Wissenschaften der DDR Karl-Weierstraß-Institut für Mathematik
II. Abteilung Mathematische Monographien Band 73 Mathematisch-statistische Datenanalyse von H. Läuter und R. Pincus
Mathematisch-statistische Datenanalyse von Henning Läuter und Richard Pincus
Mit 70 Abbildungen und 9 Tabellen
Akademie-Verlag Berlin 1989
Autoren: Prof. Dr. sc. nat.
HENNING LAUTER
D r . r e r . n a t . RICHARD PINCUS
Karl-Weierstraß-Institut für Mathematik der Akademie der Wissenschaften der D D R Berlin
ISBN 3-05-500407-8 ISSN 0076-5430 Erschienen im Akademie-Verlag Berlin, Leipziger Str. 3—4, Berlin, DDR -1086 © Akademie-Verlag Berlin 1989 Lizenznummer: 202 • 100/400/88 Printed in the German Democratic Republic Gesamtherstellung: V E B Druckhaus „Maxim Gorki", Altenburg, D D R : 7400 Lektor: Dr. Reinhard Höppner LSV 1085 Bestellnummer: 763 751 9 (9074) 07800
Vorwort
Das vorliegende Buch entstand aus Vorlesungen und Forschungsarbeiten zur statistischen Datenanalyse. Einige Erfahrungen mit praktischen Anwendungen statistischer Methoden bei realen Daten aus der Produktion, aus medizinischen Einrichtungen und Forschungsinstituten beeinflußten die Auswahl und Gliederung des Stoffes. In der Darstellung wurde versucht, ein ausgewogenes Verhältnis von b e stätigenden' (confirmativen) und ,erkundenden' (explorativen) Aspekten statistischer Verfahren sichtbar zu machen. Wegen der Breite des unter den Begriff Datenanalyse fallenden Gebietes konnte nur eine begrenzte Auswahl getroffen werden, beispielsweise mußten zahlreiche nichtparametrische Verfahren unberücksichtigt bleiben. Das Buch wendet sich an Studenten mit Grundkenntnissen in theoretischer Statistik und an Statistiker, Mathematiker und Praktiker die auf dem Gebiet der Datenanalyse tätig sind. Es soll helfen, für konkrete Aufgaben eine geeignete Auswertemethode zu finden. Trotz zahlreicher Bezüge innerhalb des Buches sind die einzelnen Kapitel unabhängig lesbar. Die Autoren danken ihren Kollegen der Statistik-Abteilungen aus dem Karl-Weierstraß-Institut für Mathematik der AdW der DDR und der Sektion Mathematik der Humboldt-Universität Berlin für zahlreiche kritische Hinweise beim Durchlesen des Manuskripts oder beim Vortragen des Stoffes in Seminaren, ebenso Frau Draegert, die mit viel Sorgfalt das Manuskript schrieb und bei technischen Arbeiten half. Herrn Dr. Höppner vom Akademie-Verlag sei für sein verständnisvolles Entgegenkommen und seine gründliche Mitarbeit herzlich gedankt.
Inhalt
Einführung
13
1.
Grundprinzipien der statistischen Datenanalyse
18
1.1. 1.1.1. 1.1.2. 1.1.2.1. 1.1.2.2. 1.1.2.3. 1.1.3. 1.1.3.1. 1.1.3.2. 1.1.4. 1.2. 1.3. 1.4. 1.5. 1.6. 1.6.1. 1.6.1.1. 1.6.1.2. 1.6.1.3. 1.6.1.4. 1.6.1.5. 1.6.2. 1.6.2.1. 1.6.2.2. 1.6.2.3. 1.6.3. 1.7.
Vorläufige Datenanalyse Eindimensionale Darstellung von Daten Gruppierung von mehrdimensionalen D a t e n Charakterisierung von Clusterverfahren Minimaldistanzverfahren Berechnung optimaler Cluster Darstellungen mit orthogonalen Punktionen Stückweise lineare Funktionen Trigonometrisches Funktionensystem Transformation der D a t e n Statistische Modelle Likelihoodfunktionen Suffiziente Statistiken Vollständige Statistiken Schlußweisen in statistischen Modellen Statistische Entscheidungsprobleme Testen von Hypothesen Mehrentscheidungsverfahren Multiple Tests Punktschätzungen Konfidenzintervalle Entscheidungsprinzipien Maximum-Likelihood-Prinzip Kleinste-Quadrate-Methode Bayessches Prinzip Optimale statistische Entscheidungsfunktionen Resampling-Methoden
18 19 28 28 29 30 32 33 35 37 38 40 42 43 44 44 45 48 48 49 49 50 51 53 55 56 59
2.
Varianzanalyse
61
2.1. 2.1.1. 2.1.1.1. 2.1.1.2. 2.1.1.3. 2.1.1.4.
Mittelwertvergleiche Das lineare Regressionsmodell Die Kleinste-Quadrate-Sehätzung Zentrierte D a t e n Schätzbare Funktionen Lineare Restriktionen Versuchspläne von vollem R a n g (69), Reparametrisierungen (69) Schätzung der Varianz Hypothesentests Testbare Teilhypothesen (72)
61 63 64 64 66 67
2.1.1.5. 2.1.1.6.
'. .
70 70
8 2.1.1.7. 2.1.1:8. 2.1.2. 2.1.2.1.
Inhalt
2.2.3. 2.2.3.1. 2.2.3.2. 2.2.4. 2.2.4.1. 2.2.4.2.
Konfidenzbereiche 73 Optimalität der Verfahren 75 Klassifikationsmodelle 76 Kreuz-Klassifikation 77 Schätzungen (77), Zerlegung der Varianz (78), Klassifikation ohne Wechselwirk u n g (81), .K'-faktorielle Klassifikation (81), Interpretation der Effekte (84) Hierarchische Klassifikation 86 Schätzungen (88), Zerlegung der Varianz (88), üT-faehe Klassifikation (88) Gemischte Klassifikationstypen 89 Klassifikation und lineare Regressionsmodelle 90 Schätzbare F u n k t i o n e n (91), Testbare Hypothesen (92), Reparametrisierungen (92), Konfidenzbereiche (93), Orthogonalität (94) Unbalancierte Versuchspläne 94 Lineare Modelle (94), Reparametrisierungen u n d Schätzungen (95), Zerlegung der Varianz u n d Hypothesentests (97) Multivariate Modelle 100 Mehrdimensionale Klassifikationsmodelle 101 Schätzung der E f f e k t e (101), Schätzung der Kovarianz (102), Zerlegung der Varianz u n d Testen von Hypothesen (103), Simultane Konfidenzintervalle (105), Fehlende Beobachtungen (106) Merkmalsauswahl 108 Merkmalsauswahl bei k Stichproben (110) Multiple Mittelwertvergleiche 111 Der multiple t-Test 112 Der Scheffö-Test .112 Der Tukey-Test 113 Der D u n n e t t - T e s t 114 Der Newman-Keuls-Test 115 Bonferroni-Tests 117 Varianzkomponenten 118 ANOVA-Schätzungen 119 Zufällige Modelle 120 Hierarchische Klassifikation (121), Kreuzklassifikation (122) Gemischte Modelle 124 MINQUE-Schätzungen 125 Minimum-Varianz-Schätzung (126), Berechnung der M I N Q U E (128), Iterative Anwendungen (130), Modifikationen von M I N Q U E (130) Negative Varianzkomponenten 131 Negative Schätzungen 131 Fest oder zufällig? 131 132 Multivariate Varianzkomponenten ANOVA-Schätzungen 133 MINQUE-Schätzungen 133
3.
Diskrimination und Klassifikation
3.1. 3.1.1. 3.1.2. 3.1.3. 3.1.4. 3.1.4.1. 3.1.4.2. 3.1.5. 3.1.5.1. 3.1.5.2. 3.1.6.
Optimale Verfahren zur Diskrimination 137 Diskriminanz verfahren m i t maximaler Korrektklassifikationswahrscheinlichkeit 140 Diskriminanzverfahren bei Kosten f ü r Fehlklassifikationen 142 Diskrimination mit A-posteriori-Wahrscheinlichkeiten 144 Maximum-Likelihood-Klassifikation 144 Definition der Maximum-Likelihood-Regel 144 Autoregressive Zeitreihenmodelle 146 Substitutionsregeln 149 Einsetzen von Schätzungen f ü r u n b e k a n n t e P a r a m e t e r 149 Einsetzen von Schätzungen f ü r Dichten 151 Kombination von Diskriminationsregeln 157
2.1.2.2. 2.1.2.3. 2.1.2.4. 2.1.2.5.
2.1.3. 2.1.3.1.
2.1.3.2. 2.1.4. 2.1.4.1. 2.1.4.2. 2.1.4.3. 2.1.4.4. 2.1.4.5. 2.1.4.6. 2.2. 2.2.1. 2.2.1.1. 2.2.1.2. 2.2.2.
135
Inhalt
9
3.1.6.1. 3.1.6.2. 3.2. 3.2.1. 3.2.2. 3.2.3. 3.2.4. 3.3. . 3.3.1. 3.3.1.1. 3.3.1.2. 3.3.1.3. 3.3.1.4. 3.3.2. 3.3.2.1. 3.4. 3.4.1. 3.4.1.1. 3.4.1.2. 3.4.1.3. 3.4.2. 3.4.2.1. 3.4.2.2. 3.4.2.3. 3.4.2.4. 3.5.
Logisohe Verknüpfung Konvexe Kombination Mathematische Eigenschaften von Diskriminationsregeln Asymptotisch sichere Verfahren Klassifikationsverfahren mit monotoner Güte Unverfälschtheit von Klassifikationsverfahren Minimaxeigenschaften von Klassifikationsverfahren Schätzung der Fehlerquote für Diskriminanzverfahren Schätzungen für die Fehlerquote Resubstitutionsschätzung Schätzung nach der U-Methode Schätzung nach der Bootstrap-Methode Schätzungen in parametrischen Verteilungen Eigenschaften der Fehlerquotenschätzungen Reduktion der Verzerrung der Bootstrap-Schätzung Diskriminanzanalysen als Bestandteil von Datenanalysen Existieren Unterschiede zwischen Klassen? Normalverteilungen in den Klassen Mischungen von Normal Verteilungen in den Klassen Paarweiser Vergleich normalverteilter Klassen Klassifikation und Diskrimination Grafische Darstellung der Diskrimination Bewertung und Steuerung der Klassenzugehörigkeit Auswahl wesentlicher Merkmale Zweckmäßige Schritte bei der Diskrimination Stellung der Diskriminanzanalyse in der Datenanalyse
159 161 166 167 169 171 171 178 178 179 179 181 182 186 189 191 192 192 195 200 202 204 207 211 213 214
4.
Schätzung in statistischen Modellen
215
4.1. 4.2. 4.3. 4.4. 4.5. 4.5.1. 4.5.2. 4.5.2.1. 4.5.2.2. 4.5.2.3. 4.5.2.4. 4.5.3. 4.5.4. 4.5.4.1. 4.5.4.2. 4.5.5. 4.6. 4.6.1. 4.6.2. 4.6.2.1. 4.6.2.2.
Parametrische und nichtparametrische Modelle 215 Schätzung von Parametern 217 Cramer-Rao-Ungleichung 220 Prinzipielle Verbesserungsmöglichkeit der besten erwartungstreuen Schätzung . . 224 Schätzung nichtlinearer Parameter in linearen Modellen 225 Nichtlineare Parameter in linearen Modellen 226 Schätzung nichtlinearer Parameter 226 Maximum-Likelihood-Schätzung von A(P) 226 Bedingte Schätzungen 228 Approximation der bedingten Schätzungen 231 Güte der bedingten Schätzungen 232 Datenangepaßte bedingte Schätzungen 235 Schätzung spezieller nichtlinearer Parameter 236 Schätzung höherer Momente 237 Schätzung von Funktionalen 237 Asymptotisch effiziente Schätzung 238 Schätzung linearer Parameter in eingeschränkten Modellen 240 Schätzung von Parametern in skaleninvarianten Modellen 241 Schätzung von Parametern aus beschränkten Bereichen 245 Eingesetzte Ridge-Schätzung 245 Eingeschränkte Schätzungen 247
6.
Regressionsmodelle
5.1. 5.1.1. 5.1.1.1.
Lineare Verlaufskurvenmodelle Orthogonale Funktionen Polynomialmodelle
253 . . 253 254 258
10
Inhalt
5.1.1.2. 5.1.1.3. 5.1.2. 5.2. 5.2.1. 5.2.1.1. 5.2.1.2. 5.2.2. 5.2.2.1. 5.2.2.2. 5.2.3. 5.2.4. 5.2.5. 5.2.5.1. 5.2.5.2. 5.2.5.3.
Tschebyscheff-Polynome Trigonometrische Funktionen Lokale u n d globale Modelle Nichtlineare Regressionsmodelle Schätzung der Regressionsfunktion Maximum-Likelihood-Schätzung Kleinste-Quadrate-Schätzung Schätzung der P a r a m e t e r Bedingte Schätzungen D a t e n a n g e p a ß t e bedingte Schätzungen Eigenschaften der Schätzungen Numerische Methoden zur Berechnung von Schätzungen Spezielle nichtlineare Modelle Periodische Modelle Versteckte Perioden in Verlaufskurven Wachstumsmodelle
6.
Approximation iür Verlaufskurven
6.1. 6.1.1. 6.1.1.1. 6.1.1.2. 6.1.1.3. 6.2. 6.2.1. 6.2.2. 6.3: 6.3.1. 6.3.2. 6.3.3.
Glättungsfunktionen Definition v o n Glättungsverfahren Polynomiale Glätter Spline-Glättungen Nichtüneare Glättungsfunktionen Eigenschaften von Glättungen Optimale lineare Glätter Güte nichtlinearer Glätter Nichtparametrische Regression Regressogramm Kernschätzungen Eigenschaften der Kernschätzungen
297 i 297 298 299 301 311 311 314 317 320 321 321 322
7.
Methoden der Versuchsplanung
324
7.1. 7.2. 7.2.1. 7.2.2. 7.2.3. 7.3.
Charakterisierung optimaler Versuchspläne Optimale Versuchsplanung Versuchspläne f ü r die Sehätzung Versuchspläne f ü r Test- und Klassifikationsprobleme Versuchspläne bei der nichtlinearen Regression Bemerkungen zur Versuchsplanung
326 328 328 330 332 333
8.
Anpassung»- und Ausreißertests
335
8.1. 8.1.1. 8.1.1.1. 8.1.1.2.
Anpassungstests Tests vom x 2 -Typ Anpassung an eine gegebene Verteilung Gesehätzte P a r a m e t e r Minimum-X 2 -Schätzungen (338), Maximum-Likelihood-Schätzungen fällige Intervalle (340), Regressionsmodelle (341) Tests vom Kolmogorow-Smirnow-Typ Einfache Hypothesen Multivariate Beobachtungen (343) Geschätzte P a r a m e t e r Zwei Stichproben Grafische Verfahren Empirische Verteilungs-Plots Wahr3cheinlichkeits-Papier
335 335 336 337
8.1.2. 8.1.2.1. 8.1.2.2. 8.1.2.3. 8.1.3. 8.1.3.1. 8.1.3.2.
259 259 259 262 264 264 265 266 267 269 269 270 272 272 285 291
:
(338), Zu342 342 344 344 345 345 347
Inhalt 8.2. 8.2.1. 8.2.2. 8.2.2.1. 8.2.2.2. 8.2.3.
Ausreißertests Abweichungen vom Mittelwert Mehrere Ausreißer Bekannte Ausreißeranzahl Unbekannte Anzahl von Ausreißern Abstand benachbarter Beobachtungen (352), Wahrscheinlichkeits-Plots (353) Multivariate Ausreißer Multivariate studentisierte Abweichungen (353), Grafische Verfahren (355)
Anhänge A. 1. A. 2.
IX. X. XI.
349 349 350 351 352 353 358
Matrizen, verallgemeinerte Inverse Punktionen normalverteilter Variabler
Tafeln I. IT. III. IV. V. VI. VII. VIII.
11
358 359 361
Verteilungsfunktion der Normalverteilung Signifikanzpunkte der y?-Verteilung Signifikanzpunkte des zweiseitigen t-Tests Signifikanzpunkte des F-Tests Signifikanzpunkte der studentisierten Variationsbreite Signifikanzpunkte des Dunnett-Tests Signifikanzpunkte des Kolmogorow-Smirnow-AnpaSsungstestS Signifikanzpunkte des Kolmogorow-Smirnow-Anpassungstests für die Normalverteilung mit unbekannten Mittelwerts- und Varianzparametern Signifikanzpunkte des Kolmogorow-Smirnow-Tests für die Homogenität zweier . Stichproben gleichen Umfangs Signifikanzpunkte für die maximale standardisierte Abweichung vom Mittelwert Signifikanzpunkte der größten Lücke in einer gleichverteilten Stichprobe . . . .
361 362 363 364 366 368 370 371 372 373 374
Literaturverzeichnis
375
Symbolverzeichnis
387
Sachverzeichnis
389
Einführung
Es gibt kaum ein Gebiet, auf dem in den letzten Jahren nicht eine ständig wachsende Menge von Daten erfaßt wurde. Das wurde einerseits möglich aufgrund der Durchdringung aller Bereiche durch die elektronische Datenverarbeitung, andererseits auch gefördert durch die Erkenntnis, daß in diesen Daten viele wesentliche Aussagen über die untersuchten Prozesse verborgen sind. Die Aufgabe der Datenanalyse ist die Erstellung möglichst einfacher aber aussagekräftiger Angaben über Strukturen und Zusammenhänge in einer vorliegenden Datenmenge. Diese Angaben können numerische Größen, wie etwa Mittelwert und Spannweite bzw. Streuung, Korrelationskoeffizienten u. a. sein, oder auch Annahme bzw. Ablehnung vorgegebener Hypothesen, oder Einteilungen der Daten in verschiedene Klassen und Unterklassen; sie können aber auch in leicht überschaubaren Grafiken bestehen. Dabei sollten die Verfahren der Datenanalyse Arbeitshypothesen, die oftmals spekulativ aus wenigen vorherigen Beobachtungen gebildet werden, bestätigen bzw. verwerfen, oder uns befähigen, neue vorläufige Hypothesen über die den Daten zugrundeliegenden Zusammenhänge zu formulieren. In der (mathematisch-)statistischen Datenanalyse werden die Daten als Realisierungen eines zugrundegelegten stochastischen Prozesses aufgefaßt. Dies ermöglicht eine Objektivierung der getroffenen Aussagen durch Angaben ihrer Irrtumswahrscheinlichkeiten, Vertrauensbereiche o. ä. In der letzten Zeit fanden viele neue Methoden Eingang in das Repertoire der angewandten Statistik, genannt seien hier nur Kernschätzungen, Resampling-Methoden oder einige grafische Verfahren. Das vorliegende Buch soll einen Überblick über wichtige — klassische und moderne — Analyse verfahren geben. Jedes dieser Verfahren macht gewisse Zusammenhänge sichtbar, verdeckt jedoch, bedingt durch die in ihm vorgenommene Verdichtung der im allgemeinen kaum überschaubaren Datenmenge, naturgemäß andere Erscheinungen. Dadurch ergibt sich die Notwendigkeit, die Möglichkeiten und Grenzen der einzelnen Verfahren deutlich zu machen. Deshalb wurde auch der zur Beschreibung dieser statistischen Eigenschaften nötige mathematische Hintergrund in die Darstellung mit aufgenommen. Im ersten Kapitel werden Prinzipien der statistischen Datenanalyse diskutiert. Wir beginnen mit der Diskussion von Methoden, die als vorläufige Datenanalysemethoden bezeichnet werden können. Es sind dies Verfahren, die eine gewisse Einsicht in eine Datenmenge geben können. Bei der Nutzung dieser Verfahren kann Erfolg oder auch — ohne daß man sagen könnte, daß diese Verfahren schlecht sind — Mißerfolg eintreten. Der Schlüssel zum Erfolg liegt hierbei in einer geeigneten Wahl von
14
Einführung
Normierungen oder Wichtungen, sowie einer ideenreichen Interpretation. Hier geben wir Hilfsmittel für vorläufige Datenanalysen an, insbesondere werden empirische Verteilungsparameter diskutiert, Methoden der Clusteranalyse untersucht, sowie Darstellungsformen multivariater Datenmengen betrachtet. Nach der Einführung grundlegender Begriffe wie z. B. dem des Modells, der Likelihoodfunktion, der suffizienten und vollständigen Statistiken, werden Schlußweisen in statistischen Modellen aufgelistet. Hier findet man Bemerkungen zum Testen von Hypothesen, zu Mehrentscheidungsverfahren, zur Punktschätzung und zu Konfidenzintervallen. Die gebräuchlichsten Entscheidungsprinzipien werden anschließend diskutiert. Die Erzeugung von Teilstichproben aus einer gegebenen Stichprobe (Resampling) wird hier kurz beschrieben, worauf in den späteren Kapiteln 3, 4 und 5 zurückgegriffen wird. Das zweite Kapitel stellt vorwiegend die Varianzanalyse in Klassifikationsmodellen dar. Dieses von F I S H E R begründete Verfahren nimmt aufgrund seiner universellen Einsatzfähigkeit in den verschiedenartigsten Bereichen der Industrie, Landwirtschaft und Medizin nach wie vor einen führenden Platz ein, speziell als einer der ersten Schritte bei der statistischen Modellierung und Gewinnung von Arbeitshypothesen. Lineare Regressionsmodelle mit singulären Versuchsplänen und Restriktionen bilden die Grundlage für die Untersuchung der Klassifikationsmodelle. Die Kleinste-Quadrate-Schätzung der Regressionskoeffizienten, auch in zentrierten oder durch lineare Restriktionen beschränkten Modellen, bzw. die entsprechenden Schätzungen für schätzbare Funktionen und einige ihrer Eigenschaften, simultane Konfidenzbereiche und Tests zum Prüfen von Hypothesen werden in Abschnitt 2.1.1 abgeleitet. Der Abschnitt 2.1.2 enthält die Analyse in balancierten und unbalancierten kreuz-, hierarchisch und gemischt klassifizierten Modellen. Neben der Angabe der Schätzungen und Varianzanalysetafeln wird, vorwiegend an Beispielen, der Interpretation der erhaltenen Ergebnisse spezielle Aufmerksamkeit geschenkt. Die enge Beziehung zwischen Regressions- und Klassifikationsmodellen macht es möglich, auch in unbalancierten Fällen, sogar bei fehlenden Beobachtungen in einigen Zellen, Schätzungen und Aussagen über statistische Signifikanz bestimmter Effekte zu erhalten. Der Unterschied zwischen den tatsächlich interessierenden physikalischen' Effekten und den formalen des gebildeten Modells, die Abhängigkeit der letzteren von den Reparametrisierungsbedingungen, den Wechselwirkungen und unter Umständen auch von den Besetzungszahlen wird durch einige markante Beispiele belegt. Erkenntnisse über den wechselseitigen Einfluß mehrerer Merkmale führen immer öfter ( zu der Forderung, verschiedene Merkmale nicht mehr getrennt voneinander zu analysieren, sondern simultan zu untersuchen, d. h. multivariate Analyse zu betreiben. Im Abschnitt 2.1.3 werden die Ergebnisse aus den univariaten für die multivariaten Klassifikationsmodelle erweitert, und darüber hinaus Methoden, die keine Entsprechung im univariaten haben, wie die Merkmalsauswahl, behandelt. Abschnitt 2.1.4 gibt einen Abriß der multiplen Verfahren des Mittelwertvergleichs, wie den multiplen ¿-Test, die Tests von Scheffe, Tukey, Dunnett, Newman-Keuls und den Bonferri-Test, und eine kurze, durch Beispiele illustrierte Einschätzung ihrer Nachteile oder Vorzüge. Von großer praktischer Bedeutung sind neben den Modellen mit festen Effekten auch die in Abschnitt 2.2 betrachteten mit zufälligen Effekten.
Einführung
15
Zum einen legen es die tatsächlichen Gegebenheiten eines Prozesses o f t nahe, diesen durch ein solches Modell darzustellen. Zum anderen ist die formale Berechnung von Varianzkomponenten durch ihren relativ geringen numerischen Aufwand auch in Modellen mit festen Effekten eine brauchbare ,Schnell-Methode' zur Einschätzung der E f f e k t e einiger Faktoren. Vorwiegend werden die ANO VA-Schätzungen oder Henderson-Schätzungen behandelt, aber auch Bezüge zu den lokal optimalen M I N Q U E Schätzungen hergestellt. Die im Univariaten dargestellten Ergebnisse werden auch wieder auf multivariate Modelle übertragen. I m dritten Kapitel untersuchen wir Verfahren, die zur Diskrimination von Modellen und Klassifikation von Beobachtungen genutzt werden können. Zunächst werden im Abschnitt 3.1 klassische Verfahren aufgeführt, die entsprechend gewisser Optimalitätskriterien gewählt werden. Hierzu zählen Verfahren mit maximaler Korrektklassifikationswahrscheinlichkeit, wobei Kosten f ü r Fehlklassifikationen mit einbezogen werden. Da im allgemeinen diese Verfahren von unbekannten P a r a m e t e r n abhängen, werden alternativ dazu Maximum-Likelihood-Verfahren u n d Substitutionsregeln aufgeführt, wobei letztere dadurch entstehen, daß in Verfahren die u n b e k a n n t e n Parameter oder unbekannten Dichten durch Schätzungen ersetzt werden. Anschließend diskutieren wir die Möglichkeiten zur Kombination gegebener Diskriminationsregeln, wobei eine logische Verknüpfung u n d auch konvexe Kombinationen betrachtet werden. Dabei zeigen wir an prinzipiellen Beispielen, d a ß in vielen Situationen auf gegebene Klassifikationsverfahren zurückgegriffen werden k a n n . Während dieser Abschnitt 3.1 derart aufgelegt ist, daß die erwähnten Verfahren kurz beschrieben werden u n d er so mehr als Gebrauchskatalog dienen kann, wird in 3.2 eine mathematische Charakterisierung angestrebt. So untersuchen wir asymptotisch sichere Verfahren, Klassifikationsverfahren mit monotoner Güte, unverfälschte Klassifikationsverfahren u n d c
Verfahren mit Minimax-Eigenschaften. I m Abschnitt 3.3 geben wir verschiedene Verfahren zur Schätzung der Fehlerquote eines Diskriminanzverfahrens an, wobei insbesondere Verteilungen mit endlichem Träger u n d der Fall unendlicher Stichproben untersucht werden. Die f ü r endliche Verteilungen optimalen Schätzungen werden f ü r beliebige Verteilungen untersucht. Diese Schätzungen bringen wir in Verbindung zu verallgemeinerten U-Statistiken und können so auf deren asymptotische Effizienz im Sinne eines Minimax-Risikos verweisen. Nachdem das Problem der Merkmalsauswahl untersucht wurde, wobei wir auf Ergebnisse von H . A H S E N S u n d J . L Ä U T E R zurückgreifen, werden in Abschnitt 3.4 Diskriminanzanalysen als Bestandteil der statistischen Datenanalyse diskutiert. Hier geht es vor allem u m die geeignete N u t z u n g der Verfahren, d. h. insbesondere u m das Aufstellen eines richtigen Ansatzes, die g u t e heuristische Interpretation der Ergebnisse u n d die Beschreibung der vielfältigen Möglichkeiten des Einsatzes dieser Methoden. Schließlich diskutieren wir Beziehungen zwischen der Diskriminanzanalyse, der Regression und anderen Gruppierungsverfahren. I n Kapitel 4 geht es um die Schätzung in statistischen Modellen, wobei hier p a r a metrische und auch nichtparametrische Modelle untersucht werden. Zunächst u n t e r suchen wir in Abschnitt 4.2 das gegensätzliche Verhalten von Verzerrung u n d Varianz bef Schätzungen und kommen zu dem Schluß, d a ß bei Zugrundelegung des mittleren quadratischen Abstandes die Kontrolle der einzelnen Bestandteile Verzerrung u n d Varianz unbedingt notwendig ist. Aus der Cramer-Rao-Ungleichung in Abschnitt 4.3
16
Einführung
werden in Abschnitt 4.4 Bedingungen abgeleitet, unter denen eine beste erwartungstreue Schätzung verbesserungsfähig ist. In Abschnitt 4.5 werden Ergebnisse zur Schätzung nichtlinearer Parameter in linearen Modellen hergeleitet. Hier geben wir ein Schätzverfahren an, das in einer Klasse von zu schätzenden Funktionalen gleichmäßig bessere Schätzungen liefert als die Kleinste-Quadrate-Schätzungen oder Maximum-Likelihood-Schätzungen. An Beispielen diskutieren wir die Tragfähigkeit dieser Schätzmethode. Schließlich untersuchen wir in Abschnitt 4.6 die Schätzung linearer Parameter in eingeschränkten linearen Modellen. Hier betrachten wir Ridge-Schätzungen und eingeschränkte KleinsteQuadrate-Schätzungen und vergleichen deren Güte miteinander. Wir kommen dann insbesondere zu Charakterisierungsgrößen für Schätzungen, die von besonderem Interesse bei beschränktem Parameterraum sind. Im fünften Kapitel behandeln wir Regressionsmodelle. Hier diskutieren wir in Abschnitt 5.1 die Auswahl von Parametrisierungen, die für verschiedene Aufgabenstellungen und die Interpretation von Interesse sind. Insbesondere betrachten wir die Auswirkungen der Orthogonalität von Basisfunktionen und die Modellierung unter Berücksichtigung der lokalen und globalen Anpassung. Da die linearen Regressionsmodelle mit den Methoden der Kapitel 2 und 4 zu behandeln sind, gehen wir in Abschnitt 5.2 nur auf nichtlineare Modelle genauer ein. Speziell untersuchen wir die Schätzung von Parametern in Wachstums- und periodischen Modellen und studieren das Verhalten der Buys-Ballot-Schätzung für versteckte Perioden in Verlaufskurven. Gerade diese Modellklassen treten in praktischen Problemen sehr häufig auf, so daß eine spezielle Untersuchung dieser Modelle gerechtfertigt ist. Andererseits haben diese Ergebnisse auch einen gewissen Beispielcharakter, denn es wird gezeigt, daß für spezielle nichtlineare Modelle auch spezielle Schätzverfahren notwendig sind. Allgemeine Prinzipien, wie z. B. Kleinste-Quadrate-Kriterien sind i. allg. nicht mehr tragfähig genug. In Kapitel 6 untersuchen wir die Approximation für Verlaufskurven. Hier betrachten wir in Abschnitt 6.1 die Klasse der Glättungsfunktionen, die in allgemeinem Zusammenhang definiert und für die Eigenschaften von speziellen Glättern nachgewiesen werden. Von besonderem Interesse sind hier die Spline-Funktionen und Anpassungen, die nach dem Kriterium des mittleren quadratischen Abstands gewonnen werden. Von den angeführten Glättern interessieren uns Eigenschaften wie Konsistenz und Effizienz. Dabei interessieren wir uns für Effizienzeigenschaften bez. parametrischer Modelle, bestimmen optimale lineare Glätter und untersuchen die Güte nichtlinearer Glätter. Schließlich werden in Abschnitt 6.3 Methoden der nichtparametrischen Regression diskutiert. Dabei betrachten wir insbesondere das Regressogramm und allgemeinere Kernschätzungen. ' In Kapitel 7 gehen wir auf spezielle Probleme der Versuchsplanung bei Regressionsmodellen ein. Uns interessieren dabei auch zweistufige Versuchspläne für derartige Aufgaben, in denen die Güte eines Verfahrens von unbekannten Parametern abhängt. Das tritt z. B. bei der Diskriminierung zwischen Modellen auf. Die Gültigkeit zahlreicher statistischer Verfahren ist stark von den zugrundegelegten Annahmen über die Verteilung der beobachteten zufälligen Größen abhängig. In Kapitel 8 werden einige Methoden beschrieben, die es erlauben, diese Verteilungsannahmen zu bestätigen oder abzulehnen, bzw. einige untypische Ausreißer zu identifizieren.
Einführung
17
In einem Anhang werden verschiedene Hilfsmittel bereitgestellt, die zur Herleitung der Ergebnisse in den Kapiteln benötigt werden. Das betrifft insbesondere die Matrizenalgebra und Verteilungen. Im allgemeinen wurden von uns mathematische Bezeichnungen gewählt, die mit den üblicherweise benutzten Symbolen übereinstimmen. So bezeichnen a,x, ... Spaltenvektoren, a',x',... Zeilenvektoren und A, X, ... Matrizen. Wenn es nicht zu Mißverständnissen führt, wählen wir dieselben Bezeichnungen für zufällige Variable und deren Beobachtungen. Das erleichtert einerseits die Darstellung und andererseits das Lesen. Die formulierten Resultate und Aussagen werden an Beispielen demonstriert, die aus realen Aufgaben stammen. Dabei wurden von uns die Daten derart transformiert, daß zwar die Datenstruktur erhalten bleibt, aber auf die realen Meßwerte nicht geschlossen werden kann.
2
Läuter/Pincus
1.
Grundprinzipien der statistischen Datenanalyse
Die Datenanalyse stellt sieh die Aufgabe, vorliegende Datenmengen zu untersuchen und möglichst aussagekräftige Angaben über innere Strukturen abzuleiten. Dabei geht es im weitesten Sinne um eine Ordnung und sinnvolle Verdichtung der Daten derart, daß verdeckte Zusammenhänge sichtbar gemacht werden. Die Methoden der Datenanalyse sind äußerst vielfältig und benutzen sehr unterschiedliche Ideen. Einige Methoden stützen sich auf empirisch begründete Vorgehensweisen, andere sind an gewisse Voraussetzungen und Modelle gebunden. Die meisten Verfahren haben ihre Vorzüge, so daß keine dieser Methoden von vornherein verworfen werden kann. I n Abschnitt 1.1 stellen wir einige Verfahren zusammen, die als erste Schritte bei Datenanalysen gegangen werden sollten. Durch diese Methoden ist es möglich, grundlegende Informationen über die Daten zu erlangen. In den späteren Abschnitten beschreiben wir einige weitere Prinzipien, die uns befähigen, Analysemethoden zu vergleichen und einzuschätzen'.
1.1.
Vorläufige Datenanalyse
Grundlage f ü r jede Datenanalyse sind beobachtete Größen, die häufig als zufällige Variable interpretiert werden können. Mit Hilfe von Auswerteverfahren sollen innere Strukturen und Zusammenhänge aufgefunden werden. Die Ziele der Untersuchungen sind mehr oder weniger gut im voraus bekannt. Auf jeden Fall ist meist noch nichts gesagt über die geeignete Methodik, wie diese Ziele erreicht werden können. Die Auswahl der Analysemethode richtet sich nach der globalen Zielstellung, nach dem Gültigkeitsbereich und der Empfindlichkeit der jeweiligen Methode. Die Empfindlichkeit kann z. B. derart beschaffen sein, daß ein vorhandenes Verfahren empfindlich gegenüber Ausreißern reagiert, ein anderes hingegen relativ robust ist. So wird man sich dafür interessieren, ob Ausreißer vorliegen oder nicht. Weiter sind die einzelnen Verfahren nur f ü r gewisse Verteilungstypen verhältnismäßig effizient, und wenn diese in bestimmter Weise verletzt werden, ist von der Anwendung dieser Verfahren abzuraten. Es ist z. B. von Interesse, ob die Verteilungen der beobachteten Variablen eingipflig oder mehrgipflig sind, denn die Auswahl der Verfahren ist wesentlich von solchen Eigenschaften abhängig. So hat man sich zu Beginn einer umfangreichen Analyse von Datenmaterial zweckmäßigerweise einen Uberblick zu verschaffen, welche groben Verhältnisse in den Daten vorliegen. Dazu wird versucht, das Beobachtungsmaterial darzustellen, und zwar derart, daß man erste Vorstellungen über die Daten erhält. Das
1.1. Vorläufige Datenanalyse
19
kann man in einer vorläufigen Datenanalyse tun, wo meist eine gekonnte grafische Darstellung sehr hilfreich ist. Einige Aspekte einer solchen vorläufigen Datenanalyse wollen wir im folgenden diskutieren.
1.1.1.
Eindimensionale Darstellung von Daten
Gehen wir davon aus, daß an n Individuen jeweils k Merkmale gemessen werden. Dabei können die Individuen z. B. Personen, Tiere oder technische Produkte, biologische oder chemische Materialien und Merkmale charakteristische Größen dieser Personen, Tiere usw. sein. Wir haben dann eine Liste der Daten 2/ll> •••> Vik (1)
Unit • • •> Vnk so daß die ¿-te Zeile die Kenngrößen für das ¿-te Individuum enthält. Bei großem n ist diese Datenliste sehr unübersichtlich und muß erst aufgearbeitet werden, um erste Aussagen ableiten zu können. Zu den ersten Aussagen zählen wir — Lage der Beobachtungen — Streuung der Beobachtungen — Verteilung der Beobachtungen. Das wird anfangs für jedes der k Merkmale einzeln gemacht, d. h. für jede Spalte gesondert. So wollen wir nun aufzeigen, welche anfänglichen Analysen für jede dieser k Spalten durchgeführt werden. Wollen wir das für die t-te Spalte machen, so bezeichnen wir der übersichtlichen Darstellung wegen
Wir finden zunächst den minimalen bzw. maximalen Wert z = min 2 ; ,
z = max z-t.
Das Intervall [z, z] heißt Variationsbereich der Beobachtungsreihe, der Wert z — z heißt Spannweite. Zur Charakterisierung der Beobachtungen zerlegen wir [z, z] in l Teilintervalle, wofür wir eine Folge a0, au ...,ai mit < a i + 1 , i = 0, ..., I — 1, und a 0 = 0, al = z — z wählen und betrachten die Intervalle [?, 2 + «i), •••,[§ + 0-1-2; 2 + «i-l), [? + «i-l> z], die wir mit
..., J , bezeichnen. Dann berechnen wir die Werte 1 as — a.
(2)
= 4+{z,- = zj € zur Klasse 2, 40 bis 58 zur Klasse 3,. 59 bis 78 zur Klasse 4 und 79 bis 98 zur Klasse 5 gehören. F ü r jedes der 5 Merkmale wird ein Säulendiagramm berechnet (Abb. 1.1.2 bis 1.1.6). F ü r die Merkmale 1 und 5 werden die Funktionen R und H angegeben (Abb. 1.1.7 und 1.1.8). B e i der W a h l der I n t e r v a l l e t r e t e n als Spezialfall I n t e r v a l l e der g l e i c h e n L ä n g e a u f , n ä m l i c h der L ä n g e (z — z)/l. I n d i e s e m F a l l sind a u c h andere D a r s t e l l u n g e n als d a s S ä u l e n d i a g r a m m üblich, z. B . sog. Strichlisten (vgl. A b b . 1.1.9). D i e W e r t e mjn h e i ß e n die relativen Klassenhäufigkeiten, die W e r t e ms s i n d d i e Klassenhäufigkeiten. A u s d e n e m p i r i s c h e n D i c h t e n oder d e n S ä u l e n d i a g r a m m e n erhält m a n als erste E r g e b n i s s e E i n d r ü c k e ü b e r die V e r t e i l u n g der z1} ..., zn. D a b e i h a t m a n z u beurteilen,
21
1.1. Vorläufige Datenanalyse Tabelle 1.1.1. D a t e n zum Beispiel 1.1.1 Pat.
A/N
O/N
M/N
G/N
A/O
Pat.
A/N
O/N
M/N
G/N
A/O
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
2.04 1.70 1.95 2.24 2.35 2.57 2.28 2.56 2.27 2.77 4.69 3.93 4.72 4.74 4.21 4.95 4.75 5.37 4.92 5.95 1.15 1.30 1.22 1.21 1.39 1.28 1.35 1.27 1.20 2.05 2.01 1.42 1.47 1.86 1.85 1.43 1.80 1.37 1.48 1.14 1.22 1.49 1.23 1.38 1.48 1.35 1.26 1.43 2.26
0.29 0.23 0.31 0.32 0.32 0.36 0.31 0.41 0.32 0.46 0.70 0.46 0.65 0.77 0.74 0.85 0.86 1.04 0.93 1.17 2.57 2.12 1.86 2.54 2.80 2.65 2.83 2.81 1.94 2.38 2.05 1.65 1.87 2.25 2.44 1.88 2.40 1.89 1.74 0.45 0.58 0.55 0.53 0.64 0.60 0.62 0.53 0.57 0.79
0.15 0.14 0.13 0.15 0.13 0.14 0.13 0.13 0.13 0.16 0.28 0.26 0.27 0.28 0.24 0.26 0.26 0.30 0.26 0.32 0.24 0.21 0.18 0.27 0.32 0.12 0.15 0.13 0.15 0.31 0.24 0.22 0.25 0.17 0.20 0.16 0.19 0.15 0.21 0.15 0.15 0.13 0.13 0.14 0.14 0.15 0.14 0.14 0.20
2.84 2.07 2.38 2.71 2.81 3.03 2.71 3.11 2.72 3.38 5.68 4.70 5.66 5.69 4.79 6.06 5.88 6.68 6.12 7.44 4.00 3.60 3.26 3.81 4.51 3.95 4.32 3.99 3.29 4.72 4.31 3.32 3.45 4.29 4.49 3.46 4.39 3.43 3.42 1.74 1.96 2.18 1.87 2.16 2.22 2.12 1.92 2.11 3.25
7.21 7.74 6.63 7.32 7.53 7.33 7.45 6.41 7.79 6.37 7.12 9.03 7.43 6.29 5.85 5.91 5.74 5.25 5.44 5.23 0.45 0.62 0.67 0.43 0.50 0.49 0.48 0.49 0.64 0.87 0.98 0.86 0.85 0.83 0.77 0.77 0.75 0.72 0.86 2.59 2.14 2.76 2.34 2.19 2.52 2.26 2.45 2.60 2.93
50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98
2.40 2.12 2.39 2.58 2.26 2.53 2.51 2.47 2.32 1.87 2.02 2.03 1.92 1.99 2.12 2.11 2.14 1.97 2.11 2.17 2.84 2.32 2.36 2.31 2.30 2.20 2.80 2.30 2.36 2.36 2.37 2.27 2.29 2.28 2.49 2.53 2.73 2.53 2.63 2.16 2.43 2.51 3.03 2.20 2.86 2.53 2.94 2.55 2.71
0.84 0.62 0.70 0.74 0.76 0.68 0.74 0.73 0.69 0.88 0.85 0.92 0.99 0.93 1.00 1.03 1.00 0.94 0.97 1.13 1.48 1.30 1.27 1.29 1.17 1.25 1.28 1.17 1.19 0.85 0.78 0.80 0.78 0.75 0.87 0.83 0.83 0.79 0.83 1.32 1.17 1.30 1.42 1.10 1.35 1.16 1.39 1.23 1.27
0.17 0.14 0.16 0.18 0il7 0.16 0.16 0.18 0.15 0.17 0.21 0.19 0.17 0.19 0.19 0.22 0.21 0.17 0.18 0.21 0.29 -0.26 0.22 0.25 0.25 0.27 0.26 0.22 0.23 0.17 0.18 0.17 0.17 0.17 0.19 0.17 0.20 0.17 0.18 0.21 0.23 0.24 0.28 0.22 0.28 0.25 0.28 0.26 0.27
3.37 2.80 3.17 3.53 3.19 3.37 3.41 3.39 3.18 2.91 3.06 3.14 3.05 3.10 3.31 3.36 3.35 3.07 3.26 3.39 4.63 3.88 3.79 3.41 3.73 3.71 4.37 3.67 3.80 3.38 3.33 3.26 3.22 3.20 3.53 3.52 3.76 3.47 3.65 3.70 3.84 4.07 4.71 3.53 4.44 3.94 4.63 4.06 4.24
2.88 3.47 3.34 3.52 3.03 3.84 3.46 3.54 3.42 2.14 2.41 2.23 2.00 2.18 2.14 2.07 2.18 2.13 2.30 1.92 1.96 1.82 2.00 1.80 1.98 1.79 2.21 1.97 2.03 2.83 3.10 2.95 2.96 3.07 2.91 3.06 3.34 3.20 3.22 1.65 2.08 1.97 2.13 2.02 2.10 2.27 2.15 2.14 2.21
22
1. Grundprinzipien der statistischen Datenanalyse bn ¿0 -
30
20
10
-
— r 1z
2
z 6 A/N
3
Abb. 1.1.2. Säulendiagramm A/N b ' 30
20
10
l
z
r
3
o/N
Abb. 1.1.3. Säulendiagramm O/N
ob eine Annahme über die Eingipfligkeit oder Symmetrie der Verteilung sinnvoll ist. Dabei heißt eine Verteilung eingipflig, wenn eine Dichte existiert, die genau ein Maximum hat. Symmetrisch heißt die Verteilung, falls die Dichte symmetrisch bez. eines Punktes, des Symmetriepunktes, ist. Ein Beispiel für eine eingipflige symmetrische Verteilung ist durch die Gaußsche Glockenkurve gegeben, die häufig als Approximation von Verteilungen verwendet wird. Die Auswertung des Säulendiagramms betrifft den gesamten Werteverlauf, der durch die Größen b u . . . , b s gegeben ist. Noch gröbere
1.1. Vorläufige Datenanalyse
23
b 30
20
10
01
z
0.15
02
0.25
03
z
M/N
Abb. 1.1.4. Säulendiagramm M/N
30
20
10
15 z
2
3
r
G/N
Abb. 1.1.5. Säulendiagramm G/N
Aussagen über die Verteilung kann man durch ausgewählte Maßzahlen der empirischen Verteilung geben, wobei diese gewonnenen Maßzahlen häufig eine große Anschaulichkeit haben. So ist z. B. das
arithmetische Mittel z =n1 ¡=i — Z Zi n
(6)
eine Kenngröße der Verteilung. Offenbar gilt hierbei
z0 = J xH(dx).
(7)
24
1. Grundprinzipien der statistischen Datenanalyse
Stützt man sich nicht auf die Urdaten, sondern auf die mit Hilfe der Intervalle 3 u ..., Di verdichteten Daten, so ist = j
xR(dx)
i = E bs{as — s=1 1 =
n
' -
s
=i
s-l)
a
s
a
®s-1
(8)
1.1. Vorläufige Datenanalyse
25
Abb. 1.1.8. R(z) und H(z) für A / 0
ms
III
um / / / / / II um II ii um II um Hill IUI um um um um / / / / / Ulli m ///// m i
i i
IUI II i i Abb. 1.1.9. Strichliste für A/N aus Tabelle 1.1.1
3 13 7 2 7 14 20 13 5 3 1 0 0 0 1 0 1 0 4 '2 0 1 0 0 1
mjn .0306 .1326 .0714 .0204 .0714 .1428 .2041 .1326 .0510 .0306 .0102 0 0 0 .0102 0 .0102 0 .0408 .0204 0 .0102 0 0 .0102
i¿= ill m
.0306 .1632 .2347 .2551 .3265 .4694 .6735 .8061 .8571 .8877 .8979 .8979 .8979 .8979 .9082 .9082 .9184 .9184 .9592 .9796 0 .9898 .9898 .9898 1.00
26
1. Grundprinzipien der statistischen Datenanalyse
ein Mittelwert, der aus dem Säulendiagramm herrührt. Bei großem n ist z häufig viel leichter berechenbar als z0, wobei z sehr gut den Wert z0 approximiert. Für eine große Klasse von Verteilungen hat der Median oder Zentralwert einen ähnlichen Stellenwert wie das arithmetische Mittel. Dabei heißt z Zentralwert von zly ..., zn, falls #{Zi^z:
i = 1,...,»} = # { z ; ^ z : i = 1,...,«},
(9)
so daß also gleich viele Werte kleiner bzw. größer als z sind. Ist z nicht eindeutig durch die obige Gleichung bestimmt, so wählt man den Zentralwert als denjenigen, der die Mitte des Intervalls aller Lösungen von (9) ist. Anders ausgedrückt, ordnen wir z1; ..., z„ der Größe nach und bezeichnen diese Folge durch z[l]>
• • •> 2 [ n ]
mit Z[i] ^ Z[2] ^ ••• ^ Z[„]>
80 i s t
Zj-„+ij
falls n ungerade,
1 — ( z ^ j + Zj-n+2j)
falls n gerade.
*= I
Informativ ist auch der Modalwert der empirischen Verteilung, nämlich das Intervall J s , für das der Wert b3 maximal ist. Weitere einfache charakteristische Werte der Folge zu ...,z„ sind die Quantile. Dabei heißt qa (empirisches) a-Quantil, wenn s o ist der Wert /¿(i0) das Skalarprodukt von «=i
a(t0) und der Projektion der Beobachtung y, auf den eindimensionalen Raum, der von a(t0) aufgespannt wird. Andrews bemerkte einige Eigenschaften dieser gra1 * fischen Veranschaulichung. Da tfi'a(t) linear abhängt von yh gilt y'a(t) = — /¡W> n i=1 so daß die Mittelwertskurve zum Mittelwert y gehört. Mehr noch, es gilt J(fi(t) ~ fi{t)f d t = J {W
- yt') a(