190 88 57MB
German Pages 725 [728] Year 2000
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen Bisher erschienene Werke: Böhning, Allgemeine Epidemiologie Caspary • Wichmann, Lineare Modelle Chatteijee • Price (Übers. Lorenzen), Praxis der Regressionsanalyse, 2. Auflage Degen • Lorscheid, Statistik-Aufgabensammlung, 3. Auflage Härtung, Modellkatalog Varianzanalyse Harvey (Übers. Untiedt), Ökonometrische Aiialyse von Zeitreihen, 2. Auflage Harvey (Übers. Untiedt), Zeitreihenmodelle, 2. Auflage Heiler • Michels, Deskriptive und Explorative Datenanalyse Kockelkorn, Lineare statistische Methoden Miller (Übers. Schlittgen), Grundlagen der Angewandten Statistik Naeve, Stochastik für Informatik Oerthel • Tuschl, Statistische Datenanalyse mit dem Programmpaket SAS Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Deskriptive Statistik Pflaumer • Heine • Härtung, Statistik für Wirtschafts- und Sozialwissenschaften: Induktive Statistik Pokropp, Lineare Regression und Varianzanalyse Rasch • Herrendörfer u.a., Verfahrensbibliothek, Band I und Band 2 Rinne, Wirtschafts- und Bevölkerungsstatistik, 2. Auflage Rinne, Statistische Analyse multivariater Daten - Einführung Rüger, Induktive Statistik, 3. Auflage Rüger, Test- und Schätztheorie, Band I: Grundlagen Schlittgen, Statistik, 8. Auflage Schlittgen, Statistische Inferenz Schlittgen • Streitberg, Zeitreihenanalyse, 8. Auflage Schürger, Wahrscheinlichkeitstheorie Tutz, Die Analyse kategorialer Daten
Fachgebiet Biometrie Herausgegeben von Dr. Rolf Lorenz Bisher erschienen: Bock, Bestimmung des Stichprobenumfangs Brunner • Langer, Nichtparametrische Analyse longitudinaler Daten
Lineare statistische Methoden Von Universitätsprofessor
Dr. Ulrich Kockelkorn
R.Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Kockelkorn, Ulrich: Lineare statistische Methoden / von Ulrich Kockelkorn. - München ; Wien : Oldenbourg, 2000 (Lehr- und Handbücher der Statistik) ISBN 3-486-23208-8
© 2000 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0, Internet: http://www.oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer" GmbH, Bad Langensalza ISBN 3-486-23208-8
Inhaltsverzeichnis Vorwort
11
I
15
1
Das Handwerkszeug D a s m a t h e m a t i s c h e Handwerkszeug 1.1 Geometrische Strukturen 1.1.1 Beschreibung von Datensätzen durch Vektoren 1.1.2 Geraden, Ebenen, Räume 1.1.3 Dimensionen und Basen 1.1.4 Winkel und Abstand 1.1.5 Projektionen 1.2 Matrizenrechnung und lineare Gleichungssysteme 1.2.1 Grundbegriffe 1.2.2 Verallgemeinerte Inverse einer Matrix 1.2.3 Lineare Gleichungssysteme 1.2.4 Normalgleichungen 1.3 Beschreibung von Punktwolken 1.3.1 Punktwolken im S771 und das Konzentrationsellipsoid . . . 1.3.2 Richtung einer Punktwolke im E 2 1.3.3 Straffheit einer Punktwolke im M2 1.3.4 Drei Ausgleichsgeraden 1.4 Anhang: Ergänzungen und Aufgaben 1.4.1 Matrizen 1.4.2 Spektralzerlegung von Matrizen 1.4.3 Symmetrische Matrizen 1.4.4 Ellipsoide im K n 1.4.5 Normierte lineare Vektorräume 1.4.6 Projektionen 1.4.7 Optimale Abbildung einer Punktwolke 1.4.8 Lösungen der Aufgaben
17 18 18 28 34 38 44 54 54 63 66 69 75 75 79 81 83 91 91 96 99 102 104 110 114 119
4 2
INHALTSVERZEICHNIS Das statistische Handwerkszeug 2.1 Zufällige Variable 2.1.1 Der Wahrscheinlichkeitsbegriff 2.1.2 Wahrscheinlichkeitsverteilungen 2.1.3 Unabhängigkeit und Bedingtheit 2.1.4 Erwartungswert 2.1.5 Varianz, Kovarianz und Korrelation 2.1.6 Kovarianzmatrix und Konzentrations-Ellipsoid 2.1.7 Grenzwertsätze 2.2 Die Normalverteilung und ihre Verwandten 2.2.1 Die Normalverteilungsfamilie 2.2.2 x 2 ~Verteilung und der Satz von Cochran 2.2.3 F-Verteilung 2.2.4 t-Verteilung 2.2.5 Das Student-Prinzip 2.2.6 Sum-of-Squares-Schreibweise 2.3 Grundprinzipien der Statistik 2.3.1 Der statistische Schluß 2.3.2 Die Prognose 2.3.3 Der statistische Test 2.3.4 Konfidenzbereiche 2.3.5 Punktschätzer 2.4 Anhang: Ergänzungen und Aufgaben 2.4.1 Spezielle stetige Verteilungen 2.4.2 Ausgeartete Verteilungen 2.4.3 Geordnete Verteilungen 2.4.4 Die Mahalanobis-Metrik 2.4.5 Konsistente Varianzschätzer 2.4.6 Score- und Informationsfunktion 2.4.7 Spezielle Parameter-Tests 2.4.8 Lösung der Aufgaben
127 127 127 128 129 130 132 134 137 139 139 147 153 155 156 158 160 160 162 163 165 166 172 172 175 177 179 181 183 187 189
II
Korrelations- und Prognosemodelle
193
3
M o d e l l e mit zwei V a r i a b l e n 3.1 Der Zusammenhangsbegriff 3.2 Der Korrelationskoeffizient von BravaisPearson 3.2.1 Ein kurzer historischer Rückblick 3.2.2 Struktur des Korrelationskoeffizienten 3.2.3 Uberlagerungsmodell 3.2.4 Verteilung des Korrelationskoeffizienten 3.2.5 Quellen für Fehlinterpretationen 3.3 Der Intraklassen-Korrelationskoeffizient
195 195 198 199 201 205 207 209 214
5
INHALTSVERZEICHNIS 4
Modelle mit mehr als zwei Variablen 217 4.1 Bedingte Korrelation 217 4.2 Die beste Prognose 220 4.2.1 Beste Prognosen für eindimensionale zufällige Variable . . 221 4.2.2 Beste lineare Prognose 222 4.3 Multiple Korrelation 228 4.3.1 Struktur der multiplen Korrelation 228 4.3.2 Bestimmtheitsmaß 232 4.4 Partielle Korrelation 233 4.4.1 Struktur des partiellen Korrelationskoeffizienten 233 4.4.2 Geometrische Veranschaulichung 237 4.4.3 Berechnung der partiellen Korrelation 238 4.4.4 Schrittweise Bestimmung der Residuen 239 4.4.5 Partielle Korrelation bei Modellerweiterung 241 4.4.6 Reziproke Partialisierung 241 4.4.7 Regressionskoeffizienten 243 4.4.8 Konzentrationsmatrix 245 4.5 Kanonische Korrelation 249 4.5.1 Kanonisch korrelierte Paare 249 4.5.2 Kanonische Zerlegung zweier Räume 255
5
Anhang zur Korrelation 5.1 Ergänzungen und Aufgaben 5.1.1 Aufgaben und Beispiele 5.1.2 Korrelation bei stochastischer Skalierung 5.1.3 Verallgemeinerungen des Korrelationskoeffizienten 5.2 Korrelation und Information 5.2.1 Korrelationskoeffizient als Informationsmaß 5.2.2 Kullback-Leibler-Informationskriterium: 5.2.3 Kanonische Korrelationen als In for mat ions maß 5.3 Lösungen der Aufgaben
III 6
Das lineare Regressionsmodell Parameterschätzung im Regressionsmodell 6.1 Struktur und Design 6.1.1 Die Struktur des Regressionsmodells 6.1.2 Das Design 6.2 Schätzung von ¡i und ß 6.2.1 Schätzung von// 6.2.2 Schätzung von ß 6.2.3 Schätzbare Parameter 6.2.4 Identifizierbare Parameter 6.2.5 Kanonische Darstellung eines Parameters
. . . .
259 259 259 260 262 264 264 265 266 268
271 273 273 274 277 278 281 282 287 289 290
INHALTSVERZEICHNIS
6
6.3 6.4
6.5
6.6
6.7
6.2.6 Kontraste 6.2.7 Mehrdimensionale Parameter und Parameterräume . . . . 6.2.8 Modellerweiterungen Das Bestimmtheitsmaß 6.3.1 Probleme bei der Interpretation des Bestimmtheitsmaßes Genauigkeit der Schätzer 6.4.1 Kovarianzmatrizen der Schätzer 6.4.2 Schätzer der Kovarianzmatrizen 6.4.3 Konfidenzellipsoide für Parameter Lineare Einfachregression 6.5.1 Punkt- und Bereichsschätzer der Parameter 6.5.2 Konfidenzgürtel für die Regressionsgerade 6.5.3 Prognoseintervall für eine zukünftige Beobachtung . . . . 6.5.4 Inverse Regression Beste lineare unverfälschte Schätzer 6.6.1 Der Satz von Gauß-Markov 6.6.2 Beste lineare unverfälschte Schätzer Schätzen unter Nebenbedingungen 6.7.1 Das eingeschränkte lineare Modell 6.7.2 Gestalt der Nebenbedingungen 6.7.3 Schätzung nach Reparametrisierung 6.7.4 Schätzung mit der Methode von Lagrange 6.7.5 Schätzung mit Projektionen 6.7.6 Eindeutigkeit des KQ-Schätzers unter Nebenbedingungen 6.7.7 Identifikationsbedingungen
292 293 294 295 303 308 309 310 313 315 315 319 321 323 326 327 331 337 337 339 340 340 342 343 345
7
Parametertests im Regressionsmodell 7.1 Hypothesen über die systematische Komponente 7.1.1 Die Leitidee 7.1.2 Symbolische Darstellung der SS-Terme 7.1.3 Die Prüfgröße des F-Tests 7.1.4 Eine invariante Formulierung der Hypothese 7.1.5 Explizite Darstellung des Testkriteriums 7.2 Hypothesen über einen Parameter 7.2.1 Test der Hypothese $ = 7.2.2 Kombinationen von Tests 7.2.3 Test der Hypothese: H $ : i'4>1 = 2 = • • • = 7.3 Testen in Modellketten
353 353 353 355 356 358 359 360 360 367 374 376
8
Diagnose 8.1 Grafische Kontrollen 8.1.1 Residuenplots 8.1.2 Partielle Plots 8.2 Die Kollinearitätstruktur der Regressoren 8.2.1 Das Kollinearitäts-Syndrom 8.2.2 Der Toleranz- und der Varianz-Inflations-Faktor
383 384 386 390 395 395 399
INHALTSVERZEICHNIS
8.3
8.4
8.5 8.6
9
7
8.2.3 Singulärwertzerlegung von X 403 Der Rand des Definitionsbereiches 406 8.3.1 Der Definitionsbereich des Modells 406 8.3.2 Beobachtungsstellen mit Hebelwirkung 410 Einflußreiche und auffällige Beobachtungen 415 8.4.1 Bezeichnungen und Umrechnungsformeln 415 8.4.2 Skalierte, standardisierte und studentisierte Residuen . . . 420 8.4.3 Der Einfluß einer einzelnen Beobachtung 424 Uberprüfung der Normalverteilung 432 Uberprüfung der Kovarianzmatrix 435 8.6.1 Uberprüfung der Unkorreliertheit der Residuen 435 8.6.2 Uberprüfung der Konstanz der Varianz 440
Modellsuche 9.1 Unter- und überangepaßte Modelle 9.2 Modellbewertungen und Selektionskriterien 9.2.1 Die Abweichung zwischen Schätzwert und Beobachtung 9.2.2 Die Prüfgröße des F-Tests 9.2.3 Der geschätzte mittlere quadratische Fehler 9.2.4 Das Bayesianische Informationskriterium 9.2.5 Das Akaike Informationskriterium 9.2.6 Die Prognosegüte 9.2.7 Vergleich der Selektionskriterien 9.2.8 Selektion und Inferenz 9.2.9 Die VC-Dimension 9.3 Algorithmen zur Modellsuche 9.4 Modelle mit Box-Cox-transformierten Variablen
445 446 448 . 449 450 451 452 454 457 459 463 464 465 469
10 Spezialgebiete des Regressionsmodells 10.1 Orthogonale Regressoren 10.2 Schrittweise Verfahren 10.2.1 Zweistufige Regression 10.2.2 Rekursive KQ-Schätzer 10.3 Der Kaiman-Filter 10.4 Hauptkomponentenregression 10.5 Lineare Modelle in der Bayesianischen Statistik
483 483 492 492 498 500 511 515
IV
523
Modelle der Varianzanalyse
11 Einfache Varianzanalyse 11.1 Aufgabenstellung und Bezeichnungen 11.2 Das Modell 11.3 Die Effekte 11.3.1 Schätzbare Funktionen 11.3.2 Identifikation der Effekte
525 525 527 532 533 534
INHALTSVERZEICHNIS
8
11.3.3 Test auf Vorliegen von Effekten 11.3.4 Kontraste 11.3.5 Optimale Wahl der Besetzungszahlen
535 536 541
12 Multiple Entscheidungsverfahren 12.1 Grundbegriffe und Eigenschaften 12.2 Ein-Schritt-Verfahren 12.2.1 Das Bonferroni-Verfahren 12.2.2 Der Tukey Test 12.2.3 Simultan verwerfende Testprozeduren 12.2.4 Der Many-One Test von Dunnett 12.2.5 Der Scheffe-Test 12.3 Mehrschrittige Testprozeduren 12.3.1 Der Protected LSD-Test von Fisher 12.3.2 Der Newman-Keuls-Test 12.3.3 Der Duncan-Test 12.3.4 Die Bonferroni-Holm Methode
543 543 550 550 554 558 561 563 566 567 569 572 573
13 Zweifache Varianzanalyse 13.1 Grundbegriffe 13.2 Das saturierte Modell 13.2.1 Erwartungßwertparametrisierung 13.2.2 Effektparametrisierung 13.2.3 Schätzbare Parameter 13.2.4 Identifizierende Nebenbedingungen 13.2.5 Unbereinigten Haupteffekte 13.3 Das additive Modell 13.3.1 Effektparametrisierung 13.3.2 Schätzung der Parameter 13.3.3 Grafische Überprüfung 13.3.4 Wechselwirkungen bei unbereinigten Effekten 13.4 Tests in der Varianzanalyse 13.4.1 Tests von Struktur-Hypothesen 13.4.2 Test von Parameterhypothesen 13.4.3 Allgemeine Haupteffekte im saturierten Modell 13.5 Modelle mit proportionaler Besetzung 13.6 ANOVA mit SAS
577 579 584 584 585 586 587 592 595 597 598 601 602 604 605 609 611 615 619
1 4 Varianzanalyse mit mehreren Faktoren 14.1 Bezeichnungen und Begriffe 14.2 Das saturierte Modell 14.3 Modelle mit proportionaler Besetzung 14.4 Beweise 14.5 Parametrisierungsformeln 14.6 Genestete Modelle
623 623 627 631 642 646 647
INHALTSVERZEICHNIS
9
15 Kovarianzanalyse 15.1 Grundmodelle 15.2 Allgemeine Modelle
653 653 659
16 Modelle mit zufalligen Effekten 16.1 Grundbegriffe 16.2 Saturierte balanzierte Modelle 16.2.1 Zerlegung des R " in orthogonale Effekträume 16.2.2 Struktur der Kovarianzmatrix 16.2.3 Schätzung der Effekte 16.2.4 ANOVA-Schätzung der Varianzen 16.2.5 Rekursionsformeln 16.2.6 ANOVA-Tests im balanzierten Modell 16.2.7 Approximative Tests 16.3 Likelihoodschätzer im balanzierten Modell
669 670 674 674 675 677 678 682 684 689 690
16.4 Nichtbalanzierte Modelle
692
Literaturverzeichnis
699
Symbolverzeichnis
716
Vorwort Dieses Buch entstand aus Manuskripten zu Vorlesungen über lineare Modelle an der Technischen Universität Berlin. Die Studenten kamen meist aus den Wirtschaftswissenschaften, aber auch der Mathematik, Informatik, Umwelttechnik bis hin zur Psychologie. Die Vorlesung durfte nur minimale mathematische und statistische Vorkenntnisse voraussetzen, sollte anwendungsnah aber theoretisch fundiert sein. Die einen sollten nicht überfordert, die anderen nicht gelangweilt sein. Die Herausforderung war groß aber reizvoll, denn kaum eine statistische Theorie ist so gut geeignet, die Fülle und Tiefe statistischer Ideen und Methoden zu zeigen, wie gerade die des Linearen Modells. Seine wichtigsten Aufgaben und Anwendungsbereiche sind unter anderem: • die kompakte Darstellung von Daten, • die Definition von Zusammenhängen zwischen Merkmalen, • die Definition von Einflüssen und Effekten, • die Schätzung dieser Größen sowie • die Bewertung der gefundenen Schätzungen. Abhängigkeiten werden in der denkbar einfachsten Form dargestellt, nämlich linear. Lineare Abhängigkeiten wiederum lassen sich geometrisch interpretieren. Die geometrische Anschauung bot nun den rettenden Strohhalm, auf dem ich zwischen der Skylla der Aufzählung von Verfahren und der Charybdis der Aneinanderreihung von Beweisen versucht habe, mit meinem Häuflein Studenten zu steuern. Am Ende des Semesters zählt man die Uberlebenden der (Vorlesungs)Reise und beschließt, es beim nächsten Mal besser zu machen. Im Zentrum sowohl der geometrischen Darstellung wie der inhaltlichen Interpretation steht der Begriff der orthogonalen Projektion. Hat man sich erst einmal mit ihm vertraut gemacht, kann man unübersichtliche oder angsteinflößende Matrizenprodukte vermeiden. Auch auf Kroneckerprodukte konnte so verzichtet werden. Die Geometrie des Linearen Modells kann unabhängig vom wahrscheinlichkeitstheoretischen Rahmen entwickelt werden. Erst wenn wir nach der Verläßlichkeit
12 der gewonnenen Prognosen und der Güte der Schätzer fragen, wenn Hypothesen über die Größe von Effekten getestet werden sollen, muß das geometrische Modell zu einem statistischen Modell erweitert werden. So lassen sich nun Konzept und Grenzen dieses Buches umreißen: Aus einem geometrischen Verständnis heraus soll das lineare Modell vorlesungsnah, ohne Scheu vor Redundanz, mit mathematischem und statistischem Minimalaufwand entwickelt werden. Jedoch wird alles was über das klassische lineare Modell hinausgeht, wie zum Beispiel Versuchsplanung, generalisierte lineare Modelle, nichtlineare Regression, nichtlineare, robuste oder verteilungsfreie Schätzer nicht behandelt oder nur mit einer Nebenbemerkung bedacht. Das Buch ist in vier Teile gegliedert. Im ersten Teil wird das mathematische und statistische Handwerkzeug bereitgestellt. Die drei anderen Teile widmen sich dem linearen Modell mit der folgenden Struktur: Y = X-Komponente + Rest = ^ T ßj Xj 4- Rest. Dabei stehen Y und die Xj für noch näher zu definierende ein- oder mehrdimensionale Variablen. Die X-Komponente soll möglichst nah bei Y liegen und der Rest möglichst wenig mit der X-Komponente zu tun haben. Dabei sind Begriffe wie nah oder möglichst wenig mit geeigneten Metriken zu präzisieren. Je nach dem mit welchen Wahrscheinlichkeitsmodell die geometrische Struktur des Modells ausgestattet wird, welche Metriken verwendet werden, ob die Variablen metrisch oder nominal skaliert sind, ist es üblich, die Modell nach Korrelations-, Regresssions- oder Varianzanalysemodellen zu differenzieren. Sind Y und die Xj gleichwertige zufällige Variable und verwenden wir eine über Varianzen und Kovarianzen definierte Metrik, stoßen wir auf die im zweiten Teil des Buches behandelten Korrelationsmodelle. Im dritten Teil des Buches betrachten wir das klassische Regressionsmodell: Hier sind die Xj deterministische, im Regelfall quantitative und damit potentiell kontinuierlich variierbare Einflußgrößen. Die von ihnen abhängige zufällige Variable Y entsteht aus der additiven Überlagerung der systematischen X-Komponente und einer unkontrollierbaren externen Störung, die sich im Restterm niederschlägt. Von Y und den Xj liegen Beobachtungen als geordnete Zahlentupel vor, die als Vektoren des R n aufgefaßt werden. Damit können wir die euklidische Metrik und ihre Varianten verwenden. Sind die Xj dagegen qualitative Variablen, die nur namentlich aber nicht durch Maße bestimmte Niveaus annehmen können, sprechen wir von einen Varianzanalysemodell. Mischformen mit qualitativen und quantitativen Einflußgrößen werden in der Kovarianzanalyse behandelt. Modelle der Varianz- und der Kovarianzanalyse werden kurz als ANOVA-Modelle (Analysis of Variance) zusammengefaßt. Durch eine geeignete Kodierung der Niveaus der qualitativen Regressoren lassen sich ANOVA-Modelle — als Ausprägungen des linearen Modells darstellen. Für die Mathematik und Statistik des Regressionsmodell ist es irrelavant, wie die Regressoren Xj skaliert sind. Daher sind viele Eigenschaften des Regressionsmodells und der ANOVA Modelle gemeinsam in Teil 3 entwickelt worden.
13
Wenn wir trotzdem im letzten Teil des Buches die ANOVA-Modelle von denen der Regression trennen, so liegt es an den unterschiedlichen Fragestellungen der ANOVA-Modelle. Diese kreisen vor allem um das Problem: Was ist eigentlich der Effekt eines Einflußfaktors, was sind Wechselwirkungen und wie kann man sie definieren und messen? Was geschieht, wenn diese Effekte selbst zufällige Variablen sind? Alle Kapitel fangen eher behutsam an und umreißen Problemstellung und Lösungsideen. Gegen Schluß der Kapitel und der vier Teile des Buches wird der Text mathematisch anspruchsvoller und mündet schließlich in den ersten beiden Teilen in Anhängen, die auch an Hand von Aufgaben den Stoff über das Notwendige hinaus vertiefen. Für eine erste Lektüre kann man daher getrost sich jeweils auf die ersten Abschnitte der jeweils ersten Kapitel beschränken und sich dann in späteren Zyklen weiter vorarbeiten. Auf einige formale Eigenheiten soll noch hingewiesen werden: Sätze, Definitionen, Beispiele und Aufgaben sind optisch hervorgehoben und mit e i n e m einzigen Laufindex fortlaufend durchnumeriert. So folgt also auf die Definition 1 der Satz 2 mit dem Beispiel 3 und der Aufgabe 4. Diese macht es wesentlich leichter, zu einem gegebenen Laufindex den dazugehörigen Text zu finden. Die im Buch verwendeten Symbole wie zum Beispiel PM (y) , PM (y) oder P {V} werden am Schluß des Buches noch einmal in einer Symbolsammlung zusammengestellt. Abschließend möchte ich allen danken, die zur Entstehung dieses Buches beigetragen haben. Uwe Hoos hat als Student begonnen, mein in MS-WORD geschriebenes Manuskript mit viel Engagement und Sachverstand in T^TgXzu übersetzen. Nach seinem Diplom mußte ich mich alleine durchschlagen und griff zu dem Textsystem Scientific Workplace, daß unter einer Windows-Oberfläche I^T^X erzeugt. Mitunter ist es mir nicht gelungen, dem System bei Fußnoten, Tabellen oder Grafiken die gewünschte Formatierung oder gar Plazierung abzuringen. Ich bitte hierfür um Nachsicht. Ich danke Herrn Martin Barghoorn, der mir bei den Grafiken half, Frau Claudia Funck-Hüsges, Herrn Half Herbrich sowie Herrn Jürgen Schweiger, die Korrektur gelesen und mir wertvolle Ratschläge gegeben haben. Vor allem aber danke ich meiner Frau und meinen Kollegen Günter Bamberg, Herbert Büning, Rainer Schlittgen und Gerhard Tutz, die mich zu diesem Buch angespornt und mit nachsichtiger Geduld auf sein Erscheinen gewartet haben.
Teil I
Das Handwerkszeug
Kapitel 1
Das mathematische Handwerkszeug Niemand trete ein, der nicht Geometrie beherrscht! So soll die Inschrift über dem Eingang zur Platonischen Akademie in Athen gelautet haben. Nun ist diese Akadamie seit bald anderthalb Jahrtausenden geschlossen, aber die Idee, die hinter dieser Anforderung stand, hat noch nichts von ihrer Bedeutung verloren. Worum ging's dem alten Piaton? Das, was wir wahrnehmen, ist ungenau, verzerrt, unsicher, vielleicht sogar unwirklich. Genau, klar, sicher und wirklich dagegen sind die Ideen, deren Abbild unsere Realität bildet. Geometrie ist für Piaton die mathematisch faßbar gewordene Idee des Raumes. Hinter den unmittelbaren Empfindungen und Beobachtungen des täglichen Lebens wie zum Beispiel • Nähe und Ferne, Neigung und Ablehnung, • das Einfache, das Vielfache und das Vielfältige, • das Sich-Uberlagern und das Zerlegtwerden • das Berühren und Schneiden, • das niemals Berühren und das schroffeste Aufeinandertreffen, stehen geometrische Ideen wie Abstand, Winkel, Punkt, Raum, Dimension, Parallelität und Orthogonalität. Mit einer Akzentverschiebung stehen wir auch heute noch an diesem Punkt. Bloß sprechen wir nicht mehr von Ideen, sondern von Modellen. Diese sind Abbilder unserer Realität und nicht mehr die Realität selbst. Die Frage, was wirklich ist, wird ausgespart.
18
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Geometrische Modelle sind einerseits mathematische Objekte, auf welche die Fülle mathematischer Erkenntnisse und Methoden angewendet werden können, andererseits behalten sie die ursprüngliche Anschaulichkeit und Faßbarkeit unserer täglichen Erfahrung bei. Die Anwendung geometrischer Begriffe läßt mathematische Strukturen transparent und faßbar werden. Manche formulieren die Theorie der linearen Modelle ausschließlich in der Sprache der linearen Algebra, sie verliert dann aber ihre Anschaulichkeit, wird langweilig, trocken und mühsam. In diesem Kapitel sollen die wichtigsten geometrischen Konzepte vorgestellt werden. Der Schlüssel dazu ist der Begriff des Vektors. Wir werden uns zuerst an einem einfachen, konstruierten Beispiel mit diesem Begriff vertraut machen und dann die geometrischen Strukturen allgemein behandeln. Diese lassen sich auch knapp und übersichtlich in Matrizenform beschreiben. Abschnitt 1.2 enthält daher die für uns wichtigsten Begriffe der Matrizenrechnung. Im Abschnitt 1.3 tauchen zum ersten Mal grundlegende Begriffe der deskriptiven Statistik auf: Mittelwert, Varianz, Kovarianz, Korrelationskoeffizient und die Ausgleichsgeraden. Sie werden dort erst einmal zur Beschreibung von Punktwolken eingeführt. Im Anhang, dem Abschnitt 1.4, werden Begriffe aus der Theorie der linearen Vektorräume und der Matrizenrechnung vertieft. Leser, die vor allem an der praktischen Anwendung und weniger der theoretischen Untermauerung interessiert sind, können diesen Abschnitt überspringen.
1.1 1.1.1
Geometrische Strukturen Beschreibung von Datensätzen durch Vektoren
Beispiel 1 Wir betrachten die Buchhaltung eines fiktiven Handwerkbetriebes. Die Monteure haben für jeden Kunden ihre Arbeitszettel mit den jeweils gefahrenen Strecken (K), der benötigten Zeit (S), den verbrauchten Ersatzteilen (E) und der Schwierigkeitsstufe A, B oder C der Arbeit in der Buchhaltung abgegeben. Aus diesen Angaben werden nun die Rechnungen erstellt. Der Gesamtpreis setzt sich aus diesen variablen Kosten und einer festen Pauschale (P) zusammen. Die Kostengrößen sind: Pauschale: Kosten pro km: Kosten pro Stunde: Schwierigkeitszuschlag
Stufe A Stufe B Stufe C
20 DM 0,50 DM 40 DM 20 DM 30 DM 40 DM.
Daraus ergibt sich der Rechnungsbetrag R = Pauschale km) + 40 • (Zeit in Stunden) + Schwierigkeits-Zuschlag R= P + 0,5-K
+ 40-S+Z
+ E.
P + 0,5 • (Strecke in + Ersatzteilkosten:
1.1.
GEOMETRISCHE
19
STRUKTUREN
Die in der Buchhaltung für 10 Kunden angefallenen Daten sind in Tabelle 1.1 angeführt. In der Buchhaltung werden nun nacheinander für die einzelnen KunKundenNummer 1 2 3 4 5 6 7 8 9 10
km K 24 11 20 19 24 36 34 2 37 17
Std. S 3,0 0,5 1,5 2,5 2,5 2,0 1,0 2,5 2,5 3,0
Zuschlag Z A B C C A A B A C B
Ersat zteilkosten E 42,26 46,47 64,17 28,27 42,70 52,40 5,30 13,62 2,81 21,03
Tabelle 1.1: Kundendaten den die Rechnungen erstellt und so der Datensatz zeilenweise bearbeitet. Betrachten wir nun aber die Gesamtheit aller Kunden auf einmal und lesen den Datenzettel spaltenweise. Jede Spalte fassen wir als einen Vektor mit 10 Komponenten auf. Dabei sollen die Vektoren die Namen der jeweiligen Kostengrößen tragen. Zur Unterscheidung des Vektors — nämlich einer Spalte mit 10 Zahlen — von dem zugehörigen Merkmal schreiben wir die Vektoren mit kleinen fetten Buchstaben, also k, s, z und e. Mit diesen Vektoren wollen wir nun rechnen. Die Fahrtkosten sind f = 0,5 • k. Dabei stellt f wieder einen Vektor dar, dessen 10 Komponenten sich durch elementweises Multiplizieren der Komponenten von k mit dem Kostenkoeffizienten 0,5 ergeben:
ß) 20 19 24 36 34 2 37 w
/12,0\ 5,5 10,0 9,5 12,0 18,0 17,0 1,0 18,5 \8,5/
CA 20 f = 0 , 5 - k = 0,5-
19 24 36 34 2 37 w
=
Fahrtkosten und Stundenlohn ergeben zusammen die proportionalen v : = 0 , 5 • k + 40 • s. Wir wollen dieses v schrittweise berechnen:
CA 20 19 24 36 34 2 37 W
/3,0\ 0,5 1,5 2,5 2,5 + 40- 2,0 1,0 2,5 2,5 \3,0/
=
/12,0\ /120\ 20 5,5 10,0 60 9,5 100 12,0 100 18,0 + 80 17,0 40 1,0 100 18,5 100 \8,5/ \l20/
=
Kosten
/132, 0\ 25,5 70,0 109,5 112,0 98,0 57,0 101,0 118,5 \128, 5/
20
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Bei der Multiplikation eines Vektors mit einer Zahl und der Addition von Vektoren ist unbedingt zu beachten: • Die Rechenoperationen werden komponentenweise ausgeführt. • Die Reihenfolge der Komponenten innerhalb eines Vektors darf nicht verändert werden. Linearkombinationen Der Vektor v = 0,5 • k + 40 • s ist eine Linearkombination der Vektoren k und s mit den Kombinationskoeffizienten 0,5 und 40. Definition 2 Allgemein nennt man einen Vektor y Linearkombination Vektoren x i , . . . ,xn, wenn y die folgende Gestalt hat:
y =
E
j=i
/
der
W
Die reellen Zahlen /? • heißen die Koeffizienten der Linearkombination und xj die erzeugenden Vektoren. Dabei müssen alle Xj dieselbe Anzahl von Komponenten haben. Der Einservektor 1 und der Nullvektor 0 Um die Pauschale als Vektor zu schreiben, führen wir den Einservektor 1 ein. Definition 3 Der Einservektor 1 ist ein Vektor, dessen sämtliche Komponenten 1 sind. Analog ist der Nullvektor 0 ein Vektor, dessen sämtliche Komponenten Null sind.
0 / 220 \ 20
o
20
20 20 20 20 20
\20/
= : 20 •
=:20 • 1 \l/
0 0 0 0 0 0
--: 0
\o/
Indikator-Vektoren Bislang waren die Komponenten unserer Vektoren reelle Zahlen. Dies trifft aber nicht mehr für den Zuschlagsvektor z zu. Seine Komponenten sind Buchstaben. Durch folgenden Trick schreiben wir z um: Wir ersetzen das qualitative Merkmal Schwierigkeitstufe mit drei Ausprägungen A, B,C durch drei binäre 1
1.1. GEOMETRISCHE
21
STRUKTUREN
Kundennum mer 1 2 3 4 5 6 7 8 9 10
Zuschlag A B C C A A B A C B
a* 1 0 0 0 1 1 0 1 0 0
b* 0 1 0 0 0 0 1 0 0 1
c* 0 0 1 1 0 0 0 0 1 0
Tabelle 1.2: Binär-Kodierung von Z Merkmale mit den Ausprägungen 0 und 1: Das Merkmal Z wird binär kodiert. 1A ist der Indikatorvektor der Kunden mit dem Schwierigkeits-Zuschlag A und analog 1 B und l c für die anderen:
^A t-is „ j \= | J 1J (Kunde) 0
Kunde hat Zuschlag A, sonst.
(Auf die Frage: "Wer hat die Stufe A?", heben alle betroffenen Kunden die Hand. Das Bild der erhobenen Zeigefinger2 ist der Indikatorvektor \A.) Damit lassen sich die Zuschlagskosten vektoriell als Linearkombination schreiben: z = 20- 1 A + 3 0 - 1 B + 4 0 - l c . Fassen wir noch die Ersatzteilkosten zu einem Vektor e und den Rechnungsbetrag zu einem Vektor r zusammen, so lassen sich die Gesamtkosten r als Vektorgleichung schreiben: 20 • 1 + 0,5 • k + 40 • s + 20 • 1 A + 30 • l ß + 40 • l / 42, 26\ / 24x ,3,(K 11 0,5 0 1 0 46,47 64,17 20 1,5 0 0 1 28,27 19 2,5 0 0 1 24 +40 2,5 +20 1 +30 0 +40 0 + 42, 70 +0,5 36 2,0 1 0 0 52,40 — 34 1,0 0 1 0 5,30 2 2,5 1 0 0 13,62 37 2,5 0 0 1 2,81 Vo7 \21, 03/ U7/ \3,0 / Vi/ w 1 2
Ein Merkmal mit nur zwei Ausprägungen heißt binäres Merkmal. Lateinisch: Index = Zeigefinger
c
+ e = r.
/214,26\ 121.97 194,17 197, 77 194,70 190,40 112,30 154,62 181,31 V199,53/
KAPITEL
22
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Aufgabenumkehr Wir wollen nun die Aufgabe umkehren. Dazu nehmen wir an, daß sich alle zehn Kunden untereinander kennen, ebenso sollen sie die von ihnen jeweils selbst gemessene Arbeitszeit, die gefahrenen Kilometer und die jeweilige Schwierigkeitsstufe kennen. Auf ihren Rechnungen soll aber nur der nicht aufgeschlüsselte Endbetrag stehen. Die Kunden versuchen nun durch Vergleich ihrer Rechnungen untereinander den Stundenlohn, den Pauschalbetrag, die Zuschläge, die km-Kosten und die Kosten der Ersatzteile zu rekonstruieren. Abgesehen von dem zugegebenermaßen etwas konstruierten Beispiel ist das geschilderte Grundproblem alltäglich: Mit jedem Experiment stellen wir der Natur einen Arbeitsauftrag, bei dem wir die Modalitäten der Arbeit kennen und zum Teil auch bewußt verändern können. Das Ergebnis des Experimentes ist die von der Natur ausgestellte Gesamtrechnung. Diese versuchen wir nun nach den einzelnen Kostenanteilen, sprich Effekten und Einflüssen aufzuschlüsseln. Genau dieses wird eine der zentralen Aufgaben dieses Buches sein. Betrachten wir dazu noch einmal die Vektorgleichung3 für r: r = ß0l + ftk + ß2s + ß3lA
+ ß4lB
+ ß5lc
+ e.
Bislang waren die Vektoren 1, k, s, I a , l ß , l c und e und die Koeffizienten ß0 bis ß 5 gegeben. Daraus wurde dann die Summe r berechnet. In der Aufgabenumkehr sind nun die Vektoren 1, k, s, l 7 ' . l ö , I o und die Summe r gegeben. Gesucht werden die Koeffizienten ß0, ß1, ß2, , und ß5 sowie der Vektor e. Bereits hier fällt auf, daß der Vektor e eine Sonderrolle spielt: Die übrigen Kostenvektoren waren bis auf einen multiplikativen Faktor bekannt. Von einem solchen Faktor kann hier keine Rede sein; e ist vollständig unbekannt. Die Aufgabe ist in der vorliegenden Form noch zu schwer; wir werden statt dessen eine Reihe vereinfachter Aufgabenvarianten behandeln und uns so an die Lösung heranpirschen. Die Varianten sind: ri = 2 = T3 = T4 = T5 = re = r
/? 1 ft k ftk ftk / M Hh ß>l Hh /3 : k
ß3lÄ
+ +
ß,lB ß,lB
+ +
ß5lC ß5l°
+ ß3lA + + ßZlA
+ + +
ß,lB ß,lB ßs /32S A>s
+
e.
Variante 1 Die Rechnung enthält nur den Schwierigkeitszuschlag. 3 W i r s c h r e i b e n ß0l s t a t t ß0 • 1 u n d werden auch im w e i t e r e n auf d e n M a l p u n k t z w i s c h e n V e k t o r u n d S k a l a r v e r z i c h t e n . D e r M a l p u n k t w i r d n u r n o c h g e s e t z t , w e n n dies ü b e r s i c h t l i c h e r ist.
1.1.
GEOMETRISCHE
Gegeben: Gesucht: Modell:
23
STRUKTUREN
1A, 1B, lc, rx. ß3, /?4, ß5. r j = ß3lA + / ? 4 l ß + ß5lc. /20\ 30 40 40 20 20 = 30 20 40 \30/
ß ) 0 0 1 ß3 1 0 1 0 w
+ß4
fl) ß 1) 0 0 1 0 0 0 + ßs 0 1 0 0 0 0 1 \l/ w
(
ß A ßs ßs ß3 ß3 ß4 ß3 ßs XßJ
=
Offensichtlich ist die Lösung ß3 = 20, ß4 = 30 und ß5 = 40. Sie ist eindeutig und läßt sich ohne Schwierigkeiten korrekt aus den ersten drei Zeilen der Datenmatrix ablesen. Variante 2 Die Rechnung erhält zusätzlich Gegeben: 1, 1A, 1B, Gesucht: ß0, ß3, /?4, Modell: r 2 = ß0l+ß3lA +
noch die Pauschale. 1°, r2. ßs. /3 4 1 B + ß5lc.
( 40\ /1\ /1\ 50 1 0 60 1 0 60 1 0 40 1 1 4 0 = ßo 1 + ßs 1 +ßi 50 1 0 1 1 40 1 0 60
V5(V
v )
w
/o\ fo\ I 0 0 1 0 1 0 0 0 + ßs 0 1 0 0 0 0 1 v )
w
=
fßo+ß3\ ßo + ßi ßo+ß5 ßo + ß5 ßo + ßs ßo + ßs ßo + ßA ßo + ßs ßo + ßs \ßo+ßJ
Hier fällt sofort auf: Auch wenn die Rechnung aus Zuschlägen und der Pauschale in der angegebenen Weise berechnet wurde, lassen diese sich aus der Endabrechnung nicht mehr eindeutig rekonstruieren. Erhöhen wir zum Beispiel alle Zuschläge um einen Betrag M und ziehen gleichzeitig den Betrag M von der Pauschale ab, so ändert sich der Endbetrag nicht. Man sagt: ß0, ß3, ß4, ß5 sind nicht identifizierbar. Formal liegt die Ursache in der gegenseitigen Abhängigkeit der Vektoren 1, 1A, 1B und 1°. Denn es gilt: 1 = 1A + 1B + 1 ° . Abhilfe schafft die R e p a r a m e t r i s i e r u n g oder die B e s c h r ä n k u n g a u f identifizierbare P a r a m e t e r : Parameterwechsel, Reparametrisierung: Wir beheben die dem Modell innewohnende Unbestimmtheit, eliminieren überflüssige Vektoren und Parameter und beschreiben die Daten neu. Damit erhalten wir ein vereinfachtes Modell mit eindeutigen Parametern.
24
KAPITEL
1.
DAS MATHEMATISCHE
HANDWERKSZEUG
Wir verzichten zum Beispiel auf die überflüssige Pauschale und erhöhen statt dessen die Zuschläge. Die Kostengrößen sind nun: Sockelbetrag: Schwierigkeitszuschlag: Stufe A Stufe B Stufe C
ßo~ßo = 0 ßo + ßz = S 3 ß0 + ß4 = ¿4
ß* + ß* = h
Wir eliminieren im Modell den Vektor 1 und ersetzen ihn durch 1/
r2 = = ß0(lA
/?„ 1 + + lB + l c ) +
ßz^A + ß3lA + (ßo+ß3)iA 831a
ß^B + /?4lß +
+ (ßo+ß*nB + MS
+ +
l
ß
+ l c. /? 5 1 C ß5lc
(ßo+ß5nc S5lc.
Die neuen Parameter ¿3, ¿4, ¿5 sind nun wie bei Variante 1 identifizier bar. B e s c h r ä n k u n g a u f i d e n t i f i z i e r b a r e P a r a m e t e r : Jetzt belassen wir das Modell unverändert, beschränken uns aber auf solche abgeleiteten Parameter, die trotz der generellen Unbestimmtheit eindeutig bestimmbar sind. Auch wenn zum Beispiel weder Pauschale noch Zuschlag identifizierbar sind, ist die Summe aus beiden eindeutig. Ebenso sind die Differenz zweier Zuschläge oder gewisse Mittelwerte aus den Zuschlägen identifizierbar. So sind zum Beispiel die folgenden Parameter eindeutig bestimmt: /3 0 +/?3 = 40
ß0+
/?4-/?3=10
oder
ß 4 = 50
ßQ + ß5 = 60
also auch ^ ± h - ß
5
= -l5.
Variante 3 Die Rechnung enthält nur Fahrtkosten und Stundenlohn. Gegeben: k, s, r3. Gesucht: ßx, ß2Modell: r 3 = /? 1 k+/? 2 s. Was wissen wir von r3? Der Vektor r3 ist eine Linearkombination der beiden Vektoren k und s: /132,00\ /3,0\ /24\ 25,50 11 0,5 70,00 20 1,5 109,50 19 2,5 112,00 24 2,5 = ßl 36 + ßz 2,0 98,00 57,00 34 1,0 101,00 2 2,5 118.50 37 2,5 \128,50/ \3,0 j W
1.1. GEOMETRISCHE
STRUKTUREN
25
Wie wir später noch zeigen werden, lassen sich die Vielfachen / ^ k des Vektors k als Punkte einer Geraden £{k} auffassen. 4 Der Vektor s ist kein Vielfaches von k. Er ist von k linear u n a b h ä n g i g . Nehmen wir die Vielfachen ß2s von s zur Gerade £ { k } hinzu, haben wir die Struktur um eine Dimension erweitert: s und k erzeugen eine Ebene £{s, k} = {ß1h+ß2s\ß1,ß2 beliebige reelle Zahlen}. Jeder Vektor v dieser Ebene £ { s , k } hat die Gestalt v = + Dabei sind wegen der linearen Unabhängigkeit von k und s die Koeffizienten ß1 und ß2 eindeutig durch v bestimmt. Damit wissen wir, daß unsere Variante 3 eine eindeutige Lösung besitzt. Variante 4 Zu den Zeit- und Fahrtkosten treten die Zuschläge hinzu. Gegeben: k, s, 1A, 1B, l c , r4. Gesucht: ßlt ßu ß3, /?4, ß5. Modell: r 4 = /3 1 k+/? 2 s+/? 3 l' 4 + ß4lB + ß5lc. Die geometrische Struktur wird reicher. Die Ebene £{s, k} ist ein Teil des übergeordneten Raumes C{k, s, 1A, 1B, l c } - Dieser läßt sich zwar nur noch symbolisch veranschaulichen, trotzdem läßt sich auch hier zeigen, daß die Vektoren k, s, 1 A , 1 B und l c linear unabhängig sind. Damit ist die Darstellung von r 4 als Punkt des fünfdimensionalen Raumes eindeutig. Variante 4 hat wiederum eine eindeutige Lösung. Numerisch läßt sich diese zum Beispiel durch Lösung eines linearen Gleichungssystems finden. Variante 5 Diese Variante unterscheidet sich von Variante 5 durch die Pauschale. Gegeben: 1, k, s, 1A, 1B, lc, r5. Gesucht: ß0, ßlt ßlf ß3, /?4, ß5. Modell: r 5 = / 3 0 l + / ? i k + ^ 2 s + / 3 3 l A + ß4lB + ß5lc. Hier tritt dasselbe Problem auf wie bei Variante 2. Der Parameter ß0 ist überflüssig. Die Hinzunahme des Vektors 1 hat keine neue Dimension eröffnet. Durch Reparametrisieren oder durch Beschränkung auf schätzbare Parameter führen wir es auf Variante 4 zurück. Variante 6 Die letzte Variante ist unser ursprüngliches Problem mit allen Faktoren. 1A, l ß , lc, r6. Gegeben: 1, k, s, Gesucht: ß0, ßt, ßlt ß3, ß„ ß5. Modell: r 6 = J 8 0 H-^ 1 k+/3 2 s+ i S 3 l' 1 + ß4lB + ß5lc + e. Durch die Aufnahme des Vektors e entsteht ein prinzipiell neues Problem. Solange wir nichts über e wissen, sind die Koeffizienten ß0, ß1, ß2, ß4, ß5 nicht mehr rekonstruierbar. Denkbar wäre ja zum Beispiel auch e = r6, dann wären alle anderen Koeffizienten Null. Wenn wir jetzt nicht von vornherein aufgeben 4
C , ein kalligraphisches "L", steht für "Linear".
26
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
wollen, müssen wir versuchen, die Parameter und den Restvektor e plausibel zu schätzen. Dabei lassen wir uns von folgender Idee leiten: r 6 = ß0l + ß{k + ß2s + ß3l A + ßAl B + ß5l c
+ e = r+ e
läßt sich in zwei Anteile zerlegen: Eine reguläre Komponente r := ß(>l + /?xk + ß2s + /? 3 1 4- ß4l B + ß^lc und eine irreguläre Komponente 5 , nämlich e. Der irreguläre Vektor e katapultiert r aus dem Raum £ { l , k , s, 1 A , l ß , l c } =: £, heraus. Könnten wir r durch ein f schätzen, dann hätten wir, wie in Variante 5, auch Schätzer der ßi und gleichzeitig in der Differenz r — ? einen Schätzer für e. Wir werden für r nicht den ersten besten , sondern den nächsten besten Vektor aus £ nehmen. Denjenigen nämlich, der minimalen Abstand zu r hat. Dabei nehmen wir den gewöhnlichen geometrischen Abstand. Ubersetzen wir dieses Kriterium in Anforderungen an die einzelnen Koeffizienten, so heißt dies: Schätze die Koeffizienten ß0, ß1, ß2, ß^, ß± und ß5 so, daß die Summe der quadrierten Abweichungen zwischen den beobachteten r; und den geschätzten ?i minimal wird. Dies ist die von Carl Friedrich Gauß in die wissenschaftliche Welt eingeführte Methode der kleinsten Quadratsummen. Konkret bedeutet dies für unser Beispiel: Minimiere + +
(214,3 — (ß0 + 24/?x + 3,0/32 + ß?))2 (122,0 — (ß0 + 11/?! + 0, bß2 + ß±))2 (194,2 — (ß0 + 20/?j + 1,5/32 + l/^ö))2
+
(199,5 — (ß0 + 17/Jj + 3,0/?2 + ßi))2 •
Zur numerischen Lösung dieser Aufgabe nehmen wir den Rechner zu Hilfe. Wir lesen dazu die Vektoren r, k, s, 1 A , 1 B , l c ein und lassen ihn die Minimierungsaufgabe durchführen. Um Mehrdeutigkeitsprobleme zu vermeiden, verzichten wir auf den überflüssigen Parameter ß0. Das vom Rechner ausgeworfene Resultat zeigt Tabelle 1.3 zusammen mit den uns bekannten wahren Werten. Das Ergebnis ist nicht umwerfend. Der Parameter ß1 wird um 50% zu klein, ß2 um 40% zu groß geschätzt. Noch ärger sind die Fehler bei den Zuschlägen /J3, /34 und ß5. Sie sind weder in der Größenordnung noch in der Reihenfolge richtig getroffen. Der Grund für dieses schlechte Abschneiden liegt — wie könnte es anders sein — bei der irregulären Komponente e. Tabelle 1.4 zeigt die geschätzte irreguläre Komponente e und im Vergleich dazu die wahren Ersatzteilkosten e t . Betrachten wir dieses Ergebnis noch etwas genauer: Sämtliche Ersatzteilkosten sind positive Zahlen, deren Durchschnittswert e bei 31,90 DM liegt. Mit unserem Schätzmodell haben wir versucht, die unbekannten Posten der Rechnung 5 M i t Komponenten bezeichnen wir hier also die beiden Vektoren r und e , deren Summe den Vektor re ergibt, und nicht die einzelnen Zahlen, die wir hier zu Vektoren zusammengefaßt haben.
1.1. GEOMETRISCHE STR UKTUREN Parameter Kosten pro Kilometer Stundenlohn Schwierigkeitszuschlag Stufe A Schwierigkeitszuschlag Stufe B Schwierigkeitszuschlag Stufe C Sockelbetrag
27
ß ßi ß?. ß3
ßi 05
wahrer Wert 0,50 3020304020-
Schätzwert 0,25 28,01 113,10 97,46 124,10 0,00
Tabelle 1.3: Ergebnis der Minimierungs-Aufgabe geschätzte irreguläre Komponente ¿i 11,174 7,808 23,097 -1,070 5,581 12,316 -21,595 -29,071 -22,027 13,786
Wahre Komponente Ersatzteile ei 42,26 46,47 64,17 28,27 42,70 52,40 5,30 13,62 2,81 21,03
Tabelle 1.4: Schätzung der irregulären Komponente
zu rekonstruieren. Dabei haben wir aber die einzelnen Komponenten nicht als gleichrangig behandelt, sondern eine — nämlich die Ersatzteilkosten e — als irreguläre Komponente modelliert. Die Summe der quadrierten Schätzwerte ¿ i 2 sollte dabei minimiert werden. Dies hat unter anderem zur Folge, daß die Durchschnittskosten e von den einzelnen el abgezogen und den Zuschlägen zugerechnet werden. Ziehen wir also diese 31,90 DM von den ex ab, erhalten wir doch eine überraschende Ubereinstimmung mit den e,. Addieren wir die 31,90 DM zu den Zuschlägen und berücksichtigen wir, daß auch die Pauschale von 20 DM zu den Zuschlägen addiert werden muß, so sind selbst diese Komponenten nicht so übel getroffen. In diesem Beispiel können wir sagen, wie gut unsere Schätzungen sind, da wir die wahren Werte kennen. In der Praxis ist dies meist ausgeschlossen. Um Aussagen über die Zuverlässigkeit unserer Schätzungen zu erhalten, müssen wir über die Struktur der Daten mehr wissen. Zum Beispiel, ob die Komponenten von e Realisierungen zufälliger Variablen sind und welche Wahrscheinlichkeitsverteilung diese Variablen besitzen. (In unserem Beispiel ist e von uns willkürlich, aber nicht zufällig gesetzt worden.) Rückblickend auf das Beispiel sehen wir: Wir können mit Vektoren Datensätze beschreiben. Die Menge aller möglichen
28
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
additiven Überlagerungen von Vektoren lassen sich durch Geraden, Ebenen und Räume deuten. Fragen der Eindeutigkeit der Parameter führen zu den Begriffen der linearen Unabhängigkeit und der Dimension. Die Suche nach optimalen Schätzern führt zum Abstandsbegriff und die abschließende Frage nach der Genauigkeit der erhaltenen Schätzer zur Wahrscheinlichkeitstheorie. Damit ist das Programm der nächsten beiden Abschnitte umrissen.
1.1.2
Geraden, E b e n e n , R ä u m e
In diesem Abschnitt werden wir Linearkombinationen von Vektoren betrachten. Die von ihnen erzeugten Strukturen werden wir mit uns vertrauten geometrischen Begriffen belegen und von "Punkten", "Geraden" und "Ebenen" sprechen. Eine Gerade kann z. B. in einer Ebene liegen, sie schneiden, senkrecht oder parallel dazu sein. Diese uns vertrauten Eigenschaften geometrischer Objekte des dreidimensionalen euklidischen Raumes lassen sich auf gleichnamige abstrakte Objekte des n-dimensionalen Raumes übertragen. Sie gewinnen so — vielleicht erst nach einiger Übung — eine neue Anschaulichkeit. Wir werden von "abstrakten Vektoren" und "Vektorräumen" reden. Dabei genügt es vollkommen, sich unter einem Vektorraum den gewöhnlichen dreidimensionalen Vektorraum vorzustellen. Definition 4 Eine Menge V = { a , b , c , . . . , x , y , z , . . . } heißt linearer Vektorraum über den reellen Zahlen, falls für alle Elemente von V, die wir als Vektoren bezeichnen, eine Addition und eine skalare Multiplikation erklärt sind, so daß für alle reellen Zahlen a und ß sowie alle Vektoren a und b aus V die folgenden Eigenschaften erfüllt sind: E x i s t e n z einer k o m m u t a t i v e n und assoziativen A d d i t i o n : a +b
6
V
a+b
=
b+a
(a + b) + c
=
a + ( b + c)
E x i s t e n z einer assoziativen und distributiven Multiplikation: aa
=
acc £ V
a(a + b)
=
aa + a b
(a + ß)sL =
aa + ^a
(aß) a
=
la
=
a(ßa) a
E x i s t e n z einer Inversen b e i der Addition: Zu je zwei Vektoren a £ V und b £ V gibt es stets genau einen Vektor c, so daß a 4- c = b gilt.
1.1. GEOMETRISCHE
STRUKTUREN
29
Bemerkung: Jeder Vektorraum enthält den eindeutigen Nullvektor 0. Für 0 und jedes a S V gilt a + 0 = a. Weiter gibt es zu jedem a £ V einen eindeutig bestimmten Vektor —a mit der Eigenschaft a + (—a) = 0. Statt a 4- (—b) schreiben wir auch kurz a — b. Wenn wir im folgenden schlicht von Vektorräumen sprechen, meinen wir stets lineare Vektorräume über den reellen Zahlen. Beispiel 5 (Vektorräume) Der euklidische n-dimensionale Raum R n . Die Punkte einer Geraden durch den Ursprung. Die Punkte einer Ebene durch den Ursprung. Die Menge der stetigen Funktionen. Die Menge der zufälligen Variablen. Beispiel 6 (Vektoren im R 2 ) Jedes x £ R 2 ist ein geordnetes Zahlenpaar: x = Xi,X2 £ R 1 . Die beiden Komponenten X\ und X2 von x legen als Koordinaten einen Punkt der Ebene fest (vgl. Abbildung 1.1).
Abbildung 1.1: Komponenten von x
Unter dem Vektor x können wir uns sowohl diesen Punkt als auch den gerichteten Pfeil (Ortsvektor) vom Nullpunkt bis zum Punkt x vorstellen. Schließlich können wir noch die feste Bindung des Vektorpfeils an den Nullpunkt aufgeben und x durch jeden zum Ortsvektor parallelen Pfeil gleicher Länge repräsentieren. Wir werden alle drei Vorstellungen verwenden und je nach Zusammenhang von Punkten oder Vektoren reden. Es ist einerseits anschaulicher, von den Punkten einer Ebene zu sprechen, andererseits werden wir etwa bei der Addition aber lieber Pfeile als Punkte aneinandersetzen. Diese formal-geometrische Vorstellung von Vektoren als Punkte oder Pfeile in einem Raum wird sich als tragfähig und außerordentlich fruchtbar erweisen. Wir werden sie von nun an konsequent in diesem Buch durchhalten, gleichgültig, ob
30
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
die Vektoren inhaltlich Merkmale, Variablen, Einflußfaktoren, zufällige Größen, Matrizen oder Funktionen sind. Im folgenden sind alle auftretenden Vektoren a, b , . . . , z Elemente eines gemeinsamen Vektorraums V , der oft nicht mehr explizit genannt wird. Gerade D e f i n i t i o n 7 Die Menge der Vielfachen des Vektors a heißt "die von a erzeugte Gerade" (Abbildung 1.2): £ { a } := { a a | a e K 1 }.
£{a} aa
Abbildung 1.2: Die Gerade £ { a }
Je größer der Koeffizient a ist, um so weiter liegt der Punkt a a in Richtung von a vom Ursprung 0 weg. Ist a negativ, liegt a a in entgegengesetzter Richtung zu a. Addition Im R 2 erhält man den Summenvektor a + b, in dem man das Vektorparallelogramm bildet. Man setzt den Vektor a an die Spitze des Vektors b. Die Ecke des so entstehenden Parallelogramms ist der Vektor a + b (Abbildung 1.3). a + b
Abbildung 1.3: Vektor-Addition Diese Vorstellung der Vektoraddition können wir unverändert auf allgemeine Vektorräume übertragen.
1.1. GEOMETRISCHE
STRUKTUREN
31
Subtraktion Verbinden wir die beiden Punkte von a nach b, so erhalten wir den Vektor b—a. Denn aufgrund der Additionsregel gilt b = a + (b — a) (Abbildung 1.4).
Dreieck Die Menge der Punkte { a a + (1 — a) b |0 < a < 1} bildet die Verbindungsstrecke zwischen den Punkten a und b. Das Dreieck mit den Ecken 0, a und b wird von den Punkten { a a + ßh |0 < a < 1; 0 < ß < l;a + ß < 1} gebildet (Abbildung 1.5).
Abbildung 1.5: Dreieck
Parallelogramm Die Menge der Punkte { a a + ßb\0 < Q < 1 ; 0 < / ? < 1 } bildet das Parallelogramm mit den Eicken 0, a, b und a + b (Abbildung 1.6). Ebene Die Menge der Punkte { a a + ßb\a G R 1 ; ß E R 1 } bildet die von a und b erzeugte Ebene £ { a , b } (Abbildung 1.7).6 6 W i r zeichnen hier u n d im folgenden ein P a r a l l e l o g r a m m als S y m b o l für die E b e n e , in diesem F a l l die E b e n e £ { a , b } .
32
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
a+ b
Abbildung 1.6: Parallelogramm
Abbildung 1.7: Ebene
Wichtige, durch Linearkombinationen der Punkte 0 , a i , . . . , a „ erzeugte, geometrische Strukturen sind:
I o
£ / ? , = i}
die konvexe Hülle der Punkte,
3= 1
n
a,
I 0 < ßj
1 eine
abhängig.
• Je m — k linear unabhängige Vektoren y i , . . . , y m - k aus W lassen sich durch Hinzunahme von k weiteren, von allen anderen linear unabhängigen Vektoren Zi,..., z * zu einer Basis von W ergänzen. S a t z 1 3 ( D i m e n s i o n s s a t z ) Es seien A und B zwei Unterräume.
Ist
ACB,
so gilt: dim A < d i m B dim A = dim B A = B . Sind A und B beliebig, so gilt: dim £ { A , B } = dim A + dim B - dim A D B . Zum Beweis der zweiten Aussage erweitert man eine Basis von A H B einmal zu einer Basis von A und dann zu einer Basis von B .
36
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
B e i s p i e l 14 Eine (eindimensionale) Gerade A und eine (zweidimensionale) Ebene B spannen im R 3 einen dreidimensionalen Raum auf, wenn die Gerade nicht in der Ebene liegt (clim A f l B = Oj. Zwei Ebenen B und C, die sich in einer Geraden B D C schneiden, spannen keinen vierdimensionalen Raum auf, sondern nur den R 3 : d i m £ { B , C } = 2 + 2 - 1 = 3. Linear unabhängige R ä u m e D e f i n i t i o n 15 Schneiden die Räume A und B sich nur im Nullpunkt f A f l B = 0), so heißen die Räume A und B linear unabhängig (Abbildung 1.11).
Abbildung 1.11: Linear unabhängige Räume Sind A und B linear unabhängig, so läßt sich außer dem Nullvektor kein Vektor aus A als Linearkombination der Vektoren aus B darstellen und umgekehrt, denn der einzige Vektor, der in A und B liegt, ist der Nullvektor. S a t z 16 Sind die Räume A und B linear unabhängig, so besitzt jeder c £ £ { A , B } die eindeutige Darstellung c = a+ b
Vektor
a € A , b £ B.
Beweis: Existenz: Ist c £ £ { A , B } beliebig, so ist c = J2aiai + Hßj^jDabei ist a := ^ a t a j bzw. b := ^ ßjb_,- eine endliche Linearkombination von Vektoren aus A bzw. aus B. Eindeutigkeit: Hätte c auch noch die Darstellung c = a ' + b ' , dann wäre a ' + b ' = a + b und damit a — a ' = b' — b. Der Vektor a — a ' wäre einerseits
1.1. GEOMETRISCHE
STRUKTUREN
37
ein Element aus A und andererseits als b' — b ein Element aus B. Der einzige Vektor, der sowohl in A wie in B liegt, ist aber 0. Also ist a—a' = 0, alsoa = a' und analog b = b'. • Satz 16 legt folgende Schreibweise nahe: Definition 17 Sind A und B linear unabhängig, so schreiben wir für £ { A , B } =: A + B . Damit läßt sich der Dimensionssatz für linear unabhängige Räume einfach schreiben als dim(A + B) = dim A + dim B. Koordinatensysteme Sind die Vektoren a i , a 2 , . . . , a m linear unabhängig, so spannen sie den m-dimensionalen Vektorraum A = C{ >
||PAy||2 ||y-PAy||2.
Beweisskizze: Linearität: Idempotenz: Orthogonalität: Symmetrie: Positivität: Pythagoras: Minimalität:
•
& y € A
Zerlege x in a + b und y in a' + b' mit b, b' £ A x Folgt aus der eindeutigen Zerlegung y = a + b. Folgt aus der Definition und A J_ Aus ( P A y , x - P A x ) = 0 folgt ( P A y , x) = (P A y, P A x ) . Vertauschung von x und y liefert ( P A x , y) = ( P A x , P A y ) . Folgt aus der Symmetrie für y = x. Folgt aus P A y 1 (y - P A y ) . Folgt aus Pythagoras und y — a = P A y — a + y — P A y . ^ V ' v V ' 6A GA1
Veranschaulichung Die wichtigste Eigenschaft ist die Minimalität. Sie bedeutet inhaltlich: a £ A hat genau dann minimalen Abstand zu y, falls a = P a Y ist. 1 0 E r s t e Ungleichung: G l e i c h h e i t g e n a u dann, wenn y 6 A ; zweite U n g l e i c h u n g : genau d a n n , wenn a = P A y
Gleichheit
1.1. GEOMETRISCHE
47
STRUKTUREN
Diese Eigenschaft läßt sich leicht anhand Abbildung 1.21 veranschaulichen: y, P A y und a bilden die Ecken eines rechtwinkligen Dreiecks, das senkrecht y
Abbildung 1.21: Veranschaulichung der Minimalität auf der Ebene A steht. Die eine Kathete liegt in A, die zweite steht senkrecht zu A. Die Hypotenuse ist länger als jede einzelne Kathete. Schreibweisen: Sind A und B zwei Mengen von Vektoren und sind £ { B } C £ { A } die von den Vektoren aus A bzw. B erzeugte Räume, so schreiben wir kurz PAy PAeßy
anstelle von anstelle von
P£{A}y> Pr{A}e£{B}y
sofern dies ohne Mißverständnisse möglich ist. 11 Speziell für einen Vektor x schreiben wir Pxy
anstelle von
P,c{x}y-
Ist die Nennung des Bildraums A überflüssig, da der Bildraum bekannt ist, oder gilt eine Aussage für jedes A, so verzichten wir auf den Index A und schreiben P
anstelle von
PA-
Weiter schreiben wir mitunter yA := P A y für die A-Komponente und y.A
für die 11
:=y-PAy
-Komponente von y.
E i n e A u s n a h m e dieser Schreibregel ist die auf Seite 5 3 e r k l ä r t e P r o j e k t i o n P a + A y auf e i n e H y p e r e b e n e d u r c h a.
48
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Anwendungen der Projektion O p t i m a l e A p p r o x i m a t i o n : In den Anwendungen kommt es oft darauf an, einen Vektor y optimal durch Linearkombinationen fest vorgegebener anderer Vektoren a i , . . . , a f c zu approximieren. Wird als Gütekriterium der durch die Norm definierte A b s t a n d gewählt, so ist P£{ai,...,a fc }y die gesuchte optimale Approximation. O r t h o g o n a l e Z e r l e g u n g : Im Vordergrund steht hier der Wunsch, y in zwei möglichst gut voneinander getrennte Komponenten zu zerlegen: y = A-Komponente + Restkomponente. Dabei soll die A-Komponente eine Linearkombination vorgegebener Vektoren ai,... sein und die Restkomponente frei von den a; sein. Fordern wir als Gütekriterium der Trennung, daß die Restkomponente orthogonal zu allen a t steht, so ist die A-Komponente gerade PAY und die Restkomponente y — PAY' Diese Restkomponente nennen wir auch das R e s i d u u m . Es gilt: y = PAy + (y-PAy)-
(1.6)
Mit der oben eingeführten Schreibweise erhält (1.6) die einprägsame Form y = yA + y.AWeitere Eigenschaften S a t z 3 0 Symmetrie und Idempotenz sind definierende Eigenschaften jektion. Gilt für eine lineare Abbildung P von V in den Raum V
der Pro-
P P = P, (Py,x) = (y,Px) so ist P die orthogonale
Projektion
Vy, x ,
auf den Bildraum
von P .
Beweis: Aus beiden Gleichungen folgt: ( P x , y - P y ) = (x, P (y - P y ) ) = (x, P y - P P y ) = (x, P y - P y ) = 0
Vy, x.
D a m i t ist y = P y + (y — P y ) eine orthogonale Zerlegung. Dabei liegt die erste Komponente im Bildraum von P , die zweite K o m p o n e n t e steht orthogonal zum Bildraum. • S a t z 3 1 Sind A und B zwei Unterräume ist y G V , so gilt:
eines gemeinsamen
Oberraums V und
1.1.
GEOMETRISCHE
STRUKTUREN
49
A und B sind genau dann orthogonal, wenn eine der drei folgenden Bedingungen erfüllt ist:
äquivalenten
P A P B = P B P A = 0,
(1.7)
PA©B = P A + PB, 2
(1.8)
2
2
||p A e By|| = ||PAy|| + ||PBy|| .
(1.9)
Ist A C B , so ist P A P B = PBPA = PA,
(1.10)
PBGA = P B - P A , IIPEGAYII
= ||P B y -
2
(1.11)
PAy||
2
=
2
2
||P B y|| - ||P A y|| .
(1.12)
Speziell gilt:
| | y - P A y | | 2 = ||y|| 2 -||PAy|| 2 .
Beweis: (1.7): (1.8):
Folgt aus der Orthogonalität. "=>"-Richtung: Wegen (1.7) ist P A P ß = P B P A = 0. Daher ist:
(PA + P B ) ( P A + P B ) = P A P A + P b P A + P A P B + P ß P ß = P
A
+ PB
Definieren wir zur Abkürzung P P A + P B , so haben wir gerade P P = P gezeigt. Weiter zeigt man ( P x , y ) = ( x , P y ) V x j . Schließlich ist A © B der Bildraum der linearen Abbildung P . Also ist nach Satz 30 P = PA©B. (1.8): ""-Richtung: Folgt mit (1.8) aus Pythogoras, da P A y _L P B y . " ^ " - R i c h t u n g : Wählen wir in (1.9) für y = P A x so folgt: ||PAPAx||2 ||PAx||2
+
||PBPAX||2
+
2
||PBPAX||
I|PBPAX||2
=>
(1.10): Ist A C B , so ist Pythagoras: y - a
=
PBa
||y-a||
=
-
||PAX||2
=
0.
für jedes a € A . Also folgt mit
y - P B y ; + P B (y - a) -LB
2
||PA©BPAX||2
=
||y-PBy||
SB 2
+ ||PB(y-a)||2.
Daher wird ||y — a|| 2 genau dann minimal, wenn | | P ß (y — a) || 2 = | | P ß y — P ß a | | 2 minimal wird. Also ist a = P A y = P A P ß y . Siehe Abbildung 1.24. (1.11) und (1.12): Beide folgen durch Umbenennung aus (1.8) und (1.9).
•
50
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Bemerkungen: 1. Wie wir im Anhang auf Seite 109 zeigen werden, folgt aus P B P A = P A P B nicht A C B, sondern nur, daß A und B lotrecht sind. 2. Eine Warnung: Ist A nicht enthalten in B, so ist B © A überhaupt nicht erklärt. In der Regel sind dann weder P B - P A noch P B P A Projektionen. Veranschaulichung von (1.7) und (1.8) Es seien A und B die beiden sich senkrecht schneidenden Geraden aus Abbildung 1.22 und A © B = R 2 die Bildebene. Man sieht, wie die Abfolge der
P
B
y = PA©By
y «
PaPBY = PBPAY = 0
Abbildung 1.22: Orthogonale Geraden A und B Abbildungen y
—
y
PAY -> P ß P A y PBy->PAPBy
jedesmal in 0 endet. Umgekehrt ergibt die Summe von P a Y
und
P B y gerade
y = PA®By. Bemerkung: Sind A und B nicht orthogonal, so ist P A + P B in der Regel keine Projektion mehr, die Aussagen (1.7) bis (1.9) sind dann falsch, wie Abbildung 1.23 zeigt: Die Sequenz y
PAy — PBPAy
aus Abbildung 1.23 landet auf der Geraden B, die Sequenz y
Pßy
PAPBy
1.1. GEOMETRISCHE
STRUKTUREN
51 B
auf A. Für die Summe der beiden Vektoren gilt: P a Y + P B y ^ P£{A,B}yVeranschaulichung von (1.10) In Abbildung 1.24 ist V = R 3 , B ist die horizontale Ebene, A eine Gerade in B. Die Sequenz y —> P e y —• P a P b Y bildet y zuerst in der B-Ebene und dann
Abbildung 1.24: Projektion in zwei Schritten in den Unterraum A. den Bildpunkt P ß y auf die Gerade ab. Das Ergebnis ist dasselbe, als wenn y —• P a Y sofort auf die Gerade projiziert wird. Verallgemeinerung Durch Induktion nach n lassen sich die Aussagen (1.8) und (1.9) sofort verallgemeinern:
52
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Satz 32 Sind die Räume A i , A 2 , . . . , A n paarweise orthogonal, dann ist: =
Ai©A2©---©An,
©A;
=
E i
II p e a ; y|| 2
=
X>A 0. A heißt positiv
definit,
falls für jeden von Null verschiedenen x ' A x > 0.
Beispiel 48 Es seien A=l sowie
4
6
/ )
und
B=(_56
"
9
6
)=A+(J
°0
Vektor x gilt:
62
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Dann ist x'Ax
=
Ori;*2).(_46
=
4x 2 - 12XI^2 + 9x2
=
(2xx - 3x 2 ) 2 > 0.
A ist positiv-semidefinit, denn x ' A x > 0 für alle x; aber für x ' = (3; 2) ist x ' A x = 0. Dagegen ist B positiv-definit, denn x ' B x = x ' A x + x? = (2xi - 3x 2 ) 2 + x? > 0. S c h r e i b w e i s e : Eine übliche, aber oft mißverständliche Abkürzung für positiv (semi-)definite Matrizen ist: A A A A
> > > >
0 0 B B
A A A —B A —B
A - B > 0 A - B > 0
ist positiv définit, ist positiv semidefinit. ist positiv définit, ist positiv semidefinit.
A > B gilt also genau dann, falls x ' A x > x ' B x für alle x gilt. Aus einer positiv semidefiniten Matrix A läßt sich die "Wurzel" ziehen: Ist A > 0, so existiert eine symmetrische Matrix B mit A = B B . Wir schreiben für B auch A 1 / 2 . Im Anhang gehen wir auf Seite 1.4.3 noch genauer darauf ein. Die Eigenschaften semidefiniter Matrizen werden im Anhang weiter behandelt. Sie spielen eine zentrale Rolle bei der Hauptkomponenten-Analyse und der Eigenwertzerlegung. Siehe zum Beispiel Fahrmeir et al. (1994). Invertierbare Matrizen Inverse Matrizen spielen eine zentrale Rolle bei der Umkehrung ein-eindeutiger linearer Abbildungen und der Lösung eindeutig lösbarer Gleichungssysteme. Zur Lösung allgemeiner Gleichungssysteme und zur expliziten Bestimmung von Projektoren müssen wir später den Begriff der Inversen noch verallgemeinern. S a t z 49 Ist A eine reguläre nxn-Matrix, Inverse A 1 von A mit: A
J
so existiert eine eindeutig
A = I = AA"1.
Sind A und B invertierbare Matrizen, so gilt: (AB)"1 = B " 1 A A ist genau dann invertierbar,
falls A |
0 ist.
bestimmte
1.2. MATRIZENRECHNUNG
UND LINEARE
GLEICHUNGSSYSTEME
63
Beispiel 50 (Inverse einer 2 x 2 - M a t r i x ) Sei A = ( acbd ) • A ist genau dann invertierbar, wenn die Spalten von A linear unabhängig sind. Dies ist genau dann der Fall, falls ad—bc^0 ist. In diesem Fall verifiziert man: A
-i_
1
(d
ad - bc \—c
a J
Beispiel 51 Ist A eine orthogonale Matrix, so ist A _ 1 = A'. Weitere Eigenschaften finden sich im Anhang.
1.2.2
Verallgemeinerte Inverse einer Matrix
Ist A nicht quadratisch oder nicht von vollem Rang, so existiert keine Inverse zu A. In beiden Fällen kann man aber verallgemeinerte Inverse definieren, die wenigstens einige Eigenschaften der gewöhnlichen Inversen bewahren. Definition 52 Ist A eine n x m Matrix, so heißt eine m x n Matrix A~ eine verallgemeinerte Inverse der Matrix A, falls gilt: AAA
= A.
Zu jeder Matrix A existiert mindestens eine verallgemeinerte Inverse. Ist A invertierbar, so ist A~ = A " 1 eindeutig bestimmt. Im allgemeinen existieren beliebig viele verallgemeinerte Matrizen A~ von A . Beispiel 53 Sei A :=
1 0 dann ist die durch Probieren gefundene 2Matrix 2 -2 0 2 1 0
eine verallgemeinerte
1 Inverse von A. Zum0 Beweis 1\ verifizieren wir: l 0 2 AAA= 1 -2 ° 1 0 1/ Vi - 2
Im Anhang im Abschnitt 1.4.1 gehen wir eingehender auf verallgemeinerte Inverse ein.
64
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
D i e Moore-Penrose-Inverse Satz 5 4 Zu jeder Matrix A existiert genau eine verallgemeinerte mit den Eigenschaften:
Inverse
A+
AA+A = A A + A A + = A+ + (AA+)' = A A +
(A+A)' = A + A . Diese Matrix heitß die Moore-Penrose-Inverse
von A.
Beispiel 55 Wir kehren noch einmal zu den Matrizen A und A~ des eben betrachteten Beispiels 53 zurück. A~ erfüllt nicht die dritte Bedingung, denn A A " ist nicht symmetrisch. A~ ist daher nicht die Moore-Penrose-Inverse. Wie man an den vier Eigenschaften leicht verifiziert, ist A + gegeben durch:
Dabei ist
Auf die numerische Berechnung von A + und deren weiterere Eigenschaften gehen wir im Anhang ein. Hier genügen uns die Existenz und die folgenden grundlegenden Eigenschaften der Moore-Penrose-Inverse A + : • Gestalt: Ist A eine mxn-Matrix, so ist A + eine n x m - M a t r i x . Ist A symmetrisch, so ist auch A + symmetrisch. Existiert A _ 1 , so ist A + = A " 1 . Ist A eine Projektionsmatrix, so ist A + = A. • Rang: Rg A = Rg A A + = Rg A + A . • Vertauschbarkeit v o n Transponierung und Invertierung: (A') +
=
(A+y
(AA')+
=
A'+A+
(A'A)+
=
A+A,+ .
1.2. MATRIZENRECHNUNG
UND LINEARE
GLEICHUNGSSYSTEME
65
• Idempotenz: ( A A + ) ( A A + ) = AA+ ( A + A ) ( A + A ) = A+A. • Orthogonalität: A(I - A + A ) = 0 (I - A + A ) A + = 0 A+(I — AA+) = 0 (I — A A + ) A = 0. • Invarianz: Für jede Matrix A gilt: A ( A ' A ) " A ' = A ( A ' A ) + A ' = AA+.
(1.24)
Bemerkung: Ein Analogon zur Regel ( A B ) - 1 = B _ 1 A 1 für invertierbare Matrizen existiert, von Ausnahmen14 abgesehen, für die Moore-Penrose-Inverse nicht. Beispiel 56 Als Beispiel für das Rechnen mit Moore-Penrose-Inversen beweisen wir die Invarianz (1.24) über eine auch sonst nützliche Umformungskette von A und A': A = A A + A = ( A A + ) A = (AA+)'A = A + ' A ' A .
(1.25)
Durch Transponierung in (1.25) folgt A' = A'AA+. Für ( A ' A ) - gilt
(1.26)
definitionsgemäß (A'A)(A'A)~ (A'A) = (A'A).
Multiplizieren wir diese Gleichung von links mit A+' und von rechts mit so erhalten wir wegen (1.25) und (1.26) A+'(A'A)-(A'A)" • (A'A)A+ s
v A
'
*
v A'
'
A • (A'A)" • A'
= =
*
A+,
A+'(A'A)A+, v A
AA+.
'
(1.27)
Die rechte Seite von (1.27) ist invariant gegenüber der Wahl von (A'A)~, daher auch die linke Seite. 14
siehe Seite 96
KAPITEL
66
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Für den Spezialfall, daß die Spalten von A linear unabhängig sind, läßt sich A + nach dem folgenden Satz bestimmen: Satz 57 Ist A eine n x m-Matrix vom Rang m, so ist A+ = (A'A ) - 1 A ' . Beweis: A+ = A + ( A A + ) = A+(AA+)' = A + ( A + ' A ' ) = ( A + A + ' ) A ' = (A'A)+A' A ' A ist eine quadratische TOX7n-Matrix; Rg A ' A = Rg A = m. Daher existiert ( A ' A ) " 1 und ist gleich (A'A)+. •
1.2.3
Lineare Gleichungssysteme
Mit Hilfe von Vektoren und Matrizen lassen sich lineare Gleichungssysteme übersichtlich schreiben und ihre Lösung geschlossen angeben. Lineare Gleichungssysteme haben die Gestalt Ax = b. Je nach dem, ob b von Null verschieden ist oder nicht, unterscheidet man inhomogenen von homogenen Systemen. Wir befassen uns zuerst mit homogenen Gleichungssystemen und beginnen mit einem Beispiel: Homogene Gleichungssysteme Beispiel 58 Die folgenden drei Gleichungen bilden ein homogenes Gleichungssystem mit drei Unbekannten Xi, und £3: Xi + x2 + £3 = 0 £ 1 — 2x2 + £3 = 0
£1 — 2X2 + £ 3 = 0 . De facto ist hier die dritte Gleichung überflüssig. Solche Redundanzen sind bei linearen Gleichungssystemen möglich. Sie sind meist nur nicht so offensichtlich wie hier. Man verifiziert leicht, daß die Lösung des Systems gegeben ist durch x1 = a,
£2 = 0,
£3 = —a;
dabei ist a beliebig.
Die drei Gleichungen lassen sich auch zu einer Vektorgleichung zusammenfassen:
1.2. MATRIZENRECHNUNG
UND LINEARE
GLEICHUNGSSYSTEME
Diese Gleichungen werden nun zu einer Matrizengleichung
Genauso fassen wir die Lösung zu einem Lösungsvektor x
67
zusammengefaßt:
zusammen:
Allgemein hat ein homogenes Gleichungssystem mit n Gleichungen und m Unbekannten die folgende Gestalt: 1. Gleichung 2. Gleichung
i. Gleichung
n. Gleichung
m
aijxj = 0 j=i m Y1 a2] Xj = 0 j=l
j= i
aijXj = 0
Y1 a njXj = 0 j=l
Das gleiche System sieht in Vektorschreibweise bzw. in Matrizenschreibweise so aus: m =
j=i Ax
=
0.
Dabei ist A = (ai;-) = (ai; a^', • • •; a m) die n x m-Koeffizientenmatrix und x = (xj; X2\...; x m ) ' der m-dimensionale Vektor der Unbekannten.
Lösung des homogenen Gleichungssystems Satz 59 Die Menge der Lösungen des homogenen Gleichungssystems bildet den Lösungsraum, einen linearen Vektorraum der Dimension m — Rg A. Dabei ist m die Anzahl der Unbekannten des Gleichungssystems. Beweis:
68
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
x ist genau dann Lösung des homogenen Gleichungssystems, wenn A x = 0 gilt. Nun ist aber: A x = 0 x steht orthogonal zu den Zeilen von A x _L £ { A ' } x G ¿{A'}1. Weiter ist d i m ^ A ' } " 1 = d i m R m - d i m £ { A ' } = m - Rg A ' = m - Rg A .
• S a t z 6 0 x ist genau dann Lösung des homogenen Gleichungssystems, sich darstellen läßt als
wenn x
x = (I — A " A ) h . Dabei ist h E Rm ein beliebiger Vektor, verse von A und I die Einheitsmatrix.
(1.28)
eine beliebige verallgemeinerte
In-
Beweis: Hat x die Gestalt x = (I — A ~ A ) h , so folgt: A x = A ( I - A " A ) h = (A - A A T A ) h = ( A - A) h = 0. A Umgekehrt läßt sich jede Lösung Xo in der Form (1.28) darstellen. Denn gilt Axo = 0, so ist Xo = (I — A ~ A ) x ° . Daher kann Xo selbst als h verwendet werden. •
ein A - und A A berechnet. Dann ist.
I - A A
1 0 0
0 1 0
0 > 0 1 )
( l 0 ^ 1
also
x = (I-A"A)h=i|
hi 0 h3 - hx
0 2 0
1 0 1
1 0 -1
0 0 0
-
1
\
1
)
1.2. MATRIZENRECHNUNG
UND LINEARE
GLEICHUNGSSYSTEME
69
Inhomogene Gleichungssysteme Wir fügen unserem Beispiel eines homogenen Gleichungssystems A x = 0 noch eine "rechte Seite" — eine Inhomogenität — hinzu und erhalten: X]_ + X2 + X3 = bi Xi - 2x2 + £3 = h xi - 2x2+ x3 = hDas obige System ist unlösbar, falls ¿>2 ist! Das allgemeine inhomogene Gleichungssystem hat in Vektor- oder Matrizenschreibweise die Gestalt: m ^^ajXj = A x = b. j=1 A x = b ist genau dann lösbar, falls b € £ { A } ist. Dies ist genau dann der Fall, falls Rg(A; b) = Rg(A) ist. In vielen Fällen ist aber die folgende Charakterisierung der Lösbarkeit nützlicher: Satz 62 Das System A x = b ist genau dann lösbar, falls x := A ~ b eine spezielle Lösung ist, das heißt, wenn A A ~ b = b ist. Ist das System lösbar, so ist ein Vektor x genau dann Lösung, wenn x die Gestalt hat: x = x , + ( I - A"A)h.
(1.29)
Dabei ist x , eine beliebige Lösung des inhomogenen Systems A x = b. Beweis: Es existiere eine Lösung b = A x , . Multiplikation mit AA~ liefert A A ~ b = AA~ Ax» = A x , = b. Also ist A ~ b eine Lösung. Ist x , Lösung des inhomogenen Systems, so ist x —x, Lösung des homogenen Systems. Dann folgt (1.29) aus (1.28).
•
1.2.4
Normalgleichungen
Die wichtigsten Gleichungssysteme, mit denen wir es zu tun haben, sind die Normalgleichungen zur expliziten Bestimmung von Projektionen in endlichdimensionale, normierte Vektorräume. Diese Vektorräume sind nicht notwendig Teilräume des R™. Damit wir eine möglichst allgemeingültige Formulierung erhalten, nützt es, wenn wir Linearkombinationen von Vektoren symbolisch als Matrizenprodukte schreiben können. Damit stoßen wir auf folgende Schwierigkeit, wenn wir uns noch nicht festlegen wollen, ob wir mit zufällige Variablen Xj oder deren Realisationen Xij arbeiten, für beide Fälle aber möglichst analoge, im Idealfall identische Formeln verwenden wollen. Fassen wir nämlich alle Xj zu einem m-dimensionalen Vektor X
70
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
und die Realisationen Xy von Xj zu einem n-dimensionalen Vektor Xj und die Xj wiederum zu einer n x m Matrix X zusammen, so erhalten wir:
\
/ Xij \ X=
XT,
\
x
nj
(xi;x2;---xm).
)
Einer Linearkombination der Variablen Xj • i'ß = Y J x ] ß J 3 =
entspricht die Linearkombination ihrer Realisationen Xj :
Im Vergleich der beiden Formeln stört, daß einmal das Symbol X' transponiert erscheint, das Symbol X dagegen nicht. Die Verwirrung wird noch größer, wenn wir später auch für X nur noch X schreiben werden und dann zwischen X'ß und Xß unterscheiden müßten. Zur Bestimmung des Vektors ß erhielten wir verschiedene Formeln, je nachdem, ob wir es mit zufälligen Variablen oder deren Realisationen zu t u n haben, obwohl beiden Fällen dieselbe Struktur besitzen. Erschwerend ist zusätzlich, daß auch die Skalarprodukte in beiden Fällen verschieden sind. Um diese rein formalen Unbequemlichkeiten zu vermeiden, wollen wir hier eine Schreibweise für Linearkombinationen einführen, bei der es keine Rolle spielt, ob die Vektoren als Zeilen- oder Spaltenvektor geschrieben sind. Verallgemeinerte Vektoren Werden die Vektoren X i , . . . , xn in einer festen Reihenfolge aufgeführt, dann bezeichnen wir die geordnete Menge dieser Vektoren als verallgemeinerten Vektor: X := { x j ; . . . ; x n } . Dabei signalisieren die geschweiften Klammern, daß es sich nicht notwendig um eine Matrix handelt, die trennenden Semikolons, daß die Reihenfolge nicht beliebig ist: {xi,... ,xn}
Reihenfolge beliebig, Menge,
(xi; . . . ; x n )
Reihenfolge fest, z. B. Matrix,
{ x j ; . . . ; xTl}
Reihenfolge fest, verallgemeinerter Vektor.
Ist X := { x j ; . . , ; x „ } ein verallgemeinerter Vektor, P m eine Projektion, a ( o i ; . . . ; an)' S R n ein Spaltenvektor sowie A : = (ai; • • • ; a™) eine n x m
1.2. MATRIZENRECHNUNG
UND LINEARE
GLEICHUNGSSYSTEME
71
Matrix, dann definieren wir: PMX
:=
{PMXI; ...; Pmx t o }
X *a
:=
y^x^Qj
n
i= 1
X*A
:=
{Xai;...;Xam}.
Sind die Xj £ R p , so ist X * A = X A ein gewöhnliches Matrizenprodukt. Für zwei verallgemeinerte Vektoren X : = { x i ; . . . ; x n } und Y : = { y i ; . . . ; y m } definieren wir die n x m Matrix (X; Y ) der Skalarprodukte durch:
Ist m = 1, so ist ( X ; y ) 6 K71 ein Spaltenvektor. Ist n = 1, so ist ( x ; Y ) ein m-dimensionaler Zeilenvektor. Sind weiter b := (bi\...; bm)' £ R m ein Spaltenvektor und B eine m x q Matrix, dann gilt: Satz 63 Die Matrix (X; Y ) der Skalarprodukte besitzt folgende Eigenschaften: ( X * a, Y * b)
=
a'(X;Y)b,
(1.30)
( X * A; Y * B )
=
A'(X;Y)B,
(1.31)
||X*a||2
=
a'(X;X)a,
(1.32)
(PmX; Y )
=
(X;PMY).
(1.33)
Beweis: (1.30) folgt wegen
(
n
n
^Xiai,yj ¿=1 j=1
\
b
n
n
aibj j) = / 1=1 i— 1
=
a
' 0 und genau dann Null, wenn X * a = Y ^ - i x t aj = 0 ist. Daher ist die Matrix (X; X ) genau dann positiv-definit, wenn die Xj linear unabhängig sind. Diese Aussage läßt sich noch verschärfen. Aus dem Isomorphiesatz 120 im Anhang folgt: Satz 64 Die Matrix (X; X ) ist positiv-semidefinit. Dabei ist Rg(X;X) = dim£{x1,...,xm}. Damit können wir nun den zentralen Satz aufstellen:
(1.34)
72
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Satz 6 5 (Normalgleichungssatz) Ist X = { x i ; . . . ; x m } und £ { X } = £ { x ! , . . . , x m } ein m-dimensionaler Unterraum eines linearen normierten Vektorraums V und y beliebig aus V , so ist die ProjektionP^y eindeutig bestimmt durch: P x y = X*/3 = X * ( X ; X M X ; y ) .
(1.35)
ß = (X; X)~ (X; y) + (I - (X; X ) " (X; X ) ) h.
(1.36)
Dabei ist
I ist die m x m Einheitsmatrix und h € Rm beliebig. X * ß ist stets eindeutig, ß ist genau dann eindeutig, wenn die Xj linear unabhängig sind, also wenn Rg(X; X ) = m. Dabei ergibt sich ß als Lösung des Systems der Normalgleichungen: (X;X)/3=(X;y).
(1.37)
||X * ß f = (y; X ) ( X ; X ) " (X; y).
(1.38)
Weiter ist:
Beweis: P x y hat die Gestalt X * ß mit geeignetem ß. Dann ist: y = P x y + y.x = x * ß + y.xDabei ist y . x -L £ { x i , • • •, x m } . Daraus folgt durch Bildung der Skalarprodukte mit X wegen (X; y . x ) = 0 : (X; y) = (X; X * ß) + (X; y . x ) = (X; X)ß. Dies ist aber bereits das System (1.37) der Normalgleichungen. Ihre Lösung ergibt (1.36). X * ß ist eindeutig, wenn wir gezeigt haben, daß X * [ I - ( X ; X ) " ( X ; X ) ] =: X * A = 0
(1.39)
ist. Zum Beweis (1.39) betrachten wir das Skalarprodukt: ( X * A; X * A) = A ' ( X ; X ) A = A ' ( X ; X ) [i - (X; X ) " (X; X ) ] = 0. Daher ist X * A = 0. Also ist X * ß = X * ( X ; X ) - (X; y) + X * Ah = X * ( X ; X ) " (X; y) eindeutig. Ist umgekehrt /3° eine beliebige Lösung der Normalgleichung, so folgt: (X; P x y — X * ß°)
= =
- y A
vary
) '
Dabei ist 1 n cov(x, y) := - ^ ( x , - - x)(Vj - y) j=i die empirische Kovarianz der n Wertpaare (Xf,yi) bzw. der beiden Vektoren x und y. Sind die Xi und yt beobachteten Ausprägungen zweier Merkmale X und Y, spricht man auch von der empirischen Kovarianz der Merkmale X und Y.
80
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Beispiel 74 Gegeben seien zwei Merkmale X und Y. Dabei ist X eine Länge (in cm) und Y ein Gewicht (in kg), n = 10 Meßwerte liegen vor (Tabelle 1.6, Abbildung 1.28). X
1,0 2,0 2,0 4,0 5,0 6,0 9,0 9,0 9,0 13,0 60,0
y 6,2 2,6 7,6 9,5 2,5 4,7 8,9 9,7 11,4 6,9 70,0
xy 6,2 5,2 15,2 38,0 12,5 28,2 80,1 87,3 102,6 89,7 465,0
X — X
-5,0 -4,0 -4,0 -2,0 -1,0 0,0 3,0 3,0 3,0 7,0 0
y-y -0,80 -4,40 0,60 2,50 -4,50 -2,30 1,90 2,70 4,40 -0,10 0
(x — x)2 25,0 16,0 16,0 4,0 1,0 0,0 9,0 9,0 9,0 49,0 138,0
(•y-yf 0,640 19,360 0,360 6,250 20,250 5,290 3,610 7,290 19,360 0,010 82,420
(x -x)(y4,00 17,60 -2,40 -5,00 4,50 0,00 5,70 8,10 13,20 -0,70 45,00
y)
Tabelle 1.6: Daten und Rechentabelle
n = 10 x —Q y = 7
cov(x,y) varx vary
= = =
4,50 13,80 8,242
v
-^/varx = 3,71 / v£ry = 2, 87
Zeichnen wir in dem Plot der Punktwolke ein Achsenkreuz durch diesen Schwerpunkt (6;7), so zerlegen wir die Punktwolke in vier Quadranten (vgl. Abb. 1.28).
Abbildung 1.28: Plot von Y gegen X mit einer Konzentrationsellipse In den diagonal aneinanderstoßenden Quadranten stimmt das Vorzeichen der gemischten zentrierten Produkte (Xi —x)(yi — y) überein.
1.3. BESCHREIBUNG VON PUNKTWOLKEN
81
Das Vorzeichen von n
]>~2(xi - x ) ( i j i - y ) = n- cov(x, y) t=i sagt aus, in welchen beiden Quadranten sich die Punktwolke hauptsächlich befindet, und damit, ob die Konzentrationsellipse steigt oder fällt. Ist cov(x,y) = 0, so heißen die Vektoren x und y unkorreliert. Anschaulich bedeutet dies, daß die Punktwolke keinen nach oben oder unten gerichteten Trend hat. Berechnung der Kovarianz: Die folgenden Umformungen können mitunter sehr nützlich sein. Sie ergeben sich, wenn man die Klammern ausmultipliziert und beim Aufsummieren J2(xi ~ x) = ~ V) = 0 beachtet: ncov ( x , y )
=
¿=1
- x) (yi - y)
n
=
»= 1
x)
yi
n
= 5~Zxdvi-v) i=l n
=
^Xiyi-nxy. »= i In unserem Beispiel ist n • cov(x,y) = 45 und Xiyi = 465, nxy Tabelle 1.6). Also ist n • cov(x,y) = J2xiVi ~ nxy — 45.
1.3.3
= 420 (vgl.
Straffheit einer Punktwolke im R2
Angenommen, in Beispiel 74 wäre das Merkmal X in Millimeter und Y in Gramm gemessen worden. Damit wäre jeder x-Wert 10 mal und jeder y-Wert 1000 mal größer als zuvor. Die Kovarianz der neuen Werte wäre nun 45 000 statt 4,5. Die Kovarianz cov(x,y) ist abhängig von den Maßeinheiten, in denen die Merkmale gemessen werden. Daher ist der numerische Wert der Kovarianz für sich allein schwer interpretierbar. Um zu dimensionslosen, skalen-invarianten Parametern zu kommen, standardisiert man die Merkmale: Xi x X* •^/varx =
Vi-V
Vvary"
82
KAPITEL
1. DAS MATHEMATISCHE
Definition 7 5 Der empirische Korrelationskoeffizient varianz cov (x *, y *) der standardisierten Vektoren:
HANDWERKSZEUG r(x, y) ist die Ko-
r ( x , y ) = cov(x*,y*) Rechenformeln: r(x,y)
=
cov(x, y)
(1.43)
Vvarx^/vary Y™=i(xi-x)(yi-y) ELi{xi-x)
B e i s p i e l 76 Die Korrelation Tabelle (1.6) :
-\2 YTi=i{vi-y)
(1.44)
r ( x , y ) in Beispiel H ist nach Formel (1.44) und
"(x,y) =
45 V138-82,42
= 0,42.
r ( x , y ) mißt die Straffheit der Konzentrationsellipse Er. Wir greifen eine Konzentrationsellipse heraus und schachteln diese durch horizontale und vertikale Tangenten durch ein Rechteck ein (Abbildung 1.29).
Abbildung 1.29: "Eingeschachtelte" Konzentrationsellipse Ist H die Höhe des Rechtecks und h der maximale vertikale Innendurchmesser
1.3. BESCHREIBUNG
VON
PUNKTWOLKEN
83
der Ellipse, so ist, wie im Abschnitt 1.4.4 bewiesen wird: (1.45) In Abbildung 1.29 sind h und H durch dicke schwarze Balken markiert, wir lesen das Verhältnis h : H ^ 0 , 9 ab. Damit ist r « y/l - 0 , 9 2 = 0,43. Der entsprechende Wert ist — selbst bei einer freihändig gezeichneten Konzentrationskartoffel — ein brauchbarer Schätzwert für r ( x , y ) . An der Formel (1.45) erkennen wir, daß 1 < r(x,y) < + 1
gelten muß und die Punktwolke im Fall | r ( x , y ) | = 1 auf einer Geraden liegen muß. Je straffer die Punktwolke, um so schlanker die Ellipse, desto kleiner wird das Verhältnis h : H und desto näher liegt r 2 an 1. Hat die Punktwolke keine "Richtung", so werden die Konzentrationsellipsen zu Kreisen. Das Verhältnis geht gegen 1 und die Korrelation gegen 0. Je schlechter sich die Punktwolken durch die Konzentrationsellipsen beschreiben lassen, um so ungeeigneter ist der Korrelationskoeffizient, um eine Aussage über die Gestalt der Punktwolke zu machen. Der Korrelationskoeffizient ist das wichtigste Maß zur Messung des linearen Zusammenhangs zwischen Vektoren bzw. zwischen Variablen. Wir werden Kovarianz und Korrelation im nächsten Abschnitt noch für zufällige Variable definieren und uns dann in Kapitel II ausführlich mit dem Korrelationskoeffizienten befassen.
1.3.4
Drei Ausgleichsgeraden
Wir versuchen nun, die Punktwolke durch eine Gerade zu beschreiben, die möglichst gut die Gestalt der Punktwolke wiedergibt. Diese Ausgleichsgerade kann man oft nach Gefühl und Augenmaß zeichnen. Doch Augenmaß allein reicht mitunter nicht aus. Man sucht eine besonders "gute" Ausgleichsgerade. J e nachdem, was "gut" bedeuten soll, lassen sich mindestens drei verschiedene Lösungen anbieten. Dazu stellen wir uns vor, daß jeder Punkt zl auf einen P u n k t Zj auf der Ausgleichsgerade abgebildet wird. ||z{ — z t j| ist dann der individuelle Fehler bei der Abbildung von z E i n Maß für die globale Güte der Abbildung ist n
i=l Gesucht wird dann diejenige Gerade als optimale Ausgleichsgerade, die dieses Kriterium minimiert. Nun stellen sich zwei Aufgaben: 1. Wie soll die Abbildung z 1 —>• z t definiert werden? 2. Wie soll dann die optimale Gerade explizit berechnet werden?
KAPITEL
84
1. DAS MATHEMATISCHE
HANDWERKSZEUG
j/-Achse
0
a;-Achse
Abbildung 1.30: Unterschiedliche minimale Abstände eines Punktes zur Ausgleichsgeraden
In Abbildung 1.30 ist eine — wie auch immer gefundene — Ausgleichsgerade eingezeichnet. Dann könnte Zj der vertikal über z t auf der Ausgleichsgeraden gelegene Punkt z\ sein, es könnte der horizontal nächste z \ n oder gar der schlechthin nächste z f 1 sein. Für jede der drei Optionen ergibt sich eine andere Ausgleichsgerade.
Die Hauptachse der Punktwolke Zeichnen wir durch die Punktwolke eine Konzentrationsellipse, so bietet sich die Verlängerung der Hauptachse als Ausgleichsgerade an. (Die Achsen-Richtungen aller Konzentrationsellipsen Er stimmen überein. Nur die Länge hängt von r ab.) Wir bezeichnen sie als Hauptachse a/- Speziell gilt für eine Matrix A = (a; • • • ; a) = ail'k mit k identischen Spalten A+ — jpjljfea'. Für k = 1 folgt: Ist A = (a) eine Spaltenmatrix, so ist A+ = ]jf|pBeispiel 104 Ein Beipiel für (AB) + ^ B + A + . Dazu sei A=(äi)
und B = ( i ) ,
dann ist A + = A - 1 = ( i - 1 ) ; B+ = I(1;1) A B = (?)
1.4.2
B+A+ (AB)+
=I(1;0) = | ( 2 ; 1)
Spektralzerlegung von Matrizen
Eigenwerte und Eigenvektoren quadratischer Matrizen Definition 105 Sei A eine nicht notwendig symmetrische nxn-Matrix. Vektor x / 0 heißt Eigenvektor von A zum Eigenwert \, falls gilt:
Ein
Ax = Ax. Damit x Eigenvektor zum Eigenwert A sein kann, muß das Gleichungssystem A x = Ax oder ( A — AI)x = 0 eine nicht triviale Lösung haben. Dazu muß aber die Determinante | A — AI| Null sein. Als Funktion von A ist | A — AI| =: $A(A) ein Polynom rz-ten Grades. Dieses heißt das c h a r a k t e r i s t i s c h e P o l y n o m von A . Die Eigenwerte sind die Nullstellen des charakteristischen Polynoms. Ai ist &-facher Eigenwert, falls Ai eine fc-fache Nullstelle von A(A) ist. k heißt die V i e l f a c h h e i t des Eigenwertes. Sind alle Eigenwerte voneinander verschieden,
spricht man von einfachen Eigenwerten. Weiter ist n
| A.| =
n
und t=l
SpurA = ^^A;. i=l
A und A ' haben dieselben Eigenwerte. Existieren A B und B A , so haben sie ebenfalls dieselben Eigenwerte. Ist B eine reguläre Matrix, so haben A und B A B - 1 dieselben Eigenwerte. Speziell haben A und U A U ' dieselben Eigenwerte, falls U orthogonale Matrix ist.
1.4. ANHANG: ERGÄNZUNGEN
UND AUFGABEN
97
Eigenwerte und Eigenvektoren symmetrischer Matrizen Definition 106 Sei A ein symmetrische nxn-Matrix. Alle Eigenvektoren zum gleichem Eigenwert X spannen den Eigenraum. E^ auf. Die Dimension des Eigenraums E>, ist die Vielfachheit des Eigenwerts X. Eigenräume zu verschiedenen Eigenwerten sind orthogonal. Eigenvektoren zu verschiedenen Eigenwerten orthogonal.
Speziell sind die
Die Eigenvektoren zu einfachen Eigenwerten sind bis auf einen skalaren Faktor eindeutig.
Beispiel 107 Ist die nxn-Matrix P a die Projektionsmatrix in einen k-dimensionalen Unterraum A, so hat P a den k-fachen Eigenwert 1 zum Eigenraum A und den (n — k)-fachen Eigenwert 0 zum Eigenraum A-1-. Eigenwertzerlegung symmetrischer Matrizen E s lassen sich stets n orthonormale Eigenvektoren U[ bis u„ von A finden. Diese seien so durchnumeriert, daß die entsprechenden Eigenwerte der Größe nach geordnet sind: Xi > A2 > • • • > A n . 1 7 Für jeden Eigenvektor u; gilt A u t = A t u;. Faßt man diese n Vektorgleichungen in einer Matrix zusammen, erhält man A U = U A . Dabei ist A := Diag(Ai; A 2 ; . . . ; A n ) und U : = ( u i ; U 2 ; . . . ; u n ) . U ist eine Orthogonalmatrix: U U ' = U ' U = I . Daher liefert Multiplikation mit U ' die Zerlegung: n
A = U A U ' = ^ AjUjU-. ¿=1
(1.61)
Diese Darstellung heißt auch E i g e n w e r t - oder S p e k t r a l z e r l e g u n g von A .
Aufgabe 108 Zeige: Ist A eine symmetrische
Matrix, so hat A die Gestalt:
r
j=1 Dabei sind Ai,A2,--- ,Xr die r voneinander die dazugehörigen Eigenräume.
verschiedenen
Eigenwerte und Aj
Aufgabe 109 (Inverse einer Matrix in Spektralzerlegung) Zeige: Es seien Vi,- • • ,Vk orthogonale Unterräume, die den R™ aufspannen: K
Kn =
0 V
i
.
i=1 17Ein
k-facher
Eigenwert t r i t t in dieser Anordnung fc-fach auf.
98
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Weiter seien I = I „ die Einheitsmatrix, Pv¿ die Projektionsmatrizen a¿ beliebige reelle Zahlen und A die Matrix:
nach V¿,
K
A = ^a¿PVi. i=i Dann ist die Determinante von A gegeben durch: iAi=n>f i=1
m V i
.
Die Inverse A~1 existiert genau dann, wenn alle a¿
0 sind. Dann ist:
A - ^ E ^ P v , t=i Lösungshinweis: Betrachte die Eigenwertzerlegung von A . Singulärwertzerlegung einer Matrix A Die Spektralzerlegung symmetrischer Matrizen läßt sich folgendermaßen auf alle Matrizen verallgemeinern: Sei A = (ai;a2;.. .'ja^) eine nxm-Matrix vom Rang r. Dann existieren Matrizen U , 0 und V mit r
A = U 9 V ' = E 0*u*v¿. k=1
(1.62)
Dabei ist 0 = Diag($i; $2", • • •; Sr). Die 6k sind der Größe nach geordnet: 61 > Q2 > . . . > Qk > Qr > 0. Sie heißen die Singulärwerte von A . Weiter ist U V
eine eine
n x r m x r
-Matrix mit orthonormalen Spalten -Matrix mit orthonormalen Spalten
: :
U ' U = I, V ' V = I.
Ist A symmetrisch, so stimmen Eigenwertzerlegung und Singulärwertzerlegung überein. Weiter ist AA' = U02U' A'A = V02V'. Die Ufc sind Eigenvektoren von A A ' zu den Eigenwerten Ak = 6\. Die Eigenvektoren von A ' A ebenfalls zu den Eigenwerten Ak = 6\. Die Moore-Penrose-Inverse A + ist dann gegeben durch
sind
r
A+ = V9-1U' = J29klvkKk=1
(1.63a)
1,4.
ANHANG:
1.4.3
ERGÄNZUNGEN
UND
99
AUFGABEN
Symmetrische Matrizen
Funktionen symmetrischer Matrizen Die symmetrische Matrix A sei in ihrer Eigenwertzerlegung (1.61) gegeben. Sei r eine natürliche Zahl. Dann gilt: A
A
A
A
=: Ar = UArU' = ^
A>X-
(1.64)
r mal
Ar
Dabei ist = Diag(A^; A £ ; . . . ; A^). Die Darstellung (1.64) läßt sich leicht auf rationale Exponenten und dann auf beliebige reelle Funktionen /(•) verallgemeinern. Wir definieren /(A) : = £ / ( A O u i u i . Daraus folgt: A und / ( A ) haben dieselben Eigen Vektoren, aber unterschiedliche Eigenwerte, nämlich A; und f(Xi). Speziell gilt: A " 1 = ^ ^ A^UjU-, falls alle A; ^ 0 sind, A^ = ^ ^ A? uiu>, falls alle Aj > 0 sind. A s ist eine symmetrische Wurzel von A = A 2 A 2 . Setzen wir B : = A * U ' , so ist B eine unsymmetrische Wurzel von A. F ü r B gilt B ' B = A . Quadratische Formen Definition 1 1 0 Bei einer symmetrischen n
Matrix A ist n
X A x — ^ ^ ^ ^ X ^ X j (Ijj .
¿=1 j=1 x ' A x ist ein Polynom zweiten nom heißt auch quadratische
Grades in den Variablen x\ bis xn. Form.
Dieses
Poly-
Ersetzen wir A durch ihre Eigenwertzerlegung U A U ' und setzen U ' x = y , so folgt n
x ' A x = x ' U A U ' x = y ' A y = ^ AiVf. ¿=i
(1.65)
Daraus folgt: A ist genau dann positiv definit,
falls alle Eigenwerte positiv sind,
positiv semidefinit,
falls alle Eigenwerte nicht negativ sind,
negativ definit,
falls alle Eigenwerte negativ sind, und
indefinit,
falls einige Eigenwerte positiv und andere negativ sind.
100
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Maximierung quadratischer Formen Satz 111 Es sei A eine positiv semidefinite Ai >
x'Ax x'x
Matrix. Dann ist:
> A„.
Dabei sind Aj die der Größe nach geordneten Eigenwerte der Matrix A. Maximum wird genau dann angenommen, wenn x Eigenvektor zu Ai ist.
Das
Beweis: Setze x : = U'y. Dann ist: x'Ax x'x
=
y'Ay
=
y'y
J2yf
• Satz 112 Es seien A > 0 und B = C ' C > 0 symmetrische gilt:
Matrizen.
Dann
¿1 > ^ > ¿2x'Bx Dabei sind die 0 und B > 0 invertierbar, so ist C > 0 und D (c) vereinfacht sich zu: D(c) = ( a - X b ) ' ( A - A X C _ 1 X ' A ) ( a - X b ) = (a-Xb)'(A"1 +XB-1X')"1(a-Xb). Beweis: 1. Lösbarkeit der Gleichung (1.68) : Für jede positiv semidefinite Matrix A folgt aus der Eigenwertzerlegung die Aussage y'Ay = 0 y'A = 0. Wenden wir dies auf die Matrix C := X'AX + Z'BZ an, erhalten wir: Cy = 0
o y'Cy = 0 y'X'AXy = 0 O y'X'A = 0
und und
y'X'AXy + y'Z'BZy = 0 y'Z'BZy = 0 y'Z'B = 0.
Also ist £ ( C ) X = (£ (X'A) + £ ( Z ' B ) ) ± . Daher ist C (C) = £ (X'A) + C (Z'B) und die Gleichung (1.68) ist lösbar.
KAPITEL
102
1. DAS MATHEMATISCHE
HANDWERKSZEUG
2. Multiplizieren wir D (ß) aus, sortieren nach ß und berücksichtigen (1-67) und (1.68), so erhalten wir D (ß)
=
a ' A a — 2 a ' A X / 3 4- /3'X'AX/3 + /3'Z'BZ/3 — 2b'BZ/3 + b ' B b
=
a ' A a - 2 / 3 ' ( X ' A a + Z ' B b ) + /3'C/3 + b ' B b
=
a ' A a -2ß'Cc
=
a ' A a + (ß - c)' C (ß - c) - c ' C c + b'Bb.
+ ß'Cß + b ' B b (1.69)
Ersetzt man in (1.69) ß = c, erhält man: D (c) = a'Aa - c'Cc + b'Bb.
(1.70)
Im Fall Z = I und invertierbarem A und B ist C = X ' A X + B.
(1.71)
Damit ist C > 0 und invertier bar. Weiter setzen wir zur Abkürzung u := a — Xb
also
a := u + X b .
Dann ist Cc
=
X ' A a + B b = X ' A (u + X b ) + B b = X ' A u + Cb
a'Aa
=
(u + X b ) ' A ( u + X b )
=
u'Au + 2 u ' A X b + b ' x ' A X b .
(1.72) (1.73)
Damit erhalten wir wegen (1.72): c'Cc
=
c ' C C " 1 C c = ( X ' A u + Cb)' C " 1 ( X ' A u + Cb)
=
u ' A X C " 1 X ' A u + 2 u ' A X b 4- b'Cb.
(1.74)
Daraus folgt mit (1.70), (1.71), (1.73) und (1.74) : D(c)
= =
a ' A a + b ' B b - c'Cc u ' A u - u ' A X C _ 1 X ' A u = u' (A - A X C _ 1 X ' A ) U.
Aus Formel (1.58), Seite 94, folgt [ A - ( A X ) (CT x X ' A ) ] " 1 = A~:1 + X ( I - C~• 1 X'AX)" 1 CT x X ' = A^ 1 + X ( C — X ' A X ) _ 1 X ' = A^ 1 + X B _ 1 X ' .
• 1.4.4
Ellipsoide im IRn
Bei einer symmetrischen, positiv definiten n x n-Matrix A stellt die Menge der Punkte { z | z ' A _ 1 z < q2} ein n-dimensionales Ellipsoid dar. Dabei liegt
1.4. ANHANG: ERGÄNZUNGEN
UND AUFGABEN
103
der Mittelpunkt im Nullpunkt, die Hauptachsen liegen in der Richtung der Eigenvektoren Uj von A, die Länge der i-ten Halbachse ist q^/Xi- Dabei ist Xi der zu U t gehörende Eigenwert von A. Läßt man q variieren, entsteht eine Schar von Ellipsoiden mit gleicher Richtung der Hauptachsen und konstantem Verhältnis der Achsenlängen. X 71 ~ Das Volumen dieser Ellipsoide ist knqn\A\ 2 = knqn A?. Dabei ist kn die nur von n abhängende Konstante: U
—
7r$ T (1 + f )
[ ^m\
falls n = 2m falls n = 2 m + l .
)
—
Ellipsen im R 2 : Ist A = (lc) e ^ ne symmetrische 2 X 2-Matrix, so ist A positiv definit, falls a > 0 und ac — b2 > 0 ist. (Daher muß auch c > 0 sein.) In diesem Fall ist a-1 -
—
(
0
~b)
Die der Größe nach geordneten Eigenwerte von A sind Ai = i (a + c + y/(a - c) 2 + 4ö 2 ) A2 = ^ ( a + c - ^ / ( a - c ) 2 + 4 ö 2 ) . Man verifiziert leicht, daß Ax + A2 = Spur A = a + c
und
Ax • A2 = |A| = a • c — b2
ist. Die nicht normierten Eigenvektoren von A sind
ui
= U - « J
und
U 2 =
U - J -
(L75)
Der erste Eigenvektor liegt auf der Hauptachse, der zweite Eigenvektor auf der Nebenachse der Ellipse. Sind L und l die Längen der großen und der kleinen Halbachsen, so ist L = q\/\7 sowie l — q\f\2Der Anstieg der großen Halbachse ist dann wegen (1.75) : Ai - q _ c - a + y/(a-c)2 b ~ 2b
+ 4b2 _
V4r2 + A 2 - A 2r
Dabei haben wir in Anlehnung an die Statistik die folgenden Abkürzungen verwendet:
104
KAPITEL
1. DAS MATHEMATISCHE x
Schreiben wir in der Ellipsengleichung z'A tes z als z = (x; y)', so erhalten wir:
HANDWERKSZEUG
z = q2 die Koordinaten des Punk-
x2c — 2xyb + y2a = (ac — b2)q2.
(1.76)
Die Koordinaten des höchsten Punktes Zi = (xi; yi) erhält man aus der Ellipsengleichung (1.76) durch implizite Ableitung von y nach x und Nullsetzen der Ableitung. Dies liefert: xxc — yib = 0. Die Gerade durch Zj hat also den Anstieg: EL ~ £ Xy b' Die Ellipsengleichung (1-76) liefert dann die absolute Größe der Koordinaten. Es ist V\ = cq2. Analog erhält man aus der Ellipsengleichung (1-76) durch implizite Ableitung von x nach y den Anstieg der Geraden durch den am weitesten rechts gelegenen Punkt Z2 der Ellipse. Für Z2 gilt: -x2b + y2a yi x2
=
0
=
a
Die y-Koordinate des Schnittpunktes Zo der Ellipse mit der y-Achse ist JJQ. Aus der Ellipsengleichung (1.76) folgt 2 _ Vo —
(ac-b2)q2 a
Daher ist: (yo\
2
\Ui)
=
ac-b
2
= i
ac
Damit ist auch die Formel (1.45) von Seite 83 bewiesen.
1.4.5
N o r m i e r t e lineare V e k t o r r ä u m e
Skalarprodukte und Metriken Ein Skalarprodukt (a, b) auf einem Vektorraum ist eine Abbildung, die je zwei Vektoren a und b eine reelle Zahl (a, b) zuordnet. Für diese Abbildung muß gelten: Symmetrie: Linearität: Positivität:
(a, b) (aa+/3b,c) (a, a)
= = >
(b, a) a (a, c) + ß (b, c) 0
1.4. ANHANG:
ERGÄNZUNGEN
UND
AUFGABEN
105
Mit dem Skalarprodukt (a, b) wird eine Norm ||a|| definiert durch:
INI 2 : = ( a > a ) • Lineare Vektorräume mit einer Norm heißen n o r m i e r t e lineare Vektorräume. Bei jeder Norm ist durch d (a, b) := ||a — b||
(1.77)
eine Distanz d (a, b) zwischen den Vektoren a und b definiert. Wir nennen eine Distanz d{a,b) eine M e t r i k auf dem R a u m V , wenn für alle a , b und c aus V gilt: d (a, b)
=
d(b,a)
(1.78)
d (a, a)
=
0
(1.79)
d (a, b)
>
Ofüra^b
(1.80)
d(a,b) + d ( b , c )
>
d( a,c)
(1.81)
Die letzte Ungleichung heißt die Dreiecksungleichung. Jede Norm erfüllt trivialerweise die ersten drei Eigenschaften (1.78) bis (1.80). Wir zeigen im folgenden Satz, daß auch die Dreiecksungleichung erfüllt ist. Damit gilt: Durch die Wahl eines Skalarproduktes auf einem linearen Raum V wird dort eine Norm und mit dieser Norm eine Metrik definiert. S a t z 115 Die durch (1.77) definierte Beweis: Aus - 1
|| x || 2 + ||y|| 2 + 2 ( x , y )
=
l|x + y|| 2 .
Setzen wir x = b — a; y = c — b, so erhalten wir (1.81). • D e f i n i t i o n 116 Ist G eine feste, positiv definite symmetrische so wird durch n
n x
n-Matrix,
n
( a , b ) G := a ' G b = ^ Y ^ a i g i j b j . ¿=1j=I ein Skalarprodukt definiert. Die durch dieses Skalarprodukt definierte Metrik heißt die verallgemeinerte euklidisches Metrik. Unter Bezug auf die erzeugende Matrix G sprechen wir auch kurz von der G-Metrik. Im Spezialfall ist G die Einheitsmatrix, dann erhalten wir die gewöhnliche euklidische Metrik im Rn.
106
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Beispiel 117 (Skalarprodukte für Matrizen) Sind A und B zwei symmetrische Matrizen, so wird ein Skalarprodukt definiert durch (a, b) := Spur AB. Beispiel 118 (Skalarprodukte für zufällige Variablen) Der Raum der zufälligen Variablen mit existierender Varianz ist ein unendlich dimensionaler Vektorraum. Identifizieren wir zwei zufällige Variable X und X*, die mit Wahrscheinlichkeit Eins übereinstimmen, so können wir das folgende Skalarprodukt erklären: (X,Y)
:=
E(Xy).
Für zentrierte Variable mit dem Erwartungswert Null gilt dann: (X,Y) = C o v ( X , Y ) und ||X|| 2 = VarX. Beispiel 119 (Skalarprodukte für stetige Funktionen) Die Menge C° := C°[a,/3] der über dem Intervall [a,ß] stetigen Funktionen bildet mit der Addition (f + g) (x) := / (x) + g (x) und der skalaren Multiplikation ( A / ) (x) := Xf (x) einen unendlichdimensionalen Vektorraum. Auf C° läßt sich durch fß (a,b) = / Ja
a(x)b(x)dx
ein Skalarprodukt definieren. Die Menge C 1 := C 1 [or, /?], der über [a,ß] differenzierbaren Funktionen bildet einen Unterraum von C°. Nun sei f € C° eine stetige, aber nicht differenzierbare Funktion, z. B. die in Abbildung 1.34 gezeichnete Funktion. Zu f gibt es keine differenzierbare
Abbildung 1.34: Stetige, aber nicht differenzierbare Funktion /
Funktion g £ C 1mit minimalem Abstand von f . Zu jeder differenzierbaren Funktion g £ C 1 gibt es nämlich eine andere Funktion h G C 1 , die noch näher an f liegt, f liegt auf dem Rand von C 1 : inf {||/ — |g € C 1 } = 0. Die Projektion von f auf C 1 existiert nicht!
1.4. ANHANG:
ERGÄNZUNGEN
UND
AUFGABEN
107
D e r Isomorphiesatz Wir haben die räumliche Vorstellung von Vektoren, von Winkeln und Abständen, von euklidischen zwei- und dreidimensionalen Räumen zuerst auf den euklidischen n-dimensionalen Raum und dann auf beliebige endlich dimensionale lineare Vektorräume mit einem Skalarprodukt übertragen. Wir rechtfertigten dies, da der Ausdruck ||a|| = ^ / M
(1.82)
alle Eigenschaften eines Abstandes und
RH
(L83)
alle Eigenschaften eines Winkels besitzt. Wir können nun eine zweite — vielleicht noch überzeugendere — Begründung geben, wobei wir auf die Bezeichnungen des Abschnittes 1.2.4 zurückgreifen: Satz 120 (Isomorphiesatz) Es seien X i , . . . , x n Vektoren eines linearen Vektorraumes V mit einem Skalarprodukt; dabei braucht V nicht endlich dimensional zu sein. Sei X := { x i ; . . . ; x„} und C {X} der von ihnen erzeugte endlichdimensionale Unteraum. Die Eigenwertzerlegung der Matrix (X; X) sei: (X; X) = V Ö 2 V ' =: Z'Z. Dann ist die Abbildung X *q
G
L {X} Ella. - P H a . H ^ E l l ^ - P u a . l l ^ E j= 1 j= 1 k=q+1 m m p
Eimi j=i Das Abbildungsverhältnis
2
Pua
2
= Ea**;=i
2
(L86) (L87)
(L88)
r zsi . _ E L i Afc EfcLl
(1.89)
Beweis: 1. Schritt: E HpHa;l|2 = E a i j=i j=i
i = SPurEa-PHaj j=i m = Spur P h E a i a j = ^pur P h A A ' P H a
3= 1
= SpurPnUAU' = Spur q = SpurE^P k=1
H
u
f c
Rg A = R g A ( B B ' ) ( B B ' ) " 1 < Rg A B < Rg A . Rg A B = Rg A. => d i m £ { A B } = £ { A } . Da £ { A B } C £ { A } folgt £ { A B } = d i m £ { A } . Lösung von Aufgabe 84 Da A und B Projektionsmatrizen sind, ist A = P a und B = Pb- Wegen £ { A } C £ { B } ist B - A = P B - P a = P b g a und Rg (B - A ) = Rg P b g a = = d i m ( £ { B } e £ { A } ) = d i m £ { B } - d i m £ { A } =RgB—RgA. Lösung von Aufgabe 85 Nach Satz 45 gilt:RgA = Rg A A + = R g P A = SpurP A = Spur A A + . Lösung von Aufgabe 86 (1.50) ist der Dimensionssatz für Vektorräume und (1.51) folgt aus: £{E; F}
=
£{E;F-PeF} = £{E}©£{F-PeF}
Rg(E; F)
=
dim£{E} + d i m £ { F - P E F } = RgE + R g ( ( I - E E + ) F ) .
Lösung von Aufgabe 87 z { ( X ' X ) - z i = ( X ( X ' X ) " X ' ) M • Also ist Y? i = l z i ( X ' X ) - Z i = Spur X ( X ' X ) - X ' = S P u r P x = R g X . Analog ist Y^Jj=i x j ( X ' X ) — SpurPx'-
=»
KAPITEL 1. DAS MATHEMATISCHE
120
HANDWERKSZEUG
Lösung von Aufgabe 89 Es sei A eine n x m Matrix. Definiere durch x € RTO —> A x £ R n eine lineare Abbildung A : M m K™ . Dann folgt aus (1.52) : m = d i m £ { A } + dim Af (A). Andererseits ist M (A) = {x mit A x = 0} = £ { A ' } J - => dimA/"(A) = d i m £ { A ' } x = m — d i m £ { A ' } => d i m £ { A } = d i m £ { A ' } R g A = Rg A ' . (1.17) folgt nun: £ { A B } C £ { A } => d i m £ { A B } < d i m £ { A } => Rg A B < Rg A . Durch Transponierung folgt Rg A B = Rg B ' A ' < R g B ' = R g B . (1.16) folgt aus: Rg A
=
Rg [ A A + A ] = Rg [ a ( A + A ) ' l = Rg [ A A ' A + ' j
U _ 1 existiert. => RgE = R g U E =RgV. Wäre nun — C A _ 1 B + D ^ 0, so wäre RgV >diml =RgA. Dies ist wegen Rg V = Rg E = R g A ausgeschlossen. Also ist - C A _ 1 B + D = 0 und D = C A _ 1 B . Lösung von Aufgabe 98 Ohne Beschränkung der Allgemeinheit können wir x := (y; 1)' mit einem (n—1)Vektor y wählen. °
=
S
c\ d ) I -y'
H
T
Wc'y+d S S
W
S
/ -By y'By
v
0\ (B 0) \0
0\ [I 0)
-y\ 0 )
=> n - l = RgA = R g ( ®
f
B y'B
-By\ y'ByJ o )
= R g B
/B ^
n
c d ~
= A.
L
=> n — 1 = Rg B => B " Existiert. Der Rest folgt aus Aufgabe 97. Lösung von Aufgabe 99 1. Invertierbarkeit von B : = A + y x . Wir zeigen, daß B maximalen Rang hat: Es sei B z = 0 => x ' B z = 0 => x' (A + z = ( x ' y )( y ' z ) = o =s> y'z = 0, \ y xy yx denn x'y ^ 0. Daraus und aus 0 = Bz = ^A + ^ ^ z folgt Az = 0. Also z e 7V( A ) . Wegen RgA = n - 1 ist dim./V(A) = 1 und TV (A) = £ (x). Also ist z = Ax => y'z = Ay'x = 0=>A = 0=>z = 0. =>B invertierbar. 2. B _ 1 ist eine verallgemeinerte Inverse: B x = ( a + ^ ^ x = Ax + y ^ s = y => x = B _ 1 y =>Ax = A B _ 1 y = 0. Es folgt: AB_1A
=
AB"1 [ A + — - — ] = AB"1 ( B y'x y'x J \
=
A - A B " 1 ^ - = A - ( vA B _ 1 y ) — = A. y'x y'x
yy
y'x
1.4. ANHANG:
ERGÄNZUNGEN
UND
123
AUFGABEN
Lösung von Aufgabe 100 Da R g E die Anzahl der Spalten von E und RgF die Anzahl der Zeilen von F i s t , existieren (E'E)" 1 sowie (FF')" 1 . Weiter ist: AA+
(EF)F'(FF')"1(E,E)-1E,= E(E'E)_1e'
=
A+A
1
=
+
(AA ) A +
(A A)A+
1
=>Symm.
1
F'(FF')~ (E'E)- E'(EF) = F'(FF')" F
=>Symm.
_1
=
E ( E ' E ) E ' E F = EF = A.
=
F'(FF')~ 1 FF / (FF / ) _ 1 (E'E)~ 1 E' = F ' ( F F ' ) _ 1 ( E ' E ) _ 1 E '
=
A+.
Lösung von Aufgabe 101 Sind die Zeilen von B linear unabhängig, so existiert (BB') RgA > R g A B > R g A B B ' ( B B ' )
_1
1
.
=>
=RgA.
Lösung v o n Aufgabe 102 1. Nachweis der vier Eigenschaften von (ABC) 4 " (ABC)(ABC)+ +
(ABC) (ABC) +
= =
A B C C B + A ' = A ( B B + ) A' +
C B + A A B C = C (B B) C +
=>Symm. =>Symm.
+
(ABC)(ABC) (ABC)
=
A B B A ' A B C = A ( B B B ) C = ABC.
(ABC)+(ABC)(ABC)+
=
C ' B + B C C ' B + A ' = C ( B + B B + ) A'
=
(ABC)+.
2. Ist Inhalt von Aufgabe 100. Lösung von Aufgabe 103 A ' A und AA' sind symmetrisch. Ist A eine n x m Matrix, so ist A ' A = I m . A A ' A = A I m = A sowie A ' A A ' = I m A ' = A'. Für A = ab' und B := ¡ÄF
g i l t ;
AB
=
BA
=
/ . ^n . AB A
=
' (b'b) / aa' = a ist symmetrisch. M9 J J a = •¿—r^ ||b||^||a|| ||b|p||a|| ||a|p ba' , bb' ——ab = ist symmetrisch.
, / ab
aa
ba
'
, / a(a'a)b' , , ab' = \ ' — ab = A. a a bb' ba' b (b'b) a'
ba'
124
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
Lösung von A u f g a b e 108 Der Eigenwert Aj trete Vj mal auf. Weiter seien Ujfc k = 1, • • • Vi zu Aj gehörende orthonormale Eigenvektoren, die den Eigenraum Aj := £ { u J t ; /c = 1, • • • } aufspannen. Dann ist: n A =
r = E j=1
i=l
vj Ai
r
E k=1
=
E j=l
•
Lösung von A u f g a b e 109 Die Aussagen folgen unmittelbar aus der Eigenwertzerlegung von A . Vergleiche Aufgabe 108. Dabei ist VJ der Eigenraum von A und d i m V i die Vielfachheit. uiju'ijSei Uj t , • • • ,Uj d i m V eine Basis von V^.Dann ist P v i = Dann liegt K
K dimVi
¿=1
1=1 j—1 Daher ist |A| =
bereits in der Eigenwertzerlegung vor.
|~[ o ^ l m V i . ¿=i
alle ai ^ 0, so ist K dimVi A
"
1 =
E E i= 1 j= 1
Sind
K a ^ u ^ E ^ P v , i= 1
Lösung von A u f g a b e 123 12:
A und B stehen i m L o t ö ( A 0 D ) L ( B E D ) «
(PA - PD) (PB - PD) = 0
PAGDPB©D
PAPB-PDPB-PAPD+PD
= PAP
B
= -PD
=
0. 2=>3: 3=>4:
3. ist Abschwächung von 2 Ist P A P B Projektion, so ist P A P B symmetrisch: P A P B
(PAPB)' =
=
(PB)'(PA)' = PBPA •
4=>2:
Wir zeigen Symmetrie und Idempotenz: PAPB (PAPB)
=
PA ( P B P A ) PB = PA (PAPB) PB =
(PAPB)'
=
(PB)' (PA)' = P
B
PA =
PAPB-
PAPB-
Also ist P A P B eine Projektion. Dabei bleibt D invariant: D C A und D C B => P
A
P
B
D = P
A
D = D . F ü r alle x gilt P
A
P
B
x G A und P
Also projiziert P A P B nach A f l B = D. 4 2: P A J. = I - P A . Daher ist P A I P B I = (I P B + P A P B - D a h e r ist P
A
IP
B
I
= P
B
I P
A
I
^
A
P ß X = P B P A X G B.
P A ) (I PAPB =
PB) = I - PA PBPA
-
1.4. ANHANG:
ERGÄNZUNGEN
UND
AUFGABEN
125
Lösung v o n Aufgabe 124 Sind A und B orthogonal, so sind sie erst recht im Lot. Daher sind nach Aufgabe 123 Teil 5, auch A1- und B x im Lot. Als Beispiel für die erste Aussage betrachten wir die Zerlegung des Oberraums in drei orthogonale Räume A © B © C. Dann ist A1- = B © C und B- 1 = A © C. Also sind A1- und B 1 nicht orthogonal, da sie beide die gemeinsame Komponente C besitzen. Lösung v o n Aufgabe 125 Vx; a;ß gilt: x € ¿{A.B}- 1 x' A A = 0 und x' B/3 = 0
x' ( A a + B / 3 ) = 0 O X ' A Q 1 und x £ ¿ { B } 1 .
+ X'B/3
= 0
O
x e ^ A }
Lösung v o n Aufgabe 126 X X + y = p x y wenn (1.84) gezeigt ist. Nun ist X X + y = X ( X + y ) S £ { X } und ür alle x = X/3 € £ { X } gilt [(I - X X + ) y ] ' x = y ' ( I - X X + ) x = y ' ( I X X + ) X / 3 = 0. Also (I - X X + ) y _L £{X}. Lösung von Aufgabe 127 Ea=i P* ist symmetrisch. Gilt P i P j = 0 Vi, j , so ist
P« auch idempotent:
(£?=i Pi) (E?=1 Pi) = EU EU = EU P t P t = ZU Pi- Daher ist E U Projektor. Der Bildraum ist dann M i © M 2 © • • • © M n . Sei nun P x Projektor, so ist für alle x und zwei beliebige aber fest gewählte k und l : ||x|| 2 > ||P T X|| 2 = | | P , x | | 2 + ||P,x|| 2 . i i Also ||x|| 2 > ||P fc x|| 2 + ||P/x|| 2 . Wählen wir nun x = P ^ y , so folgt: ||P fc y|| 2 > llPfcPfeyll2 + HPiP^yll 2 = l|P fc y|| 2 + l|P/P*y|l 2 =» P i P k y = o.
Lösung v o n Aufgabe 128 Sei A = C {ai, • • • ,afc} und {bi, • • • , b m } eine Orthonormalbasis für B. Dann ist P B a j = Ya=i ( b i . a j ) b< k
2
ll p Baj|| 2 = E i l i ( b t J a j ) 2 km
b a
m
2
k
b EP^-ii = EE( " ;> =EE< '.^ j=1 j = 1 ¿=1 i=l j = 1 m
m
i—1
¿=1
126
KAPITEL
1. DAS MATHEMATISCHE
HANDWERKSZEUG
L ö s u n g von A u f g a b e 131 P ist genau dann symmetrisch, falls Vx und y gilt: (x, P y ) = (Px, y) x'GPy = (Px)' G y = x ' P ' G y G P = P ' G . Die restlichen Aussagen sichern die Idempotenz von P und den Bildraum. L ö s u n g v o n A u f g a b e 132 1. Mit Aufgabe 131: Die Matrix P := A ( A ' G A ) - A ' G y e r f ü l l t gemäß alle Eigenschaften einer Projektion, wenn noch P y = y V y 6 £ { A } gezeigt wird. Dies gilt genau dann, wenn P A = A gezeigt wird. Dazu setzen wir C := A ' G A und B := P A — A = A ( A ' G A ) ~ A ' G A — A = A C ~ C — A = A ( C ~ C — I ) . Dann ist: b ' g b = ( c r c - i ) ' A ' G A ( c r c - i ) = ( c r c - i ) ' c ( c r c - i ) = o.
Aus B ' G B = 0 und G > 0 folgt B = 0 . => P A - A = 0 =>PA = A . 2. Mit den Normalgleichungen: Diese lauten: ( A ; y ) = ^ A ; A/3^ A ' G y = A ' G A ^ . Eine Lösung ist ß = ( A ' G A ) " A ' G y und damit P y = Aß = A ( A ' G A ) " A ' G y .
Kapitel 2
Das statistische Handwerkszeug 2.1
Zufallige Variable
2.1.1
D e r Wahrscheinlichkeitsbegriff
Der Begriff Wahrscheinlichkeit steht für ein Denkmodell, mit dem sich zufällige Ereignisse erfolgreich beschreiben lassen. Das Faszinierende an diesem Modell ist die offensichtliche Paradoxie, daß mathematische Gesetze für regellose Erscheinungen aufgestellt werden. Dabei schwelt seit langem unter Theoretikern und Praktikern ein Streit darüber, was Wahrscheinlichkeit eigentlich inhaltlich ist, und ob Wahrscheinlichkeit an sich überhaupt existiert. Die objektivistische Schule betrachtet Wahrscheinlichkeit als eine quasi-physikalische Größe, die unabhängig vom Betrachter existiert, und die sich bei wiederholbaren Experimenten durch die relative Häufigkeit beliebig genau approximieren läßt. Der subjektivistischen Schule erscheint diese Betrachtung suspekt, wenn sie nicht gar als Aberglaube verurteilt wird. Für die Subjektivisten oder Bayesianer, wie sie aus historischen Gründen auch heißen, ist Wahrscheinlichkeit nichts anderes als eine Gradzahl, die angibt, wie stark das jeweilige Individuum an das Eintreten eines bestimmten Ereignisses glaubt. Die Stärke dieses Dafürhaltens wird am Verhalten des Individuums gemessen. Damit wird die subjektive Wahrscheinlichkeitstheorie an eine Theorie des rationalen Verhaltens bei Unsicherheit geknüpft. Fassen wir einmal die uns umgebenden mehr oder weniger zufälligen Phänomene der Realität mit dem Begriff "die Welt" zusammen, so können wir überspitzt sagen: Der Objektivist modelliert die Welt, der Subjektivist modelliert sein Wissen über die Welt.
128
KAPITEL
2.
DAS
STATISTISCHE
HANDWERKSZEUG
Es ist nicht nötig, den Konflikt zwischen den Wahrscheinlichkeits-Schulen zu lösen. Was alle Schulen trennt, ist die Interpretation der Wahrscheinlichkeit und die Leitideen des statistischen Schließens; was alle Schulen verbindet, sind die für alle gültigen mathematischen Gesetze, nach denen mit Wahrscheinlichkeiten gerechnet wird. Dabei greifen alle auf den gleichen mathematischen Wahrscheinlichkeits-Begriff zurück, der aus den drei Kolmogorov-Axiomen entwickelt wird.
2.1.2
Wahrscheinlichkeitsverteilungen
In den folgenden Abschnitten werden nur diejenigen Begriffe der mathematischen Wahrscheinlichkeits-Theorie aufgezählt und kurz erläutert, die für unsere Zwecke benötigt werden. Dabei bezeichnen in der Regel großgeschriebene Buchstaben vom Ende des Alphabets (• • • , X, Y , Z) zufällige ein- oder mehrdimensionale Variable, kleingeschriebene Buchstaben (• • • , x, y, z) deren Ausprägungen; Buchstaben vom Anfang des Alphabets (a, b, C, ) bezeichnen nichtstochastische reelle Zahlen, Vektoren oder Matrizen. Mager geschriebene Buchstaben bezeichnen Skalare, fett geschriebene dagegen mehrdimensionale Größen. Wenn wir im folgenden mit Matrizenprodukten wie zum Beispiel A B oder C x arbeiten, setzen wir stets stillschweigend voraus, daß die Matrizen verkettet sind.
Ist einem zufälligen Ereignis U eine Wahrscheinlichkeit 1 \'{U} zugeordnet, so ist p{i7} eine reelle Zahl zwischen Null und Eins: 0 < P { C / } < 1. Ein sicheres Ereignis erhält die Wahrscheinlichkeit Eins, ein unmögliches Ereignis die Wahrscheinlichkeit Null. Die Umkehrung gilt nicht. Die Wahrscheinlichkeits-Theorie erhält dann praktische Relevanz, wenn man ein Ereignis U mit P{t/} = 1 als "so gut wie sicher", ein Ereignis U mit P{í7} = 0 als "so gut wie unmöglich" ansieht. Was dies aber im Einzelnen und für jeden Einzelnen bedeutet, muß jeder für sich ausmachen. Eine zufällige Variable Y ordnet zufälligen Ereignissen Zahlen zu. Diese heißen Realisationen oder Ausprägungen. Für jede reelle Zahl y ist die Wahrscheinlichkeit P { y < y} definiert. Diese Wahrscheinlichkeit hängt von y ab und heißt Verteilungsfunktion von Y: FY(V)
= P{Y