219 101 28MB
German Pages 394 [396] Year 1994
Lehr- und Handbücher der Statistik Herausgegeben von Universitätsprofessor Dr. Rainer Schlittgen
Lineare Modelle Algebraische Grundlagen und statistische Anwendungen
Von
Univ.-Prof. Dr.-Ing. Wilhelm Caspary und
Univ.-Prof. Dr. rer. nat. Klaus Wichmann
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek — CIP-Einheitsaufnahme Caspary, Wilhelm: Lineare Modelle : algebraische Grundlagen und statistische Anwendungen / von Wilhelm Caspary und Klaus Wichmann. München ;Wien : Oldenbourg, 1994 (Lehr- und Handbücher der Statistik) ISBN 3 - 4 8 6 - 2 2 9 1 0 - 9 NE: Wichmann, Klaus:
© 1994 R. Oldenbourg Verlag GmbH, München Das Werk außerhalb lässig und filmungen
einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzustrafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverund die Einspeicherung und Bearbeitung in elektronischen Systemen.
Gesamtherstellung: R. Oldenbourg Graphische Betriebe GmbH, München
ISBN 3-486-22910-9
V
INHALTSVERZEICHNIS Vorwort
XI
1
VEKTOREN UND MATRIZEN
1
1.1
VEKTOREN UND VEKTORRÄUME
1
1.1.1
Reelle Vektorräume
1
1.1.2
Basis und Dimension
2
1.1.3
Lineare Abbildungen zwischen Vektorräumen
4
1.1.4
Euklidische Vektorräume
4
1.1.5
Summe und Zerlegung von Vektorräumen
5
1.1.6
Projektionen
8
1.1.7
Lineare Mannigfaltigkeiten
10
1.2
MATRIZEN
12
1.2.1
Addition und skalare Multiplikation
12
1.2.2
Matrizenprodukt
13
1.2.3
Quadratische Matrizen und reguläre Inverse
14
1.2.4
Rechenregeln der Matrizenalgebra
15
1.2.5
Partitionierung in Submatrizen
16
1.2.6
Der Rang als charakteristische Matrixgröße
17
1.2.7
Elementare Umformungen
19
1.2.8
Darstellung von linearen Abbildungen durch Matrizen
21
1.2.9
Äquivalenz- und Orthogonaltransformation
23
1.2.10
Zeilenraum, Spaltenraum und Nullraum
24
1.2.11
Die Matrix A x
25
1.2.12
Lineare Gleichungssysteme
26
1.2.13
Die MPB-Inverse
27
1.2.14
Determinante und Spur einer quadratischen Matrix
29
1.2.15
Die Neumannsche Reihe
32
1.3
EIGENWERTE UND MATRIXZERLEGUNGEN
34
1.3.1
Spezielles Eigenwertproblem
34
1.3.2
Algebraische und geometrische Vielfachheit
35
1.3.3
Eigenwerte rationaler Matrixfunktionen
36
1.3.4
Invarianz der Eigenwerte bei Ähnlichkeitstransformationen
37
1.3.5
Eigenwerte symmetrischer Matrizen
39
1.3.6
Spektralzerlegung
40
1.3.7
Verallgemeinertes Eigenwertproblem
41
1.3.8
Kanonische Form und Normalform
41
1.3.9
LR-Zerlegung
42
1.3.10
Singulärwertzerlegung
43
1.3.11
Cholesky-Zerlegung
45
VI 1.4
QUADRATISCHE FORMEN
47
1.4.1
Nichtnegativ definite quadratische Formen
47
1.4.2
Hauptachsentransformation definiter Matrizen
49
1.4.3
Eigenwerte nichtnegativ definiter Matrizen
50
1.4.4
Zerlegung quadratischer Formen
51
1.4.5
Bedingungen für die Elemente definiter Matrizen
53
1.4.6
Abschätzung der Eigenwerte symmetrischer Matrizen
54
1.4.7
Zerlegung der Spaltenräume von Summen und Produkten
56
1.5
VEKTOR- UND MATRIXNORMEN
60
1.5.1
Normierte Vektorräume
60
1.5.2
Kompatibilität von Matrixnormen mit Vektomormen
61
1.5.3
Eigenschaften und Anwendungen von Normen
63
1.5.4
Kondition einer Matrix
65
1.6
PROJEKTIONEN
68
1.6.1
Projektionseigenschaft idempotenter Matrizen
68
1.6.2
Vorgegebene Projektionsrichtungen
68
1.6.3
M-orthogonale Projektionen
70
1.6.4
Abstandsminimierung in seminormierten Räumen
72
1.6.5
Q - und Q _ 1 -orthogonale Projektionen im £ m
75
1.7
DIFFERENTIATION VON MATRIZEN
78
2
INVERSE MATRIZEN
81
2.1
INVERSEN REGULÄRER MATRIZEN
81
2.1.1
Inversen von partitionierten Matrizen
81
2.1.2
Links- und Rechtsinverse
82
2.2
DIE ALLGEMEINE INVERSE
84
2.2.1
Definition und Rangeigenschaften
84
2.2.2
g-Inverse bei vorgegebener LR-Zerlegung
84
2.2.3
Unbestimmtheit generalisierter Inversen
85
2.2.4
Einfache Form einer g-Inversen
86
2.2.5
Reflexive g-Inverse
87
2.2.6
Gesamtheit der g-Inversen
88
2.2.7
Projektoren
88
2.2.8
Rechenregeln
89
2.2.9
Projektionen auf Spaltenräume beliebiger Matrizen
91
2.2.10
Lineare Gleichungssysteme
93
2.2.11
Gleichungssysteme mit Matrizen als Unbekannten
94
2.3
G-INVERSEN NICHTNEGATIV DEFINITER MATRIZEN
97
2.3.1
Invarianz bezüglich der Wahl der g-Inversen
97
2.3.2
Projektoren in seminormierten Spaltenräumen
98
2.3.3
Nichtnegativ definite g-Inversen
98
VII 2.3.4
g-Inversen von Summen nichtnegativ definiter Matrizen
2.4
DIE MKQ - INVERSE (Methode der Kleinsten Quadrate)
99 105
2.4.1
Normalgleichungen für inkonsistente Gleichungssysteme
105
2.4.2
Existenz der MKQ-Inversen
105
2.4.3
Menge aller MKQ-Inversen
107
2.4.4
MKQ-Lösungen inkonsistenter Gleichungssysteme
108
2.4.5
Reflexive MKQ-Inversen
109
2.5
DIE MNX-INVERSE (Minimale N - Norm von i )
112
2.5.1
Existenz und Eigenschaften von MNX-Inversen
112
2.5.2
Lagrange - Multiplikatorenmethode
113
2.5.3
Menge aller MNX-Inversen einer mXn-Matrix
114
2.5.4
Reflexive MNX-Inversen
115
2.5.5
Zusammenhang zwischen MKQ- und MNX-Inversen
117
2.6
DIE MPB - INVERSE (Moore-Eenrose-Bjerhammar-Inverse)
119
2.6.1
Definition und Bedingungsgleichungen
119
2.6.2
Darstellungen für A + MN Die Pseudoinverse A+
120
2.6.3 2.7
G-INVERSEN PARTITIONIERTER MATRIZEN
127
2.7.1
1X2 - Partitionierung
127
2.7.2
Nichtnegativ definite 2X2-Partitionen
129
2.7.3
2x2-Partitionen (Aijk) mit M 2 2 = O
131
2.7.4
Berechnung von A + durch sukzessive Partitionierung
137
Literatur
139
3
BERECHNUNG VON MPB-INVERSEN
142
3.1
VORBETRACHTUNGEN ZU NUMERIK, KONDITION UND RANG
142
3.1.1
Schlecht konditionierte Gleichungssysteme
143
3.1.2
Störungen und Rundungsfehler
145
3.2
GAUSSSCHE ELIMINATION
148
3.3
HOUSEHOLDER TRANSFORMATION
151
3.4
GRAM - SCHMIDT - ORTHOGONALIS IERUNG
156
3.5
SINGULÄRWERT - ZERLEGUNG
159
3.6
REGULARISIERUNG DURCH RÄNDERN
161
3.7
REGULARISIERUNG DES PRODUKTES a'A
164
3.8
INVERSION EINER REGULÄREN BLOCKMATRIX
169
3.9
122
+
REKURSIVE BERECHNUNG VON A
171
Literatur
172
VIII
4
STATISTISCHE GRUNDLAGEN
175
4.1
NORMALVERTEILTE ZUFALLSVEKTOREN
175
4.1.1
Wahrscheinlichkeitsdichte und Verteilungsfunktion
175
4.1.2
Rechenregeln für die Erwartungswertbildung
179
4.1.3
N-dimensionale Normalverteilung
180
4.1.4
Testverteilungen
184
4.2
DIE SINGULARE NORMALVERTEILUNG
188
4.3
VERTEILUNG QUADRATISCHER FORMEN
191
4.3.1
Erwartungswert und Spur quadratischer Formen
191
4.3.2
Chi-Quadrat Verteilungen quadratischer Formen
192
4.3.3
Stochastische Unabhängigkeit quadratischer Formen
194
Literatur
196
5
LINEARE MODELLE
198
5.1
DAS GAUSS-MARKOV MODELL
199
5.1.1
Modelldefinition
199
5.1.2
Der Beobachtungs- und der Fehlerraum
201
5.2
GAUSS-MARKOV MODELL MIT RESTRIKTIONEN
203
5.3
MODELLE MIT ZUFALLSPARAMETERN
205
5.4
DAS STOCHASTISCHE MODELL
208 211
5.5
MODELLTRANSFORMATIONEN
5.5.1
Homogenisierung des Modells
211
5.5.2
Äquivalenz des QSLM zum BRLM
213
5.6
SCHÄTZBARE FUNKTIONEN IN LINEAREN MODELLEN
215
5.6.1
Schätzbarkeit des Parametervektors
215
5.6.2
Schätzbare Linearformen der Parameter
216
5.6.3
Charakterisierung von Schätzern minimaler Varianz
218
5.7
DIE LINEARE HYPOTHESE
222
5.7.1
Testbare Hypothesen in linearen Modellen
222
5.7.2
Die normale lineare Hypothese
224
5.7.3
Quadratische Formen bei richtiger Hypothese
226
Literatur
227
MODELLE MIT REGULÄRER VARIANZ-KOVARIANZ MATRIX Z
231
6 6.1
SCHÄTZBARE LINEARFORMEN
233
6.1.1
Charakterisierung schätzbarer Linearformen
233
6.1.2
Schätzbarkeit linearer Transformationen
236
6.1.3
Schätzen des Parametervektors
237
IX 6.1.4
Restriktionen zur Schätzung der Parameter im ASLM
238
6.1.5
Referenzsystem für die Parameterschätzung
241
6.1.6
Schätzung der Modellkomponenten
243
6.1.7
Linearformen mit verschwindendem Erwartungswert
246
6.2
SCHÄTZUNG DES VARIANZFAKTORS
248
6.2.1
Erwartungstreue Schätzer des Varianzfaktors
248
6.2.2
Optimale Schätzung des Varianzfaktors
249
6.3
MODELLE MIT RESTRIKTIONEN
253
6.3.1
Schätzbare Linearformen
253
6.3.2
Reparametrisierung
259
6.3.3
Separierung der Restriktionen
262
6.3.4
Äußere Restriktionen im BASLM
265
6.3.5
Innere Restriktionen
269
6.3.6
Innere und äußere Restriktionen
273
6.3.7
Schätzung der Modellkomponenten
277
6.3.8
Varianzfaktor im Modell mit Restriktionen
282
6.4
HYPOTHESENTESTS BEI REGULÄRER VKM E
286
6.4.1
Schätzung bei linearer Hypothese
286
6.4.2
Teststatistik für die normale lineare Hypothese
289
6.4.3
Projektionsdarstellung
292
6.4.4
Lineare Hypothese in Modellen mit Restriktionen
295
7
MODELLE MIT SINGULÄRER VARIANZ-KOVARIANZ-MATRIX E
300
7.1
ANALYSE DES MODELLRAUMES
300
7.1.1
Die Modellraummatrix
301
7.1.2
Darstellungen des Modellraumes
301
7.1.3
T~-orthogonale Zerlegung des Modellraumes
303
7.1.4
T -orthogonale Projektoren im Modellraum
305
7.2
SCHÄTZBARE LINEARFORMEN
311
7.2.1
Herleitung des Schätzers nach der Lagrangeschen Methode
311
7.2.2
Charakterisierung linearer Schätzer
313
7.2.3
Projektionsdarstellung des Schätzers
314
7.2.4
Lineare Parametertransformationen
315
7.2.5
Schätzung des Parametervektors
316
7.2.6
Die Methode der kleinsten Quadrate
320
7.2.7
Schätzer der Modellkomponenten
326
7.3
SCHÄTZUNG DES VARIANZFAKTORS
331
7.4
RESTRIKTIONEN
336
7.4.1
Der Parameterraum
336
7.4.2
Schätzbare Funktionen
339
X 7.4.3
Reparametrisierung
343
7.4.4
Äußere und innere Restriktionen
345
7.4.5
Schätzung der Modellkomponenten
352
7.4.6
Quadratische Form und Varianzfaktor
357
7.5
TEST LINEARER HYPOTHESEN BEI SINGULÄRER VKM
362
7.5.1
Schätzung bei linearer Hypothese
362
7.5.2
Teststatistiken bei singulärer VKM
366
7.5.3
Geometrische Deutung der linearen Hypothese
367
Literatur (zu 6 und 7)
369
Monographien und Lehrbücher
371
SACHWORTVERZEICHNIS
374
LISTE VON SYMBOLEN UND ABKÜRZUNGEN
380
XI VORWORT Aus langjähriger Erfahrung in der universitären Lehre auf den Gebieten angewandte Mathematik, Statistik und Meßdatenverarbeitung für Ingenieure wissen die Autoren, daß aus Zeitmangel viele wichtige Grundlagen nur gestreift werden können und daß in den anwendungsbezogenen Vorlesungen nur exemplarisch vorgegangen werden kann. Als Folge davon erfordert jede wissenschaftliche und praktische Spezialisierung oder Vertiefung ein intensives Selbststudium als Vorbereitung, welches aber die Verfügbarkeit geeigneter Studienunterlagen voraussetzt. Die Autoren haben sich die Aufgabe gestellt, die für das Schätzen und Testen in linearen Modellen erforderlichen algebraischen Grundlagen umfassend darzustellen, das statistische Werkzeug zusammenzutragen und das Arbeiten mit unterschiedlichen Modellvarianten ausführlich zu behandeln. Sie haben sich dabei von der Zielsetzung leiten lassen, daß das Buch sowohl für Studenten zur vorlesungsbegleitenden Lektüre und zur Vorbereitung auf einschlägige Diplom- und Magisterarbeiten geeignet sein soll als auch zum Selbststudium für in Forschung und Praxis tätige Wissenschaftler. Aus diesem Grunde wurde eine geschlossene Behandlung der Thematik einschließlich der Grundlagen angestrebt, damit ohne Rückgriff auf weitere Literatur das nötige Wissen erarbeitet werden kann. Um der großen Spannweite des Einsatzgebietes linearer Modelle, die von den Geisteswissenschaften über Gesellschafts- und Naturwissenschaften bis zu den Ingenieurwissenschaften reicht, gerecht zu werden, wurde eine weitgehend anwendungsneutrale Behandlung und Darstellung des Stoffes gewählt. Die ersten drei Kapitel sind der linearen Algebra gewidmet. Die Stoffauswahl orientiert sich an dem, was zum Verstehen linearer Modelle nötig ist und was für die praktische Durchführung von Schätz- und Testverfahren gebraucht wird. Der Aufbau wurde so gestaltet, daß dieser Teil eine geschlossene Darstellung aller zur Lösung linearer Gleichungssysteme wichtigen Grundlagen und Rechenverfahren enthält. Einen gewissen Schwerpunkt bildet die verallgemeinerte Inversion von Matrizen, für die auch die gängigen numerischen Verfahren mit durchgerechneten Beispielen angegeben sind. Ferner sind die Projektionsmatrizen recht ausführlich behandelt worden, die ein sehr vielseitiges und elegantes Werkzeug beim Arbeiten mit linearen Modellen darstellen. Die relative breite Darstellung der algebraischen Grundlagen, die nahezu die Hälfte des Buches einnehmen, soll es den Studenten höherer Semester und solchen von weniger mathematisch orientierten Studiengängen erleichtern, ihre Defizite auf diesem Gebiet abzubauen, die nach Erfahrung der Autoren regelmäßig erkennbar werden, wenn im Rahmen von Seminar- und Abschlußarbeiten statistische Methoden eingesetzt werden müssen. Die gewählte Schreibweise Ax = y für lineare Gleichungssysteme entspricht der in der numerischen Mathematik üblichen Bezeichnung. Sie wurde auch in den folgenden Kapiteln im Prinzip beibehalten, um eine konsistente Darstellung zu gewinnen. Dafür mußte allerdings eine Abweichung von der in der Statistik üblichen Notation linearer Modelle inkauf genommen werden. Im vierten Kapitel werden statistische Grundlagen abgehandelt. Aus der Erfahrung heraus, daß die grundlegenden Konzepte und Begriffe der Statistik einen festen Platz in den
XII Curricula aller empirischen Fächer haben und daß es eine Fülle ausgezeichneter Lehrbücher auf diesem Gebiet gibt, haben sich die Autoren entschlossen , bei der Konzeption des Kapitels statistisches Basiswissen vorauszusetzen und sich auf eine Zusammenstellung der für die Zielsetzung des Buches relevanten Verteilungen zu beschränken. Zur Ergänzung des Basiswissens wird ausführlich auf Normalverteilungen mit positiv semidefiniten Varianz Kovarianz Matrizen und auf die statistischen Eigenschaften quadratischer Formen eingegangen. Das fünfte Kapitel dient der Einführung und Charakterisierung linearer Modelle. Der Schwerpunkt liegt auf Modellen mit nichtstochastischen Parametern, von denen in Abhängigkeit vom Rang der Modellmatrix und der Dispersionsmatrix unterschiedliche Typen definiert werden. Äquivalenzbeziehungen und Transformationen zwischen den Modelltypen werden ausführlich behandelt, und die Konzepte der Schätzbarkeit linearer Funktionen und des Testens linearer Hypothesen werden mit der gebotenen Tiefe dargestellt. Leser mit guten Vorkenntnissen in linearer Algebra und in Statistik können ohne weiteres die ersten vier Kapitel überspringen und an dieser Stelle mit dem Studium beginnen. Im sechsten und siebten Kapitel werden Schätzer für Parametervektoren, Modellkomponenten, lineare Funktionen und Streuungsparameter für lineare Modelle verschiedener Ausprägung entwickelt. Neben dem Standardmodell mit festen Parametern werden Modelle mit singulärer Modell- und Dispersionsmatrix behandelt und beliebige Restriktionen bezüglich der Parameter zugelassen. Ein einfaches, mit Handrechnung nachvollziehbares Beispiel aus dem Gebiet der Geodäsie wird zur Veranschaulichung der Modellvarianten und des Einflusses von Singularitäten und Restriktionen durch alle Abschnitte mitgeführt. Ferner werden die Teststatistiken für den Test linearer Hypothesen unter den verschiedenen Modelltypen abgeleitet und die Vorgehensweise mithilfe desselben Beispiels illustriert. Hinweise auf weiterführende Literatur werden thematisch geordnet nach dem zweiten, dritten, vierten, fünften und siebten Kapitel gegeben. Monographien und Lehrbücher, die mehrere Teilgebiete betreffen , sind am Ende des Buches zusammengestellt. Ein Sachwortverzeichnis und eine Zusammenstellung von Abkürzungen und Symbolen sollen dem Leser, der nur gelegentlich etwas nachschlagen möchte, oder der sich nur für eine spezielle Thematik interessiert, das Arbeiten mit dem Buch erleichtern.
1 1 VEKTOREN UND MATRIZEN Die Anwendung statistischer Schätz- und Testverfahren ist weitgehend an lineare mathematische Modelle gebunden. Obwohl in Natur und Technik kaum lineare Probleme auftreten, bedeutet dies keine Beschränkung für den erfolgreichen Einsatz statistischer Methoden, denn die Betrachtungen können meist auf einen relativ kleinen Variationsbereich begrenzt werden, in dem ein mit Hilfe einer Taylor-Entwicklung formuliertes lineares Modell die Situation ausreichend approximiert. Wichtigste mathematische Grundlage für das Arbeiten mit solchen Modellen ist die lineare Algebra, die in diesem ersten Kapitel, soweit sie für die Zielsetzung des Buches wichtig ist, ausführlich behandelt wird. Es wird dabei eine elementare und anschauliche Darstellung gewählt, die nur geringe Vorkenntnisse voraussetzt und ohne Verzicht auf mathematische Strenge auf die Bedürfnisse von Anwendern ausgerichtet ist. Wo immer dies möglich erscheint, werden geometrische Interpretationen angeboten, die von den Vorstellungen des Vektorraumes und den darin erklärten Transformationen und Projektionen Gebrauch machen. Die gewählte Vektor/Matrix-Notation erlaubt eine sehr übersichtliche und kompakte Darstellung der mathematischen Beziehungen. Darüberhinaus erleichtert ihre Nähe zur Arbeitsweise höherer Programmiersprachen den Einsatz der elektronischen Datenverarbeitung, ohne die größere Modelle gar nicht bearbeitet werden können.
1.1 VEKTOREN UND VEKTORRÄUME 1.1.1 REELLE VEKTORRÄUME DEF. 1.1-1 (Struktureigenschaften von Zahlen) Ein Zahlenbereich K ist ein Körper, wenn er bezüglich der Addition, Subtraktion, Multiplikation und Division mit Ausnahme der Division durch Null (Nullteilerfreiheit) abgeschlossen ist, d.h. diese Operationen sind ausnahmslos erlaubt und führen nicht aus K hinaus. Es gelten die vom Rechnen mit reellen Zahlen bekannten Kommutativ- , Assoziativ- und Distributivgesetze. Spezielle Beispiele sind der Körper Q der rationalen Zahlen, der Körper R der reellen Zahlen und der Körper C der komplexen Zahlen, während die Menge IN der natürlichen Zahlen keinen Körper darstellt. Obwohl fast alle Ergebnisse und Sätze dieses Kapitels auch für den komplexen Zahlenbereich gelten, beschränken wir uns im Hinblick auf die späteren Anwendungen von vornherein auf den reellen Zahlkörper IR. DEF. 1.1-2 (Linearer Vektorraum) Ein linearer Vektorraum V über dem Skalarkörper R (kurz: reeller Vektorraum oder reeller linearer Raum) ist eine Menge V von Elementen x , y , . . . , für die eine Additon ( x + ;y)e V ;
x,yeV
2 und eine Multiplikation mit Skalaren Ae IR Xxs V;
xeV.AeR
erklärt ist. Die Elemente von V heißen Vektoren. Die Addition ist kommutativ, assoziativ und jede Gleichung a + x = b hat eine eindeutige Lösung x = b - a (d.h. V ist eine Abelsche Gruppe). Die Verträglichkeit von Addition und Multiplikation wird durch die üblichen Distributivgesetze gewährleistet. Bekannte Beispiele sind die reellen Vektorräume Rn = { jc = (x!,x 2 , ... , x n ) | x, € IR }, bei denen die Vektoren x aus geordneten n-Tupeln reeller Zahlen x ; (den Komponenten von x) bestehen. Addition und skalare Multiplikation sind komponentenweise erklärt. Es ist üblich, die Komponenten von x als Spalte zu schreiben. Man spricht dann auch vom Spaltenvektor x und bezeichnet die Schreibweise X — ( X], x 2 , . . . , x n )
als Zeilenvektor (transponierter Vektor). DEF. 1.1-3 (Linearer Unterraum) Ein Unterraum oder linearer Teilraum U von V ist eine Teilmenge U c V, die bezüglich der in V definierten Addition und Multiplikation abgeschlossen ist, d.h. selbst ein Vektorraum ist. Der Durchschnitt beliebig vieler Vektorräume ist wieder ein Vektorraum. Besteht der Durchschnitt zweier Vektorräume nur aus dem Nullvektor 0 , dessen sämtliche Komponenten Null sind und der ein trivialer Unterraum jedes Vektorraumes ist, so heißen die Vektorräume disjunkt 1.1.2 BASIS UND DIMENSION DEF. 1.1-4 (Lineare Ab- und Unabhängigkeit von Vektoren) V heißt linear unabhängig, wenn jede Eine Menge von n Vektoren xt, x2, ... , Linearkombination A[xx + A2*2 + ... + AnJCn = 0 , A; € IR stets A, = A2 = ... = A„ = 0 zur Folge hat. Andernfalls heißen xu x2, ... , xn linear abhängig. BEISPIEL 1.1-1
a) Im IR4 sind die drei Vektoren
x{ = (-5, 3,-4,-1), x{ = (-2, 1,-1, 1), xl = ( 1,-1, 2, 3) wegen jcj - 2x2 + x} = 0 linear abhängig. b) Die drei Vektoren
t
t
t
_x[ =( 1, 2, 0,-1), xi = ( 2 , 1,-1, 0), x3 =( 1, 0, 1, 1)
sind dagegen linear unabhängig. Schreibt man nämlich
A ^ + A2x2 + A3x3 = 0 als Gleichungssystem
mit den Unbekannten A; ,
A, + 2A2 + A3 = 0 -A2 + A3 = 0
2Aj + A2 = 0 -A, + A3 = 0
,
so zeigen die letzten beiden Gleichungen A[ = A2 = A 3 . Aus den ersten beiden Gleichungen folgt dann
3 Ai = 0 für i = 1, 2, 3. DEF. 1.1-5 (n-dimensionaler Vektorraum) Gibt es in einem Vektorraum V höchstens endlich viele linear unabhängige Vektoren, so heißt V endlichdimensional. In diesem Fall existiert eine Zahl neN mit der Eigenschaft, daß man zwar Vektorsysteme mit n , nicht aber mit n+1 linear unabhängigen Vektoren angeben kann. Man nennt V dann n-dimensional und schreibt dim V = n . Ein System von n linear unabhängigen Vektoren eines n-dimensionalen Vektorraumes heißt Basis. Vektorräume unendlicher Dimension treffen wir häufig als Funktionenräume an, wie z.B. bei den Räumen Ck(a,b) der auf einem Intervall (a,b) definierten und dort k-fach stetig differenzierbaren Funktionen. Beispiele für n-dimensionale Vektorräume, mit denen wir uns im folgenden ausschließlich beschäftigen werden und die wir durch die Schreibweise Vn kennzeichnen, sind die reellen Vektorräume IRn mit der kanonischen Basis Sk = {
| e[ := (i, b2, ... , bn) und die Vektoren x, b\ heißen Komponenten von x. Bei fest gewählter Basis entspricht so jedem xe Vn in umkehrbar eindeutiger Weise das n-Tupel seiner Koordinaten, das sich seinerseits dann als Vektor x l = (x,, ... ,x n ) des üblichen IRn auffassen läßt. Da sich die linearen Operationen des Vn unmittelbar auf die Koordinatenvektoren übertragen, braucht man i.a. nicht zwischen dem Vn und Rn zu unterscheiden. Der Vektorraum R3 = V3 kann noch geometrisch veranschaulicht werden, da er im Einklang mit unserer Vorstellung und Erfahrung des natürlichen Raumes steht. Drei beliebige nicht komplanare Vektoren reichen aus, den V3 aufzuspannen. BEISPIEL 1.1-2 Jede Kombinaüon von zwei der in Abb. 1.1-1 dargestellten Vektoren v; spannt eine Ebene auf, die als Vektorraum V 2 aufzufassen ist. Jeder Vektor v; ist selbst ein Basisvektor für einen eindimensionalen Vektorraum V 1 . Jeder weitere Vektor u des Raumes läßt sich als Linearkombination der Vektoren v,, v 2 , v 3 darstellen und ist damit linear abhängig. Die drei Vektoren v j , v 2 , v 3 sind eine Basis des V 3 . In diesem Basissystem hat der Vektor u die Koordinaten A ^ A 2 , A3 und kann daher als u nentenschreibweise dargestellt werden.
= (A t , A 2 , A 3 ) in Kompo-
4
vi Abb. 1.1-1: Geometrische Veranschaulichung des V 3
1.1.3 LINEARE ABBILDUNGEN ZWISCHEN VEKTORRÄUMEN DEF. 1.1-6 (Lineare Abbildung) Eine Abbildung A : Vn Vm , die jedem Element xe Vn ein Element ye Vm als Bild zuordnet, heißt linear, wenn gilt: A(xt + x2) = AX\ + AX2 , JCi, x2 e V n XAx , xeV n , Ae IR Man spricht in diesem Fall auch von einer linearen Transformation A des Vn in den Vm und für m = n (Selbstabbildung des Vn) von einem linearen Operator des V". Ein Sonderfall der Selbstabbildung ist die identische Abbildung A : = / , mit Ix =x. A(AJC) =
Das Bild eines linearen Raumes unter einer linearen Abbildung ist selbst ein linearer Raum. BEISPIEL 1.1-3
(Dualraum)
n vorgegebene Zahlen a \ definieren in
n Ax=
Z
Cüi
XJ
,
X =
(X!, ... ,x n )'
i = 1 eine lineare Abbildung A: IRn -»IR , die als Linearform über dem IRn bezeichnet wird. Diese Linearformen bilden einen n-dimensionalen Vektorraum (Dualraum zum IRn) mit einer durch A; ej = 5jj Basis B = {A; | i = 1 , 2
bestimmten
n}.
1.1.4 EUKLIDISCHE VEKTORRÄUME DEF. 1.1-7 (Innerer Produktraum - Euklidischer Raum) Vn heißt Vektorraum mit einem inneren Produkt oder Euklidischer Raum, wenn je zwei Elementen x ,yeVn eine reelle Zahl (x, y) (das innere Produkt oder Skalarprodukt von x und y) zugeordnet ist mit den Eigenschaften (*, y) = (y. x)
5 (x, Xy + ßz) = (Ar, y) + (px, z)
; A, ßs R, ze V" .
Für (JC, y) = 0 heißen die Vektoren x und y orthogonal. Als Beispiel betrachten wir das übliche Skalarprodukt für den Rn mit der kanonischen Basis }. Fürx = Xj = i x; e; undy = £i = 1 y; e\ wirddurch n
(1.1-2)
(x,y):=
1 xiyi
i=1
=jfy
ein inneres Produkt definiert. Für das Skalarprodukt der Basisvektoren folgt daraus insbesondere (e; = e IRn,
17
A = [al5 a2, ... , an] =
1.2.6 DER RANG ALS CHARAKTERISTISCHE MATRIXGROSSE Die maximale Anzahl linear unabhängiger Zeilenvektoren aJ (Spaltenvektoren a\ ) einer mxn-Matrix A wird als Zeilenrang rz(A) (Spaltenrang r s (A)) von A bezeichnet. r z (A) linear unabhängige Zeilenvektoren a 1 , . . . , aTz bilden eine Basis des Zeilenraumes 2(A). Ein beliebiger Zeilenvektor al läßt sich dann in der Form TZ
a 1 = I bij flj , i = 1,... ,m j= • oder elementweise zu rz a
ik = l b i j a jk j= i
.
k
= 1. - >n
darstellen. Hieraus erhält man durch Zusammenfassung der Elemente bj j zur m x r z - Matrix (bij) = (bl, ... , bTz) mit den Spaltenvektoren bj die Darstellung der Spaltenvektoren von A, rz a k = I ajk b j , i= i
woraus zunächst r s (A) < r Z ( A ) folgt. Eine entsprechende Überlegung für die transponierte Matrix A1 zeigt r z (A) = tS(A1)
< r z (A f ) = r s (A).
Zeilen- und Spaltenrang einer Matrix sind also stets gleich. DEF. 1.2-4 (Rang) Der Rang einer mxn-Matrix A ist die Maximalzahl linear unabhängiger Zeilen- und Spaltenvektoren von A , r(A) = r z (A) = r s (A) < min {m, n} . Für r z = m (bzw. r s = n) heißt A zeilenregulär (spaltenregulär). Eine quadratische nxn-Matrix A heißt für t(A) = n regulär, sonst singulär. Die Gleichheit von Zeilen- und Spaltenrang bedeutet insbesondere die Gleichheit der Dimensionen von Zeilenraum 2(A) und Spaltenraum S(A), r(A) = dim 2(A) = dim S(A) . Leicht zu zeigen sind auch die für die Zeilen- und Spaltenräume von Summen und Produkten von Matrizen geltenden Beziehungen 2{A +B) (1.2-3)
c 2(A) u 2(B)
i ( A + ß ) c 5(i4)ui(Ä) S(AB)
c S(A) , 2(AB)
c 2{B)
18 BEISPIELE 1.2-3 a) Die Nullmatrix O ist die einzige Matrix mit dem Rang 0. Die Einsmatrix Jn und jede andere als dyadisches Produkt darstellbare Matrix A = xy haben den Rang 1. b) Der Rang einer Diagonalmatrix ist gleich der Anzahl der von 0 verschiedenen Diagonalelemente. Insbesondere ist der Rang der Einheitsmatrix r ( / n ) = n . c) Die Matrix
A=
2 5 10 10 3 5 3 7 2 1
hat den Rang 2, da zwei beliebig herausgegriffene Spaltenvektoren linear unabhängig sind und die übrigen sich stets als Linearkombination dieser beiden darstellen lassen. Wählt man z.B. die ersten beiden Spaltenvektoren, so erhält man für die beiden letzten 1 3 2
= 3
2 1 3
0 5 1
5 0 7
-
= 5
2 1 3
- 2
5 0 7
SATZ 1.2-1 (Allgemeine Rangbeziehungen) Für Matrizen A, B, C passender Ordnung gilt: a)
r(A)=r(-A)
b)
t ( A ) - r(B) < r(A + B)
c)
r (AB) < min { r(A), r(B) ) A Ol
d)
OC\ AB OC
e)
~ 1
J
O A CO
< T(A) +
T(B)
= r(A) + r(C ) ; A , C quadratisch
> r(A) + r(C),
wobei das Gleichheitszeichen für B =ABX + B2C mit Matrizen BU B2
passender Ordnung gilt. > r(B) + r(C),
f)
'[c'o]
g)
wobei das Gleichheitszeichen für A = ÄjC + BB2 mit Matrizen BU B2 passender Ordnung gilt. die Ungleichung von Frobenius: T(ABC
Beweis:
und damit
+ I(BC)
-
R(B)
a) ist evident, b) folgt aus (1.2-3) mit T(A
woraus
) > R(AB)
+B)=
dim
S(A
+ B)
< dim S ( A )
+
dim S(B) = r(A) +
T(B),
r(^) =r((A + B) + (- B)) < T(A + B) + T(B) r(A) - r(ß) < R(A + B)
folgen. Die behauptete Ungleichung ergibt sich dann durch Vertauschung von A und B. c) folgt ebenfalls aus (1.2-3), d) ist offensichtlich.
19 e)
Für B =ABX + B2C ist A B O C
=r
A O O C
/ B2 O I
I Bx O I
Der erste und dritte Faktor der rechten Seite sind regulär, so daß für diesen Fall A B O C
—r A 0 O C
= r(A) + r ( C )
folgt. Da durch die Matrix B die Gesamtanzahl linear unabhängiger Spalten nicht vermindert, wohl aber bei einem Spaltenrangdefekt von C vergrößert werden kann, gilt im allgemeinen Fall die ">"-Beziehung. f) wird analog zu e) gezeigt mit A O B C g)
=r
I Bx O C
O B C O
1 O B, I
Die behauptete Ungleichung ergibt sich unter Berücksichtigung von f) aus r(AßC)+r(ß)=r[g / = rr [[ A °I i\ [AB r B
=r [ J o
B
0
B C
O
I O
-C I
] * rCAID + rCBC).
1.2.7 ELEMENTARE UMFORMUNGEN DEF. 1.2-5
Elementare Umformungen einer Matrix sind:
a) Multiplikation einer Zeile (Spalte) mit einem Skalar Ae IR b) Vertauschen zweier Zeilen (Spalten) c) Addition des A-fachen einer Zeile (Spalte) zu einer anderen Zeile (Spalte). Die elementaren Umformungen a)-c) lassen sich durch Links- bzw. Rechtsmultiplikation von A mit quadratischen regulären Elementarmatrizen L, P, U, O darstellen. Sie lassen den Rang der Matrix A unverändert. Eine Linksmultiplikation mit der Diagonalmatrix 1 L= die sich von der Einheitsmatrix I nur im i-ten Diagonalelement A unterscheidet, hat die Multiplikation der gesamten i-ten Zeile von A mit dem Faktor A zur Folge. Eine Rechtsmultiplikation von A mit L bewirkt die entsprechende Multiplikation der i-ten Spalte von A mit A. Permutationsmatrizen P besitzen in jeder Zeile und Spalte genau eine Eins und auf allen übrigen Positionen Nullen. Befinden sich alle Einsen auf der Diagonalen von P bis auf zwei, die die Position (i,k) und (k,i) einnehmen, so bewirkt die Linksmultiplikation PA, daß
20 die k - t e Zeile von A mit der i-ten Zeile vertauscht wird und die Rechtsmultiplikation AP , daß die k - t e Spalte von A mit der i-ten Spalte vertauscht wird. Unterscheidet sich P von der Einheitsmatrix nur in diesen beiden Positionen, i
0 P =
k
1
1
1
k-
0
so bedeutet dies eine einzige Zeilen- bzw. Spaltenvertauschung, bei der alle übrigen Zeilen bzw. Spalten unverändert bleiben. Wegen PP=I gilt P = Pl. Elementare untere Dreiecksmatrizen U\ (bzw. elementare obere Dreiecksmatrizen 0\) unterscheiden sich von der Einheitsmatrix durch eine unterhalb bzw. oberhalb der Diagonalen besetzte i - t e Spalte bzw. Zeile, wobei u ( = O; gilt:
1 O i)i+1 Oi
Ui =
=
...Oi,
1 1
Sie sind regulär invertierbar, wobei sich U\~l aus U\ durch einen Vorzeichenwechsel der Elemente u ; + ) , i , ... , u m ; ergibt. Das Produkt U\ • Uy erhält man für i < j einfach durch ein Übereinanderkopieren von U\ und i / j , l l Ui+l.i U, • i/j =
Uj+l.j u
mj
Derselbe Sachverhalt gilt auch für Produkte von mehr als zwei dieser Matrizen. Die Linksmultiplikation einer mxn-Matrix A mit t/j bewirkt, daß die i - t e Zeile von A nacheinander mit den Elementen u; + 1 ,j , ... ,u m i multipliziert und zur (i+l)-ten bis m - t e n Zeile von A hinzuaddiert wird,
21
í/¡ A =
Ui + i .i
an
ain
a
ain
i1
a
i i +
a
i+M
u
i + l >i a i n + a i +i,i
u u a mi a¡ n amnbewirkt die entsprechen¡ i + am!oberen Dreiecksmatrix Rechtsmultiplikation mit einer mi elementaren den Spaltenoperationen.
1.2.8 DARSTELLUNG VON LINEAREN ABBILDUNGEN DURCH MATRIZEN Die Bedeutung von Matrizen beruht vornehmlich auf ihrem engen Zusammenhang mit linearen Abbildungen zwischen Vektorräumen (Def. 1.1-6). Sei O: V" -» Vm eine lineare Abbildung und B = {c¡ | i = 1, 2,... ,n} bzw. B = {e¡ | i = 1, 2, ..., m} eine Basis des Vn bzw. des Vm. Dann ist O eindeutig bestimmt durch die Bilder der Basisvektoren (1.2-4)
i = 1, ... ,n ®(«i) = l b i k e k k= 1 mit der nxm-Matrix B = (b ik ). Ist dann I , =1 Xj e1 ein beliebiger Vektor des Vn und I i = 1 y k e k sein Bild im Vm unter der linearen Abbildung O, so besteht zwischen den Koordinatenvektoren x = (x,, ... , xn)^ und y=(y\,... .ym)' die Beziehung (1.2-5)
y=Ax
mit
,t A:=B
Diese Zuordnung zwischen den linearen Abbildungen des V" in den V m und den mxn-Matrizen ist umkehrbar eindeutig, so daß man auch von der Matrix als einer linearen Abbildung zwischen Vektorräumen spricht. Zu einer solchen Abbildung existiert genau dann die Umkehrabbildung, wenn sie bijektiv (umkehrbar eindeutig) ist. Bijektivität bedeutet, daß die Abbildung sowohl suijektiv ist, d.h. daß jedes Element des Bildraums als Bildelement vorkommt, als auch injektiv ist, d.h. daß verschiedene Urbilder auch verschiedene Bilder besitzen. Ist Vm = Vn und die dann quadratische Abbildungsmatrix A regulär, so wird durch (1.2-5) für verschiedene Basen B und B eine Koordinatentransformation mit einer entsprechenden Basistransformation (1.2-4) definiert, y und x stellen dann denselben Vektor bezüglich der verschiedenen Basen B und B dar. Andererseits wird durch (1.2-5) für B = B eine lineare Abbildung des Vn in sich definiert, bei der jedem Vektor x ein Vektor y, bezogen auf dasselbe Basissystem, zugeordnet wird. BEISPIEL 1.2-4 a)
(Ebene Drehungen)
(Drehung des Koordinatensystems): Der Drehung eines ebenen kartesischen Koordinatensystems um
den Winkel
£ 2 mit
(«i) = cos0 et - sin0 e2 4>(e2) = sin0 «! + cos e2
22
Abb. 1.2-1: Ebene Drehung Zur Transformation der Basisvektoren mit der Abbildungsmatrix ß
_
cos0 sinij>
- sin cosij)
gehört eine Transformation (1.2-5) der Koordinatenvektoren y =B lx yi
=
y2 = b)
,
cos0 X] + sin0 x 2 - sin0 X! + cos0 x 2 .
(Punktdrehung)
Einer Punktdrehung um den Winkel 0 entspricht die Basistransformation (1.2-4) (mit B = B) i i (c\) = cos(/>e] + sin e 2 i i («2) = - s i n ^ « ! + costj> e 2
Auch hier erkennt man leicht, daß sich die Abbildung der Koordinatenvektoren (Punkte) mit der transponierten Abbildungsmatrix der Basistransformation vollzieht, y! = cos0 Xj - sin0 x 2 y2 =
sin0 x t + cos
B~A ; A ~ B , B ~ C => A~ C . Zwei Matrizen sind genau dann äquivalent, wenn die eine in die andere durch endlich viele elementare Umformungen überführt werden kann. Sie besitzen also auch den gleichen Rang. Ist insbesondere Vm = Vn und S = T, so erhält man v = T~'ATx = Bx , d.h. eine lineare Abbildung A des Vn transformiert sich bei einer durch T definierten Koordinatentransformation (Basiswechsel) zu T~^AT. DEF. 1.2-7 (Ähnlichkeitstransformation) Die Matrizenbeziehung B = T 'AT mit regulärer quadratischer Matrix T heißt Ähnlichkeitstransformation und A heißt ähnlich zu B. DEF. 1.2-8
(Orthogonale Matrix)
Gilt für eine quadratische Matrix A AAt
=AlA
= / ,
so heißt A orthogonal. = At.
Die Orthogonalitätsbedingung ist gleichbedeutend mit DEF. 1.2-9 (Orthogonaltransformation) Die Transformation y = Ax heißt Orthogonaltransformation. BEISPIELE 1 . 2 - 5 a) b)
, A orthogonal
(Orthogonale Matrizen)
Alle Permutationsmatrizen P sind orthogonal. Die Matrizen der ebenen Drehungen (Beispiel 1 . 2 - 4 ) sind orthogonal und lassen sich zu n-reihigen
orthogonalen Matrizen erweitem ,
1 '
cos0
. . +sin0
1
" . 1
+ sin0
. .
cosip
1 '1
24 Durch geeignete Produkte solcher ebenen Drehungen können beliebige Drehungen im £
n
beschrieben wer-
den, wie z.B die Drehungen eines körperfesten relativ zu einem raumfesten Koordinatensystem im £ 3 i) um die Eulerschen Winkel
y,8,
r ( B l a i , B l a 2 , . . . , ß ± ' a r ) = r und wegen r ( ß l A ) < r(A) folgt die behauptete Ranggleichung.
•
Für B =A± liefert der Satz einen neuen Beweis für r ( A { A ) =r(A). 1.2.12 LINEARE
GLEICHUNGSSYSTEME
Lineare Gleichungssysteme spielen eine herausragende Rolle in linearen Modellen. Sie lassen sich mit Hilfe der Matrixnotation besonders kompakt und übersichtlich darstellen. Dasselbe gilt für die Lösungsverfahren, die in großer Zahl ausgearbeitet worden sind. In den folgenden Definitionen und Sätzen werden lineare Gleichungssysteme charakterisiert und ihre Lösungen in allgemeiner Form angegeben. Die Konkretisierung der Lösungsverfahren erfolgt auf der Basis von Matrixzerlegungen, die im Abschnitt 1.3 behandelt werden, und von Matrixinversionen, denen das Kapitel 2 gewidmet ist. DEF. 1.2-11
(Lineares Gleichungssystem)
Eine Gleichung Ax =y mit bekannter mxn-Koeffizientenmatrix A, bekanntem Vektor ;ye[Rm und unbekanntem Vektor xe Rn heißt lineares Gleichungssystem. Für y = 0 heißt das Gleichungssystem homogen, sonst inhomogen. Das Gleichungsystem heißt konsistent, wenn wenigstens eine Lösung existiert, sonst inkonsistent Eine Darstellung der Menge aller Lösungen heißt allgemeine Lösung. SATZ 1 . 2 - 4
(Eindeutige Lösbarkeit des inhomogenen Gleichungssystems)
Das inhomogene Gleichungssystem hat genau dann eine eindeutige Lösung, wenn ye S(A)
und
r(A) = n
gelten, d.h. wenn A spaltenregulär ist und y in ,S(A) liegt. Beweis: j e S(A) ist gleichbedeutend mit der Konsistenz, d.h. der Existenz einer Lösung jc,. Nach (1.2-9) ist dim M(A) = 0 wegen r(A) = n , d.h. M(A) = 0. Für jede weitere Lösung x2 folgt
27 y
=
AX, = AX2
=>
A(x{ - x2) = 0 =>
- x2 = 0 => X! = x2 . •
SATZ 1.2-5 (Allgemeine Lösung des homogenen Gleichungssystems) Das homogene Gleichungssystem mit o(i4) = mxn, r(A) = r < n hat genau n - r linear unabhängige nichttriviale Lösungen x,, x2, ... , x n _ r * 0, aus denen sich die Lösungsmenge n-r (1.2-14) £ 0 = { z | Az = 0 , z = l XiXi } i=1 mit frei wählbaren Konstanten Aj zusammensetzt. Beweis: Die Lösungsmenge besteht aus dem Nullraum CQ := II(A), für den nach (1.2-9) dim M(A) = n - r gilt. Daher gibt es genau n-r linear unabhängige Lösungen. Wegen n-r n-r A ( I Ai jq ) = I Ai Ax, i=1 i=1
=0
ist jede Linearkombination von Lösungen jq des homogenen Systems wieder eine Lösung des homogenen Systems. (Die triviale Lösung x = 0, die immer existiert, soll hier außer Betracht bleiben.) • Da die Differenz zweier Lösungen des inhomogenen Systems eine Lösung des homogenen Systems bildet, folgt unmittelbar der SATZ 1.2-6 ( Allgemeine Lösung des inhomogenen Gleichungssystems ) Ist XQ eine spezielle Lösung des inhomogenen Gleichungssystems und £ 0 die allgemeine Lösung des homogenen Systems, so ist (1.2-15) C=x0+C0 die Lösungsmenge des inhomogenen Systems. Selbstverständlich ist bei spaltenregulärer Koeffizientenmatrix £ 0 =0 und folglich x =x0 die eindeutige Lösung nach Satz 1.2-4. Hat A hingegen den Defekt n - r und gilt yt S(A), so enthält C genau n - r + 1 linear unabhängige Lösungen des inhomogenen Systems, die nach Def. 1.1-11 eine lineare Manigfaltigkeit bilden. 1.2.13 DIE MPB -INVERSE Die Auflösung eines inhomogenen Gleichungssystems Ax=y durch x = A~]y ist nur bei quadratischer nxn-Koeffizientenmatrix A erklärt. Notwendigerweise müssen dabei wegen der Regularität der n-reihigen Einheitsmatrix / n nach n = r(/ n ) = T(A~1A) < min (r(A _ 1 ), T(A) }
sowohl A_1 als auch A regulär sein. Wünschenswert ist ein allgemeinerer Inversenbegriff, der uns im nächsten Kapitel beschäftigen wird. Er beruht im wesentlichen auf den Eigenschaften einer mxn-Matrix A als linearer Abbildung A : IRn -i IRm. Der folgende Satz beschreibt den für eine mxn-Matrix geltenden Sachverhalt.
28 SATZ 1.2-7 (Bijektive Abbildungseigenschaften einer mxn-Matrix) Eine mxn-Matrix A bildet den Zeilenraum Z(A) c IRn bijektiv (umkehrbar eindeutig) auf den Spaltenraum S(A) c IRm ab. Beweis: Wegen S(A) = {Ax \ xe IRn} gibt es zu beliebigem yt S(A) ein jce IRn mit Ax =y. Nach (1.2-8) ist IRn = Z(A) ® i(A), so daß die nach Satz 1.1-2 eindeutige Zerlegung x=xz
+ xn, xze Z(A), xne Jf(A)
gilt. Mit Axn = 0 folgt Axz =y, d.h. zu jedem yeS(A) gibt es ein Urbild xze Z(A). A : Z(A) -» S(A) ist also suijektiv. Wäre A auf Z(A) nicht injektiv, so gäbe es in Z{A) Elemente XI * jc2 mit Axx =AX2, woraus A(xx - x2)=0 oder (jc, - x 2 )e Jf(A) folgt. Da aber (jc, - x2)eZ(A), müßte x, - x2 =0 oder xx =x2 im Widerspruch zur Voraussetzung sein. Die Abbildung A ist also auch injektiv auf Z(A).
• +
Hieraus resultiert die Existenz der ebenfalls linearen Umkehrabbildung A : S(A) -> Z(A). Nach (1.2-8) ist IRm = i ( A ) ® ji(A{), so daß A+ mit A+y := 0 für ye MiA1) zu einer linearen Abbildung des IRn in den IRm erweitert werden kann. DEF. 1.2-12
(Pseudoinverse oder MPB-Inverse)
Sei A eine mxn-Matrix. Die durch x, (1.2-16) 0,
Ax = y e S(A) y€
KA*)
definierte nxm-Matrix A+ heißt Pseudoinverse oder Moore-Penrose-Bjerhammar-Inverse von A. Ist A quadratisch und regulär, so stimmen die reguläre Inverse A~l
und die Pseudoinverse
A+ überein. A ist dann eine bijektive Abbildung Z(A) »—> ..., i n ) durch eine gerade Anzahl (bzw. ungerade Anzahl ) von Vertauschungen benachbarter Ziffern in die natürliche Reihenfolge 1,2,... ,n überführt werden kann. Die Summe ist über sämtliche n! Permutationen n zu bilden.
Anstelle von det (A) sind auch andere Schreibweisen wie det A oder | A | üblich. BEISPIEL 1 . 2 - 6
(Determinante einer 3X3-Matrix) a
ll
a
12
a
13
a21 a 2 2 a23 a
31
a
32
a
33
a
lla22a33 +
a
12a23a31 +
a
13a21a32 "
a
13a22a31
- a 2 3 a 3 2 a n - a 3 3 a 1 2 a2i
Die Tabelle zeigt die Permutaüonen der Elemente
1,2,3 und die sich aus der Anzahl der Vertauschungen
ergebenden Vorzeichen: (ii,i 2 ,i 3 ) 1 2 3
13 2 2 13
2 3 1 3 12 3 2 1
Vertauschung
sign(i 1 ,i 2 ,i 3 )
0
+
2 2 3
+ +
1 1
Da in jedem der n! Summanden der Determinante einer n-reihigen Matrix A jede Zeile und jede Spalte von A genau einmal vertreten sind, gilt der SATZ 1.2-8 (Die Determinante als Multilinearform) Für eine nxn-Matrix A mit den Spaltenvektoren a\ ist det(A) = det (au eine in jedem Argument a, lineare Funktion ( Multilinearform ) (1.2-18) det (... , a, + Xb{ , ...) =det (... , a,,...
) + Adet (... , & ; , . . . ) ; AelR .
Das Entsprechende gilt für die Zeilenvektoren d x .
a2, ... ,fln)
30 Mit Hilfe dieses Satzes läßt sich zeigen, daß elementare Umformungen der Matrix (Def. 1.2-5) die Determinante bis auf einen Vorzeichenwechsel bei der Vertauschung zweier Zeilen oder Spalten unverändert lassen. Diese Eigenschaft bildet die Grundlage für die tatsächliche Berechnung von Determinanten, die in der Regel über ein numerisches Verfahren zur Auflösung von Gleichungssystemen (Gauß-Algorithmus, vgl. auch Bsp. 1.2-8)), seltener auch durch eine Rückführung auf Unterdeterminanten geschieht. Werden in einer quadratischen Matrix A = (a;k) gleich viele Zeilen und Spalten gestrichen, so bezeichnet man die Determinante der Restmatrix als Unterdeterminante von A. Werden nur die i - t e Zeile und k - t e Spalte gestrichen, so heißt die mit ( - l ) 1 + k multiplizierte Unterdeterminante Adjunkte des Elements a ^ - Hierfür gilt der ebenfalls aus der Summendefinition 1.2-13 ableitbare SATZ 1.2-9 ( Entwicklungssatz ) Die Determinante einer nxn-Matrix A ist gleich der Summe aus den Produkten der Elemente der i-ten Zeile ( k-ten Spalte ) mit ihren Adjunkten. BEISPIEL 1.2-7 det(A) =
1 1 2 -2
2 -1 4 3 0 -1 0 1 -2 0 0 1
= 2(-1) 1+2
=
1 0 -1 2 1 -2 -2 0 1
2 -1 4 3 0 -1 0 1 -2
-2(-l)4
+ 3(-l) 2 + 2
+ (-1) 4+4
1 2 -1 1 3 0 2 0 1
= 16 + 7 = 23
1 -1 4 2 1 -2 -2 0 1
Dabei stellt das obere Beispiel die Entwicklung der Determinante nach der vierten Zeile und das untere die Entwicklung nach der zweiten Spalte dar, die sich beide durch das Verschwinden von zwei Elementen hierfür anbieten. Die transponierte Matrix der Adjunkten wird auch als adjungierte Matrix adj (A) bezeichnet. Hervorzuheben ist die Eigenschaft (1.2-19)
A • adj (A) = a d j ( A ) A = d e t ( A ) / .
Man erkennt hieraus, daß die Inverse A1
sich in der Gestalt
A _1 = —!
(1.2-20)
adj (A)
det(A) darstellen läßt und weiter, daß A~x nur bei nichtverschwindender Determinante existiert. Für die praktische Berechnung der Inversen kommt die adjungierte Matrix wegen des zu hohen Rechenaufwandes allerdings nicht in Frage. Auch hier bietet die numerische Mathematik rechentechnisch günstigere Verfahren an, wie z.B. das Gauß-Jordan Verfahren. SATZ 1.2-10 (Eigenschaften von Determinanten) Für die Determinante einer nxn-Matrix A gelten die folgenden Eigenschaften: a) det(A) * 0 r(A) = n b)
det(AA) = An det(A)
c)
det(A i )=det(A)
31 d)
det(A- 1 ) = ( d e t ( A ) ) - 1
e)
det(Afi) =dct(A)-dct(B) für o ( B ) = o(A)
f)
det
B C
= det(A) • det( C),
A und C quadratisch .
Als Anmerkung für einen Beweis von e) und f) sei erwähnt, daß jede reguläre Matrix als Produkt von Elementarmatrizen L, P, U ( vgl. Def. 1.2-5 ) geschrieben werden kann, für die die beiden Eigenschaften d) und e) leicht nachzuweisen sind. Die Eigenschaft f) besagt insbesondere, daß die Determinante einer oberen Dreiecksmatrix a
det
I 1 a12 " ' ' a l n a 22 ' ' ' a2n
- a u a 2 2- • a n
o
gleich dem Produkt der Elemente in der Hauptdiagonalen ist. Durch elementare Umformungen der Matrix kann diese Gestalt stets realisiert werden. BEISPIEL 1 . 2 - 8
(Berechnung einer Determinanten)
Wir erläutern das typische Vorgehen bei der Determinantenberechnung an der in Beispiel 1 . 2 - 7 bereits berechneten Determinante, 1 1 2 2
2 -1 4 3 0 -1 1 -2 0 0 0 1
(D
» m—>»
33 und damit für A * I 00
(1.2-26)
I
k= 0
A k = (/ - A)-1
.
Ist Al = (a* jk) und a > | ajic | für j, k = 1, 2,... , n eine obere Schranke der Elemente von A, so gilt | a ( j k | < n I _ l a1 und die Potenzreihe (1.2-25) konvergiert sicher, falls die reelle Potenzreihe |ai|(na)' konvergiert. Genauere Konvergenzkriterien erfordern die Kenntnis der Eigenwerte von A , die in Kap. 1.3 betrachtet werden. BEISPIEL 1.2-9
„m
Die reelle Exponentialreihe e x = 2. j = 1 ( x m /(m!)) ist für jedes x e R konvergent. Daher konvergiert auch die durch
Ax
=
j. m= l. m!
definierte Matrix - Exponentialreihe ohne Einschränkung für jedes reelle x. Die Lösung des linearen homogenenen Differentialgleichungssystems
y ' = Ay ; y(0) = yQ Ax läßt sich damit durch y = e
yQ darstellen.
Weitere Beispiele, insbesondere für die Anwendung der Neumannschen Reihe auf die Lösungen linearer Gleichungssysteme, folgen in Abschnitt 1.5 (vgl. Beispiel 1.5.3 c)).
34 1.3 EIGENWERTE UND MATRIXZERLEGUNGEN In diesem Abschnitt wenden wir uns zunächst quadratischen nxn-Matrizen zu, die lineare Selbstabbildungen des IRn repräsentieren. Unser besonderes Interesse gilt dabei invarianten eindimensionalen Unterräumen, die bei einer solchen Abbildung in sich selbst abgebildet werden und deren Elemente lediglich um eine charakteristische Zahl A verkürzt oder gestreckt werden. 1.3.1 SPEZIELLES EIGENWERTPROBLEM DEF. 1.3-1 (Spezielles Eigenwertproblem) Eine Lösung A des homogenen Gleichungssystems mit der nxn-Matrix A
Ax = Xx ( AI - A)x = 0 heißt Eigenwert von A und der zugehörige Vektor x heißt Eigenvektor zum Eigenwert A. Die Aufgabe, zu einer vorgegebenen Matrix A die Eigenwerte und Eigenvektoren zu bestimmen, heißt spezielles Eigenwertproblem. Nach Satz 1.2-5 hat das homogene Gleichungssystem ( A / - A)x = 0 nur für r( XI - A) < n nichttriviale Lösungen x * 0 und dies ist nach Satz 1.2-10 a) gleichbedeutend mit dem Verschwinden der Koeffizientendeterminante. Die Eigenwerte sind daher genau die Nullstellen des charakteristischen Polynoms (1.3-1)
det (XI - A) = An + ajA"- 1 + a 2 A n -> + ... + a n .
Nach dem Fundamentalsatz der Algebra hat dieses Polynom genau n Nullstellen, wenn jede Nullstelle mit ihrer Vielfachheit gezählt wird. Die Matrix A hat daher ebenfalls genau n nicht notwendig verschiedene Eigenwerte. Zwischen den Koeffizienten ot; und den Nullstellen Aj bestehen nach dem Wurzelsatz von Vieta die Beziehungen A, + A2 + ... + An = - a { A,A2 + A,A3 + ... + An_,An =
a2
A ^ A j + A,A2A4 + ... + An_2An_, An = - oc3 (1.3-2) A,A2-An=(-l)"an
.
Die für den ersten und letzten Koeffizienten des charakteristischen Polynoms geltenden Eigenschaften - a , = sp(A) , ( - l ) n a n = det(A), zeigen die beiden nützlichen Beziehungen n
(1.3-3)
n
sp(A) = l A; , det(A) = II A; . i=1 i=1 Die Summe sämtlicher Eigenwerte ergibt also gerade die Spur von A, während das Produkt aller Eigenwerte gleich der Determinante von A ist. Notwendig und hinreichend für
35 det(A) = 0 ist daher A, = 0 für wenigstens einen Eigenwert A¡ . Eine quadratische Matrix ist also genau dann regulär, wenn sämtliche Eigenwerte von Null verschieden sind und genau dann singular, wenn wenigstens einer ihrer Eigenwerte Null ist. Die Länge eines Eigenvektors ist offenbar nicht eindeutig bestimmt, da mit x auch jedes skalare Vielfache von x wieder ein Eigenvektor ist. 1.3.2 ALGEBRAISCHE U N D GEOMETRISCHE
VIELFACHHEIT
Die durch die Vielfachheit einer Nullstelle definierte Vielfachheit eines Eigenwerts wird als dessen algebraische Vielfachheit bezeichnet. Ist A ein k - f a c h e r Eigenwert der n x n - Matrix A, so besitzt das homogene Gleichungssystem (A - A I ) x = 0 nach Satz 1.2-5 genau n - r(A - XI) linear unabhängige Lösungen x, die den zu A gehörenden Eigenraum aufspannen. Diesen Defekt der Koeffizientenmatrix A - XI nennt man die geometrische Vielfachheit des Eigenwerts. Nun erkennt man leicht, daß die zu verschiedenen Eigenwerten gehörenden Eigenvektoren linear unabhängig sind. Gäbe es nämlich zu A, * X2 linear abhängige Eigenvektoren jcj = ax2, so würde sich wegen A,*, =Axt
= Accx2 - ccAx2 =
Xx.
Die Behauptung folgt dann mit Ai x = AJ x aus
lßiAlxf(X) = BEISPIELE a)
I ri
=>
f(A)x = ( X f t A V - I n
1.3-2
p(t) = - t, q(t) = 1, / ( A ) = - A , f(A) = - A. Die Matrix - A hat als Eigenwerte die negativen Eigen-
werte von A. b)
P(t) = 1. q(t) = t, / ( A ) = A ~ 1 , f(A) = A _ 1 . Die inverse Matrix hat als Eigenwerte, die Kehrwerte
der Eigenwerte von A.
= 1, q(t) = t - m ,
c)
p(t)
d)
p(t) =
1, q(t) = ^
fW
=A -
, / ( A ) = (A
ßl,
f(A) = A -
- ß i y 1 , f(A) =
ß. .
37 1.3.4 INVARIANZ DER EIGENWERTE BEI ÄHNLICHKEITSTRANSFORMATIONEN Für die numerische Praxis der Eigenwertberechnung spielt das charakteristische Polynom nur eine untergeordnete Rolle. Bereits das Aufstellen dieses Polynoms ist mit einem nicht unerheblichen Rechenaufwand (etwa n3 Operationen ) verbunden. Die Koeffizienten sind dann schnell durch Rundungsfehler verschmiert und die Wurzelbeziehungen (1.3-2) von Vieta lassen erkennen, daß die Polynomkoeffizienten bereits für Matrizen geringer Ordnung sehr große Werte annehmen können. Eine genauere Untersuchung zeigt zudem, daß Ungenauigkeiten in den Koeffizienten des charakteristischen Polynoms die Eigenwerte viel stärker verfälschen als Ungenauigkeiten in den Koeffizienten der Matrix. Nach einem bekannten Satz der Mathematik gibt es keine formelmäßige Darstellung der Nullstellen für Polynome höheren Grades (n>5), so daß eine Eigenweitberechnung mit Hilfe des charakteristischen Polynoms eine numerisch sehr aufwendige Nullstellenbestimmung erfordert. Fast alle praktischen Verfahren zur Eigenwertberechnung machen daher Gebrauch von der Invarianz der Eigenwerte gegenüber gewissen Transformationen der Matrix und transformieren die Matrix auf eine Gestalt, die eine ähnlich einfache Eigenwertbestimmung wie in den Fällen des Beispiels 1.3-1 d) gestattet. Die wichtigsten Transformationen dieser Art sind Ähnlichkeitstransformationen (Def. 1.2-7). SATZ 1.3-2 (Ähnlichkeitstransformation und Eigenwerte) Eine Ähnlichkeitstransformation T'lAT ändert die Eigenwerte nicht. Beweis: det (T-^AT - XI) =det (T~l(A - XI)T) =det(T- 1 7') det(>i - XI) = det(A/ - A) . o Mit den Eigenwerten einer Matrix bleiben auch Determinante und Spur bei einer Ähnlichkeitstransformation invariant. Um die numerisch sehr aufwendige Matrixinversion zu umgehen, bieten sich für diesen Zweck Ähnlichkeitstransformationen mit orthogonalen Matrizen an, bei denen die Inversion durch einfaches Transponieren der Matrix vorgenommen werden kann. Der folgende Satz zeigt, daß es zu jeder Matrix eine entsprechende Ähnlichkeitstransformation gibt. Ein besonderes Augenmerk gilt seinem Beweis, der die Grundlage für einen sehr effizienten Algorithmus der numerische Eigenwertberechnung bildet. SATZ 1.3-3 (Transformation auf Dreiecksform mit Eigenwertdiagonale) Jede beliebige nxn-Matrix A läßt sich orthogonal in eine Dreiecksmatrix D transformieren, deren Diagonalelemente die Eigenwerte sind, A[ d (1.3-4)
TlAT = D =
Beweis: Zum Eigenwert A, mit dem Eigenvektor x, und x/jr, = 1 gibt es durch Hinzunahme weiterer linear unabhängiger Vektoren u2, «3, ... , un eine orthogonale Matrix Ui = (x,, h 2 , ... , n n ) , für die
38 A, A,
Ii Ö
0
U\AU X = 0
ist. Wird dieses Vorgehen auf die ( n - 1 ) - reihige Submatrix A, ( die außer A, alle Eigenwerte von A besitzt ) mit einer analog gebildeten ( n - 1 ) - reihigen orthogonalen Matrix U übertragen, so gilt mit der orthogonalen nxn-Matrix A, 0 a2 U,=
l u ]
< (UÌU2)'-A-(U1U2)
0
= 0
0
A2
Da das Produkt orthogonaler Matrizen wiederum orthogonal ist, läßt sich die behauptete Darstellung in höchstens n - 1 solcher Schritte erreichen. o BEISPIEL
1.3-3 A =
Die Matrix
2 8 3 4
hat einen Eigenwert A = 8 mit dem auf die Länge Eins normierten Eigenvektor x = f ( 4 , 3 ) , zu dem der 5 1 t ebenfalls normierte Vektor u = j (3, - 4 ) orthogonal ist. Mit der damit gebildeten orthogonalen Transformationsmatrix T= (x , u) gilt TlAT = i
"4
3 " ' 2 8" _ 3 -4 3 4
1 '4 3 " 5 _ 3 -4
"8 - 5 " 0 -2
In der Tat ist A = - 2 der zweite Eigenwert (vgl. Beispiel 1.3-1 a)).
DEF 1.3-2 (Diagonalähnliche Matrix) Besitzt die nxn-Matrix A genau n linear unabhängige Eigen vektoren x , , so bilden diese eine Basis im Vn, das sog. System der Eigenachsen von A. Matrizen mit dieser Eigenschaft heißen diagonalähnlich. Faßt man die Eigenvektoren x; als Spaltenvektoren zur regulären Matrix T zusammen, so erhält man die Diagonalmatrix A2 AT
= (Axu
... ,Ax„)
O
T = d i a g ( A„ A 2 ,... , A n )T
= O
mit der Ähnlichkeitstransformation (1.3-5)
r - ' A r = diag(A 1
An) .
Läßt sich umgekehrt A durch eine Ähnlichkeitstransformation B~lAB =D auf Diagonalgestalt bringen, so folgt aus AB = BD , daß die Diagonalelemente von D Eigenwerte von A mit den linear unabhängigen Spaltenvektoren von B als Eigenvektoren sind. Da die Reihenfolge der Eigenvektoren jq beliebig ist und mit x-t auch axt für ae IR ein
39 Eigenvektor ist, ist die Matrix T der Ähnlichkeitstransformation nicht eindeutig bestimmt. Es läßt sich zeigen, daß eine Matrix genau dann diagonalähnlich ist, wenn für sämtliche Eigenwerte algebraische und geometrische Vielfachheit übereinstimmen. Jede n x n - M a t r i x mit n verschiedenen Eigenwerten ist also diagonalähnlich. Weiter kann gezeigt werden, daß eine Matrix A genau dann diagonalähnlich ist, wenn sie zur Klasse der normalen Matrizen gehört, die durch die Eigenschaft AAl = A*A charakterisiert ist. Zu dieser Klasse gehören neben den orthogonalen und schiefsymmetrischen insbesondere die symmetrischen Matrizen. 1.3.5 EIGENWERTE SYMMETRISCHER
MATRIZEN
SATZ 1.3-4 (Eigenwerte und Eigenvektoren symmetrischer Matrizen) Sei A eine reelle symmetrische nxn-Matrix. Dann gilt: a) Alle Eigenwerte A; und Eigenvektoren X[ sind reell. b) Die zu verschiedenen Eigenwerten gehörenden Eigenvektoren sind orthogonal, x\ = 0 für A; * Aj . c) Ist r(A) = r < n , so tritt der ( n - r ) - f a c h e Eigenwert A=0 auf, zu dem n - r orthogonale Eigenvektoren gehören. Beweis: a) Komplexe Nullstellen eines reellen Polynoms treten stets in konjugiert komplexer Form a + ib, a - ib auf. Hätte das charakteristische Polynom daher eine komplexe Nullstelle a + i b , so wäre die Matrix C = [(a + ib) / - A] [ ( a - i b ) / - A] = (a / - A)2 + b 2 / reell und singulär, da jeder der beiden Faktoren singulär ist. Folglich (Satz 1.2-5) gibt es mindestens einen Vektor x*0 mit Cx=0 und x'Cx =x'(a I - A)2x + b2xlx = 0 . Da dies nur für b = 0 möglich ist, folgt die Behauptung. b) Seien A, * A2 zwei Eigenwerte mit den Eigenvektoren je, bzw. x2- Dann gelten Ax^ und
Ajj^i , AX2
=
A2jc2
X[AXy = A , j c j , xf/4o: 2 = A 2 jcfjt 2
Hieraus folgen \\x{xx = A2jcfjc2 und damit x[x2 =0 wegen A, * A2. c) Dieser Teil der Behauptung folgt unmittelbar aus Satz 1.3-3.
o
Eine symmetrische nxn-Matrix A besitzt demnach stets n orthogonale Eigenvektoren, die man durch geeignete Wahl als Orthonormalsystem jcfjtj = 5 2 > ... > 5 r > 0 gilt. b) (Hauptachsentheorem) Ist A symmetrisch, so kann V = W gewählt werden. Die 5; sind dann die Eigenwerte von A und es gilt (1.3-10) D = V'AV. c) Sind V;, w¡ die Spaltenvektoren von V bzw. von W, so ist
44
(1.3-11)
A=
I 8i v¡ i=1
.
Beweis: a) AA* und A*A haben dieselben r positiven Eigenwerte, während die restlichen m - r bzw. n-r Eigenwerte Null sind. Wir numerieren die Eigenwerte der Größe nach , 8 X 2 > 8 2 2 > ... > 5 r 2 > 0
=»
5! > S 2 > ... > 5 r > 0 ,
und fassen die 5, zur Diagonalmatrix D zusammen, die wir durch Hinzufügung von Nullen zur mxn-Matrix D erweitem. Seien nun v¡ e IRn die zu
Aw[
5¡ v¡ = Aw{ 5¡ W[ =5¡Atví
=AtAw¡
.
Da sich die Orthonormalität der v, auf die Vektoren w¡ überträgt, ist durch die Hinzunahme weiterer n-r geeigneter Vektoren w r + 1 ,... , wn e M(A) eine orthogonale Matrix W = (wu w2, ... , w n ) mit AtAW = DtDW bestimmt. Die Behauptung folgt dann aus (1.3-13)
AtV = DtW,
AW = DV .
b) Für symmetrisches A ist V = W wegen AlA= A A1 offensichtlich. c) (1.3-11) ergibt sich aus (1.3-13) durch Rechtsmultiplikation mit W~l = Wl.
•
SATZ 1.3-10 (Zerlegung in orthogonale Matrizen und Normalform) Zu jeder mxn-Matrix A vom Rang r existieren eine reguläre mxm-Matrix M und eine orthogonale nxn- Matrix N mit A
Beweis:
'
u
[ o
o
Mit
und N = W{ folgt die Behauptung aus Satz 1.3-9.
]"
45 Ist A quadratisch, so kann offensichtlich Ml = N gewählt werden mit M=
Dxn O
O Im.t
V.
1.3.11 CHOLESKY - ZERLEGUNG Eine für viele spätere Betrachtungen besonders wichtige Matrixzerlegung betrifft symmetrische Matrizen. Hier versucht man, die aus der Symmetrie resultierenden günstigen Eigenschaften zu erhalten, indem man die Zerlegung ebenfalls symmetrisch durchführt. Zwar gelingt dies nicht für beliebige symmetrische Matrizen, aber immerhin doch für den in der Praxis wichtigsten Fall symmetrischer nichtnegativ definiter Matrizen Q, die durch die Eigenschaft xCQx > 0 Vor (vgl. Def. 1.4-2) charakterisiert sind. SATZ 1.3-11 (Cholesky-Zerlegung) Sei A eine symmetrische, nichtnegativ definite Matrix der Ordnung nxn. Dann existiert eine obere Dreiecksmatrix C der Ordnung nxn mit der Eigenschaft (1.3-14)
A=ClC.
Wenn A regulär ist, ist auch C regulär und eindeutig. Es existiert dann die Inverse A~l = C " 1 ( C V 1 • Hat A den Rang r(i4) = r < n, so hat C ebenfalls den Rang r und n-r Diagonalelemente von C nehmen den Wert Null an. Durch Pivotisierung kann stets erreicht werden, daß dies die letzten n-r Elemente sind. Beweis: Wegen der Symmetrie von A besitzt das Gleichungssystem (1.3-14) im regulären Fall genau n(n+l)/2 unabhängige unbekannte Elemente Cjj von C ; über die restlichen n(n-l)/2 Elemente kann frei verfügt werden. Bei der Cholesky-Zerlegung werden alle unterhalb der Diagonalen liegenden Elemente von C zu Null festgelegt. Alle anderen Elemente sind dann durch die Rekursionsformel i-l 2 di = a n - I cki ; c i ; (1.3-15) i = l, ... , n ; j = i + l , . . . , n i-1 Cij = ( ajj - I c ki c kj )/c i ; eindeutig bestimmt. Aus der Dreiecksform mit voll besetzter Diagonale ergibt sich unmittelbar r(C ) = n . Wenn r(A) < n ist, tritt genau (n-r)-mal d; = 0 auf, womit c ; i = 0 gilt. Für die entsprechende Zeile ergibt sich dann auch ( a;j - Xk=1 ck; c k j ) = 0, so daß c ; j unbestimmt ist. Durch Zeilen- und Spaltenvertauschung kann stets erreicht werden, daß dieser Fall genau für i = r+1, r+2, ... , n eintritt. Für i > r werden die Elemente c;j zweckmäßigerweise zu Null festgelegt. • Mit Hilfe einer Cholesky-Zerlegung läßt sich in vielen Fällen das allgemeine Eigenwertproblem (1.3-7) unter Erhaltung der Symmetrie in ein spezielles Eigenwertproblem überführen. Ist nämlich B = ClC eine Cholesky-Zerlegung mit einer regulären Matrix C, so gilt
46 (1.3-16)
Ax = XBx
Ax = XClCx
&
= Xy ; y = C lx .
d^AC^y
BEISPIELE 1.3-7 1 1 -1 1 1 5 -1 3 1 -1 2 -1 1 3 -1 3
A =
a)
Der Algorithmus (1.3-15) liefert der Reihe nach die Werte di = 1, c , j = 1, c, 2 = 1, c, 3 = - 1 , c, 4 = 1 d 2 = 4 . C22 = 2, c 2 3 = 0, c 2 4 = 1 d 3 = 1, C33 = 1, C34 = 0 ¿ 4 = 1 , C44 = 1 . Die Zerlegung ist damit abgeschlossen und zeigt
A = CC
1 1 2 -1 0 1 1 1 0 1
=
b)
1 1 - 1 1 2 0 1 1 0 1
0 0 0 0 1-1 1 0 -1
Q =
Wegen q n = 0 ist d, = 0 und folglich Cn = 0 . Die Elemente Ci2 und c 1 3 sind daher nicht eindeutug bestimmt . Wir setzen Ci2 = c 1 3 = 0 . Mit den weiteren Elementen d2
=
1, c 2 2 = 1, c 2 3 = - 1 , d 3 = 0, c 3 3 = 0
erhalten wir die Zerlegung
Q = C'C =
0 0 1 0-10
0 0 0 1 -1 0
Eine Pivotisierung von Q mit einer Vertauschung von erster und dritter Zeile und Spalte 1 -1 0 -1 1 0 0 0 0 und anschließender Cholesky-Zerlegung von dl
=
1> c i 1
=
,
p =
0 0 1 0 1 0 1 0 0
p'qP 1» Cj 2 = -1, c 1 3 = 0 ; d 2 = 0
führt nach Rückvertauschung zu der Zerlegung 0 0 0 -1 0 0 1 0 0
0 -1 1 0 0 0 0 0 0
47 1.4 QUADRATISCHE FORMEN Quadratische Formen sind aufs engste mit den im nächsten Abschnitt behandelten Normen verbunden. Sie haben große Bedeutung bei der geometrischen Interpretation von Vektorbeziehungen und treten häufig bei statistischen Problemstellungen auf, insbesondere bei der Betrachtung von Varianzen. 1.4.1 NICHTNEGATIV DEFINITE QUADRATISCHE FORMEN DEF. 1.4-1
(Quadratische Form)
Sei xl = (x l t x 2 , . . . , x n ). Ein homogenes Polynom n n q(x) = I l aijXiXj =x'Qx ; q ; j
(ajj + a j; )
i = 1 j= 1
heißt quadratische Form in den Variablen x 1 ; ... , x n . Die symmetrische Matrix Q heißt Formmatrix. DEF. 1 . 4 - 2
(Definite quadratische Formen)
Die quadratische Form q und die Formmatrix Q heißen positiv définit, wenn xlQx
>0
ist. Sie heißen positiv semidefinit, wenn x'Qx
>0
Vjc * 0
ist und wenn für mindestens einen Vektor x * 0 das Gleichheitszeichen gilt. Sie heißen nichtnegativ définit, wenn sie entweder positiv définit oder positiv semidefinit sind. Die quadratische Form q und die Formmatrix Q heißen negativ (semi-) définit,wenn -Q positiv (semi-) définit ist. In allen anderen Fällen heißen q und Q indefinit. BEISPIELE
1.4-1
a)
ö =
10 01
b)
ß =
1 1 1 1
, q = X[2+ x22 > 0
, q = xt2-l- 2x,x2 + x 2 2 = (xj + x2)2 > 0
Vx!,x2 # 0 ;
q ist positiv definit.
Vx,,x 2 # 0
Für X! = - x 2 ist q = 0 und deswegen nur positiv semidefinit.
c)
Q=
d)
Qx = 0 .
Für einen beliebigen Vektor y und beliebiges a e IR gilt 0 < (ax + y)lQ(ax = 2a (y*Qx) +
+ y) = a2xlQx
+ 2aylQx
+ ylQy
=
l
y Qy
l
Da dies für alle ae IR gilt, folgt y Qx = 0. Weil y beliebig ist, folgt Qx = 0. • Nachdem das homogene Gleichungssystem Qx = 0 bei regulärem Q nur trivial lösbar ist, geht der folgende Satz aus dem vorangehenden unmittelbar hervor. SATZ 1 . 4 - 2 Eine
(Notwendige und hinreichende Bedingung für positive Definitheit) Formmatrix
Q
ist
genau
dann
positiv
définit,
wenn
sie
nichtnegativ
définit und regulär ist, d.h. wenn r ( ß ) = m für o(Q) = m x m gilt. SATZ 1 . 4 - 3 (Übertragung der Definitheit von Q auf
A*QA)
Sei Q eine symmetrische m x m - M a t r i x und A eine beliebige m x n - M a t r i x . a)
Ist Q nichtnegativ définit, so ist auch AlQA
b)
Ist Q positiv définit und ist A spaltenregulär, so ist auch A*QA positiv définit.
nichtnegativ définit.
Beweis: Seien xe IRr, y =Ax und Q nichtnegativ définit. Dann ist xt(AtQA)x
= ytQy
> 0
für alle x , d.h. es gilt a). Ist A spaltenregulär und ist Q positiv définit, so ist y * 0 für x * 0 und damit xt(AtQA)x
•
> 0 .
Der Sonderfall A = Q'1 zeigt, daß die Inverse einer positiv definiten Matrix ebenfalls positiv définit ist. Einen weiteren wichtigen Sonderfall erhalten wir für Q = I : SATZ 1 . 4 - 4
(Gaußsche Transformation einer Matrix A)
Die symmetrische Matrix AlA spaltenregulär ist. Neben AlA BEISPIEL 1.4-2
ist nichtnegativ définit. Sie ist positiv définit, wenn A ist dann auch AAl
nichtnegativ définit.
(Methode der kleinsten Quadrate)
1, = x , 12 = x, + x 2 h = x i + x2 + x3 14 = x 2
;
l=Ax
15 = x2 + x 3 1« =*3 Abb. 1.4-1: Winkelmessung in allen Kombinationen
49 Zur Bestimmung dreier Winkel x = (xj, x 2 , x 3 ) ' werden sechs Messungen / = (lj, 1 2 , ... , 1«)' durchgeführt. Auf Grund der unvermeidbaren Meßfehler sind die einzelnen Gleichungen widersprüchlich, d.h. das Gleichungssystem ist inkonsistent. Um die Gleichungen miteinander verträglich zu machen und die Konsistenz des Gleichungssystems herzustellen, wird eine noch zu bestimmende Verbesserung
v = (v!,v 2
v 6 ) an-
gebracht, 1, + v, = x , 12 + V2 = X] + x 2 13 + v 3 = X, + x 2 + x 3 14 + v 4 =
x2
>5 + v 5 =
x2 +
>6 + v 6 =
;
/ + v = Ax
.
x3
Eine sinnvolle Methode, den durch die Meßfehler bedingten Widerspruch in den Ausgangsgleichungen auszugleichen, besteht dann darin, die Korrektur v in einem gewissen Sinn minimal zu machen und v aus der Forderung
6
q = v'v =
X v;2 i = 1
-
Min
zu bestimmen. Das inkonsistente Gleichungssystem l = Ax wird bei dieser auf Gauß zurückgehenden Methode der kleinsten Quadrate durch die Fehler- oder Vcrbesserungsgleichungcn v=Ax
- l
ersetzt. Die Forderung nach minimaler Quadratsumme der Verbesserungen bedeutet q(x,, x 2 , x 3 ) = v'v = (Ax - l)'(Ax
- l) = X'A'AX - X'A'I - llAx
+ l'l = Min.
Die aus der Infinitesimalrechnung bekannten notwendigen Extremumsbedingungen d q / d x ; = 0
sind in
diesem Fall auch hinreichend, da die Hessesche Matrix der zweiten partiellen Ableitungen mit der positiv definiten Matrix AlA übereinstimmt und liefern zur Bestimmung von v das System der Normalglcichungcn AlAx - All = 0 . Im vorliegenden Fall ist A offensichtlich spaltenregulär und das System der Normalgleichungen hat die eindeutige Lösung ^
x =
t
1
t
(AA)~xAl.
Das skizzierte und in der Geodäsie als Ausgleichung nach vermittelnden Beobachtungen bekannte Verfahren kann unmittelbar auf den Fall von n unbekannten Größen x; und
m > n Beobachtungen übertragen
werden.
1.4.2 HAUPTACHSENTRANSFORMATION DEFINITER MATRIZEN In Satz 1.3-4 wurde gezeigt, daß jede symmetrische Matrix ausschließlich reelle Eigenwerte und Eigenvektoren besitzt, wobei die zu verschiedenen Eigenwerten gehörenden Eigenvektoren orthogonal sind. Ein Defekt der Matrix hat den Eigenwert A = 0 mit der entsprechenden Vielfachheit und ebenso vielen orthogonalen Eigenvektoren zur Folge. Die Eigenvektoren einer symmetrischen Matrix können zur orthogonalen Modalmatrix T zusammengefaßt werden und die damit gebildete Ähnlichkeitstransformation (Hauptachsentransformation) transformiert die symmetrische Matrix auf Diagonalgestalt. Für den hier interessierenden Sonderfall positiv definiter und semidefiniter Matrizen lassen sich daraus wichtige Eigenwert- und Zerlegungseigenschaften ableiten, die in den
50 nachfolgenden Sätzen 1 . 4 - 5 bis 1 . 4 - 8 zusammengestellt sind. SATZ 1.4-5
(Hauptachsentransformation definiter Matrizen)
Eine reelle symmetrische n x n - M a t r i x Q ist dann und nur dann positiv definit, wenn ihre Hauptachsentransformation (1.4-1)
T , ß T = diag(Ai) auf nur positive Diagonalelemente führt. Sie ist positiv semidefinit vom Rang r genau dann, wenn r Diagonalelemente positiv und die restlichen Null werden.
Beweis:
Die mit Q als Formmatrix gebildete quadratische Form ergibt sich unter Berück-
sichtigung der Orthogonalität von T und mit y = Tlx zu n = xtT- diag (A;)• Tlx = I y;2 . i=1 Sind alle Diagonalelemente Aj positiv, so ist auch q positiv. Ist umgekehrt q > 0 und wäre q = xtQx
(1.4-2)
ein Diagonalelement
A; < 0 , so würde dies mit dem zu A; gehörenden Eigenvektor x\ zu
einem Widerspruch führen, 0 < q =x\Qx\ = A i x ' j f i
< 0.
Im Falle lediglich nichtnegativer Aj gilt q > 0 und der analoge Widerspruch ergibt sich für ein Aj < 0 .
•
1.4.3 EIGENWERTE NICHTNEGATIV DEFINITER MATRIZEN W i r betonen die in diesem Satz enthaltene eindeutige Charakterisierung positiv definiter und semidefiniter Matrizen mit Hilfe ihrer Eigenwerte noch einmal durch den folgenden SATZ 1.4-6
(Eigenwerte definiter Matrizen)
Eine reelle symmetrische n x n - M a t r i x Q ist genau dann nichtnegativ definit, wenn alle Eigenwerte von Q nichtnegativ sind und genau dann positiv definit, wenn alle n Eigenwerte positiv sind. Ist Q semidefinit mit r(Q) < n, so muß also wenigstens einer ihrer Eigenwerte verschwinden. Besonders häufig wird uns dieser Fall bei symmetrischen Projektionsmatrizen P begegnen, die als idempotente Matrizen singulär sind und für die nach Satz 1 . 3 - 5 nur die Eigenwerte Null und Eins mit r ( P ) = sp(P) in Frage kommen. BEISPIEL 1.4-3 Die Quadratsumme der Abweichungen vom Beobachtungsmittel 7 aus n Beobachtungen / = 0 , 2
(qji >0) ; i = l , 2 , . . . , n
qij < qn qjj,
(q?j ^ qu qjj)
54 c)
max | qij | liegt in der Diagonalen . i 'j
Beweis: Sei xt = (x,, x 2 , ... , x n ). Wegen X'QX > 0 für alle x * 0 folgt a) für Xj = 1 und xj = 0 für i * j. Sind xj = 1, x; beliebig und x^ = 0 für i * k * j, so ist x'Qx = qn x ; 2 + 2q ;j x ; + qjj > 0 2
= (x; +3LL) 2 + ä i ^ - 3 i j _ f ü r q i i 4n 4ii n.. 4i l Hieraus folgt b) für x, = - q;J¡/q;; . Ist bei einer positiv semidefiniten Matrix q ; ; = 0 , so t zeigt x Qx = 2qijXi + q_y > 0 , daß sämtliche Elemente in der entsprechenden Zeile und Spalte verschwinden. Die Bedingung c) folgt unmittelbar aus b). • 1.4.6 ABSCHÄTZUNGEN DER EIGENWERTE SYMMETRISCHER MATRIZEN Über die Elemente der Formmatrix lassen sich auch Eigenwertabschätzungen gewinnen. Wählt man die Diagonalelemente q ; i als Mittelpunkte von "Kreisen" mit den Radien I |qjk| mit k * i, so liegen nach dem Kreisesatz von Gerschgorin die Eigenwerte in der Vereinigung dieser n Kreisscheiben. Es sei angemerkt, daß dieser Satz für beliebige, auch nicht symmetrische Matrizen gilt und diese Kreise dann in der komplexen Ebene betrachtet werden müssen. In dem hier allein interessierenden Fall reell symmetrischer Matrizen erhält man in der Regel sehr viel bessere Abschätzungen durch den Rayleigh-Quotienten: DEF 1.4-3 (Rayleigh-Quotient) Für eine symmetrische Matrix Q heißt der Quotient
X
Rayleigh - Quotient.
X
Eine erste Eigenschaft des Rayleigh-Quotienten erkennen wir, wenn wir für x einen Eigenvektor von Q einsetzen, XX XX Der Rayleigh-Quotient liefert also an der Stelle eines Eigenvektors den zugehörigen Eigenwert. Für symmetrische Matrizen resultiert daraus eine ganz besonders wichtige Extremaleigenschaft des Rayleigh-Quotienten. SATZ 1.4-11 (Minimax-Eigenschaft des Rayleigh-Quotienten) Sei Q eine symmetrische nxn-Matrix mit den Eigenwerten A[ > A2 > ... > An und den zugehörigen orthonormierten Eigenvektoren v 1 ; v 2 ,... , v n . Für j = 1 , . . . , n gelten: a) (1.4-3)
Aj = max {
x*0 X
X
, x'v; = 0 , i = 1,... , j - l }
55 b) Courantsches Maximum-Minimum-Prinzip
(1.4-4)
Aj =
min
X\, ...
,
i
{ m a x ^ ^ | x*0, X X
A j =0, i = 1,... , j-1 } ,
wobei jcj, ... , acj_j beliebige j - 1 Vektoren des IRn sind. Beweis: a) Aus jc'v; = 0 für i = 1,... , j - 1 folgt x = X k= j «k v k und damit n
(1.4-5)
x tQx
=(
n
«icVk/
I k=J
n
n
ß-i I«,vi)= l aka,A, i-j ¿=.
< Aj
I o,, k=j
.
Für a. = 1 und a,+x =... = a n = 0 gilt in (1.4-5) das Gleichheitszeichen, d.h. das Maximum t 1 2 wird tatsächlich angenommen. Mit x x = Zk=j «k folg 1 (1-4-3). b) Aus (1.4-3) folgt, daß das Minimum für je, = v l 5 ... , = vj_, angenommen wird. Der von beliebigen x u ... , x ; _ { aufgespannte Unterraum des IRn ist höchstens ( j - l ) - d i m e n s i o j nal. Also gibt es einen Vektor x = I i = 1 ß t v ; aus dem von v 1; v2> ... , Vj aufgespannten j-dimensionalen Unterraum mit xv\ = 0 , i = 1, ..., j - 1 . Es folgen = ( l ß i v j - i I /3kvk)= I ßi2 , i=1 k=1 i= 1
A
x lQx = ( I ß
i=1
und damit (1.4-4).
i Vi/i
L/3kAkvk)= I X k= 1 i= 1
ißi
2 >Aj I
i= 1
ßf, •
Die durch den Satz skizzierten Extremaleigenschaften des Rayleigh-Quotienten sind für die Numerik des Eigenwertproblems symmetrischer Matrizen von größter Bedeutung. Der Rayleigh-Quotient stellt bei vorgegebenem Näherungs-Eigenvektor eine sehr gute Schätzung des zugehörigen Eigenwerts dar, wobei man in der Praxis feststellen kann, daß gute Schätzungen eines Eigenvektors zu noch besseren Eigenwertschätzungen durch den Rayleigh-Quotienten führen. BEISPIEL 1 . 4 - 5
ö =
7
-2
1
-2
10
-2
1
-2
7
EW : A! = 6
EV : x , = ( 1 ,
0,-1)'
A2 = 6
x2 =(1,
1, 1)'
A3 = 12
jc3 = (1,-2, 1)'
Zu dieser uns bereits aus Bsp. 1.4-4 bekannten Matrix berechnen wir den Rayleigh-Quotienten für einige Näherungsvektoren x :
x
p{x)
(1.50, 2.00, 3.00)
6.00
(2.00, -3.00, 2.00)
11.88
(1.00, 2.00, 3.00)
6.00
(3.00, 4.00, 5.00)
6.00
Man erkennt, daß auch numerisch schlechte Eigenvektorschätzungen brauchbare Eigenwertschätzungen durch den Rayleigh-Quotienten zur Folge haben. Eine genauere Untersuchung zeigt, daß der Fehler in der Näherung eines Eigenwertes durch den Rayleigh-Quotienten
56 quadratisch klein wird gegenüber dem Fehler in der benutzten Schätzung des Eigenvektors. Durch den vorangehenden Satz wird auch die stetige Abhängigkeit der Eigenwerte von Störungen der Matrixkoeffizienten sichtbar. Kleine Störungen in den Koeffizienten haben auch nur kleine Störungen der Eigenwerte zur Folge. Dies bedeutet, daß die Eigenwerte robust sind insbesondere gegen die unvermeidlichen Rundungsfehler beim numerischen Rechnen. Genauer wird dieser Sachverhalt durch den folgenden Satz beschrieben: SATZ 1.4-12 (Eigenwerte gestörter symmetrischer Matrizen) A, B und F seien symmetrische nxn-Matrizen mit B =A + F. Seien \ x > X2 ^ An die Eigenwerte von A mit den orthonormierten Eigenvektoren V], v 2 , ... , v n ; ¿i, > /x2 - — - Hn die Eigenwerte von F mit den orthonormierten Eigenvektoren yu y2, ... , yn und > k2 > ... > Kn die Eigenwerte von B mit den orthonormierten Eigenvektoren z 1 ; z 2 ,... , z n . Dann gilt für k = 1,... , n (1.4-6)
ic k < m i n ( A j + / i i ) ,
füri+jck =
min { m a x - i ^ i | ¿vk=0, V!, . ..,Vj_! XX >i» • ->yi-i
< max { i p i | A XX < \j + Vi .
k
k = 1, ... , j - 1 ; xly^ = 0 , 1 = 1,..., i - 1 }
= 0 , k=l, ..., j - 1 } + max {
| jfyx = 0 , 1 = 1,... , i - 1 } XX
•
Da -A und -F gerade die negativen Eigenwerte von A und F haben, führt die Anwendung von Satz 1.4-10 in diesem Fall auf "K"n-k+i ^ " V j + i " Mn-i+i i
i +
j ^
k + 1
oder
(c^ > max { Aj + /i; | i + j > n + k }) . Zusammen mit (1.4-4) ergeben sich daher die bequemen Abschätzungen (1.4-8)
Ak + ßn < Kk < Ak + /i, ,
k = 1,...,n.
1.4.7 ZERLEGUNG DER SPALTENRÄUME VON SUMMEN UND PRODUKTEN Nach den beiden vorangehenden Sätzen zur Numerik der Eigenwerte, die als charakteristische Zahlen und Strukturkonstanten für die Matrizen quadratischer Formen eine wesentliche Rolle spielen, wollen wir uns zum Schluß dieses Abschnitts mit einigen algebraischen Eigenschaften speziell nichtnegativ definiter Matrizen beschäftigen. Wir werden in den Kapiteln 4 - 7 sehen, daß die beiden nachfolgenden Sätze eine herausragende Bedeutung für die Algebra linearer Modelle besitzen. SATZ 1.4-13 (Spaltenraum einer Summe nichtnegativ definiter Matrizen) Für nichtnegativ definite symmetrische Matrizen M, N mit o(M) = o ( N ) ist der Spaltenraum ihrer Summe gleich der Vereinigung der einzelnen Spaltenräume, (1.4-9)
S{M +
N)=S(M)vS(N)=S(M\N).
57 Beweis:
Nach Satz 1.4-8 gibt es spaltenreguläre Matrizen C, D mit M = CC\
S(M)=S(C)
; N=DD*y
S(N)=S(D).
Für die partitionierte Matrix F := (C\D) gilt daher S{F)=S{C\D)
=S(M\N)
FF1 = Cd
und
=S(M) u S(N)
+ DD* =M + N .
Die Behauptung folgt dann wegen S(F) = S(FFC) .
o
Eine direkte Folgerung für disjunkte Spaltenräume S(M) n S(N) = 0 ist die Rangbeziehung (vgl. Satz 1.1-1) (1.4-10) r(Af + N) =T(M) + r(N) . Der folgende Satz beschreibt eine weitere und sich für spätere Betrachtungen als außerordentlich wichtig erweisende Eigenschaft nichtnegativ definiter Matrizen. Er besagt u.a., daß für eine beliebige Matrix A die zueinander orthogonalen Spaltenräume S(A) und S(A±) wenigstens disjunkt bleiben, wenn eine der beiden Matrizen mit einer nichtnegativ definiten Matrix multipliziert wird. SATZ 1.4-14 (Disjunkte Zerlegbarkeit von