205 95 84MB
German Pages 312 Year 1981
G. Eisenreich. Lineare Algebra und analytische Geometrie
Mathematische Lehrbücher und Monographien Herausgegeben von der Akademie der Wissenschaften der DDR Zentralinstitut für Mathematik und Mechanik
I. Abteilung Mathematische Lehrbücher Band 33 Lineare Algebra und analytische Geometrie von G. Eisenreich
Lineare Algebra und analytische Geometrie von Prof. Dr. Günther Eisenreich Karl-Marx-Universität Leipzig Mit 107 Abbildungen und 2 Tabellen
Akademie-Verlag Berlin 1980
Erschienen im Akademie-Verlag, DDR-1080 Berlin, Leipziger Straße 3—4 © Akademie-Verlag Berlin 1980 Lizenznummer: 202 • 100/406/79 Gesamtherstellung: IV/2/14 VEB Druckerei »Gottfried Wilhelm Leibniz«, 4450 Gräfenhainichen • 5300 Einbandgestaltung: Rolf Kunze Bestellnummer: 762 455 8 (6435) • LSV 1024 Printed in GDR DDR 4 8 , - M
Vorwort
Das vorliegende Buch ist aus Vorlesungen hervorgegangen, die ich f ü r Mathematikstudenten des ersten Studienjahres an der Sektion Mathematik der Karl-Marx-Universität Leipzig gehalten habe. I m Hinblick auf sein Anliegen, anschließend an das aus der Schule bekannte Wissen dem Studenten eine Einführung in die analytische Geometrie und lineare Algebra zu bieten, wurde an der durch seine Entstehungsweise bedingten Diktion möglichst wenig geändert. Ich habe mich bemüht, Definitionen, Sätze und Beweise nicht einfach in den Raum zu stellen, sondern Wert auf Motivierungen und die Herausarbeitung der tragenden Ideen gelegt, auch wenn dadurch die Darstellung umfangreicher geworden ist als sonst üblich. Daher lag mir auch nicht daran, einen Aufbau in größtmöglicher Allgemeinheit zu geben, wenn auch die Darstellung so gehalten ist, daß Verallgemeinerungen (z. B. auf andere Körper als den der reellen Zahlen) keine Schwierigkeiten bereiten. Auch habe ich nicht danach gestrebt, Wiederholungen um jeden Preis zu vermeiden, sondern führe durchaus auch bewußt dieselbe Überlegung mehrfach durch, wenn auch unter verschiedenen Blickwinkeln; ich glaube, daß eine derartige Redundanz dem Anfänger mehr dienlich ist als ein abstrakter „LANDAU-Stil".
Nun ein paar Worte zum Inhalt des Buches! Ich habe die geometrische Seite sehr betont; ich habe danach getrachtet, analytische Geometrie nicht einfach als Benennung für das Rechnen mit w-Tupeln von Zahlen einzuführen, sondern an die geometrischen Begriffe anzuschließen, die von der Schule her bekannt sind. Daher auch der Abschnitt über den synthetischen Aufbau der Geometrie zu Beginn, auf den alles Weitere, wenigstens im Prinzip, aufbaut. Hieran schließt sich die analytische Geometrie des ein-, zwei- und dreidimensionalen Raumes an. Großen Wert lege ich hierbei auf die saubere Herausarbeitung des Begriffs der Orientierung des Raumes. Mit den dabei gewonnenen Erfahrungen können später in ganz natürlicher Weise der w-dimensionale Vektorraum und affine R a u m axiomatisch eingeführt werden. Nach der Definition des Skalarprodukts (in den niederen Dimensionen auf geometrische Weise, später im re-dimensionalen R a u m mittels der metrischen Fundamentalform) werden neben die bisherigen (kontravarianten) Koordinaten die kovarianten Koordinaten gestellt und verwendet. Da von vornherein mit beliebigen Parallelkoordinatensystemen gearbeitet wird (Längen- und Winkelmessung gibt es anfangs noch gar nicht), liegt diese allgemeine Betrachtungsweise auch völlig auf der Hand. Großen Wert lege ich übrigens auf das Arbeiten mit baryzentrischen Koordinaten, womit gleichzeitig auch recht f r ü h ein Beispiel f ü r homogene Koordinaten zur Verfügung steht. Die geometrischen Begriffe spielen auch bei der Behandlung der linearen Algebra eine wesentliche Rolle. So dienen Matrizen zur Beschreibung linearer Abbildungen, so daß zum Beispiel das Assoziativgesetz für die Matrizenmultiplikation sofort klar ist.
6
Vorwort
Die lineare Algebra wird zunächst mögliehst weitgehend determinantenfrei aufgebaut (Transformation der Matrizen auf Trapezform, allgemeine Sätze über Lösbarkeit und Struktur der Lösungen). Behandelt wird hierbei auch die Elementarteilertheorie von Matrizen und später im Rahmen der Transformationen von Matrizen hieran anschließend die JoBDANsche Normalform. Die Einführung der Determinanten wird durch die Auflösungsformel für lineare Gleichungssysteme motiviert. Es wird gezeigt, daß die explizite Determinantendefinition die hieraus entspringenden abstrakten Forderungen an einen Determinantenbegriff erfüllt. Diese Charakterisierung wird übrigens auch beispielsweise zum Beweis des LAPLACEsehen Entwicklungssatzes herangezogen. Nach der Bereitstellung der aus der linearen Algebra benötigten Hilfsmittel können dann auch Koordinatentransformationen, affine und lineare Abbildungen betrachtet werden. Auch hier wird die geometrische Seite in den Vordergrund gestellt. Mit der Einführung einer Metrik wird es möglich, auch u. a. Bewegungen, insbesondere Drehungen und orthogonale Matrizen zu untersuchen. In Zusammenhang damit steht auch die Behandlung quadratischer Formen, Wobei neben der obligatorischen Hauptachsentransformation auch Definitheitskriterien gegeben und das SYLVESTEBSche Trägheitsgesetz bewiesen werden. Das Buch schließt mit einem Abschnitt über Kurven und Flächen Zweiter Ordnung ab. Neben elementaren Betrachtungen kommen hier auch mehr theoretische Fragen zur Sprache. Durch die Beseitigung von Ausnahmefällen wird die Einführung des projektiven Raumes motiviert. Es werden in diesem Zusammenhang die Grundbegriffe der projektiven Geometrie eingeführt und auf die Behandlung der Kegelschnitte und Quadriken angewendet. Immer nach mehreren Abschnitten sind Aufgaben in den Text eingestreut, die sich auf den in den letzten Abschnitten behandelten Stoff beziehen und dem Leser Gelegenheit geben, sein Verständnis Zu überprüfen; gelegentlich dienen sie auch dazu, einige im Haupttext nicht behandelte Begriffe einzuführen oder Zusammenhänge anzugeben. Auf die Angabe von Lösungen wurde aus praktischen Gründen bewußt verzichtet. Es liegt auf der Hand, daß es bei einem Lehrbuch der vorliegenden Art, in dem ein abgeklärtes Stoffgebiet behandelt wird, in der Regel weder sinnvoll noch möglich ist, spezielle Quellen anzugeben; außerdem wäre dem Anfänger damit wenig gedient. So ist denn auch die im einleitenden Abschnitt gegebene wertende Literaturzusammenstellung nicht als Quellenverzeichnis aufzufassen (das es gar nicht geben kann), sondern als Hinweis auf Bücher, die mir unter gewissen Aspekten dem Leser (vor allem dem Anfänger) als besonders empfehlenswert erscheinen. Zum Schluß möchte ich meinem Freund VOLKMAR W Ü N S C H für die kritische Durchsicht des Manuskripts und eine Reihe nützlicher Verbesserungsvorschläge sowie dem Akademie-Verlag für die Aufnahme in die Reihe seiner Mathematischen Lehrbücher herzlich danken. Leipzig, im November 1979
GÜNTHER
EISENEEICH
Inhaltsverzeichnis
A.
Allgemeine Vorbemerkungen
13
1. 2. 3.
Gegenstand der Untersuchung Erkenntnistheoretisches. Axiomatisierung Literatur
13 14 15
B.
Logische Grundbegriffe. Mengen, Abbildungen, Relationen
17
1.
Logische Grundbegriffe
17
2. 2.1. 2.2. 2.3.
Mengen Mengenbegriff Operationen mit Mengen Rechenregeln Aufgaben
18 18 19 21 23
3. 3.1. 3.2. 3.3. 3.4.
Abbildungen Grundbegriffe Surjektive, injektive, bijektive Abbildungen Zusammensetzung von Abbildungen. Diagramme Graph einer Funktion. Kartesisches Produkt
24 24 25 26 28
4. 4.1. 4.2. 4.3. 4.4. 4.5.
Relationen und Operationen Binäre Relationen Äquivalenzrelationen Mächtigkeit n-stellige Relationen Operationen Aufgaben
29 29 31 33 34 35 36
C.
Geometrie
37
1.
Synthetischer Aufbau der Geometrie
37
2. 2.1. 2.2. 2.2.1. 2.2.2. 2.2.3. 2.2.4.
Analytischer Aufbau der Geometrie Allgemeines Analytische Geometrie der Geraden Koordinaten Orientierung der Geraden Teilverhältnis Gruppenbegriff
41 41 44 44 47 48 50
8
Inhaltsverzeichnis
2.2.5.
Schwerpunkt. Baryzentrische Koordinaten Aufgaben 2.2.6. Permutationen. Homomorphie und Isoxnorphie von Gruppen 2.3. Analytische Geometrie der Ebene. Vektorrechnung 2.3.1. Koordinaten in der Ebene 2.3.2. Geraden der Ebene 2.3.3. Parallelität von Geraden 2.3.4. Geradenbüschel 2.3.5. Zusammenhang mit linearen Gleichungen Aufgaben 2.3.6. Vektoren 2.3.6.1. Definition der Vektoren 2.3.6.2. Addition von Vektoren 2.3.6.3. Multiplikation von Vektoren mit Zahlen 2.3.6.4. Kollinearität 2.3.7. Koordinaten. Ortsvektoren 2.3.8. Translationen 2.3.9. Geradengleichung in Parameterform 2.3.10. Schwerpunkt. Baryzentrische Koordinaten Aufgaben 2.3.11. Anwendungen baryzentrischer Koordinaten 2.3.11.1. E i n Hilfssatz
.
2 . 3 . 1 1 . 2 . S a t z von CEVA 2 . 3 . 1 1 . 3 . S a t z v o n MENELAOS
2.3.12. 2.3.13. 2.3.14. 2.3.15. 2.3.16. 2.3.17. 2.4. 2.4.1. 2.4.2. 2.4.3. 2.4.4. 2.4.5. 2.4.6. 2.4.7. 2.4.8. 2.4.9. 2.4.10. 2.4.11.
3. 3.1. 3.1.1. 3.1.2. 3.1.3.
Aufgabe Skalarprodukt Kovariante und kontravariante Koordinaten Längenquadrat. Quadratische Formen. Winkel zwischen Vektoren Aufgaben Orientierung der Ebene Orientierter Flächeninhalt HussEsche Normalform der Geradengleichung Aufgaben Elementare analytische Geometrie des Raumes Vektoren im R a u m . Koordinaten Ebenengleichung HESSESche Normalform der Ebenengleichung Aufgaben Parallelität von Ebenen Geraden im R a u m Ebenenbüschel Ebenenbündel. Geradenbündel Aufgaben Orientierung des Raumes Vektorprodukt Spatprodukt Entwicklungssätze Aufgaben
Einführung des w-dimensionalen Raumes Vektorraum Definition Folgerungen aus den Axiomen Untervektorraum
52 63 63 67 57 58 60 61 62 64 64 64 66 68 69 70 72 73 74 76 77 77 79 80
. . .
82 82 85 88 89 90 93 95 96 96 96 99 102 103 103 104 105 106 108 108 109 112 114 116 116 116 116 117 119
Inhaltsverzeichnis 3.1.4. 3.1.5. 3.1.6.
9
Abhängigkeit Folgerungen aus den Abhängigkeitssätzen Basis eines Vektorraumes Aufgaben Affiner Baum Definition des affinen Baumes Affiner Unterraum Koordinatensystem Parameterdarstellung affiner Unterräume Parallelität Aufgaben
119 123 126 126 127 127 128 128 129 130 131
D.
Lineare Gleichungssysteme. Matrizen und Determinanten
132
1.
Begriff des linearen Gleichungssystems. Matrizen
132
2. 2.1. 2.2. 2.3. 2.4.
Lineare Abbildungen und Matrizen Lineare Abbildungen Vektorraum der linearen Abbildungen. Matrizenaddition Hintereinanderausführung linearer Abbildungen. Matrizenmultiplikation . Zusammenfassimg
133 134 135 136 138
3.
GrATJSSaches Eliminationsverfahren
140
Aufgaben
142
4.
Bang
143
5.
Lösbarkeitskriterien für lineare Gleichungssysteme
145
6.
Struktur der Lösung Aufgaben
147 150
7.
Beschreibung von Vektorräumen und affinen Bäumen durch lineare Gleichungssysteme Aufgabe
151 153
8.
Lineare Funktionale
153
9.
Isomorphie und Homomorphie von Vektorräumen
10.
Reguläre Matrizen
11.
Umformung von Matrizen auf Dreiecks- und auf Diagonalgestalt
12.
Elementarteilersatz Aufgaben
162 165
13. 13.1. 13.2. 13.3. 13.4. 13.5. 13.6. 13.7.
Determinanten Motivierung. Allgemeiner Determinantenbegriff Folgerungen aus der allgemeinen Determinantendefinition Gerade und ungerade Permutationen Explizite Determinantendefinition CBAttBBsche Begel Multiplikationssatz IiAPLAOEScher Entwicklungssatz
166 166 166 168 170 173 173 174
3.2. 3.2.1. 3.2.2. 3.2.3. 3.2.4. 3.2.5.
.
156 158 . . . .
161
.
10
Inhaltsverzeichnis
13.8. 13.9.
Adjunktenmatrix Rangbestimmung mittels Determinanten Aufgaben
E.
Koordinatentransformationen. Affine und lineare Abbildungen. rung
1. 1.1.
176 177 178 Orientie179
Koordinatentransformationen Übergang zu einer neuen Basis im Vektorraum. Transformation der Vektorkoordinaten Transformation der Punktkoordinaten
179
2. 2.1. 2.2. 2.2.1. 2.2.2. 2.3.
Affine Abbildungen Begriff der affinen Abbildung Geometrische Eigenschaften affiner Abbildungen Verschiedene geometrische Eigenschaften Geometrische Charakterisierung affiner Abbildungen Bestimmung einer affinen Abbildung durch n +1 P u n k t e Aufgaben
183 183 184 184 186 190 191
3. 3.1. 3.2. 3.3.
Orientierung und Koordinatentransformation Synthetische Definition der Orientierung Analytische Charakterisierung der Orientierung Anwendung auf die Flächeninhalts- und Volumenberechnung Aufgaben
192 192 193 196 197
4. 4.1. 4.2. 4.3. 4.4. 4.5. 4.5.1.
Lineare Abbildungen Beschreibung einer linearen Abbildung bezüglich einer beliebigen Basis . . Übergang zu neuen Basen Äquivalenz von Matrizen Ähnlichkeit von Matrizen Eigenwertproblem Motivierung. Charakteristische Gleichung
197 198 199 201 202 204 204
1.2.
179 181
4.5.2.
S a t z v o n CAYLEY-HAMILTON
207
4.5.3.
Eigenraum. Vielfachheit von Eigenwerten Aufgaben Nichtdiagonalisierbare Matrizen. Direkte Summe von Vektorräumen. JORDANBche Normalform Invariante TJnterräume Direkte Summe JoBDANsche Normalform Aufgaben Beweis f ü r die Existenz der JORDANschen Normalform Aufgaben
209 214 214 215 216 221 226 226 233
F.
Metrische Geometrie. Quadratische F o r m e n
234
1.
Metrischer B a u m
234
2.
Skalarprodukt
236
3.
ScHMiDTsches Orthogonalisierungsverfahren
238
4.
Totalsenkrechte Vektorräume
239
4.6. 4.6.1. 4.6.2. 4.6.3. 4.6.4.
Inhaltsverzeichnis
11
5. 5.1. 5.2. 5.3. 5.4. 5.5. 5.6. 5.7. 5.8. 5.9.
Bewegungen Begriff der Bewegung Geradentreue. Affinität Eigentliche und uneigentliche Bewegungen Translationen Drehungen Orthogonale Matrizen Geometrische Deutung Drehachse Eigenwerte einer orthogonalen Matrix Aufgaben
241 241 241 242 243 243 244 245 246 248 248
6. 6.1. 6.2. 6.3. 6.4. 6.4.1. 6.4.2. 6.4.3. 6.4.4. 6.5. 6.5.1. 6.5.2. 6.5.3. 6.6.
Quadratische Formen Begriffsbestimmung. Beispiele Definitheit Matrizenschreibweise. Koordinatentransformation Hauptachsentransformation Eigenwerte einer symmetrischen Matrix Hauptachsensatz Orthogonalität der Eigenvektoren Praktische Durchführung der Hauptachsentransformation. Beispiele . . . Kriterien für die Definitheit quadratischer Formen Zusammenhang mit den Eigenwerten SYXVESTERsches Definitheitskriterium SYLVESTERsches Trägheitsgesetz Anwendung der Hauptachsentransformation auf affine Abbildungen . .
249 249 250 251 251 252 252 255 255 258 258 259 260 262
7.
Komplexe Geometrie. HERMiTEsche Formen Aufgaben
263 264
G.
K u r v e n und Flächen zweiter Ordnung. Anfangsgründe der projektiven Geometrie
265
1. 1.1. 1.2. 1.3. 1.4. 1.5. 1.5.1. 1.5.2. 1.6. 1.6.1. 1.6.2. 1.6.3. 1.6.4. 1.7.
Kurven zweiter Ordnung Definition Normalformen Klassifikation Bestimmung von Drehwinkel und Mittelpunkt Einige allgemeine Eigenschaften von K u r v e n zweiter Ordnung Geraden auf Kurven zweiter Ordnung Bestimmimg einer K u r v e zweiter Ordnung Nähere Untersuchung der eigentlichen Kegelschnitte Ellipse und Hyperbel Parabel Scheitelgleichung der Kegelschnitte Polarkoordinaten Pol und Polare Aufgaben
265 265 265 267 268 270 270 271 272 272 273 274 276 276 278
2. 2.1. 2.2. 2.3.
Projektive Geometrie Einführung der projektiven E b e n e Dualität Projektiver R a u m
278 278 279 280
12
Inhaltsverzeichnis
2.4. 2.5. 2.6.
Projektive Abbildungen Projektive Skala auf einer Geraden Doppelverhältnis Aufgabe Bestimmung einer projektiven Abbildung Trennende Punktepaare. Charakterisierung projektiver Abbildungen . . . Korrelationen
281 282 283 283 283 284 286
3. 3.1. 3.2. 3.3. 3.3.1. 3.3.2. 3.3.3. 3.3.4. 3.4. 3.5.
Kegelschnitte in der projektiven Ebene Polarverwandtschaft Konjugierte Durchmesser Anwendung des Doppel Verhältnisses Invarianz des Doppelverhältnisses beim Projizieren Satz vom vollständigen Vierseit Konstruktion des 4. harmonischen Punktes Anwendung des Doppelverhältnisses auf eine involutorische Projektivität Projektive Klassifikation der Kegelschnitte Kurven zweiter Klasse Aufgaben
286 286 288 289 289 290 291 292 292 294 295
4. 4.1. 4.2. 4.3. 4.4. 4.5.
Flächen zweiter Ordnung Definition. Normalformen Gestaltliche Verhältnisse Geradenscharen Klassifikation Polarverwandtschaft
295 295 296 298 299 300
2.7. 2.8. 2.9.
Sachwortverzeichnis
303
A.
Allgemeine Vorbemerkungen
Wir wollen uns in dieser Vorlesung mit Geometrie (insbesondere mit analytischer Geometrie) und mit linearer Algebra, einschließlich der Theorie der Matrizen und Determinanten, sowie in Zusammenhang damit mit den wichtigsten Dingen aus der Lehre von den quadratischen Formen befassen. Wir beginnen mit einigen allgemeinen Bemerkungen zur Abgrenzung des Untersuchungsgegenstandes.
1.
Gegenstand der Untersuchung
Geometrie bedeutet Lehre vom Raum und von den räumlichen Objekten. Ursprünglich durch die Bedürfnisse der Landesvermessung entstanden, hat sie sich heute durch Axiomatisierung, Idealisierung und Verallgemeinerung von dieser empirischen Basis längst gelöst und behandelt zum Teil Fragen, die nur noch entfernt an diesen Ausgangspunkt erinnern. Als Beispiel für zwei Richtungen der Geometrie, auf deren allgemeine Einteilung wir hier nicht eingehen können, seien die Elementargeometrie und die Topologie genannt. In der Elementargeometrie werden diejenigen Eigenschaften geometrischer Objekte untersucht, die nicht von der Lage im Raum abhängen, also bewegungsinvariant sind, wie zum Beispiel Längen, Winkel, Flächeninhalte usw. Läßt man auch umkehrbar stetige Deformationen zu, so gelangt man zur Topologie. Der Begriff der Länge etwa hat hierin keinen Sinn, denn diese kann sich bei stetigen Deformationen (die man bis zu einem gewissen Grade durch die Verzerrung von Gummi ohne das Auftreten von Rissen veranschaulichen kann) ändern. Trotzdem gibt es Aussagen, die hierbei ungeändert bleiben. Beispielsweise gilt der Eulersche Polyedersatz für jedes (etwa konvexe) Polyeder: die Anzahl der Eckpunkte minus Anzahl der Kanten plus Anzahl der Seiten ist gleich 2; diese alternierende Summe bleibt also ungeändert, wenn das Polyeder durch eine (umkehrbar) stetige Abbildung in ein neues übergeführt wird, sogar dann, wenn dieses krummlinig ist. Ebenso bleibt bei derartigen Transformationen die Anzahl der Löcher, die ein Gebiet aufweist, ungeändert, desgleichen die Eigenschaft einer geschlossenen Kurve, sich stetig auf einen Punkt zusammenziehen zu lassen (die Kurve der Abbildung 1 hat diese Eigenschaft, die Kurve C2 nicht). Derartige Eigenschaften (topologische Eigenschaften) sind natürlich erst recht auch elementargeometrische Eigenschaften, d. h. Eigenschaften, die bei Bewegungen ungeändert bleiben, aber nicht umgekehrt. Durch Einführung von Koordinaten gelingt es, geometrische Beziehungen auf Beziehungen zwischen Zahlen zurückzuführen. Anliegen der analytischen Geometrie im weitesten Sinne ist es, die geometrischen Objekte mittels der zwischen ihren Koordinaten bestehenden Beziehungen zu untersuchen. In diesen allgemeinen Rahmen würde
14
A. Allgemeine Vorbemerkungen
Abb. 1
zum Beispiel auch die algebraische Geometrie fallen, die sich unter anderem mit Mannigfaltigkeiten befaßt, deren Punkte (d. h. ihre Koordinaten) gewisse algebraische Gleichungen befriedigen. Es hat sich allerdings historisch eine engere Auffassung von analytischer Geometrie herausgebildet, der wir uns im folgenden anschließen wollen. Es werden hierin in der Regel nur solche Gebilde behandelt, die sich durch lineare oder quadratische Gleichungen beschreiben lassen. Damit haben wir es einerseits mit Punkten, Geraden, Ebenen und den Beziehungen zwischen ihnen zu tun, andererseits mit Kurven und Flächen zweiter Ordnung. Parallel dazu werden die hierfür benötigten algebraischen Hilfsmittel — auch unabhängig von der Geometrie — untersucht, nämlich einerseits lineare Gleichungen und Gleichungssysteme und im Zusammenhang damit die Lehre von den Matrizen und Determinanten sowie den Vektorräumen und andererseits die Theorie der quadratischen Formen. Wir werden es uns aber nicht nehmen lassen, dort, Wo es sich anbietet, auch auf etwas allgemeinere algebraische Strukturen (das betrifft vornehmlich Gruppen) einzugehen.
2.
Erkenntnistheoretisches. Axiomatisierung
Wie bereits gesagt, war die Geometrie ursprünglich eine empirische Wissenschaft, im Grunde genommen also ein spezieller Zweig der Physik. Damit war zunächst jede einzelne geometrische Aussage für sich empirisch zu bestätigen, galt also nur im Rahmen der Meßgenauigkeit. Es zeigte sich aber, daß es relativ wenige und dabei leicht verifizierbare Aussagen gibt, aus denen man alle anderen ohne neuerlichen Bezug auf die Wirklichkeit auf rein logischem Wege herleiten kann. Indem man diese Aussagen als Axiome an die Spitze der Betrachtung stellte, wurde die Geometrie erst als eine eigentliche mathematische Wissenschaft möglich. Dieser Zug zur Axiomatisierung beherrscht heutzutage die gesamte Mathematik, darüber hinaus aber beispielsweise auch die theoretische Physik. Durch die Axiomatisierung wird eine Trennung der wissenschaftlichen Betrachtung in einen empirisch leeren Teil, in dem man rein verstandesmäßig schließen kann und von Fragen der Meßgenauigkeit und dergleichen unabhängig ist, und in einen sozusagen physikalischempirischen Teil bewirkt, in dem nur wenige Grundannahmen empirisch überprüft werden müssen. Damit wird eine exakte Wissenschaft überhaupt erst möglich. Darüber hinaus bietet der axiomatische Aufbau den entscheidenden Vorteil, daß man nicht auf die Deutung der Axiome, von der man ausgegangen ist, angewiesen ist, sondern daß man durch eine andere Interpretation auch auf anderen Gebieten zu neuen Einsichten gelangen kann. Wir werden im folgenden keinen rein axiomatischen Aufbau der Geometrie geben können, wollen aber doch wenigstens deutlich werden lassen, wie sich die analytische Geometrie an den axiomatischen Aufbau der Geometrie anschließen läßt.
3. L i t e r a t u r
3.
15
Literatur
Wir wollen im folgenden ein paar Hinweise zur einschlägigen Literatur geben, ohne dabei in irgendeiner Hinsicht Vollständigkeit anzustreben. Die meisten Bücher über analytische Geometrie enthalten zugleich eine Einführung in die lineare Algebra. Als schöne Einführung, in der neben dem axiomatischen Standpunkt auch die geometrische Anschauung zu ihrem Recht kommt, empfehlen wir die beiden Bände von E. SPERNER „Einführung in die analytische Geometrie und Algebra" (Göttingen 1957). Einen auf größere Allgemeinheit zugeschnittenen systematischen Aufbau auf axiomatischer Grundlage findet man bei G. PICKERT, „Analytische Geometrie und lineare Algebra" (Leipzig 1953). Eine leichtverständliche Einführung in das Gebiet bietet die „Einführung in die analytische Geometrie und lineare Algebra" von S. BREHMER und H. B E L K N E R (Berlin 1 9 6 6 ) . Hinsichtlich einer stärkeren Betonung des Geometrischen sei auf das Buch von O.-H. K E L L E R („Analytische Geometrie und lineare Algebra", Berlin 1957) verwiesen. Das unumgänglich notwendige Rüstzeug bieten die „Elemente der analytischen Geometrie" von G. BOL (Göttingen 1948—49); dieses Buch kann als Vorbereitung zum Studium anspruchsvollerer Werke benutzt werden. Reich an mathematischen Leckerbissen, f ü r den Anfänger aber etwas schwer zugänglich ist die „Analytische Geometrie" von W. BLASCHKE (Wolfenbüttel/ Hannover 1948; Basel/Stuttgart 1954); aus dem gleichen Grunde ist auch die in der gleichen Reihe erschienene „Projektive Geometrie" desselben Verfassers erwähnenswert. Den Anschluß der analytischen Geometrie an das HiLBERTSche Axiomensystem der Grundlagen der Geometrie, der meist nicht vollzogen wird, ist in den beiden älteren Büchern von L. HEFETER („Grundlagen und analytischer Aufbau der Geometrie", Leipzig 1950, sowie „Die Grundlagen der Geometrie", Leipzig 1921) durchgeführt. Eine ältere lesenswerte klassische Darstellung bietet die „Einführung in die analytische Geometrie" von A. SCHÖNFLIES (Berlin 1 9 2 5 ) . Als kurzgedrängte, aber gut lesbare Übersicht über die Geometrie, wenn auch in der Regel ohne Beweise, sei auf den Artikel „Geometrie" von H. TIETZ im 2. Band des Handbuchs der Physik (Berlin 1 9 5 5 ) hingewiesen. Darüber hinaus sei noch das Buch „Einführung in die Geometrie" von G. H A J Ö S (Leipzig 1970) genannt, das neben einer Einführung in die elementare analytische Geometrie der Ebene und des Raumes und in die elementare Vektorrechnung eine ausführliche Behandlung der Elementargeometrie mit genauen Beweisen bietet, die gut zur Ergänzung bzw. zur Auffrischung des Mathematikunterrichts in der Schule herangezogen werden kann, und das sich darüber hinaus durch eingehende Motivierungen und Hinweise auf mögliche Fehlschlüsse auszeichnet. Schließlich möchten wir noch speziell zur Weiterführenden Beschäftigung mit der Vektorrechnung auf das 1971 vom Autor im Teubner-Verlag Leipzig erschienene Büchlein „Vorlesungen über Vektor* und Tensorrechnung" aufmerksam machen. Speziell Zur linearen Algebra seien noch die „Einführung in die lineare Algebra" von H . - J . K O W A L S K I (Berlin 1971), die „Determinanten und Matrizen" von R . KOCHENDÖRITER (Leipzig; Stuttgart 1970), das Büchlein von H . W. E. J U N G über „Matrizen und Determinanten" (Leipzig 1948) sowie das entsprechende Buch von F. N E I S S „Determinanten und Matrizen" (Berlin 1971) genannt. Hinweisen möchten wir insbesondere auf das schöne Büchlein von W . GRÖBNER „Matrizenrechnung" (Mannheim 1966). Wer sich tiefere Kenntnisse aus der Mengenlehre aneignen will, von der wir hier
16
A. Allgemeine Vorbemerkungen
freilich nur die Grundbegriffe benötigen, kann dazu die beiden Bände „Allgemeine Mengenlehre" von D. KLATJA (Berlin 1 9 7 0 und 1 9 6 9 ) heranziehen; eine kürzere Einführung ist vom gleichen Verfasser in der Reihe Wissenschaftliche Taschenbücher beim Akademie-Verlag Berlin erschienen. (Eine kurze Darstellung findet man auch in dem Göschenheft „Mengenlehre" von E. KAMKE [Berlin 1 9 6 2 ] . )
B.
Logische Grundbegriffe. Mengen. Abbildungen. Relationen
Bevor wir zur eigentlichen Geometrie übergehen, müssen wir erst noch einige immer wieder gebrauchte Grundbegriffe und Sprechweisen kennenlernen. Wir beginnen mit einigen logischen Grundbegriffen.
1.
Logische Grundbegriffe
In der Mathematik haben wir es fortwährend mit Aussagen zu tun, sprachlichen Sätzen, die entweder wahr oder falsch sind. Aus derartigen Aussagen werden nach den Regeln des logischen Schließens neue hergeleitet. Diese Regeln gründen sich nur auf den Wahrheitsgehalt der Aussagen, nicht auf die speziellen Behauptungen, die darin ausgesprochen werden. Wenn A und B Aussagen sind und mit A stets auch B wahr ist, so sagen wir, die Aussage B folgt aus der Aussage A, oder, B ist notwendige Bedingung für A (wenn B falsch ist, kann nämlich A nicht wahr sein), oder auch, A ist hinreichende Bedingung für B (die Wahrheit von A reicht aus, um auf die Wahrheit von B schließen zu können). Zur Abkürzung wollen wir diesen Sachverhalt formal durch einen Pfeil kennzeichnen und A=>B oder auch BC),
(Af\B)C\C =
Ar\{Bt\C).
Etwas interessanter ist die Tatsache, daß f ü r beliebige Mengen A, B, G auch die beiden Distributivgesetze ifi(suc)=(in5)ü(4nc),
gelten. (Wenn man vereinbart, daß das Zeichen fl analog wie die Multiplikation reeller Zahlen gegenüber der Addition stärker bindet als das Zeichen U, kann man auf der rechten Seite der ersten Gleichung und auf der linken Seite der zweiten Gleichung die Klammern weglassen. Damit steht in Einklang, daß man statt AC\B auch kürzer AB schreibt und den Durchschnitt auch als [mengentheoretisches] Produkt, die Vereinigungsmenge als [mengentheoretische] Summe bezeichnet.) W i r begnügen uns hier mit dem B e w e i s der ersten Gleichung und überlassen den Beweis der zweiten Gleichung dem Leser als Übungsaufgabe. Der Beweis ist typisch f ü r Beweise dieser Art und stützt sich auf die auf S. 19 gegebene Charakterisierung der Gleichheit zweier Mengen: um die Gleichheit zweier Mengen nachzuweisen, hat man lediglich zu zeigen, daß jede dieser Mengen in der anderen enthalten-ist. W i r bezeichnen die linke Seite der Gleichung zur Abkürzung mit L, die rechte mit R und wählen ein beliebiges Element x aus L. Nach Definition des Durchschnitts ist dann (x€£)(z€4)A(z(x g Ä) V {X eS) w € Ä u 5 = R ist dann x auch in R enthalten, also LczR. Umgekehrt folgt aus denselben Äquivalenzen, wenn man sie in der anderen Richtung liest, aus x£R wieder x^L, also auch RczL. Daher muß L = R sein. Auf Grund der DE MoRGANSchen Regeln kann man, statt einen komplizierteren, aus Vereinigungen und Durchschnitten gebildeten Ausdruck vollständig zu überstreichen, auch bloß seine einzelnen Glieder überstreichen, wenn man dafür statt fl überall U und statt U überall D schreibt. Wegen M = M kommt man dabei mit höchstens einer Überstreichung aus. Auf Grund der Distributivgesetze kann man obendrein noch jeden nur mittels Durchschnitts- und Vereinigungsmengenbildung erzeugten Ausdruck als eine Vereinigung von lauter Durchschnitten oder als einen Durchschnitt von lauter Vereinigungen schreiben. Den DE MoBGANschen Regeln zufolge können wir uns übrigens beim Beweis der beiden Kommutativgesetze, der beiden Assoziativgesetze und der beiden Distributivgesetze auf jeweils eines beschränken. Wenden wir nämlich auf das Kommutativgesetz Af\B = BC\A die Operation des Überstreichens an, so folgt ÄUB = ÄPiB = BKÄ= B UÄ , also das Kommutativgesetz für die Vereinigungsmengenbildung der Mengen Ä und B, und da die Mengen A und B ganz beliebig waren, sind es auch die Mengen Ä und B (um ganz formal das Gesetz für A und B zu erhalten, brauchte man ja bloß von Ä und B statt von A und B auszugehen). Ebenso erhält man aus dem Assoziativgesetz der Durchschnittsbildung {AC\B)nC
= Aft{BC\C)
23
2. Mengen
durch Überstreichen das Assoziativgesetz der Vereinigung: {ÄUB)\AC = (AC\B)nC
= Af\{BC\C) =
ÄV{B\jC)
und aus dem Distributivgesetz 4n(Buc)=(inB)U(inc) das andere Distributivgesetz ä u (B r\C)=a
N (B u c) = (A n B) U (a n c)={ä
U b) n (Ä uC),
ausgesprochen für die gleichfalls beliebigen Mengen Ä, B, C. Durch Anwendung der Operation des Überstreichens folgt, daß jede mittels der Zeichen U und fl gebildete allgemeingültige (d. h. bei beliebiger Wahl der darin eingehenden Mengen richtige) Gleichung zwischen Mengen Ai wiederum in eine allgemeingültige Beziehung übergeht, wenn man darin überall die Zeichen U und fl austauscht. Das ist das sog. Dualitätsprinzip der Mengenlehre. (Ein anderes Dualitätsprinzip werden wir später in der projektiven Geometrie kennenlernen (s. S. 279).)
Aufgaben 1. a) Beweise: F ü r beliebige Mengen Mit M2, M3 gilt
Mi u (m 2 n m3) = {Mt u m2) n (Mi u m3), Mi\JM2 = ~Mi n m2 . b) A, B, C seien Aussagen. Beweise, daß die Aussagen
A y(B AC) A V-B
und
und
(A VB) A(A VC) ,
Ä f\B
äquivalent sind (d. h., daß sie jeweils beide gleichzeitig wahr oder gleichzeitig falsch sind). c) Beweise, daß a) bei geeigneter Interpretation der Aussagen A, B, C aus b) folgt. 2. a) Drücke die Differenz A\B durch U, PI und ~ aus. b) Beweise: AAB = ( i 4 U B ) \ ( 4 0 B ) (A bezeichnet dabei die sog. symmetrische
Differenz:
AAB = (A\B)U{B\A)). 3 . a) Zeige, daß die Bildung der symmetrischen Differenz assoziativ [(AAB)AC
=AA(BACy\
und mit der Durchschnittsbildung distributiv ist [(AAB) f\C =(A f\C)A(BC\C)~[. Zeige, daß die symmetrische Differenz mehrerer Mengen gleich der Menge derjenigen Elemente ist, die genau in einer ungeraden Anzahl der Mengen enthalten sind.
b) (AlöA2ö
. . . UAJUA^UAtAzö
. . . KJAn_lAn) U
( ¿ t - i M s l M t - d ^ U . . . I)An_2An_iAn)\
bzw. U AtA2 ...An
= ?
(Den Durchschnitt haben wir hierbei kürzer als Produkt geschrieben; die Operationen \ und Uzwischen den Klammern sind der Reihe nach auszuführen.) 4.
Vergleiche die folgenden Mengen miteinander:
a) (AUB) D(AUCUB) b)
DC ,
(Ar\B)u(AncnB)uc,
c) ( ¿ V B j n i - B U C ) .
24
B. Grundbegriffe
5. Charakterisiere die Elemente x, für die die folgenden Bedingungen zutreffen:
a) x $ ((A\B) n O ) U B ,
b) ® i ( ( i n 5 ) \ C ) DA , c) x£(ÄUB)\C
C\A und gleichzeitig x$A C\B DG ,
d) x£(A\B) C\(B\C) . 6. Drücke die folgenden Mengen durch die Mengenoperationen aus: a) die Menge der Elemente, die in genau einer der Mengen A, B, C enthalten sind, b) die Allmenge, c) die leere Menge, d) die Menge der x, für die eine der folgenden Möglichkeiten zutrifft: x£A und x$B; x$C; x$A und x^C.
3.
Abbildungen
3.1.
Grundbegriffe
Wird jedem Element einer Menge A (genau) ein Element einer Menge B zugeordnet, so ist damit eine (eindeutige) Abbildung von A in B gegeben, die wir etwa mit / bezeichnen wollen. Symbolisch drücken wir dies durch einen Pfeil aus, indem wir schreiben: f:A-+B
oder auch
A -*• B .
Um anzugeben, daß bei der Abbildung / das Element x£A in das Element y£B übergeht, schreiben wir dann auch f:xt-+y
oder
x^-y.
Wenn es uns nicht auf den Namen der Abbildung (hier /) ankommt, können wir ihn auch weglassen. Die Menge A, die abgebildet wird, heißt Definitionsbereich oder Vorbereich der Abbildung, die Menge der Bilder, die bei der Abbildung erhalten wird (also Untermenge von B ist), der Wertevorrat oder Nachbereich der Abbildung. Wir erhalten beispielsweise eine Abbildung der Menge der reellen Zahlen in die Menge der reellen Zahlen, indem wir jeder Zahl ihr Quadrat als Bild zuordnen, was wir auch elementeweise durch die Pfeilschreibweise xt->x2 ausdrücken können. In diesem Falle ist die Menge aller reellen Zahlen der Definitionsbereich und die Menge der nichtnegativen reellen Zahlen der Wertevorrat. Statt Abbildung sagt man auch Funktion, diese beiden Begriffe sind also im Grunde genommen synonym; die Benennung Funktion wird vor allem gebraucht, wenn es sich um Abbildungen reeller oder komplexer Zahlen handelt, die Benennung Abbildung dagegen dann, wenn es um allgemeinere Mengen geht. Zwei Abbildungen / und g in B heißen genau dann gleich, wenn sie denselben Definitionsbereich A haben und ihre Wirkung auf jedes Element von A dieselbe ist. Man beachte insbesondere, daß zur Gleichheit zweier Abbildungen (Funktionen) die Gleichheit der Definitionsbereiche gefordert wird. Betrachte ich zum Beispiel eine auf der Menge A definierte Funktion / nur auf einer (echten) Untermenge A' von A, so erhalte ich eine neue Funktion /', die die Einschränkung von / auf A' heißt und gewöhnlich mit / \ A , bezeichnet wird. Wenden wir die für Funktionen gewohnte Schreibweise f(x) für
3. Abbildungen
25
das Bild des Elements x bei der Abbildung / an, so ist also f'(x)=f(x) für alle x£A' (und für andere x ist /' nicht definiert). Eine Funktion ist erst dann definiert, wenn neben der Zuordnungsvorschrift ihr Definitionsbereich festgelegt ist. Das gilt auch für Abbildungen, die durch elementare Funktionen ausgedrückt werden können, beispielsweise x^-r-x"2 oder a;i->sin x. Die hierin auf der rechten Seite stehenden Ausdrücke x2 oder sin x haben zwar für beliebige reelle Zahlen x einen Sinn, trotzdem gehört aber strenggenommen auch hier zur Definition der betreffenden Funktionen die Angabe des Definitionsbereiches hinzu. Häufig verzichtet man aber stillschweigend auf die explizite Angabe des Definitionsbereichs, wenn es wie in diesen Beispielen einen gewissermaßen „natürlichen" Definitionsbereich gibt, im vorliegenden Falle etwa die Menge der reellen Zahlen. (Überhaupt ist zu bedenken, daß die Definition einer Funktion nicht etwa an die Angabe eines analytischen Ausdrucks wie in den obigen Beispielen gebunden ist, sondern durch eine ganz „wilde" Zuordnungsvorschrift gegeben sein kann.)
3.2.
Surjektive, injektive, bijektive Abbildungen
Ist bei der Abbildung / von A in B jedes Element von B Bild von wenigstens einem Element von A, so nennen wir / eine Abbildung von A a u f B. Eine solche Abbildung heißt auch surjektiv oder eine Surjektion. Beispielsweise ist die oben betrachtete Abbildung xi->x2 eine Abbildung der Menge der reellen Zahlen auf die Menge der nichtnegativen reellen Zahlen, dagegen lediglich eine Abbildung in die Menge aller reellen Zahlen. Ist jedes Element von B Bild von höchstens einem Element von A (ein solches Element heißt Urbild seines Bildes in B), so sprechen wir von der (eindeutigen) Abbildung von A in B als von einer eineindeutigen Abbildung von A in B, einer injektiven Abbildung oder einer Injektion von A in B. Es sei ausdrücklich darauf hingewiesen, daß das Wort injektiv also mehr verlangt, als es vermuten läßt, es handelt sich um mehr als um eine Abbildung i n. Zum Beispiel ist die durch die Vorschrift xh->x2 gegebene Abbildung der Menge der positiven Zahlen in sich injektiv, dagegen nicht die durch dieselbe Vorschrift gegebene Abbildung der Menge aller reeller Zahlen auf die Menge der nichtnegativen reellen Zahlen oder in die Menge der reellen Zahlen. Ist eine (eindeutige) Abbildung / von A in B zugleich surjektiv und injektiv, handelt es sich also bei / um eine eineindeutige Abbildung von A auf B, so nennen wir / auch eine bijektive Abbildung oder eine Bijektion. So wird beispielsweise durch die Vorschrift x>->-x2 eine bijektive Abbildung der Menge der nichtnegativen reellen Zahlen auf sich definiert. Eine bijektive Abbildung von A auf B ist dadurch charakterisiert, daß jedes Element von B genau ein Urbild in A besitzt. Zu einer bijektiven Abbildung / von A auf B kann man eine Abbildung f~l von B auf A finden, die die Wirkung von / gerade rückgängig macht, indem man f~1(y) bei beliebiger Wahl von y aus B gleich demjenigen (eindeutig bestimmten) x aus A setzt, für das f(x) =y ist. Diese Abbildung ist dann offensichtlich eine Bijektion von B auf A. heißt Umkehrabbildung (Umkehrfunktion) oder inverse Abbildung zu /. Da sich eine injektive Abbildung / von A in B nur darin von einer Bijektion unterscheidet, daß ihr Wertevorrat nicht mit ganz B übereinzustimmen braucht, handelt es sich bei einer Injektion von A in B stets um eine Bijektion von A auf eine gewisse Untermenge B' von B. Man kann daher auch in diesem Falle eine Umkehrabbildung
26
B. Grundbegriffe
f~l von / definieren, und zwar stellt / _ 1 eine Bijektion von B' auf A dar. (Eine derartige Abbildung einer Untermenge B' von B in eine Menge A nennt man auch eine Abbildung a u s B in A.)
3.3.
Zusammensetzung Ton Abbildungen. Diagramme
Es sei / eine Abbildung von A in B und g eine Abbildung von B in C, was wir kurz durch das Diagramm AUb^C zum Ausdruck bringen können. Das Diagramm sagt aus, daß der Wertevorrat von / im Definitionsbereich von g enthalten ist. Durch die Nacheinanderausführung der Abbildungen / und g erhalten wir eine zusammengesetzte Abbildung h: A —6', die wir in der Form eines Produkts von / und g mit einem Kringel o als Verknüpfungszeichen schreiben: h = gof und durch ihre Wirkung W)(*)
= ?(/(*))
für
x€A
definieren. Dieses Verknüpfungsgesetz legt auch die gewählte Reihenfolge der „Faktoren" / und g nahe. (Hätten wir für das Bild eines Elements x bei einer Abbildung a stattdessen die exponentielle Schreibweise x" gewählt, so wäre es besser gewesen, für die Zusammensetzung zweier Abbildungen a und r [erst a, dann r] ax zu schreiben, damit xar _ w j r ( j • diese Schreibweise hat überdies den Vorteil, besser der Reihenfolge der Abbildungen in den Diagrammen zu entsprechen, die üblicherweise auch von links nach rechts gelesen werden.) Wenn keine Verwechslungsgefahr besteht, werden wir statt gro/ auch kürzer gf schreiben, wobei nur darauf zu achten ist, daß (gf)(x) natürlich im allgemeinen nicht gleich dem Produkt der Funktionswerte g(x) und f(x) ist, falls diese Werte und ebenso ihr Produkt überhaupt definiert sind. Handelt es sich bei der Abbildung / von A in B um eine Bijektion, so können wir demnach die inverse Abbildung von B in A als diejenige Abbildung g von B in A charakterisieren, für die gof die identische Abbildung idA von A auf A ist, die alles festläßt: f~iof = idÄ,
\&A{x) — x
für alle
x£A .
Ebenso sieht man sofort, daß /o/~i die identische Abbildung id £ von B auf B ist. Wir erkennen hieran zugleich, daß die „Multiplikation" von Abbildungen im allgemeinen nicht kommutativ ist, denn schon f~1of ist etwas anderes als / ° / - 1 . Außerdem kann man nicht beliebige Abbildungen miteinander multiplizieren, sondern nur solche, für die die eingangs genannte Bedingung erfüllt ist. Dagegen ist die Multiplikation von Abbildungen stets assoziativ, d. h., wenn ein Diagramm von Mengen und Abbildungen vorliegt: AUB^c^D, so ist ho(gof) = (hog)of .
27
3. Abbildungen
Da es sich nämlich auf beiden Seiten dieser Gleichung um eine Abbildung von A in D handelt, haben wir zum B e w e i s dessen nur noch nachzuweisen, daß ihre Wirkungen auf ein beliebiges Element x von A gleich sind. Auf Grund der Produktdefinition ist aber (wir lassen die Kringel der Kürze halber weg): [h(gf)](x)=h((gf)(x))
=
h(g(f(x))),
und ebenso erhält man i(hg)f](x) =
(hg)(f(x))=h(g(f(x))),
die beiden Bilder sind also in der Tat gleich. Wir können daher bei der Multiplikation von Abbildungen auf eine Beklammerung verzichten. Wir merken noch die unmittelbar zu bestätigende Aussage an: Existiert für gegebene Abbildungen /, g, h das Produkt (hg)f, so existiert auch das Produkt h(gf) (und die beiden Produkte sind wegen der Assoziativität der Multiplikation von Abbildungen gleich). Außerdem bestätigt man sofort für umkehrbare Abbildungen die Aussage (fg)~1 = g~1f~1. Hat ein Diagramm von Mengen und Abbildungen die Eigenschaft, daß man auf verschiedenen Wegen, die von einer Menge in Richtung der Pfeile zu einer anderen führen, immer zum selben Ergebnis gelangt, so nennt man das Diagramm kommutativ. So ist zum Beispiel das Diagramm A UB n ir' A' -> B' 9' genau dann kommutativ, wenn gf = g'f' ist. Bei komplizierteren Diagrammen kann man durch die Eigenschaft der Kommutativität eine ganze Reihe von Gleichungen zwischen zusammengesetzten Abbildungen zum Ausdruck bringen. Außerdem braucht man, wenn man diese Sprechweise verwendet, den im Diagramm auftretenden Abbildungen nicht notwendig Namen zu geben. In der Sprache der kommutativen Diagramme können wir zum Beispiel sagen: Das Produkt gf zweier Abbildungen /: A— B und g: B-*C ist diejenige Abbildung h : A-+C, die das Diagramm B f / V A —• C A
kommutativ macht. Die Umkehrabbildung einer bijektiven Abbildung /: A— B ist diejenige Abbildung g: B-+A, die das Diagramm B i/ A
t
V y A
kommutativ macht, worin ¿ = idjjl die identische Abbildung von A auf A ist.
28
B . Grundbegriffe
3.4.
Graph einer Funktion. Kartesisches Produkt
Von der Schule her ist der Begriff der graphischen Darstellung (des Graphen) einer Funktion bekannt. Man erhält sie dadurch, daß man in der Ebene nach Wahl eines senkrechten Achsenkreuzes, der «-Achse und der y-Achse, über jedem Punkt x auf der «-Achse in der Höhe f(x) (die gleich dem Wert der Funktion / an der Stelle x ist) einen Punkt aufträgt; die Menge dieser Punkte bildet dann eine „Kurve", das Kurvenbild, die graphische Darstellung oder den Graphen der Funktion / (Abb. 7). In Kenntnis des Kurvenbildes kann man offenbar umgekehrt sofort wieder die Funktion rekonstruieren . y-Achse
x
x-Achse
Abb. 7
Wenn wir von der anschaulichen Darstellung des Graphen absehen und die ganze Konstruktion auf ihren logischen Kern reduzieren, so stellen wir folgendes fest. Jeder Kurvenpunkt wird durch seine beiden Koordinaten x und y eindeutig bestimmt und bestimmt umgekehrt diese Koordinaten eindeutig, er kann also durch das Paar (x, y) eindeutig charakterisiert werden. Ferner gehört zu jedem Paar reeller Zahlen (x, y), als x- bzw. «/-Koordinate aufgefaßt, ein Punkt der Ebene. Die Kurve (und damit die Funktion) ist also eindeutig bestimmt, wenn man die Menge derjenigen Paare (x, y) kennt, die Kurvenpunkten entsprechen. Damit ist nahegelegt, wie man den Begriff der graphischen Darstellung auf beliebige (eindeutige) Abbildungen / einer Menge A in eine Menge B verallgemeinern kann. Man bildet dazu die Menge aller geordneten Paare (a, b) von Elementen a aus A und b ausB (geordnet heißt dieses Paar deshalb, weil es auf die Reihenfolge der Elemente ankommt: man muß wissen, was das erste Element und was das zweite Element des Paares ist). Zwei solche Paare (a, b) und (a', b') sehen wir genau dann als gleich an: (a, b) = (a', b'), wenn sie fürs Auge gleich sind, d. h., wenn a = a' und zugleich & = £>' ist. Die Menge dieser Paare heißt das kartesische Produkt von A mit B und wird mit Ax B bezeichnet. In dem kartesischen Produkt AxB zeichnen wir nun die Untermenge derjenigen Paare (a, b) aus, für die a^-b, also b = f(a) gilt. Diese Untermenge heißt dann der Graph der Funktion f . Es ist offensichtlich, daß das eine Verallgemeinerung des klassischen Begriffs der graphischen Darstellung einer Funktion darstellt. Insbesondere wird der Graph der identischen Abbildung id^: A —A durch die Untermenge aller Paare der Form (a, a) mit a£A gegeben. Umgekehrt ist jede Untermenge F von AxB Graph einer Funktion, wenn sie die folgende Eigenschaft hat: Zu jedem a£A gibt es genau ein (d. h. ein und nur ein) b£B mit der Eigenschaft (a, b)£F. Die dadurch bestimmte Funktion / wird dann gerade dadurch festgelegt, daß sie j e d e m A dasjenige b£B zuordnet, für das (a, b)£F ist, es ist also F in der Tat der Graph von /.
4. Relationen und Operationen
29
Die Abbildung / ist surjektiv, wenn zu jedem b£B ein a£A mit (a, b)zF existiert; injektiv, wenn zu jedem b£B höchstens ein adA mit (a, b)£F existiert; und bijektiv, wenn zu jedem 6 6 2? genau ein a£Ä mit (a, b)£F existiert. Wenn die Funktion / umkehrbar ist, also jede Parallele zur «-Achse das Kurvenbild höchstens einmal schneidet, erhält man die graphische Darstellung der auf dem Wertevorrat von / definierten Umkehrfunktion / _ 1 bekanntlich dadurch, daß man die graphische Darstellung von / an der Winkelhalbierenden der Achsen spiegelt oder, was auf dasselbe hinausläuft, das Kurvenbild von / selbst als über der «/-Achse aufgetragenes Kurvenbild von / deutet. Entsprechend einfach bekommt man im allgemeinen Falle den Graphen F' der Umkehrfunktion f~1 einer bijektiven Funktion / als Menge der Paare (b, a), für die das P a a r (a, b) im Graphen der Funktion / liegt. Der Übergang zur Umkehrfunktion drückt sich also einfach in der Vertauschung der beiden in den geordneten Paaren stehenden Elemente aus. Die Bildung der Menge der Paare gibt uns auch die Möglichkeit, ganz allgemein eine beliebige (also auch mehrdeutige) 1 ) Abbildung / : A — B rein mengentheoretisch zu definieren. Wir brauchen dazu lediglich eine Untermenge F des kartesischen Produkts Ax B auszuzeichnen und können dann sagen, ein Element a wird durch / auf diejenigen b £ B abgebildet, für die das Paar (a, b) in F liegt. Damit / auf ganz A definiert ist, / also eine Abbildung v o n A in B definiert, haben wir lediglich zu fordern, daß es zu jedem a £ A mindestens ein b ^ B mit («, b ) £ F gibt. Anderenfalls würden wir auf diese Weise eine Abbildung a u s i in B erhalten. Das stellt eine sozusagen mehr statische Auffassung einer Abbildung dar gegenüber der dynamischen als Zuordnung, auf Grund derer wir ursprünglich den Funktionsbegriff eingeführt haben.
4.
Relationen und Operationen
Die Elemente einer Menge M können in vielerlei Beziehung zueinander stehen. Es kann sein, daß eine Abbildung / von M in M erklärt ist, so daß man danach fragen kann, ob ein gegebenes Element a von M ein gegebenes Element b von M zum Bild hat oder nicht. Man kann zwei Elemente a, b danach untersuchen, ob sie gleich sind oder nicht. Bei reellen Zahlen kann a ^ b sein oder nicht. Es können aber auch Beziehungen etwa Zwischen drei Elementen bestehen. So kann man etwa fragen, ob zwischen 3 reellen Zahlen a, b, c die Beziehung a + b=c oder die Beziehung ab = c besteht. All diese möglichen Beziehungen lassen sich mit dem Begriff der Relation erfassen.
4.1.
Binäre Relationen
Ebenso wie der Graph einer Funktion wird eine Relation (genauer: eine zweistellige oder binäre Relation, weil es sich dabei jeweils um eine Beziehung zwischen zwei Elementen handelt) R auf einer Menge M durch eine (gleichfalls mit R bezeichnete) Untermenge des kartesischen Produkts M 2 = M x M festgelegt; zwei (in dieser Reihenfolge genommene) Elemente a und b von M stehen genau dann in der Beziehung R zueinander, wenn das geordnete Paar (a, b) zur Untermenge R gehört. Das bringt man auch dadurch ') Die im folgenden betrachteten Abbildungen werden dagegen stets (auch ohne besonderen Hinweis) als eindeutig vorausgesetzt.
30
B. Grundbegriffe
zum Ausdruck, daß man aRb schreibt. Diese Schreibweise entspricht dem üblichen Vorgehen, wenn es sich etwa um die Gleichheitsrelation ( = ) oder die Kleinerrelation («=) handelt. Da eine zweistellige Relation in genau derselben Weise durch Paare erklärt ist wie der Graph einer Funktion, können wir sie etwa für den Fall, daß M die Menge der reellen Zahlen ist, auch in derselben Weise graphisch darstellen, indem wir das Paar (a, 6) als Koordinaten eines Punktes der zy-Ebene auffassen und alle die Punkte eintragen, die Paaren (a, b) entsprechen, die in der Relation Ii stehen (in Abb. 8 für die Relationen = in a) und -=in b) dargestellt).
Eine Abbildung / einer Menge A in eine Menge B läßt sich stets auoh als eine spezielle (binäre) Relation auf der Vereinigungsmenge M = AUB auffassen, die wie oben bereits durch eine Menge von Paaren (a, b) mit u(iA,b£B (also aufreden Fall a, b £ M) gegeben wird. Der Begriff der Relation ist also allgemeiner als der der Abbildung. Wir wollen einige spezielle Arten binärer Relationen untersuchen. Wir nennen die Relation R auf M reflexiv, wenn aRa für alle a£M gilt, alle Elemente von M also zu sich selbst in der Relation R stehen. Die Gleichheitsrelation = sowie die Relation S auf der Menge der reellen Zahlen haben beispielsweise diese Eigenschaft, denn es gilt stets a = a und a S n , desgleichen die auf der Potenzmenge ^J(^) der Menge A definierte Relation R der Inklusion (für Untermengen U, V von A gilt genau dann URV, wenn UczV). Dagegen hat die Kleiner beziehung auf der Menge der reellen Zahlen nicht diese Eigenschaft, denn es gilt nicht a < a . Die Relation R auf M heißt symmetrisch, wenn mit aRb stets auch bRa gilt. Die Gleichheitsbeziehung = ist symmetrisch, die Beziehung ^ oder cz jedoch nicht. Die Relation R auf M heißt transitiv, wenn aus aRb, bRc stets aRc folgt. Die Gleichheitsrelation sowie die Relationen S , < und c sind offensichtlich transitiv. Schließlich nennen wir eine Relation R auf M antisymmetrisch, wenn aus aRb und bRa stets a = b folgt. Die Gleichheitsbeziehung besitzt trivialerweise diese Eigenschaft, ebenso die Relation ^ . Für die Inklusion c bedeutet sie im wesentlichen gerade die Definition der Gleichheit von Mengen. Wichtig sind vor allem gewisse Kombinationen dieser Eigenschaften. Eine Relation, die zugleich reflexiv, symmetrisch und transitiv ist, heißt auch eine Äquivalenzrelation. Hierunter fällt die gewöhnliche Gleichheitsrelation. Mit derartigen Relationen werden wir uns gleich noch ausführlicher befassen. Eine Relation, die zugleich reflexiv, antisymmetrisch und transitiv ist, heißt eine Ordnungsrelation (oder genauer Halbordnungsrelation), weil sie ähnliche Eigenschaften wie die Ordnung der reellen Zahlen der Größe nach hat. Hierunter fällt trivialerweise
4. Relationen und Operationen
31
wieder die Gleichheitsrelation, ferner die Relation S und die Inklusionsbeziehung c . Letztere zeigt gleichzeitig, daß im Falle einer (Halb-) Ordnungsrelation R nicht zwischen zwei Elementen a, b stets eine der Beziehungen aRb oder bRa zu bestehen braucht, es kann auch unvergleichbare Elemente geben (zwei Untermengen einer festen Menge brauchen nicht die Eigenschaft zu haben, daß eine davon in der anderen enthalten ist).
4.2.
Äquivalenzrelationen
Der Begriff der Äquivalenzrelation stellt eine Verallgemeinerung des primitiven Gleichheitsbegriffs dar und ist fundamental für die gesamte Mathematik, ja für die Wissenschaft überhaupt. Jegliche Begriffsbildung beruht auf dem Begriff der Äquivalenz, indem nämlich stets von gewissen (im betreffenden Zusammenhang) als unwesentlich angesehenen Eigenschaften abgesehen wird, die Dinge in gewissem Sinne unscharf angesehen werden; man hat nur zu verlangen, daß dabei wieder ein sinnvoller schwächerer Gleichheitsbegriff herauskommt, und das läuft gerade darauf hinaus, Reflexivität, Symmetrie und Transitivität zu verlangen. Der Begriff der Äquivalenzrelation spielt nicht nur in der Wissenschaft, sondern bereits bei den elementarsten Gegebenheiten des täglichen Lebens eine Rolle; Wenn ich von einem Stuhl oder einem Apfel schlechthin spreche, meine ich nicht einen individuellen Stuhl oder Apfel, sondern ich sehe alle diese Objekte, die üblicherweise den Namen Stuhl oder Apfel tragen, als gleich an; die damit erhaltene Gleichheitsbeziehung ist in der Tat reflexiv, symmetrisch und transitiv. Eine noch schwächere Äquivalenzrelation erhalte ich, wenn ich den Begriff Obst bilde, also Äpfel, Birnen, Pflaumen usw., kurz alles, was man als Obst bezeichnet, als gleich betrachte. Mit dem Begriff der Äquivalenzrelation ist eng der Begriff der Äquivalenzklasse verbunden. Ist nämlich auf einer Menge M eine Äquivalenzrelation R erklärt, so können wir zu jedem Element M die Untermenge Ma aller derjenigen Elemente b von M bilden, die äquivalent zu a sind, d. h. in der Relation R zu a stehen. (Zur Kennzeichnung einer Äquivalenzrelation verwenden wir gern auch ein Zeichen, das ähnlich aussieht, wie das gewöhnliche Gleichheitszeichen, und schreiben daher statt aRb auch etwa a=b.) Wir erhalten damit eine Zerlegung von M in disjunkte Untermengen (d. h. in Untermengen, deren paarweise Durchschnitte leer sind). Das soll heißen, die Menge M ist Vereinigungsmenge von Untermengen Ma: M = (JMa, wobei der Index a a eine gewisse Indexmenge durchläuft, und zwei verschiedene solche Mengen Ma sind elementefremd. Zum B e w e i s bemerken wir, daß jedes Element von M sicher in einer der oben mit Ma bezeichneten Mengen enthalten ist; das Element a^M gehört nämlich sicher zur Untermenge Ma, da a=a gilt (hierbei haben wir die Reflexivität ausgenützt). Es ist also M = |JM a , wenn wir hierbei die Vereinigungsmengenbildung über alle a
a £ M erstrecken. Wir brauchen somit nur noch zu zeigen, daß die zu zwei Elementen a, b£M gehörigen Mengen Ma und Mb entweder disjunkt sind oder überhaupt zusammenfallen; dann erhalten wir nämlich die gewünschte Zerlegung von M in der Form JSI =\^Ma, wenn wir hierin die Vereinigungsmengenbildung nur über alle paarweise a verschiedenen Mengen Ma erstrecken. Es mögen also etwa Ma und Mb ein Element c € M gemeinsam haben, d. h. a=c und b =c. Wegen der Symmetrie der Äquivalenzrelation ist dann auch c=b und daher der Transitivität zufolge auch a=b und somit
32
B. Grundbegriffe
b € Ma. Da alle zu b äquivalenten Elemente wegen der Transitivität auch zu a äquivalent sind, ist also aMbMa. Ebenso folgt Ma->- TA zwischen Vektoren und Translationen einen Isomorphismus zwischen der Gruppe der Vektoren und der Gruppe der Translationen her, denn es gilt gerade, wie wir oben gesehen haben, A±
B•
Vom rein gruppentheoretischen Standpunkt aus sind also Vektoren und Translationen nicht voneinander zu unterscheiden. Wir hätten auch von den Translationen ausgehen und hierdurch die Vektoren definieren können.
2.3.9. Geradengleichung in Parameterform W i r können die Vektoren auch dazu benutzen, um eine andere Form der Geradengleichung herzuleiten. Jeder Punkt P einer durch die Punkte A und B bestimmten Geraden g ist nämlich dadurch charakterisiert, daß die Vektoren AB und AP •9
O
Abb. 40
kollinear
74
C. Geometrie
sind, daß also AP ein Vielfaches von AB ist, da letzterer sicher von 0 verschieden ist. Führen wir die Ortsvektoren a von A, b von B u n d « von P ein (Abb. 40), so wird AB—b— a, AP —x — a, und für die Punkte P von g und nur für diese gilt x—a=t(b—a) mit einer reellen Zahl t. Führen wir noch neue Bezeichnungen ein, so können wir also sagen, daß sich die Punkte P einer Geraden durch eine Gleichung in Parameterdarstellung x = a + tB wiedergeben lassen, worin x der Ortsvektor des laufenden Punktes P, a der Ortsvektor eines festen Punktes der Geraden und B ein fester (vom Nullvektor verschiedener) Vektor in der Geraden ist; t durchläuft sämtliche reellen Zahlen. Durch Übergang zu den Koordinaten erhalten wir hieraus die beiden Koordinatengleichungen xi = ai + tB1, x2 = a2 + tB2. Nur durch die Ortsvektoren a u n d b der Punkte A und B ausgedrückt, ergibt sich aus der Gleichung x—a = t(b—a) für die durch A und B bestimmte Gerade die Parameterdarstellung x = (i -t)a + tb.
2.3.10.
Schwerpunkt. Baryzentrische Koordinaten
Es seien in der Ebene r Punkte Plt . . . , PT gegeben, denen reelle Zahlen 04, . . . , a r (die auch negativ sein können) als Gewichte mit der Nebenbedingung + . . . +ar=t=0 zugeordnet sind. Schwerpunkt dieser Punkte heißt dann der Punkt P, dessen Ortsvektor a: sich aus den Ortsvektoren x( der Punkte Pi gemäß x=
alxl +. . . + arasr . . . ,xn} von V wählen. Dann ist diese Menge auch Basis von F. Da sie nämlich auch in F unabhängig ist, ließe sie sich anderenfalls zu einer unabhängigen Basis von F ergänzen, diese besäße dann aber mehr als n Elemente im Widerspruch dazu, daß alle unabhängigen Basen aus der gleichen Anzahl von Elementen bestehen. Das bedeutet aber gerade, daß F' mit V zusammenfallen muß.
3.1.6. Basis eines Vektorraumes Es sei F ein w-dimensionaler Vektorraum. Dann besitzt F eine aus n Elementen e 1 ; . . . ,en bestehende (unabhängige) Basis; die Vektorene i nennen wir (in Einklang mit der bereits früher für die Vektoren der Ebene und des Raumes eingeführten Bezeichnungsweise) Basisvektoren. Mittels dieser Basis läßt sich jeder Vektor A £V als Linearkombination A = A'et + . . .
+Anen
darstellen. Die Koeffizienten in dieser Linearkombination sind eindeutig bestimmt. Wäre nämlich auch A = A'iei + . . . +A'nen, so erhielten wir durch Subtraktion der beiden Darstellungen die Gleichung 0 = (A1—A'1)e1+
. . . +(An-A'n)en
,
in der wegen der linearen Unabhängigkeit der ei alle Koeffizienten verschwinden müssen, also stets A' = A" sein muß. Diese Koeffizienten nennen wir wieder die (kontravarianten) Koordinaten des Vektors A bezüglich der aus den e f bestehenden Basis. Man erkennt dann unmittelbar: Wenn außerdem der Vektor B die Koordinaten B* hat, so hat der Vektor A +B die Koordinaten A' + Bl und der Vektor IA die Koordinaten ZA'. Wir entnehmen dem für die Vektoren ei geführten Beweis zugleich noch allgemeiner: Gegebene Vektoren A^,. . . , Am sind genau dann linear unabhängig, wenn für jeden Vektor, der sich als Linearkombination der Ai darstellen läßt, die Koeffizienten dieser Linearkombination eindeutig bestimmt sind. Die Notwendigkeit dieser Bedingung haben wir nämlich im Grunde genommen eben gezeigt; daß sie auch hinreichend ist, ergibt sich daraus, daß wegen der eindeutigen Bestimmtheit der Koeffizienten neben der trivialen Linearkombination 0At + . . . + 0Am keine nichttriviale Linearkombination den Nullvektor ergeben kann. Aufgaben 1. a) Zeige, daß die reellen F u n k t i o n e n einer reellen "Variablen einen Vektorraum bilden. Bildet die Menge der P o l y n o m e , b) die für x = 1 verschwinden, c) bei denen nur gerade P o t e n z e n auftreten, d) deren v o n Null verschiedene K o e f f i z i e n t e n bei aufeinanderfolgenden P o t e n z e n abwechselndes Vorzeichen haben, einen Vektorraum?
3. Einführung des w-dimensionalen R a u m e s
127
2. Sind im Vektorraum aller Funktionen auf der reellen Achse a) {ez, eix, 1} , b) {1, cos x, cos 2 «, cos 2x] , c) {sin x, x • sin x, x2 sin x, ex} linear abhängig? Gib maximale linear unabhängige Teilsysteme an. 3 . Zeige, daß die Menge der Polynome vom Grade S m mit reellen Koeffizienten a) in einer Variablen, b) in r Variablen einen Vektorraum bilden, wenn man als Verknüpfungen die gewöhnliche Addition und Multiplikation wählt, und bestimme die Dimension dieses Vektorraums. Bilden die Polynome vom genauen Grad m einen Vektorraum ? 4 . E i n e Gerade g der Ebene heiße von gegebenen Geraden gi abhängig, wenn ihre Gleichung (d. h. die lineare Gleichung in den Koordinaten, auf deren rechter Seite 0 steht) Linearkombination der Gleichungen der Geraden gi ist. Untersuche, ob dieser Abhängigkeitsbegriff den Abhängigkeitsaxiomen genügt. Wie groß ist die Basiszahl der Menge der Geraden der E b e n e bezüglich dieser Abhängigkeit? B e s t i m m e eine Basis! 5. Ergänze {ai,a2} m i t a j = (1, 2, 3), a 2 = (3, 2, 1) zu einer B a s i s des Vektorraums R3 der Tripel reeller Zahlen. 6. a) Ui, U2 seien Unterräume des Vektorraums F . Zeige: Aus dim Ui + d i m U2 =-dim V folgt E/j fl t/2=l={0}. b) Zeige: F ü r Untervektorräume E/j, U2 endlicher Dimension gilt dim (TJ ^ + U2) S d i m U4 genau dann, wenn U2 c Ui ist. 7. Eine Untermenge M' eines Moduls heißt Untermodul, wenn sie bezüglich der Moduloperationen von M selbst Modul ist. Zeige, daß hierfür notwendig und hinreichend ist, daß mit x, y stets x—y^M' gilt. 8. Bestimme die Dimension des von den Vektoren = (0, 1, 2, 3, 4), a 2 = ( 0 , 1, 0, 1, 0), o 3 = ( l , 0, 1, 0, 1), a 4 = ( 4 , 3, 2, 1, 0) erzeugten Untervektorraums des Vektorraums R 5 der 5-Tupel reeller Zahlen.
3.2.
Affiner Baum
Wenn wir das im Falle der analytischen Geometrie der Ebene und des Raumes Betrachtete überdenken, so stellen wir fest, daß wir es dort mit zwei Arten von Objekten zu tun hatten, mit Punkten und mit Vektoren. Je zwei Punkte bestimmten einen Vektor, und umgekehrt konnten wir durch Abtragen eines Vektors von einem Punkt aus einen neuen Punkt gewinnen. Die Vektoren für sich bildeten einen Vektorraum. Dies nehmen wir zum Anlaß, um eine abstrakte Definition eines affinen Raumes zu geben.
3.2.1.
Definition des affinen Baumes
Unter einem affinen Raum 21 verstehen wir ein Paar (A, V), gebildet aus einer Punktmenge A und einem Vektorraum V. Zwischen diesen beiden soll folgender Zusammenhang bestehen (Axiome des affinen Raumes): 2. Jedes geordnete Paar (X, Y) von Punkten X, Y ^A bestimmt eindeutig einen Vektor aus V, den wir mit XY bezeichnen.
128
C. Geometrie
2. Zu jedem Punkt X^A
und jedem Vektor A £ V gibt es einen eindeutig bestimmten
Punkt Y(LA mit XY=A, daß also A gerade der durch die Punkte X, Y bestimmte Vektor ist. 3. Für drei Punkte X, Y, Z gilt stets 1 7 + YZ = XZ (Regel von der geometrischen Addition der Vektoren). Man bestätigt sofort, daß im Falle der Geraden, der Ebene und des Raumes diese Axiome erfüllt sind. Der affine Raum 91 heißt n-dimensional, wenn der zugehörige Vektorraum V n-dimensional ist. Wir bezeichnen ihn dann sinngemäß auch mit 9In = (An, Vn). Da ein Vektor der Form XX die Eigenschaft hat, einen beliebigen Vektor bei der Addition zu reproduzieren (denn man kann nach 2.) einen beliebigen Vektor stets in der Form XY schreiben mit Y^A und erhält dann nach 3.) 1 1 + 1 7 = 1 7 ) , ist XX der Nullvektor 0 des Vektorraumes F. Da ferner allgemein XY + YX = XX ist, gilt XY=-YX. 3.2.2.
Affiner Unterraum
Affiner Unterraum %' =(A',V') eines affinen Raumes 21 =(A,V) heißt ein affiner Raum, dessen Punktmenge A' Untermenge der Punktmenge A von 91 und dessen Vektorraum V Teilvektorraum des Vektorraums V von 91 ist, wobei der Zusammenhang zwischen Vektoren und Punkten in 91' derselbe wie der in 91 sein soll. So ist eine Gerade im dreidimensionalen Raum affiner Unterraum des dreidimensionalen affinen Raums, desgleichen eine Ebene usw. Einen eindimensionalen affinen Unterraum nennen wir eine Oerade, einen zweidimensionalen eine Ebene und einen (n — l)-dimensionalen, wenn n die Dimension des zugrundeliegenden affinen Raumes ist, eine Hyperebene; im dreidimensionalen Raum fallen also die Begriffe Ebene und Hyperebene zusammen.
3.2.3.
Koordinatensystem
Im w-dimensionalen affinen Raum 9t„ Wählen wir einen Punkt 0 als Koordinatenursprung sowie n linear unabhängige Vektoren e 1 , . . . , e n von F n als Basis von Vn. Diese e. können wir uns an 0 abgetragen denken, d. h. in der Form ei = OPi mit gewissen Punkten P{ darstellen (s. Abb. 78). Dann nennen wir das (« + 1)-Tupel
129
3. Einführung des n-dimensionalen Baumes
{0;ei,..., en\ oder auch das(w +1)- Tupel {0; Pi, . . . , Pn} ein Koordinatensystem von Die Gerade durch den Punkt 0, die durch den Vektor ei bestimmt wird (oder, was auf dasselbe hinausläuft, die Gerade, die durch die Punkte 0 und Pi geht), d. h. derjenige eindimensionale affine Unterraum, dessen Vektorraum Vi von ef erzeugt wird und dessen Punktmenge Al aus genau den Punkten besteht, die durch Abtragen der Vektoren aus Vt an 0 erhalten werden, heißt die i-te Koordinatenachse unseres Koordinatensystems. Diejenige Hyperebene durch 0, deren Vektorraum von allen e. mit j 4= i erzeugt wird, heißt die i-te Koordinatenhyperebene. Vermöge dieses Koordinatensystems können wir sowohl die Vektoren als auch die Punkte des affinen Raumes in eindeutiger Weise durch Koordinaten charakterisieren. Für die Vektoren haben wir dies bereits gezeigt. Jeder Punkt P bestimmt einen Ortsvektorx=OP, den wir bezüglich der Basisvektoren
zerlegen können:
x=OP = 2J xle. ; ¿=1 die eindeutig bestimmten Koeffizienten x% heißen die Koordinaten des Punktes P. Umgekehrt gehört zu jedem n-Tupel reeller Zahlen x1, . . . , xn genau ein Punkt P, der die x1 als Koordinaten besitzt, nämlich der nach den Axiomen des affinen Raumes existiey n rende Punkt P, für den OP = £ x'ei ist¿=i 3.2.4.
Parameterdarstellung affiner Vnterräume
Es sei = (Am, F m ) ein m-dimensionaler affiner Unterraum des n-dimensionalen affinen Raumes , q.e.d.
138
D. Lineare Gleichungssysteme
Ebenso wie die Multiplikation von Abbildungen ist die Multiplikation von Matrizen im allgemeinen nicht kommutativ. Wir bestätigen nachträglich, daß wir das zunächst symbolisch eingeführte Produkt Aap (s. S. 133) auch im Sinne der Matrizenmultiplikation auffassen können, indem wir x als eine Matrix auffassen, die aus einer Spalte und n Zeilen besteht, eine sog. Spaltenmatrix (oder auch Spaltenvektor genannt) mit dem allgemeinen Element x. (da nur eine Spalte vorhanden ist, können wir auf einen Spaltenindex verzichten). Die Gleichung Aac = 6 ist dann als Matrizengleichung zu verstehen, d. h., die auf beiden Seiten der Gleichung an entsprechenden Plätzen stehenden Elemente müssen gleich sein.
2.4.
Zusammenfassung
Das Ergebnis der obigen Überlegungen zusammenfassend, können wir folgendes sagen: Unter einer (m, n)-Matrix A = («,-•) ist ein rechteckiges Schema A = von Elementen a.. zu verstehen, das aus m Zeilen und n Spalten besteht. Zwei derartige Matrizen A = (a(j) und B = (&j?) heißen gleich, wenn ihre entsprechenden Elemente gleich sind: A = B x n beliebig vorschreiben und können dann die letzte nichttriviale Gleichung T wegen arr=t=0 (eindeutig) nach xr auflösen. Diese Lösung setzen wir in die vorhergehende Gleichung ein und bestimmen aus ihr xT l und fahren auf diese Weise fort, bis wir Xj erhalten. Sobald wir xr+v . . . , xn vorgeschriebene Werte erteilt haben, sind somit alle anderen Unbekannten eindeutig bestimmt. Daraus geht hervor, daß das System lösbar ist und daß wir auf die beschriebene Weise sämtliche Lösungen gewinnen. Wenn es uns also gelingt, das Lösen eines beliebigen linearen Gleichungssystems auf das Lösen eines Systems der eben betrachteten speziellen Form zurückzuführen, so ist das praktische Problem der Lösung eines linearen Gleichungssystems grundsätzlich erledigt. Wir wollen dazu zwei lineare Gleichungssysteme als äquivalent bezeichnen, wenn jede Lösung des einen Systems auch Lösung des anderen Systems (und umgekehrt) ist, wenn also beide Systeme dieselbe Lösungsmenge besitzen. Wir behaupten, daß wir
3. GAUSSsches Eliminationsverfahren
141
durch folgende Operationen von einem linearen Gleichungssystem zu einem äquivalenten gelangen: 1. Vertauschung von zwei Gleichungen. Das ist evident, da es doch auf die Reihenfolge der Gleichungen nicht ankommt. 2. Vertauschung von zwei Spalten der Matrix A (etwa der j-ten und &-ten) und der entsprechenden Unbekannten x. und xk. Das läuft nämlich nur auf eine Änderung der Reihenfolge der Summanden in den einzelnen Gleichungen hinaus. 3. Addition eines Vieljachen einer Gleichung des Systems zu einer anderen. Wenn vorher die Gleichungen durch ein m-Tupel reeller Zahlen Xy, . . . , xn erfüllt waren, erfüllt dieses w-Tupel nämlich offenbar auch das neue System. Da man von dem neuen System durch eine analoge Operation (Addition des entsprechenden negativen Vielfachen der einen Zeile zur anderen) wieder zum ursprünglichen zurückkehren kann, ist. aber auch umgekehrt jede Lösung des neuen Systems gleichzeitig Lösung des alten Systems. Für die praktische Rechnung ist es zweckmäßig, diese Operationen nur an den Koeffizienten durchzuführen und dazu neben der Koeffizientenmatrix A die sogenannte erweitere Koeffizientmatrix (A, 6) einzuführen, die durch Ergänzen der Matrix A durch die Spaltenvektor5 entsteht. Dann entspricht den obengenannten Operationen: 1. Vertauschung von zwei Zeilen der erweiterten Koeffizientenmatrix. 2. Vertauschung von zwei Spalten der Matrix A (die Vertauschung der entsprechenden Unbekannten ist jetzt für uns uninteressant). 3. Addition eines Vielfachen einer Zeile der erweiterten Koeffizientenmatrix zu einer anderen. Wir behaupten, daß wir auf diese Weise jede Matrix A auf die angegebene kanonische Dreiecksgestalt bringen können. Wir führen den B e w e i s durch Induktion nach der Zeilenzahl m. Wenn A = 0 ist, sind wir fertig. Wir können also annehmen, daß A von der Nullmatrix verschieden ist, daß die Matrix A also ein von Null verschiedenes Element enthält. Durch Vertauschung von Spalten (Operation 2) können wir erreichen, daß dieses Element in die erste Spalte gelangt, und durch Vertauschen von Zeilen (Operation 1), daß es hierin an der ersten Stelle steht. Durch Addition geeigneter Vielfacher der ersten Zeile zu den übrigen (Operation 3) können wir dann erreichen, daß die übrigen Elemente der ersten Spalte zu Null werden. Wir können daher ohne Beschränkung der Allgemeinheit annehmen, daß die Matrix A bereits folgende Form h a t :
mit a l t =t= 0, worin B eine Matrix von um Eins geringerer Zeilen- und Spaltenzahl als A ist. Nach Induktionsvoraussetzung können wir B durch die zulässigen (elementaren) Transformationen auf kanonische Dreiecksgestalt bringen. Wenden wir dieselben Operationen auf die ganze Matrix A an, so wird an dem bereits Erreichten dadurch nichts gestört, und wir gelangen zu der gewünschten Dreiecksform. Wir bemerken, daß wir auf die Operation 1 (Vertauschung von Zeilen) auch verzichten könnten. Sollte nämlich in der linken oberen Ecke eine Null stehen, während ein Element der ersten Spalte von Null verschieden ist, so können wir auch durch Addition der entsprechenden Zeile zur ersten erreichen, daß a ^ =f=0 ist.
142
D. Lineare Gleichungssysteme
Kommt es uns darüber hinaus n u r darauf an, überhaupt Dreiecksgestalt zu erreichen (d. h.: alle Elemente unterhalb der Hauptdiagonalen sind 0), ohne daß es uns kümmert, ob Elemente der Hauptdiagonalen von Null verschieden sind oder nicht, so können wir offenbar auch auf die Operation 2 verzichten. Aus rechnerischen Gründen (etwa, um Brüche zu vermeiden) kann es zweckmäßig sein, durch elementare Umformungen möglichst kleine ganze Zahlen als Koeffizienten herzustellen (wenn es sich um ein System mit ganzen Koeffizienten handelt). Betrachten wir als einfaches Beispiel das System a; + 3«/ + 4z = 7 2x + 3y + lz = 4 3x + 4y + 2z =1 , zu dem die erweiterte Koeffizientenmatrix /I 3 4 7 12 3 1 4 \3 4 2 1 gehört. Durch Subtraktion geeigneter Vielfacher der ersten Zeile von den übrigen erhalten wir hieraus /I 3 4 7 ( 0 - 3 - 7 -10 \0 - 5 - 1 0 - 2 0 , Zur weiteren Umformung ist es zweckmäßig, zunächst etwa das Doppelte der zweiten Zeile von der dritten zu subtrahieren und dann entsprechend weiter umzuformen. Wir erhalten damit sukzessive 4 3 7\ 3 - 7 -10 , 1 4 0/
/I 0
\0
3 1 0
4 7' 4 0 5 -10,
Damit bekommen wir als Lösung z — —2, y = 8, x — —9. Das beschriebene Verfahren heißt Gaußsches Eliminationsverfahren (Oaußscher Algorithmus). Damit ist gewährleistet, daß man von jedem linearen Gleichungssystem feststellen kann, ob es lösbar ist, und gegebenenfalls sämtliche Lösungen ermitteln kann.
Aufgaben 1. Untersuche auf Lösbarkeit und löse gegebenenfalls
a) 2x+y —3z =3 x +2z = 2 5x + 3y + 1z = 7
b)
y+2z = 1 x + 2y + Zz = 2 2x+y = -1 + + z— 1.
3. GAUSSSchea Eliminationsverfahren
143
2. Bilde das Produkt aller geordneten Paare der folgenden Matrizen, soweit das möglich ist: A
1 =
(-l
\
1
2
3),
0 -2/
A2 = ( - 4 l ) ,
\
2 0/
A4 = (»/i» *>2< Vi) > A5 = (J j
As = ( i l ) ,
W
J).
Bilde ferner A^A t A 3 (AT ist die sog. transponierte Matrix von A , die man durch Vertauschen der Zeilen mit den Spalten [Spiegeln an der Hauptdiagonalen] aus A erhält). 3. Zeige durch Nachrechnen, daß die Matrizenmultiplikation assoziativ und (mit der Addition) distributiv ist. 4. Zeige, daß für verkettete Matrizen (AB) T = B T A T gilt. 5. Zeige, daß das Produkt von Dreiecksmatrizen wieder eine Dreiecksmatrix ist.
4.
Rang
Wir wollen die Lösungen linearer Gleichungssysteme allgemeiner untersuchen und betrachten dazu wieder die durch eine (m, w)-Matrix A vermittelte lineare Abbildung n m Der Matrix /«II • • • ain \aml. . . amn können wir zwei Vektorräume zuordnen: den von den Zeilenvektoren von A erzeugten Vektorraum F z , der aus allen n-Tupeln reeller Zahlen besteht, die Linearkombinationen der Zeilenvektoren von A sind, sowie den von den Spaltenvektoren von A erzeugten Vektorraum F Sp , der aus allen m-Tupeln besteht, die Linearkombinationen der Spalten von A sind. Da bei der Abbildung x ^Ax
= ytVm
gerade die Linearkombination der Spalten von A mit den Koeffizienten Xy,. . . , xn gebildet wird, ist F g p identisch mit dem Bild von Vn bei der durch A vermittelten linearen Abbildung A. Die Dimension des Vektorraums F z nennen wir den Zeilenrang von A und die Dimension des Vektorraums F g p den Spaltenrang von A . Wir behaupten, daß diese beiden Ränge bei folgenden elementaren Umformungen von A ungeändert bleiben: 1. Vertauschung von zwei Zeilen (oder Spalten), 2. Addition eines Vielfachen einer Zeile (oder Spalte) zu einer anderen, 3. Multiplikation einer Zeile (oder Spalte) mit einer von Null verschiedenen Zahl. B e w e i s : Es genügt offenbar, dies für den Zeilenrang zu beweisen, da durch Vertauschen von Zeilen und Spalten hieraus die entsprechenden Aussagen für die Spalten hervorgehen. Alle genannten Operationen haben die Eigenschaft, daß sie durch eine Operation der gleichen Art wieder rückgängig gemacht werden können. Hieraus folgt sofort, daß
144
D. Lineare Gleichungssysteme
bei den Operationen mit den Zeilen der Vektorraum Vz invariant bleibt. Da nämlich die neu gebildeten Zeilen gemäß den Axiomen des Vektorraums wieder in F z liegen, gilt das auch für den von ihnen erzeugten Vektorraum V'v es ist also V'z m ) Spalten Vektoren der Matrix A gehören nämlich dem m-dimensionalen Vektorraum der m-Tupel an, und die Gleichung Ax = 0 drückt gerade das Bestehen einer Relation zwischen diesen Spalten Vektoren aus. 2. Ein inhomogenes lineares Gleichungssystem Ax =5 ist genau dann lösbar, wenn der Rang der Koeffizientenmatrix A gleich dem Rang der erweiterten Matrix (A, 6) ist. Durch das Hinzukommen einer weiteren Spalte (des Spaltenvektors 5) kann nämlich der Rang höchstens größer werden (und zwar um Eins), und er bleibt genau dann erhalten, wenn die hinzugekommene Spalte von den übrigen linear abhängig ist. Eine solche lineare Abhängigkeit wird aber gerade durch die Gleichung Ax =b ausgedrückt. 3. Ein inhomogenes lineares Gleichungssystem Ax=b, auxi
+ • • • +ainx»
ausgeschrieben
= bi >
ist genau dann lösbar, wenn jede lineare Relation, die zwischen den linken Seiten identisch in den Unbekannten besteht, auch zwischen den rechten Seiten besteht; wenn also aus • • • +Kamj = °
( j = 1> • • • , » )
stets A t 6 1 + . . . +AJ>m = 0 folgt. Das Kriterium ist eigentlich ganz natürlich, es drückt nämlich — salopp gesprochen — gerade aus, daß ein lineares Gleichungssystem genau dann lösbar ist, wenn es keinen Widerspruch enthält, genauer: wenn man durch Linearkombination zu keinem Widerspruch gelangen kann. Wir können das Kriterium noch etwas anders formulieren. Die aufgeschriebene Linearkombination der Zeilen der Matrix A läßt sich nämlich im Matrizenkalkül in der Form XA = 0 schreiben, wo X den Zeilenvektor . . . , Am) bezeichnet; es muß also aus XA = 0 stets Xb = 0 folgen. XA = 0 ist nun ebenfalls ein (und zwar homogenes) lineares Gleichungssystem für die Unbekannten ..., nur daß hierbei über den Zeilenindex von A summiert wird. Führt man nun die sogenannte transponierte oder gestürzte Matrix A T ein, die man aus A durch Spiegeln an der Hauptdiagonalen erhält, für deren allgemeines Element a~ also a'{j = a.{ gilt (Vertauschen von Zeilen und Spalten), so kann man die . . . , km als Lösungen des mit der transponierten Matrix A T 10
Eisenreich
146
D. Lineare Gleichungssysteme
gebildeten transponierten homogenen Gleichungssystems ATXT = 0
mit
XT = 'm
bezeichnen. Da die Bildung + . . . +%mbm gerade wie ein Skalarprodukt zwischen den Vektoren X und b aussieht, kann man also auch sagen: Das Gleichungssystem Ax = b ist genau dann lösbar, wenn jede Lösung des transponierten homogenen Gleichungssystems A ^ 1 = 0 auf der rechten Seite des gegebenen inhomogenen Gleichungssystems senkrecht steht. Nun zum B e w e i s des Kriteriums! Daß es notwendig ist, ist evident; wir haben also noch zu zeigen, daß es hinreichend ist. Wir weisen dazu nach, daß der Rang der erweiterten Koeffizientenmatrix, wenn es erfüllt ist, nicht größer als der Rang der Matrix A sein kann. Anderenfalls gäbe es, wenn r der Rang der Matrix A ist, r + 1 linear unabhängige Zeilen der erweiterten Koeffizientenmatrix. Streichen wir hierin die Elemente der letzten Spalte, so erhalten wir r + 1 linear abhängige Zeilen der Matrix A , zwischen denen also eine nichttriviale lineare Relation besteht. Dieselbe lineare Relation muß dann aber auch zwischen den gestrichenen Elementen bestehen, es Waren also auch die Zeilen der erweiterten Koeffizientenmatrix bereits linear abhängig im Widerspruch zur Voraussetzung. Das Kriterium ist damit bewiesen. Das Kriterium ist nicht nur nützlich, um die Unlösbarkeit eines linearen Gleichungssystems zu beweisen, sondern es kann in speziellen Fällen auch gut zum Lösbarkeitsnachweis herangezogen werden. Betrachten wir als Beispiel dazu das lineare Gleichungssystem
Dieses System hat die spezielle Eigenschaft, daß die Koeffizientenmatrix A schiefsymmetrisch ist, d. h. aif = — a^ gilt (im Falle aj;. = aj{ heißt die Matrix dagegen symmetrisch). Wenn alle Zahlen a, b, c = 0 sind, der Rang von A also gleich Null ist, so ist offensichtlich a. = ß = y = 0 notwendig und hinreichend für die Lösbarkeit des Systems. Dieser Fall ist also uninteressant. Sind dagegen nicht alle Zahlen a, b, c gleich Null (etwa a =t= 0), so sind zwei Zeilen der Matrix (die beiden letzten) sicher linear unabhängig, der Rang ist also s 2 . Zwischen den Zeichen von A besteht, wie man sofort nachrechnet, die Relation (a, b, c) A = 0 (der Rang von A kann also nicht größer als 2 sein), und da eine abhängige Zeile als eine eindeutig bestimmte Linearkombination durch die beiden unabhängigen Zeilen ausgedrückt wird, ist jede Relation zwischen den Zeilen Vielfaches der aufgeschriebenen. Daher ist das Bestehen der Gleichung aa. + bß + cy = 0 notwendig und hinreichend für die Lösbarkeit des linearen Gleichungssystems. 4. Die folgenden Aussagen sind im Falle einer quadratischen Matrix A gleichbedeutend: a) Das homogene Gleichungssystem Ax = 0 besitzt nur die triviale Lösung. b) Das inhomogene System Ax = b
6. Struktur der Lösung
147
ist bei beliebiger rechter Seite b stets höchstens eindeutig lösbar (d. h., wenn es überhaupt lösbar ist, so besitzt es genau eine Lösung). c) Das inhomogene System Ax =b ist bei beliebiger rechter Seite b stets lösbar (nach b) dann also eindeutig). B e w e i s : A ist eine n-reihige quadratische Matrix. Eigenschaft a) bedeutet, daß die n Spalten von A linear unabhängig sind, also eine unabhängige Basis des w-dimensionalen Vektorraums der als Spaltenvektoren geschriebenen w-Tupel bilden. Daher läßt sich insbesondere der Spalten vektor b durch Linearkombination erhalten (Eigenschaft c)), und dabei sind die Koeffizienten eindeutig bestimmt (Eigenschaft b)) (s. S. 126).
Aus der Eigenschaft b) folgt, daß die Spaltenvektoren linear unabhängig sein müssen (Eigenschaft a)) und daher eine Basis bilden (Eigenschaft c)). Eigenschaft c) besagt gerade, daß die n Spaltenvektoren von A eine Basis des w-dimensionalen Vektorraums der w-Tupel bilden und daher linear unabhängig sein müssen. Daraus folgt a) und b). Damit ist alles bewiesen. Das Interessante an dieser Aussage liegt an der Äquivalenz der Eigenschaften b) und c), insbesondere darin, daß aus der Eindeutigkeit der Lösung die Lösbarkeit folgt.
6.
Struktur der Lösung
Einem beliebigen inhomogenen Gleichungssystem Ax = 6 ordnen wir als zugehöriges homogenes System das System AiC = 0 zu. Dann gilt: Eine beliebige Lösung xiah des inhomogenen Systems ist Summe aus einer speziellen Lösung x0 des inhomogenen Systems und einer (geeignet gewählten) Lösung a?hom des zugehörigen homogenen Systems: ®inh = iE0 + ;Khom ' und umgekehrt stellt jede solche Summe eine Lösung des inhomogenen Systems dar. Aus Aa?inh = 6, Ax0 = b folgt ja durch Subtraktion Aa?hom = 0 mit ® h o m = ®inh— ®o> und umgekehrt ergibt sich aus Aac0 = 6, Aa:hom = 0 durch Addition A(£C0+£Chom) =5, ®0 + ichom ist also gleichfalls Lösung des inhomogenen Systems, q. e. d. Um alle Lösungen des inhomogenen Systems zu erhalten, müssen wir also alle Lösungen des homogenen Systems kennen. Für ein homogenes System gilt: Die Lösungen des homogenen Gleichungssystems Aac = 0 mit der (m, n)-Matrix A bilden einen Vektorraum, dessen Dimension gleich n — Rang A ist. B e w e i s : Aus Aas = 0, Ax' = 0 folgt A(x+x') = 0 u n d A(toc) = 0 mit daher bilden die Lösungen einen Vektorraum. Um die Dimension dieses Vektorraums zu bestimmen, nehmen wir an, daß der Rang der Matrix A gleich r ist. Die Spaltenvektoren von A bezeichnen wir mit a i : A = (ala2
...
an).
Dann sind r dieser Spaltenvektoren linear unabhängig und die übrigen davon abhängig, und wir können ohne Beschränkung der Allgemeinheit (durch geeignete Numerierung) annehmen, daß ait.. . , ar linear unabhängig sind. E s bestehen also Glei10*
148
D. Lineare Gleichungssysteme
chungen der Form a. =
+ . . . *a T
{i = r +1,.
.. , n ) ,
worin die Sterne für Koeffizienten stehen, deren Werte uns nicht weiter interessieren. Anders geschrieben, bedeuten diese Gleichungen gerade, daß I
*\ * o
*
-1 0
xt
®2 =
1
öl
*
0 0
\-ll
0/
Lösungen der Gleichung Ax = 0 sind (die Sterne gehen von der ersten bis r-ten Spalte). Man erkennt an den Einsen und Nullen sofort, daß diese n — r Vektoren linear unabhängig sind. Sie stellen darüber hinaus eine Basis für alle Lösungen x der Gleichung Ax = 0 dar. Indem man nämlich von x eine geeignete Linearkombination der Vektoren • • • > x „- r subtrahiert, gelangt man zu einem Spaltenvektor, der von der (r + l)-ten Zeile ab lauter Nullen enthält:
X
=x
— tx^i
*
—
Wären hierin nicht auch die in der ersten bis r-ten Zeile stehenden Elemente 0, so Würde die Gleichung Ax' = 0 ausdrücken, daß die ersten r Spalten von A linear abhängig sind, was der Voraussetzung widerspräche. Also ist in der Tat X = (Xl Xl + ...
+
xi
>
*4 = 1 x
3
=
2 1 Xy~5 5
-2-
-
Da es auf die Bezeichnung der Parameter nicht ankommt, können wir zur Vermeidung Ai A von Nennern auch — und — als neue Parameter fi», /i2 wählen und bekommen als 5 5 allgemeine Lösung =5
,
x2 = 5 fi2 , x3 = -2-6/^-7/112 xi = l - f i 1 - 2(x2 .
,
150
D. Lineare G-leichungssysteme
Wir wollen diese Lösung in die Form (*) umschreiben. Indem wir zum Beispiel f*l —1"2 = 0 setzen, erhalten wir die spezielle Lösung des inhomogenen Systems
Subtrahieren wir diese von der obigen Lösung, betrachten also nur den in ¡xl und ju2 linearen und homogenen Bestandteil darin, so gewinnen wir die allgemeine Lösung des homogenen Systems
Wählen wir hierin einmal ^ = 1, jtt2 = 0, das andere Mal ^=0, (i2 = i , so ergibt sich das Fundamentalsystem von Lösungen
mit dem sich die obige allgemeine Lösung in der Form X =X0 +
+ HtfC2
schreibt. Das steht in Einklang damit, daß der Rang der Koeffizientenmatrix offensichtlich gleich 2 ist, der Spaltenrangdefekt also 4 — 2 = 2 beträgt. Wir können das oben erhaltene Ergebnis noch etwas anders formulieren. Mit der Matrix A war eine lineare Abbildung des Vektorraums Vn in den Vektorraum Vm verknüpft, die wir gleichfalls mit A bezeichnet haben. Die Menge der Vektoren, die bei dieser Abbildung auf Null abgebildet werden, heißt auch der Kern der Abbildung, abgekürzt ker (vom englischen kernel); das ist gerade der Lösungsraum der homogenen Gleichung Aas = 0. Das Bild (abgekürzt im vom englischen image) von Vn bei der Abbildung A stellt gleichfalls einen Vektorraum dar, dessen Dimension gleich dem Rang der Matrix A ist. Wir können daher sagen: dim im A + dim ker A = n = Dimension des Urbildraums V.n = Spaltenzahl von A. Aufgaben 1. Löse das System
x2 + 2x3 - 4z4 - a;5 = 0, 3xt + 4x2 + 5x3 — 7x,k — 7%s = 0, 6«! + 7x2 + &xi -13X5= 0, — 3«!— x2 +9x3 — 21xi + 4a;5=0.
7. Beschreibung von Vektorräumen und affinen Räumen
151
2. Bestimme A so, daß das System
(2+X)x+5y=0 , -x+Xy= 0 nichttriviale Lösungen besitzt, und gib diese an. 3. Ist der Durchschnitt der Lösungsräume zweier homogener linearer Gleichungssysteme für die gleichen Unbekannten wieder Lösungsraum eines homogenen Systems?
7.
Beschreibung von Vektorräumen und affinen B ä u m e n durch lineare Gleichungssysteme
Bei der Untersuchung der Lösungen eines homogenen linearen Gleichungssystems haben wir festgestellt, daß die Lösungen des Systems einen Untervektorraum des Vektorraums Vn bilden. Wir wollen jetzt zeigen, daß man umgekehrt jede« Untervektor-
raum eines gegebenen Vektorraums durch ein lineares Gleichungssystem in den Koordinaten der Vektoren beschreiben kann, so daß der gegebene Teilvektorraum aus genau den Vektoren besteht, deren Koordinaten dem linearen Gleichungssystem genügen. Vn sei ein w-dimensionaler Vektorraum, F g (q = n — r) der betreffende Teilvektorraum. xit . . . ,xg seien die als Spalten Vektoren angeordneten Koordinaten bezüglich einer festen Basis von Vn, die g unabhängige Basisvektoren von V^ besitzen. Dann sind die Vektoren x( linear unabhängig, und die aus ihnen gebildete (n, g)-Matrix B = (Xi . . . xg) hat den Rang q. Nach den oben bewiesenen Aussagen hat der Vektorraum der Lösungen des homogenen Gleichungssystems yB = 0 für die Zeilen Vektoren y aus n Spalten die Dimension n — Q = r = Zeilenrangdefekt (Zeilenzahl minus Rang); gegenüber der obigen Darstellung sind hierin nämlich Zeilen und Spalten Zu vertauschen. Wir können daher r linear unabhängige Lösungsvektoren t/j, . . . , yT finden, die, untereinander angeordnet, eine Matrix
ergeben. A ist vom Typ (r, n) und hat den Rang r. Dann ist Ax = 0 ein Gleichungssystem der gewünschten Art. Nach Konstruktion gilt nämlich A a e ^ O f ü r i = 1 , . . . , q, und da der (Spalten-) Rangdefekt von A gleich n—r = q ist, spannen d i e x i in der Tat gerade den Lösungsraum auf. E s ist klar, daß wir die Matrix A durch weitere Zeilen ergänzen könnten, die Linearkombinationen der Zeilen von A sind. Die konstruierte Matrix hat die minimal mögliche Zeilenzahl. Wir haben auf diese Weise zwei Vektorräume konstruiert, die einander eineindeutig entsprechen: einen r-dimensionalen Raum, der von den y ( aufgespannt wird, und einen g-dimensionalen (o = n — r), der von den x. erzeugt wird. Dabei gilt stets yfC- = 0 (die betreffenden Vektoren stehen „senkrecht" aufeinander). Wir wollen das Ergebnis benutzen, um einen beliebigen q-dimensionalen
Unterraum
eines n-dimensionalen affinen Raumes
affinen
durch ein lineares Gleichungs-
system zu beschreiben. sei der Unterraum, der den P u n k t P 0 enthält und zu dem der Untervektorraum V des zu gehörigen Vektorraums Vn gehört. Bezüglich eines
152
D. Lineare Gleichungssysteme
festen Koordinatensystems von %n ordnen wir die Koordinaten der Punkte und Vektoren in Spaltenvektoren an; a sei der Spaltenvektor von P0, xit . . . , Xg seien die Spaltenvektoren einer Basis von F . Dann schreibt sich der Spaltenvektor x eines beliebigen Punktes P von 91p in der Form x = a +A1X. 11 + . . . +Xx ee , denn das ist gerade die Parameterdarstellung des affinen Unterraums 2lf. Wählen wir dann die Matrix A wie oben, so erhalten wir in Asc=A a ein inhomogenes lineares Koordinatensystem, das das Gewünschte leistet. Nach Konstruktion genügt nämlich der Spaltenvektor jedes Punktes von A f diesem Gleichungssystem, und umgekehrt unterscheidet sich jede Lösung dieses Systems von der speziellen Lösung a um eine Lösung des homogenen Systems Axhom = 0, also um einen Vektor aus V e>, d. h. eine Linearkombination derx,. » Damit ist alles bewiesen. Betrachten wir hierzu im zwei- und dreidimensionalen Raum ein paar Beispiele! Es sei etwa in der Ebene die Gerade
in Parameterform gegeben. Mit den obigen Bezeichnungen ist dann a = B=
j > ®i =
j>
. Das zu betrachtende System y B = 0 , das sich auf eine Gleichung reduziert,
besitzt nur eine linear unabhängige Lösung, die wir als (3, —2) wählen können. Es wird also A = (3, - 2 ) und damit (3, 2)
= (3, - 2 )
, d. h.
3z-2y=l, die gesuchte lineare Gleichung unserer Geraden. Für eine Gerade im dreidimensionalen Raum, etwa
haben wir analog das lineare Gleichungssystem
zu betrachten, für das wir als ein Fundamentalsystem linear unabhängiger Lösungen 3—2 0\ 0 4—3/ jjaa JJCJD.U CMO iJiovuiuucimcn vucivuuiigoojouMH '
(
ß -2 0\ / \ / 3 - 2 0\ (0 4 - . M - 0 « - . )
1 2.
8. Lineare Funktionale
153
d. h. Zx-2 y
1 — 3z = - 2 .
Für eine Ebene im dreidimensionalen Raum, etwa
also
-2' = 131 ,
3
d. h. gleich dem Funktional, dessen Wert auf allen Vektoren von Vn gleich Null ist, so folgte insbesondere 0 = /(ei)=A1/i(«i)+ • • • + K tn^i)=K für alle i.
7. Beschreibung von Vektorräumen und affinen Räumen
155
Zweitens bilden diese f( eine Basis für alle linearen Funktionale auf F n . Das beliebige lineare Funktional / auf F , das durch seine Werte f(ef) auf den Basisvektoren bestimmt wird, ergibt sich nämlich als Linearkombination / = /(e 1 )/ 1 + . . .
+f(en)fn
der ff (daß das richtig ist, erkennt man sofort, wenn man f(e.) bildet). Daher stellen die fi eine aus n Elementen bestehende unabhängige Basis von F n * dar, der duale Raum ist also tatsächlich gleichfalls w-dimensional. Da der duale Raum F* eines Vektorraums F wieder ein Vektorraum ist, kann man hiervon wiederum den dualen Raum F** = (F*)* bilden und erhält den sog. bidualen Raum von F. F läßt sich dann in natürlicher Weise als ein Untervektorraum von F** ansehen. Man kann nämlich die Elemente von F auch als lineare Funktionale auf F* ansehen, indem man für x £ V und /£ F* den W e r t a c ( f ) durch x(f)=f(x) erklärt. Daß das in der Tat ein lineares Funktional ist, erkennt man daraus, daß für f , g£V* u n d X ^ R gilt ®(/ + 9) = (/ + 9)(x) = f(x) + g(x) =x(f) +x(g) , xW) = mx)=lf(x)=te(f)
.
Haben wir es insbesondere mit dem endlichdimensionalen Vektorraum Vn zu tun, so gilt sogar F** = Vn; F** hat dann nämlich dieselbe Dimension wie F*, also gleichfalls n,' und da er den w-dimensionalen Vektorraum F„71enthält,' müssen beide Räume zusammenfallen. Mit den obigen Bezeichnungen gilt dann für die Basis e i } . . . , e n von V** n wieder
diese Beziehung ist also symmetrisch. Fassen wir den F n zugleich als (w-dimensionalen) affinen Raum auf, indem wir die Elemente von Vn als Punkte und zugleich als Vektoren deuten (die Differenz zweier Punkte ergibt den Vektor von dem einen Punkt zum anderen), so können wir sagen: Die Menge der Punkte x, auf der ein gegebenes lineares Funktional f einen festen Wert annimmt: f{x) = c , stellt eine Hyperebene dar, und jede Hyperebene läßt sich auf diese Weise gewinnen. Diese Hyperebene zerlegt den Raum in zwei Halbräume, für deren Punkte stets f(x)^c oder stets / ( x ) ^ c ist. Ein solcher Halbraum ist stets konvex (Beweis als Übungsaufgabe). Stellt man für mehrere lineare Funktionale derartige Ungleichungen auf, bildet man also mehrere lineare Ungleichungen in den Koordinaten der Punkte, so erhält man als Lösungsmenge den Durchschnitt von (endlich vielen) Halbräumen (Abb. 79), also eine konvexe Menge (als Durchschnitt konvexer Mengen). Auf diese Weise können wir zum Beispiel jedes konvexe Polygon oder Polyeder gewinnen. Mit derartigen Mengen hat man es zum Beispiel in der linearen Optimierung zu tun.
156
D. Lineare Gleichungssysteme
Lassen wir sogar unendlich viele Ungleichungen zu, so können wir auch beliebige konvexe Mengen in dieser Weise darstellen, nicht nur durch Geraden, Ebenen usw. begrenzte. Nehmen wir zum Beispiel an, daß wir es mit einer ebenen konvexen Menge zu tun haben, die von einer glatten Kurve begrenzt wird, so daß also in jedem Punkt eine Tangente existiert, so ist die konvexe Menge gerade der Durchschnitt von Halbebenen, die durch die Tangenten definiert werden (Abb. 80).
In der Funkticmsanalysis untersucht man unter anderem lineare Funktionale auf (im allgemeinen unendlichdimensionalen) Vektorräumen. Dort fordert man überdies noch, daß die durch die linearen Funktionale vermittelten Abbildungen stetig sind. Diese Bedingung wäre bei uns automatisch erfüllt, wenn wir auf unseren endliehdimensionalen Vektorräumen in natürlicher Weise eine Topologie einführen. Dagegen kann für beliebige Vektorräume der biduale Vektorraum echt umfassender sein; die Eigenschaft eines Vektorraums, mit seinem Bidual zusammenzufallen, verdient dann, besonders hervorgehoben zu werden, und charakterisiert die sog. reflexiven Räume.
9.
Isomorphie und Homomorphie von Vektorräumen
Wir hatten von einer Abbildung a: G-+G' einer Gruppe G auf eine Gruppe G' früher gesagt, daß sie einen Isomorphismus von G auf G' vermittelt, wenn sie eineindeutig ist und das Bild eines Produkts gleich dem Produkt der Bilder ist, in Zeichen: (z° bezeichnet das Bild von z bei der Abbildung a.) G und G' hießen dann isomorph. Nun stellen Vektorräume gleichfalls Gruppen dar, und zwar additiv geschriebene kommutative Gruppen. Für diese Gruppen ist aber noch zusätzlich eine Multiplikation mit reellen Zahlen (Elementen aus R) erklärt. Wir fordern daher von einem Isomorphismus eines Vektorraums noch zusätzlich, daß er mit der Multiplikation mit Elementen aus R vertauschbar ist; mit anderen Worten: Eine eineindeutige Abbildung a eines Vektorraums V auf einen Vektorraum V heißt ein Isomorphismus von V auf V, wenn für x, y£V,XiR (x + y)° = x° + ya , (Xx)a=kxa gilt. -
9. Isomorphie und Homomorphie von Vektorräumen
157
Für endlichdimensionale Vektorräume gilt: Zwei Vektorräume V und V sind genau dann isomorph, wenn sie dieselbe Dimension besitzen. B e w e i s : Stellt nämlich a einen Isofnorphismus von V auf V dar und bilden die Elemente e l t . . . , e n eine linear unabhängige Basis von V, so erhält man durch Linearkombination der Bildere" v ... ,e"n alle Elemente von V, die V e k t o r e n . . . bilden also eine Basis von V . Diese Basis ist unabhängig, denn aus einer Relation a e
l i + ••• + a n e n = °
würde folgen « l e l + • • • +«n e n = ° 51) daher haben V und V dieselbe Dimension n. Sind umgekehrt V und V zwei w-dimensionale Vektorräume, so wählen wir eine B a s i s e 1 ; . . . ,en von V und eine Basise' v . . . ,en von V'. Dann wird durch die Zuordnung a :e,X i->-e?=e^ X X ein Isomorphismus a von V auf V definiert, indem wir für einen beliebigen Vektor x = ); es sind also die x{ gerade entsprechend zu permutieren. Wir sagen dann, n sei gerade, wenn sich dabei das Vorzeichen des Differenzenprodukts nicht ändert , d. h., F/TIF ist; dagegen heißt N ungerade, wenn F/JIF^0 ist. Wir wollen zeigen, daß eine Vertauschung zweier Elemente, eine sog. Transposition, stets eine ungerade Permutation darstellt. Die Permutation n möge nämlich lediglich eine Vertauschung der Zahlen i und j bewirken, es sei also 7t(i) =j , j t ( j ) = i , n(k) = k für
k =t= i, k =t= j
(i 4=^') .
Wir ordnen die Elemente xi der Größe nach an: . . . , xi, . . . , Xj , . . .
Dann bewirkt die Vertausohung von xi und x. im Differenzenprodukt F einen Vorzeichenwechsel. Die mit einem Element xk links von xi oder rechts von x. gebildeten Differenzen ändern bei der Vertauschung ihr Vorzeichen nicht. Die mit einem in der Mitte zwischen x( und x. gebildeten Differenzen mit x( und x. kehren ihr Vorzeichen um; das gibt aber eine gerade Anzahl von Vorzeichenumkehrungen. Daher resultiert in der Tat insgesamt ein Vorzeichenwechsel. Da sich, wie wir wissen, jede Permutation durch endlichmalige Vertauschungen gewinnen läßt, können wir also sagen: Eine Permutation ist genau dann gerade, wenn sie sich als Produkt aus einer geraden Anzahl von Transpositionen schreiben läßt. Nebenbei ergibt sich daraus: Wie man auch eine Permutation als Produkt von Transpositionen schreibt, die dabei benötigte Anzahl von Transpositionen ist entweder stets gerade (bei einer geraden Permutation) oder stets ungerade (bei einer ungeraden Permutation). Insbesondere erkennen wir, daß die oben gegebene Definition der Geradheit oder Ungeradheit einer Permutation mittels eines Differenzenprodukts nicht von der Wahl der xi abhängt.
170
D. Lineare Gleichungssysteme
Wir wollen ein Verfahren angeben, nach dem man schnell entscheiden kann, ob eine Permutation gerade oder ungerade ist. Es möge sich um die Permutation n handeln, durch die die Anordnung (1, . . . , n) in die Anordnung (j^, . . . , jn) übergeht. Dann stellen wir von allen Paaren ( j k , jt) fest, ob sie hierin in ihrer natürlichen Reihenfolge stehen oder nicht. Bei jedem Paar, das in falscher Reihenfolge steht, sprechen wir von einer Inversion (oder einem Fehlstand). Dann ist die Gesamtzahl der Inversionen genau dann gerade, wenn es sich um eine gerade Permutation handelt. Wir können nämlich zum B e w e i s zunächst das Element 1, indem wir es sukzessive mit allen links vor ihm stehenden Elementen vertauschen, an die richtige Stelle rücken; dabei werden so viele Vertauschungen benötigt, wie es Inversionen mit dem Element 1 gibt. Dann behandelt man ebenso das Element 2 und fährt so fort. Auf diese Weise ergeben sich insgesamt gerade so viele Transpositionen wie Inversionen. Durch die umgekehrten Operationen entsteht aus der natürlichen Anordnung der Elemente die permutierte. Wir bemerken zugleich mit, daß eine Permutation stets gleichzeitig mit ihrer inversen gerade oder ungerade ist. Betrachten wir als Beispiel die Permutation w, durch die (1 2 3 4 5) in (3 2 4 1 5) übergeht. 3 steht bezüglich zweier folgender Elemente falsch, 2 bezüglich eines, 4 bezüglich eines. Die Gesamtheit der Inversionen ist also 4 und daher die Permutation gerade. Einer Permutation n ordnen wir als ihren Charakter x(n) die Zahl + 1 oder —1 zu, je nachdem, ob n gerade oder ungerade ist. Dann ist offensichtlich yr^jl} ^ j ^/ahl der Inversionen von« Das Produkt jr t jr 2 der Permutationen jt1 und n 2 ist gleich dem Produkt der Transpositionen, die jrt ergeben, und der Transpositionen, die n 2 ergeben. Deren Gesamtzahl ist also genau dann gerade, wenn jrt und n2 beide gerade oder beide ungerade sind. Daher ist Wir können also sagen, daß die Abbildung n H^ /(jr) einen Homomorphismus der Gruppe der Permutationen von n Elementen (der sog. symmetrischen Gruppe
die die rechte Seite des LAPLACEschen Entwicklungssatzes für eine Matrix A darstellt, deren £-te und Z-te Spalte gleich sind (Ä ist bis auf die Abänderung, daß die k-te Spalte durch die Z-te ersetzt worden ist, gleich der alten Matrix A ; das wird aber jetzt nicht verwendet). Wir haben also zu zeigen, daß diese Summe verschwindet. In dieser Summe verschwinden automatisch alle Glieder, bei denen an einer der beiden Unterdeterminanten sowohl die k-te als auch die Z-te Spalte beteiligt sind, weil eine Determinante mit zwei gleichen Spalten Null ist. Die übrigen Glieder heben sich paarweise weg. Ist nämlich etwa an A^ . die fc-te Spalte und an der hierzu komplementären Unterdeterminante die Z-te Spalte beteiligt, so erhalten wir ein zweites Paar komplementärer Unterdeterminanten, indem wir in A^ die k-te Spalte streichen und dafür die Z-te Spalte hinzunehmen; die zugehörige komplementäre Unterdeterminante enthält dann die k-te, aber nicht mehr die Z-te Spalte. Da aber die beiden Spalten dieselben Elemente enthalten, ändern dabei die beiden Determinanten höchstens ihr Vorzeichen. Um dabei genau dieselben Determinanten wieder zu gewinnen, muß man die Z-te Spalte mit allen zwischen der &-ten und Z-ten Spalte gelegenen Spalten vertauschen, die an der Determinante A^ beteiligt sind; die k-te Spalte dagegen mit den restlichen zwischen der &-ten und Z-ten Spalte gelegenen Spalten (die an der komplementären Unterdeterminante beteiligt sind); das gibt insgesamt den Vorzeichenfaktor (— l ) ' - * - 1 . In dem Gesamtvorzeichenfaktor ist der Exponent k durch l zu ersetzen, was eine Abänderung um ( — \) l ' k ergibt. Daher haben die beiden Summanden in der Tat entgegengesetztes Vorzeichen, heben sich also weg. Damit ist alles bewiesen. Eine analoge Formel gilt für die Spalten einer Determinante; wir können eine Determinante also auch nach r Spalten entwickeln. Das folgt sofort daraus, daß eine Determinante, als Funktion ihrer Spalten aufgefaßt, dieselben Eigenschaften hat wie als Funktion ihrer Zeilen.
13.8.
Adjunktenmatrix
Besonders wichtig ist der Spezialfall der Entwicklung einer Determinante nach einer Zeile oder Spalte. Bezeichnen wir mit a j; . die Elemente der w-reihigen Matrix A , so ist es üblich, das algebraische Komplement von a{-, d. h. die mit dem Vorzeichen ( — 1 ) , + ' versehene komplementäre Unterdeterminante, mit Af. zu bezeichnen. Dann sagt der Entwicklungssatz gerade aus, daß für festes i gilt: n
i7 i-1
a
»A
= d e t
A
-
Fassen wir die Elemente ai} als unabhängige Variable auf, so erkennen wir an dieser Formel, daß wir die algebraischen Komplemente (auch als Adjunkte bezeichnet) for-
13. D e t e r m i n a n t e n
177
mal durch partielle, Differentiation der Determinante gewinnen können: a det A
A... = " 0aif
die vorstehende Entwicklungsformel ergibt sich hieraus sofort durch Anwendung des Satzes von E U L E R über homogene Funktionen. Multiplizieren (und summieren) wir die Elemente der i-ten Zeile jedoch nicht mit den zur i-ten Zeile, sondern den zur &-ten Zeile mit k i gehörigen algebraischen Komplementen, so erhalten wir Null: n U«,A,=° i=i
für
**»>
denn diese Summe haben wir gerade zu bilden, wenn wir die Determinante derjenigen Matrix berechnen wollen, die aus A durch Ersetzen der ¿-ten Zeile durch die i-te entsteht. Es ist also n
SanÄkj=dikdet 7=1
A
•
Diese Summe entspricht, wenn wir von der Reihenfolge der Indizes an den algebraischen Komplementen absehen, gerade der Bildung des Matrizenproduktes. Wir definieren also als Adjunktenmatrix A ad die transponierte Matrix der A.. und erhalten A • A a d = E • det A . (Entsprechend gilt natürlich auch A a d A = E det A.) Wenn A regulär ist, erhalten wir hieraus eine explizite Darstellung der inversen Matrix: A-1 =
-
detA
Aa d
Man bestätigt sofort durch Nachrechnen, daß die hiermit gebildete Lösung sc = A l b des linearen Gleichungssystems Ase=b gerade wieder auf die Cramersche Regel führt.
13.9.
Bangbestimmung mittels Determinanten
Wir wollen zum Abschluß der Behandlung der Determinanten noch darauf eingehen, wie man mit ihrer Hilfe den Rang einer Matrix bestimmen kann. Wir behaupten, daß der Rang einer Matrix A genau dann gleich r ist, wenn r die größte Reihenzahl (oder Ordnung genannt) einer von Null verschiedenen Unterdeterminante von A ist. Ist näm12 Eiaenreich
178
D. Lineare G-leichungssysteroe
lieh der Rang von A gleich r, so besitzt A gerade r linear unabhängige Zeilen. Da Zeilenrang = Spaltenrang ist, kann man aus der von diesen r Zeilen gebildeten rechteckigen Matrix r linear unabhängige Spalten auswählen, die also eine reguläre quadratische r-reihige Matrix bilden, deren Determinante infolgedessen von Null verschieden ist. Zeilen sind stets linear abhängig, und sie bleiben es, wenn man durch Streichen von Spalten hieraus eine quadratische m-reihige Matrix herstellt. Deren Determinante muß dann also stets verschwinden. Damit ist die Behauptung bewiesen. Wir brauchen, um nach diesem Kriterium den Rang zu bestimmen, keineswegs a l l e Determinanten zu berechnen. Es genügt nämlich, wenn wir von einer Determinante ausgehen, die von Null verschieden ist, und dann nur alle die Determinanten betrachten, die man durch Hinzunahme weiterer Zeilen und Spalten gewinnen kann („Rändern"). Haben wir nämlich eine von Null verschiedene ¿-reihige Unterdeterminante gefunden, so sind die Zeilen der Matrix, die an dieser Unterdeterminante beteiligt sind, notwendig linear unabhängig. Sollte der Rang der Matrix größer als k sein, so könnte man diese k Zeilen durch eine weitere zu k + 1 linear unabhängigen Zeilen ergänzen. In der hierdurch entstehenden rechteckigen Matrix kann man die an der betreffenden Unterdeterminante beteiligten Spalten durch eine weitere zu H l linear unabhängigen Spalten ergänzen. Diese bilden dann aber eine reguläre quadratische Matrix der Ordnung k + 1, die von Null verschieden ist.
Aufgaben 1. Bestimme den Charakter der Permutationen 2 ri 2n
. 2n - 1 2 4 .
2. Die Permutationen von n Elementen bilden eine Gruppe. Bilden a) die geraden, b) die ungeraden Permutationen eine Untergruppe? Zeige: Die Multiplikation des Vektorraums der (m, ri)-Matrizen mit einer quadratischen Matrix (von vorn oder hinten) bewirkt eine lineare Abbildung in sich. Wann ist diese Abbildung surjektiv, wann injektiv und wann bijektiv? 4. Berechne die Determinanten
a)
5 1 2 9
2 -3 4 2 1 4 5 8 -1 , 2 -3 8
3 6 5 6 4 5 9 7 8 6 6 12 13 9 7 4 6 6 5 4 2 5 4 3 3
b)
c)
a+ß y 1 ß+y a 1 , y+ a ß 1
6. Berechne die Determinanten (sog. Vandermondesche
a)
6.
1 1 1 i V , 1 f 2 ri f 2
1 h
b)
«2
3 4 1 5
Determinanten)
... l • ••f«
£71—1 £71 — 1
Sl
d)
3 1 2 4 -1 2 1 -1 1 4 -1 2
£71-1
• • • S»
b) Zeige, daß eine schiefsymmetrische Determinante (d. h. eine Determinante einer schiefsymmetrischen Matrix) ungerader Ordnung stets gleich Null ist. A sei ganzzahlige Matrix, dT der größte gemeinsame Teiler (g. g. T.) der r-reihigen Unterdeterminanten von A ( r - t e r D e t e r m i n a n t e n t e i l e r ) . Zeige, daß für die Elementarteiler von A gilt: eT=dr/dr_l für r > 1, ei=dl. (Hinweis: Wende an, daß die Unterdeterminanten einer tranformierten Matrix Linearkombinationen derjenigen der Ausgangsmatrix sind, ihr g. g. T. somit invariant bleibt und daher dr=e1e2 . . . eT gilt.)
E.
Koordinatentransformationen. Affine und lineare Abbildungen. Orientierung
1.
Koordinatentransformationen
Bisher haben wir im w-dimensionalen affinen Raum ein festes Koordinatensystem verwendet. Wir wollen jetzt untersuchen, wie sich die Koordinaten von Vektoren und Punkten ändern, wenn wir von einem Koordinatensystem (0;el,... ,en) mit dem Ursprung 0 und den Basisvektoren et, . . . , en zu einem neuen Koordinatensystem (0' ;e'v . . . , e'n) mit dem Ursprung 0' und den Basisvektoren e'v . . . ,e'n übergehen.
1.1.
Übergang zu einer neuen Basis im Vektorraum. Transformation der Vektorkoordinaten
Wir betrachten zunächst die Koordinaten von Vektoren in dem einen und dem anderen Koordinatensystem und behandeln daher als erstes, wie sich der Übergang von der ungestrichenen Basis der ei zur gestrichenen Basis der e'( in dem zu unserem affinen Raum gehörigen w-dimensionalen Vektorraum V auswirkt. Da auch die e^ eine Basis bilden, müssen sich die e. als Linearkombinationen der e\ darstellen lassen, es müssen also lineare Gleichungen der Form n
1 mit Koeffizienten af 6 R bestehen. Den Index i an den Koffizienten haben wir oben hingeschrieben, um gegebenenfalls die Summenkonvention anwenden und auf das Summenzeichen verzichten zu können; dieses Gleichungssystem lautet dann also, kürzer geschrieben e = a e
i
j 'i •
Der Index j an den a's steht in gleicher Höhe wie an dem sich ergebenden Basisvektor e.; auf diese Weise läßt sich die Formel leicht merken. Da die linear unabhängig sind, sind die Koeffizienten eindeutig bestimmt. Wir können dieses Gleichungssystem auch als eine Matrixgleichung schreiben, wenn (e}\ l dieser Abbildungen diejenige Abbildung von V, die dem obigen Element a das Element Ta = T sei also v^dimensional) durch die Matrix Af beschrieben, so ist die Menge aller dieser Basiselemente . . . , e'j',. . . , . . . , e eine (linear unabhängige) Basis von V, und die lineare Abbildung T von F wird bezüglich dieser Basis durch die Matrix A, . . . 0
dargestellt, die sich durch diagonales Aufreihen der Matrizen A¡ ergibt. Hat umgekehrt die beschreibende Matrix A einer linearen Abbildung bezüglich einer gewissen Basis die an-
4. Lineare Abbildungen
221
gegebene Gestalt, so gehört zu jedem, Kästchen (der Reihenzahl v{) ein v.-dimensionaler invarianter Unterraum F (i) , auf dem durch A ; eine lineare Abbildung T = 0 Jst
und daß die j-te Potenz von (T — X{I) die niedrigste Potenz ist, die e ^ annulliert.
Derartige Vektoren x (=t=0) mit der Eigenschaft, daß (T — Aiiyx = 0 für eine gewisse natürliche Zahl j ist, heißen Hauptvektoren der linearen Abbildung T zum Eigenwert Xv und zwar genauer Hauptvektoren j-ter Stufe, wenn j der kleinste Exponent ist, für den eine
derartige Beziehung gilt. Hauptvektor erster Stufe und Eigenvektor sind somit gleichbedeutend. Wir können also sagen, daß unsere oben gewählte Basis aus lauter Hauptvektoren besteht und daß speziell e Hauptvektor der Stufe j zum Eigenwert Xi ist. Um unsere ursprünglich gegebene Matrix A auf JoRDANSche Normalform zu transformieren, haben wir also Ketten von Hauptvektoren zu bestimmen, die dem obigen Gleichungssystem genügen; schreiben wir dann die durch die Matrix A gegebene Abbildung bezüglich der durch die Hauptvektoren gelieferten Basis auf, so erhalten wir gerade eine zu A ähnliche Matrix in JoRDANScher Normalform. Praktisch hätte das so zu geschehen, daß man zu der Matrix A Spalten Vektoren X VF -' 1
'
/15 6 0 6 22 6), \ 0 6 29/
Bestimme die JoBDANsche Normalform (mit Angabe der Hauptvektoren) der Matrizen /0 1 1\ a) |0 0 l | , \0 0 1/
/II 1 b) jO 1 1 \0 0 1
(
2 0 3v
1 1 0 I definierte lineare Abbildung V -*V auf kano0 10/ nische Gestalt (d. h., für die Basisvektoren gilt ei>->ei für i = l , . . . , r, eii-»-0 für i >r). 4. Zeige, daß man durch eine Ähnlichkeitstransformation die Hauptdiagonalelemente einer Diagonalmatrix beliebig permutieren kann. 5. Für die Untervektorräume V und V" des Vektorraums V gelte V — V' + V". Zeige, daß genau dann V = F ' © F " ist, wenn dim V =dim V +dim V" gilt. 4.6.4. Beweis für die Existenz der Jordanschen Normalform Wir kommen jetzt zum Beweis dafür, daß sich jede quadratische Matrix aufJOBDANsche Normalform transformieren läßt. Zum Beweis benötigen wir Matrizen mit Polynomen in einer Variablen x als Elementen. F ü r derartige Polynome gilt: 1. Wenn f und g Polynome in x sind, so kann man mit Rest dividieren: f=qg+r, wobei q und r gewisse Polynome sind und entweder r = 0 (d. h. f durch g teilbar) oder Grad r < Grad g ist. Diese Aussage ist aus der Schule bekannt und wird auch bei der Partialbruchzer1 egung rationaler Funktionen benötigt. 2. Zwei Polynome heißen teilerfremd, wenn es kein echtes Polynom (d. h. Polynom vom Grade ^ 1 ) gibt, das beide Polynome teilt, von dem also beide Polynome Polynomvielfache sind. Für teilerfremde Polynome f und g gilt: Es gibt Polynome a und ß mit *f+ßg=1
4. Lineare Abbildungen
227
(Beispielsweise sind die Polynome x1 +1 und x — 1 sicher teilerfremd, da anderenfalls x2 +1 die Nullstelle 1 besitzen müßte, und es ist in der Tat l(a ! a + l ) _ ^ Í ( a ; _ l ) = l.) B e w e i s : Wir wählen ein Polynom A=t=0 von möglichst kleinem Grade, das Linearkombination von / und g ist. Dann ist h Teiler sowohl von / als auch von g. Wäre nämlich h etwa nicht Teiler von /, so könnte man / mit Rest durch h dividieren: f = qh + r
mit
Grad r < Grad h
und erhielte in r eine Linearkombination von / und g von noch kleinerem Grad als h. Daher kann h nur eine Konstante sein, und indem wir unsere Linearkombination gegebenenfalls noch hierdurch dividieren, erhalten wir 1 als Linearkombination von / und g. Wir können daher die früher für Matrizen mit ganzen Zahlen als Elementen bewiesenen Sätze auf Polynommatrizen übertragen, indem wir überall, wo früher vom Absolutbetrag die Rede war, jetzt vom Grad sprechen. Daher gilt auch für Polynommatrizen, daß sich jede derartige Matrix durch folgende elementare Umformungen: a) Vertauschen von Zeilen oder Spalten, b) Addition eines Polynomvielfachen einer Zeile oder Spalte zu einer anderen, c) Multiplikation einer Zeile oder Spalte mit einer von 0 verschiedenen Zahl auf Elementarteilerform
bringen läßt. (Bei Matrizen mit ganzen Zahlen als Elementen würde die dritte Operation nur der Multiplikation mit ± 1 entsprechen.) Wir können daher annehmen, daß die Polynome e¡ als höchsten Koeffizienten 1 haben. 3. Eine Polynommatrix A hat genau dann eine Polynommatrix A _ 1 als Inverse, wenn det A = const =t=0 ist. Aus der Gleichung A A - 1 = E folgt nämlich durch Übergang zu den Determinanten det
A det A- 4 = l ,
und da beide Determinanten notwendig Polynome in x sind und sich die Grade von Polynomen bei Multiplikation der Polynome addieren, müssen beide Polynome konstant sein. Umgekehrt wissen wir, daß man die inverse Matrix zu einer gegebenen w-reihigen Matrix dadurch erhält, daß man die Matrix der mit entsprechenden Vorzeichen versehenen (n — l)-reihigen Unterdeterminanten bildet, diese stürzt und durch die Gesamtdeterminante dividiert. Da die Unterdeterminanten natürlich Polynome in x sind, erhält man auf diese Weise für die inverse Matrix wieder eine Polynommatrix, wenn die Determinante eine (von Null verschiedene) Konstante ist. Da sich die oben angegebenen elementaren Umformungen auf die Multiplikation mit Vertauschungs-, Additions- und Multiplikationsmatrizen zurückführen lassen, die 15»
228
E. Koordinatentransformationen
Polynommatrizen sind und deren Inverse gleichfalls Polynommatrizen darstellen (denn die inversen Operationen sind von derselben Art), können wir schließen, daß es zu jeder Polynommatrix A Polynommatrizen P und Q mit Polynommatrizen als Inversen gibt, so daß P A Q eine Diagonalmatrix in Elementarteilerform ist. Darin sind P und Q Produkte von Vertauschungs-, Additions- und Multiplikationsmatrizen der obigen Art. Umgekehrt läßt sich jede Polynommatrix B, deren Inverse gleichfalls Polynommatrix ist, als Produkt aus Vertauschungs-, Additions- und Multiplikationsmatrizen der obigen Form darstellen. Bringt man B nämlich gemäß P B Q auf Elementarteilerform, so können die Diagonalelemente nur von Null verschiedene Konstanten sein, da sich als Determinante eine Konstante ergibt, und wir können daher ohne Beschränkung der Allgemeinheit annehmen, daß PBQ = E ist. Hieraus folgt gemäß B= P-'Q1 die Behauptung. 4. Wenn sich die quadratischen Matrizen A = A 0 + und B = B0 + «B 1 mit konstanten (d. h. von x unabhängigen) Matrizen A(., B( und regulären Matrizen A j , B 1 durch elementare Umformungen ineinander überführen lassen, wenn es also reguläre Polynommatrizen R, S mit RA = BS
(*)
gibt, deren Inverse R = R _ 1 , S = S _ 1 gleichfalls Polynommatrizen sind, so kann man sogar konstante reguläre Matrizen R' und S' mit R'A = BS' finden. B e w e i s : Indem wir die mit der gleichen «-Potenz behafteten Glieder der Matrizen R und S jeweils zu einer Matrix zusammenfassen, können wir mit konstanten Matrizen Rf und S { schreiben: R = R0 + a;R1+ . . . +a;"R, , S = S 0 + z S 1 + . . . -fa^S, . Wenn j> = 0 wählbar ist, so sind wir fertig. Anderenfalls (v=»0) erhalten wir durch Einsetzen in (*) und Koeffizienten vergleich RA=BiSv, R A + R , - A = Bos, + Bis,-i> R.-A)+Rv_2Ai=B«S_,+B1S„_2 , R 1 A 0 + RßA] = BoSj + BiS 0 , RoAo = B 0 S 0 .
4. Lineare Abbildungen
229
(Aus der ersten Gleichung hiervon folgt wegen der Regularität von A i und B 1 zugleich, daß beide R r und S f stets gleichzeitig = 0 oder =t=0 sind.) Wie man sofort bestätigt, bleiben diese Gleichungen (und damit auch die Gleichung (*)) erhalten, wenn man mit einer konstanten Matrix M die folgenden Abänderungen vornimmt: R,
wird ersetzt durch
R„ — B 1 M = R^,
S,
wird ersetzt durch
S v — M A ( = S^,
l
wird ersetzt durch
Rj
Sr_1
wird ersetzt durch
Rr
(
— B0M = R ^ t ,
SI_1-MA=S^_1.
Das läuft insgesamt auf die Ersetzung von R durch R - B ^ M ) , S durch S —(a;v_1M)A hinaus. Wegen der Regularität von Bj können wir M = B j ' R ^ wählen, so daß R ^ = 0 (und damit auch S^ = 0) wird. Indem man dieses Verfahren fortsetzt, erkennt man, daß man durch eine Ersetzung der Form R —R' = R - B M , S—S' = S - M A , worin M eine geeignete Polynommatrix ist, zu konstanten Matrizen R' und S ' gelangt, für die gleichfalls R'A = BS' ist. Wir haben zu zeigen, daß die neuen Matrizen R' und S' regulär sind. Dazu bemerken wir, daß wir durch Multiplikation mit den inversen Matrizen aus (*) eine analoge Gleichung A S = RB erhalten, die wir ebenso behandeln können wie (*): diese Gleichung bleibt erhalten, wenn wir mit einer quadratischen Polynommatrix N R durch R' = R - A N , S durch S' = S - N B ersetzen. Wir können wie oben durch geeignete Wahl von N erreichen, d a ß R' und S ' konstante Matrizen werden. Wir behaupten, daß dann R' und R' sowie S ' und S ' invers zueinander sind. Wegen R = R'+AN ,
R = R' + BM
230
E . Koordinatentransformationen
wird nämlich E = RR = ( R ' + A N ) ( R ' + BM) = R'R' + R'BM + A N R = R'R'+AS'M +ANR = R'R'+A(S'M + N R ) . Wäre hierin der Ausdruck in der runden Klammer nicht 0, so könnte A(S'M + N R ) = (A 0 + a;A 1 )(S'M + N R ) wegen der Regularität von keine konstante Matrix sein (das Produkt aus xA^ und dem mit der höchsten x-Potenz behafteten Glied der zweiten Klammer könnte nicht verschwinden), was zur Konstanz von E und R'R' im Widerspruch steht. Daher ist in der Tat R'R' = E . Auf dieselbe Weise ergibt sich, daß auch S'S' = E , also auch die Matrix S ' regulär ist. (Man könnte dies auch daraus schließen, daß aus den Gifeichungen RA = BS
und
RA
BS
die entsprechenden Beziehungen für die Determinanten folgen und daher wegen der Konstanz von det R, det S und det R' auch det S' eine Konstante (und zwar 4= 0) sein muß.) Damit ist der Satz vollständig bewiesen. Hieraus folgt: 5. Die (konstanten) quadratischen Matrizen A und B sind genau dann ähnlich, wenn die Matrizen xE — A und i E — B durch elementare Umformungen auseinander hervorgehen, wenn diese Matrizen also im Sinne des vorstehenden Hilfssatzes äquivalent sind. Da E regulär ist, sind nämlich die Voraussetzungen dieses Hilfssatzes erfüllt. Lassen sich die Matrizen xE — A und xE — B durch elementare Umformungen auseinander gewinnen, so gibt es also auch konstante Matrizen P und Q mit der Eigenschaft P(xE-A)Q=a;E-B , woraus durch Koeffizientenvergleich PAQ = B also Q = P - 1 und PAP-1 = B folgt.
und
PEQ = E,
231
4. Lineare Abbildungen
Sind umgekehrt A und B ähnlich, so folgt aus xE-B
= xE- P A P 1 = P(*E - A J P 1
die Äquivalenz der Matrizen xE — A und xE — B im obigen Sinne. Dieser Satz ist deshalb wichtig, weil es durch ihn gelingt, die Ähnlichkeit von Matrizen, die viel schwieriger nachzuweisen ist, auf die einfacher zu handhabende Äquivalenz von Matrizen (Wenn auch mit einer Einschränkung in den zulässigen regulären Transformationsmatrizen) zurückzuführen. Die Eigenschaft zweier Matrizen, sich durch elementare Umformungen ineinander überführen zu lassen, ist aber gleichbedeutend damit, daß die beiden Matrizen dieselben Elementarteiler besitzen, wie man sofort erkennt, indem man die erste Matrix auf Elementarteilerform transformiert und daran die inverse Transformation derjenigen Transformation anschließt, durch die die zweite Matrix auf dieselbe Elementarteilerform überführt wird. 6. Um nun den Satz von der Existenz der Jordanschen Normalform zu beweisen, brauchen wir also nur noch zu zeigen, daß es zu jeder quadratischen Matrix A eine passende Jordansche Normalform B gibt, so daß die Matrizen xE — A und xE — B dieselben Elementarteiler besitzen. Wir wollen annehmen, daß die Elementarteilerform der Matrix xE — A lautet
worin die ei = e.(x) Polynome in x sind und ei Teiler von ei+l ist. Wir dürfen dabei ohne Beschränkung der Allgemeinheit annehmen, daß der Koeffizient der höchsten Potenz von x gleich 1 ist. Nach dem Fundamentalsatz der Algebra können wir jedes ef in Linearfaktoren zerlegen, und die Teilbarkeitsbedingung besagt dann, daß beim Übergang zu ei+1 einfach noch gewisse weitere Linearfaktoren hinzukommen. Wir können daher schreiben
mit vii-v2i~
• • • ~vu-
•••
=
,m) ,
wobei alle voneinander verschieden sein sollen (wir lassen also zu, daß einzelne Exponenten = 0 sind). Wir wollen zeigen, daß zu jedem v(. > 0 gerade ein Kästchen in der JoRDANsehen Normalform von der Reihenzahl v^ gehört, das als Diagonalelemente enthält. Es ist
xE-B
eE — Ai xE-A,
*E-A„
232
E. Koordinatentransformationen
wobei wir der Einfachheit halber die Einheitsmatrizen E verschiedener Reihenzahl nicht durch entsprechende Indizes unterschieden haben. Wir formen zunächst ein einzelnes Kästchen von B, eine JoRDAN-Matrix 1 .1. .
X
0,
um. Für (x-X
zE-A,
-1
i
0
x-X,
0
0
0 ... - i . .. 0 ...
0 0 x - X j
ergibt sich durch elementare Umformungen die Elementarteilerform /I . . . \0
0
N
. . . { x - X p I
(man bringe die Einsen durch Spaltenvertauschungen in die Haupt diagonale und beseitige durch Addition von Vielfachen von Zeilen oder Spalten die außerhalb der Hauptdiagonalen stehenden Glieder.) Daher ergibt sich für die ganze JoRDANsche Normalform B, daß sich xE — B auf folgende Diagonalform bringen läßt: 1
(x-XJ
v
i
'0
( x - X )
•wobei aber noch X's mit verschiedenen Indizes gleich sein können. Das ist noch nicht die Elementarteilerform, da die Teilbarkeitsbedingung noch nicht erfüllt zu sein braucht. Wir wollen die Numerierung so gewählt denken, daß . . . , Xm alle verschieden sind und die X. mit größerem Index stets gleich einem der aufgeschriebenen sind. Wir ordnen jetzt die Elemente der Hauptdiagonalen gegebenenfalls so u m : /B' 0 \ \0 B'7' daß die Matrix B " zu jedem der voneinander verschiedenen Werte X1,.. . , Xm ein Hauptdiagonalelement (x — Xjfi von möglichst großem Exponenten v. enthält; diese Elemente bezeichnen wir zur Abkürzung mit p.: [Pl
B" = I : ,0
•••
0
'
233
4. Lineare Abbildungen
Wir behaupten, daß wir diese Matrix durch elementare Umformungen auf die Gestalt 1
0 1
^0
: P1P2 • • • i>*
bringen können. Da nämlich die Polynome pi paarweise teilerfremd sind, ist eine passende Linearkombination zweier davon 1, wir können also die in der rechten unteren Ecke von B" stehende Teilmatrix ^ | umformen in (f, m ~ l * ) (wenn Pm!
P j