257 24 21MB
German Pages 337 [328] Year 2001
Einführung in die •Mathematik • für Ökonomen Begründet von
Dr. Karl Breitung und
Prof. Dr. Pavel Filip Fortgeführt von
Dr. Otto Hass
3., verbesserte Auflage
R. Oldenbourg Verlag München Wien
Die Deutsche Bibliothek - CIP-Einheitsaufnahme Breitung, Karl: Einfuhrung in die Mathematik fur Ökonomen / begr. von Karl Breitung und Pavel Filip. Fortgef. von Otto Hass. - 3., verb. Aufl.. - München ; Wien : Oldenbourg, 2001 ISBN 3-486-25644-0
© 2001 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 www.oldenbourg-verlag.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Gedruckt auf säure- und chlorfreiem Papier Druck: Tutte Druckerei GmbH, Salzweg Bindung: R. Oldenbourg Graphische Betriebe Binderei GmbH ISBN 3-486-25644-0
Vorwort zur dritten Auflage Nachdem das vorliegende Buch eine derart positive Aufnahme gefunden hat, war es eine freudige Arbeit, für die dritte Auflage den Text nocheinmal durchzugehen. Kommentare von Leserinnen und Lesern aind willkommen.
Vorwort zur ersten Auflage Da dieses Buch nicht das erste (und letzte) Werk über Mathematik für Ökonomen ist (und sein wird), möchten wir kurz die Unterschiede zu anderen Büchern erläutern. In einem Teil dieser Werke werden lediglich die Sätze und Methoden der Mathematik angegeben und an Beispielen durchgerechnet, ohne die Grundideen der Verfahren plausibel zu machen. In anderen Büchern hingegen wird versucht, die Mathematik in streng mathematischem Aufbau mit allen Beweisen darzustellen. Wir glauben, daß beide Wege für diesen Hörerkreis nicht geeignet sind, da dem Studenten die Mathematik plausibel gemacht werden sollte, allerdings ohne ihm zuviel mathematischen Stoff aufzubürden, der oft trocken ist. Daher haben wir versucht, einen Mittelweg zu gehen. Natürlich ist ein solcher Mittelweg mit manchen, mitunter „faulen" Kompromissen verbunden. Dieses Buch ist sicher keine Lektüre für reine Mathematiker, die ob mancher Argumentation bleich werden würden. Es ist aber auch kein Buch für einen Ökonomen, der einen knappen „Katechismus" der Mathematik ohne Erläuterung der mathematischen Hintergründe wünscht. Wir nehmen dieses Manko in Kauf. Da wir leider nicht hoffen können, allen Seiten gerecht zu werden, sind wir für konstruktive Kritik sehr dankbar. Wir danken Herrn M. Weigert vom Oldenbourg-Verlag für die verständnisvolle Unterstützung. Der Erstautor bedankt sich bei Herrn Prof. Dr. F. Ferschl für sein Entgegenkommen bei der Arbeit an dem Buch. Der Zweitautor bedankt sich bei Herrn Prof. Dr. W. Heise für die gutgemeinten Ratschläge. Beim Leibniz-Rechenzentrum der bayerischen Akademie der Wissenschaften bedanken wir uns für die Möglichkeit, das Computergraphiksystem zu nutzen. Die Computerzeichnungen hat Herr R. Vollmerhaus angefertigt, dem dafür sehr gedankt sei. Weiter möchten wir Frau A. Rösch, Herrn H. Schmidbauer, Frau Dr. C. Schneider und Herrn Dr. D. Schremmer unseren Dank dafür aussprechen, daß sie Teile des Buches durchgelesen und die schlimmsten Fehler gefunden haben. Allen anderen unserer Kollegen, die uns bei der Arbeit unterstützt haben, möchten wir auch danken.
Inhaltsverzeichnis Kapitel I: Mathematische Grundkenntnisse
1
1.1 Die Anwendung mathematischer Methoden
1
1.2 Grundbegriffe der mathematischen Logik
3
1.3 Mathematische Beweisverfahren
5
1.4 Grundbegriffe der Mengenlehre
7
1.5 Die reellen Zahlen §5.1 Das reelle Zahlensystem §5.2 Der Ordnungsbegriff § 5.3 Summen, Produkte, Binomialsatz § 5.4 Zahlenebene und Zahlenraum
13
1.6 Abbildungen und Funktionen
34
Kapitel II: Lineare Algebra
41
II. 1 Einführungsbeispiel: lineares Produktionsmodell
41
11.2 Lineare Gleichungssysteme
41
11.3 Vektorräume §3.1 Definition eines Vektorraums §3.2 Der Vektorraum IRn §3.3 Teilräume, lineare Hülle, Basis, Dimension
51
11.4 Matrizen und lineare Abbildungen §4.1 Matrizen und Matrizenoperationen § 4.2 Lineare Abbildungen §4.3 Inverse Matrizen, Rang einer Matrix § 4.4 Lineare Abbildungen und lineare Gleichungssysteme §4.5 Skalarprodukt und Norm auf [Rn
64
11.5 Determinanten §5.1 Definition der Determinante §5.2 Eigenschaften der Determinante §5.3 Die Cramersche Regel
93
11.6 Eigenwerte, Eigenvektoren, quadratische Formen §6.1 Eigenwerte, Eigenvektoren § 6.2 Quadratische Formen
104
Kapitel III: Funktionen einer Variablen
115
III.l §1.1 §1.2 §1.3 §1.4 §1.5
115
Folgen und Reihen Definition und Darstellung von Folgen Eigenschaften von Folgen Der Grenzwert einer Folge Reihen Dezimaldarstellung reeller Zahlen
VIII 111.2 §2.1 § 2.2 § 2.3 § 2.4 §2.5 § 2.6
Inhaltsverzeichnis
Grundbegriffe für Funktionen einer reellen Variablen Definition und Darstellung Lineare, affinlineare und quadratische Funktionen Eigenschaften von Funktionen Zusammengesetzte Funktionen und Umkehrfunktionen Grenzwerte von Funktionen Stetigkeit von Funktionen
125
111.3 Differentialrechnung für Funktionen einer reellen Variablen §3.1 Einleitung §3.2 Der Differentialquotient § 3.3 Differentiationsregeln §3.4 Die Elastizität einer Funktion § 3.5 Der Mittelwertsatz der Differentialrechnung und das Differential einer Funktion §3.6 Höhere Ableitungen §3.7 Monotonie und Konvexität differenzierbarer Funktionen §3.8 Extremwerte von Funktionen einer Variablen §3.9 Bestimmung von lokalen Extremwerten §3.10 Berechnung von globalen Extremwerten §3.11 Extremwerte bei konvexen und konkaven Funktionen §3.12 Die Regel von l'Hospital §3.13 Der Satz von Taylor
144
111.4 §4.1 § 4.2 §4.3 §4.4 §4.5 § 4.6 §4.7
Elementare Funktionen Polynome Rationale Funktionen Algebraische Funktionen Exponential- und Logarithmusfunktionen Trigonometrische Funktionen Die Umkehrfunktionen der trigonometrischen Funktionen Elementare Funktionen
175
111.5 §5.1 §5.2 §5.3 § 5.4 § 5.5 § 5.6 § 5.7
Integralrechnung Einführung Das unbestimmte Integral Das bestimmte Integral Rechenregeln für Integrale Der Hauptsatz der Differential- und Integralrechnung Uneigentliche Integrale Partielle Integration und Substitution
186
Kapitel IV: Funktionen mehrerer Variablen
205
IV.l §1.1 §1.2 §1.3 § 1.4 §1.5
Grundbegriffe Definition und Darstellung Punkte und Mengen im [Rn Eigenschaften von Funktionen mehrerer Variablen Lineare, affinlineare und quadratische Funktionen Produktionsfunktionen
205
IV.2 Differentialrechnung von Funktionen mehrerer Variablen §2.1 Partielle Ableitungen erster Ordnung
219
Inhaltsverzeichnis
IX
§ 2.2 Die Kettenregel für Funktionen mehrerer Variablen § 2.3 Der Mittelwertsatz der Differentialrechnung für Funktionen mehrerer Variablen § 2.4 Das totale Differential § 2.5 Partielle Elastizitäten § 2.6 Implizite Funktionen § 2.7 Partielle Ableitungen zweiter Ordnung und die Hessematrix § 2.8 Höhere partielle Ableitungen § 2.9 Homogene Funktionen IV.3 §3.1 §3.2 § 3.3
Extremwerte Extremwerte Extremwerte Extremwerte
von Funktionen mehrerer Variablen ohne Nebenbedingungen von Funktionen mit Nebenbedingungen von Funktionen mit Nebenbedingungen (Teil II)
Kapitel V: Lineare Optimierung
237
265
§ 1 Einführungsbeispiel § 2 Der Simplex-Algorithmus Anhang Aufgaben Lösungen Literaturliste Das griechische Alphabet Sachverzeichnis Druckfehlerliste
280 285 309 311 312 317
Kapitel I: Mathematische Grundkenntnisse I.l Die Anwendung mathematischer Methoden Wozu benötigt man die Mathematik in den Wirtschaftswissenschaften? Im Prinzip könnte man vielleicht auch ohne Mathematik Wirtschaftswissenschaften betreiben; bei vielen Fragestellungen jedoch haben sich mathematische Methoden und Modelle als geeignete Hilfsmittel erwiesen, so daß diese Verfahren zu einem wichtigen Bestandteil der Wirtschaftswissenschaften geworden sind. Vor allem die Entwicklung der EDV in den letzten Jahrzehnten hat zu einer verstärkten Anwendung mathematischer Methoden geführt. Viele Rechenvorgänge, die früher umständlich per Hand mit großem Zeitaufwand durchgeführt wurden, können heute durch Rechner schnell erledigt werden. Es ist aber ein Trugschluß anzunehmen, daß infolge des Einsatzes von Rechnern für den Anwender weniger Kenntnisse in Mathematik nötig sind. Gerade um Rechner richtig nutzen zu können, benötigt man Kenntnisse der Mathematik. Natürlich braucht man weniger Rechenfertigkeit, da das „Rechnen" von den modernen Anlagen erledigt wird, mit den Strukturen und Verfahren der Mathematik muß man jedoch vertraut sein, um zu verstehen, was der Rechner tut, und um überprüfen zu können, ob die Ergebnisse sinnvoll sind. Zunächst soll an einem einfachen Beispiel erklärt werden, wie man mathematische Methoden in anderen Wissenschaften anwendet: Man untersucht eine Fragestellung aus einem Gebiet. Um mathematische Verfahren verwenden zu können, muß diese Fragestellung zunächst in ein mathematisches Modell übersetzt werden. Dieses Modell kann dann mit mathematischen Methoden untersucht und aus den Ergebnissen Rückschlüsse auf das ursprüngliche Problem gezogen werden. Bei einem einfachen Angebot- und Nachfragemodell geht man aus von einem Gut, bei dem Angebot und Nachfrage vom Preis abhängen: je höher der Preis, desto größer das Angebot und geringer die Nachfrage. Die Fragestellung ist, bei welchem Preis herrscht ein Gleichgewicht, d.h. wann sind Angebot und Nachfrage gleich groß. Man entwickelt ein mathematisches Modell, indem man Angebot und Nachfrage als Funktionen des Preises darstellt. Die einfachste Modellierung ist, Angebot und Nachfrage als lineare Funktionen des Preises zu beschreiben; das ergibt dann zwei Funktionen: (1)
a(p) = a ^ + bj
(2)
n(p) = a 2 p + b 2
wobei aj, b x , a 2 und b 2 Konstanten sind
dabei ist a(p) das Angebot und n(p) die Nachfrage beim Preis p. Gleichgewicht herrscht bei einem Preis p 0 mit a(p 0 ) = n(p 0 ). Ist a x 4= a 2 , gibt es genau einen Preis Po, für den das gilt, nämlich b2 - bt Po =
a
b (Implikation). Die Aussage „a genau dann, wenn b " bezeichnet man mit: a b (Äquivalenz). Die Aussage a => b bedeutet, daß aus der Wahrheit von a die Wahrheit von b folgt. Wenn dagegen a falsch ist, wird über b nichts ausgesagt. Die Aussage a b bedeutet, d a ß a genau dann wahr ist, wenn b wahr ist. Beispiel 3: a: „Die Zahl m ist durch 9 teilbar" b: „Die Zahl m ist durch 3 teilbar" Wenn a richtig ist, dann ist auch b richtig; es gilt also die Aussage a => b. Dagegen kann es vorkommen, daß b richtig und a falsch ist, z. B. ist die Zahl 6 durch 3 teilbar, aber nicht durch 9. A Beispiel 4: Gegeben sind die drei Aussagen a: „x = 1", b: „x 2 = 1" und c: „x > 0". D a n n gilt a O (b A C). Denn wenn x = 1, gelten auch b und c; wenn dagegen b gilt, hat man x = + 1 . Zusammen mit c folgt x = 1. A Wenn die Aussage a => b wahr ist, heißt a hinreichend für b. Es ist nämlich hinreichend zu wissen, daß a wahr ist, daraus folgt sofort die Wahrheit von b. Anders ist es, wenn man weiß, daß b wahr ist, dann kann man nicht folgern, daß a wahr ist, wie man in obigen Beispiel an der Zahl 6 sieht. Weiß man aber, daß b falsch ist (bzw. - 1 b wahr), dann kann man sofort folgern, daß a falsch ist. Im obigen Beispiel ist offensichtlich eine Zahl m nicht durch 9 teilbar, wenn sie schon nicht durch 3 teilbar ist. M a n sagt dann, b ist notwendig für a; es ist notwendig, daß b wahr ist, damit a wahr sein kann; wenn b falsch ist, dann ist a sicher falsch. Wichtig ist die folgende Äquivalenz. Es gilt: (a => b)
(-1 b => —i a). (Kontraposition)
Das heißt: Genau dann, wenn a hinreichend f ü r b ist, ist — i b hinreichend für —i a. Beispiel 5:
a: b: ~~i a: - 1 b: Es gilt a => b.
„Die Zahl k ist „Die Zahl k ist „Die Zahl k ist „Die Zahl k ist Wie man leicht
durch 9 teilbar." durch 3 teilbar." nicht durch 9 teilbar." nicht durch 3 teilbar." sieht, gilt umgekehrt —i b => —i a.
A
1.3 Mathematische Beweisverfahren Bei der Untersuchung mathematischer Strukturen interesssiert man sich dafür, welche weiteren Eigenschaften man aus bereits bekannten folgern kann. Dabei versucht man, möglichst allgemeine Aussagen zu erhalten. M a n hat z. B. bei quadratischen Gleichungen zunächst Lösungsverfahren entwickelt, um f ü r eine gegebene Gleichung die Lösung zu finden. Später hat man dann die allgemeine
6
Kapitel I: Mathematische Grundkenntnisse
quadratische Gleichung ax 2 + bx + c = 0 untersucht und allgemeine Lösungsverfahren angegeben, die für alle Gleichungen gelten. In der Mathematik leitet man mit Hilfe dreier Beweisverfahren neue Aussagen ab. Diese Verfahren sind: a) Der direkte Beweis. b) Der indirekte Beweis. c) Die vollständige Induktion. Beim direkten Beweis folgert man direkt aus bekannten Aussagen neue Aussagen. Sei z. B. a die Aussage „Die Zahl k ist durch 3 teilbar" und b die Aussage „Die Zahl k ist durch 4 teilbar". Daraus kann man unmittelbar die Aussage c folgern „Die Zahl k ist durch 12 teilbar". Es gilt also: a und b sind hinreichend für c. Beim indirekten Beweis geht man anders vor. Man will zeigen, daß die Aussage a wahr ist. Dazu geht man vom Gegenteil der Aussage —i a aus und zeigt, daß die Annahme, daß diese Aussage —i a wahr ist, zu einem Widerspruch führt. Mit dem Prinzip der Kontraposition folgert man dann, daß dann die Aussage a wahr ist. Sei z. B. a die Aussage „Für alle Zahlen x und y mit x, y > 0 gilt: j/xy si ^(x + y)." Wenn man das Gegenteil annimmt, ist das die Aussage —i a: „Es gibt Zahlen x und y mit x, y > 0, für die gilt: j/xy > Wenn das gilt, kann man diese Ungleichung umformen: | / x y > i ( x + y) => => => => =>
+ y)."
x y > i ( x + y) 2 xy > i(x 2 + 2xy + y 2 ) 0 > | ( x 2 - 2 x y + y2) 0>i(x-y)2 0 > (x — y) 2 .
Das ist die Aussage —i b, wenn wir als Aussage b definieren: „Das Quadrat der Zahl (x — y) 2 ist nicht kleiner als 0". Das ist ein Widerspruch, denn das Quadrat einer Zahl kann nie kleiner als 0 sein. Wir haben gezeigt, daß aus ~i a die Aussage —i b folgt. Mit der Kontraposition folgt deshalb aus der Aussage b die Aussage a. Da die Aussage b aber richtig ist, hat man damit auch die Richtigkeit von a gezeigt. Die Annahme —l a ist also falsch, und es gilt die Aussage a. Bei der vollständigen Induktion hat man Aussagen a(n), wobei a(n) jeweils eine Aussage ist, die von der natürlichen Zahl n abhängt. Man will nun zeigen, daß für alle n n 0 , wobei n 0 eine feste natürliche Zahl ist, die Aussage a(n) richtig ist. Dies beweist man mit dem Beweisverfahren der vollständigen Induktion in drei Schritten: 1) Man zeigt, daß die Aussage a(n 0 ) richtig ist. 2) Man nimmt an, daß die Aussage a(n) und alle anderen Aussagen a(j) mit n0 j n richtig sind. 3) Man zeigt, daß a ( n 0 ) , . . . , a(n) => a(n + 1) für alle n ^ n 0 gilt. Wenn man 1 und 3 gezeigt hat, ist a (n) für alle n n 0 wahr. Bei diesen Beweis nennt man den Beweis von a (n 0 ) den Induktionsanfang, a (n) heißt die Induktionsvoraussetzung und der Schluß von a(n) auf a(n + 1) heißt Induktionsschluß von n auf n + 1.
Kapitel I: Mathematische Grundkenntnisse
7
Beispiel 1: Zu beweisen ist, daß für alle natürliche Zahlen n gilt: n ( n + 1) 1 + 2 + 3 + ... + n =
'.
Die Aussage a(n) ist: „l + 2 + 3 + . . . + n = ^ ." Zunächst zeigt man den Induktionsanfang: Für n = 1 gilt: 1 = 1(1 + 1) = 1; für n = 1 gilt also die Aussage a(l). Die Induktionsvoraussetzung lautet wie oben, daß 1 + 2 + 3 + ... + n =
n(n + 1) —-. 2
Unter dieser Voraussetzung ist nun zu zeigen, daß dann a(n + 1) gilt, d.h.: l+2 +
3
+ . . . n + (n + l ) = ( "
+ 1)((n
2
+1) +
1)
-
Durch Klammern sieht man: l + 2 + 3 + ... + n + (n + l) = [l + 2 + 3 + ... + n] + (n + l) = Aus der Induktionsvoraussetzung folgt, daß der Ausdruck in den eckigen Klam. n(n + 1) . ist, also: mern gleich
_!ü+i>+(11
+ 1)_
Auf einen gemeinsamen Nenner gebracht ergibt dies: n(n + 1) + 2(n + 1)
(n + 1) ((n + 1) + 1)
Das ist aber die Aussage a(n + 1). Man hat damit den Induktionsschluß durchgeführt. Die Aussage a(n) ist richtig für alle n ^ 1. A
1.4 Grundbegriffe der Mengenlehre Im folgenden werden kurz die Grundbegriffe der Mengenlehre behandelt. Eine Menge entsteht durch Zusammenfassung von unterschiedlichen Objekten zu einer Gesamtheit. Die Objekte, die in einer Menge enthalten sind, bezeichnet man als die Elemente der Menge. Damit eine Menge sinnvoll definiert ist, müssen folgende Voraussetzungen erfüllt sein: a) Bei allen Objekten ist eindeutig festgelegt, ob sie Element der Menge sind oder nicht. b) Jedes Objekt tritt in der Menge höchstens einmal auf.
8
Kapitel I: Mathematische Grundkenntnisse
Die Menge aller Buchstaben in dem Wort „Mississippi" besteht also aus den Buchstaben i, m, p und s. Mengen bezeichnet man üblicherweise mit großen lateinischen Buchstaben: A, B, C , . . . Die Elemente einer Menge bezeichnet man mit kleinen lateinischen Buchstaben: a, b, c , . . . Die Tatsache, daß ein Objekt a Element einer Menge A ist (bzw. nicht ist), bezeichnet man mit: aeA
(bzw. a $ A).
(Das wird gelesen als „a Element von A " bzw. „a nicht Element von A".) Es gibt zwei Möglichkeiten, eine bestimmte Menge zu definieren: 1) Man zählt alle Elemente dieser Menge auf. Dabei verwendet man folgende Schreibweise: Die Elemente werden, durch Kommata getrennt, aufgelistet und in geschweifte Klammern gesetzt. Dabei kommt es nicht auf die Reihenfolge an. Zum Beispiel ist {1, 2, 3,4} die Menge der natürlichen Zahlen von 1 bis 4. Diese Menge könnte man auch in der Form {2, 3,1,4} schreiben. 2) Man gibt eine oder mehrere Eigenschaften an und bildet die Menge M aller Objekte, die diese Eigenschaften besitzen. D a f ü r hat man folgende Schreibweise: M = {x | x hat bestimmte Eigenschaften} Für die Menge M , aller natürlichen Zahlen, die durch 2 teilbar sind, schreibt man: = {x| x ist eine natürliche Zahl und durch 2 teilbar} Wenn man eine Menge durch Angaben von Eigenschaften definiert, kann es vorkommen, daß sie keine Elemente hat, weil es keine Objekte mit den angegebenen Eigenschaften gibt. Zum Beispiel hat die Menge aller deutschen Professoren, die jünger sind als 5 Jahre, keine Elemente. Daher führt man die sogenannte leere Menge ein; das ist die Menge, die keine Elemente hat. Diese Menge bezeichnet man mit dem Symbol 0. Eine Menge B heißt Teilmenge der Menge A, wenn alle Elemente von B auch Elemente von A sind. Man schreibt dafür symbolisch: B c A. Zwei Mengen A und B sind genau dann gleich, wenn sie genau die gleichen Elemente haben. Man schreibt dann: A = B. Beispiel 1: B = {1, 2, 3} und A = {1, 2, 3, 4}. Dann gilt B
2x + 3 = — 5x — 4 / + ( —3) 2x = — 5x — 7 / + 5x 7x = — 7 / - (1/7) x = - 1
A
Beispiel 2: Gegeben sei die Gleichung x2 1 (8) = +3. W x— 1 x—1 Die linke und rechte Seite der Gleichung sind nur für x == | 1 definiert. (Für x = 1 stünde jeweils im Nenner die Null!). Wir erhalten die folgende Rechnung: 1 +3 x—1 X = 1 + 3(x O x 2 = 3x — 2 o x 2 - 3x + 2 = 0 (x — 1) (x — 2) = 0
/ • (x — 1); x =j= 1
x—1 2
1)
/ + ( —3x + 2)
Kapitel I: Mathematische Grundkenntnisse
19
(Man kann sich durch Nachrechnen leicht davon überzeugen, daß x 2 — 3x + 2 = ( x - l ) ( x - 2 ) gilt.) Nach Satz 5.2 ist (x — 1) (x — 2) = 0 genau dann, wenn x — 2 = 0 oder x — 1 = 0 ist, d. h. genau dann, wenn x = 2 oder x = 1 gilt. Da aber x = 1 anfangs ausgeschlossen worden ist, bleibt x = 2 die einzige Lösung der Gleichung (8). A Es ist durchaus möglich, daß in einer Gleichung mehrere verschiedene Zahlensymbole (d. h. Unbestimmte) vorkommen. Löst man die Gleichung nach einer vorgegebenen Unbestimmten, so hängt die Lösungsmenge von der Belegung der übrigen Unbestimmten mit konkreten Zahlen ab, man nennt diese Unbestimmten auch Parameter der Lösung. Beispiel 3: (Lösung der linearen Gleichung ax + b = 0). Gegeben sei die Gleichung ax + b = 0. Wir lösen die Gleichung nach der Unbestimmten x. Sei L die Lösungsmenge der Gleichung ax + b = 0. Ist zuerst a = 0 und b =t= 0, so hat die Gleichung die Form b = 0; das ist ein Widerspruch. Ist a = 0 und b = 0, so hat die Gleichung die Form 0 = 0; diese Gleichung wird trivialerweise von b allen x e [R erfüllt. Ist schließlich a + 0, so ist x = die einzige Lösung der a gegebenen Gleichung. Zusammengefaßt: Für a = 0 und b 4= 0, ist L = 0, für a = b = 0 ist L = [R und für a + 0 ist L = { - }. 3.
A
Das gleichzeitige Quadrieren der linken und rechten Seite einer Gleichung ist keine Äquivalenzumformung. Man beachte allerdings, daß jede Lösung (nach einer Unbestimmten) der Gleichung A = B auch eine Lösung der Gleichung A 2 = B2 ist. Anders gesagt: Die Lösungsmenge der Gleichung A = B ist eine Teilmenge der Lösungsmenge der Gleichung A 2 = B 2 . Beispiel 4: Gegeben sei die Gleichung (10)
]/x = 6 — x.
Quadriert man die beiden Seiten dieser Gleichung, erhält man die Gleichung (11)
x = 36 — 12x + x 2 .
Die Lösungsmenge M der Gleichung (10) ist M = {4}, die Lösungsmenge L der Gleichung (11) ist L = {4, 9}. Es ist tatsächlich M c L . Man löst zuerst die (einfachere) Gleichung (11), dann überprüft man, welche der Lösungen die Gleichung (10) erfüllen. A § 5.2 Der Ordnungsbegriff Je zwei reelle Zahlen a, b lassen sich miteinander vergleichen, es gilt entweder a < b (sprich: „a kleiner als b") oder a = b oder b < a. Es wird hierbei hilfreich sein, sich die reellen Zahlen wieder als Punkte der Zahlengerade vorzustellen. Es ist a < b genau dann, wenn der Punkt, der die Zahl a darstellt, links vom Punkt, der die Zahl b darstellt, liegt. Man schreibt auch b > a (sprich: „b größer als a") genau dann, wenn a < b gilt. So ist z.B. - 2 < 0, 3/2 > 0, - ]ß. > - 3 und - 2 < 1.
20
Kapitel I: Mathematische Grundkenntnisse
-3
-2
—]/2 - 1
0
1 3 / 2
2
Der Ausdruck a ^ b bzw. a ^ b bedeutet „a größer oder gleich b" bzw. „a kleiner oder gleich", es ist also a b bzw. a b genau dann, wenn a > b oder a = b bzw. a < b oder a = b gilt. Man nennt die Ausdrücke a < b , a > b , a ^ b bzw. a ^ b Ungleichheiten. Man sagt, daß die reellen Zahlen durch die Relation < geordnet sind. Die Zahlen a 6 IR mit a > 0 (bzw. a < 0) heißen positiv (bzw. negativ). Die Zahlen aelR mit a 5: 0 (bzw. a ^ 0) nennt man dementsprechend nichtnegativ (bzw. nichtpositiv). Die Relation < erfüllt folgende Gesetze: Gesetze der Ordnung auf IR: 0 1 ) Trichotomiegesetz: Für je zwei a, b e IR gilt genau eine der Aussagen a < b, a = b, a > b. 0 2 ) Transitivität: Ist a < b und b < c, dann ist a < c. 0 3 ) Für alle a, b, c e IR folgt aus a < b stets a + c < b + c. 0 4 ) Aus 0 < a und 0 < b folgt stets 0 < ab. Aus diesen Gesetzen lassen sich die Aussagen des nächsten Satzes herleiten.
Satz 5.5: a) a > 0 => c) Ist a < b d) Ist a < b e) Ist a < b
(-a) < und c < und c > und c < 1 f) a > 0 => - > 0 a
b) a < 0 => 0 d, so ist a + c < b + d. 0, so ist ac < bc. 0, so ist ac > bc. g) a < 0 =>
(-a)
1 —
a
> 0
a 2 > 0
Beweis: Wir zeigen nur e), der Rest kann analog eingesehen werden. Ist a < b und c < 0, so ist 0 = a — a < b — a und 0 = c — c < — c, nach 0 4 ist also 0 < (b — a) • ( — c) = — bc + ac, folglich ist bc < ac, was zu zeigen war. A Der nächste Satz ist eine einfache Folgerung aus dem obigen Satz. Satz 5.6: (Kürzungsregeln für die Ungleichheiten) a) Ist ca > cb (bzw. ca 2i cb) und c > 0, dann ist a > b (bzw. a 2: b). b) Ist ca > cb (bzw. ca cb) und c < 0, dann ist a < b (bzw. a b). Man beachte, daß sich bei b) die Richtung der Ungleichheit ändert.
Kapitel I: Mathematische Grundkenntnisse
21
Die Menge der Zahlen, die auf der Zahlengerade zwischen zwei Zahlen a, b e IR mit a < b liegen, heißt das offene Intervall von a bis b, man bezeichnet diese Menge mit (a, b). Es gilt also (a, b) = {x e (R|a < x und x < b}, oder kürzer (a, b) = {x e IR | a < x < b}. Wir definieren weiter (a, b ] = {xg IR|a < x iS b} [a, b ) = { x e l R | a ^ x < b } [a, b ] = { x e l R | a ^ x ^ b } . Diese Mengen heißen der Reihe nach linksoffenes, rechtsoffenes bzw. abgeschlossenes Intervall von a bis b. Die Intervalle (a, b] und [a, b) heißen halboffen. Auf der Zahlengerade werden die Intervalle wie folgt dargestellt: (•
a} [a, oo) ={xelR|x^a}. Die Intervalle (— oo, a) und (a, co) heißen offen, die Intervalle (—oo,a] und [a, — oo) heißen abgeschlossen. Das Symbol co wird als „unendlich", das Symbol — oo als „minus unendlich" gelesen. Die beiden Symbole oo und — oo sind keine reellen Zahlen. Man kann mit ihnen nicht wie mit den reellen Zahlen rechnen. Für jedes x e IR wird der (absolute) Betrag | x | durch f |X| =
x,
|-X,
falls x ^ O falls x < 0
definiert
'
Der Betrag einer Zahl läßt sich als der Abstand des Punktes, der diese Zahl auf der Zahlengerade darstellt, zum Nullpunkt deuten. Demnach ist also |x —y| der Abstand der Punkte x und y auf der Zahlengerade. Unter Benutzung des Satzes 5.5 lassen sich die Aussagen des nächsten Satzes leicht verifizieren.
22
Kapitel I: Mathematische Grundkenntnisse
Satz 5.7: (Eigenschaften des absoluten Betrags) a) Für alle xelR ist |x| ^ 0. b) |x| = 0 x= 0 c) |x| = | - x | d) |xy| = |x| • |y| e) |x/y| = | x | / | y | (für y #= 0) f) |x + y| g | x | + |y| g) | | x | - | y | | g | x - y | Beweis: Wir zeigen nur die Behauptung f), die sog. Dreiecksungleichung: Nach der Definition des Betrags gilt | x | 2: x,| x | — x, | y | ^ y und | y | ^ — y. Insbesondere ist nach Satz 5.5c) |x| + |y| 2: x + y und |x| + |y| ^ — x — y. Nach der Definition des Betrags ist | x + y | = x + y oder | x + y | = — (x + y) = — x — y. Es ist also in beiden Fällen |x| + |y| ^ [x + yj. A Ein Ausdruck der Form A < B (bzw. A ^ B), wobei A und B algebraische Ausdrücke sind, heißt eine Ungleichung. Hier einige Beispiele für Ungleichungen: x2 ^ | x + l | a 2 - b2 < c + 4 y 2 + x 2 ^ 1. Die Lösung einer Ungleichung nach einer Unbestimmten x besteht, wie das schon bei den Gleichungen der Fall war, in der Bestimmung der Lösungsmenge dieser Ungleichung, das ist die Menge aller Zahlen, die eingesetzt für die Unbestimmte x, die gegebene Ungleichung erfüllen. Die Lösung erfolgt mit Hilfe der Äquivalenzumformungen, ähnlich wie schon bei der Lösung von Gleichungen. Die gegebene Ungleichung A < B (bzw. A iS B) wird durch die Addition eines algebraischen Ausdrucks C zu der rechten und linken Seite in die äquivalente Ungleichung A + C < B + C (bzw. A + C ^ B + C) überführt. Falls D > 0 ist, dann ist die Ungleichung A • D < B • D (bzw. A • D ^ B • D) eine zu der Ungleichung A < B (bzw. A B) äquivalente Ungleichung. Falls D < 0 ist, dann ist die Ungleichung A D > B • D (bzw. A • D ^ B D) eine zu der Ungleichung A < B (bzw. A g B) äquivalente Ungleichung. Beispiel 1: Zu lösen ist die Ungleichung x — 3 < — 2x + 4 nach der Unbestimmten x. Wir erhalten die folgende Rechnung: x — 3 < — 2x + 4 / + 2x 3x — 3 < 4 1+3 «> 3x < 7 /-i Die Lösungsmenge der gegebenen Ungleichung ist also das Intervall ( — oo, 7/3). A Beispiel 2: Zu lösen ist die Ungleichung (1)
|3x-2|^l.
Kapitel I: Mathematische Grundkenntnisse
23
Ein x e [R erfüllt (1) genau dann, wenn es gleichzeitig die Ungleichungen (2)
- 1 ^ 3x - 2
und
(3)
3x - 2 g 1
erfüllt. Die Lösungsmenge von (2) ist das Intervall [1/3, oo), die Lösungsmenge von (3) ist das Intervall ( — oo, 1]. Die Lösungsmenge L von (1) ist offensichtlich der Durchschnitt der beiden Lösungsmengen, L = (— oo, 1] n [1/3, oo) = [ 1 / 3 , 1 ] . A Bei der Lösung von komplizierteren Ungleichungen der F o r m A < B bzw. A g B (nach einer Unbestimmten x) ist es empfehlenswert, die kritischen Punkte der Ungleichung zu bestimmen, das sind die Lösungen der Gleichung A = B (nach der Unbestimmten x). Die kritischen Punkte zusammen mit den Punkten, für die A oder B nicht definiert ist, liefern eine Unterteilung von [R in disjunkte Intervalle, in denen man dann die gegebene Ungleichung separat untersucht. Beispiel 3: Gegeben sei die Ungleichung x 2 — 3x 5S — 2. Es gilt zuerst x 2 — 3x rg — 2
x 2 — 3x + 2 iS 0 o
(x - 1) (x - 2) g 0 .
Der Ansatz (x — 1) (x — 2) = 0 liefert die kritischen Punkte 1 und 2. Die Zahlen 1 und 2 erfüllen die gegebene Ungleichung. Wir untersuchen nun die Ungleichung auf den Intervallen ( — oo, 1), (1, 2) und (2, oo). A u f der Zahlengerade kann die Situation anschaulich dargestellt werden: (x — 1) < 0, (x — 2) < 0
(x — 1) > 0, (x — 2) < 0 1 1
1 2
(x — 1) > 0, (x — 2) > 0 •
F ü r alle x e (— oo, 1) u (2, oo) ist (x — 1) (x — 2) > 0, die gegebene Ungleichung wird also nicht erfüllt. Für alle x e (1, 2) ist dagegen (x — 1) (x — 2) < 0, die Lösungsmenge ist also das Intervall [1, 2 ] = (1, 2) u {1, 2 } . A Zu jeder nichtnegativen reellen Zahl x und jedem n e IM gibt es genau eine nichtnegative reelle Zahl y mit yn = x, diese Zahl wird die n-te Wurzel von x genannt und mit j/x bezeichnet. Für die quadratische Wurzel J/x schreibt man vereinfacht nur j/x. M a n c h m a l wird für die n-te Wurzel von x auch die Bezeichnung x« bzw. x 1/n verwendet.
Satz 5 . 8 : (Rechenregeln für die Wurzeln) a) Es seien x, y E (R, x 2I 0 und y ^ 0, und M, n E FT\L. Dann gilt:
i) V^y = V*-Vy \H-Vi ™ in)
...
=
..
(y>o)
ü> = x
n /m/—'
^
iv) i y y x =
(x>0 n m r
j/x. y y-y b) Ist x e IR und n e N gerade, dann gilt |/(xn) = | x |.
24
Kapitel I: Mathematische Grundkenntnisse
Beweis: Wir zeigen exemplarisch nur die Behauptung a) iv): Es sei a = | / ] / x . U m die Behauptung zu beweisen, genügt es zu zeigen, daß a n m = x ist. Es ist a n m = (a") m = ( O / i / ^ T = (i/x) m = X.
A
Die Gleichung x 2 — c = 0 hat für c < 0 keine Lösung, da für alle x e IR stets x 2 0 gilt. Ist c = 0, dann hat die Gleichung x 2 — c = 0 genau eine Lösung x = 0. Im Fall c > 0 gilt x 2 - c = (x - j / c ) • (x + j / c ) = 0, die Gleichung x 2 - c = 0 hat folglich genau zwei Lösungen x t = j / c und x 2 = — j / c . Die Gleichung x 2 — c = 0 ist ein Spezialfall der quadratischen Gleichung ax 2 + bx + c = 0
(a =# 0).
Diese Gleichung läßt sich, da a + 0 ist, in eine äquivalente Gleichung der Form x 2 + px + q = 0
(1)
überführen. Die Lösung der quadratischen Gleichung erfolgt durch die sog. quadratische Ergänzung: /
x2+px + q = 0 o
Ist nun
\ 2
P . , /PV + '2X+(v2y)
x 2 l 12
/
=
/P \2/
\ 2
~
q
— q < 0, so ist die Gleichung (1) unlösbar. Im Fall
die Gleichung (1) genau eine Lösung, nämlich x = — ^ . Falls ^ ^
— q = 0 hat — q > 0 gilt, so
hat die Gleichung zwei voneinander verschiedene Lösungen I j - q und x 2 = -
- 1/lT) - q •
§ 5.3 Summen, Produkte, Binomialsatz Es seien k, naus IM0 mit k < n. Sinda k , a k + 1 , . . . , a n reelle Zahlen, so bezeichnet man n
n
mit X! a i die Summe dieser Zahlen, es ist also Y. a i = ak + a k+i + • • • + an- Die i=k i=k Größe i heißt der Laufindex, k die untere Grenze, n die obere Grenze der Summation. n
Für k > n wird die „leere Summe" £ gleich 0 gesetzt. i=k Beispiel 1: Der Durchschnitt von n Zahlen a l 5 geschrieben werden.
1 n a a 2 , . . . , a n e IR kann als — £ i n '= 1
Ist für jedes j = 1 , . . . , n die Zahl bj durch bj = j gegeben, so ist n n(n + l) y bj = l + 2 + ... + n = . Das wurde im Abschnitt 1.3 bewiesen. j=I 2
A
Kapitel I: Mathematische Grundkenntnisse
25
Für das Rechnen mit dem Summenzeichen Z gelten die im nächsten Satz zusammengefaßten Regeln.
Satz 5.9: (Rechenregeln für Z ) n a) £ c = (n - k + 1) • c, falls n ^ k i=k b) Z (ai + b i ) = £ a i + i b, i=k i=k i=k n n c) Z c ' a i = c ' Z a i i=k i=k n m n d) Z at = Z ai + Z a.> falls k ^ m < n i=k i—k i=m+ 1 n a n+sa e) Z , = Z i - s , für alle seIM 0 i =k i—k+s Die Aussagen des Satzes sind direkt aus der Definition des Summenzeichens einzusehen. In der Mathematik kommen häufig doppelt indizierte Größen vor. Die Summe von n • m reellen Zahlen a n , a 1 2 , . . . , a l m , a 2 1 , a 2 2 , . . . , a nm , d.h. die Summe der Zahlen n m ajj mit l g i g n und l ^ j ^ m , kann als Z Z a u geschrieben werden. Es ist ¡ = i j=i
n m Z Z aij= i=l j = l = ( a u + a i2
n / m \ m Z Z a„ = z a i j + i=l \ j = l / j=l + ••• + a i m ) + (a 21 + a 2 2
m m Z a 2 j + . . . + z a nj j=l j=l + ... + a 2m ) + ... + (a nl + a n 2 + ... + a nm ).
n m Eine solche Summe Z Z aa wird e i n e Doppelsumme genannt. Falls die oberen i=lj=l n Grenzen m und n übereinstimmen, so schreibt man die Summe kurz als Z aiji. j = 1 n m m n Es gilt offensichtlich Z Z a u = Z Z a u , d.h.: Die Summenzeichen können also i=lj=l j = li=l miteinander vertauscht werden. Sind a 1 ; a 2 , . . . , a„ bzw. b 1 ; b 2 , ..., bm reelle Zahlen, dann gilt n rn n m Z Z (aä • b,) = (a, • Z bj) = i = i j=i ¡=i j=i
z
n
m
( ¡=i z a.) • ( jZ= ibj).
Vorsicht: Hängen die Summationsgrenzen der zweiten Summe vom Laufindex der ersten Summe ab, dann dürfen im allgemeinen die Summationszeichen nicht n m vertauscht werden. Als Beispiel kann die Doppelsumme Z Z aa dienen. ¡=i j=i Im nächsten Satz werden drei wichtige Formeln, in denen die Summen eine Rolle spielen, angegeben.
26
Kapitel I: Mathematische Grundkenntnisse
Satz 5.10: Es seien x, y e IR und n e IM. Dann gilt: n—1 a) x n - y" = (x - y) • £ x n - l - i y i i=0 n- 1 b) x n + y n = (x + y)- £ ( - l y x " - 1 - ' ^ i=0 n- 1 c) x" — y n = (x + y) • £ ( i=0
falls n ungerade ist. falls n gerade ist.
Beweis: Wir zeigen nur die Formel a): Es ist ( x - y ) - V x n " 1 _ i y i = x- X x ^ - y - y - V x " " ' ^ ' i=0 i=0 i=0 n— 1 n— 1 n n— 1 n-i n_ 1 i+1 = £ x y' — £ x ~'y = £ x " " ' / - £ x^'y1 i=0 i=0 i=0 i=l n-1 n-1 = x n y ° + X x n _ i y ' — £ x n _ i y ' — x°y n = x n — y n , i=l i=l was zu zeigen war.
A
Analog zum Summenzeichen £ wird auch das Produktzeichen EI definiert. Sind n a k , a k + ! , . . . , a n reelle Zahlen, so bezeichnet man mit n a i das Produkt der Zahlen a k , a k + 1 , . . . , a n , es ist also n a i = a k ' a k+i ' •••' an- Falls k > n ist, so wird das i=k n a „leere Produkt" n i gleich 1 gesetzt. i=k Satz 5.11: (Rechenregeln für n ) a
) nc = =k
b) n ( c i=k
c
n
"k+i
ai) = c " - k +
(für n ^ k) 1
flai i—k
(für n ^ k)
c) n ( a 1 - b I ) = ( n a 1 ) - ( n b i ) =k i=k i=k d) ( n a i) r = n ( a i r ) i=k i=k
(r e Z, alle aj + 0)
e)
(r e N, alle
^ 0)
n Für jedes nelM wird die n-te Fakultät (kurz n-Fakultät) n! durch n! = f ] i = l - 2- 3- . . . - n definiert. Es ist also 1! = 1, 2! = 1 • 2 = 2, 3! = 1 • 2 • 3 = 6 usw.
Kapitel I: Mathematische Grundkenntnisse
27
Es wird zusätzlich 0! = 1 definiert. Für alle n e IN ist demnach n! = n • (n — 1)!. Für je zwei Zahlen n, m e IN0 mit n 2; m wird der Binomialkoeffizient (oder die binomische Zahl) f ° ) (sprich: „n über m") definiert als ( ° ] = -' . Es \my \m/ m! • (n — m)! . , / 5\ 5! 120 / n\ ist also z.B. I= ———— = = 10. Der Binomialkoeffizient läßt \2J 2! - (5 — 2)! 2 6 \mj , • , in\ n • ( n - 1 ) • . . . • (n - m + 1) sich auch in der Form = schreiben, diese Dar\m/ m! Stellung kann die Berechnung in konkreten Fällen etwas leichter machen. Es ist /12\ 12 11 10 z. B. I I= — = 220. Man beachte, daß für jedes n e IN0 stets n\ 0/
n!
/0\ = 1 cgilt, insbesondere ist I 1 = 1 . 0!n! \0
Beweis: Die Aussagen a), b) und c) lassen sich aus der Definition des Binomialkoeffizienten zeigen. Zu c): n
\
k - 1J
/n\ +
\k)
n! =
n! (k - 1)! (n - k)! n!
n!
(k — 1)! (n — k + 1)! /
1
\n - k + 1
+
k! (n - k)!
f k
k + (n - k + 1)
(k - 1)! (n - k)! ' (n - k + 1) • k (n + 1)! k! (n + 1 — k)!
/ n + 1N \
k
A
was zu zeigen war.
Durch Induktion nach n e IN0 läßt sich zeigen, daß die binomische Zahl ^ ^ für jedes k = 0 , . . . , n die Anzahl der verschiedenen k-elementigen Teilmengen einer n-elementigen Menge angibt. So sind z.B. die sechs Mengen {1, 2}, {1, 3}, {1,4}, {2, 3}, {2, 4}, {3,4} die sämtlichen zweielementigen Teilmengen der vierelementigen Menge {1, 2, 3,4}; es gilt tatsächlich
= 6.
In der folgenden Tabelle sind die Binomialkoeffizienten für n = 1 , . . . , 6 zusammengestellt.
28
Kapitel I: Mathematische Grundkenntnisse
Tabelle der Binomialkoeffizienten:
0 1 2 3 4 5 6
0
1
2
3
4
5
6
1 1 1 1 1 1 1
1 2 3 4 5 6
1 3 6 10 15
1 4 10 20
1 5 15
1 6
1
Diese Tabelle läßt sich leicht zusammenstellen. Sind die Binomialkoeffizienten für ein festes n e IN0 und alle k = 0 , . . . , n schon bekannt (das sind die Zahlen in der n-ten Zeile der Tabelle), so berechnet sich nach dem Satz 5.12c) der Koeffizient n
k
) der (n + l)-ten Zeile mit k = 1 , . . . , n als die Summe der Binomialkoeffi-
J
zienten I , ) und I ), das sind die Zahlen, die jeweils links über und direkt über Vk-1/ ^ W dem Koeffizienten (
1 liegen, im Bild: n
n-te Zeile
k—1 n+ 1
(n + l)-te Zeile
k
Schließlich gilt für den ersten und letzten Koeffizienten der (n + l)-ten Zeile der Tabelle stets ^
^ )
=
(
0
= 1 - Man könnte die angegebene Tabelle auf diese
Weise auch f ü r n > 6 leicht fortsetzen. Die obige Tabelle wird auch das Pascalsche Dreieck genannt.
Satz 5.13: (Binomialsatz) Es seien a, b e IR und n e IM. Es gilt: n M a) (a + b) n = £ . a n 'b* ¡=o W
n M b) ( a - b ) n = £ . j a n _ 1 ( —b)' i=0 W
Die Aussage a) läßt sich mit der vollständigen Induktion über n e IM unter der Benutzung des Satzes 5.12 beweisen. Die Aussage b) ist nur eine einfache Folgerung aus a). Für n = 1, 2, 3 , 4 erhält man
Kapitel I: Mathematische Grundkenntnisse
(a (a (a (a (a
+ + + + -
b) 1 b) 2 b) 3 b) 4 b) 4
= = = = =
29
a+ b (a - b) 1 = a - b, a 2 + 2ab + b 2 (a - b) 2 = a 2 - 2ab + b 2 3 2 2 3 a + 3a b + 3ab + b (a - b) 3 = a 3 - 3 a 2 b + 3ab 2 - b 3 4 3 2 2 3 a + 4 a b + 6 a b + 4ab + b 4 a 4 - 4 a 3 b + 6 a 2 b 2 - 4ab 3 + b 4
Die Binomialkoeffizienten können jeweils dem Pascalschen Dreieck entnommen werden.
§ 5.4 Zahlenebene und Zahlenraum Das kartesische Produkt [R x IR der Menge der reellen Zahlen mit sich selbst wird meistens als [R2 geschrieben, es ist also [R2 = {(a, b ) | a e IR und b e IR}. Die Menge IR2 wird die Zahlenebene genannt, die Elemente a, b eines (geordneten!) Zahlenpaares (a, b) e IR2 heißen Koordinaten des Punktes (a, b). Die Zahlenebene IR2 kann mit
30
Kapitel I: Mathematische Grundkenntnisse
der üblichen geometrischen Ebene identifiziert werden. In der geometrischen Ebene wird zuerst eine horizontale und eine vertikale Gerade gezogen, diese Geraden bezeichnet man als die x-Achse bzw. y-Achse. (Man nennt oft die horizontale bzw. vertikale Achse die x,-Achse bzw. x2-Achse oder auch Abszisse bzw. Ordinate.) Der Durchschnittspunkt dieser beiden Achsen wird der Anfangs-, Ursprungs- oder Nullpunkt genannt und mit 0 bezeichnet (s. Zeichnung auf Seite 29). Man wählt auf der horizontalen Gerade (d.h. auf der x-Achse) rechts vom Nullpunkt und auf der vertikalen Gerade (d. h. auf der y-Achse) über dem Nullpunkt jeweils einen Punkt. Durch diese Punkte wird auf jeder der beiden Achsen eine Längeneinheit festgelegt, wodurch die beiden Achsen zu Zahlengeraden werden, wie das schon im § 5.1 beschrieben worden ist. Insbesondere repräsentieren die Punkte der x-Achse rechts vom Nullpunkt und die Punkte der y-Achse über dem Nullpunkt jeweils die positiven reellen Zahlen. Man wählt üblicherweise auf beiden Achsen, wie schon im obigen Bild, die gleiche Längeneinheit. In diesem Fall spricht man vom kartesischen Koordinatensystem in der kartesischen Koordinatenebene. Jedem Punkt (a, b) der Zahlenebene [R2 wird ein Punkt P(a, b) der geometrischen Ebene, wie im nächsten Bild dargestellt ist, zugewiesen: V
Ä (a,b)
b
1
0
-
1
a
X
Man beachte, daß a > 0 rechts und a < 0 links vom Nullpunkt auf der x-Achse dargestellt wird. Dementsprechend wird b > 0 über und b < 0 unter dem Nullpunkt auf der y-Achse aufgetragen. Dem nächsten Bild sind einige konkrete Beispiele zu entnehmen.
Kapitel I: Mathematische Grundkenntnisse
31
4 (2,4)
(-5,1) -3 -5
(1,-3) (-3,-4M
Es ist offensichtlich, daß jedem Punkt der Zahlenebene genau ein Punkt der geometrischen Ebene entspricht und umgekehrt. Wir können also die Zahlenebene stets als die geometrische Ebene betrachten. Beispiel 1: Man definiert zwei Teilmengen R, und R 2 von IR2 durch R-i = {(x, y) e (R 2 |2x + y = 1} und R 2 = {(x, y) e IR2|(x + 2) 2 + y 2 = 1}. (Die Mengen R, und R 2 sind also Relationen auf IR.) Die Menge R 1 bzw. R 2 besteht aus allen (x, y) e IR2, die die Gleichung 2x + y = 1 bzw. (x + 2) 2 + y 2 = 1 erfüllen. In der kartesischen Koordinatenebene lassen sich die Mengen R, und R 2 wie folgt darstellen.
32
Kapitel I: Mathematische Grundkenntnisse
Durch die Gleichung 2x + y = 1 wird eine Gerade und durch die Gleichung (x + 2) 2 + y 2 = 1 eine Kreislinie in der Ebene beschrieben. A Die Elemente des dreifachen kartesischen Produkts lR3 = IRx [Rx [R = {(a, b, c) | a, b, c e IR}, des Zahlenraums, lassen sich völlig analog als die Punkte des geometrischen Raumes auffassen. Man legt zuerst drei sich in einem Punkt schneidenden paarweise senkrechten Geraden, die x-, y- und z-Achse, fest. (Man nennt oft diese Achsen auch der Reihe nach die x,-Achse, x 2 -Achse und x 3 -Achse.) Der gemeinsame Schnittpunkt der Achsen wird auch hier der Anfangs-, Ursprungsbzw. Nullpunkt genannt. Man bestimmt dann auf jeder Achse durch die Wahl eines vom Nullpunkt verschiedenen Punktes jeweils eine (meistens für alle Achsen gleiche) Längeneinheit und die Orientierung (es wird jeweils festgelegt, welche der beiden Halbachsen die positiven Zahlen darstellen soll).
Kapitel I: Mathematische Grundkenntnisse
33
Im nächsten Bild ist die geometrische Darstellung eines konkreten Punktes des Zahlenraums IR3 eingezeichnet.
34
Kapitel I: Mathematische Grundkenntnisse
1.6 Abbildungen und Funktionen Einer der wichtigsten Begriffe der Mathematik ist der Begriff der Abbildung. Ein Großteil dieses Buches befaßt sich mit dem Studium der Eigenschaften von Abbildungen. Der Begriff der Abbildung wird hier direkt eingeführt. In einigen Büchern wird zunächst der Begriff der Relation erklärt und dann die Abbildung als Spezialfall einer Relation definiert (Siehe z. B. [HA]).
Definition: (Abbildung) Eine Abbildung f ist definiert durch: a) Eine (nichtleere) Menge A. b) Eine (nichtleere) Menge B. c) Eine Zuordnungsvorschrift, die jedem Element a aus A genau ein Element f(a) aus B zuordnet. M a n schreibt symbolisch für eine Abbildung f von A in B: f: A B, a i—> f ( a ) . Dabei heißt A der Definitionsbereich von f und B der Wertebereich von f. Die Menge f(A) = {y e B | es existiert ein x e A mit f(x) = y} heißt die Bildmenge von f. Bei einer Abbildung wird jedem a e A ein und nur ein Element aus B zugeordnet; dabei bezeichnet man a als Argument und f (a) als den Bildpunkt von a. Es ist nicht zulässig, d a ß einem Element aus A mehrere Elemente aus B zugeordnet werden; dann wäre es keine Abbildung im Sinne der Definition. Dagegen ist es bei einer Abbildung möglich, d a ß verschiedenen Elementen aus A dasselbe Element aus B zugeordnet wird. Beispiel 1: A = {1,2} und B = {x, y}. Zwischen A und B sei eine Z u o r d n u n g definiert wie in der Zeichnung: A
B
Das ist eine Abbildung f: A -> B, a i—• f(a), wobei f ( l ) = x und f(2) = y.
A
Beispiel 2: A = {1, 2, 3, 4} und B = {x, y, z}. Zwischen A und B sei eine Zuordnung definiert wie in der Zeichnung:
Kapitel I: Mathematische Grundkenntnisse
= z und g(4) = z.
35
A
Beispiel 3: A = {a, b, c} und B = {1,2, 3,4}. Zwischen A und B sei eine Zuordnung definiert wie in der Zeichnung:
Das ist eine Abbildung h: A -> B, a i-> h(a), wobei h(a) = 1, h(b) = 2 und h(c) = 3. A Beispiel 4: A = {x, y, z} und B = {1, 2, 3}. Zwischen A und B sei eine Zuordnung definiert wie in der Zeichnung: A
B
36
Kapitel I: Mathematische Grundkenntnisse
Diese Zuordnung definiert eine Abbildung f\: A f x (y) = 1 und f t (z) = 2.
B, a — i > f\ (a) mit f t (x) = 1, A
Eine Abbildung f: A -> B, a i—* f(a) heißt: a) surjektiv, wenn f(A) = B gilt. b) injektiv, wenn zwei verschiedenen Elementen n i und a 2 aus A immer auch zwei verschiedene Bildpunkte f ( a j und f(a 2 ) zugeordnet werden. c) bijektiv, wenn sie sowohl injektiv als auch surjektiv ist. In manchen Büchern verwendet man anstatt „injektiv" den Begriff „eindeutig" und statt „bijektiv" den Begriff „eineindeutig". Wenn man die Abbildungen aus den Beispielen 1 - 4 betrachtet, gilt: Die Die Die Die
Abbildung Abbildung Abbildung Abbildung
f aus 1 ist bijektiv. g aus 2 ist surjektiv, aber nicht injektiv. h aus 3 ist injektiv, aber nicht surjektiv. f\ aus 4 ist weder injektiv noch surjektiv.
Genauso wie man für die Gesamtmenge A die Bildmenge f (A) definiert, kann man das für beliebige Teilmengen A' C , a h - ( g o f ) ( a ) = g(f(a)). Beispiel 7: A = {a, b, c}, B = {1, 2,3} u n d C = {x, y}. Sei die Abbildung f von A in B definiert durch f(a) = 1, f(b) = 1 und f(c) = 2. Weiter sei definiert die Abbildung g von B in C durch g ( l ) = x, g(2) = y und g(3) = y. Die zusammengesetzte Abbildung g ° f: A -> C ist dann definiert durch: (g ° f) (a) = g(f(a)) = g ( l ) = x, (g o 0 (b) = g ( f ( b » = g ( l ) = x und (g o f) ( C ) = g(f(c)) = g(2) = y. Man kann das auch aus der Zeichnung ersehen: A
B
c
Bei einer Menge A bezeichnet man die Abbildung id A : A -* A, a i—> id A (a) = a als die identische Abbildung. Eine der wichtigsten Fragestellungen bei Abbildungen ist die der Umkehrbarkeit einer Abbildung, d. h. wann man aus der Kenntnis des Bildpunktes f(a) eindeutig auf das ursprüngliche Argument a zurückschließen kann. Definition: (Umkehrabbildung) Sei f: A -» B eine injektive Abbildung. Dann bezeichnet man die Abbildung von f(A) in A, die jedem b e f(A) genau das a e A zuordnet, für das gilt f(a) = b, als die Umkehrabbildung f - 1 von f, symbolisch: f" 1 : f(A) -> A, b i-> f" 1 (b). Da f als injektiv vorausgesetzt wurde, gibt es für jedes b e f(A) genau ein a e A mit f(a) = b. Die Definition der Abbildung ist also sinnvoll. Wichtig ist, daß die Umkehrabbildung eine Abbildung von f(A) in A ist. f(A) ist im allgemeinen verschieden von B. (In manchen Büchern wird zusätzlich gefordert, daß f surjektiv ist und nur für diesen Fall eine Umkehrabbildung definiert.). Man muß zwischen dem Urbild f _ 1 ({b}) der Menge {b} und dem Wert f _ 1 ( b ) der Umkehrabbildung f _ 1 unterscheiden. Das Urbild ist für alle Abbildungen f: A -> B definiert und ist eine Teilmenge von A. Dagegen ist f _ 1 (b) nur definiert, wenn f injektiv ist und b e f(A).
Kapitel I: Mathematische Grundkenntnisse
39
Beispiel 7: Gegeben sind A = {a, b} und B = {1,2,3} und eine Abbildung f: A -> B mit f(a) = 1 und f(b) = 3. Diese Abbildung ist injektiv und somit umkehrbar. Da f(A) = {1, 3}, ist die Umkehrabbildung keine Abbildung von B in A, sondern eine Abbildung von der Teilmenge {1,3} in A. Die Zuordnungsvorschrift der Umkehrabbildung ist definiert durch: r1(l) = a
f(A)
und
f - 1 ( 3 ) = b.
A
A
Beispiel 8: Gegeben sind A = {a, b, c} und B = {1,2, 3} mit der Abbildung f: A -> B definiert durch f(a) = 1, f(b) = 1 und f(c) = 3. Diese Abbildung ist nicht injektiv, es existiert daher keine Umkehrabbildung. A Wenn man auf ein Element zunächst die Abbildung und dann die Umkehrabbildung anwendet, erhält man als Ergebnis wieder das Element. Satz 6.1: Sei f: A -> B eine injektive Abbildung. Dann gilt: a) f _ 1 ( f ( a ) ) = a für alle a e A. b) f ( f " 1 (b)) = b für alle b e f(A).
40
Kapitel I: Mathematische Grundkenntnisse
Ein wichtiger Spezialfall der Abbildungen sind die Funktionen. Als Funktionen bezeichnen wir Abbildungen der Form f: D -> 1R mit D c [Rn (n e N). Das sind Abbildungen, bei denen jedem x e D eine reelle Zahl zugeordnet wird. In Kapitel III werden Funktionen einer reellen Variablen ( D c [R) und in Kapitel IV Funktionen mehrerer reeller Variablen (D IR", n > 1) behandelt.
Kapitel II: Lineare Algebra II.l Einführungsbeispiel: lineares Produktionsmodell Es sollen n Produkte P1? P 2 , . . . , P n unter dem Einsatz von m Produktionsfaktoren F l 5 F 2 , ..., F m (Bearbeitungszeiten, Rohstoffe, Lohnkosten, Energie u.a.) produziert werden. Um eine Einheit des Produkts Pj5 j = 1 , . . . , n, zu erzeugen, werden a^ Einheiten des Produktionsfaktors F i; i = 1 , . . . , m, benötigt. Es sei xj5 j = 1, ..., n, jeweils die Menge des zu erzeugenden Produkts Pj und b i ; i = 1 , . . . , m, jeweils die Menge des einzusetzenden Produktionsfaktors F;. Werden jeweils x j5 j = 1 , . . . , n, Einheiten des Produkts Pj erzeugt, so werden insgesamt (1)
bi = a i l x 1 + a i 2 x 2 + ... + a i n x n
Einheiten des Produktionsfaktors Fj verbraucht. Die gesamte Produktion läßt sich also durch ein System von Gleichungen (2)
bi = a 1 1 x 1 + a 1 2 x 2 + ... + a l n x n b 2 = a 2 1 x 1 + a 2 2 x 2 + ... + a 2 n x n b m — a ml X l + am2X2 + • • • +
a
mn X n
vollständig beschreiben. Wir sprechen von einem linearen Produktionsmodell. Sind die Größen b ! , . . . , b m vorgegeben, d.h. die Mengen der zur Verfügung stehenden Produktionsfaktoren F j , . . . , F m , so stellt sich die Frage, welche Mengen x ! , . . . , xn der Produkte P,, Pn sich unter diesen Voraussetzungen herstellen lassen. Man sucht alle n-Tupel von Zahlen (x 1; . . . , x n ) , welche die Gleichungen (2) gleichzeitig erfüllen. Solche n-Tupel lösen das Gleichungssystem (2). (In diesem Fall können nur Lösungen berücksichtigt werden, für die xx ^ 0, x 2 ^ 0 , . . . , x n ^ 0 gilt)Eine Gleichung der Form (1) heißt eine lineare Gleichung mit den Unbekannten (oder Unbestimmten bzw. Variablen) x l 5 . . . , x n . Das Gleichungssystem (2) heißt dann entsprechend ein lineares Gleichungssystem. Wir werden uns mit den linearen Gleichungssystemen und ihren Lösungen im nächsten Abschnitt befassen. Sind andererseits die Produktmengen x 1 ; . . . , xn vorgegeben, so sind die benötigten Mengen der Produktionsfaktoren b 1 ; . . . , b m durch (2) eindeutig bestimmt, die Produktionsfaktoren b l 5 . . . , b m hängen von den Größen x 1 ; . . . , xn linear ab. Das m-Tupel ( b 1 ( . . . , b m ) heißt der Input, das n-Tupel ( i „ . . . , x n ) der Output des linearen Produktionsmodells, das durch das Gleichungssystem (2) beschrieben wird.
II.2 Lineare Gleichungssysteme In diesem Abschnitt wird ein Verfahren zur Lösung linearer Gleichungssysteme, der sogenannte Gaußsche Eliminationsalgorithmus, vorgestellt. Es seien a^, i = 1, 2 , . . . , m und j = 1, 2 , . . . , n, und bi5 i = 1, 2 , . . . , m reelle Zahlen.
42
Kapitel II: Lineare Algebra
D a s System der G l e i c h u n g e n a
(LGS)
l l X 1 + a 1 2 x 2 + a l 3 x 3 + • • • a l n x n = bi a 2 1 X t + a 2 2 X 2 + a 2 3 X 3 + -- a 2 n X „ = b 2 a
m l X l + a m2 X 2 + a m3 X 3 + • • • amnXn
_
^m
heißt ein lineares Gleichungssystem mit d e n n Unbestimmten (Unbekannten, Variablen) x l 5 x 2 , . . . , x n . Die Z a h l e n a^, i = 1 , . . . , m u n d j = 1 , . . . , n, u n d die Z a h l e n bj, i = 1 , . . . , m , heißen die Koeffizienten des linearen Gleichungssystems ( L G S ) . Jedes n-Tupel von reellen Zahlen (A1? X 2 , . . . , An) heißt eine Lösung des linearen Gleichungssystems ( L G S ) , w e n n beim Einsetzen der Z a h l e n f ü r die U n b e s t i m m ten Xj, j = 1 , . . . , n, alle m Gleichungen d e s linearen Gleichungssystems ( L G S ) erfüllt sind. M a n n e n n t d a s lineare Gleichungssystem ( L G S ) homogen, w e n n t>i = b 2 = b 3 = . . . = b m = 0 ist; sonst heißt das Gleichungssystem inhomogen. Die L ö s u n g eines linearen Gleichungssystems entspricht der B e s t i m m u n g der L ö s u n g s m e n g e L des linearen Gleichungssystems, das ist die M e n g e aller L ö s u n g e n des gegebenen Gleichungssystems. W i r w e r d e n später sehen, d a ß ein lineares Gleichungssystem e n t w e d e r keine, g e n a u eine oder unendlich viele L ö s u n g e n besitzen k a n n . W i r k ö n n e n also von der L ö s u n g eines linearen Gleichungssystems n u r in speziellen Fällen sprechen. D a s P r i n z i p des G a u ß s c h e n Eliminationsalgorithmus besteht d a r i n , d a s gegebene lineare Gleichungssystem d u r c h sukzessive U m f o r m u n g e n in ein a n d e r e s lineares Gleichungssystem zu ü b e r f ü h r e n , dessen L ö s u n g s m e n g e mit d e r L ö s u n g s m e n g e des ursprünglichen Gleichungssystems identisch ist u n d sich leicht a n g e b e n u n d beschreiben läßt. W i r lassen f ü r d a s lineare Gleichungssystem ( L G S ) folgende elementare Umformungen zu: (A): Addition eines beliebigen Vielfachen einer Gleichung des linearen Gleichungssystems zu einer anderen: A d d i e r t m a n d a s a-fache d e r j-ten G l e i c h u n g zu der i-ten G l e i c h u n g (i 4= j!), so hat die i-te G l e i c h u n g des so e n t s t a n d e n e n linearen Gleichungssystems die F o r m ( a a n + a , i ) x i + 0* a j2 + a i 2 ) x 2 + • • • + ( a a j n + a j x
n
= ( a b j + b,).
Alle a n d e r e n Gleichungen bleiben u n v e r ä n d e r t . (M): Multiplikation einer Gleichung mit einer reellen Konstanten, die ungleich Null ist: Multipliziert m a n die i-te Gleichung des linearen Gleichungssystems mit einem ß + 0, so h a t die i-te G l e i c h u n g des neuen linearen Gleichungssystems die F o r m ßan
x
i + ß*i2x2
+ ß a i 3 x 3 + . . . + ßainxn
= ßbi
Alle a n d e r e n G l e i c h u n g e n bleiben u n v e r ä n d e r t . (V): Vertauschung zweier beliebiger Gleichungen des linearen Gleichungssystems untereinander. D a s lineare Gleichungssystem, das sich d u r c h die U m f o r m u n g (A), ( M ) , bzw. (V) ergibt, h a t die gleiche L ö s u n g s m e n g e , wie das ursprüngliche Gleichungssystem.
Kapitel II: Lineare Algebra
43
N u n wird an einem Beispiel demonstriert, daß man durch die wiederholte Anwendung der drei elementaren Umformungen (A), (M) und (V) ein gegebenes lineares Gleichungssystem lösen kann. Beispiel 1: Wir lösen das folgende lineare Gleichungssystem mit drei Gleichungen und drei Unbestimmten x l 5 x 2 , x 3 : 6X2 + 6X3 =
(1)
0
3 X 1 + 4 X 2 + 5X 3 = 9 6XÍ
+ 7X 2 +
8X3
= 9
Vertausche die erste und die zweite Gleichung miteinander: 3x x + 4 X 2 + 5X3 = 9 (2)
6X2 + 6X3 =
0
6xj + 7 X 2 + 8x3 = 9 Multipliziere die erste Gleichung mit X
1 +IX2 + fX3 = 3
(3)
6X2 + 6X3 =
0
6x1 + 7X 2 + 8x3 = 9 Addiere das (— 6)-fache der ersten Gleichung zu der dritten: X
1 + 3 X 2 + 3 X3 =
^
6X2 + 6X3 =
0
(4)
— x2 —
2 X 3 = —9
Multipliziere die zweite Gleichung mit ¿: X
(5)
1 + f x 2 + f X3 = x2+ x3= -X
2
-2X
3
^ 0
= - 9
Addiere die zweite zu der dritten Gleichung:
(6)
Xj + f x 2 + 3X3 = 3 x2+ x3= 0 X3 = - 9
Multipliziere die dritte Gleichung mit (—1): X
(7)
1 + f X2 + 3 X 3 = 3 x2 + x3 = 0 X3 = 9
Addiere das ( —l)-fache der dritten Gleichung zu der zweiten: X
(8)
1 + t x 2 + f X3 = ^ x2 =-9 x3=
9
44
Kapitel II: Lineare Algebra
Addiere das ( — f)-fache der dritten Gleichung zu der ersten: X
1 + 3X2
=
- 1 2
= -
(9)
x3=
9 9
U n d schließlich, addiere das (—f)-fache der zweiten Gleichung zu der ersten: = 0 = -9 x3= 9
(10)
Das lineare Gleichungssystem (1) hat also genau eine Lösung (X u a 2 , / 3 ) mit = 0, k 2 = — 9, ¿3 = 9. Die Lösungsmenge L enthält also nur eine Lösung, L = {(0,-9,9)}. A Schauen wir uns den Lösungsweg im Beispiel 1 noch einmal genauer an. N u r die erste Gleichung des linearen Gleichungssystems (4) enthält die Unbestimmte x t ; die restlichen zwei Gleichungen enthalten Xj nicht mehr, die Unbestimmte x t wurde aus diesen Gleichungen eliminiert. Der Schritt von (1) nach (2) diente nur dazu, die Unbestimmte in die erste Gleichung zu bringen. In den Schritten von (4) nach (7) wurde die Unbestimmte x 2 aus der dritten Gleichung eliminiert. Die erste Gleichung hat sich dabei nicht verändert. In den Schritten von (7) nach (10) eliminierten wir zuerst die Unbestimmte x 3 aus der zweiten und der ersten Gleichung und anschließend die Unbestimmte x 2 aus der ersten Gleichung. Die Lösungsmenge, die in diesem Fall aus genau einem Element besteht, ist aus dem Gleichungssystem (10) sofort abzulesen. Das Verfahren der sukzessiven Elimination der Unbestimmten, das zur Lösung des linearen Gleichungssystems im Beispiel 1 benutzt worden ist, kann nun verallgemeinert werden; dazu müssen allerdings einige Vorbereitungen getroffen werden. U m uns Schreibarbeit zu ersparen, lassen wir in dem linearen Gleichungssystem a
(LGS)
l l X1 + a 12 X 2 + a 13 X 3 + • • • a ln X n a 21 X1 + a 22 X 2 + a 2 3 X 3 + • • • a 2n X n a
_ =
^>1 ^>2
ml X l + atn2X2 + am3X3 + • • • amnXn — fy
die ,, + "-Zeichen, die ,, = "-Zeichen und die Unbestimmten x 1 ( . . . , x n einfach weg. M a n erhält eine (reelle) Matrix M mit m Zeilen und n + 1 Spalten, kurz eine (m, n + 1)-Matrix, a ll a l 2al 3 • • lnb! G = a 21 a 22 a 23 • • a 2 „ b 2 a
a
ml a m2 a m3- • am„bm
M a n nennt diese Matrix die Gleichungsmatrix des linearen Gleichungssystems (LGS). Den Index i bzw. j des Koeffizienten a,j dieser Matrix nennen wir den Zeilenbzw. Spaltenindex. Dem linearen Gleichungssystem aus dem Beispiel 1 entspricht die Matrix
Kapitel II: Lineare Algebra
rO 3 _6
6 4 7
6 5 8
45
0-| 9 . 9_
Wir nehmen nun die elementaren Umformungen (A), (M) und (V) an den Zeilen der Matrix G vor. Wir kennzeichnen die Addition des a-fachen der j-ten Zeile zur i-ten Zeile mit z^ — z^ + azj, die Multiplikation der i-ten Zeile mit einem ß =(= 0 mit zx ••= ßzi und die Vertauschung der i-ten mit der j-ten Zeile mit z ; n, dann gehe nach R9. R3: Wenn a r j = 0 für alle r mit i ^ r ^ m gilt, so setze j — j + 1 und gehe nach R2. R4: Bestimme den kleinsten Zeilenindex h mit i ^ h iS m und a h j 4= 0. R5: Wenn i #= h, dann z{ z h . 1 R6: Setze z-, ••= — z{. a ü R7: Setze zg — zg — a gj Z; für alle g mit i + 1 ^ g ^ m. R8: Wenn i < m, dann setze i — i + 1 und j == j + 1 und gehe nach R2. R9: Wenn es einen Zeilenindex r mit b r #= 0 und a r s = 0 für alle s mit 1 ^ s ^ n gibt, dann melde: „ D a s Gleichungssystem ist unlösbar". RIO: STOP Nach dem Ablauf des ersten Teils des Verfahrens, d.h. wenn der Punkt RIO erreicht worden ist, befindet sich die umgeformte Matrix G in der Staffelform, sie hat dieses Aussehen:
(11)
0 . . 0 0 . . 0
1 0
. * o. . 1
0 . . 0 0 . . 0
0 0
0 . . 0 0 . . 0
0 . . 0
0 0 . . 0 0 T T j2 ji
* .
*
*
.
. *
* .
. *
*
*
.
. *
* .
. *
b, b2
0 0
0 . .1 0 . . 0
* .
. *
bk
0 . . 0
bk + i
0 . . 0 0. . 0 T jk
bm T n + 1
46
Kapitel II: Lineare A l g e b r a
Genauer ausgedrückt: Es gibt k Indizes j 1 ? j 2 , •••Jk 1 ^ ji < j 2 < ja < • • • < Jk á n, so daß gilt:
m
¡t
1) Für alle g = 1 , . . . , k ist a g J í = 1 und a gs = 0 für 1 < s < jg. 2) Für alle g = k + 1 , . . . , m und alle j = 1 , . . . , n ist a g j = 0. Man nennt die Indexpaare ( l , j j ) , ( 2 , j 2 ) , . . . , (k,j k ) die Pivotstellen der Gleichungsmatrix (11). Die Spalten mit den Indizes . . . , jk heißen die Pivotspalten der Matrix (11). Bevor der angegebene Algorithmus an zwei Beispielen erläutert wird, ist es notwendig, auf den Punkt R9 des Algorithmus näher einzugehen. Hier wird festgestellt, ob es in der Matrix (11), die schon in der Staffelform ist, eine Zeile gibt, die in den ersten n Positionen sämtlich die Null hat und in der letzten einen von Null verschiedenen Eintrag enthält. Man stellt also fest, ob einer der Koeffizienten b k + 1 , b k + 2 , . . . , b m ungleich der Null ist. Wenn dies zutrifft, bedeutet das, daß sich aus dem ursprünglichen linearen Gleichungssystem eine Gleichung 0 = b¡, wobei b¡ 4= 0 ist, herleiten läßt; das ist natürlich ein Widerspruch, das lineare Gleichungssystem ist unlösbar. Jede weitere Rechnung ist daher in diesem Fall sinnlos. Die Lösungsmenge L ist leer, L = 0. Im anderen Fall, d.h. wenn die Matrix (11) keine Zeile der Form (0 0 ... 0 b¡)mit bj =t= 0 enthält, hat das lineare Gleichungssystem eine nichtleere Lösungsmenge, wir sagen, daß das lineare Gleichungssystem konsistent ist. Insbesondere sind die homogenen linearen Gleichungssysteme konsistent, die rechten Seiten der Gleichungen bleiben unter den elementaren Umformungen stets gleich Null, d.h. die letzte Spalte der Gleichungsmatrix besteht immer nur aus Nullen. Die Lösungsmenge eines homogenen linearen Gleichungssystems mit n Unbestimmten enthält auf jeden Fall die Lösung (Al5 k 2 , • • •, An) mit Aj = A2 = • • • = ^n = 0Nun demonstrieren wir den ersten Schritt des GEA an zwei Beispielen. Beispiel 2: Wir betrachten das lineare Gleichungssystem 3xj +4X
5xj
+ 5X3 = 1
2
+ *2 - x 3 = 2 + 6 x 2 + 3X3 = 4
Es ist also m = n = 3. Man erhält die folgende Gleichungsmatrix: -3 1 _5
4 1
6
5 11 2 3 4_
Wir starten mit R1 und setzen i == 1, j ~ 1. 1.Umformung (R2 bis R6): r- 1
i
1
1 _5
i.
3
1
3
6
i
3
1 2 3 4_
Die 2. Umformung (R7): z 2 — z 2 — zx und z 3 ¡= z 3 — 5z!
Kapitel II: Lineare Algebra
47
3. Umformung: (R8) i - = 2 , j==2 (R2 bis R6) z 2 := - 3z 2 i-11 0 L Un
4 3 —
2 3
1 —
5 I 3 3 8 - 5 16 7 3 3 —'
4. Umformung: (R7) z3~z3 1-1* 0 _0
+ §• z 2
43
i3 3x 1 8 - 5 0 0 -1_
Nun wird bei R8 j == 3 und i — 3 gesetzt, man fährt bei R2 fort. Bei R3 wird j == 4 gesetzt und es ist zum ersten Mal j > n, man fährt also bei R9 fort. Da die letzte Zeile in den Positionen 1, 2, 3 die Null und in der Position 4 die Zahl —1 enthält, so erfolgt hier die Meldung „Gleichungssystem ist unlösbar", das lineare Gleichungssystem ist nicht konsistent. Die Pivotstellen sind (1,1) und (2,2). A Beispiel 3: Wir betrachten das lineare Gleichungssystem 2x 1 + 4 x 2 + 8x 3 + 10x 4 + 10x 5 = 0 xl + 2x 2 + 5x 3 + 2x 4 + 9x 5 = 1 — 3x : — 6x 2 — 10x 3 — 21x 4 — 6x 5 = — 4 Es ist m = 3 und n = 5. Wir erhalten die Gleichungsmatrix -
2 1 _ —3
4 2 -6
1. Umformung: r
1 1 _ —3
8 5 -10
10 2 -21
10 9 -6
0"| 1 -4_
z1--=^-z1 2 2 -6
4 5 -10
5 2 -21
5 9 -6
0"! 1 —4_
2. Umformung: z 2 = z 2 - z t und z 3 = z 3 + 3z t r 1 0 _0
2 0 0
4 1 2
5 -3 -6
5 4 9
°1 1 -4.
5 4 1
Ol 1 — 6_
3. Umformung: z 3 = z 3 - 2z 2 r1 0 _0
2 0 0
4 1 0
5 -3 0
Nun ist die Gleichungsmatrix in der Staffelform; die Pivotstellen dieser Gleichungsmatrix sind (1,1), (2, 3) und (3, 5). Das lineare Gleichungssystem ist konsistent (s. dazu den Punkt R9), es hat eine nichtleere Lösungsmenge. A
48
Kapitel II: Lineare Algebra
Wir gehen nun von einer Gleichungsmatrix eines konsistenten linearen Gleichungssystem mit m Gleichungen und n Unbestimmten aus, die bereits die Staffelform besitzt. Das sind insbesondere die Gleichungsmatrizen, die man nach dem ersten Schritt des GEA erhält. Eventuelle Nullzeilen, d.h. die Gleichungen der Form 0 - x 1 + 0 x 2 + . . . + 0 - x n = 0 sind trivial und werden weggelassen. Wir arbeiten also weiter mit der Gleichungsmatrix der Form 0 . . 0 0 . . 0 0 . . 0
1. • aU2 • • i , j 3 0 . . 1 ' 2,j 0 . . 0 .1
0 . . 0
0 . . 0 T T Jl h
a
a
* •
3
a
•
l , j
m
bi b2
.. *
•• 2, jm . . * .. * • 3 , jm a
b3
a
.0 T ¡3
•
. 1 T • jm
bm T n +
.. *
Diese Matrix hat die Pivotstellen (i, jj), i = 1 , . . . , m. Wir können jetzt den zweiten Schritt des GEA, die sogenannte Rücksubstitution beschreiben. GEA - Schritt 2 (Rücksubstitution): S1: Setze den Zeilenindex i — m. S2: Wenn i ^ 1 ist, dann STOP. S3: zg := z g — a g j.Z; für alle g mit 1 g S4: Setze i — i — 1 und gehe nach S2.
i — l.
Beim ersten Schritt des GEA hat man sich in der Gleichungsmatrix von der obersten Zeile der Gleichungsmatrix bis zu der letzten durchgearbeitet. Beim zweiten Schritt des GEA fängt man dort an, wo der erste aufgehört hat, d.h. bei der untersten Zeile, und steigt dann bis zu der ersten Zeile hinauf. Zuerst addieren wir zu allen Zeilen der Gleichungsmatrix jeweils ein passendes Vielfaches der m-ten Zeile, so daß alle Koeffizienten in der j m -ten Spalte, bis auf die 1 in der m-ten Zeile, verschwinden. Dann tun wir dasselbe mit der vorletzten Zeile, usw. Zum Schluß erhalten wir eine Gleichungsmatrix der Form 0
.
.
0
1
a
0
.
.
0
0
0
.
. 0
0
0 .
.
0
0 t ji
..
0
a
i,j2 + l •
0
..
1
a
2,j
0
..
0
0
..
0
i,ji + i
•
..
0
a
+ l • ..
0
a
2.j„. +1
0
..
0
a
3,j„
0
.. 1
a
2
t j2
•
a
l n
•
•
a
2n
.+1 •
•
a
3n
m . j rn + 1 "
•
a
mn
u „ 1+ 1 •
b i
b2 b3 bm T n + l
I • • Jm
Es sei nun P die Menge der Indizes der Pivotspalten, P = { j t , j 2 , . . . , j m } . Wir nennen die Unbestimmten xj5 j = 1 , . . . , n, mit j (£ P frei. Schauen wir uns jetzt die erste Zeile der Gleichungsmatrix (12) an. Sie entspricht der Gleichung X
ji +
a
l . j i + 1Xji + 1 +
• +
a
l , j 2 - l
X
j 2 " l
+
a
l , j 2 + l
X
J2+1 +
•• ' +
a
l n
X
n
=
Kapitel II: Lineare Algebra
49
Nun sind die Koeffizienten der ersten Zeile in den Pivotspalten j 2 , . . . , jm sämtlich Null, also: j2 = j3 = ... = a 1>jm = 0. Wir können daher schreiben n
Xj1 = b j — X a ij x j> das bedeutet insbesondere, daß die Unbestimmte x^ nur j = j. + i jip noch von freien Unbestimmten abhängt. Das gleiche gilt auch für xj2, x j 3 , . . . , x jm . Daher läßt sich die Lösungsmenge des linearen Gleichungssystems mit der obigen Gleichungsmatrix wie folgt beschreiben: GEA - Lösungsmenge Die Lösungsmenge des linearen Gleichungssystems mit der Gleichungsmatrix (12) besteht aus allen n-Tupeln (Ä.u a 2 , • • •, A„) von reellen Zahlen, für die gilt: n
¿ jk = b k -
E
k = 1,..., m.
Hieran sehen wir, daß die Bezeichnung der Variablen Xj mit j £ P als freie Unbestimmte ihre Berechtigung hatte: Für jede beliebige Belegung dieser Unbestimmten mit reellen Werten Aj, j £ P, erhalten wir eine Lösung des linearen Gleichungssystems, die restlichen Komponenten des Lösungstupels (/.j,..., /.„), d.h. . . . , Ajm, berechnen sich nach der oben angegebenen Formel. Falls keine der Unbestimmten x 1 ; . . . , xn frei ist, so gilt insbesondere m = n und das lineare Gleichungssystem hat eine einzige Lösung ..., An) mit A1 = b 1 ; X2 = b 2 , . . . , Ä„ = b„. Wir sagen: Das lineare Gleichungssystem ist eindeutig lösbar. Falls es wenigstens eine freie Unbestimmte gibt, so hat das lineare Gleichungssystem unendlich viele Lösungen. Jede beliebige Belegung der freien Unbestimmten mit reellen Werten liefert nämlich genau eine Lösung und je zwei verschiedene Belegungen führen zu zwei verschiedenen Lösungen. Oft wird die Lösungsmenge nur durch die Angabe der Gleichungen für die nichtfreien Unbestimmten in Abhängigkeit von den freien Unbestimmten beschrieben, in unserem Fall würde man dann schreiben: n
x jk = b k -
Z
a
k j
k = 1 , . . . , m.
Xj,
Wir setzen nun das Beispiel 3 fort. Wir haben die Gleichungsmatrix in die Staffelform gebracht und festgestellt, daß das lineare Gleichungssystem konsistent ist. Man kann also mit der Rücksubstitution anfangen. Beispiel 3: (Fortsetzung) Nach dem ersten Schritt des GEA erhielten wir die Gleichungsmatrix: rl 0 _0
2 0 0
4 1 0
5 0
5 3
4 1
0"1 1 —6 _
Die Pivotstellen sind (1,1), (2, 3) und (3, 5).
50
Kapitel II: Lineare Algebra
1. Umformung: (die fünfte Spalte wird bearbeitet) z 2 == z 2 — 4z 3 und - 5Z3
Zi — Zi
1-1
2
4
0
0
1
-0
0
0
5 -3 0
0
30
0
25
1 -6
2. Umformung: (die dritte Spalte wird bearbeitet) z t ••= Zj — 4z 2 r 1 0 _0
2 0 0
0 1 0
17 -3 0
0 0 1
Hier ist die Rücksubstitution fertig. Die Unbestimmten x2 und x 4 sind frei. Es gilt
Xi = - 7 0 - 2X2 - 17X4 X3 = 25 + 3X4 x5 = — 6 Die Lösungsmenge L des linearen Gleichungssystems läßt sich nun schreiben als L = { ( — 70 — 1X2 — 17A4, A2, 25 + 3 X 4 , A 4 , - 6)|A2, A4 e IR}. Das lineare Gleichungssystem hat unendlich viele Lösungen. Beispiel 4: Wir lösen das lineare Gleichungssystem
Xj + 2X2 + 4X3 = 4 2x 1 + 3X2 + 4X3 = 4 3x t + 5x 2 + 8x3 = 8 3xj +
x 2 + 5x3 = 5
Es ist hier m = 4 und n = 3. Die Gleichungsmatrix: 1 2 3 3
2 3 5 1
4 4 8 5
4 4 8 5
Zuerst ermitteln wir die Staffelform durch: 1. Umformung: z 2 ¡= z 2 — 2z 1; z 3 — z 3 — 3z t und z ~1 0 0 _0
2 -1 -1 -5
4 -4 -4 -7
4~ -4 -4 —7_
2. Umformung: z 2 — — z 2 "1 0 0 0
2 1 -1 -5
4 4 -4 -7
4" 4 -4 -7
4
~ z 4 — 3z t
A
Kapitel II: Lineare Algebra
51
3. Umformung: z 3 •= z 3 + z 2 und z 4 == z 4 + 5z 2 1 0 0 0
4 4 0 13
2 1 0 0
4 4 0 13
4. Umformung: z 3 z 4 und z 3 — y j z 3 " 1 2 0 1 0 0 0 0
4 4 1 0
4" 4 1 0
An dieser Stelle ist die Reduktion zur Staffelform beendet. Das lineare Gleichungssystem ist konsistent, wir können daher mit der Rücksubstitution fortfahren. Die triviale letzte Zeile wird dabei weggelassen: 5. Umformung: z 2 — z 2 — 4z 3 und Zj == z y — 4z 3 -1 0 _0
2 1 0
0 0 1
6. Umformung: Zj == -1 0 _0
0 1 0
0-j 0 1_ — 2z 2
0 0 1
0-1 0 1_
Die Rücksubstitution ist damit beendet. Da keine der Unbestimmten frei ist, hat das lineare Gleichungssystem die einzige Lösung = 0, A2 = 0, A3 = 1, die Lösungsmenge ist also L = {(0, 0,1)}. A Für die Lösung linearer Gleichungssysteme ist der Gaußsche Eliminationsalgorithmus im allgemeinen das geeignetste Verfahren. Er hat, verglichen mit den Verfahren, die man in der Schule kennengelernt hatte, entscheidende Vorteile.
II.3 Vektorräume §3.1 Definition eines Vektorraums Im letzten Abschnitt haben wir ein Verfahren zur Lösung linearer Gleichungssysteme kennengelernt. Die Lösungsmenge L eines linearen Gleichungssystems mit n Unbestimmten ist eine Teilmenge der Menge aller n-Tupel von reellen Zahlen, d. h. L
"1 0 _0
0 1 0
0 0 1
0-1 0 0_
61
Kapitel II: Lineare Algebra
Das Gleichungssystem (2) hat also nur die triviale Lösungsmenge L = {(0, 0,0)}. Aus dem Ansatz Aj hu + / 2 b 2 + A 3 b 3 = 0 folgt Ai = A2 = A3 = 0, die Vektoren b l 5 b 2 , b 3 sind daher linear unabhängig. A Die Frage nach der linearen Abhängigkeit bzw. Unabhängigkeit der Vektoren a l 5 a 2 , . . . , a k e IRn läßt sich, wie im obigen Beispiel, auf die Bestimmung der Lösungsmenge des linearen Gleichungssystems A1a1 + A2a2 + ... + Akak = 0
(3)
mit den Unbestimmten At, ...,Ak zurückführen. Ist die Lösungsmenge L von (3) trivial, d. h. L = {(0, 0 , . . . , 0)}, so sind die Vektoren linear unabhängig, im anderen Fall sind sie linear abhängig. Definition: Eine Teilmenge S eines Vektorraums V heißt linear unabhängig, wenn je endlich viele paarweise verschiedene Vektoren a l 5 a 2 , . . . , a k e S linear unabhängig sind.
Man beachte: Die Vektoren a, =
r 1 0 _0_
, a2 =
r 1 ~i r0-i 0 , a 3 = 1 e IR3 sind linear _0_
_0_
abhängig, es gilt l a ! + ( —l)a 2 + 0a 3 = 0. Dagegen ist die Menge {a 1( a 2 , a 3 } = {a 1; a 3 } linear unabhängig. Definition: (Basis eines Vektorraums) Es sei V ein Vektorraum. Eine Teilmenge B von V heißt eine Basis von V, wenn gilt: (Bl) B ist eine linear unabhängige Teilmenge von V. (B2) B erzeugt V, d.h. V = . Wir werden nun zeigen, daß der Vektorraum [Rn eine Basis aus n Vektoren besitzt. Beispiel 6: (Die kanonische Basis von [Rn) Es sei für jedes i = 1, 2 , . . . , n mit e ; derjenige Vektor aus !Rn bezeichnet, der in der i-ten Komponente eine Eins und in allen übrigen Komponenten eine Null hat, d. h.
e, =
1 0 0
, e2 =
0 1 0 Ó
> e3 =
0 0 1
, . . . , en =
0 0 0
Wir werden jetzt zeigen, daß
_i _
die Vektoren e,, e 2 , . . . , e„ eine Basis des Vektorraums [Rn bilden. Für jedes x =
e [Rn ist x = x 1 e 1 + x 2 e 2 + ... + x n e n , also
62
Kapitel II: Lineare Algebra V
" ¿ r
IR" = . A u s
e j + À2e2 + ... + Anen ==
¿2
X .
-
0
- 0 folgt tri
Ó
vial ky = X2 = . . . = = 0; die Vektoren e 1 ; e 2 , . . . , e„ sind d a h e r linear u n a b h ä n gig. M a n n e n n t die Basis e 1 ; e 2 , . . . , e n die kanonische Basis von [Rn. I m V e k t o r r a u m IR3 erhalten wir d a s folgende Bild: A
A 2 --
1 --
O h n e Beweis wird n u n ein wichtiger Satz d e r linearen A l g e b r a zitiert: S a t z 3.4: Jeder V e k t o r r a u m besitzt eine Basis. Jeder Teilraum eines V e k t o r r a u m s V ist selbst ein V e k t o r r a u m u n d besitzt d a h e r eine Basis. D e r triviale Teilraum {O v } von V, der n u r a u s d e m N u l l v e k t o r O v v o n V besteht, h a t die leere M e n g e als Basis. W i r beschäftigen uns mit den V e k t o r r ä u m e n , die eine endliche Basis, d. h. eine Basis a u s endlich vielen Vektoren, besitzen. W i e m a n soeben bewiesen h a t t e , besitzt der V e k t o r r a u m IR" eine solche Basis. N u n wollen wir eine wichtige Eigenschaft v o n V e k t o r r ä u m e n mit einer endlichen Basis formulieren. S a t z 3.5: Es sei V ein V e k t o r r a u m u n d b 1 ; . . . , b n eine n-elementige Basis von V. D a n n ist jede Basis von V endlich u n d besitzt g e n a u n Elemente.
Kapitel II: Lineare Algebra
63
Diese und spätere Aussagen sind Folgerungen des sog. Austauschsatzes, der hier ohne Beweis, der doch etwas umständlich ist, vorgestellt wird. Ein Beweis des Satzes findet sich z.B. in [ A R ] . Satz 3.6: (Austauschsatz) Es sei V ein Vektorraum und b l 5 . . . , b n eine Basis von V. Sind a 1 ; a 2 , . . . , a k e V linear unabhängige Vektoren, dann gilt: 2) Es gibt r = n — k Vektoren b i k t , , b i k ^ 2 , ..., b in aus der Basis b 1 ; . . . , bn von V so, daß die Vektoren a 1 ; a 2 , . . . , a k , b ik + ,, b ik + 2 , . . . , b in eine Basis von V bilden. Aus der Behauptung 2) folgt unmittelbar, daß sich jede Menge von linear unabhängigen Vektoren aus V mit geeigneten Vektoren aus V zu einer Basis von V ergänzen läßt. Mit dem Austauschsatz ist der Beweis des Satzes 3.5 leicht: Ist C c: V eine weitere Basis von V, so muß C zuerst endlich sein, da man sonst sicher n + 1 linear unabhängige Vektoren in C finden könnte. Das ist aber nach 1) des Austauschsatzes unmöglich. Es ist also C = { c „ c 2 , . . . , c m } mit linear unabhängigen Vektoren c 1 ; c 2 , . . . , c m 6 V. Nach 1) ist m iS n. Da nun die Vektoren c 1 ; c 2 , . . . , c m eine Basis von V bilden und die Vektoren b 1 ; . . . , b n e V linear unabhängig sind, gilt wieder nach 1) n ^ m. Wir erhalten: m = n. Definition: (Dimension eines Vektorraums) Ein Vektorraum hat die Dimension n e IM0, wenn er eine n-elementige Basis besitzt. Man schreibt: dim (V) = n. Falls der Vektorraum V keine endliche Basis besitzt, so heißt er unendlichdimensional, dim(V) = oo. Diese Definition ist nach dem Satz 3.5 sinnvoll, da je zwei Basen eines endlichdimensionalen Vektorraums gleichviel Elemente haben. Wir werden uns ab jetzt nur mit endlichdimensionalen Vektorräumen beschäftigen, vor allem mit dem Vektorraum IRn. Es gilt dim([Rn) = n. Jeder Untervektorraum U eines Vektorraums V ist selbst ein Vektorraum und hat daher eine Dimension, es gilt dim(U) rg dim(V). Der triviale Teilraum {O v } von V, der nur aus dem Nullvektor O v besteht, hat die Dimension Null. Satz 3.7: (Dimensionsformel) Es seien U und V Teilräume eines Vektorraums W, dann gilt die Dimensionsformel: dim (U) + dim (V) = dim (U + V) + dim (U n V). Beweisskizze: Da W als endlichdimensional vorausgesetzt worden ist, sind die Teilräume U , V , U n V von W auch endlichdimensional mit dim(U) = n, dim(V) = m und dim(U n V) = s. Es sei { a , , . . . , a s } eine Basis von U n V . Diese Basis läßt sich, wegen a 1 , . . . , a ! e U n V c U durch n — s Vektoren b 1 ; . . . , b n _ s zu einer Basis
64
Kapitel II: Lineare Algebra
von U ergänzen. Genauso lassen sich a 1 ( . . . , a s durch m —s Vektoren c l 5 . . . , c m _ s e V zu einer Basis von V ergänzen. Man kann dann leicht zeigen, daß die Vektoren a 1 ; . . . , a s , b t , . . . , b n _ s , c l 5 . . . , c m _ s , das sind genau s + (n — s) + (m — s) = n + m — s Vektoren, eine Basis des Teilraums U + V bilden. Wir erhalten dim(U) + dim(V) = n + m = (n + m - s ) + s = dim(U + V) + d i m ( U n V ) . Xl
Beispiel 7: Es seien U =
e IR31 x 3 = 0} und V =
Xi
e [R31
+ x2 + x3
LX3J
Lx3
= 0}, das sind zwei Teilräume des Vektorraums [R3. Die Vektoren e! = e2 =
r 1 =
ri
0 0J
1 " 1r°i r 1 i bilden eine Basis von U, die Vektoren a t = - 1 , a 2 = 0 bil_0_ _ 0. _-i _
den eine Basis von V. N u n ist U n V = {
b1
A
aj
=
-1 0.
e [R 3 |x 3 = 0, Xj + x 2 = 0} und
eine (einelementige!) Basis von U n V .
x 2 e [R3 läßt sich schreiben als x = y + z mit l_x3 J X3 - -x2 -x3und z = Es ist offensichtlich y e U und z e V; x2 L x3 J
Jeder Vektor x = Xj y =
_
X2 0 0
wir erhalten insgesamt [R3 • • •» n ^ = ( a ^ . . . , a „ > .
Beispiel 6: D i e Abbildung y: IR3
(1,-1,0)-
IR1,
~ 1 ( / . < p ( a ' ) ) = ( p ' 1 ( ( p ( X a ' ) ) = {)(Xa')
= Xa' = /l V gibt. Für endlichdimensionale Vektorräume gilt: Satz 4.9: Zwei Vektorräume U, V endlicher Dimension sind genau dann zueinander isomorph, wenn dim(U) = dim(V) gilt. Beweis: Sind U, V zueinander isomorph, dann gibt es eine lineare Bijektion V und es gilt wegen Im
-i = I„ = A v - i 0 „ = A v - , • Av, da die Matrizen A v o v - , und beide die Matrizen der identischen Abbildung idR„ sind: idK„ =
' ° q>. Hieraus folgt die Bijektivität von " Siehe Behauptung 4.10a) 1) Ist A • B regulär, so ist IRn = Im(
x * y = x T • y wird Skalarprodukt (oder auch inneres Produkt) auf IR" genannt. Diese Definition ist offensichtlich sinnvoll, das Produkt x T • y ist ein Produkt einer (l,n)-Matrix mit einer (n,l)-Matrix. Das Ergebnis ist also eine (1,1) Matrix, d.h. eine reelle Zahl. Für je zwei Vektoren Xl" X2
> y
Xn
V y2 y„
gilt x2
x *y =
*
K
yi y2
=
Xl X2
y„
1
yi y2 yn
~yi = (x 1; x 2 , . . . , x n ) •
y_2
yn
Es ist z.B. in IR4 l" 0 -l 2
*
3" 4 0 = (1, -3
0, - 1 ,
2)-
3" 4 = 1 • 3 + 0-4 +(-1)-0 + 2-(-3) = - 3 . 0 -3
Aus der Definition des Skalarprodukts lassen sich unmittelbar die folgenden Eigenschaften beweisen.
88
Kapitel II: Lineare Algebra
Satz 4.18: (Eigenschaften des Skalarprodukts) Es seien x, y, z e IR" und a s [R. Dann gilt: a) x * y = y * x (Kommutativität) b) (x + y ) * z = x * z + y # z x * ( y + z) = x * y + x * z (Distributivität) c) (ax) * y = x * (ay) = a (x * y) d) x * x ^ 0. Beweis: Für jedes a e [R ist a 2 ^ 0. Daher ist für jedes
e iRn
stets
x*x = X ¡=i
^ 0.
Damit ist die Behauptung d) bewiesen. Alle anderen Behauptungen kann der Leser als Übung leicht beweisen. A Definition: (Norm, Länge eines Vektors aus (Rn) Die Abbildung | . |: IR" IR, x i-» | / x * x heißt die Norm (auf IR"), für jedes x e IR" heißt | x | die Norm (oder die Länge) des Vektors x.
Man beachte, daß für alle x e IR" stets | x | ^ 0 gilt. Für jedes x =
6 IR" ist nach
der Definition | x | = j / x * x = 1/ S xf. In [R1 = IR gilt Kx^l = j/xf = | x j , die ' i= 1 Norm und der früher definierte Betrag stimmen in IR also miteinander überein. In IR2 gilt
= l / x f T x f . Stellt man den Vektor
als die orientierte Strecke
der kartesischen Ebene mit dem Anfangspunkt (0,0) und dem Endpunkt (x 1; x 2 ) dar, so ergibt sich das folgende Bild:
89
Kapitel II: Lineare Algebra
Das Dreieck OAX ist ein rechtwinkliges Dreieck, nach dem Satz von Pythagoras gilt also für die Seitenlängen OA, AX, OX: OA + AX
= OX . Es ist offensicht-
lich Ö Ä = IxJ, und ÄX = | x 2 | und folglich ÖX = | / Ö A 2 + AX 2 = ]/| X l | 2 + |x 2 | 2 = j / x 2 + xf, d. h.: die Norm
ist gleich der Länge der Strecke zwischen den
Punkten (0, 0) und (x l5 x 2 ) in der kartesischen Koordinatenebene [R2. Satz 4.19: (Eigenschaften der Norm) Es seien x, y 6 IRn und a e IR. Dann gilt: a) | x | = 0 o x = 0. b) |ax| = |a| • | x | . c) |x + y | ^ | x | + |y|. Die Behauptungen a) und b) lassen sich direkt aus der Definition der Norm einsehen. Zum Beweis der Behauptung c), das ist die sog. Dreiecksungleichung, benötigt man die sog. Cauchy-Schwarzsche Ungleichung: Für alle x, y e [Rn ist | x * y | ^ |x| • |y|. Die Gleichheit ist genau dann erfüllt, wenn die Vektoren x,y linear abhängig sind. Der Beweis der Cauchy-Schwarzschen Ungleichung kann z. B. in [AR] nachgelesen werden.
90
Kapitel II: Lineare Algebra
Definition: Zwei Vektoren x, y e [Rn heißen zueinander orthogonal (oder senkrecht), wenn | x | 2 + |y| 2 = | x - y | 2 g i l t . Statt „x ist orthogonal zu y" schreibt man kurz x 1 y. In der kartesischen Ebene läßt sich diese Definition wie folgt verdeutlichen:
Die Geraden g t und g 2 sind genau dann zueinander orthogonal, wenn das Dreieck OXY bei O den rechten Winkel hat, d.h. nach dem Satz von Pythagoras genau dann, wenn (l)
XY2 = ÖX2 + ÖY2.
Da nun Ö X = |x|, OY = |y| und XY = | x - y | gilt, läßt sich (1) als |x| 2 + |y| 2 = |x — y| 2 schreiben. Satz 4.20: Zwei Vektoren x, y e [Rn sind genau dann zueinander orthogonal, wenn x * y = 0 gilt.
Kapitel II: Lineare Algebra
91
Beweis: Es gilt: |x| 2 + lyl 2 = |x — y | 2 -e> x * x + y *y = (x - y) * ( x - y) o x * x + y * y = x * ( x — y) — y * (x — y) x * x + y * y = x * x — x * y — y * x + y * y x * y + y * x = 0 x * y + x * y = 0 2 • (x * y) = 0 x * y = 0.
A
Beispiel 14: Es seien a =
r3 2
,
b =
_1_
r-l-i 2 , _-1 _
c =
r 1 -] 1 e [R3 _0_
Es ist a * b = 3 • ( - 1 ) + 2 • 2 + 1 - ( - 1 ) = 0, a * c = 3 • 1 + 2- 1 + 1 -0 = 5, b * c = ( — 1) • 1 + 2 • 1 + ( — 1 ) 0 = 1. Die Vektoren a und b sind also zueinander senkrecht, a 1 b. Die Vektoren a und c bzw. b und c sind dagegen zueinander nicht senkrecht. A Ist U ein Teilraum von [Rn und b e IRn, dann heißt ein Vektor b^ e U orthogonale Projektion von b auf U, wenn für alle u s U stets u ± (bu — b) gilt.
Wir werden im folgenden zeigen, daß zu jedem b e (Rn eine solche orthogonale Projektion by existiert und eindeutig bestimmt ist. Es sei ai,...,
ak eine Basis von U. Man sucht ein x e U mit u ± (x — b) für alle u e U. k
Da x e U sein soll, setzen wir x = £ /¡aian. Der Vektor x — b ist senkrecht zu allen ¡=i u E U genau dann, wenn er zu allen Basisvektoren a t , . . . , ak senkrecht ist. Es muß also gelten a , ± ( x - b ) (i = 1 , . . . , k). Diese k Gleichungen lassen sich in der Matrizenform als (1)
AT • (x — b) = 0
92
Kapitel II: Lineare Algebra
schreiben, wobei A die (n,k)-Matrix mit A = ( a t , . . . , a k ) ist. Diese Gleichung läßt sich nun weiter als (2)
A T x = AT b
schreiben. Schließlich ist nach Voraussetzung x = A • Gleichung
V ¿2
Wir erhalten die
¿i (3)
T
= A T b.
(A 'A). iw
M a n beachte, daß A T • A eine (k,k)-Matrix und A T • b e [Rk ist. Die Gleichung (3) ist ein lineares Gleichungssystem mit k Gleichungen und den k Unbestimmten . . . , Ak. Die Matrix A T • A ist regulär. Ist nämlich f ü r ein y e IRk (A T • A) • y = 0, dann ist y T • (A T • A • y) = 0. Es ist folglich | A • y | 2 = (A • y) T • (A • y) = 0 und damit | A • y | = 0. N a c h d e m Satz 4.19a) folgt daher A y = 0. Da die Spalten von A linear unabhängig sind, so m u ß y = 0 gelten. N a c h Satz 4.11 ist also die Matrix A T • A ¿i ¿2 regulär. Die Gleichung (3) hat genau eine Lösung e [R , es gilt ¿i A2
Ai = (A T • A ) - 1 • A T • b. Damit ist der Vektor by = A
K t
1
T
= A • (A A) • A • b der einzige Vektor aus U so, d a ß (by — b) ± u f ü r alle u e U ist. Die Abbildung p y : [Rn -> [Rn, b by ist offensichtlich linear und hat die Matrix A • (A T • A)" 1 • A T . F ü r alle u e U ist p ^ u ) = u. Es gilt Im(pu) = U. r 2 = 0 _2
Beispiel 15: Es sei a t
2
=
r i i 0
g IR4 und U der von den Vektoren
und
a 2 erzeugte Teilraum von [R4. Es ist
A =
1 2 0 2
1 1 1 0
AT-A =
1 -1
(AT-Ar^o/ó)
9 3
3 3
und
-1 3
Für die Matrix M der Orthogonalprojektion Pu von IR4 auf U gilt
T
1
M = A-(A -A)" -A
t
= (1/6)-
2 2 3 1 1 3 2 - 2
0 2 -2 4
A
93
Kapitel II: Lineare Algebra
II. 5 Determinanten § 5 . 1 Definition der Determinante Die Determinantenfunktion det ordnet jeder quadratischen Matrix A eine reelle Zahl zu, die wir die Determinante der Matrix A nennen. M a n definiert die Determinantenfunktion det induktiv. Zuerst wird die Determinante für alle ( l , l ) - M a t r i z e n definiert, dann nimmt man an, daß die Determinante schon für alle (n — 1, n — 1)-Matrizen (n 2) definiert ist, und benutzt sie für die Definition der Determinante der (n,n)-Matrizen. Mit Ajj werden wir diejenige (n — 1, n — 1)-Matrix bezeichnen, die sich durch die Streichung der i-ten Zeile und der j-ten Spalte einer (n,n)-Matrix A = (a^) ergibt, also a12
21
a22
• •
ai2
. •
a„2
•
•
A,j = a„i
. • . •
aln~ a2n
a,j
. •
ain
anj
. •
ann
• a^ • a2j
au
a
streichen
T streichen M a n nennt A^ auch Streichungsmatrix. Es ist z. B. mit A = 4 -1
9 0
3 -1
4 , 0
>
2 A12 — 6
9 2 0 > ^13 — 6
4 9 0
3 4 -1
4 -1
usw.
Definition: (Determinante) Die Determinantenfunktion det ist eine Funktion von der Menge aller quadratischen Matrizen in die Menge der reellen Zahlen. Für die (1,1 )-Matrizen wird det definiert durch d e t ( a 1 1 ) = a n . Für n > 1 wird die Determinante einer (n,n)-Matrix A = (a^) definiert durch die Formel am det(A) = det
a2n
= X ( - l ) i + naindet(Ain),
wobei A in diejenige (n — 1, n — 1)-Matrix ist, die sich durch die Streichung der i-ten Zeile und der n-ten Spalte der Matrix A ergibt.
Es ist üblich statt det(A) auch | A| zu schreiben, so sind z.B. det
-2
1
3
4
J und
94
Kapitel II: Lineare Algebra -2
1
3
4
gleichbedeutend. M a n beachte, daß
-2
1
3
4
eine Matrix, wogegen
eine reelle Zahl ist!
Satz 5.1: (Determinanten der (2,2)- und (3,3)-Matrizen) a
)
b)
a
n 21
a
a n a21 a 31
a
a
a
12 22
a
l l a 22
— a
l 2 a 21
a
l2 22 a 32
13 23 a 33
a
a
a
l l a 22 a 33 + a l 2 a 2 3 a 3 1 + a l 3 a 2 1 a 32 — a13a22a31 — a u a23a32 — a12a21 a33
Beweis: a) Nach der Definition der Determinante ist det(A) =
a
u
a
l2
a
21
a
22
= (-l)1
+2
a12det(A12) + ( - l ) 2
+ 2
a22det(A22)
,3 1) a i2? "32
det (A) = 31
l3 23 a"33
= (-l)1+3a13det(A13) + ( - l ) 2
= a,
a21 a 31
a22 32
a
a a
u 31
a a
+3
l2 32
a23det(A23) + ( - l )
+ a 33
a
a
U
a
12
21
a
22
3 + 3
a33det(A33)
Mit a) lassen sich die Determinanten der (2,2)-Matrizen bereits berechnen, wir erhalten det(A) = a i 3 ( a 2 1 a 3 2 — a 2 2 a 3 i ) — a 2 3 ( a n a 3 2
— a
+ a 33 ( a l 1 a 22 — a l 2 a 2 l ) = a 11 22 a 33 2 a 23 a 31 33 + a l12 13 21 a 3 2 ' l a a a i j - a 12 "21 33 • l 1 23ä 32
i2a3i) 1
13 a 22 a 31
A
Die Formel für die Berechnung der Determinante einer (2,2)- bzw. (3,3)-Matrix kann man sich mit den folgenden Rechenschemen leicht merken:
+-
^
a
21
12 a 22^
bzw.
-
"al2. ;a a a 22 2 C > 2 2 ; > 2 3 ; 21 a a a a > 33" 3 " 32 ' 31.
95
Kapitel II: Lineare Algebra
Man bildet die Produkte jeweils entlang der Linien und ändert, falls m a n das Produkt entlang einer Linie von rechts oben nach links unten gebildet hat, das Vorzeichen. Das Rechenschema für die Berechnung der Determinante einer (3,3)-Matrix ist unter dem Namen Sarrus-Regel bekannt. Es m u ß an dieser Stelle gewarnt werden, daß sich die obigen Rechenschemen nicht für die Berechnung von det(A) einer (n,n)-Matrix A mit n > 3 verallgemeinern lassen. 2 Beispiel 1: Die Berechnung der Determinante 1 0 schema
3 -1 3
führt zum Rechen-
+
1 0""
~ 3 "-lc
Wir erhalten also 2 1 0
3 -1 3
4 1 = 2 - ( - 1 ) - 8 + 3-1 8 = -34
0 + 4-1 - 3 - 4 - (-1)
0 - 2 1 - 3 - 3 - 1 •:
Für die weitere Betrachtung der Eigenschaften der Determinanten ist der folgende Satz wesentlich. Satz 5.2: (Laplacescher Entwicklungssatz) Es sei A = (ajj) eine (n,n)-Matrix und für je zwei i, j mit 1 ^ i , j Streichungsmatrix. Für jedes k, 1 ^ k ^ n, gilt: a) det(A) = £ ( - l ) i
+ k
i= l
n sei Ay die
aikdet(Aik)
b) det(A) = £ (— l) k + j a k j d e t ( A k j ) . j= i
Der Beweis des Satzes ist etwas komplizierter, wir werden auf ihn verzichten. Die Formel a) heißt die Entwicklung der Determinante von A nach der k-ten Spalte. Dementsprechend heißt die Formel b) die Entwicklung der Determinante von A nach der k-ten Zeile. Es ist natürlich günstig, die Determinante nach einer Spalte bzw. Zeile zu entwickeln, die möglichst viele Nullen enthält, das verringert die Menge der zu leistenden Rechenarbeit. Beispiel 2: Zu berechnen ist det(A) mit -3 0 1 -1
2 3 5 -1
15 0 0 1
3 2 1 0
96
Kapitel II: Lineare Algebra
Hier bietet sich die Entwicklung nach der dritten Spalte an. Wir erhalten: 3. Spalte
det(A) =
I 15 0 0 1
-3 0 1 -1
3 2 1 0
= ( - 1 ) 1 + 3 • 15 • det(A 1 3 ) + (—1)2 + 3 • 0 • det(A 2 3 ) + ( - 1 ) 3 + 3 • 0 • det(A 3 3 ) + ( - 1 ) 4 + 3 • 1 • det(A 43 ) 0 1
= 15 •
3 5
- 1
-3 0 1
- 1
Die Determinanten der beiden (3,3)-Matrizen lassen sich entweder nach der SarrusRegel oder durch weitere Zeilen- bzw. Spaltenentwicklungen berechnen. Es ist det(A) = 59. A Aus der Definition der Determinante läßt sich durch wiederholte Entwicklungen jeweils nach der letzten Spalte sofort zeigen, daß 1 0 0 . . 0 1 0 . . det(I n ) = 0 0 1 . . Ó Ó Ó . . 0 0 det(O n , n ) = 0
0 0 0
0 0 0
. . . . . .
0 0 0 = 1
und
i 0 0 0 = 0
gilt.
Ó Ó Ó . . Ó Die Determinante einer oberen bzw. einer unteren Dreiecksmatrix berechnet sich sehr einfach, wie der folgende Satz zeigt. Satz 5.3: Ist A = (a^) eine obere oder untere Dreiecksmatrix der Ordnung n e IM, dann ist det(A) = a u a 2 2 a 3 3 ••• anm d.h. det(A) ist das Produkt der Hauptdiagonalelemente der Matrix A. Beweis: Wir nehmen zuerst an, daß A eine obere Dreiecksmatrix ist, a
H
a
l 2 22
a
0
0
l 3 23 a 33
Ó
Ó
Ó
0
a
a
• • • • • •
a„„ a
2n
a
nn
97
Kapitel II: Lineare Algebra Entwickelt man d e t ( A ) nach der ersten Spalte, erhält man a
det(A) = ( - l )
(1)
1 + 1ai
22
0 0 ö
a
23
a
2 4
•
•
a
2n
a
33
a
3 4
•
•
a
3n
0
a
4 4
•
•
a
4n
Ö
6
•
a
nn
Nochmalige Entwicklung der Determinante auf der rechten Seite von (1) liefert a
34
•
•
a
3n
0
a
44
•
•
a
4n
ö
ö
•
a
nn
a
det(A) = a n a22
33
Schließlich erhalten wir d e t ( A ) = a n a 2 2 a 3 3 . . . a n n . Im Fall, daß A eine untere Dreiecksmatrix ist, geht man beim Beweis wie im Fall einer oberen Dreiecksmatrix vor, man entwickelt allerdings die Determinanten jeweils nach der ersten Zeile.
A Es ist 3 0 0 0 —
0 4 0 0 1 1 0
1 2 5 0 0 3 1
5 8 -3 7
= 3 • 4 • 5 • 7 = 420
und
0 0 = (— 1) • 3 • 5 = — 15. 5
A
§ 5.2 Eigenschaften der Determinante Die Berechnung der Determinante direkt aus der Definition ist, insbesondere für Matrizen mit der Ordnung größer als 3, rechnerisch sehr aufwendig. Wir werden in diesem Paragraphen einige wichtige Eigenschaften der Determinante kennenlernen, die die Berechnung erleichtern.
S a t / 5.4: Es sei A = ( a ^ a 2 , . . . , a „ ) eine (n,n)-Matrix, b e i ß " , Ae(R und i e { l , . . . , n } beliebig. Es sei B = ( a 1 ; . . . , B j - ! , b, a i + 1 , . . . , a n ). Dann gilt: a) d e t ( a 1 ? . . . . a ^ j , A a ; , a i + 1 , . . . , a n ) =
X • d e t ( a j , . . . , a j - i , a „ a i + 1 , . . . , an) = X • d e t ( A )
b) d e t ( a , , . . . , a ^ , a; + b, a i + 1 , . . . , a n ) = d e t ( A ) + d e t ( B ) .
Beweis: Wir zeigen nur a), die Behauptung b) läßt sich völlig analog beweisen. Die Entwicklung nach der i-ten Spalte liefert
98
Kapitel II: Lineare Algebra a i + 1 , . . . , a„)
i, •••,a i - l . ^ i • •• • ••
ai,i a 2,1
a^i - l ¡-1
a 2.
a a
^a 2 i
an,i-l
=
an,iH
)s + i ( A a s i ) d e t ( A s i ) = A • £
Z (s— 1
(-l)
s + iasidet(Asi)
= X • det(A). A
D e r Satz 5.4 läßt sich auch anders formulieren: Für jedes i = 1 , . . . , n und j e (n — 1) Vektoren a 1 ? . . . , a ^ , a i + 1 , . . . , a n e [Rn ist die A b b i l d u n g ö: IRn [R, x h-> d e t ( a x , . . . , a , - ! , x, a i + 1 , . . . , a „ ) linear. Beispiel 4: Es ist 5 6 3 15 5 -5
3 8 1
1 3 0
=
0 1 1 1 3 -1
5 6 3
=
3 8 1
(0+1) (2 + 1) (1-1)
5 3 5 1 5 (-1)
=
5 6 3
3 8 1
0 1 1 1 3 -1
=
0 2 1
+
5 • -
5 6 3
3 8 1
1 1 -1
3 1 1
0 1 3
1 1 -1
und
A
S a t z 5.5: Es sei A — ( a ^ ) — ( a t , . . . , a n ) eine ( n , n ) - M a t r i x . Es gilt: a ) Enthält A eine Spalte, die sämtlich aus Nullen besteht, dann ist det ( A ) = 0. b ) G i b t es i,j mit i 4= j und
= aj, dann ist d e t ( A ) = 0.
c ) Für alle i , j mit i 4= j und « e l R gilt det(a1;..., a^!, a ^ a - ^ , ai+1, ...,an) = det(A). d ) Für alle i, j mit i < j gilt d e t ( a t , . . . , a;_!, aj5 a i + 1 , . . . , a ^ , . ^ , a j + 1 , . . . , an) = -
det(A).
Beweis: a ) M a n entwickelt die Determinante von A nach der Nullspalte, b ) Diese Behauptung läßt sich mit der Induktion über die Ordnung n M a t r i x A beweisen. Ist n = 2, dann ist A
=
a
n
_a21
a12
2 der
mit a , , = a , , und
a22_
a 2 1 = a 2 2 und es gilt d e t ( A ) = ( a u a 2 2 - a 1 2 a 2 1 ) = ( a n a 2 2 - a n a 2 2 ) = 0. D i e Behauptung ist also für n = 2 richtig. D i e Behauptung sei jetzt richtig für alle M a t r i z e n der Ordnung n ^ 2. Ist A = ( a l 5 . . . , a n , a n + 1 ) = ( a ^ ) eine (n + 1, n + 1)M a t r i x (n S; 2) mit a k = a m für gewisse k, m mit k 4= m, so läßt sich det ( A ) nach einer Spalte a s mit s 4= k und s 4= m (wegen n + 1 ^ 3 ! ) entwickeln, d e t ( A ) = n+ 1 X ( — l ) ' + s a i s d e t ( A i s ) . D i e Streichungsmatrizen A i s sind Matrizen der Ordnung n ¡=i und enthalten alle wegen s 4= k und s 4= m j e zwei identische Spalten, nach der Induktionsvoraussetzung ist also d e t ( A i s ) = 0 und daher ist auch d e t ( A ) = 0. D i e Behauptungen c ) und d ) können mit H i l f e von Behauptungen a ) und b ) und des Satzes 5.4 bewiesen werden. A
99
Kapitel II: Lineare Algebra
Die Elementarmatrix M^oe) der Ordnung n entsteht aus der Einheitsmatrix I n durch die Addition des a-fachen der i-ten Spalte zu der j-ten Spalte. (Man beachte daß Mjjia) nur für i =1= j definiert ist.) Nach dem Satz 5.5c) ist also det(Mij(a)) = det(I n ) = 1. Die Elementarmatrix P r s entsteht durch die Vertauschung der r-ten und der s-ten Spalte der Einheitsmatrix I n untereinander, nach dem Satz 5.5d) ist also det(P r s ) = — det(I n ) = — 1. Schließlich ist die Elementarmatrix ß + 0, eine Diagonalmatrix, insbesondere also eine obere Dreiecksmatrix, nach dem Satz 5.3 ist also det(D k )(;8) = ß #= 0. Nach dem Satz 5.5c) bzw. d) gilt für jede (n,n)-Matrix A det (A • Mjj (ot)) = det (A) = (det (A)) • (det (M ; j («))) det(A • P rs ) = - det (A) = (det(A)) • ( d e t ( P J )
bzw.
Aus dem Satz 5.4a) folgt schließlich det(A • D k (/?)) = ß • det (A) = (detA) • (det (D k (/!))). Damit ist der erste Teil des folgenden Satzes bewiesen worden. Satz 5.6: a) Ist A eine (n,n)-Matrix und E eine Elementarmatrix der Ordnung n, dann gilt det(A • E) = det(A) • det(E). b) Sind E l 5 E 2 , . . . , E k Elementarmatrizen, dann gilt d e t ( E t • E 2 • . . . • E k ) = detiEO • det(E 2 ) • . . . • det(E k ). Beweis: b) Die wiederholte Anwendung von a) liefert det(E t • E 2 • . . . • E ^ • E k ) = det((E, • E 2 • . . . • E k ^ ) • E k ) = det(E t • E 2 • . . . - E k _!) • det(E k ) = det(E t • E 2 • . . . • Ek_ 2 ) • det(E k _!) • det(E k ) = ... = d e t ( E 1 ) - d e t ( E 2 ) - . . . - d e t ( E k _ 1 ) d e t ( E k )
A
Satz 5.7: Sei A eine (n,n)-Matrix. Es gilt: a) det(A) 4= 0 A ist regulär. b) det(A) = det(A T ). Beweis: a) Falls A singulär ist, so läßt sich eine der Spalten von A = ( a l 5 . . . , a n ) als n
Linearkombination der übrigen schreiben, etwa aj = X ^ ¡ V Nach dem Satz 5.4 i= ist J det(A) = det(a 1 ; . . . , a j _ 1 , a j , a j + 1 , . . . , a n ) n
= d e t ( a 1 ; . . . , aj_ 1 ? X X ^ , a j + 1 , . . . , a„) i= 1 n i == t j = £ Vdet(a1,...,aj_1,ai,aj + 1,...,an). i= 1
100
Kapitel II: Lineare Algebra
Die i-te und j-te Spalte der Matrix ( a 1 ; . . . , aj_ 1 ; a¡, a j + 1 , . . . , a n ) sind identisch, es gilt daher d e t ( a 1 ? . . . , a ^ , a¡, a j + 1 , . . . , a n ) = 0 für alle i=t=j. Wir erhalten: det(A) = 0. Wenn A andererseits regulär ist, dann gibt es nach Satz 4.16 Elementarmatrizen E j , E 2 , . . . , E k mit A = E x • E 2 • . . . • E k . Nach Satz 5.6b) ist det(A) = d e t ^ E J • det(E 2 ) • . . . • det(E k _ 1 ) • det(E k ) 4= 0, da für alle j = 1 , . . . , k stets det(Ej) + 0 gilt. b) Wenn A singulär ist, dann ist auch A T singular und es gilt det(A) = det(A T ) = 0. Wenn A regulär ist, so existieren Elementarmatrizen E l 5 E 2 , . . . , E k mit A = E x • E 2 • . . . • E k . Es gilt A T = (Ej • E 2 • . . . • E k ) T = E i • ... • E ¡ • E j . Die Transponierte E T einer Elementarmatrix E ist stets eine Elementarmatrix und es gilt det(E) = det(E T ), wie man ohne große Mühe einsehen kann. Es gilt also det(A) = = = = =
d e t ( E t • E 2 •... • E k ) detiEO • det(E 2 ) • ... • d e t C E ^ ) • det(E k ) det(E k ) • det(E k _i) • . . . • det(E 2 ) • d e t ^ ) det (Ei) • det(Ei_i) • . . . • det(E¡) • det(Ef) det (EJ • Ei_i • . . . • £ ] ) = det(A T ).
A
Satz 5.8: a) Sind A, B zwei (n,n)-Matrizen, so gilt det(A • B) = det(A) • det(B). b) Ist A eine reguläre (n,n)-Matrix, dann gilt det(A _ 1 ) = (det(A))" 1 .
Beweis: a) Ist eine der Matrizen A, B singulär, d.h. det(A) = 0 oder det(B) = 0, dann ist auch die Matrix A • B singulär und es gilt 0 = det (A • B) = det (A) • det (B). Sind beide Matrizen A, B regulär, so existieren Elementarmatrizen E x , E 2 , . . . , E k bzw. E'1; E 2 , . . . , E] mit A = E j • E 2 • . . . • E k bzw. B = Ei • E 2 • . . . • Ej. Nach dem Satz 5.6b) gilt det(A • B) = det (Et • E 2 •... • E k • Ei • E 2 • . . . • Ej) = det (Ei • E 2 • . . . • E k ) • det ( E j • E'2 • . . . • Ej) = det(A) • det(B). b) Diese Behauptung folgt aus der Identität det(A) • det(A _ 1 ) = det(A • A" 1 ) = det(I n ) = 1.
A
Aus der Aussage b) des Satzes 5.7 folgt insbesondere, daß alle Aussagen, die für die Spaltenoperationen gelten, wörtlich auch für die Zeilenoperationen übernommen werden können. Wir fassen nun die wichtigsten Rechenregeln der Determinantenrechnung zusammen.
Kapitel II: Lineare Algebra
101
Satz 5.9: (Regeln der Determinantenrechnung) Sei A eine (n,n)-Matrix. Es gilt: a) Besteht eine Spalte (Zeile) von A sämtlich aus Nullen, so ist det(A) = 0. b) Ist A' diejenige Matrix, die sich aus A durch die Vertauschung zweier Spalten (Zeilen) untereinander ergibt, so gilt det(A') = — det(A). c) Ist eine Spalte (Zeile) von A eine Linearkombination der übrigen Spalten (Zeilen), so ist det(A) = 0. d) Ist A' diejenige Matrix, die sich aus A durch die Addition eines Vielfachen der i-ten Spalte (Zeile) zu der j-ten Spalte (Zeile) (i =)= j!) ergibt, dann ist det(A') = det(A). e) Ist A' diejenige Matrix, die sich aus A durch die Multiplikation einer Spalte (Zeile) mit einer Konstanten ße (R ergibt, dann ist det(A') = ß • det(A).
Eine Möglichkeit, die Determinante einer Matrix A zu berechnen, besteht darin, die Matrix A durch elementare Zeilen- und Spaltenumformungen in eine Matrix B zu überführen, die eine obere bzw. untere Dreiecksgestalt, hat; dabei sind die im Satz 5.9 aufgeführten Rechenregeln zu beachten. Wir können bei der Überführung der Matrix A in die Matrix B wie bei dem Gaußschen Eliminationsalgorithmus vorgehen. Das wird jetzt an einem Beispiel demonstriert. Beispiel 5: 3 3 1
6 6 -3
3 0 1
3 0 0
6 0 -1
3 -3 2
3 0 0
6 -1 0
3 2 -3
=
(z2==z2-z1
(z2 • z3>
1) - ( - 3 ) ) = - 9 = — C3 - C—
Die Matrix hat nach der zweiten Umformung die obere Dreiecksform, die gesuchte Determinante ist also das Produkt der Hauptdiagonalelemente. A Eine andere Möglichkeit die Determinante einer Matrix A der Ordnung n zu berechnen ist, durch elementare Matrixumformungen in einer Spalte (Zeile) alle Elemente bis auf eines Null werden zu lassen. Dann entwickelt man diese Matrix nach der betreffenden Spalte (Zeile). Die Rechnung reduziert sich damit auf die Berechnung der Determinante einer (n — 1, n — 1)-Matrix. Ist man bei einer (3,3)oder (2,2)-Matrix angelangt, benutzt man die bereits bekannten Rechenschemen.
102
Kapitel II: Lineare Algebra
Beispiel 6: -3 0 1 -1
2 3 5 -1
15 0 0 1
3 2 1 0
(z1==Z1-15Z4)
12 0 1 -1
17 3 5 -1
0 0 0 1
3 2 1 0
(Entwicklung nach der 3. Spalte)
-1)
4+3 .
0 0 1
(-D
12
17
3
0 1
3 5
2 1
(Z1==Z1-12-Z3)
-43 3 5
(Entwicklung nach der 1. Spalte)
-43 3
3 + 1
=
-((-43)-2-(-9)-3)
A
( - 8 6 + 27) = 59.
§ 5.3 D i e C r a m e r s c h e R e g e l W i r betrachten ein lineares Gleichungssystem (1)
A • x = b
mit einer regulären ( n , n ) - M a t r i x A = ( a 1 ? . . . , a n ), einem b e [Rn und d e m Vektor der
Unbestimmten x =
Xl x2
D a die M a t r i x A regulär ist, besitzt das Gleichungssy-
V stem genau eine Lösung
= A
1
• b. Es sei A k = ( a „ . . . , a k _ 1 ; b, a k + 1 , . . . , a n )
L für alle k = 1 , . . . , n diejenige M a t r i x , die sich aus A durch Ersetzung der k-ten Spalte durch den Vektor b ergibt. Es gilt die
Cramersche R e g e l
A2
1
Unj
det(A)
~det(AI)~ det(A2)
|_det(An)J
103
Kapitel II: Lineare Algebra
Beweis: Für alle k = 1 , . . . , n sei L k diejenige Matrix, die aus der Einheitsmatrix I n durch die Ersetzung der k-ten Spalte durch den Vektor 1
0
0
h
0
1
0
x2
0
0
0
4
0
0
0
A»
¿1 ¿2
entsteht,
Lk =
Es gilt offensichtlich A k = A • L k und det(L k ) = Ak (Entwicklung v o n det(L k ) nach der k-ten Zeile!). Wir erhalten für alle k = 1 , . . . , n: Ak = det(L k ) = det((A _ 1 • A) • L k )) = d e ^ A ' 1 (A • L k )) = det (A" 1 ) • det (A • L k ) = (det (A))" 1 • det (A k ).
A
M a n sieht leicht ein, daß der Rechenaufwand für die Berechnung der Lösung des linearen Gleichungssystems (1) bei größeren Matrizen A erheblich ist, in solchen Fällen ist der Gaußsche Eliminationsalgorithmus sicher die bequemere und schnellere Methode. M a n beachte dabei auch, daß die Cramersche Regel nur in dem Fall, daß die Matrix A quadratisch und regulär ist, eingesetzt werden kann. Beispiel 7: Wir lösen das lineare Gleichungssystem 1 1 Es ist hier A =
1 -1 1 1
8 3
Xl X2 1 ,b = -1
,A1
=
3
und A , =
-1
3
. Es gilt
det(A) = - 2 (die Matrix A ist also regulär), d e t ^ ) = - 11 und d e t ( A 2 ) = - 5. Wir erhalten 1 det (A)
1 'det (Ai)" det(A2) ~ ( - 2 )
"ll/2" -5
A
Die Cramersche Regel läßt sich auch zur Bestimmung der zu einer regulären (n,n)-Matrix A = ( a ^ . . . , a n ) inversen Matrix A _ 1 = ( b 1 ; . . . , b„) anwenden. U m die k-te Spalte b k von A"1 zu ermitteln, löst man das lineare Gleichungssystem A • bk = e k , wobei e k der k-te Vektor der kanonischen Basis von IR" ist. Wir entwickeln nun für alle j = 1 , . . . , n die Determinante derjenigen Matrix A j ; die sich durch die Ersetzung der j-ten Spalte von A durch den Vektor e k ergab, nach dieser (neuen) Spalte: __ l a, i . . . a, ¡_, 0 a, l , ji + , l . . . a ,1 , n i det(Aj) = 0 a2.i •••a 2,j+ 1 ^.n = ( — 1 ) k + J det ( A k j), . . . a. n,
1 ••
k,j + 1 • •
0
T
a
n , j + l •••
j-te Spalte
*k,n
a
n,n
0 gilt, negativ definit, wenn für alle x e IR", x 4= 0, stets q A (x) < 0 gilt, positiv semidefinit, wenn für alle x e IR" stets q A (x) 2; 0 gilt, negativ semidefinit, wenn für alle x e IR" stets q A (x) 0 gilt. In allen anderen Fällen heißt die Matrix A indefinit. Aus der Definition folgt insbesondere, daß jede positiv definite bzw. negativ definite Matrix positiv semidefinit bzw. negativ semidefinit ist. Eine symmetrische Matrix A der Ordnung n ist genau dann indefinit, wenn es x 1 ; x 2 e IR" mit q A (x x ) > 0 und qA(x2) 0 gilt. A ist genau dann negativ definit, wenn für alle i = 1 , . . . , k stets Xt < 0 gilt. A ist genau dann positiv semidefinit, wenn für alle i = 1 , . . . , k stets X-, 2: 0 gilt. A ist genau dann negativ semidefinit, wenn für alle i = 1 , . . . , k stets ^ 0 gilt. e) A ist genau dann indefinit, wenn es i, j mit 1 iS i, j ^ k mit X{ > 0 und X^ < 0 gibt. a) b) c) d)
Im allgemeinen ist die Berechnung der Nullstellen des charakteristischen Polynoms einer Matrix der Ordnung n ^ 3 problematisch, wir werden uns nach dem Beispiel mit einer brauchbareren Methode beschäftigen. Beispiel 5: Es sei A =
I~1 ^
Es ist X a W =
(1-1) 2
2 2 (1-2) = (i-;.)
= A2 - 2X + 1 - 4 = X? - 2X - 3 = (X - 3) (X + 1). Die Matrix A hat also die Eigenwerte Xy = 3 und X2 = — 1. Nach dem Satz 6.6 ist sie also indefinit. A Satz 6.7: Es sei A eine symmetrische Matrix der Ordnung n und B eine reguläre Matrix der Ordnung n. Es gilt: a) B T • A • B ist symmetrisch. b) Die Matrix A ist positiv definit, negativ definit, positiv semidefinit, negativ semidefinit bzw. indefinit genau dann, wenn die Matrix BT • A B positiv definit, negativ definit, positiv semidefinit, negativ semidefinit bzw. indefinit ist. Beweis: a)
(BT A B)T = BT AT (BT)T = BT AT B = BT A B.
Kapitel II: Lineare Algebra
111
b) D a B regulär ist, so ist die lineare Abbildung ( p B : [Rn -» [Rn, x i—• B • x eine Bijektion. 1) Es sei A positiv définit. Für alle x + 0 ist < p B ( \ ) + 0 und daher 0 < (p B (x) T • A • 0, dj < 0, d ; ^ 0 bzw. dj ^ 0 f ü r alle i = 1 , . . . , n gilt. Die Matrix D ist genau dann indefinit, wenn es i, j mit dj > 0 und dj < 0 gibt. Wir werden später zeigen, daß es zu jeder symmetrischen Matrix A der Ordnung n eine reguläre Matrix M der Ordnung n gibt so, daß M T A M eine Diagonalmatrix ist. Dazu sind einige Vorbereitungen nötig. Es seien A eine symmetrische und M ^ (a), D k (ß), P r s die elementaren Matrizen der O r d n u n g n. Es gilt zuerst M^oe) 7 = M^o«), D k (jß) T = D k ( ß ) und P j s = P r s . Die Matrix M ^ a ) 7 • A • M ^ a ) = Mji(a) • A • Mjj(a) entsteht aus der Matrix A, indem m a n zuerst das a-fache der i-ten Zeile zu der j-ten Zeile addiert und dann das a-fache der i-ten Spalte (der neuen Matrix) zu der j-ten Spalte addiert. Die Matrix P 7 • A • P r s = P r s • A • P r s ergibt sich aus der Matrix A dadurch, daß zuerst die r-te und die s-te Zeile der Matrix A und dann die r-te und die s-te Spalte (der neuen Matrix) miteinander vertauscht werden. Die Matrix D k ( ß ) T • A • D k ( ß ) = D k ( ß ) • A • D k ( ß ) ist diejenige Matrix, die sich durch die Multiplikation der k-ten Zeile und der anschließenden Multiplikation der k-ten Spalte von A ergibt. (Das Diagonalelement a k k von A = (a^) wird also insgesamt mit ß 2 multipliziert!). Man kann die Matrix A durch sukzessive Zeilen- und denen entsprechenden Spaltenumformungen in eine Diagonalmatrix überführen. Wir gehen von der symmetrischen Matrix A = (a^) der Ordnung n aus. Es sind zuerst drei Fälle möglich: Fall 1: a n 4= 0. M a n wende der Reihe nach die Zeilenumformungen an Z; ~ Z; • z, (i = 2 , . . . , n) an. D a n n wende man die entsprechenden Spaltena n umformungen Sj ~ S|
— • s t (i = 2 , . . . , n) an. (Beachte: a ; l = a H !). a 11
112
Kapitel II: Lineare Algebra
Fall 2: a n = 0 und a^ 4= 0 für ein j > 1. Man vertausche zuerst die erste mit der jten Zeile und dann die erste mit der j-ten Spalte. N u n steht in der oberen linken Ecke das Element a^ =t= 0. Fahre weiter wie im Fall 1 fort. Fall 3: a^ = 0 für alle j = 1 , . . . , n. Suche i, j mit ay 4= 0. (Falls alle a^ = 0 sind, dann ist A die Nullmatrix und es gibt nichts zu tun!). Addiere die i-te Zeile zu der jten Zeile und dann die i-te Spalte zu der j-ten Spalte. Nun steht in der j-ten Position der Hauptdiagonale das Element 2a;j 4= 0. Fahre dann wie im Fall 1 bzw. 2 fort. Wenn die oben beschriebenen Umformungen durchgeführt worden sind, hat die so entstandene Matrix die Form l~dl 0
0 ... 0" A'
_ 0 Die Matrix A' ist symmetrisch von der Ordnung n — 1. Man fährt auf die oben beschriebene Art mit der Matrix A' fort, man erhält eine Matrix der Form 0
"di 0 0
d2 0
0
0
0 . . . o" 0 ... 0 A'
Die Matrix A" ist wieder symmetrisch. Man wiederholt das Verfahren solange, bis man eine Diagonalmatrix erhält. Satz 6.8: Zu jeder symmetrischen Matrix A der Ordnung n gibt es eine reguläre Matrix M der Ordnung n so, daß M T A M Diagonalmatrix ist. Beweis: Es gibt, wie oben gezeigt worden ist, elementare Matrizen M „ . . . , M s so, daß M j • ( M f - i •(•••• ( M i • A • M J • ... • M ^ ) • M s = D diagonal ist. Man setze M = M ! • . . . • M s , es gilt offensichtlich M T A M = D. A Will man feststellen, ob eine symmetrische Matrix A positiv definit, negativ definit usw. ist, so kann man nach dem oben angegebenen Verfahren vorgehen.
Beispiel 6: Es sei A =
1 1 0 3 1 1 3 0 0 3 1 0 3 0 0 9
. Das angegebene Verfahren liefert:
( F a l l i : z 2 ~ z 2 — z 1 ; z 4 := z 4 — 3 z t )
Kapitel II: Lineare Algebra 1 0 0 0
1 0 3 - 3
0 3 1 0
3 - 3 0 0
(s2
1 0 0 0
0 0 3 - 3
0 3 1 0
0 - 3 0 0
( F a l l 2: z 2 «-» z 3 )
1 0 0 0
0 3 0 - 3
0 1 3 0
0 0 - 3 0
(s2
1 0 0 0
0 1 3 0
0 3 0 - 3
0 0 - 3 0
(Falli:
1 0 0 0
0 1 0 0
0 3 - 9 - 3
0 0 - 3 0
( s 3 == s 3 — 3 S 2 )
1 0 0 0
0 1 0 0
0 0 - 9 - 3
0 0 - 3 0
(Falli:
1 0 0 0
0 1 0 0
0 0 - 9 0
0 0 - 3 1
( S 4 — S4
1 0 0 0
0 1 0 0
s2
sl5
••— S4.
113
3sj)
1
(1)
1 s3)
1 z3:=z3-3z2)
I
(2)
1 z4:=z4-^z3)
3
S3)
1
Die Matrix D =
A =
1 1 0 3
1 1 3 0
0 0 - 9 0 1 0 0 0 0 3 1 0
0 0 0 1 0 1 0 0 3 0 0 9
0 0 - 9 0
0 0 0 1
ist i n d e f i n i t , f o l g l i c h ist a u c h d i e M a t r i x
i n d e f i n i t . B e r e i t s d i e M a t r i x (2) ( u n d d a m i t a u c h d i e
114
Kapitel II: Lineare Algebra
M a t r i x A ) ist nach Satz 6.5e) indefinit. A n dieser Stelle hätte man die Rechnung schon abbrechen können. Es lohnt sich also, nach jedem Zwischenschritt der Rechnung die aktuelle M a t r i x zu betrachten. A u s (1), d. h. nach d e m ersten Schritt, f o l g t e schon, daß die M a t r i x A nicht positiv definit und nicht negativ semidefinit sein kann. A Ist es aus irgendwelchem G r u n d notwendig, für eine symmetrische M a t r i x A der O r d n u n g n eine reguläre M a t r i x M zu ermitteln so, daß M T A M diagonal ist, so kann man ähnlich wie bei der Berechnung der inversen M a t r i z e n vorgehen. M a n beginnt mit d e m Rechenschema ( A | I n ) , das ist eine ( n , 2 n ) - M a t r i x . W i r führen dieselben Operationen, die die M a t r i x A in die Diagonalgestalt überführen mit der M a t r i x ( A | I n ) durch. Insbesondere wird die ( n , n ) - M a t r i x rechts im Rechenschema nur v o n den Zeilenumformungen betroffen. N a c h der Beendigung der Rechnung erhalten wir die M a t r i x der F o r m (D | H ) , w o b e i D diagonal ist. Setzt man M ••= H T , so gilt offensichtlich D = M T A M .
: Es sei A
3 11 4
11_
1 0 0
0 1 0
o-i 0 1 _
(Z2-.=
1 -3 0
0 1 0
o-i 0 1 _
(S2:= S 2 - 3 S ! )
0 1 0
00 1 _
(z 3 : = Z3 -
0 1 -2
0-1 0 1_
(s3==S3-2S2)
0 1 -2
0-1 0 1 _
r 1 3 _0
=
ri 3 _0
3 11 4
0 4 11
ri 0 _0
3 2 4
0 4 11
ri 0 _0
0 2 4
0 4 11
-1 0 _0
0 2 0
0 4 3
r 1 0 _0
0 2 0
0 0 3
OH 4 . Wir
Z
2
- 3 Z
1
)
1
1 1 -3 0
2z2)
1 1 -3 6 1
r Setze M
= _
Es gilt M T A
1 -3
0 1 -2
6
M
=
rl 0 _0
1 -3 6 Ol 0 1_ 0 2 0
T =
rl 0 _0 0-1 0 3_
- 3 1 0
6 "1 - 2 1_
Kapitel III: Funktionen einer Variablen III.l
F o l g e n und R e i h e n
§1.1 Definition und Darstellung von Folgen Definition: (Folge) Wenn jeder natürlichen Zahl n e INJ eine reelle Zahl a n zugeordnet wird, spricht man von einer unendlichen Zahlenfolge oder kurz von einer Folge. Eine Folge ist also eine Abbildung f: IN —» IR, n i—» a n . Die einzelnen Zahlen a n heißen Glieder oder Terme der Folge. Eine Folge bezeichnet man mit (a n ) nefy oder kurz mit (a n ). Meist beschreibt man eine Folge (a n ) durch eine Gleichung der Form a n = f (n), in der das Folgenglied a n als Funktion von n dargestellt ist. Beispiel 1: Bildungsgesetz der Folge 1) an = 1
Die ersten vier Terme der Folge 1,1,1,1
2) b n = n
1,2,3,4
3) c„ = ( - 1 ) "
-1,1,-1,1
1 4) dn = n 5) en = ( — l ) n + 1 • —
1 1
1
Es gibt zwei Möglichkeiten, sich Folgen geometrisch zu veranschaulichen. Die erste Möglichkeit ist, ein kartesisches Koordinatensystem zu zeichnen und dann jeweils über dem Punkt n auf der x-Achse den Wert a„ in der y-Koordinate anzutragen. Die andere Möglichkeit ist, auf der Zahlengerade jeweils die Lage des Punktes a„ zu markieren. In der Zeichnung auf der Seite 116 sind die oben definierten Folgen b n und d n in beiden Formen dargestellt. § 1 . 2 Eigenschaften von Folgen Im folgenden werden einige Eigenschaften von Folgen untersucht. Eine Folge (an) heißt: a) eine arithmetische Folge, wenn für alle n E INI gilt: a n + j — a n = d, wobei d e IR eine feste Zahl ist.
Kapitel III: Funktionen einer Variablen
4
-
X b,
2
-
Xb,
/
/
/
/
*-
3 --
2 --
1
--
/
d,
/
d
/
3
d4
/
Kapitel III: Funktionen einer Variablen
117
b ) eine geometrische Folge, wenn für alle n e IN gilt: Ü^ü
q^ wobei q e IR eine feste Z a h l ist.
=
n
a
Bei einer arithmetischen F o l g e ist also die Differenz zweier F o l g e n t e r m e i m m e r k o n s t a n t , bei einer geometrischen F o l g e ist der Q u o t i e n t i m m e r k o n s t a n t . Beispiel 1: D i e F o l g e ( a n ) mit a„ = 2 n + 1 ist eine arithmetische F o l g e , denn a„+1 - a n = 2 ( n + 1) + 1 - ( 2 n + 1) = 2 n + 2 + 1 - 2 n - 1 = 2 für alle n e IN. A Beispiel 2 : D i e F o l g e (b„) mit b n = 2 " " ist eine geometrische F o l g e , denn bn + 1
= 2
b„
- 0 stets |a n - 11 = 0 ^ e. A 1 Beispiel 2: Die Folge (d n ) mit d n = — hat den Grenzwert 0, wenn man für ein e > 0 n 1 als N eine natürliche Zahl wählt, die größer ist als - , denn dann gilt für alle n ^ N: £
1 n
1 1 n
A
N
Beispiel 3: Die Folge (cn) mit c n = ( — l) n hat keinen Grenzwert. Für eine beliebige Zahl a =t= 1 gilt, falls n gerade ist, |c„ — a| = 11 — a|, also immer gleich einer festen Zahl größer 0. Falls a = 1, gilt für alle ungeraden n stets |c n — a | = | — 1 — 1| = 2. Es gibt keine Zahl a. E IR, so daß für n —> co der Abstand der c n zu dieser Zahl immer kleiner wird. A Eine Folge, die einen Grenzwert besitzt, bezeichnet man als konvergent. Die Folgen in Beispiel 1 und 2 sind konvergent. Falls eine Folge keinen Grenzwert besitzt, heißt sie divergent. Die Folge in Beispiel 3 ist divergent. Ein Spezialfall der divergenten Folgen sind die bestimmt divergenten Folgen. Eine Folge (a n ) heißt bestimmt divergent gegen + oo (bzw. — oo), wenn es für jedes c e IR eine (von c abhängige) natürliche Zahl N gibt, so daß für alle n ^ N gilt: an ^ c
(bzw. a n iS c).
Man verwendet folgende Schreibweise: lim a n = + oo n-» oo
(bzw. lim a n = — oo). n-» co
Beispiel 4: Die Folge (b n ) mit bn = n ist bestimmt divergent gegen + oo. Beispiel 5: Die Folge (xn) mit xn = — n 2 ist bestimmt divergent gegen — oo.
A A
Der Grenzwert einer Folge ist immer eindeutig. Eine konvergente Folge ist immer auch eine beschränkte Folge, da sich für große n die Folgenterme dem Grenzwert annähern und daher beschränkt bleiben. Der Grenzwert einer konvergenten Folge ändert sich nicht, wenn endlich viele Terme der Folge abgeändert werden. Bei monotonen Folgen gilt: a) Eine nach oben beschränkte, monoton steigende Folge ist konvergent. b) Eine nach unten beschränkte, monoton fallende Folge ist konvergent. Für einige Folgen werden hier (ohne Beweis) ihre Grenzwerte angegeben. Für die Folge (a n ) mit a n = n a ( a e IR) gilt: ' + 00 lim n" = 0 00 lim bn = b mit a, b e IR. Dann gilt: n - » oo
1) lim (a n + c) = a + c
für
celR.
n->oo
2) lim (c • a n ) = c • a
c e IR.
für
n-*oo
3) lim (a n + b n ) = a + b. n -*•
OD
4) lim (a„ • b n ) = a • b. an a 5) Falls alle b n und b ungleich 0 sind: lim — = —. n-» oo bn b 6) lim a„ = a k für k e INI. n-»oo
Beispiel 8: Für die Folgen (a n ) und (b n ) gegeben mit a n = n
1
und bn = (— j)" gilt
lim a n = 0 und lim b n = 0. Mit dem Satz erhält man für die Folge (c n ) mit n
* r
n
- i
C„ = a n + b„: lim c n = 0.
A
n - * oo
Beispiel 9: Für die Folgen (d n ) und (e n ) mit d n = - — - und e n = 1 — n lim d n = 1 n
co
und
gilt:
lim e„ = 1. n
oo
Damit folgt für die Folge (d n • e n ): lim (d B -c n ) = 1 - 1 = 1 .
A
122
Kapitel III: Funktionen einer Variablen
Eine Folge (an) bezeichnet man als Nullfolge, wenn gilt lim a n = 0. Für Nullfolgen gilt der folgende Satz: Satz 1.2: a) Eine Folge (an) ist genau dann eine Nullfolge, wenn auch die Folge (| a n |) der Absolutbeträge | a n | eine Nullfolge ist. b) Wenn (an) eine Nullfolge ist und (bn) eine beschränkte Folge, dann ist die Folge (an • b n ) eine Nullfolge. In Teil b) des obigen Satzes wird bei der Folge (bn) nicht verlangt, daß ein Grenzwert existiert, sondern nur, daß die Folge beschränkt ist. 1 Beispiel 10: Gegeben sind die Folgen (an) mit a n = — und (bn) mit bn = ( —l) n . n Dann gilt nach dem Satz, da (an) eine Nullfolge und (bn) beschränkt ist: (-1)" hm (an • bn) = lim - — - = 0. n -> x n-» oo H
A
In ähnlicher Weise erhält man Grenzwerte für Folgen, wenn man eine Folge zwischen zwei Folgen mit gleichem Grenzwert einschachtelt. Satz 1.3: Seien drei Folgen (an), (bn) und (cn) gegeben. Dabei seien (an) und (cn) konvergent mit lim a n = lim cn = a e [R, und für alle n e IM gelte: a n ^ bn ^ c n . Dann n-»oo n*/ ist auch die Folge (bn) konvergent, und es gilt: lim bn = a.
Beispiel 10: Gegeben ist die Folge bn = j/n + 3 — j / n . Man formt um:
]/n + 3 + | / n
l/n + 3 + | / n
3
3 3 _I < —— = - • n 2 . ]/n + 3 + | / n 2|/n 2 3 _i Betrachtet man die Folgen a n = 0 und cn = - • n 2, so gilt lim a n = lim cn = 0 und n-»oo n->oo a n ^ b„ ^ c n für alle n e IH. Daher gilt auch für die Folge (bn): lim bn = 0. n-> oo § 1 . 4 Reihen Aus Folgen erhält man durch Aufsummieren der Folgenterme Reihen.
A
123
Kapitel III: Funktionen einer Variablen
Definition: (Reihe) Gegeben ist eine Folge (a n ). Dieser Folge wird eine neue Folge (s n ) zugeordnet, wobei: n
sn = X a i i—1
für
n 6 N.
Die Folge (s n ) bezeichnet man als zur Folge (a n ) gehörige (unendliche) Reihe.
Die Zahl s n heißt die n-te Partialsumme der Reihe. M a n schreibt kurz £ a i f ü r die i= 1 zur Folge (a n ) gehörige Reihe. Wenn die Folge (s n ) gegen eine Zahl s e [R konver00
giert, heißt die Reihe £ a . konvergent, und man schreibt: i= 1 00 S a, = s. i=l Besitzt die Folge (s n ) keinen Grenzwert, so heißt die unendliche Reihe divergent. Als Beispiele für Reihen betrachten wir die zu geometrischen Folgen gehörigen geometrischen Reihen. Gegeben sei eine geometrische Folge (a n ) mit a n = q n . Wir untersuchen die Partialsummen n s
n
n
= £ aj = £ q ' . ¡=1 i= 1
Es gilt für s n : s n = q + q 2 + q 3 + ... + q n -q-sn= -q2-q3-...-qn-q"
+ 1
Wenn man die beiden Gleichungen addiert, erhält man: sn(l-q) = q-qn+1 Somit: q -
sn = -
qn+1
1 -q
,
falls q =t= 1 ist. s n = n, falls q = 1.
Falls - 1 < q < 1, ist die Folge (s n ) konvergent mit Grenzwert
q 1 -q
. Wenn | q | ^ 1,
ist die Folge (s„) nicht konvergent. n
Beispiel 1: Die geometrische Reihe s n = £ (3)' ist konvergent mit dem Grenzwert i= 1 1
—
3 CO
Falls eine unendliche Reihe X! a i konvergent ist, m u ß die Folge (a n ) eine Nullfolge i= 1 sein. Es gibt aber Nullfolgen, bei denen die zugehörige Reihe nicht konvergent ist.
124
Kapitel III: Funktionen einer Variablen
Beispiel 2: Die harmonische Reihe (sn) entsteht aus der Nullfolge (— V
es ist
n
1 sn = Z i=i i nämlich:
Diese Reihe ist divergent, obwohl 2k 1
2"- 1 1
S t = Z T +
i=l 1
i=l
1
2k
Z1 k
1
i=2 ~ + 1 1
2k" 1 1 i— 1
— eine Nullfolge ist. Es gilt w 2k
1
Z
2"k
i = 2k " 1 + 1
2k" 1 1 2 k "' \ 1 k k k 1 = Z T+2" (2 -2 ' ) = Z - + -. i=i i ¡=i i 2 2 " 1 k Daraus folgt durch Induktion über k, daß für k ^ 1 gilt: s2k = Z - ^ —; die Reihe i=i i 2 k
ist divergent, denn da sie streng monoton wachsend ist, gilt für alle n ^ 2k: s n Wenn k -> oo, dann auch s n -» oo.
—. A
§ 1.5 Dezimaldarstellung reeller Zahlen Die reellen Zahlen werden meist in der Form von Dezimalbrüchen dargestellt, es ist z. B. i = 0,125, | = 2,5, ^ = 0,3333... und n = 3,1415... Eine reelle Zahl hat eine endliche oder unendliche Dezimalbruchdarstellung. So haben z. B. die Zahlen | und § eine endliche und die Zahlen 5 und 71 eine unendliche Dezimalbruchdarstellung. Manche Zahlen haben sowohl eine endliche als auch eine unendliche Dezimalbruchdarstellung. Es ist z.B. 0,1 = 0,09999... Jede reelle Zahl läßt sich als eine Reihe der Form (1)
a o + Z a i - l O " ' bzw. - (a 0 + Z a, • 10"') ¡=1 ¡=i darstellen, wobei a 0 e IM und für alle i e IM gilt at e N mit 0 ^ as ^ 9. Es läßt sich umgekehrt zeigen, daß die Reihe (1) konvergent ist; dabei ist der Grenzwert der Reihe diejenige Zahl, die die Dezimalbruchdarstellung der Form a 0 , al a 2 a 3 ... hat. So ist z.B. Ti = 3,1415 ... = 3 + 1 • 10" 1 + 4 • 10" 2 + 1 • 10" 3 + 5 • 10^ 4 + ... Es ist offensichtlich, daß jede reelle Zahl mit einer endlichen Dezimalbruchdarstellung eine rationale Zahl ist; aus dieser Tatsache folgt insbesondere, daß sich nicht jede reelle Zahl durch einen endlichen Dezimalbruch darstellen läßt. Die Zahlen 0,3, 0,33, 0,333 usw. sind der Reihe nach immer bessere Näherungen der Zahl j , keine dieser Zahlen ist aber gleich der Zahl Ein Taschenrechnerergebnis ist also im allgemeinen nur eine Näherung des exakten Ergebnisses, da der Taschenrechner nur eine bestimmte Anzahl von Dezimalstellen beim Rechnen berücksichtigt und anzeigt. Diejenigen Dezimalbruchdarstellungen, bei denen sich ab einer bestimmten Stelle der Darstellung eine Zifferngruppe ständig wiederholen, heißen periodisch, es ist z.B.^ = 0,3333... und ^ = 0,010101... M a n schreibt auch j = 0,3 bzw. ^ = 0,01". Jede endliche Dezimalbruchdarstellung kann man als periodische auffassen; es ist
Kapitel III: F u n k t i o n e n einer Variablen
125
z.B. | = 0,12500000... = 0,1250. M a n k a n n zeigen, d a ß eine Zahl genau dann rational ist, wenn sie eine periodische Dezimalbruchdarstellung besitzt. (Diese m u ß aber nicht eindeutig sein, wie das Beispiel 1,0000... = 0,99999... zeigt.) Beispiel 1: Gegeben ist die Zahl a = 1,141414... = 1,T4. Gesucht wird eine Darstel1:0 p lung dieser Zahl in der F o r m - mit p, q e Z. Es ist a = 1,14 = 1 + £ 14 • (100) 1 q ¡=i QO CO -1 -1 = 1 + 14- X 100 . Die geometrische Reihe X 1 0 0 ist konvergent gegen die ¡=1 i=l , , 1 1 1 1 113 Zahl — - • ¡— = — ; es ist also a = 1 + 14 • — = — . A 100 l - i & s 99 99 99 Jede reelle Zahl a 0 kann m a n in der F o r m a = b • 10k schreiben, wobei b e IR mit A < | b | g l und k e Z ist. So ist z.B. 125,5 = 0,1255 • 10 3 , - 0 , 0 0 3 4 3 = = ( - 0 , 3 4 3 ) • 1 0 " 2 und n = 0,31415... • 10 1 . Diese Darstellung der reellen Zahlen wird als Gleitkommadarstellung bezeichnet; sie ist insbesondere bei Taschenrechnern gebräuchlich.
III.2 Grundbegriffe für Funktionen einer reellen Variablen § 2 . 1 Definition und Darstellung In § 1.6, Kapitel I, wurde der Begriff der Abbildung behandelt: Eine F u n k t i o n einer reellen Variablen (Veränderlichen) ist ein Spezialfall einer Abbildung. Definition: (Funktion einer reellen Variablen) Gegeben ist eine (nichtleere) Teilmenge D c I R . Eine Abbildung f: D -> IR, x (-»f (x) bezeichnet m a n als reelle Funktion einer reellen Variablen. Eine F u n k t i o n f: D -»• IR ordnet also jedem x e D eine reelle Zahl f(x) e IR zu. M a n schreibt das in der Form: y = f(x). Es werden folgende Bezeichnungen verwendet: D heißt der Definitionsbereich von f. f ( D ) heißt die Bildmenge von f. x heißt die unabhängige Variable (oder Argument), y heißt die abhängige Variable (oder Funktionswert). Eine F u n k t i o n ist also definiert durch Angabe ihres Definitionsbereiches D und ihrer Zuordnungsvorschrift y = f(x), die angibt, wie m a n zu einem gegebenen x 6 D den zugehörigen Funktionswert f(x) berechnet. Beispiel 1: Sei D = IR, und f ü r x e IR sei f(x) = 1. D a s ist eine Funktion, bei der jedem x e IR die Zahl 1 zugeordnet wird. A Beispiel 2: D = (0, oo) und f(x) sei jeweils die größte ganze Zahl, die kleiner ist als x, also für x e (0,1] ist f(x) = 0, für x e (n, n + 1] ist f(x) = n. (siehe Zeichnung)
126
Kapitel I I I : Funktionen einer Variablen f(x) j i
2 --
1 --
A Beispiel 3: Sei D = [ — 2,2] und die Zuordnungsvorschrift gegeben durch f ( x ) = x 2 - x + 1. Das ist eine Funktion f: [ - 2 , 2 ] -> IR, x i—• f ( x ) = x 2 - x + 1. Zum Beispiel wird der Zahl 1 der Wert f ( l ) = l 2 — 1 + 1 = 1 zugeordnet und der Zahl 2 der Wert f(2) = 2 2 - 2 + 1 = 3. A Da eine Funktion ein Spezialfall einer Abbildung ist, gelten alle Aussagen über Abbildungen auch für Funktionen. Die Funktionen kann man graphisch in der kartesischen Koordinatenebene darstellen. Die Menge G f = {(x, f(x))| x e D } heißt der Graph der Funktionen. In der obigen Definition haben wir die unabhängige Variable mit x bezeichnet und die abhängige Variable mit y. Das ist eine in der Mathematik übliche Konvention. Man kann die Größen auch mit anderen Symbolen bezeichnen. In der Anwendung benützt man oft bei Beziehungen zwischen ökonomischen Größen als Abkürzung den ersten Buchstaben der Namen, z.B. N = f ( P ) für die Beziehung: die N(achfrage) als Funktion des P(reises). Man verwendet Funktionen zum Beschreiben von Zusammenhängen zwischen verschiedenen Größen. Beschreibungen von in ökonomischen Anwendungen wichtigen Funktionen findet man z. B. in [B/K] I (22-30), [ D Ü ] (360-381), [ M A ] (2629), [ P F ] 1(61-67) und in [BÖ], Vorsicht: Im folgenden wird oft statt ausführlich „die Funktion f: D -> IR, x i—> f ( x ) " abkürzend geschrieben „die Funktion y = f(x) auf D " oder „die Funktion f ( x ) = x 2 auf D " oder auch „die Funktion f ( x ) " . Falls man nur schreibt „die Funktion f ( x ) " , ohne den Definitionsbereich anzugeben, ist als Definitionsbereich die größte Teilmenge D f(x).
Kapitel III: Funktionen einer Variablen
127
a) Man berechnet für einige Punkte im Intervall [a, b] die Funktionswerte. Am besten wählt man eine äquidistante Zerlegung Xj = a + - — - • (b — a), wobei n (i = 1 , . . . , n + 1); d. h. man zerlegt das Intervall in n gleichlange Intervalle. Die für diese Punkte X; berechneten Funktionswerte f(Xj) trägt man dann in eine Wertetabelle ein: a = xl X2 x„ b = xn + 1 f(x 2 )
f(*l)
f(x„)
f(x n + 1 )
Um die Funktion zu zeichnen, trägt man in einem kartesischen Koordinatensystem auf der waagrechten Achse (x-Achse oder Abszisse) die Werte x 1 ; . . . , x n + 1 auf und auf der senkrechten Achse (y-Achse oder Ordinate) jeweils über Xj den zugehörigen Funktionswert f(x,). Wichtig dabei ist es, einen Maßstab zu wählen, so daß alle Werte in die Zeichnung eingetragen werden können. Die Punkte kann man durch eine Kurve verbinden, wenn die Funktion stetig ist. Der Begriff der Stetigkeit wird in § 2.6 besprochen. x2 Beispiel 4: Für die Funktion f: [ — 2,3] -> (R, x t—> f(x) = — — x - f 1 legt man zunächst eine Wertetabelle an. -2 5
-1
0
1
2
3
2,5
1
0,5
1
2,5
Dann wählt man ein geeignetes Koordinatensystem; hier ist es sinnvoll, auf der yAchse einen Maßstab so zu wählen, daß man die großen Werte bei —2 noch zeichnen kann. In der folgenden Zeichnung ist die Funktion dargestellt.
128
Kapitel III: Funktionen einer Variablen
§ 2.2 Lineare, affinlineare und quadratische Funktionen Zwei der einfachsten Funktionenklassen sind die linearen und quadratischen Funktionen. Eine F u n k t i o n f: (R -> IR heißt linear, wenn für alle x e [R gilt: f(x) = ax
mit
a e IR.
Beispiel 1: Die F u n k t i o n f: IR -» IR, x i—> f(x) = 2x ist eine lineare F u n k t i o n (siehe folgende Zeichnung). A
Eine Funktion heißt affinlinear, wenn f ü r alle x e IR gilt: f(x) = ax + b
mit
a, b e l R .
Beispiel 2: Die F u n k t i o n f: IR -»IR, x t-> f(x) = ¿x + 1 ist eine affinlineare F u n k t i o n (siehe folgende Zeichnung).
Kapitel III: Funktionen einer Variablen
129
Eine Funktion heißt quadratisch, wenn für alle xelR gilt: f(x) = ax 2 + bx + c
mit
a, b, c e IR.
x2 Beispiel 3: Die Funktion f: IR -> IR, x i—> f(x) = — Funktion (siehe Zeichnung Seite 127).
A 2x + 1 ist eine quadratische
§ 2.3 Eigenschaften von Funktionen Im folgenden werden die wichtigsten Eigenschaften von Funktionen besprochen. Eine Funktion f: D -> IR, x i—• f (x) heißt beschränkt in D, wenn es Zahlen a, b e IR mit a ^ b gibt, so daß für alle x e D gilt: a ^ f(x) ^ b. Das heißt: Die Bildmenge f(D) der Funktion liegt im Intervall [a, b]. Beispiel 1: Die Funktion f: [0,1] alle x e [0,1] gilt: 0 ^ f(x) ^ 1.
IR, x i—• f(x) = x ist beschränkt in [0,1], da für A
Beispiel 2: Die Funktion f: (0, oo) -> IR, x i—> f(x) = - ist nicht beschränkt in (0, oo), x 1 1 da für ein beliebiges b > 0 gilt, daß für alle x e (0, —) gilt f(x) = - > b. b x Es gibt also keine obere Schranke für die Funktionswerte, wie man auch aus der Zeichnung erkennen kann.
130
Kapitel III: Funktionen einer Variablen
2
x
Dagegen ist diese Funktion in einem Intervall (a, oo) mit a > 0 beschränkt, denn für alle x a gilt 0 g f (x) g f(a)
a
A
Eine Funktion f: D -»• [R heißt monoton steigend (fallend) in D, falls für alle x t , x 2 e D mit xx x 2 gilt: f(x,) ^ f(x 2 )
(bzw. f( X l ) ^ f(x 2 ))
Das bedeutet, daß bei Anwachsen des Arguments x auch die Funktionswerte f(x) größer werden oder zumindest nicht abnehmen (bzw. kleiner werden oder zumindest nicht zunehmen). Beispiel 3: Gegeben ist die Funktion f (x) = ax + b auf IR, wobei a und b beliebige reelle Konstanten seien. Für beliebige x,, x 2 e IR ist die Differenz der Funktionswerte: f(x 2 ) — f(x x ) = ax 2 + b — (axi + b) = ax 2 + b — a x j — b = a(x 2 — x ^ . Falls x 2 > x x , ist x 2 — Xj > 0. Falls a 0, gilt dann a(x 2 — x,) 0 und damit f(x 2 ) ^ f(x t ); falls a ^ 0, folgt f(x 2 ) ^ f(x t ). Falls a = 0, gilt für alle x t und x 2 : f ( x j ) = f(x 2 ). Somit: a > 0 => f ist monoton steigend in IR. a < 0 => f ist monoton fallend in IR. a = 0 => f ist monoton steigend und fallend.
A
Beispiel 4: Sei f(x) = ¿x — 1 für XEIR. Das ist ein Spezialfall des vorigen Beispiels. Aus den obigen Betrachtungen und aus der Zeichnung ersieht man, daß diese Funktion monoton steigend ist. A
Kapitel III: Funktionen einer Variablen
131
fix)
2 -fix) =^-x - 1
- 2
Es kann vorkommen, daß eine Funktion sowohl monoton steigend als auch monoton fallend ist, falls die Funktionswerte konstant bleiben. Um diejenigen Funktionen zu charakterisieren, bei denen die Funktionswerte tatsächlich steigen oder fallen, führt man einen weiteren Begriff ein. Eine Funktion f: D -> !R heißt streng monoton steigend (fallend) in I c D, wenn für alle x 1? x 2 e I mit X! < x 2 gilt: f ( X l ) < f(x 2 )
(bzw. f ( X l ) > f(x 2 ))
Hier wird zusätzlich gefordert, daß die Werte echt größer (kleiner) werden, wenn das Argument echt größer wird. Beispiel 5: Bei dem vorletzten Beispiel sieht man, daß gilt: Falls a > 0, ist f streng monoton steigend. Falls a < 0, ist f streng monoton fallend. Falls a = 0, ist f weder streng monoton steigend noch streng monoton fallend. Die Funktion im letzten Beispiel ist eine streng monoton steigende Funktion. A Beispiel 6: Gegeben ist die Funktion
Diese Funktion ist im ganzen Definitionsbereich monoton fallend; in dem Intervall [1, oo) ist sie sogar streng monoton fallend.
132
Kapitel III: Funktionen einer Variablen
F u n k t i o n aus Beispiel 6
Eine Funktion f: D f(x)=t=f(y),
A
IR heißt injektiv, wenn f ü r alle x, y 6 D gilt: wenn x 4= y .
Anschaulich ist eine Funktion genau dann injektiv, wenn j e d e Parallele zur x-Achse (jede G e r a d e der F o r m y = c ) den G r a p h v o n f höchstens in einem Punkt x 0 schneidet. Es gilt dann f ( x 0 ) = c und für alle x e D mit x =1= x 0 : f ( x ) + c. Eine Funktion f: D -> [R heißt surjektiv, wenn f ü r alle y e IR ein x e D existiert mit f ( x ) = y. Anschaulich ist eine Funktion genau dann surjektiv, wenn j e d e Parallele zur xA c h s e ( G e r a d e y = c ) den G r a p h von f mindestens in einem Punkt x 0 schneidet. Es gilt dann f ( x 0 ) = c. Beispiel 7: D i e Funktion f ( x ) = x 2 ist auf IR weder injektiv noch surjektiv, da für c > 0, die G e r a d e y = c den Graph in den zwei Punkten j/c und — j/c schneidet (also nicht injektiv); falls aber c < 0, schneidet die G e r a d e y = c den Graphen nicht (also nicht surjektiv).
A
W e n n eine Funktion streng m o n o t o n steigend ist, dann ist sie auch injektiv. W e n n nämlich zwei Punkte x t und x 2 mit x , 4= x 2 gegeben sind, muß entweder gelten x x < x 2 oder X] > x 2 ; dann gilt f ( x t ) < f ( x 2 ) oder f ( x j ) > f ( x 2 ) , also sicher f ( x x ) 4= f ( x 2 ) . Genauso zeigt man das bei streng monoton fallenden Funktionen. M a n hat den folgenden Satz.
Satz 2.1: Sei f: D IR mit D IR eine streng m o n o t o n fallende oder steigende Funktion. D a n n ist f eine injektive Funktion.
133
Kapitel III: F u n k t i o n e n einer Variablen
Bei einigen Fragestellungen der Extremwertbestimmung ist es wichtig zu wissen, ob eine Funktion schneller oder langsamer wächst als eine lineare Funktion. Eine Funktion f: D Xi < x 2 gilt: (1)
f C h x ^ O - t O x ^ h f X x J + O-hKCx;,)
Eine Funktion f: D mit x t < x 2 gilt: (2)
IR heißt konvex im Intervall I c D, wenn für alle x l 5 x 2 e I mit für alle h e [ 0 , 1 ] ,
IR heißt konkav in dem Intervall I f(x) erhält man die Zuordnungsvorschrift der Umkehrfunktion folgendermaßen: a) Man schreibt die Zuordnungsvorschrift der Funktion f in der Form y = f(x). b) Man löst diese Gleichung nach x auf, als ob x eine unbekannte Größe ist. Das Ergebnis ist dann eine Gleichung der Form x = f _ 1 ( y ) . Das ist die Zuordnungsvorschrift der Umkehrfunktion. Setzt man auf der rechten Seite einen Wert y e f(D), erhält man als Ergebnis den Punkt x e D, für den gilt f(x) = y. Beispiel 2: Gegeben ist die Funktion f: IR —> IR, x i—»• f(x) = 2x + 1. Man schreibt die Zuordnungsvorschrift in der Form y = f(x), hier y = 2x + 1. y Aufgelöst nach x erhält man x = - — Die Umkehrfunktion hat daher die y Zuordnungsvorschrift f
_1
( y ) = - — 2- Graphisch findet man durch Spiegeln des
Graphen der Funktion den Graph der oben berechneten Umkehrfunktion.
137
Kapitel III: F u n k t i o n e n einer Variablen
- 2
- -
- 3
- -
A Man
Beispiel 3: Gegeben ist die Funktion f: [0, oo) -» [R, x i—> f(x) = schreibt die Zuordnungsvorschrift wieder in der Form: y = f(x),
also
y =
1 +x2'
Diese Gleichung löst man nach x auf: y=
1 i + x2
y(l + x 2 ) = 1;
1 l+x2 = -; y
x2 =
1 y
1; Da die Zahl x aus dem
Definitionsbereich [0, oo) der Funktion f ist, muß x ^ 0 gelten: x =
/I
- 1. A
§ 2.5 Grenzwerte von Funktionen In § 1.2 wurde der Grenzwertbegriff für Folgen eingeführt. Hier soll der Grenzwertbegriff für Funktionen erklärt werden. Diesen Begriff erhält man, wenn man das Verhalten von Funktionen in der Nähe eines Punktes untersucht. Sei f: D - 0 gibt, so d a ß (x 0 — h 0 , x 0 ) c D ist, d. h. die Funktion f ist in einem offenen Intervall, das x 0 als rechten R a n d p u n k t hat, definiert. Betrachtet man nun in immer kleiner werdenden Teilintervallen (x 0 — h, x 0 ) c (x 0 — h 0 , x 0 ) mit 0 < h < h 0 f ü r h -> 0 das Verhalten der Funktionswerte f (x) in diesen Intervallen, gelangt m a n zum Begriff des linksseitigen Grenzwerts einer Funktion. Die Funktion f hat in x 0 den linksseitigen Grenzwert a e IR, wenn es für jedes e > 0 ein (von £ abhängiges) ö > 0 gibt, so daß f ü r alle x e D n (x 0 — ö, x 0 ) gilt: | f (x) — a | < g. Analog definiert man unter entsprechenden Voraussetzungen den rechtsseitigen Grenzwert für eine Funktion f in einem Punkt x 0 . Die Funktion f hat in x 0 den rechtsseitigen Grenzwert ß e IR, wenn es für jedes e > 0 ein (von e abhängiges) 0 gibt, so daß für alle x e D n (x 0 , x 0 + 0 als entsprechenden Grenzwert 1. A
139
Kapitel III: F u n k t i o n e n einer Variablen f(x) " 1
Funktion aus Beispiel 1
Beispiel 2: Gegeben ist die Funktion f: IR \ {1} -* IR, x sich schreiben: f(x) =
1 x- 1
1 x- 1
. Für alle x * 1 läßt
(x - 1) (x + 1) = x+l. x- 1
Es gilt also für alle Punkte in der Nähe von x = 1 mit der Ausnahme von 1 stets f(x) = x + 1. Damit gilt für x = 1: limf(x) = lim(x + l) = 2 x-> 1 X ~* 1 x< 1 X< 1
und
limf(x) = lim (x + 1) = 2. X1 X->1 x> 1 x> 1
Die Funktion hat also in 1 den links- und rechtsseitigen Grenzwert 2.
A
Falls eine Funktion f in einem Punkt x 0 sowohl einen links- als auch einen rechtsseitigen Grenzwert besitzt und beide gleich einem Wert a e IR sind, bezeichnet man diesen Wert a als den Grenzwert der Funktion f in diesem Punkt und schreibt dafür lim f(x) = a. Dabei muß die Funktion f im Punkt x 0 selbst nicht definiert sein, sondern nur in der Nähe des Punktes.
140
Kapitel III: F u n k t i o n e n einer Variablen f(x)
Beispiel 3: Betrachtet m a n die obigen beiden Beispiele, so hat die Funktion aus Beispiel 1 in allen Punkten x < 0 den Grenzwert — 1 und in allen Punkten x > 0 den Grenzwert + 1 . In 0 existiert kein Grenzwert, da linksseitiger und rechtsseitiger Grenzwert nicht gleich sind. Die Funktion im zweiten Beispiel hat in den Punkten x =|= 1 immer den Grenzwert x + 1 und genauso im Punkt x = 1. A Ähnlich wie bei bestimmt divergenten Folgen kann man für Funktionen + oo oder — oo als uneigentlichen Grenzwert definieren. Eine Funktion f hat in einem Punkt x 0 den (uneigentlichen) Grenzwert + oo (bzw. — oo), wenn es für alle K e IR ein (von K abhängiges) 0 gibt, so daß für alle x e (x 0 - S, x 0 + S) n D gilt: f(x) > K
(bzw. f(x) < K)
Das heißt, für beliebig große Zahlen K kann man immer ein 0 finden, so d a ß f ü r alle x, deren Abstand zu x 0 kleiner als XQ
lim f(x) = — oo. X-*Xo X 0
Die Funktion hat also in 0 den linksseitigen Grenzwert — oo und den rechtsseitigen Grenzwert +oo.
Kapitel III: F u n k t i o n e n einer Variablen
141
Beispiel 5: Gegeben ist die Funktion g(x) = — E s gilt für diese F u n k t i o n x lim g(x) = + oo. Die F u n k t i o n g hat in 0 den Grenzwert + oo. A x-»0
F ü r das Rechnen mit Grenzwerten von F u n k t i o n e n gelten ähnliche Regeln wie bei Grenzwerten von Folgen. Wir beschränken uns hier auf den Fall endlicher Grenzwerte. Falls unendliche Grenzwerte auftreten, k a n n m a n diese Regeln im allgemeinen nicht anwenden.
Satz 2.4: Seien f und g zwei F u n k t i o n e n mit: lim f(x) = a. e [R x-*x0
und
lim g(x) = ß s [R. X-*XO
D a n n gilt: a) lim (f(x) + c) = a + c für alle c e IR. X-»XO b) lim (c • f(x)) = c • a. für alle c e IR. X-»XO c) lim (f(x) + g(x)) = a + ß. d) lim° (f(x) • g(x)) = et - ß. \-*xo
e) lim x-xog(x) 0
= —, ß
lim (f(x)) k = a k x-»xo
falls g(x) =t= 0 f ü r alle x in der N ä h e von x 0 und ß 4= 0 ist. f ü r alle k e INI.
142
Kapitel I I I : Funktionen einer Variablen
Beispiel 6: Seien die Funktionen f ( x ) =
x2 - 1 ^ auf IR\{1} und g(x) = x2 auf IR
gegeben. Es gilt dann unter Verwendung der vorher für diese Funktionen berechneten Grenzwerte: lim ( f ( x ) + g ( x ) ) = 2 + 1 = 3.
A
In ähnlicher Weise wie bei Folgen kann man für Funktionen den Grenzwert einer Funktion für x - » + oo definieren. Eine Funktion f: IR-> IR hat für x -* oo (bzw. x - » — oo) den Grenzwert a e IR, wenn es für alle e > 0 ein (von a abhängiges) C e IR gibt, so daß gilt: | f (x) - OL | < 8
für alle x > C
(bzw. alle x < C )
1 Beispiel 7: Die Funktion f ( x ) = - hat für x x x -> — oo.
oo den Grenzwert 0 und ebenso für A
Die Funktion hat dann den Grenzwert + oo für x oo bzw. x -> — oo, wenn die Funktionswerte für x -> oo bzw. x -> — co beliebig anwachsen. Das heißt, wenn für eine Funktion f: IR -> IR folgendes zutrifft: Für alle C e IR gibt es eine (von C abhängige) Zahl K e IR, so daß für alle x > K (bzw. x < K ) stets gilt: f(x)>C, sagt man, die Funktion f hat für x - » o o (bzw. x - » — oo) den Grenzwert + co. Man schreibt hierfür
lim f ( x ) = + oo (bzw. X - ' + 00
lim f ( x ) = + oo). Analog definiert X
— 00
man den Grenzwert — oo für x -> oo bzw. x -> — oo. Beispiel 8: Die Funktion f ( x ) = x3 hat für x - » + co den Grenzwert + oo und für x -»• — oo den Grenzwert — oo.
§ 2.6 Stetigkeit von Funktionen
Definition: (Stetigkeit) Gegeben ist eine Funktion f auf einem Intervall (a, b). Die Funktion f heißt stetig in einem Punkt x0 e (a, b), wenn gilt: lim f ( x ) = f ( x 0 ) X-»XO
Das bedeutet, daß sich bei Annäherung der Argumentwerte x an x0 (aus beiden Richtungen) die Funktionswerte f(x) an f ( x 0 ) annähern. In manchen Büchern wird die Stetigkeit mit Folgen definiert. Es gilt folgender Satz.
Kapitel III: Funktionen einer Variablen
143
Satz 2.5: Die Funktion f ist genau dann stetig in einem Punkt x 0 E (a, b), wenn für alle Folgen (x n ) mit x n e (a, b) für alle n e tKl und lim x n = x 0 gilt: n-*oo
lim f(x n ) = f ( x 0 ) . N * I
Falls die Funktion f: D -» IR, wobei D ein offenes Intervall ist, in allen Punkten aus D stetig ist, bezeichnet man sie als eine auf D stetige Funktion. Eine auf dem abgeschlossenen Intervall [a, b] definierte Funktion f heißt rechts(links-)stetig in a (bzw. b), falls lim f(x) = f(a) x-»a x> a
(bzw. lim f(x) = f(b)) x-»b x< b
Eine solche Funktion f heißt stetig auf [a, b ] , wenn sie in allen Punkten x e (a, b) stetig, in a rechts- und in b linksstetig ist. Satz 2.6: Sind f und g zwei auf einem Intervall I stetige Funktionen sind, so gilt a) f + g ist eine auf I stetige Funktion. b) f • g ist eine auf I stetige Funktion, f c) - ist eine auf I stetige Funktion, falls g(x) =|= 0 für alle x e I. g d) Falls die Umkehrfunktion f _ 1 existiert, ist sie eine stetige Funktion auf dem Intervall f(I). (Die Bildmenge einer auf einem Intervall stetigen Funktion ist wieder ein Intervall.) Wenn eine Funktion stetig ist, bedeutet das anschaulich, daß ihr Graph im Definitionsbereich keinen Sprung hat. Deshalb gilt der folgende Satz.
Satz 2.7: Eine Funktion f, die auf einem abgeschlossenen Intervall [a, b] stetig ist, nimmt jeden Wert zwischen f(a) und f(b) an, d. h. für jede Zahl c zwischen f(a) und f(b) gibt es mindestens einen Punkt x c e (a, b) mit f(x c ) = c. Anschaulich ist dieser Satz plausibel. Bei einer stetigen Funktion kann man den Graphen von dem Punkt (a, f, (a)) bis (b, f(b)) einem Zug durchzeichnen, daher muß er jede Gerade der Form y = c für c zwischen f(a) und f(b) mindestens einmal schneiden.
144
Kapitel III: F u n k t i o n e n einer Variablen
f(a) --
c
f(b) - a
b
x
III.3 Differentialrechnung für Funktionen einer reellen Variablen § 3 . 1 Einleitung Bei einer Funktion ist man oft an den Eigenschaften der Funktion interessiert, die sich nicht sofort aus der Zuordnungsvorschrift der Funktion erkennen lassen. Zwei wichtige Fragen, die auch bei der Anwendung mathematischer Methoden in den Wirtschaftswissenschaften von Bedeutung sind, wären z.B.: 1) Wie stark ändern sich die Funktionswerte f(x), wenn das Argument x verändert wird? 2) An welchen Punkten ihres Definitionsbereiches hat die Funktion ihren größten oder kleinsten Funktionswert? Ein einfaches Beispiel, bei dem diese Fragen interessieren, sind Kosten-, Umsatzund Gewinnfunktionen, bei denen x die produzierte Menge und der Funktionswert jeweils die entsprechenden Kosten, Umsätze oder Gewinne angibt. In diesem Abschnitt wird auch die Differentiation der in Abschnitt III.4 beschriebenen elementaren Funktionen behandelt: Es ist daher sinnvoll, die beiden Abschnitte entweder parallel durchzuarbeiten oder zunächst die Definitionen der Funktionen in III.4 durchzulesen. § 3.2 Der Differentialquotient Der grundlegende Begriff der Differentialrechnung ist der Differentialquotient, der in diesem Abschnitt eingeführt wird. Gegeben ist eine Funktion f(x) auf einem Intervall I = (a, b). Seien x 0 und x 0 + h zwei Punkte aus (a, b). Die Änderung der Funktionswerte, wenn man vom Punkt x 0 zum Punkt x p + h übergeht, ist die Differenz f(x 0 + h) — f(x 0 ). Diese Differenz ist die absolute Änderung der Funktionswerte. Die relative Änderung der Funktionswerte, bezogen auf die Änderung der Argumentwerte, ist gegeben durch den
Kapitel III: F u n k t i o n e n einer Variablen
145
Differenzenquotienten; in diesem Fall: f(x 0 + h) - f(x 0 ) (x 0 + h) - x 0
=
f(x 0 + h) - f(x 0 ) h
Dieser Quotient hat, wie man aus der folgenden Zeichnung ersieht, eine geometrische Bedeutung:
Der Quotient ist die Steigung der Geraden, die durch die beiden Punkte (x 0 , f(x 0 )) und (x 0 + h, f(x 0 + h)) verläuft. Diese Gerade bezeichnet man als Sekante durch diese Punkte. Untersucht man das Grenzverhalten des Differenzenquotienten für h -* 0, d. h. wenn sich die Punkte x 0 + h immer mehr dem Punkt x 0 annähern, erhält man im Grenzübergang den Differentialquotienten. Dabei nähern sich die Sekanten der Tangente an die Funktion im Punkt x 0 .
Definition: (Differentialquotient) Eine Funktion f: (a, b) -> IR heißt differenzierbar in x 0 e (a, b), wenn der Grenzwert f(x 0 + h) - f(x 0 ) hm h-»0
existiert.
h
146
Kapitel III: F u n k t i o n e n einer Variablen
Dieser Grenzwert heißt dann der Differentialquotient oder die Ableitung der Funktion f im Punkt x 0 . M a n schreibt für den Differentialquotienten: f (x 0 ) = lim
f(x 0 + h) - f(x 0 )
h-*o
n
.
F ü r den Differentialquotienten ist auch folgende andere Schreibweise üblich: df(x)
f(x 0 ) = d x
Falls m a n die Zuordnungsvorschrift der Funktion f in der F o r m y = f(x) schreibt, bezeichnet man die Ableitung im Punkt x 0 auch mit y'(x 0 ). Eine Funktion heißt differenzierbar in einem Intervall (a, b), wenn sie in jedem P u n k t x 0 e ( a , b) differenzierbar ist. Die Funktion f':(a, b) -> IR, x i—• f'(x), die jedem x e (a, b) die Ableitung von f in x zuordnet, heißt dann die (erste) Ableitung von f. Für die Ableitungsfunktion f'(x) schreibt m a n oft auch (f(x))'. Die Ableitung f (x 0 ) gibt die Steigung der Tangente der Graphen von f im Punkt (x 0 , f(x 0 )) an. Anschaulich bedeutet die Tatsache, daß f in x 0 differenzierbar ist, daß die Funktion f in der N ä h e des Punktes x 0 durch die Gerade y = f(x 0 ) + f ' ( x 0 ) h approximiert f(x n + h) — f(x n ) wird; denn wegen f (x 0 ) = lim — gilt für kleine h naherungsweise: h->0 h f(x0 + h ) - f ( x 0 ) « h - f ( x 0 ) . F ü r verschiedene Punkte erhält man im allgemeinen verschiedene Geraden. Die Bedeutung dieser Approximation wird in § 3.5 erläutert. Wie man die Ableitung einer Funktion durch einen direkten Grenzübergang berechnen kann, wird in den folgenden Beispielen gezeigt. Beispiel 1: f(x) = ax + b. Das ist die Gleichung einer Geraden. M a n erhält als Ableitung: f (x) = lim h-0
f(x + h ) - f ( x ) h
= lim
a ( x + h) + b - a x - b
h-»0
h
= lim — = lim a = a . h -»0 h h-o Die Ableitung ist also gleich der Steigung der Geraden. Beispiel 2: f(x) = x". Man erhält: f (x) = lim • •
f(x + h ) - f ( x ) h
= lim
h ->o
(x + h) n - x n h
Mit dem binomischen Lehrsatz (siehe Kap. I, § 5.3):
A
Kapitel III: Funktionen einer Variablen
¿ |
)xi-hn-i-xn
147
X ("Ix'-h"-'
o W
= lim'= l t m ^ h->0 h h->0 n-1 = lim z ( • ) x'i .•Un h' — ¡ — 1 h->0 i = 0
n n-1,-"
-
'
Diese direkte Berechnung der Ableitung durch Grenzübergang ist etwas kompliziert. In der folgenden Tabelle sind die Ableitungen der in III.4 beschriebenen elementaren Funktionen und einiger Spezialfälle davon aufgelistet. Tabelle der ersten Ableitungen der elementaren Funktionen Funktion f(x)
Ableitung f'(x)
xn ax + b ax2 + bx + c 1 x"
n•x"~' a 2ax + b n -^TT
(ne IN)
(ne IN)
1 ex a" ln(x) a
log(x)
sin(x) cos(x) tan(x) cotan(x) aresin (x) arceos(x) aretan (x) arccotan(x)
2-lA ex ln(a) • ax 1 X 1 x • ln(a) cos(x) — sin(x) 1 cos2(x) 1 sin2(x) 1 1/1-X 2 1 1/1-X 2 1 1 +x 2 1 1 +x 2
für a > 0 und a 4= 1.
148
Kapitel III: F u n k t i o n e n einer Variablen
Wenn eine Funktion f in einem Punkt x differenzierbar ist, gilt für h
0:
f(x + h) - f (x) ^ dam.t + h) - f(x) -» 0 für h -»• 0, die Funktion ist h dann in x auch stetig. Umgekehrt gilt das aber nicht, wie die Funktion f: [R -»• IR, x t-* f(x) = |x| zeigt. Im Punkt 0 gilt für h > 0: 1 h 1 lim - ( f ( h + 0 ) - f ( 0 ) ) = lim - ( | h | - 0 ) = lim - = 1 h->o h h->o h h-*o h h>O
h> 0
h>0
und für h < 0 gilt: lim i (f(h + 0) - f(0)) = lim i ( | h | - 0) ; lim h-»0 h-»o h h 0 kleiner als 0; daher ist die x Funktion konkav. A Untersucht man eine gegebene Funktion auf Monotonie und Konvexitätsverhalten, so berechnet man am besten die Nullstellen der ersten beiden Ableitungen und untersucht dann, ob die Ableitungen zwischen diesen Punkten positiv oder negativ sind. Beispiel 4: f(x) = e f (x) = — 2xe~" 2
x2
. Die Ableitungen der Funktion sind:
und
f " ( x ) = - 2 e " x 2 + ( - 2 x ) 2 e " x 2 = e _ x 2 ( 4 x 2 - 2).
Die erste Ableitung hat nur in 0 eine Nullstelle, für x < 0 gilt P (x) > 0 und f ist daher in diesem Bereich streng monoton steigend; dagegen ist für x > 0 stets f' (x) < 0 und f ist dort dann streng monoton fallend. Die zweite Ableitung f" hat Nullstellen in 1 1 den Punkten — und — - . Zwischen diesen Punkten ist f" (x) < 0, ansonsten ist l/2 J/2 f" (x) > 0. Daher ist f in dem Intervall
konkav und in den Intervallen A
§ 3 . 8 E x t r e m w e r t e von Funktionen einer Variablen Bei der Untersuchung von Funktionen interessiert man sich oft für die Punkte, an denen die Funktion am größten oder am kleinsten ist. Bei differenzierbaren Funktionen ist es mit Hilfe der Ableitungen möglich, Methoden anzugeben, mit denen man diese Punkte bestimmen kann. Zunächst soll der Begriff des größten und kleinsten Werts präzisiert werden.
Definition: (Lokaler Extremwert) Sei f eine Funktion auf der Menge D e IR. Die Funktion f hat ein lokales Maximum (bzw. Minimum) im Punkt x 0 e D, wenn es ein £ > 0 gibt, so daß für alle x e (x 0 — £, x 0 + e) n D gilt: f(x)±Sf(x0)
(bzw.f(x)^f(x0)).
Ein lokales Minimum oder Maximum heißt lokaler Extremwert.
Kapitel III: F u n k t i o n e n einer Variablen
163
Bei einem lokalen Maximum (Minimum) in x 0 müssen nur für die Punkte in der Nähe von x 0 die Funktionswerte nicht größer (nicht kleiner) als der Funktionswert in x 0 sein. So hat z. B. hat die Funktion in der Zeichnung ein lokales Minimum in x l 5 da für alle x in dem Intervall (x t — e, x t + e) stets f(x) ^ f(Xj) ist. Aber weiter von xx entfernt gibt es Punkte x mit f(x) > f(x,).
Um diejenigen Punkte zu charakterisieren, in denen die Funktionswerte größer (kleiner) als die Funktionswerte in allen anderen Punkten des Definitionsbereichs sind, führt man den Begriff des globalen Extremwerts ein. Definition: (globaler Extremwert) Sei f: D -> IR eine Funktion auf der Menge D. Die Funktion f hat ein globales Maximum (bzw. Minimum) in dem Punkt x 0 e D, wenn für alle x e D gilt: f(x)^f(x0)
(bzw. f ( x ) k f ( x 0 ) ) .
Ein globales Maximum oder Minimum heißt globaler Extremwert. Vorsicht: Bei einem globalen Extremwert wird der Funktionswert mit allen Funktionswerten im Definitionsbereich der Funktion verglichen. Wenn der Definitionsbereich der Funktion verändert wird, kann sich auch die Lage der globalen Extremwerte ändern. Bei der Funktion in der Zeichnung hat f in dem Punkt x t ein globales Maximum. Die Funktion hat in xx auch ein lokales Maximum. Aus der Definition der beiden Begriffe sieht man, daß jedes globale Maximum (Minimum) auch ein lokales ist, aber nicht umgekehrt. Im obigen Beispiel ist x t nur ein lokales Maximum. Nicht jede Funktion hat überhaupt Maxima oder Minima. Aber für stetige Funktionen gilt:
164
Kapitel III: F u n k t i o n e n einer Variablen
Satz 3.13: (Extrema stetiger Funktionen) Sei f: [a, b] -* (R eine stetige Funktion. Dann existieren (mindestens) ein Punkt x 0 und ein Punkt Xi in [a, b] mit: f(x 0 ) ^ f(x)
und
f(x t ) ^ f(x)
für alle x e [a, b].
Das heißt f hat auf [a, b] ein globales Minimum und ein globales Maximum. Das muß nicht gelten, wenn man eine stetige Funktion auf einem offenen Intervall / 7i 7i \ betrachtet, z.B. hat die Funktion f(x) = tan(x) in dem Intervall I — —, — I kein globales Maximum und kein globales Minimum, wie man in der Zeichnung der Funktion auf Seite 183 erkennt.
§ 3.9 Bestimmung von lokalen Extremwerten Im folgenden sei f eine Funktion auf einem offenen Intervall (a, b). Sei x 0 e (a, b) ein Punkt, in welchem f ein lokales Maximum hat und in dem f differenzierbar ist. Es gibt also ein e > 0, so daß für alle x e (x 0 — e, x 0 + e) gilt: f(x) ^ f(x 0 ). Daraus folgt für alle Punkte x t e (x 0 — e, x 0 ): f ( x t ) - f(x 0 ) ^ x
i
— x
Q
o
und für alle Punkte x 2 E (x 0 , x 0 + E): f(x 2 ) - f(x 0 ) ^ X
2
—
X
Q
0
Da f in x 0 differenzierbar ist, existiert der Grenzwert der Differenzenquotienten; dieser Grenzwert muß gleich 0 sein, denn der rechtsseitige Grenzwert ist ^ 0 und der linksseitige rg 0. In ähnlicher Weise folgert man im Falle eines lokalen Minimums in x 0 dasselbe. Es gilt somit: Satz 3.14: (Notwendige Bedingung für lokale Extremwerte) Sei f: (a, b) -> IR eine in x 0 E (a, b) differenzierbare Funktion. Wenn f in x 0 ein lokales Maximum oder Minimum hat, gilt: f'(x o ) = 0.
Vorsicht: Das ist nur eine notwendige Bedingung für lokale Extremwerte einer auf dem offenen Intervall (a, b) definierten Funktion. Wenn in einem Punkt x 0 gilt f'( x o) = 0, muß dort nicht ein lokaler Extremwert sein. Beispiel 1: Bei der Funktion g(x) = x 3 hat man g'(x) = 3x 2 . Nur für x = 0 ist g'(x) = 0, aber die Funktion hat dort kein Extremum, wie man auch in der folgenden Zeichnung sieht. A
Kapitel III: Funktionen einer Variablen
165
Beispiel 2: Für die Funktion f (x) = x 2 gilt f (x) = 2x. Auch diese Ableitung ist nur im Punkt 0 gleich 0, aber hier hat die Funktion tatsächlich ein Extremum, wie auch aus der Zeichnung ersichtlich. A
166
Kapitel III: Funktionen einer Variablen
X
Sei jetzt x 0 ein Punkt mit P (x 0 ) = 0. Aus Beispiel 1 sieht man, daß f dort keinen Extremwert haben muß. Man muß zusätzlich das Verhalten der Funktion in der Nähe des Punktes x 0 untersuchen, um entscheiden zu können, ob f in x 0 einen lokalen Extremwert hat. Wenn es ein Intervall (x 0 — e, x 0 + s) gibt, so daß P (x) < 0 für alle x mit x 0 — £ < x < x0 und P (x) > 0 für alle x mit x0 < x < x 0 + ß, so existiert nach dem Mittelwertsatz der Differentialrechnung jeweils ein z zwischen x und x 0 mit f(x) = f(x0) + f'(z) ( x - x 0 ) ^ f ( x 0 ) . Für alle Punkte in der Nähe von x0 sind also die Funktionswerte nicht kleiner als in x 0 . In x0 liegt daher ein lokales Minimum. Es gilt der folgende Satz.
Satz 3.15: Sei f eine Funktion auf dem Intervall (a, b), die in x 0 e (a, b) differenzierbar ist, mit folgenden Eigenschaften: a) P ( x o ) = 0. b) Es gibt ein Intervall (x 0 — e, x 0 + e) cz (a, b), so daß: f'(x) ^ 0
(bzw. P(x)5S0)
für alle x e (x 0 — e, x 0 )
f'(x) ^ 0
(bzw. f'(x) ^ 0)
für alle x e (x 0 , x 0 + s).
und
Dann hat f i n x 0 ein lokales Maximum (bzw. Minimum) in x 0 .
Beispiel 3: f ( x ) = (x - l ) 4 mit f'(x) = 4(x - l) 3 . Die Ableitung hat eine Nullstelle im Punkt 1. Es gilt für x < 1 P (x) < 0 und für x > 1 dagegen f' (x) > 0. Die Funktion f hat also in 1 ein lokales Minimum. A
167
Kapitel III: F u n k t i o n e n einer Variablen
Der letzte Satz gibt eine hinreichende Bedingung für lokale Extremwerte an. Ob in der Nähe eines Punktes x 0 die erste Ableitung die angegebenen Bedingungen erfüllt, kann man mit der zweiten Ableitung durch den Mittelwertsatz überprüfen. Falls in einen Intervall (x 0 — e, x 0 + e) die zweite Ableitung f" (x) größer ist als 0, ist die erste Ableitung f (x) in diesem Intervall streng monoton steigend. Wenn also f'(x 0 ) = 0, ist für alle x e (x 0 — e, x 0 ) stets f'(x) < 0 und für alle x e (x 0 , x 0 + E) dann f'(x) > 0. Es genügt, die zweite Ableitung in x 0 zu untersuchen, und man erhält folgenden Satz. Satz 3.16: Sei feine Funktion auf dem Intervall (a, b), die in x 0 e (a, b) zweimal differenzierbar ist mit folgenden Eigenschaften: a) f (x 0 ) = 0. b) f ' ( x o ) < 0 (bzw. f"(x 0 ) > 0). Dann hat f in x 0 ein lokales Maximum (Minimum).
Vorsicht: Dieser Satz gibt nur eine hinreichende Bedingung für lokale Extremwerte. Wenn f" (x 0 ) = 0, kann man nicht folgern, daß in x 0 kein lokaler Extremwert ist. Wenn f'(x 0 ) = 0, muß man entweder versuchen, mit Satz 3.15 festzustellen, ob in x 0 ein Extremwert liegt, oder durch Berechnen höherer Ableitungen von f die Frage zu klären. Es gilt folgender Satz (zum Beweis siehe z.B. [B/K] I, S. 220/1). Satz 3.17: Sei f eine Funktion auf dem offenen Intervall (a, b), die in (a, b) (mindestens) n-mal differenzierbar ist. Wenn gilt: a) f (x 0 ) = f"(xo) = ... = f < n _ 1 ) (x 0 ) = 0, b) f ( n ) (x 0 ) < 0 (bzw. f ( n ) ( x 0 ) > 0), so hat f in x 0 ein lokales Maximum (Minimum), wenn n gerade ist. Wenn in diesem Fall n ungerade ist, hat f in x 0 keinen lokalen Extremwert.
f ( x ) 1.0 f(x) = ( x - 1 ) 4
1 .0
1 .5
2.0
X
168
Kapitel III: F u n k t i o n e n einer Variablen
Wenn man die angegebenen Sätze zusammenfaßt, erhält man folgendes Schema zur Berechnung von Extremwerten: Schema zur Berechnung der lokalen Extremwerte einer zweimal differenzierbaren Funktion f auf einem Intervall (a, b). 1) Berechne die Ableitungsfunktionen f (x) und f"(x). 2) Berechne alle Punkte x 1 ; . . . , x n in (a, b), für die gilt: f ( x , ) = 0. 3) Berechne für x l 5 . . . , x n die zweiten Ableitungen: f"(Xl),...,f"(xn). 4) Wenn f" (x;) < 0, dann hat f in X; ein lokales Maximum. Wenn f" ( x j > 0, dann hat f in Xj ein lokales Minimum. Wenn f"(Xi) = 0, muß man mit Satz 3.15 oder 3.17 versuchen festzustellen, ob in X; ein lokaler Extremwert ist.
Kapitel III: Funktionen einer Variablen
169
Beispiel 4: f(x) = x 3 + 3x 2 auf ( - 3 , 3). 1: Man berechnet die Ableitungen: f'(x) = 3x 2 + 6x und f " ( x ) = 6x + 6. 2: Nullstellen der Ableitung: 3x 2 + 6 x = 0 Lösungen: x, = — 2 und x 2 = 0.
3x(x + 2) = 0. Man erhält zwei
3: Berechnen der zweiten Ableitungen: f ' ( X l ) = f"(— 2) = 6( —2) + 6 = - 6 < 0 => lokales Maximum in - 2 . f"(x 2 ) = f"(0) = 6 • 0 + 6 = 6 > 0 => lokales Minimum in 0. Der Verlauf der Funktion ist in der Zeichnung auf Seite 168 zu sehen.
A
§ 3.10 Berechnung globaler Extremwerte Sei feine differenzierbare Funktion auf einem abgeschlossenen Intervall [a, b]. Da f dann auch stetig auf [a, b] ist, muß f globale Extremwerte haben. Wenn ein Punkt ein globaler Extremwert ist, dann ist er auch ein lokaler. U m die globalen Extremwerte zu finden, muß man alle lokalen Extremwerte der Funktion im offenen Intervall (a, b) finden und zusätzlich dazu die Randpunkte a und b untersuchen, welchen Wert die Funktion dort hat.
Durch Vergleich der Funktionswerte kann man dann feststellen, in welchen Punkten globale Extremwerte sind. Schema zur Berechnung der globalen Extremwerte einer differenzierbaren Funktion f auf einem abgeschlossenen Intervall [a, b] 1) Berechne die Ableitungsfunktion f (x). 2) Bestimme alle Punkte x l 5 . . . , xn im Intervall (a, b), für die gilt f'(Xj) = 0.
170
Kapitel III: Funktionen einer Variablen
3) Berechne die Funktionswerte: f f x j ) , . . . , f(x n ), f(a) und f(b). (Also die Funktionswerte in den Punkten X; und in den Randpunkten a und b). 4) Vergleiche die Funktionswerte in diesen Punkten. a) In den Punkten aus der Menge { x 1 ; . . . , x„, a, b} in denen die Funktionswerte am größten sind, sind die globalen Maxima der Funktion. b) In den Punkten aus der Menge {x l 5 ..., x n , a, b} in denen die Funktionswerte am kleinsten sind, sind die globalen Minima der Funktion. Vorsicht: Bei dieser Methode erhält man nur die globalen Extremwerte der Funktion in dem Intervall [a, b]. Man kann diejenigen Punkte aus der Menge { x 1 ; . . . , x n , a, b}, in denen kein globaler Extremwert vorliegt, mit den Methoden aus dem vorigen Paragraphen daraufhin untersuchen, ob dort lokale Extremwerte vorliegen. Beispiel 1: f(x) = ln(x 2 + 1) auf dem Intervall [ - 1 , 1 ] . 1. Schritt: f'(wx ) = -2 ^ — . x +1 2. Schritt: f'(x) = 0 o
2x —^—- = 0 ts> x = 0. Es gibt also nur einen Punkt Xj in X
1
[—1,1] mit verschwindender Ableitung, nämlich x, = 0. 3.Schritt: f(0) = 0, f ( - l ) = ln(2) und f ( l ) = ln(2). 4. Schritt: f h a t in den Punkten —1 und 1 globale Maxima mit dem Wert In (2). Im Punkt 0 hat f ein globales Minimum mit dem Wert 0. A Beispiel 2: f(x) = x 4 + 4x 3 + 3 auf [ - 4 , 2 ] , 1. Schritt: f'(x) = 4x 3 + 12x2 = 4x 2 • (x + 3). 2. Schritt: Die Ableitungsfunktion hat Nullstellen in den Punkten x t = 0 und X2 = - 3 . 3. Schritt: f( —4) = 3, f( —3) = - 24, f(0) = 3, f(2) = 51. 4. Schritt: Die Funktion f h a t in dem Punkt 2 ein globales Maximum mit dem Wert 51 und in dem Punkt —3 ein globales Minimum mit dem Wert —24. A § 3 . 1 1 Extremwerte bei konvexen und konkaven Funktionen Bei konvexen und konkaven Funktionen ist es einfacher, die globalen Extremwerte der Funktionen zu bestimmen, als im vorigen Paragraphen beschrieben. Sei f eine auf dem offenen Intervall (a, b) definierte, zweimal differenzierbare und konvexe Funktion. Für einen Punkt x 0 e (a, b) gelte f'(x 0 ) = 0. Wegen des Mittelwertsatzes der Differentialrechnung existiert für alle x e (a, b) ein z zwischen x und x 0 mit: (1)
f(x)-f(x0) = f'(z)(x-x0).
Da aber f konvex und zweimal differenzierbar ist, muß nach Satz 3.12 die erste Ableitung f monoton steigend sein. Es gilt also für z x 0 : (2)
f(z)gf'(xo) = 0
171
Kapitel III: F u n k t i o n e n einer Variablen
Genauso für
z 2; x 0 :
f ( z ) g r ( x 0 ) = o. Daraus folgt mit (1) und (2) für alle x e (a, b): f(x)-f(xo) = f ' ( z ) ( x - x o ) ^ 0 . In x 0 hat die Funktion also ein globales Minimum. Wenn man bei einer konvexen Funktion eine Nullstelle der Ableitung gefunden hat, ist dort auch immer ein globales Minimum. Analog kann man zeigen, daß bei konkaven Funktionen jede Nullstelle der Ableitung immer ein globales Maximum liegt. Allgemein gilt folgender Satz. Satz 3.18: Gegeben ist eine Funktion f auf einem offenen Intervall (a, b), die dort differenzierbar und konvex (bzw. konkav) ist. In einem Punkt x 0 mit f' (x0) = 0 hat die Funktion f stets in diesem Punkt ein globales Minimum (bzw. Maximum). Beispiel 1: f(x) = x 2 . Die einzige Nullstelle der Ableitung f (x) = 2x ist in 0. Da f eine konvexe Funktion ist, hat sie in 0 ein globales Minimum. A Beispiel 2: g(x) = ln(x) — x auf (0, oo). Die Ableitungen sind: g'(x) = g" (x) =
1 x
1 und
1 2-. Diese Funktion ist konkav im ganzen Definitionsbereich. Die einzige
Nullstelle der Ableitung ist im Punkt 1. Dort hat die Funktion ein globales Maximum. A
§ 3 . 1 2 Die Regel von l'Hospital Wenn bei zwei Funktionen f und g gilt, daß lim f(x) = lim g(x) = 0, dann kann X-*XO X->X0 f(x) man nicht sofort erkennen, wie sich dann der Quotient für x -> x 0 verhält. Mit g(x) der Regel von l'Hospital kann man für differenzierbare Funktionen unter gewissen Voraussetzungen diesen Grenzwert berechnen. Satz 3.19 (Regel von l'Hospital): Es seien f und g zwei differenzierbare Funktionen auf (a, b). Weiter gelte g'(x) =)= 0 für alle x e (a, b), lim f(x) = 0 und lim g(x) = 0. Wenn der Grenzwert x->b x->b x 0 mit a * 1, b * 1 und x > 0. Speziell gilt für log(a) den natürlichen Logarithmus:
d) a log(x) =
a
b
log(x) =
ln(x) ln(a)
e) Die Logarithmusfunktionen a log(x) sind beliebig oft differenzierbar. Die erste Ableitung ist: d a log(x) dx
=
1 x • ln(a)
, und
dln(x) dx
1 = —. x
§ 4.5 Trigonometrische Funktionen Zum Verständnis der trigonometrischen Funktionen benötigt man ein wenig Geometrie. Man betrachtet einen Kreis um den Nullpunkt mit Radius 1 im IR2 und einen Strahl vom Nullpunkt, der die x-Achse in einem Winkel a schneidet.
Man kann den Winkel wie üblich in Grad messen. In der Mathematik verwendet man oft eine andere Meßmethode, man mißt den Winkel in Bogenmaß. Das heißt, die Größe des Winkels wird angegeben durch die Länge des Kreisbogens auf dem Kreis mit Radius 1 vom Punkt (0,1) bis zu dem Punkt, in dem der Strahl den Kreis schneidet. Da der Umfang des Kreises gleich 2 • n ist, bestehen zwischen dem Bogenmaß x und dem in Grad gemessenen Winkelmaß a folgende Beziehungen: x= a•
7t 180
und
180 a = — • x. n
Kapitel III: Funktionen einer Variablen
181
Mit dem Bogenmaß ist jedem Punkt (u, v) auf dem Kreis eine Zahl x zugeordnet, nämlich die Länge des Kreisbogens von (1,0) zu diesem Punkt (u,v). Für einen solchen Punkt (u, v) betrachten wir nun die x t -Koordinate u und die x 2 -Koordinate v. Als die Funktion sin(x) („Sinus von x") definiert man die x 2 -Koordinate v des Punktes und als cos(x) („Cosinus von x") definiert man die x,-Koordinate u. Man hat somit für jede Zahl zwischen 0 und 2 • n zwei Funktionen sin(x) und cos(x) definiert, deren Werte man erhält, wenn man von (1,0) die Strecke x auf dem Kreisbogen entgegen dem Uhrzeigersinn zurücklegt und bei dem so erreichten Punkt (u,v) die Koordinaten als Funktionswerte nimmt.
Falls x größer wird als 2 • n, wiederholt sich der ganze Vorgang, nachdem man einmal den Kreisrand durchlaufen hat. Man definiert also sin (x + 27t • k) = sin(x) und cos(x + 2 7t • k) = cos(x) für k e Z. Damit hat man zwei Funktionen, die auf der ganz [R definiert sind: sin: IR -> IR, x h-> sin(x) cos: [R -> IR, x i—> cos(x). Die Graphen der Funktionen sind in der folgenden Zeichnung dargestellt. Wie man aus den Zeichnungen erkennt, ist sin(x) eine ungerade und cos(x) eine gerade Funktion.
182
Kapitel III: Funktionen einer Variablen
•
sin (x) cos(x)
Mit diesen beiden Funktionen definiert man zwei weitere Funktionen, indem man die Quotienten der beiden bildet. Der Tangens ist definiert durch: tan: I R \ { x e fR|cos(x) = 0} -> [R, x i-> tan(x) =
sin ix) — . cos (x)
Diese Funktion ist nur f ü r diejenigen x e IR definiert, für die cos(x) # 0 ist. Der Cotangens ist definiert durch: cot: I R \ { x £ (R|sin(x) = 0} -> IR, x
cot(x) =
cos (x) — . sin(x)
Diese Funktion ist nur f ü r diejenigen x e l R definiert, für die sin(x) =t= 0 ist. In der folgenden Zeichnung sind die beiden Funktionen dargestellt. M a n erkennt, d a ß die Funktion tan(x) in jedem offenen Intervall ^ — — + k • 7t, — + k • 7t^ mit k e Z eine streng monoton wachsende Funktion ist. Außerdem ist sie eine ungerade Funktion. Die Funktion cot(x) hingegen ist in den offenen Intervallen (k • 7t, (k + 1) • 7t) mit k e Z jeweils streng monoton fallend; außerdem ist sie eine ungerade Funktion. F ü r die Potenzen der trigonometrischen Funktionen hat man folgende Kurzschreibweise: sin"(x) statt (sin(x))", cos n (x) statt (cos(x)) n , tan"(x) statt (tan(x)) n und cot n (x) statt (cot(x)) n . Alle vier Funktionen sin(x), cos(x), tan(x) und cot(x) sind in ihrem Definitionsbereich beliebig oft differenzierbar. Die ersten Ableitungen sind jeweils: dsin(x) dx dcos(x) dx
= cos(x). = — sin (x).
dtan(x)
1
dx
cos 2 (x)
dcot(x) _ dx
1 sin 2 (x)
Vorsicht: Für die Funktionen tan(x) und cot(x) werden auch die Schreibweisen tg(x) und ctg(x) benutzt.
Kapitel III: Funktionen einer Variablen
183
§ 4.6 Die Umkehrfunktionen der trigonometrischen Funktionen Da die trigonometrischen Funktionen nicht injektiv sind, kann man sie nur umkehren, wenn man den Definitionsbereich so einschränkt, daß sie in dem eingeschränkten Definitionsbereich injektiv sind. Man kann geeignete Bereiche wählen, so daß die Funktionen umkehrbar werden. Die Sinusfunktion ist im Intervall
K
71
—-, -
streng monoton wachsend und die Cosinusfunktion ist in
[0,7t] streng monoton fallend. Ebenso ist die Tangensfunktion auf ( — —,
184
Kapitel III: Funktionen einer Variablen
streng monoton wachsend und die Cotangensfunktion auf (0, n) streng monoton fallend. Alle diese Funktionen, eingeschränkt auf diese Intervalle, sind daher umkehrbar. Man verwendet für die Umkehrfunktionen folgende Bezeichnungen: Funktion
sin (x) cos(x)
tan(x) cot (x)
Eingeschränkter Definitionsbereich 7t
n
2' 2
[0,71] 71
71
2'
2
(0,n)
Umkehrfunktion
Definitionsbereich der Umkehrfunktion
aresin (x) („arccussinus")
[—1,1]
arccos(x) („arcuscosinus")
[-1,1]
arctan(x) („arcustangens")
IR
arccot(x) („arcuscotangens")
(R
Die Graphen dieser Funktionen sind in den nächsten Zeichnungen dargestellt.
arc sin (x) -
arc cos (x)
Kapitel III: Funktionen einer Variablen
185
Außer an den Randpunkten — 1 und 1 bei den Funktionen aresin (x) und arccos(x) sind diese Funktionen in allen Punkten ihres Definitionsbereichs beliebig oft differenzierbar. Die Ableitungen sind: d aresin (x)
1
dx
| / l — x2
d arccos(x)
1
d x
]/\
darctan(x) dx
|x|
^ .
2
1
,
2
1
2n
In der folgenden Zeichnung sind die Treppenfunktionen f j und
eingezeichnet.
0,75
0,5
--
0,25
0,75
1 Sei jetzt £ > 0 eine beliebige Zahl; wenn man n größer als — wählt, gilt für die Untersumme f j und die Obersumme PJ:
Kapitel III: F u n k t i o n e n einer Variablen
193
Für alle e kann man also Unter- und Obersummen finden, die immer näher an die Zahl j herankommen. Das Integral der Funktion f ist ^: j f(x)dx = \ . o l Dieses Ergebnis kann man auch mit elementargeometrischen Methoden erhalten, denn die zu berechnende Fläche ist ein Dreieck. A Für stetige Funktionen gilt folgendes: Satz 5.1: Sei f eine auf dem Intervall [a, b] stetige Funktion. Dann ist f auf [a, b] integrierbar. Es gibt aber auch nichtstetige Funktionen, wie z. B. die Treppenfunktionen, die integrierbar sind. Zum Abschluß des Paragraphen erläutern wir kurz, wie der Integralbegriff oft eingeführt wird, nämlich mittels der Riemannsummen. Bei dieser Methode wird der Verlauf der Funktion durch geeignete Summen approximiert, statt von oben und unten eingeschachtelt. Definition: (Riemannsumme) Sei f eine Funktion auf [a, b]. Gegeben sind n + 1 Zahlen x j , . . . , x n + 1 mit a = Xj < x 2 . . . < x n _! < x n + 1 = b und n Zahlen ^ e [x h x i + 1 ). Das Integral S der Treppenfunktion auf [a, b] die im Intervall [xi5 x i + 1 ) den Wert f ( ^ ) hat, nämlich: s= i
i= 1
f«,)-(xi + 1 - x i )
bezeichnet man als Riemannsumme zur Funktion f. Falls man die Zahl der Punkte gegen oo geht und das Maximum ihrer Abstände x i + 1 — Xj gegen 0 geht, konvergieren die entsprechenden Riemannsummen gegen das Integral der Funktion f, wenn f integrierbar ist.
§ 5.4 Rechenregeln für Integrale Im folgenden werden einige Rechenregeln für Integrale angegeben, f und g seien auf [a, b] integrierbare Funktionen. Dann gilt: b
b
1) J oc • f(x)dx = a • | f(x)dx a
für alle
a e (R.
a
2) }(f(x) ± g(x))dx = }f(x)dx ± Jg(x)dx. a
a
a
194
Kapitel III: Funktionen einer Variablen
3) f f (x) dx = 5 f (x) dx + J f(x) dx a
a
für alle
c e (a, b),
c
4) J f ( x ) d x = 0 . a
5) j f ( x ) d x = - J f ( x ) d x .
Da das Integral über eine Funktion aus den Summen über Treppenfunktionen hergeleitet wurde, gilt auch hier, daß Flächen unter der x-Achse negativ gezählt b
werden. Bei der Funktion in der Zeichnung ist das Integral J f ( x ) d x gleich dem a
Flächeninhalt der querschraffierten Fläche minus dem Flächeninhalt der längsschraffierten Fläche:
fix)
Um die einzelnen Flächeninhalte zu bekommen, muß man das Integral hier in drei Teile zerlegen. Um bestimmte Integrale leicht berechnen zu können, benötigen wir noch den Zusammenhang zwischen bestimmten Integralen und den Stammfunktionen.
195
Kapitel III: F u n k t i o n e n einer Variablen
§ 5.5 Hauptsatz der Differential- und Integralrechnung Sehr wichtig ist der Zusammenhang zwischen dem bestimmten und dem unbestimmten Integral. Sei f eine stetige und integrierbare Funktion auf dem Intervall [a, b]. Dann ist f auch integrierbar auf jedem Teilintervall [a, x] mit a < x < b. Wir X
definieren jetzt eine Funktion G (x) = J f (x) dx. Diese Funktion ordnet jedem x den a
Wert des bestimmten Integrals von a bis x über die Funktion f zu. Berechnet man den Differenzenquotienten dieser Funktion für zwei Punkte x 0 und x 0 + h in [a, b], so erhält man mit den Regeln aus § 5.4:
CD
h
- ni. \ ( T rwd. - aT «» 0 der Differenzenquotient der Funktion G(x) gegen f(x) konvergiert. G(x) ist also differenzierbar in x mit Ableitung: G'(x) = f(x). Die Funktion G ist also eine Stammfunktion von f: Jf(x)dx = G(x) + C. Wenn F eine beliebige Stammfunktion von f ist, gilt: F(x) = G(x) + C. Für die Differenz F(b) — F(a) gilt dann: F(b) - F(a) = (G(b) + C) - (G(a) + C) = G(b) - G(a) = J f (x) dx - J f (x) dx = j f (x) dx. a
a
a
Damit hat man den folgenden Satz, den Hauptsatz der Differential- und Integralrechnung. Satz 5.2: Sei f eine stetige Funktion auf [a, b] und F sei eine auf [a, b] stetige Stammfunktion von f auf (a, b). Dann gilt für a x b: - M f ( y ) d y = f(x) QX a
und
}f(y)dy = F(x) - F(a).
a
Kapitel III: F u n k t i o n e n einer Variablen
197
Insbesondere gilt: Jf(y)dy =
F(b)-F(a).
Das heißt, wenn man irgendeine Stammfunktion von f kennt, kann man damit bestimmte Integrale über die Funktion f berechnen. M a n hat für die Differenz F (b) — F (a) bei Stammfunktionen auch die Schreibweisen: [F(x)] a b
oder
F(x)| a b .
Beispiel 1: Gegeben ist die Funktion f(x) = x 2 . Eine Stammfunktion ist die Funkx3 tion F (x) = — . M a n erhält für bestimmte Integrale über die Funktion f: J f(x) dx = [ F (x)] b ,
in diesen Fall:
a
Jx2dx =
b3
T
a
T
Beispiel 1: Das bestimmte Integral
A
J cos(x)dx = [sin(x)]£ = sin(7r) — sin(O) = o = 0 — 0 = 0. Wie man aus der Zeichnung erkennt, sind die Inhalte der beiden Flächen über und unter der x-Achse gleich, daher ist das Integral gleich 0. Wenn man die entsprechenden Flächen berechnen will, muß man das Integral in zwei Integrale über die Teilbereiche, in denen die Funktion positiv bzw. negativ ist,
198
Kapitel III: F u n k t i o n e n einer Variablen TC
zerlegen. Das sind die Intervalle 0,: 2
2
/TZ
und ( —, n . Für diese Integrale erhält man: I TL '
j cos(x)dx = [sin(x)] = sin ( — ) — sin(O) = 1
und
Jcos(x)dx = — 1.
Das erste Integral ist gleich der längsschraffierten Fläche, das zweite gleich dem Negativen der querschraffierten Fläche (siehe Seite 196). A
§ 5.6 Uneigentliche Integrale Das bestimmte Integral ist bisher nur für Funktionen auf einem abgeschlossenen, endlichen Intervall definiert. Man kann unter gewissen Voraussetzungen auch Integrale über unendliche Intervalle definieren. Definition: (Uneigentliches Integral) Sei die Funktion f auf dem Intervall [a, oo) definiert. Falls f auf allen Teilintervallen [a, b] mit b > a integrierbar ist und b lim J f(x)dx existiert, so nennt man diesen Grenzwert das uneigentliche Integral b-» oo a CO
über f von a bis oo und schreibt dafür
j f(x)dx.
Dieser Grenzwert muß nicht existieren, in diesem Fall ist das Integral nicht definiert. In analoger Weise kann man für eine Funktion f, definiert auf einem Intervall (—oo, a], die auf allen Intervallen [b, a] mit b < a integrierbar ist, definieren: J f(x)dx = — oo
lim J f(x)dx. b-» — oo b
Wenn f auf allen Intervallen [a, b] mit a < b integrierbar ist und die uneigentlichen 00 a Integrale j f(x)dx und j f(x)dx existieren, definiert man das uneigentliche Intea — co gral über die Funktion f von — co bis oo durch: oo a oo J f(x) dx = J f ( x ) d x + J f(x)dx. — oo — co a Beispiel I: Gegeben ist f(x) = \ jf(x)dx = [ - x " 1
1
auf dem Intervall [1, oo). Es gilt für b > 1:
] ^ -b"1 + 1 = 1 -b"1. i
Kapitel III: Funktionen einer Variablen
Für b
199
oo gilt somit: lim J f(x)dx = lim (1 - b " 1 ) = 1. b - » oo 1
b - > oo
Damit ist das uneigentliche Integral über f von 1 bis oo definiert und es gilt: J f(x) dx = 1.
A
f(x)
In ähnlicher Weise kann uneigentliche Integrale definieren, wenn die Funktion auf einem Intervall unbeschränkt ist. Sei die Funktion f auf dem halboffenen Intervall [a, b) definiert. Falls f auf allen Teilintervallen [a, c] mit a g c < b integrierbar ist c
und der Grenzwert lim j f(x)dx existiert, definiert man: | f (x) dx = lim | f (x) d x . c->b i c < b
200
Kapitel III: F u n k t i o n e n einer Variablen
Analog definiert man, wenn f auf dem halboffenen Intervall (a, b] definiert ist, unter den entsprechenden Voraussetzungen: J f (x) dx = lim | f (x) dx. a c-»a c c> a Beispiel 2: Gegeben ist die Funktion f(x) = x"2 auf (0,1]. Für x -> 0 geht f(x) gegen + oo. Für alle c mit 0 < c < 1 gilt: Jf(x)dx = [2-xi],1 = 2 - 2 - c i c Für c —> 0 gilt deshalb: lim J x~2 dx = 2. Man erhält das uneigentliche Integral: c-»0 c i i J x ~ 2 d x = 2. A o
§ 5.7 Partielle Integration und Substitution Für jede elementare Funktion ist es möglich, mittels der Rechenregeln für Ableitungen die Ableitungen wieder durch elementare Funktionen darzustellen. Dagegen ist es oft nicht möglich, die Stammfunktionen einer elementaren Funktion durch elementare Funktionen darzustellen. Es gibt auch keine allgemeingültigen Regeln, wie man für eine beliebige Funktion eine Stammfunktion berechnen kann. In einigen Fällen ist es möglich, Funktionen so umzuformen, daß man dann eine Stammfunktion berechnen kann. U m die Stammfunktion eines Produkts von zwei Funktionen f und g zu erhalten, kann man versuchen, durch Umformungen auf Funktionen zu kommen, deren Integral einfach berechnet werden kann. Es gilt für die Ableitung des Produkts f • g:
Kapitel III: Funktionen einer Variablen
(1)
201
(f(x) • g(x))' = f (X) • g(x) + f(x) • g'(x).
Wenn man die Stammfunktion dieser Funktionen bestimmt, erhält man f ü r die linke Seite: (2)
J(f(x) • g(x))'dx = f(x) • g(x) + C.
Für die rechte Seite: (3)
J(f'(x)-g(x) + f(x)g'(x))dx = f f (x) • g(x)dx + Jf(x) • g'(x)dx + C .
Wenn man (2) und (3) gleichsetzt, erhält man: (4)
f(x) • g(x) = f f (x) • g(x)dx + f f ( x ) • g'(x)dx + C
Umgeformt gilt dann: (5) Jf'(x) g(x)dx = f(x) g(x) - f f(x) g'(x)dx + C . Falls man eine Stammfunktion von f(x)g'(x) kennt, kann man mit der obigen Formel eine Stammfunktion von P ( x ) g ( x ) berechnen. Beispiel 1: Gegeben sind die Funktionen f(x) = e x und g(x) = x. D a n n gilt f (x) = e x und g'(x) = 1. Für f'(x) g(x) = e x • x gilt dann mit (5): Je x • x d x = e* • x — Je* • l d x = ex • x — Je"dx = e x • x - ex + C = e x (x - 1) + C .
A
Beispiel 2: Gegeben sind die Funktionen f(x) = sin(x) und g(x) = cos(x). Zu berechnen ist das unbestimmte Integral f sin (x) • cos(x)dx. D a (cos(x))' = — sin(x) und (sin(x))' = cos(x), erhält man: f sin (x) • cos (x) dx = sin (x) • sin (x) — f sin (x) • cos (x) dx + C . Das Integral auf der rechten Seite ist das gleiche wie das auf der linken. Daraus folgt: 2 • f sin (x) • cos (x) dx = sin 2 (x) + C . Dividiert durch 2: fsin(x) • cos(x)dx = j • sin 2 (x) + C .
A
Für das bestimmte Integral über das Produkt zweier Funktionen erhält man folgenden Satz. Satz 5.3: Seien f und g zwei differenzierbare Funktionen auf [a, b], deren Ableitungen auf [a, b] stetig sind; dann gilt: f f (x) g(x)dx = [f(x) g(x)] b - f f(x) g'(x)dx.
202
Kapitel III: Funktionen einer Variablen
Gegeben ist eine Funktion h, deren Integral berechnet werden soll. Man sucht zwei Funktionen f und g, so daß gilt h(x) = f'(x)g(x) und die Stammfunktion von f(x) g' (x) leicht berechnet werden kann. Beispiel 3: Betrachtet man Beispiel 1), so erhält man für das bestimmte Integral von 0 bis 1 über die Funktion: i i J ex • xdx = [ex • (x — 1)] = e • 0 — e° • ( —1) = 1. o o
A
Die Substitutionsmethode zur Berechnung von Integralen ist analog zur Berechnung von Ableitungen mittels der Kettenregel. Die Ableitung der zusammengesetzten Funktion G (f (x)), wobei G eine Stammfunktion der Funktion g sei, ist gegeben durch: (G(f(x))' = g(f(x))f'(x). Daraus folgt, daß die Funktion G(f(x)) eine Stammfunktion der Funktion g(f(x))f'(x)ist: ig(f(x))f'(x)dx = G(f(x)) + C
Wenn man eine Stammfunktion G(x) der Funktion g(x) kennt, kann man somit für die Funktion g ( f ( x ) ) f (x) eine Stammfunktion berechnen. Beispiel 4: Es sei f(x) = a + bx und g(x) = x n . Eine Stammfunktion von g ist dann x n+l die Funktion G (x) = . Dann gilt für die Funktion g (f (x)) f (x) = (a + bx) n b: n +1 fg(f(x))f'(x)dx =
(a 4- bx} n+1 + C. ^+ 1
1
A
Um die Substitutionsregel anzuwenden, muß man bei einer vorgegebenen Funktion h versuchen, zwei Funktionen f und g zu finden, bei denen eine Stammfunktion G von g bekannt ist und gilt h (x) = g (f(x)) f' (x). Dann ist die Funktion G (f (x)) eine Stammfunktion von h(x). Beispiel 5: Gegeben ist das unbestimmte Integral f —- — dx. Man setzt x—4 1 f(x) = x — 4, P(x) = 1 und g(x) = - . Dann ist G(x) = ln(x) eine Stammfunktion von g(x) und es gilt dann: r j
1
x
1 = g(f((x)) • f'(x). Mit der Substitutionsregel erhält man ~~ 4
- d x = ln(x — 4) + C.
A
203
Kapitel III: F u n k t i o n e n einer Variablen
Bei bestimmten Integralen hat diese Regel die Form:
Satz 5.4: Die Funktion g sei auf dem Intervall [a, b ] stetig und die Funktion f auf dem Intervall [a, ß ] stetig differenzierbar mit f([a, ß j ) f(x) von einer Teilmenge D IR" in [R, wobei jedem Punkt x = ( x 1 , . . . , s 1 ) e D eine Zahl f(x) = f ( x t , . . . , x„) zugeordnet wird.
Man schreibt die Zuordnungsvorschrift entweder in der Form x i—> f(x) oder ( x l 5 . . . , x„) i-> f ( x l 5 . . . , x n ) oder x (-• f ( x l 5 . . . , x n ). Zur Definition einer derartigen Funktion benötigt man wie bei den Funktionen einer Variablen die Definitionsmenge D und die Zuordnungsvorschrift x i—> f(x). Beispiel 1: f: [R2 IR, x i-* f(x l 5 x 2 ) = x 2 + x|. Der Funktionswert im Punkt (2,1) 2 ist z.B.: f(2,1) = 2 + l 2 = 5. A Beispiel 2: g: IR3 -> IR, x i—» g(x 1 ; x 2 , x 3 ) = x 2 e Xl + x 3 . Diese Funktion hat z.B. in dem Punkt (0, - 3 , 4) den Wert g(0, - 3 , 4 ) = - 3 • e° + 4 = - 3 + 4 = 1. A Funktionen einer Variablen kann man leicht graphisch darstellen. Bei Funktionen mehrerer Variablen ist das nicht mehr so einfach. Man kann zwar Wertetabellen berechnen, die für verschiedene Punkte x 1 , . . . , x k die Funktionswerte f (x 1 ) bis f (x k ) angeben, aber diese Tabellen kann man nicht mehr sofort in eine Zeichnung umsetzen. Eine Möglichkeit, Funktionen zweier Variablen zu veranschaulichen, ist die dreidimensionale Zeichnung im kartesischen Koordinatensystem. Man zeichnet über jedem Punkt (x 1; x 2 ) e D in der Ebene in der Höhe f(x l 5 x 2 ) einen Punkt mit den Koordinaten (x 1( x 2 , f ^ , x 2 )). Die Höhenkoordinate des Punktes ist also gleich dem Funktionswert. Alle diese Punkte zusammen ergeben eine Fläche im IR3, den Graphen oder das Funktionsgebirge der Funktion. Der Graph G f einer Funktion f: D -> IR ist definiert durch G f = {(x 1; x 2 , x 3 ) e IR 3 |(x 1 , x 2 ) e D, x 3 = f(x!,x 2 )}
206
Kapitel IV: Funktionen mehrerer reeller Variablen
Beispiel 3: Gegeben ist die Funktion f ( x : , x 2 ) = xf + In der folgenden Abbildung ist der Graph der Funktion gezeichnet für — 1 ^ xx ^ 1 und - 1 ^ x , ^ 1. A
Kapitel IV: F u n k t i o n e n mehrerer reeller Variablen
207
Beispiel 4: g(x l 5 x 2 ) = x? — x 2 + 1. In der folgenden Abbildung ist der Graph dieser Funktion gezeichnet für — 1 ^ x t iS 1 und — 1 ^ x 2 ^ 1. A
Darstellungen dieser Art sind im allgemeinen nur mit Computerprogrammen möglich, die aus den vorgegebenen Funktionswerten den Graphen berechnen. Eine weitere Möglichkeit, Funktionen zweier Variablen darzustellen, sind Höhenlinien. Diese entsprechen den in der kartographischen Darstellung üblichen Höhenlinien; dabei sind die geographischen Koordinaten der Argumentwert und der Funktionswert ist die Höhe des Punktes. Man markiert in der Ebene alle Punkte (Xi, x 2 ), deren Funktionswert gleich einem festen Wert c ist, und verbindet diese Punkte durch Kurven. Definition: (Höhenlinie, Isoquante, Isolinie, Niveaulinie) Sei f: D -»• [R eine Funktion auf einer Menge D c: IR2. Die Menge aller Punkte (x l5 x 2 ) e D mit f(x,, x 2 ) = c heißt die Höhenlinie (Isoquante, Isolinie, Niveaulinie) der Funktion f zum Wert c.
208
Kapitel IV: Funktionen mehrerer reeller Variablen
Beispiel 5: In der nächsten Abbildung sind einige Höhenlinien der Funktion f(x i> x 2) — x i + x 2 eingezeichnet.
A
1 _
_ .c
=
2
:c =1 Beispiel 6: In der folgenden Abbildung sind einige Höhenlinien der Funktion f(x 1 ? x 2 ) = xf — x | + 1 eingezeichnet.
Kapitel IV: Funktionen mehrerer reeller Variablen
: c = 1
209
A
Die Berechnung der Höhenlinien ist in obigen Beispielen noch analytisch möglich. In den meisten Fällen ist das Berechnen und Zeichnen der Höhenlinien auch nur mit Hilfe von Computerprogrammen möglich. Dabei wird zunächst ein Punkt (x l 5 x 2 ) mit f(x 1 ; x 2 ) = c gesucht und dann mit dem Satz über implizite Funktionen (siehe § 2.6) die Punkte in der Nähe bestimmt, die den gleichen Funktionswert c haben. Die dritte Möglichkeit, Funktionen mehrerer Variablen darzustellen, sind Vertikalschnitte durch die Funktion. Diese Methode ist im Gegensatz zu den beiden vorigen auch bei Funktionen von mehr als zwei Variablen anwendbar. Bei einer Funktion f: [Rn -+ IR, x i—> f(x) wählt man einen Punkt x° und eine Koordinate X;. Ein Vertikalschnitt der Funktion f durch x° entlang der x¡-Achse ist dann die Funktion f1: IR - IR, x, i— f ( x ° , . . . , x?_lf x„ x? +1 xj). Diese Funktion P beschreibt das Verhalten der Funktion f, wenn alle Komponenten außer der i-ten gleich den entsprechenden Komponenten des Punktes x° sind und nur die i-te Komponente Xj variiert. Bei Funktionen zweier Variabler erhält man einen Vertikalschnitt, wenn man entlang der x,-Achse durch den Punkt x° das Funktionsgebirge durchschneidet und die Schnittkurve betrachtet.
210
K a p i t e l I V : F u n k t i o n e n m e h r e r e r reeller V a r i a b l e n
Vertikalschnitt entlang der x ^ A c h s e
Beispiel 7: Gegeben ist die Funktion f: 1R3 IR, x i—> f(x) = xf + xf + sin(x3). Die Vertikalschnitte durch den Nullpunkt sind dann die Funktionen: f 1 : fR —»• iR, Xj i—*• f(x!,0,0) = x f . f 2 : IR —*• iR, x2 i—• f(0, x2, 0) = x|. f 3 : IR -> [R, x3 i-> f(0, 0, x 3 ) = sin(x 3 ).
Vertikalschnitt entlang der x 2 -Achse
A
Kapitel IV: Funktionen mehrerer reeller Variablen
211
§ 1.2 Punkte und Mengen im IRn D e n Punkten im IRn entsprechen Vektoren. In Kapitel II ist erklärt, wie die Länge ( N o r m ) eines Vektors definiert ist. Ähnlich wie bei zwei Punkten x u n d y aus (R definiert m a n f ü r zwei Punkte x u n d y aus dem IRn den Abstand durch die Länge des Vektors x — y. Definition: (Euklidischer Abstand im IRn) F ü r zwei Punkte x = ( x 1 ; . . . , x n ) u n d y = ( y t , . . . , y n ) des Vektorraums IR" definiert m a n den (euklidischen) Abstand durch die Größe:
Beispiel 1: Für die Vektoren x =
und y =
- 2
,
gilt:
|X - y I = 1/(2 - ( - 2 ) ) 2 + (3 - ( - 1 ) ) 2 = 1/16 + 16 = l / 3 2 = l / 2 • 4 .
A
Seien x u n d y zwei Punkte im (Rn. Als Strecke zwischen x und y bezeichnet m a n die Menge aller Punkte z(A) mit z(A) = (1 — A)x + Xy, wobei X e [ 0 , 1 ] . Wenn X von 0 nach 1 verändert wird, bewegt sich der P u n k t z(X) von x nach y. Im zweidimensionalen Fall hat m a n folgendes Bild:
V - (V,. v 2 )
F ü r P u n k t e aus dem [Rn definiert m a n die £-Umgebung eines Punktes x° e (Rn als die Menge aller Punkte, deren Abstand zu x° kleiner ist als £. Definition: (e-Umgebung eines Punktes x°) Sei x ° e (Rn. Die Menge U £ (x°), definiert durch: U £ ( x ° ) = {x e IRn| |x — x ° | < e} heißt die e-Umgebung des Punktes x°. Im eindimensionalen Fall ist die e-Umgebung das offene Intervall (x° — e, x° + g). Im zweidimensionalen Fall ist die e-Umgebung die Menge aller Punkte in einem
212
Kapitel IV: Funktionen mehrerer reeller Variablen
Kreis mit Radius e um x° und im dreidimensionalen Fall die Menge aller Punkte in einer Kugel mit Radius E um x°. Dabei gehören der Kreisrand und die Kugeloberfläche nicht dazu. Beispiel 2: Die Menge U i . ( l , l ) , d.h. die ^-Umgebung des Punktes (1,1), besteht aus den Punkten im Inneren des Kreises mit Radius ^ um den Punkt (1,1) im IR2. A *2,i
Eine Verallgemeinerung des Begriffs des offenen Intervalls ist die offene Menge im [Rn. Definition: (Offene Menge) Eine Teilmenge M 0 existiert, so daß die e-Umgebung U c (x) M ist. Eine Menge N 0 gibt, so daß für alle x e M gilt: | x | < K.
Beispiel 4: Die Menge D = {xelR 2 | - l g x ^ l und - l g x 2 g l } ist beschränkt; denn für alle x e D gilt xf + x | ^ l 2 + l 2 ^ 2 und daher | x | ^ 1/2. A
Kapitel IV: Funktionen mehrerer reeller Variablen
213
§1.3 Eigenschaften von Funktionen mehrerer Variablen Bei Funktionen einer Variablen wurde der Begriff der Stetigkeit in einem Punkt x° so definiert, daß mit gegen 0 gehendem Abstand der Punkte x zum Punkt x° auch der Abstand der Funktionswerte f(x) zu dem Wert f(x°) gegen 0 geht. Genauso definiert man für Funktionen mehrer Variablen die Stetigkeit, wobei man für den Abstand den oben definierten euklidischen Abstand verwendet. Definition: (Stetigkeit in einem Punkt) Die Funktion f: D -> IR auf der Menge D c IRn heißt stetig im Punkt x° e D, wenn es für alle e > 0 ein (von e abhängiges) 0 gibt, so daß für alle x e D mit |x — x°| < (5 gilt: |f(x)-f(x°)| IR heißt quadratisch, wenn es eine (n,n)-Matrix A, einen Vektor b e IR" und eine Zahl c e IR gibt, so daß für alle x e IR": f(x) = x T Ax + b T x + c. Die Funktionen in den Beispielen 3 bis 6 aus § 1.1 sind quadratische Funktionen. Beispiel 3: Die Funktion f: IR2 -> [R, x i—• f(x) = x j + x\ + 2xj + x 2 + 1 ist eine quadratische Funktion; wenn man setzt A = man f(x) = x T Ax + b T x + c.
1
0"
0
1
,b =
"2" 1
und c = 1, erhält A
§ 1 . 5 Produktionsfunktionen Ein wichtiges Beispiel für Funktionen mehrerer Variablen sind die Produktionsfunktionen (siehe [BÖ], S. 148ff). Diese Funktionen beschreiben die Produktion eines Guts in Abhängigkeit von den benötigten Produktionsfaktoren. Produktionsfaktoren sind z. B. Arbeit, Rohstoffe und Kapital. Bei einem festgelegten Produktionsverfahren und bekannten Faktoreinsatzmengen x 1 ; . . . , xn kann man die Menge des produzierten Guts als Funktion f ( x j , . . . , x n ) dieser Faktoreinsatzmengen angeben. Das Standardbeispiel für Produktionsfunktionen ist die Cobb-Douglas-Funktion f ( x 1 ? . . . , x n ) = axi' • x22 • ... • x„", wobei a > 0 und a t > 0 , . . . , a n > 0. Diese Funktion beschreibt die Produktion in Abhängigkeit von n Faktoren. Der einfachste Spezialfall ist eine Funktion zweier Variablen der Form f(x l 5 x 2 ) = x* • xf mit a > 0 und ß > 0. Beispiel 1: In der folgenden Zeichnung sind einige Höhenlinien und das Funktionsi
I
gebirge der Cobb-Douglas-Funktion f ( x t , x 2 ) = x^ - xf gezeigt.
216
Kapitel IV: Funktionen mehrerer reeller Variablen
Kapitel IV: Funktionen mehrerer reeller Variablen
i 1 fix,, X2) = xj •
217
A
218
Kapitel IV: Funktionen mehrerer reeller Variablen
Beispiel 2: In der folgenden Zeichnung sind einige Höhenlinien und das Funk1 3 tionsgebirge der Cobb-Douglas-Funktion f(x 1 ; x 2 ) = xf • xf gezeigt.
1
3
Höhenlinien:
V
1
Kapitel IV: Funktionen mehrerer reeller Variablen
219
1 3 f (x,, x2) = x* • Xj
IV.2 Differentialrechnung von Funktionen mehrerer Variablen § 2 . 1 Partielle Ableitungen erster Ordnung Gegeben ist eine Funktion f: D ->• (R, definiert auf einer offenen Menge D cz [Rn. Das Verhalten dieser Funktion in der Umgebung eines Punktes x° = ( x ° , . . . , x„) e D kann man untersuchen, indem man durch diesen Punkt x° Vertikalschnitte entlang der x1 bis zur x n -Achse legt und das Verhalten dieser Funktion einer Variablen in der Nähe des Punktes x® untersucht. Die Schnittfunktion f1: (x° - e, x° + e) -
IR, x, ^ f ( x ° , . . . , x, 0 .,, x„ x ? + 1 ) . . . , xn°)
beschreibt das Verhalten der Funktion f in der Nähe von x°, wenn sich nur die Variable X; verändert und alle anderen den festen Wert x° besitzen. Man kann dann
220
Kapitel IV: Funktionen mehrerer reeller Variablen
feststellen, welche Eigenschaften diese Funktionen f haben, z. B. ob sie stetig oder differenzierbar sind. Falls P in x? differenzierbar ist, erhält man als Differentialquotienten den Ausdruck: lim i ( f ( x ? , . . h-»o n
x? + h, x ?
+ 1
, x j ) - f ( x ? , . . . , x°))
Das ist der Grenzwert der relativen Änderung der Funktion f in x°, falls nur die Variable x ; verändert wird.
Definition: (Partielle Ableitung) Sei f: D IR eine Funktion mit D cz IRn und x° e D. Wenn die Schnittfunktion f" in x? differenzierbar ist, bezeichnet man diese Ableitung als die partielle Ableitung von f nach X; in x°. Man schreibt dafür: p - (x°) = lim I • ( f ( x ? , . . . , x?_ t , x? + h, x ? + 1 , . . . , x2) - f ( x ° , . . . , x°)) dx-, h->o h
8f Für die partielle Ableitung — (x) schreiben wir auch in Kurzform: dx; ^ - ( x ) = f X l (x). ÖXj
Die partiellen Ableitungen nach den Variablen x i , . . . , x n bezeichnet man als partielle Ableitungen erster Ordnung. Die Funktion f heißt partiell nach Xj differenzierbar in x°, wenn der obige Grenzwert existiert. Geometrisch ist die partielle Ableitung nach X; in x ° die Steigung der Schnittfunktion f" in x°. Das Differential der Schnittfunktion P im Punkt x? bezeichnet man als partielles Differential der Funktion f nach x ; im Punkt x°. Falls
Kapitel IV: Funktionen mehrerer reeller Variablen
221
die F u n k t i o n f nach allen Variablen x t bis x n in x° partiell differenzierbar ist, heißt sie partiell differenzierbar in x°. Wenn die F u n k t i o n in allen Punkten der Menge D nach Xj partiell differenzierbar ist (und die partielle Ableitung in D stetig ist), heißt sie in D nach (stetig) partiell differenzierbar. Falls die F u n k t i o n in D nach allen Variablen x t bis x n (stetig) partiell differenzierbar ist, heißt sie (stetig) partiell 8i differenzierbar in D. M a n berechnet die partiellen Ableitungen - — (x), indem m a n ÖXj die F u n k t i o n f ( x 1 ; . . . , x„) als Funktion nur der einen Variablen X; und alle anderen Variablen als Konstanten betrachtet u n d d a n n nach X; differenziert, wobei m a n die bekannten Regeln f ü r die Differentiation von F u n k t i o n e n einer Variablen aus Kapitel III anwendet. Die partielle Ableitung nach X; in einem P u n k t x° erhält m a n d a n n , indem m a n in der Formel f ü r die Ableitung f ü r Xj bis x n die Werte x° bis x° einsetzt. Beispiel 1: f ( x l 5 x 2 ) = 4 x 2 ' x ! ~ 3f — (x) = 8 x i - x l ; cxl
x
!•
^f —(x) = 8xf-x2-3xl. ox2
Im P u n k t x° = ( —1,2) z. B. sind die partiellen Ableitungen ^ ( x ° ) = 8 • ( —1) • 2 2 = - 32 öXi
und
(x°) = 8 • ( - 1 ) 2 • 2 - 3 • 2 2 = 4 .
öx2
A
Beispiel 2: f ^ , x 2 , x 3 ) = x\ + 2x\ + e XlX2 . 8f — (x) = 2x 1 + x 2 e x ' x 2 ; OXi
di — (x) = x x e x ' x 2 ; ox2
Beispiel 3: Gegeben ist die Funktion g(xlf tiellen Ableitungen sind: 8g — (x) = cos(Xi x 2 ) • x 2 öXj
und
8f — (x) = 4 x 3 . vx3
A
x2) = sin(x, x 2 ) + arctan(x 2 ). Die par8g 1 — - (x) = c o s ( X l x 2 ) • Xj + r . dx2 1 + x2
A
Beispiel 4: Gegeben ist die Funktion f(Xi, x 2 , x 3 ) = Xj cos(x 2 ) + 2x1 (1 — x | ) 2 + 2 a r c t a n ( x 3 ) . Die partiellen Ableitungen sind dann: 3f — (x) = 3 x 2 c o s ( x 2 ) + 2 ( l - x | ) 2 , i/Xj 3f
—
dx2
(x) = - x j s i n ( x
öf , , 2 — K (x) = 5-. 8x3 ' 1 + x2
2
) - 12Xi(l - x \ ) x \
und
A
Die partiellen Ableitungen erster O r d n u n g faßt m a n zu einem Vektor zusammen.
222
Kapitel IV: Funktionen mehrerer reeller Variablen
Definition (Gradient): Für eine Funktion f: D -> [R mit D c [Rn, die in einem Punkt x e D alle partiellen Ableitungen erster Ordnung besitzt, definiert man den Gradienten Ff(x°) wie folgt: r df 0 n 1 ^(x ) Ff(x°) =
fw
_dxn
Der Gradient ist also ein n-dimensionaler Spaltenvektor, dessen Komponenten die ersten partiellen Ableitungen der Funktion f in x° sind. Beispiel 5: Für die Funktion f(x 1; x 2 ) = 4xf x 2 — x 2 wurden die partiellen Ableitungen bereits berechnet. Der Gradient ist: 8xj X2
Pf(x) =
X2 — 3x2
Im Punkt (1,2) z.B. ist der Gradient: Ff(l,2) =
32
A
4
Beispiel 6: Sei f ^ , x 2 , x 3 ) = xf + 2x 2 + 3xf. Es ist df
— (x) = 2x t ; OX!
df
— (x) = 4x 2 ; OX2
df
— (x) = 6x 3 , und damit OX 3
2xi
Ff(x) =
4x 2 L6X3 J
A
§ 2.2 Kettenregel für Funktionen mehrerer Variablen In Kapitel III, § 3.3 wurde die Kettenregel für eine zusammengesetzte Funktion einer Variablen zur Berechnung der Ableitung dieser Funktion angegeben. Diese Regel kann man auf Funktionen mehrerer Variablen verallgemeinern, wenn die Variablen Funktionen einer Größe sind. Satz 2.1: (Kettenregel für Funktionen mehrerer Variablen) Gegeben ist eine Funktion f ( x t , . . . , x n ) mit stetigen partiellen Ableitungen erster Ordnung. Wenn n Funktionen Xj (t),..., x„ (t) einer Variablen t gegeben sind, die alle nach t differenzierbar sind und die Funktion g(t) = f f a ^ t ) , ...,x n (t)) existiert, ist diese Funktion g differenzierbar mit der Ableitung: g'(t)= £ ~(x1(t),...,xn(t)) i = l ÖXj
x i '(t).
Kapitel IV: Funktionen mehrerer reeller Variablen
223
Diese Formel für die Ableitung kann man sich durch Untersuchen der partiellen Ableitungen der Funktion f erklären. Im Falle zweier Variablen gilt: f(x, (t + h), x 2 (t + h)) - f ( X l (t), x 2 (t)) = = f(x x (t + h), x 2 (t + h)) - f( X l (t), x 2 (t + h)) + f( X l (t), x 2 (t + h)) - f(x,(t), x 2 (t)). Man betrachtet zunächst die Änderung des Funktionswerts von f, die durch die Abänderung der ersten Variablen von x, (t) auf (t + h) verursacht wird und dann die Änderung, die man durch Ersetzen des Werts der zweiten Variablen x 2 (t) durch x 2 (t + h) erhält. In beiden Fällen wird nur eine Variable verändert; man kann daher diese Änderungen mit den partiellen Ableitungen von f und den Ableitungen der Funktionen x, und x 2 beschreiben.
x, (t+ h)
(x,(t),x 2 (t + h)) •
ijc (x, (t + h), x 2 (t + h))
x 2 (t)
x,(t)
x, (t + h) x,
Mit den partiellen Differentialen von f ergibt sich die Näherung: f(x, (t + h), x 2 (t + h)) - f ( X l (t), x 2 (t + h)) + f(x, (t), x 2 (t + h)) - f ( X l (t), x 2 (t)) « p - (x 1 (t), £7Xj
x 2 (t + h)) ( X l (t + h ) - X! (t)) +
ÖX2
(t),
x 2 (t)) (X 2 (t + h) - x 2 ( t ) ) .
1 Für den Differenzenquotienten — (f(x, (t + h), x 2 (t + h)) — f ( x j (t), x 2 (t))) erhält man somit: - | f ( x t (t + h), x 2 (t + h)) - f ( X l (t), x 2 (t))
~ i (ür(Xi(t)'Xz(t+h))(Xi(t+h)_Xi(t)) +
=
df
öXi
(Xi(t)> (t))(X2(t+h) X2(t))
( m „ , ^ ^ ( t + h j - X t f t ) , df , ^ x 2 (t + h ) - x 2 ( t ) (*! (t), x 2 (t + h)) + — (X! (t), x 2 (t)) . h öx 2 h
-
224
K a p i t e l IV: F u n k t i o n e n mehrerer reeller Variablen
Da die partiellen Ableitungen von f stetig sind, ist l i m ^ ( X l ( t ) , x 2 (t + h)) = - f (x,(t), x 2 (t)); die Quotienten
h-»0 ÖXj
x
ÖX!
' +
h
) ~ xi ^ h
(i = 1, 2) gehen für h -» 0 gegen x-(t). Damit ergibt sich die Formel aus Satz 2.1. Beispiel 1: Gegeben ist die Funktion f ( x ! , x 2 , x 3 ) = Xie"2"3 und die Funktionen x1 (t) = e', x 2 (t) = sin(t) und x 3 (t) = t 2 . Für die Funktion g(t) = f( X l (t), x 2 (t), x 3 (t)) = f(e', sin(t), t 2 ) gilt dann: g'(t) =
(x) • x; (t) + Ö X j
=
OX2
ex2(.)x3(i)ei +
=
X
j
sin l ,2 + t (l e IR mit D e IR", die in D differenzierbar ist. Die Änderung des Funktionswerts, wenn man sich vom Punkt x zu einem Punkt x + h mit (h = ( h l 5 . . . , h n )) bewegt, kann man mit dem Mittelwertsatz beschreiben. Es gilt: f(x + h) - f(x) = hT • Ff(x + 0h), wobei 9 e (0,1) ist. Falls alle partiellen Ableitungen in x stetig sind, kann man näherungsweise für kleine Änderungen, d.h. wenn |h| klein ist, F f ( x + öh) durch Ff(x) ersetzen. Man erhält so die Näherungsformel: f(x + h) — f(x) « h T • Ff(x). Ausführlicher geschrieben: f (x + h) - f (x) « £ h,-f X i (x). i= 1 Bei dieser Formel gibt der Summand hj • f x . (x) eine Näherung für die Änderung des Funktionswerts an, wenn man die i-te Komponente Xj durch Xj + hi ersetzt. Man bezeichnet diese Größe l v f X i ( x ) , betrachtet als Funktion von h b wie bereits erwähnt, als partielles Differential von f in x bezüglich x^ Wenn man einen Vertikalschnitt durch x parallel zur x r Achse legt, ist dieses partielle Differential das Differential der Schnittfunktion in X;. Die Summe der partiellen Differentiale gibt eine Näherung für die gesamte Änderung f(x + h) — f(x). Man definiert: Definition: (Totales Differential) Sei f: D -> IR mit D cz IRn eine in x e D differenzierbare Funktion. Als totales Differential von f in x bezeichnet man die Funktion: Df x : IR" -> IR, h i—> Df x (h) = h T • Ff(x) = £ h, • f x i (x).
Diese Funktion Df x ist eine lineare Funktion. Es gilt näherungsweise: (1)
f(x + h) — f(x) « Df x (h).
Vorsicht: Diese Näherung ist nur sinnvoll, wenn die Funktion f in allen Punkten auf der Strecke zwischen x und x + h alle partiellen Ableitungen erster Ordnung besitzt und diese stetig sind. Je größer |h| ist und je mehr sich die partiellen Ableitungen f x . ändern, desto schlechter wird im allgemeinen die Näherungsformel (1) für die Änderung der Funktionswerte. Geometrisch bedeutet die Näherung durch das totale Differential, daß das Funktionsgebirge der Funktion in der Nähe von x° durch eine Ebene approximiert wird. Diese Ebene ist der Graph der affinlinearen Funktion n 3f t: IR" -» IR, h i—> f(x°) + (Ff(x°)) T - h = f(x°) + X —
(x0)^
226
Kapitel IV: Funktionen mehrerer reeller Variablen
Diese Ebene heißt die Tangentialebene von f im Punkt x°.
Kapitel IV: Funktionen mehrerer reeller Variablen
227
Beispiel 1: Gegeben ist die Funktion f(Xj, x 2 ) = x i + x t x 2 + x | .
Die partiellen Ableitungen sind: f Xl (x) = 2xj + x 2
und
f X2 (x) = x t + 3 x | .
Das totale Differential Df x o (h) im Punkt x 0 = (1,3) ist dann: Df X0 (h) = Z h, • f Xi (x 0 ) = h , • f x , (x 0 ) + h 2 • f X2 (x 0 ) ¡=i = h t (2 • 1 + 3) + h 2 ( l + 3 • 3 2 ) = 5 • h j + 28 • h 2 .
Es gilt f(x 0 ) = 31. Berechnet man z.B. den Funktionswert f(x 0 + h 0 ) mit h0 = ( — — so erhält man: f(x 0 + h 0 ) =
= 0,81 + 2,52 + 21,952 = 25,282.
Mit dem totalen Differential bekommt man als Näherung für diesen Wert: f(x 0 ) + hT Ff(x 0 ) = 31 + (5 • ( - - & ) + 28 • ( - * ) ) = 31 + ( - 0 , 5 - 5,6) = 24,9. Hier ist die Näherung noch recht gut. Betrachtet man hingegen h j = (—1, — 2) = 10 • h 0 , dann gilt f(x 0 + h t ) = 1, aber als Näherung mit dem totalen Differential erhält man: f(x 0 ) + hT • Pf(x 0 ) = 31 + ( - 5 • 1 - 28 • 2) = - 30. Hier bekommt man als Ergebnis eine weit vom richtigen Wert entfernte Zahl. A Beispiel 2: Betrachtet man die Cobb-Douglas-Funktion x" • xß2 mit den partiellen Ableitungen f ^ x ^ x 2 ) = a x " - 1 • x^ und f 2 ( x 1 ; x 2 ) = ßx* • x f " 1 , so hat das totale Differential dieser Funktion die Form: D f x ( h t , h 2 ) = ax?" 1 • xf • h, + ß A xf" 1 • h 2 .
A
Die Bedeutung des Gradienten kann man sich mit dem totalen Differential veranschaulichen. Sei x° ein Punkt, in dem die Funktion f den Gradienten Ff(x°) hat, und h ein beliebiger Vektor mit der festen Länge e > 0. Für die Differenz der Funktionswerte in den Punkten x° + h und x° findet man mit dem totalen Differential die Näherung: f(x° + h) - f(x°) « (Ff(x°)) T h. Aus der Cauchy-Schwarzschen Ungleichung (Kapitel II. §4.5) folgt, daß: |(Pf(x°)) T h| = |(Ff(x°))||h|, wenn h = AFf(x°) (A e (R) (d. h. wenn h und Ff(x°) linear abhängig sind) und sonst |(Ff(x°)) T h| < |(Ff(x°))||h|.
228
Kapitel IV: Funktionen mehrerer reeller Variablen
Der Betrag der Änderung ist am größten, wenn der Vektor h in die gleiche oder in die entgegengesetzte Richtung zeigen. Wenn beide Vektoren in die gleiche Richtung zeigen, ist der Anstieg der Funktionswerte in diese Richtung am größten, wenn sie genau in die entgegengesetzte Richtung zeigen, ist die Abnahme der Funktionswerte am größten unter allen möglichen Richtungen.
Richtung des steilsten Anstiegs
~ y vf(x°)
/ 1 - Vf ( x ° ) /
[
/
1
/ r
—
1 1 1 1
Richtung der steilsten A b n a h m e
Beispiel 3: Gegeben ist die Funktion f(x 1 ; x 2 ) = x^ + ^ x f . Der Gradient dieser Funktion ist
2x t
. Im Punkt (1,2) hat er den Wert
Funktion vom Punkt (1,2) ist in Richtung des Vektors ist in Richtung des Vektors
. Der steilste Anstieg der und der steilste Abstieg A
§ 2.5 Partielle Elastizitäten Bei Funktionen einer Variablen wurde der Begriff der Elastizität definiert. Analog kann man bei Funktionen mehrerer Variablen den Begriff der partiellen Elastizitäten einführen. Sie beschreiben die prozentuale Änderung der Funktionswerte als Folge einer prozentualen Änderung einer Variablen x(. Definition: (Partielle Elastizität) Sei f: D (R mit D c= IR" eine in Punkt x e D partiell differenzierbare Funktion mit f(x) =t= 0. Als partielle Elastizität £f i (x) der Funktion f in x bezüglich Xj bezeichnet man die Größe:
Kapitel IV: Funktionen mehrerer reeller Variablen
229
Die partielle Elastizität ef i ( x ) gibt ungefähr an, um wieviel Prozent sich der Funktionswert f (x) ändert, wenn nur die i-te Variable xs um 1 % verändert wird und alle anderen Variablen unverändert bleiben. Beispiel 1: Bei der Cobb-Douglas-Produktionsfunktion f ( x I ; x 2 ) = X* • \ß2 erhält man für die partiellen Elastizitäten: 8f.l(x) =
Xt • ( « X T 1 • x{) -T—, = « Aj A2
und
£ f , 2 (x) =
X
-(foVxn . —— = ß. Aj A2
2
Die partiellen Elastizitäten sind hier konstant gleich a und ß.
A
Beispiel 2: Gegeben ist die Funktion f ( x 1 ; x 2 , x 3 ) = e Xl • (x 2 + x|). Die partiellen Ableitungen sind: f X l (x) = e - ( x i + x|),
f X 2 (x) = 2 x 2 e "
und
f X 3 (x) = 3xf
e
".
Die partiellen Elastizitäten sind: _ x, • e"' • £ f
'l(X)"
£ f
'
£ f,
3( X J
, . _ 2 W
=
(X22
+
_
e Xl • (x| + x|) x2
2x 2 • e '
e--(x2
2
^
"
X l
-
2 • x2
+ xi)
x3 ^3x|•e , "
_
eXl • (x| + x l )
3 • X3 xl + x l
§ 2 . 6 Implizite Funktionen Gegeben ist eine Cobb-Douglas-Funktion der Form f ( x 1 ; x 2 ) = x^ • xf, wobei a, ß > 0 sind. Hat man feste Werte x° und x 2 , so ist der Funktionswert f(x?, x 2 ) . Bei Produktionsfunktionen interessiert man sich für die Frage, wie man den einen Produktionsfaktor ändern muß, wenn der andere verändert wurde, um den gleichen Output (Funktionswert) als vor der Änderung zu erhalten. Zum Beispiel: Wenn man den Wert von x? zu x° + Axl abändert, durch welche Größe x 2 + zlx 2 muß man x 2 ersetzen, damit der Wert f(x?, x 2 ) gleich dem Wert f(x° + Axl7 x 2 + Ax2) ist? Die ökonomische Bedeutung dieser Fragen ist in [ B Ö ] , S. 153ff. erläutert. Allgemein formuliert, gegeben ist eine Funktion f: D -» [R mit D c= IR2, und dazu ein Punkt x° = (x°, x 2 ) e D mit f ( x j , x 2 ) = c, wobei c eine feste Zahl ist. f sei in D stetig differenzierbar. Die Frage ist, wie der Wert x 2 in Abhängigkeit von der Änderung von Xj zu ändern ist, so daß der Funktionswert unverändert gleich c bleibt. Betrachtet man das totale Differential von f in x° = (x?, x 2 ), so gilt für einen Punkt (x 1 ; x 2 ): f ( X l , x 2 ) - f(x?, x°) * p-
(X°) (XX - X?) + p-
(x°) (x 2 - x ° ) .
Wenn die beiden Funktionswerte gleich sind, erhält man näherungsweise:
230
Kapitel IV: Funktionen mehrerer reeller Variablen
0
* ^ (x°) • öXi
Umgeformt, falls
ÖT öx2
(xx -
X?)
+ ~ (x°) • dx2
(x2 -
x§).
(x°) 4= 0 ist:
• (X! - X?)
ox2
(1)
x
2
* x ° - - ^
"(x.-X?).
OX2
Das heißt, falls man bei festem x, den Wert von x 2 durch die obige Formel bestimmt, ist näherungsweise f(x l5 x 2 ) gleich f(x°, x 2 ). Diese Überlegungen kann man mathematisch präzisieren und man erhält folgenden Satz: Satz 2.3: (Implizite Funktion) Sei f: D -> IR eine stetig partiell differenzierbare Funktion auf der offenen Menge öf D c: IR2. Wenn (x?, x^) 6 D ein Punkt mit f(x?, x^) = c und (x°) * 0 ist, gibt dx2 es ein s > 0 und eine differenzierbare Funktion h: (x° — e, x° + e) -* (R mit folgenden Eigenschaften: a) h(x°) = x°. b) f(x, h(x)) = c für alle x E (X? - e, x? + e). T - W C) h'(x?) = - 9
.
öx 2 Die Funktion h gibt also an, wie in Abhängigkeit von Xi die Werte von x 2 gewählt werden müssen, damit der Funktionswert gleich c bleibt. Vorsicht: Der obige Satz besagt, daß man unter den angegebenen Voraussetzungen nur in der Nähe von (x?, x^) eine solche Funktion finden kann, und nicht für beliebige Punkte. Er gibt lediglich an, wie die Ableitung dieser Funktion in x° aussieht. Falls x, nahe bei x® liegt, kann man mit der Gleichung (1) näherungsweise x 2 so bestimmten, daß f(x 1 ; x 2 ) = c. Genauso, wie hier x 2 in Abhängigkeit von x1 bestimmt wurde, kann man Xi in Abhängigkeit von x 2 bestimmen (wenn f x ^ x ? , x 2 ) 4= 0), so daß f(x 1 ; x 2 ) = c. Beispiel 1: Bei der Cobb-Douglas-Funktion gilt: ^ ( x ) = a(x?r"1(xO/
und
x) =
ß(x°ly(x°2y~1.
Kapitel IV: Funktionen mehrerer reeller Variablen
231
Man erhält in einem Punkt (x®, x 2 ) mit f (x°, x 2 ) = c für die Steigung der impliziten Funktion h:
OX2
Beispiel 2: Gegeben ist die Funktion f(x 1 ; x 2 ) = ax^ + 2bx!x 2 + c x | + d x t + fx 2
mit
a, b, c, d, f E IR.
Die partiellen Ableitungen sind: Sxj
(x) = 2ax x + 2bx 2 + d
und
öx 2
(x) = 2bx x + 2cx 2 + f.
Wenn in einem Punkt (x?, x 2 ) die Ableitung nach x 2 ungleich Null ist, kann man x 2 als implizite Funktion h ^ ) von x, darstellen mit der Ableitung: h
2ax° + 2bx° + d = ~ 2 b x ,o +, 2-,C X o +, ff • 2
A
§ 2.7 Partielle Ableitungen zweiter Ordnung und die Hessematrix Gegeben ist eine Funktion f: D -> IR mit D 2 3
82 f 8x28x3
82 f
(x1x2 + x3) '
8x1
(*ix2 + x3)2'
8x\
-1
~xf
( x ) =
fr)
-
- x , , ,2 (x1x2 +x3)
82 f -
8x38x2
(X).
Wichtig ist die folgende Eigenschaft der zweiten partiellen Ableitungen.
A
Kapitel IV: Funktionen mehrerer reeller Variablen
233
Wenn die zweiten partiellen Ableitungen in D stetig sind, gilt für alle x e D: d2i
d2f (x) = -—-— (x) 3x|3xj 5xj5xj
für 1, j = 1 , . . . , n.
Das heißt es ist gleichgültig, ob man zuerst nach X; und dann nach Xj differenziert oder umgekehrt; es kommt nicht auf die Reihenfolge an, das Ergebnis ist das gleiche. Bei den Funktionen, die im Rahmen dieses Buches behandelt werden, sind diese Voraussetzungen immer gegeben. Die zweiten partiellen Ableitungen einer Funktion faßt man zu einer Matrix zusammen. Definition: (Hessematrix) Sei f eine in dem Punkt x° zweimal partiell differenzierbare Funktion. Als Hessematrix der Funktion f in x° bezeichnet man die (n,n)-Matrix der zweiten Ableitungen in x° in folgender Form: d2f H f (x°) =
d2i
(x°)
d2i
(x°)
ÖXndXj
(x°)
5xldxn a 2 'f S 2 x„
(x°)
Sind die zweiten Ableitungen stetig, so ist die Hessematrix eine symmetrische Matrix. Beispiel 3: Gegeben ist die Funktion f ( x t , x 2 ) = x, e x ' + xj. Die ersten Ableitungen dieser Funktion sind: di , - — (x) = eX2 + 3xf 3xi
und
8f - — (x) = Xj eX2. dx?
Die zweiten Ableitungen sind d2f
-
T
öx\
( X )
= 6X1,
-
82i
-
dx1ox2
(x) = eX2,
d2f
^ (x) = oxI
XI
e X2 .
Damit hat die Hessematrix der Funktion die Form: H f (x) =
6x x
ex x, e
U m die Hessematrix H f (x°) in einem festen Punkt x° zu berechnen, m u ß man die entsprechenden Zahlenwerte in die Matrix einsetzen. F ü r den Punkt (2,1) hat z. B. die Hessematrix der Funktion f die Form: H f (2,1) =
12 e
e 2e
A
234
Kapitel IV: Funktionen mehrerer reeller Variablen
Beispiel 4: Gegeben ist die Funktion f ( x l t x 2 ) = ln(Xi • x | ) + Xi • x |
mit
x1;x2>0.
Die Ableitungen sind: df
1
ÖXJ
Xi
, ,
8i
2
öx 2
x2
— (x) = — + 3xfxl. T — ( x ) = —
Für die Hessematrix erhält man: 1
5- + 6 x , x |
H f (x) = 6xfx2
,
+2X?X2.
6X?X2
2
A 2+2xi
§ 2.8 Höhere partielle Ableitungen Ähnlich wie bei Funktionen einer Variablen kann m a n für Funktionen mehrerer Variablen auch höhere Ableitungen definieren. M a n definiert die partiellen Ableitungen n-ter Ordnung einer Funktion f induktiv als die partiellen Ableitungen erster Ordnung der partiellen Ableitungen (n — l)-ter Ordnung; man erhält die partiellen Ableitungen n-ter Ordnung also dadurch, daß man die partiellen Ableitungen (n — l)-ter O r d n u n g nach den üblichen Regeln partiell differenziert. d2f Die partielle Ableitung nach x k der zweiten partiellen Ableitung (x) bezeichdXjdXj d3f net man mit (x). Allgemein schreibt man f ü r eine partielle Ableitung m ÖXkÖXiOXj ter Ordnung, bei der nach den Variablen x ( l , x i 2 , . . . , x im differenziert wurde, mit dem Ausdruck: 5mf dxh ... 3xim
(x)
Falls bei einer solchen Ableitung k-mal nach derselben Variablen xs abgeleitet wurde, schreibt m a n im Nenner öx* statt ¿ X j . . . dx,. Zum Beispiel schreibt m a n ö4f 8A{ —r—r- (x) anstatt — - — - — (x). Öxjdxl ÖXj dx x dx2dx2 Unter der Voraussetzung der Stetigkeit der entsprechenden Ableitungen gilt, d a ß die Reihenfolge, in der nach den verschiedenen Variablen abgeleitet wird, keine Rolle spielt; man erhält immer dasselbe Ergebnis. Beispiel 1: f ( x 1 ; x 2 ) = Xj • sin(x 2 ) + Xj x 2 . Die partiellen Ableitungen erster Ordnung sind:
ÖX!
(x) = 2x, • sin(x 2 ) + x?
und
- — (x) = xf • cos(x 2 ) + 2x, x 2 . ÖX2
Kapitel IV: Funktionen mehrerer reeller Variablen
235
Die partiellen Ableitungen zweiter Ordnung: [R mit D c P heißt homogene Funktion vom Grad r, wenn für alle X e IR und alle x e D mit i x e D gilt: f(Ax) = A r ' f(x). Wenn eine Funktion homogen vom Grad 1 ist, heißt sie linear-homogen. Vorsicht: Alle linearen Funktionen sind linear-homogen, aber die meisten linearhomogenen Funktionen sind nicht linear. Beispiel 1: Für die Cobb-Douglas-Funktion f(x l 5 x 2 ) = x \ - x ß 2 gilt: • x 2 = A" + ' f ( x 1 , x 2 ).
fC/lxj, AX2) = ( A x o - ^ x j ) " =
Die Funktion ist also homogen vom Grad a + ß . Wenn a + ß = 1, ist sie linearhomogen, aber nicht linear. A Beispiel 2: Die Funktion f(x 1 ; x 2 ) = x | x f 5 ist homogen vom Grad —2, denn: f(Axu lx2) =
(/IxO5
= A" 2 •
x[
= X ~ 2 • f ( X l , x 2 ).
A
Differenzierbare homogene Funktionen haben einige Eigenschaften, die im folgenden Satz zusammengefaßt sind.
236
Kapitel I V : Funktionen mehrerer reeller Variablen
Satz 2.4: Sei f: D - * IR mit D c R " eine homogene Funktion v o m G r a d r, die in D partiell differenzierbar ist. Dann hat f folgende Eigenschaften: öf a) Die partiellen Ableitungen — (x) sind homogene Funktionen v o m ÖXj Grad r - 1. b ) Es gilt die Eulersche Gleichung: df £ x,- — ( x ) = r - f ( x ) . ¡=1 ÖXj c ) Die Summe der partiellen Elastizitäten ist gleich dem Homogenitätsgrad: Z Er, i ( x ) = i— 1
r
•
U m die Richtigkeit von a) zu sehen, untersucht man die partiellen Ableitungen in Ax = ( A x 1 ; . . . , Xxn): 1 f x . ( A x ) = lim - • ( f ( A x 1 ; . . . , AXj-!, Ax; + h, A x i + 1 , . . . , Ax n ) - f ( A x l 5 . . . , A x i ; . . . , A x J ) h^o n 1 h = lim - • ( A r ( f ( x j , . . . , X j + h-»o n /
...,xn) - f ( x j , ...,xn)))
1 h = Ar • lim - • ( f ( x 1 ; . . . , X; + - , . . . , x n ) - f ( x u . . . , x n )) h-»0 h A X = A ' " 1 lim - • ( f ( x X i h-0 n
h + - , . . . , xn) - f ( x „ A
..xn))
= Ar_1-fXi(x). Die Eulersche Gleichung zeigt man, indem man die Kettenregel für Funktionen mehrerer Variablen anwendet. M a n definiert für ein festes x e l R " die Funktion F ( A ) = f(A • x). Diese Funktion ist differenzierbar und mit der Kettenregel erhält man als Ableitung nach A: (1)
F'(A) = (Ff(A • x))T • x.
Andererseits gilt, da f eine homogene Funktion ist F ( A ) = ).T • f ( x ) und somit: (2)
F'(A) = r ; / - 1 f ( x ) .
Wenn man für A = 1 die Ableitung F ' ( l ) berechnet, erhält man durch Gleichsetzen der Gleichungen ( 1 ) und (2) die Eulersche Gleichung. Die Richtigkeit von c) erkennt man aus der Eulerschen Gleichung, wenn man die Definition der Elastizität einsetzt. Beispiel 3: Bei der Cobb-Douglas-Funktion f ^ , x 2 ) = x" • xf waren die partiellen Ableitungen:
öXi
(x) =
a
' x i _ I ' x2
und
^ ( x ) = /Jx?-x5- 1 . dx2
Kapitel IV: Funktionen mehrerer reeller Variablen
237
M a n erhält f ü r die partiellen Ableitungen in X • x: —
8xl
(A • x) = A ' + ' - ^ x i " 1 ' A = F
ein analoges Ergebnis findet man für
df ox2
+ ß
• —
ox1
(*);
(x). Teil a) des Satzes gilt also f ü r diese
F u n k t i o n . Mit den o b e n berechneten partiellen Ableitungen erhält man: ' I T " (*) + x 2 ~ 0X1
cx2
(x) = «xi • x{ + ßx\ • xf = (a + ß)x\ = (a +
• x{
ß)-i(x1,x1).
Es gilt also Teil b) des Satzes. Für die Elastizitäten gilt £f ^ x ) = a und f, 2 ( x ) = ß- Damit h a t m a n Teil c) des Satzes f ü r die C o b b - D o u g l a s - F u n k t i o n gezeigt. A £
IV.3 Extremwerte von Funktionen mehrerer Variablen § 3 . 1 E x t r e m w e r t e von F u n k t i o n e n o h n e N e b e n b e d i n g u n g e n In diesem Paragraphen soll erklärt werden, wie man bei einer differenzierbaren F u n k t i o n mehrerer Variablen auf einer offenen Menge lokale Extremwerte bestimmt. Analog zur Vorgehensweise bei Funktionen einer Variablen findet man diese d u r c h das Untersuchen der Ableitungen, die hier d u r c h den Gradienten und die Hessematrix gegeben sind. Zunächst definieren wir die Begriffe des lokalen und globalen Extremwerts f ü r diese Funktionen.
Definition: (Lokaler Extremwert) Eine F u n k t i o n f: D -» IR mit D c R " hat in einem P u n k t X ° E D ein lokales Maximum (bzw. Minimum), wenn es ein e > 0 gibt, so d a ß für alle x e D mit |x - x ° | < £ gilt: f(x) ^ f(x°)
(bzw. f ( x ) ^ f ( x 0 ) ) .
Definition: (Globaler Extremwert) Eine F u n k t i o n f: D -» (R mit D c (Rn hat in einem P u n k t x° e D ein globales Maximum (bzw. Minimum), wenn f ü r alle x e D mit gilt: f (x) ^ f (x°)
(bzw. f (x) ^ f (x 0 )).
G e n a u wie bei F u n k t i o n e n einer Variablen ist jeder globale Extremwert auch ein lokaler, aber nicht umgekehrt. Beispiel 1: f ( x t , x 2 ) = xf + x\. Diese F u n k t i o n hat in (0,0) ein globales Minimum, denn f ü r alle (x 1 ; x 2 ) e (R2 gilt:
238
Kapitel IV: Funktionen mehrerer reeller Variablen
f( x i> x 2) = x i + x 2 = f(0,0) = 0 . Aus der Zeichnung auf Seite 206 erkennt man ebenfalls das Minimum in (0,0). A Beispiel 2: Die Funktion f ( x l 5 x 2 ) = 2 - xf - xj hat in (0,0) ein globales Maximum; da f ü r alle (x l 5 x 2 ) e [R2 stets f ( x , , x 2 ) ^ f(0,0). In der folgenden Zeichnung erkennt m a n ebenfalls das Maximum bei (0,0).
Für stetige Funktionen auf einer beschränkten und abgeschlossenen Menge gilt der folgende Satz.
Satz 3.1: Sei f: D -> IR eine stetige Funktion auf einer beschränkten und abgeschlossenen Menge D c [Rn. D a n n gibt es (mindestens) einen Punkt x 0 e D und einen Punkt V ( E D mit f (XQ) ^ f ( x ) und f ( x j ^ f(x) f ü r alle x e D. Es gibt in diesem Fall also Punkte in D, in denen f ein globales Minimum und ein globales Maximum hat.
239
Kapitel IV: Funktionen mehrerer reeller Variablen
Sei jetzt f: D -> IR eine differenzierbare Funktion auf der offenen Menge D c: [Rn. Wenn f in einem Punkt x° ein lokales Maximum hat, muß es ein e > 0 geben, so daß für alle x mit | x — x° | < £ gilt f(x) f(x°) (Weil D offen ist, kann man ein e so klein wählen, daß für alle x mit | x — x° | < e stets x e D ist). Legt man einen Vertikalschnitt entlang der x r Achse durch x°, muß daher für alle x e (x? — £, x? + e) gelten: f ( x j , . . . , X®_J, X ,
X?+1, .. . , X°)
5s
f(x?, . . . , x°).
Das heißt, die Schnittfunktion f>: (xp - e, x? + e) -> IR, x i-> f ( x ° , . . . , x°_l5 x, x ? + 1 , . . . , xn°) hat in dem Punkt x° ein lokales Maximum. Da diese Schnittfunktion differenzierbar ist, muß nach Satz 3.14 aus Kapitel III gelten, daß die Ableitung dieser Funktion in xf gleich 0 ist, also: öf
n
-— (x°) = 0. ÖXJ
Man erhält folgenden Satz: Satz 3.2: Sei f: D IR eine auf der offenen Menge D a IR" definierte partiell differenzierbare Funktion. Wenn f in x° e D ein lokales Maximum oder Minimum hat, muß gelten:
öf
— (x°) = 0 ÖXj
für i = 1 , . . . , n
oder in Kurzform
Ff(x°) = 0.
Das ist analog zu den Funktionen einer Variablen, bei denen gefordert wurde, daß f' (x°) = 0 ist, nur eine notwendige Bedingung. Es gibt auch Punkte, die diese Bedingung erfüllen und in denen kein lokaler Extremwert ist. Die Punkte im Definitionsbereich einer differenzierbaren Funktion f: D -» IR mit D cz |Rn, für die gilt Vi(x) = 0, bezeichnet man als stationäre Punkte der Funktion f. Um diese Punkte zu finden, muß man das Gleichungssystem mit den n Gleichungen
8i
-— (x) = 0 und den n Unbekannten x l 5 . . . , x n lösen. Im allgemeinen ist dieses ÖXi System kein lineares Gleichungssystem. Beispiel 3: f(x 1 ; x 2 ) = x\ + x 2 . Bei dieser Funktion gilt:
di 3f - — (x) = 2xj und — - (x) = ÖXi
ox2
2X2.
Nur im Nullpunkt sind beide partiellen Ableitungen gleich 0. Die Funktion hat also nur dort einen stationären Punkt. Wie bereits vorhin gezeigt, hat die Funktion in (0,0) ein Minimum. A Beispiel 4: f(x 1 ( x 2 ) = xf — xj + 1. Bei dieser Funktion gilt:
di di (x) = 2 • Xi und — (x) = - 2 • x 2 . ÖXi ox2
240
Kapitel IV: Funktionen mehrerer reeller Variablen
Diese Funktion hat aber in (0,0) weder ein Minimum noch ein Maximum; denn für alle Punkte (x l5 0) mit x t =t= 0 gilt f(x x , 0) = xj > f(0,0) und für alle Punkte (0, x 2 ) mit x 2 + 0 gilt f(0, x 2 ) = — x | < f(0,0). Das kann man auch in der Zeichnung auf Seite 207 sehen. A Einen stationären Punkt einer Funktion f: IR2 -> [R, in dem die Funktionswerte in einer Richtung ansteigen, wenn man sich vom Nullpunkt wegbewegt und in einer anderen abnehmen, bezeichnet man sls Sattelpunkt der Funktion. Die Funktion in der obigen Zeichnung hat einen Sattelpunkt in (0,0). Um festzustellen, ob sich in einem stationären Punkt tatsächlich ein lokaler Extremwert befindet oder nicht, muß man wie bei Funktionen einer Variablen die zweiten Ableitungen untersuchen. Betrachtet man bei einem stationären Punkt x° = (x®,..., x°) die Schnittfunktionen, dann müssen in xf lokale Maxima (Minima) sein, wenn in x° ein lokales Maximum oder Minimum ist. Man könnte nun annehmen, daß sich in dem Punkt x° ein lokales Maximum (Minimum) befindet, wenn dies zutrifft. Aber das genügt nicht, wie das folgende Beispiel zeigt. Beispiel 5: f(x l 5 x 2 ) = x 2 + x 2 — 4 x t x 2 + f . Der Gradient der Funktion ist: Ff(x) =
2x,— 4x 2 2X2 - 4 x j
und die Hessematrix H f (x) =
2 -4
-4 2
Durch Nullsetzen der ersten Ableitungen erhält man das LGS: 2x t — 4x 2 = 0 4 x j - 2x 2 = 0. Die einzige Lösung ist der Punkt (0,0). In diesem Punkt gilt für die zweiten Ableitungen: 82i d2f ^ ( 0 , 0 ) = 2 und ^ (0,0) = 2. Die beiden Ableitungen sind positiv, die Schnittfunktionen entlang der Xj- und x 2 Achsen haben in 0 lokale Minima. Die Funktion f selbst hat aber in (0,0) kein lokales Minimum, wie man aus den folgenden Zeichnungen, die das Funktionsgebirge und die Höhenlinien der Funktion zeigen, erkennt.
Kapitel IV: F u n k t i o n e n mehrerer reeller Variablen
241
Wenn man sich auf der Geraden x t = x 2 vom Punkt (—1, —1) bis zum Punkt (1,1) bewegt, dann steigen die Werte f(x l 5 x 2 ) = — 2xf bis zum Punkt (0,0) an und dann fallen sie wieder ab. Die Funktion hat hier kein lokales Extremum, sie hat einen Sattelpunkt. A Um zu bestimmen, ob sich in einem stationären Punkt ein Extremum befindet, muß man die Funktionswerte aller Punkte in der Nähe des stationären Punktes x° untersuchen. Näherungsweise kann man diese Werte mit dem totalen Differentialbestimmen. Der Mittelwertsatz der Differentialrechnung ergibt: f(x° + h) - f(x°) = (Ff(x° + 0h))T h = Z f Xi (x° + 0h) • h; i= 1
Die Funktionswerte fXi (x° + 0h) kann man mit dem totalen Differential näherungsweise berechnen. Die partiellen Ableitungen der ersten Ordnung der Funktion fXl
sind die Funktionen f
; mit f x ,(x°) = 0 gilt:
f „ ( x ° + ö h ) « £ f X l X j (x o )0hj = 0- £ f X l X J (x 0 )hj. j=i j=i Eingesetzt in die Gleichung (1), ergibt das: f(x° + h ) - f ( x 0 ) « £ (0 £ f ¡ = 1 j=i
= fl i
¡=i j=i
(x^li,
hj hj f x . XJ (x°).
Dabei ist 6 e (0,1); mit der Hessematrix geschrieben, lautet die Näherungsformel: f ( x ° + h) - f(x°) « 0(h T H f (x°)h). Der Ausdruck rechts ist genau dann positiv für alle h =t= 0, wenn die Matrix H f (x°) positiv definit ist (siehe Kapitel II.6).
243
Kapitel IV: Funktionen mehrerer reeller Variablen
Satz 3.3: Sei f: D -»• [R eine auf einer offenen Menge D c K " definierte, zweimal stetig partiell differenzierbare Funktion, die in x° e D einen stationären Punkt hat. Dann gilt: a) Wenn H f (x°) positiv (negativ) definit ist, dann hat die Funktion f in x° ein lokales Minimum (Maximum), b) Wenn H f (x°) indefinit ist, hat f in diesem Punkt kein Extremum.
Dieser Satz gibt eine hinreichende Bedingung für die Exixtenz eines lokalen Extremwerts in einem Punkt an. Es gibt Funktionen, die diese Bedingung nicht erfüllen und trotzdem ein Extremum haben. Beispiel 6: Die Funktion f ( x j , x 2 ) = x{ + xf hat nur in (0,0) einen stationären Punkt. Hier hat sie tatsächlich ein lokales und auch ein globales Minimum; denn f(x l s x 2 ) = xi + Xj ^ 0 = f(0,0) für alle x e [R2. Es gilt aber für die Hessematrix H f (x) von f: H f (0,0) =
"0
0 "
0 0 obwohl ein Minimum vorliegt.
. Die Hessematrix ist hier nicht positiv definit, A
Zunächst soll ein Kriterium dafür angegeben werden, wann eine Funktion zweier Variablen in einem Punkt eine positiv oder negativ definite Hessematrix besitzt. Der allgemeine Fall wird im Anschluß daran behandelt. Wenn H f (x°) bei einer Funktion zweier Variabler positiv definit ist, muß für alle x e IR2 gelten x T H f (x°)x > 0, wenn x =1= 0. Sei die Matrix Hf (x°) = h u
h2i
und der Vektor x =
hj h2
gegeben; da wir annehmen, daß die zweiten Ableitungen
der Funktion stetig sind, gilt h 1 2 = h 2 1 . Man findet für x T H f (x°)x dann: x T H f (x°)x = h n x f + 2 h 1 2 x 1 x 2 + h 2 2 \ j Durch quadratisches Ergänzen erhält man, wenn h n =1= 0 ist: = h j j X2 + 2 h 1 2 X ! x 2 + ^ h
= h n ( X! + j ^ - x 2
u
-x! + (h22 -
V
^
"11
•x 2 =
hii hu
/ h \2 x2 = h n ( Xj + ^ - x 2 J + ^ - ( h n ' h 2 2 - h f 2 ) . Diese Größe ist genau dann größer Null für alle x =t= 0, wenn die beiden Größen h ( , und h t t h 2 2 — hf 2 größer als Null sind. In ähnlicher Weise zeigt man, für welche Werte dieser Größen die Matrix H f (x°) negativ definit oder indefinit ist.
244
Kapitel IV: Funktionen mehrerer reeller Variablen
Satz 3.4: Sei A eine symmetrische (2,2)-Matrix. Diese Matrix ist: a) genau dann positiv définit, wenn a n > 0 und det(A) > 0. b) genau dann negativ définit, wenn a l t < 0 und det(A) > 0. c) genau dann indefinit, wenn det(A) < 0.
Beispiel 7: A =
- 2
- 1
-1
-3
; A ist negativ définit, da — 2 < 0 und
det(A) = ( — 2) • ( —3) — (— l) 2 = 6 — 1 = 5 > 0 . Beispiel 8: B =
2 -3
-3 ; B ist indefinit, da -3
det(B) = 2 • ( - 3 ) - ( —3)2 = —6 — 9 = — 15. Beispiel 9: C
6 4
A
A
4 ; C ist positiv définit, da 6 > 0 und 3
det (C) = 6- 3 — 4 = 2 > 0 .
A n
Im allgemeinen Fall einer Funktion f: (R IR kann man mit den in Kapitel II angegebenen Methoden überprüfen, ob die Hessematrix in den stationären Punkten positiv oder negativ definit ist. Eine andere Möglichkeit, das zu überprüfen, ist die Berechnung von Determinanten. Einen Beweis dafür findet man in [ZU], S. 130. Diese Methode ist für n ^ 4 sehr aufwendig. Satz 3.5: Sei A = (ajj) eine symmetrische (n,n)-Matrix. Dann ist A genau dann positiv (negativ) definit, wenn für alle Matrizen A k mit au a 1 2 ••• a l k a 2 1 a 2 2 ••• a 2 k Ak = gilt, a
daß det(A k ) > 0
kl
a
k2
•••
a
kk
k
(bzw. ( - l ) d e t ( A k ) > 0)
für alle k = 1 , . . . , n.
Man hat somit folgendes Verfahren zur Berechnung lokales Extremwerte (Wir setzen voraus, daß es nur endlich viele stationäre Punkte gibt): Schema zur Berechnung der lokalen Extremwerte einer zweimal stetig partiell differenzierbaren Funktion f: D IR (D c= IR", offen) df
a) Berechne die partiellen Ableitungen -— (x), i = 1 , . . . , n. ÖX;
b) Setze alle partiellen Ableitungen gleich Null: flf — (x) = 0 ÖXj
für l = 1 , . . . , n.
Kapitel IV: Funktionen mehrerer reeller Variablen
245
c) Berechne alle Lösungen x 1 , . . . , x k dieses Gleichungssystems. Das sind die stationären Punkte der Funktion. d) Berechne die Hessematrix H f ( x ) der Funktion. e) Es gilt für die stationären Punkte x' mit i = 1 , . . . , k: 1) Hf(x') positiv definit => lokales Minimum in x1. 2) H f ( x ' ) negativ definit => lokales Maximum in x'. 3) Hf(x') indefinit => kein Extremwert in x1. 4) Wenn 1 - 3 nicht zutreffen, kann man mit der angegebenen Methode nicht entscheiden, ob in x' ein lokaler Extremwert vorliegt oder nicht. Beispiel 10: Gegeben ist f(x 1 ; x 2 ) = xtxj — xj — xj — 2x,. öf , öf 1. Schritt: (x) = x2 — 2x x — 2 und — (x) = 2x, x2 — 2 x 2 . 8xl cx-_ 2. Schritt:
(I) xj~2x1-2
= 0;
(II) 2 x ^ 2 - 2 X 2
3. Schritt:
=0.
Bei (II) wird umgeformt: 2 x 2 ( x j — 1) = 0. Man erhält als Lösungen: x 2 = 0 oder x x = 1.
Wenn x 2 = 0, folgt aus (I): x x = — 1. Wenn x t = 1, folgt aus (I): x 2 = 2 oder x 2 = — 2. Es gibt drei stationäre Punkt: x 1 = ( - 1 , 0 ) , x 2 = (1,2) und x 3 = (1, - 2 ) . 4. Schritt:
Hf(x) =
5. Schritt:
Hf(xx) =
-2 2x 2
2x 2x,
'-2 0
o"
-4
Diese Matrix ist negativ definit; denn — 2 < 0 und det (H f (x 1 )) = 8 > 0 . Daher ist in x 1 ein lokales Maximum. Hf(x2) =
- 2
4
Diese Matrix ist indefinit; denn det(H f (x 2 )) = — 16 < 0. Daher ist in x 2 ein Sattelpunkt. Analog zeigt man, d a ß in x 3 ebenfalls ein Sattelpunkt ist. A Beispiel 11: Gegeben ist die Funktion f(x 1 ; x 2 ) = xf — 2x1 x 2 + 1. Schritt: 2. Schritt:
8f - — (x) = 2xi — 2x2 OXi
und
df - — (x) = — 2x1 + x 2 . öx 2
(I) 2 x 1 - 2 x 2 = 0. (II) — 2x1 — x 2 = 0 .
3. Schritt: Aus (I) folgt: X! = x 2 . Eingesetzt in (II) erhält man: —2x 2 + x 2 = 0 x 2 ( x 2 — 2) = 0. Als stationäre Punkte findet man x 1 = (0,0) und x 2 = (2,2). 4. Schritt:
Hf(x) =
2 - 2
- 2
2x,
246
Kapitel IV: Funktionen mehrerer reeller Variablen
H f (x x ) =
5. Schritt:
2
- 2
-2
0
ist indefinit,
da deUHfix 1 )) = - ( - 2 ) 2 = - 4 < 0. In x 1 ist daher ein Sattelpunkt. Die Matrix H f (x 2 ) =
2
ist positiv définit, da 2 > 0 und
- 2
det(H f (x 2 )) = 8 — 4 = 4 > 0. In x 2 ist also ein Minimum.
A
Beispiel 12: Gegeben ist die Funktion f(x 1 ; x 2 , x 3 ) = 2xf + 2 x t x 2 + x\ + 4x1 + 2x t . Der Gradient ist: Pf(x) =
4x t + 2x 2 + T 2 x j + 2x 2 L8x3
M a n hat damit für die stationären Punkte folgendes Gleichungssystem: (I) (II) (III)
4x t + 2x 2 + 2 = 0 2 X l + 2x 2 =0 8x 3 = 0
Aus (III) folgt x 3 = 0; aus (I) und (II) erhält man Xi = — 1 und x 2 = 1. Man hat einen stationären Punkt in ( — 1,1,0). Die Hessematrix ist: H f (x) =
4 2 L0
2 2 0
0 0 8J
Man kann die Definitheit mit dem Kriterium aus Satz 3.5 mit dem Determinantenkriterium überprüfen; die entsprechenden Determinanten sind alle positiv. det(4) = 4 > 0,
det
[Î1]
= 4> 0
und
det(H f (x)) = 32 > 0;
deshalb ist die Hessematrix positiv definit. Im Punkt ( — 1,1,0) hat die Funktion also ein lokales Minimum. A Beispiel 13: Gegeben ist die Funktion f(xl5x2) =
x? - 4x, 1 + x2
auf IR2
Die Ableitungen sind: ôf ^
( X ) =
df
— 2 x t ( x | — 4x 2 ) 2 2
(1+X )
und
3x 2 — 4
Kapitel IV: Funktionen mehrerer reeller Variablen
247
Durch Nullsetzen erhält man das Gleichungssystem: -2Xl(x|-4x2) (1+x?)2
i+x22
=
0
=
0.
A u s der zweiten Gleichung findet man x| = § und daraus x 2 = + j / f eingesetzt in die erste Gleichung erhält man
= 0. M a n hat also zwei stationäre Punkte (0, [ / f )
Xl
und (0, — j / j ) . D i e Hessematrix der Funktion ist: 2(X|-4X2)(3X?-1) Hf(x) =
-2x
1
(3xl-4)
d+xf)
(1 + x?) 3 — 2 x t ( 3 x | — 4)
2
6X2
1 + xf
(1+x?)2
Durch Einsetzen der Werte erhält man: 32 H f (0, j / f ) =
— r 3 ]ß
0
o
12
0
32 Hf(0, - ) / $ ) =
0
3|/3 0
12
In dem ersten Punkt ist die Hessematrix also positiv definit und daher ist d o r t ein M i n i m u m ; im zweiten negativ definit und daher ist dort ein M a x i m u m . In der folgenden Zeichnung ist der G r a p h der Funktion mit den Extremwerten zu sehen. (Beachten Sie die Vertauschung der A c h s e n . ) A
248
Kapitel IV: Funktionen mehrerer reeller Variablen
x:? -
4x,
§ 3.2 Extremwerte unter Nebenbedingungen Im vorhergehenden Abschnitt wurde gezeigt, wie man lokale Extremwerte einer Funktion mehrerer Variablen finden kann. In vielen Anwendungen ist man aber daran interessiert, Extrema unter gewissen Nebenbedingungen zu finden. Bei einer Cobb-Douglas-Funktion z. B., die die Produktion in Abhängigkeit von zwei Produktionsfaktoren beschreibt, sieht man, daß man durch beliebiges Vergrößern der Einsatzmengen eines oder beider Faktoren eine beliebig große Produktion erreicht werden kann. In der Realität unterliegen die möglichen Einsatzmengen aber gewissen Restriktionen (z.B. Kosten). Man sucht daher eher einen Extremwert unter der Restriktion, daß die Kosten unter einer gewissen Schranke bleiben. Wenn die Einsatzkosten für den Faktor 1 pro Einheit gleich a sind und für den Faktor 2 gleich b, sind die Gesamtkosten bei Xi Einheiten des Faktors 1 und x 2 Einheiten des Faktors x 2 gleich a x j + bx 2 . Eine realistische Fragestellung für eine optimale Produktion wäre also: Suche die Faktoreinsatzmengen und x 2 , für die unter der Restriktion a x j + bx 2 :g K (K ist eine vorgegebene Konstante) die Produktion Xj • xf maximal ist. Man sucht also einen Extremwert unter der Nebenbedingung, daß die Kosten unter einer gewissen Schranke liegen.
249
Kapitel I V : Funktionen mehrerer reeller Variablen
X
1
3
/
\ i •
/ /
\
i i 2 I
/
\ i i i i
--I
• I, • - •
x;
- 2
Höhenlinien: f (x , X ) = 1
2
— : c = —5 und —3
1 + X?
:c = -1,5 und-0,5 : c = 0 —
—
: c = 0,5 und 1,5 : c = 3 und 5
Diese Nebenbedingungen sind meist in der Form von Gleichungen oder Ungleichungen gegeben. Wir befassen uns hier nur mit dem Fall, daß die Nebenbedingungen in Gleichungsform gegeben sind. (Für eine kurze Behandlung des allgemeinen Falls siehe [ H A ] , S. 199ff.)
Definition: (Lokaler Extremwert unter Nebenbedingungen) IR mit Gegeben sind die Funktion f: D [R und die Funktionen g 1 ( . . . , g k : D D 0 gibt, so daß für alle x 6 D n U £ ( x ° ) mit g l (x) = ... = g k ( x ) = 0 gilt: f(x) g f(x°)
(bzw. f ( x ) ^ f ( x 0 ) ) .
Wenn die obige Ungleichung für alle x e D mit g ! (x) = ... = g k (x) = 0 erfüllt ist, dann sagt man, daß f in x° ein globales Maximum (bzw. Minimum) unter den Nebenbedingungen g x (x) = ... = g k ( x ) = 0 hat.
250
Kapitel IV: Funktionen mehrerer reeller Variablen
Im Gegensatz zu dem Begriff des lokales oder globalen Extremwerts ohne Nebenbedingungen wird hier nur gefordert, daß für alle Punkte, in denen zusätzlich gj (x) = ... = g k (x) = 0 gilt, die Funktionswerte die obigen Ungleichungen erfüllen. In den folgenden Zeichnungen sind für den Fall einer Nebenbedingung Minimum und Maximum veranschaulicht.
Kapitel IV: Funktionen mehrerer reeller Variablen
251
Beispiel 1: f(x l 5 x 2 ) = x t + x 2 . Die Nebenbedingung sei durch die Funktion g: IR2 -> IR, (x l s x 2 ) h-» g(x l 5 x 2 ) = xf + Xj — 1 gegeben. Die Punkte, für die gilt g (x!, x 2 ) = 0, sind die Punkte auf dem Kreis um den Nullpunkt mit Radius 1. In der folgenden Abbildung ist dieser Kreis und die Höhenlinien der Funktion f eingezeichnet.
Aus der Zeichnung erkennt man, daß die Funktion f in dem Punkt globales Maximum und in dem Punkt hat.
ein
ein globales Minimum A
Wenn in einem Punkt ein lokaler Extremwert ohne Nebenbedingungen vorliegt, ist dort auch ein lokaler Extremwert unter beliebigen Nebenbedingungen; das gilt aber natürlich nicht umgekehrt. Das Problem ist nun, alle Extremwerte unter Nebenbedingungen zu finden. Um diese Punkte zu finden, geht man ähnlich vor wie im Falle von Extrema ohne Nebenbedingung. Man leitet zunächst notwendige Bedingungen für die Punkte her, in denen solche Extrema sein können; dann überprüft man, ob in diesen Punkten tatsächlich Extrema sind. Als notwendige Bedingung, die in allen Punkten erfüllt sein muß, in denen ein Extremwert unter Nebenbedingungen auftritt, wird ein Gleichungssystem für die partiellen Ableitungen hergeleitet.
252
Kapitel IV: Funktionen mehrerer reeller Variablen
Seien zwei differenzierbare Funktionen f und g gegeben und im x° sei ein lokales M a x i m u m von f unter der Nebenbedingung g(x) = 0 und es gelte Fg(x°) # 0, d a n n gibt es, wie in § 4.5 in Kapitel II beim Begriff der Orthogonalprojektion erläutert, eine Zahl X und einen Vektor z e [Rn mit Ff(x°) = XVg{\°) +z mit(Pg(x°)) T • z = 0. M a n betrachte jetzt zwei Punkte x° + öz und x° — dz, wobei S eine kleine Zahl sei. Es gilt f ü r diese Punkte mit dem totalen Differential: g(x° + Sz) » g(x°) + (Fg(x°)) T i5z = 0 + .
a a
unter den Bedingungen
U X1 + a 12 x 2 + • • + a ln X n + Xn+ 1 a X +Xn + 2 21 X1 + a 22 X2 + • • + 2 n n + ml X l + am2X2 + • • + amnXn
+ Xn + m
,0gxn, 0^xn
(6)
= bt = b2 =
Und
bm
+1 , . . . , 0 i S x n + m.
Die zusätzlichen Unbestimmten x n + 1 , . . . , xn + m heißen Schlupfvariablen (oder auch Hilfsvariablen). Die Bedingung (5) läßt sich in der Matrizenform als A • x = b mit a
ln 2n
1 0
0 1
mn
0
0
und
b=
a
A =
a
x =
x
2
X„4
£ [R""1
"b, b2
6 IR"
270
Kapitel V: Lineare Optimierung
schreiben. Die Nichtnegativitätsbedingung (6) wird als 0 x geschrieben. Das "-Zeichen ist dabei komponentenweise zu verstehen, d.h. x ä 0 genau dann, wenn für alle i = 1 , . . . , n stets X; ^ 0 gilt. Das durch die Bedingungen (5), (6) gegebene Teilmenge G von IRn + m heißt das zulässige Gebiet des Problems, G = {xelR n + m | A - x = b und 0 g x}. Die Elemente u. »1 u2 von G heißen zulässige Punkte des Problems. Ein Vektor u = e [RnH mit A u = b heißt eine Basislösung des linearen Gleichungssystems A • x = b, wenn es m linear unabhängige Spalten von A mit den Indizes i 1 ; i 2 gibt so, daß Uj = 0 für alle i $ {i^ i 2 , . . . , im} gilt. Die Variablen x h , x i 2 , . . . , xim heißen Basisvariablen der Basislösung u. Aus der linearen Unabhängigkeit der Spalten mit den Indizes i l 5 . . . , im folgt, daß die Basislösung u durch die Basisvariablen x h , x b , . . . , xim eindeutig bestimmt ist. Eine Basislösung u heißt zulässig, wenn u ein zulässiger Punkt des Problems ist, d. h. wenn A u = b und 0 g u gilt. Ein zulässiger Punkt v, V2 e G heißt optimal, wenn für alle zulässigen Punkte x = eG stets z(v) = c 0 + c t Vj + ... + c n v„ ^ z(x) = c 0 + C! X[ + ... + c n x„ gilt, d.h. wenn die Zielfunktion in diesem Punkt ihr Maximum auf G erreicht. Das Problem (4), (5), (6) heißt lösbar, wenn es einen optimalen zulässigen Punkt gibt. Beispiel 1: Das Einführungsbeispiel liefert die Standardform
(7)
Xj + 2x 2 + x 3 2x t + x 2 + x4 + x5 3x, + x 2 0 g x 1 ; 0 g x 2 , 0 g x3, 0
=13 =11 = 15 g x 4 , 0 g x5
Die zu maximierende Zielfunktion ist z = 50x! + 40x 2 . Es ist n = 2, m = 3. In Matrizenform läßt sich (7) als (8)
-1 2 1 2 1 0 _3 1 0
0 0-1 1 0 0 1_
xr =
-x5-
rl3-| 11 _ 15 _
schreiben.
Sei A die (3,5)-Matrix links in der Gleichung (8). Die letzten drei Spalten von A sind offensichtlich linear unabhängig. Um die Basislösung mit den Basisvariablen x 3 , x 4 , x 5 zu ermitteln, werden die restlichen Variablen xx und x 2 gleich Null gesetzt. Man erhält so die Basislösung Uj = (0, 0, 13, 11, 15)T. Diese Basislösung ist sogar zulässig, da alle Komponenten von Uj nichtnegativ sind. Die ersten drei Spalten der Matrix A sind ebenfalls linear unabhängig, setzt man hier x 4 = x 5 = 0 und löst die Gleichung (8), erhält man zu den Basisvariablen x l 5 x 2 , x 3 die Basislösung u 2 = (4, 3, 3, 0, 0)T. Dies ist ebenfalls eine zulässige Basislösung. Die zweite, dritte und die vierte Spalte der Matrix A sind linear unabhängig. Der Ansatz Xi = x 5 = 0 liefert die Basislösung u 3 = (0,15, —17, —4, 0) T mit den Basisvariablen x 2 , x 3 , x 4 . Diese Basislösung ist nicht zulässig.
Kapitel V: Lineare Optimierung
271
Betrachtet man nur die ersten zwei Komponenten der zulässigen Basislösungen u x und u 2 , erhält man die Eckpunkte (0,0) = O und (4,3) = B des Polyeders P aus dem Einführungsbeispiel im § 1. M a n könnte sich davon überzeugen, daß jede zulässige Basislösung auf diese Weise genau einem Eckpunkt von P entspricht und umgekehrt. A Satz 1: Es sei ein Problem der linearen Optimierung in der Standardform (4), (5), (6) mit einem nichtleeren zulässigen Gebiet G gegeben. Es gilt: a) Das Problem ist genau dann lösbar, wenn die Zielfunktion (4) auf dem zulässigen Gebiet G nach oben beschränkt ist, d. h. wenn es ein M e iR mit Co + c i x i + ... + c n x n = z(x l 5 . . . , x n + m ) ^ M für alle
e G gibt.
b) Wenn das Problem lösbar ist, dann gibt es eine optimale zulässige Basislösung, d.h.: Das Maximum der Zielfunktion auf G wird in einer zulässigen Basislösung erreicht. Ein Beweis des Satzes 1, der doch etwas langwierig ist, findet sich z.B. in [ O H ] . Wenn die Zielfunktion auf dem zulässigen Gebiet nicht nach oben beschränkt ist, so sagt man daß das Problem unbeschränkt ist. Ein Problem der linearen Optimierung mit einem nichtleeren zulässigen Gebiet ist also entweder lösbar oder unbeschränkt. Zwei Basislösungen des linearen Gleichungssystems (5) heißen benachbart, wenn sie m — 1 Basisvariablen gemeinsam haben. So sind im Beispiel 1 die Basislösungen u l 5 u 3 und die Basislösungen u 2 , u 3 benachbart; die Basislösungen u„ u 2 sind dagegen nicht benachbart. Der Simplex-Algorithmus besteht darin, daß man schrittweise von einer zulässigen Basislösung zu einer benachbarten zulässigen Basislösung übergeht, wobei sich der Wert der Zielfunktion nicht verkleinert. Falls das Problem überhaupt lösbar ist, wird nach endlich vielen Schritten (unter gewissen Einschränkungen) eine optimale zulässige Basislösung erreicht. Falls das Problem nicht lösbar ist (das ist nach dem Satz 1 genau der Fall, daß die Zielfunktion auf dem zulässigen Gebiet G nicht nach oben beschränkt ist), so wird dieses durch den Algorithmus festgestellt. Es werden folgende Einschränkungen gemacht: a) Für alle zulässigen Basislösungen, die während der Berechnung erreicht werden, wird vorausgesetzt, daß sie sämtlich nichtdegeneriert sind, d. h. daß für jede zulässige Basislösung u = ( u , , . . . , u n + m ) T mit den Basisvariablen x h , . . . , x i m stets u it > 0 , . . . , u im > 0 gilt oder äquivalenterweise: genau m Komponenten von u sind positiv. Dadurch wird gewährleistet, daß bei jedem Schritt des Algorithmus der Wert der Zielfunktion echt verbessert wird. Der Algorithmus wird unter dieser A n n a h m e tatsächlich nach endlich vielen Schritten beendet sein. b) Bevor der eigentliche Simplex-Algorithmus gestartet werden kann, benötigt man eine zulässige Anfangsbasislösung. Im allgemeinen ist die Bestimmung einer solchen Basislösung schwierig. Diese Schwierigkeit kann dadurch vermieden werden, wenn man für die Größen b ^ - . - . b , , , im linearen Gleichungssystems (5) voraussetzt, daß sie alle positiv sind. Diese Voraussetzung bewirkt insbesondere,
272
Kapitel V: Lineare Optimierung
daß das zulässige Gebiet des gegebenen Problems nichtleer ist. Es gibt also entweder eine optimale Lösung des Problems oder das Problem ist unbeschränkt. Die beiden Einschränkungen sind für die weiteren Betrachtungen unwesentlich, da sie von den meisten konkreten Problemen erfüllt werden. Die Gleichungen (4), (5) der Standardform bilden ein lineares Gleichungssystem mit m + 1 Gleichungen und n + m + 1 Unbestimmten x 1 ? . . . , x n + m , z. Wir schreiben die Gleichung (4) in der Form d x + d 2 x 2 + ... + dnx„ + z = d 0 mit d 0 = c 0 , di = — Cj, d 2 = — c 2 , . . . , d n = — c n um. Man faßt diese Gleichungen, wie bereits bei dem Gaußschen Eliminationsalgorithmus, zu einer Matrix, zum sog. (Anfangs-)Simplex-Tableau zusammen. X
1
x2
•
X
2n
1 0
0 1
0 0
z 0 0
b, b2
mn
ö
0
1
ö
b„
0
0
0
1 d0
n
a
n
a
l 2
•
a
i„
a
21
a
22
•
a
a
ml
a
m2
•
a
di
d2
. • dn
X
n +1
X
n +2
X
n + m
Die Unterteilung der Matrix durch die Linien dient der Übersichtlichkeit. Die letzte Zeile des Simplex-Tableaus heißt die Zielfunktionszeile. Man kann diesem Tableau schon direkt eine Basislösung u0 = ( u o a , . . . , u 0 , n + m)T mit den Basisvariablen x n + i , ...,x n + m entnehmen, nämlich u 0 ,i = 0 , . . . , u 0
n
= 0, u0
n+ i
= bi, u0>n + 2 = b 2 , . . . , u 0>n + m = b m .
Da die Zahlen b l 5 . . . , bm sämtlich positiv sind, ist diese Basislösung zulässig und nichtdegeneriert. Mit dieser zulässigen Basislösung u0 wird das Verfahren gestartet: 1) Optimalitätstest: Zuerst stellt sich die Frage, ob die zulässige Basislösung u0 optimal ist. Die Zielfunktion erreicht im Punkt u0 den Wert z (u 0 )
= z = d 0 - diu 0 ,i - d 2 u 0 , 2 - ... - d n u 0 , n - 0 • u0)„ + 1 - ... - 0 • u0>n + m = d 0 .
Falls für alle i = 1 , . . . , n stets d| S: 0 gilt, so ist für jeden zulässigen Punkt x = ( x i , . . . , xn + m ) T e G wegen 0 x offensichtlich n
z(x) = d 0 - £ djXj ^ d 0 = z(u 0 ). i= 1
Die zulässige Basislösung u0 ist in diesem Fall optimal. Falls u0 nicht optimal ist, fährt man mit dem Verfahren fort. 2) Bestimmung der Pivotspalte: Falls ein dj < 0, i = 1,..., n, ist, dann bestimmt man ein j0 so, daß d jo rg dj für alle j = 1,..., n ist. Es gilt natürlich d jo < 0. Die Spalte des Tableaus mit dem Index j0 ist nun die Pivotspalte für den nächsten Schritt des Simplex-Algorithmus. 3) Lösbarkeitstest: Falls für alle i = 1 , . . . , m stets a ijo ^ 0 gilt, so ist das Problem unbeschränkt: Für jedes X > 0 ist dann der Punkt y = (y^ ..., yn + m) mit
Kapitel V: Lineare Optimierung
yjo = ^
yn+i = b i - A a l j o ,
yn + 2 = b 2 - A a 2 j 0 , . . . , y n + m = b m - A a m j o
273
und
y¡ = 0
sonst
ein zulässiger Punkt des Problems. Die Zielfunktion erreicht in diesem Punkt den Wert z (y) = d 0 — d j o y jo = d 0 — d j o X . Da d j o < 0 und Ä beliebig groß positiv gewählt werden kann, ist die Zielfunktion auf dem zulässigen Gebiet nicht nach oben beschränkt. Im anderen Fall fährt man mit dem nächsten Punkt fort. 4) Bestimmung der Pivotzeile: Wir nehmen jetzt an, daß wenigstens einer der Koeffizienten a i j o mit i = 1 , . . . , m positiv ist. Man betrachtet für alle i = 1 , . . . , m, für die a i j o positiv ist, den Quotienten —L und bestimmt ein i 0 so, daß dieser a
Uo
Quotient minimal ist. Die i 0 -te Zeile des Tableaus ist die Pivotzeile für den nächsten Schritt des Simplex-Algorithmus, der Koeffizient a i o j o ist das Pivotelement. 5) Berechnung der nächsten zulässigen Basislösung: Man führt nun nacheinander im Simplex-Tableau die elementaren Zeilenumformungen 1
Zi0==
a
iojo
: =
Z
-z i o ,
z¡ ••= z¡ — a i j o • z¡0
(i = 1, . . . , m ; i * i 0 )
und schließlich Z
m +1
m +1
—
dj
0
Z
io '
Dies ergibt ein neues Simplex-Tableau: X
X
1
X
x„
jo
X
n +1
n + 2
X
a'i.i
•••
'l,n
1
•••
a
a'2,1
••• 0
•••
a
2,n
0
1
•••
a
a
io.l
•••
1
•••
a
i0,n
0
0
• • •
a
m,l
• • 0
•••
a
m,n
0
0
•••
...
d;
0
0
••• d'n + ¡0
...
0
l , n + i0 2 . n + i0
a
a
X
n + io
a
d\
0
•••
••• 0
z
•••
0
0
b'i
•••
0
0
b'2
0
0
b;„
•••
1
0
bm
•••
0
1
d'o
¡ o , n + ¡0
m , n + i0
n + m
Es gilt (11)
b;0 = b i o /a i o j o ^ 0
und für i = 1 , . . . , m mit i =1= i 0 : (12)
b[ = bi-
a i j 0 • b;0 = bi-
a ij0 • (b i o /a i o j o ) £ 0.
Aus dem Tableau (10) läßt sich die neue Basislösung mit den Basisvariablen
ux = ( u l t l , . . . , U j
x jo , x n + 1 , . . . , xn + io _ 1 , x n + i o + 1 , . . . , x„ + m
sofort ablesen. Es ist U
U
l.jo
=
b
io>
l.n + i 0 +l
=
U
l,n
+ 1 =
b'i, . . . , U
b i o + l , •••, Ul
n+m
l t n
+ io _ 1
= bm.
= b; o _!,
n + m)
T
274
Kapitel V: Lineare Optimierung
Wegen (11), (12) ist diese Basislösung u, zulässig. Da nur nichtdegenerierte Basislösungen vorausgesetzt worden sind, gilt für alle i = 1 , . . . , m sogar b\ > 0. Man beachte, daß sich die vorletzte Spalte, die der Variablen z entspricht, bei dem Übergang vom Tableau (9) zum Tableau (10) nicht verändert hatte. Die Koeffizienten an den Positionen i 0 , n + l , . . . , n + i 0 — l , n + i 0 + l , . . . , n + m der Zielfunktionszeile sind sämtlich Null, die Zielfunktion erreicht daher in der soeben berechneten zulässigen Basislösung den Wert z (u,) = z = dj,. Es gilt also d'0 = d 0 - d j o b ; o > d 0 = z(u 0 ); der Wert der Zielfunktion wurde im Punkt u t gegenüber dem Wert im Punkt u 0 echt verbessert. Die zulässigen Basislösungen u0 und u t sind benachbart; man sagt auch, daß die Basisvariable x n + io der Basislösung u 0 durch die Basisvariable x jo vertauscht worden ist. Man wiederholt dieses Verfahren mit der aktuellen zulässigen Basislösung u t anstelle von u 0 . Man rechnet dabei mit den Basisvariablen X
j„, Xn + 1> • • • > Xn + i0-l> Xn + i0 + l> • • • ' Xn + m
anstelle der Basisvariablen x n + 1 , . . . , x n + m . Es läßt sich wieder entweder eine neue zulässige Basislösung u 2 ermitteln, die den Wert der Zielfunktion gegenüber der Basislösung Uj verbessert, oder es zeigt sich, daß das Problem unbeschränkt ist. Da bei jedem Schritt der Wert der Zielfunktion echt verbessert wird und es nur endlich viele zulässige Basislösungen gibt, wird der Algorithmus nach endlich vielen Schritten beendet sein. Wird die optimale Lösung v = (v1,v2,...,vn,vn+1,...,vn+m)TeRn
+m
erreicht, so bilden die ersten n Komponenten von v, d.h. der Vektor (Vj, v 2 , . . . , v n ) T e IR", eine optimale Lösung des ursprünglichen Problems (1), (2), (3). Der Simplex-Algorithmus läßt sich wie folgt kurz zusammenfassen: Simplex-Algorithmus: SA1: Erstelle das Anfangs-Simplex-Tableau. SA2: Optimalitätstest: Falls die aktuelle zulässige Basislösung optimal ist, dann gib diese Basislösung als Ergebnis aus. STOP. SA3: Bestimme die Pivotspalte. SA4: Lösbarkeitstest: Falls das Problem unbeschränkt ist, melde: „Das Problem ist unbeschränkt". STOP. SA5: Bestimme die Pivotzeile. SA6: Berechne die nächste zulässige Basislösung. Gehe nach SA2. Dem Leser wird empfohlen, bevor er sich mit dem nächsten Beispiel beschäftigt, die einzelnen oben angegebenen Schritte des Simplex-Algorithmus mit der Beschrei-
Kapitel V: Lineare Optimierung
275
bung des Übergangs von der zulässigen Basislösung u0 zur Basislösung Uj zu vergleichen. Beispiel 2: Zu maximieren ist die Zielfunktion (13)
z = 2 + 2Xi + x 2 - 2 x 3
unter den Bedingungen 4xj — 4 X 2 - x 3 ^ 3 (14)
x
i + 3 X 2 + x3 2 X , + X 2 - 2 X 3 ^ 4
0 ^ x „ 0 ^ x2, 0 ^ x 3 . Es ist m = n = 3. Um dieses Problem in die Standardform zu bringen, werden drei Schlupfvariablen x 4 , x 5 , x 6 eingeführt. Wir erhalten das Problem in der Standardform: Maximiere die Zielfunktion z = 2 + 2x, + x 2 — 2x 3 unter den Bedingungen — 4 X 2 — x3 + X 4 =3 x 1 + 3x 2 + x 3 +x5 =2 xi+x2-2x3 +x6 = 4 0 ^ x 1? 0 ^ x 2 , 0 ^ x 3 , 0 g x 4 , 0 ^ x 5 , 0 ^ x 6 .
4XI
Das Anfangs-Simplex-Tableau hat die Form x2 -4 3 1
Xi |4| 1 1 -2
x3 -1 1 -2
x4 1 0 0
x5 0 1 0
x6 0 0 1
z 0 0 0
3 2 4
2
0
0
0
1
2
-1
Aus dem Tableau kann die zulässige (Anfangs-)Basislösung u0 = (0, 0, 0, 3, 2, 4) T mit den Basisvariablen x 4 , x 5 , x 6 sofort abgelesen werden. Unter den ersten sechs Koeffizienten der Zielfunktionszeile ist —2 der kleinste und negativ. Die erste Spalte ist also die Pivotspalte für den nächsten Schritt. Die oberen drei Koeffizienten der Pivotspalte sind nicht alle kleiner oder gleich Null, die aktuelle zulässige Basislösung u0 kann somit verbessert werden. Man bildet nun für die ersten drei Zeilen jeweils den Quotienten des Elementes der letzten Spalte mit dem der Pivotspalte. Unter den Zahlen 3/4,2/1,4/1 ist die erste die kleinste positive, die erste Zeile ist also die Pivotzeile. Das Pivotelement ist im Tableau eingezeichnet. Die elementaren Zeilenumformungen Zj
4
' Z„
Z2
liefern das neue Tableau:
z2
Zj,
Z3
z3
Zj,
z 4 :== z 4 -f- 2z t
276
Kapitel V: Lineare Optimierung
Die neue zulässige Basislösung = ( 3 / 4 , 0 , 0 , 0 , 5/4,13/4) T hat die Basisvariablen x l 5 x 5 , x 6 . Es gilt z(Uj) = 7/2, das ist die Zahl in der unteren rechten Ecke des Tableaus. Unter den ersten sechs Koeffizienten der Zielfunktionszeile ist die Zahl — 3 die kleinste und negativ, die zweite Spalte ist also die Pivotspalte für den nächsten Schritt. Für die Zeilen, die in der Pivotspalte einen positiven Koeffizienten haben, bildet man nun den Quotienten des Elements der letzten Spalte mit dem der Pivotspalte. Unter den Quotienten (5/4)/4 = 5/16 und (13/4)/2 = 13/8 ist der erste der kleinere, die zweite Zeile ist dadurch als Pivotzeile bestimmt worden. Die elementare Zeilenumformungen Z2
:
=
4
Zj : = Zj "h Z2,
' Z2,
Z3 : =
Z3
2Z2,
Z4.
Z4 -f- 3z 2
liefern das nächste Simplex-Tableau:
Die neue zulässige Basislösung u 2 = (17/16, 5/16, 0, 0, 0, 21/8) T mit den Basisvariablen x 1 ; x 2 , x 6 ist, da die ersten sechs Koeffizienten der Zielfunktionszeile sämtlich nichtnegativ sind, optimal. Der Vektor v = (17/16, 5/16, 0) T ist eine optimale Lösung des gegebenen Problems (13), (14). Es gilt z(v) = 71/16. A Beispiel 3: Das Einführungsbeispiel liefert (vgl. Beispiel 1) das folgende AnfangsSimplex-Tableau: Xl 1 2 IU
-50
2 1 1 -40
x3 1 0 0
x4 0 1 0
x5 0 0 1
z 0 0 0
13 11 15
0
0
0
1
0 u 0 = (0, 0,13,11,15) T z(u0) = 0
(Die Basisvariablen der aktuellen zulässigen Basislösung sowie das Pivotelement sind jeweils eingezeichnet).
277
Kapitel V: Lineare Optimierung
Wir erhalten folgende Rechnung:
u 3 = (3, 5, 0, 0 , 1 ) T z(u 3 ) = 350 Die ersten fünf Koeffizienten der Zielfunktionszeile sind sämtlich nichtnegativ, die zulässige Basislösung u 3 = (3, 5, 0 , 0 , 1 ) T ist also optimal. Die ersten zwei K o m p o nenten des Vektors u 3 sind die Koordinaten eines Punktes des zulässigen Gebiets P des Problems aus § 1, in dem die Zielfunktion z = 50x 1 + 40x 2 ihr M a x i m u m auf P erreicht. Dieser P u n k t ist der Eckpunkt C = (3, 5) des Polyeders P. D a s Ergebnis stimmt also mit der in § 1 geometrisch ermittelten Lösung überein. Die Basislösungen u 0 , u 1 ( u 2 , u 3 entsprechen der Reihe nach den Eckpunkten O = (0, 0), A = (5,0), B = (4, 3), C = (3, 5) des Polyeders P aus dem § 1. Der Weg von der Anfangsbasislösung bis zu der optimalen Basislösung läßt sich wie folgt graphisch darstellen:
278
Kapitel V: Lineare Optimierung
Beispiel 4: Die Zielfunktion z = — x t + 3x 2 ist unter den Bedingungen
und
— x t + x2 ^ 2 — x t + 2x 2 ^ 6 0 x x , 0 x 2 zu maximieren.
Man führt die zwei Schlupfvariablen x 3 , x 4 ein und erhält das folgende AnfangsSimplex-Tableau: x2 -1 -1
hl 2
1
-3
x3 1 0
x4 0 1
z 0 0
2 6
0
0
1
0 u o = (0, 0, 2, 6) T .
Der erste Schritt liefert: -1
1 0
-2
0
m
x3 1 -2 3
x4 0 1
z 0 0
2 2
0
1
6 Ui = (0, 2, 0, 2)T.
Der zweite Schritt liefert: 0 1
x2 1 0
x3 -1 -2
x4 1 1
z 0 0
4 2
0
0
-1
2
1
10
|
Pivotspalte
u 2 = (2, 4, 0, 0) T .
Kapitel V: Lineare Optimierung
279
Sämtliche Koeffizienten der Pivotspalte (d. h. der dritten) sind negativ, die Zielfunktion ist auf dem zulässigen Gebiet nicht nach oben beschränkt, d.h.: das gegebene Problem ist nicht lösbar. A
280
Aufgaben
Aufgaben Aufgaben zur linearen Algebra (Abschnitte II und V): 1. Lösen Sie die folgenden linearen Gleichungssysteme (a)
9*r ÖX]3 xp
(b)
4
=
5
3X3+
x4 14 x4
=
=
-8
3*3-
2X4
=
1
=
2
3X2+
5X3+
2X2+
3X3+
x2 + x2+
6X4
2xx+
2X2+
4X 3 -
3jci +
3X2+
5 JC3-
2X4
=
1
2X2+
8;c 3 -
3X4
=
2
2 (c)
2X\-
*i +
- 2xl +
x2+
x4
x4 x4
x3~
2X3+
2X2 2X2-
+
4X 3 2X4
*3 +
=
1
=
0
=
0
=
-1
2. Sind die folgenden Vektoren linear unabhängig? a, b und c sind Parameter für reelle Zahlen: 1 ^ m 1> n V -2 -1 2 2 2 3 0 (c) j > (a) (b) 9 > > 5 1 0 1 1 2 ,0, U, ,0, ,1, V-l
f
f2> f
r
(-C
c
b
a
CL* 0 3. Welche Produkte der folgenden Matrizen sind definiert? Berechnen Sie diese Produkte:
'n
A = (1
0
-1
2) ; B =
2 1
; C =
,-L 4. Gegeben sind die Matrizen C :
f1
2
0
2
1
-1
,-1 0
1
mitc vO Ic) C
1
f 0 -f|
0
2,
; D =
1
-1
3
0
^2
1,
\x2l* x22
# 0 undX= f*11
12
281
Aufgaben
5. Berechnen Sie die Inversen zu den gegebenen Matrizen soweit dies möglich ist. a ist ein Parameter für reelle Zahlen. (2
-5
6
7
A=
a
-2
-7n 2
; B=
(0
-4
4
0
a
-a2>
a
1
—a
v-1
a2
'l
1 ; c =
1 0,
,3
-3,
i
a ,
6. Lösen Sie das Gleichungssystem A • x = b mit / \ '-2 - 2 V f A=
-2
-3
1
V 1 3
0,
; x =
; b =
0
mit Hilfe der Inversen von A.
a,
7. Gesucht ist der Rang der folgenden Matrizen, a ist ein Parameter für reelle Zahlen. (2 A=
-1
4 -2
fi 0
3
1 5 ; B=
a 1 0
; c =
,0 1 a)
,2 - 1 1,
2
2-a
l
3
3-a
,0
2-a
a2
,
8. Berechnen Sie die Determinanten 2 1 3
2
N = 5 3 2 ; 1*1 = -1 1 4 3 1
3 a +1 2
0 0 c 0
a -1 3a + 18 ; |c| 3
0 0 0 c
0 b 0 0 a 0 0 0
9. Überprüfen Sie durch Verwendung einer Determinante, ob die folgenden Vektoren linear abhängig sind. / M f i \ ( \ \ (i + x\ cn rr i3' i i 1+x 1 0 8 1 1 (a) (b) ) 5 5 1 4 2 1 0 2 1+x a
a,
,0,
1
AJ
)
V1 V
v 1 /
10. Lösen Sie das Gleichungssystem A • x = b mit Hilfe der Cramerschen Regel. / \ ri 2 3n A =
i c 3 ; i = a 2 C)
1 ,0,
282
Aufgaben
11. Gegeben sind
V
'1 a f
a 1 1 ; x = *2 ;b = 0 ,0, ,1 1 1 (a) Gibt es einen Wert für a, so dass der Rang von A gleich 2 wird? (b) Ist die Determinante zu A für alle a ungleich 0? (c) Für welchen Wert von a hat das Gleichungssystem A • x = b unendlich viele Lösungen. Geben Sie in diesem Fall die Lösungen an. (d) Diese Lösungsmenge ist ein Vektorraum. Bestimmen Sie eine Basis und die Dimension des Vektorraums. A=
12.
^0 (a) Berechnen Sie die Determinante zur Matrix A =
4-1
1 2 0
7"' 1 6
3
0
6
v-1 4
6
13)
(b) b sei ein beliebiger vierdimensionaler Vektor. Hat das Gleichungssystem A • x = b genau eine Lösung? rr
f 13. Gegeben sind die Vektoren
-1 0
1 )
1
. Die Menge aller Linearkombina-
,0, ,1, tionen dieser Vektoren ist ein Vektorraum. (a) Geben Sie eine Basis und die Dimension dieses Vektorraums an. T (b) Ist die Menge der Vektoren
-2 1 ,3,
j
-5 -4
ebenfalls eine Basis des gegebe-
,1 ,
nen Vektorraums? 14. (a) Maximieren Sie die Zielfunktion z = 4xj + 6x 2 + 2 unter den Bedingungen + 3*2 < 9 ; x{ + x2 < 4 ; 2xl + x2 < 7 ; xl > 0 ; x2 > 0 Lösung mit Hilfe des Simplex-Algorithmus.
Aufgaben
283
(b) Berechnen Sie das Maximum von z = 2xx + 3 x2 unter den Bedingungen < 3 ; 2xj + x2 < 8 ; xx + lx2 < 10 ; xx > 0 ; x2 > 0. Lösung mit Hilfe des Simplex-Algorithmus. (c) Die Zielfunktion z = x\ + 3 x2 + 5 ist zu maximieren unter den Bedingungen -2xx + x2 < 7 ; 2xi + x2 < 15 ; xx - x2 < 4 ; xx < 5 ; xx > 0 ; x2 > 0 . Lösung mit Hilfe des Simplex-Algorithmus. Aufgaben zur Differential- und Integralrechnung (Abschnitte III und IV): 15. Bilden Sie die erste Ableitung folgender Funktionen: x +1 (a) y = In ; (b) y = tan(sinx) ; (c) y = x x ; (d) y = * V jc — 1 16. (a) Hat die Funktion y =
+
+
X2
X3 — Punkte mit waagrechter
Tangente? (b) Gibt es einen Punkt der Funktion y =
2
j- mit der Steigung 1 ?
17. (a) Gesucht ist die zweite Ableitung der Funktion y = (ax + b)" mit n > 2 . (b) Berechnen Sie die k-te Ableitung von y = x • lnx mit k > 3. 18. Erfüllt die Funktion y = f(x) die jeweils angegebene Diffrentialgleichung? (a) y = f(x) = sinx - 1 + e _ s m * ; y' + y • cosx = sinx • cosx (b) y = f(x) = e'* 1 [ ^ x 2 +1) ; y' + 2xy = x • e"*2 19. Haben die folgenden Funktionen lokale Extremwerte? x+3 ( a ) y = ^ x^ (b) y = V2 + sinA: mit 0 < x < 2it (c) y = ln(x + 12 - x2) 2e (d) y = ex'(2x + 3) 20. Berechnen Sie die unbestimmten Integrale: x-\ + lJx + l ... cos(lnx) r 3 (a) Jr dx (b) Jr ^ -ax (c) Jx lnx dx x+\ x 21. Lösen Sie die bestimmten Integrale: 1 1 e ex x VT+lnjc (a) 1-4—dx (b) i ^ d x (c) i ^ x^ d x x oe +\ o(l + Jc) i
(d) Jf
2 • sin x ——dx 1 + cosx
284
Aufgaben
22. Die folgenden uneigentlichen Integrale sind zu berechnen: 00
oo 2 (a) ¡——¿dx o(l + 2*)
(b)
co
1 — J—e*dx \XL
(c)
(x-2'\2
X
x'
23. Kann der Parameter a > 0 so gewählt werden, dass 2 a 1 3 x 1 (a) f —3 = (b) f 2, 2 .dx = — !(ax)
8
¿(X +4)
16
24. (a) Bilden Sie die ersten und zweiten partiellen Ableitungen von z= e^ +ex+y + \n(xy) 2
2
X
und z = sin — + ;t-lnjy y
(b) z = x + kx + 9j> . Für welche k gibt es einen Punkt mit waagrechter Tangentialebene? 25. Erfüllt die Funktion z = f(x,y) die jeweils angegebene Differentialgleichung? (a) z = f(x,y) = xy • (x 2 - y2) ; xy2z'x+ x2y z'y = z - ( x 2 + y2) (b) z = f(x,y) = ^
^ y
; (x2 - y2)z'x + 2xyz' y = 0
26. Gesucht sind die lokalen Extremwerte folgender Funktionen + — — 1 2 * (b) z= (x- y)2 + x2ex x 2 (c) z = 5 _y x + 3(y - 5)2 - 20x
(a) z =
27. Berechnen Sie Extremwerte unter Nebenbedingungen (Methode von Lagrange): (a) z = xy ex~y ; Nebenbedingung: ex+y = 1 (b) z = x + y ; Nebenbedingung: x + 4y = 2 28. Man berechne das totale Differential der Funktion z = yy \n{x2) + y an der Stelle x = 1 und y = 2 .
285
Lösungen
Lösungen LI: (a) jcj 9 6 3 -27 6 -81
*3
JC4
5 3 3
6 1 14
4 5 -8
9 - 13 -2 3 27 - 3 9
0 1 0
-26 5 -78
x
2
-3 -2 -1
+ •(-6)
-(-14) + :9
Die dritte Zeile ist das 3-fache der ersten. Daher kann auf die dritte verzichtet werden. 26 13 •2 0 1 -3 9 " 9 + 6 -2 1 5 3 -3
1
0
0
13 ~9 1
x
2
3
x4
x
9 7
1
9
Lösung: *i == A ; x2 = (b)
26
0
" 9
9
13 + 3A + — n ; * 3 = i" ; *4 =
1 2 3 2
1 2 3 2
3 4 5 8
-1 -2 -3
1 2 1 2
• (-2) +
1 0 0 0
1 3 0 -2 0 -4 2 0
-2 3 4 1
1 0 -2 0
+
1 0 0 0
1 7 0 -8 0 - 12 0 2
0 0 0 1
1 0 -2 0
-2
• (-3)
7
1
9
9
•(- 2)
+ +
+ +
•2
:(- 8)
-(-3)
•(-4)
ß
286
Lösungen \
x
1 0
2
4
x
x
1
7 0
0
1 0
1 0
0
0 - 12
0
-2
0
0
2
1
0
1 0 0 0
1 0 0 0
0 1 0 0
0 0 0 1
1 0 -2 0
12
(- 7)
+
Dieses Gleichungssystem ist unlösbar, (c)
X2
X3
X4
2 -1 3 -2
-1 0 -2 2
1 2 4 - 1
-1 1 0 2
1 0 0 -1
1 1 3 0
-1 0 -2 2
3 2 4 - 5
0 1 0 0
1 0 0 -1
1 - 1 3 0 0 - 1 5 1 1 - 5 0 0 0 2 -5 0
1 1 -3 -1
1 0 0 0
0 0 1 0
- 2 0 -5 5
0 1 0 0
-2 -2 -3 5
1 0 0 0
0 0 1 0
-2 0 -5 1
0 1 0 0
-2 -2 -3 1
+ +
•(-2)
+
+
++
(-2) +
(-2) +
Lösungen X]
Xj
X-^
Xq
1 0
0 0
0 0
0 1
0 -2
0 0
1 0
0 1
0 0
2 1
287
X} = 0 ; x 2 = 2 ;
D a s G l e i c h u n g s s y s t e m hat genau eine L ö s u n g . L2: (a)
x,
x2
Xt,
1 2 1 -2
2 3 1 0
1 2 2 -3
0 0 0 0
- 1 - 1 1 -2
0 0 1 0
-3 -4 2 -3
0 0 0 0
1 - 1 1 -2
0 0 1 0
3 -4 2 -3
0 0 0 0
1 0 0 0
0 0 1 0
3 - 1 - 1 3
0 0 0 0
1 0 0 0
0 0 1 0
3 1 - 1 3
0 0 0 0
1 0
0 0
0 1
0 0
0 0
1 0
0 0
0 0
+
+ •(-2)
•(-3)
•(-1)
+ +
-(-1)
-2
+ +
•(-1)
+ •(-3)
+ +
-(-3) +
X\ — X2 ~ x^ ~ 0 G e n a u eine L ö s u n g !
D i e g e g e b e n e n V e k t o r e n sind linear u n a b h ä n g i g .
= 1
288
(b)
Lösungen
x{ 0 c a
x2
x3
-c 0 b
a b 0
0 0 0
:a
a * 0
•(-b)
a 0 b
b 0
a bc
+
0 0
0 :a
0
a bc_ a b
0
a 0 b
0 1
1
0
0
0
0
0
1
0
0
0
0
0
(- c)
Es gibt unendlich viele Lösungen. Die gegebenen Vektoren sind fiir alle zulässigen Werte der Parameter linear abhängig. (c)
xx 1 -1 0 1
x2 0 2 1 0
x3 1 -2 a 0
0 0 0 0
+
•(- 2)
Lösungen x
289
x
2
3
1 -1 0 1
0 0 1 0
1 -2-2a a 0
0 0 0 0
0 0 0 1
0 0 1 0
1 -2-2a a 0
0 0 0 0
0 0 0 1
0 0 1 0
0 0 0 0
1 0 0 0
+ + -(-l)
+
(2 + 2a) +
(-a) +
Xj = x2 = X3 = 0. Es gibt genau eine Lösung für alle a, also sind die gegebenen Vektoren für alle a linear unabhängig.
L3. Die Produkte A • C, C • A, D • A, B • C, B • D, D • B und D • C sind nicht definiert. 2^ 1 0 -1 (0 ' 6^ ~4i 2 0 -2 4 B-A = ; A - D = (1 1) ; C - B 3 ; C D = -2 - 3 1 0 -1 2 3j , 7 -1 0 1 - 2 ) L4. cx +x
CX
12+X22) . X-C=[CJ:" CX2J J V CX2j
l\ 2l CX2|
C-X =
X +cx
n l2 ] + Cx22'
Zwei Matrizen sind gleich, wenn sie in allen entsprechenden Elementen übereinstimmen. Daraus ergeben sich folgende Bedingungen: =
C Xj j + X21 cx
22
= x
2\
C
+ cx
Zusammen:
22
|
—^ X21 ~ 0 J CXj2 + x22 x
=
1
cx
\2
—^
x
] 1~
x
22
=
2l ®
= x 2 j ; x21 = 0 und x l 2 kann beliebig gewählt werden.
290
Lösungen
L5: (a) 2 6 1
-5 7 -2
-7 2 -3
1 0 0
0 1 0
0 0 1
0 0 1
-1 19 -2
-1 20 -3
1 0 0
0 1 0
-2 -6 1
0 0 1
1 19 -2
1 20 -3
-1 0 0
0 1 0
2 -6 1
0 0 1
1 0 0
1 1 -1
-1 19 -2
2 0 1 -44 0 5
0 0 1
1 0 0
0 1 0
-20 19 17
-1 46 1 -44 1 -39
1 0 0
0 1 0
0 0 1
17 -20 19
1 -39 -1 46 1 -44
0 4 3
-4 0 1
3 1 0
1 0 0
0 1 0
0 0 1
-12 4 3
-4 0 1
0 1 0
1 0 0
-3 1 0
0 0 1
0 4 3
0 0 1
0 1 0
1 0 0
-3 1 0
4 0 1
+
+ •(-2)
-(-6)
• (-D
•(-19) +
-2 +
+ •(-1)
+ +
Die letzte Matrix rechts ist die gesuchte Inverse.
+
•(-3)
+
•4 An der ersten Zeile des letzten Schemas sieht man, dass es keine Inverse zu B geben kann.
Lösungen
291
-a2 -a
1 0
0 1
0 0
a2
a
0
0
1
1
a
-a2
1
0
0
0
2
a3-a
1
0
0
1
1 a
a
-1
0
1
l-a
a+a
2
-a
2
a-a
1
•(-a)
Vor.: *
a 1
a
0 0
1 a+a2
2
-a
1
-a
0
0
1
0
———y l-a
a-a2
1
0
1
0
A 0
a + a
3
1
0
0
0
1
0
0
1
1
0
0
-a
0
1
0
0
0
1
i +, a3 l l-a
l - a
5-
+
-(-a)
•
2
-a-a l-a
2 5-
0
Vor.: a * 0
1
, , :(a + a )
2
——y l-a2
0
l-a
2
—-y l-a2
0
+
= ü ± £4 ) l-a
_ J L _2 a(l + a )
-a
)
5l-a2 l-a l-a4
——r* l-a2 l-a l-a4
1 1 + a2
1 + a3
-(1 + a)
1
4
a(l - a )
l-a
4
(-a-a2) +
l-a
a(l-a
1
0
—Ur
2
±
1
l-a
-a
n 0
0
0
—Ur 1-a l - a
—!-r 1-a
+
+
0
a(l + a 2 )
292
Lösungen
L 6 : Berechnung der Inversen v o n A : •2
-2
1
1
0
0
•2
-3
1
0
1
0
1
3
0
0
0
1
•(-1)
+
•2
-2
1
1
0
0
0
-1
0
-1
1
0
1
3
0
0
0
1
-2
-2
1
1
0
0
+
0
1
0
1
-1
0
•2
1
3
0
0
0
1
-2
0
1
3
-2
0
•(-1)
+
0
1
0
1
-1
0
1
0
0
-3
3
1
0
0
1
-3
4
2
0
1
0
1
-1
0
1
0
0
-3
3
1
1
0
0
-3
3
1
D i e i m letzten S c h e m a rechts
0
1
0
1
-1
0
s t e h e n d e M a t r i x ist
0
1
-3
4
2
0
(Yx\
rn
x2
=
L7:
(a)
A~l-b
=
A~l
•
0 J,
2
-
4 2
1
3
-2 -
1
0 5
1
-4
2
0
0
-6
3
0
0
2
-
1
1
M =
i
-»
0
= - 2 ; x2 = 1 ;
-b
+
0 0
•2
+ -(-3)
:3
-(-5)
Lösungen
-4
2
0
0
+
-2 2
1
0 1
0 0
• (-2)
-1
0 -2
0 1
0
0
0
0
0 1
0
293
+ +
rg(A) = 2
0
(b) 1
0
a
0
a 0
1
0
0
1
a
0
1
0
a
0 0 0
•(-1)
a a
0
D i e letzte Z e i l e zeigt:
0
r g ( B ) = 3, w e n n a
0
r g ( B ) = 2, w e n n a = - 1 oder
0
1
0
1
1
0
V
0
1
-a
0
0
a +a
2
2
1 1
3
1
a2
0
1
2-a
0 1
0 1
0
0 2 = 0 ->
0
-a
0
1 2
a +a-2 a =-2
0 0
2
a
0
+
0 0
2-a
2 1
0
+
2-a 3-a
2-a
0
a2+a-
2
•(-a)
0
a = 0
"(-1) +
+ •(-2)
•(a-2) +
0 0
oder a = 1
b z w . r g ( C ) = 2, w e n n a =-2
* - 1 und a i
oder a = 1.
rg(C) = 3, w e n n a * - 2 und a * 1
294
Lösungen
L8:
Mb
2
1 3
2
1
3
5
3 2
-1
0
-7
-7
0
-9
1 4
3
-7
-9
= 40
3
0
-1
a-7
a+1
3a + 18
0
a +3
3a+ 21
2
3
1
2
3
a-(l-a) 0 0 c
0
0
0
0
c
0
b
0
0
a
0
0
0
14 =
-7
a-1
2 s = -1 1
-1
0 c
0
= -a• 0 0
c = - a • b-
b 0
0
1
a-1
a + 3 3a+ 21
c
0
0
c
= - a • b • c2
L9: (a) 1 1 1 3
0
1 0
1 0
1 8
1
0
1
8
2
4
2
0
2
4
3
1 0
4
4
2
3
1 0 4
12
(b) 1
1
1
=
*
1
1 + JC
1+x
1
1
1
1
1
0
1
1
2+x
0
0
0
1
0
-1
1
0
0
-1
1 - 1
3
- *
3
0
1
-5
0
1
-5
4
2
2
4
0
12
3
1
4
3
0
9
= 0 . Die gegebenen Vektoren sind linear abhängig.
1 + JC 1 1+x 1
1
=
0
-5
1
3+x
1
-1
1
1
1
1 + JC
0
0
X
-X
0
X
0
-X
X
0
0
-X
=
*
1
1 2+x
0
1
-1
1
0
-1
3
-
=
1
1
1
l+ x
0
0
1
-1
0
1
0
-1
1
0
0
-1
- *
3
0
1 3+x
0
1
-1
1
0
-1
x • (4 + x). Für x = 0 oder x = - 4 sind die gegebenen
Vektoren linear abhängig, sonst linear unabhängig
295
Lösungen
L10: Lösung mit Hilfe der Cramerschen Regel: 2 2 3 1 2 3 1 2 2 1 c 3 1 1 3 1 c 1 0 2 c 1 0 c 1 2 0 x = 1 2 3 > 2 1 2 3 > 1 2 3 1 c
3
1 c
3
1 c
3
1 2
c
1 2
c
1 2
c
1
2
0
c-2
1
3
= (c-2)-
2 2-2c c
2-2c
-3
2
c
2 -1
0
-3
1 1
1
1
3
1 0
1
0
c
-1
2-2c
1
c
_ 2-(c - c - 3 ) (c-2)(c-3) LH: (a) 1
a
a 1
0
-1 1 0 1 1
a
= (c-2)-(c-3)
c
-1
-3
1
c
= -(c-3)
-1
2 - 2 c
1
*2 =
= 2 • (c2-c-3)
2
-1
= - 2 • (c - 2)
- 2 x
3
c - 2
=
c-3
+
1
0
1
1
0
1
1
0
•(-1)
- 1
0 0 1
0 0 0
:(a -1)
0 0 1
0 0 0
1 1 1
+ •(-1)
Vor.
•(-1) +
•(-1) +
296
Lösungen
0 1 0
1 0 0
0 0 1
0 0
Wenn a * 1 rg(A) = 3; aus a = 1 folgt rg(A) = 1. Für kein a ist rg(A) = 2.
0
(b) Nein, für a = 1 ist die Determinante gleich 0, sonst ungleich 0. (c) Das Gleichungssystem hat unendlich viele Lösungen, wenn \A\ = 0, also für a = 1. In diesem Fall entstehen drei identische Gleichungen: x\ + x2 + x^ = 0 -> X3 = - xj - x2 ben:
0
x =
•
-> xx = X ; Xj — fi ; x^ = - X - ¡j. oder vektoriell geschrie1
Ä +
i
(d) Der Vektorraum ist 2-dimensional und eine Basis lautet L12: (a) 0 1 MI =
4 -1
7
2
6
1
0
3
0
0
6
7 19
6
= .
4
-1
7
3
0
6
6
7 19
=
-
4
-1
7
3
0
6
34
0
68
=
_
0A
0
1
-ly
-V
3
6
34
68
=o
(b) Da |i4| = 0, hat das Gleichungssystem niemals genau eine Lösung. L13: (a) Da beide Vektoren linear unabhängig sind, bilden beide zusammen eine Basis. Die Dimension des Vektorraums ist 2. (b) Die gegebenen Vektoren sind jedenfalls linear unabhängig. Sie bilden eine Basis, wenn sie sich auch noch als Elemente des Vektorraums erweisen. r r T f oN i"4l f l ) -1 1 -1 i -5 -2 • y1 + •yi = •*2 = i -4 0 1 1 0
{
,0, , o, , 1, v. 3 , , 1 , V 1, Beide Gleichungssysteme können in einer schematischen Rechnung gelöst werden:
297
Lösungen
yi
y2
x
x
\
2
0 -1 0 1
1 1 1 0
1 -2 1 3
-4 -5 -4 1
0 0 0 1
1 1 1 0
1 1 1 3
-4 -4 -4 1
0 1
1
1
-4
0
3
1
+ +
Die gegebenen Vektoren liegen im Vektorraum, also bilden sie zusammen eine Basis. LI4: (a) Das lineare Programm hat die Standardform. x x x4 \ 2 *5 1 1 2
3 1 1
1 0 0
0 1 0
0 0 1
9 4 7
-4
-6
0
0
0
2
3 1 2
1
3
0
0
3
-(-1)
4
+
-4
1
0 1
-6
1 0
0 0
0
0 1 0
7
-(-1)
-6
+ 2
+
298
Lösungen
~ 3
0
- 3
0
1
4
-2
0
2
0
0
20
ì
1
I
0
0
3
1
o
- i 2
1 2
o
2 2
.(-I) .(-2) 3 3
3
O
- 3
O
1
4
+
-2
O
2
O
O
20
O
1
2 3
11
n O
— 2
0
O
3
0
0
1
1
.1 2 3
o
5
2
nO
3
-2
1
2
3
O
23
— 2
+
2
3 iLosung: •• x-¡ = — 6 1 2
X2 = - ; z = 23 2 2
(b) Das lineare Programm hat die Standardform: Xi X^ X4 2 1 1
1 2 0
1 0 0
0 1 0
0 0 1
8 10 3
-2
-3
0
0
0
0
2 1 2 1
1
1
0
8
+
1
0
0
5
•(-1)
0
0
0 1 2 0
1
3
-2
-3
0
0
0
0
•3
299
Lösungen
! 2
0
1
-I 2
0
3
1 2 1
1
0
I 2 0
0
5
1
3
1 2
0
0
15
0
1 2
2 3
.1 3
o
2
1
0
0
5
0
0
I 2 0
1
3
1 2
0
0
1 2
1
o
0
1
3 - -1
-3 -2
0
0
- 3
3
0
0
1 2 1
0
1
-
3
4
-
3
2
•(-!) K
2J
•(-!) K
J
15
0
2
0
4
1
1
0
16
Lösung: 2
x{=2
= 4 ; z = 16
(c) Das lineare Programm hat die Standardform: x x x *4 6 2 5 -2 2 1 1
1 1 -1 0
1 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1
7 15 4 5
-1
-3
0
0
0
0
5
•(-1)
+-3
+ +
+
-I 2
300
Lösungen
-2 4 -1 1
1 0 0 0
1 -1 1 0
0 1 0 0
0 0 1 0
0 0 0 1
7 8 11 5
-7
0
3
0
0
0
26
-2
1
0
7
+
0
0
0
2
•2
-1 1
0 0
0 1 4 0 0
0
1
1 1 " 4 1 0
1 0
0 1
11 5
-
7
0
0
1
1
0
0
0
0
0
3
xt=2
0
l
2
2 l
4 3 4 J_ 4 5 4
Lösung:
0
;
x2
4 J_ 4 l
4 7 4
0
:4
+ +
26
0
0
11
0
0
2
1
0
13
0
1
3
0
0
40
+
= 11 ; z = 40
L15: JC + 1
, , 1 ( x - l ) - ( x + l) -2 -» y = lng . y' = ---i '——'- = ——
x - l
g
(x-1)
x
2
2
- l
COS X
1
(b)Seig = sinx ->• y = t a n g . y ' = — x — -cos^: = — = cos g cos (sinx) (c) y = f = e
g
-
xx
->
(lnx +
lny = x • lnx -> y = 1) =
xx
• ( l n x + 1)
ex (d)
inx
. Sei g = x • lnx -> y = y ' = x2
ex
•(3 + x)
e
8
Lösungen
301
L16: 1 2 : l + x-x . Bedingung für eine waagrechte Tangente: y' = 0 - > 1+JC 1 -1 + x - x 2 = 0 . Wir multiplizieren diese Gleichung mit (1 + x):
(a) y '
=
- x =0 gente.
x = 0 - > y = 0 . (0 / 0) ist der einzige Punkt mit waagrechter Tan-
(b) y ' = -2.(l + g 3 ' * ) ~ 2 . g 3 - * . ( - l ) =
2 e3
'
v 2 6
'
=1
2e3~x
1+
=
2e3~x
+
e
* 3
. Bedingung: y ' = 1
i
+ e6~2x
= - 1. Diese Glei-
e6~2x
->
H " ) chung hat keine Lösung, y' ist niemals gleich 1. L I 7: ( a ) y ' = n - ( a x + b)"'l-a
(b)y' = l n x + l
->
= n - (n-l)-a2-(ax
y "
l yW =
y" = — ;y'" = 4 X
b)"'2
+
X
X
X
k
Allgemein:
xk~x
L18: (a) y' = (l - e~ smj: j-cosx . Eingesetzt: Linke Seite = ^ - ¿ " " " ^ j - c o s x + ^sin;t-l + e~ smx )-cos;t = sinx-cosx = rechte Seite. (b) y' =
e'"2
-x + e~xl
Linke Seite=
-[x
+x
-{-2x)-[^x2
^ - e ' ^
+ lj
+2x-
e'x2
=
~[x
+ x ^ e ' * *
-Q-;t 2 + lj = x-
. Eingesetzt: = rechte Seite.
e'"*
L19: , ,
0) y y" =
,
=
2ex-(x
+ 3)-2ex
— — VZx ^ — Ae
x + 1 2ex
=
- ( x + 2) 2e
x
y
,,
=
2ex-(x
2)-2ex
+
>
i r r r jx~ 4e
. Notwendige Bedingung: y' = 0 —> x + 2 = 0 - » x = - 2 und
damit y = —1e 2 . Hinreichende Bedingung: y " ( - 2 ) = —" I < 2 2e ist ein Maximum.
0^
(
•21
e2^ —
•/
302
Lösungen
(b)y'=
y
S X
f°
y"=
rz
, 1
:
,
,
COSX
v2 + smx-(-sinx)-cosx—. 2V2TÜÜ
2 - v 2 + sin;t 2 2 + sinx 1 s i n22 x + 4 s i n . x + l XT , s i n x + 4 . = -— 3 — . Notwendige Bedingung: y = 0 2 2 V 2 + S11IX
cosx = 0
->
x = — 2
und
y = V3
oder x = — 2
Punkte m i t w a a g r e c h t e r Tangente:
=
( ) y'
—r;—t *+ 2
y" =
-2x
=
-1 2V3
x = -
(x + \2~x2)
und
2
y = ln( 1 2 , 2 5 ) . j ^ / l n ( 1 2 , 2 5 ) j ist ein Punkt mit waagrechter Tangente. H i n r e i c h e n d e B e d i n g u n g : y ", f[ -n) == -2^5 > —> z^.
Zy = —5"C0S— + —
z'L
1
= -y*\ 4 h c - s i ny- - 2 ^ - c o s -y + y 2
( b ) z'x = 2 x + k ; z'y = 18y . B e d i n g u n g f ü r P u n k t e m i t w a a g r e c h t e r T a n g e n t i a lebene:
z'x = 0 u n d z'y = 0
2 x + k = 0 u n d 18y = 0. A u s d e r e r s t e n G l e i -
- k
c h u n g folgt x =
- k
Für j e d e s k ergibt
— , a u s d e r z w e i t e n y = 0. —> z = ——
2^ sich genau ein P u n k t mit waagrechter Tangentialebene:
L 2 5 : (a) z = y x
3
-xy
2
3
Linke Seite = x j y ( 3 y . x = z( x
1
+ y
X2 (b) 2 = —
y
1) =
2
z'x=3yx 3
2
2
- y ) + x y(;t
-y
3
3
\ z'y=x 2
3
— 101 —
2
-3\y
2
- 3 x ^ ) = \y(x
4
2
2
.Eingesetzt: Z
- y )(x
rechte Seite.
+y
Linke Seite = ( x
Z, -» ¿x 2
= 2 * '• zy,
y
y
2 , 2x - / ) — +2xy
y
-x2 2 y (-X2 V y2
+ 1 . Eingesetzt:
- + 1 = 0 = rechte Seite.
+
y2)
306
Lösungen
L26:(a) z"
= -
z
; = 2 x - ^ - - 1 2
; z' = ^
X
; z'^ = 2 + ^ X
; z^ = X
. N o t w e n d i g e B e d i n g u n g : (1) 2x
xl
JC
—12
=0
; X
y
(2) ^
x
= 0.
A u s (2) - > y = 0 . D i e s Ergebnis in (1) eingesetzt: x = 6 —> (6 / 0 / - 36) ist ein P u n k t m i t w a a g r e c h t e r Tangentialebene. Hinreichende B e d i n g u n g : ? 4 , 4 z ^ z ^ , - ( z ^ , ) 2 [ a n d e r Stelle x = 6 u n d y = 0] = 2 - - - 0
=->0
. D a außer-
d e m z'^. (6,0) = 2 - » (6 / 0 / - 36) ist ein M i n i m u m .
+ ex(x2+2x)
(b) z ; = 2(x-y) z'^ = 2 + ex(x2
(1) 2(x-y)
; z; = -2(*-.y) ; z;r = 2 ; z^ = - 2 ;
+ 4 x + 2) .. N o t w e n d i g e B e d i n g u n g : x
+ e (x2 + 2x) = 0 und (2) -2(x - y) = 0 . Aus (2) folgt x = y .
D i e s E r g e b n i s w i r d in (1) eingesetzt: ex(x2
+ 2x) = 0
- » x = 0 oder x = - 2
Es gibt s o m i t z w e i P u n k t e m i t waagrechter Tangentialebene: ( 0 / 0 / 0 )
und
4> - 2 / - 2 / — . H i n r e i c h e n d e Bedingung:
e ' (*)
z'^ z'^y - (z';y f [an der Stelle x = 0 u n d y = 0] = 4 - 2 - ( - 2 ) 2 = 4 > 0
( 0 / 0 / 0 ) ist ein M i n i m u m , d a z ^ (0,0) = 4. (**) z ^ z'Jy - ( z ^ ) 2 [an der Stelle x = - 2 u n d y = - 2] = ^ 2 - • 2
- (-2)2
-4 ( 4 ^ = - y < 0 —• ^ - 2 1 - 2 1 — j ist kein E x t r e m w e r t .
(c) z'x = 5 / - 2 0
; z'y = \0xy + 6y-30
; z ^ = 0 ; z ^ = lOy ;
z'yy = 10x + 6 . N o t w e n d i g e Bedingung: (1) 5y2 - 20 = 0 u n d (2) 1 0 ^ + 6 ^ - 3 0 = 0 . A u s (1) folgt y = ± 2 . Eingesetzt in (2): (i) y = 2 w 7
20x - 1 8 = 0
x= — 10
z = 27
( i i ) y = - 2 —> - 2 0 x - 42 = 0 - > x = - — v
"
10
->z=147
( — / 2 / 27) 10 - > ( - — / - 2 / 147)
10
Es gibt z w e i P u n k t e mit waagrechter Tangentialebene. Hinreichende Bedingung: (*) z ' ^ z'^y - (z'^y f [an der Stelle x = ^ Kein Extremwert!
u n d y = 2] = 0 • 15 - 2 0 2 < 0 .
Lösungen
(**)
307
91
z
[an der Stelle x = - — und y = - 2] = 0- ( - 1 5 ) - ( - 2 0 ) 2 < 0 .
Z« 'yy -
Kein Extremwert! L27: (a) Lagrange-Funktion: L = xyex~y x y
xy
L'x = xye ~
+ ye ' y
x y
L'y = - xye"
+ xe ~
+ X(ex+y
x+y
+Xe
x
- 1) -»
x y
= e ~ (y + xy) + A y
= e * " ' (x - xy) + X ex+y
+Xe+
L\ = ex+y - 1 Notwendige Bedingung: (1) ex~y(y + xy)+ X ex+y = 0 (2)