185 43 3MB
German Pages 319 [320] Year 2007
Lehrbuch Analysis
von Wolfgang Watzlawek
Oldenbourg Verlag München Wien
Prof. Dr. Wolfgang Watzlawek ist am Fachbereich für Mathematik und Statistik an der Universität Konstanz tätig.
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2007 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D-81671 München Telefon: (089) 45051-0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Margit Roth Herstellung: Anna Grosser Coverentwurf: Kochan & Partner, München Illustration: E. Watzlawek, Allensbach Coverausführung: Gerbert-Satz, Grasbrunn Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Druckhaus „Thomas Müntzer“ GmbH, Bad Langensalza ISBN 978-3-486-57927-7
Vorwort
Dies ist ein Buch f¨ ur Anf¨ anger, (aber nicht nur). Beim ersten Durchbl¨attern mag es dennoch eher abstrakt wirken, denn es enth¨ alt keine Abbildungen. Der Text gibt jedoch eine als sanft zu bezeichnende Einf¨ uhrung in die wichtigsten Grundbegriffe, Methoden und Ergebnisse der Analysis, so wie sie von Studierenden verschiedener Studieng¨ange ben¨ otigt werden. Er beruht auf Skripten zu Vorlesungen f¨ ur das erste Studienjahr, die ich mehrfach an der Universit¨ at Konstanz gehalten habe. Selbstverst¨ andlich werden in einer Vorlesung viele Dinge durch Skizzen an der Tafel erl¨ autert, diese haben jedoch h¨ aufig einen spontanen Charakter und sind daher nur bedingt in ein Buch aufnehmbar. Es sei daher dem Leser, der das Buch neben einer einf¨ uhrenden Vorlesung verwendet, empfohlen, angeregt durch Skizzen des Dozenten sich selbst durch Skizzen zun¨ achst abstrakte Dinge zu veranschaulichen. Dieses aktive Erarbeiten tr¨ agt viel zum Verst¨ andnis bei, so wie es ohnedies unerl¨asslich ist, bei der Lekt¨ ure viele Einzelheiten mit Papier und Bleistift eigenst¨andig neu zu entdecken. Da der Umgang mit Computeralgebra-Systemen heute ebenfalls zum Ausbildungsstandard geh¨ ort, ergibt sich damit zus¨ atzlich die M¨ oglichkeit einer Visualisierung. Zum Entdecken mit Papier und Bleistift geh¨ ort auch das Durcharbeiten der Aufgaben, die jeweils am Ende des Kapitels zu finden sind. Das Buch hat nicht den Umfang wie andere h¨ aufig zwei- oder gar dreib¨andige Werke, die als Einf¨ uhrung in die Analysis dienen. Es werden Schritt f¨ ur Schritt, beginnend mit den Zahlen, die wichtigsten Dinge entwickelt, aber es gibt kaum erg¨anzende Ausfl¨ uge zu Ergebnissen, die nicht zum Grundkanon geh¨oren, obwohl sie trotzdem wichtige achst werden keine Vorkenntnisse erwartet, die u Einsichten liefern k¨ onnten. Zun¨ ¨ ber die Kenntnisse aus der Schule hinausgehen, sp¨ ater wird jedoch auf Begriffe und Ergebnisse aus der linearen Algebra zur¨ uckgegriffen, die u ¨ blicherweise im ersten Semester behandelt werden.
VI
Vorwort
uhrung den Interessen von Studierenden verschiedener Studieng¨ange Mit so einer Einf¨ gerecht zu werden, ist eine Aufgabe, die Kompromisse erfordert. So sind einige Teile des letzten Kapitels von solchen Kompromissen gepr¨agt. Bei der Integration von Funktionen mehrerer Variabler w¨ are der geeignete Rahmen f¨ ur die Behandlung des Transformationssatzes das Lebesgue-Integral und f¨ ur die Behandlung des Gaußschen Integralsatzes der Differentialformen-Kalk¨ ul. F¨ ur das Lebesgue-Integral und den DifferentialformenKalk¨ ul ist jedoch in einer Einf¨ uhrung f¨ ur Studierende des ersten Studienjahres kaum Raum. Nicht zuletzt wegen der Studierenden der Physik kann aber auf eine Diskussion des Transformationssatzes und des Gaußschen Integralsatzes nicht verzichtet werden, und ich habe eine Darstellung gew¨ ahlt, die diesen Studierenden entgegenkommen d¨ urfte. Das Arbeiten mit Polarkoordinaten und Kugelkoordinaten nimmt relativ breiten Raum ein und auf die doch recht technischen Beweise allgemeiner Fassungen dieser zwei S¨atze wurde verzichtet. Trotzdem werden aber auch alle Begriffsbildungen entwickelt, die f¨ ur das Verst¨ andnis von allgemeineren Situationen von Bedeutung sind. Ich hoffe, damit die Interessen von Studierenden der Mathematik und der Physik angemessen ber¨ ucksichtigt zu haben. Auch dieses Vorwort soll mit einem Dank enden, zun¨achst an meine Frau, aus vielerlei Gr¨ unden, sodann an die Studierenden, deren Zustimmung zu den Vorlesungsskripten mich ermuntert hat, auf dieser Grundlage ein Buch zu entwerfen, und schließlich an Frau Margit Roth vom Oldenbourg-Verlag, denn ohne ihr Engagement w¨ urde es dieses Buch wohl nicht geben. Das einzige Bild in diesem Buch, der oben sichtbare Elefant, wurde von meiner Frau geschaffen und zur Verf¨ ugung gestellt, er diente w¨ahrend der vielen Stunden am Computer als Bildschirmhintergrund. Allensbach, im Oktober 2006
Wolfgang Watzlawek
Inhaltsverzeichnis 1
¨ Uber Zahlen und andere Grundbegriffe
1
1.1
Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2 1.2.1 1.2.2 1.2.3 1.2.4
Einige Grundbegriffe, rationale Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ Uber Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zur Ordnung der rationalen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ Uber Relationen und Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der geordnete K¨ orper der rationalen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 2 4 6 8
1.3 1.3.1 1.3.2 1.3.3
Die reellen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Axiomatischer Zugang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ¨ Zur M¨ achtigkeit von Mengen, Uberabz¨ ahlbarkeit von R . . . . . . . . . . . . . . . . n-te Wurzeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11 11 20 28
1.4
Die komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2
Folgen und Reihen
2.1
¨ Uber reelle und komplexe Zahlenfolgen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2
Einige wichtige Folgen, die Zahl e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.3 2.3.1 2.3.2
¨ Uber Folgen im Rn und in metrischen R¨aumen . . . . . . . . . . . . . . . . . . . . . . . . . 57 Folgen im Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Folgen in metrischen R¨ aumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5
Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zur Konvergenz von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Exponentialfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konvergenzkriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zur Addition und Multiplikation von Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . .
68 69 72 75 81 84
3
Stetigkeit
93
3.1
Stetigkeit von Abbildungen, topologische Grundbegriffe . . . . . . . . . . . . . . . . 93
3.2
Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.3
Zur Stetigkeit einiger wichtiger Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.4
Zum Zwischenwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
3.5
Stetige Fortsetzung, Grenzwerte von Funktionen . . . . . . . . . . . . . . . . . . . . . . . 122
39
VIII
Inhaltsverzeichnis
4
Differenzierbarkeit I
4.1
Der Begriff der Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.2
Zur Differenzierbarkeit wichtiger Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.3
Lokale Extrema, Richtungsableitung, Mittelwertsatz . . . . . . . . . . . . . . . . . . . 138
4.4
Zu den Regeln von de l’Hospital . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5
Integration I
5.1
Das Riemann-Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
5.2
Hauptsatz der Differential- und Integralrechnung . . . . . . . . . . . . . . . . . . . . . . . 163
5.3
Zur Berechnung von Integralen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.4
Uneigentliche Integrale, Gammafunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
6
Differenzierbarkeit II
6.1
Ableitungen h¨ oherer Ordnung, Taylorformel . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
6.2 6.2.1 6.2.2
Fr´echet-Ableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 Einiges u ¨ber lineare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 Fr´echet-Ableitung, partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
6.3
Taylorformel II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
7
Banachscher Fixpunktsatz, Anwendungen
7.1
Banachscher Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
7.2
Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen . . . . . . . . . . 223
7.3
Zum Anfangswertproblem bei gew¨ ohnlichen Differentialgleichungen . . . . . 232
8
Einiges u ¨ ber Fourier-Reihen
8.1
Ein W¨ armeleitungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
8.2 8.2.1 8.2.2 8.2.3
Zur Orthogonalit¨ at . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Zum trigonometrischen System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Orthonormalsysteme in Pr¨ a-Hilbertr¨aumen bzw. Hilbertr¨aumen . . . . . . . . Zum W¨ armeleitungsproblem II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8.3
Der Satz von Fej´er . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
9
Integration II
9.1
Integration u ¨ ber Quader, iterierte Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
9.2
Integration u ¨ ber allgemeinere Bereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 277
9.3 9.3.1
Zum Gaußschen Integralsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290 Zwei Spezialf¨ alle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
127
149
181
219
241 245 245 247 257
271
Inhaltsverzeichnis 9.3.2 9.3.3 9.3.4
IX
achenintegral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 Zum Oberfl¨ ¨ Uber Mannigfaltigkeiten im Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 Einige Folgerungen und Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
Literaturverzeichnis
305
Index
307
1
¨ Zahlen und andere Uber Grundbegriffe
1.1
Einfu¨hrung
Wer dieses Buch zum ersten Mal in die Hand nimmt, hat nat¨ urlich bereits gewisse Vorstellungen von Zahlen; er oder sie rechnet selbstverst¨andlich mit ihnen, auch etwa √ mit 2 oder mit der Zahl π. Und doch sind dies zwei Beispiele von√Zahlen, die nicht auf nat¨ urliche Weise etwas mit dem naiven Z¨ ahlen zu tun haben. Zur 2 kommt man, wenn man unter Ber¨ ucksichtigung des Satzes von Pythagoras die L¨ange d der Diagonalen eines Quadrats mit Seitenl¨ ange Eins berechnen m¨ ochte, denn danach gilt ja d2 = 1 + 1 = 2. oglich, (und dies war bereits im alten Griechenland bekannt), Nun ist es aber gar nicht m¨ eine in gewissem Sinn bekannte Zahl d zu finden, die die Gleichung d2 = 2 erf¨ ullt. Welche Zahlen wird man dabei als irgendwie bekannt ansehen? Sicherlich die Zahlen 1,2,3,..., die man auch als nat¨ urlich bezeichnet, aber auch die Br¨ uche m/n, wobei m und n eine nat¨ urliche Zahl ist. (Auch die so gewohnten Dezimalzahlen wie etwa 9,4278 sind solche Br¨ uche.) Wir werden nun zeigen, dass gilt: 2 Es gibt keine nat¨ urlichen Zahlen m und n, f¨ ur die ( m n ) = 2 gilt.
Dies kann man folgendermaßen einsehen, (und dies ist auch schon der erste Beweis in diesem Buch): 2 Es sei angenommen, dass es einen Bruch m/n gibt, f¨ ur den ( m n ) = 2 gilt. Wenn uns diese Annahme zu einem Widerspruch f¨ uhrt, so war sie falsch und somit kann es keinen 2 Bruch mit dieser Eigenschaft geben. Hat man einen Bruch vorliegen, f¨ ur den ( m n) = 2 gilt, so kann man offenbar annehmen, dass er gek¨ urzt sei, d.h. dass m und n teilerfremd sind. Die Annahme, dass m2 = 2n2 gilt, schließt aber aus, dass m eine ungerade Zahl ist. Denn w¨ are m ungerade, also von der Form m = 2k − 1, wobei k wieder eine nat¨ urliche Zahl ist, so w¨ are m2 = 4(k 2 − k) + 1, somit ebenfalls ungerade. Wegen m2 = 2n2 muss urliche Zahl ist. aber m2 gerade sein. Es muss also m = 2r gelten, wobei r eine nat¨ Daraus folgt aber weiter 4r2 = 2n2 , somit n2 = 2r2 . Wie wir soeben gesehen haben, muss aber damit auch n eine gerade Zahl sein, was der Tatsache widerspricht, dass m und n teilerfremd sind. ! (Es ist sehr gebr¨ auchlich, das Ende eines Beweises mit einem Zeichen zu markieren, wie hier mit !.) Es ist somit nicht m¨ oglich, bei einem Quadrat das Verh¨altnis der L¨ange der Diagonalen zur Seitenl¨ ange als einen Bruch zu schreiben. Bezeichnet man alle Br¨ uche der Form p/q, urliche Zahl, Null oder eine negative Zahl urliche Zahl und p eine nat¨ wobei q eine nat¨ −1, −2, −3, ... sein kann, als rationale Zahlen, so ist also festzuhalten, dass der Be-
¨ Zahlen und andere Grundbegriffe 1 Uber
2
ur eine so direkt von der Anschauung herkommende reich der rationalen Zahlen schon f¨ Aufgabe nicht ausreichend ist. Man beachte, das wir nun bei der Einf¨ uhrung des Begriffs der rationalen Zahlen schon stillschweigend angenommen haben, dass wir w¨ ussten, was mit den negativen Zahlen −1, −2, −3, ... gemeint ist. Diese negativen Zahlen sind aber offenbar nicht so direkt aus dem Z¨ ahlvorgang entstanden wie die nat¨ urlichen Zahlen 1, 2, 3, ... Sie werden eingef¨ uhrt, weil man sonst Aufgaben wie das Finden einer Zahl x, die die Gleichung 3 + x = 2 erf¨ ullt, nicht l¨osen k¨onnte. Man beachte, dass auch die Br¨ uche m/n ben¨ otigt werden, um Gleichungen n · x = m f¨ ur beliebige nat¨ urliche Zahlen m und n l¨ osen zu k¨ onnen. Damit sind wir nun auf ein wichtiges Prinzip gestoßen: Ausgehend von den nat¨ urlichen Zahlen werden immer gr¨ oßere Bereiche von Zahlen eingef¨ uhrt, um gewisse Probleme l¨osen zu k¨ onnen. So f¨ uhren die Schwierigkeiten mit der Gleichung x2 = 2 dazu, den Bereich der rationalen Zahlen noch zu erweitern, und zwar zu einem Bereich, den man den Bereich der reellen Zahlen nennt. Dabei kommt es gar nicht so darauf an, was man sich unter so einer als reell bezeichneten Zahl vorzustellen hat, sondern nur darauf, achlich gibt es verschiedene Konstruktionen, die was man damit tun kann und darf. Tats¨ ausgehend von den rationalen Zahlen den Bereich der reellen Zahlen liefern, wobei dann die reellen Zahlen durch ganz verschiedene mathematische Objekte dargestellt werden. Dies legt es nahe, die Struktur des Bereiches als wesentlich anzusehen. Bis jetzt haben wir bei unserer Argumentation nur auf die M¨oglichkeiten zur¨ uckgegriffen, rationale Zahlen addieren, subtrahieren, multiplizieren und dividieren zu k¨onnen. Man kann aber rationale Zahlen auch noch mit einander vergleichen, d.h. man kann sagen, dass die eine gr¨ oßer oder kleiner als die andere ist. Bei den rationalen Zahlen hat man also nicht nur eine algebraische Struktur, (Operationen der Addition und Multiplikation), sondern auch eine Ordnungsstruktur, (beruhend auf dem Gr¨oßenvergleich), vorliegen. Auch beim Arbeiten mit dieser Struktur erweist sich nun der Bereich der rationalen Zahlen in gewissem Sinn als zu klein. Um diese Problematik gr¨ undlich diskutieren zu k¨ onnen, m¨ ussen wir unsere Argumentationsweise etwas pr¨aziser gestalten. Dem wird der n¨achste Abschnitt dienen.
1.2
Einige Grundbegriffe, rationale Zahlen
1.2.1
¨ Uber Mengen
Es ist zweckm¨ aßig, Aussagen mit Hilfe des Mengenbegriffs zu formulieren. Dabei gehen wir, was Mengen angeht, von einer in vieler Hinsicht als naiv zu bezeichnenden Betrachtungsweise aus, d.h. wir bilden Mengen im Sinne der Ende des 19. Jahrhunderts von Georg Cantor gegebenen Definition: Unter einer Menge verstehen wir jede Zusammenfassung von bestimmten wohlunterschiedenen Objekten unserer Anschauung oder unseres Denkens zu einem Ganzen. So k¨ onnen wir von der Menge aller Europ¨ aer, die zwanzig Jahre alt sind, oder von der Menge aller nat¨ urlichen Zahlen sprechen. F¨ ur diese k¨onnen wir notieren N := {1, 2, 3, . . .}.
(1.1)
1.2 Einige Grundbegriffe, rationale Zahlen
3
urlichen Zahlen ist dabei weitgehend Standard. Die Bezeichnung N f¨ ur die Menge der nat¨ (Zu beachten ist allerdings, dass h¨ aufig auch die Zahl Null zu N hinzugenommen wird.) Der Doppelpunkt nach N besagt dabei, dass wir die Notation N durch (1.1) definieren. Bei {1, 2, 3, . . .} geben die geschweiften Klammern an, dass wir eine Menge bilden, deren Elemente durch 1, 2, 3, . . . gegeben sind. Ein gewisser Sch¨onheitsfehler ist dabei offenbar, dass wir nicht alle Elemente explizit hinschreiben k¨onnen. Wir m¨ ussen uns deshalb noch mit der Frage auseinandersetzen, was hier eigentlich mit . . . gemeint ist. Dass etwa die Zahl 11 ein Element von N ist, notieren wir mit 11 ∈ N. Es bedeutet also stets a ∈ M , dass a Element der Menge M ist. Wichtig ist, dass wir auch eine Menge betrachten d¨ urfen, die gar keine Elemente enth¨alt, die sogenannte leere Menge, f¨ ur die die Notation ∅ u ¨ blich ist. Zwei Mengen A und B werden, (wie zu erwarten), als gleich angesehen, wenn sie die gleichen Elemente enthalten, d.h., wenn alle Elemente von A auch Elemente von B sind und umgekehrt. Diese Aussage kann man besonders einfach fassen unter Verwendung des Begriffs der Teilmenge. Eine Menge A wird als Teilmenge der Menge B bezeichnet, wof¨ ur wir die Notation A ⊂ B verwenden, wenn jedes Element von A auch Element von B ist. Dies l¨ asst offenbar auch zu, dass A und B im Sinne der obigen Begriffsbildung gleich sind, somit ist jede Menge Teilmenge von sich selber. Damit k¨ onnen wir nun festhalten: Es gilt A = B genau dann, wenn A ⊂ B und B ⊂ A gilt. K¨ urzer verwendet man daf¨ ur auch die folgende Notation: A = B ⇐⇒ (A ⊂ B) ∧ (B ⊂ A). Der Doppelpfeil steht dabei f¨ ur genau dann; er besagt, dass, wenn die Aussage A = B richtig ist, auch die rechts stehende Aussage richtig ist, und umgekehrt. In der rechts stehenden Aussage steht ∧ f¨ ur und, d.h. dass A ⊂ B und B ⊂ A gleichzeitig gelten sollen. Da die leere Menge ∅ ja keine Elemente enth¨ alt, kann die Bedingung, dass jedes Element der leeren Menge auch Element einer gegebenen Menge A sein soll, als in trivialer Weise erf¨ ullt angesehen werden, d.h. aber, dass f¨ ur jede Menge A gilt ∅ ⊂ A. Diese Auffassung erweist sich als ¨ außerst zweckm¨ aßig, wenn man Durchschnitte von Mengen betrachtet. Man kann eine Teilmenge M einer gegebenen nicht leeren Menge A bilden, indem man Elemente von A mit einer gewissen Eigenschaft zur Menge M zusammenfasst. So kann man z.B. die Menge der geraden nat¨ urlichen Zahlen bilden. Daf¨ ur notiert man folgendermaßen: M = {n ∈ N : n ist gerade}. Damit ist auch die folgende Definition des Durchschnitts A ∩ B zweier Mengen A und B klar: A ∩ B := {x ∈ A : x ∈ B}. Die Definition zeigt, dass stets A∩B ⊂ A gilt. Da es aber vorkommen kann, dass es keine Elemente von A gibt, die auch zu B geh¨ oren, kann A ∩ B gleich der leeren Menge sein, und dies zeigt die Zweckm¨ aßigkeit von ∅ ⊂ A. Zwei Mengen mit leerem Durchschnitt bezeichnet man als disjunkt. Bemerkt sei noch, dass immer A ∩ B = B ∩ A gilt.
4
¨ Zahlen und andere Grundbegriffe 1 Uber
Man kann aber ausgehend von gegebenen Mengen noch auf andere Weise neue Mengen bilden. Sind A und B gegebene Mengen, so kann man die Vereinigung von A und B bilden, die als A ∪ B notiert wird, und die genau alle Elemente von A und alle Elemente von B als Elemente besitzt. Dies kann man mit dem Zeichen ∨ f¨ ur oder auch notieren als x ∈ A ∪ B ⇐⇒ x ∈ A ∨ x ∈ B. Dabei ist zu beachten, dass, wenn A ∩ B 3= ∅ ist, die Elemente von A ∩ B auch nur einmal als Element von A ∪ B auftreten. Also etwa {1, 2} ∪ {2, 3} = {1, 2, 3}. Wichtig ist auch, dass man alle Teilmengen einer gegebenen Menge A als Elemente einer neuen Menge nehmen kann, die man als Potenzmenge bezeichnet, und die wir mit P (A) notieren. Da stets ∅ ⊂ A gilt, ist immer ∅ ein Element der Potenzmenge. So gilt etwa P (∅) = {∅} und, wenn A = {a, b} ist, P (A) = {∅, {a}, {b}, {a, b}}.
1.2.2
Zur Ordnung der rationalen Zahlen
Nach der Bereitstellung der Begriffe aus der Mengenlehre k¨onnen wir die Diskussion der rationalen Zahlen wieder aufgreifen, wobei wir nun stets die u ur ¨bliche Notation Q f¨ die Menge der rationalen Zahlen verwenden. Sind x = p/q und y = r/s aus Q, (wobei q, s ∈ N gilt, p und r aber aus {0, 1, −1, 2, −2, 3, −3, . . .} sein k¨onnen), so bezeichnet man bekanntlich x als kleiner als y, wenn f¨ ur die Zahlen p · s und r · q gilt, dass p · s kleiner als r ·q ist. (Dabei ist zu beachten, dass dies nur deshalb eine sinnvolle Definition ist, weil eine andere Darstellung von x bzw. von y als Bruch zu keiner Ver¨anderung der uhrt. Dies kann man sich aber leicht u Situation f¨ ¨ blich verwenden wir ¨berlegen.) Wie u f¨ ur diese Ordnung im Bereich der rationalen Zahlen die Notation x < y. Die Notation x ≤ y wird bekanntlich verwendet, wenn x < y ∨ x = y gilt. Unter Ben¨ utzung dieser Ordnungsstruktur k¨ onnen wir nun die folgenden Mengen bilden: A := {x ∈ Q : x > 0 ∧ x2 < 2}, B := {x ∈ Q : x > 0 ∧ x2 > 2}. Es gilt dann einerseits A ∩ B = ∅, andererseits aber x < y f¨ ur alle x ∈ A und y ∈ B. Die erste dieser zwei Behauptungen ist nach unserem gewohnten Umgang mit rationalen Zahlen trivial, weil a < b und b < a nicht gleichzeitig f¨ ur zwei rationale Zahlen a und b gelten kann, die zweite Behauptung kann man folgendermaßen beweisen: Wir schließen wieder in einer Weise, die man als indirekt bezeichnet, d.h. wir nehmen an, dass es ein ξ ∈ A und ein η ∈ B geben w¨ urde mit η ≤ ξ, und zeigen, dass dies zu einem Widerspruch f¨ uhrt. Aus η ≤ ξ folgt η 2 = η · η ≤ η · ξ ≤ ξ 2 . Damit w¨are aber ξ 2 ≥ η 2 > 2 im Widerspruch zu ξ 2 < 2. Wenn f¨ ur ein y ∈ Q gilt x ≤ y f¨ ur alle x ∈ A, sagt man, dass y eine obere Schranke von A ist. Alle rationalen Zahlen y ∈ Q mit y > 0 und y 2 > 2 sind also obere Schranken von A. Es stellt sich nun die Frage, ob es eine kleinste obere Schranke von A gibt, wobei keineswegs davon auszugehen ist, dass diese zu B geh¨oren m¨ usste. Hier gilt nun das folgende Resultat, das die zweite bereits kurz angesprochene Unzul¨anglichkeit der Menge der rationalen Zahlen zeigt:
1.2 Einige Grundbegriffe, rationale Zahlen
5
Satz 1.1 Zur Menge A = {x ∈ Q : x > 0 ∧ x2 < 2} gibt es in Q keine kleinste obere Schranke. Beweis: Die Beweisf¨ uhrung ist wieder indirekt, d.h. wir nehmen an, dass wir eine kleinste obere Schranke s ∈ Q h¨ atten. Wir werden daraus erschließen, dass dann s2 = 2 gelten m¨ usste, was ja aber, wie wir gesehen haben, f¨ ur keine rationale Zahl gelten kann. Dabei werden wir die folgenden zwei Ergebnisse ben¨ utzen: (a) Zu jedem x ∈ A gibt es ein y ∈ A mit x < y. (b) Zu jedem u ∈ B = {x ∈ Q : x > 0 ∧ x2 > 2} gibt es ein v ∈ B mit v < u. Wenn wir den Nachweis von (a) und (b) im Moment zur¨ uckstellen, so k¨onnen wir damit den Beweis des Satzes rasch zu Ende f¨ uhren. Sei also s ∈ Q eine kleinste obere Schranke von A. Da ja dann 0 < x ≤ s f¨ ur alle x ∈ A gilt, muss s > 0 sein. F¨ ur s gibt es drei M¨ oglichkeiten: (i) s2 < 2, also s ∈ A, (ii) s2 > 2, also s ∈ B, (iii) s2 = 2. Unter Verwendung von (a) kann man leicht erschließen, dass (i) nicht in Frage kommt. Denn nach (a) muss es, wenn s ∈ A ist, ein y ∈ A geben mit s < y. Damit w¨ are aber s keine obere Schranke zu A. Analog gibt es nach (b), wenn s ∈ B ist, ein v ∈ B mit v < s. Da jedes Element von B aber eine obere Schranke von usste aber (iii), also s2 = 2 are damit s keine kleinste obere Schranke. Damit m¨ A ist, w¨ gelten, womit der Beweis des Satzes beendet ist. Nachweis von (a): Dies kann mit einem direkten Beweis erledigt werden, d.h. wir geben zu einem beliebig gew¨ ahlten x ∈ A explizit ein y ∈ A an, f¨ ur das x < y gilt. Offenbar ist dazu eine positive Zahl h ∈ Q anzugeben, die so klein ist, dass f¨ ur y := x + h immer noch gilt y 2 < 2. Ist h so klein, dass 0 < h < 1 gilt, so gilt h2 < h und wir k¨onnen notieren y 2 = x2 + 2xh + h2 < x2 + (2x + 1)h. Um y 2 < 2 zu erreichen, muss man damit h nur so w¨ahlen, dass (2x + 1)h < 2 − x2 ist. Dies ist der Fall, wenn wir definieren $ 1 falls 2 − x2 > 2x + 1, h := 12 2−x2 falls 2 − x2 ≤ 2x + 1. 2 2x+1 Nachweis von (b): Wir geben zu einem beliebig gew¨ahlten u ∈ B explizit ein v ∈ B an, f¨ ur das v < u gilt. Und zwar hat man das schon erreicht, wenn man v := u −
u2 − 2 2u
setzt. Es ist klar, dass dann v < u erf¨ ullt ist. Da man auch schreiben kann v = gilt offenbar v > 0. Schließlich zeigt die Rechnung v 2 = u2 − (u2 − 2) + dass v 2 > 2 gilt.
u 2
+ u1 ,
(u2 − 2)2 (u2 − 2)2 = 2 + , (2u)2 (2u)2 !
6
¨ Zahlen und andere Grundbegriffe 1 Uber
ange gibt zwischen dem Problem mit dem Dieser Beweis zeigt, dass es Zusammenh¨ √ Objekt 2 und dem zuletzt diskutierten Problem mit der kleinsten oberen Schranke. In beiden F¨ allen wird man versuchen, die Schwierigkeiten zu beseitigen, indem man von der Menge der rationalen Zahlen zu einem gr¨ oßeren Bereich von als Zahlen zu bezeichnenden Objekten u ¨ bergeht, und es ist wegen des beobachteten Zusammenhangs denkbar, dass man durch L¨ osen des einen Problems auch das andere Problem bereinigen kann. Es wird sich tats¨ achlich zeigen, dass es ausreicht, mit einem gr¨oßeren Bereich zu arbeiten, in dem keine Probleme mit kleinsten oberen Schranken mehr auftreten. Wir werden so einen Bereich zur Vermeidung relativ langwieriger Konstruktionsprozesse axiomatisch einf¨ uhren, d.h. wir werden nicht sagen, mit welchen Objekten wir Rechenoperationen ausf¨ uhren, es reicht uns, all das an Struktur zur Verf¨ ugung zu haben, was wir von Zahlen erwarten. Dabei ist es nat¨ urlich erstrebenswert, dass man, um eines der erw¨ahnten Probleme in den Griff zu bekommen, nicht auf etwas verzichten muss, was man vom Umgang mit den rationalen Zahlen gewohnt ist. Dies ist keineswegs selbstverst¨andlich, denn wir werden sp¨ ater sehen, dass man bei der Erweiterung des Bereichs der reellen Zahlen zu den komplexen Zahlen nicht alles erhalten kann. F¨ ur diesen axiomatischen Zugang werden wir also zun¨achst die Regeln, nach denen wir mit den rationalen Zahlen umgehen, u ¨ berschaubar und m¨oglichst pr¨azise zusammenfassen. Bei den gewohnten Rechenoperationen der Addition oder der Multiplikation wird ja jeweils einem Paar von rationalen Zahlen eine rationale Zahl als Summe oder als Produkt zugeordnet. Zur pr¨ azisen Fassung so einer Operation f¨ uhren wir den Begriff des kartesischen Produkts und den Begriff der Abbildung ein.
1.2.3
¨ Uber Relationen und Abbildungen
Sind zwei beliebige Mengen A und B gegeben, so k¨onnen wir aus Elementen a ∈ A und b ∈ B geordnete Paare (a, b) bilden. Der Zusatz ’geordnet’ ist insbesondere im Fall A = B wichtig, denn es soll dann (a, b) 3= (b, a) sein, wenn a 3= b ist. Wir definieren daher allgemein (a, b) = (a& , b& ) :⇐⇒ (a = a& ) ∧ (b = b& ). Das kartesische Produkt A × B der Mengen A und B ist dann die Menge aller geordneten Paare (a, b) mit a ∈ A und b ∈ B. Da wir, wenn etwa A = ∅ ist, gar kein geordnetes Paar (a, b) mit a ∈ A ∧ b ∈ B bilden k¨onnen, gilt stets ∅ × B = ∅. Entsprechend gilt aber auch stets A × ∅ = ∅. Folglich gilt immer A × ∅ = ∅ × A. Im allgemeinen sind aber die Mengen A × B und B × A verschieden. Dies zeigt schon das Beispiel A = {1}, B = {2}. Es ist dann A × B = {(1, 2)} und B × A = {(2, 1)}. Es ist h¨ aufig so, dass unter den geordneten Paaren (a, b) ∈ A×B solche von besonderem Interesse sind, bei denen eine gewisse Beziehung zwischen a und b besteht. Ist etwa D := {1, 2, . . . , 10}, so k¨ onnten z.B. die Paare (n, m) ∈ D × D wichtig sein, f¨ ur die n ≤ m gilt. Die Menge M := {(n, m) ∈ D × D : n ≤ m} ist dann eine echte Teilmenge von D × D, d.h. es gilt M ⊂ D × D ∧ M 3= D × D. Denn es gilt offenbar (8, 7) ∈ / M . Vor diesem Hintergrund ist es verst¨ andlich, dass man allgemein jede Teilmenge R ⊂ A × B als eine Relation bezeichnet. Es ist ersichtlich, dass es dabei besonders interessante und ziemlich uninteressante Relationen geben kann.
1.2 Einige Grundbegriffe, rationale Zahlen
7
ur die gilt, dass es zu jedem Ein besonders wichtiger Typ von Relationen sind solche, f¨ a ∈ A genau ein b ∈ B gibt mit (a, b) ∈ R. (Ein Beispiel f¨ ur so eine Relation ist etwa R = {(x, y) ∈ Q × Q : y = x2 }.) Solche Relationen R ⊂ A × B nennt man Abbildungen (von A nach B), man spricht auch von Funktionen. Die Verwendung des Begriffs Abbildung f¨ ur solche Relationen wird einsichtig, wenn man zu einer anderen recht gewohnten Notation u ¨ bergeht: Ist F ⊂ X × Y eine Abbildung von X nach Y , so kann man ja ein beliebiges x ∈ X hernehmen und es gibt dann genau ein y ∈ Y mit (x, y) ∈ F . Notiert man dieses eindeutig bestimmte y ∈ Y als F (x), so hat man die bekannte Notation y = F (x) f¨ ur x ∈ X. Dem angepasst verwendet man dann f¨ ur die Abbildung F die Notation F : X→Y . x /→ F (x) Verwendet man diese Notation, so nennt man die Menge F ⊂ X × Y den Graphen der Abbildung F . Kehren wir nun mit dieser Notation zur oben bereits als Beispiel angegebenen Abbildung f : Q→Q x /→ x2 zur¨ uck, so ist festzuhalten, dass es zu y = 2 ∈ Q kein x ∈ Q gibt mit y = f (x). Betrachtet man zu einer gegebenen Abbildung F : X → Y die Menge F (X) := {y ∈ Y : Es gibt ein x ∈ X mit y = F (x)}, die man aus offensichtlichen Gr¨ unden das Bild von X unter F oder den Wertebereich von F nennt, so gilt also f (Q) 3= Q. Die Abbildung f ist damit nicht surjektiv im Sinne der folgenden Definition: Eine Abbildung F : X → Y heißt surjektiv, wenn F (X) = Y gilt. Bei der Abbildung f ist noch ein weiteres Ph¨ anomen zu beobachten: 3 x& und f (x) = f (x& ). Die Abbildung Es gilt f (−1) = f (1), es gibt also x, x& ∈ Q mit x = ist damit auch nicht injektiv im Sinne der folgenden Definition: Eine Abbildung F : X → Y heißt injektiv, wenn es zu jedem y ∈ Y h¨ochstens ein x ∈ X gibt mit y = F (x). Es gibt aber Abbildungen, die sowohl surjektiv, als auch injektiv sind. Ist X eine nichtleere Menge, so kann man die identische Abbildung idX : X → X definieren durch ur alle x ∈ X. Diese ist offenbar injektiv und surjektiv, also bijektiv im idX (x) := x f¨ Sinne der folgenden Definition: Eine Abbildung F : X → Y heißt bijektiv, wenn sie injektiv und surjektiv ist. at einer Abbildung ergibt sich direkt aus der Definition auch eine anF¨ ur die Bijektivit¨ dere Charakterisierung: Eine Abbildung F : X → Y ist genau dann bijektiv, wenn es zu jedem y ∈ Y genau ein x ∈ X gibt mit y = F (x).
¨ Zahlen und andere Grundbegriffe 1 Uber
8
Diese Charakterisierung zeigt, dass man bei einer bijektiven Abbildung F : X → Y die Umkehrabbildung F −1 : Y → X dadurch definieren kann, dass F −1 (y) := x sein soll, wenn x ∈ X das eindeutig zu y gegebene Element aus X ist, f¨ ur das F (x) = y gilt. Offenbar gilt dann sowohl F (F −1 (y)) = y f¨ ur alle y ∈ Y als auch F −1 (F (x)) = x f¨ ur alle x ∈ X. Auch ist die Umkehrabbildung F −1 : Y → X ebenfalls bijektiv. Die Surjektivit¨ at ist dabei klar, von der Injektivit¨ at kann man sich aber auch sofort u ¨ berzeugen. Man muss zeigen, dass aus F −1 (y1 ) = F −1 (y2 ) immer y1 = y2 folgt. Wie soeben notiert gilt aber y1 = F (F −1 (y1 )) = F (F −1 (y2 )) = y2 . ur alle y ∈ Y gilt, anders zu Es ist zweckm¨ aßig, die Tatsache, dass F (F −1 (y)) = y f¨ notieren, indem man den Begriff der Komposition von Abbildungen verwendet. Sind f : A → B und g : B → C Abbildungen, so kann man eine Abbildung h : A → C definieren durch h(x) := g(f (x)) f¨ ur alle x ∈ A. Diese nennt man die Komposition von g mit f , (man spricht auch von der Hintereinanderausf¨ uhrung der zwei Abbildungen), und es ist die Notation h = g ◦ f u ¨ blich. Dies ist auch sehr suggestiv, denn es gilt ja (g ◦ f )(x) = g(f (x)) f¨ ur alle x ∈ A. Offenbar kann man damit schreiben F ◦ F −1 = idY −1 und F ◦ F = idX . ¨ F¨ ur sp¨ atere Uberlegungen sei noch bemerkt, dass die Komposition g ◦ f von zwei bijektiven Abbildungen f : A → B und g : B → C stets ebenfalls bijektiv ist. Denn ist c ∈ C beliebig gegeben, so gibt es genau ein b ∈ B mit g(b) = c. Zu diesem b gibt es aber auch genau ein a ∈ A mit f (a) = b. Damit gilt (g ◦ f )(a) = g(f (a)) = c urde es noch ein a& ∈ A mit (g ◦ f )(a& ) = c geben, so und somit ist g ◦ f surjektiv. W¨ w¨ are g(f (a)) = g(f (a& )), somit f (a) = f (a& ), was im Fall a 3= a& der Injektivit¨at von f widersprechen w¨ urde. Damit ist g ◦ f auch injektiv.
1.2.4
Der geordnete K¨orper der rationalen Zahlen
Wie bereits angek¨ undigt beschreiben wir nun die bekannten Rechenoperationen der Addition und der Multiplikation von rationalen Zahlen als Abbildungen + : Q × Q → Q, (a, b) /→ a + b
·:Q×Q→Q , (a, b) /→ a · b
f¨ ur die folgendes gilt: (K1) (K2) (K3) (K4) (K5) (K6) (K7)
(a + b) + c = a + (b + c) f¨ ur alle a, b, c ∈ Q. a + b = b + a f¨ ur alle a, b ∈ Q. Es gibt genau ein Element, die Null, so dass a + 0 = a f¨ ur alle a ∈ Q gilt. Zu jedem a ∈ Q gibt es genau ein b ∈ Q, so dass a + b = 0 gilt. ur alle a, b, c ∈ Q. (a · b) · c = a · (b · c) f¨ a · b = b · a f¨ ur alle a, b ∈ Q. Es gibt genau ein von 0 verschiedenes Element, die Eins, so dass a · 1 = a f¨ ur alle a ∈ Q gilt. (K8) Zu jedem a ∈ Q mit a 3= 0 gibt es genau ein b ∈ Q, so dass a · b = 1 gilt. (K9) a · (b + c) = (a · b) + (a · c) f¨ ur alle a, b, c ∈ Q.
1.2 Einige Grundbegriffe, rationale Zahlen
9
ultigkeit von (K1) bis (K9) besagt, dass Q mit den zwei Operationen + und · die Die G¨ algebraische Struktur eines K¨ orpers hat. Man beachte, dass bei so einer Struktur die Existenz von zwei verschiedenen Elementen gefordert wird; es muss entsprechend (K3) ein neutrales Element bez¨ uglich der Operation + und entsprechend (K7) ein neutrales Element bez¨ uglich der Operation · geben, und, wie in (K7) gefordert, m¨ ussen diese verschieden sein. Tats¨ achlich kann man bereits die Menge {0, 1} zu einem K¨orper machen. Man muss nur definieren 0 + 0 := 0, 0 + 1 := 1, 1 + 0 := 1, 1 + 1 := 0, 0 · 0 := 0,
0 · 1 := 0,
1 · 0 := 0,
1 · 1 := 1.
F¨ ur die G¨ ultigkeit von (K1) und (K5) sagt man einfacher, dass die zwei Operationen + und · assoziativ sind, f¨ ur (K2) und (K6), dass sie kommutativ sind. Bei (K9) spricht man von der G¨ ultigkeit des Distributivgesetzes. Zur algebraischen Struktur des K¨ orpers der rationalen Zahlen kommt nun noch die Struktur einer ’Ordnung’ hinzu, die es erm¨ oglicht, eine Zahl als kleiner als eine andere zu bezeichnen. Auch f¨ ur den Umgang mit diesem Gr¨oßenvergleich gelten bekanntlich gewisse Regeln, und auch diese werden wir jetzt genauer herausarbeiten. Eine Relation R ⊂ X × X bezeichnet man als reflexiv, wenn (x, x) ∈ R f¨ ur alle x ∈ X gilt, symmetrisch, wenn f¨ ur alle x, y ∈ X aus (x, y) ∈ R auch (y, x) ∈ R folgt, antisymmetrisch, wenn f¨ ur alle x, y ∈ X aus (x, y) ∈ R ∧ (y, x) ∈ R folgt x = y, transitiv, wenn f¨ ur alle x, y, z ∈ X aus (x, y) ∈ R ∧ (y, z) ∈ R folgt (x, z) ∈ R Ist eine Relation R ⊂ X × X reflexiv, antisymmetrisch und transitiv, so bezeichnet man sie als Ordnungsrelation. Offensichtlich trifft dies alles zu, wenn wir R ⊂ Q × Q mit dem f¨ ur rationale Zahlen gewohnten x ≤ y definieren durch (x, y) ∈ R :⇐⇒ x ≤ y. Wir k¨ onnen aber auch sofort eine andere, ebenfalls sehr wichtige Ordnungsrelation angeben: Sei M eine beliebige Menge und die Relation R ⊂ P (M ) × P (M ) definiert durch (A, B) ∈ R :⇐⇒ A ⊂ B. Ist etwa M = {a, b}, so gilt weder ({a}, {b}) ∈ R noch ({b}, {a}) ∈ R, d.h die zwei Elemente {a}, {b} ∈ P (M ) sind bez¨ uglich dieser Ordnungsrelation nicht vergleichbar. Bei zwei rationalen Zahlen x und y gilt aber immer x ≤ y ∨ y ≤ x. Hier sind also alle Elemente miteinander vergleichbar. Man spricht in diesem Fall davon, dass eine totale Ordnung vorliegt. Die geordnete Menge (Q, ≤) ist also total geordnet, die geordnete Menge (P (M ), ⊂) jedoch im allgemeinen nicht. orper (Q, +, ·), versehen mit der u Betrachtet man nun den K¨ ¨ blichen Ordnungsrelation ≤, so gelten f¨ ur das Zusammenspiel der algebraischen Operationen und der Ordnung die folgenden wohl vertrauten Aussagen, bei denen wir die Notation x < y :⇐⇒ (x ≤ y ∧ x 3= y) verwenden: (O-K1) F¨ ur alle x, y ∈ Q folgt aus x < y, dass f¨ ur alle r ∈ Q auch x + r < y + r gilt. (O-K2) F¨ ur alle x, y ∈ Q folgt aus 0 < x und 0 < y, dass auch 0 < x · y gilt.
¨ Zahlen und andere Grundbegriffe 1 Uber
10
ur Teilmengen von Q verwendete Begriff der oberen Schranke l¨asst Der fr¨ uher schon f¨ sich ganz analog allgemein f¨ ur geordnete Mengen fassen. Dabei ist es zweckm¨aßig, auch bei beliebigen Ordnungsrelationen R ⊂ X × X, (wobei X irgendeine Menge sein kann), die bei den rationalen Zahlen gewohnte Notation mit ≤ zu verwenden, d.h. allgemein f¨ ur x, y ∈ X zu definieren x ≤ y :⇐⇒ (x, y) ∈ R. Ist M ⊂ X eine beliebige nichtleere Teilmenge von X, so nennt man ein Element s ∈ X, f¨ ur das x ≤ s f¨ ur alle x ∈ M gilt, obere Schranke von (oder auch f¨ ur) M . Analog spricht man von einer unteren Schranke, wenn s ≤ x f¨ ur alle x ∈ M gilt. Gibt es ein Element m ∈ M , f¨ ur das m ≤ x f¨ ur alle x ∈ M gilt, so nennt man m das Minimum von M . (Man beachte, dass es wegen der Antisymmetrie der Ordnungsrelation R h¨ochstens ein Minimum von M geben kann. W¨ aren m, m& ∈ M mit m ≤ x und m& ≤ x f¨ ur alle x ∈ M , so w¨ urde insbesondere m ≤ m& und m& ≤ m gelten, woraus m = m& folgt.) Entsprechend bezeichnet man ein Element a ∈ M als Maximum von M , wenn x ≤ a f¨ ur alle x ∈ M gilt. Als Notationen werden wir min M und max M verwenden. Ist eine nichtleere Teilmenge M von X nach oben beschr¨ankt, d.h. gibt es ein obere Schranke s ∈ X f¨ ur M , so ist die Menge S := {s ∈ X : s ist obere Schranke von M } eine nichtleere Teilmenge von X und existiert dazu min S, so bezeichnet man dieses Minimum (nat¨ urlich) als kleinste obere Schranke von M oder als das Supremum von M . Ganz entsprechend spricht man bei nach unten beschr¨ankten Mengen von der gr¨ oßten unteren Schranke oder dem Infimum von M . Satz 1.1 von Abschnitt 1.2.2 hat uns gezeigt, dass es nichtleere nach oben beschr¨ankte Teilmengen von Q gibt, zu denen kein Supremum in Q existiert. Der geordnete K¨orper Q ist damit nicht ordnungsvollst¨andig im Sinne der folgenden Definition: Eine total geordnete Menge X nennt man ordnungsvollst¨ andig, wenn zu jeder nichtleeren nach oben beschr¨ankten Teilmenge M von X sup M ∈ X existiert. Spricht man von ’ordnungsvollst¨ andig’, so ist es naheliegend, zu erwarten, dass auch zu jeder nichtleeren nach unten beschr¨ ankten Teilmenge M das Infimum inf M existiert. Das ist tats¨ achlich auch sichergestellt; wir formulieren und beweisen dazu das folgende Lemma: Lemma 1.1 Sei X eine ordnungsvollst¨ andige total geordnete Menge und M eine nichtleere nach unten beschr¨ ankte Teilmenge von X. Dann existiert inf M ∈ X. Beweis: Sei M ⊂ X nichtleere nach unten beschr¨ ankte Menge. Dann ist die Menge der unteren Schranken von M , also die Menge S := {s ∈ X : s ≤ x f¨ ur alle x ∈ M }
1.3 Die reellen Zahlen
11
ankt. Damit existiert m := sup S ∈ X. Da ja urlich nach oben beschr¨ nicht leer und nat¨ alle Elemente von M obere Schranken von S sind und m die kleinste obere Schranke von S ist, muss m ≤ x f¨ ur alle x ∈ M gelten. Damit ist aber m ∈ S und somit sogar m = max S. Offenbar muss dann m = inf M sein. !
1.3
Die reellen Zahlen
1.3.1
Axiomatischer Zugang
¨ Die bisherigen Uberlegungen haben gezeigt, dass es zur Behebung der Schwierigkeiten, die sich beim Arbeiten im Rahmen der rationalen Zahlen ergeben haben, sinnvoll sein sollte, statt mit dem geordneten K¨ orper Q mit einem gr¨oßeren geordneten K¨orper zu arbeiten, der ordnungsvollst¨ andig ist. Wir werden nun sehen, dass es dabei gar nicht darauf ankommt, was wir uns unter den Elementen so eines ordnungsvollst¨andigen geordneten K¨ orpers vorzustellen haben Sei also (K, +, ·) ein K¨ orper, also eine Menge K mit zwei Operationen + : K × K → K und · : K × K → K, f¨ ur die die gleichen Rechenregeln (K1) bis (K9) gelten, wie wir sie f¨ ur die rationalen Zahlen notiert haben. Auch sei auf K eine Ordnungsrelation ≤ definiert, so dass (K, ≤) zu einer total geordneten, ordnungsvollst¨andigen Menge wird, ur das Zusammenspiel von +, · und ≤ wieder die gleichen Rechenregeln und es sollen f¨ (O-K1) und (O-K2) wie f¨ ur die rationalen Zahlen gelten. Ist x ∈ K ein beliebiges Element des K¨ orpers, so k¨onnen wir x2 := x · x definieren. Es gilt dann immer 0 ≤ x2 . Um dies beweisen zu k¨onnen, ben¨otigen wir noch einige kleine Vor¨ uberlegungen. Dabei ist zu beachten, dass wir nur auf die Struktur von (K, +, ·, ≤) ¨ ben¨otigen wir sogar nur die K¨orperur die erste Uberlegung urfen. F¨ zur¨ uckgreifen d¨ struktur. In (K4) wird gefordert, dass zu jedem Element a ∈ K genau ein bez¨ uglich der Operation + inverses Element existiert, das wir nun einfach mit −a bezeichnen. Es soll also immer a + (−a) = 0 gelten. Insbesondere gibt es das Element −1 ∈ K und wir k¨onnen das Element (−1) · a bilden. Wir werden daf¨ ur k¨ unftig unter Weglassen des Multiplikationspunktes einfach (−1)a schreiben und entsprechend notieren, dass (−1)a = −a f¨ ur alle a ∈ K
(1.2)
gilt. Dies ist folgendermaßen zu sehen: Es gilt 0a = a0 = a(0 + 0) = a0 + a0. Setzt man b := a0, so gilt also b = b + b Da dann aber b = b + (b + (−b)) = (b + b) + (−b) = b + (−b) = 0 folgt, wissen wir, dass immer 0a = 0 gilt. Aus a = 1a folgt damit a + (−1)a = (1 + (−1))a = 0a = 0, was aber bedeutet, dass (−1)a = −a sein muss. Als n¨ achstes zeigen wir, dass gilt: Ist a < 0, so gilt 0 < −a. uck. Danach k¨onnen wir notieren Dazu greifen wir auf (O-K1) zur¨ 0 = a + (−a) < 0 + (−a) = −a.
¨ Zahlen und andere Grundbegriffe 1 Uber
12 Damit sind wir in der Lage, zu zeigen, dass 0 < a2
f¨ ur alle
a ∈ K mit a 3= 0
(1.3)
¨ 0 · 0 = 0 gilt, gilt. (Man beachte, dass nach den soeben durchgef¨ uhrten Uberlegungen weshalb die Annahme a = 3 0 f¨ ur die G¨ ultigkeit von (1.3) wesentlich ist.) Da K total geordnet ist und a 3= 0 gelten soll, muss 0 < a oder a < 0 gelten. Ist 0 < a, so folgt 0 < a2 sofort aus (O-K2). Ist aber a < 0, so gilt 0 < −a und somit 0 < (−a)(−a). Nach (1.2) gilt (−a)(−a) = ((−1)a)((−1)a) = ((−1)(−1))a2 . Damit folgt (1.3), wenn (−1)(−1) = 1 gilt. Da aber (−1) + 1 = 0 gilt, ist −(−1) = 1 und unter Verwendung von (1.2) folgt (−1)(−1) = −(−1) = 1. Es stellt sich nun die Frage, ob es zu jedem Element a des geordneten K¨orpers mit a > 0 ein Element b ∈ K mit 0 < b gibt, so dass a = b2 gilt. Wir wissen, dass dies f¨ ur den geordneten K¨ orper Q nicht richtig ist, aber bei einem ordnungsvollst¨andigen geordneten K¨ orper ist die als Wurzelziehen bekannte Operation bei Elementen a mit oglich. 0 < a immer m¨ Dies nachzuweisen, erfordert noch einige Arbeit, wobei wir im n¨achsten Schritt sehen werden, dass wir die uns wohlvertrauten nat¨ urlichen Zahlen nun als eine Teilmenge von K auffassen k¨ onnen. Wir definieren dazu: Eine Menge M ⊂ K heißt induktiv, wenn des Element 1 zu M geh¨ort und aus x ∈ M stets x + 1 ∈ M folgt. Es gibt offenbar induktive Teilmengen von K, ganz K ist n¨amlich eine. Damit ist es sinnvoll, zu definieren: N := {x ∈ K : x ∈ M f¨ ur alle induktiven Mengen M ∈ P (K)}.
(1.4)
Wir haben hier nun bewusst die gleiche Notation wie in (1.1) ben¨ utzt, weil die so gewonurlichen Zahlen achlich in unserem neuen Kontext als Menge der nat¨ nene Menge tats¨ anzusehen sein wird. Dabei ist es von grundlegender Bedeutung, dass die so definierte Menge N selber wieder induktiv ist. Dies ist rasch zu sehen: Da 1 ∈ M f¨ ur jede induktive Menge gilt, ist 1 auch Element von N. Ist x ein Element von N, so gilt x ∈ M f¨ ur alle induktiven Mengen M , also auch x + 1 ∈ M und somit x + 1 ∈ N. Damit ist aber N die kleinste induktive Teilmenge von K. Denn ist M irgendeine induktive Teilmenge, so gilt f¨ ur alle x ∈ N ja x ∈ M , somit N ⊂ M . Bezeichnen wir nun vor¨ ubergehend die uns seit Jahren bekannte und in (1.1) notierte Menge der nat¨ urlichen Zahlen mit Nnat , so kann man eine Abbildung j von Nnat nach N angeben, indem man in als rekursiv bezeichneter Weise j(1) := 1, j(2) := 1 + 1 und j(n) := j(n − 1) + 1 f¨ ur n = 3, 4, . . . definiert. Hier sind die Punkte . . . wieder uhrt etwas unpr¨ azise, weil wir die Menge Nnat ja auch entsprechend unpr¨azise eingef¨ haben. Man k¨ onnte sie aber auch mit Hilfe von Axiomen einf¨ uhren und damit eine solidere Grundlage schaffen. Dass tats¨ achlich sichergestellt ist, dass stets j(n) ∈ N ist, liegt offenbar daran, dass N induktiv ist. Da N die kleinste induktive Menge ist, muss die Bildmenge j(Nnat ) mit N u ¨ bereinstimmen. Denn offenbar ist j(Nnat ) selbst eine induktive Menge und somit gilt N ⊂ j(Nnat ) ⊂ N. Es sei darauf verzichtet, zu
1.3 Die reellen Zahlen
13
ur uns reicht es, zu wissen, unden, dass die Abbildung j sogar bijektiv ist, denn f¨ begr¨ dass wir k¨ unftig einfach 2 ∈ N etc. schreiben d¨ urfen, indem wir statt j(2) einfach wieder 2 schreiben. Die Menge N der nat¨ urlichen Zahlen wird aber ab sofort durch (1.4) definiert sein, wobei wir jedoch in gewohnter Weise mit den Zahlen 2, 3 etc. rechnen d¨ urfen. Dies hat nicht zuletzt den Vorteil, dass wir nicht mehr wie in (1.1) Punkte . . . schreiben m¨ ussen, um die Menge der nat¨ urlichen Zahlen zu beschreiben. Diese Punkte wurden nun ersetzt durch die Formulierung, dass N eine induktive Menge ist. Das folgende so bekannt erscheinende Resultat m¨ ussen wir, da N jetzt durch (1.4) definiert ist, beweisen: Lemma 1.2 F¨ ur alle n ∈ N gilt 1 ≤ n. Beweis: Wir betrachten die Menge M := {n ∈ N : 1 ≤ n}. Es ist dies eine Teilmenge von N mit 1 ∈ M . K¨ onnen wir noch zeigen, dass, wenn n ∈ M ist, auch n + 1 ∈ M ist, so ist M ur alle n ∈ N gilt. induktiv und somit muss M = N gelten, womit 1 ≤ n f¨ Sei also n ∈ M beliebig gegeben. Aus 1 = 12 folgt 0 < 1 und damit nach (O-K1) weiter n < n + 1. Da n ∈ M ist, gilt aber 1 ≤ n und somit aufgrund der Transitivit¨at der Ordnungsrelation 1 ≤ n + 1, d.h. n + 1 ∈ M . ! Der Beweis hat wesentlich darauf beruht, dass N die kleinste induktive Menge ist. Damit war er das erste Beispiel eines Beweises durch vollst¨andige Induktion. Dieses Beweisprinzip werden wir sp¨ ater immer wieder einsetzen. Wir kehren nun aber zum ordnungsvollst¨ andigen geordneten K¨ orper K zur¨ uck und notieren ein wichtiges Resultat, das letztlich schon Archimedes bekannt war. Dabei verwenden wir erstmals die Notation a > 0 entsprechend der folgenden Definition: x > 0 :⇐⇒ 0 < x. Auch schreiben wir zur Vereinfachung x − y := x + (−y). Satz 1.2 Sei a ∈ K mit a > 0. Dann gibt es zu jedem b ∈ K ein n ∈ N mit b < na. Beweis: Es ist offenbar ausreichend, zu zeigen, dass die Menge M := {x ∈ K : Es gibt ein n ∈ N mit x = na} nicht nach oben beschr¨ ankt ist. Dies wird indirekt erledigt: Sei angenommen, dass M nach oben beschr¨ ankt ist. Da K ordnungsvollst¨andig ist, existiert s := sup M ∈ K. Trivialerweise gilt dann na ≤ s f¨ ur alle n ∈ N. Da s aber die kleinste obere Schranke ist und s − a < s gilt, (denn es ist 0 < a und damit nach (O-K1) s − a = (s − a) + 0 < (s − a) + a = s), kann s − a keine obere Schranke von M sein. Es muss daher ein m ∈ N
¨ Zahlen und andere Grundbegriffe 1 Uber
14
geben mit ma > s − a. Daraus folgt (m + 1)a > s. Da auch m + 1 ∈ N und somit (m + 1)a ∈ M ist, steht dies aber im Widerspruch dazu, dass s obere Schranke von M ist. ! Im Zusammenhang mit diesem Resultat spricht man auch von einem archimedisch angeordneten K¨ orper. Aus diesem Satz ergeben sich weitere wichtige Folgerungen, die im n¨ achsten Korollar festgehalten seien. Wir verwenden dabei die Notation a−1 f¨ ur das bez¨ uglich der Operation · inverse Element zu einem Element a 3= 0, d.h. es gilt aa−1 = 1. Wegen n ≥ 1 f¨ ur alle n ∈ N existiert f¨ ur alle n ∈ N das Element n−1 ∈ K. Korollar 1.1 Es gilt: (a) Die Menge N ⊂ K ist nicht nach oben beschr¨ankt. (b) Zu jedem a ∈ K mit a > 0 gibt es ein n ∈ N mit n−1 < a. Beweis: Zu (a): W¨ are N nach oben beschr¨ ankt, so w¨ urde es ein Element s ∈ K geben mit n ≤ s f¨ ur alle n ∈ N. Zu 1 > 0 muss es aber ein m ∈ N geben mit m = m · 1 > s. Damit f¨ uhrt die Annahme, dass N nach oben beschr¨ ankt ist, zu einem Widerspruch. Zu (b): Zu a > 0 gibt es ein n ∈ N mit na > 1. Da n > 0 ist, ist aber auch n−1 > 0. Denn w¨ are n−1 < 0, so w¨ are −n−1 > 0 und nach (O-K2) damit −1 = n(−n−1 ) > 0 im ! Widerspruch zu 1 > 0. Damit folgt (na − 1)n−1 > 0, somit a > n−1 . Damit k¨ onnen wir das angek¨ undigte Resultat zum ’Wurzelziehen’ beweisen: Satz 1.3 Sei (K, +, ·, ≤) ein ordnungsvollst¨ andiger geordneter K¨orper, sei a ∈ K mit 0 ≤ a. Dann gibt es genau ein b ∈ K mit 0 ≤ b, so dass b2 = a gilt. Beweis: Sei zuerst gezeigt, dass f¨ ur zwei beliebige Elemente x, y ∈ K gilt x2 − y 2 = (x − y)(x + y). Unter Verwendung von (K9) erh¨ alt man (x − y)(x + y) = (x − y)x + (x − y)y = x2 + (−y)x + xy + (−y)y. Es ist aber (−y)x + xy = x(−y + y) = x0 = 0 und (−y)y = (−1)yy = (−1)y 2 = −y 2 und somit x2 − y 2 = (x − y)(x + y). Als n¨ achstes u ur beliebige x, y ∈ K aus xy = 0 immer folgt, ¨berlegen wir uns, dass f¨ dass x = 0 ∨ y = 0 gelten muss. W¨ are nun x > 0 ∧ y > 0, so w¨are nach (O-K2) auch xy > 0. W¨ are x < 0 ∧ y < 0, so w¨ are −x > 0 ∧ −y > 0 und somit (−x)(−y) > 0, woraus sofort xy > 0 folgt. W¨ are schließlich x > 0 ∧ y < 0, so w¨are x(−y) > 0, woraus xy < 0 folgt. Daraus folgt sofort, dass nur mit b = 0 gelten kann b2 = 0. Wir k¨onnen nun aber auch
1.3 Die reellen Zahlen
15
ochstens ein b > 0 geben kann mit b2 = a. Wir f¨ ur beliebiges a > 0 zeigen, dass es h¨ ussen nehmen dazu an, dass b > 0 und c > 0 gegeben seien mit b2 = a und c2 = a, und m¨ erschließen, dass dann schon b = c sein muss. Aus b2 = a ∧ c2 = a folgt b2 − c2 = 0, also (b − c)(b + c) = 0. Damit muss b − c = 0 ∨ b + c = 0 sein. Ist b − c = 0, so folgt sofort c = c + (b − c) = b. Der Fall b + c = 0 kann aber nicht eintreten, wenn b > 0 ∧ c > 0 ist, denn nach (O-K1) gilt dann ja b + c > b + 0 = b > 0. Damit ist nun noch die Existenz eines Elements b > 0 mit b2 = a nachzuweisen. Dazu werden wir wesentlich auf die Ordnungvollst¨ andigkeit des geordneten K¨orpers zur¨ uckgreifen. Sei M := {x ∈ K : 0 ≤ x ∧ x2 ≤ a}. Wegen 0 ≤ a ist sicher 0 ∈ M , also M 3= ∅. Die Menge M ist aber auch nach oben beschr¨ ankt. Und zwar muss f¨ ur alle x ∈ M gelten x ≤ 1 + a. Um dies zu sehen, u achst, dass aus 0 ≤ α < β immer folgt α2 < β 2 . Aus α < β folgt ¨ berlegen wir uns zun¨ γ := β − α > α − α = 0. Damit ist β 2 = (α + γ)2 = α2 + αγ + γα + γ 2 > α2 , are nun x > 1 + a, so w¨are x2 > (1 + a)2 , somit aber weil αγ + γα + γ 2 ≥ γ 2 > 0 ist. W¨ 2 2 auch x > 1 + a + a + a ≥ 1 + a > a im Widerspruch zu x2 ≤ a. (Man beachte, dass wir beim letzten Schluss wieder 1 > 0 verwendet haben.) Damit existiert nun b := sup M und wir m¨ ussen noch zeigen, dass b2 = a gelten muss. W¨ are dies nicht richtig, so m¨ usste, da ja K total geordnet ist, b2 < a oder b2 > a gelten. allen einen Widerspruch zu b = sup M liefern Wir werden zeigen, dass dies in beiden F¨ w¨ urde. Die Argumentation verl¨ auft dabei ganz ¨ahnlich wie beim Beweis von Satz 1.1 aus Abschnitt 1.2.2. Wir zeigen, dass im Fall b2 < a noch ein x ∈ M existiert mit b < x, was dem widerspricht, dass b obere Schranke von M sein soll. Sei also b2 < a. Dann m¨ ussen wir nur ein c ∈ K angeben mit b < b + c ∧ (b + c)2 ≤ a. Es reicht, ein c > 0 anzugeben mit cb + bc + c2 < a − b2 . Schreiben wir unter Ben¨ utzung von 1 + 1 = 2 wie gewohnt b + b = 1 · b + 1 · b = (1 + 1)b = 2b, so soll also c(2b + c) < a − b2 sein. Dies kann man aber mit einem n ∈ N erreichen. Da stets n ≥ 1 gilt, ist stets n−1 ≤ 1. Denn es ist ja n−1 > 0 und somit n−1 (n − 1) ≥ 0. Daraus folgt 1 ≥ n−1 . Damit ist es nun ausreichend, ein n ∈ N zu finden, f¨ ur das n−1 (2b + 1) < a − b2 gilt. Nach Satz 1.2 gibt es aber ein onnte auch mit der Aussage (b) von Korollar 1.1 n ∈ N mit 2b + 1 < n(a − b2 ). (Man k¨ argumentieren.) Wir zeigen abschließend, dass im Fall a < b2 ein y ∈ K existiert mit y < b und x ≤ y f¨ ur alle x ∈ M . Dies steht im Widerspruch dazu, dass b kleinste obere Schranke von M ist. Tats¨ achlich kann man wieder mit einem n ∈ N erreichen, dass x ≤ b − n−1 f¨ ur alle x ∈ M gilt. Man muss nur ein n ∈ N finden, f¨ ur das a < (b − n−1 )2 gilt. Denn dann gilt ja x2 ≤ a < (b − n−1 )2 f¨ ur x ∈ M, ¨ woraus nach den Uberlegungen von oben folgt x ≤ b − n−1 . Es soll also 2bn−1 − n−1 n−1 < b2 − a gelten. Daf¨ ur ist ausreichend 2bn−1 < b2 − a, also 2b < (b2 − a)n, was aber wieder nach Satz 1.2 erreichbar ist. !
16
¨ Zahlen und andere Grundbegriffe 1 Uber
¨ Die bisherigen Uberlegungen haben gezeigt, dass es die Elemente eines ordnungsvollst¨ andigen geordneten K¨ orpers sind, mit denen man arbeiten sollte, wenn man die beim Umgang mit rationalen Zahlen festgestellten Probleme vermeiden m¨ochte. Dies wird nicht zuletzt dadurch nahegelegt, dass wir die nat¨ urlichen Zahlen passend als Teilmenge dieses K¨ orpers auffassen konnten und wir uns an vielen Stellen davon u ¨berzeugt haben, dass gewohnte Rechenregeln sich aus den dem geordneten K¨orper K zu Grunde liegenden Axiomen ergeben. Wir k¨ onnen aber sogar die rationalen Zahlen als Teilmenge von K wiederfinden. Zun¨ achst definiert man die Menge Z der ganzen Zahlen durch Z := N ∪ {0} ∪ {a ∈ K : Es gibt ein n ∈ N mit a = −n}. Sodann definiert man Q als Teilmenge von K durch Q := {x ∈ K : Es gibt ein p ∈ Z und ein q ∈ N mit x = pq −1 }. Da man dann mit der gleichen Argumentation, wie wir sie ganz am Anfang gef¨ uhrt haben, auch in diesem Kontext sehen kann, dass die Gleichung b2 = 2 keine L¨osung aus Q haben kann, ist also die Menge K \ Q := {x ∈ K : x ∈ / Q} nicht leer. Man nennt ihre Elemente irrationale Zahlen. (Die Notation A \ B wird allgemein fur die Differenzmenge verwendet, die die Elemente von A umfasst, die nicht in B liegen. Ist A ⊂ X, so bezeichnet man X \ A als Komplement von A in X.) andlich sein, dass man die reellen Zahlen Insgesamt sollte nun die Vorgangsweise verst¨ R einf¨ uhrt als die Elemente eines ordungsvollst¨andigen geordneten K¨orpers. Dies hat ¨ nat¨ urlich beim bisher erreichten Stand der Uberlegungen die Konsequenz, dass wir gar nicht wissen, wie wir so einen ordnungsvollst¨andigen geordneten K¨orper finden, d.h. konkret konstruieren k¨ onnten. Im Buch von Rudin [7] wird eine Konstruktionsm¨oglichkeit beschrieben, die auf dem Begriff des Dedekindschen Schnitts aufbaut. Die Elemente des dabei konstruierten K¨ orpers erscheinen dann recht abstrakt und erinnern wenig an u ¨bliche Vorstellungen von Zahlen. ¨ Wir werden also bei den weiteren Uberlegungen immer die Notation R f¨ ur einen ordorper verwenden. Zun¨achst werden wir noch einige andigen geordneten K¨ nungsvollst¨ wichtige Ergebnisse u ¨ ber N ⊂ R und Q ⊂ R gewinnen. Lemma 1.2 hat gezeigt, dass jede nichtleere Menge A ⊂ N nach unten beschr¨ankt ist. Damit existiert aber inf A ∈ R. Dieses Infimum ist jedoch immer schon ein Minimum. F¨ ur den Beweis dieser Tatsache ben¨ otigen wir noch ein anderes sehr mit unserer Vorstellung von nat¨ urlichen Zahlen u ¨ bereinstimmendes Ergebnis, das im n¨achsten Satz unter (a) notiert ist. Zum Beweis dieses Resultats setzen wir das fr¨ uher schon angesprochene Beweisprinzip der vollst¨ andigen Induktion in der folgenden h¨aufig verwendeten Form ein: Es sei die Aufgabe gegeben, nachzuweisen, dass f¨ ur alle n ∈ N eine gewisse Aussage A(n) richtig ist. Das bedeutet, dass zu zeigen ist, dass die Menge M := {n ∈ N : Es gilt A(n)} gleich N ist. Da N die kleinste induktive Menge ist, reicht es daf¨ ur aus, nachzuweisen, dass M induktiv ist. Dies erledigt man in zwei Schritten:
1.3 Die reellen Zahlen
17
(1) Man zeigt, dass 1 ∈ M ist. (Man nennt dies den Induktionsanfang.) (2) Man zeigt, dass, wenn die Aussage A(n) f¨ ur ein beliebiges n ∈ N richtig ist, die Aussage A(n + 1) f¨ ur n + 1 richtig ist. Denn das bedeutet, dass aus n ∈ M immer n + 1 ∈ M folgt. (Man nennt dies den Schluss von n auf n + 1.) Satz 1.4 (a) F¨ ur alle n ∈ N ist die Menge {k ∈ N : n < k < n + 1} leer. (b) Sei A ⊂ N nicht leer. Dann gibt es ein n ∈ A mit n ≤ k f¨ ur alle k ∈ A. Beweis: Zu (a): Vergleicht man mit den Vorbemerkungen zur vollst¨andigen Induktion, so ist als Aussage A(n) jetzt offenbar die Aussage ’Die Menge {k ∈ N : n < k < n + 1} ist leer’ zu nehmen. Als Induktionsanfang ist also zu zeigen, dass {k ∈ N : 1 < k < 2} = ∅ gilt. Dazu ist es offenbar ausreichend, nachzuweisen, dass N ⊂ {1} ∪ {x ∈ R : x ≥ 2} gilt. Dies folgt aber bekanntlich, wenn man zeigen kann, dass die Menge B := {1} ∪ {x ∈ R : x ≥ 2} induktiv ist. Da ja nach Definition 1 ∈ B ist, ist noch zu u ¨ berlegen, dass aus x ∈ B immer auch x + 1 ∈ B folgt. Ist x = 1, so ist x + 1 = 2 und somit auch x + 1 ∈ B. Ist aber x ≥ 2, so ist x + 1 ≥ 2 + 0 = 2 und somit auch x + 1 ∈ B. Nun der Schluss von n auf n+1: Sei n ∈ N beliebig mit {k ∈ N : n < k < n+1} = ∅. Wir zeigen dann, dass die Annahme, dass {k ∈ N : n + 1 < k < n + 2} 3= ∅ gelte, zu einem Widerspruch f¨ uhrt. Sei also angenommen, dass es ein m ∈ N gibt mit n+1 < m < n+2. Dann folgt n < m+(−1) < n+1. Wenn wir noch zeigen k¨onnen, dass auch m+(−1) ∈ N sein muss, sind wir also fertig. Es wird daher erneut mit Hilfe von vollst¨ andiger Induktion gezeigt, dass f¨ ur alle m ∈ N gilt m − 1 ∈ N ∪ {0}. Man beachte, dass m − 1 = 0 genau dann eintritt, wenn m = 1 ist. Damit ist aber auch der Induktionsanfang klar. F¨ ur den Schluss von m auf m + 1 sei m ∈ N beliebig mit m − 1 ∈ N ∪ {0}. Dann gilt aber (m + 1) − 1 = m + (1 − 1) = m ∈ N und es ist alles gezeigt. Zu (b): Da A 3= ∅ ist, gibt es ein m ∈ A. Betrachten wir nun die Menge S aller unteren Schranken von A, d.h. S := {n ∈ N : n ≤ k f¨ ur alle k ∈ A}, so ist 1 ∈ S. Es ist aber m + 1 ∈ / S, weil ja m < m + 1 ist. Damit ist aber S 3= N. Daraus folgt, dass S nicht induktiv sein kann, es also ein n0 ∈ S geben muss, f¨ ur das / S ist. Ist aber n0 + 1 ∈ / S, so muss es aufgrund der Definition von S ein k0 ∈ A n0 + 1 ∈ geben mit k0 < n0 + 1. Da nun aber n0 ∈ S ist, gilt n0 ≤ k0 , was nach (a) zusammen mit k0 < n0 + 1 liefert, dass k0 = n0 sein muss. Damit ist k0 ∈ A ∩ S, somit ist k0 ∈ A mit der Eigenschaft, dass k0 ≤ k f¨ ur alle k ∈ A gilt. ! Aus Satz 1.4 ergeben sich wichtige Konsequenzen, die im n¨achsten Satz formuliert seien. Dabei verwenden wir erstmals einfach die Sprechweise zu jedem ε > 0, die sp¨ater noch h¨ aufig auftauchen wird und womit gemeint ist ’zu jedem ε ∈ R mit ε > 0’.
¨ Zahlen und andere Grundbegriffe 1 Uber
18 Satz 1.5
(a) Zu jedem a ∈ R gibt es genau ein r ∈ Z mit r ≤ a < r + 1. (b) Sind a, b ∈ R mit a < b, so gibt es ein r ∈ Q mit a < r < b. (c) Zu jedem x ∈ R und jedem ε > 0 gibt es ein r ∈ Q mit x − ε < r < x + ε. Beweis: Zu (a): Sei zuerst u ochstens eine solche ganze Zahl r ∈ Z geben ¨berlegt, dass es h¨ kann. Seien also r, r& ∈ Z mit r ≤ a < r + 1 und r& ≤ a < r& + 1. W¨are dann ohne are ja, (man beachte die Aussage (a) von Einschr¨ ankung der Allgemeinheit r& > r, so w¨ Satz 1.4), r& ≥ r + 1 und es w¨ urde a < r + 1 ≤ r& ≤ a folgen, was nicht m¨oglich ist, da a < a ja a 3= a bedeuten w¨ urde. Damit kann nur r& = r sein. Zum Nachweis der Existenz so einer Zahl r ∈ Z betrachten wir zun¨achst den Fall a > 0. Da die Menge N ⊂ R nach Korollar 1.1 nicht nach oben beschr¨ankt ist, ist die Menge M := {k ∈ N : k > a} nicht leer. Mit n := min M gilt dann offenbar n − 1 ≤ a < n. Ist a = 0, so kann man sofort 0 ≤ 0 < 1 notieren, somit ist noch der Fall a < 0 zu behandeln. Dazu verwenden wir das fr¨ uher bewiesene Resultat, dass aus a < 0 stets folgt −a > 0. Damit k¨ onnen wir im Fall a < 0 folgendermaßen argumentieren: Wir betrachten die Menge M1 := {k ∈ N : k ≥ −a}, die wiederum nicht leer ist. Mit m := min M1 gilt dann m − 1 < −a ≤ m, woraus weiter folgt −(m − 1) > a ≥ −m. Zu (b): Nach Voraussetzung ist b − a > 0. Nach Satz 1.2 gibt es also ein n ∈ N mit achst notieren nb > na + 1. Nach (a) gibt es weiter onnen daher zun¨ n(b − a) > 1. Wir k¨ ein p ∈ Z mit p − 1 ≤ na < p. Damit erhalten wir insgesamt na < p ≤ na + 1 < nb. Offenbar folgt daraus sofort die Behauptung mit r = n−1 p. Zu (c): Da wegen ε > 0 gilt x − ε < x + ε, muss man nur (b) anwenden mit a = x − ε und b = x + ε. ! Nach (a) gibt es zu jeder reellen Zahl a genau eine ganze Zahl r, f¨ ur die r ≤ a < r + 1 gilt. Diese bezeichnet man als die gr¨ oßte ganze Zahl kleiner gleich a, man notiert sie meistens als [a]. Die Aussage (c) werden wir so formulieren k¨ onnen, dass bei jeder reellen Zahl in einem noch zu pr¨ azisierenden Sinn beliebig nah rationale Zahlen liegen. Das ist im Fall, dass r sogar eine rationale Zahl ist, als trivial anzusehen, aber im Fall, dass r ∈ R nicht rational, also eine irrationale √ Zahl ist, ein sehr wichtiges Resultat, weil man danach aherungsweise durch rationale Zahlen ersetzen kann. irrationale Zahlen wie etwa 2 n¨ Dies ist nat¨ urlich von großer Bedeutung f¨ ur numerische Berechnungen; und wir √ werden uns auch noch mit der Frage befassen, wie man rationale N¨aherungswerte zu 2 finden kann. Zur Pr¨ azisierung der Sprechweise nahe dabei liegen sei zun¨achst u ¨berlegt, dass inf{ε ∈ R : ε > 0} = 0
(1.5)
gilt. Die Menge M := {ε ∈ R : ε > 0} ist nach unten beschr¨ankt, somit existiert σ := inf M und es muss σ ≥ 0 gelten. Somit ist noch auszuschließen, dass σ > 0 gilt. urde es nach der Aussage (b) von Korollar 1.1 ein n ∈ N geben mit W¨ are σ > 0, so w¨ n−1 < σ, was aber wegen n−1 > 0 im Widerspruch st¨ unde zu σ = inf M . Damit gibt es also bei der Aussage (c) gewissermaßen beliebig kleine ε > 0. Um davon zu ’beliebig nah’ zu kommen, f¨ uhren wir noch Abst¨ ande zwischen reellen Zahlen ein mit Hilfe des Betrages
1.3 Die reellen Zahlen
19
otigt man nicht die Ordnungsvollst¨andigkeit ur diesen Begriff ben¨ einer reellen Zahl. F¨ der reellen Zahlen, daher sei er f¨ ur einen beliebigen geordneten K¨orper eingef¨ uhrt. Sei also (K, +, ·, ≤) ein geordneter K¨ orper. Dann definieren wir die Abbildung | . | : K → K, genannt Betrag , durch ⎧ ⎨ x, falls x > 0, 0, falls x = 0, |x| := ⎩ −x, falls x < 0, und die Abbildung sign: K → K, genannt Signum, durch ⎧ ⎨ 1, falls x > 0, 0, falls x = 0, signx := ⎩ −1, falls x < 0.
F¨ ur das Arbeiten mit diesen Abbildungen, insbesondere f¨ ur das Rechnen mit Betr¨agen gelten die folgenden oft ben¨ otigten Aussagen: Satz 1.6 Sei (K, +, ·, ≤) ein geordneter K¨ orper, seien x, y, a ∈ K und ε ∈ K mit ε > 0. Dann gilt: (i) x = |x| sign(x), |x| = x sign(x). (ii) |x| = | − x|, x ≤ |x|. (iii) |xy| = |x| |y|. (iv) |x| ≥ 0, und es gilt |x| = 0 genau dann, wenn x = 0 ist. (v) |x − a| < ε ist ¨ aquivalent dazu, dass a − ε < x < a + ε gilt. (vi) Dreiecksungleichung: |x + y| ≤ |x| + |y|. (vii) |x − y| ≥ | |x| − |y| |. Beweis: (i) ergibt sich unmittelbar aus den Definitionen von Betrag und Signum. Zu (ii): Ist x > 0, so ist |x| = x und | − x| = −(−x) = x, also gilt |x| = | − x|. Die anderen F¨ alle erledigt man genauso. Die Ungleichung x ≤ |x| ist im Fall x ≥ 0 v¨ollig trivial, ist aber x < 0, so ist x = −|x| und damit x = −|x| ≤ 0 ≤ |x|. Zu (iii): Ist x > 0 und y > 0, so gilt |xy| = xy = |x| |y|. Ist aber x = 0 oder y = 0, so ist |xy| = 0 = |x| |y|. Ist x < 0 und y > 0, so ist |xy| = −(xy) = x(−y) = |x| |y|. Ist schließlich x < 0 und y < 0, so ist |xy| = xy = (−x)(−y) = |x| |y|. Zu (iv): Dass stets |x| ≥ 0 gilt, ergibt sich unmittelbar aus der Definition. Klar ist auch, dass |x| 3= 0 ⇐⇒ x 3= 0 gilt. Damit gilt auch die zweite Behauptung. Zu (v): Sei zun¨ achst a = 0 angenommen. Dann ist die Aussage im Fall x = 0 trivialerweise richtig. Ist aber x > 0 und gilt |x| < ε, so gilt nat¨ urlich −ε < 0 < x < ε, und aus x < ε folgt trivialerweise |x| < ε. Ist jedoch x < 0 und gilt |x| < ε, so gilt −x < ε, also −ε < x < 0 < ε; umgekehrt folgt aus −ε < x ja −x < ε, also |x| < ε. Ist nun a 3= 0, so erh¨ alt man zun¨ achst |x − a| < ε ⇐⇒ −ε < x − a < ε, woraus sofort die Behauptung
¨ Zahlen und andere Grundbegriffe 1 Uber
20
folgt. Zu (vi): Ist x + y ≥ 0, so folgt die Behauptung sofort unter Verwendung von (ii) aus |x + y| = x + y ≤ |x| + |y|. Ist aber x + y < 0, so ist −(x + y) > 0 und wir k¨onnen notieren |x + y| = | − (x + y)| = |(−x) + (−y)| ≤ | − x| + | − y| = |x| + |y|. Zu (vii): Aus x = (x − y) + y folgt nach der Dreiecksungleichung |x| = |(x − y) + y| ≤ |x − y| + |y|, also |x| − |y| ≤ |x − y|. Vertauscht man die Rollen von x und y, so erh¨alt man entsprechend |y| − |x| ≤ |y − x| = |x − y|. Damit gilt −|x − y| ≤ |x| − |y| ≤ |x − y| und die Behauptung folgt nach (v). ! Die Bezeichnung Dreiecksungleichung wird erst richtig verst¨andlich, wenn man die Punkte einer Ebene mit den Elementen von R × R =: R2 identifiziert und dann eine entsprechende Ungleichung f¨ ur die Abst¨ ande der Eckpunkte eines Dreiecks formuliert werden kann. Sp¨ ater werden wir darauf zur¨ uckkommen. Letztlich ist aber die G¨ ultigkeit der Dreiecksungleichung (vi) wesentlich daf¨ ur, dass wir den Abstand d(x, y) zweier reeller Zahlen x, y definieren durch d(x, y) := |x − y|.
(1.6)
Schreiben wir nun unter Verwendung von Aussage (v) von Satz 1.6 die Aussage (c) von Satz 1.5 als |x − r| < ε, so erhalten wir zusammen mit (1.5) wie angek¨ undigt, dass bei jeder irrationalen Zahl beliebig nah rationale Zahlen liegen. Daf¨ ur ist auch die Sprechweise u ¨blich, dass Q eine dichte Teilmenge von R ist, oder, dass Q dicht in R liegt. Nach diesem Resultat liegt nun die Frage nahe, wie viele Elemente zu Q hinzukommen mussten, um zum ordnungsvollst¨ andigen K¨ orper R zu kommen. Die Diskussion dieser Frage f¨ uhrt offenbar zur Problematik, zwei Mengen in ihrer M¨achtigkeit zu unterscheiden, die beide zun¨ achst naiv unendlich viele Elemente enthalten. Im n¨achsten Abschnitt werden wir dazu die geeigneten Begriffe bereitstellen.
1.3.2
¨ Zur M¨achtigkeit von Mengen, Uberabz ¨ahlbarkeit von R
Am einfachsten kann man u ufen, dass die Mengen X = {1, 2, 3} und Y = {a, b, c} ¨ berpr¨ gleich viele Elemente haben, indem man der Zahl 1 das Element a, der Zahl 2 das Element b und der Zahl 3 das Element c zuordnet. Man k¨onnte aber genauso auch der 1 das Element b, der 2 das Element c und der 3 das Element a zuordnen. In beiden F¨ allen gibt man eine bijektive Abbildung f : X → Y an. achtig, wenn es Allgemein bezeichnet man nun zwei Mengen A und B als gleichm¨ eine bijektive Abbildung von A auf B gibt. Eine nichtleere Menge A heißt endlich, wenn es ein n ∈ N und eine bijektive Abbildung von {k ∈ N : k ≤ n} auf A gibt. Auch die leere Menge werden wir als endlich bezeichnen. Es gibt aber auch Mengen, die nicht im Sinne dieser Definition endlich sind, diese bezeichnen wir als unendlich. Wie zu erwarten ist die Menge der nat¨ urlichen Zahlen in diesem Sinn unendlich. Um ussen wir noch etwas Vorarbeit leisten: dies beweisen zu k¨ onnen, m¨
1.3 Die reellen Zahlen
21
Lemma 1.3 Ist m eine nat¨ urliche Zahl und f : {k ∈ N : k ≤ m} → {k ∈ N : k ≤ m} eine injektive Abbildung, so muss diese bereits bijektiv sein. Beweis: Im Fall m = 1 ist die Behauptung trivial. Damit haben wir bereits den Anfang eines Induktionsschlusses. Zur Vereinfachung der Notation setzen wir An := {k ∈ N : k ≤ n} f¨ ur n ∈ N und nehmen f¨ ur den Schluss von m auf m + 1 also an, dass jede injektive Abbildung f : Am → Am schon bijektiv sein muss. Sei nun g : Am+1 → Am+1 eine injektive Abbildung. Sei g(m + 1) = r und B := Am+1 \ {r}. Definieren wir nun h : B → Am durch h(k) := k f¨ ur k = 1, . . . , r − 1, (ist r = 1, so tritt dieser Fall nicht ein), und h(k) := k − 1 f¨ ur k = r + 1, . . . , m + 1, (ist r = m + 1, so tritt dieser Fall nicht ein), so ist h injektiv. Damit ist auch die Abbildung f : Am → Am , die durch urde folgen f (k) = h(g(k)) f¨ ur k ∈ Am definiert ist, injektiv. (Denn aus f (k) = f (k & ) w¨ g(k) = g(k & ) und somit k = k & .) Nach Induktionsannahme ist also f surjektiv, woraus folgt, dass schon g surjektiv und somit bijektiv sein muss. Denn w¨are g nicht surjektiv, so w¨ urde es ein s ∈ B geben, das nicht als Bild unter g auftritt. Dann w¨ urde aber auch h(s) ∈ Am nicht als Bild unter f auftreten, was der Bijektivit¨at von f widersprechen w¨ urde. ! Bemerkung: Die im Beweis definierte Abbildung f : Am → Am kann man wieder suggestiv unter Ben¨ utzung der Komposition von Abbildungen notieren, wenn man noch den Begriff der Einschr¨ ankung einer Abbildung verwendet. Ist F : X → Y eine Abbildung und A ⊂ X eine nichtleere Teilmenge von X, so kann man die Einschr¨ankung ur x ∈ A. Offenbar k¨onnen F |A : A → X von F auf A definieren durch F |A (x) = F (x) f¨ wir mit dieser Begriffsbildung f¨ ur f : Am → Am notieren f = h ◦ g|Am . Satz 1.7 Die Menge N ist unendlich. Beweis: Um zu zeigen, dass N eine unendliche Menge ist, reicht es wegen der Bijektivit¨at der Umkehrabbildung aus, nachzuweisen, dass es keine bijektive Abbildung f : N → Am geben kann. Wir zeigen also, dass die Annahme, dass es ein n ∈ N gibt, zu dem eine bijektive Abbildung f : N → An existiert, zu einem Widerspruch f¨ uhrt. Sei also f so eine Abbildung. Davon ausgehend betrachten wir dann die Einschr¨ankung von f auf An , also die Abbildung f |An : An → An , die durch f |An (m) := f (m) f¨ ur m ∈ An definiert ist. Auch f |An ist dann injektiv, nach dem letzten Lemma also bijektiv. Ist nun k ∈ An das Bild von n + 1 unter f , also f (n + 1) = k, so muss es wegen der Bijektivit¨at von f |An auch ein m ∈ An geben mit f (m) = f |An (m) = k. Damit ist f (m) = f (n + 1) = k, aber m 3= n + 1, was der Injektivit¨ at von f widerspricht. ! Es ist klar, dass nichtleere Teilmengen von N existieren, die endlich sind. Es gibt aber auch nichtleere Teilmengen, die von N verschieden, jedoch trotzdem unendlich, und zwar sogar gleichm¨ achtig wie N sind. Sei etwa M ⊂ N die Menge aller geraden nat¨ urlichen
¨ Zahlen und andere Grundbegriffe 1 Uber
22
Zahlen, also die Menge aller Vielfachen von 2. Definiert man dann f : N → M durch f (n) := 2n, so ist diese Abbildung tats¨ achlich bijektiv. Dieses Resultat entspricht nicht den naiven Erfahrungen, dass man, wenn man bei einer Menge einige Elemente wegl¨ asst, eine Menge mit weniger Elementen erhalten m¨ usste. Hier hat man offenbar alle ungeraden Zahlen weggelassen, und trotzdem bleiben noch im oben formulierten Sinn gleich viele Elemente wie bei N u ¨ brig. Dies zeigt, mit welcher Vorsicht man bei Schl¨ ussen mit unendlichen Mengen vorgehen muss. Dies wird auch dadurch best¨ atigt, dass es unendliche Mengen gibt, die nicht gleichm¨achtig sind. Bevor wir dies diskutieren, zeigen wir ein auf den ersten Blick selbstverst¨andliches Resultat, das mit einer a ¨hnlichen Technik bewiesen wird wie Lemma 1.3. Lemma 1.4 Jede Teilmenge einer endlichen Menge ist endlich. Beweis: Sei M eine endliche Menge. Die Teilmenge ∅ ⊂ M ist dann ebenfalls endlich. Auch ist dies offenbar richtig f¨ ur alle einelementigen Teilmengen. Damit ist die Behauptung aber richtig f¨ ur alle einelementigen Mengen M , d.h. f¨ ur alle Mengen M , zu denen es eine bijektive Abbildung f : A1 → M gibt. Davon ausgehend k¨onnen wir wieder einen Induktionsschluss durchf¨ uhren. Sei die Behauptung richtig f¨ ur alle Mengen M , zu denen es eine bijektive Abbildung f : Am → M gibt. Sei dann M eine Menge, zu der es eine bijektive Abbildung f : Am+1 → M gibt. Ist dann B ∈ P (M ), so ist im Fall B = ∅ und im Fall B = M die Menge B sicher endlich. Sei also B ⊂ M nichtleer und B 3= M . Dann gibt es ein a ∈ M mit a ∈ / B. Wir d¨ urfen annehmen, dass f¨ ur die bijektive Abbildung are n¨ amlich a = f (k) mit einem k 3= m + 1 und f : Am+1 → M gilt f (m + 1) = a. W¨ f (m + 1) = b 3= a, so k¨ onnten wir eine bijektive Abbildung g : Am+1 → M dadurch definieren, dass wir g(j) = f (j) f¨ ur j ∈ Am+1 \ {k, m + 1} und g(k) = b, g(m + 1) = a setzen. Sei also f (m + 1) = a. Dann ist die Abbildung f |Am eine bijektive Abbildung von Am auf M \ {a}. Nun ist aber B ⊂ M \ {a} und damit nach Induktionsannahme B endlich. ! Dieses Resultat zeigt, dass f¨ ur jede unendliche Menge M auch die Potenzmenge P (M ) unendlich sein muss. Denn w¨ are P (M ) endlich, so w¨are ja jede Teilmenge endlich, damit w¨ are auch die Menge B := {{x} : x ∈ M } ⊂ P (M ) endlich. Es w¨ urde also f¨ ur ein m ∈ N eine bijektive Abbildung f : B → Am geben. Nun ist aber die durch j(x) := {x} f¨ ur x ∈ M definierte Abbildung j : M → B bijektiv, somit ist auch die Abbildung j ◦ f : M → Am bijektiv. Es m¨ ußte also dann M selber endlich sein. Es sind also die Mengen N und P (N) beide unendlich; sie sind aber nicht gleichm¨achtig, wie der folgende Satz zeigt: Satz 1.8 Sei A eine nichtleere Menge. Dann gibt es keine surjektive Abbildung Φ : A → P (A). Beweis: Sei Φ : A → P (A) eine beliebige Abbildung. K¨onnen wir zeigen, dass es dann eine
1.3 Die reellen Zahlen
23
Menge B ∈ P (A) geben muß mit B ∈ / Φ(A), so sind wir fertig. Wir geben nun so eine Menge explizit an: B := {a ∈ A : a ∈ / Φ(a)}.
(1.7)
Wir zeigen, dass die Annahme, dass es ein b ∈ A gibt mit B = Φ(b) zu einem Widerspruch f¨ uhrt. Sei also b ∈ A mit B = Φ(b). Dann gibt es zwei M¨oglichkeiten:(i) Es ist b ∈ B, (ii) Es ist b ∈ / B. Wir zeigen, dass beide M¨oglichkeiten zu einem Widerspruch f¨ uhren. Es gelte (i): Aus b ∈ B folgt b ∈ Φ(b), nach (1.7) damit aber b ∈ / B, womit der Widerspruch erreicht ist. Es gelte (ii): Aus b ∈ / B folgt b ∈ / Φ(b), nach (1.7) damit aber b ∈ B, womit ebenfalls der Widerspruch erreicht ist. ! Die Beobachtung, dass eine unendliche Menge nicht die gleiche M¨achtigkeit wie N haben muss, gibt nun Anlaß zu folgender Definition: ahlbar unendlich, falls es eine bijektive Abbildung f : M → N Eine Menge M heißt abz¨ gibt. Eine Menge wird als abz¨ ahlbar bezeichnet, wenn sie abz¨ahlbar unendlich oder endlich ist. Schließlich bezeichnet man eine Menge als ¨ uberabz¨ ahlbar, wenn sie nicht abz¨ ahlbar ist. Wir wissen nun, dass P (N) u ahlbar ist, im Gegensatz dazu ist aber das kartesische ¨ berabz¨ Produkt N × N abz¨ ahlbar. Es gilt sogar allgemeiner: Satz 1.9 ahlbar unendlich, so ist auch die Menge A × B abz¨ahlSind die Mengen A und B abz¨ bar unendlich. Beweis: Es sei zuerst gezeigt, dass die Menge N × N abz¨ahlbar unendlich ist. Dazu ist eine bijektive Abbildung Φ : N × N → N anzugeben. Dies kann auf verschiedene Weise geschehen; es sei hier ein Weg beschritten, der direkt mit dem sogenannten Cauchyschen Diagonalverfahren zusammenh¨ angt. Sei f¨ ur r ∈ N \ {1} die Menge Xr definiert durch Xr := {(m, n) ∈ N × N : m + n = r}. W¨ urde man alle Paare (m, n) in ein quadratisches Schema eintragen, und zwar in der ersten Zeile alle Paare (1, n) mit n ∈ N, in der zweiten Zeile alle Paare (2, n) mit n ∈ N und so fort, so w¨ urde jede Menge Xr genau die Paare umfassen, die auf eine schr¨ag nach unten verlaufenden Diagonalen liegen, daher Diagonalverfahren. Es gibt f¨ ur die Paare (m, n) ∈ Xr nur r − 1 verschiedene M¨ oglichkeiten, n¨amlich wegen n = r − m die M¨ oglichkeiten m = 1 ∧ n = r − 1 mit aufsteigendem m bis m = r − 1 ∧ n = 1. Offenbar ist Xr ∩ Xs = ∅ f¨ ur r 3= s und N × N gleich der Vereinigung aller Mengen Xr . Jeder Menge Xr ordnen wir nun eine Menge nat¨ urlicher Zahlen zu, und zwar 1 Yr := { (r − 2)(r − 1) + j : j = 1, . . . , r − 1}. 2
¨ Zahlen und andere Grundbegriffe 1 Uber
24
(Man beachte, dass 12 (r − 2)(r − 1) immer aus N ∪ {0} ist, weil ja r − 2 oder r − 1 eine gerade Zahl sein muss.) Es bietet sich an, f¨ ur jedes r ∈ N \ {1} eine bijektive Abbildung jr : Xr → Yr zu definieren durch jr ((m, n)) :=
1 (r − 2)(r − 1) + m 2
f¨ ur
(m, n) ∈ Xr .
Mit Hilfe dieser Abbildungen gelingt die Konstruktion von Φ, wenn man noch weiß, dass auch die Mengen Yr paarweise disjunkt sind und ihre Vereinigung ganz N ergibt. urfen wir ohne Einschr¨ankung der Allgemeinheit Ist x ∈ Yr und y ∈ Ys mit r 3= s, so d¨ annehmen, dass r < s ist. Es gilt dann sicher x < y, wenn man zeigen kann, dass 1 1 (r − 2)(r − 1) + r − 1 < (s − 2)(s − 1) + 1 2 2 gilt. Dies ist aber richtig, weil sogar im Fall s = r + 1 gilt : ; 1 1 1 (s − 2)(s − 1) + 1 = (r − 1)r + 1 = (r − 1)(r − 2) + r − 1 + 1. 2 2 2 Dies zeigt Yr ∩ Ys = ∅ f¨ ur r < s, es zeigt aber zus¨atzlich noch, dass f¨ ur alle k ∈ N \ {1} gilt k + 1 Yr = {j ∈ N : j ≤ (k − 2)(k − 1) + k − 1}. 2 r=2 8k (Dabei ist r=2 Yr = {j ∈ N : Es gibt ein r ∈ {2, . . . , k} mit (m, n) ∈ Yr }.) Da aber f¨ ur jede nat¨ urliche Zahl n gilt 12 (n − 1)n + n ≥ n, folgt daraus, dass tats¨achlich die Vereinigung aller Mengen Yr ganz N ergibt. Definieren wir nun Φ : N × N → N durch Φ((m, n)) :=
1 (m + n − 2)(m + n − 1) + m 2
f¨ ur
(m, n) ∈ N × N,
so gilt offenbar Φ((m, n)) = jr ((m, n)) f¨ ur alle (m, n) ∈ Xr . Aufgrund der oben nachgewiesenen Eigenschaften der Mengen Xr und Yr ist damit Φ injektiv und surjektiv. Seien nun A und B beliebige abz¨ ahlbar unendliche Mengen und f : A → N und g : B → N bijektive Abbildungen. Es sei dann mit der oben konstruierten Abbildung Φ die Abbildung h : A × B → N definiert durch h((x, y)) := Φ((f (x), g(y))
f¨ ur
(x, y) ∈ A × B.
Diese Abbildung ist bijektiv, weil sie die Komposition von zwei bijektiven Abbildungen ist. Denn Φ : N × N → N ist bijektiv, es ist aber auch, wie man leicht sehen kann, die durch ψ((x, y)) := (f (x), g(y)) f¨ ur (x, y) ∈ A×B definierte Abbildung ψ : A×B → N×N bijektiv. ! Sehr einfach ist zu sehen, dass auch die Vereinigung von zwei disjunkten abz¨ahlbar unendlichen Mengen wieder abz¨ ahlbar unendlich ist. Sind n¨amlich f : A → N und g : B → N bijektive Abbildungen, so erh¨ alt man, wenn A ∩ B = ∅ ist, eine bijektive Abbildung ϕ : A ∪ B → N, wenn man definiert ϕ(x) := 2f (x), falls x ∈ A,
ϕ(x) := 2g(x) − 1, falls x ∈ B.
1.3 Die reellen Zahlen
25
utzung des folgenden Sind A und B nicht disjunkt, so folgt das gleiche Resultat unter Ben¨ Satzes, der es uns auch erlauben wird, zu erschließen, dass Q abz¨ahlbar unendlich ist. Satz 1.10 Jede unendliche Teilmenge einer abz¨ ahlbar unendlichen Menge ist abz¨ahlbar unendlich. Beim Beweis dieses Satzes werden wir auf die M¨oglichkeit einer rekursiven Definition zur¨ uckgreifen, die unmittelbar mit dem Prinzip der vollst¨andigen Induktion zusammenh¨ angt. Es geht dabei darum, eine Abbildung ϕ : N → X, (X eine beliebige nichtleere Menge), dadurch zu definieren, dass man ϕ(1) = x1 ∈ X angibt und eine f¨ ur alle n ∈ N einsetzbare Vorschrift verwendet, nach der man ϕ(n + 1) festlegt, wenn man ϕ(n) kennt. Um zu zeigen, dass dies tats¨ achlich eine geeignete Vorgangsweise ist, notieren wir die Vorschrift als Abbildung V : X → X. Rasch zu sehen ist, dass es h¨ ochstens eine Abbildung ϕ : N → X geben kann, so dass ϕ(1) = x1 und ϕ(n + 1) = V (ϕ(n)) f¨ ur alle n ∈ N gilt. Sei dazu angenommen, dass ψ : N → X eine Abbildung mit den gleichen Eigenschaften w¨are. Dann gilt ja ϕ(1) = ψ(1) und wir k¨ onnen mit Hilfe von vollst¨andiger Induktion erschließen, dass ϕ(n) = ψ(n) f¨ ur alle n ∈ N gelten muss. Denn gilt ϕ(n) = ψ(n), so folgt ja ϕ(n + 1) = V (ϕ(n)) = V (ψ(n)) = ψ(n + 1). Zum Nachweis der Existenz einer Abbildung ϕ mit den notierten Eigenschaften zeigen wir zun¨ achst, dass die Behauptung richtig ist, dass f¨ ur alle n ∈ N eine Abbildung ur k = 1, . . . , n − 1 ϕn : An → X existiert mit ϕn (1) = x1 , ϕn (k + 1) = V (ϕn (k)) f¨ und ϕn |Ak = ϕk f¨ ur alle k < n. (Dabei ist wieder An = {k ∈ N : k ≤ n}.) Offenbar ist ϕ1 durch ϕ1 (1) := x1 zu definieren. Die Behauptung k¨onnen wir davon ausgehend durch vollst¨ andige Induktion beweisen. Denn existiert nach Induktionsannahme ϕn , so ur k < n + 1 und k¨ onnen wir ϕn+1 : An+1 → X definieren durch ϕn+1 (k) := ϕn (k) f¨ ϕn+1 (n+ 1) = V (ϕn (n)). Offenbar hat dann ϕn+1 die geforderten Eigenschaften. Damit k¨onnen wir aber abschließend die Abbildung ϕ : N → X definieren durch ϕ(n) := ϕn (n) f¨ ur n ∈ N. Es sei daran erinnert, dass wir in Abschnitt 1.3.1 bei der Diskussion, was die Menge N mit der naiv gewohnten Menge der nat¨ urlichen Zahlen zu tun hat, bereits mit einer nach diesem Prinzip der rekursiven Definition konstruierten Abbildung gearbeitet haben. Beweis von Satz 1.10: Ist X eine abz¨ ahlbar unendliche Menge, so gibt es eine bijektive Abbildung f : X → N. Ist nun A eine Teilmenge von X, so erh¨ alt man ebenfalls eine bijektive Abbildung g : A → f (A), wenn man g(x) := f (x) f¨ ur x ∈ A definiert. Ist A unendlich, so muss damit auch f (A) unendlich sein. K¨ onnen wir nun zeigen, dass die unendliche Teilmenge f (A) von N abz¨ ahlbar unendlich sein muss, also eine bijektive Abbildung h : f (A) → N existieren muss, so ist h ◦ g : A → N eine bijektive Abbildung und somit A abz¨ahlbar ahlunendlich. Es reicht also aus, nachzuweisen, dass jede unendliche Menge M ⊂ N abz¨ bar unendlich sein muss. Dies kann man folgendermaßen erledigen: Nach Satz 1.4 (b) enth¨ alt jede nichtleere Teilmenge von N ein eindeutig bestimmtes kleinstes Element. Auf der Grundlage dieses Resultats konstruieren wir eine bijektive
¨ Zahlen und andere Grundbegriffe 1 Uber
26
achst setzen Abbildung ϕ : N → M , indem wir zun¨ ϕ(1) := min M und weiter ϕ(n) f¨ ur n ∈ N\ {1} rekursiv dadurch definieren, dass wir, wenn ϕ(n) bereits bekannt ist, die Menge Mn := {m ∈ M : m > ϕ(n)} betrachten und ϕ(n + 1) := min Mn definieren. Dies ist sinnvoll, wenn man weiß, dass die so rekursiv erhaltenen Mengen ussen. Da aber M nach Voraussetzung unendlich sein soll, ist Mn alle nicht leer sein m¨ ur ein k f¨ ur beliebiges k ∈ N die Menge Bk = {m ∈ M : m > k} nichtleer. Denn w¨are f¨ die Menge Bk leer, so w¨ are m ≤ k f¨ ur alle m ∈ M und damit w¨are M als Teilmenge einer endlichen Menge endlich. Aufgrund der Definition ist klar, dass stets ϕ(n + 1) > ϕ(n) gilt, und wegen Satz 1.4 (a) k¨ onnen wir notieren ϕ(n + 1) ≥ ϕ(n) + 1 f¨ ur alle n ∈ N. Aus der G¨ ultigkeit von ϕ(n+1) > ϕ(n) f¨ ur alle n ∈ N erh¨ alt man durch einen einfachen Induktionsschluss, dass sogar ϕ(n + k) > ϕ(n) f¨ ur alle n, k ∈ N gilt. Dies zeigt, dass die Abbildung ϕ injektiv ist. Zum Nachweis der Surjektivit¨ at von ϕ zeigen wir zuerst, dass ϕ(n) ≥ n
f¨ ur alle
n∈N
(1.8)
gilt. F¨ ur n = 1 ist dies trivial und f¨ ur beliebiges n erhalten wir die Aussage mit Hilfe eines Induktionsschlusses. Gilt sie f¨ ur n, so k¨onnen wir n¨amlich notieren ϕ(n + 1) ≥ ϕ(n) + 1 ≥ n + 1. Sei nun k ∈ M beliebig gegeben. Um zu zeigen, dass es ein j ∈ N gibt mit ϕ(j) = k, betrachten wir die Menge K := {n ∈ N : ϕ(n) ≥ k}. Wegen (1.8) ist sicher K nicht leer. Es existiert daher j := min K. Im Fall j = 1 k¨onnen wir notieren min M ≤ k ≤ ϕ(j) = min M, somit gilt k = ϕ(1). Es liegt also dann der Fall k = min M vor. Ist aber k > min M , so ¨ muss nach dieser Uberlegung j 3= 1, also j ≥ 2 sein. Damit k¨onnen wir aber notieren ϕ(j − 1) < k ≤ ϕ(j), was aber aufgrund der vorgenommenen rekursiven Definition der Abbildung ϕ bedeutet, dass ϕ(j) = k sein muss. ! Sind nun A und B zwei abz¨ ahlbar unendliche Mengen mit A ∩ B 3= ∅, so definieren wir, wenn wieder f : A → N und g : B → N bijektive Abbildungen sind, eine Abbildung ϕ : A ∪ B → N durch ϕ(x) := 2f (x), falls x ∈ A,
ϕ(x) := 2g(x) − 1, falls x ∈ B \ A.
Es ist dann sicher ϕ injektiv, somit erh¨ alt man dadurch eine bijektive Abbildung von A ∪ B auf ϕ(A ∪ B) und nach Satz 1.10 muss damit A ∪ B endlich oder abz¨ahlbar
1.3 Die reellen Zahlen
27
unendlich sein. Der Fall, dass A ∪ B endlich ist, scheidet aber aus, da dann auch A ⊂ A ∪ B und B ⊂ A ∪ B endlich sein m¨ ussten. Mit Hilfe von Satz 1.9 und Satz 1.10 kann man rasch sehen, dass die Menge der rationalen Zahlen abz¨ ahlbar unendlich ist: Es zeigt die durch f (k) := k + 1 f¨ ur k ∈ N ∪ {0} definierte Abbildung f : N ∪ {0} → N, dass auch N ∪ {0} abz¨ ahlbar unendlich ist. Die Abbildung x /→ −x zeigt, dass die Menge der negativen ganzen Zahlen abz¨ ahlbar unendlich ist, und damit ist die Menge der ganzen Zahlen als Vereinigung der Menge der negativen ganzen Zahlen und der Menge N ∪ {0} ebenfalls abz¨ ahlbar unendlich. Nach Satz 1.9 ist also die Menge Z × N abz¨ ahlbar unendlich. K¨onnen wir nun eine injektive Abbildung f : Q → Z × N angeben, so folgt, da ja Q sicherlich unendlich und damit auch f (Q) unendlich ist, dass Q abz¨ ahlbar unendlich ist. Wir definieren dazu f (0) := (0, 1) ∈ Z × N und, wenn r = p/q mit p ∈ Z \ {0} und q ∈ N ist, wobei der Bruch nicht gek¨ urzt werden kann, f (r) := (p, q). Diese Abbildung ist injektiv, denn aus f (r) = f (r& ) folgt wegen (p, q) = (p& , q & ) weiter p = p& ∧ q = q & , also r = r& . Im Gegensatz zur Abz¨ ahlbarkeit von Q ist aber die Menge der reellen Zahlen u ¨berabz¨ahlbar. Beim Beweis dieses wichtigen Resultats werden wir mit abgeschlossenen Intervallen reeller Zahlen arbeiten. Sp¨ ater werden auch offene Intervalle eine wichtige Rolle spielen, aber im Moment kommen wir mit dem folgenden Begriff aus: Sind a, b ∈ R mit a < b, so ist das abgeschlossene Intervall [a, b] definiert durch [a, b] := {x ∈ R : a ≤ x ≤ b}. Satz 1.11 ahlbar. R ist u ¨ berabz¨ Beweis: Es reicht aus, zu zeigen, dass, wenn f : N → R eine beliebige Abbildung ist, diese nicht surjektiv sein kann. Sei also so eine Abbildung gegeben und sei zur Vereinfachung xn := f (n) f¨ ur n ∈ N gesetzt. Wir konstruieren nun ein x ∈ R, f¨ ur das x 3= xn f¨ ur alle n ∈ N, also x ∈ / f (N) gelten muss. Wir betrachten dazu zun¨ achst das Intervall [a1 , b1 ] := [x1 + 1, x1 + 2]. (Man beachte, / [a1 , b1 ]. dass x1 + 1 < x1 + 2 ist, weil 1 < 1 + 1 ist.) Da x1 < x1 + 1 ist, ist sicher x1 ∈ Davon ausgehend definieren wir nun rekursiv Intervalle [an , bn ] f¨ ur n = 2, 3, . . . durch 1 1 [an+1 , bn+1 ] := [an , (3an + bn )], falls xn+1 ≥ (an + bn ) 4 2 bzw. 1 1 [an+1 , bn+1 ] := [ (an + 3bn ), bn ], falls xn+1 < (an + bn ). 4 2 F¨ ur die Endpunkte an und bn dieser Intervalle gilt nun stets an ≤ an+1 < bn+1 ≤ bn . Dies zeigt ausgehend von a1 < b1 ein Induktionsschluss. Denn ist an < bn , so gilt sowohl an
0 genau eine L¨ osung b > 0. Definieren wir nun n-te Potenzen von Elementen x ∈ R, oder allgemeiner von Elementen eines K¨ orpers rekursiv durch x0 := 1,
x1 := x,
xn+1 := x · xn f¨ ur n ∈ N,
so stellt sich allgemeiner die Frage nach der Existenz von n-ten Wurzeln, d.h. nach der L¨osbarkeit von Gleichungen xn = a bei gegebenem a > 0. Auch hier wird es sich zeigen, dass stets genau eine L¨ osung x > 0 existiert. Es ist daher gerechtfertigt, von der n-ten √ ¨ Wurzel aus a zu sprechen. Ublich ist daf¨ ur die Notation a1/n oder n a. Dass zu gegebenem a > 0 h¨ ochstens eine L¨ osung x > 0 der Gleichung xn = a existieren kann, ergibt sich aus dem folgenden Lemma:
1.3 Die reellen Zahlen
29
Lemma 1.5 Seien n ∈ N und x, y ∈ R mit 0 < x < y. Dann gilt auch 0 < xn < y n . Beweis: Offenbar kann man den Beweis sofort mit Hilfe eines Induktionsschlusses erledigen, wenn man weiß, dass aus 0 < x < y und 0 < r < s immer folgt 0 < rx < sy. Dies ergibt sich aber folgendermaßen: Aus 0 < y − x und 0 < r folgt 0 < ry − rx, also 0 < rx < ry. Aus 0 < s − r und 0 < y folgt entsprechend 0 < ry < sy , woraus man insgesamt 0 < rx < sy erh¨ alt. ! uhren k¨onnen, m¨ ussen wir noch etwas Bevor wir den Nachweis der Existenz von a1/n f¨ Vorarbeit leisten, und zwar ben¨ otigen wir den sogenannten binomischen Lehrsatz . Dazu f¨ uhren) wir f¨ ur n ∈ N ∪ {0} und Elemente a0 , . . . , an eines K¨orpers K die Notation n der Summe k=0 ak ein, und zwar rekursiv durch 0 =
ak := a0 ,
k=0
1 =
ak = a0 + a1
k=0
und f¨ ur n ≥ 2
n = k=0
ak :=
2n−1 =
5 ak
+ an .
k=0
)n Man kann damit aber auch, wenn m ∈ N mit m ≤ n ist, die Summe k=m ak definieren, )n )n−m indem man bk := ak+m f¨ ur k = 0, . . . , n − m setzt und dann k=m ak := k=0 bk definiert. Dies liefert dann die h¨ aufig verwendete Formel n = k=m
ak =
m−n =
ak+m
(1.9)
k=0
1 1 Entsprechend definiert man Produkte nk=0 ak und nk=m ak . .n& , F¨ ur den binomischen Lehrsatz ben¨ otigen wir noch die Binomialkoeffizienten m die f¨ ur n, m ∈ N ∪ {0} definiert sind durch : ; n n! , falls m ≤ n := m m!(n − m)! .n& und m := 0, falls m > n. Dabei ist die als n-Fakult¨at bezeichnete Zahl n! rekursiv 1! := 1, (n + 1)! := n!(n + 1) f¨ definiert durch 0! := ur n ≥ 2. Man sieht leicht, dass 11, n f¨ ur n ∈ N gilt n! = k=1 k. Speziell gilt : ; : ; n n = 1 und = 1. 0 n Ein einfache, aber dennoch wichtige Tatsache u ¨ ber Binomialkoeffizienten sei im n¨achsten Lemma festgehalten:
¨ Zahlen und andere Grundbegriffe 1 Uber
30 Lemma 1.6 F¨ ur n, m ∈ N mit m ≤ n gilt : ; : ; : ; n n n+1 + = . m−1 m m
(1.10)
Beweis: Nach der Definition ist : ; : ; n n n! n! + + = m−1 m (m − 1)!(n − m + 1)! m!(n − m)! n! (m + (n + 1 − m)). = m!(n + 1 − m)! Wegen
n! (n + 1)! (m + (n + 1 − m)) = m!(n + 1 − m)! m!(n + 1 − m)!
ist damit schon (1.10) bewiesen.
!
Die Formel (1.10) erlaubt es offenbar, beginnend mit n = 1 die Binomialkoeffizienten rekursiv zu berechnen. Schreibt man dabei die Binomialkoeffizienten nach wachsendem n reihenweise untereinander, so entsteht das sogenannte Pascalsche Dreieck. Von Interesse ist, dass diese rekursive Berechnung zeigt, dass alle Binomialkoeffizienten ganze Zahlen sein m¨ ussen. Doch nun zum binomischen Lehrsatz: Satz 1.12 ur n ∈ N orper, seien a, b ∈ K. Dann gilt f¨ Sei K ein K¨ n : ; = n n−k k (a + b) = b . a k n
k=0
Beweis: F¨ ur n = 1 ist die Behauptung trivialerweise richtig. (Der Fall n = 2 ist offenbar auch .& wohlbekannt, denn 21 = 2.) Der Beweis wird nun mit Hilfe von vollst¨andiger Induktion gef¨ uhrt. Sei also angenommen, dass die Behauptung f¨ ur irgendein n richtig sei. F¨ ur den Schluss von n auf n + 1 notieren wir dann n : ; = n n−k k b a k k=0 n : ; n : ; = n n−k+1 k = n n−k k+1 b . = b + a a k k
(a + b)n+1 = (a + b)(a + b)n = (a + b)
k=0
k=0
1.3 Die reellen Zahlen
31
Bezeichnen wir bei den letzten zwei Summen die erste mit S1 und die zweite mit S2 , so urlich erhalten wir f¨ ur S2 , wenn wir entsprechend (1.9) k = j − 1 setzen, wobei dann nat¨ der Summationsindex j alle Zahlen von 1 bis n + 1 durchlaufen muss, S2 =
n+1 =: j=1
; n an−(j−1) bj . j−1
Da es nun aber ganz unwichtig ist, mit welchem Buchstaben wir den Summationsindex notieren, erhalten wir, wenn wir bei S2 einfach statt j wieder k schreiben ; n+1 : n : ; = n n n−k+1 k = S1 + S2 = b + an−k+1 bk a k−1 k k=1 k=0 : ; : ;; n :: ; = n n+1 n n = an+1 + b . + an−k+1 bk + n k k−1 k=1
Mit (1.10) folgt S1 + S2 = a
n+1
: ; ; n : = n n+1 n + 1 n+1−k k b + b . + a n k k=1
Ber¨ ucksichtigt man nun noch, dass : ; n + 1 n+1 0 a b an+1 = 0
und
: ; : ; n n+1 n + 1 0 n+1 b = a b n n+1
gilt, so folgt schließlich n+1
(a + b)
=
n+1 =: k=0
; n + 1 (n+1)−k k b , a k
womit der Satz bewiesen ist.
!
Damit k¨ onnen wir nun wie angek¨ undigt zeigen: Satz 1.13 Sei n ∈ N und a ∈ R mit a > 0. Dann gibt es genau ein x ∈ R mit x > 0 und xn = a. Beweis: Es ist nur noch die Existenz nachzuweisen. Dabei reicht es, den Fall n ≥ 2 zu betrachten. ¨ Nach unseren fr¨ uheren Uberlegungen ist es naheliegend, die gesuchte L¨osung von xn = a als Supremum der Menge A := {x ∈ R : x > 0 ∧ xn < a}
¨ Zahlen und andere Grundbegriffe 1 Uber
32
zu suchen. Diese Menge ist nicht leer. Denn setzt man t := a(1 + a)−1 , so ist, weil ja (1 + a)−1 < 1 und a < 1 + a ist, einerseits t < a und andererseits 0 < t < 1, woraus t2 < t und durch Induktion weiter tn < t folgt. Damit ist aber tn < a und somit t ∈ A. Die Menge A ist aber auch nach oben beschr¨ankt. Denn setzt man τ := 1 + a, so ist einerseits τ > a und andererseits τ > 1, woraus τ n > τ folgt, somit τ n > a. Damit ist aber τ obere Schranke von A. Denn w¨ urde es ein x ∈ A geben mit τ < x, so w¨ urde nach Lemma 1.5 xn > τ n folgen, was wegen xn < a im Widerspruch zu τ n > a st¨ unde. Damit existiert nun y := sup A ∈ R. Wir werden nun zeigen, dass y n = a gelten muss, indem wir nachweisen, dass die zwei F¨ alle y n < a und y n > a nicht auftreten k¨onnen. (Man beachte, dass R total geordnet ist.) Sei also angenommen, dass y n < a sei. Da 1 + y > y ist, gilt (1 + y)n > y n . Damit ist dann aber (a − y n )((1 + y)n − y n )−1 > 0 und nach Korollar 1.1 (b) gibt es ein m ∈ N mit 1/m < (a − y n )((1 + y)n − y n )−1 . Sei zur Vereinfachung h := 1/m gesetzt. Dann ist 0 < h < 1, somit hk ≤ h f¨ ur alle k ∈ N und man erh¨ alt unter Ben¨ utzung des binomischen Lehrsatzes n : ; = n n−k k h y (y + h) = k k=0 n : ; = n n−k n ≤ y +h = y n + h((1 + y)n − y n ) < y n + a − y n = a. y k n
k=1
Dies bedeutet, dass y + h ∈ A ist. Wegen y < y + h ist damit y keine obere Schranke von A, was y = sup A widerspricht. Sei nun angenommen, dass y n > a ist. In diesem Fall arbeiten wir (analog zu oben mit h) mit einem η ∈ R mit 0 < η < 1, η < y und η < (y n − a)((1 + y)n − y n )−1 . Unter Ben¨ utzung des binomischen Lehrsatzes erh¨ alt man dann (y − η)n =
n : ; n : ; = = n n−k n n−k y y (−1)k η k ≥ y n − η k k
k=0
k=1
= y n − η((1 + y)n − y n ) > y n − (y n − a) = a. Damit ist (y − η)n > xn f¨ ur alle x ∈ A. Dies ist nur m¨oglich, wenn y − η > x f¨ ur alle x ∈ A gilt. Damit ist dann y − η eine obere Schranke von A, was im Widerspruch dazu steht, dass y die kleinste obere Schranke von A sein soll. ! Haben nun Gleichungen xn = a im Fall a > 0 im geordneten K¨orper R immer eine L¨osung, so ist bereits die Gleichung x2 = a im Fall a < 0 im K¨orper R nie l¨osbar. Denn es ist bekanntlich immer x2 ≥ 0. Dies ist Grund genug, den K¨orper R, der ja selber eine Erweiterung des K¨ orpers Q darstellt, noch einmal zu erweitern, um auch solche Gleichungen l¨ osbar zu machen. Da dann ja, wenn man auch die Ordnung erweitern ussten, ist klar, dass man bei dieser Erweiterung w¨ urde, negative Quadrate existieren m¨ nicht erreichen kann, dass der gr¨ oßere K¨ orper weiter ein geordneter K¨orper bleibt. Mit der Erweiterung von R zum gr¨ oßeren K¨ orper der komplexen Zahlen, f¨ ur den die Notation Cu achsten Abschnitt besch¨aftigen. ¨ blich ist, werden wir uns im n¨
1.4 Die komplexen Zahlen
1.4
33
Die komplexen Zahlen
Man erh¨ alt den K¨orper C der komplexen Zahlen, indem man R × R =: R2 auf geeignete Weise mit einer K¨ orperstruktur versieht. Es sind also eine Addition und eine Multiplikation von Elementen (a, b) ∈ R2 so zu definieren, dass die K¨orperaxiome gelten. Man definiert unter Ben¨ utzung der Addition reeller Zahlen (a, b) + (c, d) := (a + c, b + d) f¨ ur
(a, b), (c, d) ∈ R2 .
Dies ist genau die Addition, die bei der Bildung des Vektorraums R2 in der linearen Algebra ben¨ utzt wird. Wesentlich f¨ ur das Problem der L¨osbarkeit quadratischer Gleichungen ist aber, dass man die Multiplikation unter Ben¨ utzung der Addition und der Multiplikation reeller Zahlen definiert durch (a, b) · (c, d) := (ac − bd, ad + bc) f¨ ur
(a, b), (c, d) ∈ R2 .
Speziell gilt dann ja (0, 1) · (0, 1) = (−1, 0). Damit wird aber das Paar (0, 1) zur L¨osung der Gleichung x2 = −1, wenn man die reelle Zahl −1 identifiziert mit dem Element (−1, 0) des neu konstruierten K¨ orpers, der nun ein Erweiterungsk¨orper von R sein soll. orpers C auffassen zu k¨onnen, wird man die durch orper R als Teil des K¨ Um also den K¨ ϕ(a) := (a, 0) f¨ ur a ∈ R definierte Abbildung ϕ : R → R2 verwenden. Diese ist offenbar injektiv, so dass man zun¨ achst als Menge R mit der Menge ϕ(R) identifizieren kann. Da aber C ein Erweiterungsk¨ orper von R sein soll, ist es noch wesentlich, dass die K¨ orperstruktur von R mit der Addition und Multiplikation der Elemente von ϕ(R) in dem Sinn identisch ist, dass ϕ(a + b) = ϕ(a) + ϕ(b)
und ϕ(ab) = ϕ(a)ϕ(b)
f¨ ur a, b ∈ R gilt. Das kann man aber sofort nachpr¨ ufen: ϕ(a + b) = (a + b, 0) = (a, 0) + (b, 0) = ϕ(a) + ϕ(b), ϕ(ab) = (ab, 0) = (a, 0)(b, 0) = ϕ(a)ϕ(b). Man kann auch sofort nachrechnen, dass im R2 das Element (0, 0) neutrales Element bez¨ uglich der Addition und (1, 0) neutrales Element bez¨ uglich der Multiplikation ist. Als inverses Element zu (a, b) bez¨ uglich der Addition tritt offenbar das Element (−a, −b) auf. Die Existenz eines inversen Elements bez¨ uglich der Multiplikation zu (a, b) 3= (0, 0) ist nicht so evident. Ist (a, b) 3= (0, 0), so gilt ja a2 + b2 > 0. Damit kann man das Paar (a(a2 + b2 )−1 , −b(a2 + b2 )−1 ) ∈ R2 betrachten, und dieses ist tats¨achlich invers zu (a, b). Dies zeigt die Rechnung : ; : ; a a2 b b2 ab ab (a, b) , − + , − + = = (1, 0). a2 + b 2 a2 + b 2 a2 + b 2 a2 + b 2 a2 + b 2 a2 + b 2 Auf den Nachweis, dass die Addition und die Multiplikation kommutative und assoziative Operationen sind, f¨ ur die das Distributivgesetz gilt, sei hier verzichtet. Wir gehen also davon aus, dass wir auf diese Weise einen K¨orper C erhalten haben, in den R mit
¨ Zahlen und andere Grundbegriffe 1 Uber
34
Hilfe der Abbildung ϕ eingebettet ist. Die Elemente von C nennt man komplexe Zahlen. F¨ ur komplexe Zahlen ist nun eine andere Schreibweise u achst verwendete Notation als Paare reeller ¨ blich als die hier zun¨ Zahlen. Da (b, 0)(0, 1) = (0, b) gilt, kann man f¨ ur alle (a, b) ∈ R2 notieren (a, b) = (a, 0) + (0, b) = (a, 0) + (b, 0)(0, 1). Wege der Identifikation der reellen Zahl a bzw. b mit dem Paar (a, 0) bzw. (b, 0) schreibt man dies mit i := (0, 1) als (a, b) = a + bi. Dies ist die u ur komplexe Zahlen. Sie hat den Vorzug, dass man unter ¨ bliche Notation f¨ Ber¨ ucksichtigung von i2 = (0, 1)(0, 1) = (−1, 0) = −1 wie gewohnt multiplizieren kann: (a + bi)(c + di) = ac + adi + bci + bdi2 = (ac − bd) + (ad + bc)i. Dies entspricht der oben notierten Definition der Multiplikation der Paare des R2 . Ist z := a + bi ∈ C, so bezeichnet man a als den Realteil von z und b als den Imagin¨ arteil von z. F¨ ur den Realteil verwendet man die Notation Rez und f¨ ur den arteil Imz. Schließlich bezeichnet man, wenn z = a + bi ∈ C gegeben ist, die Imagina¨ Zahl z := a − bi als die konjugiert komplexe Zahl. Definiert man noch f¨ ur eine komplexe Zahl z ∈ C den Betrag |z| durch * |z| := (Rez)2 + (Imz)2 , so stimmt offenbar dieser Betrag im Fall einer reellen Zahl, d.h. wenn Imz = 0 ist, mit dem in Abschnitt 1.3 definierten Betrag einer reellen Zahl u ¨ berein. Denn es ist, wenn x ∈ R mit x < 0 ist und wir mit |x| den fr¨ u her definierten Betrag notieren, √ x2 = −x = |x|. Hatten wir in Abschnitt 1.3 den Betrag ben¨ utzt, um Abst¨ande zwischen reellen Zahlen zu messen, so ist dies nun auf die gleiche Weise auch f¨ ur komplexe Zahlen sinnvoll. Denn es gilt ebenfalls die Dreiecksungleichung, die man nun tats¨achlich mit Hilfe von Eckpunkten eines Dreiecks anschaulich machen kann, weil man auf bekannte Weise ultigkeit der Paare (a, b) ∈ R2 mit Punkten einer Ebene identifizieren kann. Die G¨ Dreiecksungleichung ist eine der Aussagen des n¨achsten Satzes, in dem verschiedene Dinge zum Arbeiten mit komplexen Zahlen zusammengetragen sind. Satz 1.14 F¨ ur z, w ∈ C gilt: (i) z + w = z + w, zw = z w, z = z, zz = |z|2 . (ii) |zw| = |z| |w|. (iii) |Rez| ≤ |z|, |Imz| ≤ |z|, |¯ z | = |z|. (iv) |z| = 0 ⇐⇒ z = 0. (v) |z + w| ≤ |z| + |w|, |z − w| ≥ | |z| − |w| |. (vi) z −1 = |z|−2 z¯, falls z 3= 0.
1.4 Die komplexen Zahlen
35
Beweis: (i): Sei z = a + bi, w = c + di. Dann ist z + w = a + c − (b + d)i = (a − bi) + (c − di) = z + w und entsprechend zw = (ac − bd) − (ad + bc)i = (a − bi)(c − di) = z w. Schließlich ist z = a − bi = a + bi = z und zz = (a + bi)(a − bi) = a2 + b2 + (−ab + ab)i = a2 + b2 = |z|2 . (ii): Es ist unter Verwendung von (i) |zw|2 = zw zw = z z¯ww¯ = |z|2 |w|2 . √ √ √ √ 2 2 b2 . Daraus folgt sofort (iii) Es ist f¨ ur a, b ∈ R sicher a2 ≤ a2 + b2 und * b ≤ a +√ 2 2 |Rez| ≤ |z| und |Imz| ≤ |z|. Schließlich ist |¯ z | = a + (−b) = a2 + b2 = |z|. (iv) Ist |z| = 0, so ist a2 + b2 = 0, woraus a = 0 ∧ b = 0, also z = 0 folgt. Die umgekehrte Richtung ist trivial. (v) Offenbar gilt f¨ ur jede komplexe Zahl z + z¯ = 2Rez. Verwendet man dies, so ergibt sich die Dreiecksungleichung aus der folgenden Rechnung |z + w|2 = = = =
(z + w)(z + w) = (z + w)(z + w) zz + zw + wz + ww = |z|2 + zw + zw + |w|2 |z|2 + 2Re(zw) + |w|2 ≤ |z|2 + 2|zw| + |w|2 |z|2 + 2|z| |w| + |w|2 = (|z| + |w|)2 .
Die umgekehrte Dreiecksungleichung |z − w| ≥ | |z| − |w| | kann man mit ganz entsprechenden Argumenten beweisen, man kann aber auch auf die beim Beweis der Aussage (vii) von Satz 1.6 verwendete Argumentation zur¨ uckgreifen. Dies hat den Vorteil, dass dabei sichtbar wird, dass man nur die Dreiecksungleichung und nicht die eigentliche Definition des Betrages ben¨ otigt. (Dies ist von Interesse bei der sp¨ater noch wichtigen Betrachtung von Normen.) Man argumentiert dabei folgendermaßen: Es ist nach der Dreiecksungleichung |z| = |(z − w) + w| ≤ |z − w| + |w|, also |z| − |w| ≤ |z − w|. Durch Vertauschen der Rollen von z und w erh¨ alt man |w| − |z| ≤ |z − w|, was wegen Aussage (v) von Satz 1.6 die Behauptung liefert. z|z|−2 ) = 1, (vi) Nach (i) ist z z¯ = |z|2 . Ist z 3= 0, so kann man wegen (iv) schreiben z(¯ woraus sich sofort die Behauptung ergibt. ! War f¨ ur uns die Gewinnung von L¨ osungen der Gleichung x2 + 1 = 0 Ausgangspunkt f¨ ur die Konstruktion des K¨ orpers der komplexen Zahlen, so zeigt es ) sich, dass dieser n k K¨ orper schon groß genug ist, um zu jeder algebraischen Gleichung k=0 ak x = 0 mit n ∈ N und komplexen Koeffizienten ak , f¨ ur die an 3= 0 gilt, L¨osungen finden zu k¨onnen, (Man beachte, dass die angegebene Gleichung keine L¨osung haben wird, wenn ak = 0 f¨ ur k = 1, . . . , n und a0 3= 0 gilt.) Diese wichtige Tatsache ist Gegenstand
¨ Zahlen und andere Grundbegriffe 1 Uber
36
des sogenannten Fundamentalsatzes der Algebra, den wir allerdings mit den bisher zur Verf¨ ugung stehenden Mitteln noch nicht beweisen k¨onnen. Er ist aber unter Ben¨ utzung von relativ elementaren Resultaten der Analysis beweisbar, (siehe z.B. Hildebrandt [6], Bd. 1). Aufgaben 1. Seien A, B und C Mengen. Man zeige, dass A × (B ∩ C) = (A × B) ∩ (A × C) und A × (B ∪ C) = (A × B) ∪ (A × C) gilt. 2. Sind A und B Mengen, so ist A \ B = {x ∈ A : x ∈ / B}. Man zeige, dass (A \ B) ∩ (A ∩ B) = ∅,
(A \ B) ∪ (A ∩ B) = A,
A \ (A \ B) = A ∩ B
gilt. 3. Seien A und B nichtleere Mengen und seien f : A → B und g : B → A Abbildungen mit g ◦ f = idA . Man zeige, dass dann f injektiv und g surjektiv ist. 4. Man gebe zwei Abbildungen f : Z → Z und g : Z → Z an, so dass f ◦ g 3= g ◦ f gilt. 5. Seien X und Y Mengen, sei f : X → Y eine Abbildung. Gilt dann f¨ ur beliebige A, B ∈ P (X) (a) f (A ∪ B) = f (A) ∪ f (B), (b) f (A ∩ B) = f (A) ∩ f (B)? 6. Sei m eine nat¨ urliche Zahl. Man zeige: (a) Ist m ≥ 2, so gilt mn > n f¨ ur alle n ∈ N. (b) Ist m ≥ 3, so gilt mn > n2 f¨ ur alle n ∈ N. 7. (a) Man zeige, dass f¨ ur alle n ∈ N gilt n = k=1
k2 =
1 n(n + 1)(2n + 1). 6
(b) Sei n ∈ N und seien a1 , . . . , an+1 ∈ R. Man finde eine Formel f¨ ur die Summe ) n (a − a ) und beweise sie mit vollst¨ a ndiger Induktion. k−1 k=1 k (c) Sei n ∈ N. Man berechne die Summe n = k=1
1 . k(k + 1)
8. Sei m ∈ N. (a) Man zeige, dass f¨ ur alle n ∈ N0 die Menge {k ∈ N : k · m > n} nicht leer ist und ein kleinstes Element an besitzt. (b) Man gebe eine obere und eine untere Schranke f¨ ur die Menge aller Zahlen n − (an − 1) · m mit n ∈ N0 an. (c) Man zeige, dass es f¨ ur alle n ∈ N0 genau ein Paar (q, r) ∈ N0 × N0 mit 0 ≤ r < m gibt, so dass n = q · m + r gilt.
1.4 Die komplexen Zahlen
37
9. (a) Sei M eine nichtleere Menge und sei x ∈ M . Man zeige, dass die Potenzmenge P (M \ {x}) und die Menge {A ∈ P (M ) : x ∈ A} gleichm¨achtig sind. (b) Man zeige, dass f¨ ur alle n ∈ N gilt: Ist M eine Menge mit n Elementen, so besitzt die Potenzmenge P (M ) genau 2n Elemente. 10. Auf (R × R) \ {(0, 0)} sei die Relation R definiert durch ((x1 , y1 ), (x2 , y2 )) ∈ R :⇐⇒ Es gibt ein λ > 0 mit (x2 , y2 ) = (λx1 , λy1 ). Man pr¨ ufe nach, ob diese Relation reflexiv, symmetrisch oder transitiv ist. 11. Man zeige, dass f¨ ur beliebige x, y ∈ R gilt (a) |x| + |y| + | |x| − |y| | = |x − y| + |x + y|, (b) max{x, y} = 12 (x + y + |x − y|), (c) min{x, y} = 21 (x + y − |x − y|). 12. Sei M ⊂ R nichtleer und es gelte inf M > 0. Man zeige, dass dann die Menge BM := {y ∈ R : Es gibt ein x ∈ M mit y = nach oben beschr¨ ankt ist und sup BM =
1 inf M
1 } x
gilt.
13. Sei ρ ∈ Q \ {0} und x ∈ R \ Q. Man u ¨berlege sich, ob dann ρ + x und ρx rational oder irrational sind. 14. Man stelle die folgenden komplexen Zahlen in der Form a + bi mit a, b ∈ R dar: √ 1 3 3 1 2 (2 + 3i)(1 − i), (−i) , , (− + i) . 2i − 1 2 2 15. Sei
√ √ Q[ 2 ] := {x ∈ R : Es gibt (a, b) ∈ Q × Q mit x = a + b 2}. √ (a) Man zeige, dass Q[ 2 ] mit den Operationen der Addition und der Multiplikation reeller Zahlen ein K¨ orper ist. (b) Man versehe Q × Q so mit einer Addition und Multiplikation, dass Q × Q mit √ diesen Operationen mit dem K¨ orper Q[ 2 ] identifiziert werden kann.
16. Sei
Q[i] := {z ∈ C : Es gibt (a, b) ∈ Q × Q mit z = a + bi}.
(a) Man zeige, dass es zu jedem z ∈ C und jedem ε > 0 ein ζ ∈ Q[i] gibt mit |z − ζ| < ε. (b) Seien f : C → C und g : C → C Funktionen, f¨ ur die |f (z) − g(z & )| ≤ |z − z & | und
|g(z) − g(z & )| ≤ |z − z & | f¨ ur
z, z & ∈ C
gilt. Man zeige, dass dann aus der G¨ ultigkeit von f (z) = g(z) f¨ ur alle z ∈ Q[i] schon f = g folgt.
2
Folgen und Reihen
Fragen der Konvergenz von Folgen und unendlichen Reihen sind von zentraler Bedeutung in der Analysis. Dabei ist es nicht ausreichend, nur Folgen von reellen oder komplexen Zahlen zu betrachten. Wir werden daher schrittweise zu allgemeineren Situationen u ¨ bergehen.
2.1
¨ Uber reelle und komplexe Zahlenfolgen
In Abschnitt 1.3.2 haben wir beim Beweis von Satz 1.11 bereits mit Folgen gearbeitet, ohne dass wir diesen Begriff explizit verwendet haben. So haben wir rekursiv f¨ ur n ∈ N abgeschlossene Intervalle [an , bn ] definiert. Damit haben wir aber auch jedem n ∈ N eine reelle Zahl an bzw. eine reelle Zahl bn zugeordnet. Damit haben wir aber mit drei verschiedenen Folgen gearbeitet, die wegen [an , bn ] ∈ P (R) und an ∈ R, bzw. bn ∈ R schon zeigen, dass es zweckm¨ aßig ist, den Folgenbegriff gleich in folgender Allgemeinheit zu definieren: Ist X eine nichtleere Menge, so bezeichnet man jede Abbildung f : N → X als eine Folge in X. Ist speziell X = R, so spricht man von einer reellen Zahlenfolge oder einfach von einer reellen Folge, im Fall X = C von einer komplexen Folge. Denkt man an die Einf¨ uhrung von Abbildungen als spezielle Relationen, so ist letztlich eine Folge identisch mit der Menge von Paaren {(n, f (n)) : n ∈ N} ⊂ N × X. Man hat nat¨ urlich die gleiche Information, wenn man bei einer Folge nicht die Paare, sondern jeweils nur die zweiten Komponenten f (n) angibt. Dementsprechend verwendet man die Notation (f (n))n∈N f¨ ur eine Folge. Meist verwendet man sogar eine Notation mit Indizierung, d.h. man schreibt (xn )n∈N , wobei dann xn = f (n) gilt. Die Elemente xn bezeichnet man dann auch als Folgenglieder. Man beachte, dass die Abbildung f keineswegs injektiv sein muss, ja es kann sogar f (n) = f (1) f¨ ur alle n gelten; in diesem Fall spricht man von einer konstanten Folge. Das Beispiel einer konstanten Folge zeigt deutlich, dass man bei einer Folge zwischen der Angabe aller Folgenglieder in der Form (xn )n∈N und der Menge f (N) streng unterscheiden muss. Noch klarer wird dies, wenn man die folgenden zwei reellen Folgen (xn )n∈N und (yn )n∈N betrachtet: x1 = −1, xn = 1 f¨ ur n ≥ 2, yn = −1, falls n ungerade, yn = 1, falls n gerade. Diese zwei Folgen sind offenbar, wenn man an die Menge von Paaren denkt, sehr verschieden, als Menge f (N) erh¨ alt man aber in beiden F¨allen die Menge {−1, 1} ⊂ R.
40
2 Folgen und Reihen
Die Folgen (xn )n∈N und (yn )n∈N unterscheiden sich auch deutlich in Fragen der Konvergenz. Um klar zu machen, was damit gemeint ist, sei noch eine weitere reelle Zahlenfolge (ξn )n∈N betrachtet: 1 ur n ∈ N. ξn = (−1)n f¨ n Wie bei der Folge (yn )n∈N haben hier die Folgenglieder wechselndes Vorzeichen, aber w¨ ahrend die yn immer den Abstand Eins von Null haben, nimmt der Abstand der ξn ¨ von Null bei wachsendem n ab, und zwar wird er, wenn man an die Uberlegungen von Abschnitt 1.3.1 denkt, beliebig klein. Wir hatten damals ja gesehen, dass inf{ε ∈ R : ε > 0} = 0 ist und zu jedem ε > 0 ur alle k ≥ n, denn aus k > n ein n ∈ N existiert mit n1 < ε. Dann gilt sogar k1 < ε f¨ 1 1 folgt immer k < n . (Dies zeigt die Ungleichung 0 < (k − n)k −1 n−1 = n−1 − k −1 .) Dass der Abstand der ξn von Null bei wachsendem n beliebig klein wird, steckt also in der folgenden Aussage: Zu jedem ε > 0 gibt es ein n0 ∈ N, so dass |ξn | < ε gilt f¨ ur alle n ∈ N mit n ≥ n0 . Dementsprechend definieren wir nun, was die Konvergenz einer reellen Zahlenfolge (an )n∈N gegen die Zahl α ∈ R bedeuten soll: Die reelle Zahlenfolge (an )n∈N heißt konvergent gegen α ∈ R, wenn es zu jedem ε > 0 ur alle n ∈ N mit n ≥ n0 . ein n0 ∈ N gibt, so dass |an − α| < ε gilt f¨ Diese f¨ ur die Analysis ganz wesentliche Definition wird in ihrer Struktur immer erhalten bleiben, wenn wir sp¨ ater den Konvergenzbegriff auf allgemeinere Situationen ausdehnen. Ist die Folge gegen kein α ∈ R konvergent, so bezeichnet man sie als divergent. Ist die Folge (an )n∈N konvergent gegen α, so bezeichnet man α als den Grenzwert der Folge (an )n∈N . Man notiert dies meist in der Form lim an = α
n→∞
oder auch als
ur n → ∞. an → α f¨
Von dem Grenzwert zu sprechen, ist nat¨ urlich nur gerechtfertigt, wenn es zu jeder Folge h¨ ochstens einen Grenzwert geben kann. Davon kann man sich aber leicht u ¨ berzeugen: Sei angenommen, dass α und β die Forderung erf¨ ullen, die bei der Konvergenz gegen α bzw. gegen β gestellt werden. Es soll also zu jedem ε > 0 ein n0 und ein m0 geben, so dass |an − α| < ε f¨ ur alle n ≥ n0 und |an − β| < ε f¨ ur alle n ≥ m0 gilt. Sei k := max{n0 , m0 }. Dann folgt nach der Dreiecksungleichung |α − β| = |(α − ak ) + (ak − β)| ≤ |α − ak | + |ak − β| < 2ε. Da ε > 0 beliebig war, ist dies nur m¨ oglich, wenn |α − β| = 0 ist. Denn w¨are |α − β| > 0, so w¨ are inf{ε ∈ R : ε > 0} ≥ 21 |α − β| > 0 im Widerspruch zu inf{ε ∈ R : ε > 0} = 0. Aus |α − β| = 0 folgt aber nach Satz 1.6 von Abschnitt 1.3.1, dass α = β sein muss. ¨ drei Eigenschaften des durch d(x, y) = |x − y| Man beachte, dass bei dieser Uberlegung definierten Abstandes reeller Zahlen eingegangen sind. N¨amlich, dass aus d(x, y) = 0
¨ reelle und komplexe Zahlenfolgen 2.1 Uber
41
immer folgt x = y, dass stets d(x, y) = d(y, x) gilt, und dass die Dreiecksungleichung gilt. Auf mehr als diese drei Eigenschaften haben wir nicht zur¨ uckgegriffen. Da man f¨ ur komplexe Zahlen auch mit Hilfe des Betrages eine Abstandsfunktion d(z, ζ) := |z − ζ| definieren kann, die nach unseren Ergebnissen zum Betrag komplexer Zahlen ebenfalls diese drei Eigenschaften hat, ist es mehr als naheliegend, die Konvergenz komplexer Zahlenfolgen ganz entsprechend zu definieren: Die komplexe Zahlenfolge (zn )n∈N heißt konvergent gegen ζ ∈ C, wenn es zu jedem ε > 0 ein n0 ∈ N gibt, so dass |zn − ζ| < ε gilt f¨ ur alle n ∈ N mit n ≥ n0 . Ganz genauso wie im reellen Fall erh¨ alt man dann, dass es h¨ochstens einen Grenzwert ζ zu einer gegebenen Folge (zn )n∈N geben kann. Da die Situationen formal so gleich sind, werden wir in vielen F¨allen reelle und komplexe Zahlenfolgen gleichzeitig diskutieren und dann von einer Folge in K sprechen, wobei K = R oder K = C sein kann. Auch was den Betrag angeht, ist dabei die Situation v¨ ollig unproblematisch, da im Fall einer komplexen Zahl z mit Imz = 0 der Betrag der komplexen Zahl ohnedies in den Betrag der reellen Zahl Rez u ¨ bergeht. ¨ Ist also nach den Uberlegungen von oben die Folge (ξn )n∈N konvergent gegen 0 ∈ R man spricht in diesem Fall einfach von einer Nullfolge , so ist die oben notierte Folge ur n → ∞. Dies wird (yn )n∈N nicht konvergent, d.h. es gibt kein a ∈ R mit xn → a f¨ sich rasch aus dem folgenden Lemma ergeben: Lemma 2.1 Ist die Folge (an )n∈N in K konvergent, so gibt es zu jedem ε > 0 ein n0 ∈ N, so dass |an − am | < ε gilt f¨ ur alle n, m ∈ N mit n ≥ n0 und m ≥ n0 . Beweis: Sei a := limn→∞ an . Ist dann ε > 0 beliebig gegeben, so gibt es dazu ein n0 ∈ N, so ur alle n ≥ n0 gilt. Aufgrund der Dreiecksungleichung gilt dann, dass |an − a| < 2ε f¨ wenn n ≥ n0 und m ≥ n0 ist, |an − am | = |(an − a) + (a − am )| ≤ |an − a| + |a − am |
0 ein n0 ∈ N ur alle n, m ∈ N mit n ≥ n0 und m ≥ n0 . gibt, so dass |an − am | < ε gilt f¨ Lemma 2.1 besagt also, dass aus der Konvergenz eine Zahlenfolge immer folgt, dass sie eine Cauchy-Folge sein muss. Man dr¨ uckt dies auch so aus, dass es notwendig f¨ ur die Konvergenz einer Folge ist, dass sie eine Cauchy-Folge ist. Es stellt sich die Frage,
42
2 Folgen und Reihen
ob die Eigenschaft einer Folge, Cauchy-Folge zu sein, schon sicherstellt, dass die Folge konvergent ist. Oder anders ausgedr¨ uckt, ob die Eigenschaft, eine Cauchy-Folge zu sein, auch hinreichend f¨ ur die Konvergenz einer Folge ist. Es ist ein wesentliches Resultat der Analysis, das wiederum eng mit der Ordnungsvollst¨andigkeit des K¨orpers R zusammenh¨ angt, dass diese Umkehrung von Lemma 2.1 f¨ ur reelle oder komplexe Zahlenfolgen tats¨ achlich richtig ist. In allgemeineren Situationen, bei denen wir ebenfalls mit Folgen arbeiten werden, ist dies aber nicht immer richtig! Nach der Definition der Konvergenz ist klar, dass konstante Folgen immer konvergent sind. Gilt an = a f¨ ur alle n ∈ N, so gilt limn→∞ an = a. Denn es gilt ja offenbar |an − a| = 0 f¨ ur alle n ∈ N. ur n ≥ 2 Damit ist aber auch die oben angegebene Folge (xn )n∈N mit x1 = −1, xn = 1 f¨ konvergent und es gilt limn→∞ xn = 1. Denn man kann bei einer Folge endlich viele Folgenglieder einfach weglassen ohne am Konvergenzverhalten etwas zu ¨andern. Dies sei im folgenden Lemma in einer pr¨ azisen Formulierung festgehalten: Lemma 2.2 Sei (an )n∈N eine gegebene Folge in K und μ eine gegebene nat¨ urliche Zahl. Ist dann die Folge (bn )n∈N definiert durch bn := aμ+n f¨ ur n ∈ N, so gilt eine der folgenden zwei Aussagen: (i) (an )n∈N und (bn )n∈N sind konvergent und es gilt limn→∞ an = limn→∞ bn . (ii) (an )n∈N und (bn )n∈N sind divergent. Beweis: Sei zuerst angenommen, dass (an )n∈N konvergent ist mit Grenzwert α ∈ K. Es gibt also ur alle n ≥ n0 . Da bn = aμ+n ist, gilt dann zu jedem ε > 0 ein n0 ∈ N mit |an − α| < ε f¨ aber auch |bn − α| < ε f¨ ur alle n ≥ n0 . Also gilt dann auch limn→∞ bn = α. Sei nun angenommen, dass (bn )n∈N konvergent ist mit Grenzwert α ∈ K. Es gibt also zu jedem ε > 0 ein m0 ∈ N mit |bn − α| < ε f¨ ur alle n ≥ m0 . Dann gilt aber auch ur alle n ≥ μ + m0 . Dies zeigt limn→∞ an = α. |an − α| < ε f¨ Ist also eine der zwei Folgen konvergent, so ist auch die zweite konvergent mit dem gleichen Grenzwert. Dies zeigt aber auch, dass aus der Divergenz der einen auch die Divergenz der anderen Folge folgt. ! Lemma 2.2 zeigt, dass zwei Folgen, die sich nur in endlich vielen Folgengliedern unterscheiden, das gleiche Konvergenzverhalten zeigen. Damit ist es aber auch sinnvoll, Folgen zu betrachten, bei denen die Indizierung der Folgenglieder nicht mit 1, sondern mit einem k > 1 beginnt, also Folgen, die in der Form (an )n≥k notiert sind. Ein einfaches Beispiel so einer Folge w¨ are etwa ((n − 3)−2 )n≥4 . Das Konvergenzverhalten dieser Folge ist nach Lemma 2.2 identisch mit dem der Folge (an )n∈N , die definiert ur n = 1, 2, 3 und an = (n − 3)−2 f¨ ur n ≥ 4. F¨ ur diese Folge gilt aber ist durch an = 0 f¨ limn→∞ an = 0. Denn ist ε > 0 gegeben, so gibt es ja ein n0 ∈ N mit n−1 < ε f¨ ur alle ur n ∈ N zur¨ uckn ≥ n0 . Damit gilt aber, wenn wir auf n ≤ n2 und damit n−1 ≥ n−2 f¨ greifen, |an | = (n − 3)−2 ≤ (n − 3)−1 < ε f¨ ur alle n ≥ n0 + 3. Die Folge ((n − 3)−2 )n≥4 ist also eine Nullfolge. ¨ Bei dieser Uberlegung haben wir mit (n − 3)−2 ≤ (n − 3)−1 eine Schlussweise ben¨ utzt, die allgemeiner geeignet ist, nachzuweisen, dass eine gegebene Folge eine Nullfolge ist.
¨ reelle und komplexe Zahlenfolgen 2.1 Uber
43
Lemma 2.3 Sei (bn )n∈N eine Folge in R mit bn ≥ 0 f¨ ur alle n ∈ N, f¨ ur die bn → 0 f¨ ur n → ∞ gilt. Dann gilt: Ist (an )n∈N eine Folge in K, zu der es ein k ∈ N gibt, so dass |an | ≤ bn f¨ ur alle n ∈ N mit n ≥ k gilt, so gilt auch an → 0 f¨ ur n → ∞. Beweis: Zu ε > 0 gibt es ein n0 ∈ N, so dass |bn | < ε f¨ ur alle n ≥ n0 gilt. Dabei d¨ urfen wir offenbar annehmen, dass n0 ≥ k ist. Wegen |bn | = bn folgt dann ur |an | ≤ bn < ε f¨
n ≥ n0 .
Damit gilt an → 0 f¨ ur n → ∞.
!
Daraus ergibt sich etwa die folgende n¨ utzliche Folgerung: Korollar 2.1 Sei (an )n∈N eine Folge in K mit limn→∞ an = 0 und sei (bn )n∈N eine Folge in K, zu der es ein Konstante ρ ≥ 0 gibt mit |bn | ≤ ρ f¨ ur alle n ∈ N. Definiert man dann ur n ∈ N, so ist auch die Folge (cn )n∈N eine die Folge (cn )n∈N durch cn := an bn f¨ Nullfolge. Beweis: Sei zuerst der Fall betrachtet, dass (bn )n∈N eine konstante Folge ist, also etwa bn = b ∈ K f¨ ur alle n ∈ N. Ist b = 0, so ist die damit gebildete Folge (cn )n∈N eine konstante Folge ur alle n und damit ist (cn )n∈N trivialerweise eine Nullfolge. Sei also b 3= 0. mit cn = 0 f¨ Ist ε > 0 gegeben, so gibt es ein n0 ∈ N mit |an | < |b|−1 ε f¨ ur alle n ≥ n0 . Damit gilt ur alle n ≥ n0 , also cn → 0 f¨ ur n → ∞. dann |cn | = |an | |b| < ε f¨ Ist nun (bn )n∈N eine beliebige Folge, die betragsm¨aßig beschr¨ankt ist, f¨ ur die also etwa ur alle n gilt, so ist nach dem ersten Teil des Beweises die Folge (ρan )n∈N eine |bn | ≤ ρ f¨ Nullfolge. Damit ist aber, wie die Definition sofort zeigt, auch die Folge (ρ|an |)n∈N eine ur n ∈ N ist damit nach Lemma 2.3 Nullfolge. Wegen der Absch¨ atzung |an bn | ≤ ρ|an | f¨ die Folge (cn )n∈N eine Nullfolge. ! Dazu zwei einfache Beispiele: (1) Die Folge ( n1 in )n∈N ist ein Nullfolge. Denn f¨ ur die komplexe Zahl i gilt ja |i| = 1 und durch einen einfachen Induktionsschluss erh¨alt man daraus unter Verwendung von Satz 1.14 (ii), dass |in | = 1 f¨ ur alle n ∈ N gilt. Da die Folge (1/n)n∈N eine Nullfolge ist, folgt nach Korollar 2.1 limn→∞ n1 in = 0. (2) Ist cn := n1 − n12 , so ist die Folge (cn )n∈N eine Nullfolge. Denn es gilt ja cn = an bn mit an = n1 und bn = 1 − n1 und es ist die Folge (an )n∈N eine Nullfolge und die Folge (bn )n∈N betragsm¨ ur alle n ∈ N. aßig beschr¨ ankt. Offenbar gilt ja |1 − n1 | ≤ 1 f¨ Bei Beispiel (2) h¨atte man auch noch anders argumentieren k¨onnen, denn die Folge (1 − n1 )n∈N ist ebenfalls konvergent, und zwar gilt limn→∞ (1 − n1 ) = 1. (Dies sieht man sofort unter R¨ uckgriff auf die Definition der Konvergenz.) Damit hat man es bei Beispiel (2) mit einer Folge zu tun, die durch die Bildung von Produkten der Folgenglieder zweier
44
2 Folgen und Reihen
ur gilt aber ein allgemeineres Resultat, das wir konvergenter Folgen entstanden ist. Daf¨ nun im n¨ achsten Satz zusammen mit anderen wichtigen Resultaten zum Arbeiten mit konvergenten Folgen festhalten werden. Vorher eine kleine Vor¨ uberlegung: Lemma 2.4 Ist (an )n∈N eine konvergente Folge in K, so ist sie beschr¨ankt, d.h. es gibt ein ρ > 0 mit |an | ≤ ρ f¨ ur alle n ∈ N. Beweis: Ist α = limn→∞ an , so gibt es ein m ∈ N mit |an − α| < 1 f¨ ur alle n ≥ m. Wegen ur n ≥ m. ||an | − |α|| ≤ |an − α| folgt daraus |an | − |α| ≤ 1, somit |an | ≤ 1 + |α| f¨ Ist m = 1, so ist man damit fertig. Ist aber m > 1, so sei M die gr¨oßte der endlich vielen reellen Zahlen |a1 |, . . . , |am−1 |. (Dass es so eine gibt, kann man leicht mit Hilfe eines Induktionsschlusses zeigen.) Dann kann man absch¨atzen |an | ≤ 1 + α + M f¨ ur alle n ∈ N. ! Satz 2.1 Seien (an )n∈N und (bn )n∈N konvergente Folgen in K, seien a := limn→∞ an und b := limn→∞ bn , sei α ∈ K. Dann sind auch die Folgen (αan )n∈N , (an + bn )n∈N und (an bn )n∈N konvergent und es gilt lim (αan ) = αa,
n→∞
lim (an + bn ) = a + b,
n→∞
lim (an bn ) = ab.
n→∞
3 0 f¨ ur alle n ≥ m, und definiert man die Folge Ist b 3= 0, so gibt es ein m ∈ N mit bn = (cn )n∈N durch cn := 1/bn+m f¨ ur n ∈ N, so ist auch die Folge (cn )n∈N konvergent und es gilt limn→∞ cn = 1/b. Beweis: F¨ ur den Beweis der ersten Behauptung argumentiert man wie zu Beginn des Beweises von Korollar 2.1. Ist α = 0, so ist die Folge (αan ) die konstante Folge, deren Glieder alle gleich Null sind, und diese ist trivialerweise gegen Null konvergent, damit gilt lim(αan ) = 0 = αa. Ist aber α 3= 0 und ε > 0 gegeben, so wird n0 ∈ N so gew¨ahlt, dass ur alle n ≥ n0 gilt. Dann gilt offenbar |αan − αa| < ε f¨ ur n ≥ n 0 . |an − a| < |α|−1 ε f¨ Damit gilt aber αan → αa f¨ ur n → ∞. Der Beweis der zweiten Behauptung ist ¨ ahnlich einfach: Sei ε > 0 beliebig gegeben. Dann gibt es dazu ein n1 ∈ N mit |an − a| < ε/2 f¨ ur n ≥ n1 und ein n2 ∈ N mit ur n ≥ n2 . Ist dann n0 := max{n1 , n2 }, so gilt |bn − b| < ε/2 f¨ |(an + bn ) − (a + b)| ≤ |an − a| + |bn − b|
0 mit |an | ≤ K, |bn | ≤ K f¨ ur alle n ∈ N. Auch k¨ onnen wir annehmen, dass |a| ≤ K gilt. Ist
¨ reelle und komplexe Zahlenfolgen 2.1 Uber
45
dann ε > 0 gegeben, so gibt es ein n0 ∈ N mit |an −a| < (2K)−1 ε und |bn −b| < (2K)−1 ε f¨ ur n ≥ n0 . Dann folgt |(an bn ) − (ab)| = |(an − a)bn + a(bn − b)| ≤ |an − a| |bn | + |a| |bn − b| ≤ K(2K)−1 ε + K(2K)−1 ε = ε f¨ ur n ≥ n0 . Somit gilt an bn → ab. Sei nun b 3= 0. Wegen bn → b gibt es dann ein m ∈ N mit |bn − b| < |b|/2 f¨ ur n ≥ m. Ist ur n ≥ m. Ist aber b < 0, so k¨onnen wir nun b > 0, so folgt daraus 0 < b − (b/2) < bn f¨ bn < b + (|b|/2) = −|b|/2 < 0 f¨ ur n ≥ m notieren. Damit ist in jedem Fall |bn | > |b|/2 ur n ≥ m. Somit ist die Definition cn := b−1 ur n ∈ N sinnvoll. und somit bn 3= 0 f¨ n+m f¨ ur Sei nun ε > 0 beliebig gegeben. Dann gibt es ein k0 ∈ N mit |bm+k − b| < (|b|2 /2)ε f¨ alle k ≥ k0 . Wir k¨onnen damit f¨ ur k ≥ k0 absch¨atzen −1 |b−1 | = |(b − bm+k )(bm+k b)−1 | < m+k − b
und es gilt somit cn → b−1 f¨ ur n → ∞.
2 |b|2 ε 2 = ε, 2 |b| !
Nach dem letzten Resultat dr¨ angt sich die Frage auf, was man sagen kann, wenn man bei einer reellen Nullfolge (an )n∈N , f¨ ur die an 3= 0 f¨ ur alle n ∈ N gilt, zur Folge (cn )n∈N −1 u bergeht. Wie mit cn = a−1 )n∈N und (−n−1 )n∈N , die ja dann die zwei Nullfolgen (n ¨ n zu den beiden Folgen (n)n∈N und (−n)n∈N f¨ uhren, schon nahelegen, sind dabei zwei verschiedene Situationen zu betrachten. Man kommt dabei zu folgenden Aussagen: ur alle n ≥ k, so gibt es zu jedem r > 0 ein n0 ∈ N, (a) Gibt es ein k ∈ N mit an > 0 f¨ so dass cn > r f¨ ur alle n ≥ n0 gilt. F¨ ur diesen Sachverhalt verwendet man die Notation limn→∞ cn = ∞ oder cn → ∞. ur alle n ≥ k, so gibt es zu jedem r > 0 ein n0 ∈ N, (b) Gibt es ein k ∈ N mit an < 0 f¨ so dass cn < −r f¨ ur alle n ≥ n0 gilt. F¨ ur diesen Sachverhalt verwendet man die Notation limn→∞ cn = −∞ oder cn → −∞. ur alle n ≥ k, Dies kann man folgendermaßen erschließen: Gibt es ein k ∈ N mit an > 0 f¨ so gibt es zu jedem r > 0 ein n0 ∈ N mit 0 < an < r−1 f¨ ur alle n ≥ n0 . Daraus folgt ur n ≥ n0 . Gibt es aber ein k ∈ N mit an < 0 f¨ ur alle n ≥ k, so dann cn = a−1 n > r f¨ gibt es zu jedem r > 0 ein n0 ∈ N mit 0 < −an = |an | < r−1 f¨ ur alle n ≥ n0 . Daraus −1 < −r f¨ ur alle n ≥ n0 . folgt dann |an |−1 > r, also cn = a−1 n = −|an | Die bisher ben¨ utzte Notation n → ∞ ist voll vertr¨aglich mit der nun eingef¨ uhrten Notation cn → ∞. Denn setzt man cn := n f¨ ur n ∈ N, so gilt tats¨achlich in dem nun erkl¨ arten Sinn cn → ∞. Dies folgt sofort aus Satz 1.2. Zu den bisherigen Feststellungen gibt es auch eine Umkehrung: ur alle n ∈ N und gilt limn→∞ cn = ∞ oder Ist (cn )n∈N eine reelle Folge mit cn 3= 0 f¨ limn→∞ cn = −∞, so ist die durch an := c−1 n definierte Folge (an )n∈N eine Nullfolge. Auch hier ist der Beweis sehr kurz: Wegen limn→∞ cn = ∞ oder limn→∞ cn = −∞ ur k¨ onnen wir davon ausgehen, dass zu jedem r > 0 ein n0 ∈ N existiert mit |cn | > r−1 f¨ alle n ≥ n0 . Daraus folgt aber |an | < r f¨ ur alle n ≥ n0 . Somit ist (an )n∈N eine Nullfolge.
46
2 Folgen und Reihen
Nach Lemma 2.4 ist jede konvergente Folge beschr¨ankt, aber umgekehrt kann man aus der Beschr¨ anktheit einer Folge nicht auf die Konvergenz schließen. Ein einfaches Beispiel dazu ist die beschr¨ ankte Folge ((−1)n )n∈N . Ist jedoch eine reelle Zahlenfolge zus¨ atzlich zur Beschr¨ anktheit noch monoton, so folgt daraus schon die Konvergenz. Dabei bezeichnet man eine Folge (an )n∈N in R als monoton wachsend, wenn an ≤ ur alle n ∈ N gilt. Man bezeichnet sie als monoton fallend, wenn an ≥ an+1 an+1 f¨ f¨ ur alle n ∈ N gilt. (Von strenger Monotonie spricht man, wenn sogar an < an+1 bzw. alt man in dieser Situation die kleinste obere bzw. an > an+1 gilt.) Als Grenzwert erh¨ die gr¨ oßte untere Schranke der Menge der Folgenglieder. Wir f¨ uhren daher noch die Notationen sup an := inf{ρ ∈ R : an ≤ ρ f¨ ur alle n ∈ N}, n∈N
inf an := sup{ρ ∈ R : an ≥ ρ f¨ ur alle n ∈ N}
n∈N
ein. Satz 2.2 Ist die reelle Zahlenfolge (an )n∈N monoton wachsend und nach oben beschr¨ankt, d.h. gibt es ein ρ ∈ R mit an ≤ ρ f¨ ur alle n ∈ N, so ist sie konvergent und es gilt limn→∞ an = supn∈N an . Ist die reelle Zahlenfolge (an )n∈N monoton fallend und nach unten beschr¨ankt, d.h. gibt es ein ρ ∈ R mit an ≥ ρ f¨ ur alle n ∈ N, so ist sie konvergent und es gilt limn→∞ an = inf n∈N an .
Beweis: Sei (an )n∈N eine monoton wachsende nach oben beschr¨ankte reelle Folge. Es ist dann die Menge A := {ρ ∈ R : an ≤ ρ f¨ ur alle n ∈ N} nicht leer und nach unten beschr¨ankt. Wegen der Ordnungsvollst¨ andigkeit von R existiert also s := inf A. Zu jedem ε > 0 muss dann ein n0 ∈ N existieren mit 0 ≤ s − an0 < ε. (Denn sonst w¨ urde ein s& < s & ur alle n ∈ N.) Wegen an ≥ an0 f¨ ur alle n ≥ n0 gilt dann auch existieren mit an ≤ s f¨ 0 ≤ s − an ≤ s − an0 < ε f¨ ur n ≥ n0 . Damit gilt |s − an | < ε f¨ ur n ≥ n0 , und somit ur eine monoton fallende ist die Folge (an ) konvergent mit Grenzwert s = supn∈N an . F¨ und nach unten beschr¨ ankte Folge schließt man ganz entsprechend. ! Unter Ben¨ utzung dieses Resultats kann man rasch den sogenannten Satz von BolzanoWeierstraß erhalten, aus dem dann folgen wird, dass jede Cauchy-Folge in R schon konvergent sein muss. Wir ben¨ otigen dazu noch den Begriff der Teilfolge einer Folge: Ist eine Folge (xn )n∈N in der Menge X gegeben, also eine Abbildung f : N → X mit ur alle n, und ist g : N → N eine Abbildung mit g(n) < g(n + 1) f¨ ur alle xn = f (n) f¨ n ∈ N, so definiert auch die Abbildung f ◦ g : N → X eine Folge, deren Folgenglieder offenbar alle mit gewissen xn u ¨bereinstimmen, wobei aber i.a. nicht alle xn wirklich auftreten. Man nennt sie daher Teilfolge. Schreibt man g(k) =: nk f¨ ur k ∈ N, so ur uns die u kann man die neue Folge offenbar notieren als (xnk )k∈N . Dies wird f¨ ¨ bliche Notation sein.
¨ reelle und komplexe Zahlenfolgen 2.1 Uber
47
Man sieht sofort, dass zu divergenten Folgen durchaus konvergente Teilfolgen existieren k¨ onnen. So ist die Teilfolge ((−1)2k )k∈N der Folge ((−1)n )n∈N als konstante Folge konvergent, die Folge ((−1)n )n∈N aber divergent. Teilfolgen konvergenter Folgen sind jedoch immer konvergent, und dies auch noch zum gleichen Grenzwert: Lemma 2.5 Sei (an )n∈N eine konvergente Folge in K mit limn→∞ an = a. Dann ist auch jede Teilfolge (ank )k∈N von (an )n∈N konvergent und es gilt limk→∞ ank = a. Beweis: Sei ε > 0 gegeben. Dann gibt es ein m ∈ N mit |an − a| < ε f¨ ur alle n ≥ m. Da stets nk+1 > nk gelten soll, liefert ein einfacher Induktionsschluss, dass stets nk ≥ k gelten muss. Damit gilt aber nk ≥ m f¨ ur alle k ≥ m. Somit ist |ank − a| < ε f¨ ur alle k ≥ m, ur k → ∞. ! d.h. es gilt ank → a f¨ Wir haben schon gesehen, dass es zu nicht konvergenten Folgen durchaus konvergente Teilfolgen geben kann, allerdings gibt es auch divergente Folgen, zu denen keine konvergente Teilfolge existiert. Ein Beispiel daf¨ ur ist die Folge (n)n∈N , die unbeschr¨ankt ist und f¨ ur die auch jede Teilfolge unbeschr¨ ankt ist. Der Satz von Bolzano-Weierstraß sichert aber f¨ ur beschr¨ankte reelle Folgen die Existenz von konvergenten Teilfolgen: Satz 2.3 Zu jeder beschr¨ ankten Folge in R gibt es eine konvergente Teilfolge. Beweis: Nach dem Resultat von Satz 2.2 reicht es aus, zu zeigen, dass zu jeder beschr¨ankten Folge in R eine monoton wachsende oder eine monoton fallende Teilfolge existieren muss. Sei also (an )n∈N eine beschr¨ ankte reelle Zahlenfolge. Wir betrachten dann die Menge M := {n ∈ N : Es gilt am < an f¨ ur alle m > n}. Ist die Menge M unendlich, so muss sie ja abz¨ ahlbar unendlich sein und mit einer bijektiven Abbildung ϕ : N → M k¨ onnen wir schreiben M = {ϕ(k) : k ∈ N}. Wir k¨onnen dabei sogar auf ganz bestimmte Weise so eine bijektive Abbildung ϕ konstruieren. Wir setzen unter Ber¨ ucksichtigung von Satz 1.4 (b) ϕ(1) := min M und weiter rekursiv ϕ(k + 1) := min M \ {ϕ(1), . . . , ϕ(k)}. (Dieses Verfahren kann nicht abbrechen, da M ja unendlich sein soll.) Es ist klar, dass dann ϕ injektiv ist. Da nach der Definition ϕ(k) < ϕ(k + 1) f¨ ur alle k ∈ N gilt, ist die Menge ϕ(N) unbeschr¨ankt und es kann kein n ∈ M geben, das von den ϕ(k) nicht erfasst wird; somit ist ϕ auch surjektiv. Schreibt ur k ∈ N, so man unter Verwendung der so konstruierten Abbildung ϕ nun nk := ϕ(k) f¨ gilt ja nk < nk+1 und somit ist (ank )k∈N eine Teilfolge von (an )n∈N , f¨ ur die nach der ur alle k ∈ N. Wir haben damit tats¨achlich Definition der Menge A gilt ank+1 < ank f¨ eine monoton fallende Teilfolge gefunden.
48
2 Folgen und Reihen
Liegt der andere Extremfall vor, dass M leer ist, so muss es zu jedem m ∈ N ein utzend k¨onnen wir aber rekursiv eine monon(m) > n geben mit an(m) ≥ am . Dies ausn¨ ton wachsende Teilfolge bilden beginnend mit an1 , das zu an1 ≥ a1 geh¨ort, und rekursiv so fortfahrend, dass, wenn ank bekannt ist, ank+1 ≥ ank gelten soll. Bleibt als letzte M¨ oglichkeit, dass M eine nichtleere endliche Menge ist. Dann gibt es aber ein m ∈ N, so dass alle n ∈ N mit n ≥ m nicht in M liegen. Dies erlaubt es aber, startend mit am wie im Fall, dass M leer ist, eine monoton wachsende Teilfolge zu bilden. ! Wie angek¨ undigt werden wir nun unter Verwendung des Satzes von Bolzano-Weierstraß zeigen, dass in R jede Cauchy-Folge schon konvergent sein muss. Dazu noch eine kleine Vor¨ uberlegung: Lemma 2.6 Sei (an )n∈N eine reelle Cauchy-Folge. Dann gilt: Gibt es eine Teilfolge (ank )k∈N , die gegen a ∈ R konvergiert, so ist die Folge (an )n∈N selber konvergent und es gilt limn→∞ an = a. Beweis: Sei ε > 0 gegeben. Da (an )n∈N Cauchy-Folge ist, gibt es dazu ein n0 ∈ N , so dass ur k → ∞ gilt, gibt es aber ur alle n, m ≥ n0 gilt. Da ank → a f¨ |an − am | < ε/2 f¨ auch ein k0 ∈ N, so dass |ank − a| < ε/2 f¨ ur alle k ≥ k0 gilt. Dabei d¨ urfen wir ohne Einschr¨ ankung der Allgemeinheit annehmen, dass nk0 ≥ n0 ist. Damit k¨onnen wir dann absch¨ atzen ε ε |an − a| ≤ |an − ank0 | + |ank0 − a| < + = ε 2 2 f¨ ur alle n ≥ n0 . Somit gilt limn→∞ an = a. ! Satz 2.4 Jede Cauchy-Folge in R ist konvergent. Beweis: Sei (an )n∈N eine Cauchy-Folge in R. Dann muss sie beschr¨ankt sein. Denn es gibt ja ein n0 ∈ N mit |an − am | < 1 f¨ ur alle n, m ≥ n0 . Damit kann man f¨ ur n ≥ n0 unter Ben¨ utzung der Dreiecksungleichung absch¨ atzen |an | = |(an − an0 ) + an0 | ≤ |an − an0 | + |an0 | < 1 + |an0 |. Es gilt dann aber |an | ≤ 1 +
n0 =
|ak | f¨ ur alle n ∈ N.
k=1
ankt ist, existiert dazu nach dem Satz von BolzanoDa die Folge (an )n∈N also beschr¨ Weierstraß eine konvergente Teilfolge. Nach dem letzten Lemma ist damit aber die Folge (an )n∈N selber konvergent. !
¨ reelle und komplexe Zahlenfolgen 2.1 Uber
49
ultigkeit dieses Satzes ist eines der wesentlichen Ergebnisse zu R, wobei hier die Die G¨ Messung von Abst¨ anden mit Hilfe des Betrages der entscheidende Ausgangspunkt war. Wir werden sp¨ ater dies einordnen k¨ onnen in einen allgemeineren Kontext und dann von der Vollst¨andigkeit des Raumes R sprechen. Rasch zu sehen ist, dass auch C in diesem Sinn vollst¨andig ist. Es wird sich dies aus der folgenden Charakterisierung der Konvergenz komplexer Zahlenfolgen ergeben:
Lemma 2.7 Eine komplexe Zahlenfolge (an )n∈N ist genau dann konvergent gegen a ∈ C, wenn die Folge (Re an )n∈N gegen Re a und die Folge (Im an )n∈N gegen Im a konvergiert.
Beweis: Sei zuerst angenommen, dass (an )n∈N gegen a ∈ C konvergiert. Zu jedem ε > 0 gibt es also ein n0 ∈ N mit |an − a| < ε f¨ ur n ≥ n0 . Nach Satz 1.14 (iii) von Abschnitt 1.4 ur n ≥ n0 . Damit gilt gilt damit aber auch |Re an − Re a| < ε und |Im an − Im a| < ε f¨ Re an → Re a und Im an → Im a f¨ ur n → ∞. Sei nun f¨ ur die umgekehrte Richtung angenommen, dass es √ zu jedem ε > 0 ein n0 ∈ N √ gibt mit |Re an − Re a| < ε/ 2 und |Im an − Im a| < ε/ 2 f¨ ur n ≥ n0 . (Wir d¨ urfen hier ohne Einschr¨ ankung der Allgemeinheit annehmen, dass dies mit dem gleichen n0 f¨ ur die Realteile und die Imagin¨ arteile gilt.) Dann folgt |an − a| =
* (Re (an − a))2 + (Im (an − a))2 < ε
f¨ ur n ≥ n0 und somit an → a in C.
!
Satz 2.5 Jede Cauchy-Folge in C ist konvergent.
Beweis: Sei (an )n∈N eine Cauchy-Folge in C. Dann zeigen die Absch¨atzungen |Re an − Re am | ≤ |an − am |
und |Im an − Im am | ≤ |an − am |,
dass die Folgen (Re an )n∈N und (Im an )n∈N Cauchy-Folgen in R sind. Nach Satz 2.4 ur n → ∞. Nach gibt es also ein a ∈ R mit Re an → a und ein b ∈ R mit Im an → b f¨ dem letzten Lemma gilt dann an → a + bi f¨ ur n → ∞. ! Die nun zusammengetragenen Ergebnisse u ¨ ber reelle und komplexe Folgen reichen aus, um einige f¨ ur den weiteren Ausbau der Analysis wichtige Folgen diskutieren zu k¨onnen. Insbesondere werden wir dabei auf die ungemein wichtige Eulersche Zahl e stoßen.
50
2.2
2 Folgen und Reihen
Einige wichtige Folgen, die Zahl e
Es sei zuerst eine einfache Ungleichung notiert, die als Bernoullische Ungleichung bekannt ist: F¨ ur a ≥ 0 und n ∈ N gilt (1 + a)n ≥ 1 + na. Dies ergibt sich sofort aus dem binomischen Lehrsatz. Danach gilt f¨ ur a ≥ 0 : ; n : ; = n n k a = 1 + na. (1 + a) = a ≥1+ 1 k n
k=0
Man kann zum Beweis auch einen Induktionsschluss ben¨ utzen. Dann erh¨alt man die Ungleichung leicht f¨ ur alle a > −1. Mit Hilfe dieser Ungleichung ist rasch zu sehen, dass die Folge (ρn )n∈N eine Nullfolge ist, wenn 0 < ρ < 1 gilt. Denn dann ist ja ρ−1 > 1, d.h. es gibt ein a > 0 mit ρ−1 = 1 + a und nach der Bernoullischen Ungleichung gilt dann : ;n 1 = (1 + a)n ≥ 1 + na > na ρ
f¨ ur
n ∈ N.
Daraus folgt 0 < ρn < a1 n1 . Nach Lemma 2.3 von Abschnitt 2.1 ist also (ρn )n∈N eine Nullfolge. Ist ρ = 1, so ist die Folge (ρn )n∈N eine konstante Folge und somit ebenfalls konvergent. Ist aber ρ > 1, so ist die Folge (ρn )n∈N divergent und im Sinne der fr¨ uhrten uher eingef¨ ur σ := ρ−1 ja 0 < σ < 1 Begriffsbildung gilt limn→∞ ρn = ∞. Denn ist ρ > 1, so gilt f¨ ¨ und damit ist die Folge (σ n )n∈N eine Nullfolge. Nach unseren fr¨ uheren Uberlegungen folgt daraus tats¨ achlich limn→∞ ρn = ∞. Ist nun allgemeiner α ∈ C, so ist im Fall |α| < 1 die Folge (αn )n∈N ebenfalls eine Nullfolge. Dies folgt aus Lemma 2.3 von Abschnitt 2.1. Denn es gilt ja |αn | = |α|n und die Folge (|α|n )n∈N ist wegen |α| < 1 eine Nullfolge. Im Fall |α| = 1 kann die Folge bereits divergent sein, wie etwa das Beispiel α = i zeigt. Es ist n¨amlich i2 = −1, i3 = −i, i4 = 1, i5 = i usw. Im Fall |α| > 1 liegt immer Divergenz vor, weil ja dann limn→∞ |α|n = ∞ gilt und somit die Folge (αn )n∈N nicht beschr¨ankt ist. Was im Fall |α| = 1 geschieht, kann man aber noch genauer diskutieren, wenn man ber¨ ucksichtigt, dass ja, wenn die Folge (αn )n∈N konvergent ist, nach Lemma 2.2 von Abschnitt 2.1 auch die Folge (αn+1 )n∈N konvergent sein muss, und zwar mit dem gleiucksichtigung von Satz 2.1 chen Grenzwert. Ist limn→∞ αn = a, so gilt also unter Ber¨ a = lim αn = lim αn+1 = α lim αn = αa. n→∞
n→∞
n→∞
Diese Gleichung l¨ asst nur zwei M¨ oglichkeiten zu: a = 0 oder α = 1. Die erste M¨oglichkeit scheidet aber aus, wenn |α| = 1 ist, weil ja dann |αn | = 1 f¨ ur alle n gilt und somit die Folge sicher keine Nullfolge sein kann. Damit kann aber Konvergenz nur im Fall α = 1 ¨ vorliegen. Wegen der Wichtigkeit dieser Folge seien die Ergebnisse unserer Uberlegungen zusammenfassend im folgenden Satz festgehalten:
2.2 Einige wichtige Folgen, die Zahl e
51
Satz 2.6 F¨ ur α ∈ C gilt : Die Folge (αn )n∈N ist eine Nullfolge, wenn |α| < 1 ist, es gilt αn → 1, wenn α = 1 3 1 gilt. ist, und die Folge (αn )n∈N ist divergent, wenn |α| ≥ 1 ∧ α = Ist |α| > 1, so ist also die Folge (α−n )n∈N eine Nullfolge. Dies bleibt nach Korollar 2.1 von Abschnitt 2.1 erhalten, wenn man mit einer beschr¨ankten Folge (bn )n∈N zur Folge (α−n bn )n∈N u ur die Folge (α−n )n∈N gilt jedoch mehr. F¨ ur k ∈ N ist die Folge ¨bergeht. F¨ k ankt, trotzdem gilt immer noch (n )n∈N nicht beschr¨ nk = 0 f¨ ur k ∈ N und α ∈ C mit |α| > 1. n→∞ αn lim
(2.1)
ur n ∈ N Zum Nachweis von (2.1) setzen wir b := |α|−1 und xn := nk bn . Dann gilt f¨ xn+1 x−1 n
: =
n+1 n
;k
: ;k 1 b= 1+ b. n
Aus 1/n → 0 f¨ ur n → ∞ folgt aber nach unseren Ergebnissen zu konvergenten Folgen, dass (1 + (1/n))k → 1 f¨ ur n → ∞ gilt. Damit gilt xn+1 x−1 ur n → ∞, wobei n → b f¨ −1 die Folge (xn+1 xn )n∈N monoton fallend ist. Sei nun β := (1/2)(b + 1). Wegen b < 1 gilt offenbar b < β < 1. Es gibt dann ein m ∈ N mit b ≤ xn+1 x−1 < β f¨ ur alle n n ≥ m. Daraus folgt xm+1 < βxm , weiter xm+2 < βxm+1 < β 2 xm , und mit Hilfe von vollst¨ andiger Induktion erh¨ alt man, dass xn < β n−m xm f¨ ur n > m gilt. Damit kann man aber f¨ ur n ≥ m absch¨ atzen : m; x |nk α−n | = xn < β n−m xm = βn. βm Da wegen |β| < 1 aber die Folge (β n )n∈N eine Nullfolge ist, folgt daraus (2.1). √ utzung von (2.1) werden wir nun zeigen, dass auch die Folge ( n n)n∈N konUnter Ben¨ vergent ist und √ lim n n = 1 (2.2) n→∞
gilt. Wir verwenden dabei (2.1) f¨ ur die spezielle Situation, dass k = 1 und α = 1 + ε ur alle mit einem ε > 0 ist. Es muss dann ein m ∈ N geben, so dass n(1 + ε)−n < 1 f¨ n ≥ m gilt. Dies kann man auch als 1 ≤ n < (1 + ε)n f¨ ur alle n ≥ m notieren. Daraus ur n ≥ m, also 0 ≤ n1/n − 1 ≤ ε f¨ ur n ≥ m. Damit gilt folgt aber 1 ≤ n1/n < 1 + ε f¨ aber (2.2). Unter Ben¨ utzung von (2.2) kann man rasch sehen, dass f¨ ur beliebiges a > 0 gilt √ lim n a = 1. (2.3) n→∞
Wir werden dabei auf das folgende n¨ utzliche Resultat zur¨ uckgreifen:
52
2 Folgen und Reihen
Lemma 2.8 Seien (an )n∈N und (bn )n∈N konvergente reelle Folgen mit limn→∞ an = limn→∞ bn und an ≤ bn f¨ ur alle n ∈ N. Dann gilt: Ist (cn )n∈N eine reelle Folge, f¨ ur die an ≤ cn ≤ bn f¨ ur alle n ∈ N gilt, so ist auch die Folge (cn )n∈N konvergent und es gilt limn→∞ cn = limn→∞ an = limn→∞ bn . Beweis: onnen wir notieren Sei α := limn→∞ an = limn→∞ bn . Dann k¨ an − α ≤ cn − α ≤ b n − α
f¨ ur alle
n ∈ N.
Nun gibt es zu jedem ε > 0 ein n0 ∈ N mit |an − α| < ε und |bn − α| < ε f¨ ur n ≥ n 0 . ur alle n ≥ n0 und es folgt Damit gilt aber auch −ε < an − α und bn − α < ε f¨ ur n ≥ n0 . Da dies nach Satz 1.6 von Abschnitt 1.3.1 gleichbedeutend −ε < cn − α < ε f¨ ist mit |cn − α| < ε, ist damit alles gezeigt. ! Die G¨ ultigkeit von (2.3) kann man damit folgendermaßen nachweisen: Ist a > 0 gegeben, so gibt es ein k ∈ N und ein m ∈ N mit k1 ≤ a ≤ m. Damit gilt aber 1 ur alle n ≥ k + m =: n0 . Daraus folgt weiter n ≤ a ≤ n f¨ 1 n1/n
≤ a1/n ≤ n1/n
f¨ ur
n ≥ n0 .
Da nun aber limn→∞ n1/n = 1 und folglich auch limn→∞ n−(1/n) = 1 gilt, ergibt sich daraus unter Ber¨ ucksichtigung von Lemma 2.8 und Lemma 2.1 die G¨ ultigkeit von (2.3). Oft ist es n¨ utzlich, ein etwas allgemeineres Resultat zu konvergenten reellen Folgen (an )n∈N und (bn )n∈N zur Verf¨ ugung zu haben, f¨ ur die an ≤ bn f¨ ur alle n gilt. Hier u agt sich die Ungleichung auf die Grenzwerte, wobei auch dann, wenn sogar sch¨arfer ¨bertr¨ an < bn f¨ ur alle n gilt, die Grenzwerte gleich sein k¨onnen. Dies zeigt das einfache Beiur alle n. Es gilt dann spiel der konstanten Folge an = 0 und der Folge bn = 1/n f¨ an < bn f¨ ur alle n, aber limn→∞ an = 0 = limn→∞ bn . Wir werden das folgende Lemma sogar noch etwas allgemeiner formulieren und dabei den Fall von Folgen mit erfassen, f¨ ur die limn→∞ an = ∞ gilt. Lemma 2.9 Sind (an )n∈N und (bn )n∈N reelle Folgen, f¨ ur die an ≤ bn f¨ ur alle n ∈ N gilt, so gilt: (a) Sind die Folgen (an )n∈N und (bn )n∈N konvergent, so gilt limn→∞ an ≤ limn→∞ bn . (b) Gilt limn→∞ an = ∞, so gilt auch limn→∞ bn = ∞. Beweis: Zu (a): Sei a = limn→∞ an und b = limn→∞ bn . Setzt man dann ξn := (bn − b)+ (a− an ) f¨ ur n ∈ N, so gibt es aufgrund der Absch¨ atzung |ξn | ≤ |bn − b| + |a − an| zu jedem ε > 0 ein n0 ∈ N mit |ξn | < ε f¨ ur n ≥ n0 . Da aber nach Voraussetzung 0 ≤ bn − an f¨ ur alle n ∈ N gilt, k¨ onnen wir notieren a − b ≤ (a − b) + (bn − an ) = ξn ≤ |ξn | < ε f¨ ur
n ≥ n0 .
2.2 Einige wichtige Folgen, die Zahl e
53
Damit ist a − b < ε f¨ ur alle ε > 0, was wegen (1.5) impliziert, dass a − b ≤ 0, also limn→∞ an ≤ limn→∞ bn sein muss. Zu (b): Gilt limn→∞ an = ∞, so gibt es zu jedem r > 0 ein n0 ∈ N mit an > r f¨ ur ur alle n ≥ n0 . Damit gilt aber alle n ≥ n0 . Wegen an ≤ bn gilt dann auch bn > r f¨ limn→∞ bn = ∞. ! Am Ende von Abschnitt 1.3.1 haben wir festgestellt, dass die Menge der rationalen Zahlen eine dichte Teilmenge von R ist. Im Kontext von Folgen k¨onnen wir dazu nun notieren: Korollar 2.2 Zu jeder reellen Zahl ρ ∈ R gibt es eine Folge (rn )n∈N in Q, die gegen ρ konvergiert. Beweis: Ist ρ selbst eine rationale Zahl, so kann man als geeignete Folge (rn )n∈N rationaler ur alle n ∈ N nehmen, die ja trivialerweise Zahlen offenbar die konstante Folge rn = ρ f¨ gegen ρ konvergiert. (Dieser Fall zeigt aber auch sofort, dass so eine gegen ρ konvergierende Folge rationaler Zahlen keineswegs eindeutig bestimmt ist, z.B. k¨onnte man auch ur n ∈ N w¨ ahlen.) rn = ρ + n1 f¨ Ist aber ρ irrational, so greifen wir auf das Ergebnis von Satz 1.5 (c) zur¨ uck. Danach gibt es zu jedem n ∈ N eine Zahl rn ∈ Q mit 0 < |ρ − rn | < n1 . Auf diese Weise haben wir dann bereits eine Folge (rn )n∈N in Q gefunden mit rn → ρ f¨ ur n → ∞. Denn die ur alle n Folge (1/n)n∈N ist ja eine Nullfolge und daher muss wegen 0 < |ρ − rn | < n1 f¨ nach Lemma 2.8 auch die Folge (|ρ − rn |)n∈N eine Nullfolge sein. Es gibt also zu jedem ur alle n ≥ n0 . Daher gilt limn→∞ rn = ρ. ! ε > 0 ein n0 ∈ N mit |ρ − rn | < ε f¨ √ F¨ ur Quadratwurzeln positiver reeller Zahlen, (wie etwa f¨ ur die irrationale Zahl 2), ist schon seit Jahrtausenden ein Verfahren bekannt, wie man so eine approximierende Folge rationaler Zahlen rn finden kann. Man spricht dabei vom babylonischen Wurzelziehen, gebr¨ auchlich ist auch die Bezeichnung Verfahren von Heron. Die Idee ist dabei sehr einfach, sie beruht auf der folgenden Feststellung: Lemma 2.10 F¨ ur zwei reelle Zahlen a > 0 und b > 0 gilt genau dann b2 = a, wenn a> 1! b+ b= 2 b
(2.4)
gilt. Beweis: Aus b2 = a folgt ja, wenn b > 0 ist, b = ab . Damit gilt aber 1 1! a> b+ . b = (b + b) = 2 2 b Gilt umgekehrt (2.4), so folgt b2 = 12 (b2 + a), also b2 = a.
!
54
2 Folgen und Reihen
Nun√wird man meist in der Lage sein, zu gegebenem a > 0 einen groben N¨aherungswert f¨ ur a zu erraten. Sei dieser mit b0 bezeichnet. Wenn man nicht zuf¨allig mit b0 schon die gesuchte Quadratwurzel gefunden hat, wird dann b0 nicht die Gleichung (2.4) erf¨ ullen. Bildet man also ; : a 1 =: b1 , b0 + 2 b0 so wird b1 3= b0 gelten und es wird auch b1 nur einen N¨aherungswert darstellen. Die Idee beim babylonischen Wurzelziehen ist nun, so rekursiv fortzufahren, d.h. f¨ ur n ∈ N ∪ {0} zu definieren ; : a 1 bn+1 := , (2.5) bn + 2 bn und dabei zu hoffen, immer bessere N¨ aherungswerte zu erhalten. Testet man dies etwa √ f¨ ur die bekannte Zahl 4 ausgehend vom (offenbar gar nicht besonders guten) N¨aherungswert b0 = 2, 5, so erh¨ alt man b2 = 2, 05, b2 = 2, 00609, b3 = 2, 000000093; man ist also bereits mit b3 schon sehr nahe an den richtigen Wert herangekommen. Zu beachten ist, dass die Zahlen bn alle rational sind, wenn man √ mit einer rationalen Zahl eine Folge b0 startet. Die Zahlen bn werden dann also, wenn sie gegen a konvergieren, √ in Q bilden, die gegen die (z.B. im Fall a = 2 irrationale) Zahl a konvergiert. Satz 2.7 Sei a > 0, sei b0 > 0 beliebig gew¨ ahlt und davon ausgehend die Folge (bn )n∈N rekursiv durch (2.5) √ definiert. Dann gilt: Die Folge (bn )n∈N ist monoton fallend und es gilt limn→∞ bn = a. Beweis: √ √ Ist b0 = a, so ist nach Lemma 2.10 die Folge (bn )n∈N eine konstante Folge mit bn = a f¨ ur alle n und es gilt daher die Behauptung des Satzes. √ Sei nun angenommen, dass b a ist. Dann gibt es immer noch die zwei M¨ 3 = 0 √ √oglichkeiten √ (a) 0 < b0 < a und (b) b0 > a. In beiden F¨allen gilt aber dann b1 ≥ a.√Denn es gilt f¨ ur beliebiges bn > 0 immer, wenn bn+1 durch (2.5) definiert ist, bn+1 ≥ a. Um dies zu sehen, gehen wir davon aus, dass sicherlich (bn − ban )2 ≥ 0 gilt. Damit gilt b2n − 2a + Damit gilt
:
a bn
;2 ≥ 0,
1 2 a 1 b − + 4 n 2 4
:
a bn
;2 ≥ 0.
;2 : a ≥ a, also ≥ a. bn + bn √ Dies bedeutet aber offenbar b2n+1 ≥ a, somit bn+1 ≥ a. Wir haben damit auch schon gezeigt, dass die Folge (bn )n∈N nach unten beschr¨ankt ist. 1 2 a 1 b + + 4 n 2 4
:
a bn
;2
also
1 4
2.2 Einige wichtige Folgen, die Zahl e
55
Sie wird daher konvergent sein, wenn wir noch nachweisen k¨onnen, dass sie monoton ur alle n gilt. Daraus folgt n¨amlich fallend ist. Dazu gehen wir davon aus, dass ja b2n ≥ a f¨ bn ≥ ban und somit ; : a 1 ≤ (bn + bn ) = bn . bn + bn 2 √ √ Sei also nun ρ := limn→∞ bn . Wegen bn ≥ a f¨ ur alle n muss dann ρ ≥ a gelten. Nach Satz 2.1 gilt weiter 1 1 lim = . n→∞ bn ρ bn+1 =
1 2
Auch gilt nach Lemma 2.2 limn→∞ bn+1 = ρ. Damit k¨onnen wir aber unter Verwendung der Ergebnisse von Satz 2.1 rechnen : : ; : ; ; a 1 1 1 a 1 lim bn + lim bn + a lim ρ+ . = = ρ = lim bn+1 = n→∞ n→∞ bn 2 n→∞ bn 2 n→∞ 2 ρ √ Nach Lemma 2.10 gilt damit ρ = a. ! wir gesehen, dass schon wenige Folgenglieder bn ausreichten, Beim Beispiel a = 4 haben √ um eine gute N¨ aherung f¨ ur a zu erhalten. Diese als schnell zu bezeichnende Konvergenz √ l¨asst sich nun sogar allgemein best¨ atigen. Es gilt f¨ ur den Fehler bn − a ; : √ √ a 1 bn+1 − a = − a bn + 2 bn √ √ √ 1 2 1 1 = (bn + a − 2bn a) = (bn − a)2 ≤ √ (bn − a)2 . 2bn 2bn 2 a √ Diese Absch¨ atzung zeigt, dass der Fehler bn − a mit wachsendem n quadratisch abnimmt! Sp¨ater werden wir in anderem Kontext noch einmal auf das babylonische Wurzelziehen zur¨ uckkommen und es dabei als einen Spezialfall eines viel allgemeineren Verfahrens erkennen. Im Moment wenden wir uns anderen Folgen zu, deren Grenzwert uns die Eulersche Zahl e liefern wird. Satz 2.8 F¨ ur n ∈ N sei an =
: ;n 1 1+ , n
: bn =
Dann gilt: ur alle n ∈ N. (a) an < bn f¨ (b) Die Folge (an )n∈N ist monoton wachsend. (c) Die Folge (bn )n∈N ist monoton fallend. (d) Die Folge (bn − an )n∈N ist eine Nullfolge.
1+
1 n
;n+1
.
56
2 Folgen und Reihen
Beweis: ur alle n folgt bn = an (1 + n1 ) > an . Zu (a): Aus 1 + n1 > 1 f¨ Zu (b): Da nach dem binomischen Lehrsatz gilt an =
n : ; : ;k = n 1 k=0
k
n
,
an+1 =
n+1 =: k=0
;: ;k n+1 1 , k n+1
ist es ausreichend, nachzuweisen, dass f¨ ur n ∈ N n+1 n : ; = :n + 1; = 1 n 1 ≤ k k nk (n + 1)k
k=1
k=1
gilt. Dies folgt aber daraus, dass sogar : ; : ; n 1 n+1 1 ≤ (n + 1)k k nk k
(2.6)
f¨ ur n ∈ N und k = 1, . . . , n gilt. Unter Verwendung des in Abschnitt 1.3.3 eingef¨ uhrten onnen wir notieren Produktzeichens k¨ ; : ; k k : 1 9 1 1 9 k−j n! 1 n 1 (n − k + j) = = = 1 − . k! (n − k)! nk k!nk j=1 k! j=1 n k nk Entsprechend erh¨ alt man ; : ; k : 1 9 k−j n+1 1 = 1 − . (n + 1)k k! j=1 n+1 k k−j ≥ 1 − k−j ur j = 1, . . . , k gilt, folgt daraus (2.6). Da 1 − n+1 n f¨ Zu (c): Hier argumentiert man anders als beim Beweis von (a), weil man nun eine Summe mit mehr Summanden nach oben durch eine Summe mit weniger Summanden absch¨ atzen muss. Wir greifen dabei auf die zu Anfang dieses Abschnitts notierte Bernoullische Ungleichung zur¨ uck. Danach gilt f¨ ur n ≥ 2, (man beachte den damaligen Beweis), ;n : n 1 n 1 >1+ 2 =1+ . >1+ 2 1+ 2 n −1 n −1 n n
Damit ist f¨ ur n ≥ 2 : ;n : ;−n : ;n : ;−n ;n : n2 n n+1 1 1 1 1+ < = · = 1+ · 1+ . n n2 − 1 n−1 n n−1 n Schreibt man dies als : ;n+1 : ;n 1 1 < 1+ 1+ n n−1
f¨ ur
n ≥ 2,
¨ Folgen im Rn und in metrischen R¨aumen 2.3 Uber
57
ur n ∈ N nachgewiesen. so ist damit offenbar bn+1 < bn f¨ onnen wir notieren Zu (d): Da ja f¨ ur n ∈ N gilt an < bn ≤ b1 , k¨ 0 < b n − an =
: ;n+1 : ;n 1 1 1 1 − 1+ = an · ≤ b 1 · . 1+ n n n n
Da die Folge (b1 n1 )n∈N eine Nullfolge ist, ist also nach Lemma 2.3 die Folge (bn − an )n∈N eine Nullfolge. ! Die Ungleichungen an < b1 und bn > a1 f¨ ur alle n ∈ N zeigen, dass die monoton wachsende Folge (an )n∈N nach oben und die monoton fallende Folge (bn )n∈N nach unten beschr¨ ankt ist. Damit sind aber beide Folgen konvergent; sei α := limn→∞ an und ur alle n folgt nach Lemma 2.9 α ≤ β. Es gilt aber sogar β := limn→∞ bn . Aus an < bn f¨ α = β, denn es gilt nach Aussage (d) von Satz 2.8 β − α = lim bn − lim an = lim (bn − an ) = 0. n→∞
n→∞
n→∞
F¨ ur den gemeinsamen Grenzwert ist nun die Notation e u ¨ blich, d.h. wir definieren : : ;n ;n+1 1 1 e := lim 1 + = lim 1 + . n→∞ n→∞ n n Die reelle Zahl e nennt man die Eulersche Zahl. Wir werden sehen, dass sie irrational ist. Aufgrund unserer Ergebnisse l¨ asst sie sich relativ leicht nach unten und nach oben durch rationale Zahlen absch¨ atzen. Es gilt ja stets an < e < bn und dies liefert mit n = 6 die Absch¨ atzung 2, 52 < e < 2, 95. Dies ist offensichtlich noch eine recht grobe N¨ aherung, und in der Tat sind die Folgen (an )n∈N und (bn )n∈N schlecht geeignet, um rasch eine gute N¨ aherung zu erhalten. Wir werden sp¨ater die Zahl e noch auf andere Weise als einen Grenzwert gewinnen, (und zwar mit Hilfe einer konvergenten Reihe), und dies wird viel bessere M¨ oglichkeiten zur Berechnung von N¨aherungswerten liefern. Damit kann man etwa den N¨ aherungswert 2, 71828 finden.
2.3
¨ Uber Folgen im Rn und in metrischen R¨aumen
Wie bereits angek¨ undigt, werden wir nun den Konvergenzbegriff f¨ ur Folgen in allgemeineren Situationen diskutieren. Wir beginnen mit einem Umfeld, das aus der linearen Algebra vertraut sein sollte, und werden anschließend zu recht allgemeinen Strukturen u ¨ bergehen, die dem Bereich der Topologie zuzuordnen sind, und es ebenfalls gestatten, von der Konvergenz von Folgen zu sprechen.
2.3.1
Folgen im Rn
Bildet man das kartesische Produkt R3 := (R × R) × R, so sind die Elemente von R3 zun¨ achst unter Verwendung von geordneten Paaren gegeben in der Form ((x1 , x2 ), x3 ). Es gilt ja dann ((x1 , x2 ), x3 ) = ((y1 , y2 ), y3 ) genau dann, wenn (x1 , x2 ) = (y1 , y2 ) und x3 = y3 gilt, was gleichbedeutend mit xk = yk f¨ ur k = 1, 2, 3 ist. Es ist deshalb nicht
58
2 Folgen und Reihen
utzen, und es ist aßig, die Notation mit einer doppelten Klammerung zu ben¨ zweckm¨ u ¨blich, einfach die Notation eines geordneten Tripels (x1 , x2 , x3 ) zu verwenden, und dann wie bei geordneten Paaren zwei solche Tripel (x1 , x2 , x3 ) und (y1 , y2 , y3 ) genau ur k = 1, 2, 3 gilt. dann als gleich anzusehen, wenn xk = yk f¨ Es ist klar, dass man ausgehend vom kartesischen Produkt rekursiv Rn f¨ ur n ∈ N ¨ definieren kann. Die soeben f¨ ur den Fall n = 3 durchgef¨ uhrte Uberlegung zeigt, dass es dabei g¨ unstiger ist, die Elemente von Rn als geordnete n−Tupel (x1 , . . . , xn ) zu notieren. Direkter kommt man zu den geordneten n−Tupeln reeller Zahlen, wenn man Abbildungen ϕ : {k ∈ N : k ≤ n} → R betrachtet. Da so eine Abbildung eindeutig festgelegt ist durch die Bilder ϕ(k) mit k = 1, . . . , n, (die ja nicht verschieden sein m¨ ussen), ist ϕ offenbar identifizierbar mit dem n−Tupel (ϕ(1), . . . , ϕ(n)). Dies entspricht offenbar genau der Vorgangsweise bei Folgen, bei denen man dann auch nur die Folgenglieder geordnet notiert hat. Dieser Zugang hat den Vorteil, dass man ihn auch ben¨ utzen kann zur Definition von Familien. Ist J eine beliebige Menge, (die M¨achtigkeit spielt keine Rolle), so betrachtet man Abbildungen ϕ : J → R, und notiert diese als Familie (xj )j∈J , wobei wieder xj = ϕ(j) ist. Es ist klar, dass man diese Begriffsbildung verwenden kann nicht nur f¨ ur Familien reeller Zahlen, sondern auch f¨ ur Familien von Elementen einer anderen Menge A. Man spricht dann von einer Familie in A ¨ uber der Indexmenge J. uhrt man zwei Operationen ein, und zwar eine F¨ ur die n-Tupel (x1 , . . . , xn ) ∈ Rn f¨ Addition Rn × Rn → Rn und eine Multiplikation mit Skalaren R × Rn → Rn . Diese sind definiert durch (x1 , . . . , xn )+(y1 , . . . , yn ) := (x1 +y1 , . . . , xn +yn ) f¨ ur α(x1 , . . . , xn ) := (αx1 , . . . , αxn ) f¨ ur
(x1 , . . . , xn ), (y1 , . . . , yn ) ∈ Rn ,
α ∈ R, (x1 , . . . , xn ) ∈ Rn .
Da die Operationen mit Hilfe der gewohnten Operationen in R definiert sind, u ¨berzeugt man sich leicht davon, dass die Addition kommutativ und assoziativ ist und f¨ ur das Zusammenspiel beider Operationen die Aussagen (α + β)x = (αx) + (βx),
α(x + y) = (αx) + (βy),
α(βx) = (αβ)x,
1x = x
n
f¨ ur x, y ∈ R , α, β ∈ R gelten. Außerdem ist das Tupel mit xj = 0 f¨ ur j = 1, . . . n das neutrale Element bez¨ uglich der Addition und das Tupel (−x1 , . . . , −xn ) invers zum Tupel (x1 , . . . , xn ). Wie u ¨ blich schreibt man daher −(x1 , . . . , xn ) := (−x1 , . . . , −xn ). Man hat damit durch Rn mit diesen zwei Operationen einen R− Vektorraum vorliegen. Das Studium von Vektorr¨ aumen ist Gegenstand der linearen Algebra und es sei an einige Dinge erinnert, die u uhrung in die lineare Algebra diskutiert ¨ blicherweise in einer Einf¨ werden: Identifiziert man wie gewohnt die Paare (x1 , x2 ) ∈ R2 mit den Punkten der Ebene unter Verwendung eines kartesischen Koordinatensystems, so entspricht die soeben definierte Addition der Addition der den Punkten zugeordneten Vektoren, die anschaulich vom Punkt (0, 0) zu den einzelnen Punkten zeigen. Die Multiplikation mit dem Skalar α ∈ R entspricht der Verl¨ angerung (oder Verk¨ urzung) des durch (x1 , x2 ) gegebenen Vektors
¨ Folgen im Rn und in metrischen R¨aumen 2.3 Uber
59
um den Faktor α. (Ist α < 0, so kommt es dabei zu einer Spiegelung am Ursprung (0, 0).) Den Vektoren ordnet man eine L¨ ange zu, die unter Ber¨ ucksichtigung des Satzes von Pythagoras gegeben ist durch A 9(x1 , x2 )9 := x21 + x22 . Als Abstand*zweier Punkte (x1 , x2 ) und (y1 , y2 ) der Ebene erh¨alt man ebenfalls nach Pythagoras (x1 − y1 )2 + (x2 − y2 )2 und dies ist offenbar identisch mit der L¨ange des Vektors (x1 , x2 ) − (y1 , y2 ) = (x1 − y1 , x2 − y2 ). Dies u agt sich alles auf den Rn . Insbesondere definiert man die euklidische Norm ¨bertr¨ 9x9 eines Vektors x = (x1 , . . . , xn ) ∈ Rn durch 2 9x9 :=
n =
51/2 x2k
.
k=1
Sie steht in engem Zusammenhang mit dem sogenannten (euklidischen) Skalarprodukt von Vektoren des Rn , das definiert ist durch 'x, y- :=
n =
xk yk
f¨ ur
x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Rn .
k=1
ur alle x ∈ Rn . Dies n¨ utzt man aus, um zu zeigen, Offenbar gilt ja damit 9x92 = 'x, x- f¨ dass f¨ ur die euklidische Norm die Dreiecksungleichung 9x + y9 ≤ 9x9 + 9y9 gilt. (Man beachte, dass diese im Fall n = 2 identisch ist mit der Dreiecksungleichung f¨ ur den Betrag komplexer Zahlen, die bereits in Satz 1.14 notiert wurde.) F¨ ur den Beweis der Dreiecksungleichung ist es zweckm¨aßig, zuerst die (auch allgemeiner f¨ ur Skalarprodukte wichtige) Cauchy-Schwarzsche Ungleichung zu beweisen: Lemma 2.11 F¨ ur x, y ∈ Rn gilt |'x, y-| ≤ 9x9 9y9. Beweis: Da man etwa in der linearen Algebra die Cauchy-Schwarzsche Ungleichung allgemein f¨ ur Skalarprodukte auf R− oder C−Vektorr¨ aumen beweist, sei hier ein Beweis angegeben, bei dem man auf die Definition des euklidischen Skalarprodukts zur¨ uckgreift. Wir beginnen mit der Feststellung, dass f¨ ur alle ξ ≥ 0 und η ≥ 0 gilt 4ξη ≤ (ξ + η)2 . Dies folgt sofort daraus, dass ja immer (ξ − η)2 ≥ 0 gilt, woraus ξ 2 + 2ξη + η 2 ≥ 4ξη folgt. Damit k¨ onnen wir notieren * 1 ur ξη ≤ (ξ + η) f¨ 2
ξ ≥ 0, η ≥ 0.
(2.7)
Die Ungleichung |'x, y-| ≤ 9x9 9y9 ist trivialerweise richtig, wenn 9x9 = 0 oder 9y9 = 0 ist, denn dann ist xk = 0 oder yk = 0 f¨ ur k = 1, . . . , n und damit auch 'x, y- = 0. Sei
60
2 Folgen und Reihen
also angenommen, dass 9x9 3= 0 ∧ 9y9 3= 0 ist. Wegen # # n n # = #= # # xk yk # ≤ |xk | |yk | |'x, y-| = # # # k=1
k=1
reicht es dann aus, n = |xk | |yk | ≤1 9x9 9y9
(2.8)
k=1
nachzuweisen. Zur Vereinfachung)setzen wir ak := ) 9x9−1 |xk | und bk := 9y9−1 |yk | f¨ ur n 2 k = 1, . . . , n. Offenbar gilt dann k=1 ak = 1 und nk=1 b2k = 1 und wir k¨onnen unter Verwendung von (2.7) absch¨ atzen n =
ak b k =
k=1
n =
(a2k b2k )1/2 ≤
k=1
n = 1 k=1
2
(a2k + b2k ) ≤
1 2 = 1. 2
Damit ist (2.8) und somit die Cauchy-Schwarzsche Ungleichung bewiesen.
!
Wie angek¨ undigt k¨ onnen wir nun rasch die G¨ ultigkeit der Dreiecksungleichung f¨ ur die euklidische Norm nachweisen. Sind x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) zwei Vektoren des Rn , so gilt 9x + y92 =
n =
(xk + yk )2 =
n =
x2k + 2
k=1
k=1 2
xk yk +
k=1 2
n =
yk2
k=1
= 9x9 + 2'x, y- + 9y9 ≤ 9x9 + 29x9 9y9 + 9y92 = (9x9 + 9y9)2 . Daraus folgt offenbar
2
n =
9x + y9 ≤ 9x9 + 9y9.
Definieren wir nun den Abstand zweier Punkte x = (x1 , . . . , xn ) und (y1 , . . . , yn ) des Rn durch d(x, y) := 9x − y9, so hat die damit definierte Abbildung d : Rn × Rn → R Eigenschaften, wie man sie von einer Distanzfunktion erwartet: Es gilt (D1) d(x, y) = 0 genau dann, wenn x = y gilt; (D2) d(x, y) = d(y, x) f¨ ur alle x, y; (D3) d(x, z) ≤ d(x, y) + d(y, z) f¨ ur alle x, y, z. ) Die G¨ ultigkeit von (D1) ergibt dabei sofort daraus, dass k (xk − yk )2 = 0 genau dann gilt, wenn xk − yk = 0 f¨ ur k = 1, . . . , n gilt. (D2) folgt aus (xk − yk )2 = (yk − xk )2 f¨ ur k = 1, . . . , n und (D3) schließlich folgt aus der Dreiecksungleichung f¨ ur die euklidische Norm: d(x, z) = 9x − z9 = 9(x − y) + (y − z)9 ≤ 9x − y9 + 9y − z9 = d(x, y) + d(y, z).
¨ Folgen im Rn und in metrischen R¨aumen 2.3 Uber
61
Da wir bei der Diskussion von reellen und komplexen Zahlenfolgen gesehen haben, dass bei der Gewinnung von wichtigen Aussagen u ultigkeit ¨ ber konvergente Folgen die G¨ von (D1), (D2) und (D3) von grundlegender Bedeutung war, werden sich viele fr¨ uher bewiesene Dinge auf konvergente Folgen im Rn u ¨ bertragen lassen, wenn man definiert: Eine Folge (ξk )k∈N in Rn heißt konvergent gegen ξ ∈ Rn , wenn es zu jedem ε > 0 ein k0 ∈ N gibt, so dass 9ξk − ξ9 < ε gilt f¨ ur alle k ∈ N mit k ≥ k0 . Wie fr¨ uher sieht man nun, dass jede konvergente Folge im Rn eine Cauchy-Folge sein muss, d.h. dass zu jedem ε > 0 ein k0 ∈ N existiert mit 9ξk − ξj 9 < ε f¨ ur alle j, k ∈ N urlich wieder die Frage, ob jede Cauchy-Folge schon mit j, k ≥ k0 . Es stellt sich nat¨ konvergent sein muss. Auch hier ist die Antwort positiv, wie man recht leicht sieht unter Verwendung des n¨ achsten Lemmas. Lemma 2.12 ur k ∈ N ist genau dann konverEine Folge (ξk )k∈N mit ξk = (ξk,1 , . . . , ξk,n ) ∈ Rn f¨ ur j = 1, . . . , n gilt. gent gegen ξ = (ξ1 , . . . , ξn ) ∈ Rn , wenn limk→∞ ξk,j = ξj f¨ Beweis: ur k → ∞ gilt. Dann gibt es zu jedem ε > 0 Sei zuerst angenommen, dass ξk → ξ f¨ ein k0 ∈ N mit 9ξk − ξ9 < ε f¨ ur k ≥ k0 . Die Definition der euklidischen Norm zeigt, ur k ∈ N und j = 1, . . . , n gilt. Damit gilt f¨ ur jedes feste dass |ξk,j − ξj | ≤ 9ξk − ξ9 f¨ j ∈ {1, . . . , n} auch |ξk,j − ξj | < ε f¨ ur k ≥ k0 . Dies bedeutet aber, dass ξk,j → ξj f¨ ur alle j ∈ {1, . . . , n} gilt. Sei nun angenommen, dass ξk,j → ξj f¨ ur alle j ∈ {1, . . . , n} gilt.√Dann gibt es zu jedem ur k ≥ k0 (j, ε). Ist j ∈ {1, . . . , n} und jedem ε > 0 ein k0 (j, ε) mit |ξk,j − ξj | < ε/ n f¨ nun κ(ε) ∈ N so gew¨ ahlt, dass κ(ε) ≥ k0 (j, ε) f¨ ur j = 1, . . . , n gilt, so folgt ⎞ ⎞1/2 ⎛ ⎛ ;2 1/2 n n : = = ε ⎠ √ 9ξk − ξ9 = ⎝ (ξk,j − ξj )2 ⎠ =ε 0 mit Sei n ∈ N und (ξk )k∈N eine beschr¨ 9ξk 9 ≤ M f¨ ur alle k ∈ N). Dann existiert eine konvergente Teilfolge. Beweis: Im Fall n = 1 ist der Satz identisch mit dem Satz von Bolzano-Weierstraß f¨ ur reelle Zahlenfolgen. Davon ausgehend kann man den Satz mit Hilfe von vollst¨andiger Induktion beweisen. Sei also angenommen, dass er f¨ ur beschr¨ankte Folgen im Rn richtig sei, und sei eine beschr¨ ankte Folge (ξk )k∈N im Rn+1 gegeben. Setzt man dann n yk := (ξk,1 , . . . , ξk,n ) ∈ R , so gilt offenbar 9yk 9 ≤ 9ξk 9 und somit ist (yk )k∈N eine beschr¨ ankte Folge im Rn . Nach Induktionsannahme existiert also eine konvergente Teilur j → ∞. Betrachtet man nun die Folge folge (ykj )j∈N . Es gelte also ykj → η ∈ Rn f¨ (ξkj ,n )j∈N , so ist diese eine beschr¨ ankte Folge in R, es gibt somit dazu eine konvergente ur m → ∞. Es gilt dann nach Teilfolge (ξkjm ,n )m∈N . Es gelte etwa ξkjm ,n → ρ ∈ R f¨ Lemma 2.5 auch ykjm → η f¨ ur m → ∞. Lemma 2.12 zeigt nun schließlich, dass die Folge (ξkjm )m∈N gegen (η1 , . . . , ηn , ρ) ∈ Rn+1 konvergieren muss. ! utzte Abstandsmessung mit Hilfe der euklidischen Norm keiIm Rn ist die bisher ben¨ neswegs die einzig m¨ ogliche. Man kann z.B. den Abstand zwischen x = (x1 , . . . , xn ) und y = (y1 , . . . , yn ) ∈ Rn auch messen durch δ(x, y) :=
sup |xj − yj |.
(2.9)
j=1,...,n
Auch hierbei gilt offenbar δ(x, y) = 0 genau dann, wenn x = y gilt, und δ(x, y) = δ(y, x) ur x, y, z ∈ Rn und f¨ ur alle x, y ∈ Rn . Es gilt aber auch die Dreiecksungleichung. Denn f¨ j = 1, . . . , n gilt ja |xj − zj | ≤ |xj − yj | + |yj − zj |, sowie sup (|xj − yj | + |yj − zj |) ≤ ( sup |xj − yj |) + ( sup |yj − zj |),
j=1,...,n
j=1,...,n
j=1,...,n
(2.10)
woraus δ(x, z) = supj=1,...,n |xj − zj | ≤ δ(x, y) + δ(y, z) folgt. Die G¨ ultigkeit von (2.10) ist dabei sehr rasch einzusehen: Ist a = supj=1,...,n |xj − yj | und b = supj=1,...,n |yj − zj |, so gilt nat¨ urlich |xj − yj | + |yj − zj | ≤ a + b f¨ ur j = 1, . . . , n und daraus folgt supj=1,...,n (|xj − yj | + |yj − zj |) ≤ a + b, also (2.10). Damit ist es auf jeden Fall auch sinnvoll, von der Konvergenz einer Folge im Rn bez¨ uglich δ zu sprechen, und es ist auf den ersten Blick keineswegs klar, ob es Folgen im Rn geben k¨ onnte, die bez¨ uglich δ konvergent, aber im u ¨ blicherweise betrachteten Rn , d.h. mit der auf der euklidischen Norm basierenden Abstandsmessung d, nicht konvergent sind. Tats¨ achlich ist aber jede bez¨ uglich δ konvergente Folge auch bez¨ uglich d konvergent und umgekehrt. Dies zeigt das folgende Lemma, wenn man noch die Aussage von Lemma 2.12 ber¨ ucksichtigt.
¨ Folgen im Rn und in metrischen R¨aumen 2.3 Uber
63
Lemma 2.13 Ist (ξk )k∈N eine Folge in Rn und ξ ∈ Rn , so gilt δ(ξk , ξ) → 0 f¨ ur k → ∞ genau dann, ur alle j ∈ {1, . . . , n} gilt. wenn limk→∞ ξk,j = ξj f¨ Beweis: Wegen |ξk,j − ξj | ≤ δ(ξk , ξ) f¨ ur alle j ∈ {1, . . . , n} folgt f¨ ur jedes j aus δ(ξk , ξ) → 0 ur k → ∞, also limk→∞ ξk,j = ξj f¨ ur alle j ∈ {1, . . . , n}. sofort |ξk,j − ξj | → 0 f¨ F¨ ur die umgekehrte Richtung gehen wir davon aus, dass es zu jedem ε > 0 ein k0 ∈ N ur k ≥ k0 und j = 1, . . . , n. Dann folgt offenbar δ(ξk , ξ) < ε f¨ ur gibt mit |ξk,j − ξj | < ε f¨ k ≥ k0 , also δ(ξk , ξ) → 0 f¨ ur k → ∞. ! Man k¨ onnte das Ergebnis, dass d und δ auf dem Rn zum gleichen Konvergenzbegriff f¨ uhren, auch damit begr¨ unden, dass die euklidische Norm 9 9 und die Supremumsnorm 9x9∞ := supj=1,...,n |xj | ¨ aquivalent sind in dem Sinn, dass sie sich gegenseitig absch¨ atzen lassen, d.h. dass es Konstanten M > 0 und N > 0 gibt, so dass M 9x9∞ ≤ 9x9 ≤ N 9x9∞ f¨ ur alle x ∈ Rn gilt. Man u ¨berlegt sich leicht, dass sogar √ 9x9∞ ≤ 9x9 ≤ n9x9∞ f¨ ur x ∈ Rn gilt. (Siehe den Beweis von Lemma 2.12.) Die Abstandsmessung mit Hilfe der Supremumsnorm wird h¨aufig auch verwendet, wenn man gewisse Mengen, genauer Vektorr¨ aume betrachtet, deren Elemente Abbildungen sind. So etwa, wenn man die Menge aller Abbildungen einer nichtleeren Menge M nach R betrachtet, die beschr¨ ankt sind. Ist Abb(M, R) die Menge aller Abbildungen f : M → R, so sei also Fb (M, R) := {f ∈ Abb(M, R) : Es gibt ein ρf > 0 mit |f (x)| ≤ ρf f¨ ur alle x ∈ M }. Ganz genauso k¨ onnte man Fb (M, C) definieren und wir werden daher bei den weiteren ¨ Uberlegungen Fb (M, K) notieren, wobei K = R oder K = C sein kann. ur f und g aus F¨ ur f ∈ Fb (M, K) gilt offenbar 9f 9∞ := supx∈M |f (x)| ≤ ρf , und f¨ Fb (M, K) k¨ onnen wir absch¨ atzen |f (x) + g(x)| ≤ |f (x)| + |g(x)| ≤ 9f 9∞ + 9g9∞
f¨ ur
x ∈ M,
woraus weiter sup |f (x) + g(x)| ≤ 9f 9∞ + 9g9∞
(2.11)
x∈M
folgt. Definiert man also als Abstand zwischen f und g d(f, g) := sup |f (x) − g(x)|, x∈M
so gilt die Dreiecksungleichung d(f, g) ≤ d(f, h) + d(h, g) f¨ ur
f, g, h ∈ Fb (M, K).
64
2 Folgen und Reihen
Dies folgt aus (2.11), wenn man von d(f, g) = supx∈M |(f (x) − h(x)) + (h(x) − g(x))| ausgeht. Aus d(f, g) = 0 folgt auch, dass f = g, d.h. f (x) = g(x) f¨ ur alle x ∈ M gelten muss. ur alle x ∈ M Denn ist supx∈M |f (x) − g(x)| = 0, so muss offenbar f (x) − g(x) = 0 f¨ gelten. Schließlich gilt d(f, g) = d(g, f ). Es ist daher sinnvoll, ausgehend von d die Konvergenz von Folgen in Fb (M, K) zu diskutieren. Um dies hervorzuheben, schreiben wir (Fb (M, K), d). Wichtig ist, dass nun auch hierbei gilt: Satz 2.11 Ist (fn )n∈N eine Cauchy-Folge in (Fb (M, K), d), so gibt es ein g ∈ Fb (M, K) mit d(fn , g) → 0 f¨ ur n → ∞. Beweis: Ist (fn )n∈N eine Cauchy-Folge in (Fb (M, K), d), so gibt es zu jedem ε > 0 ein n0 ∈ N ur alle n, k ≥ n0 . Dann gilt ja auch |fn (x) − fk (x)| < ε f¨ ur jedes mit 9fn − fk 9∞ < ε f¨ x ∈ M , wenn n, k ≥ n0 ist. Dies zeigt, dass f¨ ur jedes x ∈ M die Folge (fn (x))n∈N eine Cauchy-Folge in K ist. Damit gibt es aber zu jedem x ∈ M ein αx ∈ K mit fn (x) → αx f¨ ur n → ∞. Definieren wir damit f (x) := αx f¨ ur x ∈ M , so ist noch zu zeigen, dass ur n → ∞ gilt. f ∈ Fb (M, K) ist und 9fn − f 9∞ → 0 f¨ ur ein beliebiges x ∈ M ab atzen wir nun f¨ Sei ε > 0 gegeben. Sch¨ |fn (x)−f (x)| ≤ |fn (x)−fk (x)|+|fk (x)−f (x)| ≤ 9fn −fk 9∞ +|fk (x)−f (x)|, ur alle n, k ≥ n0 und sicherlich weiter auch so gibt es ja ein n0 mit 9fn − fk 9∞ < ε/2 f¨ ein k ≥ n0 mit |fk (x)−f (x)| < ε/2. Damit ergibt sich, dass sogar 9fn −f 9∞ < ε f¨ ur alle n ≥ n0 gilt. Somit ist nur noch zu u ¨berlegen, dass f ∈ Fb (M, K) ist. Dies erh¨alt man ¨ aber aufgrund der letzten Uberlegung auch fast unmittelbar: 9fn0 − f 9∞ < ε bedeutet, ur alle x ∈ M gilt. Damit gilt | |fn0 (x)| − |f (x)| | < ε und dass |fn0 (x) − f (x)| < ε f¨ ur alle x ∈ M . ! somit |f (x)| < 9fn0 9∞ + ε f¨ Damit haben wir ein weiteres Beispiel f¨ ur eine mathematische Struktur gefunden, die man als vollst¨andigen metrischen Raum bezeichnet. Dieser Begriffsbildung wenden wir uns im n¨ achsten Abschnitt zu.
2.3.2
Folgen in metrischen R¨aumen
Bei einem metrischen Raum versieht man eine Menge nicht mit einer algebraischen Struktur oder einer Ordnungsstruktur, sondern mit einer Struktur, die es erlaubt, Abst¨ ande zwischen den Elementen der Menge zu messen, und zwar in einer Weise, wie sie uns nach dem letzten Abschnitt eigentlich schon gut bekannt ist. Als Metrik auf der Menge M bezeichnet man jede Abbildung d : M × M → R, die folgende (uns schon vertrauten) Bedingungen erf¨ ullt: (M1) Es ist d(x, y) ≥ 0 f¨ ur alle (x, y) ∈ M × M und es gilt d(x, y) = 0 genau dann, wenn x = y gilt. (M2) Es gilt d(x, y) = d(y, x) f¨ ur alle (x, y) ∈ M × M . (M3) Es gilt d(x, y) ≤ d(x, z) + d(z, y) f¨ ur alle x, y, z ∈ M .
¨ Folgen im Rn und in metrischen R¨aumen 2.3 Uber
65
Ist eine Menge M mit einer Metrik d versehen, so bezeichnet man das Paar (M, d) als metrischen Raum. Jede nichtleere Menge kann man auf ganz einfache Weise zu einem metrischen Raum machen, indem man sie mit der sogenannten diskreten Metrik versieht, die definiert ist durch d(x, x) := 0
f¨ ur alle x ∈ M,
d(x, y) := 1 f¨ ur alle x, y ∈ M
mit
x= 3 y.
Diese Definition eines Abstands zwischen den Elementen von M ist nicht besonders interessant, aber sie gen¨ ugt tats¨ achlich den Forderungen (M1), (M2) und (M3). Offenbar ist die G¨ ultigkeit von (M1) und (M2) klar, die G¨ ultigkeit der Dreiecksungleichung ergibt sich folgendermaßen: Seien x, y, z ∈ M beliebig gegeben. Gilt x = y, so gilt d(x, y) = 0 und es folgt (M3) f¨ ur beliebiges z ∈ M . Gilt aber x 3= y, so muss x 3= z ∨ y 3= z gelten und somit ist d(x, z) + d(z, y) ≥ 1. Damit gilt auch in diesem Fall (M3). Dieses Beispiel deutet bereits an, dass man einen vielf¨altig einsetzbaren Rahmen zur Verf¨ ugung hat, wenn man Fragen der Konvergenz nun im allgemeineren Kontext von aumen behandelt. Folgen in metrischen R¨ In Verallgemeinerung der geometrischen Verh¨altnisse, die wir vom R3 her kennen, ist es u ¨ blich, bei einem metrischen Raum (M, d) die Menge U (x0 , r) := {x ∈ M : d(x0 , x) < r}, wobei x0 ∈ M und r > 0 beliebig gegeben sind, als offene Kugel mit Radius r um den Punkt x0 zu bezeichnen. Im R3 mit der euklidischen Metrik ist dies wirklich eine Menge von der Gestalt einer Kugel, da sie alle Punkte umfasst, die von x0 einen Abstand kleiner als r haben. Versieht man jedoch den R3 mit der in (2.9) definierten Metrik δ, so umfasst die Kugel U (0, 1) alle Punkte, die geometrisch zum achsenparallelen W¨ urfel mit Mittelpunkt im Ursprung 0 = (0, 0, 0) und Kantenl¨ ange zwei geh¨ oren, wobei die Oberfl¨ache des W¨ urfels nicht dazu geh¨ ort. In diesem Fall erinnert uns also die ’Kugel’ U (0, 1) geometrisch keineswegs an eine Kugel, trotzdem ist diese Bezeichnung sinnvoll, weil die Menge U (0, 1) durch die gleiche Vorschrift gebildet wurde. Noch ungewohnter wird u ¨ brigens das Bild, wenn man eine Menge M mit der diskreten Metrik versieht: Ist r > 1, so gilt stets U (x0 , r) = M . In gewisser Weise veranschaulichen kann man sich auch die Menge U (0, 1) ⊂ Fb (R, R), wenn man Fb (R, R) wie im letzten Abschnitt diskutiert mit der Metrik d(f, g) := sup |f (x) − g(x)| x∈R
versieht. Dabei ist nun nat¨ urlich der Mittelpunkt 0 ∈ Fb (R, R) die konstante Funktion f (x) = 0 f¨ ur alle x ∈ R. Ist g ∈ U (0, 1), so muss ja supx∈R |g(x)| < 1 sein. F¨ ur den Graphen {(x, y) ∈ R2 : y = g(x)} der Funktion g bedeutet dies, dass er wie u ¨blich veranschaulicht in der (x, y)− Ebene zwischen den zwei Parallelen zur x−Achse verlaufen muss, die durch die Punkte (0, −1) und (0, 1) verlaufen. Es verlaufen allgemeiner immer die Graphen von Funktionen, die zu einer Kugel U (f0 , r) geh¨oren, anschaulich in einem Streifen konstanter Breite um den Graphen der Funktion f0 . H¨ aufig ist es von Interesse, bei einem gegebenen metrischen Raum (M, d) auch eine nichtleere Teilmenge A ⊂ M mit A = 3 M mit der Struktur eines metrischen Raumes
66
2 Folgen und Reihen
zu versehen, indem man einfach die Metrik d einschr¨ankt, d.h. man definiert einfach ur (x, y) ∈ A × A. Es ist sofort zu sehen, dass dA wiederum die dA (x, y) := d(x, y) f¨ Axiome (M1), (M2) und (M3) erf¨ ullt. Man bezeichnet dA als die von d induzierte Metrik. So kann man z.B. die Menge Q ⊂ R mit der von der u ¨blichen Metrik auf R induzierten ur (r, s) ∈ Q × Q. In diesem Metrik versehen, d.h. es ist dann dQ (r, s) = |r − s| f¨ Fall ist offensichtlich, was gemeint ist, wenn man eine Folge in Q als Cauchy-Folge bezeichnet. Und hier ist nun festzustellen, dass es im Gegensatz zu R im metrischen Raum (Q, dQ ) Cauchy-Folgen gibt, die in (Q, dQ ) nicht konvergent sind. Man kann so eine Folge unter Ben¨ utzung des babylonischen Wurzelziehens finden, aber auch mit der √ folgenden Vorgangsweise, bei der man ebenfalls ausn¨ / Q ist: √utzt, 1dass 2 ∈ Man geht zun¨ achst in R von der Folge (xn )n∈N := ( 2 − n )n∈N aus. Diese konvergiert √ √ in R gegen 2. Denn es gilt ja |xn − 2| = n1 f¨ ur alle n. Zu jedem xn gibt es, da Q in R dicht liegt, ein rn ∈ Q mit |xn − rn | < n1 . Die Folge (rn )n∈N ist dann ebenfalls in R √ konvergent gegen 2. Denn es gilt ja √ √ 2 |rn − 2| ≤ |rn − xn | + |xn − 2| < < ε, n wenn n ≥ n0 ist mit 1/n0 < ε/2. Damit ist die Folge (rn ) eine Cauchy-Folge in R und somit auch in Q. W¨ are sie jetzt in Q konvergent, etwa gegen a √ ∈ Q, so w¨are sie auch in √ R konvergent gegen a, somit w¨ are a = 2 im Widerspruch zu 2 ∈ / Q. Nach diesen Beispielen sind nun wohl die folgenden Definitionen sehr naheliegend: Eine Folge (xn )n∈N im metrischen Raum (M, d) heißt konvergent gegen x0 ∈ M , wenn zu jedem ε > 0 ein n0 ∈ N existiert mit xn ∈ U (x0 , ε) f¨ ur alle n ≥ n0 . Eine Folge (xn )n∈N im metrischen Raum (M, d) heißt Cauchy-Folge, wenn es zu jedem ur alle n, m ≥ n0 gilt. ε > 0 ein n0 ∈ N gibt, so dass d(xn , xm ) < ε f¨ Ein metrischer Raum (M, d) heißt vollst¨ andig, wenn jede Cauchy-Folge (xn )n∈N in M konvergent ist. In der Analysis hat man es h¨ aufig mit vollst¨andigen metrischen R¨aumen zu tun, die, (ganz so wie beim Rn ), so entstehen, dass sie zun¨achst K-Vektorr¨aume sind und mit einer Norm versehen werden, die dann auf nat¨ urliche Weise zu einer Metrik f¨ uhrt. Dazu die folgenden Definitionen, (bei der der Begriff des Vektorraums als aus der linearen Algebra bekannt vorausgesetzt ist, siehe z.B. Grauert-Grunau [4]): Sei (1) (2) (3)
X ein K-Vektorraum. Eine Abbildung 9 9 : X → R heißt Norm auf X, wenn gilt: Es gilt 9x9 ≥ 0 f¨ ur alle x ∈ X und es gilt 9x9 = 0 genau dann, wenn x = 0 ist. Es gilt 9αx9 = |α| 9x9 f¨ ur alle α ∈ K und x ∈ X. Es gilt 9x + y9 ≤ 9x9 + 9y9 f¨ ur alle x, y ∈ X.
Ist auf einem K-Vektorraum X eine Norm 9 9 gegeben, so nennt man das Paar (X, 9 9) einen normierten Raum. Ist ein normierter Raum (X, 9 9) gegeben, so definiert man genau in der Weise, wie wir es schon in Spezialf¨ allen kennen, eine Metrik auf X durch d(x, y) := 9x − y9 f¨ ur
x, y ∈ X.
¨ Folgen im Rn und in metrischen R¨aumen 2.3 Uber
67
Die Forderungen (1), (2) und (3) an die Norm implizieren dann die Forderungen (M1), (M2) und (M3) an die Metrik. (So folgt etwa (M3) so wie fr¨ uher bereits notiert aus 9x − y9 = 9(x − z) + (z − y)9 ≤ 9x − z9 + 9z − y9.) Wird der normierte Raum (X, 9 9) auf diese Weise zu einem vollst¨andigen metrischen Raum, so bezeichnet man den normierten Raum selber als vollst¨andig. Einen vollst¨andigen normierten Raum nennt man Banachraum. Der Rn mit der euklidischen Norm, aber auch Fb (M, K) mit der Supremumsnorm sind Beispiele f¨ ur Banachr¨ aume. Denn Fb (M, K) wird zu einem K-Vektorraum, wenn man die Operationen der Addition und der Multiplikation mit Skalaren definiert durch (f + g)(x) := f (x) + g(x) (αf )(x) := αf (x)
f¨ ur
f¨ ur
f, g ∈ Fb (M, K), x ∈ M,
α ∈ K, f ∈ Fb (M, K), x ∈ M.
Wir werden sp¨ ater noch weitere Banachr¨ aume kennenlernen. Auch werden wir im n¨ achsten Abschnitt Reihen im Rahmen von Banachr¨aumen diskutieren. Vorher seien aber noch zwei Dinge u ¨ber Folgen in normierten R¨aumen festgehalten, die immer wieder ben¨ utzt werden, so anschließend beim Nachweis, dass auf dem Rn alle Normen aquivalent sind. Dies hat zur Folge, dass man, wenn man den Rn mit irgendeiner Norm ¨ versieht, immer einen Banachraum erh¨ alt. Lemma 2.14 Sei (X, 9 9) ein normierter Raum und (xn )n∈N eine konvergente Folge in X. Dann gilt: (a) Die Folge (9xn 9)n∈N ist konvergent und es gilt limn→∞ 9xn 9 = 9 limn→∞ xn 9. ur alle n ∈ N. (b) Es gibt ein M > 0 mit 9xn 9 ≤ M f¨ Beweis: Zu (a): Grundlage ist die umgekehrte Dreiecksungleichung | 9x9 − 9y9 | ≤ 9x − y9 f¨ ur
x, y ∈ X,
die man genauso beweist wie beim Betrag reeller oder komplexer Zahlen. (Siehe den Beweis von Satz 1.14.) Gilt xn → y ∈ X, so liefert diese die Absch¨ atzung | 9xn | − 9y9 | ≤ 9xn − y9, die zeigt, ur n ≥ n0 . Damit gilt dass es zu jedem ε > 0 ein n0 ∈ N gibt mit | 9xn | − 9y9 | < ε f¨ limn→∞ 9xn 9 = 9y9. Zu (b): Da nach Lemma 2.4 jede konvergente reelle Folge beschr¨ankt ist, folgt (b) sofort aus (a). ! Satz 2.12 Sei n ∈ N, sei 9 9 eine Norm auf dem Rn und 9 92 die euklidische Norm auf dem Rn . Dann gibt es Konstanten M > 0 und N > 0 mit M 9x92 ≤ 9x9 ≤ N 9x92
f¨ ur alle x ∈ Rn .
68
2 Folgen und Reihen
Beweis: Ist wie u ¨ blich ek = (ek,1 , . . . , ek,n ) ∈ Rn der Vektor mit ek,j = 0, falls j 3= k, und ek,k ) = 1, so gilt bekanntlich f¨ ur jeden Vektor x = (x1 , . . . , xn ) ∈ Rn die Darstellung n utzung der Eigenschaften der Norm 9 9 und x = k=1 xk ek . Damit kann man unter Ben¨ der Cauchy-Schwarzschen Ungleichung absch¨atzen B B 2 n 51/2 n n B = B= = B B 2 9x9 = B |xk |9ek 9 ≤ 9x92 9ek 9 . xk ek B ≤ B B k=1
k=1
k=1
ur alle x ∈ Rn . Dies zeigt die G¨ ultigkeit von 9x9 ≤ N 9x92 f¨ Den Nachweis der G¨ ultigkeit einer Ungleichung M 9x92 ≤ 9x9 f¨ ur alle x ∈ Rn f¨ uhren wir indirekt. Wir nehmen also an, dass es kein M > 0 geben w¨ urde, so dass so eine Ungleichung gilt. Dann muss es aber zu jedem m ∈ N einen Vektor ξm ∈ Rn geben mit 1 9ξm 92 > 9ξm 9. m Damit muss sicher 9ξm 92 > 0 f¨ ur alle m ∈ N gelten und wir k¨onnen zu den Vektoren 1 ym := 9ξm 9−1 u bergehen, f¨ u r die dann 9ym 92 = 1 und weiterhin m 9ym 92 > 9ym 9 ξ ¨ m 2 uglich der f¨ ur alle m ∈ N gilt. Nach Satz 2.10 muss dann zur Folge (ym )m∈N eine (bez¨ euklidischen Norm) konvergente Teilfolge (ymk )k∈N existieren. Sei η := limk→∞ ymk . Da wir nach dem ersten Teil des Beweises absch¨ atzen k¨onnen 9ymk − η9 ≤ N 9ymk − η92 , gilt auch ymk → η im Raum (R, 9 9). Nach Lemma 2.14 folgt weiter lim 9ymk 9 = 9η9 und
k→∞
lim 9ymk 92 = 9η92 .
k→∞
Wegen 9ym,k 92 = 1 f¨ ur alle k gilt damit 9η92 = 1, also η 3= 0 und weiter 9η9 > 0. Nun gilt nach der Konstruktion der Folge (ym,k )k∈N aber m1k > 9ymk 9 f¨ ur alle k ∈ N, woraus ! limk→∞ 9ymk 9 = 0 folgt. Dies widerspricht limk→∞ 9ymk 9 = 9η9 > 0. Korollar 2.3 Ist 9 9 eine beliebige Norm auf dem Rn , so ist der Raum (Rn , 9 9) ein Banachraum. Beweis: Sei (xm )m∈N eine Cauchy-Folge im normierten Raum (Rn , 9 9). Nach Satz 2.12 gilt eine Absch¨ atzung M 9xm − xk 92 ≤ 9xm − xk 9. Diese zeigt, dass die Folge (xm )m∈N dann auch eine Cauchy-Folge im Raum (Rn , 9 92 ) ist. Dieser ist vollst¨andig, also gibt es ein y ∈ Rn mit 9xm − y92 → 0 f¨ ur m → ∞. Die Absch¨atzung 9xm − y9 ≤ N 9xm − y92 zeigt, dass dann auch 9xm − y9 → 0 f¨ ur m → ∞ gilt. !
2.4
Reihen
Unendliche Reihen sind ganz wesentlich in der Analysis, denn sie dienen auch zur Definition wichtiger Funktionen wie etwa der Exponentialfunktion, mit der wir uns daher auch in diesem Abschnitt zum ersten Mal befassen werden.
2.4 Reihen
2.4.1
69
Zur Konvergenz von Reihen
Es sei die Diskussion begonnen mit einem einfachen, aber dennoch sehr wichtigen Beispiel einer unendlichen Reihe. Sei a ∈ R mit 0 ≤ a < 1. Definieren wir dann unter Verwendung der Notation N0 := N ∪ {0} n = sn := ak f¨ ur n ∈ N 0 , k=0
man spricht so werden mit zunehmendem n immer mehr Summanden ak aufsummiert; )∞ k daher davon, dass die s die Partialsummen der unendlichen Reihe k=0 a sind, )∞n k ur uns nur rein formalen Charakter wobei die Notation k=0 a in diesem Moment f¨ haben kann. Dies ¨ andert sich jedoch, wenn die Folge (sn )n∈N0 konvergent ist. Dann )∞ k¨ onnen wir n¨ amlich k=0 ak als reelle Zahl auffassen, die durch ∞ =
ak := lim sn
k=0
n→∞
)∞ definiert ist. In diesem Fall spricht)man davon, dass die Reihe k=0 ak konvergent ∞ ist, und bezeichnet die reelle Zahl k=0 ak als ihren Wert. Es ist klar, dass die Reihe als divergent bezeichnet wird, wenn die Folge der Partialsummen nicht konvergent ist. Aufgrund unserer Ergebnisse u ¨ ber reelle Folgen ist leicht zu sehen, dass im Fall 0 ≤ a < 1 die Folge (sn )n∈N0 tats¨achlich konvergent ist. Da a ≥ 0 ur alle n ∈ N. Die Folge (sn )n∈N0 ist, ist stets ak ≥ 0 und damit gilt offenbar sn ≥ sn−1 f¨ ist also monoton wachsend, sie ist aber auch nach oben beschr¨ankt. Denn zun¨achst ist f¨ ur n ∈ N 0 n n+1 = = k sn · a = a · a = ak = sn+1 − 1 = sn + an+1 − 1, k=0
k=1
woraus sofort sn =
1 − an+1 1−a
f¨ ur
n ∈ N0
(2.12)
folgt. Wegen 0 ≤ a < 1 gilt aber auch an+1 < 1 f¨ ur alle n ∈ N0 und somit gilt 1 f¨ ur alle n ∈ N0 . Damit existiert limn→∞ sn und somit ist die als geometrische sn ≤ 1−a ) k Reihe bezeichnete Reihe ∞ onnen aber auch leicht ihren Wert k=0 a konvergent. Wir k¨ angeben. Denn es gilt ja wegen 0 ≤ a < 1 nach unseren fr¨ uheren Resultaten 0 = a lim an = lim an+1 , n→∞
und es folgt aus (2.12) somit limn→∞ sn = ∞ = k=0
ak =
1 1−a
n→∞
1 1−a .
f¨ ur
Wir k¨onnen also notieren 0 ≤ a < 1.
70
2 Folgen und Reihen
urlich ebenfalls monoton wachsend, aber sie ist Ist a ≥ 1, so ist die Folge (sn )n∈N0 nat¨ ur alle n. Im Sinne unserer fr¨ uheren auch unbeschr¨ ankt, denn es gilt offenbar sn ≥ n+1 f¨ Begriffsbildung k¨ onnen wir damit notieren sn → ∞ f¨ ur n → ∞. Die geometrische Reihe ist also divergent, wenn a ≥ 1 ist. ) In jedem normierten Raum (X, 9 9) kann man auf analoge Weise Reihen ∞ k=0 ak diskutieren, wobei die ak dann Vektoren aus X sind. )nDenn aufgrund der Vektorraum-Struktur ist ja die Bildung der Partialsummen sn = k=0 ak sinnvoll und die Frage der Konvergenz der Folge der Partialsummen l¨ asst sich bez¨ uglich der durch die Norm gegebenen Metrik diskutieren. Man wird auch in diesem Kontext davon sprechen, dass die Reihe konvergent ist, wenn die Folge der Partialsummen konvergent ist. Erste wichtige Aussagen dazu sind im n¨ achsten Satz festgehalten. Satz 2.13 Sei (X, 9 9) ein normierter Raum, seien ak ∈ X f¨ ur k ∈ N. Dann gilt: )∞ ur k → ∞. (a) Ist die Reihe k=1 ak konvergent, so gilt 9ak 9 → 0 f¨ )∞ (b) Ist (X, 9 9) sogar vollst¨ andig, also ein Banachraum, so ist die Reihe k=1 ak )m genau dann konvergent, wenn es zu jedem ε > 0 ein n0 ∈ N gibt mit 9 k=n ak 9 < ε f¨ ur alle n, m ∈ N mit m ≥ n ≥ n0 . )∞ (c) andig und die Reihe k=1 9ak 9 in R konvergent, so ist die Reihe )∞Ist (X, 9 9) vollst¨ k=1 ak in (X, 9 9) konvergent. Beweis: Zu (a): Ist die Folge (sn )n∈N der Partialsummen konvergent, so ist sie eine CauchyFolge, d.h. zu ε > 0 gibt es ein n0 ∈ N mit 9sn − sm 9 < ε f¨ ur n, m ≥ n0 . F¨ ur n > n 0 gilt damit insbesondere 9sn − sn−1 9 < ε. Dies ist aber gleichbedeutend mit 9an 9 < ε f¨ ur n > n0 . Damit gilt 9ak 9 → 0 f¨ ur k → ∞. )∞ Zu (b): Sei zuerst angenommen, dass die Reihe k=1 ak konvergent ist. Dann folgt, (ohne dass man hierf¨ ur die Vollst¨ andigkeit des Raumes (X, 9 9) ben¨otigen w¨ urde), wie ) m bei (a) 9sn − sm 9 < ε f¨ ur n, m ≥ n0 . F¨ ur m ≥ n ≥ n0 gilt aber 9sn − sm 9 = 9 k=n ak 9. Damit ist die eine Richtung gezeigt. F¨ ur die andere Richtung wird nun andigkeit des Raumes ben¨otigt. Gibt es zu ) die Vollst¨ ur m ≥ n ≥ n0 , so ist nach der soeben jedem ε > 0 ein n0 ∈ N mit 9 m k=n ak 9 < ε f¨ ¨ durchgef¨ uhrten Uberlegung die Folge (sn )n∈N eine Cauchy-Folge. )∞ Ist (X, 9 9) vollst¨andig, so ist die Folge (sn )n∈N also konvergent, somit die Reihe konvergent. k=1 ak ) ) n Zu (c): Ist die Reihe ∞ k=1 9ak 9 in R konvergent, so ist die Folge ( k=1 9ak 9)n∈N eine reelle Cauchy-Folge, es gibt also zu jedem ε > 0 ein n0 ∈ N mit # n # m #= # = # # 9ak 9 − 9ak 9# < ε f¨ ur n, m ≥ n0 . # # # k=1
k=1
Unter Verwendung der Dreiecksungleichung folgt daraus B m B B = B B B ak B < ε f¨ ur m > n ≥ n 0 . B B B k=n+1
2.4 Reihen
71
)n Dies zeigt, dass die Folge ( k=1 ak )n∈N eine Cauchy-Folge in (X, 9 9) ist. Ist der Raum ) ! vollst¨ andig, so ist also die Reihe ∞ k=1 ak konvergent. Man sieht rasch an Hand eines einfachen Beispiels, dass das in Teil (a) des letzten Satzes angegebene Kriterium tats¨ achlich nur notwendig und nicht hinreichend f¨ ur die Konvergenz einer Reihe ist. )∞ Wir betrachten dazu die sogenannte harmonische Reihe k=1 k1 . Da die Folge (1/k)k∈N eine Nullfolge ist, ist bei dieser Reihe das notwendige Kriterium von Satz 2.13 (a) erf¨ ullt. Die Reihe ist aber nicht konvergent, denn die Folge der Partialsummen ist keine Cauchy-Folge. Dies zeigt die f¨ ur alle m ∈ N g¨ ultige Absch¨atzung s2m − sm =
2m = 1 1 1 >m· = . k 2m 2
k=m+1
Die Divergenz der harmonischen Reihe hat die Konsequenz, dass das hinreichende Kriterium ) von Satz 2.13 (c) nicht einsetzbar ist, um die Konvergenz der alternierenden k1 Reihe ∞ ur k=1 (−1) k zu zeigen. Es gibt jedoch ein anderes hinreichendes Kriterium f¨ solche alternierenden Reihen, das als Leibniz-Kriterium bekannt ist: Satz 2.14 Sei (ak )k∈N eine monoton fallende Nullfolge in R mit ak ≥ 0 f¨ ur alle k ∈ N. Dann ) k ist die alternierende Reihe ∞ k=1 (−1) ak konvergent. Beweis: )∞ F¨ ur die Partialsummen sn der Reihe k=1 (−1)k ak k¨onnen wir f¨ ur alle m ∈ N notieren s2m+2 − s2m = −a2m+1 + a2m+2 ≤ 0, s2m+1 − s2m−1 = a2m − a2m+1 ≥ 0. Es ist also die Folge (s2m )m∈N monoton fallend und die Folge (s2m−1 )m∈N monoton wachsend. Da f¨ ur alle k ∈ N gilt sk+1 = sk + (−1)k+1 ak+1 , gilt offenbar s2m+1 ≤ s2m f¨ ur alle m ∈ N, woraus weiter s2m+1 ≤ s2 ,
s2m ≥ s1
f¨ ur alle m ∈ N
folgt. Damit sind aber die monotonen Folgen (s2m )m∈N und (s2m−1 )m∈N konvergent. Aus der Tatsache, dass die Folge (ak )k∈N eine Nullfolge ist, folgt weiter, dass die zwei ussen. Dies zeigt die Grenzwerte der Folgen (s2m )m∈N und (s2m−1 )m∈N gleich sein m¨ Rechnung 0 = lim a2m+1 = lim (s2m − s2m+1 ) = lim s2m − lim s2m+1 . m→∞
m→∞
m→∞
m→∞
Bezeichnen wir den gemeinsamen Grenzwert mit s, so gibt es zu jedem ε > 0 ein n0 ∈ N, so dass |s2m −s| < ε f¨ ur alle m mit 2m ≥ n0 und |s2j+1 −s| < ε f¨ ur alle j mit 2j +1 ≥ n0 gilt. Damit gilt) aber |sn − s| < ε f¨ ur alle n ≥ n0 und es ist somit die Folge (sn )n∈N und ∞ also die Reihe k=1 (−1)k ak konvergent. !
72
2 Folgen und Reihen
)∞ Bezeichnet man eine Reihe k=1 ak in einem normierten Raum als absolut konver)∞ 9ak 9 in R konvergent ist, so k¨onnen wir nun festhalten, dass gent, wenn die Reihe ) k=1 ∞ die alternierende Reihe k=1 (−1)k k1 zwar konvergent, jedoch nicht absolut konvergent ist. Andererseits besagt die Aussage (c) von Satz 2.13, dass im Fall eines vollst¨andigen normierten Raumes aus der absoluten Konvergenz immer die Konvergenz einer Reihe folgt. Dies n¨ utzt man immer wieder aus, um Konvergenzfragen bei konkret gegebenen Reihen zu kl¨ aren. Ein sehr wichtiges Beispiel dazu wird im n¨achsten Abschnitt behandelt.
2.4.2
Die Exponentialfunktion
Im folgenden Satz wird zum ersten Mal eine konvergente Reihe dazu dienen, eine Funktion f : R → R zu definieren. Satz 2.15
) 1 k F¨ ur alle x ∈ R ist die Reihe ∞ k=0 k! x absolut konvergent. Definiert man die Exponentialfunktion exp : R → R durch exp(x) :=
∞ = 1 k x k!
f¨ ur
x ∈ R,
k=0
so gilt exp(1) = e. Beweis: )∞ 1 k Ist x = 0, so ist xk = 0 f¨ ur k ∈ N und damit ist die Reihe k=0 k! x konvergent, ja sogar absolut konvergent, weil x0 = 1 ist. Sei nun x ∈ R \ {0}. Da die Folge (|x|/n)n∈N eine Nullfolge ist, gibt es ein n0 ∈ N mit |x| 1 ur n ≥ n0 . Damit kann man aber auch f¨ ur alle k ∈ N absch¨atzen n < 2 f¨ # n +k # : ; k n0 k # |x|n0 9 # x 0 1 |x| |x| #= # ≤ . # (n0 + k)! # (n0 )! n + j 2 (n 0 )! j=1 0 F¨ ur m > n ≥ n0 folgt damit m m : ;k−n0 = 1 k |x|n0 = 1 |x| ≤ . k! (n0 )! 2
k=n
k=n
)∞ k Da nach unseren fr¨ uheren Ergebnissen die geometrische Reihe konvergent )∞ k=0 (1/2) k (1/k!)|x| eine Cauchyist, zeigt dies, dass die Folge der Partialsummen der Reihe k=0 )∞ Folge ist. Damit ist aber die Reihe k= (1/k!)xk absolut konvergent und es kann die Exponentialfunktion wie oben angegeben definiert werden. Es ist noch zu zeigen, dass exp(1) = e gilt, d.h. es ist zu zeigen : ;n n = 1 1 lim = lim 1 + . n→∞ k! n→∞ n k=0
2.4 Reihen
73
ur n ≥ 1 Nach dem binomischen Lehrsatz gilt f¨ : ;n = n n : ; = n 1 1 1 n! = . = 1+ k nk n k!(n − k)! nk k=0
k=0
Da nun aber f¨ ur k ≥ 1 gilt ; k−1 k−1 9 n−j 9: n! 1 j = = 1− ≤ 1, (n − k)! nk n n j=0 j=0 folgt
;n = : n 1 1 ≤ 1+ n k!
f¨ ur
n ≥ 1.
k=0
Somit gilt
: ;n n = 1 1 1+ ≤ lim = exp(1). n→∞ n→∞ n k!
e = lim
k=0
Zur Gewinnung der umgekehrten Ungleichung notieren wir unter Verwendung der Zwischenresultate von soeben f¨ ur n ≥ m bei beliebig gew¨ahltem m ∈ N ; n k−1 : m = = n! 1 1 1 9 j ≥1+ 1− . k! (n − k)! nk k! j=0 n
k=0
k=1
Damit folgt : : ;n ; m m k−1 = = 1 9 1 j 1 . lim 1 − ≥1+ lim 1 + =1+ n→∞ n k! j=0 n→∞ n k! k=1
k=0
Da dies aber f¨ ur beliebiges m ∈ N gilt, folgt e ≥ Insgesamt haben wir damit e = exp(1) erhalten.
)∞
1 k=0 k!
= exp(1).
!
Am Ende von Abschnitt 2.2 wurde bereits erw¨ ahnt, dass sich auf der Grundlage einer Reihe eine bessere M¨ oglichkeit zur n¨ aherungsweisen Berechnung der Zahl e ergeben w¨ urde. Die Reihendarstellung e = exp(1) er¨ offnet tats¨achlich diese )nM¨oglichkeit. Und zwar zeigt dies eine gen¨ ugend gute Absch¨ atzung der Differenz e − k=0 (1/k!). )n 1 ucksichtigung , und notieren unter Ber¨ Um diese zu gewinnen, setzen wir sn := k=0 k! der Tatsache, dass die Partialsummen sn monoton wachsend sind, 0 < e − sn = lim sm − sn = lim (sm − sn ) = lim m→∞
m→∞
⎛ = lim
m→∞
1 ⎝1 + (n + 1)!
m =
m→∞
k 9
k=n+2 j=n+2
⎞ 1⎠ . j
m = k=n+1
1 k!
74
2 Folgen und Reihen
Es gilt aber
k 9 1 1 1 ≤ < k−(n+1) j (n + 2) (n + 1)k−(n+1) j=n+2
und nach den Ergebnissen zur geometrischen Reihe, wenn n ∈ N ist, 2 5 m−(n+1) m = = 1 n+1 1 1 lim 1 + . = lim = = 1 j k−(n+1) m→∞ m→∞ (n + 1) n (n + 1) 1 − n+1 j=0 k=n+2 Damit erh¨ alt man nun f¨ ur n ∈ N die Absch¨ atzung 0 < e − sn ≤
n+1 1 1 = . (n + 1)! n n!n
(2.13)
Da n! rasch w¨ achst, zeigt dies, dass man nur sn mit recht kleinem n, also wenige Summanden der Reihe ben¨ otigt, um eine rationale Zahl zu erhalten, die eine gute N¨aherung f¨ ur e darstellt. Die Absch¨ atzung (2.13) erlaubt es jetzt aber auch, zu erschließen, dass die Zahl e irrational ist. Satz 2.16 Es ist e ∈ R \ Q. Beweis: Wir zeigen, dass die Annahme, dass e ∈ Q ist, es also p, q ∈ Q gibt mit e = p/q, zu einem Widerspruch f¨ uhrt. Nach der Ungleichung (2.13) gilt 0 < q!(e − sq ) ≤
1 . q
Ist e = p/q, so ist ja eq ∈ N, somit auch e(q!) ∈ N. Es ist aber auch q!sq ∈ N, denn es gilt q−1 q−k q = 9 = q! q!sq = =1+ (k + j). k! j=1 k=0
k=0
Damit folgt aus e = p/q, dass q!(e − sq ) ∈ N ∧ 0 < q!(e − sq ) ≤
1 0 ein n0 ≥ k0 mit m =
0≤
ak < ε
f¨ ur alle
m > n ≥ n0 .
k=n+1
Da man absch¨ atzen kann m = k=n+1
9xk 9 ≤
m =
ak
f¨ ur
m > n ≥ n0 ,
k=n+1
)n ) ist also die Folge ( k=1 9xk 9)) 9xk 9 konn∈N eine Cauchy-Folge. Damit ist die Reihe ! vergent und somit die Reihe xk absolut konvergent. W¨ ahlt man speziell als Majorante die geometrische Reihe, so erh¨alt man aus dem Majorantenkriterium das Quotientenkriterium. Dabei ergibt sich auch ein Kriterium zur Divergenz von Reihen. Satz 2.18: (Quotientenkriterium) ) Sei ∞ k=1 xk eine Reihe im Banachraum (X, 9 9) und es existiere ein m ∈ N mit xk = 3 0 f¨ ur alle k ≥ m. Dann gilt: (a) Gibt es ein α ∈ R mit 0 < α < 1, so dass mit einem k0 ≥ m gilt 9xk+1 9 ≤ α f¨ ur 9xk 9
k ≥ k0 ,
9xk+1 9 ≥ 1 f¨ ur 9xk 9
k ≥ k0 ,
) so ist die Reihe ∞ k=1 xk absolut konvergent. (b) Gibt es ein k0 ≥ m mit
so ist die Reihe
)∞
k=1
xk divergent.
76
2 Folgen und Reihen
Beweis: Zu (a): Nach Voraussetzung gilt ur 9xk0 +j 9 ≤ α9xk0 +j−1 9 f¨
j ∈ N.
Durch einen einfachen Induktionsschluss erh¨ alt man daraus 9xk0 +j 9 ≤ αj 9xk0 9 f¨ ur
j ∈ N.
Schreibt man dies als
9xk 9 ≤ αk−k0 9xk0 9 f¨ ur k ≥ k0 , ) −k0 ) k so ist offenbar die Reihe (α 9xk0 9)α eine Majorante f¨ ur die Reihe xk . Wegen 0 < α < 1 ist die Majorante konvergent. Denn ist) σn eine Partialsumme dieser Reihe und αk , so gilt ja σn = α−k0 9xk0 9sn und sn eine Partialsumme der geometrischen Reihe −k0 somit limn→∞ 9x σ = α 9 lim s . Nach dem Majorantenkriterium ist damit k0 n n→∞ n ) die Reihe xk absolut konvergent. Zu (b): Gilt 9xk+1 9 ≥ 9xk 9 f¨ ur k ≥ k0 , so folgt wieder 9xk0 +j 9 ≥ 9xk0 9 > 0 f¨ ur j ∈ N. 9) keine Nullfolge sein. Nach Satz 2.13 (a) ist also Damit kann aber die Folge (9x k k∈N ) die Reihe xk nicht konvergent. ! Es gibt Reihen, bei denen auf der Grundlage des Quotientenkriteriums nicht entschieden werden kann, ob die Reihe konvergent oder divergent ist. Die harmonische Reihe ist ein Beispiel daf¨ ur. Denn mit ak := k1 gilt ja |ak+1 | k 1 = = |ak | k+1 1+
1 k
→ 1 f¨ ur
k → ∞.
Damit kann es kein α mit 0 < α < 1 geben, so dass |ak+1 | |ak |−1 ≤ α ab einem gewissen k0 gilt. Andererseits gilt aber auch immer |ak+1 | |ak |−1 < 1, so dass auch die Bedingung von Teil (b) des Quotientenkriteriums nicht erf¨ ullt ist. ) ∞ Genau die gleiche Schwierigkeit tritt auf bei der Reihe k=1 (1/k 2 ). Diese ist jedoch im Gegensatz zur harmonischen Reihe konvergent! Dies kann man mit der folgenden ¨ erschließen: Uberlegung F¨ ur n ≥ 2 kann man absch¨ atzen ; : ; n n n : = 1 = = 1 1 1 1 1 = 1 + − ≤ 1 + = 1 + 1 − = 2 − < 2. k2 k(k − 1) k−1 k n n k=1
k=2
k=2
Damit ist die Folge der Partialsummen dieser Reihe aber eine monoton wachsende nach oben beschr¨ ankte Folge. Folglich ist sie konvergent. Das Quotientenkriterium ist aber immer wieder gut geeignet, )num bei Reihen die Konvergenzfrage zu kl¨ aren. Als ein Beispiel daf¨ ur sei die Reihe k=1 kak behandelt, wobei wieder 0 < a < 1 sei. Schreibt man f¨ ur k ∈ N : ; (k + 1)ak+1 1 = 1 + a, kak k so ist f¨ ur die Anwendung von Satz 2.18 (a) offenbar nur zu u ¨ berlegen, dass es ein k0 ∈ N und ein α < 1 gibt mit (1 + k1 )a ≤ α f¨ ur k ≥ k0 . Dazu sei β mit 1 < β < a1 beliebig
2.4 Reihen
77
gew¨ ahlt. Da 1 + k1 → 1 f¨ ur k → ∞ gilt, gibt es ein k0 ∈ N mit 1 + k1 ≤ β f¨ ur alle k ≥ k0 . Es folgt (k + 1)ak+1 ≤ βa < 1 f¨ ur k ≥ k0 . kak )∞ Daher ist die Reihe k=1 kak , wobei 0 < a < 1 ist, konvergent. Mit Hilfe des Quotientenkriteriums sieht man auch leicht, dass man sogar f¨ ur z ∈ C definieren kann ∞ = 1 k exp(z) := z . k! k=0
Und zwar ergibt sich die absolute Konvergenz der Reihe f¨ ur z ∈ C\{0} aus der einfachen Absch¨ atzung 1 k+1 1 |z| (k+1)! |z| ≤ f¨ ur k ≥ 2|z|. = 1 k k + 1 2 |z| k! Im n¨ achsten Abschnitt werden wir uns allgemeiner mit der Konvergenz von Potenzreihen ) ak z k , (wobei die Koeffizienten ak aus C sind), befassen. Diese Reihen sind ungemein wichtig in der Analysis. Ein weiteres wichtiges Kriterium zur Diskussion von Reihen ist das sogenannte Wurzelkriterium, das ebenfalls eine Folge des Majorantenkriteriums ist. Satz 2.19: (Wurzelkriterium) ) Sei ∞ k=1 xk eine Reihe im Banachraum (X, 9 9). Dann gilt: (a) Gibt es ein α ∈ R mit 0 < α < 1 und ein k0 ∈ N, so dass 1
gilt, so ist die Reihe
)∞
k=1
9xk 9 k ≤ α
f¨ ur
k ≥ k0
xk absolut konvergent. 1
(b) Ist die Menge {k ∈ N : 9xk 9 k ≥ 1} unendlich, so ist die Reihe
)∞
k=1
xk divergent.
Beweis: ) k 1 Zu (a): Aus 9xk 9 k ≤ α ) folgt 9xk 9 ≤ αk f¨ ur k ≥ k0 , so dass man die Reihe α als ugung hat. Wegen 0 < α < 1 ist diese Majorante Majorante f¨ ur die Reihe xk zur Verf¨ ) aber konvergent, und folglich ist die Reihe xk absolut konvergent. 1/k ≥ 1} unendlich, so kann die Folge (9xk 9)k∈N Zu (b): Ist die Menge {k ∈ N : 9xk 9 ) keine Nullfolge sein. Damit kann aber die Reihe xk nicht konvergent sein. Auch beim Wurzelkriterium gibt es F¨ alle, bei denen mit Hilfe dieses Kriteriums nicht entschieden werden kann, ob die Reihe konvergent oder divergent ist. Gilt n¨amlich 9xk 9 = k1 f¨ ur k ∈ N, so ist weder (a) noch (b) anwendbar. Dies ergibt sich daraus, dass, wie wir in Abschnitt 2.2 gesehen haben, limk→∞ k 1/k = 1 gilt. Damit gilt dann ur alle k auch limk→∞ k −(1/k) = 1, so dass (a) nicht einsetzbar ist. Wegen k −(1/k) ≤ 1 f¨ ist auch (b) nicht anwendbar. Beispiele f¨ u r Reihen, bei denen diese Situation vorliegt, ) )∞ −1 k −1 sind die harmonische Reihe ∞ k und die alternierende Reihe (−1) k . Im k=1 k=1 ersten Fall ist die Reihe divergent und im zweiten konvergent.
78
2 Folgen und Reihen
Es gibt jedoch Reihen, bei denen das Quotientenkriterium keine Entscheidung erm¨oglicht, das Wurzelkriterium dagegen schon. Eine solche erh¨alt man, wenn man die reelle Zahlenfolge (ak )k∈N betrachtet, die folgendermaßen definiert ist: 1 1 a2j−1 := j , a2j := j f¨ ur j ∈ N. 2 3 )∞ Bildet man damit die Reihe k=1 ak , so zeigt das Wurzelkriterium ihre Konvergenz. 1 ur alle j und entsprechend Denn es ist ja (3−j ) 2j = √13 < 1 f¨ :
1 2j
1 ; 2j−1
: =
1 √ √ 2( 2)2j−1
1 ; 2j−1
1 n, so ist offenbar supk≥m ak ≤ supk≥n ak , somit ist die Folge (σn )n∈N monoton fallend. Ist nun die Folge (σn )n∈N auch noch nach unten beschr¨ankt, (das ist sicher der Fall, wenn die Folge (ak )k∈N beschr¨ ankt ist), so ist sie konvergent und folglich kann man den Limes superior definieren durch lim sup ak := lim sup ak . k→∞
n→∞ k≥n
Dieser Definition kann man auch noch dann einen Sinn geben, wenn die Folge (σn )n∈N nicht nach unten beschr¨ ankt ist. Dann muss ja σn → −∞ gelten, und in diesem Sinn ist dann auch limn→∞ supk≥n ak zu verstehen. Ist die reelle Zahlenfolge (ak )k∈N nicht nach oben beschr¨ankt, so ist es offenbar sinnvoll, zu definieren lim supk→∞ ak := ∞. (Es gibt jedoch auch die Auffassung, dass in diesem Fall der Limes superior nicht existiert.) Es sei noch erw¨ ahnt, dass man auf ganz analoge Weise den Limes inferior einf¨ uhrt durch lim inf ak := lim inf ak . k→∞
n→∞ k≥n
In Hinblick auf das Wurzelkriterium ist nun die folgende Charakterisierung des Limes superior von Interesse:
2.4 Reihen
79
Satz 2.20 Sei (ak )k∈N eine reelle Zahlenfolge. Dann gilt: ur alle ρ > s die (a) F¨ ur eine Zahl s ∈ R gilt genau dann s = lim supk→∞ ak , wenn f¨ Bedingung ak ≥ ρ h¨ ochstens f¨ ur endlich viele k ∈ N und f¨ ur alle σ < s die Bedingung ur unendlich viele k ∈ N erf¨ ullt ist. ak > σ f¨ ur alle σ ∈ R die Bedingung (b) Es gilt genau dann lim supk→∞ ak = ∞, wenn f¨ ak > σ f¨ ur unendlich viele k ∈ N erf¨ ullt ist. ur alle ρ ∈ R die Bedingung (c) Es gilt genau dann lim supk→∞ ak = −∞, wenn f¨ ak ≥ ρ h¨ ochstens f¨ ur endlich viele k ∈ N erf¨ ullt ist. Beweis: Wir verwenden wieder die Notation σn = supk≥n ak . Zu (a): Sei angenommen, dass f¨ ur die Zahl s ∈ R gelte s = limn→∞ σn . Ist dann ρ > s, so gibt es ein n0 ∈ N mit |σn − s| < ρ − s f¨ ur alle n ≥ n0 . Wegen σn − s ≥ 0 folgt daraus ur n ≥ n0 . Damit muss aber ak < ρ f¨ ur alle k ≥ n0 gelten. Folglich kann ak ≥ ρ σn < ρ f¨ nur f¨ ur h¨ ochstens endlich viele k ∈ N gelten. Ist σ < s beliebig gegeben, so gilt, (da ja die Folge (σn )n∈N monoton fallend ist), σn > σ f¨ ur alle n. Ist aber supk≥n ak > σ, so muss es ein kn ≥ n geben mit akn > σ. Dies zeigt, dass es unendlich viele ak mit ak > σ gibt. Sei nun angenommen, dass die Zahl s ∈ R die Eigenschaft hat, dass f¨ ur alle ρ > s die ochstens f¨ ur endlich viele k ∈ N und f¨ ur alle σ < s die Bedingung Bedingung ak ≥ ρ h¨ ak > σ f¨ ur unendlich viele k ∈ N erf¨ ullt ist. Gilt aber ak > σ f¨ ur unendlich viele k ∈ N, ur alle n und somit limn→∞ σn ≥ σ. Da dies f¨ ur alle σ < s gilt, so gilt sicher σn ≥ σ f¨ folgt lim supk→∞ ak ≥ s. Ist nun ρ > s beliebig gegeben, so gibt es nach Annahme ein n0 ∈ N mit ak < ρ f¨ ur alle k ≥ n0 . Damit ist aber auch supk≥n ak ≤ ρ f¨ ur alle n ≥ n0 . Es folgt lim supk→∞ ak ≤ ρ und, da ρ > s beliebig war, weiter lim supk→∞ ak ≤ s. Die zwei gewonnenen Ungleichungen zusammen ergeben lim supk→∞ ak = s. Zu (b): Es ist zu zeigen, dass die Folge (ak )k∈N genau dann nicht nach oben beschr¨ankt ur unendlich viele k ∈ N erf¨ ullt ist. ist, wenn f¨ ur alle σ ∈ R die Bedingung ak > σ f¨ ankt, so gibt es zu jedem σ ∈ R ein k ∈ N mit Ist die Folge nicht nach oben beschr¨ ak > σ. W¨ are dies f¨ ur ein σ0 nur ur endlich viele k, etwa k1 , . . . , km der Fall, so w¨ urde )mf¨ es kein k ∈ N geben mit ak > j=1 |akj |. ur unendlich viele k ∈ N erf¨ ullt, so ist die Ist aber f¨ ur alle σ ∈ R die Bedingung ak > σ f¨ Folge (ak )k∈N sicher nicht nach oben beschr¨ ankt. Zu (c): Es ist zu zeigen, dass die Folge (σn )n∈N genau dann nicht nach unten beschr¨ankt ur endlich viele k ∈ N erf¨ ullt ist, wenn f¨ ur alle ρ ∈ R die Bedingung ak ≥ ρ h¨ochstens f¨ ist. Ist die Folge (σn )n∈N nicht nach unten beschr¨ ankt, so gibt es zu jedem ρ ∈ R ein n0 ∈ N mit σn0 < ρ. Dann gilt nat¨ urlich auch ak < ρ f¨ ur alle k ≥ n0 . Es kann also ak ≥ ρ h¨ ochstens f¨ ur endlich viele k gelten. Ist aber f¨ ur alle ρ ∈ R die Bedingung ak ≥ ρ h¨ochstens f¨ ur endlich viele k ∈ N erf¨ ullt, so gibt es offenbar zu jedem ρ ∈ R ein k mit ak < ρ. Damit ist die Folge (ak )k∈N nicht ankt. nach unten beschr¨ ! Damit k¨ onnen wir nun die folgende Variante des Wurzelkriteriums beweisen:
80
2 Folgen und Reihen
Korollar 2.4 )∞ 1 Sei k=1 xk eine Reihe im Banachraum (X, 9 9) und sei s := lim supk→∞ 9xk 9 k . Dann gilt: ) (a) Ist s < 1, so ist die Reihe ∞ k=1 xk absolut konvergent. ) (b) Ist s > 1 oder s = ∞, so ist die Reihe ∞ k=1 xk divergent. Beweis: Zu (a): Ist s < 1, so gibt es ein α ∈ R mit s < α < 1. Nach Satz 2.20 (a) gibt es dann 1/k < α f¨ ur alle k ≥ k0 . Nach Satz 2.19 ist damit aber die Reihe ein ) k0 ∈ N mit 9xk 9 xk absolut konvergent. ur Zu (b): Ist s ∈ R mit s > 1, so ist nach Satz 2.20 (a) die Bedingung 9xk 91/k)> 1 f¨ unendlich viele k erf¨ ullt. Nach Satz 2.19 folgt daraus die Divergenz der Reihe xk . Ist ur unendlich s = ∞, so ist nach Satz 2.20 (b) ebenfalls die Bedingung 9xk 91/k > 1 f¨ viele k erf¨ ullt. ! 1
Der in Korollar 2.4 nicht angesprochene Fall lim supk→∞ 9xk 9 k = 1 erlaubt wieder keine Entscheidung ) u ¨ ber Konvergenz oder Divergenz der Reihe. )∞ Das zeigen erneut die ∞ harmonische Reihe k=1 (1/k) und die alternierende Reihe k=1 (−1)k (1/k). Denn in beiden F¨ allen kommt es auf lim sup | k1 |1/k an und es gilt lim sup | k1 |1/k = 1. Dies zeigt das folgende einfache Resultat: Lemma 2.15 Sei (ak )k∈N eine konvergente reelle Zahlenfolge. Dann gilt lim inf ak = lim ak = lim sup ak . k→∞
k→∞
k→∞
Beweis: Als konvergente Folge ist die Folge (ak )k∈N beschr¨ankt, also ist lim inf k→∞ ak ∈ R und lim supk→∞ ak ∈ R. Ist a := limk→∞ ak , so gibt es zu jedem ε > 0 ein k0 ∈ N, so dass a − ε < ak < a + ε f¨ ur alle k ≥ k0 gilt. Dann ist aber inf k≥k0 ak ≥ a − ε und supk≥k0 ak ≤ a + ε. Es folgt a − ε ≤ lim inf ak ≤ lim sup ak ≤ a + ε. k→∞
k→∞
Da ε > 0 beliebig war, folgt daraus die Behauptung.
!
Es ist einfach, Folgen anzugeben, bei denen der Limes inferior und der Limes superior verschieden sind. Als Beispiel sei hier nur die Folge (ak )k∈N mit ak = (−1)k angegeben. F¨ ur diese gilt offenbar lim inf k→∞ ak = −1 und lim supk→∞ ak = 1. Im n¨ achsten Abschnitt werden wir das Wurzelkriterium und das Quotientenkriterium zur Diskussion von Potenzreihen heranziehen.
2.4 Reihen
2.4.4
81
Potenzreihen
Schon die Einf¨ uhrung der Exponentialfunktion hat sichtbar gemacht, dass es sinnvoll ist, sich mit folgendem Problem zu besch¨ aftigen: ur jedes z ∈ C die Reihe Ist (ak )k∈N∪{0} eine komplexe Zahlenfolge, so kann man f¨ )∞ k a z bilden, und es stellt sich die Frage, f¨ u r welche z ∈ C diese konvergent sein k k=0 wird. So eine Reihe nennt man Potenzreihe, und es geht also letztlich darum, aren, )zu kl¨ f¨ ur welche z ∈ C man mit Hilfe so einer Potenzreihe eine Funktion z /→ ak z k ∈ C definieren kann. Sofort klar ist, dass dies f¨ ur z = 0 immer unproblematisch ist, denn f¨ ur z = 0 ist ein Potenzreihe immer konvergent. (F¨ ur z = 0 gilt ja f¨ ur alle Partialsummen der Reihe sn = a0 .) Ist z = 0 die einzige komplexe Zahl, f¨ ur die die Potenzreihe konvergent ist, so ist ) die Reihe nat¨ urlich f¨ ur unser Ziel, eine Funktion z /→ ak z k ∈ C zu definieren, nicht sonderlich passend. achlich solche ung¨ unstig aufgebauten Potenzreihen, )∞ Es gibt aber tats¨ z.B. die Reihe k=0 k k z k . Dass diese f¨ ur kein z = 3 0 konvergent ist, folgt rasch mit Hilfe des Wurzelkriteriums. Denn es ist |k k z k |1/k = k|z| und f¨ ur |z| = 3 0 gilt k|z| → ∞ f¨ ur ur alle k ≥ k0 . k → ∞, weshalb es ein k0 ∈ N gibt mit |k k z k |1/k ≥ 1 f¨ Man kann jedoch das Konvergenzverhalten einer Potenzreihe sehr gut in Abh¨angigkeit von der Koeffizientenfolge (ak )k∈N∪{0} beschreiben: Satz 2.21 Sei (ak )k∈N∪{0} eine komplexe Folge. Dann gilt:
)∞ 1 (a) Ist lim supk→∞ |ak | k = 0, so ist die Reihe k=0 ak z k f¨ ur alle z ∈ C absolut konvergent. ) 1 k ur alle z ∈ C mit (b) Ist lim supk→∞ |ak | k = ρ > 0, so ist die Reihe ∞ k=0 ak z f¨ 1 1 ur alle z ∈ C mit |z| > ρ divergent. |z| < ρ absolut konvergent und f¨ )∞ 1 k (c) Ist lim supk→∞ |ak | k = ∞, so ist die Reihe ur alle z ∈ C \ {0} k=0 ak z f¨ divergent. # # )∞ #a # ur (d) Existiert limk→∞ # ak+1 # = ρ ∈ R, so ist die Reihe k=0 ak z k im Fall ρ = 0 f¨ k )∞ k alle z ∈ C absolut konvergent, ist aber ρ > 0, so ist die Reihe k=0 ak z f¨ ur alle ur alle z ∈ C mit |z| > ρ1 divergent. z ∈ C mit |z| < ρ1 absolut konvergent und f¨ Beweis: 1 ur jedes z ∈ C Zu (a): Ist lim supk→∞ |ak | k = 0, so gilt f¨ 1
1
lim sup |ak z k | k = lim sup |z||ak | k = 0. k→∞
k→∞
1
1
uheren Resultaten (Man beachte, dass supk≥n |z||ak | k = |z| supk≥n |ak | k und nach fr¨ 1 1 zu konvergenten Folgen limn→∞ |z| supk≥n |ak | k = |z| limn→∞ supk≥n |ak | k gilt.) Nach
82
2 Folgen und Reihen
)∞ Korollar 2.4 (a) ist damit die Reihe k=0 ak z k absolut konvergent. 1 Zu (b): Ist lim supk→∞ |ak | k = ρ > 0, so gilt f¨ ur beliebiges z ∈ C 1
lim sup |ak z k | k = |z|ρ. k→∞
1
Ist |z| < ρ1 , so ist also lim supk→∞ |ak z k | k < 1 und damit ist wieder nach Korollar 2.4 )∞ die Reihe k=0 ak z k absolut konvergent. Ist aber |z| > 1ρ , so folgt entsprechend die Divergenz der Reihe. 1 1 Zu (c): Ist lim supk→∞ |ak | k = ∞, so gilt auch ur alle z 3= 0 lim supk→∞ |ak z k | k = ∞ )∞ f¨ k und somit ist nach Korollar 2.4 die Reihe k=0 ak z divergent. ur z 3= 0 gilt dann Zu (d): Sei zuerst der Fall limk→∞ |ak+1 |/|ak | = 0 betrachtet. F¨ # # # # # # ak+1 z k+1 # # # = |z| lim # ak + 1 # = 0. lim ## k→∞ k→∞ # ak # ak z k # Damit gibt es aber ein k0 ∈ N mit # # # ak + 1 # 1 # # ur k ≥ k0 . # ak # < 2 f¨ )∞ ur Nach Satz 2.18 ist damit die Reihe k=0 ak z k absolut konvergent, und zwar sogar f¨ alle z ∈ C, weil dies u r z = 0 immer richtig f¨ ist. # # # # Sei nun limk→∞ # aak+1 # = ρ > 0. Dann ist k # # # ak+1 z k+1 # # = |z|ρ. lim ## k→∞ ak z k #
(2.15)
Ist z ∈ C mit |z|ρ < 1, so gibt es wegen (2.15) ein k0 ∈ N mit # # # ak+1 z k+1 # 1 1 # # ur k ≥ k0 . # ak z k # ≤ |z|ρ + 2 (1 − |z|ρ) = 2 (1 + |z|ρ) < 1 f¨ ) k Damit folgt aber wieder die absolute Konvergenz der Reihe ∞ k=0 ak z nach Satz 2.18. Ist aber |z|ρ > 1, so gibt es wegen (2.15) ein k0 ∈ N mit # # # ak+1 z k+1 # # # ur k ≥ k0 . # ak z k # ≥ 1 f¨ ) k Nach Satz 2.18 ist damit die Reihe ∞ ! k=0 ak z divergent. Liegt die Situation von Teil (b) des letzten Satzes vor, so ist die Potenzreihe absolut konvergent f¨ ur |z| < ρ1 und divergent f¨ ur |z| > 1ρ . Die Frage, was geschieht, wenn |z| = 1ρ ist, bleibt bei diesem Satz unbeantwortet. Tats¨achlich l¨asst sich darauf auch gar keine allgemein g¨ ultige Antwort geben. Dazu seien kurz die folgenden drei Reihen diskutiert: )∞ 1 k )∞ 1 k )∞ k (1) k=1 k2 z . k=1 z , (2) k=1 k z , (3)
2.4 Reihen
83
utzung des Ergebnisses von Satz 2.21 (d) sieht man bei allen drei Reihen, dass Unter Ben¨ sie f¨ ur |z| < 1 konvergent und f¨ ur |z| > 1 divergent sind. In Hinblick auf das Verhalten im Fall |z| = 1 unterscheiden sie sich aber deutlich. Die Reihe (1) ist stets, wenn |z| = 1 ist, divergent, denn die Folge (z k )k∈N ist im Fall |z| = 1 keine Nullfolge. Die Reihe (2) ist wegen der Divergenz der harmonischen Reihe ebenfalls divergent, wenn z)= 1 ist. Ist aber z = −1, so ist sie wegen der Konvergenz der alternierenden Reihe (−1)k (1/k) konvergent. Man kann sogar zeigen, dass sie f¨ ur alle z mit |z| = 1 ∧ z 3= 1 konvergent ist. (Siehe dazu etwa Rudin [7].) Die Reihe (3) ist f¨ ur alle z mit |z| = 1 konvergent. Denn es ist ja f¨ ur all diese )dagegen z die Reihe k −2 eine konvergente Majorante. Identifiziert man die komplexen Zahlen z = x+iy wieder mit den Paaren (x, y) ∈ R2 und veranschaulicht sie damit als Punkte einer Ebene, so ist die Menge der komplexen Zahlen mit |z| < r zu identifizieren mit den Punkten des durch die Ungleichung x2 + y 2 < 1 beschriebenen Kreises vom Radius r und mit Mittelpunkt im Ursprung (0, 0) in der Ebene. Man spricht daher auch vom Konvergenzkreis einer Potenzreihe, der bestimmt ist durch den durch 1 r= lim sup |ak |1/k k→∞
gegebenen Konvergenzradius. Bei dieser Formel ist zu beachten, dass r = 0 zu setzen ist, wenn lim supk→∞ |ak |1/k = ∞ ist, und r = ∞, wenn lim supk→∞ |ak |1/k = 0 ist. Dies ist offenbar im Einklang mit den Ergebnissen von Satz 2.21. H¨ aufig formuliert man dann zum Konvergenzverhalten von Potenzreihen folgendermaßen: Eine Potenzreihe ist innerhalb des Konvergenzkreises absolut konvergent, außerhalb des Konvergenzkreises divergent, und f¨ ur die Punkte auf dem Rand des Konvergenzkreises kann man keine allgemeine Aussage machen. Das Ergebnis von Satz 2.21 (d) zeigt, dass man, wenn der entsprechende Grenzwert existiert, den Konvergenzradius einer Potenzreihe auch berechnen kann mit Hilfe der Formel # # # ak # #, # r = lim # k→∞ ak+1 # wobei hier als Grenzwert im Sinne der Diskussion in Abschnitt 2.1 auch ∞ zugelassen ist. ) 1 k ur Mit Hilfe dieser Formel kann man z.B. sofort sehen, dass die Potenzreihe ∞ k=0 k! z f¨ alle z ∈ C konvergiert. Denn es gilt ja (k + 1)! = k + 1 → ∞ f¨ ur k! Damit kann man sogar f¨ ur z ∈ C definieren exp(z) :=
k → ∞.
∞ = 1 k z . k!
k=0
Es ist klar, dass, wenn Im z = 0 ist, man als Wert dieser Funktion genau exp(Rez) mit der in Abschnitt 2.4.2 definierten Exponentialfunktion erh¨alt. Damit hat man also
84
2 Folgen und Reihen
die auf R definierte Exponentialfunktion exp : R → R fortgesetzt zu einer Funktion exp : C → C. Mit einer wichtigen Eigenschaft dieser Funktion werden wir uns bald besch¨ aftigen. Wir ben¨ otigen dazu aber noch Ergebnisse zur Multiplikation von Reihen.
2.4.5
Zur Addition und Multiplikation von Reihen
Sind (ak )k∈N und (bk )k∈N Folgen in K, (also in R oder in C), so kann man die Folge (ak + bk )k∈N , aber auch die Folge (ak bk )k∈N bilden. Die so ) definierte Addition kann man ) bk zu definieren. auch sinnvoll ben¨ utzen, um die Addition der zwei Reihen ak und Denn gilt etwa ak = ur k)≥ m, so reduzieren sich ja die zwei Reihen auf die )bk = 0 f¨ m a und at und Assoziativit¨at endlichen Summen m k=1 k k=1 bk und die Kommutativit¨ der Addition reeller oder komplexer Zahlen zeigt, dass m =
ak +
k=1
m =
bk =
m =
(ak + bk )
k=1
k=1
gilt. Damit wird man auch f¨ ur Reihen allgemein definieren ∞ = k=1
ak +
∞ =
bk :=
k=1
∞ =
(ak + bk ).
k=1
Diese Definition ist auch v¨ ollig unproblematisch in Hinblick auf die Konvergenz, denn es gilt das folgende einfache Resultat: Lemma 2.16
)∞ )∞ Sind die Reihen k=1 ak und k=1 bk konvergent, so ist auch die Reihe ) ∞ ur die Werte dieser konvergenten Reihen k=1 (ak + bk ) konvergent und es gilt f¨ ∞ =
(ak + bk ) =
k=1
∞ = k=1
ak +
∞ =
bk .
k=1
Beweis: )n )n )n Setzt man Sn := k=1 (ak + bk ), sa,n := k=1 ak und sb,n := k=1 bk , so gilt ja Sn = sa,n + sb,n . Da die Folgen (sa,n )n∈N und (sb,n )n∈N konvergent sind, ist damit auch die Folge (Sn )n∈N konvergent und es gilt limn→∞ Sn = limn→∞ sa,n + limn→∞ sb,n . Das ist aber die Behauptung u ! ¨ber die Werte der drei Reihen. Die Folge (ak bk )k∈N ist jedoch nicht passend, um eine Multiplikation von Reihen zu definieren, die dem entspricht, was bei der Multiplikation von endlichen Summen komplexer Zahlen geschieht. Denn es gilt ⎞ ⎛ 2 n 2 n 5 5⎛ n ⎞ n n n = = = = = = ⎝ ak b j , bj ⎠ = ak b j ⎠ = ak ⎝ k=1
j=1
k=1
j=1
j=1
k=1
2.4 Reihen
85
und es werden dabei alle Produkte ak bj mit (k, j) ∈ {1, . . . , n} × {1, . . . , n} und nicht nur die Produkte ak bk mit k = 1, . . . , n aufsummiert, allerdings bei den zwei Summen in deutlich verschiedener Reihenfolge. Man kann aber nat¨ urlich alle Produkte ak bj mit (k, j) ∈ {1, . . . , n} × {1, . . . , n} noch in anderer Reihenfolge aufsummieren, und zwar etwa in der Form ⎞ ⎛ 2n = = ⎝ ak b j ⎠ , (2.16) m=2
k+j=m
) wobei man in der Summe k+j=m ak bj sogar alle m¨oglichen Paare (k, j) von Indizes, die k + j = m erf¨ ullen, durchlaufen kann, wenn man ak = 0 und bj = 0 setzt, wenn k > n bzw.)j > n ist. Dies ) istj besonders passend bei der Multiplikation von Summen der Form αk z k und βj z . Denn dann liefert (2.16), wenn man ak = αk z k und bj = βj z j setzt, die Summe ⎛ ⎞ = = = = ⎝ αk βj z k+j = αk βj ⎠ z m . m k+j=m
m
k+j=m
¨ Dies zeigt, dass eine Summation wie in (2.16) bei einer Ubertragung auf den Fall von zwei Potenzreihen als Ergebnis wieder eine Potenzreihe liefern wird! In Hinblick auf) den wichtigen Fall der Potenzreihen definieren wir daher nun f¨ ur Reihen ) ∞ ∞ n=0 an und n=0 bn mit an , bn ∈ C das Cauchyprodukt durch ⎞ ⎛ 2∞ 5⎛ ∞ ⎞ ∞ = = = = ⎝ ak b j ⎠ . bj ⎠ := ak ⎝ k=0
j=0
n=0
k+j=n
Diese Definition wird sinnvoll sein, wenn wenigstens in wichtigen F¨allen die rechts stehende Reihe ebenfalls konvergent ist und die Gleichung dann auch f¨ ur die Werte der Reihen gilt. F¨ ur absolut konvergente Reihen ist dies auch tats¨achlich richtig, (somit auch f¨ ur Potenzreihen). Satz 2.22 ur k ∈ N ∪ {0} und seien die Reihen Seien ak ∈ C, bk ∈ C f¨ absolut konvergent. Definiert man dann ck :=
k =
aj bk−j
f¨ ur
)∞
k=0
ak und
)∞
k=0 bk
k ∈ N ∪ {0},
j=0
)∞ ur die Werte der Reihen so ist auch die Reihe k=0 ck absolut konvergent und es gilt f¨ 2∞ 5 2∞ 5 ∞ = = = ck = ak · bk . (2.17) k=0
k=0
k=0
86
2 Folgen und Reihen
Beweis: F¨ ur n ∈ N gilt n =
⎞ 2 ⎛ 5 n n n n = = = = = ⎠ ⎝ aj b k . ai b j − ck − aj · bk = j=0
k=0
)n
j,k=0
k=0 i+j=k
k=0
)
Alle in k=0 i+j=k ai bj auftretenden Summanden kommen offenbar auch in der Sum) me nj,k=0 aj bk vor. Diese zweite Summe umfasst aber mehr Summanden, und zwar treten diejenigen Produkte aj bk , f¨ ur die j + k > n ist, zus¨atzlich auf. Setzt man A(n) := {(j, k) ∈ N × N : j ≤ n ∧ k ≤ n ∧ j + k > n}, so gilt also n =
⎛ ck − ⎝
k=0
⎞ 2 5 n = ⎠ aj · bk = −
n = j=0
k=0
=
aj b k .
(j,k)∈A(n)
Wegen der Bedingung j + k > n folgt aus (j, k) ∈ A(n), dass j > n2 ∨ k > n2 gelten muss. Sei n m(n) := min{μ ∈ N : μ > }. 2 Dann kann man absch¨ atzen ⎛ ⎞⎛ ⎞2 ⎞ 5 ⎛ n n n n = = = = = |aj bk | ≤ ⎝ |aj |⎠ ⎝ |bk | + ⎝ |aj |⎠ |bk |⎠ (j,k)∈A(n)
j=m(n)
⎛ ≤ ⎝
∞ =
⎞2 |aj |⎠
j=m(n)
k=0 ∞ =
⎛
5 |bk |
+⎝
j=0 ∞ = j=0
k=0
⎞⎛ |aj |⎠ ⎝
k=m(n) ∞ =
⎞ |bk |⎠ .
k=m(n)
¨ F¨ ur die weiteren Uberlegungen setzen wir α :=
∞ = k=0
|ak |,
β :=
∞ =
|bk |,
k=0
und nehmen an, dass α > 0 und β > 0 ist. Ist α = 0 oder β = 0, so ist n¨amlich die ur alle k gelten muss. Behauptung des Satzes trivial, weil ja dann ak = 0 oder bk = 0 f¨ Offensichtlich gilt m(n) → ∞ f¨ ur n → ∞. Damit gibt es aber zu jedem ε > 0 ein n0 ∈ N mit ∞ ∞ = = 1 1 ε und ε |bk | < |aj | < 2β 2α j=m(n)
k=m(n)
f¨ ur n ≥ n0 . Zusammenfassend erhalten wir damit die Absch¨atzung # ⎞2 ⎛ 5## # n n n = = #= # ε ε # β+α = ε f¨ ur n ≥ n 0 . ck − ⎝ aj ⎠ bk ## < # 2α #k=0 # 2β j=0 k=0
2.4 Reihen
87
)∞ ultigkeit von Daraus folgt aber rasch die Konvergenz der Reihe k=0 ck und die G¨ (2.17). Denn wir k¨ onnen weiter absch¨ atzen # # ⎞2 ⎞2 ⎛ ⎛ 5## 5## #= #= n n ∞ ∞ = = = = # n # # # n # bk ## bk ## ≤ ## ck − ⎝ aj ⎠ ck − ⎝ aj ⎠ # #k=0 # # #k=0 j=0 j=0 k=0 k=0 #⎛ ⎞2 ⎞2 ⎛ 5## 5 # = ∞ ∞ n = = = # n # + ##⎝ aj ⎠ bk ## aj ⎠ bk − ⎝ # j=0 # j=0 k=0 k=0 und es gilt wegen
⎛⎛ lim ⎝⎝
n→∞
n = j=0
⎞2 aj ⎠
n =
5⎞
⎛
bk ⎠ = ⎝
∞ =
⎞2 aj ⎠
j=0
k=0
∞ =
5 bk
k=0
auch
#⎛ ⎞2 5 ⎛ ∞ ⎞ 2 ∞ 5## # n n = = = # = # #⎝ aj ⎠ bk − ⎝ aj ⎠ bk ## < ε f¨ ur n ≥ n 1 . # # j=0 # j=0 k=0 k=0 )∞ Damit ist nur noch zu zeigen, dass die Reihe k=0 ck sogar absolut konvergent ist. Dies k¨ onnen wir aber mit dem Majorantenkriterium erledigen. Denn wir )∞k¨onnen die ¨ bisherigen Uberlegungen auch ausgehend von den konvergenten Reihen )∞ k=0 |ak | und )∞ | durchf¨ u hren und erhalten dann die Konvergenz der Reihe k k=0 |b k=0 dk , die mit ) ) dk := |ck | ≤ |aμ | |bν | = dk gilt, folgt μ+ν=k |aμ | |bν | gebildet ist. Da aber μ+ν=k ) ! damit die absolute Konvergenz der Reihe ck nach dem Majorantenkriterium. Korollar 2.5
)∞ ) k k ur |z| < r konvergent und sei Seien die Potenzreihen ∞ k=0 ak z und k=0 bk z f¨ )∞ ) ∞ k k f (z) := k=0 ak z und g(z) := k=0 bk z f¨ ur |z| < r. Dann gilt: Ist die Funktion h : {z ∈ C : |z| < r} → C definiert durch h(z) := f (z)g(z), so gilt ⎛ ⎞ ∞ k = = ⎝ h(z) = aj bk−j ⎠ z k f¨ ur |z| < r. (2.18) k=0
j=0
Beweis: Da f¨ ur beide Potenzreihen der Kreis {z ∈ C : |z| < r} im Konvergenzkreis enthalten sein muss, sind die beiden Potenzreihen in diesem Kreis absolut konvergent. Damit ist Satz 2.22 einsetzbar und die Behauptung ergibt sich daraus, dass das Cauchyprodukt der zwei Potenzreihen genau die in (2.18) notierte Potenzreihe liefert. ! Als erstes Beispiel zur Anwendung des Cauchyprodukts sei gezeigt, dass man unter Ben¨ utzung von Korollar 2.5 auf ganz einfache Weise eine Darstellung der Funktion h(z) :=
1 (1 − z)2
f¨ ur
z∈C
mit
|z| < 1
88
2 Folgen und Reihen
in Form einer Potenzreihe erhalten kann. Man geht dazu aus von der geometrischen )∞ Reihe k=0 z k , die offenbar den Konvergenzradius r = 1 hat. Innerhalb des Konvergenzkreises gilt ∞ = 1 . zk = 1−z k=0
Dies ergibt sich sofort daraus, dass f¨ ur n ∈ N gilt n =
zn =
k=0
1 − z n+1 . 1−z
(Siehe dazu die Gewinnung der Formel (2.12).) Damit muss nun das Cauchyprodukt der geometrischen Reihe mit sich selbst eine Potenzreihendarstellung f¨ ur die Funktion )k h liefern. Man muss dazu offenbar die Koeffizienten ck = j=0 aj bk−j mit ak = bk = 1 ur alle k und somit f¨ ur alle k ausrechnen. Dies ergibt ck = k + 1 f¨ ∞
= 1 = (k + 1)z k 2 (1 − z)
f¨ ur
|z| < 1.
k=0
Als zweites Beispiel sei die sogenannte Funktionalgleichung f¨ ur die Exponentialfunktion gewonnen, die sich als sehr wichtig f¨ ur weitere Resultate erweisen wird. Satz 2.23 F¨ ur beliebige z, ζ ∈ C gilt exp(z + ζ) = exp(z) · exp(ζ).
(2.19)
Beweis: Es reicht nach unseren Ergebnissen zum Cauchyprodukt aus, zu zeigen, das Cauchy) )∞ dass 1 k 1 k produkt der zwei (absolut konvergenten) Reihen ∞ z und ζ genau die k=0 k! k=0 k! )∞ 1 (z + ζ)k ergibt, denn diese hat ja den Wert exp(z + ζ). Reihe k=0 k! 1 k 1 k Sei also ak := k! z und bk := k! ζ f¨ ur k ∈ N0 . Dann gilt ck =
k = j=0
aj bk−j =
k k : ; = 1 = k j k−j 1 1 j z ζ k−j = . z ζ j! (k − j)! k! j=0 j j=0
Nach dem binomischen Lehrsatz gilt damit ck = ) 1 k produkt tats¨ achlich die Reihe ∞ k=0 k! (z + ζ) .
1 k k! (z+ζ)
und somit ergibt das Cauchy!
Aus der Funktionalgleichung (2.19) folgt offenbar sofort exp(2) = exp(1 + 1) = exp(1) · exp(1) = e2 . Ein einfacher Induktionsschluss liefert dann weiter exp(n) = en
f¨ ur
n ∈ N.
2.4 Reihen
89
F¨ ur beliebiges z ∈ C gilt nach (2.19) 1 = exp(0) = exp(z − z) = exp(z) · exp(−z). Es gilt daher exp(−z) =
1 exp(z)
f¨ ur
z ∈ C.
¨ Diese Uberlegung zeigt auch, dass exp(z) 3= 0 f¨ ur alle z ∈ C gilt. Wir k¨ onnen nun auch f¨ ur n ∈ N notieren exp(−n) =
1 1 = n = e−n . exp(n) e
ur alle x ∈ Z. Damit gilt exp(x) = ex f¨ Dies k¨ onnen wir nun sogar verallgemeinern f¨ ur alle x ∈ Q. Ist r ∈ Q, also r = p/q mit p ∈ Z und q ∈ N, so kann man unter Verwendung der Funktionalgleichung (2.19) schreiben (exp(r))q = exp(q · r) = exp(p) = ep .
(2.20)
sogar exp(x) > 0 f¨ ur alle x ∈ R. F¨ ur x ≥ 0 folgt Nun ist aber ep > 0, allgemeiner )∞ 1 gilt dies sofort aus exp(x) = k=0 k! xk und f¨ ur x < 0 ergibt es sich aus exp(x) = exp(−|x|) =
1 > 0. exp(|x|)
1
Damit folgt aber aus (2.20) exp(r) = (ep ) q und man wird nun nat¨ urlich definieren 1 r p/q p q := (e ) . Hat man dadurch f¨ ur alle x ∈ Q der Gleichung exp(x) = ex einen e =e wohl begr¨ undeten Sinn gegeben, so ist es naheliegend, noch allgemeiner zu definieren ur ez := exp(z) f¨
z ∈ C.
Insbesondere erh¨ alt man, wenn Imz = 0 ist, exp(z) = exp(Rez + iImz) = exp(Rez), so dass man einfach f¨ ur x ∈ R notieren kann exp(x) = ex . Sp¨ater werden wir sogar ur a > 0 und x ∈ R definieren. ausgehend von der Funktion x /→ ex allgemeiner ax f¨ Ist z = x + iy ∈ C, so liefert die Funktionalgleichung ez = ex · eiy . Definiert man nun f¨ ur y ∈ R cos y := Re(eiy ), sin y :== Im(eiy ), so kann man also notieren ex+iy = ex (cos y + i sin y). Es wurden nun die aus der Schule bereits bekannten Funktionen cos und sin neu eingef¨ uhrt und es wird noch zu zeigen sein, dass die auf diese Weise definierten Funktionen die Eigenschaften haben, die man von der Schule her mit Cosinus und Sinus verbindet. Leicht zu sehen ist etwa, dass gilt sin(−y) = − sin(y),
cos(−y) = cos(y) f¨ ur
y ∈ R.
(2.21)
90
2 Folgen und Reihen
Das ergibt sich folgendermaßen: Da Konvergenz in C identisch mit Konvergenz der Realteile und Konvergenz der Imagin¨ arteile ist, (siehe Lemma 2.7), folgt bei Folgen in C aus zn)→ ζ immer zn → ζ. ∞ 1 k Damit folgt aber, wenn sn (z) die Partialsummen der Reihe k=0 k! z sind, wegen sn (z) = sn (z) exp(z) = exp(z). Damit gilt aber f¨ ur y ∈ R eiy = eiy = e−iy . Wir k¨ onnen daher notieren Re(e−iy ) =Re(eiy ) und Im(e−iy ) = −Im(eiy ). Das ist aber genau (2.21). ¨ Diese Uberlegungen liefern auch noch die G¨ ultigkeit von (sin(y))2 + (cos(y))2 = 1
f¨ ur
y ∈ R.
Denn es gilt ja exp(iy) exp(−iy) = 1, somit eiy eiy = 1. Nach Satz 1.14 gilt damit |eiy |2 = 1, somit (cos(y))2 + (sin(y))2 = 1. Im n¨ achsten Kapitel werden wir die Cosinus-Funktion ben¨ utzen, um die ebenfalls aus der Schule bekannte Zahl π einzuf¨ uhren. Wir werden dabei auf eine wichtige Eigenschaft der Cosinus-Funktion zur¨ uckgreifen, die man als Stetigkeit bezeichnet. Mit dem ganz zentralen Begriff der Stetigkeit von Abbildungen werden wir uns im n¨achsten Kapitel besch¨ aftigen. Aufgaben 1. Sei (an )n∈N eine komplexe Folge. Man zeige: 3 0 f¨ ur alle (a) Konvergiert die Folge (an )n∈N gegen ein a ∈ C \ {0} und gilt an = = 1. n ∈ N, so gilt limn→∞ an+1 a−1 n (b) Konvergiert die rekursiv durch b1 := a1 , bn+1 := bn an+1 definierte Folge (bn )n∈N gegen ein b ∈ C \ {0}, so konvergiert die Folge (an )n∈N gegen 1. 2. Man pr¨ ufe die folgenden zwei Folgen auf Konvergenz und berechne gegebenenfalls ihren Grenzwert: > ! 7 &n & .. 23n (1+(n!)−1 )(n3 −n2 ) , (ii) 1 − n1 . (i) (n 3 +2)(n5 +(n+1)1/2 )n2 n∈N n∈N
3. Seien a, b ∈ R mit a ≥ 0 und b ≥ 0. Man zeige, dass √ lim n an + bn = max{a, b} n→∞
gilt. 4. Sei die Folge (an )n∈N rekursiv definiert durch a1 := 2, an+1 := 2a1n (a2n + 1). Man zeige, dass die Folge monoton fallend und nach unten beschr¨ankt ist, und bestimme limn→∞ an .
2.4 Reihen
91
ur n ∈ N sei fn : C → C definiert durch fn (z) := z 5 + n1 z − n1 und sei an ∈ C 5. F¨ jeweils eine Nullstelle von fn . (a) Man zeige, dass die Folge (an )n∈N beschr¨ankt ist. (b) Man zeige, dass die Folge (an )n∈N konvergent ist und bestimme ihren Grenzwert. 6. Man untersuche die folgenden Reihen auf Konvergenz und absolute Konvergenz: √ n )∞ )∞ )∞ √ 1/n n (i) n=1 (−1) (ii) n=1 (−1)n n n , (iii) n=1 n+1− . n2 , n3/4 ur n ∈ N0 definiert durch a0 := 1, an := 2−n , falls n eine gerade ) Zahl ist, 7. Sei an f¨ und an := 3−n , falls n eine ungerade Zahl ist. Man zeige, dass die Reihe ∞ n=0 an konvergent ist und bestimme ihren Wert. )∞ 8. Sei (an )n∈N eine komplexe Folge. Man zeige, dass die Reihe n=1 an genau ur dann absolut konvergent ist, wenn f¨ ur jede komplexe Zahlenfolge (bn )n∈N , f¨ )∞ die sup{|bn | : n ∈ N} < ∞ gilt, die Reihe n=1 bn an konvergent ist. 9. ) Sei (an )n∈N eine monoton fallende Folge reeller Zahlen und die zugeh¨orige Reihe ∞ n=1 an konvergent. Man zeige, dass dann die Folge (nan )n∈N eine Nullfolge ist. urlicher Zahlen, f¨ ur die an ≤ n − 1 gilt f¨ ur alle n ≥ 2. 10. Sei (an )n∈N0 eine Folge nat¨ )∞ an (a) Man zeige, dass die Reihe n=0 n! konvergent ist. )∞ (b) Man zeige, dass der Wert der Reihe n=0 an!n genau dann rational ist, wenn es ein m ∈ N gibt, so dass an = n − 1 gilt f¨ ur alle n ≥ m. 11. Seien an ∈ R mit an > 0 und an+1 ≥ an f¨ ur alle n ∈! N. Man > zeige: Ist die Folge )∞ an+1 ankt, so konvergiert die Reihe n=1 an − 1 . (an )n∈N beschr¨ ur die folgenden Potenzreihen: 12. Man bestimme den Konvergenzradius f¨ )∞ )∞ )∞ 1 (ii) n=0 (2 + (−1)n )n z n , (iii) n=0 2n+1 z 2n+1 . (i) n=1 n21n z n , 13. F¨ ur welche z ∈ C ist die Reihe
)∞
1 n2 n=0 n! (z)
konvergent?
ur alle n, so dass der 14. Sei (an )n∈N0 eine Folge komplexer Zahlen mit an 3= 0 f¨ )∞ n| =: α existiert. Man zeige, dass die Reihen n=1 an z 2n Grenzwert limn→∞ |a|an+1 | )∞ und n=1 an z 2n+1 den gleichen Konvergenzradius besitzen, und gebe diesen an. ur k ≥ 1. Man zeige, dass das Cauchy15. Sei a0 = b0 = 0 und ak = b0 = (−1)k √1k f¨ )∞ )∞ produkt der zwei Reihen k=0 ak und k=0 bk divergent ist. ankte Folgen reeller Zahlen. Man zeige, 16. Seien (an )n∈N und (bn )n∈N zwei beschr¨ dass gilt: lim inf an + lim inf bn ≤ lim inf (an + bn ) ≤ lim inf an + lim inf bn n→∞
n→∞
n→∞
n→∞
n→∞
≤ lim sup(an + bn ) ≤ lim sup an + lim sup bn . n→∞
n→∞
n→∞
3
Stetigkeit
Das Messen von Abst¨ anden, wie es in metrischen R¨aumen m¨oglich ist, erlaubt es, von der Stetigkeit einer Abbildung zu sprechen. Dies ist aber auch noch m¨oglich, wenn Strukturen vorhanden sind, die metrische R¨ aume in passender Weise verallgemeinern. Topologische R¨aume sind Mengen mit solchen Strukturen. Die Behandlung gewisser topologischer Grundbegriffe ist daher ganz nat¨ urlich mit der Diskussion stetiger Abbildungen verbunden.
3.1
Stetigkeit von Abbildungen, topologische Grundbegriffe
Ben¨ utzt man eine Funktion f : R → R zur Beschreibung einer realen Situation und m¨ochte man f (t0 ) f¨ ur ein t0 ∈ R m¨ oglichst genau kennen, so wird man bei der angestrebten Berechnung von f (t0 ) meist nur mit einem N¨aherungswert τ von t0 arbeiten k¨ onnen. Unter praktischen Gesichtspunkten ist es dann w¨ unschenwert, dass sich der Wert f (τ ) zunehmend weniger vom richtigen Wert f (t0 ) unterscheidet, wenn τ den ahert. Dies ist aber eine Eigenschaft der Funktion f , die keinesWert t0 besser ann¨ wegs selbstverst¨ andlich ist und die wir als Folgenstetigkeit in der folgenden Weise fassen k¨onnen: Seien (X, dX ) und (Y, dY ) metrische R¨aume. Eine Abbildung f : X → Y heißt folgenstetig im Punkt x0 ∈ X, wenn f¨ ur jede Folge (xn )n∈N , die gegen x0 konvergiert, gilt, dass die Folge (f (xn ))n∈N gegen f (x0 ) konvergiert. Man beachte, dass man die geforderte Eigenschaft auch so notieren kann, dass lim f (xn ) = f ( lim xn )
n→∞
n→∞
f¨ ur jede gegen x0 konvergente Folge (xn )n∈N gelten soll. Ganz einfache Beispiele von Abbildungen, die sogar in allen Punkten von X folgenstetig sind, sind leicht anzugeben: Ist (X, dX ) ein metrischer Raum, so ist die identische Abbildung idX in allen Punkten stetig. Denn es gilt ja, wenn (xn )n∈N eine beliebige Folge in X ist, immer idX (xn ) = xn f¨ ur alle n ∈ N. Damit folgt nat¨ urlich aus xn → x0 immer idX (xn ) → x0 = idX (x0 ). aume und ist f : X → Y eine konstante AbbilSind (X, dX ) und (Y, dY ) metrische R¨ dung, so ist f in allen Punkten von X stetig. Denn gilt f (x) = η f¨ ur alle x ∈ X, so gilt f¨ ur jede konvergente Folge (xn )n∈N in X nat¨ urlich f (xn ) = η f¨ ur alle n ∈ N, woraus f (xn ) → η = f (limn→∞ xn ) folgt.
94
3 Stetigkeit
Rasch zu sehen ist auch, dass Polynomfunktionen p : C → C, das sind Funktionen, die definiert sind durch m = ak z k f¨ ur z ∈ C, p(z) := k=0
wobei m ∈ N0 ist und die Koeffizienten ak aus C sind, immer in allen Punkten folgenstetig sind. Dies folgt aus den fr¨ uher gewonnenen Ergebnissen zum Arbeiten mit Grenzwerten komplexer Folgen. Danach gilt m =
lim
n→∞
ak znk =
k=0
m = k=0
ak ( lim zn )k . n→∞
Wichtig ist auch die Tatsache, dass bei einem normierten Raum (X, 9 9), der wie u ¨ blich mit der Metrik d(x, y) = 9x−y9 versehen ist, die durch f (x) := 9x9 definierte Abbildung f : X → R in allen Punkten folgenstetig ist. Dies ergibt sich aus der umgekehrten Dreiecksungleichung | 9x9 − 9y9 | ≤ 9x − y9. Danach gilt n¨amlich, wenn (xn )n∈N eine ur n → ∞, Folge in X ist mit xn → ξ ∈ X f¨ | 9xn 9 − 9ξ9 | ≤ 9xn − ξ9, ur n → ∞, also f (xn ) → f (ξ). und dies zeigt 9xn 9 − 9ξ9 → 0 f¨ Genauso einfach ist es aber, Abbildungen anzugeben, die nicht in allen Punkten folgenstetig sind. Dies ist z.B. der Fall bei der durch f (x) := 0
f¨ ur
x < 0,
f (x) := 1 f¨ ur
x≥0
definierten Funktion f : R → R. Ist x0 < 0, so ist f in diesem Punkt folgenstetig. Denn ist (xn )n∈N eine Folge in R mit xn → x0 f¨ ur n → ∞, so muss es ja ein n0 ∈ N geben, ur n ≥ n0 gilt. Dann ist aber xn < 0 f¨ ur n ≥ n0 und somit so dass |xn − x0 | < x0 /2 f¨ f (xn ) = 0 f¨ ur n ≥ n0 . Dies zeigt f (xn ) → 0 = f (x0 ) f¨ ur n → ∞. Ganz entsprechend zeigt man die Folgenstetigkeit von f in allen Punkten x0 > 0. Im Punkt x0 = 0 jedoch ist die Funktion f nicht folgenstetig. Um dies zu sehen, gen¨ ugt es, die Folge (xn )n∈N mit xn = (−1)n n1 zu betrachten. Es gilt ja dann xn → 0, aber die Folge (f (xn ))n∈N ist gar nicht konvergent. Denn es ist xn > 0, wenn n = 2m mit m ∈ N ist, und somit f (xn ) = 1, wenn n gerade ist. Es ist aber xn < 0, wenn n ungerade ist, und dann f (xn ) = 0. Die Glieder der Folge (f (xn ))n∈N sind also abwechselnd 0 und 1, und so eine Folge kann nicht konvergieren. Es ist jedoch auch nicht schwierig, eine Funktion f : R → R anzugeben, die in keinem Punkt folgenstetig ist! Dies ist der Fall bei der durch f (x) := 0,
falls
x ∈ R \ Q,
f (x) := 1,
falls x ∈ Q, √ amlich x0 ∈ Q, so gilt xn := x0 + 2 n1 ∈ R \ Q f¨ definierten Funktion. Ist n¨ ur alle √ √ 1 n ∈ N. (Denn w¨are x0 + 2 n = ρ ∈ Q, so w¨ are auch 2 = n(ρ − x0 ) ∈ Q.) Damit gilt ur alle n und somit f (xn ) → 0 f¨ ur n → ∞. Andererseits gilt aber xn → x0 f (xn ) = 0 f¨ und f (x0 ) = 1. Ist aber x0 ∈ R \ Q, so gibt es bekanntlich eine Folge (xn )n∈N mit
3.1 Stetigkeit von Abbildungen, topologische Grundbegriffe
95
ur alle n, also ur n → ∞. Dann ist f (xn ) = 1 f¨ xn ∈ Q f¨ ur alle n ∈ N und xn → x0 f¨ f (xn ) → 1, aber f (x0 ) = 0. Es gibt noch andere M¨ oglichkeiten, die Folgenstetigkeit zu u ufen, denn man kann ¨ berpr¨ die Folgenstetigkeit auch noch anders charakterisieren. Dazu verwenden wir den Begriff der Umgebung eines Punktes. Dabei greifen wir auf die fr¨ uher eingef¨ uhrte Notation U (x0 , r) f¨ ur eine offene Kugel vom Radius r um den Punkt x0 zur¨ uck, (siehe Abschnitt (2.3.2)). Sei (X, d) ein metrischer Raum und x0 ∈ X. Eine Menge M ⊂ X heißt Umgebung von x0 , wenn es ein r > 0 gibt, so dass U (x0 , r) ⊂ M gilt. Jede offene Kugel U (x0 , r) selber ist danach offenbar Umgebung von x0 , aber auch ganz X ist Umgebung von x0 . Satz 3.1 aume, sei x0 ∈ X. Dann gilt: Eine Abbildung Seien (X, dX ) und (Y, dY ) metrische R¨ f : X → Y ist genau dann im Punkt x0 folgenstetig, wenn es zu jeder Umgebung V ⊂ Y von f (x0 ) eine Umgebung U ⊂ X von x0 gibt, so dass f (U ) ⊂ V gilt. Beweis: Sei zuerst angenommen, dass es zu jeder Umgebung V ⊂ Y von f (x0 ) eine Umgebung U ⊂ X von x0 gibt, so dass f (U ) ⊂ V gilt. Die Folgenstetigkeit von f im Punkt x0 ergibt sich dann folgendermaßen: Sei (xn )n∈N eine beliebige Folge in X mit xn → x0 f¨ ur n → ∞. Dann soll ja f (xn ) → f (x0 ) gelten, Das ist aber richtig, wenn es zu jeder ur alle n ≥ n0 . offenen Kugel U (f (x0 ), ε) ein n0 ∈ N gibt mit f (xn ) ∈ U (f (x0 ), ε) f¨ Sei also so eine Kugel U (f (x0 ), ε) gegeben. Wie erw¨ahnt ist so eine Kugel selber eine Umgebung von f (x0 ), also gibt es eine Umgebung M von x0 mit f (M ) ⊂ U (f (x0 ), ε). Da M eine Umgebung von x0 ist, gibt es aber eine Kugel U (x0 , δ) ⊂ M , f¨ ur die dann nat¨ urlich auch f (U (x0 , δ)) ⊂ U (f (x0 ), ε) gilt. Aus xn → x0 folgt, das es ein n0 ∈ N gibt mit xn ∈ U (x0 , δ) f¨ ur alle ur n ≥ n0 . Damit gilt dann tats¨achlich f (xn ) ∈ U (f (x0 ), ε) f¨ n ≥ n0 . Sei nun angenommen, dass f folgenstetig im Punkt x0 ist. Nehmen wir außerdem an, dass es eine Umgebung V von f (x0 ) gibt, so dass es keine Umgebung U von x0 gibt mit f (U ) ⊂ V , so muss dies zu einem Widerspruch f¨ uhren. Sei also angenommen, dass es eine Umgebung V von f (x0 ) gibt, so dass f¨ ur alle k ∈ N gilt f (U (x0 , 1/k)) ∩ (Y \ V ) 3= ∅. Es gibt dann zu jedem k ∈ N ein xk ∈ X mit dX (xk , x0 ) < k1 und f (xk ) ∈ / V . Damit gilt nat¨ urlich dX (xm , x0 ) < k1 f¨ ur alle m ≥ k, was zeigt, dass die Folge (xn )n∈N gegen x0 konvergiert. Ist f folgenstetig im Punkt x0 , so muss also die Folge (f (xn ))n∈N gegen f (x0 ) konvergieren. Dies widerspricht aber der Tatsache, dass f (xk ) ∈ / V f¨ ur alle k ∈ N gilt. ! Da die Eigenschaft einer Abbildung f , dass es zu jeder Umgebung V von f (x0 ) eine achst gar nichts mit Folgen in X und in Y Umgebung U von x0 mit f (U ) ⊂ V gibt, zun¨ zu tun hat, definiert man die Stetigkeit der Abbildung f im Punkt x0 dadurch, dass
96
3 Stetigkeit
dies gelten soll. Das ist auch der Stetigkeitsbegriff, der bei der allgemeineren Situation von Abbildungen zwischen topologischen R¨ aumen der passende ist. Wir werden darauf noch kurz eingehen. ¨ Aquivalent zur Charakterisierung mit Hilfe von Umgebungen ist im Fall von Abbildungen zwischen metrischen R¨ aumen eine Charakterisierung der Art ’zu ε > 0 gibt es ein δ > 0 ...’, die speziell bei Abbildungen von R nach R h¨aufig als Definition der Stetigkeit ben¨ utzt wird: Lemma 3.1 Sei f : X → Y eine Abbildung vom metrischen Raum (X, dX ) in den metrischen Raum (Y, dY ), sei x0 ∈ X. Dann sind die folgenden Aussagen ¨aquivalent: (a) Zu jeder Umgebung V von f (x0 ) gibt es eine Umgebung U von x0 mit f (U ) ⊂ V . (b) Zu jedem ε > 0 gibt es ein δ > 0, so dass dY (f (x), f (x0 )) < ε gilt f¨ ur alle x ∈ X mit dX (x, x0 ) < δ. Beweis: Aus (a) folgt (b): Ist ε > 0 gegeben, so ist U (f (x0 ), ε) eine Umgebung von f (x0 ), also gibt es nach (a) eine Umgebung M von x0 mit f (M ) ⊂ U (f (x0 ), ε). Da M Umgebung von x0 ist, gibt es eine Kugel U (x0 , δ) mit U (x0 , δ) ⊂ M . Damit gilt dann f (U (x0 , δ)) ⊂ U (f (x0 ), ε). Dies bedeutet aber, dass f¨ ur alle x ∈ X, f¨ ur die dX (x, x0 ) < δ gilt, dY (f (x), f (x0 )) < ε gelten muss. Aus (b) folgt (a): Sei V eine beliebige Umgebung von f (x0 ). Dann gibt es eine Kugel U (f (x0 ), ε) ⊂ V . Nach (b) gibt es zu diesem ε > 0 ein δ > 0, so dass f (x) ∈ U (f (x0 ), ε) ist, wenn x ∈ U (x0 , δ) ist. Also gilt f (U (x0 , δ)) ⊂ U (f (x0 ), ε). Damit ist aber U (x0 , δ) ! eine Umgebung von x0 mit f (U (x0 , δ)) ⊂ V . Haben wir bisher nur die Stetigkeit einer Abbildung in einzelnen Punkten diskutiert, so sind ja doch h¨ aufig Abbildungen stetig in allen Punkten. In diesem Fall bezeichnet man die Abbildung schlichtweg als stetig. In diesem Sinn sind also z.B. alle Polynomfunktionen p : R → R stetige Funktionen. F¨ ur in diesem Sinn stetige Abbildungen gibt es noch eine andere sehr wichtige Charakterisierung, die auf dem Begriff der offenen Menge aufbaut. Sei (X, d) ein metrischer Raum. Eine Menge Ω ⊂ X heißt offen, wenn es zu jedem x ∈ Ω eine offene Kugel U (x, ε) gibt mit U (x, ε) ⊂ Ω. Man beachte, dass bei verschiedenen Punkten x, x& ∈ Ω i.a. die Radien ε und ε& der Kugeln mit U (x, ε) ⊂ Ω und U (x& , ε& ) ⊂ Ω verschieden sein werden. Unter Verwendung des Umgebungsbegriffs kann man offenbar festhalten: Eine Menge Ω ⊂ X ist genau dann offen, wenn sie Umgebung all ihrer Punkte ist. Triviale offene Mengen sind immer ∅ und X selber. Aber auch jede Kugel U (x, ε) ⊂ X, (die wir ja schon als offene Kugel bezeichnet haben), ist offen in dem soeben definierten Sinn. Denn ist y ∈ U (x, ε) beliebig gegeben, so ist ja d(x, y) < ε. Damit ist aber ρ := ε−d(x, y) > 0 und man sieht rasch, dass f¨ ur die Kugel U (y, ρ) gilt U (y, ρ) ⊂ U (x, ε). Denn ist η ∈ U (y, ρ) beliebig gew¨ ahlt, so ist ja d(y, η) < ρ und die Dreiecksungleichung liefert d(η, x) ≤ d(η, y) + d(y, x) < ρ + d(x, y) = ε.
3.1 Stetigkeit von Abbildungen, topologische Grundbegriffe
97
Damit ist η ∈ U (x, ε) und somit U (y, ρ) ⊂ U (x, ε). Es ist aber z.B. auch die Menge Ω := {(x1 , x2 , x3 ) ∈ R3 : x3 > 0} offen im R3 versehen mit der euklidischen Norm. Denn ist x = (x1 , x2 , x3 ) ∈ Ω beliebig gegeben, so ist U (x, x3 /2) ⊂ Ω. Dagegen ist die Menge M = {(x1 , x2 , x3 ) ∈ R3 : x3 ≥ 0} nicht offen! Denn zu allen Punkten (x1 , x2 , 0) ∈ M kann man keine Kugel U (x, r) finden mit U (x, r) ⊂ M , weil ja jede solche Kugel auch Punkte umfasst, deren dritte Koordinate negativ ist. Beim folgenden Satz ist zu beachten, dass die Menge f −1 (Ω) so wie in (3.1) angegeben definiert ist, unabh¨ angig davon, ob f bijektiv ist oder nicht. (Die Umkehrabbildung muss also nicht existieren.) F¨ ur die Menge f −1 (Ω) ist die Bezeichnung Urbild von Ω unter f u ¨ blich. Satz 3.2 aume. Dann gilt: Eine Abbildung f : X → Y Seien (X, dX ) und (Y, dY ) metrische R¨ ist genau dann stetig, wenn f¨ ur alle offenen Mengen Ω ⊂ Y die Menge f −1 (Ω) := {x ∈ X : f (x) ∈ Ω}
(3.1)
eine offene Teilmenge von X ist. Beweis: Sei zuerst angenommen, dass f stetig ist. Sei dann Ω ⊂ Y eine beliebige offene Menge. Zu zeigen ist, dass die Menge f −1 (Ω) ⊂ X offen ist, d.h. dass es zu jedem x ∈ X mit f (x) ∈ Ω eine Kugel U (x, δ) gibt mit U (x, δ) ⊂ f −1 (Ω), d.h. mit f (U (x, δ)) ⊂ Ω. Da Ω offen ist, gibt es zum Punkt f (x) ∈ Ω eine Kugel U (f (x), ε) ⊂ Ω. Da f aber im Punkt x stetig ist, gibt es eine Kugel U (x, δ) mit f (U (x, δ)) ⊂ U (f (x), ε), also mit f (U (x, δ)) ⊂ Ω. Sei nun angenommen, dass f¨ ur jede offene Menge Ω ⊂ Y die Menge f −1 (Ω) ⊂ X offen ist. Zu zeigen ist, dass dann f in jedem beliebigen Punkt x ∈ X stetig ist. Sei also x ∈ X beliebig gew¨ ahlt. Es ist zu zeigen, dass es zu jeder Kugel U (f (x), ε) eine Kugel U (x, δ) gibt mit f (U (x, δ)) ⊂ U (f (x), ε). Sei also eine Kugel U (f (x), ε) gegeben. Diese ist offen, also ist f −1 (U (f (x), ε)) ⊂ X offen. Da ja x ∈ f −1 (U (f (x), ε)) ist, gibt es somit eine Kugel U (x, δ) ⊂ f −1 (U (f (x), ε)). Damit gilt aber tats¨achlich f (U (x, δ)) ⊂ U (f (x), ε) und f ist stetig im Punkt x. ! Ist also nun die Stetigkeit einer Abbildung f : X → Y dadurch charakterisiert, dass die ¨ Urbilder offener Mengen wieder offen sind, so erlaubt dies eine direkte Ubertragung auf topologische R¨aume, bei denen man auf einer Menge eine Struktur vorgibt, indem man ein System von Teilmengen als offene Mengen auszeichnet. Dieses System muss gewisse Forderungen erf¨ ullen, die, wie wir sehen werden, beim System der offenen Mengen eines metrischen Raumes immer erf¨ ullt sind. Es muss aber gleich bemerkt werden, dass es topologische R¨ aume gibt, deren System von offenen Mengen nicht durch eine Metrik erzeugt werden kann.
98
3 Stetigkeit
Wir definieren also nun: Sei X eine Menge und es sei T ⊂ P (X) mit folgenden Eigenschaften: (i) ∅ ∈ T , X ∈ T . (ii) Ist Λ eine beliebige Indexmenge und (Ωλ )λ∈Λ eine Familie in T , so ist + Ωλ = {x ∈ X : Es gibt ein λ ∈ Λ mit x ∈ Ωλ } ∈ T. λ∈Λ
(iii) Ist n ∈ N und sind Ωk ∈ T f¨ ur k = 1, . . . , n, so ist auch n
b} und diese Menge ist die Vereinigung von zwei offenen Mengen. Denn ist (−∞, a) := {x ∈ R : x < a}, so gilt, wenn x ∈ (−∞, a) beliebig gegeben ist, sicher U (x, ρ) ⊂ (−∞, a), wenn etwa ρ := 21 (a − x) gew¨ahlt ist. Ganz entsprechend sieht man, dass die Menge (b, ∞) := {x ∈ R : x > b} eine offene Menge ist. Es ist offenbar auch die Menge (a, b) := {x ∈ R : a < x < b} eine offene Menge, und hierbei spricht man nun von einem offenen Intervall. Offenbar sind die offenen Kugeln U (x, ε) ⊂ R solche offenen Intervalle, und zwar gilt U (x, ε) = (x−ε, x+ε). Die abgeschlossenen Intervalle entsprechen nun den abgeschlossenen Kugeln, wenn wir allgemein f¨ ur einen metrischen Raum (X, d) die abgeschlossene Kugel K(x0 , r) definieren als K(x0 , r) := {x ∈ X : d(x, x0 ) ≤ r}. Tats¨ achlich sind diese Mengen K(x0 , r) abgeschlossen im Sinn unserer Definition, denn die Menge X \ K(x0 , r) ist offen. Um dies zu zeigen, m¨ ussen wir nachweisen, dass es zu jedem y ∈ X \ K(x0 , r) eine offene Kugel U (y, ρ) gibt mit U (y, ρ) ⊂ X \ K(x0 , r). Da y ∈ X \ K(x0 , r) ist, ist d(y, x0 ) > r. Sei ρ := 21 (d(y, x0 ) − r). F¨ ur beliebiges η ∈ U (y, ρ) gilt dann nach der Dreiecksungleichung 1 d(η, x0 ) ≥ d(y, x0 ) − d(η, y) > d(y, x0 ) − (d(y, x0 ) − r) 2 1 1 = (d(y, x0 ) + r) > (r + r) = r, 2 2 somit ist η ∈ X \ K(x0 , r). Damit gilt U (y, ρ) ⊂ X \ K(x0 , r). Ob eine nichtleere Teilmenge eines metrischen Raumes abgeschlossen ist, kann man auch mit Hilfe einer anderen Charakterisierung abgeschlossener Teilmengen metrischer R¨aume nachpr¨ ufen, die wiederum auf der Betrachtung von Folgen basiert.
100
3 Stetigkeit
Satz 3.3 Sei (X, d) ein metrischer Raum. Dann gilt: Eine Menge A ⊂ X mit A = 3 ∅ ist genau dann abgeschlossen, wenn f¨ ur jede Folge (xn )n∈N in A, die gegen ein ξ ∈ X konvergiert, schon gilt, dass ξ ∈ A sein muss. Beweis: Sei zuerst angenommen, dass A abgeschlossen, also X \ A offen ist. Ist dann (xn )n∈N eine Folge in A mit xn → ξ ∈ X f¨ ur n → ∞, so ist zu zeigen, dass ξ nicht Element der Menge X \ A sein kann. Wir zeigen also, dass die Annahme, das ξ ∈ X \ A w¨are, zu einem Widerspruch f¨ uhrt. Aus ξ ∈ X \ A folgt, dass es eine Kugel U (ξ, ε) gibt / X \ A f¨ ur alle n ∈ N gilt, w¨are dann mit U (ξ, ε) ⊂ X \ A. Da xn ∈ A , also xn ∈ kein Folgenglied in U (ξ, ε). Das widerspricht aber offenbar der Konvergenz der Folge (xn )n∈N gegen ξ. F¨ ur die umgekehrte Richtung zeigen wir: Ist die Menge X \ A nicht offen, so gibt es eine Folge (xn )n∈N in A, die gegen ein ξ ∈ / A konvergiert. Sei also X \ A nicht offen. Dann gibt es ein y ∈ X \ A, so dass f¨ ur alle n ∈ N die Kugel U (y, n1 ) nicht in X \ A liegt. Es muss also f¨ ur alle n ∈ N ein xn ∈ U (y, n1 ) geben mit xn ∈ A. Da xn ∈ U (y, n1 ) ist, folgt, dass die Folge (xn )n∈N gegen y konvergiert. Wir haben damit tats¨achlich eine Folge (xn )n∈N in A gefunden, deren Grenzwert nicht in A liegt. ! Es ist naheliegend, dass man unter Ben¨ utzung dieser Charakterisierung abgeschlossener Mengen und der Folgenstetigkeit leicht sehen kann, dass bei stetigen Abbildungen zwischen metrischen R¨ aumen die Urbilder abgeschlossener Mengen wieder abgeschlossen sind. Seien also (X, dX ) und (Y, dY ) metrische R¨ aume und f : X → Y eine stetige Abbildung. Ist dann A ⊂ Y abgeschlossen, so betrachten wir zum Nachweis der Abgeschlossenheit ur n → ∞. Um zu des Urbildes f −1 (A) eine Folge (xn )n∈N in f −1 (A) mit xn → ξ ∈ X f¨ zeigen, dass dann schon ξ ∈ f −1 (A) sein muss, gehen wir zur Folge (f (xn ))n∈N u ¨ ber, die ja aufgrund der Stetigkeit von f gegen f (ξ) konvergieren muss. Da A abgeschlossen ist, ist aber f (ξ) ∈ A und somit ξ ∈ f −1 (A). ur stetige Abbildungen f : X → Y Das soeben bewiesene Resultat ist auch richtig f¨ zwischen topologischen R¨ aumen X und Y , wenn man entsprechend Satz 3.2 definiert, dass f : X → Y stetig ist, wenn die Urbilder beliebiger offener Mengen Ω ⊂ Y offene Mengen von X sind. Nur muss man den Beweis nun anders f¨ uhren. Dies gelingt aber unter Ben¨ utzung der Tatsache, dass eine Menge genau dann abgeschlossen ist, wenn ihr Komplement offen ist. Nach diesen Resultaten ist nun darauf hinzuweisen, dass bei stetigen Abbildungen keineswegs immer sichergestellt ist, dass die Bilder offener Mengen wieder offen und die Bilder abgeschlossener Mengen wieder abgeschlossen sind. Schon f¨ ur die ganz einfache Abbildung f : R → R, die durch f (x) := 1 f¨ ur alle x ∈ R definiert ist, ist f (R), also das Bild der offenen Menge R, keine offene Teilmenge von R. (Denn offenbar kann die Menge {1} keine offene Kugel, d.h. kein offenes Intervall um den Punkt x = 1 umfassen.) Zu der durch P1 (x1 , x2 ) := x1 definierten Projektion P1 : R2 → R geben wir nun eine abgeschlossene Menge A ⊂ R2 an, f¨ ur die P1 (A) ⊂ R nicht abgeschlossen ist. Und zwar
3.2 Kompaktheit sei
101
A := {(x1 , x2 ) ∈ R2 : x1 · x2 = 1}.
Unter Verwendung von Satz 3.3 ist rasch zu sehen, dass diese Menge abgeschlossen ist. Denn ist (xn )n∈N eine Folge in A mit xn → ξ ∈ R2 f¨ ur n → ∞, so gilt ja xn,1 xn,2 = 1 f¨ ur ur n → ∞. Da aus xn,1 → ξ1 und xn,2 → ξ2 bekanntlich alle n und xn,1 → ξ1 , xn,2 → ξ2 f¨ xn,1 xn,2 → ξ1 ξ2 folgt, muss damit ξ1 ξ2 = 1 und somit ξ ∈ A gelten. Genauso einfach sieht man, dass P1 folgenstetig und somit stetig ist. Aber die Menge P1 (A) ist nicht abgeschlossen, denn es gilt P1 (A) = (−∞, 0) ∪ (0, ∞).
(3.2)
urlich immer folgt, Denn es muss offenbar 0 ∈ / P1 (A) gelten, weil aus x1 · x2 = 1 nat¨ dass x1 3= 0 sein muss. Ist aber r ∈ R \ {0}, so ist r = P1 ((r, r1 )). Aus (3.2) folgt aber, dass P1 (A) offen und nicht abgeschlossen ist. Denn die Folge (1/n)n∈N ist eine Folge in P1 (A), die gegen 0 ∈ / P1 (A) konvergiert. Es gibt jedoch eine Eigenschaft von Mengen, die eine Versch¨arfung der Abgeschlossenheit darstellt und die unter stetigen Abbildungen erhalten bleibt. Damit werden wir uns im n¨ achsten Abschnitt befassen.
3.2
Kompaktheit
Die Kompaktheit von Mengen spielt eine wichtige Rolle bei der Behandlung von stetigen Abbildungen. Wir beginnen die Diskussion mit der folgenden Definition: Sei (X, d) ein metrischer Raum. Eine Menge K ⊂ X heißt folgenkompakt, wenn zu jeder Folge (xn )n∈N in K eine Teilfolge (xnk )k∈N existiert, die gegen ein ξ ∈ K konvergiert. Im allgemeinen haben abgeschlossene Mengen nicht diese Eigenschaft, so z.B. die abgeschlossene Menge {x ∈ R : x ≥ 0}, weil es zur Folge (n)n∈N offenbar keine konvergente Teilfolge gibt. Andererseits sind folgenkompakte Mengen immer abgeschlossen. Lemma 3.3 Sei (X, d) ein metrischer Raum und K ⊂ X folgenkompakt. Dann ist K abgeschlossen. Beweis: Sei K ⊂ X folgenkompakt und (xn )n∈N eine Folge in K, die gegen ein ξ ∈ X konvergiert. Zur Folge (xn )n∈N gibt es eine Teilfolge (xnk )k∈N , die gegen ein x0 ∈ K konvergiert. Da eine Teilfolge den gleichen Grenzwert haben muss wie die konvergente Folge (xn )n∈N selber, gilt x0 = ξ und somit ist ξ ∈ K. Damit ist K abgeschlossen. ! Im Fall des Rn lassen sich leicht Beispiele folgenkompakter Mengen angeben, denn es gilt in diesem Fall eine sehr gut verwendbare Charakterisierung folgenkompakter Mengen:
102
3 Stetigkeit
Satz 3.4 F¨ ur Mengen K ⊂ Rn , (n ∈ N und Rn mit der euklidischen Norm versehen), gilt: K ist genau dann folgenkompakt, wenn K abgeschlossen und beschr¨ankt ist. Beweis: Da wir bereits wissen, dass folgenkompakte Mengen abgeschlossen sein m¨ ussen, ist f¨ ur die eine Richtung nur noch zu zeigen, dass eine folgenkompakte Menge auch beschr¨ankt sein muss. Dies wird indirekt erledigt, d.h. wir zeigen, dass eine nicht beschr¨ankte Menge nicht folgenkompakt sein kann. Sei also angenommen, dass es zur Menge M ⊂ Rn kein ρ > 0 gibt mit 9x9 ≤ ρ f¨ ur alle x ∈ M . Dann gibt es nat¨ urlich zu jedem m ∈ N ein xm ∈ M mit 9xm 9 > m. Zur damit gegebenen Folge (xm )m∈N kann es aber keine konvergente Teilfolge geben, denn es kann offenbar keine beschr¨ankte Teilfolge geben. Damit ist M nicht folgenkompakt. Sei nun angenommen, dass die Menge K ⊂ Rn abgeschlossen und beschr¨ankt ist. Sei (xm )m∈N eine beliebige Folge in K. Nach Satz 2.10 gibt es dazu eine (in Rn ) konvergente Teilfolge. Gelte also limk→∞ xmk = ξ. Da K abgeschlossen ist, muss aber ξ ∈ K sein. Damit ist K folgenkompakt. ! Dieses Resultat l¨ asst sich nicht allgemein auf normierte R¨aume u ¨bertragen. Daher ist es durchaus von Interesse, noch eine andere Charakterisierung folgenkompakter Mengen zur Verf¨ ugung zu haben, die allgemeiner f¨ ur topologische R¨aume sinnvoll ist und dann den Begriff einer kompakten Menge liefert. Wir werden uns sp¨ater noch damit befassen. Wir bleiben zun¨ achst aber im Rahmen von metrischen R¨aumen und zeigen, dass f¨ ur stetige Abbildungen zwischen metrischen R¨ aumen das folgende bereits fr¨ uher angedeutete Resultat gilt: Satz 3.5 Seien (X, dX ) und (Y, dY ) metrische R¨ aume, sei f : X → Y stetig. Dann gilt: Ist K ⊂ X folgenkompakt, so ist auch f (K) folgenkompakt. Beweis: Sei K ⊂ X folgenkompakt und (yn )n∈N eine Folge in f (K). Dann gibt es zu jedem yn ein xn ∈ X mit yn = f (xn ). Da K folgenkompakt ist, gibt es eine Teilfolge (xnk )k∈N , die gegen eine x0 ∈ K konvergiert. Die Abbildung f ist stetig, also folgenstetig, somit ur k → ∞. Damit ist aber die Folge (ynk )k∈N eine Teilfolge von gilt f (xnk ) → f (x0 ) f¨ (yn )n∈N , die gegen f (x0 ) ∈ f (K) konvergiert. Damit ist f (K) folgenkompakt. ! Dieses Resultat hat eine sehr wichtige Konsequenz f¨ ur stetige reellwertige Funktionen: Satz 3.6 Sei (X, d) ein metrischer Raum, sei K ⊂ X folgenkompakt und mit der von d induzierten Metrik versehen. Dann gilt: Ist f : K → R stetig, so gibt es ein ξ1 ∈ K mit f (ξ1 ) = inf x∈K f (x) und ein ξ2 ∈ K mit f (ξ2 ) = supx∈K f (x).
3.2 Kompaktheit
103
Beweis: Nach Satz 3.5 ist f (K) folgenkompakt, also nach Satz 3.4 abgeschlossen und beschr¨ankt. Wegen der Beschr¨ anktheit existiert inf f (K) =: m1 und sup f (K) =: m2 . Da m1 gr¨oßte ur alle untere Schranke ist, gibt es eine Folge (xn )n∈N in K mit 0 ≤ f (xn ) − m1 < n1 f¨ 1 n ∈ N. Entsprechend gibt es eine Folge (yn )n∈N in K mit 0 ≤ m2 − f (yn ) < n . Damit gilt aber f (xn ) → m1 und f (yn ) → m2 f¨ ur n → ∞. Da f (K) abgeschlossen ist, gilt somit m1 ∈ f (K) und m2 ∈ f (K). Damit gibt es aber ein ξ1 ∈ K mit f (ξ1 ) = inf f (K) und ein ξ2 ∈ K mit f (ξ2 ) = sup f (K). ! Da f (ξ1 ) = inf x∈K f (x) gilt, ist in diesem Fall inf f (K) sogar ein Minimum und entsprechend ist sup f (K) sogar ein Maximum. Dieses Annehmen von Maximum und Minimum bei stetigen reellwertigen Funktionen auf folgenkompakten Mengen wird h¨aufig ben¨ utzt. Es sei dies an Hand eines einfachen Beispiels demonstriert: Sei K ⊂ X eine folgenkompakte Teilmenge des metrischen Raumes (X, d) und sei a ∈ X \ K. Die Frage ist, ob es dann einen Punkt b ∈ K kleinsten Abstands von a gibt, d.h. ob es ein b ∈ K gibt mit d(b, a) = inf x∈K d(x, a). Die Antwort auf diese Frage ist nach Satz 3.6 positiv, denn die Abbildung x ∈ K → / d(x, a) ∈ R ist stetig. Dies ist eine Folge der Dreiecksungleichung. Sind x, x& ∈ K, so ist d(x& , a) ≤ d(x& , x) + d(x, a), also d(x& , a) − d(x, a) ≤ d(x& , x) = d(x, x& ) und entsprechend d(x, a) − d(x& , a) ≤ d(x, x& ). Damit gilt aber |d(x& , a) − d(x, a)| ≤ d(x, x& ). Ist ε > 0 gegeben, so gilt also immer |d(x& , a) − d(x, a)| < ε, wenn d(x& , x) < ε gilt. Das letzte Ergebnis zu Stetigkeit der Abbildung x ∈ K → / d(x, a) ∈ R ist bemerkenswert, weil es besagt, dass diese Abbildung sogar gleichm¨aßig stetig ist im Sinne der folgenden Definition: Sind (X, dX ) und (Y, dY ) metrische R¨aume, so nennt man eine Abbildung F : X → Y gleichm¨ aßig stetig, wenn es zu jedem ε > 0 ein δ > 0 gibt, so dass dY (f (x), f (x& )) < ε gilt f¨ ur alle x, x& ∈ X mit dX (x, x& ) < δ. aßig stetige Abbildung immer in allen Punkten x ∈ X steEs ist klar, dass eine gleichm¨ tig ist, denn um das zu sehen, muss man ja nur in der gegebenen Definition x festhalten. Offenbar ist es aber dann entscheidend an der gegebenen Definition, dass die Gr¨oße δ, die dY (f (x), f (x& )) < ε sicherstellt, wenn dX (x, x& ) < δ ist, nicht vom speziellen festgehaltenen x abh¨ angt. Denn im allgemeinen ist so eine Abh¨angigkeit durchaus gegeben, wie etwa schon das folgende einfache Beispiel zeigt: Sei das offene Intervall (0, 1) ⊂ R mit der von R induzierten Metrik versehen und sei f : (0, 1) → R definiert durch f (x) := x1 f¨ ur x ∈ (0, 1). Die u ur ¨ blichen Rechenregeln f¨ reelle Folgen zeigen, dass f in jedem Punkt x ∈ (0, 1) folgenstetig ist, somit ist f eine stetige Abbildung. Aber f ist nicht gleichm¨ aßig stetig, denn ist etwa ε = 1 gegeben, so gibt es kein δ > 0, so dass | x1 − x1! | < 1 gilt, wenn |x − x& | < δ ist. Man muss dazu nur mit einem beliebigen α ∈ (0, 1/2) die Punkte xn = n1 und x&n = xn + α , (n ∈ N \ {2}), betrachten. F¨ ur diese gilt stets |xn − x&n | = α, aber # # # 1 1 ## n # − →∞ =α1 # xn x&n # + α n f¨ ur n → ∞.
104
3 Stetigkeit
So ein Beispiel kann man nicht finden, wenn man stetige reellwertige Funktionen auf dem abgeschlossenen Intervall [0, 1] betrachtet, denn das Intervall [0, 1] ist folgenkompakt und es gilt das folgende wichtige Resultat: Satz 3.7 Seien (X, dX ) und (Y, dY ) metrische R¨ aume und sei K ⊂ X folgenkompakt. Dann gilt: Ist eine Abbildung f : K → Y stetig, so ist sie bereits gleichm¨aßig stetig. Beweis: Wir nehmen an, dass eine stetige Abbildung f : K → Y gegeben sei, die nicht gleichm¨aßig stetig ist, und zeigen, dass dies zu einem Widerspruch f¨ uhrt. Ist f nicht gleichm¨ aßig stetig, so gibt es ein ε > 0, so dass zu jedem δ > 0 ein Paar (x, x& ) ∈ K ×K existiert mit dX (x, x& ) < δ, aber dY (f (x), f (x& )) ≥ ε. Setzt man δn = n1 , so gibt es also Paare (xn , x&n ) ∈ K × K mit dX (xn , x&n )
0 ein n ∈ N und x1 , . . . , xn ∈ K, so dass K⊂
n + k=1
gilt.
U (xk , r)
(3.3)
3.2 Kompaktheit
105
Beweis: Der Beweis wird indirekt gef¨ uhrt, d.h. wir gehen davon aus, dass eine folgenkompakte Menge K ⊂ X gegeben sei, die die behauptete Eigenschaft, dass bei beliebigem r > 0 ¨ eine Uberdeckung mit offenen Kugeln wie in (3.3) angegeben m¨oglich ist, nicht hat. Dies wird zu einem Widerspruch f¨ uhren. ¨ Ist so eine Uberdeckung durch endlich viele Kugeln mit beliebig vorgegebenem Radius nicht m¨ oglich, so gibt es ein r > 0, f¨ ur das dies nicht m¨oglich ist. Dann gibt es aber ein x1 ∈ K, so dass K ∩ (X \ U (x1 , r)) 3= ∅ ist. (Denn sonst w¨are ja K ⊂ U (x1 , r) und (3.3) w¨ are erf¨ ullt.) Sei x2 ∈ (K \ U (x1 , r)). Sie soeben gef¨ uhrte Argumentation zeigt, dass es weiter ein x3 ∈ (K \ (U (x1 , r) ∪ U (x2 , r))) geben muss. 8 Rekursiv erhalten wir nach / nk=1 U (x8 diesem Verfahren eine Folge (xn )n∈N in K mit xn+1 ∈ k , r). (Man beachte, n dass das Verfahren nicht abbrechen kann, weil ja sonst einmal K ⊂ k=1 U (xk , r) gelten m¨ usste). Da K folgenkompakt sein soll, gibt es zur Folge (xn )n∈N eine konvergente Teilfolge. Sei ξ ∈ K Grenzwert so einer konvergenten Teilfolge. Dann gibt es nat¨ urlich Folgenglieder xnk und xnk +j mit einem j ∈ N mit d(xnk , ξ) < r2 und d(xnk +j , ξ) < r2 . Mit der Dreiecksungleichung folgt d(xnk , xnk +j ) < r, d.h. xnk +j ∈ U (xnk , r), was aber ! der Konstruktion der Folge (xn )n∈N widerspricht. Damit k¨ onnen wir das folgende wichtige Resultat zur Existenz von endlichen Teil¨ uber¨ deckungen zu beliebigen offenen Uberdeckungen beweisen: Satz 3.8 Sei (X, d) ein metrischer Raum und K ⊂ X folgenkompakt. Dann hat K die folgende Eigenschaft: 8 Ist (Ωλ )λ∈Λ eine Familie offener Mengen Ωλ ⊂ X, so 8 dass K ⊂ λ∈Λ Ωλ gilt, so gibt es eine endliche Menge M ⊂ Λ, so dass noch K ⊂ λ∈M Ωλ gilt. Beweis: Ist K ⊂ X folgenkompakt, so gibt es nach Lemma 3.4 zu jedem m ∈ N endlich viele ¨ offene Kugeln U (xj , 1/m) mit xj ∈ K, die eine Uberdeckung von K bilden. W¨are nun 8 (Ωλ )λ∈Λ eine Familie offener Mengen Ωλ ⊂ X mit K ⊂ λ∈Λ Ωλ , zu der keine endliche onnten auch nicht alle der endlich vielen Durchschnitte uberdeckung existiert, so k¨ Teil¨ usste also zu jedem K ∩ U (xj , 1/m) durch endlich viele der Ωλ u ¨ berdeckt werden. Es m¨ m ∈ N eine offene Kugel U (xm , 1/m) mit xm ∈ K geben, so dass K ∩ U (xm , 1/m) nicht durch endlich viele der Ωλ u ¨berdeckt werden kann. Wir zeigen, dass dies zu einem Widerspruch f¨ uhrt. Die Mittelpunkte xm der Kugeln U (xm , 1/m) bilden eine Folge in K, zu der nach Voraussetzung eine konvergente Teilfolge (xmk )k∈N existiert. Sei limk→∞ xmk =: ξ ∈ K. 8 Da K ⊂ λ∈Λ Ωλ gilt, gibt es ein λ0 ∈ Λ mit ξ ∈ Ωλ0 . Da Ωλ0 offen ist, gibt es eine Kugel U (ξ, ε) ⊂ Ωλ0 . Wegen xmk → ξ gibt es ein mk > 2/ε mit d(xmk , ξ) < ε/2. Wenn wir dieses mk nun fixieren, so kann man f¨ ur x ∈ U (xmk , 1/mk ) absch¨atzen d(x, ξ) ≤ d(x, xmk ) + d(xmk , ξ)
n1 mit xn2 ∈ U (x, 1/2). Rekursiv fortfahrend findet man eine Folge (nk )k∈N mit nk+1 > nk f¨ ur alle k, so dass are das nicht m¨ oglich, so k¨onnte eine der Kugeln U (x, 1/k) nur xnk ∈ U (x, 1/k) ist. (W¨ endlich viele Folgenglieder enthalten.) Die Teilfolge (xnk )k∈N ist dann tats¨achlich gegen x konvergent. Denn ist ε > 0 gegeben, so gibt es ein k0 ∈ N mit ε > 1/k0 und es gilt f¨ ur alle k ≥ k0 1 1 xnk ∈ U (x, ) ⊂ U (x, ) ⊂ U (x, ε), k k0 was ja xnk → x bedeutet. ¨ Zu (b): Wir konstruieren eine offene Uberdeckung von M , zu der es keine endliche Teil¨ uberdeckung gibt. Nach (a) gibt es zu jedem x ∈ M eine Kugel U (x, rx ), die nur urlich darauf endlich viele Folgenglieder enth¨ alt. (Die Notation rx soll nat¨ 8 hinweisen, dass der Radius vom Punkt x abh¨ angen wird.) Trivialerweise gilt M ⊂ x∈M U (x, rx ). ¨ Zur offenen Uberdeckung (U (x,8rx ))x∈M von M kann es aber keine endliche Teil¨ ubern deckung geben, da, wenn M ⊂ j=1 U (xj , rxj ) gelten w¨ urde, M selber nur endlich viele onnte, was nicht m¨ Folgenglieder enthalten k¨ oglich ist, wenn (xn )n∈N eine Folge in M ist. ! Bemerkung: Hat ein x ∈ X die Eigenschaft, dass in jeder Kugel U (x, r) unendlich viele Glieder einer gegebenen Folge (xn )n∈N liegen, so nennt man diesen Punkt auch einen H¨aufungspunkt der Folge (xn )n∈N . Beim Beweis von Lemma 3.5 haben wir nun aufungspunkte von Folgen immer Grenzwerte von konvergenten mit bewiesen, dass H¨
3.3 Zur Stetigkeit einiger wichtiger Funktionen
107
aufungspunkten von Mengen arbeiten; ater werden wir noch mit H¨ Teilfolgen sind. Sp¨ diese werden ¨ ahnlich definiert sein, trotzdem sind aber die Begriffe zu unterscheiden. Die Ergebnisse von Satz 3.8 und Lemma 3.5 liefern nun zusammen: Satz 3.9 Sei (X, d) ein metrischer Raum und K ⊂ X. Dann sind die zwei Aussagen (a) K ist folgenkompakt. (b) K ist kompakt. a ¨quivalent. Beweis: Dass (b) aus (a) folgt, war Gegenstand des Satzes 3.8. Dass (a) aus (b) folgt, ergibt sich sofort aus Lemma 3.5. Denn ist K kompakt, so kann es nach diesem Lemma keine Folge in K geben, zu der keine Teilfolge mit Grenzwert in K existiert. Also muss K folgenkompakt sein. ! urlich, dass man im Fall von metrischen R¨aumen ErgebAus diesem Resultat folgt nat¨ nisse, bei denen wesentlich die Folgenkompaktheit von Mengen eingeht, wie etwa das von Satz 3.5, auch f¨ ur kompakte Mengen notieren kann. Von Interesse ist, dass man dann auch den Beweis so f¨ uhren kann, dass man nur auf den Begriff der Kompaktheit zur¨ uckgreift. Es sei dies f¨ ur den Satz 3.5 exemplarisch vorgef¨ uhrt. aume, sei f : X → Y stetig und K ⊂ X Seien also (X, dX ) und (Y, dY ) metrische R¨ kompakt. Dann ist zu zeigen, dass auch f (K) kompakt ist, d.h. dass zu jeder offenen ¨ Uberdeckung (Ωλ )λ∈Λ von f (K) ⊂ Y eine endliche Teil¨ uberdeckung existiert. Dies kann man aber sehr rasch erschließen. Da f stetig ist, sind alle Mengen f −1 (Ωλ ) ⊂ X offen. ¨ All diese Mengen bilden aber wiederum eine offene Uberdeckung von K. Denn ist x ∈ K beliebig gew¨ ahlt, so ist ja f (x) ∈ f (K) und somit gibt es ein λ0 ∈ Λ mit f (x) ∈ Ωλ0 . Damit gilt aber + f −1 (Ωλ ). x ∈ f −1 (Ωλ0 ) ⊂ λ∈Λ −1 ¨ Da K nach Voraussetzung kompakt ist, gibt es zur offenen Uberdeckung λ ))λ∈Λ 8(f (Ω−1 eine endliche Teil¨ uberdeckung, d.h. eine endliche Menge M ⊂ Λ mit K ⊂ f (Ωλ ). λ∈M 8 Daraus folgt aber f (K) ⊂ λ∈M Ωλ , und somit ist f (K) kompakt.
3.3
Zur Stetigkeit einiger wichtiger Funktionen
Bis jetzt haben wir uns noch wenig mit der Frage der Stetigkeit wichtiger h¨aufig auftretender Funktionen besch¨ aftigt. Da z.B. die Exponentialfunktion mit Hilfe einer Poachst zeigen, dass Funktionen, die durch eine tenzreihe definiert ist, werden wir nun zun¨ Potenzreihe gegeben sind, innerhalb des Konvergenzkreises dieser Potenzreihe stetig sind.
108
3 Stetigkeit
Satz 3.10 )∞ Sei k=0 ak z k eine Potenzreihe mit Konvergenzradius r > 0 ) oder r = ∞ und sei die ∞ Funktion f : {z ∈ C : |z| < r} → C definiert durch f (z) := k=0 ak z k . Dann ist f stetig. Beweis: Wir zeigen die Stetigkeit von f in einem beliebigen Punkt z0 ∈ U (0, r). Sei ρ > 0 so gew¨ ahlt, dass |z0 | < ρ < r gilt. (Die Modifikationen zum Fall r = ∞ sind beim ganzen )∞ Beweis offensichtlich.) Dann ist die Reihe k=0 ak ρk absolut konvergent, also gibt es zu jedem ε > 0 ein k0 ∈ N mit ∞ =
|ak |ρk
& 1 ! i(z+ζ) 1 . iz iζ e = + e−i(z+ζ) 2e e + 2e−iz e−iζ = 4 2 = cos(z + ζ).
cos z cos ζ − sin z sin ζ =
Setzt man in diesem Additionstheorem ζ = −z, so folgt, weil offenbar cos(0) = 1 und cos(−z) = cos(z) sowie sin(−z) = − sin(z) gilt, (cos z)2 + (sin z)2 = 1
f¨ ur
z ∈ C.
(3.4)
Ist z = t ∈ R, so ist ja (cos t, sin t) ∈ R2 , und die Gleichung (3.4) zeigt, dass bei der bekannten Veranschaulichung der Paare (cos t, sin t) ∈ R2 als Punkte einer Ebene diese Punkte auf einer Kreislinie vom Radius Eins um den Punkt (0, 0) liegen. Damit ist zum ersten Mal eine Verbindung zum weit verbreiteten Zugang zu diesen Funktionen als Winkelfunktionen hergestellt. Dieser Verbindung werden wir noch genauer nachgehen, zun¨ achst sei aber noch diskutiert, dass man auch Punkte einer Hyperbel im R2 auf ahnliche Weise erhalten kann. ¨ Man definiert dazu die Funktionen cosh(z) :=
1 z (e + e−z ), 2
sinh(z) :=
1 z (e − e−z ) f¨ ur 2
z ∈ C.
Schon in der Notation wird sichtbar, dass man diese zwei Funktionen als Cosinus hyperbolicus und Sinus hyperbolicus bezeichnet. Man spricht auch von den Hyperbelfunktionen. Eine einfache Rechnung zeigt, dass nun (cosh(z))2 − (sinh(z))2 = 1
f¨ ur
z∈C
(3.5)
3.4 Zum Zwischenwertsatz
111
achlich die Punkte (cosh(t), sinh(t)) ∈ R2 auf einer ur z = t ∈ R tats¨ gilt. Damit liegen f¨ Hyperbel. Auch f¨ ur diese Funktionen gelten Additionstheoreme, so z.B. cosh(z + ζ) = cosh(z) cosh(ζ) + sinh(z) sinh(ζ). Auch das kann man durch eine einfache Rechnung nachpr¨ ufen. Schließlich erh¨ alt man mit Hilfe der Potenzreihe f¨ ur die Exponentialfunktion sofort die folgenden Potenzreihendarstellungen f¨ ur cosh und sinh: ∞ =
1 cosh(z) = z 2m , (2m)! m=0
sinh(z) =
∞ =
1 z 2m+1 (2m + 1)! m=0
f¨ ur
z ∈ C.
Im n¨ achsten Abschnitt werden wir uns noch genauer mit den Winkelfunktionen und den Hyperbelfunktionen besch¨ aftigen. Wichtig wird dabei der sogenannte ’Zwischenwertsatz’ sein.
3.4
Zum Zwischenwertsatz
Das Resultat des n¨ achsten Satzes zeigt unmittelbar, woher die Bezeichnung Zwischenwertsatz kommt. Satz 3.11 Seien a, b ∈ R mit a < b und sei f : [a, b] → R stetig. Dann gilt: (a) ist f (a) < f (b), so gibt es zu jedem ρ ∈ (f (a), f (b)) ein x ∈ (a, b) mit f (x) = ρ. (b) Ist f (b) < f (a), so gibt es zu jedem ρ ∈ (f (b), f (a)) ein x ∈ (a, b) mit f (x) = ρ. Beweis: Zu (a): Sei ρ ∈ (f (a), f (b)) beliebig gew¨ ahlt. Es ist dann die Menge M := {x ∈ [a, b] : f (x) < ρ} nicht leer, weil offenbar a ∈ M gilt. Da ja M ⊂ [a, b] ist, ist M nach oben beschr¨ankt und somit existiert s := sup M . Da einerseits b eine obere Schranke ist, andererseits aber a ∈ M ist, muss a ≤ s ≤ b gelten, also s ∈ [a, b]. Zu jedem n ∈ N gibt es ein xn ∈ M mit s − n1 < xn ≤ s. F¨ ur die Folge (xn )n∈N gilt dann xn → s f¨ ur n → ∞. Da f stetig ist, folgt f (xn ) → f (s) f¨ ur n → ∞. Wegen xn ∈ M gilt ja f (xn ) < ρ f¨ ur alle n, somit gilt aber f¨ ur den Grenzwert f (s) ≤ ρ. Es muss aber sogar f (s) = ρ gelten. Denn die Annahme, dass f (s) < ρ w¨ are, f¨ uhrt zu einem Widerspruch. Ist f (s) < ρ, so gibt es aufgrund der Stetigkeit von f im Punkt x = s ein δ > 0 mit |f (s) − f (x)|
0 oder f (a) > 0 ∧ f (b) < 0. Dann gibt es mindestens ein x ∈ (a, b) mit f (x) = 0. ur k = 0, 1, . . . , 2n − 1 und es gelte a2n−1 3= 0. Dann (b) Sei n ∈ N, seien ak ∈ R f¨ gibt es mindestens ein ξ ∈ R mit 2n−1 =
ak ξ k = 0.
k=0
(c) Seien a, b ∈ R mit a < b, sei f : [a, b] → R stetig und es gelte f ([a, b]) ⊂ [a, b]. Dann gibt es mindestens ein x ∈ [a, b] mit f (x) = x. Beweis: Zu (a): Sei zuerst f (a) < 0 < f (b) angenommen. Dann ist ja 0 ∈ (f (a), f (b)) und nach dem Zwischenwertsatz gibt es ein x ∈ (a, b) mit f (x) = 0. Gilt aber f (b) < 0 < f (a), so ist 0 ∈ (f (b), f (a)) und es folgt genauso die Existenz eines x ∈ (a, b) mit f (x) = 0. Die Ergebnisse von (b) und von (c) erh¨ alt man als Spezialf¨alle von (a). Da dabei der Beweis von (c) k¨ urzer ist, sei der Beweis von (b) zuletzt behandelt. Zu (c): Es sei die Funktion g : [a, b] → R definiert durch g(x) := f (x) − x. Auch g ist stetig. (Man sieht aufgrund der Rechenregeln f¨ ur konvergente Folgen sofort, dass g folgenstetig ist, wenn f folgenstetig ist.) Nach Voraussetzung soll f¨ ur alle x ∈ [a, b] gelten a ≤ f (x) ≤ b. Damit ist aber f (a) − a ≥ 0 und f (b) − b ≤ 0 und somit g(a) ≥ 0 und g(b) ≤ 0. Im Fall g(a) = 0 gilt ja nun f (a) = a und wir haben damit ein x ∈ [a, b] mit f (x) = x gefunden. Ist aber g(b) = 0, so gilt f (b) = b und wir sind ebenfalls fertig. Es ist also noch der Fall g(a) > 0 ∧ g(b) < 0 zu diskutieren. In diesem Fall sichert aber Teil (a) die Existenz eines x ∈ (a, b) mit g(x) = 0, also mit f (x) = x. Zu (b): Sei 2m−1 = p(x) := ak xk f¨ ur x ∈ R. k=0
Gesucht ist dann offenbar eine L¨ osung der Gleichung p(x) = 0. Da wir offenbar statt dessen auch die Gleichung −p(x) = 0 betrachten k¨onnten, d¨ urfen wir ohne Einschr¨ankung
3.4 Zum Zwischenwertsatz
113
der Allgemeinheit annehmen, dass a2n−1 > 0 gilt. Sei α := max{|ak | : k = 0, . . . , 2n − 2}. Sei σ > 1 so gew¨ ahlt, dass σ > (2n − 1)a−1 ur |x| > σ 2n−1 α gilt. Dann kann man f¨ absch¨ atzen # # 2n−2 #2n−2 # 2n−2 = = #= k−2n+1 # −1 ak x |ak | |x| ≤ |ak | σ −1 ≤ (2n−1)ασ −1 < a2n−1 . # #≤ # # k=0
k=0
k=0
Damit gilt aber f¨ ur alle x ∈ R mit |x| > σ 2n−1 =
ak xk−2n+1 = a2n−1 +
k=0
2n−2 =
ak xk−2n+1 > 0.
k=0
Ist nun x > σ, so ist x2n−1 > 0 und damit weiter p(x) = x2n−1
2n−1 =
ak xk−2n+1 > 0.
k=0
Entsprechend erh¨alt man offenbar p(x) < 0, wenn x < −σ ist. Betrachtet man nun die stetige Polynomfunktion p u ¨ ber dem Intervall [−σ − 1, σ + 1], so ist p(−σ − 1) < 0 und p(σ + 1) > 0. Nach Teil (a) gibt es daher ein ξ ∈ (−σ − 1, σ + 1) mit p(ξ) = 0. ! Man beachte, dass bei Teil (b) von Korollar 3.1 die Voraussetzung, dass die Polynomfunktion p ungeraden Grad 2n − 1 hat, wesentlich ist. Denn schon die Gleichung x2 + 1 = 0 hat ja keine reelle L¨ osung. Bei Teil (c) von Korollar 3.1 wird zum ersten Mal eine Aussage u ¨ ber die Existenz eines Fixpunkts einer Abbildung gemacht. Denn ein Punkt x ∈ [a, b], f¨ ur den f (x) = x gilt, wird, weil er ja unter der Abbildung f auf sich selber abgebildet wird, als Fixpunkt der Abbildung f bezeichnet. Bei vielen Problemen der angewandten Analysis sind Ergebnisse u ¨ber die Existenz von Fixpunkten von großer Bedeutung. Wir werden dazu sp¨ ater noch den wichtigen Banachschen Fixpunktsatz behandeln. Der Zwischenwertsatz erlaubt es, das fr¨ uher, (genauer in Abschnitt 2.4.5), erhaltene Resultat, dass exp(x) > 0 f¨ ur alle x ∈ R gilt, wesentlich zu verbessern: Satz 3.12 Die Abbildung exp : R → {x ∈ R : x > 0} ist bijektiv. Beweis: Wir zeigen zun¨ achst, dass die Exponentialfunktion auf R streng monoton wachsend ist, d.h. dass exp(x) > exp(ξ) f¨ ur alle x, ξ ∈ R mit x > ξ
114
3 Stetigkeit
gilt. Dies ergibt sich rasch aus der Funktionalgleichung (2.19). Danach gilt n¨amlich, wenn x − ξ > 0 und damit exp(x − ξ) > 1 ist, exp(x) = exp(ξ + (x − ξ)) = exp(ξ) exp(x − ξ) > exp(ξ). Da also die Exponentialfunktion auf R streng monoton wachsend ist, muss sie auch injektiv sein. Denn offenbar ist damit exp(x) = exp(x& ) nur m¨oglich, wenn x = x& ist. Die Surjektivit¨ at von exp : R → {x ∈ R : x > 0} erschließt man unter Verwendung des Zwischenwertsatzes. Sei ρ > 0 gegeben. Wir m¨ ussen zeigen, dass es ein x ∈ R gibt mit ρ = exp(x). Dies folgt aber nach dem Zwischenwertsatz, wenn wir zeigen k¨onnen, dass es ein ξ > 0 geben muss mit exp(ξ) > ρ und ein η ≤ 0 mit exp(η) < ρ. Dann muss es n¨ amlich ein x ∈ (η, ξ) geben mit exp(x) = ρ. Da wir wissen, dass exp(0) = 1 gilt, k¨ onnen wir dabei sofort ρ 3= 1 annehmen. Wir behandeln dann zuerst den Fall ρ > 1. Wegen exp(0) = 1 < ρ k¨onnen wir offenbar η = 0 w¨ ahlen. Als ξ > 0 kann man aber einfach ξ = ρ w¨ahlen, den es gilt ja dann exp(ξ) > 1 + ξ > ρ. Im Fall ρ < 1 kommt wegen exp(0) = 1 > ρ die Wahl ξ = 0 in Frage. Wegen 1 1 1 < −1 = ρ exp(− ) = −1 ρ exp(ρ ) ρ kann man als η ≤ 0 schließlich η = −1/ρ w¨ ahlen.
!
Zur bijektiven Abbildung exp : R → {x ∈ R : x > 0} existiert bekanntlich eine bijektive Umkehrabbildung, die als Logarithmusfunktion bezeichnet wird. Man verwendet die Notation log, (man findet aber relativ h¨ aufig auch ln), und mit der Funktion log : {x ∈ R : x > 0} → R gilt dann
log(exp(x)) = x
f¨ ur
x ∈ R,
exp(log(x)) = x f¨ ur
x > 0.
Auch die Logarithmusfunktion ist streng monoton wachsend, denn die Annahme, dass es x, x& ∈ R mit 0 < x < x& geben w¨ urde, so dass log(x) ≥ log(x& ) gilt, f¨ uhrt sofort zu einem Widerspruch: Aus log(x) ≥ log(x& ) folgt ja exp(log(x)) ≥ exp(log(x& )), also x ≥ x& im Widerspruch zur Voraussetzung x < x& . Die Logarithmusfunktion ist ebenfalls stetig. Um dies zu zeigen, nehmen wir an, dass es einen Punkt ξ > 0 geben w¨ urde, in dem log nicht folgenstetig ist. Wir nehmen also an, dass es eine Folge (xn )n∈N mit xn > 0 f¨ ur alle n ∈ N geben w¨ urde, die gegen ξ ur die aber die Folge (log xn )n∈N nicht gegen log ξ konvergiert. Es soll also konvergiert, f¨ ein ε > 0 geben, so dass f¨ ur alle m ∈ N ein nm ≥ m existiert mit | log xnm − log ξ| ≥ ε. Dies impliziert aber, dass log xnm ≤ log(ξ) − ε oder log xnm ≥ log(ξ) + ε gelten muss. Aufgrund der Monotonie der Exponentialfunktion folgt dann xnm = exp(log(xnm )) ≤ exp(log(ξ) − ε) oder xnm ≥ exp(log(ξ) + ε).
3.4 Zum Zwischenwertsatz
115
Unter Verwendung der Funktionalgleichung (2.19) erh¨alt man dann weiter xnm ≤ ξ
1 exp(ε)
oder
xnm ≥ ξ exp(ε).
Da aber exp(ε) > 1 und nm → ∞ f¨ ur m → ∞ gilt, widerspricht dies offenbar xn → ξ f¨ ur n → ∞. Wir werden noch sehen, dass dieses Ergebnis ein Spezialfall eines allgemeinen Resultats u ¨ ber Umkehrfunktionen streng monotoner stetiger Funktionen ist. Zun¨achst sei aber diskutiert, dass man unter Verwendung der Logarithmusfunktion wie in Abschnitt 2.4.5 angek¨ undigt auch ax f¨ ur a > 0 und x ∈ R sinnvoll definieren kann. Klar ist, dass dies so geschehen muss, dass im Fall a = e genau das bekannte ex = exp x entsteht. Das ist aber wegen log(e) = 1 sichergestellt, wenn man definiert ax := exp(x log(a))
f¨ ur
a > 0, x ∈ R.
Die Definition ist aber auch kompatibel mit dem f¨ ur n ∈ N rekursiv definierten an . Dies zeigt die Rechnung 5 2 n = n log(a) = (exp(log(a))) = an . exp(n log(a)) = exp k=1
&p . Schließlich gilt auch, wenn x = p/q mit p ∈ Z und q ∈ N ist, ax = a1/q . Denn aus . &q exp(q −1 log(a)) = exp(q −1 q log(a)) = exp(log(a)) = a folgt ja exp(q −1 log(a)) = a1/q und somit . &p exp(pq −1 log(a)) = exp(q −1 log(a)) = (a1/q )p . Auch ist noch festzuhalten, dass die Abbildung x /→ exp(x log(a)) als Hintereinanderausf¨ uhrung stetiger Abbildungen selber stetig ist. Damit ist also f¨ ur jedes feste a > 0 die Abbildung x /→ ax stetig. Bevor wir uns mit der Stetigkeit von Umkehrfunktionen streng monotoner Funktionen besch¨ aftigen, ist es zweckm¨ aßig, den Begriff des Intervalls allgemeiner zu fassen als bisher. Eine Menge I ⊂ R nennen wir ein Intervall, wenn f¨ ur alle x, x& ∈ I mit x < x& gilt, & dass {ξ ∈ R : x < ξ < x } ⊂ I ist. Mit diesem Begriff hat man nicht nur die bisher definierten offenen und abgeschlossenen Intervalle erfasst, sondern auch die Mengen (−∞, a) und (b, ∞). Es gibt aber auch halboffene Intervalle (a, b] := {x ∈ R : a < x ≤ b},
[a, b) := {x ∈ R : a ≤ x < b},
und die Mengen [b, ∞) := {b}∪(b, ∞), (−∞, a] := (−∞, a)∪{a} sind ebenfalls Intervalle. Sogar die Mengen ∅ und R selber sind Intervalle. Stetige reellwertige Funktionen f¨ uhren immer nichtleere Intervalle in Intervalle u ¨ ber:
116
3 Stetigkeit
Satz 3.13 Sei I ⊂ R ein nichtleeres Intervall und sei f : I → R stetig. Dann ist auch f (I) ⊂ R ein Intervall. Beweis: Der Fall, dass f (I) genau eine reelle Zahl umfasst, ist trivial. Seien y, y & ∈ f (I) mit y < y & . Es gibt dann ein x ∈ I mit y = f (x) und ein x& ∈ I mit y & = f (x& ). Da y < y & sein soll, muss sicher x 3= x& sein. Da I ein Intervall ist, ist dann im Fall x < x& das Intervall [x, x& ] ⊂ I und im Fall x& < x das Intervall [x& , x] ⊂ I. Nach dem Zwischenwertsatz gibt es damit zu jedem η ∈ (y, y & ) im ersten Fall ein ξ ∈ (x, x& ) und im zweiten Fall ein ξ ∈ (x& , x) mit η = f (ξ). Damit ist aber η ∈ f (I) und somit f (I) ein Intervall. ! Ist f : I → R zus¨ atzlich injektiv, so existiert die Umkehrabbildung f −1 : f (I) → R und ihr Definitionsbereich f (I) ist ebenfalls ein Intervall. Wir zeigen nun, dass sich auch strenge Monotonie und Stetigkeit auf die Umkehrabbildung u ¨ bertr¨agt. Satz 3.14 Sei I ⊂ R ein Intervall und enthalte mehr als eine reelle Zahl. Dann gilt: Ist f : I → R streng monoton wachsend und stetig, so existiert f −1 : f (I) → R und ist ebenfalls streng monoton wachsend und stetig. Beweis: Ist f streng monoton wachsend, so folgt aus x < x& ja immer f (x) < f (x& ). Somit kann f (x) = f (x& ) nur gelten, wenn x = x& ist. Damit ist f injektiv und es existiert somit die onnte sogar f −1 : f (I) → I notieren). Umkehrabbildung f −1 : f (I) → R, (man k¨ −1 Im n¨ achsten Schritt zeigen wir, dass f ebenfalls streng monoton wachsend sein muss. are dann f −1 (y) ≥ f −1 (y & ), so w¨are, da f streng Seien also y, y & ∈ f (I) mit y < y & . W¨ −1 monoton wachsend ist, auch f (f (y)) ≥ f (f −1 (y & )), somit y ≥ y & im Widerspruch zu y < y&. Es bleibt noch der Nachweis der Stetigkeit von f −1 . Da I mehr als eine reelle Zahl umfasst, muss auch f (I) mehr als eine reelle Zahl umfassen. Wir zeigen, dass die Annahme, dass es ein y0 ∈ f (I) gibt, so dass f −1 im Punkt y0 nicht stetig ist, zu einem Widerspruch f¨ uhrt. Es sei also angenommen, dass es ein ε > 0 gibt, so dass zu jedem n ∈ N ein yn ∈ f (I) existiert mit |yn − y0 | < n1 und |f −1 (yn ) − f −1 (y0 )| ≥ ε. Gibt es ein η1 < y0 in f (I), so ist [η1 , y0 ] ⊂ f (I), gibt es aber ein η2 > y0 in f (I), so ist urfen wir aber auf alle F¨alle ohne Einschr¨ankung der Allgemein[y0 , η2 ] ⊂ f (I). Damit d¨ heit annehmen, dass alle yn in einem kompakten Intervall [a, b] ⊂ f (I) liegen, f¨ ur das auch y0 ∈ [a, b] gilt. Aufgrund der strengen Monotonie und der Stetigkeit von f muss dann f ([f −1 (a), f −1 (b)]) = [a, b] gelten. Auch muss f −1 (yn ) ∈ [f −1 (a), f −1 (b)] f¨ ur alle n gelten. Nach dem Satz von Bolzano-Weierstraß gibt es zur Folge (f −1 (yn ))n∈N eine konvergente Teilfolge (f −1 (ynk ))k∈N . Sei ξ := limk→∞ f −1 (ynk ). Die Stetigkeit von f ur k → ∞. Da aber nach Konstruktion der Folge liefert f (f −1 (ynk ) = ynk → f (ξ) f¨ (yn )n∈N gilt yn → y0 f¨ ur n → ∞, muss f (ξ) = y0 sein. Damit ist ξ = f −1 (y0 ) und
3.4 Zum Zwischenwertsatz
117
wegen ξ = limk→∞ f −1 (ynk ) gilt also f −1 (ynk ) → f −1 (y0 ), was aber im Widerspruch ur alle n ∈ N steht. ! zu |f −1 (yn ) − f −1 (y0 )| ≥ ε f¨ utzung dieses Resultats kann man z.B. erschließen, dass zur Funktion Sinus Unter Ben¨ hyperbolicus, wenn wir sie nur auf R betrachten, eine stetige Umkehrfunktion existiert. Zun¨ achst sei gezeigt, dass sinh |R streng monoton wachsend ist. Unter Ben¨ utzung der Funktionalgleichung der Exponentialfunktion kann man leicht nachrechnen, dass f¨ ur sinh das Additionstheorem sinh(x + ξ) = sinh(x) cosh(ξ) + cosh(x) sinh(ξ)
f¨ ur
x, ξ ∈ R
(3.6)
gilt. Ist ξ > 0, so gilt ja eξ > 1 und e−ξ < 1. Damit gilt aber sinh(ξ) > 0 f¨ ur ξ > 0. Mit (3.5) folgt daraus (cosh(ξ))2 = 1 + (sinh(ξ))2 > 1
f¨ ur
ξ > 0.
Da offenbar sogar cosh(x) > 0 f¨ ur alle x ∈ R gilt, gilt somit cosh(ξ) > 1 f¨ ur ξ > 0. Als Folge von (3.6) k¨ onnen wir daher notieren sinh(x + ξ) > sinh(x) cosh(ξ) > sinh(x)
f¨ ur
x ∈ R, ξ > 0.
Das besagt aber, dass die Funktion x /→ sinh(x) auf R streng monoton wachsend ist. Es existiert daher eine auf sinh(R) definierte Umkehrfunktion. Ihr Definitionsbereich ist aber ebenfalls ganz R. Um dies nachzuweisen, zeigen wir, dass zu jedem ρ > 0 eine x0 > 0 existiert mit sinh(x0 ) > ρ. Wegen sinh(−x0 ) = − sinh(x0 ) gilt ja dann auch sinh(−x0 ) < −ρ und somit gibt es nach dem Zwischenwertsatz ein ξ ∈ (−x0 , x0 ) mit sinh(ξ) = ρ. Da auch sinh(−ξ) = −ρ gilt, ist damit jede reelle Zahl im Bild sinh(R). Sei also ρ > 0 beliebig gegeben. Da exp(R) = (0, ∞) ist, gibt es ein x0 > 0 mit exp(x0 ) > 2ρ + 1. Da exp(−x0 ) ∈ (0, 1) ist, folgt dann sinh(x0 ) =
& 1 1 . x0 e − e−x0 > (2ρ + 1 − 1) = ρ. 2 2
Damit existiert zu sinh |R eine ebenfalls auf ganz R definierte, streng monoton wachsende und stetige Umkehrfunktion, die als Areasinus hyperbolicus bezeichnet und mit arsinh notiert wird. F¨ ur manche Zwecke ist es n¨ utzlich, die Funktion arsinh mit Hilfe der Logarithmusfunktion darzustellen. Ist x ∈ R gegeben, so ist ja die reelle Zahl y =arsinh(x) dadurch eindeutig festgelegt, dass sinh(y) = x gilt. Damit gilt 2x = ey − e−y und weiter (ey )2 − 2xey − 1 = 0. √ Wegen ey > 0 folgt daraus ey = x + x2 + 1 und somit gilt * arsinh(x) = log(x + x2 + 1) f¨ ur x ∈ R. F¨ ur den Cosinus hyperbolicus muss die Situation etwas anders sein, denn es gilt ja cosh(−x) = cosh(x) f¨ ur x ∈ R, so dass zu cosh |R keine Umkehrfunktion existieren
118
3 Stetigkeit
kann. Man kann jedoch zeigen, dass cosh auf [0, ∞) streng monoton wachsend ist und dass cosh([0, ∞)) = [1, ∞) ist. Damit existiert zu cosh |[0,∞) die stetige Umkehrfunktion arcosh:[1, ∞) → [0, ∞), genannt Areacosinus hyperbolicus. Analog zu oben kann man schließlich zeigen, dass * ur x ≥ 1 arcosh(x) = log(x + x2 − 1) f¨ gilt. Unter Verwendung des Zwischenwertsatzes k¨ onnen wir nun auch die trigonometrischen Funktionen cos und sin genauer diskutieren. Wesentlich ist dabei das folgende Resultat: Satz 3.15
√ Es gibt ein x ∈ ( 2, 2) mit cos(x) = 0.
Beweis: F¨ ur x ∈ R gilt cos(x) − 1 =
∞ = k=1
(−1)k
1 2k x . (2k)!
)∞ 1 Ist nun sogar x ∈ (0, 3), so liegen bei der Reihe k=1 (−1)k (2k)! x2k genau die Verh¨altnis1 x2k se vor, die zum Leibniz-Kriterium f¨ ur alternierende Reihen geh¨oren: Ist ak := (2k)! )∞ 1 f¨ ur k ∈ N, so ist (ak )k∈N eine Nullfolge, weil die Potenzreihe k=1 (−1)k (2k)! x2k ja absolut konvergent ist. Außerdem ist ak ≥ 0 f¨ ur alle k und die Folge (ak )k∈N ist mo1 1 x2k ≥ (2k+2)! x2k+2 gilt genau dann, wenn noton fallend, wenn x ∈ (0, 3) ist. Denn (2k)! ur alle k ∈ N und damit (2k + 1)(2k + 2) ≥ x2k ist. Ist nun x ∈ (0, 3), so ist x ≤ 2k + 1 f¨ gilt nat¨ urlich x2k ≤ (2k + 1)(2k + 2). Beim Beweis von Satz 2.14 hat es sich gezeigt, dass die Teilfolge (s2m−1 )m∈N der Folge der Partialsummen monoton wachsend gegen den Wert der alternierenden Reihe konvergiert und die Teilfolge (s2m )m∈N entsprechend Wendet man dies )∞ monoton1 fallend. im Fall x ∈ (0, 3) auf die alternierende Reihe k=1 (−1)k (2k)! x2k an, so erh¨alt man die Absch¨ atzung 1 1 1 − x2 < cos(x) − 1 < − x2 + x4 2 2 24
f¨ ur
x ∈ (0, 3).
√ √ Ist 0 < x ≤ 2, so ist 1 − 21 x2 ≥ 0 und somit erh¨alt man nun cos(x) > 0 f¨ ur x ∈ (0, 2]; 1 4 ist aber x = 2, so ist 1 − 12 x2 + 24 x = − 13 , somit cos(2) < 0. Da die Cosinus-Funktion √ stetig ist, liefert nun Korollar 3.1 (a), dass im Intervall ( 2, 2) mindestens eine Nullstelle der Cosinus-Funktion liegen muss. ! Es ist nach diesem Ergebnis die Menge M := {x ∈ (0, 2) : cos(x) = 0} nicht leer. Da sie trivialerweise nach unten beschr¨ ankt ist, k¨ onnen wir also definieren inf{x ∈ (0, 2) : cos(x) = 0} =:
π . 2
3.4 Zum Zwischenwertsatz
119
Wir haben damit eine reelle Zahl definiert, die wir mit π notieren. Offenbar ist noch zu zeigen, dass diese Zahl u ¨bereinstimmen muss mit der allgemein von der Berechnung der Fl¨ ache eines Kreises bekannten Zahl Pi. Was man in Erinnerung an Schulkenntnisse erwarten wird, ist, dass cos(π/2) = 0 gilt. Dies folgt nun f¨ ur die oben definierte Zahl π/2 sofort aufgrund der Stetigkeit der Cosinus-Funktion. Denn, da π/2 = inf M ist, gibt es eine Folge (xn )n∈N in M ur n → ∞. Damit muss auch cos(xn ) → cos(π/2) gelten. Da stets mit xn → π/2 f¨ cos(xn ) = 0 gilt, gilt also auch cos(π/2) = 0. Es ist also π/2 die kleinste positive Nullstelle der Cosinus-Funktion. Was man ebenfalls erwarten wird, ist, dass sin(π/2) = 1 gilt. Wegen cos(π/2) = 0 erh¨alt man zun¨ achst aus (cos x)2 + (sin x)2 = 1, dass sin(π/2) = −1 oder sin(π/2) = 1 gelten muss. Die G¨ ultigkeit von sin(π/2) = −1 kann man aber rasch ausschließen. Denn unter Ben¨ utzung der Potenzreihe f¨ ur die Sinus-Funktion erh¨alt man analog zu den oben ¨ durchgef¨ uhrten Uberlegungen zur Cosinus-Funktion, dass 1 x − x3 < sin(x) 6
f¨ ur
x ∈ (0, 2)
ur x ∈ (0, 2) gilt, folgt sin(x) > 0 f¨ ur x ∈ (0, 2), gelten muss. Da nun 1 − 16 x2 > 0 f¨ oglich ist. weshalb nur sin(π/2) = 1 m¨ Ausgehend von den nun erhaltenen Resultaten ist es einfach, die bekannte Periodizit¨at der trigonometrischen Funktionen zu erschließen. uher bereits diskutierten AdditionsBen¨ utzt man f¨ ur sin(x + π2 ) und cos(x + π2 ) die fr¨ theoreme, so folgt unter Ber¨ ucksichtigung von sin(π/2) = 1 und cos(π/2) = 0 ! ! π> π> = cos(x), cos x + = − sin(x) f¨ ur x ∈ R. (3.7) sin x + 2 2 Daraus folgt weiter
! ! π π> π> sin(x + π) = sin (x + ) + = cos x + = − sin(x) 2 2 2
und somit sin(x + 2π) = sin((x + π) + π) = − sin(x + π) = sin(x)
f¨ ur
x ∈ R.
Das ist aber die 2π-Periodizit¨ at der Sinus-Funktion. Ganz entsprechend erh¨alt man cos(x + π) = − cos(x),
cos(x + 2π) = cos(x)
Man kann aber auch notieren ! > ! !π π π> π> sin(x) = sin (x − ) + = cos x − = cos −x 2 2 2 2
f¨ ur
f¨ ur
x ∈ R.
x ∈ R.
(3.8)
Die bisherigen Ergebnisse erlauben es auch, zu erschließen, dass die Cosinus-Funktion auf dem Intervall (0, π/2) streng monoton fallend ist. Sei zuerst noch notiert, dass x2 /24 < 1/2 f¨ ur x ∈ (0, 2) und somit : ; 1 x2 1 − x2 − < 1 f¨ ur x ∈ (0, 2) 2 24
120
3 Stetigkeit
uher bereits notierten Absch¨atzung gilt. Wegen der fr¨ cos(x) < 1 −
x2 x4 + 2 24
f¨ ur
x ∈ (0, 3)
gilt damit sicher cos(x) < 1 f¨ ur x ∈ (0, π/2). Es gilt aber auch cos(x) > 0 f¨ ur alle x ∈ (0, π/2). Denn da cos(0) = 1 gilt, und π/2 die kleinste positive Nullstelle des Cosinus ist, kann aufgrund des Zwischenwertsatzes die Cosinus-Funktion im Intervall (0, π/2) keinen negativen Wert annehmen. Sind nun x ∈ (0, π/2) und ξ ∈ (0, π/2) mit x < x + ξ ≤ π/2 gegeben, so k¨onnen wir wegen cos(ξ) ∈ (0, 1) absch¨ atzen cos(x + ξ) = cos(x) cos(ξ) − sin(x) sin(ξ) < cos(x) cos(ξ) < cos(x). Denn wegen (3.8) gilt ja auch sin(x) > 0 und sin(ξ) > 0. Ist also die Cosinus-Funktion auf (0, π/2) streng monoton fallend, so zeigt (3.8), dass die Sinus-Funktion u ¨ ber dem gleichen Intervall streng monoton wachsend ist. Aufgrund des Zwischenwertsatzes sind daher die durch C(x) := cos(x) und S(x) := sin(x) definierten Abbildungen C : [0, π/2] → [0, 1] und S : [0, π/2] → [0, 1] bijektiv und es existieren ebenfalls streng monotone Umkehrfunktionen, die Arcuscosinus und Arcussinus heißen und mit arccos und arcsin notiert werden. Beide Arcusfunktionen kann man sogar auf dem Intervall [−1, 1] als Umkehrfunktionen zu Cosinus und Sinus definieren. Denn die G¨ ultigkeit von cos(x + π2 ) = − sin(x) zeigt, dass die Cosinusfunktion sogar auf dem Intervall [0, π] streng monoton fallend ist und dort alle Werte aus [−1, 1] annimmt. Wegen sin(−x) = − sin(x) wiederum ist die Sinusfunktion auf [−π/2, π/2] streng monoton wachsend und nimmt dort alle Werte aus [−1, 1] an. Aufgrund der nun gewonnenen Kenntnisse u ¨ ber die trigonometrischen Funktionen cos ¨ und sin k¨ onnen wir jetzt erschließen, dass es in Ubereinstimmung mit von der Schule gewohnten Dingen zu jedem Punkt (x1 , x2 ) ∈ R2 mit x21 + x22 = 1 genau ein t ∈ [0, 2π) ur die Einf¨ uhrung gibt, so dass x1 = cos t und x2 = sin t gilt. Dies ist die Grundlage f¨ von Polarkoordinaten in der Ebene R2 . ur die Seien dazu zun¨ achst die Punkte (x1 , x2 ) ∈ R2 betrachtet, f¨ x1 ≥ 0 ∧ x2 ≥ 0 ∧ x21 + x22 = 1 onnen t := arccos(x1 ) setzen. Diese reelle Zahl t gilt. Es ist dann x1 ∈ [0, 1] und wir k¨ ist die einzige aus dem Intervall [0, π/2], f¨ ur die x1 = cos t gilt. Da cos x < 0 ist f¨ ur x ∈ (π/2, π], ist es sogar die einzige Zahl aus [0, π], f¨ ur die x1 = cos t gilt. Es ist ja dann onnen wir notieren sin t ≥ 0 und somit k¨ sin t = (1 − (cos t)2 )1/2 = (1 − (cos(arccos(x1 )))2 )1/2 = (1 − x21 )1/2 = x2 . Da sin(t) < 0 f¨ ur t ∈ (π, 2π) gilt, kann es kein t ∈ (0, 2π) geben mit sin(t) = x2 . ur die Damit ist das angegebene t = arccos(x1 ) tats¨achlich die einzige Zahl t ∈ [0, 1π), f¨ (x1 , x2 ) = (cos(t), sin(t)) gilt. Eine entsprechende Diskussion ist noch f¨ ur die in den restlichen drei Quadranten lieur genden Punkte der Kreislinie durchzuf¨ uhren. Sei dies hier nur noch kurz skizziert f¨
3.4 Zum Zwischenwertsatz
121
den Quadranten, der durch die Ungleichungen x1 < 0 ∧ x2 ≥ 0 beschrieben wird. Wir werden dabei auf das bereits erhaltene Resultat zu den Punkten im ersten Quadranten zur¨ uckgreifen. Gilt also x1 < 0 ∧ x2 ≥ 0 ∧ x21 + x22 = 1, so gehen wir zum Punkt (ξ1 , ξ2 ) u ¨ber mit ξ1 := x2 , ξ2 := −x1 . Es gibt ja dann genau ein τ ∈ [0, π/2] mit ξ1 = cos(τ ), ξ2 = sin(τ ). Wir haben also x2 = cos(τ ), x1 = − sin(τ ). Nach den Formeln (3.7) gilt dann x1 = cos(τ + π2 ) und x2 = sin(τ + π2 ), womit wir eine Darstellung in der gew¨ unschten Form mit einem t = τ + π/2 ∈ [π/2, π] gefunden haben. Die Eindeutigkeitsfrage ist genau nach dem gleichen Muster wie im ersten Fall zu erledigen. Der Schritt zur Einf¨ uhrung von Polarkoordinaten, und zwar f¨ ur alle Punkte (x1 , x2 ) ∈ R2 \ {(0, 0)}, ist nun einfach: Ist (x1 , x2 ) ∈ R2 mit (x1 , x2 ) 3= (0, 0) beliebig gegeben, so gilt, wenn man wie u ¨blich 9x9 := (x21 + x22 )1/2 setzt, sicher (9x9−1 x1 )2 + (9x9−1 x2 )2 = 1. Daher gibt es genau ein ur den gegegeben t ∈ [0, 2π) mit 9x9−1 x1 = cos t, 9x9−1 x2 = sin t. Wir erhalten somit f¨ Punkt die Darstellung in Polarkoordinaten x1 = 9x9 cos t, x2 = 9x9 sin t. Offenbar kann man dem auch noch im Fall (x1 , x2 ) = (0, 0), also 9x9 = 0, einen Sinn geben, es geht dabei aber die eindeutige Festlegung von t verloren. Unter Ben¨ utzung der Periodizit¨ at der Sinus-Funktion k¨onnen wir nun auch ein interessantes Beispiel einer in genau einem Punkt unstetigen Funktion f : R → R diskutieren. Sei mit einem beliebig gew¨ ahlten ρ ∈ R : ; 1 f (x) := sin f¨ ur x 3= 0, f (0) = ρ. x uhrung zweier stetiger FunktioEs ist f |R\{0} stetig, weil dann die Hintereinanderausf¨ nen vorliegt. Im Punkt x = 0 ist jedoch die Funktion f nicht folgenstetig, und zwar unabh¨ angig von der speziellen Wahl der Zahl ρ. Betrachtet man n¨amlich die Nullfolge ((2πm)−1 )m∈N , so gilt ja f ((2πm)−1 ) = sin(2πm) = 0 f¨ ur alle m ∈ N und damit exiurlich limm→∞ f ((2πm)−1 ) = 0. Im Fall ρ 3= 0 zeigt dies bereits, dass f im stiert nat¨ Punkt x = 0 nicht folgenstetig ist. Ist aber ρ = 0, so betrachten wir noch die Nullfolge ((2πm + π/2)−1 )m∈N . Dann ist f ((2πm + π/2)−1 ) = 1 f¨ ur alle m und somit ist limm→∞ f ((2πm)−1 ) 3= limm→∞ f ((2πm + π/2)−1 ). Wir k¨ onnen also feststellen, dass es keine M¨ oglichkeit gibt, die auf R \ {0} stetige Funktion x /→ sin(1/x) durch geeignete Festsetzung eines Wertes bei x = 0 zu einer stetigen Funktion auf ganz R fortzusetzen. Dies sieht jedoch anders aus bei der durch : ; 1 g(x) := x sin f¨ ur x ∈ R \ {0} x definierten Funktion. Diese wird zu einer auf ganz R stetigen Funktion, wenn man g(0) := 0 setzt. Um dies zu sehen, ist offenbar nur noch die Stetigkeit im Punkt x = 0 nachzupr¨ ufen. Sei ε > 0 gegeben. Ist dann |x| < ε, so kann man absch¨atzen # : ;# # 1 ## ≤ |x| < ε. |g(x) − g(0)| = |g(x)| = |x| ##sin x #
122
3 Stetigkeit
Dies zeigt die Stetigkeit im Punkt x = 0. Man h¨atte aber auch die Folgenstetigkeit nachpr¨ ufen k¨ onnen. Dabei h¨ atte man nur ben¨ utzen m¨ ussen, dass, wenn (xn )n∈N eine Nullfolge und (yn )n∈N eine beschr¨ ankte Folge ist, auch (xn yn )n∈N eine Nullfolge ist. Mit dem Problem der stetigen Fortsetzung werden wir uns im n¨achsten Abschnitt noch etwas ausf¨ uhrlicher besch¨ aftigen.
3.5
Stetige Fortsetzung, Grenzwerte von Funktionen
Es sei einf¨ uhrend ein weiteres einfaches Beispiel behandelt. Sei M := (−1, 0)∪(0, 1) ⊂ R und f : M → R definiert durch f (x) := −1 f¨ ur
x ∈ (−1, 0),
f (x) := 1 f¨ ur
x ∈ (0, 1).
Es sind offenbar f |(−1,0) und f |(0,1) stetig und es stellt sich unmittelbar die Frage, ob man Werte f (−1), f (0) und f (1) so festlegen kann, das dann eine stetige Funktion f : [−1, 1] → R entsteht. Hat man dies erledigt, so k¨onnte man nat¨ urlich noch weiter gehen, und sich fragen, ob eine Fortsetzung zu einer stetigen Funktion auf ganz R m¨ oglich ist. Es zeigt sich jedoch, dass diese zweite Frage sich grunds¨atzlich von der ersten unterscheidet, und zwar ist bei der Fortsetzung auf [−1, 1] h¨ochstens eine stetige Fortsetzung m¨ oglich, bei der weiteren Fortsetzung auf ganz R ist aber eine so große Vielfalt von stetigen Fortsetzungen m¨ oglich, dass man nur mehr einen ganz schwachen Zusammenhang mit der urspr¨ unglich gegebenen Funktion erkennen kann. So kann man z.B. die Funktion g, die f¨ ur x ≤ 0 durch g(x) = 0 definiert ist, auf ganz R stetig fortsetzen, indem man g(x) = xm mit einem beliebigen m ∈ N, oder g(x) = ax mit einem beliebigen a ∈ R, oder g(x) = ρ sin(x) mit einem beliebigen ρ ∈ R f¨ ur x > 0 definiert. Offenbar k¨ onnte man noch viele weitere M¨oglichkeiten angeben. Wir werden daher die Frage der stetigen Fortsetzung nur f¨ ur solche Punkte diskutieren, die man als H¨ aufungspunkte der Menge bezeichnet, auf der die Funktion urspr¨ unglich gegeben war. Es sei dies gleich f¨ ur Teilmengen metrischer R¨aume definiert: Sei (X, d) ein metrischer Raum und M ⊂ X. Ein Punkt x ∈ X heißt dann H¨ aufungspunkt von M , wenn es zu jeder Umgebung U von x ein y ∈ M ∩ U mit y = 3 x gibt. Offenbar sind beim oben notierten Beispiel bei der Menge M = (−1, 0) ∪ (0, 1) ⊂ R die Punkte −1, 0, 1 H¨ aufungspunkte von M , dagegen sind alle Punkte mit x < −1 ∨ x > 1 keine H¨ aufungspunkte von M . (Denn Umgebungen (x − r, x + r) mit gen¨ ugend kleinem r > 0 haben dann einen leeren Durchschnitt mit M .) Man beachte, dass aber alle Punkte x ∈ (−1, 0) ∪ (0, 1) H¨ aufungspunkte sind. Die Frage der stetigen Fortsetzung in die Punkte x = −1, 0, 1 ist nun bei diesem Beispiel sofort zu kl¨ aren: Als Wert von f (−1) kommt nur f (−1) = −1 in Frage, denn f¨ ur die gegen −1 konvergente Folge (−1 + n1 )n≥2 gilt ja f (−1 + n1 ) = −1 f¨ ur alle n. Es folgt limn→∞ f (−1 + n1 ) = −1 und die geforderte Folgenstetigkeit l¨ asst damit nur den Wert f (−1) = −1 zu. Offenbar ist dann aber auch f stetig im Punkt x = −1. Ganz analog findet man, dass genau die
3.5 Stetige Fortsetzung, Grenzwerte von Funktionen
123
Festsetzung f (1) = 1 die stetige Fortsetzung in den Punkt x = 1 liefert. F¨ ur x = 0 ist dagegen keine stetige Fortsetzung m¨oglich. Denn es gilt ja f (− n1 ) → −1 und f ( n1 ) → 1 f¨ ur n → ∞, so dass man durch Betrachtung der Folgen (−1/n)n≥2 und (1/n)n≥2 zwei sich widersprechende Forderungen zur Erreichung der Folgenstetigkeit im Punkt x = 0 erh¨ alt. Dieses Beispiel zeigt bereits die wesentlichen Punkte der Forsetzungsproblematik. Zun¨ achst ist zu vermerken, dass es zu einem H¨aufungspunkt x einer Menge M ⊂ X, (X sei wieder ein metrischer Raum), immer Folgen (xn )n∈N mit xn ∈ M , aber xn 3= x f¨ ur alle n ∈ N gibt, die gegen x konvergieren. Denn zu jeder offenen Kugel U (x, 1/n) muss es ja ein xn ∈ M ∩ U (x, 1/n) mit xn 3= x geben, und offenbar konvergiert eine so gewonnene Folge (xn )n∈N gegen x. Soll nun eine gegebene stetige Abbildung f : M → Y , (Y sei ebenfalls ein metrischer Raum), so fortgesetzt werden, dass sie im H¨ aufungspunkt x von M , (wobei x ∈ / M sei), stetig wird, so muss f¨ ur f (x) so ein Element y ∈ Y gew¨ahlt werden, dass f (xn ) → y f¨ ur jede Folge (xn )n∈N in M mit xn 3= x f¨ ur alle n gilt, die gegen x konvergiert. Es ist damit der Grenzwert limξ→x f (ξ) als Wert von f (x) zu w¨ahlen, (sofern er existiert), wenn man diesen Grenzwert nun sehr naheliegend folgendermaßen definiert: Seien X und Y metrische R¨ aume, sei M ⊂ X und sei x0 ∈ X ein H¨aufungspunkt von M . Ist dann f : M → Y eine Abbildung, so heißt ein y0 ∈ Y Grenzwert der Funktion ur jede Folge (xn )n∈N in M mit xn 3= x0 f¨ ur alle n gilt f (xn ) → y0 f f¨ ur x → x0 , wenn f¨ ur die Notation f¨ ur n → ∞. Man verwendet daf¨ lim f (x) = y0 .
x→x0
Da der Grenzwert einer Folge eindeutig bestimmt ist, ist auch der Grenzwert einer Funktion eindeutig bestimmt, wenn er existiert. Ist M ⊂ R und a ∈ R ein H¨ aufungspunkt von M mit der Eigenschaft, dass es eine ur alle n gibt, so kann man auch den linksseitigen Folge (xn )n∈N in M mit xn < a f¨ Grenzwert limx→a−0 f (x) bilden, bei dem man dann nur Folgen (f (xn ))n∈N ben¨ utzt, die zu solchen Folgen (xn )n∈N mit xn < a geh¨oren. Entsprechend definiert man den rechtsseitigen Grenzwert limx→a+0 f (x). Existieren der linksseitige und der rechtsseitige Grenzwert, wobei sie aber verschieden sind, so kann offenbar f im Punkt a nicht stetig sein. Es liegt dann im Punkt a eine Sprungstelle vor. Bei monotonen Funktionen liegen in Hinblick auf linksseitige und rechtsseitige Grenzwerte besonders klare Verh¨ altnisse vor, wie der folgende Satz zeigt: Satz 3.16 Sei (a, b) ⊂ R ein offenes Intervall und sei f : (a, b) → R monoton wachsend. Dann existieren in jedem Punkt y ∈ (a, b) die Grenzwerte limx→y−0 f (x) und limx→y+0 f (x) und es gilt lim f (x) ≤ f (y) ≤ lim f (x). x→y−0
x→y+0
Die Menge {x ∈ (a, b) : f ist im Punkt x nicht stetig} ist abz¨ahlbar.
124
3 Stetigkeit
Beweis: Sei y ∈ (a, b) beliebig gew¨ ahlt. Da f monoton wachsend ist, gilt f (x) ≤ f (y) f¨ ur alle x ∈ (a, y). Somit existiert s := sup f ((a, y)) und es gilt s ≤ f (y). Ist ε > 0 gegeben, so gibt es ein ξ ∈ (a, y) mit s − ε < f (ξ) und es gilt damit s − ε < f (ξ) ≤ f (x) ≤ s
f¨ ur alle
x ∈ (ξ, y).
ur n → ∞, so gibt es ein n0 ∈ N Ist nun eine Folge (xn )n∈N in (a, y) gegeben mit xn → y f¨ ur n ≥ n0 . Es folgt s − ε < f (xn ) ≤ s f¨ ur n ≥ n0 , und dies besagt, dass mit xn ∈ (ξ, y) f¨ der linksseitige Grenzwert limx→y−0 f (x) existiert mit limx→y−0 f (x) = s ≤ f (y). F¨ ur den rechtsseitigen Grenzwert argumentiert man ganz entsprechend. F¨ ur den Nachweis, dass die Menge M der Unstetigkeitsstellen von f h¨ochstens abz¨ahlbar unendlich sein kann, greifen wir auf Satz 1.10 zur¨ uck. Danach ist es ausreichend, eine injektive Abbildung ψ : M → Q zu finden, denn Q ist ja abz¨ahlbar. Wegen der Existenz des linksseitigen und rechtsseitigen Grenzwertes liegt in jedem Punkt y ∈ M eine Sprungstelle vor, d.h. es gilt limx→y−0 f (x) < limx→y+0 f (x). Damit gibt es aber auch eine rationale Zahl ry mit lim f (x) < ry < lim f (x).
x→y−0
x→y+0
Betrachtet man nun die Zuordnung y ∈ M /→ ry , so kann man damit eine injektive Abbildung ψ : M → Q erhalten. Denn sind y, η ∈ M mit y < η, so m¨ ussen die Intervalle (limx→y−0 f (x), limx→y+0 f (x)) und (limx→η−0 f (x), limx→η+0 f (x)) disjunkt sein. Denn es muss lim f (x)) ≤ lim f (x) x→y+0
x→η−0
gelten. Dies ist ja gleichbedeutend mit inf f ((y, b)) ≤ sup f ((a, η)), was sich daraus ergibt, das f¨ ur y < x < ξ < η ja gilt f (x) ≤ f (ξ). Damit gilt immer ry < rη , wenn y < η ist. ! Es ist klar, dass man ein entsprechendes Resultat f¨ ur monoton fallende Funktionen erhalten kann. F¨ ur reelle Folgen wurde in Abschnitt 2.1 diskutiert, was unter limn→∞ xn = ∞ bzw. limn→∞ xn = −∞ zu verstehen ist. Es ist klar, dass sich damit auch limx→∞ f (x) und aren l¨ asst, wobei sogar als Grenzwert ∞ und −∞ zugelassen ist. In limx→−∞ f (x) erkl¨ konkreten F¨ allen kann es dabei n¨ utzlich sein, zu verwenden, dass bei reellen Folgen aus xn → ∞ folgt 1/xn → 0. Dazu ein einfaches Beispiel: x−1 Ist mit einem a > 0 f¨ ur x > 0 die Funktion f definiert durch f (x) := ax+1 , so sei der ur zu schreiben Grenzwert limx→∞ f (x) zu bestimmen. Es ist zweckm¨aßig, daf¨ 1− x−1 = ax + 1 a+
1 x 1 x
,
ucksichtigung der Rechenregeln f¨ denn damit erh¨ alt unter Ber¨ ur den Umgang mit konvergenten Folgen 1 x−1 = . lim x→∞ ax + 1 a
3.5 Stetige Fortsetzung, Grenzwerte von Funktionen
125
Von gr¨ oßter Wichtigkeit sind Grenzwerte von der Art lim
h→0
1 ((ξ + h)2 − ξ 2 ), h
(wobei ξ ∈ R sei); denn solche Grenzwerte spielen eine wesentliche Rolle bei der Differenzierbarkeit von Funktionen, die wir im n¨ achsten Abschnitt diskutieren werden. Bei diesem Beispiel kann man rechnen 1 1 ((ξ + h)2 − ξ 2 ) = (2ξh + h2 ) = 2ξ + h, h h woraus sofort folgt
1 ((ξ + h)2 − ξ 2 ) = 2ξ. h Setzt man x = ξ + h, so kann man dies auch notieren als lim
h→0
lim
x→ξ
1 (x2 − ξ 2 ) = 2ξ. x−ξ
Schreibt man dies noch als lim
x→ξ
1 (x2 − (ξ 2 + 2ξ(x − ξ)) = 0, x−ξ
so besagt dies, dass man, wenn man nahe beim Punkt ξ bleibt, die Funktion f (x) = x2 n¨ aherungsweise durch die Funktion g(x) := ξ 2 + 2ξ(x − ξ) ersetzen kann. In der zuerst ben¨ utzten Notation bedeutet dies, dass man, wenn man f (ξ + h) berechnen m¨ochte, f¨ ur kleine h n¨ aherungsweise den Wert ξ 2 + 2ξh nehmen kann und dabei f¨ ur den Fehler ρ(h) noch gilt 1 ρ(h) = 0. h→0 h
(3.9)
lim
F¨ ur dieses Ergebnis ist auch die Notation ρ(h) = o(h)
f¨ ur
h→0
u ¨ blich, wobei das hier auftretende Klein-o als Landau-Symbol bezeichnet wird. Das lokale Ersetzen von f durch die Funktion g ist nichts anderes als eine lokale Linearisierung und dies ist der Grundgedanke, der zum Begriff der Differenzierbarkeit einer Abbildung f¨ uhrt. Wie gut hierbei approximiert werden soll, wird dabei durch (3.9) ausgedr¨ uckt. Dies wird daher auch im allgemeineren Kontext auftreten. Aufgaben 1. Sei f : R → R eine folgenstetige Funktion, f¨ ur die f (1) = e und f (x + y) = f (x)f (y)
f¨ ur alle
x, y ∈ Q
gilt. Man zeige, dass dann f (x) = exp(x) f¨ ur alle x ∈ R gelten muss.
126
3 Stetigkeit
ur 2. Seien X und Y Mengen und f : X → Y eine Abbildung. Man zeige, dass f¨ M, N ∈ P (Y ) gilt (ii) f −1 (Y \ M ) = X \ f −1 (M ). (i) f −1 (M ∩ N ) = f −1 (M ) ∩ f −1 (N ), 3. Seien (X, dX ) und (Y, dY ) metrische R¨aume. Man zeige, dass eine Abbildung f : X → Y genau dann stetig ist, wenn f¨ ur alle abgeschlossenen Mengen A ⊂ Y das Urbild f −1 (A) abgeschlossen ist. 4. Man kl¨ are, ob die Menge (0, 1) × (0, 1) ⊂ R2 offen oder abgeschlossen ist. 5. Sei (X, d) ein metrischer Raum, K ⊂ X folgenkompakt und A ⊂ X abgeschlossen. Man zeige: Gilt A ⊂ K, so ist A folgenkompakt. 6. Sei (X, d) ein metrischer Raum und M ⊂ X eine Menge, die keine H¨aufungspunkte in X besitzt. Man zeige: Ist K ⊂ X folgenkompakt, so ist M ∩ K eine endliche Menge. 7. Sei f : R → R eine stetige Funktion, f¨ ur die f (x) ∈ Q f¨ ur alle x ∈ R gilt. Man zeige, dass dann f eine konstante Funktion sein muss. 8. Sei f : R → R eine stetige Funktion, die periodisch ist, d.h. es gebe ein p > 0 mit f (x+ kp) = f (x) f¨ ur alle k ∈ Z und alle x ∈ R. Man zeige, dass dann f beschr¨ankt und gleichm¨ aßig stetig ist. 9. Sei f : R → R eine Funktion, die stetig im Punkt 0 ∈ R ist, und f¨ ur die f (0) = 1 und f (x + y) ≤ f (x)f (y) f¨ ur alle x, y ∈ R gilt. Man zeige, dass dann f eine stetige Funktion ist. 10. Man zeige, dass f¨ ur alle t ∈ R gilt 3 + 4 cos(t) + cos(2t) ≥ 0. 11. Sei f : R2 \ {(0, 0)} → R definiert durch f (x, y) :=
x2 y . x2 + y 2
Man bestimme lim(x,y)→(0,0) f (x, y). 12. Sei f : R2 → R definiert durch f (0, 0) := 0,
f (x, y) :=
x2
xy + y2
f¨ ur
(x, y) 3= (0, 0).
Man zeige, dass f in allen Punkten (x, y) 3= (0, 0) stetig, aber im Punkt (0, 0) unstetig ist. 13. (a) Ist exp : R → R gleichm¨ aßig stetig? (b) Sei n ∈ N und M eine nichtleere Teilmenge des Rn . Sei f : Rn → R definiert durch f (x) := inf y∈M 9x − y9. Ist dann f gleichm¨aßig stetig?
Differenzierbarkeit I
4
Mit diesem Abschnitt beginnen wir mit der Diskussion der Thematik, die traditionell als Differential- und Integralrechnung bezeichnet wird. Die Differenzierbarkeit von Abbildungen werden wir dabei in verschiedenem Kontext diskutieren, weshalb hier ’I’ in ¨ der Uberschrift auftritt.
4.1
Der Begriff der Differenzierbarkeit
Am Ende des letzten Abschnitts wurde bereits auf die Idee der lokalen Linearisierung hingewiesen. Wie der n¨ achste Satz zeigt, kann man diese auf verschiedene Weise analytisch fassen. Es wird dabei nun bereits die allgemeinere Situation von Funktionen einer Variablen mit Werten im Rm betrachtet. Satz 4.1 Seien a, b ∈ R mit a < b, sei m ∈ N und sei f : (a, b) → Rm eine Abbildung. Dann sind f¨ ur jedes ξ ∈ (a, b) die folgenden Aussagen ¨aquivalent: (1) Es gibt ein v ∈ Rm und eine Funktion r : {h ∈ R : ξ + h ∈ (a, b)} → Rm , die im Punkt h = 0 stetig ist und r(0) = 0 erf¨ ullt, so dass f (ξ + h) = f (ξ) + hv + hr(h)
f¨ ur alle
h ∈ R mit ξ + h ∈ (a, b)
gilt. (2) Es gibt eine im Punkt ξ stetige Funktion ϕ : (a, b) → Rm , so dass f (x) − f (ξ) = (x − ξ)ϕ(x)
f¨ ur alle
x ∈ (a, b)
gilt. (3) Es existiert der Grenzwert lim
x→ξ
1 (f (x) − f (ξ)). x−ξ
Beweis: Wir beginnen damit, zu zeigen, dass aus der Aussage (1) die Aussage (2) folgt: Seien v ∈ Rm und r : {h ∈ R : ξ + h ∈ (a, b)} → Rm wie in (1) notiert gegeben. Damit definieren wir ϕ(x) := v + r(x − ξ) f¨ ur x ∈ (a, b).
128
4 Differenzierbarkeit I
ur alle x ∈ (a, b) gilt. Da die Funktion Dies ist sinnvoll, weil ja ξ + (x − ξ) = x ∈ (a, b) f¨ r im Punkt h = 0 stetig ist, ist die Funktion ϕ im Punkt x = ξ stetig. Nach (1) k¨onnen wir schließlich f¨ ur x ∈ (a, b) notieren f (x) − f (ξ) = f (ξ + (x − ξ)) − f (ξ) = (x − ξ)v + (x − ξ)r(x − ξ) = (x − ξ)ϕ(x). Damit gilt tats¨ achlich die Aussage (2). Aus (2) folgt (3): Gilt (2), so k¨ onnen wir f¨ ur jede Folge (xn )n∈N in (a, b) mit xn → ξ und xn 3= ξ f¨ ur alle n notieren 1 (f (xn ) − f (ξ)) = ϕ(xn ). xn − ξ Da ϕ im Punkt ξ stetig ist, gilt ja ϕ(xn ) → ϕ(ξ) f¨ ur n → ∞ und damit lim
n→∞
1 (f (xn ) − f (ξ)) = ϕ(ξ). xn − ξ
Dies besagt aber, dass (3) gilt. Aus (3) folgt (1): Gilt (3), so k¨ onnen wir leicht einen Vektor v und eine Funktion r mit den in (1) geforderten Eigenschaften angeben. Wir setzen v := lim
x→ξ
1 (f (x) − f (ξ)) x−ξ
(4.1)
und r(0) := 0,
r(h) :=
1 (f ((ξ + h) − f (ξ)) − v h
f¨ ur
h 3= 0 ∧ ξ + h ∈ (a, b).
Die so definierte Funktion r ist tats¨ achlich im Punkt h = 0 stetig. Denn ist (hn )n∈N eine Folge mit ξ + hn ∈ (a, b) f¨ ur alle n und hn → 0 f¨ ur n → ∞, so gilt ja r(hn ) = 0, ur den Fall hn 3= 0 kann aber (4.1) eingesetzt werden; damit erh¨alt wenn hn = 0 ist, f¨ man insgesamt r(hn ) → 0 f¨ ur n → ∞ und somit die Folgenstetigkeit von r im Punkt h = 0. Aus der Definition von r folgt sofort, dass f (ξ + h) = f (ξ) + hv + hr(h) f¨ ur alle h mit ξ + h ∈ (a, b) gilt. ! Wesentlich f¨ ur den Begriff der Ableitung einer Funktion ist, dass, wenn die Aussage (1) des Satzes gilt, der Vektor v ∈ Rm dadurch eindeutig bestimmt ist. Das bedeutet, dass, wenn es auch noch einen Vektor w ∈ Rm und eine im Punkt h = 0 stetige Funktion s gibt mit s(0) = 0, so dass f (ξ + h) − f (ξ) = hw + hs(h) f¨ ur alle h mit ξ + h ∈ (a, b) gilt, schon v = w sein muss. Dies ist rasch zu sehen: Offenbar muss dann h(v −w)+h(r(h)−s(h)) = 0 f¨ ur alle h ∈ R mit ξ +h ∈ (a, b) gelten. Da dabei auch h = 3 0 sein kann, folgt v−w = r(h)−s(h). Wegen limh→0 (r(h)−s(h)) = 0 folgt daraus v = w. Es ist u ur den durch die G¨ ultigkeit von ¨ blich, f¨ f (ξ + h) = f (ξ) + hv + hr(h)
f¨ ur alle h ∈ R mit ξ + h ∈ (a, b)
eindeutig bestimmten Vektor v die Notation f & (ξ) zu verwenden und f & (ξ) als die Ableitung von f im Punkt ξ zu bezeichnen. In Hinblick auf sp¨ater noch zu behandelnde
4.1 Der Begriff der Differenzierbarkeit
129
unstiger, die lineare Abbildung T : R → Rm , allgemeinere Situationen ist es jedoch g¨ die mit diesem Vektor v durch T (t) := tv
f¨ ur
t∈R
definiert ist, als die Ableitung zu bezeichnen. Denn das ist der Aussage (1) des Satzes angemessener: Gilt (1) und ist ε > 0, so gibt es wegen der Stetigkeit der Funktion r im Punkt h = 0 ja ein h0 > 0 mit |r(h)| < ε f¨ ur |h| < h0 , somit gilt 1 |f (ξ + h) − (f (ξ) + hv)| < ε |h|
f¨ ur
0 < |h| < h0 .
Dies ist ganz im Sinne der zum Ende des letzten Kapitels gef¨ uhrten Diskussion eine Aussage u ¨ ber die lokale Approximierbarkeit der Funktion f durch die affine Abbildung h ∈ R /→ f (ξ) + hv ∈ Rm . Ist so eine lokale Approximierbarkeit in einem Punkt m¨oglich, so hat dies zur Folge, dass die Funktion auf jeden Fall in diesem Punkt stetig sein muss. Dies sieht man sofort unter Ben¨ utzung der dann ja g¨ ultigen Aussage (2) von Satz 4.1: Gilt f (x) − f (ξ) = (x − ξ)ϕ(x), wobei die Funktion ϕ im Punkt ξ stetig ist, so ist auch die Funktion x /→ f (ξ) + (x − ξ)ϕ(x) und somit die Funktion f im Punkt ξ stetig. Man sieht jedoch leicht, dass umgekehrt die Stetigkeit von f im Punkt ξ im allgemeinen nicht ausreicht, um so eine lokale Approximierbarkeit durch eine affine Abbildung sicherzustellen. Dies zeigt schon das Beispiel der Funktion f (x) := |x| f¨ ur x ∈ R. Diese ist in allen Punkten ξ ∈ R stetig, wie die Absch¨atzung |f (x) − f (ξ)| = | |x| − |ξ| | ≤ |x − ξ| zeigt. Es gilt jedoch im Punkt ξ = 0 nicht die Aussage (2) von Satz 4.1. Denn ist x < 0, so gilt f (x) − f (0) = |x| = −x, und ist x > 0, so gilt f (x) − f (0) = x. Damit m¨ usste, wenn (2) gilt, f¨ ur die Funktion ϕ gelten xϕ(x) = −x f¨ ur
x < 0,
xϕ(x) = x f¨ ur
x > 0.
Damit w¨ are ϕ(x) = −1 f¨ ur x < 0 und ϕ(x) = 1 f¨ ur x > 0. Damit k¨onnte aber ϕ nicht im Punkt x = 0 stetig sein. Jede der drei ¨ aquivalenten Aussagen (1), (2) und (3) von Satz 4.1 ist nun geeignet, um die Differenzierbarkeit der Funktion f : (a, b) → Rm im Punkt ξ ∈ (a, b) zu definieren. Der Beweis von Satz 4.1 zeigt, dass f¨ ur solche Funktionen im Fall der Differenzierbarkeit die Ableitung f & (ξ) durch f & (ξ) = lim
x→ξ
1 (f (x) − f (ξ)) x−ξ
(4.2)
berechnet werden kann. Wie beim Begriff der Stetigkeit wird die Funktion f als differenzierbar bezeichnet, wenn sie in allen Punkten differenzierbar ist. Es ist m¨ oglich, dass im Fall ξ = a oder ξ = b der in (4.2) auftretende Grenzwert als rechtsseitiger bzw. als linksseitiger Grenzwert existiert. In diesem Fall spricht man davon, dass die Funktion f im Punkt ξ = a rechtsseitig bzw. im Punkt ξ = b linksseitig differenzierbar ist.
130
4 Differenzierbarkeit I
ur differenzierbare Funktionen anzugeben. Denkt Es ist nicht schwierig, erste Beispiele f¨ man an die lokale Approximierbarkeit durch eine affine Abbildung, so ist es naheliegend, dass jede affine Abbildung f : R → Rm , die mit vorgegebenen Vektoren u, v ∈ Rm definiert ist durch f (x) := u + xv f¨ ur x ∈ R, differenzierbar sein sollte. Davon kann man sich auch sofort u ¨ berzeugen: Ist ξ ∈ R beliebig gew¨ ahlt, so gilt f¨ ur x ∈ R f (x) − f (ξ) = xv − ξv = (x − ξ)v, somit ist die Aussage (2) von Satz 4.1 erf¨ ullt mit der konstanten Funktion ϕ(x) := v f¨ ur alle x ∈ R, die trivialerweise im Punkt ξ stetig ist. Ein Vergleich mit Aussage (1) ullt ist, (was aufgrund zeigt, dass dann f & (ξ) = v ist und (1) mit dem Rest r(h) = 0 erf¨ der in diesem Fall exakt m¨ oglichen Approximation nicht verwunderlich ist). Ist v = 0, also f eine konstante Funktion, so folgt f & (ξ) = 0 f¨ ur alle ξ ∈ R. Etwas aufwendiger ist es, nachzuweisen, dass die Exponentialfunktion exp : R → R differenzierbar ist. Ist ξ ∈ R beliebig gew¨ ahlt, so gilt f¨ ur h ∈ R exp(ξ + h) − exp(ξ) = exp(ξ)(exp(h) − 1). Unter Ben¨ utzung der Exponentialreihe kann man schreiben 2 5 ∞ ∞ ∞ = = = 1 1 1 k k+1 k h =h+ h h . =h 1+ exp(h) − 1 = k! (k + 1)! (k + 1)! k=1
)∞
k=1
1 k=1 (k+1)!
k=1
k
Da auch die Potenzreihe h f¨ ur alle h ∈ R konvergent ist, erh¨alt man eine stetige Funktion r : R → R, wenn man definiert r(h) := exp(ξ)
∞ = k=1
1 hk . (k + 1)!
F¨ ur diese gilt offenbar r(0) = 0. Mit dieser Funktion kann man nun notieren exp(ξ + h) − exp(ξ) = exp(ξ) · h + hr(h)
f¨ ur
h ∈ R,
was zeigt, dass exp im Punkt ξ differenzierbar ist und die Ableitung dabei gleich exp(ξ) d ist. Dieses Ergebnis notiert man am suggestivsten mit Hilfe des Differentialoperators dx in der Form d exp(x) = exp(x) f¨ ur x ∈ R. dx d Man beachte, dass man den Operator dx formal wie einen Bruch schreibt, man aber, (obwohl es immer wieder geschieht), damit nicht wie mit einem Bruch rechnen sollte. d Die Notation dx kommt dabei vom in (4.1) bzw. in (8.11) auftretenden Differenzenquotienten f (x) − f (ξ) . x−ξ Ausgehend von diesen ersten Beispielen kann man rasch die Differenzierbarkeit weiterer Funktionen erschließen, wenn man die Aussagen des folgenden Satzes ben¨ utzt:
4.1 Der Begriff der Differenzierbarkeit
131
Satz 4.2 Seien a, b ∈ R mit a < b, sei ξ ∈ (a, b) und seien die Funktionen f : (a, b) → R und g : (a, b) → R im Punkt ξ differenzierbar. Dann gilt: (a) Die durch (f + g)(x) := f (x) + g(x) f¨ ur x ∈ (a, b) definierte Funktion f + g ist im Punkt ξ differenzierbar und es gilt (f + g)& (ξ) = f & (ξ) + g & (ξ). (b) Die durch (f · g)(x) := f (x)g(x) f¨ ur x ∈ (a, b) definierte Funktion f · g ist im Punkt ξ differenzierbar und es gilt (f · g)& (ξ) = f & (ξ)g(ξ) + f (ξ)g & (ξ).
(Produktregel)
(c) Ist g(ξ) = 3 0, so gibt es ein Intervall (ξ − δ, ξ + δ) ⊂ (a, b), so dass man die Funktion fg durch : ; f f (x) (x) := g g(x) definieren kann. Die Funktion
f g
f¨ ur
x ∈ (ξ − δ, ξ + δ)
ist dann im Punkt ξ differenzierbar und es gilt
: ;& f f & (ξ)g(ξ) − f (ξ)g & (ξ) (ξ) = . g g(ξ)2
(Quotientenregel)
Beweis: Entsprechend zur Aussage (2) von Satz 4.1 gelte f¨ ur x ∈ (a, b) f (x) − f (ξ) = (x − ξ)ϕ(x),
g(x) − g(ξ) = (x − ξ)ψ(x),
(4.3)
wobei die Funktionen ϕ : (a, b) → R und ψ : (a, b) → R im Punkt ξ stetig sind. Es folgt (f + g)(x) − (f + g)(ξ) = f (x) − f (ξ) + g(x) − g(ξ) = (x − ξ)ϕ(x) + (x − ξ)ψ(x) = (x − ξ)χ(x) mit der Funktion χ(x) := ϕ(x) + ψ(x). Da auch χ im Punkt ξ stetig ist, folgt die Differenzierbarkeit von f + g im Punkt ξ. Unter Verwendung der Aussage (3) folgt (f + g)& (ξ) = χ(ξ) = ϕ(ξ) + ψ(ξ) = f & (ξ) + g & (ξ). Zum Nachweis der Produktregel schließt man ganz analog. Zun¨achst ist (f · g)(x) − (f · g)(ξ) = (f (x) − f (ξ))g(ξ) + f (ξ)(g(x) − g(ξ)) + (f (x) − f (ξ))(g(x) − g(ξ)). Unter Verwendung von (4.3) erh¨ alt man daraus (f · g)(x) − (f · g)(ξ) = (x − ξ)(ϕ(x)g(ξ) + f (ξ)ψ(x) + (x − ξ)ϕ(x)ψ(x)).
132
4 Differenzierbarkeit I
ultigkeit von (b). Wegen (x − ξ)ϕ(x)ψ(x) → 0 f¨ ur x → ξ folgt daraus sofort die G¨ Zum Beweis von (c) sei zuerst u ¨ berlegt, dass es ein δ > 0 geben muss, so dass g(x) 3= 0 f¨ ur alle x ∈ (ξ − δ, ξ + δ) gilt. Da g im Punkt ξ differenzierbar ist, ist g in diesem Punkt auch stetig, somit gibt es ein δ > 0, so dass |g(x) − g(ξ)| < |g(ξ)|/2 f¨ ur alle x ∈ (ξ − δ, ξ + δ) gilt. Dies zeigt, dass g(x) 3= 0 f¨ ur x ∈ (ξ − δ, ξ + δ) gelten muss. Damit ist aber die Funktion f /g wie angegeben sinnvoll definiert f¨ ur x ∈ (ξ − δ, ξ + δ). F¨ ur den Nachweis der Differenzierbarkeit von f /g im Punkt ξ schreiben wir unter Verwendung von (8.12) f (x)g(ξ) − f (ξ)g(x) f (x) f (ξ) − = g(x) g(ξ) g(x)g(ξ) 1 = ((f (x) − f (ξ))g(ξ) − f (ξ)(g(x) − g(ξ))) g(x)g(ξ) 1 (x − ξ)(ϕ(x)g(ξ) − f (ξ)ψ(x)). = g(x)g(ξ) Wegen g(x) → g(ξ) f¨ ur x → ξ folgt daraus die Differenzierbarkeit im Punkt ξ und die G¨ ultigkeit der Quotientenregel. ! Aus der Produktregel ergeben sich rasch einige einfache, (aber dennoch wichtige), Folgerungen: ur alle x ∈ (a, b), so gilt f & (ξ) = 0, Ist f eine konstante Funktion, also etwa f (x) = α f¨ und damit geht die Produktregel in diesem Fall u ¨ ber in (αg)& (ξ) = αg & (ξ). Ist f (x) = x f¨ ur alle x ∈ R, so gilt f & (x) = 1 f¨ ur alle x ∈ R und man erh¨alt (f · f )& (x) = f (x) + f (x) = 2x, d 2 was man suggestiver als dx x = 2x schreibt. Durch einen einfachen Induktionsschluss gewinnt man daraus das Resultat, dass die Funktionen x ∈ R /→ xn , (n ∈ N), alle differenzierbar sind und
d n x = nxn−1 dx gilt. )m k Dies liefert weiter f¨ ur reelle Polynomfunktionen x ∈ R → / k=0 ak x , wobei m ∈ ur k = 0, . . . , m gegeben sind, das Ergebnis N ∪ {0} und ak ∈ R f¨ m
m
k=0
k=1
= d = ak xk = ak kxk−1 . dx Sp¨ ater werden wir ein entsprechendes Resultat f¨ ur Funktionen, die durch Potenzreihen gegeben sind, gewinnen. Es folgt dies aber nicht unmittelbar aus dem Resultat f¨ ur Polynomfunktionen.
4.2 Zur Differenzierbarkeit wichtiger Funktionen
133
Nach Aussage (c) von Satz 4.2 sind auch die Funktionen x ∈ R \ {0} /→ x−n , (n ∈ N), differenzierbar und die Quotientenregel liefert : ; d −nxn−1 1 = −nx−n−1 f¨ ur x 3= 0. = n dx x x2n Mit der Frage der Differenzierbarkeit weiterer wichtiger Funktionen werden wir uns im n¨ achsten Abschnitt besch¨ aftigen.
4.2
Zur Differenzierbarkeit wichtiger Funktionen
Betrachtet man die Funktion x /→ exp(2x), so kann man leicht die Differenzierbarkeit zeigen, indem man die Funktionalgleichung der Exponentialfunktion ausn¨ utzt und die Produktregel einsetzt: d d exp(2x) = (exp(x) exp(x)) = 2 exp(x) exp(x) = 2 exp(2x). dx dx Hinter diesem Ergebnis verbirgt sich ein allgemeines Resultat zur Differenzierbarkeit einer Hintereinanderausf¨ uhrung differenzierbarer Funktionen, das als Kettenregel bekannt ist. Dabei wird im n¨ achsten Satz die einfachste Variante der Kettenregel formuliert, sp¨ ater werden wir die Diskussion noch einmal aufnehmen und dann wird es wichtig sein, Ableitungen als lineare Abbildungen aufzufassen. Satz 4.3 Seien a, b, α, β ∈ R mit a < b und α < β. Seien f : (a, b) → R und g : (α, β) → R gegeben, wobei f ((a, b)) ⊂ (α, β) gelte. Dann gilt: Ist f im Punkt ξ ∈ (a, b) und g im Punkt f (ξ) ∈ (α, β) differenzierbar, so ist die Funktion g ◦ f : (a, b) → R ebenfalls im Punkt ξ differenzierbar und es gilt (g ◦ f )& (ξ) = g & (f (ξ)) · f & (ξ). Beweis: Es gilt und
f (x) = f (ξ) + (x − ξ)ϕ(x) g(t) = g(f (ξ)) + (t − f (ξ))ψ(t)
f¨ ur f¨ ur
x ∈ (a, b) t ∈ (α, β),
wobei ϕ : (a, b) → R im Punkt ξ und ψ : (α, β) → R im Punkt f (ξ) stetig ist. Es folgt (g ◦ f )(x) − (g ◦ f )(ξ) = g(f (ξ) + (x − ξ)ϕ(x)) − g(f (ξ)) = (x − ξ)ϕ(x)ψ(f (ξ) + (x − ξ)ϕ(x)) = (x − ξ)ϕ(x)ψ(f (x)). Da f im Punkt ξ stetig ist und ϕ(x) → f & (ξ), sowie ψ(f (x)) → g & (f (ξ)) f¨ ur x → ξ gilt, folgt daraus sofort die Behauptung. !
134
4 Differenzierbarkeit I
Dieses Resultat kann man bei der Funktion x /→ exp(2x) anwenden, indem man diese Funktion als Hintereinanderausf¨ uhrung der Funktion x /→ 2x und der Exponentialfunktion auffasst. Dann ist also f (x) = 2x und g(t) = exp(t) und die Kettenregel liefert wegen f & (x) = 2 d (g ◦ f )(x) = exp(2x)f & (x) = 2 exp(2x), dx also genau das fr¨ uher erhaltene Ergebnis. Allgemeiner gilt offenbar f¨ ur beliebiges a ∈ R d exp(ax) = a exp(ax) f¨ ur dx
x ∈ R.
Dies erlaubt es auch sofort, die f¨ ur beliebiges a > 0 sinnvolle Funktion x ∈ R /→ ax zu diskutieren. Denn wir haben ja definiert ax = exp(x log(a)). alt man nun Damit erh¨ d x (a ) = (log(a)) exp(x log(a)) = (log(a))ax . dx Sehr einfach ergibt sich nun auch die Differenzierbarkeit der Hyperbelfunktionen. Denn man kann unter Verwendung der Kettenregel rechnen ; ; : : & & 1. x 1. x d 1 x d 1 x −x −x −x (e − e ) = e +e (e + e ) = e − e−x , dx 2 2 dx 2 2 und dies liefert unter Verwendung der Definition der Hyperbelfunktionen d sinh(x) = cosh(x), dx
d cosh(x) = sinh(x) dx
f¨ ur
x ∈ R.
Bei der Frage der Differenzierbarkeit der trigonometrischen Funktionen m¨ ussen wir, wenn wir zun¨ achst im Rahmen von reellwertigen Funktionen verbleiben wollen, komplizierter argumentieren. Ben¨ utzt man das Additionstheorem cos(x + y) = cos(x) cos(y) − sin(x) sin(y), so erh¨ alt man, wenn ξ ∈ R beliebig gegeben ist und (hn )n∈N eine Nullfolge ist, cos(ξ + hn ) − cos(ξ) = cos(ξ)(cos(hn ) − 1) − sin(ξ) sin(hn ). Damit wird aber cos& (ξ) = − sin(ξ) gelten, wenn 1 (cos(hn ) − 1) → 0 hn
und
1 sin(hn ) → 1 hn
4.2 Zur Differenzierbarkeit wichtiger Funktionen
135
f¨ ur n → ∞ gezeigt werden kann; (man beachte, das man dabei von hn 3= 0 ausgehen kann). Dies l¨ asst sich nachweisen, wenn man von den Reihendarstellungen cos(x) =
∞ =
1 (−1)m x2m , (2m)! m=0
ausgeht. Durch f (x) :=
sin(x) =
∞ =
1 (−1)m t2m+1 (2m + 1)! m=0
∞ =
1 (−1)m x2m (2m + 1)! m=0
wird ebenfalls eine auf R stetige Funktion definiert, weil die Reihe f¨ ur alle x ∈ R konvergent ist. Da offenbar f (0) = 1 gilt, erh¨ alt man damit 1 sin(hn ) = f (hn ) → 1 f¨ ur hn
n → ∞.
Entsprechend kann man ∞ 1 1 = 1 (−1)m h2m (cos(hn ) − 1) = n hn hn m=1 (2m)!
=
∞ ∞ = 1 1 1 = (−1)m+1 h2m+2 (−1)m+1 h2m = h n n n hn m=0 (2m + 2)! (2m + 2)! m=0
schreiben und damit h−1 ur n → ∞ erhalten. n (cos(hn ) − 1) → 0 f¨ Mit der gleichen Argumentation kann man zeigen, dass sin& (x) = cos(x)
f¨ ur
x∈R
gilt. Definiert man die Tangens-Funktion tan : (−π/2, π/2) → R durch tan(x) =
sin(x) , cos(x)
so ist nach Satz 4.2 auch diese Funktion differenzierbar und die Quotientenregel liefert d 1 tan(x) = . dx (cos(x))2 Wir werden sp¨ ater unter Ben¨ utzung dieses Resultats sehen, dass auch zur Funktion tan : (−π/2, π/2) → R eine Umkehrfunktion existiert, die wie bei der Sinus- und der Cosinus-Funktion als Arcustangens bezeichnet und mit arctan notiert wird. Es stellt sich nun nat¨ urlich die Frage nach der Differenzierbarkeit solcher Umkehrfunktionen. Der folgende Satz gibt eine positive Antwort dazu.
136
4 Differenzierbarkeit I
Satz 4.4 Sei (a, b) ⊂ R ein offenes Intervall, sei ξ ∈ (a, b), sei f : (a, b) → R stetig, streng monoton wachsend und im Punkt ξ differenzierbar mit f & (ξ) 3= 0. Dann ist die Funktion f −1 im Punkt f (ξ) differenzierbar und es gilt (f −1 )& (f (ξ)) =
1 f & (ξ)
.
(4.4)
Beweis: Nach Satz 3.13 und Satz 3.14 ist f ((a, b)) ein Intervall und f −1 : f ((a, b)) → R stetig. Sei (yn )n∈N eine Folge in f ((a, b)) mit yn 3= f (ξ) f¨ ur alle n und yn → f (ξ) f¨ ur n → ∞. Da f −1 stetig ist, gilt dann f −1 (yn ) → f −1 (f (ξ)) = ξ. Aus yn 3= f −1 (ξ) folgt, wenn man xn := f −1 (yn ) definiert, xn 3= ξ f¨ ur alle n. Damit gilt aber lim
n→∞
1 (f (xn ) − f (ξ)) = f & (ξ) 3= 0. xn − ξ
Nun kann man aber schreiben 1 1 (f −1 (yn ) − f −1 (f (ξ))) = (xn − ξ) yn − f (ξ) f (xn ) − f (ξ) ;−1 : 1 (f (xn ) − f (ξ)) , = xn − ξ und dies impliziert, dass lim
n→∞
1 1 (f −1 (yn ) − f −1 (f (ξ))) = & yn − f (ξ) f (ξ)
gilt. Damit ist aber alles gezeigt.
!
ur streng monoton fallende Funktionen, urlich f¨ Ein entsprechendes Resultat gilt nat¨ weil bei einer streng monoton fallenden Funktion f die Funktion −f streng monoton wachsend ist. Satz 4.4 zeigt sofort, dass die Logarithmus-Funktion log : (0, ∞) → R differenzierbar ist. Ist x = exp(ξ), so gilt wegen exp& (ξ) = exp(ξ) nach (4.4) 1 1 d log(x) = = . dx exp(ξ) x Wir k¨ onnen also festhalten log& (x) =
1 x
f¨ ur
x > 0.
Unter Verwendung der Kettenregel erh¨ alt man daraus die Ableitung der mit einem a ∈ R definierten Funktion xa := exp(a log(x))
f¨ ur
x > 0.
4.2 Zur Differenzierbarkeit wichtiger Funktionen
137
Es ergibt sich
d a a (x ) = (exp(a log(x))) = axa−1 , dx x was offenbar wieder ganz dem fr¨ uheren Ergebnis f¨ ur den Fall a = n ∈ N entspricht.
Satz 4.4 liefert auch die Differenzierbarkeit der Arcusfunktionen und der Areafunktionen; es sei hier nur f¨ ur den Arcussinus ausgef¨ uhrt, wie man die Ableitung erh¨alt. Ist x ∈ (−1, 1) und x = sin(ξ), so erh¨ alt man wegen sin& (ξ) = cos(ξ) nach (4.4) d 1 1 1 arcsin(x) = = * . = √ 2 dx cos(ξ) 1 − x2 1 − sin ξ Die Ableitungen der anderen Funktionen seien hier nur notiert: d 1 arccos(x) = − √ f¨ ur x ∈ (−1, 1), dx 1 − x2 1 d arctan(x) = f¨ ur x ∈ R, dx 1 + x2 d 1 f¨ ur x ∈ R, arsinh(x) = √ 2 dx x +1 1 d arcosh(x) = √ f¨ ur x > 1. 2 dx x −1 Abschließend sei noch auf die Differenzierbarkeit der Funktion x /→ exp(λx) in der ¨ allgemeineren Situation λ ∈ C eingegangen. Man sieht leicht, dass die Uberlegungen von Satz 4.1, die ja f¨ ur Funktionen mit Werten im Rm durchgef¨ uhrt wurden, auch auf den Fall komplexwertiger Funktionen u ¨ bertragbar sind. Insbesondere ist auch eine Funktion f : (a, b) → C im Punkt ξ ∈ (a, b) differenzierbar, wenn der Grenzwert limx→ξ (x−ξ)−1 (f (x)−f (ξ)) existiert. Da Konvergenz von komplexen Folgen genau dann gegeben ist, wenn die Folge der Realteile und die Folge der Imagin¨arteile konvergent sind, ist also so eine komplexwertige Funktion genau dann im Punkt ξ differenzierbar, wenn Ref und Imf im Punkt ξ differenzierbar sind und es gilt f & (ξ) = (Ref )& (ξ) + i(Imf )& (ξ). Ist nun λ = μ + νi, so gilt f¨ ur x ∈ R exp(λx) = exp(μx + iνx) = exp(μx)(cos(νx) + i sin(νx)). Damit ist Re exp(λx) = exp(μx) cos(νx) und Im exp(λx) = exp(μx) sin(νx). Die Ableitungen dieser reellwertigen Funktionen kann man unter Ben¨ utzung der Produktregel rasch berechnen: d (exp(μx) cos(νx)) = μ exp(μx) cos(νx) − ν exp(μx) sin(νx), dx d (exp(μx) sin(νx)) = μ exp(μx) sin(νx) + ν exp(μx) cos(νx). dx
138
4 Differenzierbarkeit I
Damit folgt d exp(λx) = μ exp(μx)(cos(νx) + i sin(νx)) + ν exp(μx)(i cos(νx) − sin(νx)). dx Es gilt also d exp(λx) = (μ + iν) exp(μx)(cos(νx) + i sin(νx)) = λ exp(λx). dx Das fr¨ uher f¨ ur den reellwertigen Fall erhaltene Ergebnis bleibt also formal unver¨andert g¨ ultig.
4.3
Lokale Extrema, Richtungsableitung, Mittelwertsatz
Die Ableitung einer differenzierbaren reellwertigen Funktion erm¨oglicht es, Informationen dazu zu erhalten, was man den Verlauf der Funktion nennen kann. Wir diskutieren dabei zun¨ achst sogenannte lokale Extrema, und zwar in einem Kontext, der den Begriff urlich erscheinen l¨asst. der Richtungsableitung als nat¨ Ist (M, d) ein beliebiger metrischer Raum und darauf eine Funktion f : M → R gegeben, so spricht man davon, dass in einem Punkt ξ ∈ M ein lokales Maximum von f vorliegt, wenn es ein δ > 0 gibt, so dass f (x) ≤ f (ξ) f¨ ur alle
x∈M
mit
d(x, ξ) < δ
gilt. Es ist klar, was entsprechend unter einem lokalen Minimum zu verstehen ist. Von einem lokalen Extremum in einem Punkt ξ sprechen wir nun, wenn im Punkt ξ ein lokales Maximum oder ein lokales Minimum vorliegt. Ist nun speziell M eine offene Teilmenge eines Banachraumes X, so kann man leicht mit Hilfe von Ableitungen ein notwendiges Kriterium daf¨ ur angeben, dass in einem Punkt ξ ∈ M ein lokales Extremum vorliegt. Dabei ben¨ utzt man den Begriff der Richtungsableitung im Punkt ξ in Richtung eines Vektors v ∈ X \ {0}. Da M ⊂ X offen sein soll, gibt es zu ξ ∈ M und v ∈ X \ {0} ein ε > 0, so dass ξ + tv ∈ M ist f¨ ur alle t ∈ R mit |t| < ε. Damit kann man aber eine Abbildung gv : (−ε, ε) ⊂ R → R definieren durch ur gv (t) := f (ξ + tv) f¨
|t| < ε.
Ist nun gv im Punkt t = 0 differenzierbar, so nennt man die Ableitung gv& (0) die Richtungsableitung an der Stelle ξ in Richtung v. Wir notieren daf¨ ur Dv f (ξ) und k¨onnen offenbar schreiben 1 Dv f (ξ) = lim (f (ξ + tv) − f (ξ)). t→0 t Es ist zu beachten, dass man h¨ aufig Richtungsableitungen nur in Richtungen v mit 9v9 = 1 definiert. Dies ist auch tats¨ achlich in dem Sinn ausreichend, als stets aus
4.3 Lokale Extrema, Richtungsableitung, Mittelwertsatz
139
der Existenz einer Richtungsableitung in einer Richtung v 3= 0 auch die Existenz der Richtungsableitung in jeder Richtung w mit w = λv mit λ ∈ R \ {0} folgt. Denn es gilt ja 1 1 lim (f (ξ + tλv) − f (ξ)) = lim λ (f (ξ + τ v) − f (ξ)) t→0 t τ →0 τ und damit Dλv f (ξ) = λDv f (ξ). Man kann u ur finden, dass ¨ brigens leicht Beispiele daf¨ die Existenz der Richtungsableitung nur in gewisse Richtungen, nicht aber f¨ ur alle Richtungen v gegeben ist. Wir setzen im n¨ achsten Satz nun aber die Existenz von Dv f (ξ) in alle Richtungen v 3= 0 voraus. Satz 4.5 Sei M ⊂ X eine offene Teilmenge des Banachraumes X, sei f : M → R und ξ ∈ M so, dass f¨ ur alle v ∈ X \ {0} die Richtungsableitung Dv f (ξ) existiert. Dann gilt: ur alle v ∈ X \ {0} Liegt im Punkt ξ ein lokales Extremum vor, so muss Dv f (ξ) = 0 f¨ gelten. Beweis: Wir k¨ onnen uns auf den Fall beschr¨ anken, dass im Punkt ξ ein lokales Maximum vorliegt. (Denn liegt ein lokales Minimum vor, so gehen wir einfach zur Funktion g(x) := −f (x) u ¨ber, bei der dann im Punkt ξ ein lokales Maximum vorliegt. Wissen wir dann, dass Dv g(ξ) = 0 sein muss, so gilt nat¨ urlich auch Dv f (ξ) = 0.) Wir gehen also davon aus, dass es ein δ > 0 gibt mit U (ξ, δ) ⊂ M und f (x) ≤ f (ξ) f¨ ur alle x ∈ X mit 9x − ξ9 < δ. Sei v ∈ X \ {0} beliebig gegeben. Wir betrachten dann die Funktion h : (−δ9v9−1 , δ9v9−1 ) → R, die durch h(t) := f (ξ + tv)
f¨ ur
t ∈ (−δ9v9−1 , δ9v9−1 )
definiert ist. Da Dv f (ξ) existiert, existiert dann h& (0). Ist nun tn := −δ(2n9v9)−1 f¨ ur ur alle n und somit n ∈ N, so gilt ja f (ξ + tn v) ≤ f (ξ) f¨ 1 (h(tn ) − h(0)) ≥ 0 f¨ ur alle n ∈ N, tn woraus h& (0) ≥ 0 folgt. Ist aber τn := δ(2n9v9)−1 f¨ ur n ∈ N, so folgt entsprechend 1 (h(τn ) − h(0)) ≤ 0 τn
f¨ ur alle n ∈ N,
was h& (0) ≤ 0 impliziert. Damit folgt insgesamt h& (0) = 0 und somit Dv f (ξ) = 0.
!
¨ F¨ ur die weiteren Uberlegungen ist der folgende Spezialfall wichtig: Korollar 4.1 Sei I ⊂ R ein offenes Intervall, sei ξ ∈ I und f : I → R im Punkt ξ differenzierbar. Dann gilt: Liegt im Punkt ξ ein lokales Extremum vor, so gilt f & (ξ) = 0.
140
4 Differenzierbarkeit I
Beweis: Da X = R ein eindimensionaler Vektorraum ist, gibt es nur eine wesentliche Richtungsableitung, n¨ amlich limt→0 1t (f (ξ + t) − f (ξ)), und diese stimmt offenbar mit der & ! Ableitung f (ξ) u ¨berein. Daraus folgt sofort die Behauptung. Es ist zu beachten, dass es zum Resultat von Korollar 4.1 keine Umkehrung gibt, d.h. es kann f & (ξ) = 0 sein, ohne dass im Punkt ξ ein lokales Extremum vorliegt. Ein einfaches ur x ∈ R, f¨ ur die ja f & (0) = 0 gilt. Beispiel daf¨ ur ist die Funktion f (x) := x3 f¨ F¨ ur Funktionen f : [a, b] ⊂ R → R k¨ onnen wir nun schon eine recht allgemeine Form des sogenannten Mittelwertsatzes der Differentialrechnung gewinnen: Satz 4.6 Seien a, b ∈ R mit a < b, seien f : [a, b] → R und g : [a, b] → R stetig und im offenen Intervall (a, b) differenzierbar. Dann gibt es ein x ∈ (a, b) mit (f (b) − f (a))g & (x) = (g(b) − g(a))f & (x). Beweis: Sei
(4.5)
h(t) := (f (b) − f (a))g(t) − (g(b) − g(a))f (t) f¨ ur
t ∈ [a, b].
Dann ist h stetig auf [a, b] und differenzierbar in (a, b). Außerdem gilt h(a) = f (b)g(a) − g(b)f (a),
h(b) = −f (a)g(b) + g(a)f (b),
somit h(a) = h(b). Da offenbar h& (t) = (f (b) − f (a))g & (t) − (g(b) − g(a))f & (t)
f¨ ur
t ∈ (a, b)
gilt, folgt (4.5), wenn wir zeigen k¨ onnen, dass es ein x ∈ (a, b) geben muss mit h& (x) = 0. Daf¨ ur sind nun verschiedene F¨ alle zu unterscheiden. Ist h eine konstante Funktion, so ist nichts mehr zu zeigen, weil dann ja h& (t) = 0 f¨ ur alle t ∈ (a, b) gilt. Ist aber h nicht konstant, so muss es ein τ ∈ (a, b) geben mit h(τ ) 3= h(a). Sei zuerst angenommen, dass gilt: (i) Es gibt ein τ ∈ (a, b) mit h(τ ) > h(a). Da h auf dem Intervall [a, b] stetig ist, gibt es bekanntlich ein x ∈ [a, b] mit h(x) = max{h(t) : t ∈ [a, b]}. Da aber h(τ ) > h(a) = h(b) gilt, ist dabei nur m¨ oglich, dass x ∈ (a, b) ist. Nach Korollar 4.1 muss damit aber h& (x) = 0 gelten. Sei nun angenommen, dass gilt: (ii) Es gibt ein τ ∈ (a, b) mit h(τ ) < h(a). In diesem Fall kann man wie im ersten Fall argumentieren, indem man nun ben¨ utzt, dass es ein x ∈ [a, b] geben muss mit h(x) = min{h(t) : t ∈ [a, b]}. ! Aus diesem Resultat kann man durch Spezialisierung zwei Aussagen gewinnen, die in der Literatur als Satz von Rolle und im engeren Sinn als Mittelwertsatz der Differentialrechnung bekannt sind:
4.3 Lokale Extrema, Richtungsableitung, Mittelwertsatz
141
Korollar 4.2 Seien a, b ∈ R mit a < b, sei f : [a, b] → R stetig und im offenen Intervall (a, b) differenzierbar. Dann gilt: (a) (Mittelwertsatz): Es gibt ein x ∈ (a, b), so dass f (b) − f (a) = (b − a)f & (x)
(4.6)
gilt. (b) (Satz von Rolle): Ist f (a) = f (b), so gibt es ein x ∈ (a, b) mit f & (x) = 0. Beweis: Zu (a): Setzt man g(x) := x f¨ ur x ∈ [a, b], so erf¨ ullen die Funktionen f und g die Voraussetzungen von Satz 4.6 und (4.5) geht dabei unmittelbar in (4.6) u ¨ ber. Zu (b): Gilt f (a) = f (b), so folgt nach (a), dass es ein x ∈ (a, b) geben muss mit (b − a)f & (x) = 0, woraus sofort f & (x) = 0 folgt. ! Aus (4.6) folgen rasch weitere wichtige Resultate: Korollar 4.3 Seien a, b ∈ R mit a < b, sei f : (a, b) → R differenzierbar. Dann gilt: (a) Ist f & (x) ≥ 0 f¨ ur alle x ∈ (a, b), so ist f monoton wachsend. (b) Ist f & (x) = 0 f¨ ur alle x ∈ (a, b), so ist f konstant. ur alle x ∈ (a, b), so ist f monoton fallend. (c) Ist f & (x) ≤ 0 f¨ Beweis: Zu (a): Seien x, ξ ∈ (a, b) mit x < ξ beliebig gew¨ahlt. Dann ist f auf dem Intervall [x, ξ] stetig und in (x, ξ) differenzierbar. Also gibt es entsprechend (4.6) ein τ ∈ (x, ξ) mit f (ξ) − f (x) = (ξ − x)f & (τ ). Da nach Voraussetzung aber f & (τ ) ≥ 0 sein muss, folgt f (ξ) − f (x) ≥ 0. Damit ist f aber monoton wachsend. Zu (b): Schließt man wie bei (a), so muss nun ja f & (τ ) = 0 sein, woraus f (ξ) = f (x) folgt. Damit ist f konstant. Zu (c): Man schließt wieder wie bei (a) unter Ben¨ utzung von f & (τ ) ≤ 0. ! Damit k¨ onnen wir nun die fr¨ uher bereits erw¨ ahnte Tatsache beweisen, dass zur TangensFunktion eine Umkehrfunktion existiert: ur x ∈ (−π/2, π/2). Folglich ist tan& (x) > 0 f¨ ur alle Es war ja tan& (x) = (cos(x))−2 f¨ x ∈ (−π/2, π/2). Dies bedeutet aber, dass die Tangens-Funktion eine streng monoton wachsende Funktion ist. Denn sind x1 , x2 ∈ (−π/2, π/2) mit x1 < x2 , so gilt nach dem Mittelwertsatz f (x2 ) − f (x1 ) = f & (ξ)(x2 − x1 ) > 0. Damit ist die Tangens-Funktion injektiv. Der Mittelwertsatz der Differentialrechnung kann nicht problemlos auf Abbildungen f : [a, b] → Rn mit n > 1 u ur den Fall n = 2 l¨asst sich leicht ¨ bertragen werden. Schon f¨ ein Beispiel angeben, das zeigt, dass eine Aussage wie in (4.6) nicht mehr erwartet werden kann. Sei f (x) := (cos x, sin x) ∈ R2
f¨ ur
x ∈ [0, 2π].
142
4 Differenzierbarkeit I
Man beachte, dass man dabei das Bild f (x) eigentlich als Spaltenvektor schreiben m¨ usste. Dementsprechend schreiben wir nun auch f & (x) als Zeilenvektor, es gilt somit f & (x) = (− sin x, cos x). Damit ist aber f & (x) 3= (0, 0) f¨ ur alle x ∈ (0, 2π). Andererseits gilt aber aufgrund der Periodizit¨ at der trigonometrischen Funktionen f (0) = f (2π). W¨ urde nun (4.6) gelten, so m¨ usste es ein x ∈ (0, 2π) geben mit f & (x) = 0, was ja nicht m¨ oglich ist. Es gibt jedoch ein Resultat, das den Mittelwertsatz in gewissem Sinn ersetzt. Statt einer Gleichung tritt dabei eine Absch¨ atzung auf. Satz 4.7 Sei I ⊂ R ein offenes Intervall, seien x, ξ ∈ I mit x < ξ und sei f : I → Rn differenzierbar. Dann gilt 9f (x) − f (ξ)9 ≤ ( sup 9f & (t)9)|x − ξ|. t∈[x,ξ]
(4.7)
Beweis: Ist f (x) = f (ξ), so ist (4.7) trivialerweise richtig. Es ist somit nur, wenn f (ξ) 3= f (x) ist, etwas zu beweisen. Sei also η := f (ξ) − f (x) 3= 0. Mit dem bereits in Abschnitt 2.3.1 betrachteten euklidischen Skalarprodukt auf dem Rn sei dann die Funktion ϕ : [0, 1] → R definiert durch ϕ(t) := 'η, f (x + t(ξ − x))-
f¨ ur
t ∈ [0, 1].
Da bei einer stetigen Funktion f auch alle Komponenten fj : I → R, (j = 1, . . . , n), stetige Funktionen sind, ist auch ϕ stetig. Außerdem zeigt die Kettenregel, dass ϕ auf (0, 1) sogar differenzierbar ist. Entsprechend (4.6) gibt es also ein τ ∈ (0, 1) mit ϕ(1) − ϕ(0) = ϕ& (τ ). Nach Definition von η gilt ja ϕ(1) − ϕ(0) = 'f (ξ) − f (x), f (ξ) − f (x)- = 9f (ξ) − f (x)92 . ) Wegen ϕ(t) = nk=1 ηk fk (x + t(ξ − x)) gilt ϕ& (τ ) =
n =
ηk fk& (x + τ (ξ − x))(ξ − x).
k=1
Dies k¨ onnen wir aber wieder schreiben als ϕ& (τ ) = 'η, (ξ − x)f & (x + τ (ξ − x))-. Sch¨ atzen wir nun ab 9(ξ − x)f & (x + τ (ξ − x))9 ≤ |ξ − x| supt∈[x,ξ] 9f & (t)9, so folgt unter Verwendung der Cauchy-Schwarzschen Ungleichung |ϕ& (τ )| ≤ 9η9 |ξ − x| sup 9f & (t)9. t∈[x,ξ]
4.4 Zu den Regeln von de l’Hospital
143
onnen wir daher notieren Insgesamt k¨ |ϕ(1) − ϕ(0)| = 9η92 ≤ 9η9 |ξ − x| sup 9f & (t)9, t∈[x,ξ]
woraus wegen 9η9 3= 0 sofort die Ungleichung (4.7) folgt.
!
Der Mittelwertsatz in der Form von Satz 4.6 ist geeignet, ein Verfahren zu gewinnen, das es erlaubt, die Frage der stetigen Fortsetzbarkeit bei Funktionen zu kl¨aren, bei denen auf den ersten Blick unklare Verh¨ altnisse vorliegen. Es geht dabei um die Berechnung von Grenzwerten limx→x0 (f (x)/g(x)), wenn f (x0 ) = 0 und g(x0 ) = 0 ist. Sind f und g stetig, so w¨ urde man ja bei rein formalem Rechnen dann beim Bruch 0/0 landen. Dieser ist aber zun¨ achst als unbestimmt anzusehen, wie bereits das folgende einfache Beispiel zeigt: Sei a ∈ R beliebig und f (x) := ax, g(x) := x f¨ ur x ∈ R. Betrachtet man dann die durch xn := 1/n definierte Folge (xn )n∈N , so gilt ja limn→∞ f (xn ) = 0 und limn→∞ g(xn ) = 0, aber limn→∞ (f (xn )/g(xn )) = a, so dass dem Bruch 0/0 je nach f und g jede beliebige Zahl a ∈ R entsprechen kann. Eine M¨ oglichkeit, in solchen und ¨ ahnlich gelagerten F¨allen doch den Wert so eines Grenzwertes zu finden, liefern nun die sogenannten Regeln von de l’Hospital , die es in verschiedenen Varianten gibt.
4.4
Zu den Regeln von de l’Hospital
Bei der folgenden Variante der Regeln von de l’Hospital wird im Sinne der Diskussion von Abschnitt 3.5 als Grenzwert einer Funktion auch +∞ und −∞ zugelassen. Satz 4.8 Seien a, b ∈ R mit a < b, seien f, g : [a, b) → R differenzierbar und es gelte g(x) 3= 0 und g & (x) 3= 0 f¨ ur alle x ∈ [a, b) sowie limx→b f (x) = 0 und limx→b g(x) = 0. Dann gilt: Existiert limx→b (f & (x)/g & (x)), wobei als Grenzwert auch ∞ oder −∞ auftreten darf, so gilt f & (x) f (x) = lim & . lim x→b g (x) x→b g(x) Beweis: Setzt man f (b) := 0 und g(b) := 0, so werden f und g zu stetigen Funktionen auf [x, b], wenn x ∈ [a, b) beliebig gew¨ ahlt ist. Damit ist der Mittelwertsatz in seiner allgmeinen Form (Satz 4.6) einsetzbar und wir k¨ onnen f¨ ur x ∈ (a, b) notieren f (x) f (b) − f (x) f & (ξ) = = & , g(x) g(b) − g(x) g (ξ) wobei ξ ein Punkt aus (x, b) ist. Da mit x → b auch ξ → b gilt, ergibt sich daraus sofort die Behauptung. !
144
4 Differenzierbarkeit I
ur rechtsseitige Grenzwerte zu gewinnen. Es ist einfach, ein entsprechendes Resultat f¨ Damit k¨ onnen auch beidseitige Grenzwerte nach dieser Regel berechnet werden. Sei der Einsatz dieses Ergebnisses an einem einfachen Beispiel demonstriert: Seien n, m ∈ N, sei b ∈ R \ {0} und sei der Grenzwert xn − bn x→b xm − bm lim
zu berechnen, wobei hier offenbar sogar ein beidseitiger Grenzwert betrachtet werden ur x 3= 0 und somit gilt nach der kann. Mit g(x) = xm − bm gilt ja g & (x) = mxm−1 3= 0 f¨ Regel von de l’Hospital xn − bn nxn−1 n n−m b = lim = . x→b xm − bm x→b mxm−1 m lim
Da ja, wenn f¨ ur eine reelle Folge (xn )n∈N mit xn > 0 f¨ ur alle n gilt xn → ∞ f¨ ur n → ∞, die Folge (1/xn )n∈N eine Nullfolge ist, kann man mit Hilfe einer Substitution y = 1/x auch Grenzwerte limx→∞ (f (x)/g(x)) unter geeigneten Voraussetzungen durch Zur¨ uckgreifen auf Satz 4.8 berechnen. Dies sei in der folgenden Regel von de l’Hospital festgehalten: Korollar 4.4 Sei b ∈ R, seien f : (b, ∞) → R und g : (b, ∞) → R differenzierbar und es gelte ur x > b sowie limx→∞ f (x) = 0 und limx→∞ g(x) = 0. g(x) 3= 0 und g & (x) 3= 0 f¨ Dann gilt: Existiert limx→∞ (f & (x)/g & (x)), wobei als Grenzwert auch ∞ oder −∞ auftreten darf, so gilt f & (x) f (x) = lim & . lim x→∞ g (x) x→∞ g(x) Beweis: Unter Ben¨ utzung der Funktionen f und g kann man Funktionen ϕ : (0, ∞) → R und γ : (0, ∞) → R definieren durch 1 ϕ(y) := f (b + ), y
1 γ(y) := g(b + ). y
Der Grenzwert limy→0 (ϕ(y)/γ(y)) wird genau dann existieren, wenn der Grenzwert limx→∞ (f (x)/g(x)) existiert, und im Fall der Existenz werden die Grenzwerte u ¨ bereinstimmen. F¨ ur den Grenzwert limy→0 (ϕ(y)/γ(y)) ist aber Satz 4.8 einsetzbar. Denn auch ϕ und γ sind differenzierbar. Nach der Kettenregel gilt d 1 1 ϕ(y) = − 2 f & (b + ), dy y y
d 1 1 γ(y) = − 2 g & (b + ) dy y y
f¨ ur
y > b,
somit gilt auch γ & (y) 3= 0 f¨ ur y > b. Existiert nun limx→∞ (f & (x)/g & (x)), so existiert auch & & limy→0 (ϕ (y)/γ (y)) und die zwei Grenzwerte stimmen u ¨ berein. Nach Satz 4.8 existiert damit limy→0 (ϕ(y)/γ(y)) und es ergibt sich sofort die Behauptung. !
4.4 Zu den Regeln von de l’Hospital
145
Eine weitere Variante der Regel von de l’Hospital betrifft Grenzwerte limx→b (f (x)/g(x)), bei denen limx→b f (x) = ∞ und limx→b g(x) = ∞ gilt. Auch solche Grenzwerte kann man durch Differenzieren von Z¨ ahler und Nenner berechnen, wenn dann der Grenzwert existiert. Satz 4.9 Seien a, b ∈ R mit a < b, seien f, g : [a, b) → R differenzierbar und es gelte g(x) 3= 0 ur alle x ∈ [a, b) sowie limx→b f (x) = ∞ und limx→b g(x) = ∞. und g & (x) 3= 0 f¨ Dann gilt: Existiert limx→b (f & (x)/g & (x)), so gilt f (x) f & (x) = lim & . x→b g(x) x→b g (x) lim
Beweis: F¨ ur beliebige x, y ∈ (a, b) mit x < y gilt nach Satz 4.6 f (y) − f (x) f & (ξ) = & g(y) − g(x) g (ξ) mit einem ξ ∈ (x, y). Wegen f (y) → ∞ f¨ ur y → b gibt es sicher ein η ∈ (x, b) mit |f (x)/f (y)| < 1 f¨ ur y ∈ (η, b). F¨ ur solche y kann man damit aber notieren f (y) 1 − (g(x)/g(y)) f & (ξ) = · . g(y) 1 − (f (x)/f (y)) g & (ξ) Existiert nun limt→b (f & (t)/g & (t)) =: α ∈ R, so gibt es zu jedem ε > 0 ein δ > 0, so dass |f & (t)/g & (t) − α| < ε/2 gilt, wenn b − t < δ ist. Damit k¨onnen wir aber, wenn nur x gen¨ ugend nahe bei b fest gew¨ ahlt ist, notieren # # # # & # # & # f (y) # # # # # # # ≤ # f (y) − f (ξ) # + # f (ξ) − α# − α # # g(y) # g(y) # # # & & g (ξ) g (ξ) # ## & # # & # # 1 − (g(x)/g(y)) # # f (ξ) # # f (ξ) # = ## − 1## ## & ## + ## & − α## < ε, 1 − (f (x)/f (y)) g (ξ) g (ξ) wenn nun noch y nahe bei b liegt. Denn f¨ ur festes x gilt wegen g(y) → ∞ und f (y) → ∞ ja g(x)/g(y) → 0 und f (x)/f (y) → 0 f¨ ur y → b. Damit gilt limy→b (f (y)/g(y)) = α. ! Unter Ben¨ utzung dieser verschiedenen Varianten der Regeln von de l’Hospital kann man durch geschickte Vorgangsweise auch noch Grenzwerte berechnen, bei denen zun¨achst die Schwierigkeiten von anderer Natur sind. Es sei dies an Hand von zwei Beispielen demonstriert: (a) Gesucht sei das Verhalten von x log x f¨ ur x → 0, (nat¨ urlich von rechts). Formal f¨ uhrt dies zun¨ achst auf das Ergebnis 0 · (−∞). Schreibt man aber x log x = (log x)/(1/x), so liegt offenbar so ein Problem mit unbestimmtem Bruch −∞ ∞ vor und unter Verwendung von de l’Hospital k¨ onnen wir rechnen lim x log x = lim
x→0
x→0
1/x log x = lim (−x) = 0, = lim x→0 −1/x2 x→0 1/x
146
4 Differenzierbarkeit I
urlich die Rechnung eigentlich erst gerechtfertigt ist, wenn man weiß, dass (wobei nat¨ der letzte Grenzwert existiert). (b) F¨ ur x > 0 ist f (x) := xx bekanntlich sinnvoll definiert. Wie sieht es mit dem Verhalten von f f¨ ur x → 0 aus? Diese Frage ist unter Ben¨ utzung von (a) leicht zu beantworten, denn es ist ja xx = exp(x log x) und damit k¨onnen wir aufgrund der Stetigkeit der Exponentialfunktion schreiben lim xx = lim exp(x log x) = exp( lim x log x) = e0 = 1.
x→0
x→0
x→0
Es kann auch vorkommen, dass man bei der Bildung von limx→b (f & (x)/g & (x)) ebenfalls einen Grenzwert vorliegen hat, dessen Existenz man erst mit Hilfe der Regeln von de l’Hospital erkennen kann. Das bedeutet, dass es erforderlich sein kann, mehrfach hintereinander diese Regeln einzusetzen, um erschließen zu k¨onnen, dass limx→b (f (x)/g(x)) existiert. So eine Situation liegt z.B. vor, wenn man das Verhalten der Funktion h(x) :=
1 1 − , sin(x) x
x ∈ (0, π)
f¨ ur x → 0 kennen m¨ ochte. Schreibt man hier zun¨achst h(x) =
x − sin(x) , x sin(x)
so liegt offenbar eine Grenzwertbildung vor, f¨ ur die die Regeln von de l’Hospital sich anbieten. Mit f (x) := x − sin(x) und g(x) := x sin(x) gilt ja f & (x) 1 − cos(x) = , g & (x) sin(x) + x cos(x) womit man tats¨ achlich f¨ ur x → 0 wieder so eine unbestimmte Situation 0/0 vorliegen hat. Verwendet man nun aber hier erneut die Regel von de l’Hospital, so erh¨alt man den Grenzwert sin(x) = 0. lim x→0 2 cos(x) − x sin(x) Damit existiert aber auch der Grenzwert limx→0 h(x) und es gilt : ; 1 1 − lim = 0. x→0 sin(x) x Man beachte, dass wir hier nun zum ersten Mal auch die Funktionen f & und g & erneut differenziert haben, wir also Ableitungen zweiter Ordnung von f und g gebildet haben. Mit der Frage der mehrfachen Differenzierbarkeit von Funktionen werden wir uns in einem sp¨ ateren Abschnitt noch ausf¨ uhrlich besch¨aftigen. In Abschnitt 4.2 wurde kurz auf die Differenzierbarkeit von komplexwertigen Funktionen eingegangen. Bei den behandelten Varianten der Regeln von de l’Hospital wurden aber immer nur reellwertige Funktionen betrachtet. Tats¨achlich greifen die Regeln nicht in dieser Form, wenn man komplexwertige Funktionen f und g vorliegen hat. Dies zeigt
4.4 Zu den Regeln von de l’Hospital
147
das folgende Beispiel: Sei f (x) := x, g(x) := x exp(−i/x) f¨ ur x ∈ (0, ∞). Offenbar gilt limx→0 f (x) = 0, es gilt aber auch limx→0 g(x) = 0, denn es gilt ja x exp(−i/x) = x cos(1/x) + ix sin(1/x) und, wie die Diskussion im letzten Teil von Abschnitt 3.4 gezeigt hat, x cos(1/x) → 0 und x sin(1/x) → 0 f¨ ur x → 0. Da nun f (x)/g(x) = exp(i/x) = cos(1/x) + i sin(1/x) f¨ ur x > 0 gilt, existiert der Grenzwert limx→0 (f (x)/g(x)) nicht. Es gilt jedoch wegen f & (x) = 1 und g & (x) = (1 + (i/x)) exp(−i/x) f & (x) x i/x = lim e = 0. x→0 g & (x) x→0 x + i lim
Es w¨ are also in diesem Fall falsch, aus der Existenz des Grenzwerts limx→0 Existenz des Grenzwerts
(x) limx→0 fg(x)
f ! (x) g! (x)
auf die
zu schließen.
Bevor wir uns sp¨ ater erneut mit Aspekten der Differenzierbarkeit befassen, ist es zweckm¨aßig, zuerst die Integration von Funktionen zu diskutieren, denn es wird sich zeigen, dass es eine wichtige Verbindung zwischen diesen beiden Dingen gibt, obwohl die Fragestellungen, von denen man zun¨ achst ausgeht, v¨ollig unterschiedlich sind. Aufgaben 1. Man berechne die folgenden Grenzwerte: (1) limx→0 x sin x1 , (2) limx→∞ x sin x1 , (4) limx→0
1 2 x2 (exp(x )
− 1),
(5) limx→∞
(3) limx→∞ 1 x exp(x−1) (e
x 2x+sin x ,
− 1).
2. Seien a, b ∈ R mit a < b, sei die Abbildung f : (a, b) → Rm im Punkt ξ ∈ (a, b) differenzierbar. Man zeige, dass es ein Intervall (ξ − δ, ξ + δ) ⊂ (a, b) und ein c ≥ 0 gibt mit 9f (x) − f (ξ)9 ≤ c|x − ξ| f¨ ur alle x ∈ (ξ − δ, ξ + δ). 3. Seien a, b ∈ R mit a < b und sei f : [a, b] → R differenzierbar. Man zeige: (a) Hat f ein lokales Minimum im Punkt a, so ist f & (a) ≥ 0. Hat f ein lokales Minimum im Punkt b, so ist f & (b) ≤ 0. (b) Ist f & (a) < f & (b), so gibt es zu jedem c ∈ (f & (a), f & (b)) ein t ∈ (a, b) mit f & (t) = c. 4. Seien die Funktionen f : (−1, 1) → R und g : (−1, 1) → R differenzierbar und es gelte f (x) · g(x) = x f¨ ur alle x ∈ (−1, 0) ∪ (0, 1). Man zeige: Ist f (0) = 0, so folgt g(0) 3= 0. 5. Man zeige: Sind die Funktionen fk : R → R, (k = 1, . . . , n), differenzierbar und ist ξ ∈ R mit (f1 · . . . · fn )(ξ) 3= 0, so gilt n
(f1 · . . . · fn )& (ξ) = fk& (ξ) = . (f1 · . . . · fn )(ξ) fk (ξ) k=1
148
4 Differenzierbarkeit I
6. Sei m ∈ N und f eine Abbildung f : (−1, 1) → Rm . Man zeige: ur t ∈ (−1, 1) gilt, (a) Gibt es ein K > 0 und ein α > 1, so dass 9f (t)9 ≤ K|t|α f¨ so ist f im Punkt t = 0 differenzierbar. (b) Gilt f (0) = 0 und gibt es ein K > 0 und ein α ∈ (0, 1) mit 9f (t)9 ≥ K|t|α f¨ ur t ∈ (−1, 1), so ist f im Punkt t = 0 nicht differenzierbar. 7. Seien a, b ∈ R mit a < b, sei ξ ∈ (a, b) und sei f : (a, b) → R im Punkt ξ differenzierbar. Man zeige, dass dann gilt 1 (f (ξ + h) − f (ξ − h)). h→0 2h
f & (ξ) = lim
Folgt umgekehrt aus der Existenz des Grenzwerts limh→0 die Differenzierbarkeit von f im Punkt ξ ?
1 2h (f (ξ
+ h) − f (ξ − h))
8. Sei die Funktion g : [−1, 1] → R beschr¨ankt, d.h. es gelte |g(x)| ≤ K f¨ ur alle x ∈ [−1, 1]. Man zeige: Ist f : [−1, 1] → R definiert durch f (x) := x2 g(x) f¨ ur x ∈ [−1, 1], so existiert f & (0). Man gebe f & (0) an. 9. Seien a, b ∈ R mit a < b und seien f : (a, b) → R und g : (a, b) → R differenzierbar, sei h(x) := max{f (x), g(x)} f¨ ur x ∈ (a, b). Man zeige: (a) Ist f (ξ) 3= g(ξ), so ist die Funktion h im Punkt ξ differenzierbar. (b) Ist f (ξ) = g(ξ), so ist die Funktion h genau dann im Punkt ξ differenzierbar, wenn f & (ξ) = g & (ξ) gilt. 10. Man zeige unter Verwendung des Mittelwertsatzes: ur alle α > 0 und alle x ≥ 1 gilt log x ≤ α1 (xα − 1). (a) F¨ √ (b) F¨ ur alle x ≥ 0 gilt 1 + x ≤ 1 + x2 . 11. Es sei f : R → R differenzierbar und es gelte f & (x) = f (x) f¨ ur alle x ∈ R und f (0) = 1. Man zeige, dass dann f (x) = exp(x) f¨ ur alle x ∈ R gelten muss. 12. F¨ ur x > 1 sei f (x) := x + sin(x) cos(x) und g(x) := f (x) exp(sin(x)). Man kl¨are, ob die Grenzwerte limx→∞ (f (x)/g(x)) und limx→∞ (f & (x)/g & (x)) existieren. 13. Sei a ∈ (0, 1] und b ∈ R, sei p(x) := ax3 − 3ax + b f¨ ur x ∈ [−a, a]. Man zeige, dass es h¨ ochstens ein ξ ∈ [−a, a] geben kann mit p(ξ) = 0. 14. Seien a, b ∈ R mit a < b, sei f : [a, b] → R stetig und in (a, b) differenzierbar. Man zeige: Gilt f & (x1 ) ≤ f & (x2 ) f¨ ur alle x1 , x2 ∈ (a, b) mit x1 < x2 , so gilt f ((1 − λ)x + λy) ≤ (1 − λ)f (x) + λf (y) f¨ ur alle x, y ∈ [a, b] und λ ∈ (0, 1). (Eine Funktion mit dieser Eigenschaft nennt man konvex.) 15. Seien a, b ∈ R mit a < b, sei f : [a, b) → R stetig und in (a, b) differenzierbar. Man 1 zeige: Existiert limx→a+0 f & (x) =: α, so existiert auch limx→a+0 x−a (f (x) − f (a)) 1 und es gilt limx→a+0 x−a (f (x) − f (a)) = α. (f ist also an der Stelle x = a rechtsseitig differenzierbar.)
5
Integration I
Integration ist eng verkn¨ upft mit den Bem¨ uhungen, Fl¨achen, Volumina oder L¨angen zu messen. Diese Aufgabe ist nun, wenn man sie gen¨ ugend allgemein behandeln m¨ochte, ganz und gar nicht trivial, und wir werden mit einem recht einfachen Zugang beginnen, der mit dem Namen Riemann verbunden ist. Es muss allerdings gleich betont werden, dass das Riemann-Integral f¨ ur viele Dinge nicht ausreichend ist, es ist daher f¨ ur einen vertieften Ausbau der Analysis wesentlich, das allgemeinere Lebesgue-Integral zu ben¨ utzen.
5.1
Das Riemann-Integral
Die Idee, die zum Riemann-Integral f¨ uhrt, ist bei der folgenden einfachen Situation leicht zu erl¨ autern: Sei [a, b] ⊂ R ein beschr¨ anktes abgeschlossenes Intervall und sei f : [a, b] → R gegeben, so dass f (t) ≥ 0 f¨ ur t ∈ [a, b] gilt. Ist dann f nicht identisch Null und etwa sogar stetig, so wird sich anschaulich im R2 zwischen dem Graphen von f und der x−Achse ein Bereich befinden, dessen Fl¨ ache nat¨ urlich durch f bestimmt ist, also ausgehend von f zu berechnen sein sollte. Eine N¨ aherung kann man wohl finden, indem man die Fl¨ache in parallel zur y−Achse liegende Streifen zerlegt, und man dann jeden dieser Streifen ersetzt durch ein Rechteck ¨ ahnlicher Fl¨ ache, wobei aber offenbar nicht eindeutig festgelegt ist, welchen Funktionswert von f man dabei als H¨ohe des Rechtecks zu nehmen hat. Man wird also von einer Zerlegung a = t0 < t1 < . . . < tn−1 < tn = b des Intervalls [a, b] ausgehen und einen N¨ aherungswert Φn f¨ ur die gesuchte Fl¨ache notieren als Φn =
n =
f (τk )(tk − tk−1 ),
(5.1)
k=1
ahlt werden k¨onnen. Es bietet sich dabei nat¨ urlich wobei τk ∈ [tk−1 , tk ] noch geeignet gew¨ aquidistant zu w¨ ahlen, d.h. tk = a+(k/n)(b−a), aber es wird sich zeigen, dass an, die tk ¨ dies nicht wesentlich ist. Man wird nun hoffen, dass man immer bessere N¨aherungswerte f¨ ur die gesuchte Fl¨ ache bekommt, wenn man die maximale Breite der Streifen immer kleiner w¨ ahlt. Diese Idee werden wir nun ben¨ utzen, um das Riemann-Integral allgemeiner sogar f¨ ur geeignete Funktionen f : [a, b] → X einzuf¨ uhren, wobei X ein beliebiger vollst¨andiger normierter Raum ist. Dabei verlangen wir zun¨ achst von f nur sehr wenig, n¨amlich, dass
150
5 Integration I
ur alle t ∈ [a, b]. f beschr¨ ankt ist in dem Sinn, dass es ein M > 0 gibt mit 9f (t)9 ≤ M f¨ (Dabei ist 9 9 die Norm auf X.) Ausgehend von einer Zerlegung Z := {t0 , . . . , tn } mit a = t0 < t1 < . . . < tn−1 < tn = b des Intervalls [a, b] bilden wir dann wie oben die Riemannsche Summe S(Z, f, τ ) :=
n =
(tk − tk−1 )f (τk ),
(5.2)
k=1
wobei jeweils τk ∈ [tk−1 , tk ] sei und τ = {τ1 , . . . , τn } ist. (Man beachte, dass wir nun im Unterschied zu (5.1) (tk − tk−1 )f (τk ) notieren, weil ja der Vektor f (τk ) ∈ X mit dem Skalar (tk − tk−1 ) multipliziert wird.) Der Wert so einer Riemannschen Summe h¨angt offenbar i.a. sowohl von der gerade gew¨ ahlten Zerlegung des Intervalls, (die gew¨ahlten Punkte tk m¨ ussen wie oben bemerkt nicht einmal ¨aquidistant liegen), als auch von den gew¨ ahlten τk ab. Daher wurde auch die Notation S(Z, f, τ ) gew¨ahlt. Da wir ausgehend von diesen Riemannschen Summen durch immer ’feinere’ Zerlegungen, (also durch wachsende Zahl der Punkte), zum Integral kommen wollen, ist es unser Ziel, genau ein x ∈ X zu finden, das durch solche Riemannschen Summen beliebig genau approximiert werden kann. Dies erfordert einige Vorarbeit. Ein Maß daf¨ ur, wie ’fein’ eine Zerlegung Z := {t0 , t1 , . . . , tn } ⊂ [a, b] des Intervalls [a, b] ist, ist offenbar die Zahl Δ(Z) := max{tk − tk−1 : k = 1, . . . , n}. Wir bezeichnen nun eine Zerlegung Z & als Verfeinerung der Zerlegung Z, wenn Z ⊂ Z & ist, (wenn also im Fall Z 3= Z & zu den Teilungspunkten von Z weitere Teilungspunkte hinzugekommen sind); offenbar gilt dann Δ(Z & ) ≤ Δ(Z). Da wir bei der Bildung der Riemannschen Summe noch gewisse Freiheiten bei der Wahl der τk haben, ordnen wir einer Zerlegung Z noch die Gr¨oße σ(Z, f ) :=
n =
(tk − tk−1 ) sup{9f (t) − f (τ )9 : t, τ ∈ [tk−1 , tk ]}
k=1
zu, die offenbar ein Maß daf¨ ur ist, wie stark sich verschiedene Wahlen der τk bei der Bildung der Riemannschen Summe auswirken k¨onnen. (Man beachte, dass σ(Z, f ) immer endlich ist, weil ja 9f (t) − f (τ )9 ≤ 2M f¨ ur alle t und τ gilt.) Je kleiner σ(Z, f ) ist, desto besser wird wohl die gew¨ ahlte Zerlegung Z f¨ ur unsere Aufgabe geeignet sein. Dass zunehmende Verfeinerung zum Ziel f¨ uhren kann, zeigt nun das folgende Lemma. Lemma 5.1 Ist Z ⊂ Z & , so gilt σ(Z & , f ) ≤ σ(Z, f ). Beweis: Sei Z = {t0 , t1 , . . . , tn } und Z & = {t&0 , t&1 , . . . , t&m }, (wobei wir n < m annehmen d¨ urfen). Ist dann Ik := [tk−1 , tk ] f¨ ur j = 1, . . . , m, so gibt es ur k = 1, . . . , n und Ij& := [t&j−1 , t&j ] f¨
5.1 Das Riemann-Integral
151
zu jedem Intervall Ij& genau ein Intervall Ik mit Ij& ⊂ Ik . Definiert man also die Zahlen ur j = 1, . . . , m und k = 1, . . . , n durch εj,k f¨ εj,k := 1 falls Ij& ⊂ Ik , und sonst εj,k := 0, ) so gilt sicher nk=1 εj,k = 1 f¨ ur jedes j ∈ {1, . . . , m}. Auch gilt f¨ ur jedes k ∈ {1, . . . , n} m =
εj,k (t&j − t&j−1 ) = tk − tk−1 .
j=1
Setzt man nun noch zur Abk¨ urzung δ(f, Ik ) := sup{9f (t) − f (τ )9 : t, τ ∈ [tk−1 , tk ]}, urlich δ(f, Ij& ) ≤ δ(f, Ik ) und wir k¨onnen notieren so folgt aus Ij& ⊂ Ik nat¨ m =
(t&j − t&j−1 )δ(f, Ij& ) =
j=1
2 n m = = j=1
≤
5 εj,k
(t&j − t&j−1 )δ(f, Ij& )
k=1
m = n =
εj,k (t&j − t&j−1 )δ(f, Ik )
j=1 k=1
=
n =
⎛ ⎞ m = ⎝ εj,k (t&j − t&j−1 )⎠ δ(f, Ik ) j=1
k=1
=
n =
(tk − tk−1 )δ(f, Ik ).
k=1
Das bedeutet aber σ(Z & , f ) ≤ σ(Z, f ).
!
Es kann nun durchaus sein, dass trotz zunehmender Verfeinerung der Zerlegungen σ(Z, f ) nicht abnimmt. Ein Beispiel daf¨ ur ist die durch g(t) := 1
f¨ ur
t ∈ Q ∩ [0, 1],
g(t) = 0 f¨ ur
t ∈ (R \ Q) ∩ [0, 1]
definierte Funktion g : [0, 1] → R. Denn wie klein auch immer ein Intervall I ⊂ [0, 1] ist, es gilt immer δ(g, I) = 1, und somit gilt f¨ ur alle Zerlegungen Z des Intervalls [0, 1] offenbar σ(Z, g) = 1. Im Gegensatz dazu gilt aber f¨ ur stetige Funktionen: Lemma 5.2 Ist f : [a, b] → X stetig, so gibt es zu jedem ε > 0 eine Zerlegung Z von [a, b] mit σ(Z, f ) ≤ ε. Beweis: Sei ε > 0 gegeben. Wir n¨ utzen jetzt aus, dass f sogar gleichm¨aßig stetig ist. (Es ist
152
5 Integration I
ja [a, b] ⊂ R folgenkompakt und wir haben seinerzeit, (Satz 3.7), sogar Abbildungen in einen metrischen Raum betrachtet.) Es gibt damit ein η > 0, so dass 9f (t) − f (τ )9 < ε(b − a)−1 f¨ ur alle t, τ ∈ [a, b] mit |t − τ | < η gilt. Ist nun Z eine Zerlegung von [a, b] mit Δ(Z) < η, so folgt, dass f¨ ur jedes zu dieser Zerlegung geh¨ orende Intervall Ik gilt δ(f, Ik ) ≤ ε(b − a)−1 . Damit kann man absch¨ atzen = ε = (tk − tk−1 )δ(f, Ik ) ≤ (tk − tk−1 ) = ε. b−a k
k
Somit gilt σ(Z, f ) ≤ ε.
!
Dass dieses Resultat f¨ ur den Zugang zum Integral u ¨ ber die Riemannschen Summen wichtig ist, zeigt das n¨ achste Lemma, bei dem wir wieder nur die Beschr¨anktheit von 9f 9 voraussetzen. Lemma 5.3 Sind Z und Z & Zerlegungen von [a, b] mit Z ⊂ Z & und sind S(Z, f, τ ) bzw. S(Z & , f, τ & ) Riemannsche Summen, die zu Z bzw. Z & geh¨oren, so gilt 9S(Z, f, τ ) − S(Z & , f, τ & )9 ≤ σ(Z, f ). Beweis: Wir verwenden die gleichen Bezeichnungen wie beim Beweis von Lemma 5.1. Damit gilt &
&
S(Z, f, τ ) − S(Z , f, τ ) =
=
n = k=1
=
⎛ ⎝
n =
(tk − tk−1 )f (τk ) −
k=1 m =
εj,k (t&j
−
(t&j − t&j−1 )f (τj& )
j=1
⎞ t&j−1 )⎠ f (τk )
−
m = j=1
j=1
m n = =
m =
2
n =
5 εj,k
(t&j − t&j−1 )f (τj& )
k=1
εj,k (t&j − t&j−1 )(f (τk ) − f (τj& )).
k=1 j=1
Wegen der Definition der εj,k gilt die Absch¨ atzung m n = =
εj,k (t&j − t&j−1 )9f (τk ) − f (τj& )9 ≤
k=1 j=1
n = k=1
=
n =
⎛ ⎝
m =
⎞ εj,k (t&j − t&j−1 )⎠ δ(f, Ik )
j=1
(tk − tk−1 )δ(f, Ik ),
k=1
woraus sofort die Behauptung folgt.
!
Daraus ergibt sich nun der folgende, f¨ ur die Definition des Riemann-Integrals grundlegende Satz, (bei dem wesentlich eingehen wird, dass der normierte Raum X vollst¨andig ist).
5.1 Das Riemann-Integral
153
Satz 5.1 Sei X ein Banachraum und f : [a, b] → X mit 9f (t)9 ≤ M f¨ ur alle t ∈ [a, b]. Dann gilt: Gibt es zu jedem ε > 0 eine Zerlegung Z von [a, b], so dass σ(Z, f ) ≤ ε gilt, so gibt es genau ein S ∈ X, so dass f¨ ur alle Zerlegungen Z von [a, b] und jede zu Z geh¨ orende Riemannsche Summe S(Z, f, τ ) gilt 9S(Z, f, τ ) − S9 ≤ σ(Z, f ). Beweis: Wir zeigen zuerst, dass es h¨ ochstens ein S ∈ X mit der geforderten Eigenschaft geben kann. Sei also S ∈ X und S & ∈ X mit 9S(Z, f, τ )−S9 ≤ σ(Z, f ) und 9S(Z, f, τ )−S & 9 ≤ σ(Z, f ) f¨ ur alle Zerlegungen Z und alle Riemann-Summen S(Z, f, τ ) dazu. Dann kann man ja unter Ben¨ utzung der Dreiecksungleichung absch¨atzen 9S − S & 9 ≤ 9S − S(Z, f, τ )9 + 9S(Z, f, τ ) − S & 9 ≤ 2σ(Z, f ). Nach Voraussetzung gibt es aber zu jedem ε > 0 eine Zerlegung Z mit 2σ(Z, f ) ≤ ε. ur alle ε > 0. Daraus folgt 9S − S & 9 = 0 und somit S = S & . Damit gilt 9S − S & 9 ≤ ε f¨ Nun zur Existenz so eines S ∈ X: Nach Voraussetzung gibt es eine Folge (Zn )n∈N von ur alle n ∈ N. Sei ) nun jeweils zu Zn eine Zerlegungen von [a, b] mit σ(Zn , f ) < 1/n f¨ Riemannsche Summe Rn (f ) := S(Zn , f, τ (n) ) gegeben, (etwa k (tk − tk−1 )f (tk−1 )). Zu zwei solchen Zerlegungen Zn und Zm sei noch die Zerlegung Zn,m := Zn ∪ Zm betrachtet und dazu sei Rn,m (f ) auch jeweils eine Riemannsche Summe. Nach Lemma 5.3 gilt dann 9Rn (f ) − Rm (f )9 ≤ 9Rn (f ) − Rn,m (f )9 + 9Rn,m (f ) − Rm (f )9 1 1 ≤ σ(Zn , f ) + σ(Zm , f ) < + . n m Ist ε > 0 gegeben, so gilt also 9Rn (f ) − Rm (f )9 < ε, wenn n > (2/ε) und m > (2/ε) ist. Dies zeigt, dass die Folge (Rn (f ))n∈N ein Cauchy-Folge in X ist. Da X vollst¨andig ur n → ∞. ist, gibt es also ein S ∈ X mit 9Rn (f ) − S9 → 0 f¨ Im letzten Schritt m¨ ussen wir nun noch zeigen, dass f¨ ur jede Zerlegung Z und jede zugeh¨ orige Riemannsche Summe S(Z, f, τ ) =: R(f ) gilt 9R(f ) − S9 ≤ σ(Z, f ). Dazu gehen wir davon aus, dass f¨ ur jedes n ∈ N gilt 9R(f ) − Rn (f )9 ≤ σ(Z, f ) + σ(Zn , f ). Dies sieht man genauso wie oben f¨ ur 9Rn (f ) − Rm (f )9, indem man noch die Zerlegung ur n → ∞ folgt damit, Z ∪ Zn verwendet. Wegen σ(Zn , f ) → 0 und 9Rn (f ) − S9 → 0 f¨ dass es zu jedem η > 0 ein n0 ∈ N gibt mit 9R(f ) − S9 ≤ 9R(f ) − Rn (f )9 + 9Rn (f ) − S9 ≤ σ(Z, f ) + η Da hier η beliebig ist, gilt also tats¨ achlich 9R(f ) − S9 ≤ σ(Z, f ).
f¨ ur
n ≥ n0 . !
F¨ ur Funktionen, f¨ ur die die Voraussetzungen von Satz 5.1 zutreffen, k¨onnen wir damit 'b bereits das Riemann-Integral a f (t)dt definieren als dieses eindeutig bestimmte Element S ∈ X. Dementsprechend werden wir eine beschr¨ankte Funktion f : [a, b] → X als
154
5 Integration I
uber [a, b] bezeichnen, wenn es zu jedem ε > 0 eine Zerlegung Riemann-integrierbar ¨ Z von [a, b] gibt mit σ(Z, f ) ≤ ε. Nach Lemma 5.2 ist damit jede stetige Funktion f : [a, b] → X Riemann-integrierbar! Denn ist f stetig, so ist auch die Funktion g : t ∈ [a, b] /→ 9f (t)9 ∈ R stetig, (die umgekehrte Dreiecksungleichung zeigt n¨ amlich, dass die Abbildung x ∈ X /→ 9x9 ∈ R stetig ist), damit ist aber g beschr¨ ankt und somit gibt es ein M > 0 mit 9f (t)9 ≤ M f¨ ur alle t ∈ [a, b]. F¨ ur den Fall X = R l¨ aßt sich leicht eine etwas andere Charakterisierung der RiemannIntegrierbarkeit einer beschr¨ ankten Funktion angeben, die h¨aufig als Zugang zum Riemann-Integral f¨ ur reellwertige Funktionen verwendet wird. Es gilt n¨amlich im Fall einer beschr¨ ankten Funktion f : [a, b] → R f¨ ur jedes beliebige Teilintervall [α, β] ⊂ [a, b] sup{|f (t) − f (τ )| : t, τ ∈ [α, β]} = sup f (t) − inf f (t). t∈[α,β]
t∈[α,β]
Sind n¨ amlich t, τ ∈ [α, β] beliebig gew¨ ahlt, so ist f (t) ≤ supt∈[α,β] f (t) =: M und f (τ ) ≥ inf t∈[α,β] f (t) =: m. Damit ist f (t) − f (τ ) ≤ M − m. Da man bei dieser Absch¨atzung nat¨ urlich die Rollen von f (t) und f (τ ) vertauschen kann, gilt auch −(f (t) − f (τ )) ≤ M − m und somit |f (t) − f (τ )| ≤ M − m. Somit gilt sup{|f (t) − f (τ )| : t, τ ∈ [α, β]} ≤ sup f (t) − inf f (t). t∈[α,β]
t∈[α,β]
Zum Nachweis der umgekehrten Ungleichung betrachtet man eine Folge (tn )n∈N in [α, β] mit f (tn ) → M und eine Folge (τn )∈N mit f (τn ) → m f¨ ur n → ∞. Aus der Absch¨atzung f (tn ) − f (τn ) ≤ |f (tn ) − f (τn )| ≤ sup{|f (t) − f (τ )| : t, τ ∈ [α, β]} folgt dann durch Grenz¨ ubergang M − m ≤ sup{|f (t) − f (τ )| : t, τ ∈ [α, β]}. Ist nun eine Zerlegung Z = {t0 , . . . , tn } des Intervalls [a, b] gegeben, so gilt, wenn man ur k = 1, . . . , n setzt, mk := inf t∈[tk−1 ,tk ] f (t) und Mk := supt∈[tk−1 ,tk ] f (t) f¨ σ(Z, f ) =
n =
(tk − tk−1 )(Mk − mk ) =
k=1
n =
Mk (tk − tk−1 ) −
k=1
n =
mk (tk − tk−1 ).
k=1
Es ist nun u ¨ blich, die Summen O(Z, f ) :=
n = k=1
Mk (tk − tk−1 ) bzw. U (Z, f ) :=
n =
mk (tk − tk−1 )
k=1
als Obersumme bzw. Untersumme zu bezeichnen. Man beachte, dass dies bei einer nicht stetigen Funktion nicht Riemannsche Summen im Sinn der Definition (5.2) sein m¨ ussen, und dass diese Summen nur im Fall einer reellwertigen Funktion sinnvoll sind. Damit gilt σ(Z, f ) = O(Z, f ) − U (Z, f ) und es ergibt sich die folgende Charakterisierung Riemann-integrierbarer reellwertiger Funktionen:
5.1 Das Riemann-Integral
155
Korollar 5.1 Eine beschr¨ ankte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es zu jedem ε > 0 eine Zerlegung Z von [a, b] gibt mit O(Z, f ) − U (Z, f ) < ε. Die bisherigen Ergebnisse liefern noch kaum Informationen dazu, wie man ein Integral 'b f (t)dt wenigstens n¨ aherungsweise berechnen k¨onnte. So ist noch nicht klar, ob man a so vorgehen k¨ onnte, dass man ¨ aquidistante Zerlegungen Zn des Intervalls [a, b] mit orige Riemannsche Summen betrachtet, und dadurch tk − tk−1 = (b − a)/n und zugeh¨ dann bei gen¨ ugend großem n eine N¨ aherung gew¨ unschter Genauigkeit erhalten k¨onnte. Wir werden aber nun sehen, dass dies tats¨ achlich eine sinnvolle Vorgehensweise w¨are. Das erfordert etwas Vorarbeit. Lemma 5.4 Sei Z = {t0 , . . . , tn } eine Zerlegung von [a, b] und Z & eine Zerlegung, f¨ ur die Δ(Z & ) ≤ min{tk − tk−1 : k = 1, . . . , n} gilt. F¨ ur jede beschr¨ ankte Funktion f : [a, b] → X gilt dann σ(Z & , f ) ≤ 3σ(Z, f ). Beweis: Seien Ik die Teilintervalle, die zur Zerlegung Z geh¨oren, und Ij& die Teilintervalle, die zu Z & geh¨ oren. Da jetzt ja Z & keine Verfeinerung von Z sein muss, definieren wir etwas anders als fr¨ uher εj,k := 1, falls Ij& ∩ Ik 3= ∅,
εj,k := 0, falls Ij& ∩ Ik = ∅.
Wegen der Forderung Δ(Z & ) ≤ min{tk − tk−1 : k = 1, . . . , n} kann es zu einem fest gew¨ ahlten Ij& h¨ ochstens zwei aufeinanderfolgende Teilintervalle von Z, also etwa Ik und ur Punkte t und τ aus Ik+1 geben, die einen nichtleeren Durchschnitt mit Ij& haben. F¨ Ij& gibt es dann drei M¨ oglichkeiten: (i) Beide Punkte sind in Ik , (ii) beide Punkte sind uher in Ik+1 , (iii) t ∈ Ik und τ ∈ Ik+1 , oder umgekehrt. Sei wieder wie fr¨ δ(f, Ik ) := sup{9f (t) − f (τ )9 : t, τ ∈ [tk−1 , tk ]}. Da man im Fall (iii) ja absch¨ atzen kann 9f (t) − f (τ )9 ≤ 9f (t) − f (tk )9 + 9f (tk ) − f (τ )9 ≤ δ(f, Ik ) + δ(f, Ik+1 ), ist die Absch¨ atzung 9f (t) − f (τ )9 ≤ δ(f, Ik ) + δ(f, Ik+1 ) =
n = ν=1
εj,ν δ(f, Iν )
156
5 Integration I
onnen wir aber notieren allen richtig. Damit k¨ sicher in allen drei F¨ δ(f, Ij& ) ≤
n =
εj,k δ(f, Ik ).
(5.3)
k=1
Betrachten wir nun aber ein Intervall Ik , so wird dieses durch die Vereinigung aller Ij& , f¨ ur die εj,k = 1 ist, u ¨ berdeckt, so dass man, weil ja zwei der u ¨berdeckenden Intervalle onnen, notieren kann, (es sei wieder Z & = {t&0 , . . . , t&m }), u ¨ber Ik hinausreichen k¨ m =
εj,k (t&j −t&j−1 ) ≤ (tk −tk−1 )+2 max{tj −t&j−1 : j = 1, . . . , m} ≤ 3(tk −tk−1 ).
j=1
(5.4) Mit (5.3) und (5.4) kann man nun absch¨ atzen m =
(tj − t&j−1 )δ(f, Ij& ) ≤
j=1
m = n =
εj,k (t&j − t&j−1 )δ(f, Ik ) ≤ 3
j=1 k=1
Das ist aber die Behauptung σ(Z & , f ) ≤ 3σ(Z, f ).
n =
(tk − tk−1 )δ(f, Ik ).
k=1
!
Daraus folgt nun rasch: Satz 5.2
'b Sei unter den Voraussetzungen von Satz 5.1 S = a f (t)dt. Dann gibt es zu jedem ε > 0 ein η > 0, so dass f¨ ur jede Zerlegung Z von [a, b] mit Δ(Z) < η und jede dazu geh¨ orige Riemannsche Summe S(Z, f, τ ) gilt 9S(Z, f, τ ) − S9 < ε.
Beweis: Nach Voraussetzung gibt es zu jedem ε > 0 eine Zerlegung Zε von [a, b] mit σ(Zε , f ) < ε/3. Ist dann η das Minimum der L¨ angen aller zu Zε geh¨orenden Teilintervalle, so gilt nach Lemma 5.4 σ(Z, f ) ≤ 3σ(Zε , f ) < ε, wenn Z eine Zerlegung von [a, b] mit Δ(Z) < η ist. Ist dann S(Z, f, τ ) eine beliebige zur Zerlegung Z geh¨orende Riemannsche Summe, so gilt nach Satz 5.1 9S(Z, f, τ ) − S9 ≤ σ(Z, f ) < ε. ! Speziell erh¨ alt man aus diesem Satz, dass man tats¨achlich stets N¨aherungen zum Integral erhalten kann, indem man [a, b] immer feiner ¨aquidistant einteilt. Denn es gilt: Korollar 5.2
'b Sei unter den Voraussetzungen von Satz 5.1 S = a f (t)dt. Dann gilt: W¨ ahlt man eine Folge (Zn )n∈N von Zerlegungen des Intervalls [a, b] mit ur n → ∞ und ist Rn (f ) jeweils eine zu Zn geh¨orende Riemannsche Δ(Zn ) → 0 f¨ Summe, so gilt limn→∞ Rn (f ) = S.
5.1 Das Riemann-Integral
157
Beweis: Sei ε > 0 beliebig gegeben und dazu η entsprechend Satz 5.2. Wegen Δ(Zn ) → 0 gibt es dann ein n0 ∈ N mit Δ(Zn ) < η f¨ ur alle n ≥ n0 . Nach Satz 5.2 gilt dann 9Rn (f )−S9 < ε ur n → ∞. ! f¨ ur alle n ≥ n0 . Damit gilt aber Rn (f ) → S f¨ Bei reellwertigen Funktionen kann man auch die Unter- und Obersummen als N¨aherungen zum Integral ben¨ utzen: Korollar 5.3 Sei f : [a, b] → R Riemann-integrierbar und (Zn )n∈N eine Folge von Zerlegungen des ur n → ∞. Dann gilt Intervalls [a, b] mit Δ(Zn ) → 0 f¨ ( lim O(Zn , f ) = lim U (Zn , f ) =
n→∞
n→∞
b
f (t)dt.
a
Beweis: Ist ε > 0 beliebig gegeben, so gibt es nach dem Beweis von Korollar 5.2 ein n0 ∈ N mit ( |Rn (f ) −
a
b
f (t)dt| < ε/2 f¨ ur
n ≥ n0
und alle zu Zn geh¨ orenden Riemann-Summen Rn (f ). Sei Zn = {tn,0 , . . . , tn,N (n) } und Mn,k = supt∈[tn,k−1 ,tn,k ] f (t), so dass damit N (n)
O(Zn , f ) =
=
Mn,k (tn,k − tn,k−1 )
k=1
gilt. Da es zu jedem k ∈ {1, . . . , N (n)} ein τn,k ∈ [tn,k−1 , tn,k ] gibt mit 0 ≤ Mn,k − f (τn,k ) ≤ (2N (n)(b − a))−1 ε, gibt es zur Zerlegung Zn eine Riemannsche Summe Rnε (f ) mit 0 ≤ O(Zn , f ) − Rnε (f ) ≤ ε/2. Damit kann man dann absch¨ atzen ( |O(Zn , f ) −
a
b
f (t)dt| ≤ |O(Zn , f ) − Rnε (f )| + |Rnε (f ) −
( a
b
f (t)dt| < ε
F¨ ur die Untersummen zeigt man die Behauptung ganz entsprechend.
f¨ ur
n ≥ n0 . !
Auch eine Korollar 5.1 verallgemeinernde Charakterisierung Riemann-integrierbarer reellwertiger Funktionen l¨ asst sich nun leicht gewinnen:
158
5 Integration I
Korollar 5.4 Eine beschr¨ ankte Funktion f : [a, b] → R ist genau dann Riemann-integrierbar, wenn es zu jedem ε > 0 ein η > 0 gibt, so dass O(Z, f )−U (Z, f ) < ε gilt f¨ ur jede Zerlegung Z von [a, b] mit Δ(Z) < η. Beweis: Ein Vergleich mit Korollar 5.1 zeigt, dass nur noch zu zeigen ist, dass aus der RiemannIntegrierbarkeit folgt, dass es zu jedem ε > 0 ein η > 0 gibt, so dass O(Z, f )− U (Z, f ) < ε gilt f¨ ur jede Zerlegung Z von [a, b] mit Δ(Z) < η. (Denn die umgekehrte Richtung ergibt sich daraus, dass es zu jedem η > 0 ja sogar eine ¨aquidistante Zerlegung Z von [a, b] gibt mit Δ(Z) < η.) Sei also f Riemann-integrierbar und ε > 0. Nach Satz 5.2 gibt es dann ein η > 0, so dass f¨ ur jede Zerlegung Z von [a, b] mit Δ(Z) < η und jede zugeh¨orige Riemannsche 'b Summe R(f ) gilt |R(f ) − a f (t)dt| < ε/4. Sei also Z eine beliebige solche Zerlegung und sei, (siehe den Beweis von Korollar 5.3), Ro (f ) eine Riemannsche Summe zu Z mit O(Z, f ) − Ro (f ) ≤ ε/4 und entsprechend Ru (f ) eine Riemannsche Summe zu Z mit |U (Z, f ) − Ru (f )| ≤ ε/4. Wegen # # ( b # # # # O(Z, f ) − U (Z, f ) ≤ |O(Z, f ) − Ro (f )| + #Ro (f ) − f (t)dt# # # a #( # # b # # # +# f (t)dt − Ru (f )# + |Ru (f ) − U (Z, f )| # a # folgt nun sofort die Behauptung.
!
Wir wissen bereits, dass jede stetige Funktion f : [a, b] → X Riemann-integrierbar ist 'b und damit das Integral a f (t)dt entsprechend Korollar 5.2 ’berechnet’ werden kann. Schw¨ achere Eigenschaften von f sind jedoch noch f¨ ur die Riemann-Integrierbarkeit ausreichend, wie das folgende n¨ utzliche Lemma zeigt: Lemma 5.5 Sei f : [a, b] → X beschr¨ ankt und stetig mit Ausnahme von endlich vielen Punkten, d.h. es gibt {τ1 , . . . , τm } ⊂ [a, b], so dass f in allen Punkten t ∈ [a, b] \ {τ1 , . . . , τm } stetig ist. Dann ist f Riemann-integrierbar. Beweis: Sei wieder 9f (t)9 ≤ M f¨ ur alle t ∈ [a, b]. Sei ε > 0 beliebig gegeben. Durch a¨quidistante Unterteilung des Intervalls [a, b] k¨ onnen wir dann sicher eine Zerlegung Z = {t0 , . . . , tn } von [a, b] finden mit n > 2m und 8M m|Δ(Z)| < ε. Sei A die Menge aller Teilintervalle Ik = [tk−1 , tk ], f¨ ur die Ik ∩ {τ1 , . . . , τm } = ∅ gilt. Wegen n > 2m ist sicher A 3= ∅, ochstens in zwei Intervallen Ik liegen kann und damit weil offenbar jeder Punkt τj h¨ h¨ ochstens 2m Intervalle Ik Punkte τj enthalten k¨onnen. Die Funktion f ist auf jedem
5.1 Das Riemann-Integral
159
Intervall Ik ∈ A stetig, somit gibt es zu jedem Intervall Ik ∈ A eine Zerlegung Z(Ik ), so dass f¨ ur die Einschr¨ ankung f |Ik von f auf Ik gilt σ(Z(Ik ), f |Ik ) ≤
ε tk − tk−1 . 2 b−a
Unter Ben¨ utzung der Zerlegung Z und aller Zerlegungen Z(Ik ) mit Ik ∈ A bilden wir nun eine neue Zerlegung Z & von [a, b] durch + Z(Ik ). Z & := Z ∪ Ik ∈A
Wegen 9f (t) − f (τ )9 ≤ 2M f¨ ur alle t, τ kann man damit unter Ber¨ ucksichtigung von Lemma 5.1 absch¨ atzen = ε ε σ(Z & , f ) ≤ σ(Z(Ik ), f |Ik ) + 2m(2M )Δ(Z) < + = ε. 2 2 Ik ∈A
Somit ist f Riemann-integrierbar.
!
Bei diesem Beweis wurde von der Integrierbarkeit u ¨ber gewisse Teilintervalle auf die Integrierbarkeit u ¨ ber [a, b] geschlossen. Noch einfacher ist zu sehen, dass aus der Integrierbarkeit einer Funktion f : [a, b] → X immer die Integrierbarkeit u ¨ ber ein beliebiges Teilintervall [c, d] ⊂ [a, b], (d.h. die Integrierbarkeit von f |[c,d] ), folgt: Sei ε > 0 beliebig gegeben. Dann gibt es eine Zerlegung Z von [a, b] mit σ(Z, f ) ≤ ε. Sind nun die Punkte urlich c und d bereits Teilungspunkte von Z, so gilt nat¨ σ(Z ∩ [c, d], f |[c,d]) ≤ σ(Z, f ) ≤ ε und man hat damit eine Zerlegung Z1 von [c, d] gefunden mit σ(Z1 , f ) ≤ ε. Sind aber nicht beide Punkte Teilungspunkte von Z, so geht man zun¨achst zu einer Verfeinerung Z & von Z u ¨ber, indem man c und (oder) d als Teilungspunkte hinzunimmt. Da ja dann σ(Z & , f ) ≤ σ(Z, f ) ≤ ε gilt, kommt man nun zum Ziel, indem man ausgehend von Z & wie soeben die Zerlegung Z1 von [c, d] gewinnt. Sind f : [a, b] → X und g : [a, b] → X Riemann-integrierbare Funktionen, so ist auch die durch (f + g)(t) := f (t) + g(t) f¨ ur t ∈ [a, b] definierte Funktion beschr¨ankt, (weil ja 9(f + g)(t)9 ≤ 9f (t)9 + 9g(t)9 gilt). Die Absch¨atzung 9(f + g)(t) − (f + g)(τ )9 ≤ 9f (t) − f (τ )9 + 9g(t) − g(τ )9 zeigt aber auch, dass f¨ ur jede Zerlegung Z von [a, b] gilt σ(Z, f + g) ≤ σ(Z, f ) + σ(Z, g). Damit ist auch f + g Riemann-integrierbar. Klar ist auch, dass f¨ ur zu einer Zerlegung Z geh¨ orende Riemannsche Summen gilt S(Z, f + g, τ ) = S(Z, f, τ ) + S(Z, g, τ ). Da das Integral als Grenzwert einer Folge von Riemannschen Summen erhalten werden kann, gilt also ( b ( b ( b (f + g)(t)dt = f (t)dt + g(t)dt. a
a
a
160
5 Integration I
Ganz genauso kann man auch sehen, dass bei Multiplikation mit einem Skalar α, (α ∈ R oder α ∈ C), gilt ( b ( b f (t)dt. (αf )(t)dt = α a
a
(Die Riemann-integrierbaren Funktionen f : [a, b] → C bilden also auf nat¨ urliche Weise 'b einen Vektorraum, auf dem f /→ a f (t)dt ein lineares Funktional ist.) Etwas schwieriger ist zu sehen, dass aus der Integrierbarkeit von f : [a, b] → X auch die Integrierbarkeit der durch t /→ 9f (t)9 f¨ ur t ∈ [a, b] definierten Funktion 9f 9 : [a, b] → R folgt, wobei dann die wichtige Absch¨ atzung B( B ( B b B b B B f (t)dtB ≤ 9f (t)9dt (5.5) B B a B a gilt. Um dies zu zeigen, geht man von der umgekehrten Dreiecksungleichung | 9x9 − 9y9 | ≤ 9x − y9 f¨ ur
x, y ∈ X
aus. Danach gilt f¨ ur jedes Teilintervall I ⊂ [a, b] δ(9f 9, I) = sup{| 9f (t)9 − 9f (τ )9 | : t, τ ∈ I} ≤ sup{9f (t) − f (τ )9 : t, τ ∈ I} = δ(f, I). Da daraus weiter σ(Z, 9f 9) ≤ σ(Z, f ) f¨ ur jede Zerlegung Z von [a, b] folgt, ist damit die Integrierbarkeit von 9f 9 gezeigt. Nachweis von (5.5): Ist (Zn )n∈N eine Folge von Zerlegungen von [a, b] mit Δ(Zn ) → 0 f¨ ur n → ∞, so gilt ja, wenn Rn (f ) zugeh¨ B' origeBRiemannsche Summen sind,' Rn (f ) → 'b B B b b f (t)dt und somit auch 9Rn (f )9 → B a f (t)dtB. Da aber auch Rn (9f 9) → a 9f (t)9dt a und 9Rn (f )9 ≤ Rn (9f 9) gilt, folgt daraus sofort (5.5).
Ist f : [a, b] → X Riemann-integrierbar und gilt 9f (t)9 ≤ M f¨ ur t ∈ [a, b], so gilt f¨ ur jede Riemann-Summe R(9f 9) offenbar die Absch¨atzung R(9f 9) ≤ M (b − a) und damit 'b weiter a 9f (t)9dt ≤ M (b − a). Zusammen mit (5.5) ergibt dies B( B B b B B B (5.6) f (t)dtB ≤ M (b − a). B B a B ur reellwertige Riemann-integrierbare Funktionen Seien nun zwei wichtige Resultate f¨ notiert. 'b Ist f (t) ≥ 0 f¨ ur alle t ∈ [a, b], so gilt auch a f (t)dt ≥ 0. Dies folgt sofort daraus, dass in diesem Fall offenbar f¨ ur alle Riemannschen Summen gilt R(f ) ≥ 0. F¨ ur stetige reellwertige Funktionen kann man (5.6) versch¨arfen zum sogenannten Mittelwertsatz der Integralrechnung :
5.1 Das Riemann-Integral
161
Lemma 5.6 Ist f : [a, b] → R stetig, so gibt es ein τ ∈ [a, b] mit (
b a
f (t)dt = f (τ )(b − a).
Beweis: Sei m ≤ f (t) ≤ M f¨ ur t ∈ [a, b]. Dann folgt nach unseren bisherigen Ergebnissen ( 0≤
a
b
( (f (t) − m)dt =
(
b
f (t)dt − m
a
a
b
( dt =
a
b
f (t)dt − m(b − a).
'b f (t)dt. Entsprechend sieht man, dass a f (t)dt ≤ M (b−a) gilt. 'b Damit gibt es aber ein μ ∈ [m, M ] mit a f (t) = μ(b − a). Nach dem Zwischenwertsatz gibt es weiter ein τ ∈ [a, b] mit μ = f (τ ). Damit ist alles gezeigt. !
Es gilt also m(b−a) ≤
'b a
Das folgende sehr n¨ utzliche und wohl auch nicht unerwartete Resultat ist dagegen wieder allgemein f¨ ur Banachraum-wertige Funktionen g¨ ultig. Lemma 5.7 Seien a, b, c ∈ R mit a < b < c und sei f : [a, c] → X u ¨ ber [a, b] und [b, c] Riemannintegrierbar. Dann ist f auch u ¨ ber [a, c] Riemann-integrierbar und es gilt (
c a
( f (t)dt =
a
b
( f (t)dt +
b
c
f (t)dt.
(5.7)
Beweis: Nach Voraussetzung ist 9f 9 u urlich ¨ ber [a, b] und u ¨ ber [b, c] beschr¨ankt. Daraus folgt nat¨ sofort die Beschr¨ anktheit u ¨ ber [a, c]. Die Integrierbarkeit von f u ¨ ber [a, c] ergibt sich nun folgendermaßen: Sei ε > 0 gegeben. Dann gibt es dazu eine Zerlegung Z1 von [a, b] mit σ(Z1 , f |[a,b] ) ≤ ε/2 und eine Zerlegung Z2 von [b, c] mit σ(Z2 , f |[b,c] ) ≤ ε/2. Betrachtet man dann die Zerlegung Z := Z1 ∪ Z2 von [a, b], so gilt offenbar σ(Z, f ) = σ(Z1 , f |[a,b] ) + σ(Z2 , f |[b,c] ) ≤ ε. 'c Damit existiert a f (t)dt und wir m¨ ussen noch die G¨ ultigkeit von (5.7) nachweisen. Wir betrachten dazu eine Folge (Z1,n )n∈N von Zerlegungen von [a, b] und eine Folge (Z2,n )n∈N von Zerlegungen von [b, c] mit Δ(Z1,n ) → 0 und Δ(Z2,n ) → 0 f¨ ur n → ∞. F¨ ur zugeh¨ orige Riemannsche Summen R1,n (f |[a,b] ) und R2,n (f |[b,c] ) gilt ja dann 'b 'c R1,n (f |[a,b] ) → a f (t)dt und R2,n (f |[b,c] ) → b f (t)dt f¨ ur n → ∞. Definiert man nun die Folge (Zn )n∈N von Zerlegungen von [a, c] durch Zn := Z1,n ∪ Z2,n , so gilt offenbar auch Δ(Zn ) → 0 f¨ u'r n → ∞ und es gilt also f¨ ur jede Folge zugeh¨origer Riemannscher c onnen wir aber die Riemannschen Summen Summen Rn (f ) → a f (t)dt. Speziell k¨ Rn (f ) := R1,n (f |[a,b] ) + R2,n (f |[b,c] )
162
5 Integration I !
w¨ ahlen. Daraus folgt sofort (5.7).
Die Formel (5.7) kann man nun sogar unproblematisch f¨ ur beliebige a, b, c ∈ R, von denen man nicht weiß, dass a < b < c gilt, verwenden, wenn man noch zus¨atzlich zu den bisher verwendeten Notationen ( a ( b f (t)dt := − f (t)dt, falls a < b und f u ¨ ber [a, b] integrierbar, b
und
( a
a
b
f (t)dt := 0,
falls
a = b,
definiert. So gilt dann im Fall a < c < b zun¨ achst unter Verwendung von (5.7) ( b ( c ( b f (t)dt = f (t)dt + f (t)dt, a
a
c
was wir nun auch schreiben k¨ onnen als ( c ( b ( b ( f (t)dt = f (t)dt − f (t)dt = a
a
c
b
a
( f (t)dt +
c
b
f (t)dt.
Es ist klar, warum man in diesem Zusammenhang auch vom orientierten RiemannIntegral spricht. Zum Abschluss dieses Abschnitts seien noch zwei wichtige Spezialf¨alle kurz diskutiert, n¨ amlich der Fall X = C und X = Rm mit m > 1. Korollar 5.5 (a) Eine Funktion f : [a, b] → C ist genau dann Riemann-integrierbar, wenn die Funktionen Ref : [a, b] → R und Imf : [a, b] → R Riemann-integrierbar sind. Im Fall der Integrierbarkeit gilt ( b ( b ( b f (t)dt = Ref (t)dt + i Imf (t)dt. (5.8) a
a
a
(b) Eine Abbildung f : t ∈ [a, b] /→ (f1 (t), . . . , fm (t)) ∈ Rm ist genau dann Riemannintegrierbar, wenn alle Funktionen fk : [a, b] → R, (k = 1, . . . , m) Riemann-integrierbar sind. Im Fall der Riemann-Integrierbarkeit gilt 2( 5 ( ( b
a
f (t)dt =
b
a
f1 (t)dt, . . . ,
b
a
fm (t)dt .
Beweis: (a) Sei zuerst angenommen, dann f Riemann-integrierbar ist. Zu ε > 0 gibt es also eine
5.2 Hauptsatz der Differential- und Integralrechnung
163
Zerlegung des Intervalls [a, b] mit σ(Z, f ) < ε. Wegen |Ref (t) − Ref (τ )| ≤ |f (t) − f (τ )| und |Imf (t) − Imf (τ )| ≤ |f (t) − f (τ )| f¨ ur alle t, τ ∈ [a, b] gilt dann auch σ(Z, Ref ) < ε und σ(Z, Imf ) < ε. Damit sind auch Ref und Imf Riemann-integrierbar. Die G¨ ultigkeit 'b von (5.8) ergibt sich nun rasch unter Verwendung einer gegen a f (t)dt konvergierenden Folge von Riemann-Summen unter Ber¨ ucksichtigung der Tatsache, dass Konvergenz in C gleichbedeutend ist mit Konvergenz der Realteile und der Imagin¨arteile. (Argumentation wie beim Integral einer Summe von Funktionen.) Sind aber umgekehrt Ref und Imf Riemann-integrierbar, so kann man ja absch¨atzen |f (t) − f (τ )| ≤ |Ref (t) − Ref (τ )| + |Imf (t) − Imf (τ )|
f¨ ur
t, τ ∈ [a, b],
was σ(Z, f ) ≤ σ(Z, Ref ) + σ(Z, Imf ) und damit die Riemann-Integrierbarkeit von f liefert. (b) Die Argumentation l¨ auft ganz entsprechend wie bei Teil (a), wobei zu ber¨ ucksichtigen ist, dass Konvergenz im Rm gleichbedeutend mit komponentenweiser Konvergenz ist. ! Bis jetzt haben wir noch kein Riemann-Integral wirklich berechnet. Das w¨are zwar m¨oglich unter Verwendung von Riemann-Summen, meist greift man dazu aber auf den Hauptsatz der Differential- und Integralrechnung zur¨ uck, dem wir uns nun zuwenden.
5.2
Hauptsatz der Differential- und Integralrechnung
Wir beginnen mit der auch in anderem Kontext wichtigen' Feststellung, dass grob get sprochen Integration gl¨ attet, d.h. dass die Funktion t /→ a f (τ )dτ in gewissem Sinn bessere Eigenschaften haben kann als die Funktion f selber. Wir k¨onnen dabei von einer Funktion f ausgehen, die auf einem beliebigen Intervall J ⊂ R definiert ist, (es ist also z.B. auch J = [0, ∞) zugelassen), aber auf jedem kompakten, d.h. beschr¨ankten und abgeschlossenen Teilintervall I ⊂ J Riemann-integrierbar ist. So eine Funktion nennen wir lokal integrierbar . Satz 5.3 Sei J ⊂ R ein Intervall, sei f : J → X lokal ' t integrierbar, sei a ∈ J beliebig gew¨ahlt und F : J → X definiert durch F (t) := a f (τ )dτ . Dann ist F stetig. Beweis: Sei t0 ∈ J beliebig gew¨ ahlt. Nach unseren fr¨ uheren Ergebnissen k¨onnen wir dann f¨ ur jedes t ∈ J notieren ( t ( t0 ( t f (τ )dτ − f (τ )dτ = f (τ )dτ. (5.9) F (t) − F (t0 ) = a
a
t0
Ist nun I ⊂ J ein kompaktes Intervall mit t ∈ I und t0 ∈ I, so gilt nach (5.6), wenn M = sup{9f (s)9 : s ∈ I} ist, (es ist M < ∞, da f |I als integrierbar vorausgesetzt ist), 9F (t) − F (t0 )9 ≤ M |t − t0 |.
164
5 Integration I
atzung zeigt aber die Stetigkeit von F im Punkt t0 . Diese Absch¨
!
Weiß man von f noch mehr, n¨ amlich die Stetigkeit in einem Punkt t0 , so hat F sogar noch weitergehende Eigenschaften: Satz 5.4 Sei J ⊂ R ein Intervall, sei f : J → X lokal ' t integrierbar, sei a ∈ J beliebig gew¨ahlt und F : J → X definiert durch F (t) := a f (τ )dτ . Dann gilt: Ist f im Punkt t0 ∈ J stetig, so ist F im Punkt t0 differenzierbar und es gilt F & (t0 ) = f (t0 ). Beweis: Sei f im Punkt t0 ∈ J stetig und ε > 0 gegeben. Dann gibt es ein η > 0 mit 9f (t) − f (t0 )9 < ε f¨ ur alle t ∈ J mit |t − t0 | < η. Integriert man die konstante Abbildung 't t ∈ J /→ f (t0 ) ∈ X, so erh¨ alt man t0 f (τ )dτ = (t − t0 )f (t0 ), und zwar nach unseren ur |t − t0 | < η Konventionen sogar f¨ ur alle t ∈ J mit |t − t0 | < η. Damit k¨onnen wir f¨ absch¨ atzen B( t B ( t B B B 9F (t) − F (t0 ) − (t − t0 )f (t0 )9 = B f (τ )dτ − f (t0 )dτ B B ≤ ε|t − t0 |. t0
t0
Daraus folgt sofort die Differenzierbarkeit von F im Punkt t0 und F & (t0 ) = f (t0 ). (Ist ! t0 Randpunkt von J, so liegt offenbar nur einseitige Differenzierbarkeit vor.) Ist speziell f in allen Punkten von J stetig, so ist F : J → X eine differenzierbare Abbildung mit F & (t) = f (t) f¨ ur alle t ∈ J. Man spricht daher davon, dass man mit F eine Stammfunktion zu f gefunden hat. Da mit dieser Stammfunktion ja (5.9) gilt, haben wir damit ein erstes Resultat dazu, dass man den Wert eines Integrals durch Auswerten einer Stammfunktion an den Enden des Integrationsintervalls erhalten kann. Tats¨ achlich gilt (5.9) sogar mit jeder Stammfunktion. Um dieses meist zusammen mit Satz 5.4 als Hauptsatz der Differential- und Integralrechnung bezeichnete Resultat f¨ ur den Fall von Funktionen mit Werten im Rn erhalten zu k¨onnen, greifen wir auf den Mittelwertsatz der Differentialrechnung in der Form von Satz 4.7 zur¨ uck. Satz 5.5 ur alle t ∈ [a, b]. Sei f : [a, b] → Rn stetig und sei F : [a, b] → Rn mit F & (t) = f (t) f¨ Dann gilt (
t2
t1
f (t)dt = F (t2 ) − F (t1 )
f¨ ur
t1 , t2 ∈ [a, b].
Beweis: 't ur t ∈ [a, b]. Nach Satz 5.4 gilt dann G& (t) = f (t) f¨ ur alle t und Sei G(t) := a f (τ )dτ f¨ ' t2 G(t2 ) − G(t1 ) = t1 f (τ )dτ . Sei H(t) := F (t) − G(t) f¨ ur t ∈ [a, b]. Da dann H & (t) = 0 ist, folgt aus Satz 4.7, dass H(t) = H(t& ) f¨ ur alle t, t& ∈ [a, b] gelten muss, (zun¨achst
5.2 Hauptsatz der Differential- und Integralrechnung
165
im offenen Intervall, aber die Stetigkeit von H liefert dies auch in den Randpunkten). 't Damit ist F (t) = G(t) + H(a) und es folgt F (t2 ) − F (t1 ) = G(t2 ) − G(t1 ) = t12 f (τ )dτ ! f¨ ur t1 , t2 ∈ [a, b]. Satz 5.5 zeigt, dass es f¨ ur die Berechnung von Integralen von großem Interesse ist, Stammfunktionen finden zu k¨ onnen. Mit dieser Problematik werden wir uns noch in einem eigenen Abschnitt besch¨ aftigen, zun¨ achst sei aber gezeigt, wie das Zusammenwirken zwischen Integration und Differentiation es erm¨oglicht, ein Ergebnis zur ’gliedweisen’ Differentiation von Reihen zu beweisen, das insbesondere bei Potenzreihen einsetzbar ist. Wir beginnen mit einem Resultat zur Integration, das zeigt, dass bei Funktionen-Folgen unter gewissen Voraussetzungen Integral und Limes vertauscht werden d¨ urfen. Lemma 5.8 Sei X ein Banachraum, seien fn : [a, b] → X, (n ∈ N), und f : [a, b] → X Riemannintegrierbar und es gelte sup{9fn (t) − f (t)9 : t ∈ [a, b]} → 0 f¨ ur n → ∞. Dann gilt (
b a
( f (t)dt = lim
n→∞
a
b
fn (t)dt.
Beweis: Nach (5.6) k¨ onnen wir f¨ ur n ∈ N absch¨ atzen B( B B B( ( b B b B B B b B B B B fn (t)dt − f (t)dtB = B (fn − f )(t)dtB B B B B B a a a ≤ (b − a) sup{9fn (t) − f (t)9 : t ∈ [a, b]}. Daraus folgt wegen sup{9fn (t) − f (t)9 : t ∈ [a, b]} → 0 f¨ ur n → ∞ offenbar sofort die Behauptung. ! Beim n¨ achsten Satz verwenden wir die (als Standard anzusehende) Notation C 1 (J, R) f¨ ur die Menge der u ur ¨ ber dem Intervall J differenzierbaren reellwertigen Funktionen, f¨ die auch die Funktion f & : J → R, die jedem x ∈ J die Ableitung f & (x) zuordnet, eine stetige Funktion ist. Satz 5.6 ur die f¨ ur alle x ∈ J die Sei J ⊂ R ein Intervall und (fn )n∈N eine Folge in C 1 (J, R), f¨ Grenzwerte limn→∞ fn (x) und limn→∞ fn& (x) existieren, wobei bei den Funktionen aßig sein soll in dem Sinn, dass zu jedem ε > 0 ein fn& die Konvergenz sogar gleichm¨ n0 ∈ N existiert mit |fn& (x) − limn→∞ fn& (x)| < ε f¨ ur alle n ≥ n0 und alle x ∈ J. ur x ∈ J, so ist auch Definiert man dann f : J → R durch f (x) := limn→∞ fn (x) f¨ f ∈ C 1 (J, R) und es gilt f & (x) = limn→∞ fn& (x) f¨ ur x ∈ J.
166
5 Integration I
Beweis: ur x ∈ J. Die vorausgesetzSei g : J → R definiert durch g(x) := limn→∞ fn& (x) f¨ te gleichm¨ aßige Konvergenz der Folge (fn& )n∈N hat die wichtige Konsequenz, dass die Funktion g stetig ist. Um dies zu sehen, gehen wir von einem beliebigen Punkt ξ ∈ J und einem ε > 0 aus. ur n ≥ n 0 Nach Voraussetzung gibt es dann ein n0 ∈ N mit |fn& (x) − g(x)| < ε/3 f¨ und alle x ∈ J. Da die Funktion fn& 0 im Punkt ξ stetig ist, gibt es ein δ > 0 mit ur alle x ∈ J mit |x − ξ| < δ. Damit kann man dann f¨ ur alle |fn& 0 (x) − fn& 0 (ξ)| < ε/3 f¨ x ∈ J mit |x − ξ| < δ absch¨ atzen |g(x) − g(ξ)| ≤ |g(x) − fn& 0 (x)| + |fn& 0 (x) − fn& 0 (ξ)| + |fn& 0 (ξ) − g(ξ)| ε ε ε < + + = ε. 3 3 3 Dies zeigt die Stetigkeit von g im Punkt ξ. Da g eine stetige Funktion ist, ist sie auch Riemann-integrierbar und es gilt nach Lemma 5.8 f¨ ur beliebig gew¨ ahltes a ∈ J und x ∈ J unter Ben¨ utzung von Satz 5.5 ( x ( x g(ξ)dξ = lim fn& (ξ)dξ = lim (fn (x) − fn (a)) = f (x) − f (a). n→∞
a
n→∞
a
'x Nach Satz 5.4 ist aber die Funktion G : x /→ a g(ξ)dξ differenzierbar und es gilt ur x ∈ J. G& (x) = g(x). Damit ist aber auch f differenzierbar und es gilt f & (x) = g(x) f¨ Damit ist alles gezeigt. ! Im Zuge des letzten Beweises haben wir gesehen, dass die Grenzfunktion einer gleichm¨ aßig konvergenten Folge stetiger Funktionen ebenfalls stetig ist. Das folgende einfache Beispiel zeigt, dass dabei die vorausgesetzte gleichm¨aßige Konvergenz wichtig war: Seien die Funktionen fn : [0, 1] → R definiert durch fn (x) := xn f¨ ur n ∈ N und x ∈ [0, 1]. Es gilt dann lim fn (x) = 0 f¨ ur x ∈ [0, 1), lim fn (1) = 1. n→∞
n→∞
Definiert man nun f (x) := 0 f¨ ur x ∈ [0, 1) und f (1) := 1, so gilt damit punktweise fn (x) → f (x) f¨ ur x ∈ [0, 1], die Grenzfunktion f ist aber offenbar im Punkt x = 1 nicht stetig. Die Wichtigkeit der in Satz 5.6 geforderten gleichm¨aßigen Konvergenz der Folge (fn& )n∈N wird durch das folgende Beispiel demonstriert: Sei f¨ ur n ∈ N die Funktion fn : R → R definiert durch fn (x) :=
x 1 + n2 x2
f¨ ur
x ∈ R.
Diese Funktionen sind alle aus C 1 (R, R), als Ableitung erh¨alt man nach den bekannten Rechenregeln 1 − n2 x2 f¨ ur x ∈ R. fn& (x) = (1 + n2 x2 )2 Damit gilt fn& (0) = 1 f¨ ur alle n ∈ N. Offenbar gilt nun limn→∞ fn (x) = 0 f¨ ur alle x ∈ R, als punktweise Grenzfunktion tritt
5.2 Hauptsatz der Differential- und Integralrechnung
167
ur alle x ∈ R gilt. Diese Grenzfunktion ist ur die f (x) = 0 f¨ also die Funktion f auf, f¨ ur alle x ∈ R, aber es gilt trivialerweise differenzierbar mit f & (x) = 0 f¨ f & (0) = 0 3= 1 = lim fn& (0). n→∞
Das angek¨ undigte Resultat zur gliedweisen Differentiation von Reihen ergibt sich aus Satz 5.6, wenn man bedenkt, dass der Wert einer konvergenten Reihe als Grenzwert der Folge der Partialsummen definiert ist. Korollar 5.6 (a) Sei J ⊂ R ein in C 1 (J, R), f¨ ur die f¨ ur alle )∞Intervall und (fn )n∈N0 eine Folge ) ∞ & die Reihe (x) in J gleichm¨ aßig f x ∈ J die Reihe n=0 fn (x) konvergent und n=0 n ) konvergent ist. Dann ist die Funktion x /→ fn (x) stetig differenzierbar und es gilt 2∞ 5 ∞ = d = fn& (x) f¨ ur x ∈ J. fn (x) = dx n=0 n=0 )∞ k (b) Sei mit Konvergenzradius r 3= 0 und damit die k=0 ak x eine Potenzreihe )∞ ur x ∈ (−r, r). Funktion f definiert durch f (x) := k=0 ak xk f¨ 1 (bzw. C ((−r, r), C), wenn die Koeffizienten komplex Dann ist f ∈ C 1 ((−r, r), R), )∞ sind), und es gilt f & (x) = k=1 kak xk−1 f¨ ur x ∈ (−r, r). Beweis: (a) Das Ergebnis (s) n )n∈N0 der Partialsum) folgt aus Satz 5.6 angewandt auf die Folge n ucksichtigt, dass s&n (x) = k=0 fn& (x) gilt. men der Reihe n fn , wenn man ber¨ (b) Es gen¨ ugt zu zeigen, dass bei passender Interpretation ein Spezialfall von (a) vorliegt. )∞ Dazu sei zuerst u ¨ berlegt, dass die Reihe k=1 kak xk ebenfalls den Konvergenzradius ur alle k ∈ N ist klar, dass der Konvergenzradius nicht r hat. Wegen k|ak | ≥ |ak | f¨ gr¨ oßer als r sein kann. Der Konvergenzradius kann aber auch nicht kleiner sein. Denn dies k¨ onnte nach der bekannten Formel f¨ ur den Konvergenzradius einer Potenzreihe nur sein, wenn lim supk→∞ (k|ak |)1/k > lim supk→∞ |ak |1/k w¨are. Man sieht aber leicht, dass dies wegen k 1/k → ur k → ∞ nicht m¨ oglich ist. Damit hat aber auch die uns ) 1 f¨ k−1 den Konvergenzradius r. interessierende Reihe ∞ k=1 kak x Sei nun ξ ∈ (−r, gew¨ ahlt. Ist dann dazu ρ ∈ (|ξ|, r) beliebig gew¨ahlt, so ) r) beliebig k−1 ist die Reihe ∞ ka x f¨ u r x ∈ [−ρ, ρ] gleichm¨aßig konvergent. Dies folgt wegen k k=1 der Absch¨ atzung |kak xk−1 | ≤ |kak |ρk−1 f¨ ur |x| Verwendung des Majoran) ≤ ρ unterk−1 k|a |ρ . Damit liegen aber u tenkriteriums aus der Konvergenz der Reihe ∞ ¨ber k k=1 dem Intervall J := [−ρ, ρ] die Verh¨ a ltnisse von Teil (a) vor und es folgt insbesondere ) k−1 f & (ξ) = ∞ . Da ξ ∈ (−r, r) beliebig gew¨ahlt war, ist damit alles gezeigt. ! k=1 kak ξ Die soeben gef¨ uhrte Argumentation zeigt wegen Lemma 5.8 aber auch, dass man bei der Integration von durch Potenzreihen gegebenen Funktionen mit gliedweiser Integration arbeiten kann.
168
5 Integration I
Es gilt daher, wenn f (t) = ( 0
denn es ist ja t /→
5.3
τ
)∞
k=0
f (t)dt =
1 k+1 k+1 t
ak tk f¨ ur t ∈ (−r, r) ist, f¨ ur τ ∈ (0, r)
∞ = k=0
( ak
τ
0
tk dt =
∞ =
ak
k=0
1 τ k+1 , k+1
eine Stammfunktion zu t /→ tk .
Zur Berechnung von Integralen
Sehr h¨ aufig wird bei Integralen mit einer Technik gearbeitet, die als partielle Integration bekannt ist. Diese beruht letztlich darauf, dass man die Produktregel der Differentiation geeignet einsetzt. Satz 5.7 Sind f und g aus C 1 ([a, b], R), so gilt ( ( b f (t)g & (t)dt = f (b)g(b) − f (a)g(a) − a
b a
f & (t)g(t)dt.
Beweis: Da die Funktionen t /→ f (t)g & (t) und t /→ f & (t)g(t) beide stetig sind, sind beide in der Behauptung auftretenden Integrale sinnvoll. Wir k¨onnen die Behauptung damit auch notieren als ( b (f (t)g & (t) + f & (t)g(t))dt = f (b)g(b) − f (a)g(a). a
Mit h(t) := f (t)g(t) ist dies nach der Produktregel f¨ ur die Differentiation aber gleichbedeutend mit ( b h& (t)dt = h(b) − h(a), a
was nach Satz 5.5 richtig ist.
!
Meist wird partielle Integration angewandt, um kompliziertere Integrale zu vereinfachen. Dazu ' πein Beispiel: Sei 0 t sin(t)dt zu berechnen. In diesem Fall ist f (t) = t und g & (t) = sin(t), wobei man g als eine Stammfunktion zu sin leicht angeben kann durch g(t) = − cos(t). Damit erh¨ alt man durch partielle Integration, wenn man die weit verbreitete Notation (f (t)g(t))|t=b t=a = f (b)g(b) − f (a)g(a) verwendet,
( 0
π
t sin(t)dt =
(−t cos(t))|t=π t=0
( +
0
π
cos(t)dt.
5.3 Zur Berechnung von Integralen
169
'π Wegen cos(π) = −1 liefern die Randterme (−t cos(t))|t=π t=0 = π und 0 cos(t)dt kann alt man wegen (d/dt) sin(t) = cos(t) direkt angeben durch sin(t)|t=π t=0 = 0. Somit erh¨ man ( π 0
t sin(t)dt = π.
Man arbeitet aber auch mit partieller Integration, wenn es darum geht, zu einer gegebenen Funktion eine Stammfunktion zu finden. Sei die Funktion h von der Form h(x) = f (x)g & (x), wobei f ebenfalls differenzierbar sei, und es sei eine Stammfunktion zu utzlich h gesucht, d.h. eine Funktion H mit H & (x) = h(x). Auch hier kann es durchaus n¨ sein, dies darauf zur¨ uck zu f¨ uhren, eine Stammfunktion der Funktion ϕ : x /→ f & (x)g(x) zu finden. Dies folgt wieder direkt aus der Produktregel f¨ ur die Differentiation. Ist Φ eine Stammfunktion zu ϕ, so gilt ja d d (H(x) + Φ(x)) = f (x)g & (x) + f & (x)g(x) = (f (x)g(x)) dx dx und damit mit einer Konstanten C ∈ R H(x) + Φ(x) = f (x)g(x) + C. (Stammfunktionen sind immer nur bis auf eine frei w¨ahlbare Konstante bestimmt, wie Korollar 4.3 zeigt.) Meist schreibt man dies in der Notation unbestimmter Integrale in der Form ( ( & f (x)g (x)dx = f (x)g(x) − f & (x)g(x)dx. ' Dabei steht allgemein ψ(x)dx f¨ ur die Menge aller Stammfunktionen zu ψ. Ist etwa entsprechend zum soeben behandelten Beispiel eine Stammfunktion zu x /→ x sin x gesucht, so erh¨ alt man nun mit partieller Integration und der Notation des unbestimmten Integrals ( x sin xdx = −x cos x + sin x + C mit einer noch freien Konstanten C ∈ R. Ein interessantes Beispiel ist auch die Aufgabe, eine Stammfunktion zur Logarithmusfunktion zu finden. Hier kann man unter Verwendung von partieller Integration rechnen ( ( ( 1 log xdx = 1 · log xdx = x log x − x · dx = x log x − x + C. x Aber auch eine zweite wichtige Regel zur Berechnung von Ableitungen, n¨amlich die Kettenregel, setzt man h¨ aufig ein zur Berechnung von Integralen, und zwar in der Form der Substitutionsformel . Schon bei der Formulierung greifen wir dabei auf die fr¨ uher bewiesene Tatsache zur¨ uck, dass eine stetige reellwertige Funktion ein abgeschlossenes beschr¨ anktes Intervall wieder in eine abgeschlossenes beschr¨anktes Intervall u uhrt. ¨ berf¨
170
5 Integration I
Satz 5.8 Sei [α, β] ⊂ R ein beschr¨ anktes abgeschlossenes Intervall, sei ϕ ∈ C 1 ([α, β], R), sei a = ϕ(α) und b = ϕ(β) mit a 3= b. Dann gilt: Ist f : ϕ([α, β]) → R stetig, so gilt ( β ( b f (t)dt = (f ◦ ϕ)(s)ϕ& (s)ds. a
α
Beweis: Man beachte, dass beide in der Behauptung auftretenden Integrale sinnvoll sind, denn wegen a = ϕ(α) und b = ϕ(β) ist ja, wenn wir zun¨achst a < b annehmen, sicherlich [a, b] ⊂ ϕ([α, β]). Auch ist (f ◦ ϕ) · ϕ& stetig auf [α, β]. 't Wir betrachten nun die Funktion F (t) := a f (τ )dτ f¨ ur t ∈ [a, b]. Es gilt dann nach Satz 5.4 F & (t) = f (t) und die Funktion G := F ◦ ϕ ist auf [α, β] ebenfalls differenzierbar mit der Ableitung G& (s) = F & (ϕ(s))ϕ& (s) = (f ◦ ϕ)(s)ϕ& (s)
f¨ ur
s ∈ [α, β].
Damit gilt nach Satz 5.5 aber ( ( β & (f ◦ ϕ)(s)ϕ (s)ds = G(β) − G(α) = F (b) − F (a) = α
a
b
f (τ )dτ.
't Ist nun aber b < a, so betrachtet man F (t) := b f (τ )dτ und erh¨alt mit genau den 'b 'a gleichen Schl¨ ussen zuletzt G(β) − G(α) = F (b) − F (a) = − b f (τ )dτ = a f (τ )dτ . ! Praktisch l¨ auft die Verwendung der Substitutionsregel in der Form eines Rezeptes so 'b ab, dass man zur Berechnung von a f (t)dt die Substitution t = ϕ(s) vornimmt, formal dt = ϕ& (s)ds setzt und die Integrationsgrenzen umrechnet entsprechend a = ϕ(α), b = ϕ(β). Sei der Einsatz der Substitutionsregel an Hand eines Beispiels demonstriert, das auch deutlich zeigt, dass Integrieren in gewissem Sinn eine Kunst ist, (die heute wegen der Computer-Algebra-Programme nicht mehr so wichtig wie fr¨ uher ist). Sei das Integral ' π/2 5 (sin τ ) dτ zu berechnen. Schreibt man zun¨ a chst 0 ( 0
π/2
5
(sin τ ) dτ =
( 0
π/2
(1 − cos2 s)2 sin s ds,
so sieht man, dass hier der Integrand (1 − cos2 s)2 sin s eigentlich die Form f (ϕ(s))ϕ& (s) hat. Dies legt es nahe, die oben notierte Substitutionsregel sozusagen r¨ uckw¨arts zu lesen, was bedeutet, dass t = cos s zu setzen ist. Integriert man bei s u ¨ ber [0, π/2], so liegt nun offenbar der oben betrachtete Fall b = cos(π/2) < 1 = cos 0 = a vor. Damit erh¨alt man wegen dt = − sin s ds ( π/2 ( 0 ( 1 2 2 2 2 (1 − cos s) sin s ds = − (1 − t ) dt = (1 − t2 )2 dt. 0
1
0
5.3 Zur Berechnung von Integralen
171
Das letzte Integral kann man nun aber leicht berechnen, weil eine Stammfunktion zu f (t) = (1 − t2 )2 sofort angegeben werden kann. Mit F (t) = t − (2/3)t3 + (1/5)t5 gilt F & (t) = 1 − 2t2 + t4 . Damit gilt ( 1 2 1 (1 − t2 )2 dt = F (1) − F (0) = 1 − + . 3 5 0 Es ist zu erwarten, dass man die Substitutionsformel grunds¨atzlich auch zur Berechnung von Stammfunktionen, d.h. zur Berechnung von unbestimmten Integralen einsetzen k¨onnen sollte. Hierbei muss man jedoch etwas beachten, das beim Ergebnis von Satz 5.8 keine Rolle spielt. Schreibt man zun¨ achst wie bei Satz 5.8, wenn t = ϕ(s) und a = ϕ(α) ist, ( s ( t f (τ )dτ = (f ◦ ϕ)(σ)ϕ& (σ)dσ, a
α
so erh¨ alt man, wenn man das Integral rechts ausrechnet, eine Funktion von s, man m¨ ochte aber nat¨ urlich als Stammfunktion von f eine Funktion von t haben. Das bedeutet, dass man hier noch s durch t ersetzen muss, d.h. man muss mit der Umkehrfunktion zu ϕ arbeiten k¨ onnen, um s = ϕ−1 (t) setzen zu k¨onnen. Damit kommt man dann allerdings auch zum Ziel, ohne direkt die Integrationsgrenzen ber¨ ucksichtigen zu m¨ ussen. Dazu wieder das Beispiel von oben, bei dem zu cos bekanntlich tats¨achlich auf passenden Intervallen die Umkehrfunktion arccos existiert. Setzt man t =arccos s, so kann man damit rechnen ( ( 1 2 1 2 (1 − cos2 t)2 sin tdt = − (1 − s2 )2 ds = −s + s3 − s5 = − cos t + cos3 t − cos5 t. 3 5 3 5 Beim Berechnen von komplizierteren Integralen braucht man Erfahrung und Phantasie, um geschickt auf besser zu behandelnde Integrale zu kommen. Systematisch kann man allerdings vorgehen, wenn man sogenannte rationale Funktionen zu integrieren hat, das sind Funktionen, die durch einen Quotienten von zwei Polynomfunktionen gegeben sind. Grundlage f¨ ur die M¨ oglichkeit, hierbei systematisch vorzugehen, bildet dabei die sogenannte Partialbruchzerlegung . Es sei dies zuerst an einem einfachen Beispiel demonstriert. Es sei eine Stammfunktion zur Funktion f (x) :=
x2 − 2 x3 − x
zu bestimmen. Es ist also f Quotient der zwei Polynomfunktionen p(x) := x2 − 2 und q(x) := x3 − x. Die Polynomfunktion q kann man leicht als Produkt von Linearfaktoren schreiben, denn offenbar gilt q(x) = x(x2 − 1) = x(x + 1)(x − 1). Dies erm¨ oglicht es nun, die rationale Funktionen p/q mit geeigneten Koeffizienten a, b, c ∈ R in der Form einer ’Partialbruchzerlegung’ a b c p(x) = + + q(x) x x+1 x−1
172
5 Integration I
/ {0, −1, 1}, wenn ur alle x ∈ zu schreiben. Dies gilt offenbar f¨ p(x) = a(x + 1)(x − 1) + bx(x − 1) + cx(x + 1) gilt. Es soll also
x2 − 2 = (a + b + c)x2 + (c − b)x − a
gelten. Dies f¨ uhrt auf a = 2, c − b = 0 und a + b + c = 1, so dass geeignete Koeffizienten b und c noch aus den zwei Gleichungen b − c = 0,
b + c = −1
zu bestimmen sind. Es folgt b = c = − 21 und somit 1 f (x) = 2
:
4 1 1 − − x x+1 x−1
; .
Zu den hier auftretenden drei Summanden kann man aber leicht Stammfunktionen unter Ben¨ utzung der Logarithmusfunktion angeben. Allgemein stellt nun das folgende Lemma die wesentliche Grundlage f¨ ur Partialbruchutzen, dass zerlegungen dar. Wir werden beim Beweis dieses Lemmas die Tatsache ben¨ man, wenn man eine Nullstelle einer Polynomfunktion hat, einen entsprechenden Linearfaktor abspalten kann. Dies ist ein bekanntes Resultat aus der Algebra, wir werden es aber sp¨ ater noch ganz einfach im Zuge der Diskussion von Taylor-Polynomen erhalten. Lemma 5.9 Seien h und k Polynomfunktionen, sei α ∈ C mit k(α) 3= 0, sei m ∈ N. Dann gibt es ur alle x mit (x − α)m k(x) 3= 0 gilt eine Polynomfunktion h1 , so dass f¨ h(α) 1 h1 (x) h(x) = . + m m (x − α) k(x) k(α) (x − α) (x − α)m−1 k(x) Beweis: F¨ ur beliebiges a ∈ C gilt nat¨ urlich h(x) a h(x) − ak(x) = . + (x − α)m k(x) (x − α)m (x − α)m k(x)
(5.10)
Ist nun speziell a = h(α)/k(α), so ist offenbar α eine Nullstelle der Polynomfunktion h − ak, so dass man mit einem Polynom h1 schreiben kann h(x) −
h(α) k(x) = (x − α)h1 (x). k(α)
Setzt man dies in (5.10) ein, so erh¨ alt man unmittelbar die Behauptung.
!
5.4 Uneigentliche Integrale, Gammafunktion
173
Ist nun eine rationale Funktion r gegeben in der Form r(x) =
(x − α1
)μ1
p(x) , · . . . · (x − αm )μm
wobei die αj alle verschieden (und i.a. komplexe Zahlen) sind, so kann man nach Lemma 5.9 offenbar sukzessiv Summanden a(x − αj )−k abspalten, beginnend mit a(x − α1 )−μ1 und zun¨ achst die Nullstelle α1 ’abarbeitend’, bis im Nenner kein Linearfaktor mit α1 mehr auftaucht, sodann mit der Nullstelle α2 so fortfahrend usw. Man erh¨alt dadurch die Partialbruchzerlegung r(x) =
μj m = = j=1 k=1
aj,k + p0 (x), (x − αj )k
wobei p0 wieder eine Polynomfunktion ist und die Koeffizienten aj,k auch dann, wenn r reellwertig ist, i.a. komplex sind, weil ja ein Polynom mit reellen Koeffizienten keine reellen Nullstellen haben muss. Allerdings kann man in so einem Fall eine Darstellung finden, bei der keine komplexen Zahlen auftreten, wenn man ber¨ ucksichtigt, dass bei einem Polynom mit reellen Koeffizienten die komplexen Nullstellen paarweise konjugiert komplex sein m¨ ussen. (Hat p reelle Koeffizienten, so gilt ja p(z) = p(z) f¨ ur alle z ∈ C.) Linearfaktoren zu konjugiert komplexen Nullstellen, etwa x−α und x−α kann man aber zu einem Polynom zweiten Grades mit reellen Koeffizienten zusammenfassen. Man kann sich u ¨berlegen, dass man damit insgesamt bei einer reellwertigen rationalen Funktion zu einer Darstellung der Form r(x) =
μj σ = = j=1 k=1
τ
μj
== λj,k (x) aj,k + + p0 (x) k 2 + a x + b )k (x − αj ) (x j j j=1
(5.11)
k=1
kommen kann, wobei die λj,k reelle Polynome vom Grad ≤ 1 sind und alle auftretenden Gr¨ oßen reell sind. Die Darstellung (5.11) zeigt, dass ' man zur Berechnung einer Stammfunktion zu r, also zur Berechnung des Integrals r(x)dx nur vier Typen Integralen ' 2 kennen muss, ' ' von −k dx, (x + ax + b)−k dx n¨ amlich p(x)dx, wobei p eine Polynomfunktion ist, (x − α) ' 2 −k 2 und x(x + ax + b) dx, wobei das Polynom x + ax + b keine reelle Nullstelle hat. Diese vier Typen von Integralen lassen sich aber recht einfach behandeln, entsprechende Formeln findet man in vielen B¨ uchern.
5.4
Uneigentliche Integrale, Gammafunktion
Bei sogenannten ’uneigentlichen’ Integralen geht es um die Integration von Funktionen, die entweder u ankten Intervall die geforderte Beschr¨anktheitsbedin¨ ber einem beschr¨ gung nicht erf¨ ullen, oder f¨ ur die man das Integral u ¨ber ein unbeschr¨anktes Intervall, etwa [0, ∞), noch sinnvoll definieren m¨ ochte. Ein einfaches Beispiel zeigt bereits, wie man dabei vorgehen kann. Sei f : (0, 1] → R '1 definiert durch f (x) := x−1/2 . Offenbar kann man 0 f (x)dx in diesem Fall nicht wie
174
5 Integration I
ur beliebiges h ∈ (0, 1) ur x → 0 gilt. Man kann aber f¨ bisher definieren, weil f (x) → ∞ f¨ '1 das Integral h f (x)dx bilden, und es ist daher naheliegend, zu versuchen, dem Integral '1 '1 f (x)dx einen Sinn zu geben durch den Grenzwert limh→0+0 h f (x)dx, sofern dieser 0 Grenzwert existiert. Dabei bedeutet bekanntlich h → 0+0, dass man nur Folgen (hn )n∈N mit hn > 0 f¨ ur alle n und hn → 0 f¨ ur n → ∞ betrachtet. Man beachte, dass dies kompatibel ist mit den bisher betrachteten Situationen, weil f¨ ur 'eine beschr¨ankte ' 1 Riemann1 integrierbare Funktion g : [0, 1] → R immer gilt limh→0+ h g(x)dx = 0 g(x)dx, da '1 nach Satz 5.3 die Funktion h /→ h g(x)dx stetig ist. Diese Vorgangsweise ist bei der Funktion f (x) = x−1/2 nun tats¨ achlich sinnvoll, denn es gilt (
1
h
1/2 x−1/2 dx = [2x1/2 ]x=1 ). x=h = 2(1 − h
Damit kann man definieren ( 1 ( −1/2 x dx := lim h→0+0
0
1
h
x−1/2 dx = 2.
Im Gegensatz dazu ’konvergiert’ aber das uneigentliche Integral es gilt ja (
1
h
x−1 dx = log x|x=1 ur x=h = − log h → ∞ f¨
'1 0
x−1 dx nicht, denn
h → 0 + 0.
Es ist nun klar, wie man allgemein bei unbeschr¨ankten reellwertigen Funktionen solche uneigentlichen Integrale definieren wird. Es ist offenbar auch konsequent, im Fall, dass so ein uneigentliches Integral existiert, von der Konvergenz des uneigentlichen Integrals zu sprechen. Damit ist es aber auch naheliegend, von absoluter Konvergenz 'b 'b des uneigentlichen Integrals a f (x)dx zu sprechen, wenn sogar das Integral a |f (x)|dx existiert. Wie bei unendlichen Reihen folgt aus der absoluten Konvergenz des uneigentlichen Integrals immer die Konvergenz. Um dies zu sehen, muss man sich nur u berlegen, dass 'b ¨ aus der Tatsache, dass f¨ ur eine Folge (hn )n∈N mit hn → 0 die Folge ( a+hn |f (x)|dx)n∈N 'b eine Cauchy-Folge ist, auch folgt, dass die Folge ( a+hn f (x)dx)n∈N eine Cauchy-Folge ist. Dies zeigt aber sofort die Absch¨ atzung, (bei der zur Vereinfachung hm > hn angenommen sei), #( # ( # a+hm # a+hm # # f (x)dx# ≤ |f (x)|dx. # # a+hn # a+hn Es ist vorteilhaft, die absolute Konvergenz eines uneigentlichen Integrals nachzuweisen, ahnlich wie bei unendlichen Reihen mit Majoranten arbeiten kann, d.h. weil man dabei ¨ weiß man, dass mit einer positiven Funktion g gilt |f (x)| ≤ g(x) f¨ ur alle x ∈ (a, b), so 'b 'b folgt aus der Konvergenz von a g(x)dx die absolute Konvergenz von a f (x)dx, weil
5.4 Uneigentliche Integrale, Gammafunktion
175
atzen kann man ja wieder absch¨ (
a+hm a+hn
( |f (x)|dx ≤
a+hm a+hn
g(x)dx.
'1 So weiß man nun z.B., dass das bei x = 0 uneigentliche Integral 0 f (x)dx sicher konvergiert, wenn es ein M > 0 gibt mit x1/2 |f (x)| ≤ M f¨ ur x ∈ (0, 1). Ganz ¨ ahnlich behandelt man uneigentliche Integrale, bei denen das Integrationsintervall unbeschr¨ ankt ist. So definiert man, sofern der Grenzwert existiert, f¨ ur eine in [a, ∞) lokal integrierbare Funktion f (
∞
( f (x)dx := lim
ξ→∞
a
ξ
a
f (x)dx.
Auch in diesem Zusammenhang spricht man von Konvergenz und absoluter Konvergenz, wobei man auch mit Majoranten arbeiten kann. '∞ Ein einfaches Beispiel f¨ ur so ein Integral wird gegeben durch 0 e−x dx. Da bekanntlich ' ξ −x '∞ dx = −e−ξ + 1 gilt, erh¨ alt man 0 e−x dx = 1. 0 e Dieses uneigentliche Integral ist ein Spezialfall eines allgemeineren Integrals, das man ben¨ utzt, um eine wichtige Funktion, die sogenannte Gammafunktion zu definieren. Und zwar definiert man f¨ ur x > 0 ( ∞ e−t tx−1 dt. Γ(x) := 0
Ist x = 1, so erh¨ alt man offenbar das soeben betrachtete Integral; ist x > 1, so liegt ebenfalls ein uneigentliches Integral wegen des nichtkompakten Integrationsintervalls vor, ist aber x < 1, so ist zus¨ atzlich noch der Integrand f¨ ur t → 0 nicht beschr¨ankt, so dass man in diesem Fall das Integral als Summe zweier uneigentlicher Integrale in der Form ( ∞ ( 1 ( ∞ −t x−1 −t x−1 e t dt = e t dt + e−t tx−1 dt (5.12) 0
0
1
auffassen muss. Auf den Nachweis der Konvergenz dieser zwei Teilintegrale sei sp¨ater eingegangen. Zun¨ achst sei kurz diskutiert, wieso die Gammafunktion wichtig ist. Entscheidend ist, dass die Gammafunktion der folgenden Funktionalgleichung gen¨ ugt: Γ(x + 1) = xΓ(x)
f¨ ur
x > 0.
(5.13)
Dies sieht man unter Verwendung von partieller Integration. Danach gilt f¨ ur 0 < α < β < ∞ und x > 0 (
β α
−t x
e t dt =
[−e−t tx ]t=β t=α
( +x
β
α
e−t tx−1 dt.
176
5 Integration I
uhrt. uberg¨ange α → 0 bzw. β → ∞ durchf¨ Daraus folgt dann (5.13), indem man die Grenz¨ ur t > 0 und alle m ∈ N geltenden UngleiDabei ergibt sich limt→∞ e−t tx = 0 aus der f¨ chung tm tm (m + 1)! . 0≤ t ≤ = e ((m + 1)!)−1 tm+1 t Aus der Funktionalgleichung (5.13) kann man rasch erschließen, dass Γ(n + 1) = n! f¨ ur
n ∈ N0
(5.14)
'∞ gilt. Wie wir oben gesehen haben, gilt ja Γ(1) = 0 e−t dt = 1. Davon ausgehend erh¨alt man (5.14) durch einen Induktionsschluss. Denn es ist ja nach (5.13) Γ(n + 2) = (n + 1)Γ(n + 1) = (n + 1)(n!) = (n + 1)!. Es ist also gewissermaßen die Gammafunktion eine kontinuierliche Fortsetzung der atsfunktion. Tats¨achlich l¨asst sich noch eine zun¨ achst nur f¨ ur n ∈ N0 definierten Fakult¨ weitere Fortsetzung vornehmen, und zwar sogar auf die Menge C \ {−N0 }, wobei sogar die G¨ ultigkeit der Funktionalgleichung Γ(z + 1) = zΓ(z) erhalten bleibt. Einzelheiten dazu findet man etwa in Amann-Escher [1]. Doch nun zur Konvergenz der zwei uneigentlichen Integrale in (5.12). '1 Die sogar absolute Konvergenz des Integrals 0 e−t tx−1 dt folgt wegen der Absch¨atzung '1 ur alle ur 0 < t ≤ 1, wenn man weiß, dass das Integral 0 tx−1 dt f¨ 0 < tx−1 e−t < tx−1 f¨ x ∈ (0, 1) konvergent ist. Nun gilt aber f¨ ur a ∈ (0, 1) (
1
a
tx−1 dt =
1 1 x t=1 t | = (1 − ax ) x t=a x
und 1 − ax = 1 − exp(x log a) → 1 f¨ ur a → 0. ' ∞ −t x−1 ¨ dt liefert die folgende Uberlegung: Die Konvergenz des Integrals 1 e t Wegen limt→∞ e−t tx+1 = 0 gibt es sicher ein t0 > 1 mit e−t tx+1 < 1 f¨ ur t > t0 . Damit gilt aber'e−t tx−1 < t−2 f¨ ur t > t0 und die Konvergenz des Integrals folgt, wenn das ∞ Integral t0 t−2 dt konvergent ist. Wegen (
a
t0
−1 t=a = t−1 t−2 dt = −t−1 |t=t 0 −a 0
ist dies aber der Fall. Zum Abschluss dieses Abschnitts sei noch eine M¨oglichkeit diskutiert, die Konvergenz von Reihen zu untersuchen unter Verwendung von uneigentlichen Integralen. Wir beginnen mit folgendem einfachen Lemma:
5.4 Uneigentliche Integrale, Gammafunktion
177
Lemma 5.10 Sei [a, b] ⊂ R ein kompaktes Intervall, sei f : [a, b] → R monoton wachsend. Dann ist f Riemann-integrierbar. Beweis: Zun¨ achst ist zu bemerken, dass f wegen f (a) ≤ f (t) ≤ f (b) f¨ ur alle t ∈ [a, b] beschr¨ankt ist. Wir zeigen nun, dass es zu jedem ε > 0 eine Zerlegung Z des Intervalls [a, b] gibt mit σ(Z, f ) < ε. Sei also ε > 0 gegeben, sei dazu n ∈ N so gew¨ahlt, dass (f (b) − f (a))(b − a) < nε gilt. Ist dann Z eine ¨ aquidistante Zerlegung von [a, b] mit tk − tk−1 = (b − a)/n f¨ ur k = 1, . . . , n, so gilt wegen der Monotonie von f σ(Z, f ) =
n =
(tk − tk−1 )(f (tk ) − f (tk−1 ))
k=1
=
n
b−a b−a = (f (b) − f (a)) < ε. (f (tk ) − f (tk−1 )) = n n k=1
Damit ist also bereits eine passende Zerlegung Z gefunden.
!
Da sich das Resultat sofort auf monoton fallende Funktionen u ¨ bertragen l¨asst, ist nun klar, dass man es im folgenden Satz mit einer lokal Riemann-integrierbaren Funktion zu tun hat. Satz 5.9 ur alle t ∈ [1, ∞), sei Sei f : [1, ∞) → R monoton fallend und es gelte f (t) ≥ 0 f¨ an := f (n) ) f¨ ur n ∈ N. Dann gilt: ∞ Die n=1 an ist genau dann konvergent, wenn das uneigentliche Integral ' ∞ Reihe f (t)dt konvergiert. 1 Beweis: Sei k ∈ N beliebig gew¨ ahlt. Dann gilt aufgrund der Monotonie von f ( k+1 f (k + 1) ≤ f (t)dt ≤ f (k). k
Daraus folgt f¨ ur beliebiges n ∈ N \ {1} n+1 = k=2
ak =
n = k=1
( f (k + 1) ≤
1
n+1
f (t)dt ≤
n = k=1
f (k) =
n =
ak .
k=1
Wegen ak ≥ 0 f¨ ur alle k 'zeigt nun die linke H¨alfte dieser Absch¨ ) atzung, dass aus der ∞ Konvergenz des Integrals 1 f (t)dt die Konvergenz der Reihe ∞ k=1 ak folgt. Entsprechend zeigt die rechte H¨ alfte, dass aus der Konvergenz der Reihe die Konvergenz des
178
5 Integration I
'∞ 'm )∞ Integrals 1 f (t)dt folgt. Denn da ja sogar 1 f (t)dt < k=1 ak f¨ ur alle m ∈ N gilt, ist 'x die wegen f (t) ≥ 0 f¨ ur alle t monoton wachsende Funktion x ∈ [1, ∞) /→ 1 f (t)dt nach 'x oben beschr¨ ankt. Daraus folgt aber die Existenz des Grenzwerts limx→∞ 1 f (t)dt und somit die Konvergenz des uneigentlichen Integrals aufgrund des im folgenden Lemma notierten allgemeinen Resultats. ! Lemma 5.11 Sei a ∈ R, sei f : [a, ∞) → R monoton wachsend und nach oben beschr¨ankt. Dann existiert limx→∞ f (x). Beweis: Nach Voraussetzung existiert supx∈[a,∞) f (x) =: s. Es reicht zu zeigen, dass f¨ ur jede Folge (xn )n∈N in [a, ∞) mit xn → ∞ f¨ ur n → ∞ gilt f (xn ) → s f¨ ur n → ∞. Das wird indirekt erledigt. Wir nehmen an, dass es eine solche Folge (xn ) geben w¨ urde, so dass zu einem ε > 0 zu jedem m ∈ N ein nm ≥ m existiert mit s − f (xnm ) ≥ ε. Zu diesem ε > 0 gibt es aber ein b > a, so dass s − f (b) < ε gilt. Wegen der Monotonie von f gilt ur gen¨ ugend großes m wegen nm ≥ m ur alle x ≥ b. Da aber f¨ dann sogar s − f (x) < ε f¨ sicher xnm > b gilt, ist damit ein Widerspruch erreicht. ! )∞ −1 )∞ −2 Wir wissen bereits, dass die Reihe k=1 k divergent, die Reihe k=1 k aber konvergent ist. Mit Hilfe von Satz 5.9 ist nun leicht zu sehen, dass sogar alle Reihen ) ∞ −(1+ε) mit ε >' 0 konvergent sind. Dazu ist offenbar nur zu zeigen, dass das k=1 k ∞ uneigentliche Integral 1 t−(1+ε) dt konvergent ist. Dies ergibt sich aber sofort aus ( τ 1 1 −ε t−(1+ε) dt = − t−ε |t=τ ). t=1 = (1 − τ ε ε 1 Zu diesem Resultat gibt es interessante Verfeinerungen unter Ben¨ utzung des iterierten Logarithmus, von denen hier aber nur der einfachste Fall diskutiert sei. Bekanntlich gilt ja k < ek f¨ ur k ∈)N. Damit gilt auch log k < k f¨ ur k ∈ N. Damit es auch verst¨andlich, ) ist−2 −1 im Gegensatz zur Reihe ∞ divergent ist. Dies dass die Reihe ∞ k=1 k k=2 (k log k) zeigt auch wieder Satz 5.9. Denn nach der Kettenregel gilt d 1 (log(log x)) = dx x log x und somit gilt
Die Reihe
)∞
(
τ 2
f¨ ur
x>1
1 dt = log(log t)|t=τ ur t=2 → ∞ f¨ t log t
1 k=2 k(log k)a
τ → ∞.
ist jedoch f¨ ur jedes a > 1 wieder konvergent! Denn es gilt d 1−a (log x)1−a = dx x(log x)a
und (log τ )1−a → 0 f¨ ur τ → ∞, wenn a > 1 ist. F¨ ur die erw¨ahnten weiteren Verfeinerungen sei etwa auf Heuser [5] verwiesen.
5.4 Uneigentliche Integrale, Gammafunktion
179
Aufgaben 'r 1. Sei a ∈ R \ {−1} und r > 1. Man berechne 1 ta dt unter Verwendung von Riemannschen Summen. (Man arbeite mit einer nicht-¨aquidistanten Zerlegung von [1, r].) 2. Sei f : R → R stetig und seien ϕ : R → R und ψ : R → R differenzierbar mit ϕ(x) ≤ ψ(x) f¨ ur alle x. Man zeige, dass die f¨ ur x ∈ R durch ( g(x) :=
ψ(x) ϕ(x)
f (t)dt
definierte Funktion g : R → R differenzierbar ist, und bestimme ihre Ableitung. ' π/2 ur n ∈ N durch Gewinnung einer Rekursions3. Man berechne cn := 0 (cos t)n dt f¨ formel der Art cn = an cn−2 . 4. Sei b ≥ 2. Man berechne die Integrale ' b sin t 'b 'b (i) 0 √2+cos dt, (ii) 2 √t21−1 dt, (iii) 2 t
t2 −t+1 (t−1)3 dt.
5. Man ermittle eine Stammfunktion zu f (x) =
3 x√ +4x2 −6x+3 . −x2 +6x+5
6. (a) Sei f : [0, ∞) → R lokal integrierbar und es gelte f (t) → η f¨ ur t → ∞. Man zeige, dass dann ( 1 t f (τ )dτ → η t 0 f¨ ur t → ∞ gilt. (b) Seien f : [0, ∞) → R und g : [0, ∞) → R stetig und es gelte f (t) → η, g(t) → ξ f¨ ur t → ∞. Man zeige, dass dann 1 t
( 0
t
f (τ )g(t − τ )dτ → ηξ
f¨ ur t → ∞ gilt. 7. Sei f : [0, ∞) → R definiert durch 1 sin x f¨ ur x > 0. x '∞ Man zeige, dass das uneigentliche Integral 0 f (x)dx konvergent, aber nicht absolut konvergent ist. ' r 2x 8. Man zeige, dass der Grenzwert limr→∞ −r 1+x 2 dx existiert, die zwei uneigentli'0 ' ∞ 2x 2x chen Integrale −∞ 1+x2 dx unf 0 1+x2 dx aber nicht konvergent sind. f (0) := 1,
f (x) :=
180
5 Integration I
ur s > 1 definiert durch 9. Die Riemannsche Zetafunktion ist f¨ ζ(s) := Man zeige, dass
∞ = 1 . s n n=1
( ζ(s) = s
∞
1
[x] dx xs+1
gilt. (Dabei ist [x] = max{k ∈ Z : k ≤ x}.) 10. Seien a, b ∈ R mit a < b, seien f : [a, b] → R und p : [a, b] → R stetig und es gelte p(t) ≥ 0 f¨ ur t ∈ [a, b]. Man zeige, dass es ein τ ∈ [a, b] gibt mit ( a
b
( f (t)p(t)dt = f (τ )
b a
p(t)dt.
6
Differenzierbarkeit II
Die Diskussion von verschiedenen Aspekten der Differenzierbarkeit von Abbildungen soll nun fortgesetzt werden. Insbesondere werden dabei im zweiten Abschnitt auch Fragen der Differenzierbarkeit von Abbildungen in einem allgemeineren Rahmen, der auch Funktionen mehrerer reeller Variabler umfassen wird, behandelt.
6.1
Ableitungen h¨oherer Ordnung, Taylorformel
Bekanntlich kann man, wenn eine auf einem Intervall I ⊂ R definierte Funktion f : I → R differenzierbar ist, jedem x ∈ I die Ableitung f & (x) ∈ R zuordnen und damit eine Funktion f & : I → R definieren. Diese Funktion muss jedoch keineswegs stetig sein. Dazu das folgende Beispiel: Sei f : R → R definiert durch f (x) := x2 sin(1/x) f¨ ur
x 3= 0,
f (0) := 0.
Es ist nach unseren Ergebnissen klar, dass f in allen Punkten x 3= 0 differenzierbar ist, und dass man unter Verwendung der Produktregel und der Kettenregel erh¨alt ur f & (x) = 2x sin(1/x) − cos(1/x) f¨
x 3= 0.
Die Funktion f ist jedoch auch im Punkt x = 0 differenzierbar und es gilt f & (0) = 0. Denn wegen | sin t| ≤ 1 f¨ ur alle t ∈ R gilt |x sin(1/x)| ≤ |x| f¨ ur alle x ∈ R \ {0} und somit 1 lim (f (x) − f (0)) = lim x sin(1/x) = 0. x→0 x x→0 Die damit gegebene Funktion f & : R → R ist aber im Punkt x = 0 nicht folgenstetig und somit nicht stetig. Denn betrachtet man die durch xn := (2πn)−1 definierte Folge urlich xn → 0 f¨ ur n → ∞, es gilt aber auch (xn )n∈N , so gilt nat¨ f & (xn ) =
1 sin(2πn) − cos(2πn) = −1 f¨ ur alle n ∈ N πn
und somit konvergiert die Folge (f & (xn ))n∈N nicht gegen f & (0). Andererseits ist es aber m¨ oglich, dass die Funktion f & selber sogar wieder differenzierbar ist. Man denke nur etwa an die Exponentialfunktion, bei der man diesen Prozess des wiederholten Differenzierens beliebig fortsetzen kann. Differenziert man ein zweites Mal, so verwendet man daf¨ ur die Notation f && , allgemeiner aber beim k-ten Differenzieren
182
6 Differenzierbarkeit II
die Notation f (k) . Man schreibt aber auch (d/dx)n f oder dn f /dxn . Es ist nun u ¨ blich, in Verallgemeinerung einer bereits ben¨ utzten Notation f¨ ur k ∈ N zu definieren C k (I, R) := {f : I → R : f (j) : I → R
j = 1, . . . , k und f (k) ist stetig}.
existiert f¨ ur
(Man beachte, dass aus f ∈ C k (I, R) folgt, dass alle Ableitungen f (j) mit j = 1, . . . , k und f selber stetig sein m¨ ussen.) Entsprechend definiert man noch C(I, R) := {f : I → R : f und
C ∞ (I, R) := {f : I → R : f (j) : I → R
ist stetig} existiert f¨ ur alle
j ∈ N}.
Um einheitlicher notieren zu k¨ onnen, verwendet man h¨aufig auch die Schreibweise C 0 (I, R) f¨ ur C(I, R). Trivialerweise gilt damit C k (I, R) ⊂ C j (k, R) f¨ ur j ≤ k und C ∞ (I, R) =
∞
1 kann man es durch einen Induktionsschluss leicht beweisen. Aus unseren Ergebnissen zur gliedweisen Differentiation von Potenzreihen ergibt sich nun sofort eine wichtige Folgerung: Korollar 6.1 Ist f : (−r, r) → R darstellbar durch eine Potenzreihe, gilt also f (x) = f¨ ur x ∈ (−r, r), so ist f ∈ C ∞ (I, R) und es gilt f (n) (x) =
∞ = k=n
⎛
n−1 9
ak ⎝
⎞
(k − j)⎠ xk−n
j=0
f¨ ur
n ∈ N, x ∈ (−r, r).
)∞
k=0
ak xk
6.1 Ableitungen h¨oherer Ordnung, Taylorformel
183
Beweis: )∞ ur x ∈ (−r, r), so haben wir bereits gezeigt, dass Ist f (x) = k=0 ak xk f¨ f & (x) =
∞ =
ak kxk−1
k=1 &
f¨ ur x ∈ (−r, r) gilt. Auf f ist aber nun dieses Resultat auch anwendbar usw. Dies f¨ uhrt offenbar zur Behauptung. ! Es stellt sich nun nat¨ urlich die Frage, ob vielleicht die lokal durch eine Potenzreihe darstellbaren Funktionen die einzigen sind, die beliebig oft differenzierbar sind. Wir werden uns nun davon u ¨berzeugen, dass die Antwort auf diese Frage negativ ist, wenn wir Funktionen einer reellen Variablen betrachten. Und zwar ist es nicht schwierig, dies durch ein geeignetes Beispiel zu zeigen. Es reicht, die Funktion f : R → R zu definieren durch 1 ur f (x) := exp(− ) f¨ x
x > 0,
f (x) := 0
f¨ ur
x ≤ 0.
(6.1)
Setzt man f1 := f |(−∞,0] und f2 := f |(0,∞) , so gilt nach unseren bisherigen Ergebnissen (k)
f1 ∈ C ∞ ((−∞, 0], R) und f2 ∈ C ∞ ((0, ∞), R). Dabei ist nat¨ ur alle urlich f1 (x) = 0 f¨ altnisse offenbar komplizierter. Zun¨achst ist x ≤ 0 und k ∈ N0 . Bei f2 sind die Verh¨ nach der Kettenregel 1 1 f2& (x) = 2 exp(− ) f¨ ur x > 0. x x Zur Berechnung von f1&& muss man nun die Produktregel und die Kettenregel einsetzen. Dies liefert 2 1 1 ur x > 0. f2&& (x) = (− 3 + 4 ) exp(− ) f¨ x x x (k)
Durch einen Induktionsschluss ergibt sich nun, dass allgemein f2 f¨ ur k ≥ 1 von der Form 1 1 (k) ur x > 0 f2 (x) = pk ( ) exp(− ) f¨ x x ist, wobei pk eine Polynomfunktion vom Grad 2k ist. F¨ ur k = 1 und k = 2 haben wir uns bereits davon u ¨ berzeugt; der Schluss von k auf k + 1 ist Routine: Nach der Produktund Kettenregel k¨ onnen wir rechnen 1 1 1 1 1 1 f (k+1) (x) = (f (k) )& (x) = p&k ( )(− 2 ) exp(− ) + pk ( )( 2 ) exp(− ) x x x x x x und da p&k eine Polynomfunktion vom Grad 2k − 1 ist, erh¨alt man durch pk+1 (t) := −t2 (p&k (t) − pk (t)) eine Polynomfunktion vom Grad 2k + 2 = 2(k + 1). ¨ Diese Uberlegungen zeigen, dass f ∈ C ∞ (R, R) sein wird, wenn wir zeigen k¨onnen, dass f¨ ur jedes feste n ∈ N0 die durch ψn (x) :=
1 1 ur exp(− ) f¨ xn x
x > 0,
ψn (x) := 0 f¨ ur
x≤0
(6.2)
184
6 Differenzierbarkeit II
definierte Funktion an der Stelle x = 0 differenzierbar ist, (wobei offenbar nur ψn& (0) = 0 in Frage kommt.) Tats¨ achlich kann man dies best¨atigen, indem man u ¨ ber die linksseitige und rechtsseitige Differenzierbarkeit im Punkt x = 0 schließt. Dazu noch einige Vorarbeiten. Betrachtet man die Funktion f : x ∈ R /→ |x| ∈ R, so ist diese bekanntlich im Punkt x = 0 nicht differenzierbar. ur alle n und xn → 0, so existiert Ist aber (xn )n∈N eine beliebige Folge mit xn > 0 f¨ limn→∞ (1/xn )(f (xn ) − f (0)), denn es ist ja stets (1/xn )(f (xn ) − f (0)) = 1. Damit existiert die rechtsseitige Ableitung D+ f (0) und es gilt D+ f (0) = 1. Entsprechend findet man die linksseitige Ableitung, wenn man nur Folgen (xn )n∈N betrachtet mit ur die linksseitige xn < 0 und xn → 0. Da dann f (xn ) = |xn | = −xn ist, erh¨alt man f¨ Ableitung D− f (0) = −1. Ist nun I ⊂ R ein offenes Intervall, ξ ∈ I und f : I → Rm gegeben, so kann man ganz entsprechend linksseitige und rechtsseitige Ableitungen im Punkt ξ betrachten, und es ist nun wichtig, dass gilt: Existieren D− f (ξ) und D+ f (ξ) und gilt D+ f (ξ) = D− f (ξ), so ist f im Punkt ξ differenzierbar und es gilt f & (ξ) = D+ f (ξ) = D− f (ξ). Um dies nachzuweisen, gehen wir davon aus, dass, (dies ergibt sich aus den bisherigen ¨ Uberlegungen zur Differenzierbarkeit), linksseitige Differenzierbarkeit gleichbedeutend damit ist, dass es eine Funktion r− : {h ∈ R : h ≤ 0 ∧ ξ + h ∈ I} → Rm gibt, die im ullt, so dass Punkt h = 0 stetig ist und r− (0) = 0 erf¨ f (ξ + h) = f (ξ) + hD− f (ξ) + hr− (h) f¨ ur alle h ≤ 0 mit ξ + h ∈ I gilt. Entsprechend ist die Situation bei rechtsseitiger Differenzierbarkeit. Es gibt eine Funktion r+ : {h ∈ R : h ≥ 0 ∧ ξ + h ∈ I} → Rm , die im Punkt h = 0 stetig ist und r+ (0) = 0 erf¨ ullt, so dass f (ξ + h) = f (ξ) + hD+ f (ξ) + hr+ (h) f¨ ur alle h ≥ 0 mit ξ + h ∈ I gilt. Um die Differenzierbarkeit im Punkt ξ nachzuweisen, definieren wir nun r : {h ∈ R : ξ + h ∈ I} → Rm durch r(h) := r− (h) falls
h < 0,
r(h) = r+ (h)
falls h ≥ 0.
Trivialerweise gilt dann auch r(0) = 0, es ist aber auch r im Punkt h = 0 stetig. Denn ur alle h < 0 mit |h| < δ− ist ε > 0 gegeben, so gibt es dazu ein δ− > 0 mit 9r− (h)9 < ε f¨ und ein δ+ > 0 mit 9r+ (h)9 < ε f¨ ur alle h > 0 mit h < δ+ . Damit gilt aber 9r(h)9 < ε f¨ ur alle h mit |h| < min(δ− , δ+ ). Außerdem gilt, wenn wir Df (ξ) := D− f (ξ) = D+ f (ξ) setzen, f (ξ + h) = f (ξ) + hDf (ξ) + hr(h) f¨ ur alle h ∈ R mit ξ + h ∈ I. Damit existiert f & (ξ) und es ist f & (ξ) = D+ f (ξ) = D− f (ξ). Damit k¨ onnen wir nun zeigen, dass die durch (6.2) definierte Funktion ψn an der Stelle ussen wir nur zeigen, dass ψn an der Stelle x = 0 x = 0 differenzierbar ist. Offenbar m¨ rechtsseitig differenzierbar ist und D+ ψn (0) = 0 gilt. Sei also (xk )k∈N eine Folge mit xk > 0 f¨ ur k → ∞. Sch¨ atzt man nun ab ur alle k und xk → 0 f¨ xn+1 exp( k
1 1 1 1 = ) ≥ xn+1 , k xk (n + 2)! x xn+2 (n + 2)! k k
6.1 Ableitungen h¨oherer Ordnung, Taylorformel so sieht man, dass lim
k→∞ xn+1 k
185
1 =0 exp(1/xk )
gilt. Damit gilt aber 1 1 1 (ψn (xk ) − ψn (0)) = lim n+1 exp(− ) = 0, k→∞ x k→∞ xk xk k lim
und somit D+ ψn (0) = 0. Damit ist gezeigt, dass die durch (6.1) definierte Funktion f tats¨achlich aus C ∞ (R, R) ist, wobei offenbar f (n) (0) = 0 f¨ ur alle n ∈ N gelten muss. Es kann aber Intervall )kein ∞ k b (−r, r) geben, so dass f in diesem Intervall als Potenzreihe f (x) = k=0 k (x /k!) darstellbar ist. Man beachte, dass die hier nun gew¨ahlte Form der Potenzreihe keine Einschr¨ ankung der Allgemeinheit ist, weil man ja durch bk = k!ak zur u ¨blichen Form einer Potenzreihe kommen kann. Wir nehmen dazu an, dass wir so eine Potenzreihendarstellung h¨ atten und zeigen, dass dies zu einem Widerspruch f¨ uhrt. Wir wissen, dass wir eine Potenzreihe beliebig oft gliedweise differenzieren d¨ urfen. Wegen kxk−1 xk−1 d xk = = dx k! k! (k − 1)! )∞ )∞ & k−1 gilt f (x) = k=1 bk (x /(k − 1)!) = k=0 bk+1 (xk /k!). Durch Induktion folgt daraus sofort ∞ = xk f¨ u r n ∈ N0 . bk+n f (n) (x) = k! k=0
ur alle n ∈ N0 . Dies impliziert aber f (x) = 0 Setzt man nun hier x = 0, so folgt bn = 0 f¨ f¨ ur alle x ∈ (−r, r), was offenbar f¨ ur positive x nicht sein kann. ¨ Die letzte Uberlegung hat uns gezeigt, dass, wenn eine beliebig ) oft differenzierbare k Funktion f in einem Intervall (−r, r) durch eine Potenzreihe ∞ k=0 bk (x /k!) darge(n) stellt werden kann, immer bn = f (0) f¨ ur alle n ∈ N0 gelten muss. Damit ist es naheliegend, zur Kl¨ arung der Frage, wann so eine Darstellung m¨oglich ist, die Folge der Partialsummen der entsprechend gebildeten Reihe, also die Taylorpolynome pn (x) :=
n = f (k) (0) k=0
k!
xk
zu untersuchen. Von Interesse ist dabei offenbar, die Differenz f (x) − pn (x) geeignet absch¨ atzen zu k¨ onnen. Wir beginnen die Diskussion mit einem Spezialfall. Lemma 6.1 Sei n ∈ N0 und g ∈ C n+1 ([0, 1]). Dann gilt ( 1 n = 1 1 (k) g (0) + (1 − t)n g (n+1) (t)dt. g(1) = k! 0 n! k=0
(6.3)
186
6 Differenzierbarkeit II
Beweis: Im Fall n = 0 ist offenbar nichts zu beweisen, denn dann ist die Behauptung identisch '1 allen n > 0 beweisen wir (6.3), indem wir das in mit g(1) = g(0) + 0 g & (t)dt. In den F¨ (6.3) auftretende Integral mehrfach mit Hilfe von partieller Integration umformen. So gilt (
1
0
3 Ct=1 ( 1 1 1 1 (1 − t)n g (n+1) (t)dt = g (n) (t) (1 − t)n (1 − t)n−1 g (n) (t)dt. + n! n! (n − 1)! 0 t=0
Ist n = 1, so sind wir damit bereits wieder fertig, denn es ist in diesem Fall 3 g
(n)
1 (t) (1 − t)n n!
Ct=1 t=0
= −g & (0) und
( 0
1
1 (1 − t)n−1 g (n) (t)dt = g(1) − g(0). (n − 1)!
Ist aber n > 1, so integrieren wir sukzessive partiell weiter, und zwar, bis im verbleibenden Integral nur noch g & auftritt. Es ergibt sich dabei (
1
0
n
= 1 1 (1 − t)n g (n+1) (t)dt = − g (k) (0) + n! k! k=1
( 0
1
g & (t)dt,
was sofort wieder die Behauptung liefert.
!
ur Funktionen aus C onnen wir nun schon die sogenannte Taylorformel f¨ Damit k¨ beweisen.
n+1
Satz 6.1 Sei I ⊂ R ein Intervall, sei n ∈ N0 , sei f ∈ C n+1 (I, R), seien x0 ∈ I und x ∈ I. Dann gilt f (x) =
( 1 n = 1 (k) 1 f (x0 )(x−x0 )k + (1−t)n f (n+1) (x0 +t(x−x0 ))(x−x0 )n+1 dt. k! n! 0
k=0
(6.4) Beweis: Da I ein Intervall ist, sind auch alle Punkte x0 + t(x− x0 ) mit t ∈ [0, 1] in I. Wir k¨onnen daher g : [0, 1] → R definieren durch g(t) := f (x0 + t(x − x0 )) f¨ ur t ∈ [0, 1]. Nach der ur Kettenregel ist g ∈ C n+1 ([0, 1]) und es gilt g (k) (t) = (x − x0 )k f (k) (x0 + t(x − x0 )) f¨ k = 1, . . . , n + 1. Nach Lemma 6.1 gilt daher ( 1 n = 1 1 k (k) g(1) = (x − x0 ) f (x0 ) + (1 − t)n (x − x0 )n+1 f (n+1) (x0 + t(x − x0 ))dt. k! n! 0 k=0
Das ist aber genau (6.4).
!
6.1 Ableitungen h¨oherer Ordnung, Taylorformel
187
F¨ ur das Restglied ( Rn (f, x0 , x) :=
1
0
1 (1 − t)n f (n+1) (x0 + t(x − x0 ))(x − x0 )n+1 dt n!
(6.5)
kann man leicht noch andere Darstellungen finden. Dies kann, wie wir sehen werden, von Bedeutung sein, wenn man f¨ ur eine gegebene Funktion die Frage der lokalen Darstellbarkeit in Form einer Taylor-Reihe durch Absch¨atzung des Restgliedes kl¨aren m¨ochte. F¨ uhrt man beim Integral in (6.5) die Variablensubstitution τ = x0 + t(x − x0 ) durch, so ist ja t = (τ − x0 )/(x − x0 ) und 1 − t = (x − τ )/(x − x0 ) und die Substitutionsformel liefert ( x 1 Rn (f, x0 , x) = (x − τ )n f (n+1) (τ )dτ. n! x0 Daraus kann man weiter eine ‘integralfreie’ Form des Restgliedes erhalten, wenn man den Mittelwertsatz der Integralrechnung einsetzt. Danach gibt es ja ein ξ ∈ (x0 , x) oder ξ ∈ (x, x0 ) mit ( x 1 1 (x − τ )n f (n+1) (τ )dτ = (x − ξ)n f (n+1) (ξ)(x − x0 ). n! n! x0 H¨ aufig schreibt man dies mit x = x0 + h und ξ = x0 + ϑh, wobei ϑ ∈ (0, 1) ist, in der als Restglied von Cauchy bekannten Form Rn (f, x0 , x0 + h) =
1 (1 − ϑ)n hn+1 f (n+1) (x0 + ϑh). n!
Sehr h¨ aufig findet man eine andere auf Lagrange zur¨ uckgehende Form des Restglieds, die sich bei anderen Gewinnung des Resultats von Satz 6.1 ergibt, bei der man mit etwas schw¨ acheren Voraussetzungen an f auskommt: Satz 6.2 Sei I ⊂ R ein Intervall, sei n ∈ N0 , sei f ∈ C n (I, R) und sei f (n) noch differenzierbar auf I. Dann gilt: Sind x0 und x0 + h aus I, so gibt es ein ϑ ∈ (0, 1), so dass f (x0 + h) =
n = 1 (k) 1 f (x0 )hk + f (n+1) (x0 + ϑh)hn+1 k! (n + 1)!
(6.6)
k=0
gilt. Beweis: Sei J das aus den Punkten x0 und x0 + h gebildete abgeschlossene Intervall, also ja ur t ∈ J sei nach h > 0 oder h < 0 J = [x0 , x0 + h] oder J = [x0 + h, x0 ]. F¨ ψ(t) := f (x0 +h)−
n = 1 (k) 1 f (t)(x0 +h−t)k −α (x0 +h−t)n+1, (6.7) k! (n + 1)! k=0
188
6 Differenzierbarkeit II
ahlt sei, dass ψ(x0 ) = 0 gilt. Da trivialerweise ψ(x0 + h) = 0 gilt, gibt wobei α so gew¨ es nach dem ) Satz von Rolle ein ϑ ∈ (0, 1) mit ψ & (x0 + ϑh) = 0. Nun gilt aber, (wobei n die Summen k=1 nur auftreten, wenn n > 0 ist), ψ & (t) = − f & (t) − +
n = k=1
was sich zu
n = 1 (k+1) f (t)(x0 + h − t)k k! k=1
1 1 f (k) (t)(x0 + h − t)k−1 + α (x0 + h − t)n , (k − 1)! n!
1 (n+1) 1 f (t)(x0 + h − t)n + α (x0 + h − t)n n! n! reduziert. Dies liefert mit ψ & (x0 + ϑh) = 0 ψ & (t) = −
α = f (n+1) (x0 + ϑh). Setzt man in (6.7) nun t = x0 , so erh¨ alt man (6.6).
!
Bemerkung: Im Fall n = 0 geht offenbar (6.6) in den Mittelwertsatz der Differentialrechnung u ¨ ber. Diese Ergebnisse sind nun geeignet, f¨ ur wichtige Funktionen die Darstellbarkeit in Form einer Potenzreihe nachzuweisen. Offenbar kommt es dabei an, nachzuweisen, dass ur n → ∞ gilt. Rn (f, x0 , x) → 0 f¨ Sei dies an Hand der Logarithmusfunktion diskutiert. Dabei ist es ja nicht m¨oglich, x0 = 0 zu w¨ ahlen. Um trotzdem auf diese einfache Situation zu kommen, betrachten 1 wir die Funktion f : x /→ log(1 + x) f¨ ur x > −1. Es ist dann f & (x) = 1+x und damit weiter (n − 1)! f (n) (x) = (−1)n−1 f¨ ur n ∈ N, x > −1, (1 + x)n wie man sofort mit Hilfe von Induktion nachweisen kann. Wir k¨onnen daher unter Ber¨ ucksichtigung von log 1 = 0 f¨ ur n ∈ N notieren log(1 + x) =
n = (−1)k−1 k=1
k
xk + Rn (f, 0, x)
f¨ ur
x > −1.
Dass Rn (f, 0, x) → 0 f¨ ur n → ∞ gilt, kann man nun unter Ben¨ utzung des Restgliedes von Lagrange f¨ ur x ∈ [0, 1] rasch sehen: Es gilt # # # # xn+1 #≤ 1 ur x ∈ [0, 1], n ∈ N. |Rn (f, 0, x)| ≤ ## # n + 1 f¨ n+1 (n + 1)(1 + ϑx) F¨ ur x ∈ (−1, 0) ist diese einfache Absch¨ atzung nicht m¨oglich, man kommt in diesem Fall aber zum Ziel unter Verwendung der Cauchyschen Form des Restgliedes: Es ist Rn (f, 0, x) =
1 (1 − ϑ)n xn+1 . (1 − ϑ)n xn+1 f (n+1) (ϑx) = (−1)n n! (1 + ϑx)n+1
6.1 Ableitungen h¨oherer Ordnung, Taylorformel Damit gilt
# # |Rn (f, 0, x)| ≤ ##
189
# x ## 1 + ϑx #
# # # x − ϑx #n # # # 1 + ϑx # .
Da man f¨ ur x ∈ (−1, 0) absch¨ atzen kann # # # x # |x| # # # 1 + ϑx # ≤ 1 − |x| und wegen ϑx − x = ϑx + 1 − (x + 1) # # # x − ϑx # ϑx − x x+1 # # # 1 + ϑx # = 1 + ϑx = 1 − 1 + ϑx < 1 − (x + 1) = −x < 1, folgt |Rn (f, 0, x)| → 0 f¨ ur n → ∞. Damit k¨ onnen wir festhalten log(1 + x) =
∞ = (−1)k−1 k=1
k
xk
f¨ ur
x ∈ (−1, 1].
Interessant ist dabei insbesondere der Spezialfall x = 1, denn dieser liefert uns nun den Wert der alternierenden harmonischen Reihe: log 2 =
∞ = k=1
1 (−1)k−1 . k
Man beachte, dass uher diskutierten durch (6.1) definierten Funktion die )∞ bei der fr¨ Taylor-Reihe k=0 (f (k) (0)/k!)xk auch konvergent ist, aber in keinem Intervall (−r, r) die Funktion darstellt. Es ist daher sinnvoll, zu definieren: Eine C ∞ -Funktion f : I → R nennt man im offenen Intervall I reell analytisch, wenn es zu jedem x0 ∈ I ein δ > 0 gibt mit (x0 − δ, x0 + δ) ⊂ I, so dass die Taylor-Reihe ) ∞ 1 (k) (x0 )(x − x0 )k f¨ ur x ∈ (x0 − δ, x0 + δ) konvergiert und dort f darstellt, d.h. k=0 k! f dass ∞ = 1 (k) f (x) = f (x0 )(x − x0 )k f¨ ur x ∈ (x0 − δ, x0 + δ) k! k=0
gilt. Ein hinreichendes Kriterium, das dazu geeignet ist, festzustellen, ob eine gegebene Funktion reell analytisch ist, wird durch folgenden Satz gegeben: Satz 6.3 Sei I ⊂ R ein offenes Intervall, sei f ∈ C ∞ (I, R) und es gebe Konstanten M > 0 und r > 0, so dass f¨ ur x ∈ I und n ∈ N0 gilt |f (n) (x)| ≤ n! Dann ist f in I reell analytisch.
M . rn
190
6 Differenzierbarkeit II
Beweis: Es reicht, zu zeigen, dass es zu jedem x0 ∈ I ein δ > 0 mit (x0 − δ, x0 + δ) ⊂ I gibt, so dass f¨ ur |h| < δ f¨ ur das Restglied von Lagrange gilt Rn (f, x0 , x0 + h) → 0 f¨ ur n → ∞. ugend kleines δ realisierbar. Da I offen ist, ist dabei (x0 − δ, x0 + δ) ⊂ I immer durch gen¨ Es ist 1 Rn (f, x0 , x0 + h) = f (n+1) (x0 + ϑh)hn+1 , (n + 1)! wobei ϑ ∈ (0, 1) ist. Die geforderte Absch¨ atzung f¨ ur |f (n) (x)| liefert damit, wenn |h| < δ ist, M |Rn (f, x0 , x0 + h)| ≤ n+1 δ n+1 . r Ist nun noch
δ r
< 1, so folgt Rn (f, x0 , x0 + h) → 0 f¨ ur n → ∞.
!
Mit diesem Kriterium sieht man z.B. sofort, dass die trigonometrischen Funktionen sin : R → R und cos : R → R reell analytisch sind. Denn die Ableitungen ergeben ja bis auf Vorzeichen wiederum diese trigonometrischen Funktionen, die betragsm¨aßig durch Eins abgesch¨ atzt werden k¨ onnen. Ist nun r > 0 beliebig gegeben, so gilt ja bekanntlich n! ur n → ∞. Damit gilt aber rn!n ≥ 1 f¨ ur n ≥ n0 und w¨ahlt man M > 1 so, dass r n → ∞ f¨ n! ur n = 0, . . . , n0 − 1 gilt, so kann man offenbar absch¨atzen M rn ≥ 1 f¨ |f (n) (x)| ≤ 1 ≤ n!
M rn
f¨ ur alle n ∈ N0
und
x ∈ R.
Man sieht auch sofort, dass die Taylor-Reihen zum Punkt x0 = 0 genau die bekannten Potenzreihendarstellungen der trigonometrischen Funktionen ergeben. Mit Hilfe des Restglieds von Lagrange kann man damit auch leicht absch¨atzen, welchen Fehler man macht, wenn man etwa sin 1 berechnet, indem man die ersten drei Terme der Sinus-Reihe verwendet, das entspricht den Termen der Taylor-Reihe bis zur sechsten Ableitung, also sin x = x −
x5 x3 + + R6 (sin, 0, x). 6 120
7
Dabei ist R6 (sin, 0, x) = − x7! cos(ϑx) mit ϑ ∈ (0, 1). Damit ist sin 1 = 1 −
1 1 + +R 6 120
mit 0 > R > −
1 1 =− . 7! 5040
Die Taylorformel ist aber nicht nur von Interesse in Hinblick auf Potenzreihendarstellungen von Funktionen, sondern man kann nun auch gr¨ undlicher diskutieren, in welchen Punkten ein lokales Extremum einer mehrfach differenzierbaren reellwertigen Funktion ur ja nur eine notwendige Bedingung. vorliegt. Bisher kennen wir daf¨ Satz 6.4 Sei I ⊂ R ein offenes Intervall, sei n ∈ N mit n ≥ 2 und f ∈ C n (I, R). Sei ξ ∈ I mit ur k = 1, . . . , n − 1 und f (n) (ξ) 3= 0. Dann gilt: f (k) (ξ) = 0 f¨ (a) Ist n gerade, so liegt im Punkt ξ ein lokales Extremum von f vor. Ist f (n) (ξ) > 0,
6.1 Ableitungen h¨oherer Ordnung, Taylorformel
191
so handelt es sich um eine lokales Minimum, ist f (n) (ξ) < 0, so handelt es sich um ein lokales Maximum. (b) Ist n ungerade, so liegt im Punkt ξ kein Extremwert von f vor, es handelt sich um einen Wendepunkt, d.h. es gibt ein δ > 0, so dass im Intervall (ξ − δ, ξ + δ) eine der folgenden zwei M¨ oglichkeiten vorliegt: ur x ∈ (ξ − δ, ξ) und f && (x) > 0 f¨ ur x ∈ (ξ, ξ + δ). (i) f && (x) < 0 f¨ (ii) f && (x) > 0 f¨ ur x ∈ (ξ − δ, ξ) und f && (x) < 0 f¨ ur x ∈ (ξ, ξ + δ). Beweis: Nach Satz 6.2 gibt es zu jedem x ∈ I mit x = 3 ξ ein η zwischen x und ξ, so dass f (x) = f (ξ) +
1 f (n−1) (η)(x − ξ)n−1 (n − 1)!
(6.8)
gilt. Dies verwenden wir nun zum Nachweis von beiden Aussagen des Satzes. Zu (a): Sei also n gerade. Sei zuerst der Fall betrachtet, dass f (n) (ξ) > 0 ist. Wegen ur x ∈ (ξ − ε, ξ). f (n−1) (ξ) = 0 muss es dann ein ε > 0 geben, so dass f (n−1) (x) < 0 gilt f¨ Dies zeigen wir indirekt, d.h. wir nehmen an, dass es kein solches ε geben w¨ urde. Dann k¨onnte man offenbar eine Folge (xm )m∈N finden mit xm < ξ f¨ ur alle m, xm → ξ f¨ ur m → ∞ und f (n−1) (xm ) ≥ 0 f¨ ur alle m. Daraus w¨ urde folgen 0≥
1 1 f (n−1) (xm ) = (f (n−1) (xm ) − f (n−1) (ξ)) xm − ξ xm − ξ
f¨ ur
m ∈ N.
ur m → ∞ gilt, w¨are damit f (n) (ξ) ≤ 0 im Da xm1−ξ (f (n−1) (xm )−f (n−1) (ξ)) → f (n) (ξ) f¨ Widerspruch zur Annahme. Mit einem ganz entsprechenden Argument kann man sehen, ur x ∈ (ξ, ξ + ε& ). dass es auch ein Intervall (ξ, ξ + ε& ) geben muss mit f (n−1) (x) > 0 f¨ (n−1) Ist nun x ∈ (ξ − ε, ξ), so folgt, wenn η zwischen x und ξ liegt, f (η)(x − ξ)n−1 > 0, (denn es ist ja x − ξ < 0 und n − 1 ungerade). Damit ergibt sich aber aus (6.8), dass f (x) > f (ξ) sein muss. Entsprechend ergibt sich auch f (x) > f (ξ), wenn x ∈ (ξ, ξ + ε& ) ist. Damit liegt aber tats¨ achlich im Punkt ξ ein lokales Minimum vor. Ist n gerade und f (n) (ξ) < 0, so geht man einfach zur Funktion g := −f u ¨ ber und erh¨ alt, dass bei dieser im Punkt ξ ein lokales Minimum vorliegt, somit bei f ein lokales Maximum. Zu (b): Da n ungerade sein soll, muss n ≥ 3 sein. Da nun n − 1 gerade ist, erh¨alt man im Fall f (n) (ξ) > 0 mit den gleichen Argumenten wie bei Teil (a), dass es ein Intervall (ξ − ε, ξ) geben muss mit f (x) < f (ξ) f¨ ur x ∈ (ξ − ε, ξ), und ein Intervall (ξ, ξ + ε& ) mit & f (x) > f (ξ) f¨ ur x ∈ (ξ, ξ + ε ). Auf diese Weise ergibt sich, dass im Punkt ξ kein lokales Extremum vorliegen kann. Damit ist noch zu zeigen, dass (i) oder (ii) gelten muss. Im Fall n = 3 ist dies offenbar bereits in der bisher gef¨ uhrten Argumentation enthalten. Ist aber n > 3, so verwendet man die Taylorformel f¨ ur f && , d.h. man schreibt f && (x) = f && (ξ) +
1 f (n−1) (η)(x − ξ)n−3 , (n − 3)!
wobei wieder η zwischen x und ξ liegt. Da nun auch n− 3 gerade ist, erh¨alt man mit den gleichen Argumenten wie soeben Aussagen u ¨ ber das Vorzeichen von f (n−1) (η)(x−ξ)n−3 , ! die direkt (i) bzw. (ii) liefern.
192
6 Differenzierbarkeit II
Die Taylorformel liefert auch einen Zugang zu den Regeln von de l’Hospital. Dies sei mit dem n¨ achsten Satz gezeigt. Satz 6.5 Sei I ⊂ R ein Intervall, sei n ∈ N und seien f, g ∈ C n (I, R). Ist dann x0 ∈ I, so ur k = 0, . . . , n − 1, jedoch g (n) (x0 ) 3= 0 gilt, so dass f (k) (x0 ) = 0 und g (k) (x0 ) = 0 f¨ existiert der Grenzwert limx→x0 (f (x)/g(x)) und es gilt lim
x→x0
f (n) (x0 ) f (x) = (n) . g(x) g (x0 )
Beweis: Nach der Taylorformel gilt f¨ ur h ∈ R mit x0 + h ∈ I f (x0 + h) =
1 (n) f (x0 + ϑh)hn , n!
g(x0 + h) =
1 (n) g (x0 + θh)hn , n!
wobei ϑ, θ ∈ (0, 1) sind. Da die Funktion g (n) stetig ist und g (n) (x0 ) 3= 0 ist, ist sicher ugend kleines |h| auch g (n) (x0 + θh) 3= 0. Damit k¨onnen wir f¨ f¨ ur gen¨ ur kleines |h| mit h= 3 0 notieren f (n) (x0 + ϑh) f (x0 + h) = (n) . g(x0 + h) g (x0 + θh) Daraus ergibt sich durch den Grenz¨ ubergang h → 0 direkt die Behauptung.
!
ur x ∈ R ist Ein einfaches Beispiel dazu liegt vor, wenn f (x) := x − sin(x), g(x) := x3 f¨ und der Grenzwert limx→0 f (x)/g(x) gesucht ist. Dann ist f & (x) = 1 − cos(x), g & (x) = 3x2 , f && (x) = sin(x), g && (x) = 6x und somit f (k) (0) = 0 und g (k) (0) = 0 f¨ ur k = 0, 1, 2. Da aber f &&& (0) = 1 und g &&& (0) = 6 gilt, folgt lim
x→0
1 1 (x − sin(x)) = . 3 x 6
Auf die Taylorformel kommt man in der Analysis immer wieder zur¨ uck, im Moment seien aber keine weiteren Beispiele dazu behandelt, sondern wir greifen wie angek¨ undigt die allgemeine Diskussion der Differenzierbarkeit von Abbildungen wieder auf.
6.2
Fr´echet-Ableitung
Auch bei Abbildungen zwischen Banachr¨ aumen wird Differenzierbarkeit lokale Approximierbarkeit durch eine lineare Abbildung bedeuten. Es ist daher zweckm¨aßig, zuerst einige Dinge u ¨ber lineare Abbildungen bereit zu stellen.
6.2 Fr´echet-Ableitung
6.2.1
193
Einiges u ¨ ber lineare Abbildungen
Lineare Abbildungen f : R → R sind von der Form f (x) = ax mit einem a ∈ R und sind damit offenbar stetig. Dies ist nun bei linearen Abbildungen f : X → Y keineswegs immer so, wenn X und Y irgendwelche normierte R¨aume sind. Es ist daher das folgende, (im Grunde sehr einfache), Resultat sehr wichtig, bei dem X und Y reelle oder komplexe Vektorr¨ aume sein k¨ onnen. Satz 6.6 F¨ ur jede lineare Abbildung T : X → Y zwischen normierten R¨aumen (X, 9 9X ) und aquivalent: (Y, 9 9Y ) sind die folgenden Aussagen ¨ (1) T ist stetig im Punkt 0. (2) T ist in allen Punkten x ∈ X stetig. (3) T ist gleichm¨ aßig stetig. (4) Es gibt ein C > 0, so dass 9T x9Y ≤ C9x9X f¨ ur alle x ∈ X gilt. Beweis: Es ist klar, dass (3) ⇒ (2) ⇒ (1) gilt. Wir zeigen daher noch (4) ⇒ (3) und (1) ⇒ (4). (4) ⇒ (3): Gilt (4), so k¨ onnen wir wegen der Linearit¨at von T f¨ ur x, x& ∈ X notieren 9T x − T x& 9Y = 9T (x − x& )9Y ≤ C9x − x& 9X , und daraus folgt sofort die gleichm¨ aßige Stetigkeit der Abbildung T . Denn ist x& ∈ X beliebig gew¨ ahlt und ε > 0, so folgt danach 9T x − T x& 9Y < ε, wenn nur 9x − x& 9X < C −1 ε ist. (1) ⇒ (4): Aufgrund der Stetigkeit im Punkt x = 0 gibt es, da ja T (0) = 0 gilt, ein δ > 0, so dass 9T x9Y < 1 gilt f¨ ur alle x ∈ X mit 9x9X < δ. Sei nun η ∈ (0, δ) beliebig & gew¨ ahlt. Ist dann x ∈ X \ {0}, so sei x& := η9x9−1 X x gesetzt. Da dann 9x 9X < δ gilt, & folgt 9T x 9Y < 1. Aufgrund der Linearit¨ at von T k¨onnen wir damit weiter notieren η 9T x9Y = 9T x& 9Y < 1. 9x9X Daraus folgt 9T x9Y < η −1 9x9X f¨ ur x 3= 0, und da 9T 09Y ≤ η −1 909X trivialerweise ! richtig ist, gilt damit (4) mit C := η −1 . Mit Hilfe dieses Satzes kann man nun sowohl nachweisen, dass lineare Abbildungen zwischen endlichdimensionalen normierten R¨ aumen immer stetig sind, als auch sehen, dass es im allgemeinen Fall unstetige lineare Abbildungen geben kann. Der Begriff der Basis und der Dimension eines Vektorraums wird hier als aus der linearen Algebra bekannt vorausgesetzt. Ist ein K-Vektorraum X endlichdimensional, gilt also etwa dimX = n, so gibt es danach eine linear unabh¨ angige Menge von ) Vektoren {v1 , . . . , vn }, so dass sich jeder Vektor v ∈ X als Linearkombination V = nk=1 αk vk mit eindeutig bestimmten αk ∈ K darstellen l¨ asst. Die Menge {v1 , . . . , vn } wird bekanntlich als Basis bezeichnet. Diese Dinge werden wir beim Beweis der n¨ achsten wichtigen Folgerung aus Satz 6.6 einsetzen.
194
6 Differenzierbarkeit II
Satz 6.7 Ist (X, 9 9X ) ein endlichdimensionaler normierter Raum und (Y, 9 9Y ) ein beliebiger normierter Raum, so ist jede lineare Abbildung T : X → Y stetig. Beweis: Wir zeigen, dass, wenn X endlichdimensional ist, immer eine Absch¨atzung wie in (4) von Satz 6.6 m¨oglich ist. Dazu n¨ utzen wir aus, dass die gegebene Norm 9 9X zu einer mit Hilfe einer beliebigen Basis von X definierten Norm 9 90 ¨aquivalent ist. Sei also ) {x1 , . . . , xn } eine Basis von X und mit x = αk (x)xk f¨ ur x ∈ X definiert 9x90 =
n =
|αk (x)|.
k=1
Es ist dies tats¨achlich eine Norm. Klar ist, dass stets 9x90 ≥ 0 gilt. Ist 9x90 = 0, so ur alle k und somit x = 0. Andererseits muss ja wegen der eindeutigen gilt αk (x) = 0 f¨ Darstellung im x = 0 gelten αk (x) = 0 f¨ Fall ur alle k und somit 9x90 = 0. Ist λ ∈ K, so ) gilt ja λx = nk=1 λαk (x)xk und somit 9λx90 =
n =
|λ| |αk (x)| = |λ|9x90 .
k=1
Die Dreiecksungleichung ergibt sich schließlich aus 9x + y90 =
n =
|αk (x) + αk (y)| ≤
k=1
n =
(|αk (x)| + |αk (y)|) = 9x90 + 9y90 .
k=1
Es gilt f¨ ur x ∈ X 9x9X = 9
=
αk (x)xk 9X ≤
=
|αk (x)| 9xk 9X = ≤ ( max 9xk 9X ) |αk (x)| = M 9x90 , k=1,...,n
wenn man M := max 9xk 9X setzt. ¨ F¨ ur die andere f¨ ur die Aquivalenz der Normen 9 9X und 9 90 erforderliche Absch¨atzung betrachten wir die durch Φ(α) := 9
n =
αk xk 9X
f¨ ur
α ∈ Kn
k=1
definierte Abbildung Φ : Kn → R. Diese Abbildung ist stetig, denn f¨ ur α, β ∈ Kn gilt, wenn M wie oben definiert ist, |Φ(α) − Φ(β)| = | 9 ≤ 9
=
αk xk 9X − 9
=
βk xk 9X |
n = = (αk − βk )xk 9X ≤ M |αk − βk |. k=1
6.2 Fr´echet-Ableitung
195
ur jede Norm auf einem Vektorraum die umgekehrte (Hierbei wurde verwendet, dass f¨ Dreiecksungleichung |9x9 − 9y9 | ≤ 9x − y9 f¨ ur x, y ∈ X gilt.) ) Die Menge K := {α ∈ Kn : nk=1 |αk | = 1} ist, wenn Kn mit der u ¨ blichen Topologie versehen ist, beschr¨ ankt und abgeschlossen, also kompakt. (Dies folgt aus der in Satz ¨ 2.12 notierten Aquivalenz der Normen auf Kn .) Die Funktion Φ|K : K → R nimmt also auf K ihr Minimum an. Dieses muss gr¨ oßer als Null sein, weil Φ(α) > 0 f¨ ur alle α ∈ K gelten muss. Dies sieht man folgendermaßen: Klar ist, dass ur alle α ∈ Kn sein muss. W¨are nun ) ξ ∈ K mit Φ(ξ) = 0, so ) Φ(α) ≥ 0 f¨ ξk xk = 0. Daraus w¨ urde w¨are ja 9 ξk xk 9X = 0, somit, (da eine Norm vorliegt), ) aber ξ1 = . . . = ξn = 0 folgen im Widerspruch zu |ξk | = 1. Damit gibt es ein N > 0 mit Φ(α) ≥ 1/N f¨ ur alle α ∈ K, d.h. mit 9
n =
αk xk 9X ≥
k=1
= 1 , falls |αk | = 1. N
Damit kann man offenbar auch notieren, dass 9x9X ≥
1 N
f¨ ur alle
x∈X
mit 9x90 = 1
gelten muss. Ist nun x ∈ X \ {0} beliebig gegeben, so gehen wir zu y := 9x9−1 ¨ber. 0 x u Wegen 9y90 = 1 gilt dann 9y9X ≥ 1/N und somit 9x9X ≥ (1/N )9x90 . Damit gilt aber sogar f¨ ur alle x ∈ X die Absch¨ atzung 9x90 ≤ N 9x9X . )n ur alle x ∈ X und man kann Da die Abbildung T linear ist, gilt T x = k=1 αk (x)T xk f¨ atzen mit μ := max{9T xk 9Y : k = 1, . . . , n} absch¨ 9T x9Y ≤
n =
|αk (x)| 9T xk 9Y ≤ μ9x90 .
k=1
Wegen der G¨ ultigkeit der Absch¨ atzung 9x90 ≤ N 9x9X folgt weiter 9T x9Y ≤ μM 9x9X f¨ ur x ∈ X. ! Im Fall einer linearen Abbildung T : Rn → Rm kann man die soeben gezeigte Stetigkeit auch rasch auf andere Weise erschließen. Ausgangspunkt sind dabei die aus der linearen Algebra wohlbekannten u ¨ blichen Basen e1 , . . . , en und e1 , . . . , em des Rn bzw. des Rm , die aus den Vektoren ek bestehen, deren Komponenten alle gleich Null sind mit Ausnahme der k−ten Komponente, die gleich Eins ist. Dann sind die Vektoren des Rn ja )n alle darstellbar als k=1 xk ek , und eine entsprechende Darstellung gilt f¨ ur die Vektoren des Rm . ) n Ist nun T : Rn → Rm eine lineare Abbildung, so gilt ja T x = k=1 xk T ek f¨ ur alle n m kennt man alle Bilder T x, wenn man alle Vektoren T e ∈ R kennt. x ∈ R und somit k )m Sei also T ek = j=1 ajk ej f¨ ur k = 1, . . . , n. Dann folgt Tx =
m n = = k=1 j=1
ajk xk ej =
2 n m = = j=1
k=1
5 ajk xk
ej .
(6.9)
196
6 Differenzierbarkeit II
ur die j−ten Komponenten der Bilder Daraus folgt, wenn x, ξ ∈ Rn sind, f¨ # # n n #= # = # # |(T x)j − (T ξ)j | = # ajk (xk − ξk )# ≤ |ajk | |xk − ξk |. # # k=1
k=1
Mit den euklidischen Normen 9T x−T ξ9 und 9x−ξ9 ergibt sich daraus wegen |xk −ξk | ≤ 9x − ξ9 f¨ ur k = 1, . . . , n die Absch¨ atzung 2 5 n = √ 9T x − T ξ9 ≤ |ajk | 9x − ξ9. (6.10) n max j=1,...,n
k=1
Setzt man hier speziell ξ = 0, so hat man damit eine Absch¨atzung wie bei Aussage (4) von Satz 6.6 erhalten. Man kann aus (6.10) aber auch unmittelbar ablesen, dass T folgenstetig ist. Auch sieht man, dass T sogar gleichm¨aßig stetig ist. In (6.9) steckt offenbar die in der linearen Algebra ausgiebig verwendete M¨oglichkeit, eine lineare Abbildung zwischen zwei endlichdimensionalen Vektorr¨aumen durch eine Matrix darzustellen; in diesem Fall wurde T durch die Matrix (ajk ) dargestellt, deren Elemente ajk mit dem Zeilenindex j und dem Spaltenindex k offenbar m Zeilen und oglichkeit der Darstellung von linearen Abbildungen n Spalten bilden. Von dieser M¨ werden wir bei der Diskussion der Differenzierbarkeit von Abbildungen von Rn in den uhrlichen Gebrauch machen. Rm noch ausf¨ Zun¨ achst sei aber an Hand eines Beispiels gezeigt, dass bei der Aussage von Satz 6.7 die Voraussetzung, dass X endlichdimensional ist, wesentlich ist. Wir werden also einen unendlichdimensionalen normierten Raum X und eine unstetige lineare Abbildung T : X → R angeben. Wir betrachten dazu die Funktionen ηm (x) :=
1 m x m!
f¨ ur
x ∈ [−1, 1],
wobei m ∈ N ∪ {0} sei. Ist n ∈ N ∪ {0} beliebig gew¨ahlt und sind αm ∈ R so gegeben, dass n = αm ηm (x) = 0 f¨ ur x ∈ [−1, 1] m=0
)n gilt, so ist die Funktion g := m=0 αm ηm gleich der Nullfunktion. Da alle Funktionen ηm beliebig oft differenzierbar sind, ist auch g beliebig oft differenzierbar und wir k¨onnen (k) 1 notieren, dass g (k) (0) = 0 f¨ ur alle k ∈ N ∪ {0} gilt. Es gilt aber ηm (x) = (m−k)! xm−k f¨ ur k = 0, 1, . . . , m und damit g (k) (x) =
n =
αm ηm−k (x)
f¨ ur
k = 0, . . . , n, x ∈ (−1, 1).
m=k
Wegen g(0) = 0 folgt daraus α0 = 0, sodann wegen g & (0) = 0 weiter α1 = 0 und ur sukzessive weiter, (genauer arbeitet man mit einem Induktionsschluss), αm = 0 f¨ m = 0, 1, . . . , n.
6.2 Fr´echet-Ableitung
197
ur beliebiges n die Menge Mn := {η0 , . . . , ηn } eine linear unDies zeigt nun, dass f¨ abh¨ angige Menge sein wird, wenn man sie als Teilmenge eines passenden R-Vektorraums von Funktionen auffasst. Passend ist etwa der Raum C 1 ([−1, 1], R). Da dieser alle Mengen Mn umfasst, kann der Vektorraum C 1 ([−1, 1], R) nicht endlichdimensional sein. Den Vektorraum C 1 ([−1, 1], R) kann man mit der Supremumsnorm 9u9∞ := sup{|u(x)| : x ∈ [−1, 1]} versehen. F¨ ur alle u ∈ C 1 ([−1, 1], R) ist sicher 9u9∞ ∈ R, da ja [−1, 1] ein kompaktes Intervall und u stetig ist. Man kann sich leicht davon u ¨ berzeugen, dass die Abbildung 9 9∞ : C 1 ([−1, 1], R) → R alle Eigenschaften einer Norm hat. Offenbar kann man den Vektorraum C([−1, 1], R) ebenfalls mit Hilfe der Supremumsnorm zu einem normierten Raum machen. Sei nun die Abbildung D : C 1 ([−1, 1], R) → C([−1, 1], R) definiert durch Du := u&
f¨ ur
u ∈ C 1 ([−1, 1], R).
Die bekannten Rechenregeln f¨ ur Ableitungen zeigen, dass D eine lineare Abbildung ist; sie ist jedoch nicht stetig, wenn man beide R¨ aume mit der Supremumsnorm versieht. ur Denn es kann kein M > 0 geben, so dass eine Absch¨atzung 9Du9∞ ≤ M 9u9∞ f¨ alle u ∈ C 1 ([−1, 1], R) gilt. Dies sieht man mit Hilfe der Funktionen vn (x) := xn f¨ ur n ∈ N, x ∈ [−1, 1]. Offenbar gilt stets vn ∈ C 1 ([−1, 1], R) und 9vn 9∞ = 1, aber (Dvn )(x) = nxn−1 und somit 9Dvn 9∞ = n f¨ ur n ∈ N. W¨ urde eine Absch¨atzung usste also n ≤ M f¨ ur alle n ur alle u ∈ C 1 ([−1, 1], R) gelten, so m¨ 9Du9∞ ≤ M 9u9∞ f¨ gelten, was nicht m¨ oglich ist. Diese M¨ oglichkeit der Unstetigkeit einer linearen Abbildung bedingt nun, dass man im folgenden Abschnitt bei der Definition der Differenzierbarkeit von der approximierenden linearen Abbildung explizit die Stetigkeit fordert.
6.2.2
Fr´echet-Ableitung, partielle Ableitungen
F¨ ur Abbildungen f : M → R, wobei M eine offene Teilmenge eines Banachraumes ist, wurde in Abschnitt 4.3 der Begriff der Richtungsableitung eingef¨ uhrt. Dieser erweist sich jedoch als unzureichend, um bei solchen Abbildungen die lokale Approximierbarkeit durch stetige lineare Abbildungen in einer Weise sicherzustellen, die dem entspricht, was wir in Abschnitt 4.1 f¨ ur Funktionen einer reellen Variablen gefordert haben. Das folgende recht einfache Beispiel l¨ asst bereits die auftretenden Probleme sichtbar werden, wenn man die Anschauung im R3 zu Hilfe nimmt: Sei f : R2 → R definiert durch f (x, y) :=
x2 y + y2
x2
f¨ ur
(x, y) 3= (0, 0),
f (0, 0) := 0.
(6.11)
Im Punkt (0, 0) existieren dann Richtungsableitungen in beliebige Richtungen. Ist ein Vektor v := (ξ, η) ∈ R2 mit |v| = 3 0 gegeben, so gilt ja t3 ξ 2 η 1 1 Dv f (0, 0) = lim (f (tξ, tη) − f (0, 0)) = lim · 2 2 = f (ξ, η). t→0 t t→0 t t (ξ + η 2 )
198
6 Differenzierbarkeit II
Trotzdem kann sich ganz anschaulich keine durch den Punkt (0, 0, 0) ∈ R3 verlaufende Ebene an den Graphen {(x, y, f (x, y)) : (x, y) ∈ R2 } ⊂ R3 der Funktion anschmiegen. Denn es ist f (0, y) = 0 f¨ ur alle y ∈ R und bei beliebigem a ∈ R f (x, ax) =
a x f¨ ur 1 + a2
x ∈ R.
Die Mengen {(t, at, a(1 + a2 )−1 t) : t ∈ R} ⊂ R3 mit a ∈ R und {(0, y, 0) : y ∈ R} sind nun anschaulich Geraden im Raum und eine durch den Punkt (0, 0, 0) ∈ R3 verlaufende sich an den Graphen anschmiegende Ebene m¨ usste alle diese Geraden umfassen, was von der Anschauung her unm¨ oglich erscheint. Denn die Ebene w¨are bereits durch die Geraden {(x, 0, 0) : x ∈ R} und {(0, y, 0) : y ∈ R} festgelegt, w¨ urde somit keine Punkte (x, y, z) mit z 3= 0 enthalten, was es unm¨oglich macht, dass sie eine Gerade 3 0 enth¨alt. {(t, at, a(1 + a2 )−1 t) : t ∈ R} ⊂ R3 mit a = Wir werden sp¨ ater nach der pr¨ azisen Definition der Differenzierbarkeit auf diese Situation noch einmal eingehen und ausgehend von dieser Definition begr¨ unden, warum trotz der Existenz von Richtungsableitungen in beliebige Richtungen die Differenzierbarkeit im Punkt (0, 0) nicht gegeben ist. Wir definieren also nun in Verallgemeinerung der Begriffsbildung von Abschnitt 4.1: Seien X und Y Banachr¨aume, sei M ⊂ X offen. Eine Abbildung f : M → Y heißt im Punkt ξ ∈ M Fr´ echet-differenzierbar , wenn es eine stetige lineare Abbildung Tξ : X → Y gibt mit lim
x→ξ
1 (f (x) − f (ξ) − Tξ (x − ξ)) = 0. 9x − ξ9
(6.12)
Die Forderung, dass Tξ eine stetige lineare Abbildung sein soll, ist dabei im unendlichdimensionalen Fall wichtig, da dann ja lineare Abbildungen nicht automatisch stetig sind, und die Stetigkeit von Tξ wieder implizieren wird, dass aus der Differenzierbarkeit die Stetigkeit von f folgt, (was sehr w¨ unschenswert ist). Man sieht wieder rasch, dass es h¨ ochstens eine lineare Abbildung Tξ geben kann, so dass (6.12) gilt: Ist auch noch Aξ : X → Y linear mit lim
x→ξ
1 (f (x) − f (ξ) − Aξ (x − ξ)) = 0, 9x − ξ9
so folgt ja lim (Aξ − Tξ )(
x→ξ
1 (x − ξ)) = 0. 9x − ξ9
Daraus kann man aber folgern, dass (Aξ − Tξ )v = 0 gelten muss f¨ ur alle v ∈ X. Denn ist v 3= 0 beliebig gegeben, so gilt f¨ ur die Folge xn := ξ +
1 v n9v9
f¨ ur
n∈N
6.2 Fr´echet-Ableitung
199
offenbar xn → ξ f¨ ur n → ∞ und somit lim (Aξ − Tξ )(
n→∞
1 1 (xn − ξ)) = lim (Aξ − Tξ )( v) = 0. n→∞ 9xn − ξ9 9v9
Damit ist aber (Aξ − Tξ )v = 0. Es ist daher wieder gerechtfertigt, die lineare Abbildung Tξ als die Fr´ echet-Ableitung im Punkt ξ zu bezeichnen. Im wichtigen Spezialfall X = Rn und Y = Rm verzichtet man i.a. auf ’Fr´echet’ und spricht wieder von der Differenzierbarkeit, wobei es auch u ¨ blich ist, in diesem Fall davon zu sprechen, dass f im Punkt ξ total differenzierbar ist. (Der Sinn dieser Sprechweise wird erst sp¨ ater klar werden, wenn wir auch partielle Ableitungen einf¨ uhren.) Analog zu fr¨ uheren Resultaten gilt: Korollar 6.2 (a) Ist f : M ⊂ X → Y im Punkt ξ ∈ M differenzierbar mit Ableitung Tξ , so gibt es eine Abbildung rξ : M → Y mit rξ (ξ) = 0, die im Punkt ξ stetig ist, so dass f (x) = f (ξ) + Tξ (x − ξ) + 9x − ξ9rξ (x)
f¨ ur
x∈M
(6.13)
gilt. (b) Ist f : M ⊂ X → Y im Punkt ξ ∈ M differenzierbar, so ist f im Punkt ξ stetig. Beweis: Zu (a): Es sei rξ : M → Y definiert durch rξ (x) :=
1 (f (x) − f (ξ) − Tξ (x − ξ)) 9x − ξ9
f¨ ur
x ∈ M \ {ξ},
und rξ (ξ) := 0. Aus der Differenzierbarkeit von f folgt dann sofort die Stetigkeit von rξ im Punkt ξ. Die G¨ ultigkeit von (6.13) folgt sofort aus der Definition von rξ . Zu (b): Da nach Voraussetzung Tξ eine stetige lineare Abbildung ist, ergibt sich die Stetigkeit von f im Punkt ξ sofort aus (6.13), weil ja auch rξ im Punkt ξ stetig ist. ! Sind die Richtungsableitungen so wie bisher definiert, also 1 Dv f (ξ) = lim (f (ξ + tv) − f (ξ)), t→0 t so ist leicht zu sehen, dass die Fr´echet-Differenzierbarkeit die Existenz von Richtungsableitungen in beliebige Richtungen v ∈ X \ {0} impliziert: Lemma 6.2 Sei f : M ⊂ X → Y im Punkt ξ ∈ M Fr´echet-differenzierbar mit Ableitung Tξ . Dann existiert Dv f (ξ) f¨ ur alle v ∈ X \ {0} und es gilt Dv f (ξ) = Tξ v.
200
6 Differenzierbarkeit II
Beweis: Sei v ∈ X \ {0} beliebig gew¨ ahlt und dazu t ∈ R so klein, dass ξ + tv ∈ M ist. Dann gilt nach (6.13) f (ξ + tv) = f (ξ) + Tξ ((ξ + tv) − ξ) + 9(ξ + tv) − ξ9rξ (ξ + tv). Aufgrund der Linearit¨ at von Tξ folgt f¨ ur t 3= 0 |t| 1 (f (ξ + tv) − f (ξ)) = Tξ (v) + 9v9rξ (ξ + tv). t t Da limt→0 rξ (ξ + tv) = 0 gilt, folgt Dv f (ξ) = Tξ v.
!
Damit k¨ onnen wir nun pr¨ azise begr¨ unden, dass die durch (6.11) definierte Funktion f : R2 → R im Punkt (0, 0) nicht differenzierbar ist, obwohl Richtungsableitungen in beliebige Richtungen existieren. (Dies zeigt, dass es keine Umkehrung zum Resultat von Lemma 6.2 gibt.) W¨ are f im Punkt (0, 0) differenzierbar mit der linearen Abbildung T : R2 → R als Ableitung, so w¨ urde nach Lemma 6.2 gelten Dv f (0, 0) = T v f¨ ur alle v = (ξ, η) ∈ R2 \ {(0, 0)}. Wir haben aber gesehen, dass Dv f (0, 0) = f (ξ, η) gilt. Damit w¨ urde f (ξ, η) = T ((ξ, η)) f¨ ur alle (ξ, η) ∈ R2 \{(0, 0)} gelten. Dies ist aber nicht m¨oglich, weil die Abbildung f nicht linear ist: Es ist f ((1, 1)) = 1/2, f ((−1, 1)) = 1/2 und damit f ((1, 1) + (−1, 1)) = f ((0, 2)) = 0 3= f ((1, 1)) + f ((−1, 1)). Bei Abbildungen f : M ⊂ Rm → R sind die Richtungsableitungen in Richtung der bereits in Abschnitt 6.2.1 erw¨ ahnten Standard-Basisvektoren e1 , . . . , em von besonderem Interesse. Man bezeichnet sie als partielle Ableitungen und notiert ∂ 1 f (ξ) = Dek f (ξ) = lim (f (ξ + tek ) − f (ξ)). t→0 ∂xk t Offenbar kann man, wenn die offene Kugel U (ξ, r) ⊂ M ist, die partielle Ableitung (∂/∂x1 )f (ξ) erhalten, indem man die Ableitung der durch g(y) := f (y, ξ2 , . . . , ξm ) f¨ ur
|y − ξ1 | < r
definierten Abbildung g : (ξ1 − r, ξ1 + r) → R im Punkt y = ξ1 berechnet. Entsprechendes gilt f¨ ur die anderen partiellen Ableitungen. Nach dem bereits diskutierten Beispiel ist klar, dass aus der Existenz aller partiellen Ableitungen (∂/∂xk )f (ξ) i.a. nicht die Differenzierbarkeit im Punkt ξ folgt. Man kann sogar zeigen, dass daraus nicht einmal die Stetigkeit von f im Punkt ξ folgen muss. Die durch f (x, y) :=
2xy 2 + y4
x2
f¨ ur
(x, y) 3= (0, 0),
f (0, 0) := 0
definierte Funktion f : R2 → R ist ein Beispiel daf¨ ur. Man sieht unmittelbar, dass (∂/∂x)f (0, 0) = 0 und (∂/∂y)f (0, 0) = 0 gilt. Es ist jedoch f im Punkt (0, 0) nicht folgenstetig: Betrachtet man die Nullfolge ((n−2 , n−1 ))n∈N , so gilt ja f (n−2 , n−1 ) = 1 f¨ ur alle n, somit gilt limn→∞ f (n−2 , n−1 ) = 1 3= f (0, 0). Mit Hilfe von partiellen Ableitungen kann man allgemein bei differenzierbaren Abbildungen f : M ⊂ Rm → Rn die Ableitung f & (ξ) := Tξ in einem Punkt ξ ∈ M
6.2 Fr´echet-Ableitung
201
beschreiben. Und zwar ist ja entsprechend der Definition f & (ξ) eine lineare Abbildung uglich der von Rm nach Rn , die sich wie in Abschnitt 6.2.1 bereits kurz erw¨ahnt bez¨ Standard-Basen in Rm und Rn durch eine Matrix aus n Zeilen und m Spalten darstellen l¨ asst. Sei also demnach f & (ξ) = (ajk ), (mit j = 1, . . . , n und k = 1, . . . , m). Ist dann f = (f1 , . . . , fn ), (wobei die fj Abbildungen fj : M ⊂ Rm → R sind), so sind die Abbildungen fj ebenfalls im Punkt ξ differenzierbar. Dies wird sich daraus ergeben, dass Konvergenz im Rn gleichbedeutend ist mit komponentenweiser Konvergenz. Die uglich der Standard-Basen in Rm und R1 ebenfalls Ableitung fj& (ξ) l¨asst sich nun bez¨ mit Hilfe der ajk darstellen: Es ist fj& (ξ) gleich dem Zeilenvektor (ajk )k=1,...,m . Dies sieht man folgendermaßen: Es ist ja f & (ξ) dadurch definiert, dass lim
x→ξ
1 (f (x) − f (ξ) − f & (ξ)(x − ξ)) = 0 9x − ξ9
gilt. Da Konvergenz im Rn identisch mit komponentenweiser Konvergenz ist, muss f¨ ur j = 1, . . . , n gelten lim
x→ξ
1 (fj (x) − fj (ξ) − (f & (ξ)(x − ξ))j ) = 0. 9x − ξ9
Dies zeigt einerseits die Differenzierbarkeit von fj im Punkt ξ, aber auch, dass fj& (ξ)(x − ξ) =
m =
ajk (x − ξ)k
(6.14)
k=1
uglich der Standard-Basen in Rm und R1 dargestellt durch gilt. Damit ist aber fj& (ξ) bez¨ den Zeilenvektor (ajk )k=1,...,m . ur j = 1, . . . , n und p = 1, . . . , m gilt. Nun zeigt (6.14) aber auch, dass fj& (ξ)ep = ajp f¨ Damit k¨ onnen wir notieren ∂ fj (ξ) = ajk ∂xk
f¨ ur
j = 1, . . . , n, k = 1, . . . , m.
F¨ ur die Matrix ((∂/∂xk )fj ) ist die Bezeichnung Jacobi-Matrix oder auch Funktionalmatrix u ¨ blich. Kann man also mit Hilfe der partiellen Ableitungen ∂x∂ k fj (ξ) die Ableitung f & (ξ) darstellen, so ist aber zu beachten, dass man nicht allein aus der Existenz aller partiellen Ableitungen ∂x∂ k fj (ξ) auf die Differenzierbarkeit der Abbildung f im Punkt ξ schließen kann! Dies haben die Beispiele deutlich gezeigt. Zur Darstellung der Ableitung mit Hilfe der Jacobi-Matrix gibt es zwei einfache, und doch wichtige Spezialf¨ alle: ur x ∈ R m . Sei zun¨ achst f : Rm → Rn mit einer Matrix A gegeben durch f (x) := Ax f¨ Dabei ist, (wie man in der linearen Algebra ausf¨ uhrlich diskutiert), der Vektor Ax gegeben durch die Komponenten (Ax)j =
m = k=1
ajk xk ,
j = 1, . . . , n.
202
6 Differenzierbarkeit II
urlich lokal in einem Punkt ξ ∈ Rm beDa f eine lineare Abbildung ist, kann sie nat¨ m stens durch eine lineare Abbildung Tξ : R → Rn approximiert werden, indem man auch Tξ x := Ax w¨ ahlt, d.h. aber, dass f in allen Punkten x ∈ Rm differenzierbar ist, und ur beliebiges x ∈ Rm durch die Jacobi-Matrix darstellt, dabei es wird, wenn man f & (x) f¨ genau die Matrix A auftreten. Dies kann man nat¨ urlich auch sehen, indem man die partiellen Ableitungen ausrechnet. Wie bereits notiert wurde, ist ja f (x) = (fj (x))j=1,...,n )m mit fj (x) = k=1 ajk xk und somit (∂/∂xk fj )(x) = ajk . Der zweite Spezialfall betrifft Abbildungen f : M ⊂ Rm → R. In diesem Fall besteht die Jacobi-Matrix ja nur aus einer Zeile, d.h. man kann sie mit dem Vektor ; : ∂ ∂ f, . . . , f ∂x1 ∂xm identifizieren. Diesen Vektor bezeichnet man als Gradientenvektor und man notiert ihn meist als gradf oder auch als ∇f . Mit Hilfe des Gradientenvektors lassen sich nun, wenn man noch das Ergebnis von Lemma 6.2 heranzieht, Richtungsableitungen Dv f besonders suggestiv schreiben. Nach Lemma 6.2 gilt ja Dv f (ξ) = Tξ v, wobei Tξ wieder die Ableitung im Punkt ξ ist. Ist aber v = (v1 , . . . , vm ) ∈ Rm , so k¨onnen wir ja mit Hilfe der Jacobi-Matrix schreiben ; m : = ∂ f (ξ)vk . Tξ v = ∂xk k=1
Ist ' , - das u ¨ bliche euklidische Skalarprodukt auf dem Rm , so k¨onnen wir also notieren Dv f (ξ) = 'gradf (ξ), v-.
(6.15)
¨ Man beachte, dass all diese Uberlegungen direkt darauf basierten, dass wir den Rm mit der euklidischen Standard-Basis und dem euklidischen Skalarprodukt versehen haben. ur die Richtungsableitung erm¨oglicht es, wenn gradf (ξ) 3= 0 Die Darstellung (6.15) f¨ ist, zu diskutieren, in welcher Richtung v ∈ Rm mit 9v9 = 1 die Richtungsableitung Dv f (ξ) ihren gr¨oßten Wert annimmt, man spricht auch von der Richtung des steilsten Anstiegs. Denn die Cauchy-Schwarzsche Ungleichung liefert ja f¨ ur jeden Vektor v ∈ Rm mit 9v9 = 1 die Absch¨ atzung |Dv f (ξ)| ≤ 9gradf (ξ)9 9v9 = 9gradf (ξ)9. Es kann also Dv f (ξ) maximal den Wert 9gradf (ξ)9 annehmen, und dieser Wert wird tats¨ achlich auch angenommen, wenn v = 9gradf (ξ)9−1 gradf (ξ) ist. Da in der CauchySchwarzschen Ungleichung |'x, y-| ≤ 9x9 9y9 das Gleichheitszeichen genau dann gilt, wenn die Vektoren x und y linear abh¨ angig sind, (dies zeigt man in der linearen Algebra), ist dies auch die einzige Richtung mit maximaler Richtungsableitung. Hatten wir f¨ ur die Hintereinanderausf¨ uhrung von zwei differenzierbaren Abbildungen f : I ⊂ R → R und g : f (I) ⊂ R → R die Kettenregel f¨ ur die Berechnung von (g ◦ f )& bewiesen, so stellt sich nun nat¨ urlich die Frage, wie es mit der Berechnung der Ableitung von g ◦ f steht, wenn f eine Abbildung f : M ⊂ Rm → Rn und g eine Abbildung g : f (M ) ⊂ Rn → Rp ist. Tats¨ achlich l¨ asst sich das fr¨ uhere Ergebnis auf diese Situation
6.2 Fr´echet-Ableitung
203
verallgemeinern, sogar, wenn statt Rm , Rn und Rp beliebige Banachr¨aume auftreten, wobei dann wieder die Ableitung der Hintereinanderausf¨ uhrung durch Hintereinanderausf¨ uhrung der zwei approximierenden linearen Abbildungen zustande kommt. Satz 6.8 Seien X, Y und Z Banachr¨ aume, seien A ⊂ X und B ⊂ Y offen und seien f : A → Y und g : B → Z differenzierbar, wobei f (A) ⊂ B sei. Dann ist auch g ◦ f : A → Z differenzierbar und es gilt (g ◦ f )& (x) = g & (f (x)) ◦ f & (x) f¨ ur x ∈ A. Beweis: Sei ξ ∈ A beliebig gew¨ ahlt. Nach (6.13) gibt es dann eine Abbildung r : A → Y mit r(ξ) = 0, die im Punkt ξ stetig ist, so dass f (x) = f (ξ) + f & (ξ)(x − ξ) + 9x − ξ9r(x)
f¨ ur
x∈A
gilt. Entsprechend gibt es eine Abbildung s : B → Z mit s(f (ξ)) = 0, die im Punkt f (ξ) stetig ist, so dass ur g(y) = g(f (ξ)) + g & (f (ξ))(y − f (ξ)) + 9y − f (ξ)9s(y) f¨
y∈B
gilt. Damit erh¨ alt man g(f (x)) = g(f (ξ)) + g & (f (ξ))(f & (ξ)(x − ξ) + 9x − ξ9r(x)) + 9f & (ξ)(x − ξ) + 9x − ξ9r(x)9s(f (x)). Da g & (f (ξ)) eine lineare Abbildung ist, folgt daraus g(f (x)) = g(f (ξ)) + (g & (f (ξ)) ◦ f & (ξ))(x − ξ) + g & (f (ξ))(9x − ξ9r(x)) + 9f & (ξ)(x − ξ) + 9x − ξ9r(x)9s(f (x)). Daraus ergibt sich weiter die Behauptung, wenn man noch zeigen kann, dass man durch Φ(x) :=
1 (g & (f (ξ))(9x−ξ9r(x))+9f & (ξ)(x−ξ)+9x−ξ9r(x)9s(f (x))) 9x − ξ9
f¨ ur x 3= ξ eine Abbildung definieren kann, f¨ ur die limx→ξ Φ(x) = 0 gilt. (Denn dann kann ja Φ durch Φ(ξ) := 0 zu einer im Punkt ξ stetigen Abbildung Φ : A → Z erg¨anzt werden.) Da g & (f (ξ)) und f & (ξ) stetige lineare Abbildungen sind, kann man nach Satz 6.6 mit einer Konstanten C > 0 absch¨ atzen 9Φ(x)9 ≤
1 C(9x−ξ9 9r(x)9+9x−ξ9 9s(f (x))9+9x−ξ9 9r(x)9 9s(f (x))9). 9x − ξ9
Da f im Punkt ξ stetig sein muss, gilt f (x) → f (ξ) f¨ ur x → ξ und somit 9s(f (x))9 → 0 f¨ ur x → ξ. Da auch 9r(x)9 → 0 f¨ ur x → ξ gilt, folgt daraus aber limx→ξ 9Φ(x)9 = 0 und somit limx→ξ Φ(x) = 0. !
204
6 Differenzierbarkeit II
uckgreifen in der Situation, dass X = R, Y = Rm H¨ aufig muss man auf dies Ergebnis zur¨ m und Z = R, also f : A ⊂ R → R und g : B ⊂ Rm → R ist. Es ist also die Ableitung einer Funktion h : M ⊂ R → R zu bestimmen, die von der Art h(t) = g(f1 (t), . . . , fm (t))
f¨ ur
t∈M
ist. In diesem Fall l¨ asst sich ja g & als Matrix durch den Gradientenvektor darstellen und f & durch den Spaltenvektor (fk& )k=1,...,m . Damit liefert aber Satz 6.8 unter Ber¨ ucksichtigung der in der linearen Algebra zu diskutierenden Tatsache, dass der Hintereinanderausf¨ uhrung von linearen Abbildungen die Multiplikation der darstellenden Matrizen alt, indem man die beiden ’Matrizen’ gradg und f & miteinentspricht, dass man h& erh¨ ander multipliziert. d.h. h& (t) =
m = ∂g (f1 (t), . . . , fm (t))fk& (t). ∂xk k=1
Von Interesse ist, dass man dieses Resultat auch zur Berechnung von partiellen Ableitungen einsetzen kann. Ist etwa u(t, s) = g(f1 (t, s), . . . , fm (t, s)), so berechnet man ja die partielle Ableitung (∂/∂t)u, die man u ¨ brigens auch h¨aufig in der k¨ urzeren Form ut notiert, indem man s als fest betrachtet und dann die Funktion t /→ g(f1 (t, s), . . . , fm (t, s)) differenziert. Dabei kann man offenbar das soeben gewonnene Resultat einsetzen und erh¨ alt m
= ∂g ∂u ∂fk (t, s) = (t, s). (f1 (t, s), . . . , fm (t, s)) ∂t ∂xk ∂t k=1
Da allein die Existenz aller partiellen Ableitungen nicht ausreicht, um die (totale) Differenzierbarkeit sicherzustellen, ist es wichtig, zu wissen, dass man auf die Differenzierbarkeit schließen kann, wenn man noch zus¨ atzliche Informationen u ¨ ber die partiellen Ableitungen hat. Dazu der n¨ achste wichtige Satz: Satz 6.9 Sei Ω ⊂ Rm offen, sei f : Ω → R eine Abbildung, f¨ ur die f¨ ur alle x ∈ Ω und f¨ ur k = 1, . . . , m die partiellen Ableitungen (∂/∂xk )f (x) existieren. Dann gilt: Sind die Funktionen x ∈ Ω /→ (∂/∂xk )f (x) ∈ R alle stetig, so ist f in Ω differenzierbar. Beweis: Sei x ∈ Ω und ε > 0 beliebig gew¨ ahlt. Da Ω offen ist und alle Funktionen (∂/∂xk )f stetig sind, gibt es ein δ > 0, so dass U (x, δ) ⊂ Ω und |(∂/∂xk )f (y) − (∂/∂xk )f (x)|
0 mit 9T x9 ≤ K9x9 f¨ ur alle x ∈ X. Damit ist aber die Menge {9x9−1 9T x9 : x ∈ X \ {0}} nach oben beschr¨ ankt und somit existiert 9T 9 := sup{9T x9 : x ∈ X mit 9x9 = 1}. Man nennt 9T 9 die Operatornorm von T , denn damit kann der Vektorraum aller stetigen linearen Abbildungen von X nach Y tats¨achlich zu einem normierten Raum
206
6 Differenzierbarkeit II
gemacht werden. Dass die Operatornorm alle Eigenschaften einer Norm hat, ist dabei leicht zu sehen: Trivialerweise ist stets 9T 9 ≥ 0. Ist aber 9T 9 = 0, so gilt ja T x = 0 f¨ ur alle x ∈ X mit 9x9 = 1, woraus sofort folgt, dass sogar T x = 0 f¨ ur alle x ∈ X gelten muss. Dass 9αT 9 = |α|9T 9 gilt, folgt sofort aus 9(αT )(x)9 = 9α(T x)9 = |α|9T x9. Schließlich folgt die Dreiecksungleichung 9T + S9 ≤ 9T 9 + 9S9 sofort aus 9(T + S)x9 = 9T x + Sx9 ≤ 9T x9 + 9Sx9. Im Fall des Raumes aller stetigen linearen Abbildungen von Rm nach Rn nimmt man ja eine Identifizierung mit einem Raum von Matrizen vor, und diesen k¨onnen wir jetzt auch mit der Operatornorm versehen. Sei dieser normierte Raum mit B(Rm , Rn ) bezeichnet. Ist nun f : Ω ⊂ Rm → Rn differenzierbar, so haben wir damit auch eine Abbildung f & : Ω → B(Rm , Rn ) gegeben und es kann sein, dass diese Abbildung stetig ist. In Anlehnung an die fr¨ uher diskutierte Situation im Fall einer Variablen bezeichnen wir f als stetig differenzierbar, wenn diese Abbildung stetig ist, und verwenden daf¨ ur die Notation f ∈ C 1 (Ω, Rn ). Ist nun f ∈ C 1 (Ω, Rn ), so sind f¨ ur j = 1, . . . , n, k = 1, . . . , m auch die Abbildungen x ∈ Ω → (∂/∂xk )fj (x) ∈ R wohldefiniert. Ist nun J(x) die zu x ∈ Ω geh¨orende Jacobi-Matrix, so gilt ja (∂/∂xk )fj (x) = (J(x)ek )j , (wobei mit (J(x)ek )j die j-te Komponente des Vektors J(x)ek bezeichnet wird). Da wegen 9ek 9 = 1 nach der Definition der Operatornorm gilt 9J(x)ek 9 ≤ 9J(x)9, erhalten wir damit die Absch¨atzung |(∂/∂xk )fj (x)−(∂/∂xk )fj (ξ)| ≤ 9J(x)ek −J(ξ)ek 9 ≤ 9J(x)−J(ξ)9
f¨ ur
x, ξ ∈ Ω.
Dies zeigt, dass aus der Stetigkeit der Abbildung x /→ J(x) ∈ B(Rm , Rn ) die Stetigkeit aller Abbildungen x ∈ Ω → (∂/∂xk )fj (x) ∈ R folgt. Wir haben nun mit Satz 6.9 zun¨ achst f¨ ur den Fall n = 1 bereits gezeigt, dass aus der Stetigkeit aller partiellen Ableitungen die Differenzierbarkeit folgt, und wir k¨onnen die Argumentation noch weiterf¨ uhren, um zu zeigen, dass dann sogar die Abbildung f & : Ω → B(Rm , R) stetig ist: )m ur x, ξ ∈ Ω Ist y ∈ Rm mit 9y9 = 1, so ist J(x)y = k=1 yk (∂/∂xk )f (x) und man kann f¨ wegen |yk | ≤ 1 f¨ ur alle k absch¨ atzen |(J(x) − J(ξ))y| ≤ m max{|(∂/∂xk )f (x) − (∂/∂xk )f (ξ)| : k = 1, . . . , m}. Daraus folgt aber wegen der Stetigkeit der Abbildungen x /→ (∂/∂xk )f (x), dass es zu jedem fest gew¨ ahlten x ∈ Ω und jedem ε > 0 ein δ > 0 gibt mit 9J(x) − J(ξ)9 < ε, wenn 9x − ξ9 < δ ist. Die Ausdehnung dieser Ergebnisse auf den Fall von Abbildungen f : Ω ⊂ Rm → Rn ist nun einfach: Korollar 6.3 Sei Ω ⊂ Rm offen, sei f : Ω → Rn eine Abbildung, f¨ ur die f¨ ur alle x ∈ Ω und f¨ ur k = 1, . . . , m, j = 1, . . . , n die partiellen Ableitungen (∂/∂xk )fj (x) existieren. Dann gilt: Sind die Funktionen x ∈ Ω /→ (∂/∂xk )fj (x) ∈ R alle stetig, so ist f ∈ C 1 (Ω, Rn ).
6.2 Fr´echet-Ableitung
207
Beweis: Da Konvergenz im Rn gleichbedeutend mit komponentenweiser Konvergenz ist, ist die Differenzierbarkeit von f im Punkt x gleichbedeutend mit der Differenzierbarkeit aller ur die Funktionen fj sind aber die VorausKomponentenfunktionen fj im Punkt x. F¨ setzungen von Satz 6.9 erf¨ ullt. Damit gilt fj ∈ C 1 (Ω, R) f¨ ur j = 1, . . . , n. Somit ist f in allen Punkten x ∈ Ω differenzierbar und es ist nur noch zu u ¨ berlegen, dass aus der Stetigkeit aller partiellen Ableitungen die Stetigkeit von x /→ J(x) ∈ B(Rm , Rn ) ¨ folgt. Dies ergibt sich aber mit den gleichen Uberlegungen wie soeben. Denn f¨ ur Vekm toren y ∈ R mit 9y9 = 1 kann man auch nun 9J(x) − J(ξ)9 absch¨atzen durch ! const.max{|(∂/∂xk )fj (x) − (∂/∂xk )fj (ξ)| : k = 1, . . . , m, j = 1, . . . , n}. Da man bei der Bildung von partiellen Ableitungen ja letztlich nur Funktionen einer reellen Variablen betrachtet, kann man bei Funktionen f : Rm → R eventuell auch partielle Ableitungen h¨ oherer Ordnung bilden, also etwa (∂/∂x2 )(∂/∂x1 )f usw. Dabei kann es sein, dass etwa (∂/∂x2 )(∂/∂x1 )f existiert, die Ableitung (∂/∂x1 )(∂/∂x2 )f aber nicht; es kann aber sogar vorkommen, dass diese beiden Ableitungen existieren, jedoch verschieden sind. F¨ ur diese Problematik ist der folgende Satz von großer Bedeutung, der als Satz von Schwarz bekannt ist. Satz 6.10 Sei Ω ⊂ R2 offen, sei ξ ∈ Ω und die Funktion f : Ω → R habe die folgenden Eigenschaften: Es gibt ein δ > 0 mit U (ξ, δ) ⊂ Ω, so dass die Ableitungen (∂/∂x1 )f , (∂/∂x2 )f , ∂/∂x2 (∂/∂x1 f ) und ∂/∂x1 (∂/∂x2 f ) in U (ξ, δ) existieren, wobei die Ableitungen ∂/∂x2 (∂/∂x1 f ) und ∂/∂x1 (∂/∂x2 f ) im Punkt ξ stetig sind. Dann gilt ; ; : : ∂ ∂ ∂ ∂ f (ξ) = f (ξ). ∂x2 ∂x1 ∂x1 ∂x2 Beweis: Es gibt ein ε > 0, so dass (ξ1 + h1 , ξ2 + h2 ) ∈ U (ξ, δ) gilt f¨ ur alle Vektoren h mit |h1 | < ε und |h2 | < ε. Sei (η1 , η2 ) mit η1 η2 3= 0 und |η1 | < ε und |η2 | < ε fest, aber beliebig gew¨ ahlt. Damit definieren wir nun auf dem Intervall I := [ξ1 , ξ1 +η1 ] bzw. I = [ξ +η1 , ξ], wenn η1 < 0 ist, die Funktion ϕ durch ϕ(t) := f (t, ξ2 + η2 ) − f (t, ξ2 )
f¨ ur
t ∈ I.
¨ Zur Vereinfachung schreiben wir bei den weiteren Uberlegungen ∂xj f statt (∂/∂xj )f . ullt dann die Funktion ϕ auf I die Wegen der Existenz der Ableitung ∂x1 f in U (ξ, δ) erf¨ Voraussetzungen des Mittelwertsatzes der Differentialrechnung, somit gilt ϕ(ξ1 + η1 ) − ϕ(ξ1 ) = η1 ϕ& (τ ) = η1 ((∂x1 f )(τ, ξ2 + η2 ) − (∂x1 f )(τ, ξ2 )) mit einem τ ∈ (ξ1 , ξ1 + η1 ), (bzw. τ ∈ (ξ1 + η1 , ξ1 )). Da auch ∂x2 (∂x1 f ) in U (ξ, δ) existiert, ist auch f¨ ur die Differenz (∂x1 f )(τ, ξ2 + η2 ) − (∂x1 f )(τ, ξ2 ) der Mittelwertsatz der Differentialrechnung einsetzbar, d.h. es gilt (∂x1 f )(τ, ξ2 + η2 ) − (∂x1 f )(τ, ξ2 ) = η2 ∂x2 (∂x1 f )(τ, σ)
208
6 Differenzierbarkeit II
mit einem σ ∈ (ξ2 , ξ2 + η2 ) bzw. σ ∈ (ξ2 + η2 , ξ2 ). Wir haben damit insgesamt erhalten ϕ(ξ1 + η1 ) − ϕ(ξ1 ) = η1 η2 (∂x2 ∂x1 f )(τ, σ). Ganz analog sieht man, dass man, wenn man von der Funktion ψ(s) := f (ξ1 + η1 , s) − f (ξ1 , s) ausgeht, mit einem τ ∗ ∈ (ξ1 , ξ1 + η1 ) und σ ∗ ∈ (ξ2 , ξ2 + η2 ) (bzw. . . .) schreiben kann ψ(ξ2 + η2 ) − ψ(ξ2 ) = η1 η2 (∂x1 ∂x2 f )(τ ∗ , σ ∗ ). Nun gilt aber ϕ(ξ1 +η1 )−ϕ(ξ1 ) = f (ξ1 +η1 , ξ2 +η2 )−f (ξ1 +η1 , ξ2 )−f (ξ1 , ξ2 +η2 )+f (ξ1 , ξ2 ) und entsprechend ψ(ξ2 +η2 )−ψ(ξ2 ) = f (ξ1 +η1 , ξ2 +η2 )−f (ξ1 , ξ2 +η2 )−f (ξ1 +η1 , ξ2 )+f (ξ1 , ξ2 ), so dass wir notieren k¨ onnen (∂x2 ∂x1 f )(τ, σ) = (∂x1 ∂x2 f )(τ ∗ , σ ∗ ).
(6.16)
Stellen wir uns nun (η1 , η2 ) wieder frei w¨ ahlbar vor, so k¨onnen wir nat¨ urlich die Terme (∂x2 ∂x1 f )(τ, σ) und (∂x1 ∂x2 f )(τ ∗ , σ ∗ ) f¨ ur (η1 , η2 ) → (0, 0) betrachten. Offenbar folgt aus (η1 , η2 ) → (0, 0) aber (τ, σ) → (ξ1 , ξ2 ) und (τ ∗ , σ ∗ ) → (ξ1 , ξ2 ). Da nach Voraussetzung aber die Ableitungen ∂x2 ∂x1 f und ∂x1 ∂x2 f im Punkt (ξ1 , ξ2 ) stetig sind, folgt aus (6.16) ∂x2 (∂x1 f )(ξ) = ∂x1 (∂x2 f )(ξ). ! Wir haben bisher nur partielle Ableitungen der Ordnung 2 betrachtet. Wenn es m¨oglich ist, kann man aber durchaus auch partielle Ableitungen h¨oherer Ordnung betrachten. Ist α := (α1 , . . . , αm ) ∈ Nm uhrte abk¨ urzende 0 , so ist, wenn wir wieder die soeben eingef¨ Notation f¨ ur die partiellen Ableitungen verwenden, ∂ α f := ∂xα11 ∂xα22 . . . ∂xαmm f eine partielle Ableitung der Ordnung |α| := α1 + . . . + αm . Hierbei wird α als Multiur partielle index bezeichnet und entsprechend ist ∂ α f die Multiindex-Schreibweise f¨ Ableitungen. Die traditionelle und offenbar aufwendigere Schreibweise etwa f¨ ur partielle Ableitungen der Ordnung 2 ist bei zwei Variablen ∂2f ∂x∂y
oder
∂2f . ∂x2
Man beachte, dass es nach dem Satz von Schwarz bei stetigen partiellen Ableitungen ∂ α f auf die Reihenfolge der Hintereinanderausf¨ uhrungen der einzelnen partiellen Ableitungen nicht ankommt. In Hinblick auf Korollar 6.3 definiert man nun, wenn Ω ⊂ Rm offen ist, f¨ ur k ∈ N C k (Ω, Rn ) := {f : Ω → Rn | ∂ α f existiert und ist stetig in Ω f¨ ur alle α mit |α| ≤ k}.
6.2 Fr´echet-Ableitung
209
uher ist dann C ∞ (Ω, Rn ) = Wie fr¨
7 k∈N0
C k (Ω, Rn ).
Wir werden nun hier nicht der Frage nachgehen, ob f ∈ C k (Ω, Rn ) im Fall k > 1 so wie im Fall k = 1 etwas mit mehrfacher totaler Differenzierbarkeit zu tun hat. Dies liegt daran, dass bei Abbildungen f : Ω ⊂ Rm → Rn die auf Ω definierte Ableitung ja eine Abbildung f & : Ω → B(Rm , Rn ) ist. Man wird dann davon sprechen, dass f && existiert, wenn diese Abbildung total differenzierbar ist. Definitionsgem¨aß ist dann f && (x) ∈ B(Rm , B(Rm , Rn )). So wie es zweckm¨aßig ist, die Elemente von B(Rm , Rn ) als Matrizen aufzufassen, so ist es f¨ ur das weitere Studium der Ableitungen h¨oherer Ordnung sinnvoll, B(Rm , B(Rm , Rn )) mit einem besser zu handhabenden Objekt zu identifizieren. Dies ist m¨ oglich und f¨ uhrt in den Bereich der multilinearen Algebra. Dies sei hier aber nicht weiter verfolgt, denn wir werden es bei den weiteren Untersuchungen nicht ben¨ otigen, weil Fragen der Taylorformel oder hinreichender Kriterien f¨ ur lokale Extrema unter Ben¨ utzung partieller Ableitungen h¨oherer Ordnung erledigt werden k¨ onnen. Vor der Diskussion dieser Dinge sei aber noch gezeigt, dass sich der Mittelwertsatz in der Variante einer Absch¨ atzung, also in der Form von Satz 4.7 allgemeiner auf Abbildungen asst. f : Ω ⊂ R m → Rn u ¨ bertragen l¨ Satz 6.11 Seien m, n ∈ N, sei Ω ⊂ Rm offen, seien x, ξ ∈ Ω mit x 3= ξ so, dass S(x, ξ) := {y ∈ Rm : Es gibt ein t ∈ [0, 1] mit y = x + t(ξ − x)} ⊂ Ω gilt. Dann gilt: Ist f : Ω → Rn differenzierbar und M := sup{9f & (y)v9 : y ∈ S(x, ξ), v ∈ Rm mit 9v9 = 1} < ∞, so gilt 9f (x) − f (ξ)9 ≤ M 9x − ξ9.
(6.17)
Beweis: Da S(x, ξ) ⊂ Ω gilt, (was geometrisch so zu interpretieren ist, dass die Verbindungsstrecke zwischen x und ξ ganz in der Menge Ω verl¨auft), kann man eine Abbildung g : [0, 1] → Rn definieren durch g(t) := f (x + t(ξ − x))
f¨ ur
t ∈ [0, 1].
Nach der Kettenregel ist g differenzierbar und es gilt, wenn ψ(t) := x + t(ξ − x) ist, ur g & (t)h = (f & (x + t(ξ − x)) ◦ ψ & (t))h = f & (x + t(ξ − x))('ξ − x, h-) f¨
h ∈ Rm . (6.18)
Wendet man nun die Absch¨ atzung von Satz 4.7 auf die Abbildung g an, so ist dabei g & (t) als ein Vektor im Rn zu interpretieren. Nach (6.18) ist dieser Vektor gegeben durch f & (x + t(ξ − x))((ξ − x)) und es gilt mit der Operatornorm von f & 9f & (x + t(ξ − x))((ξ − x))9 ≤ 9f & (x + t(ξ − x))9 9ξ − x9.
210
6 Differenzierbarkeit II
alt man nach Satz 4.7, (man beachte, dass Ω offen ist), Damit erh¨ 9g(1) − g(0)9 ≤ ( sup 9f & (x + t(ξ − x))9) 9ξ − x9. t∈[0,1]
Bedenkt man, wie die Operatornorm definiert ist, so kann man mit der oben angegebenen Konstanten M absch¨ atzen 9g(1)− g(0)9 ≤ M 9ξ − x9 und dies ist wegen g(1) = f (ξ) und g(0) = f (x) identisch mit (6.17). ! Unter Ben¨ utzung des Hauptsatzes der Differential- und Integralrechnung kann man rasch eine andere Form des Mittelwertsatzes erhalten, wenn man etwas mehr von der amlich, dass f ∈ C 1 (Ω, Rn ) sei. Ist dann Abbildung f : Ω ⊂ Rm → Rn verlangt, n¨ wieder die Funktion g wie im Beweis von Satz 6.11 definiert, so kann man unter dieser Voraussetzung notieren ( 1 ( 1 f (ξ) − f (x) = g(1) − g(0) = f & (x + τ (ξ − x))(ξ − x)dτ. g & (τ )dτ = 0
0
Durch Absch¨ atzung des hier auftretenden Integrals kann man daraus wiederum die Ungleichung (6.17) erhalten. Von besonderem Interesse ist noch die Situation, dass die offene Menge Ω ⊂ Rm konvex ist, d.h. dass mit zwei beliebigen Punkten x, ξ ∈ Ω die Verbindungsstrecke S(x, ξ) in Ω liegt. Dann ist Satz 6.11 f¨ ur beliebige Punkte x und ξ einsetzbar und dies liefert, wenn noch σ := sup 9f & (y)9 < ∞ y∈Ω
gilt, die Absch¨ atzung 9f (x) − f (ξ)9 ≤ σ9x − ξ9
f¨ ur
x, ξ ∈ Ω.
Unter diesen Voraussetzungen ist also f in Ω Lipschitz-stetig im Sinne der folgenden Definition: aume. Eine Abbildung f : X → Y heißt LipschitzSeien (X, dX ) und (Y, dY ) metrische R¨ stetig , wenn es eine Konstante K > 0 gibt, so dass dY (f (x), f (ξ)) ≤ KdX (x, ξ) f¨ ur alle x, ξ ∈ X gilt. Es gibt u ¨ brigens stetige Funktionen, die nicht Lipschitz-stetig sind. Ein einfaches Beiur t ∈ (−1, 1) dar. Es kann n¨amlich spiel daf¨ ur stellt die Funktion f (t) := |t|1/2 f¨ keine Konstante K > 0 geben, so dass |t|1/2 ≤ K|t| f¨ ur alle t ∈ (−1, 1) gilt. Ist n¨amlich ur m ∈ N, so m¨ usste, wenn so eine Absch¨atzung gelten sollte, m−1 ≤ Km−2 , tm := m−2 f¨ somit m ≤ K f¨ ur alle m ∈ N gelten. Andererseits sind stetige lineare Abbildungen zwischen zwei normierten R¨aumen immer Lipschitz-stetig, wie die Aussage (4) von Satz 6.6 zeigt. Danach gilt n¨amlich f¨ ur x, ξ ∈ X 9T x − T ξ9Y = 9T (x − ξ)9Y ≤ C9x − ξ9X . Wie die Definition der Operatornorm zeigt, k¨onnte man dabei die Konstante C durch die Operatornorm ersetzen.
6.3 Taylorformel II
211
Taylorformel II
6.3
Aufbauend auf der Taylorformel f¨ ur Funktionen einer Variablen kann man auch die Taylorformel f¨ ur Funktionen mehrerer Variabler erhalten. Diese wird wiederum n¨ utzlich sein f¨ ur die Diskussion lokaler Extrema. F¨ ur die Diskussion der Taylorformel bei Funktionen mehrerer Variablen betrachten wir Funktionen f ∈ C n (Ω, R), wobei Ω ⊂ Rm offen sei. Es wird also die Existenz stetiger partieller Ableitungen bis zur Ordnung n verlangt. Ist x0 ∈ Ω beliebig gew¨ahlt und U (x0 , δ) ⊂ Ω, so sind mit x ∈ U (x0 , δ) auch alle Punkte auf der Verbindungsstrecke von x0 nach x, d.h. alle Punkte y = x0 + t(x − x0 ) mit t ∈ [0, 1] in U (x0 , δ), (wie die Absch¨ atzung 9y − x9 = 9t(x − x0 )9 ≤ 9x − x0 9 < δ sofort zeigt). Damit sind f¨ ur die Funktion g(t) := f (x0 + t(x − x0 ))
f¨ ur
t ∈ [0, 1]
die Voraussetzungen von Satz 6.2 erf¨ ullt, wenn man bis zu Taylorpolynomen vom Grad n − 1 geht. Es gibt also ein τ ∈ (0, 1) mit f (x) = g(1) =
n−1 = k=0
1 (k) 1 g (0) + g (n) (τ ). k! n!
Dies m¨ ussen wir nun geeignet umschreiben zu einer Form, in der partielle Ableitungen von f auftreten. Nach der Kettenregel gilt zun¨ achst g & (t) =
m = (∂xj f )(x0 + t(x − x0 ))(x − x0 )j , j=1
wobei wir mit (x − x0 )j wieder die j-te Komponente des Vektors x − x0 bezeichnet haben. Damit k¨ onnen wir aber auch g & (t) mit einer geeigneten Funktion ϕ : Ω → R in & der Form g (t) = ϕ(x0 + t(x − x0 )) schreiben. Und zwar muss man offenbar nur setzen ϕ(y) := 'x − x0 , (gradf )(y)-
f¨ ur
y ∈ Ω.
Wegen ∂yk ϕ(y) =
m =
(∂xk ∂xj f )((y)(x − x0 )j
j=1
erh¨alt man dann analog zu g & (t) g && (t) =
m =
(x − x0 )k
m =
(∂xk ∂xj )(x0 + t(x − x0 ))(x − x0 )j .
j=1
k=1
Durch Induktion ergibt sich nun allgemeiner g
(k)
(t) =
m = j1 =1
...
m =
(∂xj1 . . . ∂xjk f )(x0 + t(x − x0 ))(x − x0 )j1 · . . . · (x − x0 )jk . (6.19)
jk =1
212
6 Differenzierbarkeit II
Dies kann man nun viel suggestiver aufschreiben, wenn man die Multiindex-Schreibweise noch etwas ausbaut und verwendet, dass es bei den Ableitungen ∂xj1 . . . ∂xjk f auf die Reihenfolge der partiellen Ableitungen nicht ankommt. m Wir definieren dazu f¨ ur einen Multiindex α ∈ Nm 0 und x ∈ R α! :=
m 9
αk ! und
xα :=
k=1
m 9 k=1
k xα k
und zeigen, dass analog zum binomischen Lehrsatz f¨ ur beliebige a1 , . . . , am ∈ R und k ∈ N gilt (a1 + . . . + am )k =
= k! aα . α!
(6.20)
|α|=k
F¨ ur m = 2 ist dies f¨ ur beliebiges k ∈ N identisch mit dem binomischen Lehrsatz, (man muss nur α = (j, k − j) mit j = 0, . . . , k setzen), man kann daher (6.20) beweisen, indem man annimmt, dass (6.20) f¨ ur m−1 f¨ ur beliebiges k ∈ N richtig sei, und dann vollst¨andige Induktion bez¨ uglich m durchf¨ uhrt, und zwar f¨ ur beliebig gew¨ahltes k. Notiert man zun¨ achst k
(a1 + . . . + am ) =
k = j=0
k! (a1 + . . . + am−1 )k−j ajm , j!(k − j)!
so folgt aufgrund der Induktionsannahme mit β ∈ Nm−1 und b := (a1 , . . . , am−1 ) 0 (a1 + . . . + am )k =
k = = j=0 |β|=k−j
(k − j)! β j k! b am . j!(k − j)! β!
(6.21)
Setzt man nun jeweils α := (β1 , . . . , βm−1 , j), so durchlaufen die Indizes α, wenn β alle Indizes mit |β| = k − j und j = 0, . . . , k durchl¨auft, sicher alle Indizes α ∈ Nm 0 mit |α| = k und es gilt α! = j!β!. Außerdem ist bβ ajm = aα . Damit geht (6.21) aber direkt in (6.20) u ¨ ber. Was (6.20) f¨ ur (6.19) n¨ utzt, sieht man, wenn man bedenkt, dass man beim zun¨achst ganz ’naiven’ Ausmultiplizieren von (a1 + . . . + am )k erh¨alt (a1 + . . . + am )k =
m = j1 =1
...
m =
aj1 · . . . · ajm .
jk =1
Durch Zusammenfassen gleicher Terme, (man beachte die Assoziativit¨at und Kommutativit¨ at der Multiplikation), kommt man dann zu (6.20). Da man auch bei der Hintereinanderausf¨ uhrung ∂xj1 . . . ∂xjk beliebig umordnen kann, muss aus (6.19) durch Zusammenfassen gleicher Terme ein entsprechender Ausdruck wie bei (6.20) entstehen, d.h. man kann notieren = k! (∂ α f )(x0 + t(x − x0 ))(x − x0 )α . g (k) (t) = α! |α|=k
6.3 Taylorformel II
213
Damit ist aber = 1 1 (k) g (0) = (∂ α f )(x0 )(x − x0 )α . k! α! |α|=k
Offenbar erh¨ alt man damit in Analogie zum eindimensionalen Fall die Taylorformel f (x) =
n−1 =
= 1 = 1 (∂ α f )(x0 )(x − x0 )α + (∂ α f )(x0 + τ (x − x0 ))(x − x0 )α , α! α!
k=0 |α|=k
|α|=n
wobei τ ∈ (0, 1) ist. Auch im Fall einer Abbildung f : Ω ⊂ Rm → R, (es sei wieder Ω offen), k¨onnen wir nun ausgehend von der Taylorformel genauer diskutieren, was f¨ ur eine Situation in kritischen Punkten, d.h. in Punkten ξ ∈ Ω mit f & (ξ) = 0, vorliegt. Insbesondere kann man wieder ein hinreichendes Kriterium f¨ ur das Auftreten eines lokalen Minimums (oder Maximums) im Punkt ξ gewinnen. (Man beachte, dass nach Satz 4.5 bei differenzierbaren Funktionen nur in Punkten mit f & (ξ) = 0 ein lokales Extremum vorliegen kann.) Dabei betrachten wir nun Funktionen f ∈ C 2 (Ω, R). Ist dann ξ ∈ Ω mit f & (ξ) = 0, so verwenden wir die Taylorformel f¨ ur n = 2 und erhalten m
f (x) = f (ξ) +
m
1 == (∂xk ∂xj f )(ξ + τ (x − ξ))(x − ξ)k (x − ξ)j . 2 j=1
(6.22)
k=1
Offenbar wird hier nun die symmetrische Matrix der zweiten partiellen Ableitungen von f eine wesentliche Rolle spielen, wenn es darum geht, ob im Punkt ξ ein lokales Minimum oder Maximum vorliegt. Diese Matrix wird als Hesse-Matrix bezeichnet, wir notieren H(x) := (∂xj ∂xk f (x))j,k=1...,m f¨ ur x ∈ Ω. Hier muss nun ein wenig an Dinge aus der linearen Algebra erinnert werden: Einer symmetrischen (m, m)-Matrix A ist auf nat¨ urliche Weise eine quadratische Form zugeordnet, das ist die Abbildung x ∈ Rm /→ xT Ax ∈ R, wobei x ∈ Rm ein Spaltenvektor und xT der zugeh¨ orige durch Transponieren entstandene Zeilenvektor ist. So eine quadratische Form, bzw. auch die zugeh¨ orige Matrix A, bezeichnet man als positiv definit, wenn xT Ax > 0 f¨ ur alle x 3= 0 gilt, man nennt sie entsprechend negativ definit, ur alle x 3= 0 ist. Schließlich spricht man davon, dass die quadratische wenn xT Ax < 0 f¨ Form indefinit ist, wenn sie sowohl positive als auch negative Werte annehmen kann. Ein Blick auf (6.22) zeigt nun, dass das Verhalten von f (x)−f (ξ) bestimmt ist durch das Verhalten der der Hesse-Matrix zugeordneten quadratischen Form, denn die doppelte Summe ist genau von der Bauart wie diese quadratische Form.
214
6 Differenzierbarkeit II
Satz 6.12 Sei Ω ⊂ Rm offen, sei f ∈ C 2 (Ω, R) und ξ ∈ Ω mit f & (ξ) = 0. Dann gilt: (a) Ist die der Hesse-Matrix H(ξ) zugeordnete quadratische Form positiv definit, so liegt im Punkt ξ ein lokales Minimum vor. (b) Ist die der Hesse-Matrix H(ξ) zugeordnete quadratische Form negativ definit, so liegt im Punkt ξ ein lokales Maximum vor. (c) Ist die der Hesse-Matrix H(ξ) zugeordnete quadratische Form indefinit, so liegt im Punkt ξ kein lokales Extremum vor. Beweis: Zu (a): Im ersten Schritt m¨ ussen wir uns u ur alle ¨ berlegen, dass, wenn y T H(ξ)y > 0 f¨ m y ∈ R \ {0} gilt, dies auch noch in einer Umgebung von ξ gilt, d.h. dass es ein ε > 0 gibt mit y T H(x)y > 0 f¨ ur alle y ∈ Rm \ {0} und alle x mit 9x − ξ9 < ε. Wir ben¨ utzen, dass eine stetige Funktion g : {y ∈ Rm : 9y9 = 1} → R ihr Minimum annehmen muss, weil die Menge {y ∈ Rm : 9y9 = 1} ⊂ Rm ja kompakt ist. Da nach Voraussetzung ur alle y ∈ Rm mit 9y9 = 1 gilt, gibt es also ein γ > 0 aber Q(ξ, y) := y T H(ξ)y > 0 f¨ mit Q(ξ, y) ≥ γ f¨ ur alle y ∈ Rm mit 9y9 = 1. F¨ ur 9y9 = 1 und x ∈ Ω k¨onnen wir ja absch¨ atzen = = |∂xk ∂xj f (x)−∂xk ∂xj f (ξ)|. (∂xk ∂xj f (x)−∂xk ∂xj f (ξ))yk yj | ≤ |Q(x, y)−Q(ξ, y)| = | j,k
j,k
Da die Funktionen ∂xk ∂xj f alle stetig sind, gibt es ein ε > 0 mit |Q(x, y)−Q(ξ, y)| < γ/2 f¨ ur 9y9 = 1 und 9x − ξ9 < ε. Damit ist aber Q(x, y) ≥ γ/2 f¨ ur 9y9 = 1 und 9x − ξ9 < ε. Daraus folgt aber f¨ ur v ∈ Rm \ {0} γ Q(x, v) = 9v92 Q(x, 9v9−1 v) ≥ 9v92 > 0, 2 wenn 9x − ξ9 < ε ist. Damit gilt also y T H(x)y > 0 f¨ ur alle y ∈ Rm \ {0} und alle x mit 9x − ξ9 < ε, wobei wir annehmen d¨ urfen, dass die Kugel U (ξ, ε) in Ω liegt. F¨ ur x 3= ξ und 9x − ξ9 < ε gilt dann 1 (x − ξ)T H(ξ + τ (x − ξ))(x − ξ) > 0 2
f¨ ur
τ ∈ (0, 1).
Wegen (6.22) gilt damit aber f (x) > f (ξ) f¨ ur x 3= ξ mit 9x − ξ9 < ε, es liegt also ein lokales Minimum vor. ¨ Zu (b): Durch Ubergehen zur Funktion −f erreicht man den Fall (a). Zu (c): Nach Voraussetzung gibt es ein y ∈ Rm mit Q(ξ, y) > 0 und ein η ∈ Rm mit Q(ξ, η) < 0. Definiert man nun f¨ ur kleines |t| die Funktionen ϕ und ψ durch ϕ(t) := f (ξ + ty),
ψ(t) := f (ξ + tη),
so sind sicher beide Funktionen zweimal differenzierbar. Und zwar gilt nach der Kettenregel ϕ& (t) =
m = k=1
(∂xk f )(ξ + ty)yk ,
ϕ&& (t) =
== k
j
(∂xk ∂xj f )(ξ + ty)yk yj ,
6.3 Taylorformel II
215
somit ϕ&& (0) = Q(ξ, y) > 0. Damit hat aber die Funktion ϕ an der Stelle t = 0 ein lokales Minimum. Entsprechend kann man erschließen, dass die Funktion ψ an der Stelle t = 0 ein lokales Maximum hat. Damit gibt es aber in jeder Kugel U (ξ, r) ⊂ Ω Punkte x, in denen f (x) > f (ξ) gilt, und Punkte x, in denen f (x) < f (ξ) gilt. ! Ein typisches Beispiel f¨ ur die in (c) vorliegende Situation wird gegeben durch die Funkur (x, y) ∈ R2 . Da f (x, 0) = x2 f¨ ur x ∈ R und f (0, y) = −y 2 f¨ ur tion f (x, y) := x2 − y 2 f¨ y ∈ R ist, hat der Graph dieser Funktion bei (0, 0) die Form eines Sattels. Man spricht daher in solchen F¨ allen auch davon, dass ein Sattelpunkt vorliegt. Auch bei der Taylorformel f¨ ur Funktionen mehrerer Variabler stellt sich nat¨ urlich die Frage, ob eine Darstellung der Funktion in Form einer Taylor-Reihe m¨oglich ist. Hierbei kommen dann offenbar Fragen in den Vordergrund, die bisher kaum sichtbar wurden, n¨ amlich die Konvergenz von Reihen, die man als mehrdimensional bezeichnen kann. Man) erinnere sich dazu an die Diskussion des Cauchyprodukts von Reihen, das ja etwas mit j,k aj bk zu tun hat. Ohne weitere Diskussion dieser Fragen kann man aber recht rasch das folgende Ergebnis gewinnen, bei dem die mehrdimensionale Reihe auf eine ganz bestimmte Weise summiert wird. Satz 6.13 Sei a = (a1 , . . . , am ) ∈ Rm , rk > 0 f¨ ur k = 1, . . . , m und R := {x ∈ Rm : |xk − ak | < rk
f¨ ur
k = 1, . . . , m}
Dann gilt: Gibt es zu f ∈ C ∞ (R, R) ein K > 0, so dass |∂ α f (x)|rα ≤ α!K
f¨ ur
α ∈ Nm 0
und x ∈ R
gilt, so gilt f (x) =
∞ = = 1 α (∂ f )(a)(x − a)α α!
f¨ ur
x ∈ R.
k=0 |α|=k
Beweis: Es ist wie bei Funktionen einer Variablen zu zeigen, dass unter den gegebenen Voraussetzungen an f das Restglied in der Taylor-Formel f¨ ur n → ∞ gegen Null geht. Zun¨ achst kann man offenbar absch¨ atzen # # # # = #= 1 α # −1 α# # (∂ f )(a + τ (x − a))(x − a) # ≤ K |xm −am |)αm . (r1−1 |x1 −a1 |)α1 ·. . .·(rm # α! # # |α|=n
|α|=n
Damit reicht es aber aus, zu zeigen, dass, wenn δk ∈ [0, 1) f¨ ur) k = 1, . . . , m) ist, gilt ) ∞ ∞ k k α δ und δ → 0 f¨ u r n → ∞. Nun wissen wir aber, dass, weil |α|=n k=0 δ2 k=0 1 )∞ absolut konvergent sind, auch die Reihe k=0 ck absolut konvergent ist, bei der man )k ) j k−j ck definiert durch ck = . Damit muss aber ur n → ∞ gegen k≥n ck f¨ j=0 δ1 δ2
216
6 Differenzierbarkeit II
) ur n → ∞. Das ist das Null gehen. Insbesondere gilt damit |(α1 ,α2 )|=n δ1α1 δ2α2 → 0 f¨ gew¨ unschte Resultat im Fall m = 2. Durch weiteres sukzessives Bilden von Cauchyprodukten kommt man zum Resultat f¨ ur beliebiges m. ! Aufgaben 1. Sei f ∈ C 2 ([0, ∞), R) und seien f und f && beschr¨ankt. Mit 9 9∞ sei die Supremumsnorm bezeichnet. (a) Man zeige, dass f¨ ur alle x ∈ [0, ∞) und alle h > 0 gilt |f & (x)| ≤
2 h 9f 9∞ + 9f && 9∞ . h 2
(b) Man beweise die G¨ ultigkeit der Ungleichung 9f & 9∞ ≤ 2(9f 9∞ )1/2 (9f && 9∞ )1/2 . 2. (a) Man zeige, dass es eine Funktion ψ ∈ C ∞ (R, R) gibt mit ψ(x) > 0 f¨ ur |x| < 2 und ψ(x) = 0 f¨ ur |x| ≥ 2. ur die gilt: (b) Man gebe eine Folge (ϕn )n∈N von Funktionen ϕn ∈ C ∞ (R, R) an, f¨ (x) = 0 f¨ u r |x| > n + 1 und f¨ u r |x| < n − 1, (i) ϕ) n ∞ (ii) n=1 ϕn (x) = 1 f¨ ur alle x ∈ R. )∞ ur die folgenden 3. Man gewinne eine Potenzreihendarstellung f (x) = k=0 ak xk f¨ zwei Funktionen: 'x 1 , (ii) f (x) = 0 exp(−t2 )dt. (i) f (x) = 2x+3 4. Man zeige, dass jede Funktion f ∈ C 2 (R, R), die der Gleichung f && (x) + f (x) = 0 f¨ ur x ∈ R gen¨ ugt, reell analytisch ist. 5. Sei x ≥ 0 und y ≥ 0 und seien p > 1, q > 1 mit xy ≤
1 p
+
1 q
= 1. Man zeige, dass gilt
xp yq + . p q
Wann gilt in dieser Ungleichung das Gleichheitszeichen? 6. Eine Funktion f : RN → R heißt homogen vom Grad m ∈ N0 , wenn ur alle λ ∈ R und alle x ∈ RN gilt. f (λx) = λm f (x) f¨ Sei die Funktion f : RN → R homogen vom Grad m und die Funktion g : RN → R homogen vom Grad n, wobei g(x) 3= 0 f¨ ur x 3= 0 gelte. Mit diesen Funktionen sei F : RN → R definiert durch F (0) := 0,
F (x) :=
f (x) g(x)
f¨ ur
x 3= 0.
Man diskutiere, wann Richtungsableitungen von F im Punkt 0 existieren. Unter der Annahme, dass F stetig ist, gebe man eine hinreichende Bedingung f¨ ur die Differenzierbarkeit von F im Punkt 0 an.
6.3 Taylorformel II
217
7. Sei f : Rn → R homogen vom Grad m ∈ N0 und m-mal stetig differenzierbar. Man zeige, α ∈ Nn0 mit |α| = m Zahlen aα ∈ R gibt, so dass ) dass es zu α f (x) = |α|=m aα x f¨ ur x ∈ Rn gilt. 8. Seien f, g ∈ C m ((a, b), R). Man zeige die G¨ ultigkeit der Leibnizschen Formel (k)
(f · g)
k : ; = k (k−j) (j) ·g = f j j=0
f¨ ur
k ≤ m.
9. Sei f : R2 → R definiert durch f (0, 0) := 0,
f (x, y) := xy
x2 − y 2 x2 + y 2
f¨ ur
(x, y) 3= (0, 0).
Man zeige, dass alle partiellen Ableitungen ∂ α f mit |α| ≤ 2 existieren und dass ∂x (∂y f )(0, 0) 3= ∂y (∂x f )(0, 0) gilt. 10. Seien f : R2 → R, sowie g : RN → R und ϕ : [0, 1] → R2 differenzierbar und es gelte ϕ([0, 1]) = g −1 ({0}). Im Punkt τ ∈ (0, 1) liege ein lokales Extremum von f ◦ ϕ vor und es sei ϕ& (τ ) von der Nullabbildung verschieden. Man zeige, dass dann gradf (ϕ(τ )) und gradg(ϕ(τ )) linear abh¨angig sein m¨ ussen. 11. Sei f ∈ C 2 (R2 , R), sei y ∈ Rn und H(y) die Hesse-Matrix von f im Punkt y. Sei mit einem Vektor v ∈ Rn \ {0} die Funktion g : R → R definiert durch g(t) := f (y + tv). Man zeige, dass g && (0) = v T H(y)v gilt. 12. Man untersuche die folgenden Funktionen auf lokale Extrema: ur (x, y) ∈ R2 , (a) f (x, y) := xy(x + y + 1) f¨ (b) f (x, y) = y 2 (x − 1) + x2 (x + 1) f¨ ur (x, y) ∈ R2 . ur u ∈ C 2 (Ω, R) sei der Laplace-Operator Δ definiert durch 13. Sei Ω ⊂ Rn offen, f¨ Δu :=
n =
∂x2k u.
k=1
Sei v : R2 \ {0} → R definiert durch v(x) := log 9x9 und w : Rn \ {0} → R im Fall n ≥ 3 definiert durch w(x) := 9x92−n . Man zeige, dass Δv(x) = 0 und Δw(x) = 0 f¨ ur x 3= 0 gilt.
Banachscher Fixpunktsatz, Anwendungen
7
Schon in Abschnitt 3.4 wurde auf die Bedeutung eines Resultats zur Existenz von Fixpunkten gewisser Abbildungen hingewiesen, das als Banachscher Fixpunktsatz bekannt ist. Dieses Resultat wird nun behandelt, weil es eine M¨oglichkeit bieten wird, Ergebnisse zur lokalen Umkehrbarkeit bei Funktionen mehrerer Variabler zu gewinnen. Es ist dies aber nur eine der vielen Anwendungen dieses Fixpunktsatzes, es sollen daher exemplarisch noch andere Anwendungen vorgestellt werden.
7.1
Banachscher Fixpunktsatz
Es ist zweckm¨ aßig, diesen Satz f¨ ur Abbildungen eines vollst¨andigen metrischen Raumes in sich zu formulieren, denn das erlaubt es, diesen Satz bei vielen Problemen einzusetzen.
Satz 7.1 Sei (X, d) ein vollst¨ andiger metrischer Raum, sei T : X → X eine Abbildung, zu der es ein ρ ∈ (0, 1) gibt, so dass d(T (x), T (y)) ≤ ρd(x, y)
f¨ ur alle x, y ∈ X
(7.1)
gilt. Dann gibt es genau ein x∗ ∈ X mit T (x∗ ) = x∗ . Definiert man ausgehend von einem beliebigen x0 ∈ X die Folge (xn )n∈N0 durch ur xn+1 := T (xn ) f¨
n ∈ N0 ,
(7.2)
ur n → ∞, und f¨ ur d(xn , x∗ ) gilt die Fehlerabsch¨atzung so gilt xn → x∗ f¨ d(xn , x∗ ) ≤
ρn d(x0 , T (x0 )) f¨ ur 1−ρ
n ∈ N.
Beweis: Es sei zun¨ achst gezeigt, dass es h¨ ochstens einen Fixpunkt von T in X geben kann. Sei also angenommen, dass x = T x und x& = T x& gilt. (Wir schreiben ab jetzt k¨ urzer T x statt T (x).) Dann folgt unter Verwendung der Kontraktionsbedingung (7.1) d(x, x& ) = d(T x, T x& ) ≤ ρd(x, x& ) ≤ d(x, x& ),
220
7 Banachscher Fixpunktsatz, Anwendungen
wobei immer ρd(x, x& ) < d(x, x& ) gilt, wenn d(x, x& ) > 0 ist. Dies zeigt aber, dass d(x, x& ) = 0 und somit x = x& sein muss. Zum Nachweis der Existenz eines Fixpunktes zeigen wir, dass die durch (7.2) definierte Folge in X konvergent sein muss und ihr Grenzwert Fixpunkt von T ist. Beginnen wir mit dem Fall, dass bereits T x0 = x0 ist, dann ist ja bereits x0 Fixpunkt und es gilt ur alle n, so dass trivialerweise die Folge (xn ) gegen den Fixpunkt aber auch xn = x0 f¨ konvergiert. Die Fehlerabsch¨ atzung ist dann auch trivialerweise richtig. Sei nun also angenommen, dass T x0 3= x0 ist. Damit ist aber d(T x0 , x0 ) > 0. Da X ein vollst¨andiger metrischer Raum sein soll, folgt die Konvergenz der Folge (xn )n∈N0 , wenn wir gezeigt haben, dass die Folge (xn )n∈N0 eine Cauchy-Folge ist. Zun¨achst gilt d(x2 , x1 ) = d(T x1 , T x0 ) ≤ ρd(x1 , x0 ) = ρd(T x0 , x0 ). Dies dient nun als Induktionsanfang, um mit vollst¨andiger Induktion zu zeigen, dass d(xn+1 , xn ) ≤ ρn d(T x0 , x0 ) f¨ ur
n∈N
gilt. Der Induktionsschritt ist dabei ganz einfach: d(xn+2 , xn+1 ) = d(T xn+1 , T xn ) ≤ ρd(xn+1 , xn ) ≤ ρn+1 d(T x0 , x0 ). )k−1 ur k ∈ N erh¨alt man f¨ ur n, k ∈ N weiter Unter Ben¨ utzung von (1 − ρ) j=0 ρj = 1 − ρk f¨ d(xn+k , xn ) ≤ d(xn+k , xn+k−1 ) + . . . + d(xn+1 , xn ) ≤ (ρn+k−1 + . . . + ρn )d(T x0 , x0 ) = ρn
1 − ρk d(T x0 , x0 ). (7.3) 1−ρ
Wegen ρn → 0 f¨ ur n → ∞ und 0 < 1 − ρk ≤ 1 f¨ ur k ∈ N zeigt diese Absch¨atzung, dass die Folge (xn ) eine Cauchy-Folge in X ist. (Aus dieser Absch¨atzung wird auch noch die behauptete Fehlerabsch¨ atzung folgen.) Sei nun x∗ := limn→∞ xn . Wir zeigen, dass man dann f¨ ur jedes k ∈ N absch¨atzen kann d(T x∗ , x∗ ) ≤ 1/k, woraus d(T x∗ , x∗ ) = 0 und somit T x∗ = x∗ folgt. Dazu sch¨atzen wir f¨ ur beliebiges n ∈ N ab d(T x∗ , x∗ ) ≤ d(x∗ , xn ) + d(xn , T x∗ ) = d(x∗ , xn ) + d(T xn−1 , T x∗ ) ≤ d(x∗ , xn ) + ρd(xn−1 , x∗ ). Ist dann k ∈ N gegeben, so gibt es ja ein n ∈ N mit d(x∗ , xn ) ≤ (2k)−1 und ρd(xn−1 , x∗ ) ≤ (2k)−1 , woraus sofort d(T x∗ , x∗ ) ≤ 1/k folgt. Damit ist noch die behauptete Fehlerabsch¨ atzung zu beweisen. Nach (7.3) k¨onnen wir f¨ ur beliebiges n und k ∈ N notieren d(xn , x∗ ) ≤ d(xn , xn+k ) + d(xn+k , x∗ ) ≤ ρn
1 − ρk d(T x0 , x0 ) + d(xn+k , x∗ ). 1−ρ
Setzt man nun f¨ ur festes n ∈ N ak := d(xn , x∗ ) und
bk := ρn
1 − ρk d(T x0 , x0 ) + d(xn+k , x∗ ) 1−ρ
7.1 Banachscher Fixpunktsatz
221
ur die Folgen (ak ) und (bk ) stets ak ≤ bk und somit muss, wenn f¨ ur k ∈ N, so gilt f¨ limk→∞ bk existiert, gelten d(xn , x∗ ) = limk→∞ ak ≤ limk→∞ bk . Nun gilt aber d(xn+k , x∗ ) → 0 f¨ ur k → ∞ und ρn (1 − ρk )(1 − ρ)−1 → ρn (1 − ρ)−1 f¨ ur k → ∞, woraus sofort die Fehlerabsch¨ atzung folgt. ! Im Beweis wurde schon die Bedingung (7.1) als Kontraktionsbedingung bezeichnet, was ja auch unmittelbar einleuchtend ist. Man bezeichnet daher auch Abbildungen, f¨ ur die (7.1) gilt, als kontrahierend . Da die durch (7.2) rekursiv definierte Folge (xn ) N¨ aherungswerte f¨ ur den gesuchten Fixpunkt liefert, spricht man man auch davon, dass man mit sukzessiver Approximation arbeitet. In Korollar 3.1 war ein Resultat zur Existenz einer L¨osung einer Gleichung f (x) = x als Folgerung aus dem Zwischenwertsatz enthalten. Als eine erste Anwendung des Banachschen Fixpunktsatzes werden wir nun zeigen, dass sich unter geeigneten Voraussetzungen N¨ aherungswerte zu einer L¨ osung von f (x) = x durch sukzessive Approximation gewinnen lassen. Korollar 7.1 Sei M ⊂ R und zu f : M → R gebe es ein ρ ∈ (0, 1) mit |f (x) − f (y)| ≤ ρ|x − y| f¨ ur
x, y ∈ M.
(7.4)
Sei x0 ∈ M so, dass es ein a > 0 gibt mit [x0 − a, x0 + a] ⊂ M
und
|f (x0 ) − x0 | ≤ (1 − ρ)a.
Dann kann man rekursiv die Folge (xn )n∈N0 definieren durch xn+1 := f (xn ) f¨ ur n ∈ N0 und diese konvergiert gegen einen Fixpunkt ξ von f . Beweis: Sei I := [x0 − a, x0 + a], Wir zeigen zun¨ achst, dass f (I) ⊂ I ist. Sei x ∈ I beliebig gew¨ ahlt. Dann gilt |f (x) − x0 | ≤ |f (x) − f (x0 )| + |f (x0 ) − x0 | ≤ ρ|x − x0 | + (1 − ρ)a ≤ ρa + (1 − ρ)a = a. Damit ist f (x) ∈ I. Wir fassen nun f |I als eine Abbildung des vollst¨andigen metrischen Raumes I, (man beachte, dass I abgeschlossen ist), in sich auf. Diese ist wegen der Forderung (7.4) kontrahierend und es gibt also nach Satz 7.1 ein ξ ∈ I mit f (ξ) = ξ. Nach Satz 7.1 findet man ξ als Grenzwert der durch xn+1 = f (xn ) definierten Folge ! (xn )n∈N0 . Dieses Ergebnis wiederum werden wir nun einsetzen zum Nachweis, dass unter passenden Voraussetzungen das sogenannte Newton-Verfahren geeignet ist, Nullstellen von reellen Funktionen n¨ aherungsweise zu berechnen. Das Newton-Verfahren beruht darauf, bei einer differenzierbaren Funktion n¨aherungsweise eine Nullstelle zu bestimmen, indem man die Nullstelle der aufgrund der Differenzierbarkeit gegebenen approximierenden linearen Funktion betrachtet. Man geht also
222
7 Banachscher Fixpunktsatz, Anwendungen
folgendermaßen vor: Ist f (a, b) → R gegeben und weiß man, (z.B. aufgrund des Zwischenwertsatzes), dass im Intervall (a, b) eine Nullstelle von f liegen muss, so w¨ahlt man ein x0 ∈ (a, b) als N¨ aherungswert f¨ ur die gesuchte Nullstelle und ersetzt f durch die lineare Funktion g1 (x) := f (x0 ) + f & (x0 )(x − x0 ). Diese hat eine Nullstelle, wenn f & (x0 ) 3= 0 ist. Man l¨ ost also in diesem Fall die Gleichung g1 (x) = 0 und erh¨alt als L¨osung x1 := x0 − f (x0 )/f & (x0 ). Man hofft nun, durch Iteration dieses Verfahrens n¨aher an die gesuchte Nullstelle von f heranzur¨ ucken. Man betrachtet somit, sofern dies sinnvoll m¨ oglich ist, im n¨ achsten Schritt die Funktion g2 (x) := f (x1 ) + f & (x1 )(x − x1 ) und erh¨ alt als Nullstelle dieser Funktion x2 . Fortschreitend erh¨alt man eine Folge (xn )n∈N0 , die rekursiv definiert ist durch f (xn ) . xn+1 := xn − & f (xn ) An Hand von ganz einfachen Beispielen sieht man, dass dieses Verfahren tats¨achlich eine gegen die Nullstelle konvergierende Folge (xn ) liefern kann, dies aber keineswegs immer so sein muss. ur x > 0. Ist Sei etwa mit einem a > 0 die Funktion f gegeben durch f (x) := x2 − a f¨ ahlt, so ist dann x0 > 0 beliebig gew¨ ; : 1 a x20 − a x1 = x0 − = . x0 + 2x0 2 x0 Offenbar erh¨ alt man weiter als Folge der N¨ aherungswerte genau die Folge, die beim babylonischen Wurzelziehen, (siehe Satz 2.7), auftrat. Damit √ wissen wir aber bereits, dass in diesem Fall die Folge (xn ) gegen die Nullstelle ξ = a der Funktion f konvergiert. Sei nun f : (−2, 2) → R definiert durch f (x) := −x2 + 3x f¨ ur
x ∈ [0, 2),
f (x) := −f (−x) f¨ ur
x ∈ (−2, 0).
Ist dann x0 = 1 gew¨ ahlt, so ist f (x0 ) = f (1) = 2, f & (1) = 1 und somit x1 = −1. Wegen f (−1) = −f (1) = −2 und f & (−1) = f & (1) = 1 folgt x2 = 1. Dies zeigt, dass ur alle k ∈ N gilt. Die Folge (xn ) konvergiert damit nicht x2k−1 = −1 und x2k = 1 f¨ gegen die Nullstelle x = 0. Diese Beispiele machen deutlich, dass man, um ein allgemeineres Resultat zum NewtonVerfahren zu erhalten, neben der gewissermaßen nat¨ urlichen Voraussetzung, dass die Ableitung der Funktion nicht verschwinden soll, (denn sonst k¨onnte die rekursive Bildung der xn zusammenbrechen), noch weitere Voraussetzungen an die Funktion ben¨otigen wird. Der n¨ achste Satz enth¨ alt so ein allgemeineres Resultat. Die beschriebene ahlt, dass der Beweis leicht als Anwendung von Korollar 7.1, Situation ist dabei so gew¨ (d.h. letztlich als Anwendung des Banachschen Fixpunktsatzes), gef¨ uhrt werden kann. Satz 7.2 Seien a > 0, x0 ∈ R und f ∈ C 2 ([x0 − a, x0 + a], R), wobei f & (x) 3= 0 sei f¨ ur x ∈ [x0 − a, x0 + a]. Auch gelte mit einem ρ ∈ (0, 1) # # # f (x0 ) # |f (x)f && (x)| # # ≤ ρ f¨ ur x ∈ [x0 − a, x0 + a]. # f & (x0 ) # ≤ (1 − ρ)a und (f & (x))2
7.2 Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen
223
Dann gibt es genau ein ξ ∈ [x0 − a, x0 + a] mit f (ξ) = 0 und die durch xn+1 := xn −
f (xn ) f & (xn )
f¨ ur
n ∈ N0
(7.5)
definierte Folge (xn )n∈N0 konvergiert gegen ξ. Beweis: Sei I := [x0 −a, x0 +a]. Wegen f & (x) 3= 0 f¨ ur x ∈ I k¨onnen wir g(x) := x−f (x)(f & (x))−1 f¨ ur x ∈ I definieren. Dann gilt g & (x) = 1 −
f (x)f && (x) f & (x)2 − f (x)f && (x) = , f & (x)2 f & (x)2
und aufgrund unserer Voraussetzungen gilt somit |g & (x)| ≤ ρ f¨ ur x ∈ I. Unter Ben¨ utzung des Mittelwertsatzes der Differentialrechnung folgt weiter |g(x) − g(y)| ≤ ρ|x − y| f¨ ur
x, y ∈ I.
Damit erf¨ ullt g die Voraussetzung (7.4) von Korollar 7.1. Es gilt aber auch |g(x0 ) − x0 | = |f (x0 )||f & (x0 )|−1 ≤ (1 − ρ)a. Damit erf¨ ullt g alle Voraussetzungen von Korollar 7.1 und somit gibt es ein ξ ∈ I mit g(ξ) = ξ, d.h. mit f (ξ)(f (ξ))−1 = 0, somit also f (ξ) = 0. Auch konvergiert die durch xn+1 := g(xn ) definierte Folge (xn )n∈N gegen ξ. Die Iterationsvorschrift xn+1 = g(xn ) ist aber identisch mit (7.5). Dass im Intervall I h¨ochstens eine Nullstelle von f liegen kann, folgt sofort aus dem Satz von Rolle, denn zwischen zwei Nullstellen m¨ usste danach eine Stelle mit verschwindender Ableitung liegen. !
7.2
Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen
Satz 4.4 hatte gezeigt, dass bei differenzierbaren Funktionen f : (a, b) → R im Fall f & (x) > 0 f¨ ur alle x ∈ (a, b) eine differenzierbare Umkehrfunktion f −1 : f ((a, b)) → (a, b) existiert. Zu diesem Ergebnis kann es im Fall von Funktionen mehrerer Variabler kein unmittelbares Gegenst¨ uck geben, wie das folgende Beispiel zeigt: Sei f : R2 → R2 definiert durch f (x1 , x2 ) :=
: x1 ; e cos x2 ex1 sin x2
f¨ ur
: ; x1 ∈ R2 . x2
Es ist sicher f ∈ C 1 (R2 , R2 ) mit der als Jacobi-Matrix geschriebenen Ableitung : ; exp(x1 ) cos x2 − exp(x1 ) sin x2 & f (x1 , x2 ) = . exp(x1 ) sin x2 exp(x1 ) cos x2
224
7 Banachscher Fixpunktsatz, Anwendungen
Es ist stets detf & (x1 , x2 ) = exp(2x1 ) > 0 und damit ist letztlich, wie wir zeigen werden, f¨ ur jeden Bildpunkt η ∈ R2 lokale Umkehrbarkeit gegeben, und zwar jeweils auf der Grundlage, dass ein ξ ∈ R2 mit f (ξ) = η gew¨ahlt wird und die Umkehrabbildung auf eine Umgebung dieses gew¨ ahlten Punktes ξ abbildet. Die Schwierigkeit bei der Frage der Umkehrbarkeit von f ist, dass dieses ξ global gesehen keineswegs eindeutig durch η bestimmt sein muss. Global ist sogar tats¨achlich bei dieser Abbildung die Injektivit¨ at schwer gest¨ort und damit global die Existenz einer Umkehrabbildung nicht gegeben: Ist η ∈ R2 \{(0, 0)} beliebig gegeben, so gibt es ja aufgrund der Beschreibbarkeit mit Polarkoordinaten ein r > 0 und ein ϕ ∈ [0, 2π) mit η1 = r cos ϕ und η2 = r sin ϕ. Nun gibt amlich ρ = log r. Damit ist dann η = f (ρ, ϕ). Wegen es aber auch ein ρ ∈ R mit r = eρ , n¨ der Periodizit¨ at der trigonometrischen Funktionen gilt aber auch η = f (ρ, ϕ + k2π) f¨ ur alle k ∈ Z. Jeder Punkt η ∈ R2 \ {(0, 0)} tritt also sogar unendlich oft als Bildpunkt unter f auf. Die Diskussion der lokalen Umkehrbarkeit beginnen wir mit einer einfachen Situation, die eine technisch unkomplizierte Argumentation erm¨oglicht. Lemma 7.1 Sei Ω ⊂ Rn offen, sei 0 ∈ Ω und f ∈ C 1 (Ω, Rn ) mit f (0) = 0 und f & (0) = idRn . Dann gibt es eine offene Umgebung U ⊂ Ω von 0 ∈ Ω, so dass V := f (U ) eine offene Umgebung von 0 ∈ Rn ist, die lineare Abbildung f & (x) f¨ ur alle x ∈ U invertierbar ist und zur Abbildung f |U : U → V eine stetige Umkehrabbildung f −1 : V → U existiert. Beweis: Es soll m¨ oglich sein, im Fall, dass 9y9 klein ist, zur Gleichung f (x) = y eine eindeutig bestimmte L¨ osung xy anzugeben, mit der dann nat¨ urlich f −1 (y) = xy gelten muss. Dazu ordnen wir jedem solchen y die Abbildung hy (x) := x − f (x) + y
f¨ ur
x∈Ω
zu. Kann man einen Fixpunkt von hy finden, also ein xy mit hy (xy ) = xy , so gilt unscht f (xy ) = y. Zum Nachweis der dann ja xy − f (xy ) + y = xy und somit wie gew¨ Existenz eines (dann sogar eindeutig bestimmten) Fixpunktes xy von hy setzen wir den Banachschen Fixpunktsatz ein. Da f ∈ C 1 (Ω, Rn ) ist, gibt es ein r > 0, so dass 9f & (x) − idRn 9 ≤
1 2
f¨ ur
9x9 ≤ r
(7.6)
gilt. (Dabei ist 9 . 9 die Operatornorm.) Da h&y (x) = idRn − f & (x) gilt, folgt aus Satz 6.11 9hy (x) − hy (ξ)9 ≤
1 9x − ξ9 f¨ ur 2
9x9 ≤ r, 9ξ9 ≤ r.
(7.7)
7.2 Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen
225
Wegen f (0) = 0 gilt hy (0) = y und somit hy (x) = hy (x) − hy (0) + y. Daher folgt, wenn 9y9 < 2r ist, 9hy (x)9 ≤ 9hy (x) − hy (0)9 + 9y9 ≤
1 9x9 + 9y9 < r 2
f¨ ur
9x9 ≤ r.
Ist K := {x ∈ Rn : 9x9 ≤ r}, so gilt also hy (K) ⊂ U (0, r) ⊂ K, wenn 9y9 < r/2 ist. Da K eine abgeschlossene Teilmenge des Rn ist, ist K versehen mit der euklidischen Metrik ein vollst¨ andiger metrischer Raum und die Abbildung hy wegen (7.7) eine kontrahierende Abbildung dieses Raumes in sich. Nach dem Banachschen Fixpunktsatz gibt es daher, wenn 9y9 < r/2 ist, genau ein xy ∈ K mit hy (xy ) = xy , also f (xy ) = y. ur y ∈ V definieSetzt man V := U (0, r/2) ⊂ Rn , so kann man damit g(y) := xy f¨ ren. Es gilt dann f (g(y)) = y f¨ ur alle y ∈ V und g(f (x)) = g(xf (x) ) = x f¨ ur alle x ∈ f −1 (V ) ∩ U (0, r), (da ja hf (x) (x) = x gilt). Dies zeigt, dass g die Umkehrabbildung zu f : f −1 (V ) ∩ U (0, r) → V ist. Da wegen f (0) = 0 ja 0 ∈ f −1 (V ) ∩ U (0, r) ist, erh¨alt man mit U := f −1 (V ) ∩ U (0, r) eine offene Umgebung von 0 ∈ Rn . Denn U ist offen, weil V offen ist, damit aufgrund der Stetigkeit von f auch die Menge f −1 (V ) offen ist, und U (0, r) offen ist. Es ist noch zu zeigen, dass die Abbildung g stetig ist. Da nach Definition h0 (x) = x−f (x) f¨ ur x ∈ Ω gilt, k¨ onnen wir f¨ ur y, η ∈ V notieren g(y) − g(η) = xy − xη = h0 (xy ) + f (xy ) − h0 (xη ) − f (xη ). Mit (7.7) folgt 9g(y) − g(η)9 ≤
1 9xy − xη 9 + 9f (xy ) − f (xη )9. 2
Wegen xy = g(y), xη = g(η), f (xy ) = y und f (xη ) = η folgt daraus 9g(y) − g(η)9 ≤ 29y − η9, somit ist g sogar Lipschitz-stetig. ur alle x ∈ U invertierbar ist, ergibt sich aus Die letzte Behauptung, dass f & (x) sogar f¨ (7.6). Da dies eine Absch¨ atzung f¨ ur die Operatornorm ist, gilt ja zun¨achst f¨ ur jeden Vektor w ∈ Rn mit 9w9 = 1 die Absch¨ atzung 9(f & (x) − idRn )w9 ≤ 12 . Ist v 3= 0 ein beliebiger Vektor, so gilt damit 9(f & (x) − idRn )(9v9−1 v)9 ≤ 12 . Wir k¨onnen daher notieren 9(f & (x) − idRn )v9 ≤
1 9v9 f¨ ur 2
v ∈ Rn ,
(7.8)
wenn 9x9 < r ist. Ist nun v aus dem Kern der linearen Abbildung f & (x), gilt also f & (x)v = 0, so geht (7.8) in die Absch¨ atzung 9v9 ≤ 21 9v9 u ¨ ber, die offenbar nur im Fall v = 0 erf¨ ullt sein kann. Damit ist aber die lineare Abbildung f & (x) invertierbar, wenn x ∈ U ⊂ U (0, r) ist. ! Der Schritt zu allgemeineren Situationen ist nun nicht mehr schwierig.
226
7 Banachscher Fixpunktsatz, Anwendungen
Satz 7.3 Sei Ω ⊂ Rn offen, sei f ∈ C 1 (Ω, Rn ) und ξ ∈ Ω mit f & (ξ) invertierbar. Dann gibt es eine offene Umgebung U ⊂ Ω von ξ, so dass V := f (U ) eine offene Umgebung von f (ξ) ist und zur Abbildung f |U : U → V eine stetige Umkehrabbildung f −1 : V → U existiert. Außerdem ist f & (x) invertierbar f¨ ur alle x ∈ U . Beweis: Sei Ωξ := {x ∈ Rn : Es gibt ein y ∈ Ω mit x = y − ξ} und ϕ(x) := f (x + ξ) − f (ξ)
f¨ ur
x ∈ Ωξ .
Setzt man noch ψ := (f & (ξ))−1 ◦ ϕ, so erf¨ ullt die Abbildung ψ : Ωξ → Rn alle Voraussetzungen von Lemma 7.1. Denn es ist 0 = ξ − ξ ∈ Ωξ und, da ϕ(0) = 0 gilt und (f & (ξ))−1 eine lineare Abbildung ist, ψ(0) = (f & (ξ))−1 (ϕ(0)) = (f & (ξ))−1 (0) = 0. Nach der Kettenregel ist ψ differenzierbar und es gilt ψ & (x) = (f & (ξ))−1 ◦ ϕ& (x) = (f & (ξ))−1 ◦ f & (x + ξ). achlich Damit gilt tats¨
ψ & (0) = (f & (ξ))−1 ◦ f & (ξ) = idRn .
Es existiert somit eine offene Umgebung U0 von 0 ∈ Rn , so dass alle Aussagen von Lemma 7.1 zur lokalen Umkehrbarkeit von ψ gelten. Damit gelten aber auch die entsprechenden Aussagen f¨ ur die Abbildung ϕ. Setzt man U := {x ∈ Rn : Es gibt ein y ∈ U0 mit x = y + ξ}, so u ¨ bertr¨agt sich alles ohne Schwierigkeiten auf die Abbildung f , denn es gilt ja f (x) = ϕ(x − ξ) + f (ξ) f¨ ur x ∈ U. ! Bemerkenswert ist eine einfache Folgerung aus den bisher gewonnenen Resultaten: Korollar 7.2 ur alle x ∈ Ω invertierbar. Sei Ω ⊂ Rn offen, sei f ∈ C 1 (Ω, Rn ) und es sei f & (x) f¨ Dann ist f (Ω) ⊂ Rn offen. Beweis: Nach Satz 7.3 gibt es zu jedem x ∈ Ω eine offene Umgebung Ux8von x, so dass f (Ux ) eine offene Umgebung von f (x) ist. Da trivialerweise f (Ω) = x∈Ω Ux gilt, ist f (U ) offen. ! Bisher haben wir nur die Stetigkeit der lokal existierenden Umkehrabbildung bewiesen, der folgende Satz zeigt jedoch, dass sie sogar ebenfalls stetig differenzierbar ist.
7.2 Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen
227
Satz 7.4 Seien U, V ⊂ Rn offen und sei f ∈ C 1 (U, Rn ) mit f (U ) = V so, dass eine stetige ur alle x ∈ U invertierbar ist. Umkehrabbildung f −1 : V → U existiert und f & (x) f¨ Dann ist auch f −1 eine C 1 -Abbildung. Beweis: Es wird zun¨ achst gezeigt, dass f −1 in jedem Punkt y ∈ V differenzierbar ist. Dazu ist −1 f (y + h) − f −1 (y) zu betrachten, wobei h ∈ U (y, r) ⊂ V sei. Sei x := f −1 (y) und ξ := f −1 (y + h) − f −1 (y). (Damit gilt x + ξ = f −1 (y + h).) Wegen der Differenzierbarkeit von f im Punkt x gilt f (x + ξ) = f (x) + f & (x)ξ + ρ(ξ), wobei limξ→0
1 .ξ. ρ(ξ)
= 0 gilt. Notiert man dies als ξ = f & (x)−1 (f (x + ξ) − f (x) − ρ(ξ)),
so folgt f −1 (y + h) − f −1 (y) = f & (x)−1 (h) − f & (x)−1 (ρ(f −1 (y + h) − f −1 (y))).
(7.9)
Offenbar wird nun (f −1 )& (y) = (f & (f −1 (y)))−1
(7.10)
gelten, wenn wir noch 1 & −1 f (x) (ρ(f −1 (y + h) − f −1 (y))) = 0 h→0 9h9 lim
(7.11)
zeigen k¨ onnen. Zur Abk¨ urzung setzen wir μ := 9f & (x)−1 9, (wobei hier wieder die Operatornorm der linearen Abbildung f & (x)−1 verwendet wird). Da 9ξ9−1 ρ(ξ) → 0 f¨ ur ξ → 0 gilt und f −1 stetig ist, gibt es ein r > 0 und ein δ > 0, so dass 9ρ(ξ)9 ≤ und
1 9ξ9 2μ
f¨ ur
9ξ9 < r
9ξ9 = 9f −1 (y + h) − f −1 (y)9 < r
f¨ ur
9h9 < δ
gilt. Es folgt f¨ ur 9h9 < δ 9f & (x)−1 (ρ(f −1 (y + h) − f −1 (y)))9 ≤
1 −1 9f (y + h) − f −1 (y)9. 2
Damit erh¨ alt man aus (7.9) f¨ ur 9h9 < δ 1 9f −1 (y + h) − f −1 (y)9 ≤ μ9h9 + 9f −1 (y + h) − f −1 (y)9, 2
228
7 Banachscher Fixpunktsatz, Anwendungen
also
9f −1 (y + h) − f −1 (y)9 ≤ 2μ9h9.
F¨ ur 0 < 9h9 < δ kann man also mit ξ = f −1 (y + h) − f −1 (y) absch¨atzen 1 μ 1 9f & (x)−1 (ρ(f −1 (y + h) − f −1 (y)))9 ≤ 9f −1 (y + h) − f −1 (y)9 9ρ(ξ)9 9h9 9h9 9ξ9 1 ≤ 2μ2 9ρ(ξ)9. 9ξ9 Wegen der Stetigkeit von f −1 gilt aber auch ξ → 0 f¨ ur h → 0. Damit gilt tats¨achlich (7.11) und die Ableitung von f −1 ist durch (7.10) gegeben. Zum abschließenden Nachweis, dass f −1 sogar eine C 1 -Abbildung ist, sei gezeigt, dass s¨amtliche partiellen Ableitungen stetig sein m¨ ussen. Dazu n¨ utzen wir (7.10) aus. Die Jacobi-Matrix zu (f −1 )& (y) ist danach bekanntlich gleich der Inversen zur Jacobi-Matrix von f & (f −1 (y)) =: J(f −1 (y)). Nun ist f −1 stetig und alle partiellen Ableitungen von f sind stetig, somit sind s¨ amtliche Eintr¨ age in der Matrix J(f −1 (y)) stetige Funktionen. Bedenkt man, wie man mit Hilfe von Determinanten die Inverse zu einer gegebenen Matrix berechnen kann, so sieht man, dass dann auch in der Jacobi-Matrix zu (f −1 )& (y) ! nur stetige Funktionen auftreten. Meist werden die nun gewonnenen Ergebnisse zusammengefasst unter Verwendung des Begriffes Diffeomorphismus: Seien U, V ⊂ Rn offen und sei f : U → V eine bijektive Abbildung. Man nennt f einen C 1 - Diffeomorphismus, wenn f ∈ C 1 (U, V ) und f −1 ∈ C 1 (V, U ) gilt. Damit kann man den Satz u ¨ ber die Umkehrabbildung folgendermaßen formulieren: Satz 7.5 Sei Ω ⊂ Rn offen und f ∈ C 1 (Ω, Rn ). Dann gibt es zu jedem ξ ∈ Ω mit f & (ξ) invertierbar eine offene Umgebung U ⊂ Ω von ξ, so dass V := f (U ) eine offene Umgebung von f (ξ) ist und die Abbildung f |U : U → V ein C 1 -Diffeomorphismus ist. Dabei gilt (7.10) f¨ ur y ∈ V . Wir werden dieses Ergebnis nun einsetzen, um zu kl¨aren, in welcher Weise man mit Hilfe von Gleichungen implizit Funktionen definieren kann. Es sei die Situation zun¨achst an Hand eines einfachen Beispiels erl¨ autert: √ Ist y(x) = r2 − x2 mit x ∈ [−r, r] ⊂ R, (r > 0), so gilt ja x2 + y(x)2 − r2 = 0, d.h. die Funktion x /→ y(x) ist in gewisser Weise implizit festgelegt durch die Gleichung f (x, y) = 0 mit f (x, y) = x2 + y 2 − r2 . Bekanntlich kann man aber die Gleichung x2 + y 2 − r2 = 0 bei gegebenem x ∈ (−r, r) nicht eindeutig nach y aufl¨osen, √ da die quadratische Gleichung zwei verschiedene L¨ osungen hat. Die Funktion y(x) = r2 − x2 wird also nur dann eindeutig als stetige Funktion durch diese Gleichung festgelegt, wenn man etwa noch y(0) = r fordert. Man beachte, dass dann f¨ ur f (x, y) = x2 + y 2 − r2 gilt ∂y f (0, r) = 2r 3= 0.
7.2 Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen
229
Dieses Nichtverschwinden der partiellen Ableitung nach y werden wir im eine allgemeinere Situation beschreibenden Satz ¨ uber implizite Funktionen wiederfinden in der Forderung der Invertierbarkeit einer entsprechenden Jacobi-Matrix. F¨ ur den Beweis des Satzes wird das folgende einfache Lemma n¨ utzlich sein. Lemma 7.2 Seien U ⊂ Rm und V ⊂ Rn offen, sei f : U × V → Rn stetig differenzierbar, sei (ξ, η) ∈ U × V beliebig gew¨ ahlt. Dann sind auch die Abbildungen g1 : x ∈ U /→ f (x, η), g2 : y ∈ V /→ f (ξ, y) und die Abbildung F : (x, y) ∈ U × V /→ (x, f (x, y)) ∈ Rm+n stetig differenzierbar. Es gilt F & (ξ, η)(v, w) = (v, g1& (ξ)v + g2& (η)w)
f¨ ur
(v, w) ∈ Rm × Rn .
(7.12)
Beweis: Bei allen drei Abbildungen kann man sich sofort davon u ¨berzeugen, dass sie, wenn f stetige partielle Ableitungen besitzt, ebenfalls stetige partielle Ableitungen besitzen und damit stetig differenzierbar sind. F¨ ur den Nachweis von (7.12) zeigen wir zun¨ achst, dass die lineare Abbildung v ∈ Rm /→ & f (ξ, η)(v, 0) die Ableitung von g1 im Punkt ξ ist. Es gilt ja f¨ ur geeignete Vektoren (h, k) ∈ Rm × Rn f (ξ + h, η + k) = f (ξ, η) + f & (ξ, η)(h, k) + ρ((h, k)) mit 9(h, k)9−1 ρ((h, k)) → 0 f¨ ur (h, k) → 0 ∈ Rm × Rn . Betrachtet man die Frage der Differenzierbarkeit von g1 im Punkt ξ, so hat man es ja mit Differenzen g1 (ξ + h, η) − g1 (ξ, η), also mit Differenzen f (ξ + h, η + k) − f (ξ, η) mit speziell k = 0 zu tun. Daran sieht man sofort, dass g1& (ξ)h = f & (ξ, η)(h, 0) gilt. Bei der Abbildung g2 kann man offenbar analog argumentieren und erh¨alt dann g2& (η)k = f & (ξ, η)(0, k). Nach der Definition der Abbildung F gilt F (ξ + h, η + k) − F (ξ, η) = (ξ + h − ξ, f (ξ + h, η + k) − f (ξ, η)) = (h, f & (ξ, η)(h, k)) + (0, ρ((h, k))). Daran kann man, wenn man (h, k) = (h, 0) + (0, k) bedenkt, die G¨ ultigkeit von (7.12) unmittelbar ablesen. ! Beim Satz u ¨ ber implizite Funktionen betrachtet man nun entsprechend zur soeben diskutierten Situation Abbildungen f : U × V → Rn und m¨ochte erreichen, dass man ausgehend von der Gleichung f (x, y) = 0 wenigstens lokal eine Abbildung x /→ y(x) definieren kann, die f (x, y(x)) = 0 f¨ ur alle x aus ihrem Definitionsbereich erf¨ ullt.
230
7 Banachscher Fixpunktsatz, Anwendungen
Satz 7.6 Seien U ⊂ Rm und V ⊂ Rn offen, sei f : U × V → Rn stetig differenzierbar und sei (ξ, η) ∈ U × V mit f (ξ, η) = 0. Dann gilt: Geh¨ ort zur Abbildung y ∈ V /→ f (ξ, y) im Punkt η eine invertierbare Jacobi-Matrix, so gibt es eine Umgebung U (ξ, ρ) = {x ∈ Rm : 9x − ξ9 < ρ} ⊂ U von ξ und eine Umgebung U (η, σ) = {y ∈ Rn : 9y − η9 < σ} ⊂ V von η und genau eine stetig differenzierbare Abbildung ϕ : U (ξ, ρ) → U (η, σ) mit ϕ(ξ) = η und f (x, ϕ(x)) = 0 f¨ ur alle x ∈ U (ξ, ρ). F¨ ur jedes x ∈ U (ξ, ρ) ist dabei ϕ(x) sogar die einzige in U (η, σ) liegende L¨ osung der Gleichung f (x, y) = 0. Beweis: Seien F : U ×V → Rn und g2 : V → Rn wie in Lemma 7.2 definiert. Nach Voraussetzung ist die Ableitung g2& (η) eine invertierbare lineare Abbildung. Die Darstellung (7.12) von F & (ξ, η) zeigt, dass dann auch F & (ξ, η) invertierbar ist. Denn setzt man Φ(v, w) := (v, g2& (η)−1 (w − g1& (ξ)v)) f¨ ur (v, w) ∈ Rm × Rn , so gilt F & (ξ, η)(Φ(v, w)) = (v, w) und Φ(F & (ξ, η)(v, w)) = (v, w). Damit ist aber Satz 7.5 f¨ ur die Abbildung F einsetzbar und es gibt eine offene Umgebung A ⊂ U × V von (ξ, η) und eine offene Umgebung B ⊂ Rm+n von F (ξ, η) = (ξ, f (ξ, η)) = (ξ, 0), so dass F : A → B ein C 1 -Diffeomorphismus ist. Die Definition von F zeigt, dass die (lokale) Umkehrabbildung F −1 auch von der Form F −1 (x, y) = (x, h(x, y)) mit einer C 1 -Abbildung h sein muss. Offenbar gilt f¨ ur (x, y) ∈ A genau dann F (x, y) = (x, 0), wenn f (x, y) = 0 ist. Es gilt aber auch genau dann F (x, y) = (x, 0), wenn F −1 (x, 0) = (x, y) gilt, also, wenn y = h(x, 0) gilt. Da f (ξ, η) = 0 gilt, k¨ onnen wir somit h(ξ, 0) = η notieren. Da h stetig ist, gibt es Umgebungen U (ξ, ρ) von ξ und U (η, σ) von η, so dass h(x, 0) ∈ U (η, σ) gilt f¨ ur alle x ∈ U (ξ, ρ). Definieren wir also ϕ(x) := h(x, 0) f¨ ur x ∈ U (ξ, ρ), so gilt ϕ(ξ) = η und f (x, ϕ(x)) = 0. Somit ist mit ϕ eine Abbildung mit den im Satz geforderten Eigenschaften gefunden. Da f (x, y) = 0 genau dann gilt, wenn y = h(x, 0) gilt, ist auch die behauptete Eindeutigkeit bewiesen. ! Ausgehend von der Gleichung f (x, ϕ(x)) = 0 kann man unter Verwendung der Kettenregel auch die Ableitung der Abbildung ϕ gewinnen. Sei dies hier f¨ ur den wichtigen Spezialfall n = 1 notiert. In diesem Fall notieren wir die partielle Ableitung von f : U × V → R nach y als ∂m+1 f und nach den Ergebnissen von Abschnitt 6.2 gilt dann f¨ ur k = 1, . . . , m ∂k f (x, ϕ(x)) = ∂k f (x, ϕ(x)) + ∂m+1 f (x, ϕ(x))∂k ϕ(x) = 0. Damit gilt ∂k ϕ(x) = −(∂m+1 f (x, ϕ(x)))−1 ∂k f (x, ϕ(x))
f¨ ur
k = 1, . . . m
in einer Umgebung von ξ. (Man beachte, dass in dieser Situation die Invertierbarkeit der Jacobi-Matrix zur Abbildung y ∈ V /→ f (ξ, y) identisch mit dem Nichtverschwinden der Ableitung ∂m+1 f ist.)
7.2 Lokale Umkehrbarkeit von Abbildungen, implizite Funktionen
231
Die Bedeutung des Satzes u ¨ber implizite Funktionen l¨asst sich gut demonstrieren bei der Diskussion der Frage, wie die Nullstellen einer Polynomfunktion, deren Koeffizienten von einem Parameter abh¨ angen, von diesem Parameter abh¨angen. Die Problematik, die mit dieser Frage verbunden ist, wird gut sichtbar bei folgendem einfachen Beispiel: Sei die Funktion p : R × R → R definiert durch p(λ, t) := t2 − 3λt + 2λ2 . Bei festem λ ∈ R hat die Polynomfunktion t → / p(λ, t) die zwei, (im Fall λ 3= 0 verschiedenen), Nullstellen t1 (λ) = λ und t2 (λ) = 2λ, (wie Einsetzen sofort zeigt). Es sind also sicher t1 und t2 stetig differenzierbare Funktionen des Parameters λ. Die Funktionen λ /→ tj (λ) sind offenbar implizit durch die Gleichung p(λ, t) = 0 bestimmt. Somit m¨ usste der Satz u ¨ ber implizite Funktionen geeignet sein, die Information zu liefern, dass t1 und t2 stetig differenzierbare Funktionen des Parameters λ sind. Tats¨ achlich gelingt dies auch lokal, wenn λ = λ0 3= 0 ist, (also wenn zwei einfache Nullstellen vorliegen). In diesem Fall kann man ja, wenn man t1 (λ0 ) = λ0 vorgibt, lokal die Gleichung p(λ, t) = 0 nach t aufl¨ osen. Denn es greift der Satz u ¨ ber implizite Funktionen, weil ∂t p(λ, t) = 2t − 3λ und somit ∂t p(λ0 , λ0 ) = −λ0 3= 0 gilt. Analog kann man argumentieren, wenn man t2 (λ0 ) = 2λ0 vorgibt. Nicht erhalten kann man die zwei Funktionen t1 und t2 unter Verwendung des Satzes u ¨ ber implizite Funktionen in einer Umgebung des Punktes λ0 = 0. Denn dann ist ja ∂t p(0, 0) = 0 und eine wesentliche Voraussetzung des Satzes u ¨ber implizite Funktionen ist nicht erf¨ ullt. Dieses Versagen ist aber auch gut verst¨andlich, weil der Satz u ¨ ber implizite Funktionen ja mit der implizit definierten Funktion ϕ alle Nullstellen von f in einer Umgebung des Punktes (ξ, η) beschreibt. Da aber in jeder Umgebung von (0, 0) sowohl Punkte (λ, t1 (λ)) als auch Punkte (λ, t2 (λ)) liegen, ist die Menge aller Nullstellen von p lokal um (0, 0) nicht durch eine einzige implizit definierte Funktion beschreibbar. Diese Diskussion zeigt bereits, wie der folgende Satz sich als Spezialfall aus dem Satz u ¨ ber implizite Funktionen ergibt. Satz 7.7 ur k = 1, . . . , n, sei Sei n ∈ N, seien ak ∈ C 1 (R, R) f¨ p(x, t) := tn +
n =
ak (x)tn−k
f¨ ur
(x, t) ∈ R2 .
k=1
Sei (x0 , t0 ) ∈ R2 mit p(x0 , t0 ) = 0 und (∂/∂t)p(x0 , t0 ) 3= 0. Dann gibt es ein Intervall (x0 − δ, x0 + δ) und eine stetig differenzierbare Funktion ϕ : (x0 − δ, x0 + δ) → R, so dass ϕ(x0 ) = t0 und p(x, ϕ(x)) = 0 f¨ ur x ∈ (x0 − δ, x0 + δ) gilt. Die Einsetzbarkeit des Banachschen Fixpunktsatzes f¨ ur ganz verschiedene Probleme soll im n¨ achsten Abschnitt dadurch demonstriert werden, dass er zur Diskussion eines amlich der Frage der Existenz von L¨osungen zun¨ achst ganz anders gearteten Problems, n¨ gewisser Differentialgleichungsprobleme, ben¨ utzt wird.
232
7.3
7 Banachscher Fixpunktsatz, Anwendungen
Zum Anfangswertproblem bei gew¨ohnlichen Differentialgleichungen
Differentialgleichungen werden h¨ aufig als mathematische Modelle zur Beschreibung von physikalischen Vorg¨ angen, (aber keineswegs nur von solchen), verwendet. H¨angt dabei eine physikalische Gr¨ oße etwa von allen drei Raumkoordinaten x, y, z und der Zeit t ab, so treten dabei i.a. partielle Ableitungen der gesuchten Funktion nach x, y, z und t auf und es liegt somit eine partielle Differentialgleichung vor. Kann man aber etwa den Vorgang beschreiben, indem man nur den zeitlichen Verlauf einer Gr¨oße kennt, so werden nur Ableitungen nach dieser einen Variablen t auftreten und es liegt eine gew¨ ohnliche Differentialgleichung vor. Es sei zur Einf¨ uhrung ein einfaches physikalisches Problem behandelt, bei dem eine gew¨ohnliche, aber bereits nichtlineare Differentialgleichung auftritt. Es sei die Bewegung eines Autos unter gewissen idealisierten Bedingungen diskutiert. Wir nehmen an, dass das Auto zur Zeit t = 0 startet, von da ab aber immer mit konstanter Antriebskraft gegen einen konstanten Rollwiderstand und gegen den nat¨ urlich mit der Geschwindigkeit anwachsenden Luftwiderstand beschleunigt. Ist u(t) der Ort des Autos zur Zeit t, so interessiert uns nun der Verlauf der Funktion t /→ u(t) f¨ ur t ≥ 0. Offenbar d¨ urfen wir dabei annehmen, dass u(0) = 0 sei. Da u& (t) die Geschwindigkeit des Autos zur Zeit t ist, m¨ ussen wir noch von u& (0) = 0 ausgehen. Da der Luftwiderstand quadratisch mit der Geschwindigkeit ansteigt, erhalten wir unter Verwendung von bekannten physikalischen Prinzipien, dass die Funktion t /→ u(t) der Differentialgleichung mu&& (t) = K − α(u& (t))2
f¨ ur
t≥0
(7.13)
gen¨ ugen muss, wobei in der Konstanten K die konstante Antriebskraft vermindert um den konstanten Rollwiderstand und im nichtlinearen Term α(u& (t))2 der Luftwiderstand steckt. (Alle Konstanten m, K, α sind positiv). Es handelt sich offenbar um eine nichtlineare Differentialgleichung zweiter Ordnung, weil Ableitungen der gesuchten Funktion bis zur zweiten Ordnung in der Gleichung auftreten. Zu dieser Differentialgleichung kommen noch die zwei Anfangsbedingungen u(0) = 0, u& (0) = 0
(7.14)
hinzu. Falls wir damit tats¨ achlich ein sinnvolles Modell f¨ ur die Bewegung des Autos haben, so sollte nat¨ urlich die Funktion u f¨ ur t ≥ 0 eindeutig durch die Differentialgleichung (7.13) und die Anfangsbedingungen (7.14) festgelegt sein. Es stellt sich also außer der Frage nach der Existenz auch sofort die Frage nach der Eindeutigkeit der L¨osung. Bei der konkret gegebenen Differentialgleichung (7.13) ist es m¨oglich, die Diskussion des Anfangswertproblems (7.13), (7.14) auf die Diskussion eines einfacheren Problems bei einer Differentialgleichung erster Ordnung zur¨ uckzuf¨ uhren. In der Differentialgleichung (7.13) tritt ja die gesuchte Funktion u selber gar nicht auf. Damit erh¨alt man aber, wenn u L¨ osung von (7.13), (7.14) ist und man v(t) := u& (t) setzt, f¨ ur die Funktion v das Anfangswertproblem v & (t) = k − β(v(t))2
f¨ ur
t ≥ 0,
v(0) = 0,
(7.15)
7.3 Zum Anfangswertproblem bei gew¨ohnlichen Differentialgleichungen
233
ur uns wobei wir offenbar k := K/m und β := α/m gesetzt haben. Interessanter ist f¨ aber nun der umgekehrte Schluss, n¨ amlich, dass man, wenn man eine L¨osung v von (7.15) hat, man daraus auch rasch eine L¨ osung des urspr¨ unglichen Problems (7.13), (7.14) gewinnen kann. Dies ist auch tats¨ achlich m¨oglich: Ist v ∈ C 1 ([0, ρ)), (es kann auch ρ = ∞ sein), eine L¨ osung von (7.15), so muss man nur noch das Problem u& (t) = v(t)
f¨ ur
t ∈ [0, ρ),
u(0) = 0,
(7.16)
osung dieses Problems, so ist u tats¨achlich L¨osung von (7.13), l¨osen. Ist u ∈ C 1 ([0, ρ)) L¨ urlich u sogar zweimal (7.14). Denn da v stetig differenzierbar ist und u& = v gilt, ist nat¨ stetig differenzierbar, (bei t = 0 nur einseitig), und es gilt mu&& (t) = mv & (t) = K − α(v(t))2 = K − α(u& (t))2 . Außerdem gilt u(0) = 0, u& (0) = v(0) = 0. Eine L¨osung von (7.16) kann man aber bei gegebenem v sofort angeben, wenn man nur weiß, dass v stetig ist. Und zwar ist offenbar ( t u(t) := v(τ )dτ f¨ ur t ≥ 0 0
osung von (7.16). Bei diesem einfachen Problem ist auch sofort zu sehen, dass eine L¨ dies die einzige stetig differenzierbare L¨ osung ist. Denn ist y ∈ C 1 ([0, ρ)) eine weitere L¨ osung von (7.16), so gilt ja f¨ ur die Differenz w := u − y offenbar w& (t) = 0 f¨ ur t ≥ 0 und w(0) = 0, woraus sofort w(t) = 0 f¨ ur alle t ≥ 0, folgt, weil ja aus w& (t) = 0 folgt, dass w konstant sein muss. Aber auch eine L¨ osung von (7.15) l¨ asst sich relativ leicht finden, weil die Differentialgleichung trotz der Nichtlinearit¨ at von einfacher Struktur ist. Wegen v(0) = 0 muss f¨ ur jede stetig differenzierbare L¨ osung des Anfangswertproblems in einem Intervall [0, τ ) gelten v(t)2 < k/β. Damit erf¨ ullt die L¨ osung in diesem Intervall die Gleichung v & (t) = 1. k − β(v(t))2 Beide Seiten dieser Gleichung sind stetige Funktionen und damit folgt ( t ( t v & (s) ds = ds = t f¨ ur t ∈ [0, τ ). 2 0 k − β(v(s)) 0
(7.17)
Das verbleibende Integral kann man aber ausrechnen, wenn man notiert, dass : ; 1 1 1 1 1 √ = + k − βv 2 2 βk (k/β)1/2 − v (k/β)1/2 + v gilt. (Es ist dies offenbar eine Partialbruchzerlegung.) Nach der Kettenregel gilt, wenn man noch γ := (k/β)1/2 setzt, d v & (t) log(γ + v(t)) = dt γ + v(t)
und
d v & (t) (− log(γ − v(t))) = , dt γ − v(t)
234
7 Banachscher Fixpunktsatz, Anwendungen
ucksichtigung von v(0) = 0 (sofern 0 ≤ v(t) < γ ist). Damit folgt aus (7.17) unter Ber¨ 1 (log(γ + v(t)) − log(γ − v(t))) = t. 2βγ diese Gleichung kann man aber nach v(t) aufl¨osen und erh¨alt v(t) = γ
1 − e−2βγt , 1 + e−2βγt
wobei hier offenbar sogar t ∈ [0, ∞) sinnvoll ist, weil dann stets 0 ≤ v(t) < γ ist. Da v(t) die Geschwindigkeit des Autos zum Zeitpunkt t ist, zeigt dieses Resultat, dass die Geschwindigkeit des Autos trotz konstanter Antriebskraft nicht unbeschr¨ankt zunimmt, was offenbar durch den wachsenden Luftwiderstand bedingt ist. Durch den Wert γ wird dabei offenbar die Grenzgeschwindigkeit gegeben, der sich die Geschwindigkeit des Autos f¨ ur t → ∞ n¨ ahert. Wir konnten also bei diesem Beispiel das System von zwei gew¨ohnlichen Differentialgleichungen erster Ordnung u& (t) = v(t) v & (t) = k − β(v(t))2 zusammen mit der Anfangsbedingung u(0) = 0, v(0) = 0 l¨osen. Dass dies so explizit durchgef¨ uhrt werden konnte, lag offenbar am sehr speziellen Aufbau des Systems. Bei komplizierteren Systemen stellt sich aber die Frage, ob u ¨ berhaupt eine (bei Modellen f¨ ur physikalische Vorg¨ ange m¨ oglichst eindeutig bestimmte) L¨osung so eines Anfangs¨ wertproblems existiert. Es ist nun das Ziel der weiteren Uberlegungen, zu zeigen, dass unter geeigneten Voraussetzungen eine positive Antwort auf diese Frage gegeben werden kann. Da dabei eine Variante des Banachschen Fixpunktsatzes eingesetzt werden wird und damit die Vollst¨ andigkeit eines metrischen Raumes wesentlich sein wird, zeigen wir zun¨ achst, dass der Vektorraum der stetigen Funktionen u ¨ ber einem kompakten Intervall, versehen mit der Supremumsnorm, ein Banachraum ist. Betrachtet man den Vektorraum Fb ([a, b], R), (das ist der Vektorraum aller beschr¨ankten Funktionen u : [a, b] → R), versehen mit der Supremumsnorm, so ist dieser nach Satz 2.11 ein Banachraum. Da alle stetigen Funktionen u ¨ ber einem kompakten Intervall beschr¨ ankt sind, ist C([a, b], R) ein Untervektorraum von Fb ([a, b], R). Ist nun (un )n∈N eine Cauchy-Folge in (C([a, b], R), 9 9∞ ), so existiert dazu ein Grenzwert u ∈ Fb ([a, b], R). K¨ onnen wir zeigen, dass dieser Grenzwert schon wieder im Untervektorraum C([a, b], R) liegen muss, so ist der normierte Raum (C([a, b], R), 9 9∞ ) vollst¨andig, also ein Banachraum. Dass der Grenzwert ebenfalls wieder stetig sein muss, folgt aber aus den Ergebnissen von Abschnitt 5.2. Damals hatten wir im Zuge des Beweises von Satz 5.6 gesehen, dass die Grenzfunktion einer gleichm¨ aßig konvergenten Folge stetiger Funktionen ebenfalls stetig sein muss. ohnlicher Differentialgleichungen ben¨otigen wir das Zur Behandlung von Systemen gew¨ entsprechende Resultat f¨ ur den Raum (C([a, b], Rm ), 9 9∞ ), wobei nun die Norm 9 9∞
7.3 Zum Anfangswertproblem bei gew¨ohnlichen Differentialgleichungen
235
mit der euklidischen Norm 9u(x)9 definiert ist durch 9u9∞ := sup{9u(x)9 : x ∈ [a, b]}. (Dies ist sinnvoll, weil aus der Stetigkeit der Abbildung x /→ u(x) ∈ Rm auch die Stetigkeit der Funktion x /→ 9u(x)9 ∈ R folgt.) Die Vollst¨andigkeit von (C([a, b], Rm ), 9 9∞ ) ergibt sich aber letztlich aus der Vollst¨ andigkeit des Raumes (C([a, b], R), 9 9∞ ). ur Denn ist (un )n∈N eine Cauchy-Folge in (C([a, b], Rm ), 9 9∞ ) mit m > 1, so gilt ja f¨ k, j ∈ N, r ∈ {1, . . . , m} und t ∈ [a, b] |uk,r (t) − uj,r (t)| ≤ 9uk (t) − uj (t)9 ≤ 9uk − uj 9∞ , was zeigt, dass f¨ ur jedes r ∈ {1, . . . , m} die Folge (un,r )n∈N ein Cauchy-Folge im Raum (C([a, b], R), 9 9∞ ) ist. Damit existiert ein gr ∈ C([a, b], R) mit 9un,r − gr 9∞ → 0 f¨ ur ur n → ∞. Ist nun ε > 0, so gibt es bekanntlich ein n0 ∈ N mit 9un,r − gr 9∞ < ε f¨ n ≥ n0 und alle r ∈ {1, . . . , m}. Setzt man nun g := (g1 , . . . , gm ), so ist g ∈ C([a, b], Rm ) und es gilt f¨ ur n ≥ n 0 9un − g9∞ = sup{9un (t) − g(t)9 : t ∈ [a, b]} < m1/2 ε. Damit ist aber die Vollst¨ andigkeit von (C([a, b], Rm ), 9 9∞ ) gezeigt. undigt stellen wir nun eine Variante des Banachschen Fixpunktsatzes bereit, Wie angek¨ durch die es m¨ oglich sein wird, unn¨ otige zus¨ atzliche Voraussetzungen beim angestrebten Existenzbeweis zum Anfangswertproblem bei Systemen gew¨ohnlicher Differentialgleichungen zu vermeiden. Dabei betrachten wir nun angepasst an die sp¨ater zu betrachtende Situation Abbildungen, die auf abgeschlossenen Teilmengen eines Banachraumes definiert sind. (Solche Teilmengen sind dann wieder vollst¨ andige metrische R¨aume.) Wir schreiben dabei T n f¨ ur die n-fache Hintereinanderausf¨ uhrung der Abbildung T . Satz 7.8 Sei (X, 9 9) ein Banachraum, sei U ⊂ X nichtleer und abgeschlossen, sei (αn )n∈N )∞ eine Folge in R mit αn > 0 f¨ ur alle n, so dass die Reihe n=1 αn konvergent ist. Dann gilt: Gelten f¨ ur die Abbildung T : U → U die Absch¨atzungen 9T n (u) − T n (v)9 ≤ αn 9u − v9
f¨ ur
u, v ∈ U
und
n ∈ N,
so gibt es genau ein u∗ ∈ U mit T (u∗ ) = u∗ . Ist u0 ∈ U beliebig gew¨ahlt, so konvergiert die Folge (T n (u0 ))n∈N gegen u∗ . Es gilt die Fehlerabsch¨atzung 2∞ 5 = ∗ n αk 9T (u0) − u0 9 f¨ ur n ∈ N. 9u − T (u0 )9 ≤ k=n
Beweis: Die einzelnen Beweisschritte sind ganz analog zum Beweis des Banachschen Fixpunktsatzes.
236
7 Banachscher Fixpunktsatz, Anwendungen
Eindeutigkeit: Sind u ∈ U und v ∈ U Fixpunkte von T , so gilt sogar T n (u) = u und ur alle n ∈ N und wir k¨ onnen absch¨atzen T n (v) = v f¨ 9u − v9 = 9T n (u) − T n (v)9 ≤ αn 9u − v9 f¨ ur
n ∈ N.
) Da die Reihe αn konvergent sein soll, muss die Folge (αn )n∈N eine Nullfolge sein, somit folgt 9u − v9 = 0 und u = v. Existenz: Wir betrachten wieder die durch un := T n (u0 ) definierte Folge und zeigen, dass sie eine Cauchy-Folge ist. Es ist ur 9un+1 − un 9 = 9T n (T u0 ) − T n (u0 )9 ≤ αn 9T (u0) − u0 9 f¨
n ∈ N.
Daraus folgt f¨ ur n, k ∈ N 9un+k − un 9 ≤ 9un+k − un+k−1 9 + . . . + 9un+1 − un 9 ≤
n+k−1 =
αj 9T (u0 ) − u0 9. (7.18)
j=n
) Da die Reihe αn konvergent ist, zeigt dies, dass die Folge (un )n∈N eine Cauchy-Folge ist. Diese ist in X konvergent, und da U abgeschlossen ist, liegt ihr Grenzwert in U . Sei u∗ := limn→∞ un . Die Absch¨ atzung 9un+1 − T (u∗ )9 = 9T (un ) − T (u∗ )9 ≤ α1 9un − u∗ 9 zeigt dann, dass auch un → T (u∗ ) f¨ ur n → ∞ gilt, somit muss T u∗ = u∗ gelten. Fehlerabsch¨ atzung: Offenbar muss man nur bei der Absch¨atzung (7.18) den Grenz¨ ubergang k → ∞ durchf¨ uhren. ! Diesen Fixpunktsatz werden wir einsetzen zum Nachweis der Existenz einer L¨osung einer Integralgleichung, die ¨ aquivalent zum Anfangswertproblem bei einem System von ¨ Differentialgleichungen erster Ordnung ist. Diese Aquivalenz sei im n¨achsten Lemma festgehalten: Lemma 7.3 Sei t0 ∈ R, ρ > 0, sei f : [t0 − ρ, t0 + ρ] × Rm → Rm stetig und α ∈ Rm . Dann gilt: Eine Funktion u ∈ C([t0 − ρ, t0 + ρ], Rm ) ist genau dann eine L¨osung der Integralgleichung ( u(t) = α +
t
t0
f (τ, u(τ ))dτ,
f¨ ur
t ∈ [t0 − ρ, t0 + ρ],
(7.19)
wenn u stetig differenzierbar und L¨ osung des Anfangswertproblems u& (t) = f (t, u(t)) f¨ ur ist.
t ∈ [t0 − ρ, t0 + ρ],
u(t0 ) = α
(7.20)
7.3 Zum Anfangswertproblem bei gew¨ohnlichen Differentialgleichungen
237
Beweis: ullt. Nach Sei zuerst angenommen, dass u ∈ C 1 ([t0 − ρ, t0 + ρ], Rm ) ist und (7.20) erf¨ Satz 5.5 gilt dann f¨ ur t ∈ [t0 − ρ, t0 + ρ] (
t
t0
(
&
u (τ )dτ = u(t) − u(t0 ) = u(t) − α =
t
t0
f (τ, u(τ ))dτ,
woraus sofort (7.19) folgt. Sei nun angenommen, dass u ∈ C([t0 −ρ, t0 +ρ], Rm ) L¨osung von (7.19) ist. Da aufgrund unserer Voraussetzungen auch die Funktion τ /→ f (τ, u(τ )) stetig ist, folgt nach Satz 5.4, dass u sogar differenzierbar ist und u& (t) = f (t, u(t)) f¨ ur t ∈ [t0 − ρ], t0 + ρ] gilt. Damit ist aber u sogar stetig differenzierbar. Schließlich zeigt die Integralgleichung sofort, dass u(t0 ) = α gilt. Somit ist u L¨ osung des Anfangswertproblems (7.20). ! Im folgenden Satz, der unter der Bezeichnung Satz von Picard-Lindel¨ of bekannt ist, werden wir bei der Formulierung der Anfangswertproblems nicht mehr voraussetzen, dass f (t, u) f¨ ur (t, u) ∈ [t0 − ρ, t0 + ρ] × Rm , sondern nur, dass f (t, u) f¨ ur u aus einem Bereich [α1 − δ, α1 + δ] × . . . × [αm − δ, αm + δ] ⊂ Rm definiert ist. Offenbar ist aber die Argumentation des soeben gef¨ uhrten Beweises auch durchf¨ uhrbar, wenn nur sichergestellt ist, dass man u(t) in f (t, . ) einsetzen kann. Satz 7.9 Seien a, b > 0, sei (t0 , α) ∈ R × Rm , sei W := [α1 − b, α1 + b] × . . . × [αm − b, αm + b] und R := [t0 − a, t0 + a] × W , sei f : R → Rm stetig, nicht identisch Null und es gelte mit einem K > 0 9f (t, y) − f (t, η)9 ≤ K9y − η9 f¨ ur
(t, y), (t, η) ∈ R.
(7.21)
Mit M := max{9f (t, y)9 : (t, y) ∈ R} sei ρ := min{a, b/M }. Dann gilt: Das Anfangswertproblem u& (t) = f (t, u(t)), u(t0 ) = α besitzt genau eine L¨osung u ∈ C 1 ([t0 − ρ, t0 + ρ], Rm ). Ist ur alle t ∈ [t0 − ρ, t0 + ρ]} v0 ∈ {v ∈ C([t0 − ρ, t0 + ρ], Rm ) : v(t) ∈ W f¨ beliebig gew¨ ahlt, und davon ausgehend die Folge (vn )n∈N rekursiv definiert durch ( vn (t) := α +
t
t0
f (s, vn−1 (s))ds
f¨ ur
t ∈ [t0 − ρ, t0 + ρ], n ∈ N,
aßig in t ∈ [t0 − ρ, t0 + ρ]. so gilt vn (t) → u(t) gleichm¨ Dabei gilt die Fehlerabsch¨ atzung ⎛ ⎞ ∞ = 1 (ρK)j ⎠ 9u(t) − vn (t)9 ≤ ⎝ 9v1 (t) − v0 (t)9 max j! t∈[t0 −ρ,t0 +ρ] j=n f¨ ur t ∈ [t0 − ρ, t0 + ρ], n ∈ N.
238
7 Banachscher Fixpunktsatz, Anwendungen
Beweis: Entsprechend Lemma 7.3 wird die Integralgleichung ( t u(t) = α + f (s, u(s))ds t0
als Fixpunktproblem im Raum (C([t0 − ρ, t0 + ρ], Rm ), 9 9∞ ) behandelt. Die Abbildung 't T : u /→ α + t0 f (s, u(s))ds ist dabei aber, (man beachte die Voraussetzungen von Satz 7.8), nicht auf dem ganzen Raum definiert, sondern nur auf U := {u ∈ C([t0 − ρ, t0 + ρ], Rm ) : u(t) ∈ W
f¨ ur alle
t ∈ [t0 − ρ, t0 + ρ]}.
(Man beachte, dass man auch nur Funktionen aus U unproblematisch in f (s, u(s)) einsetzen kann, weil ja f (t, y) nur f¨ ur y ∈ W definiert ist.) Die Menge U ist sicher nicht leer, denn die konstante Funktion t /→ α liegt in U , sie ist aber auch wie in Satz 7.8 gefordert eine abgeschlossene Teilmenge des Raumes (C([t0 −ρ, t0 +ρ], Rm ), 9 9∞ ). Denn ist (un )n∈N eine Folge in U mit un → u ∈ C([t0 − ρ, t0 + ρ], Rm ), so liegt ja gleichm¨aßige Konvergenz vor, aus der die punktweise Konvergenz folgt. Aus der f¨ ur alle n ∈ N und alle Komponenten un,j und αj von un und α geltenden Bedingung |un,j (t) − αj | ≤ b ur alle t ∈ [t0 − ρ, t0 + ρ], somit ist u ∈ W . Damit folgt dann aber auch |uj (t) − α| ≤ b f¨ ist aber noch zu u ¨ berlegen, dass die Abbildung T auch U in sich abbildet. Dies folgt aber aus der Absch¨ atzung, (man beachte (5.5)), B B( t B B B ≤ M |t − t0 | ≤ b f¨ f (s, u(s))ds ur t ∈ [t0 − ρ, t0 + ρ], 9(T u)(t) − α9 = B B B t0
denn es gilt ja f¨ ur alle Komponenten |(T u)j (t) − αj | ≤ 9(T u)(t) − α9. Die in Satz 7.8 geforderten Absch¨ atzungen f¨ ur 9T n u − T n v9 ergeben sich nun unter Verwendung der f¨ ur f geltenden Lipschitzbedingung (7.21). Es gilt f¨ ur u, v ∈ U und t ∈ [t0 − ρ, t0 + ρ] B B( t B B B 9(T u)(t) − (T v)(t)9 = B (f (s, u(s)) − f (s, v(s)))dsB B ≤ K9u − v9∞ |t − t0 | t0
und weiter, wenn wir zur technischen Vereinfachung nun t ≥ t0 annehmen, B B( t B B B 9(T 2 u)(t) − (T 2 v)(t)9 = B (f (s, (T u)(s)) − f (s, (T v)(s)))ds B B t0 #( t # # # ≤ K · K9u − v9∞ ## (s − t0 )ds## = (K 2 /2)(t − t0 )2 9u − v9∞ . t0
¨ (Den Fall t < t0 kann man mit kleinen Anderungen analog erledigen.) Daraus gewinnt man durch einen einfachen Induktionsschluss f¨ ur n ∈ N und f¨ ur alle t ∈ [t0 − ρ, t0 + ρ] die Absch¨ atzung 9(T n u)(t) − (T n v)(t)9 ≤
1 (K|t − t0 |)n 9u − v9∞ . n!
7.3 Zum Anfangswertproblem bei gew¨ohnlichen Differentialgleichungen
239
ur n ∈ N Damit gilt f¨ 9T n u − T n v9∞ ≤
1 (Kρ)n 9u − v9∞ . n!
)∞ 1 (Kρ)n bekanntlich konvergent ist, erf¨ ullt die Abbildung T also Da die Reihe n=1 n! alle Voraussetzungen von Satz 7.8 und es existiert ein Fixpunkt u ∈ U , somit eine L¨ osung des Anfangswertproblems. Alle weiteren Aussagen folgen sofort aus Satz 7.8. ! Die Existenz- und Eindeutigkeitsaussage von Satz 7.9 wurde unter Ben¨ utzung der von f geforderten Lipschitzbedingung (7.21) bewiesen. Es ist also die G¨ ultigkeit so einer Lipschitzbedingung hinreichend f¨ ur lokale Existenz und Eindeutigkeit der L¨osung des Anfangswertproblems. Sowohl f¨ ur die Existenz- als auch f¨ ur die Eindeutigkeitsfrage ist sie jedoch nicht notwendig. So kann lokale Existenz bewiesen werden, ohne dass eine Lipschitzbedingung von f gefordert wird. Allerdings wird dann auch bei lokaler Betrachtungsweise i.a. keine eindeutige L¨ osbarkeit mehr vorliegen. Klar ist auch, dass dann die sukzessive Approximation des Banachschen Fixpunktsatzes nicht zum Existenzbeweis herangezogen werden kann, weil der Banachsche Fixpunktsatz ja immer eine Eindeutigkeitsaussage mit einschließt. Man muss dann andere Beweismethoden einsetzen, die man z.B. in Walter [8] findet. Neben den Anfangswertproblemen sind auch Probleme wichtig, bei denen man an die gesuchte L¨ osung der Differentialgleichung Forderungen an beiden Enden des Existenzintervalls stellt. Auf so eine Fragestellung werden wir im n¨achsten Kapitel exemplarisch stoßen, wenn wir eine Methode diskutieren, ein Problem bei einer partiellen Differentiur die sich ver¨andernde Temperaturverteilung osen, das als ein Modell f¨ algleichung zu l¨ in einem homogenen Stab dient. Dabei wird es sich zeigen, dass es sinnvoll sein kann, Funktionen als sogenannte Fourier-Reihen darzustellen. Aufgaben 1. Sei f : R → R definiert durch f (x) := x + π2 −arctan x. ur x, y ∈ R mit x = 3 y gilt, die Abbildung Man zeige, dass |f (x) − f (y)| < |x − y| f¨ jedoch keinen Fixpunkt besitzt. 2. Man diskutiere die Frage der eindeutigen L¨osbarkeit des Gleichungssystems xj =
n =
sin(ajk xk ) + bj ,
j = 1, . . . , n.
k=1
(Es seien ajk , bj ∈ R.) 3. Sei (X, d) ein vollst¨ andiger metrischer Raum und sei T : X → X eine Abbildung. Man zeige: (a) Gibt es ein m ∈ N, so dass die Abbildung T m kontrahierend ist, so besitzt die Abbildung T genau einen Fixpunkt. (b) Muss T kontrahierend sein, wenn es ein m > 1 gibt, so dass T m kontrahierend ist?
240
7 Banachscher Fixpunktsatz, Anwendungen
4. Sei ρ > 0, [a, b] ⊂ R ein kompaktes Intervall und K : [a, b] × [a, b] × [−ρ, ρ] → R stetig, sei f : [a, b] → R stetig mit 9f 9∞ ≤ ρ2 . Man zeige: Erf¨ ullt K eine Lipschitzbedingung |K(t, s, u) − K(t, s, v)| ≤ L|u − v| f¨ ur
(t, s) ∈ [a, b] × [a, b], u, v ∈ [−ρ, ρ]
und erf¨ ullt λ ∈ R die Bedingungen |λ| ≤
1 ρ ∧ |λ| < , 29K9∞(b − a) L(b − a)
so existiert genau eine L¨ osung u ∈ C([a, b]) der Integralgleichung ( u(t) = λ
b a
K(t, s, u(s))ds + f (t) f¨ ur
t ∈ [a, b].
5. Sei (X, d) ein vollst¨ andiger metrischer Raum, sei T : X → X eine Abbildung, f¨ ur die d(T (x), T (y)) < d(x, y) f¨ ur alle x, y ∈ X mit x = 3 y gilt. Man zeige: Ist T (X) folgenkompakt, so existiert genau ein Fixpunkt von T . 6. Man zeige, dass es eine Umgebung U ⊂ R von 0 ∈ R und eine stetige Funktion F : U → R2 gibt, so dass das Gleichungssystem x3 z + y + z 2 = 0 yz 2 + z − xy 3 = 0 f¨ ur x ∈ U und (y, z) = F (x) erf¨ ullt ist. 7. Man zeige, dass das Gleichungssystem 3x + y − z + u2 = 0 x − y + 2z + u = 0 2x + 2y − 3z + 2u = 0 nach x, y, u in Abh¨ angigkeit von z, nach x, z, u in Abh¨angigkeit von y, nach y, z, u in Abh¨ angigkeit von x, aber nicht nach x, y, z in Abh¨angigkeit von u aufgel¨ost werden kann. 8. Man zeige, dass es genau eine Funktion u ∈ C 1 ((−1, 1), R) gibt, so dass u& (t) = t(u(t))2 f¨ ur t ∈ (−1, 1) und u(0) = 1 gilt.
8
Einiges u¨ber Fourier-Reihen
8.1
Ein W¨armeleitungsproblem
Der Begriff Fourier-Reihen hat entsprechend der historischen Entwicklung eine enger und eine weiter gefasste Bedeutung. Im engeren Sinn wird er verwendet f¨ ur die Darstellung von Funktionen in der Form einer Reihenentwicklung nach dem System der trigonometrischen Funktionen, d.h. f¨ ur Reihenentwicklungen der Form f (x) = const. +
∞ =
(an sin(nx) + bn cos(nx)),
(8.1)
n=1
im weiteren Sinn f¨ ur die Darstellung von Elementen eines Hilbertraumes mit Hilfe eines Orthonormalsystems. Der Begriff des Hilbertraumes wird im n¨achsten Abschnitt erl¨ autert werden, in diesem Abschnitt soll ein W¨armeleitungsproblem diskutiert werden, das bei der Behandlung mit ganz klassischen Methoden auf die Frage einer Darstellung uhrt. von Funktionen in der Form (8.1) f¨ Ist ein d¨ unner homogener Stab der L¨ ange a gegeben, der an den L¨angsseiten isoliert und uhren physikain den Endpunkten immer auf der Temperatur Null gehalten wird, so f¨ ¨ lische Uberlegungen dazu, dass man die zeitliche und r¨aumliche Temperaturverteilung in diesem Stab mit dem folgenden mathematischen Modell beschreiben k¨onnen sollte. Gesucht ist eine Funktion u : {t ∈ R : t ≥ 0} × [0, a] → R, die die Differentialgleichung ut (t, x) = cuxx (t, x)
f¨ ur
t > 0, x ∈ (0, a)
f¨ ur
t≥0
und die Randbedingungen u(t, 0) = u(t, a) = 0
erf¨ ullt, wobei wir die weit verbreitete Notation ut := (∂/∂t)u und dementsprechend uxx = (ux )x = ∂x2 u verwendet haben. Hierbei soll offenbar u(t, x) die Temperatur des Stabes zur Zeit t an der Stelle x sein, (der Stab ist dabei mit dem Intervall [0, a] identifiziert), und die Konstante c > 0 ist durch das Material des Stabes bestimmt. Es ist wohl nicht zu erwarten, dass man die Temperaturverteilung zu einem Zeitpunkt t > 0 eindeutig berechnen kann, wenn man nicht die Temperaturverteilung im Stab zu irgendeinem fr¨ uheren Zeitpunkt kennt. Dies f¨ uhrt dazu, dass wir unserem Differentialgleichungsproblem noch die Anfangsbedingung u(0, x) = f (x)
f¨ ur
x ∈ [0, a]
hinzuf¨ ugen m¨ ussen, wobei f : [0, a] → R eine gegebene Funktion ist, f¨ ur die nat¨ urlich f (0) = f (a) = 0 gelten soll.
242
8 Einiges ¨ uber Fourier-Reihen
Da uns hier der Einfluss von c nicht weiter interessiert, setzen wir, um Schreibarbeit zu sparen, c = 1. Aus dem gleichen Grund nehmen wir an, dass a = π sei. Es ist ein schon lange bekanntes und in der Physik h¨ aufig verwendetes Verfahren, eine L¨osung des damit gegebenen Anfangs-Randwertproblems zu suchen, indem man zun¨achst versucht, L¨ osungen der partiellen Differentialgleichung Ut = Uxx zu finden, die von der Form U (t, x) = v(t)w(x) sind. Aus naheliegenden Gr¨ unden spricht man dann davon, dass man mit einem Separationsansatz arbeitet. (Man beachte, dass man dabei im allgemeinen nicht erwarten kann, mit einer einzigen so aufgebauten L¨osung schon eine L¨ osung des gegebenen Anfangs-Randwertproblems finden zu k¨onnen. Erst durch eine Superposition m¨ oglichst vieler L¨ osungen dieser speziellen Form wird es m¨oglich sein, das Anfangs-Randwertproblem f¨ ur relativ allgemeines f zu l¨osen). Nehmen wir an, dass die Funktion v einmal und die Funktion w zweimal stetig differenzierbar ist, und setzen U = vw in die Differentialgleichung Ut = Uxx ein, so erhalten wir v & (t)w(x) = v(t)w&& (x)
f¨ ur
t > 0, x ∈ (0, π).
Da wir selbstverst¨ andlich annehmen, dass es ein τ > 0 gibt mit v(τ ) 3= 0, erhalten wir, dass f¨ ur alle x ∈ (0, π) gelten muss w&& (x) = (v & (τ )/v(τ ))w(x) f¨ ur x ∈ (0, π). Es kommen f¨ ur uns also nur solche Funktionen w in Frage, f¨ ur die mit einer Konstanten μ ∈ R gilt w&& (x) + μw(x) = 0 f¨ ur x ∈ (0, π). Da wir auch von der Funktion w annehmen, dass sie nicht identisch Null ist, erhalten wir weiter, dass auch v & (t) + μv(t) = 0 f¨ ur t > 0 gelten muss. Da wir nat¨ urlich versuchen werden, schon U = vw m¨oglichst an die Randbedingungen anzupassen, werden wir w als L¨ osung des Randwertproblems w&& (x) + μw(x) = 0,
w(0) = w(π) = 0
(8.2)
suchen. Dieses Randwertproblem hat offenbar immer die triviale L¨osung w(x) = 0 f¨ ur x ∈ [0, π]. Da wir aber an nicht identisch verschwindenden L¨osungen interessiert sind, handelt es sich dabei genauer um ein Eigenwertproblem, denn nur f¨ ur gewisse Werte von μ existieren nichttriviale L¨ osungen von (8.2). Es werden solche Eigenwertprobleme ausf¨ uhrlich diskutiert, wenn man sich intensiver mit gew¨ohnlichen Differentialgleichungen besch¨ aftigt, (siehe etwa wieder Walter [8]). Wir kommen hier aber damit aus, festzuhalten, dass zu allen Werten μn = n2 des Parameters μ mit n ∈ N nichttriviale L¨ osungen existieren, die μn also Eigenwerte sind und die Funktionen wn (x) := sin(nx) zugeh¨ orige ’Eigenfunktionen’ sind. Tats¨ achlich kann man sich durch Einsetzen sofort davon u osung von (8.2) mit μ = n2 ist. ¨ berzeugen, dass wn L¨ Damit m¨ ussen wir aber f¨ ur die Bestimmung von v auch nur noch die Differentialgleichung v & (t) + n2 v(t) = 0 betrachten. Wir erhalten damit passend zu wn die Funktion vn (t) := cn exp(−n2 t), wobei cn ∈ R noch beliebig w¨ahlbar ist. (Auch hier kann man sich durch einfaches Einsetzen sofort davon u ¨ berzeugen, dass vn die Differentialgleichung erf¨ ullt.) Insgesamt haben wir also durch den Separationsansatz L¨osungen 2
Un (t, x) := cn e−n t sin(nx), n ∈ N erhalten, wobei cn noch nicht festgelegt ist. Wie oben bereits erw¨ahnt wurde, versucht man nun, eine L¨ osung des Anfangs-Randwertproblems durch Superposition dieser
8.1 Ein W¨armeleitungsproblem
243
L¨ osungen zu finden. (Dies ist sinnvoll, weil es sich um ein lineares Problem handelt). Wir werden also eine L¨ osung des Anfangs-Randwertproblems in der Form u(t, x) =
∞ =
2
cn e−n t sin(nx)
(8.3)
n=1
suchen. Da, wenn die Reihe f¨ ur t > 0 und x ∈ [0, π] konvergent ist, trivialerweise u(t, 0) = u(t, π) = 0 f¨ ur alle t > 0 gilt, bleibt außer der Konvergenzproblematik noch die Aufgabe, die noch freien Koeffizienten cn so zu w¨ahlen, dass die Anfangsbedingung u(0, x) = f (x) f¨ ur x ∈ [0, π] erf¨ ullt wird. Dies f¨ uhrt auf die Bedingung f (x) =
∞ =
cn sin(nx),
f¨ ur
x ∈ [0, π]
(8.4)
n=1
also auf eine punktweise Darstellung von f , die ganz der in (8.1) notierten Darstellung entspricht. Leider ist die Frage, welche Funktionen nun tats¨achlich in der Form (8.4) punktweise dargestellt werden k¨ onnen, gar nicht so einfach zu diskutieren. Auch f¨ ur stetige Funktionen f ist eine punktweise Darstellung in dieser Form im allgemeinen nicht m¨oglich. ¨ Wir werden daher zun¨ achst bei diesen einleitenden Uberlegungen nur die Situation betrachten, dass die die Anfangs-Temperaturverteilung beschreibende Funktion f bereits durch ur die Koeffizientenfolge eine Reihe wie in (8.4) gegeben sei, wobei f¨ (cn )n∈N gelte ) ) |cn | < ∞. In diesem Fall sieht man sofort, dass die Reihe cn sin(nx) f¨ ur x ∈ [0, π] sogar gleichm¨ aßig konvergent ist. (Denn man a tzen |sin(nx)| ≤ 1 f¨ ur alkann ja absch¨ ) le x.) Daraus folgt, dass die durch f (x) := cn sin(nx) auf [0, π] definierte Funktion stetig ist. Außerdem gilt nat¨ urlich f (0) = f (π) = 0. Definiert man nun in dieser Situation die Funktion u wie in (8.3) f¨ ur t ≥ 0, x ∈ [0, π], so erh¨alt man dadurch auch eine stetige Funktion, (f¨ ur die nat¨ urlich u(t, 0) = u(t, π) = 0 f¨ ur alle t ≥ 0 gilt). Denn wegen 0 < exp(−n2 t) < 1 f¨ ur t > 0 und n ∈ N ist auch die Reihe ) cn exp(−n2 t) sin(nx) f¨ ur (t, x) ∈ [0, ∞) × [0, π] gleichm¨aßig konvergent. Die Funktion u ist aber sogar aus C ∞ ((0, ∞) × (0, π)), wobei s¨amtliche partiellen Ableitungen durch gliedweises Differenzieren der Reihe gewonnen werden k¨onnen. Dies ergibt sich aus Korollar 5.6. Denn f¨ ur beliebiges k ∈ N und beliebiges fest ahltes τ > 0 sind auch ) gew¨ k die beim gliedweisen Differenzieren auftretenden Reihen c n exp(−n2 t) sin(nx) und n ) k 2 ur (t, x) ∈ [τ, ∞) × [0, π] gleichm¨aßig konvergent. Denn f¨ ur cn n exp(−n t) cos(nx) f¨ t ∈ [τ, ∞) und n ∈ N ist exp(−n2 t) ≤ exp(−n2 τ ) und es gilt nk exp(−n2 τ ) → 0 f¨ ur n → ∞. Denn man kann ja absch¨ atzen 0≤
nk nk k!τ −k ≤ = exp(n2 τ ) (k!)−1 n2k τ k nk
und die Folge (1/nk )n∈N ist eine Nullfolge. Damit gibt es ein m ∈ N, so dass man f¨ ur (t, x) ∈ [τ, ∞) × [0, π] absch¨ atzen kann ∞ = n=m
|cn |nk exp(−n2 t)| sin(nx)| ≤
∞ = n=m
|cn | < ∞.
244
8 Einiges ¨ uber Fourier-Reihen
ur die Reihe mit den Cosinusfunktionen. Da urlich f¨ atzung gilt nat¨ Eine analoge Absch¨ die fr¨ uher gewonnenen Funktionen Un alle L¨osungen von Ut = Uxx waren, gilt damit auch ut (t, x) = uxx (t, x) f¨ ur t > 0, x ∈ (0, π). Somit haben wir in der nun betrachteten speziellen Situation durch (8.3) tats¨ achlich eine L¨osung des Anfangs-Randwertproblems zum Anfangswert f gefunden. ¨ Dass bei unseren Uberlegungen die Funktionen sin(n.), nach denen entsprechend (8.4) die Anfangsfunktion f entwickelt sein sollte, als Eigenfunktionen zum Eigenwertproblem (8.2) aufgetreten sind, hat u ur die ganz zu ¨brigens eine unmittelbare Konsequenz f¨ Anfang erw¨ ahnte Orthogonalit¨ at, die wie in der linearen Algebra sich auf ein bestimmtes Skalarprodukt bezieht. Denn danach gilt f¨ ur n = 3 m, wenn wir wieder wk (x) = sin(kx) setzen, zun¨achst ( π ( π 2 2 (wn && (x)wm (x) − wn (x)wm && (x))dx. (n − m )wn (x)wm (x)dx = − 0
0
Bedenkt man aber, dass (d/dx)(wn & (x)wm (x) − wn (x)wm & (x)) = wn && (x)wm (x) − wn (x)wm && (x) gilt, so folgt wegen wk (0) = wk (π) = 0 ( π ( π 2 2 (n − m )wn (x)wm (x)dx = − (d/dx)(wn & (x)wm (x)− wn (x)wm & (x))dx = 0. 0
2
0
2
3 0 ist, gilt also Da n − m = ( π sin(nx) sin(mx)dx = 0 0
fu ¨r
n 3= m.
(8.5)
Dies ist aber genau die Orthogonalit¨ at bez¨ uglich eines wichtigen Skalarprodukts auf dem Vektorraum C([0, π], R). Und zwar definiert man f¨ ur f, g ∈ C([0, π], R) das sogenannte L2 -Skalarprodukt durch ( π f (x)g(x)dx. 'f, g- := 0
¨ Offensichtlich ist damit (8.5) identisch mit 'sin(n.), sin(m.)- = 0 f¨ ur n 3= m. Die Uberlegungen von oben zeigen u ¨brigens, dass man nicht erwarten kann, dass diese Funktionen u ¨ber einem beliebigen Intervall [a, b] ⊂ R bei analog definiertem Skalarprodukt orthogonal sind. ¨ Eine einfache Uberlegung zeigt bereits die Wichtigkeit dieser Orthogonalit¨at. Wenn wir annehmen, dass (8.4) gelte, wobei die Reihe gleichm¨aßig konvergent sei, so k¨onnen wir sehr rasch sehen, dass die Koeffizienten cn in recht einfacher Weise eindeutig durch die (stetige) ' π Funktion f bestimmt sind. Und zwar bilden wir dazu mit k ∈ N das Integral 0 f (x) sin(kx)dx und ben¨ utzen, dass wir wegen der gleichm¨aßigen Konvergenz der Reihe bei der Berechnung dieses Integrals die Reihe gliedweise integrieren d¨ urfen. Aufgrund von (8.5) folgt dann ( π ( π 2 (sin(kx)) dx. f (x) sin(kx)dx = ck 0
0
8.2 Zur Orthogonalit¨at
245
utzung von Unter Ben¨ ( π ( π >x=π ! 1 π 2 sin(2kx) (1 − cos(2kx))dx = (1/2) x − (sin(kx)) dx = (1/2) = 2k 2 x=0 0 0 erhalten wir also 2 ck = π
( 0
π
f (x) sin(kx)dx
f¨ ur
k ∈ N.
Die der Funktion f zugeordneten Fourierkoeffizienten ck kann man also mit Hilfe des Skalarprodukts schreiben als ck = 'f, π2 sin(k.)-. Wie dies in einem allgemeineren Rahmen einzuordnen ist, werden wir im n¨ achsten Abschnitt sehen.
8.2
Zur Orthogonalit¨at
8.2.1
Zum trigonometrischen System
BetrachtetAman im Raum C([0, π], R) das System (un )n∈N der f¨ ur x ∈ [0, π] durch 2 un (x) := π sin(nx) definierten Funktionen, so bildet dieses sicher ebenfalls ein Or-
uglich des L2 -Skalarprodukts, es bildet aber sogar ein Orthonorthogonalsystem bez¨ ur alle n ∈ N. Ist wie u malsystem, denn es gilt offenbar 'un , un - = 1 f¨ ¨ blich dem Skalarprodukt eine Norm zugeordnet durch * 9u9 := 'u, u-,
ur alle n ∈ N. Orthonormalsysteme spielen eine wichtige Rolso gilt also 9un 9 = 1 f¨ le in den bereits fr¨ uher erw¨ ahnten Hilbertr¨ aumen. Bevor wir dies genauer diskutieren, sei aber zun¨ achst noch das System der Funktionen sin(n . ) als System im Raum C([0, 2π], R) aufgefasst. Setzen wir wie im vorigen Abschnitt wieder wn (x) := sin(nx), so erh¨alt man wegen uher unter Ben¨ utzung der Differentialgleichung wn (0) = wn (2π) = 0 offenbar wie fr¨ wn&& (x) + n2 wn (x) = 0 ( 0
2π
2
2
(
(n −m )wn (x)wm (x)dx = −
Es gilt also auch ( 2π 0
Da nun aber (
2π 0
sin(nx) sin(mx)dx = 0
0
2π
(d/dx)(wn & (x)wm (x)−wn (x)wm & (x))dx = 0.
f¨ ur
n 3= m.
>x=2π ! 1 sin(2kx) (sin(kx))2 dx = (1/2) x − =π 2k x=0
246
8 Einiges ¨ uber Fourier-Reihen
alt man im Raum C([0, 2π], R) mit dem L2 -Skalarprodukt ein Orthonormalgilt, erh¨ system, wenn man von den Funktionen wn zum Funktionensystem ( √1π sin(n . ))n∈N u asst sich nun aber noch leicht zu einem gr¨oßeren ¨bergeht. Dieses Orthonormalsystem l¨ Orthonormalsystem in C([0, 2π], R) erweitern. Um dies zu sehen, gehen wir aus von der Feststellung, dass die Funktionen wn f¨ ur n ∈ N auch Eigenfunktionen zum Eigenwertproblem w&& (x) + μw(x) = 0, w(0) = w(2π), w& (0) = w& (2π), und zwar wieder jeweils zu den Eigenwerten μn = n2 , sind. Zu jedem dieser Eigenwerte gibt es nun aber noch eine weitere linear unabh¨angige Eigenfunktion, n¨amlich die Funktionen Wn := cos(n . ). Zus¨ atzlich ist aber bei diesen anderen Randbedingungen auch ur alle x ∈ [0, 2π] definierte μ = 0 ein Eigenwert, zu dem offenbar die durch W0 (x) := 1 f¨ Funktion W0 als Eigenfunktion geh¨ ort. Da nun aufgrund der Randbedingungen sowohl ( 2π ( 2π (d/dx)(wn & (x)Wm (x) − wn (x)Wm & (x))dx = 0 (n2 − m2 )wn (x)Wm (x)dx = − 0
0
als auch ( 2π ( (n2 − m2 )Wn (x)Wm (x)dx = − 0
0
2π
(d/dx)(Wn & (x)Wm (x) − Wn (x)Wm & (x))dx = 0
gilt, gilt f¨ ur n = 3 m sowohl 'wn , Wm - = 0 als auch 'Wn , Wm - = 0. Es gilt aber auch noch 'wn , Wn - = 0 f¨ ur alle n ∈ N. Dies folgt aus sin(nx) cos(nx) = (1/2) sin(2nx), was ' 2π offenbar 0 sin(nx) cos(nx)dx = 0 impliziert. Das aus allen Eigenfunktionen wn und Wn gebildete System der trigonometrischen Funktionen {1, sin, cos, sin(2 . ), cos(2 . ), . . .} bildet daher ein Orthogonalsystem im Vek' 2π torraum C([0, 2π], R) mit dem Skalarprodukt 'u, v- = 0 u(x)v(x)dx. Man beachte, ur sich auch in C([0, π], R) ein Ordass das System der Funktionen 1, cos, cos(2 . ), . . . f¨ thogonalsystem ist, weil diese Funktionen alle die Randbedingungen w& (0) = w& (π) = 0 erf¨ ullen. Das gesamte System der trigonometrischen ' π Funktionen ist jedoch kein Orthogonalsystem in C([0, π], R), denn es gilt ja etwa 0 sin xdx = 2. Um vom Orthogonalsystem {1, sin, cos, sin(2.), cos(2.), . . .} zu einem Orthonormalsystem in C([0, 2π], R) zu kommen, muss man nun noch die Normen 9 cos(n.)9 f¨ ur n ∈ N 0 2 2 berechnen. Offenbar ist 9192 = 2π und unter Ben¨ utzung von (cos(nx)) = 1−(sin(nx)) √ und dem fr¨ uheren Resultat f¨ ur sin(nx) erh¨ alt man 9 cos(n.)9 = π f¨ ur n ∈ N. Damit ist das System 1 1 1 1 1 { √ , √ sin(.), √ cos(.), √ sin(2.), √ cos(2.), . . .} π π π π 2π
(8.6)
ein Orthonormalsystem im Raum C([0, 2π], R) mit dem L2 -Skalarprodukt. Wegen der 2π-Periodizit¨ at der Funktionen des Systems (8.6) ist klar, dass diese Funktionen auch ein Orthonormalsystem u ¨ber jedem Intervall [a−π, a+π], (a ∈ R), mit dem entsprechenden Skalarprodukt bilden.
8.2 Zur Orthogonalit¨at
247
Durch eine einfache Variablentransformation erh¨alt man auch sofort ein Orthonormalsystem u ¨ber einem Intervall [0, 2ρ], (ρ > 0 beliebig gew¨ahlt). Setzt man n¨amlich x = πρ t, so entspricht x ∈ [0, 2π] nat¨ urlich t ∈ [0, 2ρ]. Damit erh¨alt man u ¨ ber [0, 2ρ] das Orthonπ t), sin( t). Durch Normierung erh¨alt man daraus gonalsystem der Funktionen cos( nπ ρ ρ dann ein Orthonormalsystem. (Dieses tritt z.B. bei Separationsans¨atzen h¨aufig auf, wenn man u ¨ ber allgemeinen Intervallen arbeitet). Da die Funktionen des Systems (8.6) alle reellwertig sind, bilden sie auch ein Orthonormalsystem im komplexen Vektorraum C([0, 2π], C), bei dem, (man erinnere sich an die lineare Algebra), das L2 -Skalarprodukt durch ( 2π 'u, v- := u(x)v(x)dx 0
zu definieren ist. Im Raum C([0, 2π], C) ist es nun zweckm¨ aßig, ein anderes Orthonormalsystem aus komplexwertigen Funktionen zu betrachten, das in einem einfachen Zusammenhang mit dem reellwertigen trigonometrischen System steht. Aufgrund der Periodizit¨at der trigonometrischen Funktionen und der G¨ ultigkeit von eix = cos x + i sin x f¨ ur x ∈ R sieht man sofort, dass ( 2π ei(n−m)x dx = 0 f¨ ur alle n, m ∈ Z mit n = 3 m 'exp(in . ), exp(im . )- = 0
gilt. Da offenbar 'exp(in . ), exp(in . )- = 2π f¨ ur alle n ∈ Z gilt, bildet das System der Funktionen : ; 1 √ exp(in.) (8.7) 2π n∈Z ein Orthonormalsystem im Raum C([0, 2π], C) mit dem L2 -Skalarprodukt. 1 (eix − e−ix ) liefern offenbar die SysteWegen cos x = 21 (eix + e−ix ) und sin x = 2i me (8.6) und (8.7) die gleiche lineare H¨ ulle. Dies ist nat¨ urlich von Bedeutung, wenn es darum geht, eine gegebene Funktion durch eine Linearkombination von Funktionen aus einem Orthonormalsystem zu approximieren. Wir werden sehen, dass es auch von Bedeutung ist, wenn man sogar Reihenentwicklungen nach den Funktionen des Ortho¨ normalsystems betrachtet. Die weiteren Uberlegungen dazu werden wir nun in einem allgemeineren Rahmen durchf¨ uhren, weil wir dabei von speziell gegebenen Orthonormalsystemen abstrahieren k¨ onnen und damit die wesentliche Struktur klarer hervortritt.
8.2.2
Orthonormalsysteme in Pr¨a-Hilbertr¨aumen bzw. Hilbertr¨aumen
Sei also nun X ein beliebiger C-Vektorraum mit Skalarprodukt ' , -, (so wie es in der linearen*Algebra abstrakt definiert wird). Dem Skalarprodukt ist wie u ¨blich durch 9v9 := 'v, v- eine Norm zugeordnet. Wir stellen dabei zun¨achst keine Vollst¨andigkeitsforderung an den dadurch entstehenden normierten Raum und bezeichnen dann
248
8 Einiges ¨ uber Fourier-Reihen
(X, ' , -) als Pr¨ a-Hilbertraum. (Ein Beispiel ist der Raum C([0, 2π], C) mit dem L2 Skalarprodukt). Ist der entstehende normierte Raum sogar vollst¨andig, so bezeichnet man (X, ' , -) als Hilbertraum. Wir nehmen an, dass in diesem Raum ein Orthonormalsystem (xn )n∈N gegeben sei. Es gelte also 'xn , xm - = δnm f¨ ur alle (n, m) ∈ N × N, wobei δnm = 0 ist f¨ ur n 3= m und δnm = 1 ist, wenn n = m ist. Ist dann x ∈ X beliebig gegeben, so k¨onnen wir diesem Element die Folge ('x, xn -)n∈N zuordnen. Denkt man an die im Rahmen des Raumes C([0, π]) definierten Fourierkoeffizienten bez¨ uglich des Systems der Funktionen sin(k . ), so ist es naheliegend, diese Folge ebenfalls als Folge der Fourierkoeffizienten zu x zu bezeichnen. Der n¨ achste Satz gibt uns nun schon in diesem allgemeinen Rahmen wichtige Informationen u ¨ ber die Fourierkoeffizienten. Dabei sei gleich darauf hingewiesen, dass die Resultate unver¨ andert richtig bleiben, wenn man einen reellen Pr¨a-Hilbertraum vorliegen hat. Dies wird man am Beweis unmittelbar ablesen k¨onnen. Satz 8.1 Sei (X, ' , -) ein Pr¨ a-Hilbertraum und (xn )n∈N ein Orthonormalsystem in X. Dann gilt f¨ ur alle x ∈ X und m ∈ N: )m (1) 9x − n=1 'x, xn -xn 9 = min{9x − y9 : y ∈ span{x1 , . . . , xm }} )m 2 2 (2) n=1 |'x, xn -| ≤ 9x9 )∞ (3) Die Reihe n=1 |'x, xn -|2 ist konvergent und es gilt die Besselsche Ungleichung ∞ =
|'x, xn -|2 ≤ 9x92 .
n=1
Beweis: Nach fr¨ uher diskutierten Ergebnissen u ¨ber monoton wachsende Folgen ist klar, dass (3) aus (2) folgt. Der Beweis von (1) und (2) wird sich rasch aus der folgenden Rechnung ergeben. Aufgrund der Orthonormalit¨ at des Systems (xn ) erh¨alt man zun¨achst utzung der Eigenschaften eines Skalarprodukts f¨ ur beliebige αn ∈ C unter Ben¨ 'x−
m =
αn xn , x−
n=1
m =
αn xn - = 9x92 −
n=1
m =
αn 'x, xn -−
n=1
m =
αn 'xn , x-+
n=1
m =
|αn |2 .
n=1
Daraus folgt weiter 9x −
m =
αn xn 92 =
n=1 2
= 9x9 + = 9x92 +
m =
2
2
(|'x, xn -| − αn 'x, xn - − αn 'x, xn - + |αn | ) −
n=1 m = n=1
|'x, xn - − αn |2 −
m = n=1
m = n=1
|'x, xn -|2 .
|'x, xn -|2
8.2 Zur Orthogonalit¨at
249
)m Die letzte Gleichung zeigt sofort, dass 9x − n=1 αn xn 92 genau dann minimal werden aß αn = 'x, xn - gew¨ ahlt sind. ist (1) bewiesen. Sind die wird, wenn die αn gem¨ )Damit m αn so gew¨ ahlt, so zeigt diese Gleichung wegen 9x − n=1 αn xn 92 ≥ 0 aber auch sofort die G¨ ultigkeit von (2). ! Aus der Besselschen Ungleichung folgt nat¨ urlich sofort, dass die Folge der Fourierkoeffizienten eine Nullfolge sein muss. Daraus folgt speziell f¨ ur das trigonometrische System: Korollar 8.1 Sind f¨ ur f ∈ C([0, 2π]) die Folgen (an )n∈N , (bn )n∈N und (cn )n∈Z definiert durch (
an :=
1 π
bn :=
1 π
cn :=
1 2π
2π
0
(
2π
0
( 0
f (x) cos(nx)dx
f¨ ur
n ∈ N0 ,
f (x) sin(nx)dx
f¨ ur
n ∈ N,
2π
f (x) exp(−inx)dx
f¨ ur
n ∈ Z,
ur n → ∞. so gilt an → 0, bn → 0, cn → 0 und c−n → 0 f¨ Beweis: Man beachte, dass an = √1π 'f, √1π cos(n . )-, bn = ur n ∈ Z gilt. cn = √12π 'f, √12π ein . - f¨
√1 'f, √1 π π
sin(n . )- f¨ ur n ∈ N und !
Die Zahlen an , bn und cn werden im engeren Sinn als Fourierkoeffizienten von f bezeichnet. Dass ihre Einf¨ uhrung in dieser Form sinnvoll ist, ergibt sich daraus, dass f¨ ur m ∈ N und x ∈ [0, 2π] m = 1 1 1 1 1 1 ('f, √ cos(n.)- √ cos(nx)+'f, √ sin(n.)- √ sin(nx)) 'f, √ - √ + π π π π 2π 2π n=1 m
=
a0 = + (an cos(nx) + bn sin(nx)) 2 n=1
und analog m = 1 1 cn exp(inx) 'f, √ exp(in.)- √ exp(inx) = 2π 2π n=−m n=−m m =
) ) gilt. Die Notationen a20 + (an cos(nx)+bn sin(nx)) und cn exp(inx) sind nun die gebr¨ auchlichsten, wenn es um die Darstellung einer Funktion als (klassische) Fourier-Reihe geht. (Beim Problem der punktweisen Darstellung setzt man dabei aus naheliegenden Gr¨ unden meist voraus, dass die Funktion f auf ganz R definiert und 2π-periodisch ist.)
250
8 Einiges ¨ uber Fourier-Reihen
ur jedes Wissen wir nun einerseits in der allgemeinen Pr¨a-Hilbertraum-Situation, dass f¨ (abz¨ ahlbare) Orthonormalsystem die Besselsche Ungleichung gilt, andererseits aber im Spezialfall des euklidischen Rn , dass, wenn wie u der Standard¨ blich mit ek die Vektoren )n 2 Basis bezeichnet werden, f¨ ur jeden Vektor x ∈ Rn sogar 9x92 = k=1 'x, ek - , also die Gleichheit in der Besselschen Ungleichung, gilt, so stellt sich nun die Frage, wann eine entsprechende Aussage auch im allgemeinen Fall richtig ist. Der n¨achste Satz gibt darauf eine Antwort. Satz 8.2 Sei (X, ' , -) ein Pr¨ a-Hilbertraum und (xn )n∈N ein Orthonormalsystem in X. Dann sind die folgenden Aussagen ¨ aquivalent: (1) Zu jedem x ∈ X und jedem ε > 0 gibt es ein m ∈ N und (α1 , . . . , αm ) ∈ Cm )m mit 9x − k=1 αk xk 9 < ε. )∞ (2) F¨ ur alle x ∈ X gilt x = n=1 'x, xn -xn . )∞ (3) F¨ ur alle x, y ∈ X gilt 'x, y- = n=1 'x, xn -'y, xn -. (4) F¨ ur alle x ∈ X gilt die Parsevalsche Gleichung )∞ 9x92 = n=1 |'x, xn -|2 . Beweis: Aus (1) folgt (2): Sei x ∈ X beliebig gew¨ ahlt. Nach (1) gibt es dann eine Folge (yk )k∈N von Vektoren, die Linearkombinationen von Vektoren des Orthonormalsystems sind, so ur alle k ∈ N gilt. Definiert man f¨ ur m ∈ N Xm :=span{x1 , . . . , xm }, dass 9yk − x9 ≤ k1 f¨ wobei die Bezeichnung ’span’ f¨ ur die Bildung der linearen H¨ ulle, also die Bildung des von der Menge {x1 , . . . , xm } erzeugten Untervektorraums verwendet wird, so gibt es nat¨ urlich zu jedem k ∈ N ein m(k) ∈ N mit yk ∈ Xm(k) . Nach Satz 8.1 gilt nun f¨ ur alle k∈N m(k)
9x −
=
'x, xn -xn 9 ≤ 9x − yk 9 ≤
n=1
1 . k
)m Daraus erschließen wir nun, dass die Folge ( n=1 'x, xn -xn )m∈N gegen x konvergieren urlich muss. Da wegen Xm ⊂ Xm+1 nat¨ inf{9x − y9 : y ∈ Xm+1 } ≤ inf{9x − y9 : y ∈ Xm } gilt, muss auch 9x −
m+p =
m =
n=1
n=1
'x, xn -xn 9 ≤ 9x −
'x, xn -xn 9
f¨ ur alle p ∈ N gelten. Ist also ε > 0 gegeben, so gibt es zun¨achst ein k ∈ N mit k1 ≤ ε. )m(k) Nach oben gilt dann 9x − n=1 'x, xn -xn 9 ≤ k1 ≤ ε. W¨ahlt man m(ε) := m(k), so folgt
8.2 Zur Orthogonalit¨at
251
)m damit weiter 9x − n=1 'x, xn -xn 9 ≤ ε f¨ u) r alle m ≥ m(ε). Damit ist (2) gezeigt. m ur m → ∞. Damit Aus (2) folgt (3): Nach (2) gilt auch 9 n=1 'x, xn -xn 9 → 9x9 f¨ ergibt sich (3) aber sofort aus der folgenden Absch¨atzung, bei der wesentlich die Orthonormalit¨ at der xn sowie zum Schluss die Schwarzsche Ungleichung f¨ ur Skalarprodukte ben¨ utzt wird: |'x, y- −
m =
'x, xn -'y, xn -| = |'x, y- − '
n=1
≤ |'x, y- − '
m =
'x, xn -xn , y-| + |'
≤ 9x −
'x, xn -xn 9 9y9 + 9
n=1
m =
'y, xn -xn -|
n=1
'x, xn -xn , y- − '
n=1 m =
m =
'x, xn -xn ,
n=1
n=1 m =
m =
m =
'x, xn -xn ,
n=1
'x, xn -xn 9 9y −
n=1
m =
m =
'y, xn -xn -|
n=1
'y, xn -xn 9.
n=1
Der Grenz¨ ubergang m → ∞ liefert offenbar (3). Aus (3) folgt (4): Setzt man in (3) speziell x = y, so geht (3) in (4) u ¨ber. Aus (2) folgt (1): Gilt (2), so ist der Vektor x Grenzwert der Partialsummen, damit gilt aber (1). Aus (4) folgt (2): Nach dem Beweis von Satz 8.1 gilt f¨ ur alle m ∈ N 9x −
m =
'x, xn -xn 92 = 9x92 −
n=1
m =
|'x, xn -|2 .
n=1
Gilt (4), so folgt daraus mit m → ∞ sofort (2).
!
Von besonderer Bedeutung ist f¨ ur uns nat¨ urlich die G¨ ultigkeit der Aussage (2), denn sie bedeutet ja, dass jeder Vektor von X als Fourier-Reihe nach dem Orthonormalsystem (xn ) dargestellt werden kann. Man beachte, dass dabei die Konvergenz der Reihe bez¨ uglich der Norm im Pr¨ a-Hilbertraum stattfindet, also etwa bei der Betrachtung eines Orthonormalsystems im Raum C([0, 2π]) mit dem L2 -Skalarprodukt nicht von punktweiser Konvergenz ausgegangen werden kann. Wichtig ist noch, dass (2) nur richtig sein kann, wenn das Orthonormalsystem (xn ) nicht zu einem gr¨ oßeren Orthonormalsystem erweitert werden kann. Es ist also in gewissem Sinn vollst¨ andig. Dies sieht man folgendermaßen: Sei x ∈ X ein Vektor, der zu allen Vektoren xn orthogonal ist, f¨ ur den also 'x, xn - = 0 f¨ ur alle n ∈ N gilt. Gilt nun (2), so folgt daraus offenbar x = 0. Damit ist aber x sicher nicht zur Erweiterung des Orthonormalsystems geeignet. Leider gilt in einem Pr¨ a-Hilbertraum im allgemeinen nicht die umgekehrte Richtung, es kann also nicht allgemein aus der Tatsache, dass das Orthonormalsystem nicht erweiterbar ist, auf die G¨ ultigkeit der ¨ aquivalenten Aussagen (1) bis (4) geschlossen werden. Daher bezeichnet man in einem Pr¨ a-Hilbertraum ein Orthonormalsystem als vollst¨ andig, wenn eine der ¨ aquivalenten Aussagen (1) bis (4) gilt. In Hilbertr¨aumen ist allerdings die umgekehrte Richtung richtig, so dass in einem Hilbertraum ein Orthonormalsystem ussen wir genau dann vollst¨andig ist, wenn es maximal ist. Um dies zeigen zu k¨onnen, m¨ noch ein wenig Vorarbeit leisten.
252
8 Einiges ¨ uber Fourier-Reihen
Lemma 8.1 Sei (X, ' , -) ein Hilbertraum )∞und (xn )n∈N ein Orthonormalsystem in X. Dann ist ur alle m ∈ N gilt Reihe f¨ ur jedes x ∈ X die n=1 'x, xn -xn in X konvergent und f¨ )∞ 'x − n=1 'x, xn -xn , xm - = 0. Beweis: )m 2 Sei x ∈ X beliebig gew¨ ahlt. Dann ist nach Satz 8.1 die Folge )m( n=1 |'x, xn -| )m∈N eine Cauchy-Folge in R. Daraus folgt aber, dass die Folge ( n=1 'x, xn -xn )m∈N eine ur k < m Cauchy-Folge in X ist. Denn aufgrund der Orthonormalit¨at der xn gilt f¨ 9
m =
'x, xn -xn −
k =
'x, xn -xn 92 = '
n=1
n=1
m =
)∞
Da X vollst¨ andig ist, existiert also y := Vereinfachung der Schreibarbeit
n=1 'x, xn -xn
m =
m =
'x, xn -xn - =
|'x, xn -|2 .
n=k+1
n=k+1
n=k+1
ym :=
m =
'x, xn -xn ,
in X. Setzen wir nun zur
'x, xn -xn ,
n=1
so erh¨ alt man zun¨ achst unter Ben¨ utzung der Schwarzschen Ungleichung f¨ ur k ≤ m |'x−y, xk -| ≤ |'x−ym , xk -|+|'ym −y, xk -| ≤ |'x−ym , xk -|+9ym −y9 9xk 9. Wegen der Orthonormalit¨ at der xn gilt aber |'x − ym , xk -| = |'x, xk - −
m =
''x, xn -xn , xk -| = 0.
n=1
Da damit also |'x − y, xk -| ≤ 9ym − y9 9xk 9 gilt, folgt, wenn man k beliebig fest gew¨ahlt ur m → ∞ tats¨ achlich 'x − y, xk - = 0. ! hat, wegen 9ym − y9 → 0 f¨ Damit k¨ onnen wir wie angek¨ undigt beweisen: Korollar 8.2 Sei (X, ' , -) ein Hilbertraum und (xn )n∈N ein Orthonormalsystem in X. Dann sind folgende Aussagen ¨ aquivalent: (a) F¨ ur alle x ∈ X gilt: Ist 'x, xn - = 0 f¨ ur alle n ∈ N, so ist x = 0. )∞ (b) F¨ ur alle x ∈ X gilt x = n=1 'x, xn -xn . Beweis: Wir m¨ ussen nur noch zeigen, dass aus der Aussage (a) die Aussage (b) folgt. Nach ) ur alle n ∈ N. Lemma 8.1 existiert y := ∞ n=1 'x, xn -xn in X und es gilt 'x − y, xn - = 0 f¨ Nach (a) folgt daraus aber x − y = 0, was offenbar identisch mit (b) ist. !
8.2 Zur Orthogonalit¨at
253
a-Hilbertraumes C([0, 2π]), (dieser ist, wie man zeigen kann, kein HilIm Fall des Pr¨ bertraum), ist es m¨ oglich, die Vollst¨ andigkeit des trigonometrischen Systems unter Ben¨ utzung der Aussage (1) von Satz 8.2 zu beweisen. Wir werden dabei auf das folgende einfache Lemma zur¨ uckgreifen, bei dem wir, um Missverst¨andnisse zu vermeiden, 9 9L2 f¨ ur die vom L2 -Skalarprodukt kommende Norm schreiben. Lemma 8.2 Sei f ∈ C([0, 2π], C) und sei dazu die Funktionenfolge (fn )n∈N definiert durch ur x ∈ [0, 2π − n1 ], fn (x) := f (0) + (2π − x)n(f (2π − n1 ) − f (0)) fn (x) := f (x) f¨ 1 f¨ ur x ∈ (2π − n , 2π]. Dann gilt 9f − fn 9L2 → 0 f¨ ur n → ∞. Beweis: Man sieht sofort, dass die Funktionen fn ebenfalls stetig sind. (Außerdem gilt, was wir nicht in diesem Beweis, aber anschließend ben¨ otigen, fn (2π) = fn (0)). Setzt man nun ur x ∈ [0, 2π] und χn (x) := 1 f¨ ur x ∈ [2π − n1 , 2π], gn (x) := (2π − x)n(f (2π − n1 ) − f (0)) f¨ χn (x) := 0 sonst, so gilt 9f − fn 9L2 = 9(f − fn )χn 9L2 ≤ 9(f − f (0))χn 9L2 + 9gn χn 9L2 2. Ist wie u ¨ blich 9 9∞ die Supremumsnorm auf C([0, 2π]), so gilt 9(f − f (0))χn 9L2 ≤ n−1/2 9f − f (0)9∞ ur x ∈ [2π− n1 , 2π] entsprechend 9gn χn 92 ≤ n−1/2 9f −f (0)9∞. und wegen |(2π−x)| ≤ n1 f¨ Daraus ergibt sich sofort die Behauptung. ! Wie bereits notiert wurde, gilt stets fn (2π) = fn (0). Damit wissen wir jetzt, dass jedes f ∈ C([0, 2π]) bez¨ uglich 9 9L2 beliebig genau durch Funktionen aus dem Vektorraum C2π := {u ∈ C([0, 2π], C) : u(0) = u(2π)} approximiert werden kann. Um die Vollst¨ andigkeit des Orthonormalsystems (ein . )n∈Z unter Verwendung von Aussage (1) von Satz 8.2 zu zeigen, reicht es daher wegen der uglich 9 9L2 Dreiecksungleichung aus, nachzuweisen, dass sich jede Funktion aus C2π bez¨ beliebig genau durch Funktionen aus span{exp(in.) : n ∈ Z} approximieren l¨asst. ) Da jede Funktion u ∈ span{exp(in . ) : n ∈ Z} von der Form u(x) = m n=−m cn exp(inx) ist, bezeichnet man die Elemente von span{exp(in . ) : n ∈ Z} als trigonometrische Polynome. Mit dieser Begriffsbildung sei auch der folgende Satz formuliert. Satz 8.3 Sei f ∈ C2π . Dann gibt es zu jedem ε > 0 ein trigonometrisches Polynom P mit 9f − P 9L2 < ε. Beweis: Jede Funktion f ∈ C2π kann man auf nat¨ urliche Weise zu einer stetigen Funktion mit
254
8 Einiges ¨ uber Fourier-Reihen
der Periode 2π auf ganz R fortsetzen. Diese sei ebenfalls mit f bezeichnet. Da auch jedes trigonometrische Polynom P als auf ganz R definierte 2π-periodische Funktion aufgefasst werden kann, gilt dann f¨ ur beliebiges a ∈ R ( a+2π ( 2π |f (x) − P (x)|2 dx = |f (x) − P (x)|2 dx. (8.8) a
0
Es sei dies hier nur f¨ ur den Fall a < 0 explizit 'bewiesen. In 'diesem Fall gilt, ' 2πwenn man ' a+2π 2π 0 h(x)dx = a h(x)dx + 0 h(x)dx − a+2π h(x)dx. h(x) := |f (x) − P (x)|2 setzt, a ' 2π ' 2π '0 Da aufgrund der Periodizit¨ at von h aber a h(x)dx = a+2π h(y − 2π)dy = a+2π h(y)dy gilt, folgt daraus sofort (8.8). Setzt man in (8.8) a = −π, so folgt :(
2π
0
;1/2 √ |f (x) − P (x)| dx ≤ 2π sup{|f (x) − P (x)| : x ∈ [−π, π]}. 2
Daher gen¨ ugt es, die Approximierbarkeit von f durch trigonometrische Polynome bez¨ uglich der Supremumsnorm u ¨ ber dem Intervall [−π, π] nachzuweisen. Sei dazu zun¨ achst f¨ ur k ∈ N definiert ;k : 1 gk (x) := ck (1 + cos x) , 2 'π wobei die Konstante ck > 0 so gew¨ ahlt sei, dass −π gk (x)dx = 1 gilt. Man beachte, ur alle x ∈ R sicherlich gk (x) ≥ 0 f¨ dass wegen cos x ≥ −1 f¨ ur alle x ∈ R gilt. Wir zeigen nun als Zwischenergebnis, dass f¨ ur jedes fest gew¨ahlte δ ∈ (0, π) gilt lim (sup{gk (x) : x ∈ [−π, −δ] ∪ [δ, π]}) = 0.
k→∞
(8.9)
Dazu sch¨ atzen wir zun¨ achst die Konstante ck ab. Da f¨ ur gk gilt gk (−x) = gk (x), gilt ( 1=
π −π
(
π
1 ( (1 + cos x))k dx 2 0 ( π 1 4ck , ( (1 + cos x))k sin xdx = ≥ 2ck 2 k +1 0
gk (x)dx = 2ck
somit ck ≤ k+1 4 . Da gk auf [0, π] monoton fallend ist, folgt damit, wenn 0 < δ ≤ |x| ≤ π 1 1 k ist, gk (x) ≤ gk (δ) ≤ k+1 4 ( 2 (1 + cos δ)) . Da aus δ > 0 aber 2 (1 + cos δ) < 1 folgt, folgt daraus weiter (8.9). Mit der Funktion gk sei nun f¨ ur k ∈ N und x ∈ R definiert ( π f (x − t)gk (t)dt. Pk (x) := −π
Da die Pk die gesuchten approximierenden trigonometrischen Polynome sein werden, achlich trigonometrische Polynome sind. Dazu stellen sei zuerst gezeigt, dass dies tats¨
8.2 Zur Orthogonalit¨at
255
achst Pk etwas anders dar. Setzt man x − t = y, so erh¨alt man, wenn man noch wir zun¨ das Ergebnis von (8.8) sinngem¨ aß ber¨ ucksichtigt, (
π −π
( f (x − t)gk (t)dt =
Schreibt man nun gk (x) = Pk (x) =
f (y)gk (x − y)dy =
x−π
) mk
mk =
(
x+π
n=−mk
an,k einx
π
−π
f (y)gk (x − y)dy.
an,k einx , so folgt (
n=−mk
π
−π
mk =
f (y)e−iny dy =
cn,k einx .
n=−mk
Es sind also alle Pk trigonometrische Polynome. ur x ∈ [−π, π] Nach der Wahl der Konstanten ck gilt nun f¨ ( Pk (x) − f (x) =
π
−π
(f (x − t) − f (x))gk (t)dt.
Da aber gk (t) ≥ 0 f¨ ur alle t gilt, folgt weiter ( |Pk (x) − f (x)| ≤
π −π
|f (x − t) − f (x)|gk (t)dt.
Sei nun ε > 0 gegeben. Da f sogar auf ganz R gleichm¨aßig stetig ist, gibt es ein δ > 0, so dass |f (y) − f (η)| ≤ ε gilt f¨ ur alle y, η mit |y − η| ≤ δ. Damit ist dann auch (
δ −δ
( |f (x − t) − f (x)|gk (t)dt ≤ ε
δ
−δ
( gk (t)dt ≤ ε
π
−π
gk (t)dt = ε.
Es sind damit noch die zwei Integrale (
−δ −π
( |f (x − t) − f (x)|gk (t)dt
und
δ
π
|f (x − t) − f (x)|gk (t)dt
abzusch¨ atzen. Ber¨ ucksichtigt man (8.9), so sieht man, dass, wenn man |f (x − t) − f (x)| ≤ 29f 9∞ absch¨ atzt, beide Integrale f¨ ur k → ∞ gleichm¨ aßig in x gegen Null gehen. Es gibt damit ein k0 ∈ N, so dass |Pk (x) − f (x)| ≤ 2ε gilt f¨ ur k ≥ k0 und alle x ∈ [−π, π]. ! ur das trigonomeDamit gelten also im Raum C([0, 2π]) mit dem L2 -Skalarprodukt f¨ trische System die Aussagen (2), (3) und (4) von Satz 8.2. Wir werden sehen, dass dies uns schon die Gewinnung erster Resultate zur punktweisen Darstellung von Funktionen als klassische Fourier-Reihen nach dem trigonometrischen System erm¨oglicht. Vorher sei noch festgehalten, wie die soeben erw¨ ahnten Aussagen f¨ ur die in Korollar 8.1 eingef¨ uhrten klassischen Fourierkoeffizienten an und bn zu notieren sind.
256
8 Einiges ¨ uber Fourier-Reihen
Korollar 8.3 Ist f ∈ C([0, 2π]) und sind (an )n∈N0 und (bn )n∈N die wie in Korollar 8.1 definierten Fourierkoeffizienten, so gilt: (1) (2)
' 2π 0
' 2π 0
|f (x) −
a0 2
−
)n
|f (x)|2 dx = π
!
cos(kx) + bk sin(kx))|2 dx → 0 f¨ ur n → ∞. > ) 2 2 + ∞ n=1 (|an | + |bn | ) .
k=1 (ak |a0 |2 2
Außerdem gilt, wenn (An )n∈N0 und (Bn )n∈N entsprechend die Fourierkoeffizienten von g ∈ C([0, 2π]) sind, (3)
' 2π 0
f (x)g(x)dx = π
.1
2 a0 A0
+
)∞
n=1 (an An
& + b n Bn ) .
Beweis: Wegen einx = cos(nx) + i sin(nx) folgt aus Satz 8.3, dass auch das Orthonormalsystem der Sinus- und Cosinusfunktionen im Raum C([0, 2π], C) mit dem L2 -Skalarprodukt vollst¨ andig ist. Bedenkt man nun, wie die an und die bn definiert sind, so folgen (1), (2) und (3) in dieser Reihenfolge sofort aus den Aussagen (2), (4) und (3) von Satz 8.2. ! Ein erstes Resultat zur punktweisen Darstellung von Funktionen aus C2π als klassische Fourier-Reihe ist nun rasch zu erhalten. Korollar 8.4 Sei f ∈ C2π , seien an und bn die in)Korollar 8.1 definierten Fourierkoeffizienten ∞ von f . Dann gilt: Ist die Reihe a20 + n=1 (an cos(nx) + bn sin(nx)) f¨ ur x ∈ [0, 2π] aßig konvergent, so gilt gleichm¨ ∞
a0 = + f (x) = (an cos(nx) + bn sin(nx)) 2 n=1 Beweis: Da die Reihe wir durch
a0 2
+
)∞
n=1 (an
f¨ ur
x ∈ [0, 2π].
cos(nx) + bn sin(nx)) gleichm¨aßig konvergent ist, k¨onnen
∞
g(x) :=
a0 = + (an cos(nx) + bn sin(nx)) 2 n=1
ur f¨
x ∈ [0, 2π]
eine Funktion g ∈ C2π definieren. Seien An und Bn die Fourierkoeffizienten von g. Da man gleichm¨ aßig konvergente Reihen gliedweise integrieren darf, folgt dann aufgrund der Orthogonalit¨ at der trigonometrischen Funktionen, dass An = an f¨ ur alle n ∈ N0 und Bn = bn f¨ ur alle n ∈ N gilt. Die Funktion h := f − g hat damit aber lauter verschwindende Fourierkoeffizienten, woraus nach Aussage (2) von Korollar 8.3 h = 0 folgt. Damit stimmen f und g punktweise u ! ¨ berein.
8.2 Zur Orthogonalit¨at
8.2.3
257
Zum W¨armeleitungsproblem II
Unter Verwendung von Korollar 8.4 k¨ onnen wir nun schon ein erstes Ergebnis zum Anfangs-Randwertproblem bei der W¨ armeleitungsgleichung gewinnen. Bei der Diskussion in Abschnitt 8.1 hatte sich das Problem ergeben, die u ¨ber [0, π] gegebene (mindestens stetige) Anfangsfunktion f , (f¨ u r die noch f (0) = f (π) gilt), punkt)∞ weise in der Form f (x) = n=1 bn sin(nx) darzustellen. Dieses Problem l¨asst sich aber sofort umschreiben in ein Problem der Darstellung einer u ¨ ber [0, 2π] gegebenen Funktion durch ihre Fourier-Reihe bez¨ uglich des trigonometrischen Systems. Dazu setzen wir f zu einer Funktion g ∈ C([0, 2π]) fort durch g(x) := f (x) f¨ ur x ∈ [0, π] und g(x) := −f (2π − x) f¨ ur x ∈ (π, 2π]. (Die Funktion g bezeichnet man dann auch als ’ungerade bez¨ uglich des Punktes x = π ’.) Man sieht nun leicht, dass bei der Funktion g alle Fourierkoeffizienten an verschwinden. Denn es gilt f¨ ur n ∈ N 0 1 an = π
(
2π
1 g(x) cos(nx)dx = π
0
:(
π
0
( g(x) cos(nx)dx +
2π
π
; g(x) cos(nx)dx
und man sieht rasch, dass (
2π π
( g(x) cos(nx)dx = −
π
0
g(x) cos(nx)dx
gilt. Und zwar zeigt dies die einfache Rechnung (
2π
π
( g(x) cos(nx)dx = −
2π
π
( f (2π −x) cos(nx)dx =
0
π
f (y) cos(n(2π −y))dx,
weil ja cos(n(2π − y)) = cos(ny) gilt. Eine entsprechende Rechnung zeigt u ur alle n ∈ N gilt ¨ brigens, dass f¨ bn =
2 π
( 0
π
g(x) sin(nx)dx =
2 π
( 0
π
f (x) sin(nx)dx.
Damit m¨ ussen wir uns nur noch mit der Frage besch¨aftigen, ob wir Bedingungen angeben k¨ onnen, die sicherstellen, dass eine bez¨ uglich des Punktes x = π ungerade Funktion g ∈ C([0, 2π]), f¨ ur die noch g(0) = g(2π) gilt, punktweise durch ihre Fourier-Reihe bez¨ uglich des trigonometrischen Systems dargestellt werden kann. Korollar 8.4 zeigt, ) dass wir nur wissen m¨ ussen, dass die Reihe bn sin(nx) f¨ ur x ∈ [0, 2π] gleichm¨aßig ) |bn | konvergent ist. Das urlich der Fall, wenn die Reihe konvergent ist. Das ist nat¨ zeigt, dass wir noch Informationen u ¨ber die Fourierkoeffizienten bn ben¨otigen. Ist nun g nicht nur stetig, sondern sogar zweimal stetig differenzierbar, so kann man sich solche Informationen recht leicht beschaffen. Dies zeigt das folgende Lemma, wobei zu beachten ist, dass f¨ ur eine bez¨ uglich x = π ungerade Funktion g ∈ C 1 ([0, 2π]) immer g & (0) = g & (2π) gelten muss. Da n¨ amlich f¨ ur x ∈ [π, 2π] gilt g(x) = −g(2π − x), folgt ur x ∈ [π, 2π]. g & (x) = g & (2π − x) f¨
258
8 Einiges ¨ uber Fourier-Reihen
Lemma 8.3 Sei f ∈ C 2 ([0, 2π]) mit f (0) = f (2π) und f & (0) = f & (2π). Dann gibt es Konstanten ur n ∈ N C1 > 0 und C2 > 0, so dass f¨ |an | ≤
C1 n2
und |bn | ≤
C2 . n2
gilt. Beweis: Partielle Integration liefert f¨ ur n ∈ N (
2π
0
;x=2π : ( 1 2π & 1 f (x) sin(nx)dx, − f (x) cos(nx)dx = f (x) sin(nx) n n 0 x=0
woraus mit erneuter partieller Integration unter Ber¨ ucksichtigung von f & (0) = f & (2π) weiter folgt (
2π
0
f (x) cos(nx)dx = −
1 n2
(
2π 0
f && (x) cos(nx)dx.
Daraus folgt offenbar : |an | ≤
1 π
( 0
2π
; 1 |f && (x)|dx . n2
Die behauptete Absch¨ atzung f¨ ur die bn erh¨ alt man ganz entsprechend mit zweimaliger partieller Integration, wobei nun aber die Voraussetzung f (0) = f (2π) schon bei der ersten partiellen Integration f¨ ur das Verschwinden der Randterme ben¨otigt wird. ! Damit wissen wir nun, dass wir eine L¨ osung des Anfangs-Randwertproblems bei der W¨ armeleitungsgleichung in der Form (8.3) finden k¨onnen, wenn die aus der Anfangsfunktion f gewonnene Funktion g sogar zweimal stetig differenzierbar ist. Dies ist keineswegs das beste erreichbare Ergebnis. Eine Verbesserung kann man erzielen, indem man die Fourierkoeffizienten etwas raffinierter absch¨atzt. Wesentlich ist dabei, dass man bei C 1 -Funktionen die Fourierkoeffizienten der Ableitung u& durch die Fourierkoeffizienten von u ausdr¨ ucken kann. Wir verwenden daf¨ ur nun die ur die Fourierkoeffizienten von u und adu,n und bdu,n f¨ ur die Notation au,n und bu,n f¨ Fourierkoeffizienten von u& . Es liefert partielle Integration unter Ber¨ ucksichtigung von u(0) = u(2π) f¨ ur n ∈ N ( 0
2π
&
u (t) cos(nt)dt =
t=2π (u(t) cos(nt))t=0
( = n
0
2π
( +n
u(t) sin(nt)dt,
0
2π
u(t) sin(nt)dt
8.3 Der Satz von Fej´er
259
woraus mit der vereinbarten Notation sofort adu,n = nbu,n f¨ ur n ∈ N folgt. Wegen u(0) = u(2π) gilt aber auch noch adu,0 = 0. Denn man kann sofort rechnen ( 1 1 2π & u (t)dt = (u(2π) − u(0)) = 0. adu,n = π 0 π Ganz analog sieht man mit partieller Integration, dass bdu,n = −nau,n f¨ ur n ∈ N gilt. ¨ Wir k¨ onnen also f¨ ur die weiteren Uberlegungen von adu,0 = 0,
adu,n = nbu,n ,
bdu,n = −nau,n
ausgehen. ur alle n ∈ N gilt aber |bdu,n |2 + Wegen (|bdu,n | − n1 )2 ≥ 0 f¨ 1 aus au,n = − n bdu,n weiter folgt |au,n | ≤
1 1 |bdu,n |2 + 2 2 2n
f¨ ur
n ∈ N.
f¨ ur
n ∈ N.
1 n2
≥ 2n−1 |bdu,n |, so dass
Ganz entsprechend erh¨ alt man nat¨ urlich |bu,n | ≤
1 1 |adu,n |2 + 2 2 2n
Da u& ∈ C([0, 2π]) ist, gilt nach Korollar 8.3 (2) aber Insgesamt erh¨ alt man damit, dass ∞ =
)∞
n=1 (|adu,n |
2
+ |bdu,n |2 ) < ∞.
(|au,n | + |bu,n |) < ∞
n=1
)∞ a gilt. Damit ist aber die Fourier-Reihe u,0 n=1 (au,n cos(nx) + bu,n sin(nx)) sicher 2 + f¨ ur x ∈ [0, 2π] gleichm¨ aßig konvergent und nach Korollar 8.4 ist also die Funktion u punktweise durch ihre Fourier-Reihe darstellbar. Wir k¨ onnen damit eine L¨ osung des Anfangs-Randwertproblems zur W¨armeleitungsgleichung in der Form (8.3) erhalten, wenn wir von der Anfangsfunktion f nur wissen, dass sie eine C 1 -Funktion ist.
8.3
Der Satz von Fej´er
Es wurde bereits erw¨ ahnt, dass eine stetige 2π-periodische Funktion i.a. nicht punktweise durch die zugeordnete Fourier-Reihe dargestellt werden kann. Dies ¨andert sich jedoch, wenn man nicht mit dem Grenzwert der Partialsummen der Fourier-Reihe arbeitet, sondern mit dem Grenzwert der arithmetischen Mittel der Partialsummen, die auch als Cesaro-Mittel bezeichnet werden.
260
8 Einiges ¨ uber Fourier-Reihen
¨ achlich ist allgemeiner der Ubergang Tats¨ zu den arithmetischen Mitteln der Partialsummen eine M¨ oglichkeit, noch gewissen Reihen, f¨ ur die die Folge der Partialsummen nicht konvergent ist, einen Wert zuweisen zu k¨onnen. Dies zeigt bereits das folgende einfache Beispiel: )∞ Die Reihe k=1 (−1)k−1 ist bekanntlich nicht konvergent, weil ihre Partialsummen bei wachsender Zahl der Summanden abwechselnd den Wert 1 und 0 haben. Betrachtet )n man nun aber, wenn sn := k=1 (−1)k−1 ist, die Folge (σn )n∈N , die definiert ist durch σn :=
1 (s1 + . . . + sn ), n
m so ist σ2m = 12 und σ2m−1 = 2m−1 f¨ ur m ∈ N. Damit gilt limn→∞ σn = 21 . Es er)∞ scheint nun keineswegs unsinnig, diesen Grenzwert der Reihe k=1 (−1)k−1 als Wert zuzuordnen. Man spricht daher davon, dass die Reihe zwar nicht im Cauchyschen Sinn konvergent, aber Cesaro-summierbar ist.
ur diesen Summierbarkeitsbegriff, oßter Bedeutung f¨ Der folgende Satz ist nun von gr¨ denn er besagt, dass Reihen, die schon im bisherigen Cauchyschen Sinn konvergent sind, auch in diesem neuen Sinn summierbar sind und die Cesaro-Summe sich nicht vom u ¨ blichen Wert der Reihe unterscheidet. Damit kann also durch diesen neuen Summierbarkeitsbegriff bei schon im bisherigen Sinn konvergenten Reihen der Reihe kein zweiter verschiedener Wert zugewiesen werden. Satz 8.4
)∞ Seien ak ∈ C f¨ ur k ∈ N0 und sei die Reihe k=0 ak Cauchy-konvergent, seien sn die Partialsummen dieser Reihe. Dann gilt: 2m 5 n 1 = = lim ak = lim sn . (8.10) n→∞ n + 1 n→∞ m=0 k=0
Beweis: Sei zur Abk¨ urzung s := limn→∞ sn gesetzt. Da die Reihe im u ¨ blichen Sinn konvergent ur n ≥ n0 . Setzt man nun sein soll, gibt es zu jedem ε > 0 ein n0 mit |sn − s| < ε/2 f¨ 1 noch σn := n+1 (s0 + . . . + sn ), so folgt f¨ ur n ≥ n 0 # # n0 −1 n n # 1 ##= 1 = 1 = # |σn − s| = |sk − s| + |sk − s|. # (sk − s)# ≤ # n+1 n+1 # n+1 k=0
k=0
k=n0
Setzt man m(n0 ) := max{|sk − s| : k = 0, 1, . . . , n0 − 1}, so gilt f¨ ur n ≥ n0 also |σn − s| ≤
ε 1 n0 m(n0 ) + . n+1 2
Da es aber ein n1 ≥ n0 gibt, so dass (n + 1)−1 n0 m(n0 ) ≤ ε/2 gilt f¨ ur n ≥ n1 , folgt |σn − s| ≤ ε f¨ ur n ≥ n1 . Damit gilt aber (8.10). !
8.3 Der Satz von Fej´er
261
Es ist nun unser Ziel, zu zeigen, dass im Fall stetiger Funktionen immer die CesaroSummierbarkeit der Fourier-Reihe gegeben ist. Wir werden dabei die folgenden Notationen ben¨ utzen: uher defiEs sei C2π = {f ∈ C(R, C) : f ist 2π-periodisch}. Jedem f ∈ C2π ist die fr¨ nierte Folge (ck (f ))k∈Z der Fourierkoeffizienten zugeordnet, damit kann man f¨ ur jedes n ∈ N0 die Partialsumme der Fourier-Reihe zu f sn (f, x) :=
n =
ck (f )eikx
f¨ ur
x∈R
k=−n
definieren. F¨ ur die mit diesen Partialsummen gebildeten Cesaro-Mittel werden wir die Bezeichnung n 1 = σn (f, x) := sm (f, x) n + 1 m=0 verwenden. ¨ Wesentlich f¨ ur die weiteren Uberlegungen ist die in folgendem Lemma festgehaltene Darstellung f¨ ur diese Cesaro-Mittel. Dabei notieren wir einfach 2πZ f¨ ur die Menge aller ganzzahligen Vielfachen von 2π. Lemma 8.4 Sei f¨ ur n ∈ N0 die Funktion Kn : R → R definiert durch Kn (t) :=
1 1 − cos((n + 1)t) n+1 1 − cos t
Kn (t) := n + 1 f¨ ur
f¨ ur
t∈ / 2πZ,
t ∈ 2πZ.
Dann gilt f¨ ur f ∈ C2π , n ∈ N0 und x ∈ R ( π 1 σn (f, x) = f (x − t)Kn (t)dt. 2π −π Beweis: Wir beginnen mit der ur die Partialsummen sn (f, x). ' π Gewinnung einer Darstellung f¨ Da ck (f ) = (1/2π) −π f (t)e−ikt dt f¨ ur k ∈ Z gilt, k¨onnen wir notieren 1 sn (f, x) = 2π
(
π
−π
f (t)Dn (x − t)dt,
(8.11)
wenn der sogenannte Dirichlet-Kern Dn definiert ist durch Dn (x) :=
n = k=−n
eikx
f¨ ur
x ∈ R.
(8.12)
262
8 Einiges ¨ uber Fourier-Reihen
Wichtig ist nun, dass man Dn noch anders schreiben kann, und zwar als Dn (x) =
sin((n + 12 )x) , sin( x2 )
(8.13)
wobei im Fall sin(x/2) = 0, (also falls x = 2mπ ist), die Regel von de l’Hospital heranzuziehen ist. Diese liefert in diesen F¨ allen den Wert 2n + 1 f¨ ur den Bruch, was offenbar im Einklang mit (8.12) steht. Damit ist (8.13) noch im Fall sin(x/2) 3= 0 nachzuweisen. Zun¨ achst folgt aus (8.12) (eix − 1)Dn (x) =
n =
ei(k+1)x −
k=−n
=
n+1 =
n =
eikx
k=−n
eikx −
k=−n+1
n =
eikx = ei(n+1)x − e−inx .
k=−n
ix
Multiplikation mit e− 2 liefert weiter ix
ix
1
1
(e 2 − e− 2 )Dn (x) = ei(n+ 2 )x − e−i(n+ 2 )x , woraus offenbar sofort (8.13) folgt. Aus (8.11) folgt zun¨ achst, wenn man x − t = τ setzt, ( x+π ( π 1 1 f (x − τ )Dn (τ )dτ = f (x − τ )Dn (τ )dτ. sn (f, x) = 2π x−π 2π −π Daher k¨ onnen wir schreiben ( π n 1 = 1 f (x − t) Dm (t)dt. σn (f, x) = 2π −π n + 1 m=0 )n 1 ussen wir nur noch zeigen, dass Kn (t) = n+1 Damit m¨ m=0 Dm (t) gilt. Da die Funkur t ∈ R stetig waren, m¨ ussen wir dies nur f¨ ur t ∈ / 2πZ zeigen und dann tionen Dn alle f¨ ur t ∈ 2πZ stetig erg¨anzt wurde. nachpr¨ ufen, dass Kn durch die gegebene Definition f¨ Sei also t ∈ / 2πZ. Gehen wir von der bekannten Formel 1 1 2 sin((m + )t) sin( t) = cos(mt) − cos((m + 1)t) 2 2 aus, so erhalten wir aufgrund von (8.13) n n 1 = 1 = sin((m + 21 )t) Dm (t) = = n + 1 m=0 n + 1 m=0 sin( 12 t)
;−1 = : n 2 1 = 2(n + 1)sin ( t) (cos(mt) − cos((m + 1)t)). 2 m=0
8.3 Der Satz von Fej´er
263
Da nun aber die letzte Summe offenbar 1 − cos((n + 1)t) ergibt und 2sin2 ( 12 t) = 1 − cos t 1 )n gilt, folgt daraus sofort n+1 ur t ∈ / 2πZ. m=0 Dm (t) = Kn (t) f¨ Um zu zeigen, dass die Funktion Kn in den Punkten t ∈ 2πZ stetig erg¨anzt wurde, gehen wir von der Darstellung Kn (t) =
1 n+1
:
sin((n + 1)(t/2)) sin(t/2)
;2 f¨ ur
t∈ / 2πZ
aus, die man sofort aus der gegebenen Definition erh¨alt. Da n¨amlich bekanntlich :
sin((n + 1)(t/2)) sin(t/2)
;2
→ (n + 1)2
f¨ ur
t → t0 ∈ 2πZ
ur t → t0 ∈ 2πZ. gilt, folgt Kn (t) → n + 1 f¨
!
Die Definition des Fej´ er-Kerns Kn zeigt unmittelbar, dass Kn (t) ≥ 0 f¨ ur alle t ∈ R 'π ' π ikt 1 gilt. Da nun stets 2π dt = 0 f¨ ur k ∈ N ist), folgt −π Dn (t)dt = 1 gilt, (weil ja −π e ) n 1 aus Kn (t) = n+1 D (t) sofort m m=0 1 2π
(
π
−π
Kn (t)dt = 1
f¨ ur
n ∈ N0 .
Da einerseits immer 1 − cos((n + 1)t) ≤ 2 und andererseits f¨ ur 0 < δ ≤ |t| ≤ π wegen der Monotonie der Cosinusfunktion u ¨ ber den betrachteten Intervallen 1 − cos t ≥ 1 − cos δ gilt, k¨ onnen wir auch noch f¨ ur n ∈ N0 notieren Kn (t) ≤
2 (n + 1)(1 − cos δ)
f¨ ur
0 < δ ≤ |t| ≤ π.
Setzen wir Mn (δ) := maxt∈[δ,π] Kn (t), so gilt also Mn (δ) → 0 f¨ ur n → ∞. Um den folgenden Satz von Fej´ er f¨ ur mehr Funktionen einsetzen zu k¨onnen, werden wir dabei die bisherige Voraussetzung f ∈ C2π etwas abschw¨achen. Wir werden zulassen, dass f stetig ist bis auf Sprungstellen, von denen in jedem kompakten Intervall h¨ ochstens endlich viele liegen sollen. Bei solchen Sprungstellen ξ sollen die Grenzwerte limx→ξ+0 f (x) =: f (ξ + 0) und limx→ξ−0 =: f (ξ − 0) existieren und wir nehmen an, dass f (ξ) =
1 (f (ξ + 0) + f (ξ − 0)) 2
(8.14)
gilt. Die Menge dieser Funktionen sei mit F2π bezeichnet. Klar ist, dass f¨ ur Funktionen aus F2π die Fourierkoeffizienten ck (f ) wie bisher definiert werden k¨onnen. Damit ist auch σn (f, x) sinnvoll. Ein Blick auf den Beweis von Lemma 8.4 zeigt, dass die dort gegebene Darstellung von σn (f, x) mit Hilfe des Fej´er-Kerns unver¨andert erhalten bleibt.
264
8 Einiges ¨ uber Fourier-Reihen
Satz 8.5 Ist f ∈ F2π , so gilt limn→∞ σn (f, x) = f (x) f¨ ur alle x ∈ R. Beweis: Wir zeigen zun¨ achst, dass wir f¨ ur x0 ∈ R schreiben k¨onnen ( π 1 σn (f, x0 ) − f (x0 ) = (f (x0 + t) + f (x0 − t) − 2f (x0 ))Kn (t)dt. (8.15) 2π 0 'π Dazu n¨ utzen wir aus, dass (1/2π) −π f (x0 )Kn (t)dt = f (x0 ), also, da Kn (−t) = Kn (t) gilt, (d.h. Kn ist eine gerade Funktion), ( π f (x0 ) = (1/2π) 2f (x0 )Kn (t)dt 0
gilt. Außerdem k¨ onnen wir ja notieren ( π ( 0 f (x0 − t)Kn (t)dt = f (x0 + t)Kn (t)dt. −π
0
Damit folgt (8.15) aus der in Lemma 8.4 notierten Darstellung von σn (f, x0 ). ur t ∈ R. Wegen (8.14), (das trivialerweise Sei nun g(t) := f (x0 + t) + f (x0 − t) − 2f (x0) f¨ auch in allen Stetigkeitspunkten erf¨ ullt ist), gilt dann g(t) → 0 f¨ ur t → 0. Es gibt also zu jedem ε > 0 ein δ ∈ (0, π) mit |g(t)| ≤ ε f¨ ur |t| ≤ δ. Damit k¨onnen wir aber mit atzen Mn (δ) wie oben absch¨ ( δ ( π 1 1 |σn (f, x0 ) − f (x0 )| ≤ |g(t)|Kn (t)dt + |g(t)|Kn (t)dt 2π 0 2π δ ( π ( π ε 1 Mn (δ) ≤ |g(t)|dt. Kn (t)dt + 2π 0 2π 0 'π ur n → ∞ gilt, Da aber einerseits immer 0 Kn (t)dt = π, und andererseits Mn (δ) → 0 f¨ gibt es damit ein n0 , so dass |σn (f, x0 ) − f (x0 )| < ε f¨ ur n ≥ n0 gilt. ! Die punktweise Konvergenz der Cesaro-Mittel ist sogar gleichm¨aßig auf kompakten Intervallen, die in einem Stetigkeitsbereich von f liegen: Satz 8.6 ur jedes Intervall Sei f ∈ F2π und sei f im Intervall (a, b) ⊂ R stetig. Dann gilt f¨ [a& , b& ] ⊂ (a, b) σn (f, x) → f (x)
f¨ ur
n → ∞ gleichm¨aßig in
x ∈ [a& , b& ].
Beweis: Da wir nun die Konvergenzfrage nicht nur in einem festen Punkt x0 zu diskutieren haben, f¨ uhren wir die Notation g(x, t) := f (x + t) + f (x − t) − 2f (x)
8.3 Der Satz von Fej´er
265
ein und gehen entsprechend zu (8.15) aus von ( π 1 σn (f, x) − f (x) = g(x, t)Kn (t)dt 2π 0
f¨ ur
x ∈ [a& , b& ].
Da f noch auf einem Intervall [a& − ρ, b& + ρ] ⊂ (a, b) gleichm¨aßig stetig ist, gibt es zu ε > 0 ein δ ∈ (0, π] mit |g(x, t)| ≤ ε f¨ ur |t| ≤ δ und x ∈ [a& , b& ]. Damit k¨onnen wir wie am Ende des Beweises von Satz 8.5 absch¨ atzen ( π ( π 1 ε Mn (δ) |σn (f, x) − f (x)| ≤ Kn (t)dt + |g(x, t)|dt f¨ ur x ∈ [a& , b& ]. 2π 0 2π 0 Wegen Mn (δ) → 0 f¨ ur n → ∞ werden wir daraus'sofort die gew¨ unschte Gleichm¨aßigπ keitsaussage erhalten, wenn es ein A > 0 gibt mit 0 |g(x, t)|dt ≤ A f¨ ur alle x ∈ [a& , b& ]. Die Absch¨ atzung (
π 0
( |g(x, t)|dt ≤
0
( = ≤
π
( |f (x + t)|dt +
x+π
x ( π −π
( |f (τ )|dτ +
π
0 x
( |f (x − t)|dt + 2
x−π
0
π
|f (x)dt
|f (τ )|dτ + 2π|f (x)|
|f (τ )|dτ + 2π max |f (x)| ! ! x∈[a ,b ]
zeigt dies aber.
!
Die letzten zwei S¨atze haben zwei wichtige Konsequenzen: Korollar 8.5 Ist f ∈ C2π , so gilt σn (f, x) → f (x) f¨ ur n → ∞ gleichm¨aßig in x ∈ R. Beweis: Die Gleichm¨ aßigkeitsaussage von Satz 8.6 gilt f¨ ur f ∈ C2π auf jedem kompakten Intervall der L¨ ange 2π. Dies reicht wegen der 2π-Periodizit¨at aus. ! Korollar 8.6 Sei f ∈ F2π und x0 ∈ R. Dann gilt: Ist die Folge (sn (f, x0 ))n∈N konvergent, so gilt sn (f, x0 ) → f (x0 ) f¨ ur n → ∞. Beweis: Nach Satz 8.4 gilt lim σn (f, x0 ) = lim sn (f, x0 ). Da nach Satz 8.5 lim σn (f, x0 ) = f (x0 ) ! gilt, folgt daraus sofort die Behauptung. Dieses Resultat geht offenbar u ¨ ber das Resultat von Korollar 8.4 hinaus. Sei als n¨achstes ein einfaches Beispiel zu diesem Resultat behandelt.
266
8 Einiges ¨ uber Fourier-Reihen
Definiert man f : R → R durch f (x) :=
1 (π − x) 2
f¨ ur
x ∈ (0, 2π),
f (0) := 0,
f (x + 2π) = f (x) f¨ ur
x ∈ R,
so ist f ∈ F2π . Ihre Fourierkoeffizienten lassen sich leicht berechnen. Da f auf [−π, π] eine (bez¨ uglich x0 = 0) ungerade Funktion ist, verschwinden alle Fourierkoeffizienten alt man unter Verwendung von partieller Integration durch die folgende ak . Die bk erh¨ Rechnung: ( 1 π bk = (π − x) sin(kx)dx π 0 ;π : ( 1 π1 1 1 cos(kx)dx − = −(π − x) cos(kx) π k π 0 k 0 : ;π 1 1 1 = − sin(kx) = . 2 k πk k 0 Es wird somit die punktweise Darstellung ∞ = 1 f (x) = sin(kx) k
f¨ ur
x∈R
k=1
) −1 gelten, wenn die Reihe k sin(kx) f¨ ur alle x ∈ R konvergent ist. Dies wird sich aber aus dem folgenden Resultat zur Konvergenz von Reihen ergeben: Lemma 8.5 Sei (ck )k∈N eine streng monoton fallende Nullfolge, sei (ak )) ur k∈N eine Folge in C, f¨ n (s orige Folge die die zugeh¨ ) der Partialsummen s := a beschr¨ a nkt ist. n n∈N n k k=1 )∞ Dann ist die Reihe k=1 ak ck konvergent. Beweis: Der Beweis beruht auf partieller Summation. Offenbar passt diese Bezeichnung auf die folgende Vorgangsweise: m =
(sk − sk−1 )ck =
k=n+1
m = k=n+1
sk ck −
m−1 =
sk ck+1
k=n
= sm cm − sn cn +
m−1 =
sk (ck − ck+1 ).
k=n
Wegen sk − sk−1 = ak k¨ onnen wir damit absch¨atzen # # m m−1 # # = = # # ak ck # ≤ |sm |cm + |sn |cn + |sk |(ck − ck+1 ). # # # k=n+1
k=n
8.3 Der Satz von Fej´er
267
Nach Voraussetzung gibt es ein M > 0 mit |sn | ≤ M f¨ ur alle n. Ist ε > 0 gegeben und ahlt, dass cn < ε(2M )−1 f¨ ur n > n0 gilt, so folgt dazu n0 ∈ N so gew¨ # # m m−1 # # = = # # ak ck # ≤ M (cm + cn + (ck − ck+1 )) = 2M cn < ε # # # k=n+1
k=n
f¨ ur m > n > n0 . Damit bilden die Partialsummen der Reihe somit ist die Reihe konvergent.
)
ak ck eine Cauchy-Folge, ! ) −1 Mit diesem Ergebnis k¨ onnen wir rasch die Konvergenz von k sin(kx) f¨ ur x ∈ R erschließen. F¨ ur x = 2mπ mit m ∈ Z ist offenbar nichts zu zeigen. Sei also x ∈ (0, 2π). W¨ ahlt man nun in Hinblick auf das Lemma die durch ak := eikx und ck := k −1 definierten Folgen, so erf¨ ullen diese tats¨ achlich die Voraussetzungen des Lemmas. Bei der Folge (ck ) ist dies klar, bei der Folge (ak ) m¨ ussen wir nur f¨ ur n ≥ 1 absch¨atzen # n # # # #= # # einx − 1 # 2 # # #≤ . eikx # = |eix | ## ix # # # e − 1 # |eix − 1| k=1
)∞ )1 ) 1 ikx Somit ist die Reihe k=1 k1 eikx f¨ ur x ∈ R konvergent. Da ) k sin(kx) =Im( ke )1 gilt, ist damit aber auch die Reihe sin(kx) konvergent. k aufig gebrauchter Satz zur Approximation Abschließend sei nun noch gezeigt, dass ein h¨ von stetigen Funktionen durch Polynomfunktionen, der sogenannte Approximationssatz von Weierstraß, f¨ ur den es etliche verschiedene Beweise gibt, als eine Folgerung aus dem Satz von Fej´er erhalten werden kann. Ausgangspunkt ist dabei das folgende einfache Lemma: Lemma 8.6 F¨ ur alle n ∈ N0 gibt es ein Polynom Tn vom Grad n mit reellen Koeffizienten, so ur n ∈ N0 und x ∈ R gilt. dass cos(nx) = Tn (cos x) f¨ Beweis: ur x ∈ R, so ist die Behauptung f¨ ur n = 0 und Setzt man T0 (x) := 1 und T1 (x) := x f¨ ur n ≥ 2 n = 1 sicher erf¨ ullt. Davon ausgehend definieren wir nun die Polynome Tn f¨ durch die Rekursionsformel Tn (x) := 2xTn−1 (x) − Tn−2 (x). Es ist klar, dass damit alle Tn eindeutig bestimmt sind, und dass sie Polynome vom Grad n mit reellen Koeffizienten sind. Die Behauptung des Lemmas ergibt sich nun daraus, dass aufgrund der bekannten Additionstheoreme f¨ ur die trigonometrischen Funktionen f¨ ur n ≥ 2 gilt cos(nx) = 2 cos x cos((n − 1)x) − cos((n − 2)x). Ersetzt man n¨ amlich in der die Tn definierenden Rekursionsformel x durch cos x, so gilt ja Tn (cos x) = 2(cos x)Tn−1 (cos x) − Tn−2 (cos x),
268
8 Einiges ¨ uber Fourier-Reihen
so dass, wenn man annimmt, dass bekannt ist, dass Tn−1 (cos x) = cos((n − 1)x) und Tn−2 (cos x) = cos((n − 2)x) gilt, sofort Tn (cos x) = cos(nx) folgt. Damit ist klar, dass die Behauptung mit einem Induktionsschluss folgt. ! Die Polynome Tn sind als Tschebyscheff-Polynome bekannt. Mit ihnen erh¨alt man nun den Weierstraßschen Approximationssatz in der folgenden Form: Satz 8.7 Sei f ∈ C([−1, 1]), sei αk f¨ ur k ∈ N0 definiert durch ( π 2 αk := f (cos t) cos(kt)dt. π 0 Dann gibt es zu jedem ε > 0 ein n ∈ N, so dass f¨ ur x ∈ [−1, 1] gilt # # n # # k α0 = # # − )αk Tk (x)# ≤ ε. (1 − #f (x) − # # 2 n+1 k=1
Beweis: Die Definition der αk zeigt bereits, wie beim Beweis vorzugehen ist. Man betrachtet die Funktion g(t) := f (cos t) f¨ ur t ∈ R. Trivialerweise ist g auf ganz R stetig, 2π-periodisch und sogar eine (bez¨ uglich x = 0) gerade Funktion. Nach Korollar 8.5 gibt es also zu ur alle t ∈ R. Da g eine gerade Funktion ist, ε > 0 ein n ∈ N0 mit |g(t) − σn (g, t)| ≤ ε f¨ haben dabei die Cesaro-Mittel σn (g, t) mit den u ¨blichen Fourierkoeffizienten ak von g die Form 1 (s0 (g, t) + · · · + sn (g, t)) n+1 ⎛ ⎛ ⎞⎞ n k 1 ⎝ a0 = ⎝ a0 = = + + aj cos(jt)⎠⎠ . n+1 2 2 j=1
σn (g, t) =
k=1
Nach der Definition von g gilt ja ak = αk f¨ ur alle k, weshalb wir nun nur noch die notierte Darstellung von σn (g, t) in die im Satz angegebene Linearkombination der Tschebyscheff-Polynome umformen m¨ ussen. Zun¨achst schreiben wir ⎞⎞ ⎛ ⎛ n k n n 1 == 1 ⎝ a0 = ⎝ a0 = a0 ⎠ ⎠ + + + aj cos(jt). aj cos(jt) = n+1 2 2 2 n + 1 j=1 j=1 k=1
Da nun aber
)n
j=1
)n
k=j
aj cos(jt) = n
σn (g, t) =
k=j
)n
j=1 (n
− j + 1)aj cos(jt) gilt, folgt
a0 = j + )aj cos(jt). (1 − 2 n + 1 j=1
8.3 Der Satz von Fej´er
269
Ber¨ ucksichtigt man die Definition von g und Lemma 8.6, so haben wir damit erhalten # # n # # α0 = k # # − )αk Tk (cos t)# ≤ ε (1 − #f (cos t) − # # 2 n+1 k=1
f¨ ur alle t ∈ R. Daraus folgt offenbar sofort die Behauptung des Satzes.
!
Aufgaben 1. Seien die Funktionen rk : [0, 1] → R f¨ ur k ∈ N0 definiert durch r0 (x) = 1, rk (x) = sign(sin(2k πx)), (k ∈ N). Man zeige, dass (a) die Funktionen rk ein Orthogonalsystem (bez¨ uglich des L2 -Skalarprodukts) bilden. (b) Es eine nicht identisch verschwindende stetige Funktion f : [0, 1] → R gibt ur alle k ∈ N0 . mit 'f, rk - = 0 f¨ 2. Sei die charakteristische Funktion χ(a,b) eines Intervalls (a, b) definiert durch / (a, b). χ(a,b) (x) := 1, falls x ∈ (a, b), und χ(a,b) (x) := 0, falls x ∈ Damit seien f¨ ur n ∈ N0 und k ∈ {1, . . . , 2n } die Funktionen hn,k : [0, 1] → R definiert durch hn,k = 2n/2 χ(2−n (k−1),2−n (k−(1/2))) − 2n/2 χ(2−n (k−(1/2)),2−n k) . ur alle x ∈ [0, 1]. Außerdem sei h0,0 (x) = 1 f¨ (a) Man zeige, dass das durch diese Funktionen gegebene System ein Orthonormalsystem bez¨ uglich des L2 -Skalarprodukts ist. ur alle n und k, so ist f = 0. (b) Man zeige: Ist f ∈ C([0, 1], R) mit 'hn,k , f - = 0 f¨ (Hinweis: Ist f orthogonal 'zu allen Funktionen des Systems, so argumentiere man x mit der Funktion F (x) := 0 f (t)dt.) 3. Man beweise
∞ = 1 π2 . = 2 k 6 k=1
(Hinweis: Man gehe von der Funktion f (x) := berechne ihre Fourierkoeffizienten.)
1 2 (π
− x) f¨ ur x ∈ [0, 2π] aus und
4. Seien r1 , r2 , . . . , rk ∈ Z \ {0}. Man zeige, dass die Ungleichung 1 2π gilt.
( 0
2π
|1 + eir1 x + . . . + eirk x |dx ≤
√ k+1
270
8 Einiges ¨ uber Fourier-Reihen
5. Sei f ∈ C 1 ([0, 2π], R) mit f (0) = f (2π). Sein an und bn die Fourierkoeffizienten & von f und An und B )nndie Fourierkoeffizienten von f . Sei sn (f, x) = a20 + k=1 (ak cos(kx) + bk sin(kx)). Man zeige: (a) Es gilt f¨ ur n < m m =
2 (|ak | + |bk |) ≤
k=n+1
m =
2
k=n+1
1 k2
51/2 2
m =
51/2 2
2
(|Ak | + |Bk | )
.
k=n+1 1
(b) Es gilt sup{|f (x) − sn (f, x)| : x ∈ [0, 2π]} = o(n− 2 ). '1 ur alle n ∈ N0 , so ist 6. Sei f ∈ C([−1, 1], C). Man zeige: Ist −1 f (x)xn dx = 0 f¨ f (x) = 0 f¨ ur alle x ∈ [−1, 1]. 7. Man zeige, dass gilt: |x| =
∞ π 4= 1 − cos((2n − 1)x) 2 π n=1 (2n − 1)2
| sin x| =
∞ 4= 1 2 − cos(2nx) f¨ ur π π n=1 4n2 − 1
f¨ ur
x ∈ [−π, π],
x ∈ [−π, π].
(8.16) (8.17)
Unter Ben¨ utzung von (8.16) zeige man, dass ∞ = π3 (−1)n−1 = 32 n=1 (2n − 1)3
(8.18)
gilt. 8. Sei α ∈ R mit |α| > 1. Welche Funktionen werden durch die Reihen ∞ = n=0
α−n cos(nx)
und
∞ =
α−n sin(nx)
n=1
dargestellt? 9. Man u ¨ berlege sich, dass man den Weierstraßschen Approximationssatz beweisen kann, indem man zuerst durch trigonometrische Polynome und diese dann durch Taylorpolynome approximiert.
9
Integration II
M¨ochte man die Vorgangweise, die wir in Kapitel 5 bei der Einf¨ uhrung des RiemannIntegrals f¨ ur Abbildungen f : [a, b] → X verwendet haben, auf Funktionen mehrerer Variabler u achst nur f¨ ur Funktionen an, die auf einem ¨bertragen, so bietet sich dies zun¨ achsenparallelen Quader [a1 , b1 ]×. . .×[an , bn ] ⊂ Rn definiert sind. Dies ist jedoch sicher nicht ausreichend, wenn man etwa mit Hilfe des Integrals Volumina von komplizierteren dreidimensionalen K¨ orpern berechnen m¨ ochte. Dass ja schon im R2 ganz anschaulich eine Teilmenge sehr kompliziert aussehen kann, ist ein wesentlicher Grund daf¨ ur, dass die Behandlung der Integration im mehrdimensionalen Fall einen relativ hohen Aufwand erfordert, wenn man nicht zu speziell arbeiten will. Letztlich erweist sich dabei das Lebesgue-Integral als der angemessene Integralbegriff, der jedoch in dieser Einf¨ uhrung nicht behandelt werden wird. Wir werden daher zun¨achst speziell beginnen und dann einzelne Schritte zu gr¨ oßerer Allgemeinheit gehen, wobei wir aber schließlich auf die Durchf¨ uhrung mehr technisch gepr¨ agter Details verzichten werden.
9.1
Integration u¨ber Quader, iterierte Integrale
Hat man eine beschr¨ ankte Funktion f : [a, b] × [c, d] → R gegeben, wobei [a, b] und [c, d] kompakte Intervalle sind, so entspricht es offenbar der im Fall einer Funktion einer Variablen diskutierten Aufgabe, wenn man das Volumen des Bereichs im R3 berechnen m¨ ochte, der zwischen dem Rechteck [a, b] × [c, d] in der x − y-Ebene und dem Graphen der Funktion f liegt. Man kann nun diese Aufgabe ganz analog zu fr¨ uher anpacken, indem man das Rechteck [a, b] × [c, d] in Teilrechtecke zerlegt, die dadurch entstehen, dass man wie im eindimensionalen Fall die Intervalle [a, b] und [c, d] zerlegt, also etwa a = x0 < x1 < . . . < xn−1 < xn = b und c = y0 < y1 < . . . < ym−1 < ym = d, und dann die Rechtecke Rj,k := [xj , xj−1 ] × [yk , yk−1 ] mit j ∈ {1, . . . , n}, k ∈ {1, . . . , m} bildet. Das gesuchte Volumen sollte sich dann wieder als Grenzwert von Riemann-Summen S(Z, f, ξ, η) :=
n = m =
(xj − xj−1 )(yk − yk−1 )f (ξj , ηk )
j=1 k=1
ergeben, wobei (ξj , ηk ) ∈ Rj,k ist. Wie in Abschnitt 5.1 sieht man, dass es dabei entscheidend auf das Verhalten der Gr¨ oße n m == σ(Z, f ) := (xj − xj−1 )(yk − yk−1 ) sup{|f (x, y) − f (ξ, η)| : (x, y), (ξ, η) ∈ Rj,k } j=1 k=1
ankommt. Es wird daher entsprechend eine beschr¨ ankte Funktion f : [a, b]×[c, d] → R als Riemannintegrierbar bezeichnet, wenn es zu jedem ε > 0 eine Zerlegung Z von [a, b] × [c, d] in
272
9 Integration II
Teilrechtecke Rj,k gibt, f¨ ur die σ(Z, f ) ≤ ε gilt. Ist f Riemann-integrierbar, so notiert man h¨ aufig das Integral in der Form ( f (x, y)d(x, y). [a,b]×[c,d]
In einer sehr einfachen Situation kann man die Frage nach der Riemann-Integrierbarkeit einer Funktion f : [a, b]×[c, d] → R sofort mit Hilfe des eindimensionalen Falls beantworten. Beim folgenden Lemma betrachten wir dazu eine entsprechende h¨oherdimensionale Situation, bei der mit ganz analogen Begriffsbildungen der Arbeitsaufwand der gleiche ' ist wie im zweidimensionalen Fall. Dabei schreiben wir auch einfach P f (x)dx, wenn P ⊂ Rm ein achsenparalleler Quader und f : P → R Riemann-integrierbar ist. Lemma 9.1 Sei P = [a1 , b1 ] × · · · × [ap , bp ] ⊂ Rp , Q = [c1 , d1 ] × · · · × [cq , dq ] ⊂ Rq und seien g : P → R und h : Q → R Riemann-integrierbar. Dann ist auch die durch f (x, y) := g(x) · h(y)
f¨ ur
(x, y) ∈ P × Q
definierte Funktion f : P × Q → R Riemann-integrierbar und es gilt ; ; :( :( ( h(y)dy . g(x)dx f (x, y)d(x, y) = P
P ×Q
Q
(9.1)
Beweis: Sei M > 0 so gew¨ ahlt, dass |g(x)| ≤ M f¨ ur x ∈ P und |h(y)| ≤ M f¨ ur y ∈ Q gilt, (da g und h Riemann-integrierbar sein sollen, sind sie ja beschr¨ankt). Dann kann man f¨ ur (x, y), (ξ, η) ∈ P × Q absch¨ atzen |f (x, y) − f (ξ, η)| ≤ |g(x)h(y) − g(ξ)h(y)| + |g(ξ)h(y) − g(ξ)h(η)| ≤ M (|g(x) − g(ξ)| + |h(y) − h(η)|). Ist ZP eine beliebige Zerlegung von P in Teilquader und ZQ eine Zerlegung von Q in Teilquader, so erh¨ alt man eine Zerlegung Z von P × Q, wenn man alle Quader A × B mit A ∈ ZP und B ∈ ZQ betrachtet. Man kann dann absch¨atzen, wenn Z genau m Quader Rk := [αk,1 , βk,1 ) × · · · × [αk,p , βk,p ] × [γk,1 , δk,1 ] × · · · × [γk,q , δk,q ] umfasst und V (Rk ) das Volumen so eines Quaders ist, σ(Z, f ) =
m =
V (Rk ) sup{|f (x, y) − f (ξ, η)| : (x, y), (ξ, η) ∈ Rk }
k=1
≤ M
m =
V (Rk ) sup{|g(x) − g(ξ)| + |h(y) − h(η)| : (x, y), (ξ, η) ∈ Rk }
k=1
≤ M (V (Q)S(ZP , g) + V (P )S(ZQ , h)).
9.1 Integration ¨ uber Quader, iterierte Integrale
273
Ist nun ε > 0 gegeben, so gibt es eine Zerlegung ZP von P mit σ(ZP , g) ≤ (2M V (Q))−1 ε und eine Zerlegung ZQ von Q mit σ(ZQ , h) ≤ (2M V (P ))−1 ε. Es folgt dann mit der aus diesen Zerlegungen gebildeten Zerlegung Z von P × Q aufgrund unserer Absch¨atzung σ(Z, f ) ≤ ε. Somit ist f Riemann-integrierbar. Damit ist noch die Behauptung zu den Integralen zu zeigen. Wir gehen dabei davon aus, dass man die Integrale als Grenzwerte von Riemann-Summen erhalten kann, die zu immer feiner werdenden Zerlegungen der entsprechenden Quader geh¨oren. Sind nun SP und SQ Riemann-Summen zum Integral u ¨ ber P bzw. u ¨ ber Q, also SP (ZP , g, ξ) =
n =
V (Pj )g(ξj ),
j=1
wobei die Pj die Teilquader von P sind mit Volumen V (Pj ) und jeweils ξj ∈ Pj ist, und entsprechend m = SQ (ZQ , h, η) = V (Qk )h(ηk ), k=1
so erh¨ alt man durch das Produkt SP (ZP , g, ξ) · SQ (ZQ , h, η) offenbar eine RiemannSumme zum Integral u ¨ ber P × Q. Denn es ist ja V (Pj ) · V (Qk ) gleich dem Volumen des Teilquaders Pj × Qk von P × Q und alle Quader Pj × Qk zusammen bilden eine Zerlegung von P × Q. Dabei werden die dadurch gegeben Zerlegungen von P × Q immer feiner, wenn die Zerlegungen ZP und ZQ immer feiner werden. Die G¨ ultigkeit von (9.1) ergibt sich damit durch einen Grenz¨ ubergang. ! ' Da man wie im eindimensionalen Fall sieht, dass f¨ ur α ∈ R einerseits Q αh(y)dy = ' ' ' α Q h(y)dy und andererseits P αg(x)dx = α P g(x)dx gilt, kann man die rechte Seite in (9.1) auch als iteriertes Integral schreiben: :( P
; ; :( ; ( :( f (x, y)dy dx. g(x)dx h(y)dy = Q
Q
P
Denn man kann ja schrittweise rechnen: ( :( P
Q
;
;
( :(
f (x, y)dy dx =
g(x)h(y)dy dx :( ; :( ; :( ; ( = g(x) h(y)dy dx = h(y)dy g(x)dx . P
P
Q
Q
Q
P
Damit erweist sich (9.1) als ein Spezialfall des Satzes von Fubini , der allgemeiner die Berechnung von Integralen mit Hilfe von iterierten Integralen sicherstellt. H¨aufig wird dieser Satz f¨ ur Lebesgue-Integrale ben¨ otigt, aber auch die folgende Variante ist n¨ utzlich bei der Berechnung von Volumina. Wir werden sehen, dass sie insbesondere bei stetigen Funktionen einsetzbar ist.
274
9 Integration II
Satz 9.1 Seien P ⊂ Rp und Q ⊂ Rq kompakte achsenparallele Quader, sei f : P × Q → R Riemann-integrierbar und sei f¨ ur jedes feste x ∈ P die Funktion y ∈ Q /→ f (x, y) ∈ R Riemann-integrierbar. Dann ist auch die durch ( f (x, y)dy f¨ ur x ∈ P F (x) := Q
definierte Funktion F : P → R Riemann-integrierbar und es gilt ; ( :( ( ( F (x)dx = f (x, y)d(x, y). f (x, y)dy dx = P
P
P ×Q
Q
(9.2)
Beweis: Wir zeigen zuerst die Integrierbarkeit von F , indem wir nachweisen, dass es zu jedem ε > 0 eine Zerlegung ZP von P gibt mit σ(ZP , F ) ≤ ε. Wir gehen dabei davon aus, dass, wenn ZQ eine beliebige Zerlegung von Q mit den Teilquadern Q1 , . . . , Qm ist, gilt F (x) =
m ( = Qk
k=1
f (x, y)dy.
¨ Dies zeigt man mit ¨ ahnlichen Uberlegungen wie im eindimensionalen Fall. Damit k¨onnen wir aber unter Ben¨ utzung der Linearit¨ at des Integrals, (die man ebenfalls wie im eindimensionalen Fall sieht), f¨ ur x, x& ∈ P notieren F (x) − F (x& ) =
m ( = k=1
Qk
(f (x, y) − f (x& , y))dy.
ur x, x& ∈ Pj Ist nun ZP eine Zerlegung von P mit Teilquadern P1 , . . . Pn , so kann man f¨ absch¨ atzen # #( # # & # (f (x, y) − f (x , y))dy ## ≤ V (Qk ) sup{|f (x, y) − f (ξ, η)| : (x, y), (ξ, η) ∈ Pj × Qk }. # Qk
Mit δ(f, Pj × Qk ) := sup{|f (x, y) − f (ξ, η)| : (x, y), (ξ, η) ∈ Pj × Qk } gilt daher, wenn Z die aus den Teilquadern Pj × Qk bestehende Zerlegung von P × Q ist, σ(ZP , F ) ≤
n = m =
V (Pj )V (Qk )δ(f, Pj × Qk ) = σ(Z, f ).
(9.3)
j=1 k=1
Da nach Voraussetzung f : P × Q → R Riemann-integrierbar ist, gibt es zu jedem ε > 0 eine Zerlegung Z von P × Q in Teilquader Pj × Qk , so dass σ(Z, f ) ≤ ε gilt. Ist dann ZP die aus den Teilquadern Pj bestehende Zerlegung von P , so folgt aus (9.3), dass σ(ZP , F ) ≤ ε gilt. Damit ist nun noch die G¨ ultigkeit von (9.2) nachzuweisen. Dabei k¨onnen wir aber
9.1 Integration ¨ uber Quader, iterierte Integrale
275
ur jede Zerlegung ZP von P und jede davon ausgehen, dass entsprechend zu Satz 5.1 f¨ zugeh¨ orige Riemann-Summe S(ZP , F, ξ) gilt # # ( # # #S(ZP , F, ξ) − F (x)dx## ≤ σ(ZP , F ). # P
Bei dieser Ungleichung kann man dann unter Verwendung von (9.3) weiter absch¨atzen. Setzt man nun in (9.1) speziell g(x) = 1 f¨ ur x ∈ P und h(y) = f (ξj , y) f¨ ur y ∈ Q, wobei ξj ∈ Pj zur Riemann-Summe S(ZP , F, ξ) geh¨ ort, so erh¨alt man ( ( f (ξk , y)dy = V (Pj ) f (ξj , y)dy = V (Pj )F (ξj ). Pj ×Q
Q
Summation u ¨ber j liefert weiter =( Pj ×Q
j
f (ξj , y)d(x, y) = S(ZP , F, ξ).
Damit gilt, wenn wieder die Qk eine Zerlegung von Q bilden, ==( f (ξj , y)d(x, y) = S(ZP , F, ξ). j
k
Pj ×Qk
Unter Ben¨ utzung von ( P ×Q
f (x, y)d(x, y) =
==( j
Pj ×Qk
k
erh¨alt man damit die Absch¨ atzung # # ( =( # # #S(ZP , F, ξ) − # ≤ y)d(x, y) f (x, # # P ×Q
j,k
≤
=
f (x, y)d(x, y)
Pj ×Qk
|f (ξj , y) − f (x, y)|d(x, y)
V (Pj × Qk )δ(f, Pj × Qk ) = σ(Z, f ).
j,k
Ist nun (Z (n) )n∈N eine Folge von Zerlegungen von P × Q mit σ(Z (n) , f ) ≤ n−1 , so gilt sowohl # # ( # # 1 #S(Z (n) , F, ξ) − f (x, y)d(x, y)## ≤ P # n P ×Q als auch
# # ( # # 1 #S(Z (n) , F, ξ) − F (x)dx## ≤ σ(Z (n) , f ) ≤ P # n P
f¨ ur alle n ∈ N. Daraus folgt offenbar (9.2). n
!
Ist f : Q → R, wobei wieder Q ⊂ R ein achsenparalleler Quader ist, stetig, so sieht man wie bei Lemma 5.2, dass f Riemann-integrierbar ist. Damit kann man aber Satz 9.1 f¨ ur stetige Funktionen einsetzen. Dabei gilt sogar in Versch¨arfung der Aussage von Satz 9.1 zur Funktion F :
276
9 Integration II
Lemma 9.2 Seien a, b ∈ R mit a < b und sei P ⊂ Rp ein achsenparalleler Quader, sei die Funktion f : P × [a, b] → R stetig und F : P → R f¨ ur x ∈ P definiert durch 'b F (x) := a f (x, y)dy, dann ist F stetig. Beweis: Ist ξ ∈ P beliebig gew¨ ahlt, so sei f¨ ur geeignetes h ∈ Rp die Differenz ( b (f (ξ + h, y) − f (ξ, y))dy F (ξ + h) − F (ξ) = a
betrachtet. Da f sogar gleichm¨ aßig stetig ist auf kompakten Quadern A× [a, b] , (A ⊂ P ein kompakter Quader), gibt es zu ε > 0 ein δ > 0, so dass |f (ξ + h, y) − f (ξ, y)| < ε(b − a)−1 gilt f¨ ur alle h mit |h| < δ und alle y ∈ [a, b]. Die u ¨bliche Absch¨atzung zeigt damit aber, dass |F (ξ + h) − F (ξ)| < ε gilt f¨ ur alle geeigneten h mit |h| < δ. Das ist die Stetigkeit ! von F im Punkt ξ. Dies erlaubt es offenbar, bei einer stetigen Funktion f ein Integral u ¨ ber einen Quader Q = [a1 , b1 ] × · · · × [an , bn ] als ein iteriertes Integral zu schreiben, in dem nur ‘eindimensionale Integrationen’ auftreten: 5 5 ( b1 2( b2 2 ( bn ( f (x1 , . . . , xn )dxn . . . dx2 dx1 . f (x)dx = ... Q
a2
a1
an
Bei geschickter Vorgangsweise ist es unter Verwendung dieses Resultats schon m¨oglich, das Volumen einer Kugel im R3 zu berechnen. Wir betrachten dazu eine Kugel mit Mittelpunkt im Ursprung und Radius R. Offenbar reicht es, das Volumen des im Oktanten x ≥ 0 ∧ y ≥ 0 ∧ z ≥ 0 gelegenen Teils der Kugel zu berechnen. Dazu betrachten wir die Funktion f , die f¨ ur (x, y) ∈ [0, R] × [0, R] definiert ist durch * f (x, y) := R2 − x2 − y 2 falls x2 + y 2 ≤ R2 , und
f (x, y) := 0 f¨ ur x2 + y 2 > R2 . ' Diese ist offenbar stetig, und das Integral [0,R]×[0,R] f (x, y)d(x, y) wird das Volumen des erw¨ ahnten Teils der Kugel ergeben. Schreibt man nun 5 ( R 2( R ( f (x, y)dy dx, f (x, y)d(x, y) = 0
[0,R]×[0,R]
0
so ist zun¨ achst f¨ ur festes x ∈ [0, R] aufgrund der Definition der Funktion f das Integral ( √R2 −x2 * R2 − x2 − y 2 dy 0
9.2 Integration ¨ uber allgemeinere Bereiche
277
√ ' ρ(x) * zu berechnen. Setzt man ρ(x) := R2 − x2 , so ist also 0 ρ(x)2 − y 2 dy zu berechnen, was man am einfachsten mit Hilfe der Substitution y = ρ(x) cos ϕ erledigen kann, alt zun¨achst wobei offenbar ϕ ∈ [0, π/2] sein muss. Man erh¨ (
ρ(x) * 0
( ρ(x)2 − y 2 dy =
π/2
0
ρ(x)2 (sin ϕ)2 dϕ.
Mit sin2 ϕ = 12 (1 − cos(2ϕ)) liefert dies (
ρ(x)
0
Cϕ=π/2 3 * 1 1 1 = πρ(x)2 . ρ(x)2 − y 2 dy = ρ(x)2 ϕ − sin(2ϕ) 2 2 4 ϕ=0
Damit k¨ onnen wir nun notieren ( ( f (x, y)d(x, y) = [0,R]×[0,R]
0
R
1 π(R2 − x2 )dx. 4
Das hier noch auftretende Integral kann man aber ganz einfach berechnen: ( 0
R
3 Cx=R 2 1 = R3 . (R2 − x2 )dx = R2 x − x3 3 3 x=0
Ein Achtel der Kugel mit Radius R hat also das Volumen die gesamte Kugel das bekannte Ergebnis V = 43 R3 π.
π 3 2·3 R ,
somit erh¨alt man f¨ ur
Die verwendete Substitution legt es nun nahe, zu versuchen, das Resultat vielleicht rascher direkt unter Verwendung von Polarkoordinaten zu erhalten. Dass dies aber nicht ganz einfach erledigt werden kann, sieht man schon exemplarisch bei der Aufgabe der Berechnung des Volumens des Zylinders der H¨ohe Eins u ¨ ber dem Kreis x2 + y 2 ≤ R2 in der x, y−Ebene. Offenbar sollte man dabei als Volumen den Wert R2 π erhalten. Beschreibt man nun den Kreis in Polarkoordinaten durch x = r cos ϕ, y = r sin ϕ mit!r ∈ [0, R] > und ϕ ∈ [0, 2π], so kann man nicht einfach zum iterierten Integral ' R ' 2π 1dϕ dr zur Berechnung des Volumens des Zylinders u ¨ bergehen. Denn damit 0 0 erh¨alt man nicht den erwarteten Wert, sondern offenbar 2πR. In dieser naiven Weise konnte man allerdings schon bei Variablensubstitutionen im eindimensionalen Fall nicht vorgehen; in der Substitutionsformel von Satz 5.8 tauchte ja schon der Faktor ϕ& (s) auf. Es wird noch zu kl¨ aren sein, was f¨ ur ein Faktor bei Variablensubstitutionen im Fall h¨ oherer Dimensionen auftreten muss.
9.2
Integration u¨ber allgemeinere Bereiche
Bei der Berechnung des Volumens einer Kugel waren wir so vorgegangen, * dass wir die zun¨ achst auf dem Kreis x2 + y 2 ≤ R2 definierte Funktion f (x, y) = R2 − x2 − y 2 durch Null auf ein Quadrat fortgesetzt haben. Dadurch konnten wir die bisher erzielten Resultate zur Integration u ¨ber Quader einsetzen. Wesentlich war dabei offenbar, dass
278
9 Integration II
die fortgesetzte Funktion ebenfalls stetig war. W¨aren wir analog vorgegangen bei einer Funktion g, die nicht in allen Punkten des Randes des Kreises verschwindet, so h¨atte man bei der Fortsetzung durch Null eine unstetige Funktion erhalten. In der eindimensionalen Situation hatten wir in Abschnitt 5.1 gesehen, dass endlich viele Unstetigkeitspunkte beim Riemann-Integral nicht st¨ orten. Hier k¨onnten aber nun alle Punkte des Randes des Kreises Unstetigkeitspunkte sein und wir werden nun zeigen, dass auch dies nicht st¨ ort. Wesentlich ist dabei das folgende Resultat, bei dem wir wieder die Notation V (Q) f¨ ur das Volumen eines achsenparallelen Quaders Q verwenden. Das Volumen eines offenen 1n Quaders Ω = (a1 , b1 ) × . . . × (an , bn ) ist dabei ebenfalls als V (Ω) = ν=1 (bν − aν ) anzusetzen. Satz 9.2 Sei Q = [a1 , b1 ] × · · · × [an , bn ] ⊂ Rn , sei A ⊂ Q mit der Eigenschaft, dass es zu jedem ε > 0 ein k ∈ N und offene achsenparallele Quader Ωj , j = 1, . . . , m, gibt 8 ) mit A ⊂ kj=1 Ωj und kj=1 V (Ωj ) < ε. ankt und in allen Punkten x ∈ Q \ A stetig, so ist f Dann gilt: Ist f : Q → R beschr¨ Riemann-integrierbar. Beweis: Wir zeigen, dass es zu jedem ε > 0 eine Zerlegung Z von Q gibt mit σ(Z, f ) < ε. Ist |f (x)| ≤ M f¨ ur alle x ∈ Q, so u A durch endlich viele offene ¨ berdecken ) wir zun¨achst ε . Die Seitenfl¨achen der Quader Quader Ωk mit einem Gesamtvolumen k V (Ωk ) < 4M Ωk sind nun Teile von Hyperebenen im Rn , die alle zusammen den Quader Q in endlich viele Teilquader Qj zerlegen. Qj ∩ A 3= ∅ impliziert, dass es ein Ωk geben muss mit Qj ∩ Ωk 3= ∅, und da die Ωk offen sind, kann dies nicht durch reines Ber¨ uhren an einer Seitenfl¨ ache eintreten. Dies zeigt, dass auch gilt = ε . V (Qj ) < 4M Qj ∩A1=∅
8
Sei nun K := Qj ∩A=∅ Qj . Es ist dann f auf der kompakten Menge K sogar gleichm¨aßig stetig, es gibt also ein δ > 0 mit |f (x) − f (ξ)|
p}, Ep := {(x1 , . . . , xn ) ∈ Rn : xk ∈ [0, 1] f¨ so gilt In (Ep ) = 0. Denn ist ε > 0 gegeben, so muss man nur mit einem gen¨ ugend kleinen σ > 0 den offenen Quader ur k ≤ p, xk ∈ (−σ, σ) f¨ ur k > p} Ωρ,σ := {x ∈ Rn : xk ∈ (−ρ, 1 + ρ) f¨ betrachten. Offenbar gilt dann Ep ⊂ Ωρ,σ und V (Ωρ,σ ) = (1 + 2ρ)p (2σ)n−p . Man kann daher durch geeignete Wahl von σ erreichen, dass V (Ωρ,σ ) < ε wird. Wichtig ist noch das folgende Resultat: Satz 9.3 Sei n ∈ N und n ≥ 2, sei K ⊂ Rn−1 kompakt und ϕ ∈ C(K, R). F¨ ur den Graphen von ϕ graph ϕ = {(x, ϕ(x)) ∈ Rn−1 × R : x ∈ K} gilt dann In (graphϕ) = 0. Beweis: Da K ⊂ Rn−1 kompakt ist, gibt es ein r > 0 mit K ⊂ [−r, r]n−1 . Ist ε > 0 gegeben, so sei zun¨ achst η > 0 so bestimmt, dass 4η(2r)n−1 < ε gilt. Da ϕ auf K gleichm¨aßig ur alle x, ξ ∈ K mit stetig ist, gibt es dazu ein δ > 0, so dass |ϕ(x) − ϕ(ξ)| < η gilt f¨ 9x − ξ9 < δ. Nun unterteilen wir jede Kante des W¨ urfels W := [−r, r]n−1 ¨aquidistant, etwa in p Teile, was zu einer Zerlegung von W in pn−1 kongruente abgeschlossene W¨ urfel Wj f¨ uhrt. Durch Wahl eines gen¨ ugend großen p k¨onnen wir erreichen, dass 9x − x& 9 < δ urfels Wj , so gilt f¨ ur alle x, x& ∈ Wj . Bezeichnen wir nun mit ξj den Mittelpunkt des W¨ sei Qj der Quader Qj := Wj × (ϕ(ξj ) − η, ϕ(ξj ) + η).
280
9 Integration II
8 ur die VoOffenbar ist dann sichergestellt, dass graphϕ ⊂ j Qj gilt. Außerdem gilt f¨ ) lumina V (Qj ) aufgrund der Konstruktion j V (Qj ) = 2η(2r)n−1 < ε/2. Damit sind wir aber schon fast fertig. Was noch st¨ ort, ist, dass die Quader Qj nicht als offene Quader konstruiert sind. Offenbar muss man aber nur zu etwas ) gr¨oßeren offenen Quadern Q&j ⊃ Qj u ! ¨ bergehen und dabei sicherstellen, dass noch j V (Q&j ) < ε gilt. Unter Ben¨ utzung dieses Resultats kann man erschließen, dass im R2 die Kreislinie {(x, y) ∈ R2 : x2 + y 2 = 1} vom Inhalt Null ist. Eine kleine Schwierigkeit ist dabei offenbar noch, dass sich die gesamte Kreislinie nur jeweils zur H¨alfte, (obere H¨alfte, bzw. untere H¨ alfte), ϕ : [−1, 1] → R schreiben l¨asst, und zwar √ als Graph einer Funktion √ durch ϕ1 ((x) = 1 − x2 und ϕ2 (x) = − 1 − x2 . Man k¨onnte aber nat¨ urlich auch die linke und die rechte H¨ alfte entsprechend darstellen. Dies reicht f¨ ur unsere Zwecke, denn es gilt sogar allgemeiner: Korollar 9.1 Die kompakte Menge M ⊂ Rn habe die Eigenschaft, dass es zu jedem x0 ∈ M eine abgeschlossene Kugel K(x0 , r) gibt, so dass die Menge M ∩ K(x0 , r) Graph einer stetigen reellwertigen Funktion ist. Dann gilt In (M ) = 0. Beweis: Nach Voraussetzung existiert eine Familie offener Kugeln (U (x, r(x))x∈M , zu denen lokale Darstellungen als Graphen stetiger Funktionen geh¨oren. Diese Kugeln bilden ¨ von M , zu der eine endliche Teil¨ uberdeckung mit Kugeln eine offene Uberdeckung U (x1 , r1 ), . . . , U (xm , rm ) existiert. Ist nun ε > 0 gegeben, so gibt es nach Satz 9.3 zu ¨ jedem k ∈ {1, . . . , m} eine Uberdeckung von M ∩ K(xk , rk ) durch endlich viele offene Quader, deren Volumen-Summe kleiner als ε/m ist. Wirft man die zu den einzelnen k ¨ geh¨ orenden Quader alle zusammen, so erh¨ alt man eine Uberdeckung von ganz K durch endlich viele offene Quader mit einem Gesamtvolumen kleiner als ε. ! Damit ist nun schon der Weg klar, den man beschreiten wird, um f¨ ur 'gewisse beschr¨ankte Mengen M ⊂ Rn und stetige Funktionen f : M → R das Integral M f dx zu erkl¨aren. Man wird f durch Null auf ganz Rn fortsetzen, wobei allerdings dann im allgemeinen eine Funktion mit Unstetigkeiten entsteht. Diese Unstetigkeiten k¨onnen aber nur in solchen Punkten x ∈ Rn auftreten, zu denen es weder eine Kugel U (x, r) gibt, die in ur Unstetigkeiten M enthalten ist, noch eine Kugel U (x, r) gibt, die in Rn \ M liegt. F¨ kommen also nur solche Punkte x ∈ Rn in Frage, bei denen f¨ ur jede Kugel U (x, r) sowohl U (x, r) ∩ M 3= ∅, als auch U (x, r) ∩ (Rn \ M ) 3= ∅ gilt. Es sind dies die Randpunkte von M , und man definiert den Rand ∂M genau mit dieser Eigenschaft: ur alle r > 0}. ∂M := {x ∈ Rn : U (x, r) ∩ M 3= ∅ ∧ U (x, r) ∩ (Rn \ M ) 3= ∅ f¨ Ist nun ein W¨ urfel W = (−a, a) × . . . (−a, a) ⊂ Rn gegeben mit (M ∪ ∂M ) ⊂ W , so kann man die fortgesetzte Funktion f u urfel [−a, a]n integrieren, wenn ¨ ber den W¨ urfels nicht In (∂M ) = 0 ist. Es ist leicht einzusehen, das es dabei auf die Gr¨oße des W¨ ankommt, entscheidend ist nur (M ∪ ∂M ) ⊂ W . Damit kann man auf diese Weise das
9.2 Integration ¨ uber allgemeinere Bereiche
281
' Integral M f dx definieren. Unsere Ergebnisse u ¨ber Mengen, die vom Inhalt Null sind, zeigen damit, dass im R2 sogenannte Normalbereiche Mengen sind, u ¨ ber die man stetige Funktionen integrieren kann. Solche Normalbereiche sind gegeben in der Form M = {(x, y) ∈ R2 : x ∈ [a, b], ϕ(x) ≤ y ≤ ψ(x)},
(9.4)
wobei [a, b] ⊂ R ein kompaktes Intervall ist und ϕ : [a, b] → R und ψ : [a, b] → R stetige Funktionen sind mit ϕ(x) ≤ ψ(x) f¨ ur alle x ∈ [a, b]. Eine entsprechende Situation kann auch bez¨ uglich der y-Achse vorliegen, d.h. M wird dann durch die Ungleichungen ϕ(y) ≤ x ≤ ψ(y) mit y ∈ [a, b] beschrieben. Nach dem Satz von Fubini gilt dann, wenn M wie in (9.4) gegeben ist, f¨ ur eine stetige Funktion f : M → R 5 ( ( 2( M
f (x, y)d(x, y) =
ψ(x)
b
ϕ(x)
a
f (x, y)dy
dx.
(9.5)
onnen nach diesen Ergebnissen noch einen anderen Zugang zur Berechnung des Wir k¨ ahlen, denn wir k¨onnen' jetzt ja eine konstante Funktion Volumens einer Kugel im R3 w¨ u ¨ ber eine Kugel integrieren und somit das Integral K(0,R) d(x, y, z) berechnen. Man achst erh¨alt zun¨ ( ( 2( √ 2 2 2( √ 2 2 2 5 5 K(0,R)
R
d(x, y, z) =
R −x
√ − R2 −x2
−R
R −x −y
−
√
R2 −x2 −y 2
dz
dy dx.
Die weitere Berechnung f¨ uhrt dann wiederum auf die gleichen Schritte wie die fr¨ uhere Rechnung am Ende des letzten Abschnitts. Denn es ist ( √R2 −x2 −y2 * dz = 2 R2 − x2 − y 2 √ −
R2 −x2 −y 2
und somit ist weiter das iterierte Integral 5 ( R 2( √R2 −x2 * 2 2 2 2 R − x − y dy dx √ − R2 −x2
−R
zu berechnen, was genauso wie damals zu erledigen ist. Bei der Berechnung des Integrals u ¨ ber einen Normalbereich, d.h. bei (9.5), tritt eine besondere Situation ein, wenn es eine stetig differenzierbare Funktion F gibt mit ∂y F (x, y) = f (x, y) f¨ ur x ∈ M . Dann gilt ja (
ψ(x)
ϕ(x)
und somit
( f (x, y)dy =
ψ(x)
(
( M
∂y F (x, y)dy = F (x, ψ(x)) − F (x, ϕ(x))
ϕ(x)
f (x, y)d(x, y) =
a
b
( F (x, ψ(x))dx −
a
b
F (x, ϕ(x))dx.
282
9 Integration II
uck zum Hauptsatz der Dieses Resultat kann man nun als ein zweidimensionales Gegenst¨ Differential- und Integralrechnung ansehen, denn man hat auf der rechten Seite zwei Integrale stehen, in die nur Werte von F in Punkten des Randes ∂M , und zwar auf den zwei ‘Randkurven’ {(x, ψ(x)) : x ∈ [a, b]} und {(x, ϕ(x)) : x ∈ [a, b]} eingehen. Man kann dies aber bei geeigneter Interpretation sogar als ein Integral u ¨ ber den gesamten Rand von M schreiben, wenn man diesen als parametrisierte Kurve schreibt, etwa in der folgenden Form: Sei γ : [0, 4] → R2 definiert durch ⎧ (a + t(b − a), ϕ(a + t(b − a)), t ∈ [0, 1], ⎪ ⎨ (b, ϕ(b) + (t − 1)(ψ(b) − ϕ(b)), t ∈ [1, 2], γ(t) := ⎪ ⎩ (b − (t − 2)(b − a), ψ(b − (t − 2)(b − a)), t ∈ [2, 3], (a, ψ(a) − (t − 3)(ψ(a) − ϕ(a)), t ∈ [3, 4]. Schreibt man γ(t) = (γ1 (t), γ2 (t)), so ist, wenn man die Substitution x = a + t(b − a) verwendet, ( b ( 1 & F (γ1 (t), γ2 (t))γ1 (t)dt = F (x, ϕ(x))dx 0
a
und entsprechend (
3
2
F (γ1 (t), γ2 (t))γ1& (t)dt
( =−
b
a
F (x, ψ(x))dx.
Da γ1 (t) f¨ ur t ∈ [1, 2] und t ∈ [3, 4] konstant ist, ist offenbar ( 2 ( 4 F (γ1 (t), γ2 (t))γ1& (t)dt = 0. F (γ1 (t), γ2 (t))γ1& (t)dt = 3
1
Damit haben wir insgesamt erhalten ( ( f (x, y)d(x, y) = −
0
M
4
F (γ1 (t), γ2 (t))γ1& (t)dt.
Das Integral u ¨ ber M ist also in diesem Fall reduziert auf ein Wegintegral oder Kurvenintegral u ¨ ber den ganzen Rand von M , (wobei dieser hier im Gegenuhrzeigersinn durchlaufen wurde). Da in diesem Wegintegral wesentlich die die x-Koordinate der Punkte des Weges 'γ parametrisierende Funktion γ1 auftaucht, schreibt man dieses Integral auch onnen wir notieren k¨ urzer als ∂M F dx. Damit k¨ ( ( ∂y F d(x, y) = − F dx. M
∂M
Es ist dies ein erster sehr einfacher Spezialfall des in allgemeineren Situationen g¨ ultigen Gaußschen Integralsatzes. ¨ Eine ganz entsprechende Uberlegung kann man durchf¨ uhren, wenn M ein Normalbereich bez¨ uglich der y−Achse ist. In diesem Fall erh¨alt man ja zun¨achst 5 ( ( 2( M
f (x, y)d(x, y) =
b
a
ψ(y)
ϕ(y)
f (x, y)dx dy.
9.2 Integration ¨ uber allgemeinere Bereiche
283
Dies zeigt, dass man nun analog zu oben weiter schließen kann, wenn f (x, y) = ∂x F (x, y) ist. Man erh¨ alt dann, wenn γ wieder die entsprechend zu oben parametrisierte im Gegenuhrzeigersinn durchlaufene Randkurve ist, ( 4 ( F (γ1 (t), γ2 (t))γ2& (t)dt. f (x, y)d(x, y) = 0
M
Hier tritt im Gegensatz zu oben kein Minuszeichen vor dem rechts stehenden Integral auf, weil nun im Unterschied zu oben die Teile der Randkurve, die zu den Parameterintervallen [0, 1] und [2, 3] geh¨ oren, im Vergleich zur Richtung der y−Achse gerade in der anderen Richtung als fr¨ uher im Vergleich zur x−Achse durchlaufen werden. Damit k¨onnen wir in diesem Fall notieren ( ( ∂x F (x, y)d(x, y) = F dy. M
∂M
Es gibt nun durchaus Mengen M ⊂ R2 , die bez¨ uglich der x−Achse und bez¨ uglich der y−Achse Normalbereiche sind. Ein Beispiel ist etwa ein Kreis mit Mittelpunkt im Ursprung. In diesem Fall kann man offenbar beide Resultate einsetzen und damit notieren ; ( : ( ∂G ∂F − F dx + Gdy. (9.6) d(x, y) = ∂x ∂y ∂M M In dieser Form findet man h¨ aufig den Gaußschen Integralsatz in der Ebene, es werden mit diesem Resultat aber auch die Namen Stokes und Green verbunden. Zu (9.6) gibt es einen sehr interessanten Spezialfall, G(x, y) = x und ' n¨amlich, wenn ' F (x, y) = −y f¨ ur (x, y) ∈ M ist. Dann erh¨ alt man 2 M d(x, y) = ∂M xdy − ydx. Damit ergibt sich aber folgende letztlich auf Kepler, aber auch auf Leibniz zur¨ uckgehende Formel f¨ ur die von einer geschlossenen anschaulich hinreichend glatten Kurve γ in der Ebene eingeschlossene Fl¨ ache F (γ) ( 1 xdy − ydx. (9.7) F (γ) = 2 γ Ist γ parametrisiert durch γ(t) = (ϕ1 (t), ϕ2 (t)) mit t ∈ [a, b], (wobei, wenn die Kurve ¨ geschlossen sein soll, γ(a) = γ(b) ' gelten muss), so ist dabei nach unseren Uberlegungen von oben das Kurvenintegral γ xdy − ydx definiert durch (
γ
(
xdy − ydx =
a
b
(ϕ1 (t)ϕ&2 (t) − ϕ2 (t)ϕ&1 (t))dt.
Da ja die eingeschlossene Fl¨ ache von der zuf¨ allig gew¨ahlten Parametrisierung unabh¨angig sein muss, ist klar, dass dieses Kurvenintegral den gleichen Wert liefern muss, wenn man anders parametrisiert, (sofern man weiterhin die Kurve im Gegenuhrzeigersinn durchl¨ auft). Davon kann man sich aber an Hand der Substitutionsformel f¨ ur Integrale leicht u ¨ berzeugen. Ist t = ψ(s) mit s ∈ [α, β], so erh¨alt man ja zun¨achst ( b ( β & & (ϕ1 (t)ϕ2 (t) − ϕ2 (t)ϕ1 (t))dt = (ϕ1 (ψ(s))ϕ&2 (ψ(s)) − ϕ2 (ψ(s))ϕ&1 (ψ(s)))ψ & (s)ds. a
α
284
9 Integration II
Bedenkt man, dass (d/ds)(ϕj (ψ(s)) = ϕ&j (ψ(s))ψ & (s) ist, so erh¨alt man also mit der neuen Parametrisierung s /→ (σ1 (s), σ2 (s)), wobei σj (s) = ϕj (ψ(s)) ist, (
b
a
(ϕ1 (t)ϕ&2 (t)
−
ϕ2 (t)ϕ&1 (t))dt
( =
β
α
(σ1 (s)σ2& (s) − σ2 (s)σ1& (s))ds.
Sei als Beispiel gezeigt, dass man mit der Formel (9.7) sehr einfach die Fl¨ache eines Kreises erhalten kann. Sei also ϕ1 (t) = r cos(t) und ϕ2 (t) = r sin(t), wobei r > 0 gegeben ist und t ∈ [0, 2π] ist. Dann ist ( ( 2π r2 (cos2 (t) + sin2 (t))dt = 2πr2 , xdy − ydx = γ
0
somit die Fl¨ ache des Kreises wie bekannt gleich r2 π. Recht einfach kann man aber auch die Fl¨ ache eines Kreissektors erhalten, die, wenn der Sektor durch den Winkel 2α mit α ∈ (0, π] gegeben ist, etwa mit S := {(x, y) ∈ R2 : x = r cos ϕ, y = r sin ϕ mit r ∈ [0, R], ϕ ∈ [π/2 − α, π/2 + α]} ' als Integral S d(x, y) anzusetzen ist. (Man u ur (9.7) einsetzen ¨ berlege sich, dass man daf¨ darf.) Der Rand ∂S besteht in diesem Fall aus drei Teilen, zwei Geradenst¨ ucken durch den Ursprung, die durch die Winkel ϕ = π/2 − α und ϕ = π/2 + α festgelegt sind, und einem St¨ uck der Kreislinie x2 + y 2 = R2 . Parametrisiert man wieder so, dass der Rand im Gegenuhrzeigersinn durchlaufen wird, so hat man mit den drei Abbildungen γ1 (s) := (s cos(π/2 − α), s sin(π/2 − α)), γ2 (ϕ) := (R cos ϕ, R sin ϕ),
s ∈ [0, R],
ϕ ∈ [π/2 − α, π/2 + α],
γ3 (s) := ((R − s) cos(π/2 + α), (R − s) sin(π/2 + α)),
s ∈ [0, R],
zu arbeiten. Dies f¨ uhrt dann auf die drei Integrale ( R π π π π (s cos( − α) sin( − α) − s sin( − α) cos( − α))ds = 0, 2 2 2 2 0 ( π2 +α (R2 cos2 ϕ + R2 sin2 ϕ)dϕ = 2R2 α, (
π 2 −α
0
R
π π π π (−(R − s) cos( + α) sin( + α) + (R − s) sin( + α) cos( + α))ds = 0. 2 2 2 2
Damit erh¨ alt man als Fl¨ ache des Sektors F (S) = R2 α. Dieses Ergebnis werden wir nun einsetzen, um die Problematik der Berechnung des Volumens eines kreisf¨ ormigen Zylinders der H¨ohe Eins mit Hilfe von Polarkoordinaten wieder aufzugreifen. Entscheidend ist dabei, wenn man den Satz von Fubini ber¨ ucksichtigt, ja nur das Integral der konstanten Funktion Eins u ¨ber die Kreisfl¨ache, die die Grundfl¨ ache des Zylinders darstellt. 'Beschreibt man den Kreis K((0, 0), 1) mit Hilfe von Polarkoordinaten, so sollte man K((0,0),1) 1d(x, y) auch erhalten, indem man von
9.2 Integration ¨ uber allgemeinere Bereiche
285
Riemann-Summen ausgeht, die sich durch eine den Polarkoordinaten angepasste Zerlegung des Kreises ergeben. Dazu teilt man etwa das Intervall [0, 1] und das Intervall [0, 2π] ¨ aquidistant in Teilintervalle ein. Zu den Teilintervallen [rj−1 , rj ] ⊂ [0, 1] und ort dann eine Teilfl¨ ache Mj,k des Kreises, die durch die zwei [ϕk−1 , ϕk ] ⊂ [0, 2π] geh¨ Kreise mit Radius rj−1 und rj und die zwei Winkel ϕk−1 und ϕk begrenzt wird. Bedenkt man, wie man so eine Menge Mj,k als Differenz zweier Sektoren erhalten kann, so sieht man unter Verwendung der oben berechneten Fl¨ache eines Sektors, dass diese Mengen Mj,k die Fl¨ ache F (Mj,k ) =
1 2 2 (r − rj−1 )(ϕk − ϕk−1 ) 2 j
haben. Ber¨ ucksichtigt man 1 2 1 2 (r − rj−1 ) = (rj + rj+1 )(rj − rj−1 ), 2 j 2 ' ur das Integral K((0,0),1) 1d(x, y) mit einer Riemann-Summe so wird man also f¨ m = n = 1 j=0 k=0
2
(rj + rj−1 )(rj − rj−1 )(ϕk − ϕk−1 )
arbeiten. Dies ist aber als Riemann-Summe zum Integral ( rd(r, ϕ). [0,R]×[0,2π]
anzusehen. Denn es ist ρj := 12 (rj + rj−1 ) ∈ [rj−1 , rj ] ein Wert, wie man ihn bei einer u ¨ blichen Riemann-Summe als Funktionswert des Integranden f (r) = r w¨ahlen kann. ¨ Wir k¨ onnen also zum Ubergang von kartesischen Koordinaten zu Polarkoordinaten schreiben ( ( 1d(x, y) = rd(r, ϕ). K((0,0),1)
Berechnet man das Integral
[0,R]×[0,2π]
'
[0,R]×[0,2π] rd(r, ϕ)
( 0
R
:( 0
2π
als iteriertes Integral, so erh¨alt man
; rdϕ dr = R2 π,
also das erwartete Resultat. Man hat also, wenn man bei einem mehrdimensionalen Integral von kartesischen Koordinaten zu anderen Koordinaten, etwa Polarkoordinaten u ucksichtigen, ¨ bergeht, zu ber¨ dass dann bei einer zu den neuen Koordinaten passenden Zerlegung i.a. keine Rechteckfl¨achen mehr auftreten. Dies hat man bei der Koordinatentransformation durch einen geeigneten Faktor zu ber¨ ucksichtigen. Es zeigt sich, dass es dabei, weil man ja von kleiachen bei der Zerlegung ausgehen darf, ausreicht, nicht die Transformation nen Teilfl¨ selbst, sondern ihre lineare N¨ aherung, d.h. ihre Ableitung geeignet einzubringen. Man
286
9 Integration II
beachte, dass ja auch im eindimensionalen Fall bei der Substitutionsformel die Ableitung der bei der Substitution verwendeten Funktion eingegangen ist. Es ist allerdings nun im mehrdimensionalen Fall die Transformationsformel ungleich schwieriger zu beweisen. Klar ist allerdings bereits, dass im Fall h¨oherer Dimensionen die Ableitung nicht als solche als Faktor im Integral auftauchen kann, weil diese ja eine lineare Abbildung ist, die etwa als Jacobi-Matrix vorliegt. Was in der Transformationsformel auftritt, ist aber die Determinante der Jacobi-Matrix, die sogenannte Funktionaldeterminante. ¨ Man sieht rasch, dass die Funktionaldeterminante im Fall des Ubergangs zu Polarkoordinaten tats¨ achlich den oben bereits diskutierten Faktor r liefert: Ist x = f1 (r, ϕ) = r cos ϕ, y = f2 (r, ϕ) = r sin ϕ, so gilt ja ∂r f1 = cos ϕ,
∂ϕ f1 = −r sin ϕ,
∂r f2 = sin ϕ,
∂ϕ f2 = r cos ϕ,
somit erh¨ alt man als Funktionaldeterminante detJ(r, ϕ) = r cos2 ϕ + r sin2 ϕ = r. aufig mit Kugelkoordinaten im R3 arbeiten, sei auch f¨ Da speziell Physiker h¨ ur diese Situation die Funktionaldeterminante berechnet. Bei Kugelkoordinaten beschreibt man einen Punkt im R3 mit Hilfe seines Abstands vom Ursprung, der wieder mit r notiert wird, und zwei Winkeln, die meist als ϕ und ϑ notiert werden. Der Winkel ϑ gibt dabei den Winkel zwischen der in Richtung positiver z-Werte betrachteten z-Achse und der Verbindung zwischen dem Ursprung und dem Punkt an. Damit sind Werte ϑ ∈ [0, π] m¨ oglich. Der Winkel ϕ ist der von den Polarkoordinaten gewohnte Winkel, der zu dem Punkt der x-y-Ebene geh¨ort, den man erh¨alt, wenn man den Punkt (x, y, z) senkrecht auf die x-y-Ebene projiziert. Damit sind Werte ϕ ∈ [0, 2π] m¨ oglich. Projiziert man den Punkt (x, y, z) senkrecht auf die x-y-Ebene, so hat der projizierte Punkt unter Verwendung des oben beschriebenen Winkels ϑ bekanntlich den Abstand 9(x, y, z)9 sin ϑ vom Ursprung. Damit erh¨ alt man wie bei den Polarkoordinaten die xund die y-Koordinate in der Form x = r sin ϑ cos ϕ, y = r sin ϑ sin ϕ. Die z-Koordinate ist schließlich durch z = r cos ϑ gegeben. ¨ Der Ubergang von kartesischen Koordinaten zu Kugelkoordinaten wir also durch die Gleichungen x = r sin ϑ cos ϕ, y = r sin ϑ sin ϕ, z = r cos ϑ beschrieben. Damit erh¨ alt man f¨ ur die Jacobi-Matrix ⎛ ⎞ sin ϑ cos ϕ r cos ϑ cos ϕ −r sin ϑ sin ϕ ⎝ sin ϑ sin ϕ r cos ϑ sin ϕ r sin ϑ cos ϕ ⎠ . cos ϑ −r sin ϑ 0 Die Determinante dieser Matrix berechnet man am einfachsten durch Entwicklung nach der letzten Zeile. Dies liefert detJ = r2 (cos ϑ)2 sin ϑ + r2 (sin ϑ)3 = r2 sin ϑ.
9.2 Integration ¨ uber allgemeinere Bereiche
287
uheren Berechnung erhaltene Ergebnis zum achlich ergibt sich wieder das bei der fr¨ Tats¨ Volumen einer Kugel im R3 , wenn man das Integral ( r2 sin ϑ d(r, ϑ, ϕ) [0,R]×[0,π]×[0,2π]
berechnet. Dies ist einfach, wenn man mit dem iterierten Integral arbeitet: 5 5 ( 2π 2( π 2( R 4 R3 · 2 · 2π = R3 π. r2 sinϑdr dϑ dϕ = 3 3 0 0 0 Damit k¨ onnen wir nun schon notieren, wie die der in Satz 5.8 bewiesenen Substitutionsformel ( β ( b f (t)dt = (f ◦ ϕ)(s)ϕ& (s)ds a
α
entsprechende Transformationsformel im h¨ oherdimensionalen Fall aussehen sollte. Bei einer C 1 -Transformation x = Φ(y) sollte die Umrechnung der Integrale entsprechend ( ( f (x)dx = (f ◦ Φ)(y)|detJ(y)|dy (9.8) Φ(M)
M
erfolgen. Der Nachweis der G¨ ultigkeit dieser Formel in gen¨ ugend allgemeinen Situationen ist m¨ uhsam und langwierig. Wir werden daher darauf verzichten, zum hier gew¨ahlten Rahmen passende Beweise findet man etwa in Blatter [2] und Hildebrandt [6], Bd. 2. Es sollen nur noch einige Aspekte der Formel (9.8) angesprochen werden, so ist es ja z.B. f¨ ur die G¨ ultigkeit dieser Formel wichtig, zu wissen, dass man sowohl u ¨ ber die Menge M als auch u ¨ber die Menge Φ(M ) integrieren kann. Offenbar ist das folgende Resultat in diesem Zusammenhang von Interesse: Lemma 9.3 Sei A ⊂ Rn mit In (A) = 0 und sei g : A → Rn Lipschitz-stetig. Dann gilt auch In (g(A)) = 0. Beweis: Wir arbeiten bei diesem Beweis nicht mit der euklidischen Norm, sondern mit der Maximumsnorm auf dem Rn , d.h. es sei in diesem Beweis stets 9x9 = max(|x1 |, . . . , |xn |). & Da g Lipschitz-stetig sein soll, gibt es ein L > 0 mit 9g(x) − g(x& )9 ≤ 8mL9x − x 9 & f¨ ur alle x, x ∈ A. Sei ε > 0. Dann gibt es Quader 8m Q1 , . . . , Qm mit A ⊂ k=1 Qk und ) m −n ε. Es ist dann g(A) = k=1 g(A ∩ Qk ) und jede Menge g(A ∩ Qk ) k=1 V (Qk ) < (2L) ist, wenn Qk die maximale Kantenl¨ ange ηk hat, sicher in einem W¨ urfel der Kantenl¨ange ur alle 2Lηk enthalten. Denn ist ξ ∈ g(A ∩ Qk ) beliebig gew¨ahlt, so sei ξ = g(y), und da f¨ x ∈ A ∩ Qk trivialerweise gilt 9x − y9 ≤ ηk , folgt 9g(x) − ξ9 ≤ Lηk f¨ ur alle x ∈ A ∩ Qk , somit f¨ ur g(x), g(x& ) ∈ g(A ∩ Qk ) 9g(x) − g(x& )9 ≤ 9g(x) − ξ9 + 9ξ − g(x& )9 ≤ 2Lηk .
288
9 Integration II
urfel mit einem Gesamtvolumen Damit wird aber g(A)) sicher u ¨berdeckt durch m W¨ ) m m n n ! k=1 V (Qk ) < ε. Somit ist In (g(A)) = 0. k=1 (2Lηk ) = (2L) Da wir es beim Transformationssatz so wie bei der Substitutionsformel mit stetig differenzierbaren Abbildungen zu tun haben, ist die hier verlangte Lipschitz-Stetigkeit in diesem Zusammenhang keine zus¨ atzliche Forderung. Dies zeigt Satz 6.11. Offenbar kommt es aber, um sicherzustellen, dass man auch u ¨ber Φ(M ) integrieren kann, wenn man u ¨ ber M integrieren kann, nun noch darauf an, zu wissen, dass unter passenden Voraussetzungen durch eine Abbildung Φ der Rand von M auf den Rand von Φ(M ) abgebildet wird. Lemma 9.4 Seien A ⊂ Rm und B ⊂ Rm offen, sei ψ : A → B bijektiv und in beiden Richtungen stetig. Dann gilt ∂(ψ(K)) = ψ(∂K) f¨ ur jede kompakte Menge K ⊂ A. Beweis: Bekanntlich ist, da ψ stetig ist, auch ψ(K) kompakt, somit abgeschlossen, und es gilt daher ∂(ψ(K)) ⊂ ψ(K). Wir zeigen im n¨ achsten Schritt, dass ∂(ψ(K)) ⊂ ψ(∂K) gilt. Dazu betrachten wir einen beliebigen Punkt y ∈ ∂(ψ(K)). Es gibt dann eine Folge ur n → ∞, aber auch eine Folge (vn )n∈N in ψ(K) (yn )n∈N in B \ ψ(K) mit yn → y f¨ mit vn → y f¨ ur n → ∞. Aus der Stetigkeit von ψ −1 folgt ψ −1 (yn ) → ψ −1 (y) und / ψ(K), so ist aber auch ψ −1 (yn ) ∈ / K, entsprechend ist ψ −1 (vn ) → ψ −1 (y). Ist yn ∈ −1 aber ψ (vn ) ∈ K. Dies zeigt, dass ψ −1 (y) ∈ ∂K, somit y ∈ ψ(∂K) ist. Im letzten Schritt ist noch zu zeigen, dass ψ(∂K) ⊂ ∂(ψ(K)) gilt. Sei also nun y ∈ ψ(∂K) beliebig gew¨ ahlt. Dann ist ψ −1 (y) ∈ ∂K, es gibt also eine Folge (xn )n∈N in −1 ur n → ∞. A \ K mit xn → ψ (y) und eine Folge (wn )n∈N in K mit wn → ψ −1 (y) f¨ Da ψ stetig ist, folgt ψ(xn ) → y und ψ(wn ) → y f¨ ur n → ∞, was wegen ψ(xn ) ∈ / ψ(K) ! und ψ(wn ) ∈ ψ(K) zeigt, dass y ∈ ∂(ψ(K)) ist. Es soll nun noch besser begr¨ undet werden, wieso bei der Transformationsformel die Funktionaldeterminante wesentlich auftritt. Man arbeitet dabei mit der lokalen Approximation einer differenzierbaren Abbildung mit Hilfe der Ableitung, oder in der Matrixdarstellung der Jacobi-Matrix. Entscheidend ist nun, wie sich das Volumen eines andert, wenn man ihn einer linearen Abbildung T : Rn → Rn Quaders Q ⊂ Rn ver¨ unterwirft, d.h. es kommt auf das Verh¨ altnis V (Q) zu V (T (Q)) an. (Dabei wird man nat¨ urlich davon ausgehen, dass T invertierbar ist.) Dies kann man nun relativ leicht kl¨ aren unter Verwendung der sogenannten Polarzerlegung von Automorphismen eines endlichdimensionalen euklidischen Vektorraums. Es sei hier ein eng damit verwandtes Lemma kurz bewiesen, wobei wir auf einige Dinge aus der linearen Algebra zur¨ uckgreifen. Lemma 9.5 Zu jeder invertierbaren reellen n × n-Matrix A gibt es orthogonale Matrizen S1 und ur j = 1, . . . , n, so S2 und eine Diagonalmatrix D =diag(λ1 , . . . , λm ) mit λj > 0 f¨ dass A = S2 DS1 gilt.
9.2 Integration ¨ uber allgemeinere Bereiche
289
Beweis: Sei mit AT die transponierte Matrix bezeichnet. Bildet man die Matrix B := AT A, so ist diese symmetrisch und positiv definit. Denn es gilt ja B T = (AT A)T = AT (AT )T = ur x ∈ Rn , wobei AT A = B und xT Bx = (xT AT )Ax = (Ax)T Ax = 9Ax9 ≥ 0 f¨ aber wegen der Injektivit¨ at der Abbildung x /→ Ax das Gleichheitszeichen nur f¨ ur x = 0 auftreten kann. Die symmetrische Matrix B ist diagonalisierbar, d.h. es gibt eine orthogonale Matrix S mit S T BS =diag(μ1 , . . . , μn ) := Dμ . Ist nun sk die k−te Spalte der Matrix S, so gilt ja sTk Bsk = μk , somit sind alle μk > 0. Sei nun λk = √ μk f¨ ur k = 1, . . . , n und D :=diag(λ1 , . . . , λn ). Dann gilt nat¨ urlich DD = Dμ und −1 D−1 =diag(λ−1 ). Es folgt , . . . , λ n 1 E = D−1 DDD−1 = D−1 S T BSD−1 = D−1 S T AT ASD−1 . Setzt man also S2 := ASD−1 , so gilt ja S2T = D−1 S T AT und somit S2T S = E. Dies zeigt, dass S2 orthogonal ist. Aus S2 = ASD−1 folgt aber S2 DS T = A, was genau eine Darstellung wie im Lemma behauptet ist. ! Orthogonale lineare Abbildungen S erhalten nun bekanntlich L¨angen und Winkel, d.h. aber, dass f¨ ur einen Quader Q gelten muss V (S(Q)) = V (Q). Damit kann sich bei einer bijektiven linearen Abbildung T , deren Matrix ja nun eine Zerlegung A = S2 DS1 zul¨asst, nur dadurch etwas am Volumen ¨ andern, dass die zur Diagonalmatrix D geh¨orende lineare Abbildung das Volumen ver¨ andert. Offenbar kommt es dabei aber nur zu einer Multiplikation des Volumens mit dem Faktor λ1 · . . . · λn . Somit gilt dann V (T (Q)) = 1n ( k=1 λk )V (Q). Bedenkt man aber, dass 5 2 n 9 λk detS1 detA = det S2 detD detS1 = detS2 k=1
und detSj = ±1 gilt, so erh¨ alt man V (T (Q)) = |detA|V (Q). ¨ Denkt man an die Argumentation, die wir beim Ubergang zu Polarkoordinaten gef¨ uhrt haben, so ist nun das Auftreten der Funktionaldeterminante in (9.8) verst¨andlich. Zum Abschluss seien die in diesem Abschnitt behandelten Dinge noch eingesetzt zur Berechnung eines wichtigen uneigentlichen Integrals. Der Wert des auch als Gaußsches Fehlerintegral bezeichneten Integrals ( R ( ∞ 2 exp(−x )dx := lim exp(−x2 )dx (9.9) −∞
R→0
−R
'R otigt. Es ist also −R exp(−x2 )dx f¨ wird in der Analysis immer wieder ben¨ ur R → ∞ zu ur R > 0 gilt diskutieren. Dazu verwenden wir, dass f¨ 5 ( 2( ( [−R,R]×[−R,R]
exp(−x2 − y 2 )d(x, y) =
R
R
−R
−R
2( =
R
−R
exp(−x2 ) exp(−y 2 )dx dy 52 2
exp(−t )dt
.
290
9 Integration II '
exp(−x2 −y 2 )d(x, y) f¨ ur R → ∞ zu besch¨aftigen. √ Wegen K(0, R) ⊂ [−R, R] × [−R, R] ⊂ K(0, 2R) gilt mit E(x, y) := exp(−x2 − y 2 ) ( ( ( E(x, y)d(x, y). E(x, y)d(x, y) ≤ E(x, y)d(x, y) ≤ √ Damit reicht es, sich mit
K(0,R)
[−R,R]×[−R,R]
K(0, 2R)
[−R,R]×[−R,R]
'
Das Integral K(0,R) E(x, y)d(x, y) kann man aber leicht mit Hilfe von Polarkoordinaten berechnen. Danach ist 5 ( 2π 2( R ( E(x, y)d(x, y) = exp(−r2 )rdr dϕ, 0
K(0,R)
0
und wegen (d/dr) exp(−r2 ) = −2r exp(−r2 ) gilt 5 ( 2π 2( R 4 ?r=R 2 exp(−r )rdr dϕ = −π exp(−r2 ) r=0 = π(1 − exp(−R2 )). 0
0
Zusammenfassend ergibt sich damit die Absch¨atzung 52 2( π(1 − exp(−R2 )) ≤
R
−R
exp(−t2 )dt
≤ π(1 − exp(−2R2 )).
Da hier die links und rechts stehenden Terme f¨ ur R → ∞ gegen π gehen, erh¨alt man damit f¨ ur (9.9) ( ∞ √ exp(−x2 )dx = π. −∞
9.3
Zum Gaußschen Integralsatz
Eine erste Variante des Gaußschen Integralsatzes, (und zwar in der Ebene, d.h. im R2 ), haben wir ja schon im letzten Abschnitt kennengelernt. Es sollen nun zun¨achst zwei wichtige Spezialf¨ alle f¨ ur Integrale im R3 diskutiert werden.
9.3.1
Zwei Spezialf¨alle
Sei im R3 der Quader Q := [a1 , b1 ] × [a2 , b2 ] × [a3 , b3 ] gegeben. Gibt es dann zur stetigen Funktion f : Q → R eine Funktion F mit f = ∂x F , so kann man rechnen ( b3 ( b2 ( b1 ( b3 ( b2 ( b3 ( b2 f (x, y, z)dxdydz = F (b1 , y, z)dydz − F (a1 , y, z)dydz. a3
a2
a1
a3
a2
a3
a2
Die letzten Integrale kann man aber offenbar ansehen als Integrale u ¨ ber zwei Randfl¨achen des Quaders, n¨ amlich Γa1 := {a1 } × [a2 , b2 ] × [a3 , b3 ]
und
Γb1 := {b1 } × [a2 , b2 ] × [a3 , b3 ].
9.3 Zum Gaußschen Integralsatz
291
alt man offenbar, wenn f = ∂y F bzw. f = ∂z F ist, wobei dann Analoge Ergebnisse erh¨ die entsprechenden anderen Paare von Randfl¨ achen auftreten. Besonders interessant ist nun die Situation, wenn es Funktionen F1 , F2 und F3 gibt mit f = ∂x F1 + ∂y F2 + ∂z F3 =:divF , wobei F (x, y, z) = (F1 (x, y, z), F2 (x, y, z), F3 (x, y, z)) ist. Allgemein ist unter passenden Differenzierbarkeitsvoraussetzungen f¨ ur ein Vektorfeld F : M ⊂ Rn → Rn die Divergenz definiert durch divF =
n =
∂xk Fk .
k=1
In diesem Fall folgt aus unseren Ergebnissen offenbar (
b3 a3
(
b2
a2
(
b1
a1
(
( divF dxdydz =
Γb1
F1 dydz −
( +
Γb2
Γb3
F1 dydz
( F2 dxdz −
( +
Γa1
Γa2
F2 dxdz
( F3 dxdy −
Γa3
F3 dxdy.
Die sechs Integrale u achen des Quaders kann man nun noch zusam¨ ber die sechs Randfl¨ menfassend schreiben als ein Integral u ¨ ber den gesamten Rand des Quaders. Dazu ist offenbar in sinnvoller Weise das unterschiedliche Vorzeichen bei den sechs Integralen zu ¨ ber¨ ucksichtigen. Dies ist sehr einfach, wenn man die ins Außere des Quaders gerichteten Einheits-Normalenvektoren an die sechs Teilfl¨achen betrachtet. Offenbar gilt, wenn diese entsprechend mit νa1 als Normalenvektor zu Γa1 etc. bezeichnet werden, νa1 = (−1, 0, 0),
νb1 = (1, 0, 0),
νa2 = (0, −1, 0),
νb2 = (0, 1, 0),
νa3 = (0, 0, −1),
νb3 = (0, 0, 1),
Damit ist dann, wenn allgemein ν der nach außen gerichtete Normalenvektor an ∂Q ist, mit dem u ¨ blichen Skalarprodukt ' , ( ( 'F, ν-dydz, F1 dydz = − Γa1
Γa1
achen. Wir k¨onnen also zusammenfassend nour die anderen Teilfl¨ und entsprechend f¨ tieren ( ( 'F, ν-dS, (9.10) divF dxdydz = Q
∂Q
ur allgemeinere wobei das letzte Integral ein Integral u ¨ ber eine Fl¨ache im R3 ist, also f¨ Randfl¨ achen bis jetzt noch gar nicht definiert ist. F¨ ur die Betrachtung von allgemeineren
292
9 Integration II
ur welche Mengen M ⊂ Rn Situationen geht es daher insbesondere darum, zu kl¨aren, f¨ ein (9.10) entsprechendes Resultat gilt. Der passenden Definition eines Oberfl¨achenintegrals, oder k¨ urzer Fl¨achenintegrals, kommt dabei offenbar wesentliche Bedeutung zu. Auch muss es m¨ oglich sein, jedem (oder wenigstens in gewissem Sinn fast jedem, man denke nur an die Kanten des oben betrachteten Quaders), Punkt der Fl¨ache einen Normalenvektor zuzuordnen. Da Normalenvektoren so definiert sein sollten, dass sie auf der Tangentialebene senkrecht stehen, sollte dazu die Randfl¨ache in passender Weise eine differenzierbare Struktur haben. ' Sei als zweiter Spezialfall K(0,R) divF d(x, y, z) betrachtet, wobei K(0, R) eine Kugel im R3 ist. Wir gehen dabei davon aus, dass eine offene Menge Ω ⊂ R3 mit K(0, R) ⊂ Ω und eine Funktion f ∈ C 1 (Ω, R) gegeben sei. Integrieren wir nun die stetige Funktion ∂f /∂z u onnen wir mit den Bezeichnungen ¨ber die ganze Kugel K := K(0, R), so k¨ K0 := {(x, y) ∈ R2 : x2 + y 2 ≤ R2 }, schreiben
( K
∂f d(x, y, z) = ∂z
Bekanntlich gilt ( ζ(x,y) −ζ(x,y)
( K0
ζ(x, y) := (R2 − x2 − y 2 )1/2
2(
ζ(x,y)
−ζ(x,y)
∂f dz ∂z
f¨ ur
(x, y) ∈ K0
5 d(x, y).
∂f dz = f (x, y, ζ(x, y)) − f (x, y, −ζ(x, y)). ∂z
Damit ist also noch das Integral ( (f (x, y, ζ(x, y)) − f (x, y, −ζ(x, y)))d(x, y) K0
(9.11)
zu berechnen. Dazu ist es zweckm¨ aßig, zur Beschreibung von K0 Polarkoordinaten zu verwenden, d.h. x = r cos ϕ,
y = r sin ϕ mit
r ∈ [0, R], ϕ ∈ [0, 2π).
Rechnet man dann das Integral um, so erh¨ alt man ( ∂f d(x, y, z) = K ∂z ( 2π ( R ! > f (r cos ϕ, r sin ϕ, (R2 − r2 )1/2 ) − f (r cos ϕ, r sin ϕ, −(R2 − r2 )1/2 ) rdrdϕ. = 0
0
Beim inneren Integral u uhren wir nun die Substitution r = R sin ϑ durch, wobei ¨ ber r f¨ offenbar ϑ ∈ [0, π/2] sein muss. Dies liefert das neue innere Integral ( 0
π/2
(f (R sin ϑ cos ϕ, R sin ϑ sin ϕ, R cos ϑ)−f (R sin ϑ cos ϕ, R sin ϑ sin ϕ, −R cos ϑ)) · ·R2 sin ϑ cos ϑdϑ.
9.3 Zum Gaußschen Integralsatz
293
Verwendet man nun noch beim Integral ( π/2 f (R sin ϑ cos ϕ, R sin ϑ sin ϕ, −R cos ϑ))R2 sin ϑ cos ϑdϑ 0
die Substitution η = ϑ + π2 , so erh¨ alt man ( −
π/2
0
( =
π
π/2
f (R sin ϑ cos ϕ, R sin ϑ sin ϕ, −R cos ϑ))R2 sin ϑ cos ϑdϑ =
f (R sin η cos ϕ, R sin η, sin ϕ, R cos η)R2 sin η cos ηdη.
Zusammenfassend k¨ onnen wir damit schreiben ( K
∂f d(x, y, z) = ∂z
( 0
2π
( 0
π
f (R sin ϑ cos ϕ, R sin ϑ sin ϕ, R cos ϑ)R2 sin ϑ cos ϑdϑdϕ. (9.12)
Das letzte Integral kann man aber als ein Integral u ¨ ber die mit Kugelkoordinaten parametrisierte Kugeloberfl¨ ache auffassen, denn es gilt ja, wenn man mit Kugelkoordinaten arbeitet, (R sin ϑ cos ϕ, R sin ϑ sin ϕ, R cos ϑ) ∈ ∂K f¨ ur alle ϕ ∈ [0, 2π] und ϑ ∈ [0, π]. Denkt man an (9.10), so sollte sich dies auch schreiben lassen mit dem Integranden f νz , wobei νz die z-Komponente des auf Eins normierten nach außen gerichteten Normalenvektors an die Kugeloberfl¨ ache ist. Nun hat dieser Normalenvektor in einem Punkt (x, y, z) ∈ ∂K anschaulich die gleiche Richtung wie der Vektor (x, y, z), ist aber auf die L¨ange Eins zu normieren. Da in Kugelkoordinaten gilt (x, y, z) = (R sin ϑ cos ϕ, R sin ϑ sin ϕ, R cos ϑ), ist dann der Normalvektor gegeben durch ν = (sin ϑ cos ϕ, sin ϑ sin ϕ, cos ϑ) und somit νz = cos ϑ. Dies zeigt, dass der in (9.12) auftretende Faktor R2 sin ϑ zur Definition des Oberfl¨achenintegrals geh¨ oren muss. ' ' Geht man nun von K ∂x f d(x, y, z) oder von K ∂y f d(x, y, z) aus, so erh¨alt man auf die gleiche Weise ein (9.12) entsprechendes Ergebnis, wenn man den Nordpol der Kugelkoordinaten auf die x− bzw. die y−Achse legt. Das bedeutet aber, dass dann beim Integral u ¨ ber ∂K die x− bzw. die y−Komponente des Normalenvektors eingehen wird. ' Dies zeigt, dass ein (9.10) entsprechendes Resultat gelten wird, wenn man ∂K 'F, ν-dS passend definiert. Dies soll im n¨ achsten Abschnitt diskutiert werden.
9.3.2
Zum Ober߬achenintegral
Die Parametrisierung der Kugeloberfl¨ ache ∂K mit Hilfe von Kugelkoordinaten ist ja ¨ zum Integral eine Abbildung G : [0, 2π] × [0, π] → R3 . Denkt man an die Uberlegungen u ber den mit Polarkoordinaten parametrisierten Kreis, so wird es auch, wenn man nun ¨ unter Verwendung dieser Parametrisierung eine auf ∂K definierte Funktion u ¨ ber ∂K integrieren m¨ ochte, darauf ankommen, welche Teile der Kugeloberfl¨ache man bei dieser Abbildung G bekommt, wenn man das Rechteck [0, 2π] × [0, π] in Teilrechtecke zerlegt. Da es auch dabei auf eine zunehmende Verfeinerung der Zerlegung ankommt, wird man
294
9 Integration II
origen Teilen der Kugeloberfl¨ache bekommen, n¨aherungsweise ein Bild von den zugeh¨ wenn man die Abbildung G n¨ aherungsweise ersetzt durch die lineare Abbildung G& . ¨ Wir beginnen daher die Uberlegungen mit der Situation, dass eine lineare Abbildung n−1 A:R → R einen Quader Q ⊂ Rn−1 abbildet. Wir nehmen zuerst an, dass speziell A(Rn−1 ) ⊂ {x ∈ Rn : xn = 0} gelte. Zu so einer linearen Abbildung geh¨ort dann eine Matrix A mit n − 1 Spalten und n Zeilen, wobei die letzte Zeile aber nur aus Nullen besteht. Sei B die quadratische Matrix, die aus den ersten n − 1 Zeilen von A ¨ gebildet ist. Denkt man an die Uberlegungen zur Transformationsformel, so wird man, wenn man A(Q) als Teilmenge des Rn−1 auffasst, das Volumen von A(Q) ansetzen m¨ ussen als |detB|V (Q). Durch einen kleinen Trick l¨asst sich aber detB mit Hilfe von A ausdr¨ ucken, (man beachte, dass man ja nicht die Determinante von A bilden kann). Es ist bekanntlich, wenn B T die transponierte Matrix bezeichnet, det(B T B) = detB T detB = (detB)2 . Nun gilt aber AT A = B T B und somit kann man (detAT A)1/2 V (Q) f¨ ur nun besser, ochte), den Fl¨acheninhalt von A(Q) notieren. (weil man ja A(Q) ⊂ Rn haben m¨ Bewegt man nun in einem zweiten Schritt noch A(Q) aus der Koordinatenebene xn = 0 heraus, indem man mit einer orthogonalen linearen Abbildung S : Rn → Rn zu S(A(Q)) kommt, so ¨ andert sich ja nichts an der Fl¨ ache. Es gilt aber (SA)T SA = AT S T SA = AT A und somit kann man mit der gesamten linearen Abbildung C := SA die Fl¨ache des Bildes von Q notieren als (detC T C)1/2 V (Q). Damit ist bereits klar, wie das Integral u ¨ ber ein durch eine C 1 −Parametrisierung ben schriebenes ’Fl¨ achenst¨ uck’ im R zu definieren sein wird. Ist Q ⊂ Rn−1 und G : Q → Rn so eine Abbildung, die eine Parametrisierung des Fl¨achenst¨ ucks Γ darstellt, so wird man f¨ ur eine Funktion f , f¨ ur die das rechts stehende Integral sinnvoll ist, definieren ( ( f dS := f (G(u))(detG& (u)T G& (u))1/2 du. Γ
Q
(Es sei darauf verzichtet, allgemein zu zeigen, dass die hier auftretende Gramsche Determinante immer nichtnegativ ist, denn in wichtigen speziellen Situationen werden wir dies explizit sehen. F¨ ur eine Diskussion der Gramschen Determinante im Rahmen des Determinanten-Multiplikationstheorems siehe etwa Fischer [3].) Diese Definition ist nat¨ urlich nur dann wirklich sinnvoll, wenn sie bei verschiedenen Parametrisierungen des gleichen Fl¨ achenst¨ ucks Γ das gleiche Ergebnis liefert. Das kann man aber unter Ben¨ utzung der Transformationsformel zeigen. Nun in Hinblick auf die Diskussionen im letzten Abschnitt zum Oberfl¨achenintegral f¨ ur den Spezialfall von Fl¨ achen im R3 . Sei also G : Q ⊂ R2 → R3 gegeben. Es ist dann G& eine Matrix aus drei Zeilen und zwei Spalten und das Produkt G& T G& liefert, wenn man Gu1 := (∂u1 G1 , ∂u1 G2 , ∂u1 G3 ) und entsprechend Gu2 definiert, die Matrix ; : 9Gu1 92 'Gu1 , Gu2 . 'Gu1 , Gu2 - 9Gu2 92
9.3 Zum Gaußschen Integralsatz Somit ist
295
det G& (u)T G& (u) = 9Gu1 92 9Gu2 92 − 'Gu1 , Gu2 -2 ,
und die Schwarzsche Ungleichung zeigt, dass tats¨achlich det G& (u)T G& (u) ≥ 0 ist. Damit kann man nun etwa die Oberfl¨ ache einer Kugel vom Radius R im R3 berechnen. Die Punkte auf der Kugeloberfl¨ ache seien wieder mit Hilfe von Kugelkoordinaten beschrieben durch (x, y, z) = (R cos ϕ sin ϑ, R sin ϕ sin ϑ, R cos ϑ) mit (ϕ, ϑ) ∈ [0, 2π] × [0, π]. Es ist dann Gϕ = (−R sin ϕ sin ϑ, R cos ϕ sin ϑ, 0) und Gϑ = (R cos ϕ cos ϑ, R sin ϕ cos ϑ, −R sin ϑ) und man erh¨alt leicht 'Gϕ , Gϑ - = 0 sowie 9Gϕ 92 9Gϑ 92 = R4 sin2 ϑ. Offenbar haben wir hier nun den schon im letzten Abschnitt aufgetretenen Faktor R2 sin ϑ erhalten! Die Kugeloberfl¨ ache ergibt sich nun rasch: ( π ( 2π ( π 2 2 R sin ϑdϕdϑ = 2πR sin ϑdϑ = 4πR2 . 0
0
0
Ist eine Fl¨ ache im R3 speziell gegeben als Graph einer stetig differenzierbaren Funktion, also in der gewohnten Form z = ϕ(x, y), so entspricht dies ja einer Parametrisierung G(u) = (u1 , u2 , ϕ(u1 , u2 )). Damit vereinfacht sich die Darstellung von det G& (u)T G& (u) ur j = 1, 2 und 'Gu1 , Gu2 - = aber noch einmal. Es ist ja dann 9Guj 92 = 1 + (∂uj ϕ)2 f¨ (∂u1 ϕ)(∂u2 ϕ). Damit folgt 9Gu1 92 9Gu2 92 − 'Gu1 , Gu2 -2 = (1 + (∂u1 ϕ)2 )(1 + (∂u2 ϕ)2 ) − (∂u1 ϕ)2 (∂u2 ϕ)2 = 1 + (∂u1 ϕ)2 + (∂u2 ϕ)2 . Damit tritt also in diesem Fall im Oberfl¨ achenintegral der Faktor * 1 + (∂u1 ϕ)2 + (∂u2 ϕ)2 auf. Dies l¨ asst sich entsprechend auch im h¨ oherdimensionalen Fall nachweisen.
9.3.3
¨ Uber Mannigfaltigkeiten im Rn
' Um mit dem im Gaußschen Integralsatz auftretenden Integral ∂M 'F, ν-dS arbeiten zu k¨ onnen, m¨ ussen wir noch die M¨ oglichkeit diskutieren, Punkten des Randes ∂M eine nach außen gerichtete Normale zuzuordnen. Wie bereits erw¨ahnt, werden wir dazu Fl¨ achen betrachten, denen man eine Tangentialebene zuordnen kann. Bei der folgenden Definition orientieren wir uns dabei daran, dass man z.B. die Oberfl¨ ache der Kugel K(0, 1) im R3 als Menge aller Punkte beschreiben kann, die der Gleichung x2 + y 2 + z 2 − 1 = 0 gen¨ ugen. Wir definieren also: Seien r, n ∈ N mit 1 ≤ r < n, sei ∅ 3= M ⊂ Rn . M heißt r-dimensionale Mannigfaltigkeit der Klasse C 1 , wenn es zu jedem ξ ∈ M eine Umgebung U (ξ) ⊂ Rn und eine Abbildung Φ ∈ C 1 (U (ξ), Rn−r ) gibt mit rang Φ& (x) = n − r f¨ ur alle x ∈ U (ξ), so dass gilt M ∩ U (ξ) = {x ∈ U (ξ) : Φ(x) = 0}.
296
9 Integration II
F¨ ur uns werden speziell die (n − 1)-dimensionalen Mannigfaltigkeiten von Bedeutung sein; dann wird offenbar gefordert, dass sich M lokal als Menge der Nullstellen einer stetig differenzierbaren Funktion Φ : U (ξ) → R darstellen l¨asst. Da die Jacobi-Matrix ja in diesem Fall gleich dem Gradientenvektor ist, bedeutet rang Φ&(x) = n − r = 1 in diesem Fall, dass in jedem Punkt von U (ξ) mindestens eine der partiellen Ableitungen ∂xk Φ, (k ∈ {1, . . . , n}), von Null verschieden sein soll. Ein einfaches Beispiel f¨ ur so eine (n − 1)-dimensionale Mannigfaltigkeit im Rn ist die (n − 1)-Sph¨are M = {x ∈ Rn : 9x9 = 1}. ) Die f¨ ur x ∈ Rn mit 1/2 < 9x9 < 2 durch Φ(x) := nk=1 x2k − 1 definierte Funktion erf¨ ullt n¨ amlich alle in der Definition gestellten Forderungen, und zwar f¨ ur jeden Punkt ξ ∈ M . Man muss ja nur als Umgebung U (ξ) die Kugel U (ξ, 1/2) nehmen, und die Bedingung rang Φ& (x) = 1 f¨ ur x ∈ U (ξ) ist erf¨ ullt, weil Φ& (x) = (2x1 , . . . , 2xn )) und f¨ ur alle x ∈ U (ξ) ja x 3= 0 gilt. Man kann nun tats¨ achlich jedem Punkt einer (n − 1)-dimensionalen Mannigfaltigkeit uhren wir zuerst den Begriff der Klasse C 1 sinnvoll Normalenvektoren zuordnen. Dazu f¨ des Tangentialraums ein, und zwar sogar f¨ ur r−dimensionale Mannigfaltigkeiten. Die folgende Definition lehnt sich dabei an die Vorstellung an, dass eine Tangentialebene durch Vektoren aufgespannt wird, die Tangenten an Kurven sind, die auf der Fl¨ache verlaufen: Sei M ⊂ Rn eine r−dimensionale Mannigfaltigkeit der Klasse C 1 , sei ξ ∈ M . Dann nennt man die Menge aller Vektoren h ∈ Rn , zu denen es ein δ > 0 und eine Abbildung ψ ∈ C 1 ((−δ, δ), Rn ) gibt mit ψ((−δ, δ)) ⊂ M und ψ(0) = ξ sowie ψ & (0) = h, den Tangentialraum an M im Punkt ξ. F¨ ur den Tangentialraum an M im Punkt ξ verwenden wir die Notation Tξ M . Die Bezeichnung Tangentialraum legt es nun schon nahe, dass es sich dabei um einen Vektorraum handeln wird. Tats¨ achlich gilt immer Tξ M = kerΦ& (ξ), was auch impliziert, dass dieser Vektorraum die Dimension r haben muss. (Nach der Dimensionsformel f¨ ur lineare Abbildungen gilt ja dim Rn = dim Im Φ& (ξ)+dim ker Φ& (ξ), woraus wegen rang Φ& (ξ) = n − r folgt dim ker Φ& (ξ) = r). Wir zeigen dies nun f¨ ur den f¨ ur die weiteren Dinge wichtigen Fall r = n − 1. Satz 9.4 Sei M ⊂ Rn (n − 1)-dimensionale Mannigfaltigkeit der Klasse C 1 , sei ξ ∈ M und dazu U eine Umgebung von ξ, so dass eine Darstellung M ∩ U = {x ∈ U : Φ(x) = 0} gegeben ist. Dann gilt Tξ M =ker Φ& (ξ) und somit dim Tξ M = n − 1. Beweis: Nach der Vorbemerkung zur Dimension ist nur noch zu zeigen, dass Tξ M ⊂ ker Φ& (ξ) und ker Φ& (ξ) ⊂ Tξ M gilt. Beim ersten Teil werden wir gar nicht auf die Voraussetzung, dass die Mannigfaltigkeit (n − 1)-dimensional ist, zur¨ uckgreifen m¨ ussen. Sei also h ∈ Tξ M . Sei dazu entsprechend der Definition des Tangentialraums ψ ∈ C 1 ((−δ, δ), Rn ) mit ψ((−δ, δ)) ⊂ M ,
9.3 Zum Gaußschen Integralsatz
297
ur t ∈ (−δ, δ), soψ(0) = ξ und ψ & (0) = h. Aus ψ((−δ, δ)) ⊂ M folgt Φ(ψ(t)) = 0 f¨ mit aber (d/dt)Φ(ψ(t)) = 0 f¨ ur t ∈ (−δ, δ). Nach der Kettenregel gilt (d/dt)Φ(ψ(t)) = Φ& (ψ(t))ψ & (t). Aus ψ(0) = ξ und ψ & (0) = h folgt damit 0 = Φ& (ψ(0))ψ & (0) = Φ& (ξ)h, d.h. h ∈ ker Φ& (ξ). Sei nun f¨ ur die umgekehrte Inklusion angenommen, dass h ∈ ker Φ& (ξ) sei. Wie d¨ urfen ohne Einschr¨ ankung der Allgemeinheit annehmen, dass ∂xn Φ(ξ) 3= 0 ist. (Man kann ja einfach die Koordinaten im Rn umnummerieren). Der Satz u ¨ber implizite Funktionen sichert uns damit, dass es eine Umgebung W von (ξ1 , . . . , ξn−1 ) und eine Abbildung g : W → R gibt mit g(ξ1 , . . . , ξn−1 ) = ξn und Φ(ξ1 , . . . , ξn−1 , g(ξ1 , . . . , ξn−1 )) = 0 f¨ ur alle (ξ1 , . . . , ξn−1 ) ∈ W . Dabei ist sogar g ∈ C 1 (W, R). Seien nun zur Vereinfachung die Notationen ξ & := (ξ1 , . . . , ξn−1 ) und h& := (h1 , . . . , hn−1 ) verwendet. Es gibt ein δ > 0, so dass ξ & + th& ∈ W f¨ ur t ∈ (−δ, δ) gilt. Sei f¨ ur t ∈ (−δ, δ) definiert ψ(t) := (ξ & + th& , g(ξ & + th& )). Es gilt dann ψ(t) ∈ M , so dass die Funktion ψ geeignet erscheint, nachzuweisen, dass h ∈ Tξ M ist. Tats¨achlich ist ja ψ(0) = ξ, so dass wir ur die Komponenten ψ & (t)k des nur noch zeigen m¨ ussen, dass ψ & (0) = h gilt. Nun gilt f¨ & & Spaltenvektors ψ (t) nach der Kettenregel ψ (t)k = hk f¨ ur k = 1, . . . , n − 1 und ψ & (t)n =
n−1 =
(∂xk g)(ξ & + th& )hj .
j=1
)n−1 Damit ist noch zu zeigen, dass j=1 (∂xk g)(ξ & )hj = hn gilt. Aus Φ(ψ(t)) = 0 folgt aber wie oben Φ& (ψ(0))ψ & (0) = Φ& (ξ)ψ & (0) = 0. Mit der Notation ) & & & & & & onnen wir also g & (ξ)h& := n−1 j=1 ∂xk g(ξ )hj und (h , g (ξ)h ) = (h1 , . . . , hn−1 , g (ξ)h ) k¨ & & & & T festhalten Φ (ξ)(h , g (ξ)h ) = 0. Andererseits gilt aber mit einer entsprechenden No3 0 tation auch Φ& (ξ)(h& , hn )T = 0, somit Φ& (ξ)(0, g & (ξ)h& − hn )T = 0. Wegen (∂xn Φ)(ξ) = folgt daraus g & (ξ)h& − hn = 0. ! Damit wissen wir nun, dass das orthogonale Komplement Tξ M ⊥ zum (n − 1)-dimensionalen Untervektorraum Tξ M des Rn die Dimension Eins hat. Es ist naheliegend, dass man die Vektoren ν ∈ Tξ M ⊥ als Normalenvektoren an M im Punkt ξ bezeichnet. Es gilt nun: Korollar 9.2 Sei M ⊂ Rn (n − 1)-dimensionale Mannigfaltigkeit, sei ξ ∈ M und dazu U eine Umgebung von ξ, so dass eine Darstellung M ∩ U = {x ∈ U : Φ(x) = 0} gegeben ist. Dann ist { grad Φ(ξ)} eine Basis f¨ ur den Raum der Normalenvektoren im Punkt ξ. Beweis: ur alle h ∈ Tξ M . Das bedeutet 'h, ν- = 0 f¨ ur alle h mit Sei ν ∈ Tξ M ⊥ , also ν ⊥ h f¨ ullt dies auf triviale Weise, ist also ein NormaΦ& (ξ)h = 0. Der Vektor ν =gradΦ(ξ) erf¨ lenvektor. Da er nach Voraussetzung verschieden vom Nullvektor sein muss, bildet er bereits eine Basis des eindimensionalen Raums der Normalenvektoren. ! Mit diesen Kenntnissen k¨ onnen wir nun rasch den Gaußschen Integralsatz f¨ ur Kugeln K(0, R) ⊂ Rn beweisen.
298
9 Integration II
Satz 9.5 Sei K(0, R) ⊂ Rn , Ω ⊂ Rn offen mit K(0, R) ⊂ Ω und F ∈ C 1 (Ω, Rn ). Dann gilt ( ( div F dx = 'F, ν-dS. K(0,R)
∂K(0,R)
Beweis: Wir werden zeigen, dass ( K(0,R)
∂Fn dx = ∂xn
( ∂K(0,R)
Fn νn dS
gilt. Der Beweis wird zeigen, dass man ganz entsprechend mit den zu den anderen Komponenten von F geh¨ orenden Termen arbeiten k¨onnte, und somit ergibt sich dann die Behauptung durch Summation der ur die Komponenten. * Einzelergebnisse f¨ Sei y := (x1 , . . . , xn−1 ) und ϕ(y) := R2 − 9y92 , (wobei 9 9 die euklidische Norm auf onnen wir, wenn wir die Notation K0 := {y ∈ Rn−1 : 9y9 ≤ R} dem Rn−1 sei). Dann k¨ verwenden, schreiben 5 ( ( 2( ϕ(y) ∂Fn ∂Fn dx = dxn dy. −ϕ(y) ∂xn K0 K(0,R) ∂xn Damit ist noch zu zeigen, dass ( ( (Fn (y, ϕ(y))dy − Fn (y, −ϕ(y)))dy = K0
∂K(0,R)
Fn νn dS
(9.13)
gilt. Dazu berechnen wir den nach außen gerichteten Normalenvektor der L¨ange Eins an ∂K(0, R). In den Punkten x ∈ ∂K(0, R) mit xn > 0 ist ja die Kugeloberfl¨ache, (also die (n − 1)-dimensionale Mannigfaltigkeit), beschrieben durch die Gleichung Φ(x) = xn − ϕ(y) = 0. Damit ist aber v := (−∂x1 ϕ(y), . . . , −∂xn−1 ϕ(y), 1) ein Normalenvektor im Punkt x. Dieser Vektor ist als nach außen gerichtet anzusehen. Denn betrachtet man mit λ > 0 einen Punkt ξ := x + λv, so ist ξn = xn + λ > xn und f¨ ur alle Punkte in U (0, R) gilt ja x2n + 9y92 < R2 , somit, wenn xn > 0 ist, xn < ϕ(y). Damit ist also der gesuchte Normalenvektor ν gegeben durch ν=
1 (−∂x1 ϕ(y), . . . , −∂xn−1 ϕ(y), 1). (1 + 9gradϕ(y)92 )1/2
Somit ist νn = (1+9gradϕ92 )−1/2 . Da die bez¨ uglich xn obere H¨alfte der Kugeloberfl¨ache = ϕ(y) beschrieben ist, tritt im zugeh¨origen Oberfl¨achenintegral durch die Gleichung x n * der Faktor 1 + 9gradϕ(y)92 auf. Damit k¨ onnen wir aber, wenn ∂K+ dieser obere Teil
9.3 Zum Gaußschen Integralsatz
299
von ∂K(0, R) ist, notieren (
( ∂K+
Fn νn dS =
K0
(Fn (y, ϕ(y))(1 + 9gradϕ92 )−1/2 (1 + 9gradϕ92 )1/2 dy
( =
K0
(Fn (y, ϕ(y))dy.
¨ F¨ uhrt man eine entsprechende Uberlegung f¨ ur den unteren Teil der Kugeloberfl¨ache aus, so erh¨ alt man nach Summation genau (9.13). ! Mit diesem Ergebnis beenden wir die Diskussion zur Formulierung und zum Beweis des Gaußschen Integralsatzes, da eine f¨ ur viele Zwecke gen¨ ugend allgemeine Formulierung einen relativ großen technischen Aufwand erfordert. Einen Zugang, der gut an die hier gegebene Darstellung anschließt, findet man in Hildebrandt [6], Bd. 2. Es muss aber noch bemerkt werden, dass der passende Rahmen f¨ ur verschiedene Integrals¨atze durch den Differentialformenkalk¨ ul gegeben wird, f¨ ur den in dieser Einf¨ uhrung kein Raum ist.
9.3.4
Einige Folgerungen und Anwendungen
Der Begriff der Divergenz eines Vektorfeldes wurde in Abschnitt 9.3.1 unter rein mathematischen Gesichtspunkten eingef¨ uhrt. Die Divergenz eines Vektorfeldes hat aber durchaus auch eine physikalische Bedeutung. Wendet man den Gaußschen Integralur das f¨ ur in einer geeigneten Menge G gilt satz an auf ein Vektorfeld F : 'Ω → Rn , f¨ divF (x) = 0, so folgt offenbar ∂G 'F, ν-dS = 0. Dies zeigt bereits, warum man davon spricht, dass div F = 0 bedeutet, dass das Vektorfeld quellenfrei ist. Allgemeiner kann man sogar divF (x) als die Ergiebigkeit einer Quelle im Punkt x ansehen, wie das folgende Ergebnis zeigt, das ebenfalls eine einfache Folgerung aus dem Gaußschen Integralsatz ist. Korollar 9.3 Sei Ω ⊂ Rn offen und F ∈ C 1 (Ω, Rn ). Dann gilt f¨ ur x ∈ Ω ( 1 'F, ν-dS, divF (x) = lim r→0 V (K(x, r)) ∂K(x,r) wobei mit V (K(x, r)) das Volumen der Kugel K(x, r) bezeichnet wird. Beweis: Nach dem Gaußschen Integralsatz gilt ( ( 1 1 'F, ν-dS = divF dy. V (K(x, r)) ∂K(x,r) V (K(x, r)) K(x,r) ' 1 Damit ist zu zeigen, dass limr→0 V (K(x,r)) divF (y)dy = (divF )(x) gilt. Da hier K(x,r) beide Seiten aus einer Summe bestehen, reicht es, f¨ ur ein beliebiges j ∈ {1, . . . , n} zu
300
9 Integration II
zeigen, dass
1 lim r→0 V (K(x, r))
( K(x,r)
(∂xj F )(y)dy = (∂xj F )(x)
gilt. Dies folgt aber daraus, dass sogar f¨ ur jede beliebige Funktion f ∈ C(Rn , R) gilt ( 1 lim f (y)dy = f (x). (9.14) r→0 V (K(x, r)) K(x,r) Dies ergibt sich aber sofort aus der Stetigkeit. Ist ε > 0 gegeben, so gibt es ein δ > 0 mit |f (y) − f (x)| < ε f¨ ur 9y − x9 < δ. F¨ ur 0 < r < δ kann man damit absch¨atzen #( # # # ( # # # # # # # # f (y)dy # = # (f (x) − f (y))dy # #V (K(x, r))f (x) − # # # # K(x,r) K(x,r) ( ≤ |f (x) − f (y)|dy < εV (K(x, r)). K(x,r)
Daraus folgt offenbar sofort (9.14).
!
Ein Beispiel f¨ ur die vielf¨ altige Einsetzbarkeit des Gaußschen Integralsatzes ist auch die M¨ oglichkeit, einen einfachen Zusammenhang zwischen dem Fl¨acheninhalt der Oberfl¨ ache einer Kugel im Rn und ihrem Volumen herstellen zu k¨onnen, ohne eine dieser beiden Gr¨ oßen berechnen zu m¨ ussen. Betrachtet man das Vektorfeld F (x) := x f¨ ur x ∈ Rn , so gilt ja divF (x) = n f¨ ur alle n ur r > 0 x ∈ R . Damit gilt aber f¨ ( 1 'x, ν(x)-dS. V (K(0, r)) = n .x.=r 1 ¨ Nun gilt aber nach unseren fr¨ uheren Uberlegungen ν(x) = .x. x = 1r x f¨ ur alle Punkte x ∈ ∂K(0, r) und somit 'x, ν(x)- = r. Daraus folgt, wenn wir mit F (∂K(0, r)) die Fl¨ ache der Kugeloberfl¨ ache bezeichnen,
V (K(0, r)) =
r F (∂K(0, r)). n
Der Gaußsche Integralsatz erm¨ oglicht es, auch bei Funktionen mehrerer Variabler mit partieller Integration zu arbeiten. Nehmen wir zur Vereinfachung an, dass u ∈ C 1 (Rn , R) onnen wir f¨ ur eine Menge G ⊂ Rn , f¨ ur die man den und F ∈ C 1 (Rn , Rn ) sei, so k¨ Gaußschen Integralsatz einsetzen darf, erschließen, dass ( ( ( u divF dx = 'uF, ν-dS − 'gradu, F -dx (9.15) G
∂G
G
gilt. Denn zun¨ achst liefert die Produktregel ja div(uF ) = 'gradu, F - + udivF . Damit gilt ( ( ( u divF dx = div(uF )dx − 'gradu, F -dx G
G
G
9.3 Zum Gaußschen Integralsatz
301
utzung von und (9.15) folgt unter Ben¨ ( ( div(uF )dx = G
∂G
'uF, ν-dS.
Ganz offensichtlich wird die Analogie zur gewohnten partiellen Integration, wenn man den Spezialfall F = (ϕ, 0, . . . , 0) betrachtet, wobei ϕ|∂G = 0 ist. Dann geht n¨amlich (9.15) u ¨ber in ( ( G
u∂x1 ϕdx = −
G
(∂x1 u)ϕdx.
Dieses ‘Hin¨ uberschieben’ von Ableitungen spielt eine ganz wichtige Rolle bei der Behandlung von partiellen Differentialgleichungen. Wichtig sind bei der Behandlung von partiellen Differentialgleichungen, und zwar insbesondere bei der Diskussion der Potentialgleichung Δu = 0 auch die sogenannten Greenschen Formeln. Dabei ist Δ der Laplace-Operator Δ=
n =
∂x2k .
k=1
Ist das im Gaußschen Integralsatz auftretende Vektorfeld F selber durch Gradientenbildung aus einer skalaren Funktion entstanden, gibt es also eine C 2 −Funktion f , so alt man zun¨achst dass F = (∂x1 f, . . . , ∂xn f ) gilt, so erh¨ divF =
n =
∂x2k f = Δf,
und 'F, ν- = 'gradf, ν- = Dν f,
k=1
(wobei wieder mit Dν f die Richtungsableitung bezeichnet wird). H¨aufig findet man f¨ ur die Richtungsableitung auch die Notation ∂f alt dann der Gaußsche ∂ν . Damit erh¨ Integralsatz in dieser speziellen Situation die Form ( ( ∂f Δf dx = dS. G ∂G ∂ν Ganz analog kommt man zu den erw¨ ahnten Greenschen Formeln, wenn man den Fall betrachtet, dass es eine C 1 -Funktion u und eine C 2 -Funktion v gibt mit F = u gradv. Dann gilt offenbar 'F, ν- = u(∂v/∂ν) und aufgrund der Produktregel f¨ ur die Ableitungen folgt div(u gradv) = uΔv + 'gradu, gradv-. Damit erh¨ alt man die sogenannte erste Greensche Formel ( ( (uΔv + 'gradu, gradv-)dx = u(∂v/∂ν)dS. G
∂G
302
9 Integration II
Sind nun sogar u und v C 2 -Funktionen, so gilt diese Formel auch, wenn man die Rollen von u und v vertauscht. Durch Subtraktion der zwei Gleichungen erh¨alt man dann die zweite Greensche Formel ( G
( (uΔv − vΔu)dx =
∂G
(u(∂v/∂ν) − v(∂u/∂ν))dS.
Es ist schon lange bekannt, dass man mit Hilfe dieser Formeln wichtige Informationen u osungen der Potentialgleichung), gewinnen ¨ber harmonische Funktionen, (das sind die L¨ kann. Hier sei abschließend noch gezeigt, dass man unter Verwendung der fr¨ uher diskutierten zweidimensionalen Form des Gaußschen Integralsatzes, in der Kurvenintegrale auftreten, auch rasch zu einem interessanten Ergebnis u ¨ ber L¨osungen der Wellengleichung kommen kann. Als n-dimensionale Wellengleichung wird die Differentialgleichung ∂t2 u(x, t) = c2
n =
∂x2k u(x, t)
k=1
bezeichnet, die zur Beschreibung von Vorg¨ angen ben¨ utzt wird, die etwas mit der Ausbreitung von Wellen zu tun haben. Die Konstante c > 0 spielt dabei die Rolle der Ausbreitungsgeschwindigkeit und t steht f¨ ur die Zeit. Wir besch¨aftigen uns nun mit dem einfachsten Fall n = 1 und zur technischen Vereinfachung sei c = 1. Wir betrachten also den Differentialoperator L := ∂x2 − ∂t2 und L¨osungen von Lu = 0. Seien a, b ∈ R mit a < b und seien damit im R2 die drei Punkte A := (2a, 0), B := (2b, 0) und C := (a + b, b − a) gegeben. Da a + b = (2a + 2b)/2 und b − a = (2b − 2a)/2 gilt, bilden diese drei Punkte ein gleichseitiges Dreieck mit den Eckpunkten A und B auf der x−Achse und Steigung der Seite AC von 45 Grad. Ist nun D die entsprechende Dreiecksfl¨ ache, so erh¨ alt man unter Verwendung der fr¨ uher gewonnenen zweidimensionalen Variante des Gaußschen Integralsatzes (
( M
(∂x G − ∂y F )d(x, y) =
∂M
F dx + Gdy,
(wobei rechts ein Kurvenintegral steht), (
( D
Lu d(x, t) =
D
( (∂x (∂x u) − ∂t (∂t u))d(x, t) =
∂D
(∂t u)dx + (∂x u)dt.
(9.16)
Das Kurvenintegral zerf¨ allt in drei Integrale u ¨ ber die drei Seiten des Dreiecks, wobei darauf zu achten ist, dass man dabei im Gegenuhrzeigersinn fortschreitet. Die Seite AB ist somit parametrisiert durch x = 2a+ s, t = 0 mit s ∈ [0, 2(b − a)], die Seite BC durch x = 2b − s, t = s mit s ∈ [0, b − a] und die Seite CA durch x = a + b − s, t = b − a − s
9.3 Zum Gaußschen Integralsatz
303
alt man mit s ∈ [0, b − a]. Damit erh¨ (
( ∂D
(∂t u)dx + (∂x u)dt = ( + ( +
b−a 0
0
b−a
2(b−a)
0
(∂t u)(2a + s, 0)ds
(−(∂t u)(2b − s, s) + (∂x u)(2b − s, s))ds (−(∂t u)(a + b − s, b − a − s) − (∂x u)(a + b − s, b − a − s))ds.
Nun ist aber −(∂t u)(2b − s, s) + (∂x u)(2b − s, s) =
d (−u(2b − s, s)) ds
und −(∂t u)(a + b − s, b − a − s) − (∂x u)(a + b − s, b − a − s) =
d u(a + b − s, b − a − s). ds
Damit kann man die letzten zwei Integrale ausrechnen und erh¨alt ( 2(b−a) ( (∂t u)dx + (∂x u)dt = (∂t u)(2a + s, 0)ds + u(A) + u(B) − 2u(C). ∂D
0
ur eine C 2 -Funktion u, die in einer offeBringt man dies in (9.16) ein, so sieht man, dass f¨ nen Menge Ω, die das (abgeschlossene) Dreieck D umfasst, L¨osung der Wellengleichung ist, also (Lu)(x, t) = 0 erf¨ ullt gilt, ( 1 2b 1 u(C) = (u(A) + u(B)) + (∂t u)(x, 0)dx. (9.17) 2 2 2a Dieses Ergebnis zeigt, dass eine L¨ osung u der Wellengleichung eindeutig festgelegt ist durch die Werte von u und ut zum Zeitpunkt t = 0. Es ist dies also ein Eindeutigkeitsresultat zum Anfangswertproblem. Man kann aber (9.17) sogar zur Gewinnung eines Existenzresultats verwenden; in etwas anderer Form findet man dies u ¨ blicherweise als L¨ osungsformel von d’Alembert. Aufgaben 1. Sei f : [−1, 1]3 → R definiert durch f (x, y, z) := (x + y)2 − (y − z)2 + (z + x)2 . ' Man zeige, dass f Riemann-integrierbar ist und berechne [−1,1]3 f (x, y, z)d(x, y, z). 2. Seien a > 0, b > 0, c > 0. Man berechne das Volumen des Ellipsoids M = {(x, y, z) ∈ R3 :
y2 z2 x2 + 2 + 2 ≤ 1}. 2 a b c
304
9 Integration II
3. Sei a ∈ R, sei Q ⊂ Rn ein achsenparalleler Quader und seien die Funktionen f : Q × R → R und g : Q → R stetig. F¨ ur x ∈ Q sei ( F (x) :=
g(x)
a
f (x, y)dy.
Man zeige, dass F stetig ist. 4. Man u ¨berlege sich, dass man u ¨ ber die folgenden Mengen stetige Funktionen integrieren kann: (a) A := {(x, y) ∈ [−3, 3]2 : y ≤ ex ∧ y ≤ e−x }. (b) B := f ([−1, 1]3 ), wobei die Abbildung f : R3 → R3 definiert ist durch f (x, y, z) = (ey , ez , ex ). 5. Man berechne das Volumen V und den Schwerpunkt ; :( ( ( 1 zd(x, y, z) yd(x, y, z), xd(x, y, z), S := V T T T des schiefen Turms T := {(x, y, z) ∈ R3 : z ∈ [0, 10], (x −
1 2 1 z) + (y − z)2 ≤ 1}. 10 10
6. Man berechne die zwei iterierten Integrale ; ; ( ∞ :( ∞ ( ∞ :( ∞ y−x y−x dy dx, J := dx dy. I := (x + y)3 (x + y)3 1 1 1 1 Wie ist das Ergebnis zu interpretieren? 7. Die Abbildung t ∈ [−π/2, π/2] /→ (cos t, sin t cos t) ∈ R2 parametrisiert eine geschlossene Kurve in der Ebene. Man berechne den Fl¨acheninhalt des von dieser Kurve umschlossenen Bereichs. 8. Sei Ω ⊂ R3 offen und sei K(0, R) ⊂ Ω. Man zeige: Ist u ∈ C 2 (Ω) L¨osung von ur 9x9 = R, so gilt Δu(x) = f (x) und v ∈ C 1 (Ω) mit v(x) = u(x) f¨ ( ( ( ( 1 1 2 2 9gradu9 dx + f udx ≤ 9gradv9 dx + f vdx. 2 K(0,R) 2 K(0,R) K(0,R) K(0,R) (Hinweis: Man arbeite mit der ersten Greenschen Formel, angewandt auf die Funktionen v − u und u.)
Literaturverzeichnis [1] Amann, Herbert, Escher, Joachim: Analysis II, Birkh¨auser Verlag, Basel, (1999) [2] Blatter, Christian: Analysis 2, Springer Verlag, Berlin, (1992). [3] Fischer, Gerd: Lineare Algebra, Vieweg Verlag, Braunschweig, (1995) [4] Grauert, Hans, Grunau, Hans-Christoph: Lineare Algebra und Analytische Geometrie, Oldenbourg Verlag, M¨ unchen, (1999) [5] Heuser, Harro: Lehrbuch der Analysis Teil 1, Teubner Verlag, Stuttgart, (1980). [6] Hildebrandt, Stefan: Analysis 1, Analysis 2, Springer Verlag, Berlin, (2002, 2003). [7] Rudin, Walter: Analysis, Oldenbourg Verlag, M¨ unchen, (2005). [8] Walter, Wolfgang: Gew¨ohnliche Differentialgleichungen, Springer Verlag, Berlin, (2000).
Index aquivalente Normen, 63 ¨ Abbildung, 7 kontrahierende, 221 bijektive, 7 folgenstetige, 93 identische, 7 injektive, 7 stetige, 96 surjektive, 7 abgeschlossene Kugel, 99 Ableitung, 128 partielle, 200 abz¨ ahlbar, 23 Anfangs-Randwertproblem, 242 Approximationssatz von Weierstraß, 267 Arcusfunktionen, 120, 135 Areafunktionen, 117 assoziativ, 9 babylonisches Wurzelziehen, 53 Banachraum, 67 Banachscher Fixpunktsatz, 219 Bernoullische Ungleichung, 50 Besselsche Ungleichung, 248 Betrag einer komplexen Zahl, 34 einer reellen Zahl, 19 Bild, 7 Binomialkoeffizienten, 29 binomischer Lehrsatz, 29, 30 Cauchy-Folge, 41 Cauchy-Schwarzsche Ungleichung, 59 Cauchyprodukt, 85 Cesaro-Mittel, 259, 261 Cesaro-summierbar, 260 Cosinus, 89 Cosinus hyperbolicus, 110
Diffeomorphismus, 228 Differentialgleichung gew¨ohnliche, 232 partielle, 232 Differenzenquotient, 130 Differenzierbarkeit, 129 Differenzmenge, 16 Dirichlet-Kern, 262 disjunkte Mengen, 3 Distributivgesetz, 9 Divergenz eines Vektorfeldes, 291 Dreiecksungleichung, 19 Durchschnitt, 3 Einschr¨ankung, 21 euklidische Norm, 59 euklidisches Skalarprodukt, 59 Eulersche Zahl, 57 Exponentialfunktion, 72 Fakult¨at, 29 Familie, 58 Fej´er-Kern, 263 Fixpunkt einer Abbildung, 113 Folge, 39 divergente, 40 konvergente, 40 monoton fallende, 46 monoton wachsende, 46 Fourier-Reihe, 251 Fourierkoeffizienten, 245, 248 Fr´echet-Ableitung, 199 Fr´echet-differenzierbar, 198 Funktion reell analytische, 189 lokal integrierbare, 163 Riemann-integrierbare, 154 Funktionaldeterminante, 286 Funktionalmatrix, 201
308 Gammafunktion, 175 geordnetes Paar, 6 gleichm¨ aßig stetig, 103 gleichm¨ achtig, 20 Gradientenvektor, 202 Graph, 7 Greensche Formeln, 301 Grenzwert einer Folge, 40 Grenzwert einer Funktion, 123 H¨ aufungspunkt einer Menge, 122 Hauptsatz der Differential- und Integralrechnung, 164 Hesse-Matrix, 213 Hilbertraum, 248 Hyperbelfunktionen, 110 Imagin¨ arteil, 34 indefinit, 213 Infimum, 10 Intervall, 115 abgeschlossenes, 27 offenes, 99 iteriertes Integral, 273 Jacobi-Matrix, 201 K¨ orper, 9 archimedisch angeordnet, 14 kartesisches Produkt, 6 Kettenregel, 133, 203 kommutativ, 9 kompakt, 106 Komplement, 16 Komposition von Abbildungen, 8 konjugiert komplex, 34 Konvergenz einer Reihe, 70 einer Zahlenfolge, 40 gleichm¨ aßige, 166 Konvergenzkreis, 83 Konvergenzradius, 83 Landau-Symbol o, 125 Laplace-Operator, 301 Leibniz-Kriterium, 71 Leibnizsche Formel, 182
Index Limes inferior, 78 Limes superior, 78 linksseitig differenzierbar, 129 linksseitiger Grenzwert, 123 Lipschitz-stetig, 210 Logarithmus, 114 lokales Extremum, 138 Majorante, 75 Majorantenkriterium, 75 Mannigfaltigkeit im Rn , 295 Maximum, 10 Menge u ¨ berabz¨ahlbare, 23 abgeschlossene, 98 abz¨ahlbar unendliche, 23 endliche, 20 folgenkompakte, 101 induktive, 12 kompakte, 106 konvexe, 210 leere, 3 offene, 96, 98 unendliche, 20 Metrik, 65 diskrete, 65 induzierte, 66 metrischer Raum, 65 vollst¨andiger, 66 Minimum, 10 Mittelwertsatz der Differentialrechnung, 140 der Integralrechnung, 160 Multiindex, 208 negativ definit, 213 Newton-Verfahren, 221 Norm, 66 Normalbereich, 281 Normalenvektor, 297 Nullfolge, 41 Obersumme, 154 Operatornorm, 206 Ordnung totale, 9 Ordnungsrelation, 9
Index andig, 10 ordnungsvollst¨ Orthonormalsystem, 245 vollst¨ andiges, 251 Parsevalsche Gleichung, 250 Partialbruchzerlegung, 171 Partialsumme, 69 partielle Integration, 168 Polarkoordinaten, 121 Polynomfunktion, 132 positiv definit, 213 Potentialgleichung, 301 Potenzmenge, 4 Potenzreihe, 81 Pr¨ a-Hilbertraum, 248 Produktregel, 131 Quotientenkriterium, 75 Quotientenregel, 131 Randpunkte einer Menge, 280 Raum metrischer, 65 normierter, 66 topologischer, 98 Realteil, 34 rechtsseitig differenzierbar, 129 rechtsseitiger Grenzwert, 123 Regeln von de l’Hospital, 143 Reihe absolut konvergente, 72 alternierende, 71 divergente, 69 geometrische, 69 harmonische, 71 konvergente, 69 rekursive Definition, 25 Relation, 6 antisymmetrische, 9 reflexive, 9 symmetrische, 9 transitive, 9 Restglied von Cauchy, 187 von Lagrange, 187 Richtungsableitung, 138 Riemann-Integral, 149, 153
309 Riemannsche Summe, 150 Sattelpunkt, 215 Satz u ¨ ber implizite Funktionen, 229 von Bolzano-Weierstraß, 47 von Fej´er, 263 von Fubini, 273 von Picard-Lindel¨of, 237 von Rolle, 140 von Schwarz, 207 Schranke gr¨oßte untere, 10 kleinste obere, 10 obere, 10 untere, 10 Separationsansatz, 242 Signum, 19 Sinus, 89 Sinus hyperbolicus, 110 Skalarprodukt L2 -Skalarprodukt, 244 Stammfunktion, 164 Stetigkeit einer Abbildung, 96 Substitutionsformel, 169 sukzessive Approximation, 221 Supremum, 10 Supremumsnorm, 63, 197 Tangentialraum, 296 Taylor-Reihe, 189 Taylorformel, 186, 213 Taylorpolynom, 185 Teilfolge, 46 Teilmenge, 3 dichte, 20 Topologie, 98 Transformationsformel, 287 Tschebyscheff-Polynome, 268 Umgebung, 95 Umkehrabbildung, 8 uneigentliche Integrale, 173 absolute Konvergenz, 174 Untersumme, 154 Urbild, 97 Vereinigung, 4
310 vollst¨ andige Induktion, 16 Wellengleichung, 302 Wertebereich, 7 Wurzelkriterium, 77 Zahl
konjugiert komplexe, 34 Zahlen ganze, 16 irrationale, 16 komplexe, 33 nat¨ urliche, 1, 12 rationale, 1, 16 reelle, 2, 16 Zahlenfolge, 39 Zwischenwertsatz, 111
Index