117 32 5MB
German Pages 688 [679] Year 2023
Markus Eichhorn
Einführung in die Mathematik der Theoretischen Physik
Einführung in die Mathematik der Theoretischen Physik
Markus Eichhorn
Einführung in die Mathematik der Theoretischen Physik
Markus Eichhorn Karlsruhe, Baden-Württemberg, Deutschland
ISBN 978-3-662-66078-2 ISBN 978-3-662-66079-9 (eBook) https://doi.org/10.1007/978-3-662-66079-9 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: Caroline Strunz Springer Spektrum ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany
Vorwort
Die Physik in ihrem gesamten facettenreichen Umfang zu verstehen, scheint unmöglich zu sein. Doch wer einen unstillbaren Durst nach Wissen hat, wird trotzdem nicht von seinem Studium der Physik enttäuscht sein. Dieses Werk soll all denjenigen eine Hilfestellung sein, die sich dieser immerwährenden Suche nach Wissen verschrieben haben. Das größte Hindernis für Studierende der Physik dürfte die gewaltige Menge an neuen mathematischen Konzepten sein, von denen nicht alle in den frühen Semestern des Studiums genug Beachtung finden. Es soll in diesem Werk daher versucht werden ein grobes Bild der wichtigsten mathematischen Konzepte im Grundstudium zu zeichnen. Diese sollen auf eine möglichst verständliche Art und Weise präsentiert werden, die aber dennoch eine gewisse Sorgfalt der Begrifflichkeit wahrt. Ausgestattet mit diesen Grundlagen lassen sich auch die höchsten Berge auf dem steinigen Weg der Suche nach neuem Wissen überwinden. Mathematik kann wie ein Spiel betrachtet werden, und zu jedem Spiel gehören Regeln. In Spielen gewinnen diejenigen, die alle Regeln lernen und sie zu ihren eigenen Gunsten auslegen. In Spielen kann es von Vorteil sein, seine, aus den Regeln abgeleiteten, Strategien und Taktiken nicht preiszugeben, um den Gegenspielern stets einen Schritt voraus zu sein. In der Wissenschaft hingegen kann ein Sieg auf ganzer Linie nur durch kooperatives Zusammenarbeiten erzielt werden. Daher ist es mir ein großes Anliegen, die Regeln, welche ich über das letzte Jahrzehnt meines Lebens zur Genüge entdecken und lernen durfte, an die nächste Generation weiterzugeben, auf dass diese lernt, die Regeln gezielt anzuwenden und zu unser aller Vorteil zu benutzen. Ich wünsche dementsprechend viel Freude beim Durchstöbern dieses gigantischen Regelwerks, dessen Anwendung mich jeden Tag aufs Neue zu faszinieren vermag. Mein größter Dank gilt der immensen Unterstützung durch meine Familie und Freunde. Im Besonderen möchte ich dabei meinen langjährigen Kommilitonen und Gesprächspartnern Philipp Meder, Philipp Dörner und Jannik Seger danken. Ihre Verbesserungsvorschläge und Anregungen haben mich stets im Erstellen dieses Werkes vorangebracht.
V
VI
Vorwort
Ein besonderer Dank gebührt dabei Manuel Egner, der mit mir durch dick und dünn gegangen ist und mir auch in den schwersten Zeiten zur Seite gestanden hat. Ohne sein Wirken hätte ich wohl weder dieses Buch noch mein Studium beenden können. Vielen Dank, mein Freund. Ohne den Springer Verlag und dessen ausgesprochen kompetente Mitarbeiter*innen hätte dieses Werk vermutlich nie den Weg zur Veröffentlichung gefunden. Daher gilt auch all denen, die daran mitgewirkt haben mein Dank. Ganz besonders möchte ich dabei meiner Lektorin Caroline Strunz und meiner Projektmanagerin Jeevitha Juttu danken. Zuletzt möchte ich meiner Familie und im Besonderen meiner Mutter Manuela Eichhorn danken, ohne deren tatkräftige Unterstützung ich dieses Werk wohl nie hätte fertigstellen können. In diesem Sinne, an all meine Unterstützer*innen, ob genannt oder nicht: Danke. Alle Grafiken in diesem Werk wurden mit Python-Software erstellt, im Besonderen mit den Paketen numpy, matplotlib und scipy. Gewidmet Jürgen Grünenwald, einem guten Freund und langjährigen Mentor †2020. Karlsruhe dem 05.08.2022
Markus Eichhorn
Inhaltsverzeichnis
1
Einführung und Wiederholung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1 Nötige Vorkenntnisse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.2 Formelsammlung – Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.3 Ableitungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3.1 Motivation und Beispiele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 1.3.2 Ableitungsregeln. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 1.3.3 Zweite und höhere Ableitungen. . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.3.4 Formelsammlung – Ableitungen. . . . . . . . . . . . . . . . . . . . . . . . . 33 1.4 Integrale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 1.4.1 Motivation und grundlegende Regeln. . . . . . . . . . . . . . . . . . . . . 34 1.4.2 Rechenregeln für Integration. . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 1.4.3 Anwendung in der Physik: Trennung der Variablen zum Lösen von Differentialgleichungen erster Ordnung. . . . . . . 79 1.4.4 Formelsammlung Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 1.5 Komplexe Zahlen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 1.5.1 Motivation und Grundregeln. . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 1.5.2 Die Euler-Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 1.5.3 Funktionen mit komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 97 1.5.4 Formelsammlung – komplexe Zahlen. . . . . . . . . . . . . . . . . . . . . 101 1.6 Vektoren in der analytischen Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . 102 1.6.1 Grundbegriffe und Grundregeln . . . . . . . . . . . . . . . . . . . . . . . . . 102 1.6.2 Skalarprodukte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 1.6.3 Kreuzprodukte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 1.6.4 Zylinder-, Kugel- und Polarkoordinaten. . . . . . . . . . . . . . . . . . . 118 1.6.5 Formelsammlung – Vektoren in analytischer Geometrie. . . . . . . 126
2
Erste neue und grundlegende Konzepte. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 2.1 Hyperbolische Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 VII
VIII
Inhaltsverzeichnis
2.2
2.3
2.4
2.5
2.6
3
2.1.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 2.1.2 Die Umkehrfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 2.1.3 Das anschauliche Verständnis der hyperbolischen Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 2.1.4 Formelsammlung – hyperbolische Funktionen. . . . . . . . . . . . . . 144 Induktive Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 2.2.1 Das allgemeine Verfahren der vollständigen Induktion. . . . . . . . 145 2.2.2 Einige weitere Beispiele zur vollständigen Induktion. . . . . . . . . 147 2.2.3 Induktive Beweise – Formelsammlung. . . . . . . . . . . . . . . . . . . . 158 Die Gamma-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 2.3.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 2.3.2 Die Stirling-Formel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 2.3.3 Formelsammlung – Gamma-Funktion. . . . . . . . . . . . . . . . . . . . . 163 Die Indexschreibweise. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 2.4.1 Die Einstein’sche Summenkonvention . . . . . . . . . . . . . . . . . . . . 164 2.4.2 Das Kronecker-Delta. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 2.4.3 Das Levi-Civita-Symbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168 2.4.4 Formelsammlung – Indexschreibweise. . . . . . . . . . . . . . . . . . . . 173 Dirac-Delta- und Heaviside-Theta-Funktion. . . . . . . . . . . . . . . . . . . . . . 174 2.5.1 Definition und Motivation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 2.5.2 Regeln zum Umgang mit der Dirac-Delta- und Heaviside-Theta-Funktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178 2.5.3 Dirac-Delta- und Heaviside-Theta-Funktion – Formelsammlung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 Lösen von Differentialgleichungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 2.6.1 Variation der Konstanten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 2.6.2 Lineare Differentialgleichungen mit konstanten Koeffizienten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 2.6.3 Grundlegende Aspekte von Green’schen Funktionen. . . . . . . . . 195 2.6.4 Vereinfachen von Differentialgleichungen durch asymptotisches Verhalten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202 2.6.5 Lösen von Differentialgleichungen – Formelsammlung. . . . . . . 208
Der allgemeine Vektorbegriff im mathematischen Sinne. . . . . . . . . . . . . . . 211 3.1 N -dimensionale reelle Vektoren im RN . . . . . . . . . . . . . . . . . . . . . . . . . . 212 3.2 N -dimensionale komplexe Vektoren im CN . . . . . . . . . . . . . . . . . . . . . . . 216 3.3 Der allgemeine Vektorbegriff – Begriffe und Definition. . . . . . . . . . . . . 220 3.3.1 Der Vektorraum. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 3.3.2 Normen auf Vektorräumen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 3.3.3 Skalarprodukte auf Vektorräumen. . . . . . . . . . . . . . . . . . . . . . . . 224 3.3.4 Gram-Schmidt-Verfahren, Operatoren und der duale Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Inhaltsverzeichnis
3.4
3.5
IX
Beispiele zu allgemeinen Vektorräumen. . . . . . . . . . . . . . . . . . . . . . . . . 236 3.4.1 Raum der quadratintegrablen Funktionen auf dem Intervall [−1, 1] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 3.4.2 Raum der quadratintegrablen Funktionen auf dem Intervall (−∞, ∞). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244 Formelsammlung – Verallgemeinerung des Vektorbegriffs im mathematischen Sinne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
4 Reihenentwicklungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249 4.1 Die Taylor-Entwicklung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 4.1.1 Motivation und Definition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 4.1.2 Konvergenz der Taylor-Reihe . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 4.1.3 Wichtige Taylor-Reihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254 4.1.4 Verkettete Taylor-Reihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 4.1.5 Taylor-Reihe in führender Ordnung. . . . . . . . . . . . . . . . . . . . . . . 262 4.1.6 Der Potenzreihenansatz zum Lösen von Differentialgleichungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 266 4.2 Die Laurent-Reihe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 4.2.1 Definition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274 4.2.2 Einige Beispiele. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 4.3 Die Fourier-Reihe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 4.3.1 Motivation und Definition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278 4.3.2 Komplexwertige Fourier-Reihen. . . . . . . . . . . . . . . . . . . . . . . . . 283 4.3.3 Eigenschaften der Entwicklungskoeffizienten. . . . . . . . . . . . . . . 285 4.3.4 Beispiele für Fourier-Reihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 289 4.3.5 Lösen inhomogener, linearer Differentialgleichungen . . . . . . . . 291 4.4 Legendre-Polynome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 4.4.1 Motivation und definierende Eigenschaften . . . . . . . . . . . . . . . . 295 4.4.2 Orthogonalität der Legendre-Polynome . . . . . . . . . . . . . . . . . . . 305 4.4.3 Entwicklung in Legendre-Polynomen. . . . . . . . . . . . . . . . . . . . . 306 4.5 Kugelflächenfunktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 4.5.1 Motivation und Definition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308 4.5.2 Anschauliches Verständnis und reelle Kugelflächenfunktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 4.5.3 Entwicklung in Kugelflächenfunktionen und Eigenschaften der Kugelflächenfunktionen. . . . . . . . . . . . . . . . . 320 4.6 Formelsammlung – Reihenentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . 324 5
Komplexe Integrale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 5.1 Komplexe Funktionen und Begrifflichkeiten. . . . . . . . . . . . . . . . . . . . . . 332 5.2 Komplexe Linienintegrale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 5.3 Die Cauchy’sche Integralformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 5.4 Der Residuensatz. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340
X
Inhaltsverzeichnis
5.5
5.4.1 Motivation und Herleitung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 340 5.4.2 Bestimmen der Residuen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343 5.4.3 Das Lemma von Jordan. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 345 Formelsammlung – komplexe Integrale. . . . . . . . . . . . . . . . . . . . . . . . . . 349
6 Fourier-Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 6.1 Einführung der Fourier-Transformation. . . . . . . . . . . . . . . . . . . . . . . . . . 351 6.2 Konventionen und Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353 6.3 Übertragung auf Ortskoordinaten und höhere Dimensionen. . . . . . . . . . 357 6.4 Beispiele für Fourier-Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . 359 6.5 Lösen von inhomogenen Differentialgleichungen. . . . . . . . . . . . . . . . . . 367 6.6 Formelsammlung – Fourier-Transformation. . . . . . . . . . . . . . . . . . . . . . 371 7 Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 7.1 Definitionen und Rechenregeln. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 7.1.1 Motivation der Matrixform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374 7.1.2 Praktische Rechenregeln. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378 7.2 Mathematische Strukturen mit Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . 414 7.2.1 Funktionen von Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414 7.2.2 Gruppen von Matrizen und Darstellungen von Gruppen. . . . . . . 425 7.2.3 Lie-Gruppen und Lie-Algebren. . . . . . . . . . . . . . . . . . . . . . . . . . 429 7.3 Einige spezielle Matrizengruppen und ihre Algebren. . . . . . . . . . . . . . . 437 7.3.1 Die Gruppe der Drehmatrizen SO(3). . . . . . . . . . . . . . . . . . . . . . 437 7.3.2 Die Gruppe der komplexen Drehmatrizen SU(n) . . . . . . . . . . . . 443 7.4 Formelsammlung – Matrizen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 8 Vektoranalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 461 8.1 Skalar- und Vektorfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 8.1.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 462 8.2 Ableitung von Feldern. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 8.3 Integrale von Feldern. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 468 8.3.1 Wegintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 469 8.3.2 Flächenintegrale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 8.3.3 Volumenintegrale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483 8.3.4 Das Keilprodukt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486 8.3.5 Krummlinige Koordinatensysteme und die Jacobi-Matrix. . . . . 490 8.3.6 Dirac-Delta in Volumenintegralen. . . . . . . . . . . . . . . . . . . . . . . . 499 8.4 Differentiale von Funktionen und Feldern. . . . . . . . . . . . . . . . . . . . . . . . 502 8.4.1 Geometrische Interpretation eines Differentials einer Funktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 502 8.4.2 Die Legendre-Transformation. . . . . . . . . . . . . . . . . . . . . . . . . . . 506 8.5 Differentialoperatoren Gradient, Rotation und Divergenz. . . . . . . . . . . . 509 8.5.1 Motivation und Definition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509
Inhaltsverzeichnis
XI
8.5.2 Zweite Ableitungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 515 8.5.3 Produkt- und andere Rechenregeln. . . . . . . . . . . . . . . . . . . . . . . 515 8.5.4 In krummlinigen Koordinaten. . . . . . . . . . . . . . . . . . . . . . . . . . . 519 8.6 Integralsätze. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534 8.6.1 Einleitung und Motivation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534 8.6.2 Der Satz von Gauß. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535 8.6.3 Der Satz von Stokes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 8.6.4 Der Gradientensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 539 8.6.5 Der Satz vom wandernden d. . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 8.6.6 Folgerungen aus den Integralsätzen. . . . . . . . . . . . . . . . . . . . . . . 541 8.6.7 Verallgemeinerung in der flachen Raumzeit. . . . . . . . . . . . . . . . 543 8.6.8 Die Green’schen Integralsätze. . . . . . . . . . . . . . . . . . . . . . . . . . . 544 8.6.9 Der Helmholtz’sche Zerlegungssatz . . . . . . . . . . . . . . . . . . . . . . 545 8.7 Formelsammlung – Vektoranalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 551 9 Variationsrechnung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 557 9.1 Funktionale und ihre Extrema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 558 9.1.1 Die Euler-Lagrange-Gleichung. . . . . . . . . . . . . . . . . . . . . . . . . . 558 9.1.2 Erhaltungsgrößen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 561 9.1.3 Variation unter Nebenbedingungen. . . . . . . . . . . . . . . . . . . . . . . 562 9.2 Klassische Beispiele zur Variationsrechnung. . . . . . . . . . . . . . . . . . . . . . 563 9.2.1 Analytische Mechanik. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 563 9.2.2 Lichtbrechung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 566 9.2.3 Schnellster Weg im Schwerefeld. . . . . . . . . . . . . . . . . . . . . . . . . 570 9.2.4 Durchhängen einer Kette. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 573 9.2.5 Geodätengleichung auf Oberflächen. . . . . . . . . . . . . . . . . . . . . . 576 9.3 Nicht klassische Beispiele zur Variationsrechnung. . . . . . . . . . . . . . . . . 578 9.3.1 Relativistische Verallgemeinerung des Lagrange-Formalismus und Feldtheorie. . . . . . . . . . . . . . . . . . . 578 9.3.2 Geodätengleichung auf allgemeinen Oberflächen. . . . . . . . . . . . 582 9.4 Formelsammlung - Variationsrechnung. . . . . . . . . . . . . . . . . . . . . . . . . . 586 10 Vektoren und Tensoren im physikalischen Sinne . . . . . . . . . . . . . . . . . . . . . 589 10.1 Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 589 10.1.1 Arten von Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 591 10.2 Skalare, Vektoren und Tensoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 594 10.2.1 Skalare. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595 10.2.2 Vektoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 597 10.2.3 Kovariante, kontravariante und duale Objekte. . . . . . . . . . . . . . . 598 10.2.4 Tensoren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 10.2.5 Kovariante Ableitungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603
XII
Inhaltsverzeichnis
10.3 Einige physikalische Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . 608 10.3.1 Drehungen um feste Winkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 608 10.3.2 Translationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612 10.3.3 Isometrische Gruppe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614 10.3.4 Galilei-Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 616 10.3.5 Lorentz-Transformationen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 619 10.3.6 Raumspiegelung, Zeit- und Ladungsumkehr. . . . . . . . . . . . . . . . 631 10.4 Formelsammlung – Vektoren und Tensoren im physikalischen Sinne. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 636 11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften . . . . . . 641 11.1 Monome, Polynome und gebrochen rationale Funktionen . . . . . . . . . . . 641 11.1.1 Monome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 642 11.1.2 Polynome. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643 11.1.3 Gebrochen rationale Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . 644 11.2 Exponentialfunktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646 11.3 Logarithmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 648 11.4 Trigonometrische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 11.5 Hyperbolische Funktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 653 11.6 Theta-Funktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 656 11.7 Dirac-Delta-Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658 11.8 Gamma-Funktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 661 Weiterführende Literatur. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665
Abbildungsverzeichnis
Abb. 1.1 Abb. 1.2 Abb. 1.3 Abb. 1.4 Abb. 1.5 Abb. 1.6 Abb. 1.7 Abb. 1.8 Abb. 1.9 Abb. 1.10 Abb. 1.11 Abb. 1.12 Abb. 1.13 Abb. 2.1 Abb. 2.2 Abb. 2.3 Abb. 2.4 Abb. 4.1
Abb. 4.2 Abb. 4.3 Abb. 4.4
Grafische Veranschaulichung zu den definierenden Eigenschaften einer Funktion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Grafische Veranschaulichung zu den Eigenschaften Surjektivität, Injektivität und Bijektivität. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Steigungsdreieck der Sekante einer Funktion. . . . . . . . . . . . . . . . . . . . 14 Einheitskreis für kleine Winkel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Veranschaulichung der endlichen Summen zur Flächenermittlung. . . 35 Veranschaulichung zur Fläche unter der Funktion f (x) = x. . . . . . . . 38 Veranschaulichung zu den Flächen bei geraden und ungeraden Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 Veranschaulichung zu den Darstellungen einer komplexen Zahl. . . . . 93 Veranschaulichung zu reellen Potenzen von komplexen Zahlen . . . . . 98 Veranschaulichung zur Vektoraddition und -subtraktion . . . . . . . . . . . 106 Veranschaulichung zur Multiplikation eines Vektors mit einer Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Veranschaulichung zur Interpretation des Skalarprodukts. . . . . . . . . . 108 Veranschaulichung zur Flächenbestimmung eines Parallelogramms. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Funktionsgraphen der hyperbolischen Funktionen. . . . . . . . . . . . . . . . 134 Funktionsgraphen der inversen hyperbolischen Funktionen. . . . . . . . . 140 Geometrische Interpretation der trigonometrischen Funktionen . . . . . 141 Geometrische Interpretation der hyperbolischen Funktionen. . . . . . . . 142 Schematische Darstellung der Annäherung einer Taylor-Reihe für die Beispielfunktion f (x) = sin(x). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253 Grafische Darstellung der ersten sechs Legendre-Polynome. . . . . . . . 305 Grafische Darstellung der komplexwertigen Kugelflächenfunktionen auf der Kugeloberfläche . . . . . . . . . . . . . . . . 317 Grafische Darstellung der reellwertigen Kugelflächenfunktionen auf der Kugeloberfläche . . . . . . . . . . . . . . . . 318 XIII
XIV
Abb. 4.5 Abb. 4.6 Abb. 5.1 Abb. 5.2 Abb. 5.3 Abb. 6.1 Abb. 8.1 Abb. 8.2 Abb. 8.3 Abb. 8.4 Abb. 8.5 Abb. 9.1 Abb. 9.2 Abb. 9.3 Abb. 9.4 Abb. 9.5 Abb. 10.1 Abb. 10.2 Abb. 11.1 Abb. 11.2 Abb. 11.3 Abb. 11.4 Abb. 11.5 Abb. 11.6 Abb. 11.7 Abb. 11.8 Abb. 11.9 Abb. 11.10 Abb. 11.11 Abb. 11.12 Abb. 11.13
Abbildungsverzeichnis
Grafische Darstellung der komplexwertigen Kugelflächenfunktionen als Radius . . . . . . . . . . . . . . . . . . . . . . . . . . . 319 Grafische Darstellung der reellwertigen Kugelflächenfunktionen als Radius . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320 Illustration der komplexen Funktion. . . . . . . . . . . . . . . . . . . . . . . . . . 333 Illustration zu verschiedenen Kategorien komplexer Gebiete . . . . . . . 334 Zerlegung eines Weges, der zwei Polstellen einschließt. . . . . . . . . . . . 341 Die beiden möglichen Integrationswege bei der Fourier-Transformation der Cauchy-Verteilung. . . . . . . . . . . . . . . . . . 363 Bildliche Veranschaulichung eines Skalarfeldes. . . . . . . . . . . . . . . . . . 464 Bildliche Veranschaulichung von Vektorfeldern. . . . . . . . . . . . . . . . . . 464 Beispiel zum Satz von Gauß. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 Schematische Darstellunge der Wirkung der Vektoroperationen. . . . . 513 Skizze der Integrationswege zur Motivation vom Satz von Stokes . . . 539 Darstellung der Variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 559 Darstellung des Doppelpendels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565 Darstellung des Lichtweges . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 567 Darstellung einer Zykloide. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 572 Illustration einer durchhängenden Kette. . . . . . . . . . . . . . . . . . . . . . . . 573 Darstellung einer aktiven Translation. . . . . . . . . . . . . . . . . . . . . . . . . . 592 Darstellung einer aktiven Rotation. . . . . . . . . . . . . . . . . . . . . . . . . . . . 593 Die drei wichtigsten, nicht trivialen Monome . . . . . . . . . . . . . . . . . . . 642 Verschiedene Beispiele zu gebrochen rationalen Funktionen. . . . . . . . 646 Skizze von Exponentialfunktionen. . . . . . . . . . . . . . . . . . . . . . . . . . . . 647 Skizzen von Logarithmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 649 Geometrische Interpretation der trigonometrischen Funktionen . . . . . 650 Funktionsgraphen der trigonometrischen Funktionen . . . . . . . . . . . . . 651 Funktionsgraphen der inversen trigonometrischen Funktionen. . . . . . 652 Geometrische Interpretation der hyperbolischen Funktionen. . . . . . . . 653 Funktionsgraphen der hyperbolischen Funktionen. . . . . . . . . . . . . . . . 654 Funktionsgraphen der inversen hyperbolischen Funktionen. . . . . . . . . 655 Funktionsgraphen der Theta-Funktion. . . . . . . . . . . . . . . . . . . . . . . . . 656 Darstellungen der Dirac-Delta-Funktion über Funktionenfolgen. . . . . 660 Funktionsgraph der Gamma-Funktion. . . . . . . . . . . . . . . . . . . . . . . . . 662
1
Einführung und Wiederholung
Inhaltsverzeichnis 1.1 1.2
1.3
1.4
1.5
1.6
Nötige Vorkenntnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2 Formelsammlung – Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.1 Motivation und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2 Ableitungsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.3 Zweite und höhere Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.4 Formelsammlung – Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Integrale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.1 Motivation und grundlegende Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.2 Rechenregeln für Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.3 Anwendung in der Physik: Trennung der Variablen zum Lösen von Differentialgleichungen erster Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4.4 Formelsammlung Integrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.1 Motivation und Grundregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.2 Die Euler-Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.3 Funktionen mit komplexen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5.4 Formelsammlung – komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vektoren in der analytischen Geometrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Grundbegriffe und Grundregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Skalarprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.3 Kreuzprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.4 Zylinder-, Kugel- und Polarkoordinaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.5 Formelsammlung – Vektoren in analytischer Geometrie . . . . . . . . . . . . . . . . . . . . .
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_1
2 5 6 12 13 13 20 26 33 34 34 51 79 85 88 89 93 97 101 102 102 105 114 118 126
1
2
1 Einführung und Wiederholung
In diesem Kapitel sollen einige mathematische Begriffe, die aus der Schule bekannt sein sollten, wiederholt und vertieft werden. Die Herangehensweise an dieses Kapitel sollte nicht sein, jede einzelne Seite aufs Genauste durchzulesen und durchzuarbeiten, sondern eher dieses Kapitel zu überfliegen und an Stellen, die ungewohnt erscheinen, vertieft auf die Thematiken einzugehen. Am Ende fast jedes Unterabschnitts befindet sich eine kleine Formelsammlung zu dem jeweiligen Thema. Sind dabei einige Formeln unklar, kann es sich lohnen, die entsprechende Stelle in den einzelnen Unterabschnitten noch einmal anzusehen.
1.1
Nötige Vorkenntnisse
Es werden Vorkenntnisse in algebraischer Umformung vorausgesetzt sowie die Kenntnis des griechischen Alphabets, Tab. 1.1. Die wichtigsten Regeln, die in diesem Kapitel Anwendung finden, sind: • Die binomischen Formeln (a + b)2 = a 2 + 2ab + b2 (a − b)2 = a 2 − 2ab + b2 (a + b)(a − b) = a 2 − b2 • Das Summenzeichen n
f (xi ) = f (x1 ) + f (x2 ) + f (x3 ) + · · · + f (xn )
i=1
• Das Produktzeichen n
f (xi ) = f (x1 ) · f (x2 ) · f (x3 ) · · · · · f (xn )
i=1
Tab. 1.1 Griechisches Alphabet A, α
Alpha
H, η
Eta
N, ν
Ny
T, τ
B, β
Beta
, θ , ϑ
Theta
, ξ
Xi
ϒ, υ
Ypsilon
, γ
Gamma
I, ι
Jota
O, o
Omikron
, φ, ϕ
Phi
Tau
, δ
Delta
K, κ
Kappa
, π
Pi
X, χ
Chi
E, , ε
Epsilon
, λ
Lambda
P, ρ
Rho
, ψ
Psi
Z, ζ
Zeta
M, μ
My
", σ
Sigma
$, ω
Omega
1.1
Nötige Vorkenntnisse
3
• Das Ordnungszeichen
O(x n ) ist eine Summe aus Termen der Form x m für m ≥ n, die vernachlässigt werden können, wenn |x| viel kleiner als eins, |x| 1 ist. • Bezeichnungen für mathematische Mengen – natürliche Zahlen N = {1, 2, 3, 4, . . . } – natürliche Zahlen inklusive Null N0 = {0, 1, 2, 3, 4, . . . } – ganze Zahlen Z = {. . . , −2, −1, 0, 1, 2, . . . } – rationale Zahlen Q – reelle Zahlen R – positive reelle Zahlen R+ – nicht negative reelle Zahlen R+ 0 • Einige mathematische Symbole – ≡ als Definitionszeichen. – Der Allquantor ∀x∈A , der besagt, dass für alle angegebenen Elemente x, die in der Menge A liegen, die darauffolgende Aussage gültig ist. – Der Existenzquantor ∃ y∈B , der besagt, dass die angegebenen Elemente y in der Menge B vorhanden sind, also existieren. – Der Abbildungspfeil →, der anzeigt, dass es eine Abbildung zwischen der vorangegangenen auf die danach folgende Menge gibt. – Der Zuordnungspfeil →, der einem Element ein anderes zuordnet. x→x0 – Der Grenzwertpfeil → bzw. das Limes-Symbol lim , die beide einen Grenzwert x→x0
angeben, für den Fall, dass sich x dem Wert x0 annähert. • Der binomische Lehrsatz für n ∈ N n n k n−k a b (a + b)n = k k=0
Und damit verbunden der Binomialkoeffizient und die Fakultät n! n = n! = n(n − 1)(n − 2) · · · 2 · 1 k k!(n − k)! • Das Pascal’sche Dreieck 1 1 1 ... 1
1 n
1 2
3
1 3
n ··· ··· k
1 n
... 1
4
1 Einführung und Wiederholung
• Addition von Binomialkoeffizienten am Pascal’schen Dreieck n n n+1 + = k−1 k k • Die Gauß’sche Summenformel n
k=
k=1
n (n + 1) 2
• Erweitern von Brüchen c ad bc ad + bc a + = + = b d bd bd bd • Das Ziehen von Wurzeln
x 2 = |x|
• Grenzwerte. Dafür seien an und bn Folgen, deren Grenzwerte a und b existieren an bn → ab
an a → bn b
• Die Lösungen von quadratischen Gleichungen in Form der pq-Formel und der abcFormel p 2 p 2 −q x + px + q = 0 ⇒ x1/2 = − ± 2 2 √ −b ± b2 − 4ac ax 2 + bx + c = 0 ⇒ x1/2 = 2a • Potenzgesetze 1 a −n = n a n · a −m = a n−m a n · a m = a n+m a
n
n m √ 1 = a n·m = a m (a · b)n = a n · bn an = n a a a0 = 1 • Logarithmengesetze
(a = 0)
01 = 0
1.2
Funktionen
5
a loga(x) = x loga a x = x
1 loga x n = n loga (x) = − loga (x) loga x loga (x · y) = loga (x) + loga (y) x loga = loga (x) − loga (y) y loga (x) = logb (x) loge (x) = ln(x) loga (b) • Das Gauß’sche Integral, das aber auch in Abschn. 8.4 noch einmal hergeleitet wird ∞
dx e−ax =
2
−∞
π a
• Trigonometrische Additionstheoreme sin(α ± β) = sin(α) cos(β) ± sin(β) cos(α) cos(α ± β) = cos(α) cos(β) ∓ sin(α) cos(β) Einige hilfreiche Zahlenwerte von mathematischen Größen sind • • • • • • •
die Kreiszahl Pi π ≈ 3,14, die Euler’sche Zahl e ≈ 2,72, der natürliche Logarithmus von zwei ln(2) ≈ 0,69, √ die Wurzel von zwei√ 2 ≈ 1,41, die Wurzel von drei 3 ≈ 1,73, √ die Wurzel von Pi π ≈ 1,77, das Quadrat1 von Pi π 2 ≈ 9,87.
1.2
Funktionen
In diesem ersten Abschnitt soll das Thema Funktionen wiederholt werden. Die Untersuchung von bestimmten Funktionen bedarf der Kenntnisse, die im Rest des Kapitels und anderen Kapiteln erarbeitet werden. Aus diesem Grunde findet sich im Kap. 11 eine Sammlung der wichtigsten Funktionen für die Physik. Es soll hier mehr das Augenmerk darauf gelenkt
1 Die Nähe zum Zahlenwert der Erdbeschleunigung g = 9,81 m ist kein Zufall, da in einer früheren s2
Definition der Meter über von 2 s definiert wurde. Über den
eine Pendeluhr mit einer Periodendauer 2 g 2 ·l 2 = ergibt sich dann g = π als Erdbeschleunigung. Zusammenhang 2π T l T
6
1 Einführung und Wiederholung
werden, was Funktionen fundamental sind und wie mit ihnen praktisch umgegangen werden kann.
1.2.1
Definition und Eigenschaften
Eine Abbildung f f :D→B ordnet Elementen aus der Menge D Elemente der Menge B zu. Ein Beispiel für solch eine Abbildung wäre eine Abbildung aus den natürlichen Zahlen in die natürlichen Zahlen, die jeder Zahl ihr Quadrat zuordnet. Dies wird mit der Notation f :N→N n → n 2 deutlich gemacht. Damit ergäbe sich dann beispielsweise Tab. 1.2. Dabei werden D als der Definitionsbereich der Abbildung und B als der Bildbereich bezeichnet. Damit eine Abbildung als Funktion bezeichnet wird, müssen zwei Eigenschaften erfüllt sein. 1. Jedem Element aus dem Definitionsbereich muss mindestens ein Element im Bildbereich zugeordnet werden. Dies wird als linksvollständig oder linkstotal bezeichnet. In der Notation f : D → B ist die „linke“ Menge vollständig durch f abgedeckt, siehe hierzu Abb. 1.1a. Wird hingegen eine Abbildung von den reellen Zahlen R in die reellen Zahlen R betrachtet, mit der Abbildungsvorschrift x1 , so kann es sich um keine Funktion handeln, denn für x = 0 existiert kein Element im Bildbereich. Die Eigenschaft der Linksvollständigkeit wird mathematisch durch
Tab. 1.2 Beispiel einer Abbildungstabelle n
n2
1
1
2
4
3
9
4 .. .
16 .. .
1.2
Funktionen
7
Abb. 1.1 Grafische Veranschaulichung zu den definierenden Eigenschaften einer Funktion. In a ist die Linksvollständigkeit zu sehen, bei der für jedes Element der linken Menge mindestens ein Pfeil existiert. In b ist die Rechtseindeutigkeit zu sehen, bei der es zu jedem Element aus D höchstens einen Pfeil nach rechts gibt. Die Kombination davon ist in c zu sehen, wo es für jedes Element in D genau einen Pfeil gibt
∀x∈D ∃ y∈B f (x) = y
(1.1)
notiert. Dies ist zu lesen als: „Für alle Elemente x im Definitionsbereich D existiert mindestens ein Element y aus dem Bildbereich B, sodass f (x) = y ist.“ 2. Jedem Element aus dem Definitionsbereich darf höchstens ein Element aus dem Bildbereich zugeordnet werden. Diese Eigenschaft wird als rechtseindeutig bezeichnet. In Abb. 1.1b geht von jedem Element aus D höchstens ein Pfeil nach rechts. Eine Abbildung von der Menge {0, 1} in die Menge {0, 1} mit der Vorschrift 1 → 0 und √ 1 → 1 kann demnach keine Funktion sein. Ebenso ist ± x auch keine Funktion. Die Eigenschaft der Rechtseindeutigkeit wird mathematisch durch ∀x∈D ∀ y1 ,y2 ∈B ( f (x) = y1 ∧ f (x) = y2 ) ⇒ (y1 = y2 )
(1.2)
notiert. Dies ist zu lesen als: „Für alle Elemente x im Definitionsbereich D und alle Elemente y1 und y2 aus dem Bildbereich B gilt die logische Folgerung: Wenn f (x) = y1 und f (x) = y2 ist, so müssen y1 und y2 identisch sein“. Es gibt zu jedem x also höchstens ein Element aus B. Da eine Funktion beide Eigenschaften erfüllen muss, heißt dass im Kontext von Abb. 1.1c, dass von jedem Element der linken Menge genau ein Pfeil ausgeht. Typischerweise werden in der Physik Funktionen betrachtet, die auf den reellen Zahlen R oder einem Intervall I = [a, b] der reellen Zahlen definiert sind. Zu solchen Funktionen lassen sich stets Funktionsgraphen zeichnen. Dazu wird auf der horizontalen Achse der Definitionsbereich aufgetragen, während auf der vertikalen Achse die Funktionswerte zu jedem Element des Definitionsbereichs aufgetragen werden. Da die Elemente aus dem Definitionsbereich meist mit x und die Elemente aus dem Bildbereich meist mit y betitelt
8
1 Einführung und Wiederholung
werden, werden die horizontale und vertikale Achse auch als x- und y-Achse bezeichnet. Diese Auftragungen sind häufig ein Mittel, um Funktionen anschaulich darzustellen. Ist der Funktionsgraph einer Funktion f (x) bekannt, so lassen sich einige weitere Funktionsgraphen bestimmen:2 • Der Funktionsgraph von f (x) + a für ein festes a ∈ R lässt sich bestimmen, indem der gesamte Funktionsgraph um a entlang der vertikalen Achse nach oben verschoben wird. • Der Funktionsgraph von f (x − a) für ein festes a ∈ R lässt sich bestimmen, indem der Funktionsgraph um den Wert a entlang der horizontalen Achse nach rechts verschoben wird. Dies liegt daran, dass das Argument erst den Wert null annimmt, wenn x den Wert a annimmt. Damit muss der Wert f (0) über x = a aufgetragen werden. Der Graph wurde also nach rechts verschoben. • Der Funktionsgraph von a · f (x) für ein festes a ∈ R lässt sich bestimmen, indem der Funktionsgraph entlang der vertikalen Achse gestreckt und gestaucht wird. Eine Stauchung liegt vor, wenn |a| < 1 ist. Ist |a| > 1 wird der Funktionsgraph gestreckt. Für ein negatives a wird der Funktionsgraph zusätzlich zur Streckung und Stauchung an der horizontalen Achse gespiegelt. • Der Funktionsgraph von f (a · x) für ein festes a ∈ R lässt sich bestimmen, indem der Funktionsgraph entlang der horizontalen Achse gestreckt und gestaucht wird. Eine Stauchung liegt vor, wenn |a| > 1 ist. Dies liegt daran, dass das Argument wesentlich schneller größere Werte erreicht als x. Damit treten die Teile des Graphen, die weiter rechts liegen sollten, schon viel früher auf. Ist |a| < 1 wird der Funktionsgraph gestreckt. Für ein negatives a wird der Funktionsgraph zusätzlich zur Streckung und Stauchung an der vertikalen Achse gespiegelt. Es gibt einige weitere Eigenschaften von Funktionen, die sich nun auch anschaulich mit Funktionsgraphen verstehen lassen. 1. Eine Funktion wird als surjektiv bezeichnet, wenn durch die Funktion jedem Element im Bildbereich ein Element aus dem Definitionsbereich zugeordnet werden kann. Es kommt dabei also auf die konkrete Einschränkung des Bildbereichs ein. Die Funktion f :R→R x → x 2 ist nicht surjektiv, denn für die Zahl −1 aus dem Bildbereich gibt es kein x ∈ R, sodass x 2 = −1 ist. Die etwas abgewandelte Funktion g : R → R+ 0 x → x 2 2 Für die Anschaulichkeit sollten die Verschiebungen a als positive Zahlen aufgefasst werden.
1.2
Funktionen
9
Abb. 1.2 Grafische Veranschaulichung zu den Eigenschaften Surjektivität, Injektivität und Bijektivität. In a ist die Surjektivität (Rechtsvollständigkeit) zu sehen, bei der für jedes Element der rechten Menge mindestens ein Pfeil existiert. In b ist die Injektivität (Linkseindeutigkeit) zu sehen, bei der es zu jedem Element aus B höchstens einen Pfeil nach links gibt. Die Kombination davon, also die Bijektivität, ist in c zu sehen, wo es für jedes Element in B genau einen Pfeil gibt
ist eine surjektive Funktion. Die Eigenschaft surjektiv wird auch als rechtsvollständig bezeichnet. Mit Abb. 1.2a lässt sich dies so verstehen, dass jedes Element in der rechten Menge von einem Pfeil von f getroffen wird. Die Eigenschaft der Surjektivität wird mathematisch durch ∀ y∈B ∃x∈D f (x) = y
(1.3)
notiert. Dies ist zu lesen als: „Für alle Elemente y im Bildbereich B existiert mindestens ein Element x aus dem Definitionsbereich B, sodass f (x) = y ist.“ 2. Eine Funktion wird als injektiv bezeichnet, wenn durch die Funktion jedem Element im Bildbereich höchstens ein Element aus dem Definitionsbereich zugeordnet werden kann. Die Funktion, die zuvor betrachtet wurde, g : R → R+ 0 x → x 2 ist somit eine nicht injektive Funktion. Dem Element 4 aus dem Bildbereich können nämlich die beiden Elemente 2 und −2 zugeordnet werden. Die etwas abgewandelte Funktion h : R+ → R x → x 2 ist eine injektive Funktion, die aber nicht surjektiv ist.
10
1 Einführung und Wiederholung
Die Eigenschaft injektiv wird auch als linkseindeutig oder linkstotal bezeichnet. Mit Abb. 1.2b lässt sich dies so verstehen, dass es für jedes Element der rechten Menge nur einen Pfeil gibt, der von links kommt. Die Eigenschaft injektiv kann an einem Funktionsgraphen schnell überprüft werden. Kann eine horizontale Gerade an einem beliebigen Punkt eingezogen werden ohne den Funktionsgraphen zweimal zu schneiden, so ist die Funktion injektiv. Die Eigenschaft der Injektivität wird mathematisch durch ∀x1 ,x2 ∈D ( f (x1 ) = f (x2 )) ⇒ (x1 = x2 )
(1.4)
notiert. Dies ist zu lesen als: „Für alle Elemente x1 und x2 im Definitionsbereich D gilt die logische Folgerung: Wenn f (x1 ) = f (x2 ) ist, so müssen x1 und x2 identisch sein“. Es gibt zu jedem y im Bildbereich B also höchstens ein Element aus D. 3. Eine Funktion heißt bijektiv, wenn sie zugleich injektiv und surjektiv ist. Im Sinne von Abb. 1.2c wird jedes Element in Definitions- und Bildbereich von genau einem Pfeil getroffen. Besonders fällt hierbei auf, dass auch jedem Element des Bildbereichs nun Elemente des Definitionsbereichs zugeordnet werden können, sodass – allen Elementen des Bildbereichs mindestens ein Element des Definitionsbereichs zugeordnet werden kann (das kommt aus der Surjektivität) – allen Elementen des Bildbereichs höchstens ein Element des Definitionsbereichs zugeordnet werden kann (das kommt aus der Injektivität). Damit lässt sich dann eine Abbildung f −1 : B → D definieren, die eine Funktion ist. Es kann somit eine Umkehrfunktion zu f gefunden werden, sodass für ein beliebiges x ∈ D gilt f −1 ( f (x)) = x
(1.5)
f ( f −1 (y)) = y.
(1.6)
und für ein beliebiges y ∈ B gilt
Typische Beispiele für Funktionen und Umkehrfunktionen sind f : R → R+ x → ex und
1.2
Funktionen
11
f −1 : R+ → R y → ln(y) die Exponentialfunktion und der Logarithmus. Anschaulich lässt sich der Graph einer Umkehrfunktion finden, indem der Funktionsgraph an der Winkelhalbierenden h(x) = x gespiegelt wird. 4. Eine besondere Klasse von Funktionen, die in der Physik auftauchen, sind die stetigen Funktionen. Nahezu alle in der Physik betrachteten Funktionen sind stetig. Es gibt eine mathematisch saubere Formulierung für Stetigkeit, die als das δ-Kriterium bezeichnet wird. Ein praktischer Begriff von Stetigkeit ist dahingegen, ob die Bildung von Grenzwerten mit der Anwendung der Funktion vertauscht werden kann, also ob lim f (x) = f lim x = f (x0 ) (1.7) x→x0
x→x0
gültig ist. Anschaulich ist eine Funktion dann stetig, wenn ihr Funktionsgraph gezeichnet werden kann, ohne dass dabei der Stift an einer Stelle abgesetzt oder ins Unendliche bewegt werden muss. 5. Zuletzt sollen noch die Eigenschaften gerade und ungerade betrachtet werden. Gerade Funktionen sind jene, für die gilt f g (−x) = f g (x),
(1.8)
f u (−x) = − f u (x)
(1.9)
während für ungerade Funktionen
gilt.3 Bei geraden Funktionen ändert ein Vorzeichen im Argument also nichts, während es bei ungeraden Funktionen aus der Funktion herausgezogen werden kann. Bildlich sind gerade Funktionen jene, die an der Vertikalen gespiegelt erscheinen, wie beispielsweise x 2 oder cos(x). Ungerade Funktionen sind hingegen jene, die durch eine Punktspiegelung im Ursprung unverändert bleiben, wie beispielsweise x oder sin(x). Eine Funktion f (x) lässt sich als Summe dieser beiden Anteile f (x) = f g (x) + f u (x) schreiben. Wird das Argument nun durch −x ersetzt, lassen sich die Eigenschaften ausnutzen, und es ergibt sich 3 In der Physik ist auch der Ausdruck Parität als Zusammenfassung für das Verhalten als gerade
bzw. ungerade geläufig. Dies rührt daher, dass unter der Paritätsoperation Pˆ eine Punktspiegelung am Ursprung verstanden wird. Damit geht der Ortsvektor auf sein Negatives r → −rr über, in diesem Fall x → −x. Da die geraden bzw. ungeraden Anteile nur ihr Vorzeichen ändern, sind sie Eigenfunktionen des Paritätsoperators mit den Eigenwerten ±1. In formaler Schreibweise wird dies durch Pˆ f g = (+1) f g und Pˆ f u = (−1) f u ausgedrückt.
12
1 Einführung und Wiederholung
f (−x) = f g (−x) + f u (−x) = f g (x) − f u (x) als zweite Gleichung. Durch Addition bzw. Subtraktion der beiden Gleichungen ergibt sich ein Ausdruck für die geraden und ungeraden Anteile zu f (x) + f (−x) 2 f (x) − f (−x) f u (x) = . 2 f g (x) =
Dies sind auch wirklich die gesuchten geraden und ungeraden Anteile, was durch das Erproben der Eigenschaften gezeigt werden kann: f (−x) + f (x) f (−x) + f (−(−x)) = 2 2 f (x) + f (−x) = = f g (x) 2 f (−x) − f (x) f (−x) − f (−(−x)) f u (−x) = = 2 2 f (x) − f (−x) =− = − f u (x) 2 f (x) − f (−x) f (x) + f (−x) f g (x) + f u (x) = + = f (x). 2 2 f g (−x) =
Dabei musste keine Eigenschaft von f verwendet werden, wodurch die Darstellung von geraden und ungeraden Funktionen unabhängig von der Funktion f ist. Gerade und ungerade Funktionen können vor allem beim Bestimmen von Integralen sehr hilfreich sein.
1.2.2
Formelsammlung – Funktionen
Eine Abbildung f : D → D heißt • Linksvollständig, wenn ∀x∈D ∃ y∈B f (x) = y. • Rechtseindeutig, wenn ∀x∈D ∀ y1 ,y2 ∈B ( f (x) = y1 ∧ f (x) = y2 ) ⇒ (y1 = y2 ). • Funktion, wenn f linksvollständig und rechtseindeutig ist. Eine Funktion f : D → B heißt • Surjektiv, wenn ∀ y∈B ∃x∈D f (x) = y. • Injektiv, wenn ∀x1 ,x2 ∈D ( f (x1 ) = f (x2 )) ⇒ (x1 = x2 ). • Bijektiv, wenn f surjektiv und injektiv ist. Sie besitzt dann eine Umkehrfunktion f −1 : B → D mit f ( f −1 (y)) = y und f −1 ( f (x)) = x.
1.3
Ableitungen
13
• Stetig, wenn lim f (x) = f (x0 ). x→x0
• Gerade, wenn f (−x) = f (x). • Ungerade, wenn f (−x) = − f (x). Eine Funktion f : D → B besitzt • die geraden Anteile f g (x) = ( f (x) + f (−x))/2, • die ungeraden Anteile f u (x) = ( f (x) − f (−x))/2.
1.3
Ableitungen
In diesem Abschnitt sollen Ableitungen von Funktionen betrachtet werden.
1.3.1
Motivation und Beispiele
Die Ableitung beschreibt die Steigung der Tangente, die an eine Funktion in einem Punkt x angelegt werden kann. Sie kann nur bestimmt werden, wenn eine Funktion stetig ist. Die Ableitung selbst kann jedoch unstetig sein. Dies lässt sich bereits argumentativ erkennen. Wenn eine Funktion einen Knick aufweist, so wie die Funktion |x| an der Stelle x = 0, dann lassen sich die Steigungen der Tangente sowohl rechts als auch links von der kritischen Stelle x = 0 bestimmen. Links von der kritischen Stelle haben die Steigungen den Wert minus eins. Rechts der kritischen Stelle haben die Steigungen den Wert eins. Es gibt keinen Wert, den die Steigung in x = 0 annehmen kann, um die Werte rechts und links der kritischen Stelle auf stetige Weise miteinander zu verbinden. Um die Tangente einer Funktion f (x) im Punkt x zu bestimmen, wird ein Punkt im Abstand x betrachtet. Über den Funktionswert an dieser Stelle lässt sich ein Steigungsdreieck betrachten. Diese Verbindung wird als Sekante bezeichnet. Zu sehen ist dies in Abb. 1.3. Diese Betrachtung führt zum Differenzenquotienten f f (x + x) − f (x) = . x x Darin ist f = f (x + x) − f (x). Auf diese Weise wird die Steigung der Sekante einer Funktion abgelesen. Wird nun der Abstand x immer weiter verkleinert und existiert der entsprechende Grenzwert des Differenzenquotienten, so wird dieser als Differenzialquotient bezeichnet und gibt die Steigung der Tangente im Punkt x an: f (x) =
df f (x + x) − f (x) (x) ≡ lim . x→0 dx x
(1.10)
14
1 Einführung und Wiederholung
Abb. 1.3 Steigungsdreieck der Sekante einer Funktion. Die durchgezogene Linie stellt den Funktionsgraphen dar. Die gestrichelte Linie ist die Sekante durch den Punkt (x, f (x)) und (x + x, f (x + x)). Die gepunktstrichelte Linie stellt die Tangente im Punkt (x, f (x)) dar. Die Sekante nähert sich der Tangente für immer kleinere x immer weiter an
Darin können die Bezeichnungen dx und d f als infinitesimale, also unendlich kleine Längen eines Steigungsdreiecks angesehen werden. Wichtig ist hierbei, dass der Bruch mathematisch nicht auseinandergezogen werden kann, da die einzelnen Grenzwerte im Allgemeinen nicht existieren werden.4 Da die Funktionen per Voraussetzung stetig sein sollen, gilt auch lim f (x + x) = f (x).
x→0
Die Bezeichnung f (x) findet in der Physik anfänglich zwar Gebrauch, wird aber bald durch den präziseren Differentialquotienten ersetzt. Dies ist mitunter damit verbunden, dass wesentlich deutlicher ist, nach welcher Variable abgeleitet wird. Für die Beispiele und weiteren Regeln in diesem Kapitel soll trotzdem die Notation f (x) Gebrauch finden. Sollte es sich als unübersichtlich erweisen, den Differentialquotienten zu verwenden, die Variable, nach der abgeleitet wird, aber trotzdem verdeutlicht werden, findet auch die Notation f (x) =
d f dx
Gebrauch. Für die Bestimmung der Ableitung wurde implizit vorausgesetzt, dass die Funktion stetig ist, denn für nicht stetige Funktionen würde im Differenzenquotienten f (x + x) − f (x) f = x x 4 Obwohl es mathematisch nicht erlaubt ist diesen Bruch auseinanderzuziehen, wird es in der Physik
häufig dennoch gemacht, um Ausdrücke so lange umzuformen, bis wieder existierende Grenzwerte erzeugt werden. Dieses Vorgehen wird in Abschn. 1.4.3 etwas genauer besprochen.
1.3
Ableitungen
15
der Zähler für x → 0 nicht zwangsweise gegen null konvergieren, und der gesamte Ausdruck würde divergieren. Bei der Funktion ⎧ ⎪ ⎪ ⎨−1 x < 0 f (x) = 0 x =0 ⎪ ⎪ ⎩1 x >0 würde sich für ein positives x im Differenzenquotienten an der Stelle x = 0 f = f (0 + x) − f (0) = 1 für den Zähler ergeben. Damit existiert der Differentialquotient, der als Grenzwert df f = lim x→0 x dx definiert war, an der Stelle x = 0 nicht. Dies sollte im Hinterkopf behalten werden, wenn eine Ableitung bestimmt werden soll. Für nicht stetige Funktionen lässt sich bis auf die Stellen der Unstetigkeiten jedoch trotzdem eine Ableitung bestimmen. Für das Beispiel eben wäre die Ableitung für x ∈ R \ {0} durch f (x) = 0 zu bestimmen. Dieser Zusammenhang wird eine Rolle bei der Einführung der Dirac-Delta-Funktion in Abschn. 2.5 spielen. Ist die Ableitung einer Funktion stetig, so wird diese als stetig differenzierbar bezeichnet. Wie eben bereits dargelegt, ist die Stetigkeit ein notwendiges Kriterium für die Differenzierbarkeit. Das heißt jedoch nicht, dass jede stetige Funktion differenzierbar ist. Die Funktion f (x) = |x| ist ein gutes Beispiel hierfür. Sie ist definitiv stetig, auch im Punkt x = 0, doch in eben diesem Punkt lässt sich keine Ableitung bestimmen. Der Differenzenquotient ergibt für positive x den Wert (+1), während er für negative x den Wert (−1) ergibt. Im Grenzfall x → 0 konvergieren diese nicht gegen denselben Wert, und es existiert somit keine Ableitung im Punkt x = 0. Beispiele • Eine beliebige Konstante f (x) = c ∈ R. Die Funktion f (x) hat die Änderung f = c − c = 0, was zu einem verschwindenden f Differenzenquotienten x = 0 → 0 führt, weshalb auch die Ableitung df =0 dx verschwindet.
16
1 Einführung und Wiederholung
• Das Monom f (x) = x n mit n ∈ N. Mit dem binomischen Lehrsatz gilt f (x + x) = (x + x) = x + nx n
n
n−1
x +
n n
k
k=2
x n−k x k .
Mit der Differenz f = f (x + x) − f (x) = nx n−1 x +
n n k=2
k
x n−k x k
gilt dann n f n n−k k−1 n−1 x = nx + x . k x k=2
Da im letzten Term der Laufindex k der Summe bei zwei startet, ist der gesamte Term proportional zu x. Somit wird die Summe für x → 0 gegen null gehen. Es ist also f df (x) = lim = nx n−1 . x→0 x dx • Der Kehrbruch f (x) = x1 . Damit gilt f =
1 x − (x + x) x 1 − = =− . x + x x x(x + x) x(x + x)
Für den Differenzenquotienten gilt dann f 1 =− . x x(x + x) Und somit wird die Ableitung zu df 1 f (x) = lim = − 2. x→0 x dx x Hierbei ist zu beachten, dass für die Funktion f (x) f (x) =
1 = x −1 x
gilt. Für die Ableitung gilt aber auch df 1 (x) = − 2 = (−1)x −2 . dx x
1.3
Ableitungen
17
Dies entspricht der Regel bei einem Monom mit n = −1. Es lässt sich tatsächlich die Regel für Monome auf n ∈ Z verallgemeinern. √ • Die Wurzel f (x) = x. Damit gilt für die Differenz f =
√
x + x −
√
x + x − x √ x + x + x x =√ √ . x + x + x
x=√
Es wurde dabei die dritte binomische Formel verwendet. Für den Differenzenquotienten gilt dann 1 f =√ √ x x + x + x und somit für die Ableitung df 1 f (x) = lim = √ . x→0 x dx 2 x Auch hier ist wieder zu beachten, dass f (x) = x 1/2 und die Ableitung df 1 (x) = − x −1/2 dx 2 sind. Die Regel für Monome lässt sich so auf n ∈ Q verallgemeinern. Tatsächlich lässt sich diese Regel bis auf n ∈ R verallgemeinern, was hier aber nicht ausgeführt werden soll. • Die Sinusfunktion f (x) = sin(x). Hier gilt für den Differenzenquotienten f sin(x + x) − sin(x) sin(x) cos(x) − sin(x) cos(x) − sin(x) = = x x x cos(x) − 1 sin(x) = sin(x) + cos(x) x x → cos(x) . Dabei wurde in der letzten Zeile ausgenutzt, dass der Nenner im ersten Term für x schneller gegen null geht als x selbst. Außerdem wurde der bekannte Grenzwert sin(x) /x → 1 für x → 0 verwendet. Anschaulich können diese beiden Zusammenhänge am Einheitskreis in Abb. 1.4 verstanden werden. x gibt am Einheitskreis die Länge des Kreisbogenstückes an. 1 − cos(x) gibt den Abstand zwischen dem Ende des Dreiecks und dem Kreisbogenstück an. Grafisch ist zu erkennen, dass dieser Abstand stets kleiner ausfallen wird als die Länge des Kreisbogenstückes selbst. sin(x) ist die Höhe des
18
1 Einführung und Wiederholung
Abb. 1.4 Einheitskreis für kleine Winkel. Als gepunktstrichelte Linie ist das Kreisbogenstück zu sehen, dass am Einheitskreis dem Winkel x entspricht. Die gestrichelte Linie ist die Gegenkathete des Dreiecks, die dem sin(x) entspricht. Für besonders kleine Werte von x stimmt dieses Wegstück immer besser mit dem Kreisbogenstück überein. Die gepunktete Linie ist der Anteil 1 − cos(x), der bei kleinen x stets kleiner ausfallen wird als x selbst. Dabei stehen diese beiden Strecken in keinem festen Verhältnis zueinander, sondern die Strecke 1 − cos(x) wird schneller gegen null gehen als x
Dreiecks, die für immer kleinere Werte von x immer stärker mit dem Kreisbogenstück zusammenfällt. Es gilt also df (x) = cos(x) . dx • Die Kosinusfunktion f (x) = cos(x). Hier gilt für den Differenzenquotienten f cos(x + x) − cos(x) cos(x) cos(x) − sin(x) sin(x) − cos(x) = = x x x cos(x) − 1 sin(x) = cos(x) − sin(x) x x → − sin(x) . Dabei wurden in der letzten Zeile die gleichen Argumente wie bei der Sinusfunktion ausgenutzt. Es gilt also df (x) = − sin(x) . dx • Exponentialfunktionen f (x) = a x mit reellem, positivem a. Der Differenzenquotient ist dann
1.3
Ableitungen
19
a x+x − a x f a x − 1 = = ax . x x x Und somit gilt für den Differentialquotienten a x − 1 df = a x lim . x→0 dx x Darin ist a x − 1 x→0 x
K (a) ≡ lim
eine feste Zahl für ein festes a. Eine besondere Rolle nimmt die Zahl a ein, für die K (a) = 1 gilt, denn in diesem Fall gilt f (x) = f (x). Diese Zahl erhält den Namen e und wird als Euler’sche Zahl bezeichnet. Für diese Zahl muss die Folge 1
e n −1 1 n
für n → ∞ gegen eins konvergieren. Dann muss die Euler’sche Zahl auch durch den Grenzwert 1 n e = lim 1 + ≈ 2,718 281 . . . n→∞ n bestimmt sein. Mithilfe der Erkenntnisse aus Abschn. 4.1 lässt sich ihr Wert durch die Eigenschaft f (x) = f (x) auch über e=
∞ 1 ≈ 2,718 281 . . . n! n=0
bestimmen. Der Logarithmus mit Basis e wird als natürlicher Logarithmus ln(x) bezeichnet. Eine jede positive Zahl a lässt sich so schreiben als a = eln(a) und es ist für f (x) = a x f (x) =
d x·ln(a) e = ln(a) e x ln(a) = ln(a) a x . dx
20
1 Einführung und Wiederholung
Dabei wurde die Kettenregel verwendet, die etwas weiter unten eingeführt wird. Im Besonderen gilt so a x − 1 . x→0 x
ln(a) = lim
1.3.2
Ableitungsregeln
Häufig werden in der Physik verschachtelte oder miteinander multiplizierte Funktionen auftauchen. Für deren Umgang werden einige weitere Regeln benötigt, die hier ausgeführt werden sollen. • Linearität Für die Funktion h(x) = α f (x) + βg(x) mit den Konstanten α und β sowie den Funktionen f (x) und g(x) lässt sich die Ableitung von h durch α f (x + x) + βg(x + x) − (α f (x) + βg(x)) h = x x g(x + x) − g(x) f (x + x) − f (x) +β =α x x (x → 0) → α f (x) + βg (x) bestimmen. Konstanten und Summen bleiben vom Bilden der Ableitung somit unbeeinflusst. Als Beispiele für die Linearität dienen die hyperbolischen Funktionen, die in Abschn. 2.1 ausführlich behandelt werden. Dazu wird jedoch auf ein Ergebnis der Kettenregeln von d −x weiter unten zurückgegriffen, nach dem dx e = − e−x ist. – Die Sinus hyperbolicus-Funktion h(x) = sinh(x) = 21 e x − 21 e−x . Es ist dann h (x) =
1 x 1 −x e + e = cosh(x) . 2 2
– Die Kosinus hyperbolicus-Funktion h(x) = cosh(x) = Es ist dann h (x) =
1 2
e x + 21 e−x .
1 x 1 −x e − e = sinh(x) . 2 2
• Produktregel Dazu sei die Funktion h(x) = f (x)g(x). Es gilt dann für die Differenz
1.3
Ableitungen
21
h = f (x + x)g(x + x) − f (x)g(x) = ( f (x) + f )g(x + x) − f (x)g(x) = f (x)(g(x + x) − g(x)) + g(x + x) f . Es wurde dabei in der ersten Zeile ausgenutzt, dass f = f (x + x) − f (x), um f (x + x) zu ersetzen. Damit gilt h g f = f (x) + g(x + x) x x x (x → 0). → f (x)g (x) + g(x) f (x) Dabei wurde beim zweiten Term ausgenutzt, dass bei existierenden Grenzwerten aus einem Produkt zweier Ausdrücke das Produkt der Grenzwerte betrachtet werden kann, weiter war ja g(x + x) → g(x) für x → 0. Es gilt also d f (x)g(x) = f (x)g (x) + g(x) f (x). (1.11) dx Als Beispiel kann das zusammengesetzte Monom h(x) = x n x m betrachtet werden. In diesem Fall gilt f (x) = x n ⇒ f (x) = nx n−1 g(x) = x m ⇒ g (x) = mx m−1 . Und somit gilt h (x) = f (x)g (x) + g(x) f (x) = mx n x m−1 + nx m x n−1 = (m + n)x n+m−1 . Dieses Ergebnis war zu erwarten, denn h(x) = x n x m = x n+m ist selbst wieder ein Monom. • Kettenregel Dazu sei die Funktion h(x) = f (g(x)). Es gilt für den Differenzenquotienten dann f (g(x + x)) − f (g(x)) h = x x f (g(x) + g) − f (g(x)) g · = g x → f (g(x))g (x)
(x → 0).
Die Ableitung einer verketteten Funktion ist also das Produkt aus der äußeren Ableitung f und der inneren Ableitung g :
22
1 Einführung und Wiederholung
d dx
f (g(x)) = f (g(x))g (x).
(1.12)
Als Beispiel soll h(x) = eα·x mit einem reellen aber konstanten α betrachtet werden. Damit ist f (g) = eg ⇒ f (g) = eg g(x) = α · x ⇒ g (x) = α. Und somit gilt h (x) = f (g(x))g (x) = α eα·x . • Quotientenregel f (x) Dazu sei die Funktion h(x) = g(x) . Die Quotientenregel lässt sich über den Differentialquotienten über die Differenz f (x) f (x + x) − g(x + x) g(x) f (x + x)g(x) − f (x)g(x + x) = g(x)g(x + x) f (x + x)g(x) − f (x)g(x) + f (x)g(x) − f (x)g(x + x) = g(x)g(x + x) ( f (x + x) − f (x))g(x) − f (x)(g(x + x) − g(x)) = g(x)g(x + x)
h =
herleiten. Damit wird der Differenzenquotient zu ( f (x + x) − f (x))g(x) − f (x)(g(x + x) − g(x)) h = x g(x)g(x + x)x f (x+x)− f (x) g(x) − x
f (x) g(x+x)−g(x) x g(x)g(x + x) f (x)g(x) − f (x)g (x) (x → 0). → (g(x))2
=
Alternativ lässt sich die Quotientenregel auch aus der Produkt- und Kettenregel herleiten: 1 1 1 f (x) g (x) + f (x) − = f (x) · = f (x) g(x) g(x) g(x) (g(x))2 f (x)g(x) − f (x)g (x) = . (g(x))2 In jedem Falle gilt
1.3
Ableitungen
23
f (x) g(x)
=
f (x)g(x) − f (x)g (x) . (g(x))2
Es gibt eine ganze Reihe an typischen Beispielen für die Quotientenregel. – Der Tangens h(x) = tan(x). sin(x) und somit Es ist h(x) = cos(x) f (x) = sin(x) ⇒ f (x) = cos(x) g(x) = cos(x) ⇒ g (x) = − sin(x) . Damit gilt h (x) =
1 cos2 (x) + sin2 (x) = = tan2 (x) + 1. cos2 (x) cos2 (x)
– Der Kotangens h(x) = cot(x). Es ist h(x) = cos(x) sin(x) und somit f (x) = cos(x) ⇒ f (x) = − sin(x) g(x) = sin(x) ⇒ g (x) = cos(x) . Damit gilt h (x) =
1 − sin2 (x) − cos2 (x) =− 2 = −(cot2 (x) + 1). sin2 (x) sin (x)
– Der Tangens hyperbolicus h(x) = tanh(x). sinh(x) und somit Es ist h(x) = cosh(x) f (x) = sinh(x) ⇒ f (x) = cosh(x) g(x) = cosh(x) ⇒ g (x) = sinh(x) . Damit gilt h (x) =
1 cosh2 (x) − sinh2 (x) = = 1 − tanh2 (x). cosh2 (x) cosh2 (x)
– Der Kotangens hyperbolicus h(x) = coth(x). Es ist h(x) = cosh(x) sinh(x) und somit f (x) = cosh(x) ⇒ f (x) = sinh(x) g(x) = sinh(x) ⇒ g (x) = cosh(x) . Damit gilt
(1.13)
24
1 Einführung und Wiederholung
h (x) =
sinh2 (x) − cosh2 (x) 1 =− = −(coth2 (x) − 1). 2 sinh (x) sinh2 (x)
• Die Ableitung von Umkehrfunktionen Besitzt eine Funktion f eine Umkehrfunktion f −1 so gilt x = f −1 ( f (x)). Mit dem Anwenden der Ableitung auf beide Seiten und der Kettenregel zeigt sich so
1 = f −1 ( f (x)) f (x). Und somit
f −1 ( f (x)) =
1 f (x)
=
1 f ( f −1 ( f (x)))
.
Wird das Argument f (x) zur Überschaubarkeit in u umbenannt, so gilt ( f −1 ) (u) =
1 f ( f −1 (u))
.
(1.14)
Mathematisch etwas salopp ausgedrückt, lässt sich dies auch über einen Kehrbruch des Differenzialquotienten verstehen. Dabei sind u = f (x) und x = f −1 (u), und es lässt sich schreiben 1 1 dx = du = −1 du f ( f (u)) dx Auch hier gibt es eine Reihe an Beispielen. – Die Arkussinusfunktion f −1 (u) = Arcsin(u). Es ist dann f (x) = sin(x) ⇒ f (x) = cos(x) =
1 − sin2 (x).
Dabei gilt die letzte Umformung nur für u ∈ [−π/2, π/2]. Und somit ist (Arcsin(u)) =
1 1 − sin2 (Arcsin(u))
1 =√ . 1 − u2
– Die Arkuskosinusfunktion f −1 (u) = Arccos(u). Es ist dann f (x) = cos(x) ⇒ f (x) = − sin(x) = − 1 − cos2 (x). Dabei gilt die letzte Umformung nur für u ∈ [0, π ]. Und somit ist
1.3
Ableitungen
25
(Arccos(u)) =
1 1 . = −√ 2 1 − u2 − 1 − cos (Arccos(u))
– Die Arkustangensfunktion f −1 (u) = Arctan(u). Es ist dann f (x) = tan(x) ⇒ f (x) = 1 + tan2 (x). Und somit ist 1
(Arctan(u)) =
1 + tan2 (Arctan(u))
=
1 . 1 + u2
– Die Arkuskotangensfunktion f −1 (u) = Arccot(u). Es ist dann f (x) = cot(x) ⇒ f (x) = −(1 + cot2 (x)). Und somit ist −1
(Arccot(u)) =
1 + cot2 (Arccot(u))
=
−1 . 1 + u2
– Die Areasinus hyperbolicus-Funktion f −1 (u) = Arsinh(u). Es ist dann
f (x) = sinh(x) ⇒ f (x) = cosh(x) = 1 + sinh2 (x). Dabei gilt die letzte Umformung für u ∈ (−∞, ∞). Und somit ist (Arsinh(u)) =
1 1 + sinh2 (Arsinh(u))
1 =√ . 1 + u2
– Die Areakosinus hyperbolicus-Funktion f −1 (u) = Arcosh(u). Es ist dann
f (x) = cosh(x) ⇒ f (x) = sinh(x) = cosh2 (x) − 1. Dabei gilt die letzte Umformung für u ∈ [0, ∞). Der Definitionsbereich des Kosinus hyperbolicus muss dabei eingeschränkt werden, da die Funktion nicht injektiv ist. Somit ist (Arcosh(u)) =
1 cosh2 (Arcosh(u)) − 1
1 =√ . u2 − 1
26
1 Einführung und Wiederholung
– Die Areatangens hyperbolicus-Funktion f −1 (u) = Artanh(u). Das Argument ist beschränkt auf u ∈ (−1, 1). Es ist dann f (x) = tanh(x) ⇒ f (x) = 1 − tanh2 (x). Und somit ist (Artanh(u)) =
1 1 − tanh2 (Artanh(u))
=
1 . 1 − u2
– Die Areakotangens hyperbolicus-Funktion f −1 (u) = Arcoth(u). Das Argument ist beschränkt auf u ∈ R \ [−1, 1]. Es ist dann f (x) = coth(x) ⇒ f (x) = −(coth2 (x) − 1). Und somit ist (Arcoth(u)) =
−1 coth2 (Arcoth(u)) − 1
=
1 −1 = . u2 − 1 1 − u2
– Logarithmen. Mit dem natürlichen Logarithmus f −1 (u) = ln(x) ist f (x) = ex ⇒ f (x) = ex . Und somit gilt (ln(x)) =
1 eln(x)
=
1 . x
Für beliebige Logarithmen mit beliebiger Basis a gilt dann f −1 (u) = loga (x) =
ln(x) ln(a)
und somit
1.3.3
loga (x) =
1 1 · . ln(a) x
Zweite und höhere Ableitungen
Bisher wurden einige Ableitungen von Funktionen ausgerechnet. Die Frage, die sich nun stellen könnte, ist nach der Möglichkeit eine Ableitung erneut abzuleiten und was die Bedeutung der so entstandenen Funktion ist. Die so gefundenen Vorschriften lassen sich auf ein beliebig häufiges Anwenden des Ableitens auf eine Funktion übertragen. Für die Produkt-
1.3
Ableitungen
27
regel des Ableitens kann dabei eine Verallgemeinerung gefunden werden. Schlussendlich lässt sich noch ein Trick feststellen, mit dessen Hilfe das mehrfache Ableiten einer Funktion unter Umständen einfacher gemacht werden kann. Zweite Ableitung Um die Ableitung einer Ableitung zu bestimmen, kann diese in den Differenzenquotienten f f (x + x) − f (x) = x x eingesetzt werden. Wie auch bei der Definition der Ableitung wird die Ableitung der Ableitung über den Differentialquotienten f f (x + x) − f (x) d f ≡ lim = lim x→0 x x→0 dx x definiert. Da die Ableitung einer Ableitung betrachtet wird und somit insgesamt zweimal abgeleitet wurde, wird von der zweiten Ableitung gesprochen. Diese zweite Ableitung wird entweder über zwei Striche am Funktionsbezeichner oder durch eine hochgestellte Zwei in runden Klammern am Funktionsbezeichner oder einer hochgestellten Zwei am d und an der Variable im Differentialquotienten d2 f d f = f (x) = f (2) (x) = dx dx 2 bezeichnet. Dabei sind die letzte und vorletzte Schreibweise besonders hilfreich, wenn weitere Ableitungen der zweiten Ableitung bestimmt werden sollen, wie es etwas weiter unten diskutiert wird. Mit der Einführung des Begriffs der zweiten Ableitung ist es auch sinnvoll bei der „einfachen Ableitung“ von der ersten Ableitung zu sprechen. Die erste Ableitung war relativ anschaulich über die Steigung der Tangente im Punkt x beschrieben. Auch für die zweite Ableitung gibt es eine anschauliche Interpretation. Zu diesem Zwecke wird in der obigen Definition der zweiten Ableitung die erste Ableitung f (x) durch ihren Differentialquotienten gemäß der Rechnung f (x + x1 ) − f (x) d f = lim x1 →0 dx x1 f (x + x1 + x2 ) − f (x + x1 ) 1 = lim lim x1 →0 x 1 x2 →0 x2 f (x + x2 ) − f (x) − x2 f (x + x) − f (x) 1 f (x + 2x) − f (x + x) = lim − x→0 x x x
28
1 Einführung und Wiederholung
ersetzt. Dabei wurden im letzten Schritt x1 = x2 = x gewählt. Durch das Verschieben von x um x lässt sich der Ausdruck f (x) − f (x − x) 1 f (x + x) − f (x) − f (2) (x) = lim x→0 x x x für die zweite Ableitung bestimmen, der die Differenz zwischen der Ableitung rechts des Punktes x f (x + x) − f (x) x und links des Punktes x f (x + x) − f (x) x betrachtet. Die erste Ableitung war anschaulich die Steigung der an die Kurve angelegten Tangente. Damit vergleicht die zweite Ableitung aber die Steigung der Tangente ein Stückchen rechts des betrachteten Punktes mit der Steigung der Tangente ein Stückchen links des betrachteten Punktes. Die zweite Ableitung gibt somit an, wie sehr sich die Steigung der Tangente ändert. Sie ist somit ein Maß für die Krümmung der Funktion. Ist die zweite Ableitung positiv, so nimmt die Steigung der Tangente mit zunehmendem x auch zu. Würde ein Auto die Funktion so durchfahren, dass x zunimmt, so würde diese Funktion wie eine Linkskurve erscheinen. Anders herum, wirkt eine Funktion mit einer negativen Krümmung wie eine Rechtskurve. Die zweite Ableitung der Funktion f (x) = x 2 ist beispielsweise durch f (x) = (2x) = 2 > 0 gegeben, und es handelt sich somit um eine linksgekrümmte Funktion. Ableitungen höherer Ordnung Auch von der zweiten Ableitung kann eine Ableitung bestimmt werden, solange die zweite Ableitung stetig ist. Diese wird als dritte Ableitung f (3) (x) bezeichnet. Dies lässt sich beliebig oft fortsetzen, sofern die abzuleitende Funktion stetig ist. Es lässt sich so die iterative Definition dn f d (n−1) f = (x) dx n dx
(1.15)
für die n-te Ableitung von f (x) festlegen. n wird auch als Ordnung der Ableitung bezeichnet. f (n) (x) ist dann also die Ableitung n-ter Ordnung von f (x). Ist die N -te Ableitung einer Funktion f (x) stetig, so wird diese als N -mal stetig differenzierbare Funktion bezeichnet. Gelegentlich wird eine Funktion auch als N -mal stetig differenzierbare Funktion bezeichnet, wenn sie höchstens N -mal stetig differenzierbar ist.
1.3
Ableitungen
29
Das ist der Fall, wenn die (N + 1)-te Ableitung nicht existiert oder im Falle ihrer Existenz nicht stetig ist. Polynome sind Funktionen, die beliebig oft stetig differenzierbar sind. Wird von einem Polynom des Grades n die (n + 1)-te Ableitung gebildet, so ergibt sich das Polynom p(x) = 0. Dieses kann beliebig oft abgeleitet werden, ergibt aber immer wieder p(x). Auch die trigonometrischen Funktionen sind beliebig oft stetig differenzierbar. Bei ihnen zeigt sich bereits nach der zweiten Ableitung ein Muster. Die erste Ableitung der Sinusfunktion ist der Kosinus, dessen Ableitung wiederum der negative Sinus ist. Für die zweite Ableitung der Funktion f (x) = sin(kx) ergibt sich über f (x) = k cos(kx)
⇒
f (x) = −k 2 sin(kx) = −k 2 f (x)
eine Differentialgleichung zweiter Ordnung, die sowohl vom Sinus als auch Kosinus erfüllt wird. Die Leibniz-Regel Wird das Produkt von zwei Funktionen f (x)g(x) betrachtet, so kann für die erste Ableitung die Produktregel ( f (x)g(x)) = f (x)g(x) + f (x)g (x) gefunden werden. Damit lässt sich auch eine Produktregel der zweiten Ableitung über
( f (x)g(x)) = f (x)g(x) + f (x)g (x) = ( f (x)g(x) + f (x)g (x)) + ( f (x)g (x) + f (x)g (x)) = f (x)g(x) + 2 f (x)g (x) + g (x) = f (2) (x)g(x) + 2 f (1) (x)g (1) (x) + f (x)g (2) (x) finden. Dabei wurde auf die einzelnen Summanden der Klammer jeweils die Produktregel angewandt. Zuletzt wurde die Strichschreibweise durch die Schreibweise mit der in Klammern gesetzten Ordnung der Ableitung ersetzt. Wird eine Funktion f (x) selbst als die Ableitung nullter Ordnung f (0) (x) ≡ f (x) aufgefasst, so erhält das Ergebnis eine Form ( f (x)g(x)) = f (2) (x)g (0) (x) + 2 f (1) (x)g (1) (x) + f (0) (x)g (2) (x), die bereits sehr an die erste binomische Regel (a + b)2 = a 2 + 2ab + b2 = a 2 b0 + 2a 1 b1 + a 0 b2 erinnert. Beim Bilden der dritten Ableitung5 5 Auf die Angabe der expliziten Abhängigkeit von x wird hier aus Gründen der Übersichtlichkeit
verzichtet.
30
1 Einführung und Wiederholung
d3 d (2) (0) (1) (1) (0) (2) f g + 2 f g + f g f (x)g(x)) = ( dx 3 dx =
f (3) g (0) + f (2) g (1) + 2 f (2) g (1) + f (1) g (2) + f (1) g (2) + f (0) g (3)
= f (3) g (0) + 3 f (2) g (1) + 3 f (1) g (2) + f (0) g (3) ergibt sich dann eine Form, die an das Ergebnis des binomischen Lehrsatzes mit n = 3, (a + b)3 =
n 3 k=0 3 0
k
a n−k bk = a 3 + 3a 2 b + 3ab2 + b3
= a b + 3a 2 b1 + 3a 1 b2 + a 0 b3 erinnert. Es scheint also ein Muster ähnlich zu dem des binomischen Lehrsatzes bei der n-ten Ableitung eines Produkts zu entstehen. Von dieser Idee geleitet, könnte der Ausdruck n dn n f (n−k) (x)g (k) (x) f (x)g(x)) = ( k dx n
(1.16)
k=0
als die korrekte Fortsetzung der Produktregel betrachtet werden. Wie zuvor bereits gezeigt, stimmt dieser Ausdruck für n = 1, das war die normale Produktregel, n = 2, das war das erste Beispiel, und für n = 3, das war das letzte Beispiel. Wird nun angenommen, dass er für ein beliebiges n gilt, so kann versucht werden, daraus den Ausdruck für das nächsthöhere n zu bestimmen. Dazu wird die Ableitung von Gl. (1.16) n d f (x)g(x)) ( dx n ⎤ ⎡ n d ⎣ n (n−k) (k) g ⎦ = f k dx
dn+1 d ( f (x)g(x)) = dx dx n+1
k=0
n n d (n−k) (k) = g f k dx
= =
k=0 n
n k
k=0 n k=0
=
n k
f (n−k+1) g (k) + f (n−k) g (k+1)
f (n+1−k) g (k) +
n n k=0
k
f (n−k) g (k+1)
n n n f (n+1−0) g (0) + f (n+1−k) g (k) 0 k k=1
+
n+1 j=1
n j −1
f (n− j+1) g ( j)
1.3
Ableitungen
31
gebildet. Dabei wurde beim Übergang in die zweite Zeile Gl. (1.16) eingesetzt. Beim Übergang in die dritte Zeile wurde die Linearität der Ableitung ausgenutzt, um diese in die Summe zu ziehen und die Produktregel auf die Summanden anzuwenden. Die entstandene Summe wurde in der fünften Zeile in zwei Summen aufgespalten. Aus der ersten Summe wurde der Term für k = 0 explizit ausgeschrieben, während in der zweiten Summe der neue Summationsindex j = k + 1 und folglich k = j − 1 eingeführt wurden. Durch weitere Umformungen kann der Ausdruck n dn+1 n (n+1) (0) f (n+1−k) g (k) g + f (x)g(x)) = f ( n+1 k dx k=1 n n f (n+1−k) g (k) + k−1 k=1 n + f (n+1−(n+1)) g (n+1) n n n n n (n+1) (0) + f (n+1−k) g (k) = f g + k k−1 0 k=1
+ f (0) g (n+1) n n+1 (n+1) (0) f (n+1−k) g (k) + f (0) g (n+1) = f g + k =
n+1 n+1 k=0
k
k=1
f (n+1−k) g (k)
erhalten werden. Im ersten Schritt wurden der Summationsindex wieder in k umbenannt und der Term für k = j = n + 1 explizit ausgeschrieben. Dadurch verbleiben in der viertletzten Zeile nur noch drei Ausdrücke. Davon war der mittlere eine Summe, die eine Summe aus Binomialkoeffizienten enthielt, die nach den Regeln des Pascal’schen Dreiecks zu n+1 k zusammengefasst werden konnten. Durch das Zusammenfassen ergibt sich ein Ausdruck, der dem in Gl. (1.16) gleichkommt, wenn n durch n + 1 ersetzt wird. Nach Gl. (1.16) ist dies dann aber der Ausdruck, der beim Bilden der (n + 1)-ten Ableitung erwartet würde. Dabei wurde bei der Herleitung nur benutzt, dass für die n-te Ableitung die Gl. (1.16) gelten soll, und daraus wurde die (n + 1)-Ableitung bestimmt. Das bedeutet, wenn Gl. (1.16) für ein beliebiges n gültig ist, so ist es auch für das darauffolgende n gültig. Aus demselben Grund ist es dann für das übernächste n gültig usw. Da der Ausdruck (1.16) bereits für n = 1 gültig ist, gilt er für jedes n ∈ N. Dieses
32
1 Einführung und Wiederholung
Beweisvorgehen wird als induktiver Beweis bezeichnet und wird in Abschn. 2.2 noch einmal aufgegriffen. Damit drückt Gl. (1.16) n dn n f (n−k) (x)g (k) (x) ( f (x)g(x)) = k dx n k=0
tatsächlich die Verallgemeinerung der Produktregel für Ableitungen der n-ten Ordnung aus. Dieser Ausdruck wird auch als Leibniz-Regel bezeichnet. Geschicktes Ausklammern Wird eine Funktion f (x) betrachtet, die als Produkt von Funktionen gegeben ist, und ist es von vorneherein klar, dass eine höhere Ableitung bestimmt werden muss, kann es unter Umständen einfacher sein nach dem Berechnen der ersten Ableitung die Funktion f (x) aus dem Ausdruck für f (x) auszuklammern, um so den Ausdruck f (x) = f (x)g(x) = f (x)
f (x) f (x)
zu erhalten. Ist g(x) idealerweise ein Polynom, so lässt sich die Funktion bei weiteren Ableitungen durch konsequentes Anwenden der Produktregel leichter bestimmen, da die Ableitung der Funktion f (x) ja bereits bekannt ist. Die zweite Ableitung kann so beispielsweise über
f (x) = f (x)g(x) + f (x)g (x) = f (x) (g(x))2 + g (x) bestimmt werden. Dies lässt sich am besten an einem Beispiel verdeutlichen. Es soll die Funktion f (x) = e−3x
2
betrachtet werden. Ihre Ableitung ist durch f (x) = −6x e−3x = −6x f (x) 2
bestimmt. Damit wird die zweite Ableitung zu f (x) = −6 f (x) − 6x f (x) = −6 f (x) − 6x(−6x) f (x) = (36x 2 − 6x) f (x). Ihre dritte Ableitung wird zu f (3) (x) = (72x − 6) f (x) + (36x 2 − 6x) f (x) = (72x − 6) f (x) + (36x 2 − 6x)(−6x) f (x) = (72x − 6 − 216x 2 + 36x 2 ) f (x) = (36x 2 − 144x − 6) f (x).
1.3
Ableitungen
33
Und dieses Vorgehen kann auch für höhere Ableitungen fortgesetzt werden. Auf diese Weise können die Ableitungen einer nicht trivialen, in diesem Fall einer Exponentialfunktion mit quadratischem Argument auf das Bilden von Ableitungen und die Bildung von Summen von einfachen Polynomen zurückgeführt werden und sich in manchen Situationen als praktische Methode erweisen, um höhere Ableitungen zu bestimmen.
1.3.4
Formelsammlung – Ableitungen
Differentialquotient – Definition f (x) ≡
d df f (x + x) − f (x) (x) ≡ f ≡ lim x→0 dx dx x
Regeln zum Ableiten • Linearität (α f (x) + βg(x)) = α f (x) + βg (x), • Produktregel ( f (x) · g(x)) = f (x)g(x) + f (x)g (x), • Kettenregel ( f (g(x))) = f (g(x))g (x), f (x) f (x)g (x) = f (x)g(x)− , g(x) (g(x))2
−1 1 Umkehrfunktionen f (u) = f ( f −1 (u)) .
• Quotientenregel •
Ableitung n-ter Ordnung und die Leibniz-Regel dn f d (n−1) f = (x) n dx dx
n dn n f (n−k) (x)g (k) (x). f (x)g(x)) = ( n k dx k=0
Beispiele zu Ableitungen in Tab. 1.3: Tab. 1.3 Tabelle mit Ableitungen häufig auftretender Funktionen f (x)
f (x)
Kommentar
xn
nx n−1
n∈R
sin(x)
cos(x)
cos(x)
− sin(x)
tan(x)
1 + tan2 (x)
cot(x)
−1 − cot2 (x)
Arcsin(x)
√ 1 1−x 2 √ −1 1−x 2 1 1+x 2
Arccos(x) Arctan(x)
x ∈ (−1, 1) x ∈ (−1, 1) x ∈R (Forsetzung)
34
1 Einführung und Wiederholung
Tab. 1.3 (Forsetzung) f (x)
f (x)
Kommentar
Arccot(x)
−1 1+x 2
x ∈R
Sinhx
cosh(x)
cosh(x)
sinh(x)
tanh(x)
1 − tanh2 (x)
coth(x)
1 − coth2 (x)
Arsinh(x)
eα·x
√ 1 x 2 +1 √ 1 x 2 −1 1 1−x 2 −1 x 2 −1 α eα·x
ax
ln(a) a x
ln(x)
1 x
loga (x)
1 ln(a)x
Arcosh(x) Artanh(x) Arcoth(x)
1.4
x ∈R x ∈ [1, ∞) x ∈ (−1, 1) x ∈ R \ [−1, 1] α∈R
Integrale
Bei der Einführung der Integralrechnung wird typischerweise die Frage nach der Fläche unter einer Kurve aufgeworfen. Obwohl die Beantwortung dieser Frage durch die Integralrechnung gelöst wird, liegt ihr Nutzen in der Physik hauptsächlich darin, dass sie eine Umkehrung der Ableitungen und eine Verallgemeinerung von Summen darstellt. In der Physik treten häufig Differentialgleichungen auf, das heißt vereinfacht, dass zwar die Ableitung der gesuchten Funktion bekannt ist, nicht aber die Funktion selbst. Die Integralrechnung ermöglicht es die Funktion zu bestimmen. Gelegentlich müssen Summen über kontinuierliche Größen, wie Massen- oder Ladungsverteilungen gebildet werden. Auch hierfür bietet die Integralrechnung eine mathematisch angebrachte Beschreibung.
1.4.1
Motivation und grundlegende Regeln
Motivation Die hier vorgestellte Betrachtung stellt nicht eine mathematisch saubere und ausführliche Definition dar, ist aber ausreichend, um die Probleme der Physik zu behandeln und ein Verständnis von der Thematik zu gewinnen.
1.4
Integrale
35
Die Fläche unter einer Kurve beschrieben durch die Funktion f (x) in einem Intervall [a, b] auf der x-Achse kann gefunden werden, indem eine Folge von Ober- und Unterschätzungen der Fläche vorgenommen wird. Zur Veranschaulichung können dazu die Abb. 1.5a und b betrachtet werden. Bei sukzessiver Verbesserung der Schätzungen sollten beide gegen denselben Wert konvergieren. Dazu wird wie folgt vorgegangen. 1. Das Intervall [a, b] wird in n gleich große Stücke unterteilt. Dabei ist n eine natürliche Zahl. Diese Stücke haben alle die Breite x = b−a n und der i-te Punkt im Intervall ist bestimmt durch xi = a + ix. Dabei ist i eine Zahl von null bis n, und es folgt a = x0 < x1 < x2 < · · · < xn−1 < xn = b. Die Abschätzungen, die vorgenommen werden, sollten besser werden, je größer n wird. Für die folgende Überlegung sollte der Anschaulichkeit halber an eine Funktion gedacht werden, die nur positive Werte annimmt. Das Verfahren lässt sich selbstverständlich auch auf Funktionen mit positiven wie negativen Werte verallgemeinern. 2. Auf jedem der so entstandenen Teilintervalle [xi , xi + 1] können das Maximum Mi ≡ max { f ([xi , xi + 1])} und das Minimum m i ≡ min { f ([xi , xi + 1])} der Funktion bestimmt werden. Die Flächen, die so mit jedem Intervall identifiziert werden, sind das Produkt aus der Länge des Intervalls und dem maximalen bzw. minimalen Wert der Funktion Ai = Mi x ai = m i x.
Abb. 1.5 Veranschaulichung der endlichen Summen zur Flächenermittlung. In a ist die Obersumme zu sehen, bei der der maximale Wert der einzelnen Teilintervalle als Höhe der Balken angesetzt wird. In b ist die Untersumme zu sehen, bei der der minimale Wert der einzelnen Teilintervalle als Höhe der Balken angesetzt wird. In c ist schließlich die Summe zu sehen, bei der als Höhe der Funktionswert der linken Kante der einzelnen Teilintervalle angesetzt wird. Dies entspricht Gl. (1.17)
36
1 Einführung und Wiederholung
Dies entspricht, grafisch gesehen, Balken, die die Funktion am obersten bzw. untersten Punkt auf dem Intervall berühren, zu sehen in Abb. 1.5a und b. Die Fläche auf diesen Teilintervallen wird so jeweils über- bzw. unterschätzt. 3. Durch die Summe der einzelnen Flächen ergibt sich eine Abschätzung für die Gesamtfläche A≡
n−1
Ai =
i=0
a≡
n−1 i=0
n−1
x max { f ([xi , xi + 1])}
i=0
ai =
n−1
x min { f ([xi , xi + 1])}.
i=0
Dabei geht die Summe nur bis n − 1, da der Endpunkt bei xn = b bereits mit dem Intervall [xn−1 , xn ] abgedeckt wird. A wird als Obersumme bezeichnet und überschätzt die tatsächliche Fläche A∗ , während a als Untersumme bezeichnet wird und die tatsächliche Fläche unterschätzt: a ≤ A∗ ≤ A. 4. Im Grenzfall n → ∞ bzw. x → 0 sollten die Flächen A und a immer näher aneinander heranrücken. Nehmen beide im Limes denselben Wert an, kann dieser nur die Fläche A∗ sein. Ist also lim a = lim A, so heißen die beiden Summen das Integral von f über x→0
x→0
das Intervall [a, b], und es wird geschrieben b dx f (x) ≡ lim a
x→0
= lim
x→0
n−1
x min { f ([xi , xi + 1])}
i=0 n−1
x max { f ([xi , xi + 1])}.
i=0
Die Größe dx wird als Differential bezeichnet und symbolisiert, dass der Grenzübergang x → 0 vollzogen wurde. Das stilisierte S, an dessen unterem und oberem Ende die Intervallgrenzen stehen, symbolisiert den speziellen Grenzfall einer Summe. Die Funktion f (x), über die integriert wird, wird auch als Integrand bezeichnet. Der Anfangsund Endpunkt des Intervalls [a, b] werden als Integralgrenzen bezeichnet. Grundlegende Regeln Für weitere Betrachtungen ist eine etwas andere, aber äquivalente Definition hilfreicher. Dazu wird statt der Ober- und Untersumme eine einzelne Summe gebildet, die immer den linken Funktionswert des Intervalls berücksichtigt. Das heißt der Balken kann ober- bzw. unterhalb der Funktion liegen, zu sehen in Abb. 1.5c. Es ist auch möglich, dass der Balken die Funktion schneidet. Existiert das Integral, so wird im Grenzfall x → ∞ die entsprechende
1.4
Integrale
37
Summe jedoch auch gegen A∗ konvergieren, und es ist b dx f (x) ≡ lim
n−1
x→0
a
x f (xi ) = lim
n−1
x→0
i=0
x f (a + ix).
(1.17)
i=0
Mit dieser Definition sollen zwei sehr einfache Beispiele eines Integrals betrachtet werden. 1. f (x) = c ∈ R auf dem Intervall [a, b]. Es ist b dx f (x) = lim
n−1
x→0
a
x f (a + ix) = lim
x→0
i=0
= lim n · n→∞
n−1
xc
i=0
b−a c = c(b − a). n
Dabei wurden im vorletzten Schritt x = b−a n eingesetzt und ausgenutzt, dass für x → 0 auch n → ∞ gilt. Dieses Ergebnis lässt sich anschaulich gut verstehen. Die Kurve ist eine zur x-Achse parallele Linie auf der Höhe c. Wird die Fläche über dem Intervall [a, b] betrachtet, ergibt sich ein Rechteck mit Länge b − a und Höhe c. Die Fläche ist gegeben als das Produkt von Länge und Höhe. Hier lässt sich bereits ein interessanter Umstand erkennen. Ist die Konstante c negativ, so ist auch die Fläche negativ. Allgemein werden Flächen unterhalb der Kurve mit der obigen Definition des Integrals als negativ gewertet. Das heißt auch, dass das Integral einer Funktion über ein Intervall null sein kann, ohne dass die Funktion selbst null ist. 2. f (x) = x auf dem Intervall [a, b]. Es ist b dx f (x) = lim a
x→0
n−1
x f (a + ix) = lim
x→0
i=0
= lim
x→0
ax
n−1
1 + (x)2
i=0
n−1 i=0
n−1
x(a + ix)
i=0
i
2 (n − 1)n = lim axn + (x) x→0 2 (b − a)2 (n − 1)n = lim a(b − a) + n→∞ n2 2 2 (b − a) (b − a)2 − = lim a(b − a) + n→∞ 2 2n = a(b − a) +
(b − a)2 . 2
38
1 Einführung und Wiederholung
Abb. 1.6 Veranschaulichung zur Fläche unter der Funktion f (x) = x. Die Fläche lässt sich zerlegen in das gepunktstrichelte Viereck mit der Breite b − a und der Höhe a und in das gestrichelte gleichschenklige Dreieck mit der Breite b − a und der Höhe b−a
Wie im ersten Beispiel wurde hier verwendet, dass x = b−a n ist. Im letzten Schritt 1 wurde ausgenutzt, dass n → 0 gilt, wenn n → ∞. Der erste Term der Fläche beschreibt ein Rechteck mit Länge (b − a) und Höhe a. Der zweite Term beschreibt ein gleichschenkliges Dreieck, von dem zwei Schenkel die Länge (b − a) aufweisen. Tatsächlich lässt sich die Fläche unter der Kurve f auf diese Weise zerlegen. Dies ist in Abb. 1.6 veranschaulicht. Mit der so erhaltenen Formel ist auch sofort ein Beispiel für die Behauptung aus dem ersten Beispiel gefunden. Wird als untere Grenze a = −b gewählt, so gilt b
b dx f (x) =
a
dx f (x) = −b(b − (−b)) + −b
(b − (−b))2 2
= −2b2 + 2b2 = 0. Die Fläche ist null, obwohl die Funktion f (x) = x definitiv von null verschiedene Werte annehmen kann. Es lassen sich aus der obigen Definition einige Eigenschaften herleiten. • Die Linearität des Integrals. Es seien dazu α, β ∈ R und f (x) und g(x) zwei Funktionen. Dann sind
1.4
Integrale n−1
39
x α f (a + ix) + βg(a + ix)
b
x→0
→
i=0
dx α f (x) + βg(x)
a
und auch α
n−1
x f (a + ix) + β
i=0
n−1
xg(a + ix)
i=0 x→0
b
→ α
b dx f (x) + β
a
dx g(x). a
Also gilt
b dx
b
α f (x) + βg(x) = α
a
b dx f (x) + β
a
dx g(x).
(1.18)
a
Wird das Integral der Summe zweier Funktionen betrachtet, kann stattdessen die Summe der Integrale betrachtet werden. Multiplikative Konstanten können aus dem Integral herausgezogen werden. • Addition von Grenzen. Zu diesem Zweck soll eine Funktion f (x) auf den Intervallen [a, b] und [b, c] betrachtet werden. Es lassen sich so drei Integrale bestimmen: A∗1
b =
dx f (x)
A∗2
c =
a
∗
dx f (x)
c
A =
dx f (x). a
b
Die Fläche A∗1 beschreibt die Fläche auf dem Intervall [a, b]. Die Fläche A∗2 beschreibt die Fläche auf dem Intervall [b, c], und schließlich beschreibt A∗ die Fläche auf dem Intervall [a, c]. Offensichtlich gilt A∗ = A∗1 + A∗2 , und somit gilt auch b
c dx f (x) +
a
c dx f (x) =
b
dx f (x).
(1.19)
a
Fallen die oberen und unteren Grenzen bei gleicher Funktion im Integral zusammen, so lässt sich die Summe des Integrals zu einem Integral zusammenführen. Andererseits, lässt sich ein Integral auch in die Summe beliebig vieler Integrale aufspalten, indem das ursprüngliche Intervall in kleinere unterteilt wird.
40
1 Einführung und Wiederholung
• Benennung der Variablen. Die Integrationsvariable kann beliebig benannt werden: b
b dx f (x) =
a
b dt f (t) =
du f (u) = · · ·
a
(1.20)
a
Es sollte dabei darauf geachtet werden, dass die Integrationsvariable nicht dieselbe Bezeichnung wie die Grenzen hat. Da in der Physik die Integrationsvariable zumeist eine dimensionsbehaftete Größe darstellt, wird dazu geneigt der Integrationsvariable und einer der Grenzen einen ähnlichen Namen zu geben. Beispielsweise könnten über die Zeit integriert werden und die obere Grenze den im Problem tatsächlich betrachteten Zeitpunkt bezeichnen. Für die Integrationsvariable bieten sich dann Bezeichnungen wie t˜ oder t gemäß t
dt˜ f (t˜) =
0
t
dt f (t )
0
an. • Tauschen von Grenzen. Wird das Intervall [a, b] von rechts nach links durchlaufen, so lässt sich mit x ≡
a−b 0 gilt. Eine Verallgemeinerung auf negative x findet durch die Betragsfunktion statt:
dx x −1 =
dx = ln(|x|) + C. x
Als Probe kann die Ableitung der rechten Seite für negative x betrachtet werden: d 1 d 1 = . (ln(|x|) + C) = (ln(−x)) = (−1) · dx dx −x x Dabei wurde die Kettenregel für Ableitungen ausgenutzt. • Trigonometrische Funktionen. Für die trigonometrischen Funktionen galt (sin(x)) = cos(x) und (cos(x)) = − sin(x), und somit folgt dx cos(x) = sin(x) + C dx (− sin(x)) = cos(x) + C˜ ⇒ dx sin(x) = − cos(x) + C. • Hyperbolische Funktionen. Für die hyperbolischen Funktionen gilt (sinh(x)) = cosh(x) und (cosh(x)) = sinh(x), und daher folgt dx cosh(x) = sinh(x) + C dx sinh(x) = cosh(x) + C. Es ist zu beachten, dass anders als bei den trigonometrischen Funktionen kein Vorzeichenwechsel auftritt. • Die Exponentialfunktion. Für Exponentialfunktionen gilt (a x ) = ln(a) a x , und somit folgt ax dx ln(a) a x = a x + C˜ ⇒ dx a x = + C. ln(a) Im Besonderen gilt für die Basis a = e dx e x = ex +C.
1.4
Integrale
47
Auch gefunden werden kann so eα·x α·x α·x ˜ dx α e = e +C ⇒ dx eαx = + C. α Einige weitere aber weniger wichtige7 Stammfunktionen sind: • Das Quadrat des Tangens bzw. das Quadrat des Kehrbruchs des Kosinus. Es ist (tan(x)) = 1 + tan2 (x) und somit ist
dx 1 + tan2 (x) = tan(x) + C˜ = x + D + dx tan2 (x) ⇒ dx tan2 (x) = tan(x) − x + C. Dabei wurden die Integrationskonstanten D und C˜ kombiniert. Der Integrand in der ersten Zeile lässt sich umschreiben auf 1 + tan2 (x) = cos12 (x) , und somit gilt gleichzeitig
dx = tan(x) + C. cos2 (x)
• Das Quadrat des Kotangens bzw. das Quadrat des Kehrbruchs des Sinus. Es ist (cot(x)) = −(1 + cot2 (x)), und somit ist
− dx 1 + cot2 (x) = cot(x) + C˜ = −x + D − dx cot2 (x) ⇒ dx cot2 (x) = − (cot(x) + x) + C. Dabei wurden die Integrationskonstanten D und C˜ kombiniert. Der Integrand in der ersten Zeile lässt sich umschreiben auf 1 + cot2 (x) = sin21(x) , und somit gilt gleichzeitig
dx = − cot(x) + C. sin2 (x)
• Das Quadrat des hyperbolischen Tangens bzw. das Quadrat des Kehrbruchs des hyperbolischen Kosinus. Es ist (tanh(x)) = 1 − tanh2 (x), und somit ist 7 Sie können alle alternativ auch aus den obigen Stammfunktionen mithilfe der Regeln im nächsten
Abschn. 1.4.2 hergeleitet werden.
48
1 Einführung und Wiederholung
dx 1 − tanh2 (x) = tanh(x) + C˜ = x + D − dx tanh2 (x) ⇒ dx tanh2 (x) = x − tanh(x) + C.
Dabei wurden die Integrationskonstanten D und C˜ kombiniert. Der Integrand in der ersten Zeile lässt sich umschreiben auf 1 − tanh2 (x) = cosh12 (x) , und somit gilt gleichzeitig
dx = tanh(x) + C. cosh2 (x)
• Das Quadrat des hyperbolischen Kotangens bzw. das Quadrat des Kehrbruchs des hyperbolischen Sinus. Es ist (coth(x)) = 1 − coth2 (x), und somit ist
dx 1 − coth2 (x) = coth(x) + C˜ = x + D − dx coth2 (x) ⇒ dx coth2 (x) = x − coth(x) + C. Dabei wurden die Integrationskonstanten D und C˜ kombiniert. Der Integrand in der ersten −1 Zeile lässt sich umschreiben auf 1 − coth2 (x) = sinh 2(2) , und somit gilt gleichzeitig
dx = − coth(x) + C. sinh2 (x)
• Die Funktion √ 1 2 . 1−x Die Ableitungen der Umkehrfunktionen für Kosinus und Sinus sind bis auf ein Vorzeichen gleich. Es gilt (Arcsin(x)) = √ und somit folgt auch
1 1 − x2
= − (Arccos(x)) ,
dx = Arcsin(x) + C = − Arccos(x) + D. √ 1 − x2
Hierin lässt sich die Tatsache erkennen, dass der Arkussinus und der Arkuskosinus durch die Konstante π/2 über
1.4
Integrale
49
Arccos(x) =
π − Arcsin(x) 2
verbunden sind. Anschaulich ist dies mit der Definition der trigonometrischen Funktionen über ein rechtwinkliges Dreieck verknüpft. Der Kosinus gibt beim komplimentären Argument π2 − φ dasselbe Ergebnis wie der Sinus x ≡ sin(φ) = cos
π 2
−φ .
Und somit ist φ = Arcsin(sin(φ)) = Arcsin(x) auch mittels Arccos(x) =
π −φ 2
gegeben, und die Verbindung Arccos(x) =
π − Arcsin(x) 2
lässt sich mittels Einsetzen herstellen. Die Stammfunktion von f (x) = √ 1 2 lässt sich 1−x also auf zwei unterschiedliche Weisen darstellen. 1 • Die Funktion 1+x 2. Eine ähnliche Situation wie zuvor stellt sich für die Ableitungen des Arkustangens und des Arkuskotangens ein; hier ist (Arctan(x)) = und somit folgt direkt
1 = − (Arccot(x)) , 1 + x2
dx = Arctan(x) + C = − Arccot(x) + D. 1 + x2
Auch dies ist wieder der Definition der Tangens- bzw. Kotangensfunktion am Kreis geschuldet. Da der Kotangens beim komplimentären Winkel dasselbe Ergebnis liefert, π −φ , cot(φ) = tan 2 gilt der Zusammenhang Arccot(x) =
π − Arctan(x) . 2
50
1 Einführung und Wiederholung
• Die Funktion
√ 1 . x 2 +1
Aus der Ableitung des Areasinus hyperbolicus (Arsinh(x)) = √ • Die Funktion
dx x2 + 1
√ 1 x 2 +1
= Arsinh(x) + C.
√ 1 . x 2 −1
Aus der Ableitung des Areakosinus hyperbolicus (Arcosh(x)) = √
dx x2 − 1
ergibt sich
√ 1 x 2 −1
ergibt sich
= Arcosh(x) + C.
Dies gilt allerdings nur für positive Argumente x ≥ 1. 1 • Die Funktion 1−x 2. Aus den Ableitungen des Areatangens hyperbolicus und des Areakotangens hyperbolicus 1 1 − x2 −1 (Arcoth(x)) = 2 x −1
(Artanh(x)) =
zeigt sich, dass die Stammfunktion von und eins liegt oder nicht. Es ist dann
1 1−x 2
(x ∈ (−1, 1)) (x ∈ R \ [−1, 1]) davon abhängt, ob x zwischen minus eins
Artanh(x) dx =C+ 1 − x2 Arcoth(x)
x ∈ (−1, 1) x ∈ R \ [−1, 1]
.
Uneigentliche Integrale Bevor nun noch einige Rechenregeln für die Integration besprochen werden, sollen erst noch Integrale mit besonderen Grenzen diskutiert werden. Die Grenzen [a, b] können auf die Weise besonders sein, dass der Integrand für die entsprechenden Werte nicht definiert ist, also f (a) oder f (b) nicht existieren, oder sie können in dem Sinne besonders sein, dass sie durch Unendlichkeiten gegeben sind. In jedem Fall kann ein solcher Ausdruck betrachtet und diesem unter Umständen ein sinnvoller Wert zugewiesen werden. Dies kommt dadurch zustande, dass mittels der Stammfunktionen für eine beliebige Grenze ε das Integral bestimmt werden kann. Die uneigentlichen Integrale sind dann die Grenzwerte, wenn ε gegen eine der besonderen Grenzen geht. Da die Grenzen durch ein zusätzliches Minuszeichen vertauscht werden, soll zunächst nur die obere Grenze b besonders sein. Ein uneigentliches Integral ist dann definiert als b
ε dx f (x) ≡ lim
a
ε→b
dx f (x). a
(1.25)
1.4
Integrale
51
Als Beispiel soll dazu zunächst die Funktion f (x) = x12 auf dem Intervall [1, ∞) betrachtet werden. Die obere Grenze ist nun besonders, da sie unendlich ist. Mit den einfachen Beispielen für Stammfunktionen lässt sich aber wegen f (x) = x −2 die Stammfunktion zu 1 F(x) = −2+1 x −2+1 = − x1 + C bestimmen. Damit wird das uneigentliche Integral zu ∞
ε dx f (x) = lim
ε→∞
1
ε 1 1 1 − = 1. = − lim ε→∞ x ε→∞ ε 1 1
dx x −2 = − lim
1
Im letzten Schritt wurde dabei ausgenutzt, dass 1ε → 0 für ε → ∞ gilt. Nach obiger Überlegung lässt sich das gleiche Vorgehen auch auf besondere untere Grenzen anwenden. Dann wird Gl. (1.25) zu b
b dx f (x) = lim
ε→a
a
dx f (x). ε
Als Beispiel hierfür wird die Funktion f (x) = √1x auf dem Intervall [0, 1] betrachtet. Für x = 0 ist f (x) nicht definiert. Dennoch lässt sich das Integral zu 1
1 dx f (x) = lim
ε→0
0
dx x −1/2 = 2 lim
ε
ε→0
#√ !√ "1 √ $ x ε = 2 lim 1− ε =2 ε→0
√ bestimmen. Dabei wurde im letzten Schritt ausgenutzt, dass ε → 0 für ε → 0 gilt. Sollte der Fall eintreten, dass sich der Grenzwert nicht ermitteln lässt, so ist dem entsprechenden unbestimmten Integral kein Grenzwert zuzuweisen.
1.4.2
Rechenregeln für Integration
Mit den oben gefundenen Stammfunktionen lässt sich bereits eine ganze Menge an Integralen berechnen, doch viele Stammfunktionen wie die des Tangens tan(x) und des quadratischen Sinus sin2 (x) sind noch unbekannt. Dazu sollen in diesem Abschnitt einige hilfreiche Rechenregeln gefunden werden. Diese werden hauptsächlich aus den Regeln für Ableitungen hergeleitet. Die partielle Integration In der Ausgangssituation bildet sich der Integrand als das Produkt zweier Funktionen. Der Verdacht liegt nahe, eine passende Regel aus der Produktregel für Ableitungen herzuleiten. Dabei ist eine Funktion h(x) als das Produkt zweier Funktionen h(x) = f (x)g(x) gegeben. Es gilt dann
52
1 Einführung und Wiederholung
h (x) = f (x)g(x) + f (x)g (x) d ⇒ f (x)g (x) = f (x)g(x) − f (x)g(x). dx Wird das bestimmte Integral auf dem Intervall [a, b] über die letzte Zeile gebildet, so ergibt sich b a
dx f (x)g (x) =
b dx
d dx
b f (x)g(x) − dx f (x)g(x)
a
a
b = [ f (x)g(x)]ab −
dx f (x)g(x).
a
In der letzten Zeile wurde dabei verwendet, dass die Stammfunktion der Ableitung einer Funktion die Funktion selbst ist, also der Hauptsatz der Differential- und Integralrechnung (1.24). Auf der rechten Seite steht nun erneut ein Integral über ein Produkt der beiden Funktionen. Dabei haben f und g nun aber ihre Rollen vertauscht, denn es wird die Ableitung von f betrachtet und g kommt als normale Funktion vor. Das Integral kann ausgewertet werden, indem die beiden unabgeleiteten Funktionen an den Grenzen ausgewertet werden und das Integral mit den beiden Funktionen in „vertauschten Rollen“ bestimmt wird. Auf konkrete Probleme angewendet bedeutet dies, dass bei einem Produkt aus Funktionen als Integrand eine der beiden Funktionen mit g (x) identifiziert und deren Stammfunktion bestimmt werden muss. Eine Identifikation mit g (x) bietet sich also dann an, wenn die Stammfunktion bereits bekannt ist. Andererseits wird die mit f identifizierte Funktion abgeleitet. An und für sich stellt dies kein Problem dar, da Ableitungen oft ohne Probleme zu bestimmen sind. Jedoch sollte bei der Identifikation darauf geachtet werden, dass im verbleibenden Integral f (x) stehen wird. Es ist daher sinnvoll Funktionen mit f zu identifizieren, wenn ihre Ableitungen wesentlich umgänglicher sind, als die Funktion f selbst. Für unbestimmte Integrale, was der Bestimmung der Stammfunktion dienlich ist, müssen nur die Grenzen weggelassen werden, und es gilt dx f (x)g (x) = f (x)g(x) − dx f (x)g(x). (1.26) Die folgenden Beispiele sollen dies verdeutlichen. • Die Funktion x · e−x . Zu bestimmen ist die Stammfunktion von x · e−x . Es sind sowohl die Stammfunktionen von x als auch von e−x bekannt. Jedoch sorgt die Stammfunktion von x, welche durch x2 2 gegeben ist, für ein kompliziertes Integral auf der rechten Seite. Daher bietet es sich an die Identifikation
1.4
Integrale
53
f (x) = x ⇒ f (x) = 1 g (x) = e−x ⇒ g(x) = − e−x durchzuführen. Damit ergibt sich dx x e−x = f (x)g(x) − dx f (x)g(x) = −x e−x − dx 1 · (−1) e−x −x = −x e + dx e−x = −x e−x − e−x = −(1 + x) e−x . Mit diesem Ergebnis lässt sich beispielsweise das uneigentliche Integral ∞
!
"∞ dx x e−x = − (1 + x) e−x 0 = − 0 − (1 + 0) e−0
0
=1 bestimmen. Dabei wurde ausgenutzt, dass e−x gegen jeden beliebigen Faktor x n im Grenzfall x → ∞ „überwiegt“. Eine Verallgemeinerung dieses Integrals ist durch die sogenannte -Funktion beschrieben, die das nächste Beispiel bildet. • Die Gamma-Funktion. Die Gamma-Funktion ist für reelle n mit n > −1 durch ∞ (n + 1) ≡
dx x n e−x
0
definiert. Für die folgende Betrachtung soll jedoch n > 0 betrachtet werden. Die Funktion x n wird mit f (x) identifiziert, während e−x wieder als g (x) betrachtet wird. Die Stammfunktion ist, wie im vorherigen Beispiel, bekannt. Die Ableitung von f ist dann gegeben als f (x) = nx n−1 . Damit ergibt sich ∞ (1 + n) =
n −x
dx x e
! "∞ = −x n e−x 0 −
0
∞
dx nx n−1 · (−1) e−x
0
∞ =0+n
dx x n−1 e−x
0
= n(n). Dabei wurde ausgenutzt, dass für n = 0 der Term x n gegen null geht, wenn auch x gegen null geht, und dass die Exponentialfunktion für große x schneller gegen null strebt als
54
1 Einführung und Wiederholung
jedes Monom x n . Durch den gefundenen Zusammenhang8 ist eine Rekursionsformel für die Gamma-Funktion gefunden. Durch das erste Beispiel ist der Wert (2) = (1+1) = 1 bekannt. Damit lassen sich einige weitere Werte der Gamma-Funktion zu (1 + 2) = 2(2) = 2 (1 + 4) = 4(4) = 4 · 6 = 24 (1 + 6) = 6(6) = 6 · 120 = 720
(1 + 3) = 3(3) = 3 · 2 = 6 (1 + 5) = 5(5) = 5 · 24 = 120 (1 + 7) = 7(7) = 7 · 720 = 5040
bestimmen. Es eröffnet sich so der Verdacht, dass für natürliche Zahlen n der Zusammenhang (1 + n) = n! gilt. Dies soll induktiv bewiesen werden; eine Beweismethode, die für die Leibniz-Regel in Abschn. 1.3.3 verwendet wurde und in Abschn. 2.2 noch einmal aufgegriffen werden soll. Für n = 1 gilt die Aussage, denn (1 + 1) = 1 = 1!. Sei also für ein beliebiges n der Zusammenhang (1 + n) = n! gültig, so gilt für n + 1 (1 + (n + 1)) = (n + 1)(n + 1) = (n + 1) · n! = (n + 1)!. Dabei wurde im ersten Schritt die Rekursionsformel verwendet, während im zweiten Schritt die Induktionsvoraussetzung angewandt wurde. Damit gilt der Zusammenhang nicht nur für n = 1, sondern auch für n = 1 + 1 = 2 und damit für n = 2 + 1 = 3 und für n = 3 + 1 = 4 und so weiter und schließlich für alle natürlichen n. Da aber für n auch reelle Zahlen eingesetzt werden können, ergibt sich somit eine Verallgemeinerung der Fakultät auf reelle Argumente. Mit einer der nächsten Integrationsregeln (der Substitutionsregel) ist es beispielsweise möglich zu bestimmen, was die Fakultät von 1 2 ist. • Der natürliche Logarithmus. Das Integral über den natürlichen Logarithmus lässt sich ebenfalls mittels der partiellen Integration bestimmen. Dazu kann ausgenutzt werden, dass sich die Funktion ln(x) schreiben lässt als 1 · ln(x). Durch die Identifikation g (x) = 1 ⇒ g(x) = x f (x) = ln(x) ⇒ f (x) =
1 x
ergibt sich so die Stammfunktion
8 Die oben aufgeführte Definition kann auch auf komplexe Argumente mit einem Realteil > −1
erweitert werden. Es gilt dann für die entsprechenden komplexen Zahlen der verallgemeinerte Zusammenhang (1 + z) = z(z).
1.4
Integrale
55
dx 1 · ln(x) = f (x)g(x) −
dx f (x)g(x) = x ln(x) −
dx
1 x x
= x ln(x) − x. Dabei wurde im letzten Schritt ausgenutzt, dass xx = 1 die Stammfunktion x hat. Das Ergebnis kann leicht mit der Produktregel für Ableitungen überprüft werden: (x ln(x) − x) = ln(x) + x
1 − 1 = ln(x) . x
Technik: Phönix aus der Asche Ein spezieller Trick bei der partiellen Integration wird als Phönix aus der Asche bezeichnet. Dabei wird das Integral durch partielle Integration so lange bearbeitet, bis sich das ursprüngliche Integral mit einem zusätzlichen Vorfaktor oder Summand auf der rechten Seite wieder ergibt. Ein konkreteres Vorgehen ist von Fall zu Fall unterschiedlich und lässt sich am besten anhand einiger Beispiele verstehen. • Die Quadrate der trigonometrischen Funktionen. Die beiden wichtigsten Beispiele sind die Stammfunktionen des quadratischen Sinus und des quadratischen Kosinus. Dazu werden die trigonometrischen Relationen sin2 (x) + cos2 (x) = 1 und sin(2x) = 2 sin(x) cos(x) benötigt. Das zu bestimmende Integral ist I = dx sin2 (x) = dx sin(x) · sin(x) . Die einzige Identifikation für die partielle Integration ist gegeben durch f (x) = sin(x) ⇒ f (x) = cos(x) g (x) = sin(x) ⇒ g(x) = − cos(x) . Damit ergibt die partielle Integration I = dx sin(x) · sin(x) = f (x)g(x) − dx f (x)g(x) = − sin(x) cos(x) − dx (−1) · cos2 (x)
sin(2x) + dx 1 − sin2 (x) =− 2 sin(2x) + x − dx sin2 (x) =− 2 sin(2x) + x − I. =− 2 Damit lässt sich auf beiden Seiten I addieren, und es ergibt sich
56
1 Einführung und Wiederholung
sin(2x) 2 sin(2x) x . ⇒ I = dx sin2 (x) = − 2 4 2I = x −
Daraus lässt sich auch das Integral über den quadratischen Kosinus durch sin(2x) x dx cos2 (x) = dx (1 − sin2 (x)) = x − − 2 4 sin(2x) x = + 2 4 bestimmen. • Die Quadrate der hyperbolischen Funktionen. Ein weiteres typisches Beispiel ist der Fall von quadratischen hyperbolischen Funktionen. Hierbei werden die Identitäten cosh2 (x) − sinh2 (x) = 1 und sinh(2x) = 2 sinh(x) cosh(x) verwendet. Das gesuchte Integral 2 I = dx sinh (x) = dx sinh(x) · sinh(x) kann mittels der Identifikation f (x) = sinh(x) ⇒ f (x) = cosh(x) g (x) = sinh(x) ⇒ g(x) = cosh(x) und partieller Integration zu I = dx sinh(x) · sinh(x) = f (x)g(x) − dx f (x)g(x) = sinh(x) cosh(x) − dx cosh2 (x)
sinh(2x) − dx 1 + sinh2 (x) = 2 sinh(2x) − x − dx sinh2 (x) = 2 sinh(2x) −x−I = 2 umgeformt werden. Durch beidseitige Addition von I ergibt sich 2I = ⇒I =
sinh(2x) −x 2 dx sinh2 (x) = −
sinh(2x) x + . 2 4
1.4
Integrale
57
Das Integral über den quadratischen Kosinus hyperbolicus lässt sich dann zu
sinh(2x) x 2 2 dx cosh (x) = dx 1 + sinh (x) = x + − + 2 4 sinh(2x) x = + 2 4 bestimmen. Technik: Partialbruchzerlegung Die Partialbruchzerlegung ist in diesem Sinne keine Technik, die die partielle Integration verwendet, aber sie behandelt Probleme mit einer ähnlichen Ausgangssituation. Die Ausgangssituation ist, dass der Integrand als ein Bruch mit einem Nenner, der sich in Polynome aufspalten lässt, gegeben ist. Das Ziel ist es, den Bruch nicht als das Produkt zweier Brüche zu schreiben, sondern als Summe zweier Brüche, um so den Grad des Polynoms im Nenner zu verkleinern und das Problem zu vereinfachen. Am einfachsten lässt sich dies an einem kurzen Beispiel verstehen. Dazu sei das zu bestimmende Integral dx , 4 x −1 wobei x nur Werte größer eins annehmen soll. Der Nenner lässt sich mittels der dritten binomischen Formel aufspalten in (x 4 − 1) = (x 2 − 1)(x 2 + 1). Gesucht sind dann die zwei Koeffizienten a und b, sodass b 1 1 a + = 2 = 4 x2 − 1 x2 + 1 (x − 1)(x 2 + 1) x −1 ergibt. Es zeigt sich b a(x 2 + 1) + b(x 2 − 1) a + = x2 − 1 x2 + 1 x4 − 1 (a + b)x 2 + (a − b) ! 1 . = = 4 4 x −1 x −1 Damit bleibt als einzige Möglichkeit a = −b = 21 . Das Integral lässt sich dann mittels 1 dx 1 dx dx = − x4 − 1 2 x2 − 1 2 x2 + 1 1 1 = Arcoth(x) + Arctan(x) 2 2 umschreiben. Dabei gilt die Ersetzung des ersten Integrals nur für x > 1. Im Allgemeinen müssen für einen Integranden
58
1 Einführung und Wiederholung
1 f (x)g(x) die Polynome a(x) und b(x) so bestimmt werden, dass a(x) b(x) 1 = + f (x)g(x) f (x) g(x) gilt. Dieses Vorgehen bietet sich besonders an, wenn die so entstehenden Integrale im Nenner Terme beinhalten, die einfacher zu handhaben sind, beispielsweise Polynome ersten oder zweiten Grades. Mit der unten eingeführten Substitutionsregel wird es so auch möglich, einen anderen Ausdruck für die Umkehrfunktion des Tangens hyperbolicus zu finden. Die Substitutionsregel Zum Herleiten dieser Regel soll als Ausgangspunkt die Kettenregel beim Ableiten verwendet werden. Es sei dazu eine Funktion F(u) betrachtet, die durch F(u(x)) implizit von x abhängt. Die Ableitung bezüglich x ist dann durch dF d F du = = f (u(x))u (x) dx du dx gegeben. Dabei bezeichnet f (u) = dduF . Es kann dann auf beiden Seiten das Integral über das Intervall [a, b] betrachtet werden: b
b
dx f (u(x))u (x) = a
dx
d F(u(x)) = F(u(b)) − F(u(a)). dx
a
Dabei wurde ausgenutzt, dass die Stammfunktion von der Ableitung einer Funktion die Funktion selbst ist. Die Grenzen wurden bei x = b und x = a ausgewertet. Da f aber die Ableitung von F bezüglich u darstellt, lässt sich die rechte Seite auch schreiben als u(b) du f (u). F(u(b)) − F(u(a)) = u(a)
Es gilt dann insgesamt b a
u(b) dx f (u(x))u (x) = du f (u).
u(a)
(1.27)
1.4
Integrale
59
Dies ist der Ausgangspunkt für die zwei Substitutionsregeln beim Integrieren. Diese Gleichung kann auf zwei Weisen gelesen werden.9 1. Von links nach rechts. Auf der linken Seite steht im Integral ein Produkt aus zwei Funktionen, von denen eine nur Ausdrücke von einer Funktion von x enthält; beispielsweise eine Funktion, die nur Terme wie x 2 beinhaltet. Die Idee ist dann, diese immer wiederkehrenden Ausdrücke mit u zu identifizieren. Entscheidend ist für die Durchführung dann, dass der zweite Faktor des Integranden mit u identifiziert werden kann. Das heißt, diese Substitution kann nur erfolgen, wenn die passenden Terme bereits im Integral stehen. Ist dies der Fall, können die neuen Grenzen durch u(a) und u(b) bestimmt werden, und ein Übergang auf die rechte Seite kann vollzogen werden. Ein allgemeine Vorgehensweise für das Integral b dx f (u(x)) · g(x) ist in diesem Fall: a
(a) Identifizieren des Terms u(x). du (b) Bestimmen von u (x) = dx und überprüfen, ob g(x) = α · u (x), wobei α eine beliebige reelle Konstante ist. Dann kann die Ersetzung g(x) dx = αu (x) dx = α du vorgenommen werden. (c) Bestimmen der neuen Integralgrenzen u(a) und u(b). (d) Einsetzen aller vorherigen Ergebnisse: b
dx g(x) f (u(x)) = α
u(b)
du f (u).
u(a)
a
Dieses allgemeine Vorgehen wird an den unten aufgeführten Beispielen verdeutlicht. 2. Von rechts nach links. Um die Situation, die zumeist vorgefunden wird, besser abzubilden, wird eine Umbenennung u → x und x → t durchgeführt. Die Gl. (1.27) lautet dann tb
a
dt f (x(t))x (t) = ta
dx f (x). b
Die rechte Seite ist die Ausgangssituation. Auf der rechten Seite steht eine Funktion, die Ausdrücke enthält, die sich vereinfachen könnten, wenn x als Funktion einer neuen 9 In beiden Fällen wird die Vereinfachung durchgeführt, dass mit Differentialen in dieser Situation
umgegangen werden darf, als seien es Brüche, was mathematisch nicht sauber begründet ist, sich aber für tatsächliche Berechnung als äußerst praktikabel erweist.
60
1 Einführung und Wiederholung
Variable x(t) geschrieben werden könnte. Typische Beispiele sind Ausdrücke wie 1−x 2 , da hier mit x = sin(t) der Term 1−sin2 (t) = cos2 (t) entsteht. Die neuen Integralgrenzen werden durch die Umkehrfunktion ta = x −1 (a)
tb = x −1 (b)
bestimmt. Zusätzlich muss die Ableitung von x bezüglich t bestimmt und als Faktor eingefügt werden. Diese Methode der Substitution kann zwar immer durchgeführt werden, verspricht aber nicht immer Erfolg. Ein allgemeine Vorgehensweise für das Integral b dx f (x) ist in diesem Fall: a
(a) Einführen der Funktion x(t) und Bestimmen von t(x) = x −1 (x(t)). (b) Bestimmen von x (t) = ddtx und daraus dx = x (t) dt . (c) Bestimmen der neuen Integralgrenzen ta = x −1 (a) und tb = x −1 (b). (d) Einsetzen aller vorherigen Ergebnisse: b
tb dx f (x) =
a
dt f (x(t))x (t).
ta
Dieses allgemeine Vorgehen wird an den unten aufgeführten Beispielen verdeutlicht. Für beide Methoden gilt: Werden nur Stammfunktionen bestimmt, so müssen die Grenzen zwar nicht ersetzt werden, aber das Ergebnis muss wieder als Funktion von x ausgedrückt werden. Zunächst werden Beispiele für das Identifizieren von u = u(x) angebracht. • Die Funktion x · e−x in festen Grenzen. 2 Gesucht ist das Integral der Funktion x · e−x über dem Intervall [0, 1]. Hierzu wird der Ausdruck x 2 als u zu 2
u(x) = x 2 bestimmt. Die Differentiale lassen sich dann umschreiben als du = 2x ⇒ 2x dx = du , dx und die neuen Integralgrenzen sind u(0) = 0 und u(1) = 1. Es zeigt sich, dass der zweite Faktor g(x) = x die Hälfte von u ist, somit ist α = 21 . Damit kann die Substitution
1.4
Integrale
61
durchgeführt werden, und es ergibt sich 1
dx x · e−x = 2
0
1 2
1
du e−u =
1 e−1 1 ! −u "1 1 −e 0 = − +1 = . 2 2 e 2e
0
• Die Funktion x · e−x im Allgemeinen. Es soll die allgemeine Stammfunktion aus dem vorherigen Beispiel 2 dx x · e−x 2
bestimmt werden. Mit der gleichen Ersetzung wie oben ergeben sich u = x 2 und x dx = 1 2 du und somit 1 1 2 dx x · e−x = du e−u = − e−u 2 2 e−x . 2 2
=−
Dabei wurde im letzten Schritt u wieder mit x 2 ersetzt, um die Stammfunktion als Funktion von x zu erhalten. Damit lässt sich auch das bestimmte Integral zu %
1 dx x · e
−x 2
e−x = − 2
2
0
&1 =− 0
1 e−1 1 + = 2e 2 2e
errechnen, was mit dem obigen Ergebnis übereinstimmt. • Die Tangensfunktion. Als Nächstes soll die Tangensfunktion betrachtet werden. Hierbei lässt sich tan(x) =
sin(x) cos(x)
verwenden. Der Sinus ist die negative Ableitung des Kosinus, und daher erscheint die Ersetzung u(x) = cos(x) sinnvoll, denn damit gilt du = − sin(x) ⇒ sin(x) dx = − du , dx und das Integral wird zu sin(x) du =− = − ln(|u(x)|) dx tan(x) = dx cos(x) u = − ln(| cos(x) |) .
62
1 Einführung und Wiederholung
Dabei wurde ausgenutzt, dass die Stammfunktion von u1 als ln(u) gegeben ist, was aus einem der ersten Beispiele zu Stammfunktionen bekannt ist. • Der Kotangens. Die Kotangensfunktion wird ähnlich wie die Tangensfunktion, aber mit der Ersetzung u(x) = sin(x) bearbeitet, denn hier ergeben sich du = cos(x) ⇒ cos(x) dx = du dx und somit
cos(x) dx = sin(x)
dx cot(x) =
du = ln(|u(x)|) u
= ln(| sin(x) |) . • Der hyperbolische Tangens. Die Tangens hyperbolicus-Funktion lässt sich als tanh(x) =
sinh(x) cosh(x)
schreiben. Da der Sinus hyperbolicus die Ableitung des Kosinus hyperbolicus ist, bietet sich die Ersetzung u(x) = cosh(x) ⇒
du = sinh(x) ⇒ sinh(x) dx = du dx
an. Damit ergibt sich schlussendlich sinh(x) du dx tanh(x) = dx = = ln(|u(x)|) cosh(x) u = ln(| cosh(x) |) als Stammfunktion. • Der hyperbolische Kotangens. Die Kotangens hyperbolicus-Funktion lässt sich als coth(x) =
cosh(x) sinh(x)
schreiben. Da der Kosinus hyperbolicus die Ableitung des Sinus hyperbolicus ist, bietet sich die Ersetzung u(x) = sinh(x) ⇒
du = cosh(x) ⇒ cosh(x) dx = du dx
an. Damit ergibt sich schlussendlich
1.4
Integrale
63
dx coth(x) =
cosh(x) dx = sinh(x)
du = ln(|u(x)|) u
= ln(| sinh(x) |) als Stammfunktion. Nun sollen Beispiele betrachtet werden, in denen x als eine Funktion einer neuen Variable t aufgefasst wird. √ • Die Funktion 1 − x 2 in festen Grenzen. √ Als erstes Beispiel soll das Integral der Funktion 1 − x 2 auf dem Intervall [−1, 1] betrachtet werden. Bei Funktionen der Art 1 − x 2 bietet sich häufig die Identifikation von x mit Sinus oder Kosinus an, denn 1 − sin2 (x) = cos2 (x), was den Ausdruck unter dem Integral vereinfacht. Da die Ableitung des Sinus der positive Kosinus ist, bietet sich im Besonderen die Ersetzung x(t) = sin(t) an. Damit gilt dx = cos(t) ⇒ dx = cos(t) dt . dt Der Sinus nimmt beim Argument −π/2 den Wert minus eins an, während er beim Argument π/2 den Wert eins annimmt: ta = Arcsin(−1) = −π/2
tb = Arcsin(1) = π/2.
Damit lässt sich das Integral zu 1
π/2 π/2
2 2 dx 1 − x = dt cos(t) 1 − sin (t) = dt cos(t) cos2 (t)
−1
−π/2
−π/2
π/2 =
π/2 dt cos(t) | cos(t) | =
−π/2
sin(2t) t + 2 4 π = 2 =
π/2 −π/2
dt cos2 (t) −π/2
=
sin(π ) −π sin(−π) π + − − 4 4 4 4
bestimmen. Dabei wurde ausgenutzt, dass der Kosinus auf dem betrachteten Intervall positiv ist und die Stammfunktion des cos2 (u), die aus einem früheren Beispiel bekannt
64
1 Einführung und Wiederholung
ist. √ Darüber hinaus wurde verwendet, dass sin(π ) = sin(−π) = 0 ist. Die Funktion 1 − x 2 beschreibt die obere Hälfte eines Kreises mit dem Mittelpunkt im Ursprung und dem Radius eins. Die Fläche des gesamten Kreises wäre π · 12 = π . Damit ist die Fläche von der√ oberen Hälfte π/2, was dem gefundenen Ergebnis entspricht. • Die Funktion 1 − x 2 im Allgemeinen. Es soll die allgemeine Stammfunktion des vorherigen Beispiels bestimmt werden. Dazu werden dieselben Ersetzungen wie zuvor vorgenommen: x = sin(t) ⇒ dx = cos(t) dt . √ Da die Funktion 1 − x 2 nur für Argumente zwischen minus eins und eins definiert ist, kann t nur Werte zwischen −π/2 und π/2 annehmen. Der Kosinus ist demnach auf dem gesamten Intervall positiv. Es gilt
dx 1 − x 2 = dt cos(t) 1 − sin2 (t) = dt cos2 (t) =
sin(2t) t + . 2 4
Dieses Ergebnis muss als Funktion von x ausgedrückt werden. Dazu muss die Umkehrfunktion des Sinus bestimmt werden: x = sin(t) ⇒ t = Arcsin(x) . Der zweite Term in der vorläufigen Stammfunktion als Funktion von t wird mittels der trigonometrischen Identitäten sin(2t) = 2 sin(t) cos(t) = 2 sin(t) 1 − sin2 (t) aufgelöst. damit ergibt sich
1 2 2 dx 1 − x = Arcsin(x) + sin(Arcsin(x)) 1 − sin (Arcsin(x)) 2 1 Arcsin(x) + x 1 − x 2 . = 2 √ • Die Funktion 1 + x 2 . √ Es soll die Stammfunktion der Funktion 1 + x 2 gefunden werden. Bei Termen der Art 1 + x 2 bieten sich die Substitutionen x(t) = sinh(t) an, denn 1 + sinh2 (t) = cosh2 (t). Für die Ableitung ergibt sich dann dx = cosh(t) ⇒ dx = cosh(t) dt , dt und somit wird das Integral zu
1.4
Integrale
65
2 2 dx 1 + x = dt cosh(t) 1 + sinh (t) = dt cosh(t) | cosh(t) | sinh(2t) t . = dt cosh2 (t) = + 2 4
Dabei wurde ausgenutzt, dass der hyperbolische Kosinus bei jedem Argument positiv ist und dass die Stammfunktion des quadratischen, hyperbolischen Kosinus aus einem früheren Beispiel bekannt ist. t lässt sich als Funktion von x durch den Arsinh(x) als x(t) = sinh(t) ⇒ t = Arsinh(x) ausdrücken. Mit den Identitäten
sinh(2t) = 2 sinh(t) cosh(t) = 2 sinh(t) 1 + sinh2 (t) lässt sich die vorläufige Stammfunktion als Funktion von t als eine Funktion von x ausdrücken:
1 dx 1 + x 2 = Arsinh(x) + sinh(Arsinh(x)) 1 + sinh2 (Arsinh(x)) 2 1 Arsinh(x) + x 1 + x 2 . = 2 √ • Die Funktion x 2 − 1. Auch das Integral dx x 2 − 1 lässt sich mit einer ähnlichen Methode bearbeiten. Da sich in der Wurzel eine Ähnlichkeit zur hyperbolischen Gleichung cosh2 (t) − 1 = sinh2 (t) zeigt, bietet sich die Ersetzung x = cosh(t)
t = Arcosh(x)
an. Die Wurzel wird zu
x 2 − 1 = | sinh(t) |
und das Differential wird zu dx = sinh(t) dt .
66
1 Einführung und Wiederholung
Es sollen nun nur positive x, also auch x > 1 betrachtet werden. Damit wird das Integral schlussendlich zu sinh(t) cosh(t) t dx x 2 − 1 = dt sinh2 (t) = − + 2 2 1 = − Arccos(x) + x x 2 − 1 . 2 Dabei wurde die Stammfunktion von sinh2 (x) eingesetzt, die ein Beispiel der partiellen Integration war. Außerdem wurde im letzten Schritt der hyperbolische Sinus wieder mit cosh2 (t) − 1 ersetzt, um cosh(Arcosh(x)) = x ausnutzen zu können. Die betrachtete Kurve beschreibt anschaulich die Fläche unter einer Hyperbel und wird in Abschn. 2.1 noch einmal aufgegriffen. • Die Gamma-Funktion. Wie schon bei den Beispielen zur partiellen Integration angekündigt, soll hier vorgestellt werden, wie sich die Fakultät von 1/2 bestimmen lässt. Die Gamma-Funktion ist als ∞ (1 + n) = n(n) =
dx x n e−x
0
gegeben, und für natürliche n entspricht dieser Ausdruck gerade der Fakultät n! und stellt für beliebige n eine stetige Fortsetzung dar. Damit ist die Fakultät von 1/2 gegeben als
1 1+ 2
∞ 3 = = dx x 3/2 e−x . 2 0
Die Idee ist es, das Integral auf das bekannte10 Integral
∞
dx e−x = 2
√
π 2
zurückzufüh√ ren. Im Exponenten sollte also x = t 2 eingesetzt werden. Es gilt somit t = x, und damit wird das Differential zu 0
1 dx dx = 2t dt = 2x 2 dt ⇒ √ = 2 dt . x
Die Integralgrenzen werden zu t(0) = 0, t(∞) = ∞, und das Integral wird schlussendlich zu ∞ ∞ ∞ dx 2 −x 3 2 3/2 −x = dx x e = √ x e = 2 dt t 4 e−t . 2 x 0
0
0
Dieses Integral ist zwar lösbar, aber recht umständlich. Es ist einfacher die Eigenschaft 10 Eine genaue Betrachtung inklusive Herleitung findet in Abschn. 8.4 statt.
1.4
Integrale
67
1 1 1 1 1 3 = 1+ = = 1− 2 2 2 2 2 2 der -Funktion auszunutzen. Damit bleibt das Integral ∞ ∞ 1 dx 1 −1/2 −x = 1− = dx x e = √ e−x 2 2 x 0
0
zu bestimmen. Mit der Ersetzung x = t 2 wie oben ergibt sich so ∞ ∞ √ 1 dx −x 2 = √ e = 2 dt e−t = π. 2 x 0
0
Damit ist also die Fakultät von 1/2 zu √ 1 π 1 3 = = 2 2 2 2 bestimmt. • Der Arkussinus. Die Stammfunktion der Umkehrfunktion des Sinus lässt sich auch mit dieser Methode bestimmen. Dazu wird die Substitution x(t) = sin(t) ⇒ t = Arcsin(x) verwendet. Mit dem resultierenden Differential dx = cos(t) dt folgt direkt
dx Arcsin(x) =
dt cos(t) Arcsin(sin(t)) =
dt t cos(t) ,
was mittels der partiellen Integration weiter bearbeitet werden kann. Dazu wird die Identifikation f (t) = t und g (t) = cos(t) durchgeführt. Dies hat f (t) = 1 zur Folge und führt schlussendlich auf
g(t) = sin(t)
68
1 Einführung und Wiederholung
dt t cos(t) = f (t)g(t) −
dt f (t)g(t) = t sin(t) −
dt sin(t)
= t sin(t) + cos(t) = x Arcsin(x) + 1 − x 2 . Dabei wurden im letzten Schritt t = Arcsin(x), sin(Arcsin(x)) = x und cos(t) = 1 − sin2 (t) ausgenutzt. Das letzte Argument ist zulässig, da x nur Werte zwischen minus eins und eins annehmen darf. Damit liegen die möglichen Werte von t zwischen −π/2 und π/2. Auf diesem Intervall ist der Kosinus positiv. • Der Arkuskosinus. Die Stammfunktion der Umkehrfunktion des Kosinus soll bestimmt werden. Dazu wird die Substitution x(t) = cos(t) ⇒ t = Arccos(x) verwendet. Mit dem resultierenden Differential dx = − sin(t) dt folgt direkt
dx Arccos(x) = −
dt sin(t) Arccos(cos(t)) = −
dt t sin(t) ,
was mittels der partiellen Integration weiter bearbeitet werden kann. Dazu wird die Identifikation f (t) = t und g (t) = − sin(t) durchgeführt. Dies hat f (t) = 1
g(t) = cos(t)
zur Folge und führt schlussendlich auf − dt t sin(t) = f (t)g(t) − dt f (t)g(t) = t cos(t) + dt cos(t) = t cos(t) − sin(t) = x Arccos(x) − 1 − x 2 . Dabei wurden im letzten Schritt t = Arccos(x), cos(Arccos(x)) = x und sin(t) = 1 − cos2 (t) ausgenutzt. Das letzte Argument ist zulässig, da x nur Werte zwischen minus eins und eins annehmen darf. Damit liegen die möglichen Werte von t zwischen 0 und π . Auf diesem Intervall ist der Sinus positiv. • Der Areasinus hyperbolicus. Die Stammfunktion der Umkehrfunktion des hyperbolischen Sinus soll bestimmt werden. Dazu wird die Substitution
1.4
Integrale
69
x(t) = sinh(t) ⇒ t = Arsinh(x) verwendet. Mit dem resultierenden Differential dx = cosh(t) dt , folgt direkt
dx Arsinh(x) =
dt cosh(t) Arsinh(sinh(t)) =
dt t cosh(t) ,
was mittels der partiellen Integration weiter bearbeitet werden kann. Dazu wird die Identifikation f (t) = t und g (t) = cosh(t) durchgeführt. Dies hat f (t) = 1
g(t) = sinh(t)
zur Folge und führt schlussendlich auf dt t cos(t) = f (t)g(t) − dt f (t)g(t) = t sinh(t) − dt sinh(t) = t sinh(t) − cosh(t) = x Arsinh(x) − 1 + x 2 . Dabei wurden im letzten Schritt t = Arsinh(x), sinh(Arsinh(x)) = x und cosh(t) = 1 + sinh2 (t) ausgenutzt. • Der Areakosinus hyperbolicus. Die Stammfunktion der Umkehrfunktion des hyperbolischen Kosinus soll bestimmt werden. Dazu wird die Substitution x(t) = cosh(t) ⇒ t = Arcosh(x) verwendet. Mit dem resultierenden Differential dx = sinh(t) dt , folgt direkt
dx Arcosh(x) =
dt sinh(t) Arcosh(cosh(t)) =
dt t sinh(t) ,
was mittels der partiellen Integration weiter bearbeitet werden kann. Dazu wird die Identifikation f (t) = t und g (t) = sinh(t) durchgeführt. Dies hat f (t) = 1 zur Folge und führt schlussendlich auf
g(t) = cosh(t)
70
1 Einführung und Wiederholung
dt t sinh(t) = f (t)g(t) −
dt f (t)g(t) = t cosh(t) −
dt cosh(t)
= t cosh(t) − sinh(t) = x Arcosh(x) − x 2 − 1. Dabei wurden im letzten Schritt t = Arcosh(x), cosh(Arcosh(x)) = x und sinh(t) = 2 cosh (t) − 1 ausgenutzt. Das letzte Argument ist zulässig, da x nur Werte größer als eins annehmen kann. Damit sind die möglichen Werte von t auch positiv. Auf diesem Intervall ist der hyperbolische Sinus positiv. • Stammfunktionen von Umkehrfunktionen. Die letzten paar Beispiele legen nahe, dass die Stammfunktion einer Umkehrfunktion aus der Stammfunktion der Funktion selbst bestimmt werden kann. Dies war auch schon bei Ableitungen der Fall, wo die Ableitung der Umkehrfunktion über
f −1 (x) =
1 f ( f −1 (x))
gegeben war. Um also die Stammfunktion der Umkehrfunktion zu finden soll im Integral dx f −1 (x) die Substitution x = f (t) ⇒ dx = f (t) dt vorgenommen werden. So kann im resultierenden Integral −1 −1 dx f (x) = dt f (t) f ( f (t)) = dt f (t)t die Eigenschaft einer Umkehrfunktion f −1 ( f (t)) = t ausgenutzt werden, um anschließend die partielle Integration dt f (t)t = t f (t) − dt f (t) = t f (t) − F(t) durchzuführen. Durch die Rückersetzung t = f −1 (x) ist die Stammfunktion der Umkehrfunktion durch dx f −1 (x) = f −1 (x) f ( f −1 (x)) − F( f −1 (x)) = x f −1 (x) − F( f −1 (x)) bestimmt. Um dieses Resultat zu überprüfen kann mittels der Ketten- und Produktregel die Ableitung zu
1.4
Integrale
!
71
" x f −1 (x) − F( f −1 (x)) = f −1 (x) + x( f −1 (x)) − f ( f −1 (x))( f −1 (x)) = f −1 (x) + x( f −1 (x)) − x( f −1 (x)) = f −1 (x)
bestimmt werden. Diese stimmt mit dem ursprünglichen Integranden überein, was bedeutet, dass die gefundene Funktion bis auf eine additive Konstante die gesuchte Stammfunktion ist. Technik: Translation und Streckung Ausgestattet mit der Substitutionsregel ist es möglich zwei besonders wichtige Fälle zu betrachten, mit denen Integrale von leicht modifizierten Funktionen auf bereits bekannte Integrale zurückgeführt werden können. Betrachtet wird dazu eine bekannte Funktion f (x), deren Stammfunktion F(x) bekannt ist. • Translation. Bei einer Verschiebung um den festen Wert ε ∈ R des Arguments wird von einer Translation gesprochen. Gesucht ist dann das Integral b dx f (x + ε). a
Dazu wird die Substitution u(x) = x + ε durchgeführt. Es ergeben sich somit das Differential du = 1 ⇒ dx = du dx und die neuen Grenzen u(a) = a + ε und u(b) = b + ε. Damit kann das Integral zu b a
b+ε b+ε dx f (x + ε) = du f (u) = [F(u)]a+ε a+ε
= F(b + ε) − F(a + ε) bestimmt werden. Damit ist das unbestimmte Integrale durch dx f (x + ε) = F(x + ε) gegeben. Damit muss das gesamte Integral nicht noch einmal komplett berechnet werden, sondern lediglich das Argument der Stammfunktion entsprechend verschoben werden. Ein Beispiel hierfür wäre das Integral
72
1 Einführung und Wiederholung
3 dx
1 1 − (x − 2)2 = Arcsin(3 − 2) + (3 − 2) 1 − (3 − 2)2 2
1
1 Arcsin(1 − 2) + (1 − 2) 1 − (1 − 2)2 2 1 1 = Arcsin(1) − Arcsin(−1) 2 2 π π π = + = . 4 4 2
−
Die Funktion entspricht einem Halbkreis mit Radius eins mit dem Mittelpunkt (2, 0), daher ist die Fläche tatsächlich π/2. • Streckung. Bei einer Multiplikation des Arguments mit einem Faktor α ∈ R \ {0} wird von einer Streckung gesprochen. Gesucht ist dann das Integral b dx f (αx). a
Dazu wird die Substitution u(x) = αx durchgeführt. Es ergeben sich somit das Differential 1 du = α ⇒ dx = du dx α und die neuen Grenzen u(a) = α · a und u(b) = α · b. Damit kann das Integral als b a
1 dx f (αx) = α
αb
du f (u) = [F(u)]αb αa
αa
1 = (F(αb) − F(αa)) α bestimmt werden. So lässt sich das unbestimmte Integral F(αx) dx f (αx) = α berechnen. Damit muss das gesamte Integral nicht noch einmal komplett berechnet werden, sondern es müssen lediglich das Argument der Stammfunktion entsprechend gestreckt und ein globaler Faktor α1 eingefügt werden. Zur Probe kann die Ableitung der gefundenen Stammfunktion bestimmt werden. Unter Ausnutzen der Kettenregel 1 d F(αx) = α f (αx) = f (αx) dx α α
1.4
Integrale
73
ergibt sich, dass dies die gesuchte Stammfunktion ist. Ein Beispiel hierfür wäre das Integral dx sin2 (αx) =
1 α
sin(2αx) αx − 2 4
=
x sin(2αx) − . 2 4a
In Kombination lassen sich diese beiden Regeln als b
αb+ε
dx f (αx + ε) =
du f (u) = αa+ε
a
F(αb + ε) − F(αa + ε) α
schreiben bzw. für unbestimmte Integrale als dx f (αx + ε) =
F(αx + ε) . α
Damit soll nun ein anderer Ausdruck für die Stammfunktion von Zunächst wird eine Partialbruchzerlegung
1 1−x 2
gefunden werden.
1 1 1 1 1 + · = · 2 1−x 2 1+x 2 1−x durchgeführt. Die einzelnen Nenner sind von der Form αx + ε, und es kann mit der Stammfunktion ln(|u|) von u1 sofort ein Ausdruck für die Stammfunktion gefunden werden:
1 dx dx dx + = 1 − x2 2 1+x 1−x 1 = (ln(|1 + x|) − ln(|1 − x|)) + C 2 1 + x 1 + C. = ln 2 1−x
Da es sich um ein unbestimmtes Integral handelt, wird hier zunächst die noch unbekannte Integrationskonstante C eingeführt. Die gesuchte Stammfunktion war aufgrund der Kenntnis über Ableitungen aber bereits bekannt als entweder der Artanh(x), wenn |x| < 1, oder als der Arcoth(x), wenn |x| > 1, also lassen sich diese Funktionen mit dem gefundenen Ergebnis zunächst über 1 + x 1 1 1+x + C1 = ln Artanh(x) = ln + C1 2 1−x 2 1−x 1 + x 1 + C2 = 1 ln x + 1 + C2 Arcoth(x) = ln 2 1−x 2 x −1
74
1 Einführung und Wiederholung
in Verbindung bringen. Um die noch unbekannten Konstanten C1 und C2 zu bestimmen, müssen beide Seiten für einen bestimmten Wert von x ausgewertet werden. Für den Artanh(x) mit dem Definitionsbereich |x| < 1 bietet sich der Wert x = 0 an. Hier ist der Funktionswert des Artanh(x) durch null gegeben, während im natürlichen Logarithmus auf der rechten Seite das Argument den Wert eins annimmt und der Logarithmus damit verschwindet. Somit folgt, dass die Konstante C1 ebenfalls null ist. Für den Arcoth(x) bietet sich eine Grenzwertbetrachtung für x → ∞ an. Da der coth(y) gegen unendlich strebt, wenn y im Positiven gegen null strebt, wird der Arcoth(x) für x → ∞ ebenfalls im Positiven gegen null streben. Andererseits werden auf der rechten Seite Zähler und Nenner im Argument des Logarithmus jeweils durch x dominiert werden. Damit streben das Argument des Logarithmus gegen eins und der Logarithmus selbst gegen null. Auch in diesem Fall zeigt sich, dass die Konstante C2 den Wert null annehmen muss. Somit zeigt sich insgesamt, dass der Artanh(x) und der Arcoth(x) durch den natürlichen Logarithmus mittels 1 1+x Artanh(x) = ln 2 1−x 1 x +1 Arcoth(x) = ln 2 x −1 ausgedrückt werden können. Technik: gerade und ungerade Funktionen Ausgestattet mit der Substitutionsregel lassen sich bestimmte Integrale auf symmetrischen Intervallen vereinfachen. Dazu wird ausgenutzt, dass sich Funktionen f (x) in gerade und ungerade Anteile f g (x) und f u (x) nach f (x) = f g (x) + f u (x) zerlegen lassen. Es sollen dazu zunächst über die geraden bzw. ungeraden Anteile bestimmte Integrale auf dem symmetrischen Intervall [−a, a] betrachtet werden. In beiden Fällen ist es sinnvoll das Integral gemäß a
a dx f g/u (x) =
−a
0 dx f g/u (x) +
0
dx f g/u (x)
−a
aufzuspalten. Nach einer Substitution der Form u = −x im zweiten Integral ergibt sich wegen du = − dx der Ausdruck
1.4
Integrale
75
a
a dx f g/u (x) =
−a
0 dx f g/u (x) −
du f g/u (−u)
0
a
a
a
=
dx f g/u (x) + 0
dx f g/u (−x). 0
Im letzten Schritt wurden dabei zunächst die obere und untere Grenze durch ein zusätzliches Vorzeichen miteinander getauscht. Danach wurde ausgenutzt, dass der Name der Integrationsvariable beliebig ist, und es wurde statt u der Variablenname x gewählt. Nun können die Eigenschaften der jeweiligen Anteile ausgenutzt werden. 1. Bei den geraden Anteilen f g (x) lässt sich das Vorzeichen im Argument ignorieren, und es ergibt sich somit a
a dx f g (x) =
−a
a dx f g (x) +
0
a dx f g (x) = 2
0
dx f g (x).
(1.28)
0
Statt das Integral auf dem symmetrischen Intervall auszurechnen, können das Intervall auch halbiert und stattdessen das Ergebnis verdoppelt werden. Bildlich ergibt dies durchaus Sinn, da die Funktion an der y-Achse gespiegelt wird. Die Fläche, die links der y-Achse liegt, wird denselben Flächeninhalt haben wie die Fläche rechts davon. Es wird so nur der Flächeninhalt rechts der y-Achse bestimmt. Dieser Umstand ist in Abb. 1.7a zu sehen. 2. Bei den ungeraden Anteilen kann das Vorzeichen aus der Funktion gezogen werden, und es gilt a
a dx f u (x) =
−a
a dx f u (x) −
0
dx f u (x) = 0.
(1.29)
0
Bei einem Integral einer ungeraden Funktion über ein symmetrisches Intervall ist das Ergebnis also null. Dies lässt sich auch bildlich verstehen. Durch die Punktspiegelung entsteht auf der linken Seite der y-Achse ein Flächeninhalt, der genauso groß ist wie der rechts von der y-Achse. Allerdings liegt diese Fläche auf der entgegengesetzten Seite der x-Achse. Die Flächen unterhalb der x-Achse werden negativ gewertet. Dadurch gleichen sich diese Beiträge exakt gegeneinander aus. Dieser Umstand ist in Abb. 1.7b zu sehen. Mithilfe dieser Technik lassen sich teilweise kompliziert wirkende Integrale schnell lösen. Als Beispiel sei das Integral
76
1 Einführung und Wiederholung
Abb. 1.7 Veranschaulichung zu den Flächen bei geraden und ungeraden Funktionen. Das gesamte Intervall wird an der Vertikalen halbiert, und es werden zwei Flächen betrachtet. In a ist die Situation für eine gerade Funktion zu sehen. Hier zählen die Fläche rechts und links der Vertikalen beide positiv in die Gesamtfläche hinein. Da beide dieselbe Größe haben, muss nur eine der beiden bestimmt werden. In b ist eine ungerade Funktion zu sehen. Die Fläche unterhalb der Horizontalen ist negativ gewichtet und gleicht die positiven Beiträge der Fläche oberhalb der Achse aus
2
dx x 2 sin(x) e−x
2
−2
betrachtet. Ein naiver Ansatz wäre das Aufsuchen einer Stammfunktion beispielsweise mittels partieller Integration oder Substitution und das schlussendliche Einsetzen der Grenzen. Stattdessen lässt sich dieses Integral durch eine genaue Betrachtung des Integranden lösen. Der Integrand f (x) = x 2 sin(x) e−x
2
ist wegen f (−x) = (−x)2 sin(−x) e−(−x) = −x 2 sin(x) e−x = − f (x) 2
2
eine ungerade Funktion, und nach der obigen Erkenntnis ist dieses Integral demnach null. Sollte das Intervall nicht symmetrisch um den Ursprung sein, lassen sich dennoch solche Zerlegungen durchführen.11 Ist also das Intervall [a, b] gegeben, so ist der Mittelpunkt des ! " b−a b−a Intervalls μ = a+b 2 , und das Intervall lässt sich schreiben als μ − 2 , μ + 2 . Nun kann mittels der Translation u = x − μ das Integral auf ein symmetrisches Intervall 11 In der Physik kommen solche Situationen äußerst selten vor, da die meisten „komplizierten“ Inte-
grale als Grenzen ein Intervall (−∞, ∞) aufweisen.
1.4
Integrale
77 μ+ b−a 2
b
b−a
dx f (x) = a
2 dx f (x) =
μ− b−a 2
du f (u + μ) − b−a 2
reduziert werden. Mit der neuen Funktion g(x) = f (x + μ) lassen sich die Symmetrieeigenschaften von g bestimmen, und die obigen Argumente finden eine Anwendung. Als Beispiel wird die Funktion f (x) = x · sin((x − 3)) auf dem Intervall [2, 4] betrachtet. Der Mittelpunkt des Intervalls ist μ = 3, und das Integral lässt sich umschreiben zu 4
1 dx f (x) =
1 du f (u + 3) =
−1
2
du (u + 3) sin(u + 3 − 3) = −1
1 =
1 du (u + 3) sin(u) −1
1 du u · sin(u) + 3
−1
du sin(u) .
−1
Das zweite Integral ist eine ungerade Funktion auf einem symmetrischen Intervall, und daher ist dieses Integral null. Das erste Integral ist eine gerade Funktion auf einem symmetrischen Intervall. Mittels partieller Integration lässt sich dieses zu 1
1 du u · sin(u) = 2
−1
⎛ du u · sin(u) = 2 ⎝[− cos(u) u]10 +
0
1
⎞ du cos(u)⎠
0
= 2 − cos(1) + [sin(u)]10 = 2 (− cos(1) + sin(1))
lösen. Damit ist das Ergebnis des ursprünglichen Integrals durch 4 dx x · sin((x − 3)) = 2 (sin(1) − cos(1)) 2
gegeben. Feynman-Trick Oft gibt es bestimmte Integrale, deren Stammfunktion nicht oder nur sehr umständlich ausgeschrieben werden kann. Das bestimmte Integral lässt sich allerdings dennoch berechnen.
78
1 Einführung und Wiederholung
Dazu wird ein zusätzlicher Parameter α eingeführt. Der Trick besteht darin, den Integranden f (x) als eine Ableitung beliebiger Ordnung einer Funktion g(α, x) nach diesem neuen Parameter aufzufassen. Dabei sollte g(α, x) so gewählt sein, dass entweder die Stammfunktion oder das betrachtete bestimmte Integral bekannt ist, denn es wird die Ableitung vor das Integral gezogen, und es ist nur noch das Integral von g(α, x) zu bestimmen. Danach muss das Ergebnis nach α abgeleitet werden. Das Einführen von α geschieht meist so, dass der ursprüngliche Ausdruck f (x) für den Fall α = 1 erhalten wird. Formal lässt sich dies mittels b
b dx f (x) =
a
b dx f (x, α = 1) =
a
dx
dn g(α, x) dα n
a
⎡ dn =⎣ n dα
b
α=1
⎤ dx g(α, x)⎦
a
α=1
ausdrücken.12 Um das finale Ergebnis zu erhalten, müssen zunächst die Ableitungen bezüglich α gebildet werden, und erst danach kann α = 1 gesetzt werden. Solche Integrale werden auch als Parameterintegrale bezeichnet. In der Physik wird diese Methode häufig nach dem amerikanischen Physiker Richard Feynman als Feynman-Trick bezeichnet. Am besten lässt sich diese Methode an einem konkreten Beispiel verstehen. Zunächst wird das Integral ∞
dx x e−x
0
betrachtet. Der Integrand f (x) = x e−x lässt sich schreiben als f (x) = f (x, α = 1) f (α, x) = x e
−α·x
d −α·x . e =− dα
Damit wird das Integral zu
12 Formal korrekt wäre hier eigentlich ∂ n anstelle von d n innerhalb des Integrals, da die Funktion dα n ∂α n
g von x und α abhängt, das Integral selbst aber nur noch von α abhängen kann, da x „wegintegriert“ wird. Da die partielle Ableitung aber erst in Kap. 8 eingeführt wird, wird zur Vereinfachung hier eine totale Ableitung ausgeschrieben.
1.4
Integrale
∞ 0
79
⎡ dx x e−x = − ⎣
d dα
∞ 0
d 1 =− dα α
⎤
dx e−α·x ⎦
α=1
1 = α2
=−
α=1 α=1
∞ 1 d − e−α·x dα α 0 α=1
= 1.
Dies funktioniert unter dem Vorbehalt, dass α nur positive Werte annimmt. Da aber α = 1 positiv ist, kann der Bereich für α darauf eingeschränkt werden, ohne dabei Probleme zu bereiten. Dies steht in Einklang mit der Erkenntnis aus dem Abschnitt über partielle Integration. Dort wurde dieses Integral mit der Gamma-Funktion (1 + 0) identifiziert. Der Wert war durch die Fakultät gegeben, und es zeigt sich somit (1 + 0) = 0! = 1, was eben erneut bestätigt wurde. Ein zweites Beispiel bietet das Integral ∞
dx x 2 e−x . 2
−∞
Dieses taucht in leicht abgewandelter Form beim Bestimmen der Varianz einer GaußVerteilung auf. Hier wird wieder im Exponenten der Parameter α eingeführt und das x 2 als negative Ableitung nach α aufgefasst: ⎡ ⎤ ∞ ∞ ∞ d d 2 2 2 e−α·x dx x 2 e−x = − dx = −⎣ dx e−α·x ⎦ dα dα α=1 −∞ −∞ −∞ α=1 √ d π 1 π π . =− = = dα α α=1 2 α 3 α=1 2 Dabei wurde das Gauß-Integral leitet wird.
1.4.3
∞ −∞
dx e−ax = 2
π a
eingesetzt, das in Abschn. 8.4 herge-
Anwendung in der Physik: Trennung der Variablen zum Lösen von Differentialgleichungen erster Ordnung
Da Integrale nummerisch mit der Definition aus Abschn. 1.4.1 bestimmt werden können, sind Probleme in der Physik häufig bereits dann als gelöst anzusehen, wenn sie auf ein einfaches Integral reduziert wurden. Für Differentialgleichungen erster Ordnung ist dies durch eine besonders simple Technik schnell zu erreichen. Dabei kann auf zwei Weisen vorgegangen werden. Entweder es werden Integrationskonstanten eingefügt, die über die Anfangsbedingungen später zu bestimmen sind, oder es werden direkt explizite Integrationsgrenzen verwendet, um die Anfangsbedingungen zu berücksichtigen.
80
1 Einführung und Wiederholung
Wiederholung: Differentialgleichungen Zunächst soll noch einmal daran erinnert werden, was eine Differentialgleichung ist. In einer Differentialgleichung wird eine zu Anfang unbekannte Funktion f (x) mit ihren Ableitungen f (x), f (x) usw. in Verbindung gebracht. Das Problem besteht dann darin, die Funktion f (x) zu finden, die solch eine Gleichung erfüllt. Im Folgenden werden nur lineare Differentialgleichungen betrachtet. Von linearen Differentialgleichungen wird gesprochen, wenn sich die Differentialgleichung in der Form n
αk (x) f (k) (x) = g(x)
(1.30)
k=0
schreiben lässt. Dabei können die αk (x) selbst auch von x abhängen und αn (x) = 0. Eine lineare Differentialgleichung enthält keine Terme, in denen die Funktion f oder ihre Ableitung miteinander multipliziert werden. Die Ordnung einer linearen Differentialgleichung wird durch die höchste auftretenden Ableitung der Funktion f bestimmt. Die Funktion g(x) wird als Inhomogenität bezeichnet, und in Zuge dessen wird eine Differentialgleichung mit g(x) = 0 als homogene Differentialgleichung bezeichnet. Zu jeder inhomogenen Differentialgleichung gibt es auch eine homogene Differentialgleichung, die gefunden wird, indem die Inhomogenität auf null gesetzt wird. Die Lösungen der zugehörigen homogenen Gleichung werden als homogene Lösung mit einem tiefgestellten „h“, also f h bezeichnet, während die Lösung, die nach Einsetzen die Inhomogenität g(x) ergibt, als partikuläre Lösung mit einem tiefgestellten „p“, also f p bezeichnet wird. Für eine homogene Differentialgleichung n
αk (x) f (k) (x) = 0
(1.31)
k=0
wird es n unabhängige homogene Lösungen geben. Diese homogenen Lösungen können mit einer Konstante λ ∈ R multipliziert oder untereinander addiert werden und bleiben dabei dennoch Lösungen der homogenen Lösungen der Differentialgleichung (1.31). Zu diesem Zwecke sollen die beiden Lösungen f 1 (x) und f 2 (x) betrachtet werden, die mit den Koeffizienten λ, μ ∈ R in der Kombination f (x) = λ f 1 (x) + μ f 2 (x) in Gl. (1.31) eingesetzt werden. Wird dann die Rechnung
1.4
Integrale n
81
αk (x) f
(k)
(x) =
k=0
n
αk (x)
k=0
=
n
dk (λ f 1 (x) + μ f 2 (x)) dx k
(k) (k) αk (x) λ f 1 (x) + μ f 2 (x)
k=0
=
n
(k)
αk (x)λ f 1 (x) +
k=0 n
=λ
n
(k)
αk (x)μ f 2 (x)
k=0 (k)
αk (x) f 1 (x) + μ
k=0
n
(k)
αk (x) f 2 (x) = 0
k=0
herangezogen, in der ausgenutzt wurde, dass die Ableitung nach Abschn. 1.3.1 linear ist und dass f 1 und f 2 beide Lösungen von Gl. (1.31) sind, so zeigt sich die Behauptung. Demnach setzt sich die allgemeine Lösung von Gl. (1.30) auch aus einer Funktion zusammen, die beim Einsetzten in die Differentialgleichung exakt die Homogenität ergibt, und aus einer Summe der möglichen homogenen Lösungen. Diese Summe der homogenen Lösungen führt auf der linken Seite der Gleichungen zu keiner Änderung, da effektiv nur Nullen aufaddiert werden. Da in der Physik Differentialgleichungen typischerweise die Dynamik eines Systems beschreiben, nicht aber seinen Ausgangszustand, werden Anfangsbedingungen benötigt. Diese Anfangsbedingungen werden über die Koeffizienten in der Kombination der homogenen Lösungen bestimmt. Anders als die homogenen Lösungen können partikuläre Lösungen nicht mit einer beliebigen Konstante multipliziert werden, was am Beispiel unten klar wird, sich aber bereits aus der Gl. (1.30) erkennen lässt. Denn hier würde sich für eine mögliche partikuläre Lösung f p (x) mit der gestreckten Funktion f˜(x) = λ f p (x) auf der linken Seite von Gl. (1.30) der Term λg(x) ergeben, der offensichtlich nicht Gl. (1.30) erfüllt. Andererseits ist die partikuläre Lösung einer Inhomogenität, die sich als Summe zweier Funktionen g(x) = g1 (x) + g2 (x) schreiben lässt, durch die Summe f (x) = f p,1 (x) + f p,1 (x) der jeweiligen partikulären Lösungen, die die Gleichungen n k=0
(k)
αk (x) f p,1 (x) = g1 (x)
n
(k)
αk (x) f p,2 (x) = g2 (x)
k=0
erfüllen, gegeben. Ein physikalisches Beispiel bieten hier Gravitationspotentiale in der Newton’schen Physik. Dort sind die Gravitationspotentiale durch eine lineare Differentialgleichung gegeben, deren Inhomogenität durch die Massenverteilung gegeben ist. Liegt nun ein Problem vor, in dem zwei räumlich getrennte Massenverteilungen vorhanden sind, so kann das Gravitationspotential als eine Summe der Gravitationspotentiale, als wäre je nur eine Masse vorhanden, aufgeschrieben werden. Ähnlich sieht es in der Elektrostatik aus, in der das elektrische Feld einer aus vielen einzelnen Ladungsverteilung bestehenden Ladungsver-
82
1 Einführung und Wiederholung
teilung als Summe der einzelnen elektrischen Felder geschrieben werden kann. Interessant ist hierbei, dass im Falle der Gravitation die Newton’sche Gesetzmäßigkeit der Gravitation nur ein Grenzfall der allgemeinen Relativitätstheorie ist, die die Gravitationspotentiale über eine nicht lineare Differentialgleichung bestimmt. Das heißt, im relativistischen Fall ist das Gravitationspotential einer zusammengesetzten Massenverteilung nicht als die Summe der einzelnen Gravitationspotentiale gegeben. Für den Rest dieses Kapitels sollen nur Differentialgleichungen erster Ordnung betrachtet werden, die aber nicht zwingend linear sein müssen. Die Differentialgleichung f (x) = 5x ist ein Beispiel für eine lineare, inhomogene Differentialgleichung erster Ordnung. Die Inhomogenität ist hierbei g(x) = 5x 2 , und somit ist f (x) = 0 die dazu gehörende homogene Differentialgleichung. Aus Abschn. 1.3.1 ist bekannt, dass die Ableitung einer Konstante C null ergibt. Damit ist f h (x) = C für ein bisher unbestimmtes C ∈ R die homogene Lösung der Differentialgleichung. Die partikuläre Lösung, also die Lösung der inhomogenen Gleichung, muss beim Ableiten proportional zu x sein. Ebenfalls aus Abschn. 1.3.1 ist bekannt, dass die Funktion f˜(x) = x 2 beim Ableiten die Funktion f˜ (x) = 2x ergibt. Aus diesem Grund ergibt sich f p (x) =
5 2 x 2
als partikuläre Lösung. Hieran lässt sich die wichtige Eigenschaft der partikulären Lösung erkennen, dass sie nicht mit einer beliebigen Konstante multipliziert werden können. Die allgemeine Lösung ist durch die Funktion 5 f (x) = C + x 2 2 gegeben. Eine mögliche Anfangsbedingung f (0) = 3 kann durch die Wahl C = 3 bestimmt werden. Differentialgleichung erster Ordnung und Trennung der Variablen Eine Differentialgleichung erster Ordnung, die sich als df = h( f (x))g(x) dx
(1.32)
1.4
Integrale
83
schreiben lässt, kann über das Verfahren „Trennung der Variablen“ gelöst werden. Dazu wird die Rechnung df 1 df = h( f (x))g(x) ⇒ = g(x) dx h( f (x)) dx 1 df 1 ⇒ dx = df = dx g(x) h( f (x)) dx h( f ) herangezogen. Auf der linken Seite der zweiten Zeile wurde dabei die Substitutionsregel angewandt. Allerdings sind die Integrationsgrenzen noch nicht spezifiziert, und hier kommen die eingangs erwähnten zwei Methoden ins Spiel • Es kann zuerst das unbestimmte Integral berechnet werden. Dazu sollen die Stammfunktion von h(1f ) durch J ( f ) und die Stammfunktion von g(x) durch G(x) gegeben sein. Da auf beiden Seiten beim Einfügen der Integrationskonstanten eine additive Konstante auftritt, können diese in eine einzige Konstante C auf der rechten Seite aufgefasst werden. Die so entstehende Gleichung J ( f ) = G(x) + C muss nach f aufgelöst werden. Durch Einsetzen von f = f 0 und x = x0 lässt sich die Integrationskonstante zu C = J ( f 0 ) − G(x0 ) bestimmen. • Mit den Erkenntnissen der ersten Methode lässt sich die Lösung aber auch als J ( f ) = G(x) + J ( f 0 ) − G(x0 )
⇒
J ( f ) − J ( f 0 ) = G(x) − G(x0 )
schreiben. Da J und G aber Stammfunktionen sind, lassen sich die additiven Konstanten auf jeder Seite in die untere Grenze eines bestimmten Integrals einflechten, wie es in Abschn. 1.4.1 getan wurde. Damit kann das Integral auf der rechten Seite bei x0 begonnen werden und läuft bis zu dem in der Lösung f (x) betrachteten Wert von x. Auf der linken Seite hingegen muss das Integral bei f 0 beginnen und läuft bis zum betrachteten Wert f (x). Die Differentialgleichung (1.32) ist dann durch das Integral f (x) d f˜ f0
1 h( f˜)
x d x˜ g(x), ˜
=
(1.33)
x0
welches noch explizit nach f (x) aufgelöst werden muss, gelöst. Diese Methode erweist sich als etwas sinnvoller, da so die Anfangsbedingungen nicht mehr im Nachhinein durch explizites Bestimmen der Integrationskonstanten eingeflochten werden müssen.
84
1 Einführung und Wiederholung
Trennung der Variablen am Beispiel des gebremsten freien Falls Zum Schluss soll als Beispiel die Differentialgleichung dv + γ v = −g dt betrachtet werden. Darin wird die Geschwindigkeit v(t) als Funktion der Zeit gesucht. Zum Zeitpunkt t = t0 soll die Geschwindigkeit bei v0 liegen. Diese Differentialgleichung beschreibt physikalisch ein Objekt, dass sich im freien Fall unter dem Einfluss der Schwerebeschleunigung g befindet und dessen Luftwiderstand linear mit der Geschwindigkeit gehen soll.13 Ein negativer Wert für die Geschwindigkeit entspricht dabei einem Fall in Richtung Erdboden. Diese Differentialgleichung lässt sich zu dv = (−1)(g + γ v) dt umschreiben, und es lassen sich so die Funktionen g(t) = −1 und h(v) = g + γ v identifizieren. Damit wird die Lösung entsprechend der zweiten Methode implizit durch die Lösung von v v0
1 = dv˜ g + γ v˜
t
dt˜ (−1)
t0
gegeben sein. Das Integral der rechten Seite lässt sich einfach zu t
dt˜ (−1) = −(t − t0 )
t0
bestimmen, während für das zweite Integral über die Substitution x = g + γ v und mit der Rechnung v v0
g+γ v 1 1 = ln(x) dx x γ g+γ v0 g+γ v0 g + γv 1 = ln γ g + γ v0
1 1 = dv˜ g + γ v˜ γ
g+γ v
die Lösung gefunden werden kann. Darin wurden die Logarithmengesetze benutzt, sowie, dass ln(x) die Stammfunktion von x1 ist. Damit ergibt sich die implizite Gleichung 13 Diese Annahme entspricht der Stokes’schen Reibung, daneben gäbe es noch die Newton’sche
Reibung, deren quadratisches Geschwindigkeitsprofil aber zu einer etwas komplizierteren Gleichung führt.
1.4
Integrale
85
g + γv 1 = −(t − t0 ), ln γ g + γ v0 die nach v aufgelöst den Ausdruck g g + ( + v0 ) e−γ (t−t0 ) γ γ g 1 − e−γ (t−t0 ) = v0 e−γ (t−t0 ) − γ
v(t) = −
ergibt. Darin zeigt sich, dass für t = t0 die Startgeschwindigkeit v = v0 vorliegt, während für große Zeiten γ (t∞ − t0 ) 1 die Exponentialfunktionen effektiv auf null gehen und somit eine maximale Geschwindigkeit v(t∞ ) = −
g γ
erreicht wird.
1.4.4
Formelsammlung Integrale
Integrale – Definition b dx f (x) = lim
x→0
a
n−1
x f (a + ix)
x =
i=0
b−a n
Grundregeln zum Rechnen mit bestimmten Integralen • Linearität b dx
b b α f (x) + βg(x) = α dx f (x) + β dx g(x)
a
a
a
• Addition von Grenzen b
c dx f (x) +
a
c dx f (x) =
dx f (x) a
b
• Benennung von Integrationsvariablen b
b dx f (x) =
a
b dt f (t) =
a
du f (u) = · · · a
86
1 Einführung und Wiederholung
• Tauschen von Grenzen b
a dx f (x) = −
a
dx f (x) b
• Beträge abschätzen b b dx f (x) ≤ dx | f (x)| a
a
• Uneigentliche Integrale b
ε dx f (x) ≡ lim
ε→b
a
dx f (x) a
Stammfunktionen – Definition und Zusammenhang zu bestimmten Integralen
x dx f (x) ≡ F(x) + C =
b dt f (t)
x0
dt f (t) = F(b) − F(a) ≡ [F(x)]ab a
Hauptsatz der Differential- und Integralrechnung
F (x) = f (x)
f (x) =
dx f (x)
Weitere Regeln zum Rechnen mit Integralen • Partielle Integration
dx f (x)g (x) = f (x)g(x) − b
dx f (x)g (x) = a
dx f (x)g(x) b
[ f (x)g(x)]ab
−
dx f (x)g(x)
a
• Phönix aus der Asche: von Fall zu Fall unterschiedlich. Integral durch partielle Integration so lange bearbeiten, bis es in die Summe zweier Terme zerfällt, wobei einer das ursprüngliche Integral mit einem zusätzlichen Faktor ist. • Partialbruchzerlegung a(x) b(x) dx = dx + dx f (x)g(x) f (x) g(x)
1.4
Integrale
87
• Die Substitutionsregel I b u = u(x) ⇒
u(b) dx f (u(x))u (x) = du f (u)
a
u(a)
• Die Substitutionsregel II b x = x(t) ⇒
tb dx f (x) =
a
dt f (x(t))x (t)
ta
• Translation und Streckung dx f (αx + ε) =
F(αx + ε) α
dx f (αx + ε) =
F(αb + ε) − F(αa + ε) α
b a
• Gerade und ungerade Funktionen über symmetrische Intervalle a
a dx f g (x) = 2
−a
a dx f g (x)
dx f u (x) = 0 −a
0
• Feynman-Trick b
b dx f (x) =
a
dx
dn g(α, x) dα n
a
α=1
⎡ dn =⎣ n dα
b
⎤ dx g(α, x)⎦ α=1
a
Trennung der Variablen df = h( f (x))g(x) dx
⇒
f (x) d f˜ f0
x
1 h( f˜)
d x˜ g(x) ˜
= x0
Besondere bestimmte Integrale ∞ (1 + n) ≡
n −x
dx x e
∞ = n(n) = n!
0
Beispiele für Stammfunktionen in Tab. 1.4
−∞
dx e−ax = 2
π a
88
1 Einführung und Wiederholung
Tab. 1.4 Tabelle mit grundlegenden Stammfunktionen f (x)
F(x)
Kommentar
xn
x n+1 n+1
n ∈ R \ {−1}
1 x
ln(|x|)
sin(x)
− cos(x)
cos(x)
sin(x)
tan(x)
− ln(| cos(x) |)
cot(x)
ln(| sin(x) |)
Arcsin(x)
x Arcsin(x) +
Arccos(x)
1 − x2 x Arccos(x) − 1 − x 2
sinh(x)
cosh(x)
cosh(x)
sinh(x)
Arsinh(x)
x Arsinh(x) −
Arcosh(x) tanh(x)
− ln(| cosh(x) |)
coth(x)
ln(| sinh(x) |)
ax
ax ln(a) 1 α·x αe
ln(x)
x ln(x) − x
sin2 (x)
x − sin(2x) 2 4 x + sin(2x) 2 4 − x2 + sinh(2x) 4 x + sinh(2x) 2 4 1 2 2 Arcsin(x) + x 1 − x 1 + x 1 + x2 2 Arsinh(x) − 21 Arcosh(x) − x x 2 − 1 1+x 1 2 ln 1−x
cos2 (x) sinh2 (x) cosh2 (x) 1 − x2 1 + x2 x2 − 1 1 1−x 2
1.5
x ∈ [−1, 1]
x2 + 1 x Arcosh(x) − x 2 − 1
eα·x
x ∈ [−1, 1]
x ≥1
a>0 α = 0
x ∈ [−1, 1]
x = 1
Komplexe Zahlen
In diesem Abschnitt soll es um komplexe Zahlen gehen. Diese werden zwar häufig nicht mehr in der Schule durchgenommen, sind aber ein grundlegender Bestandteil für die Mathematikkenntnisse in der Physik. Sie erlauben es nicht nur Lösungen zu Gleichungen zu finden, die in den reellen Zahlen keine Lösung haben, sondern auch Probleme in eine höhere Dimension zu heben, um sie zu lösen. Ähnlich wie beim Feynman-Trick für Integration werden
1.5
Komplexe Zahlen
89
zusätzliche Parameter definiert, mit deren Hilfe das Problem wesentlich einfacher zu lösen ist.
1.5.1
Motivation und Grundregeln
Motivation In den einzelnen Zahlenmengen, die in der Schule nach und nach aufgebaut werden, gibt es stets Gleichungen, die sich nicht lösen lassen. In den natürlichen Zahlen N = {1, 2, 3, . . . } hat die Gleichung n+m =n keine Lösung. Um diese Gleichung zu lösen, muss die Null mit in die natürlichen Zahlen aufgenommen werden und so die Menge N0 = {0, 1, 2, . . . } betrachtet werden. In dieser Menge hat jedoch die Gleichung n+m =0 keine Lösung. Um hierfür Lösungen zu finden, müssen die negativen Zahlen als eine Erweiterung der natürlichen Zahlen eingeführt werden. Dies führt zu den ganzen Zahlen Z = {. . . , −2, −1, 0, 1, 2, . . . }. In dieser Menge an Zahlen gibt es aber wiederum keine Lösung für Gleichungen wie 5n = 1. Um Lösungen für diese Gleichung zuzulassen, werden rationale Zahlen, also Brüche benötigt; diese werden mit Q notiert. Auch in dieser Menge gibt es Gleichungen, die keine Lösungen erlauben. Diese sind zum Beispiel Gleichungen wie x 2 = 2. Um solche Gleichungen zu lösen, muss eine Erweiterung auf die reellen Zahlen R durchgeführt werden. Diese beinhalten nicht nur Lösungen zu Gleichungen, deren Lösungen durch Wurzeln gegeben sind,14 sondern auch besondere Konstanten wie π oder e, die keine Lösung solcher polynomieller Gleichungen sind, aber dennoch nicht in Q liegen.15 Doch auch in R gibt es Gleichungen, die sich nicht lösen lassen. Die entsprechende Erweiterung führt auf die komplexen Zahlen. Die Gleichung
14 Lösungen solcher Gleichungen heißen algebraische Zahlen. 15 Solche Zahlen heißen transzendente Zahlen.
90
1 Einführung und Wiederholung
ax 2 + bx + c = 0 hat nicht immer eine Lösung in R. Das einfachste Beispiel für solch eine Gleichung ist f (x) = 1 + x 2 . Die Funktion f (x) ist für alle möglichen x positiv und größer als eins. Somit hat f (x) keine Nullstelle in R. Wird nun aber davon ausgegangen, dass diese Gleichung eine Lösung hätte, müsste nach Umstellen eine der Lösungen die Eigenschaft x 2 = −1 erfüllen. Diese besondere Zahl, die sicher nicht Teil der reellen Zahlen ist, soll den Namen i tragen, und es gilt i2 = −1.
(1.34)
i wird als imaginäre Einheit bezeichnet. Die Lösungen der obigen Gleichung sind dann sowohl i als auch −i. Das Besondere ist hierbei, dass i nicht nur die Lösung einer einzigen Gleichung ermöglicht, sondern eine ganze Klasse von Gleichungen damit gelöst werden kann. Wird zum Beispiel f (x) = a 2 + x 2 betrachtet, dann sind die Nullstellen der Funktion mittels des Ansatzes x = yi zu finden, worin y eine neue Variable ist, die mit der imaginären Einheit multipliziert wird. Damit löst sich die Gleichung gemäß 0 = a 2 + x 2 = a 2 + (iy)2 = a 2 + i2 y 2 = a 2 − y 2 ⇒ y1/2 = ±a auf. Die Lösungen für f (x) = 0 lauten also x1/2 = ±ia. Außerdem lassen sich nicht nur quadratische Gleichungen damit auflösen.16 Es soll dafür das Beispiel der kubischen Gleichung f (x) = x 3 − 2x 2 + 2x = 0 betrachtet werden. Die erste Nullstelle kann durch Faktorisierung gefunden werden und ist x = 0. Das verbleibende Polynom ist g(x) = x 2 − 2x + 2. Durch naives Anwenden der pq-Formel ergeben sich die Lösungen √ x1/2 = 1 ± 12 − 2 = 1 ± −1. 16 Tatsächlich lassen sich Polynome von Grad n in n Linearfaktoren der Art z − z aufspalten. Das i heißt, es lassen sich n Nullstellen bestimmen, von denen einige jedoch zusammenfallen könnten. Dies ist eine Folgerung aus dem Fundamentalsatz der Algebra, der hier jedoch nicht bewiesen werden soll. Er sagt somit auch aus, dass es keine polynomielle Gleichung auf den komplexen Zahlen gibt, die nicht gelöst werden können. Damit ist die Reise durch unlösbare Gleichungen auf einer bestimmten Menge gewissermaßen an einem Ende angelangt. Es gibt jedoch eventuell andere Strukturen, die untersucht werden wollen, für die nicht mal die komplexen Zahlen ausreichend sind. Ein Beispiel sind spezielle Verknüpfungsgebilde, die beispielsweise durch Matrizen erfüllt werden können. Ein solches Beispiel in der Physik sind die Pauli-Matrizen σi , die die Verknüpfungsvorschrift σi σ j − σ j σi = 2ii jk σk mit dem Levi-Civita-Symbol aus Abschn. 2.4 erfüllen.
1.5
Komplexe Zahlen
91
Die Wurzel von minus eins lässt sich hier aber durch die oben gefundene imaginäre Einheit ersetzen, denn diese muss ja quadriert werden um minus eins zu ergeben und ist folglich eine Wurzel von minus eins. Also sind x1/2 = 1 ± i die zwei verbleibenden Lösungen der Gleichung. Die so entstandene Zahl hat die Form x = a + ib mit zwei reellen Zahlen a und b. Eine Zahl einer solchen Form z = a + ib
(1.35)
wird als komplexe Zahl bezeichnet. Die Zahlen a und b heißen dann Real- und Imaginärteil von z und werden mit der Notation a = Re [z]
b = Im [z]
versehen. Die Menge all dieser Zahlen wird als die Menge der komplexen Zahlen mit dem Zeichen C bezeichnet. Bildlich lassen sich komplexe Zahlen wie folgt auffassen. Der Realteil und der Imaginärteil bilden zwei voneinander unabhängige Parameter. Damit gibt es zwei Freiheitsgrade für eine komplexe Zahl z. Dies entspricht der Wahl eines Punktes in einem zweidimensionalen Koordinatensystem. Per Konvention gibt der Realteil die Position auf der Horizontalen an, während der Imaginärteil die Position auf der Vertikalen angibt, zu sehen in Abb. 1.8a. In so einem Aufzeichnungsschema wird die entstehende zweidimensionale Ebene als Gauß’sche Zahlenebene bezeichnet. Eine komplexe Zahl z ist demnach entweder ein Punkt in der Zahlenebene oder ein Vektor in der Zahlenebene. Grundlegende Rechenregeln Die Idee für die grundlegenden Rechenregeln ist es die Rechenregeln der reellen Zahlen zu übernehmen und dabei stets i2 = −1 zu berücksichtigen. Die Ergebnisse werden immer so zusammengefasst, dass es Terme als Vielfaches von i gibt und Terme, die kein i beinhalten. So ergeben sich für zwei komplexe Zahlen z 1 = a1 + ib1 und z 2 = a2 + ib2 die Addition z 1 + z 2 = a1 + ib1 + a2 + ib2 = (a1 + a2 ) + i(b1 + b2 )
(1.36)
und die Multiplikation z 1 z 2 = (a1 + ib1 )(a2 + ib2 ) = a1 a2 + ib1 a2 + ia1 b2 + i2 b1 b2 = a1 a2 + i(b1 a2 + a1 b2 ) + (−1)b1 b2 = (a1 a2 − b1 b2 ) + i(a1 b2 + a2 b1 ).
(1.37)
Bei der Addition werden der Realteil und der Imaginärteil also komponentenweise addiert, genau wie bei Vektoren. Bei der Multiplikation offenbart sich eine Besonderheit der kom-
92
1 Einführung und Wiederholung
plexen Zahlen. Anders als bei zweidimensionalen Vektoren gibt es hier ein Produkt aus zwei komplexen Zahlen, das wieder eine komplexe Zahl ist. Eine Veranschaulichung des Produkts wird weiter unten gegeben. Eine weitere Frage könnte sein, wie weit eine komplexe Zahl vom Ursprung entfernt ist. Diese Größe soll als der Betrag einer komplexen Zahl |z| bezeichnet werden. Aus einer rein geometrischen Überlegung an einem rechtwinkligen Dreieck ist der Betrag zu |z| = a 2 + b2 zu bestimmen. Eine andere Möglichkeit den Radikanden auszudrücken ist mittels der dritten binomischen Formel. Dazu wird die Kombination a − ib betrachtet, und es gilt (a + ib)(a − ib) = a 2 − (ib)2 = a 2 − i2 b2 = a 2 − (−1)b2 = a 2 + b2 . Die Größe a − ib ist eine Spiegelung der komplexen Zahl z an der Horizontalen und wird als die komplex konjugierte Zahl von z mit der Notation z ∗ ≡ a − ib
(1.38)
√ bezeichnet. Der Betrag lässt sich dann schreiben als |z| = zz ∗ . Mithilfe der komplex Konjugierten lassen sich auch Brüche von komplexen Zahlen bestimmen. Dazu werden wieder z 1 und z 2 betrachtet, und es gilt z 1 z 2∗ z 1 z 2∗ z1 = = z2 z 2 z 2∗ |z 2 |2 (a1 + ib1 )(a2 − ib2 ) a1 + ib1 = a2 + ib2 a22 + b22 a1 a2 + b1 b2 a 2 b1 − a 1 b2 = +i . a22 + b22 a22 + b22 Im Besonderen lässt sich so auch der Kehrwert der imaginären Einheit bestimmen. Dieser ist dann 1 −i −i = = = −i. i (−i)i −(−1)
(1.39)
Somit können imaginäre Einheiten unter einem Bruchstrich nach oben gezogen werden, wenn dafür ein zusätzliches Minuszeichen eingefügt wird.
1.5
Komplexe Zahlen
1.5.2
93
Die Euler-Darstellung
Herleitung Oben wurde bereits diskutiert, dass die komplexe Zahl einen Abstand zum Ursprung hat. Es können als weiterer Parameter der Winkel der Verbindungslinie vom Ursprung zur komplexen Zahl mit der Horizontalen betrachtet werden. Dieser Winkel soll mit φ bezeichnet werden und heißt auch Argument von z bzw. Arg (z). Dies ist in Abb. 1.8 festgehalten. Der Winkel lässt sich beispielsweise über die implizite Gleichung tan(φ) =
b Im [z] = a Re [z]
bestimmen. Wie bei einem rechtwinkligen Dreieck lassen sich a und b dann vollständig ausdrücken über den Betrag von z und den Winkel φ. Dabei gilt a = |z| cos(φ)
b = |z| sin(φ) ⇒
z = |z|(cos(φ) + i sin(φ)).
Mit einem Vorgriff auf Abschn. 4.1 lässt sich ein weiterer Ausdruck dafür finden. Mithilfe von Taylor-Reihen lassen sich unendliche Reihen für die Exponentialfunktion und die trigonometrischen Funktionen erstellen. Diese lauten ex =
∞ xn n! n=0
sin(x) =
∞ n=0
(−1)n
x 2n+1 (2n + 1)!
cos(x) =
∞ x 2n . (−1)n (2n)! n=0
Abb. 1.8 Veranschaulichung zu den Darstellungen einer komplexen Zahl. In a ist die Darstellung über Real- und Imaginärteil als Projektionen auf die reelle und die imaginäre Achse zu sehen. In b ist dagegen die Euler-Darstellung durch den Betrag der komplexen Zahl und den Winkel, der mit der reellen Achse eingeschlossen wird, zu sehen
94
1 Einführung und Wiederholung
In die Reihe für die Exponentialfunktion wird nun das Argument iφ eingesetzt, damit sich eiφ = =
∞ (iφ)n n=0 ∞ k=0
n! i2k
=
∞
in
n=0 ∞
φ 2k + (2k)!
k=0
φn = n! i2k+1
∞ n=0,2,4,...
in
φn + n!
φ 2k+1 = (2k + 1)!
∞
∞
in
n=1,3,5,...
φn n! ∞
(−1)k
k=0
φ 2k φ 2k+1 +i (−1)k (2k)! (2k + 1)! k=0
= cos(φ) + i sin(φ) ergibt. Dabei wurde im Übergang auf die zweite Zeile die Summe in gerade und ungerade n aufgespalten. Danach wurde der Summationsindex umbenannt, sodass k alle natürlichen Zahlen inklusive der Null durchläuft. Damit lassen sich alle geraden Zahlen darstellen als 2k und alle ungeraden als 2k + 1. Anschließend wurde ausgenutzt, dass i2 = −1 ist, und die verbleibenden Reihen wurden mit dem Ausdruck für Sinus und Kosinus identifiziert. Damit lässt sich aber der Ausdruck für komplexe Zahlen weiter umschreiben zu z = |z|(cos(φ) + i sin(φ)) = |z| eiφ .
(1.40)
Dies ist auch als Euler-Formel bekannt.17 Mit dieser Darstellung sind die beiden komplexen Zahlen von oben gegeben als z 1 = |z 1 | eiφ1 und z 2 = |z 2 | eiφ2 . Diese Darstellung eignet sich nicht gut zum Addieren, verdeutlicht aber die Funktion einer Multiplikation, die nun durch z 1 z 2 = |z 1 ||z 2 | ei(φ1 +φ2 ) gegeben ist. Da sich die Winkel in den Exponenten addieren, wird die komplexe Zahl z 1 um den Winkel φ2 gedreht. Zusätzlich wird sie um den Faktor |z 2 | gestreckt. Die Multiplikation zweier komplexer Zahlen ist also eine Drehstreckung in der Gauß’schen Ebene. Ist die komplexe Zahl z 2 eine positive reelle Zahl, so wird z 1 nur gestreckt. Die Multiplikation einer reellen mit einer komplexen Zahl ist also eine bloße Streckung. Hat die komplexe Zahl z 2 hingegen den Radius eins, so wird die komplexe Zahl z 1 nur gedreht. Auch die Division zweier komplexer Zahlen lässt sich auf diese Weise besonders elegant ausdrücken. Zunächst wird der Kehrwert 1 1 e−iφ = = iφ z |z| e |z| einer komplexen Zahl z betrachtet. Damit lässt sich die Division der Zahlen z 1 und z 2 als 17 In mancher Literatur wird auch die vereinfachte Euler-Formel für φ = π und |z| = 1 als EulerFormel bezeichnet. Sie lässt sich aufschreiben als eiπ +1 = 0. Sie wird auch als besonders ästhetisch
angesehen, da sie fünf essenzielle mathematische Konstanten miteinander verknüpft: das neutrale Element der Addition 0, das neutrale Element der Multiplikation 1, die ein natürliches Wachstum beschreibende Euler’sche Zahl e, die Grundeinheit zur algebraischen Erweiterung auf die komplexen Zahlen, die imaginäre Einheit i und das Verhältnis des Kreisumfangs zu seinem Durchmesser, die Kreiszahl π .
1.5
Komplexe Zahlen
95
|z 1 | i(φ1 −φ2 ) z1 e = z2 |z 2 | schreiben. Es handelt sich anschaulich wieder um eine Drehstreckung der komplexen Zahl z1. Implikationen aus Real- und Imaginärteil Oben wurde bereits ausgeführt, dass die Darstellung einer komplexen Zahl und ihrer komplex konjugierten durch z = Re [z] + i Im [z]
z ∗ = Re [z] − i Im [z]
gegeben ist. Durch Addition und Subtraktion dieser Gleichungen z + z∗ = 2 Re [z]
z − z ∗ = 2i Im [z]
lassen sich so die Ausdrücke Re [z] =
z + z∗ 2
Im [z] =
z − z∗ 2i
(1.41)
für Real- und Imaginärteil finden. So lassen sich auch andere Ausdrücke für die trigonometrischen Funktionen finden. Dazu wird zunächst Gl. (1.40) für das Argument −φ und |z| = 1 betrachtet. Durch Einsetzen
∗ e−iφ = cos(−φ) + i sin(−φ) = cos(φ) − i sin(φ) = eiφ zeigt sich, dass so die komplex konjugierte Zahl gefunden wird. Da der Realteil von eiφ durch den Kosinus gegeben ist, folgt auch ! " eiφ + e−iφ cos(φ) = Re eiφ = . 2 Für den Imaginärteil, also den Sinus folgt schließlich ! " eiφ − e−iφ sin(φ) = Im eiφ = . 2i Durch diese Darstellungen lassen sich einige der trigonometrischen Identitäten ausgesprochen einfach beweisen. So gilt für Additionen im Sinus
96
1 Einführung und Wiederholung 1 iα e − e−iα eiβ + e−iβ sin(α) cos(β) + sin(β) cos(α) = 4i + eiβ − e−iβ eiα + e−iα 1 iα iβ e e + eiα e−iβ − e−iα eiβ − e−iα e−iβ = 4i + eiβ eiα + eiβ e−iα − e−iβ eiα − e−iβ e−iα
$ 1 # iα iβ 2 e e −2 e−iα e−iβ 4i 1 i(α+β) e − e−i(α+β) = 2i = sin(α + β) .
=
Die häufigste Anwendung findet dabei der Spezialfall α = β, der dann die Form sin(2α) = 2 sin(α) cos(α) annimmt. Da der Sinus eine ungerade und der Kosinus eine gerade Funktion sind, lässt sich mittels sin(α − β) = sin(α + (−β)) = sin(α) cos(−β) + sin(−β) cos(α) = sin(α) cos(β) − sin(α) cos(β) die noch allgemeinere Formel sin(α ± β) = sin(α) cos(β) ± sin(α) cos(β) finden. Die Identität für die Addition der Argumente im Kosinus kann über die Rechnung 1 iα e + e−iα eiβ + e−iβ 4 1 − 2 eiα − e−iα eiβ − e−iβ 4i 1 i(α+β) e = + ei(α−β) + e−i(α−β) + e−i(α+β) 4 + ei(α+β) − ei(α−β) − e−i(α−β) + e−i(α+β)
cos(α) cos(β) − sin(α) sin(β) =
$ 1 # i(α+β) 2e +2 e−i(α+β) 4 1 i(α+β) e + e−i(α+β) = 2 = cos(α + β)
=
1.5
Komplexe Zahlen
97
gezeigt werden. Auch hier ist eine der häufigsten Anwendungen für den Fall α = β, was in cos(2α) = cos2 (α) − sin2 (α) resultiert. Mit dem Umstand, dass Sinus und Kosinus ungerade bzw. gerade Funktionen sind, lässt sich auch cos(α − β) = cos(α + (−β)) = cos(α) cos(−β) − sin(α) sin(−β) = cos(α) cos(β) + sin(α) sin(β) finden. Damit lautet die allgemeine Form cos(α ± β) = cos(α) cos(β) ∓ sin(α) sin(β) .
1.5.3
Funktionen mit komplexen Zahlen
Nun, da die komplexen Zahlen eingeführt wurden, könnte die Frage aufkommen, ob diese als Argumente für bereits bekannte Funktionen infrage kommen. Zuvor wurde bereits ausgeführt, dass mit komplexen Zahlen gerechnet werden könne, als seien es reelle Zahlen unter der Beachtung von i2 = −1. Potenzen Mit der Euler-Formel ergibt sich so beispielsweise für die reelle Potenz τ einer komplexen z z τ = |z|τ eiτ φ . Grafisch lässt sich dies durch eine Spirale darstellen, die für τ = 0 bei eins startet und für τ = 1 die komplexen Zahlen durchläuft. Sie windet sich für |z| > 1 für zunehmende Werte für τ immer weiter nach außen. Für den Fall |z| < 1 windet sich die Spirale nach innen, während sich für |z| = 1 ein Kreis ergibt. Alle drei Fälle wurden in Abb. 1.9 aufgetragen. Eine weitere Möglichkeit wäre das Potenzieren einer komplexen Zahl z 1 = |z| eiφ mit einer weiteren komplexen Zahl z 2 = a + ib. Dabei ergibt sich z 1z 2 = |z|a+ib eiφ(a+ib) = |z|a eib ln(|z|) eiaφ−bφ a −bφ i(aφ+b ln(|z|))
= |z| e
e
.
(1.42) (1.43)
Dabei wurde ausgenutzt, dass |z| = eln(|z|) gilt. Der neue Betrag setzt sich also aus dem alten Betrag zu der Potenz a mit der Exponentialfunktion des ursprünglichen Arguments im Produkt mit b zusammen. Das Argument setzt sich hingegen aus dem Produkt des ursprünglichen Arguments mit dem Realteil a und dem Imaginärteil b mit dem natürlichen Logarithmus des ursprünglichen Betrags |z| zusammen. Es zeigt sich somit für z 1 = α ∈ R auch
98
1 Einführung und Wiederholung
Abb. 1.9 Veranschaulichung zu reellen Potenzen von komplexen Zahlen. Die jeweils betrachteten komplexen Zahlen sind als Punkte auf ihren Spiralen eingezeichnet. Der durchgezogene Kreis entsteht für eine komplexe Zahl mit dem Betrag eins. Sie wird gegen den Uhrzeigersinn auf dem Kreis gedreht. Die nach innen laufende gestrichelte Spirale entsteht für eine komplexe Zahl, deren Betrag kleiner ist als eins. Mit zunehmendem Parameter τ nimmt der Betrag der komplexen Zahl ab, und sie wird gegen den Uhrzeigersinn gedreht. Die nach außen laufende, gepunktstrichelte Spirale entsteht für eine komplexe Zahl mit einem Betrag größer als eins. Mit zunehmendem Parameter τ nimmt ihr Betrag zu, und sie wird gegen den Uhrzeigersinn gedreht
sofort, was passiert, wenn eine reelle Zahl mit einer komplexen Zahl potenziert wird. Dazu wird in obiger Formel φ = 0 und |z| = α gesetzt, um α a+ib = α a eib ln(α) zu erhalten. Wurzeln Als Nächstes sollen Wurzeln von komplexen Zahlen besprochen werden. Werden zunächst reelle Wurzeln betrachtet, so lässt sich mit der anschaulichen Interpretation „Welche Zahl muss mit n potenziert werden, um die Zahl z = |z| eiφ zu erhalten?“ die Wurzel bestimmen. Somit ist
1.5
Komplexe Zahlen
99
√ n
z=
1 φ n |z| eiφ = |z| eiφ n = n |z| ei n
die n-te Wurzel von z für eine natürliche Zahl n. Prinzipiell spricht nichts dagegen dies auch auf positive reelle Zahlen auszuweiten, führt aber essenziell wieder auf das Potenzieren von komplexen Zahlen mit beliebigen reellen Zahlen. Wichtig ist hierbei nun, dass das eben angegebene Ergebnis nicht eindeutig ist. Da n eine natürliche Zahl ist, kann das Argument um ein ganzzahliges Vielfaches von 2π/n verändert werden, ohne dass sich die Interpretation der Wurzel ändert. Die Periodizität um 2π hängt mit der Euler-Formel über ei(φ+2π ) = eiφ e2π i = eiφ (cos(2π ) + i sin(2π )) = eiφ zusammen. Damit ist √ n
z=
φ 2π n |z| ei n +im n
(1.44)
mit einem beliebigen ganzzahligen m tatsächlich die n-te Wurzel aus z, da √ n
n
z =
n
n n i φn +im 2π n
|z| e
= |z| eiφ+i2π m
= |z| eiφ = z gilt. Die Wahl m = 0 wird als Hauptzweig der n-ten Wurzel von z bezeichnet. Ein einfaches Beispiel ist dabei die Wurzel der imaginären Einheit selbst. Da die imaginäre Einheit auf der Vertikalen liegt, schließt sie mit der Horizontalen den Winkel π/2 ein und hat den Betrag |i|2 = (−i)i = −i2 = 1. Damit lässt sie sich durch i = eiπ/2 darstellen. Ihre Quadratwurzel ist dann √ π i = ei 4 +imπ mit einem beliebigen ganzzahligen m. Der Hauptzweig lässt sich dann über sin
cos π4 = √1 darstellen als
π 4
=
2
π
ei 4 = cos
π 4
+ i sin
π 4
1 = √ (1 + i) . 2
Logarithmen Auf ähnliche Weise lassen sich Logarithmen von komplexen Zahlen bestimmen. Wieder lautet die Frage, mit welcher Zahl muss die Euler’sche Zahl e potenziert werden um z zu erhalten. Durch einfaches Einsetzen und Ausnutzen der Logarithmengesetze der Form
ln(z) = ln |z| eiφ = ln(|z|) + ln eiφ = ln(|z|) + iφ
100
1 Einführung und Wiederholung
ergibt sich ein Ausdruck für den Logarithmus. Allerdings ist auch hier wegen der 2π Periodizität das Ergebnis nicht eindeutig und kann um einen zusätzlichen Summanden i2mπ für ein beliebiges ganzzahliges m ergänzt werden. Der Logarithmus einer komplexen Zahl ist dann allgemein durch
ln(z) = ln |z| eiφ = ln(|z|) + ln eiφ = ln(|z|) + iφ + 2π im
(1.45)
gegeben. Für m = 0 wird vom Hauptzweig des Logarithmus gesprochen. Das oben angegebene Ergebnis heißt damit der Hauptzweig des Logarithmus. Trigonometrische Funktionen Es sollen auch trigonometrische Funktionen betrachtet werden. Diese lassen sich sehr einfach über ihre Darstellung durch die komplexe Exponentialfunktion behandeln. Zuerst wird ein rein imaginäres Argument ix betrachtet, und es ergeben sich für den Sinus sin(ix) =
ei(ix) − e−i(ix) e−x − ex e x − e−x = =i ≡ i sinh(x) 2i 2i 2
und für den Kosinus cos(ix) =
ei(ix) + e−i(ix) e−x + ex = ≡ cosh(x) . 2 2 −x
−x
Dabei wurden die hyperbolischen Funktionen sinh(x) = e −2e und cosh(x) = e +2e eingeführt. Eine wichtige Erkenntnis, die ausführlicher in Abschn. 2.1 aufgegriffen wird, ist dabei, dass die hyperbolischen Funktionen nicht beschränkt sind, und somit haben im Komplexen auch Gleichungen der Art sin(z) = 2 eine Lösung, die sie im Reellen nicht hätten. Für eine beliebige reelle Zahl z = a+ib lassen sich die trigonometrischen Funktionen über die Additionstheoreme als x
x
sin(a + ib) = sin(a) cos(ib) + sin(ib) cos(b) = sin(a) cosh(b) + i sinh(b) cos(a) cos(a + ib) = cos(a) cos(ib) + sin(ib) sin(b) = cos(a) cosh(b) + i sinh(b) sin(a) ausdrücken. Auf diese Weise lassen sich auch komplexe Argumente in Sinus- und Kosinusfunktionen behandeln. Die Gamma-Funktion Zuletzt soll noch eine Anmerkung zur Gamma-Funktion, die im Abschnitt über Integrale eingeführt wurde, gemacht werden. Die Gamma-Funktion ∞ (1 + n) = 0
dt t n e−t
1.5
Komplexe Zahlen
101
war dabei zunächst für n ∈ R mit n > −1 definiert, und es gab die Verknüpfung (1 + n) = n! zur Fakultät von n, falls n ∈ N war. Für komplexe Zahlen der Art Re [z] > −1 lässt sich mit den oben gefundenen Regeln für komplexe Potenzen auch die Verallgemeinerung ∞ (1 + z) =
dt t z e−t
0
der Fakultät auf komplexe Zahlen finden. Die konkrete Behandlung solcher Integrale wird in Kap. 5 besprochen.
1.5.4
Formelsammlung – komplexe Zahlen
Imaginäre Einheit, Darstellung durch Real- und Imaginärteil i2 = −1
z = a + ib ∈ C
Komplexe Konjugation und Bestimmung von Real- und Imaginärteil z ∗ = a − ib
a = Re [z] =
z + z∗ 2
b = Im [z] =
z − z∗ 2i
Addition/Subtraktion und Multiplikation/Division z 1 ± z 2 = (a1 ± a2 ) + i(b1 ± b2 )
z 1 · z 2 = (a1 a2 − b1 b2 ) + i(a1 b2 + a2 b1 )
z 1 z 2∗ z1 a1 a2 + b1 b2 a 2 b1 − a 1 b2 = = +i z2 z 2 z 2∗ a22 + b22 a22 + b22
1 = −i i
Betrag und Argument einer komplexen Zahl |z| =
√
zz ∗ =
a 2 + b2
tan φ =
b a
Euler-Formel und Euler-Darstellung eiφ = cos(φ) + i sin(φ)
z = |z| eiφ
Multiplikation und Division mit der Euler-Formel z 1 z 2 = |z 1 ||z 2 | ei(φ1 +φ2 )
|z 1 | i(φ1 −φ2 ) z1 e = z2 |z 2 |
Komplexe Potenzen, Wurzeln und Logarithmen von komplexen Zahlen
102
1 Einführung und Wiederholung
z 1z 2 = |z|a e−bφ ei(aφ+b ln(|z|)) ln(z) = ln(|z|) + i(φ + 2 mπ )
√ n
z=
n
φ
|z| ei n +i
2π m n
m∈Z
Komplexe trigonometrische Funktionen eix + e−ix eix − e−ix cos(x) = 2i 2 sin(a + ib) = sin(a) cosh(b) + i sinh(b) cos(a)
sin(x) =
cos(a + ib) = cos(a) cosh(b) + i sinh(b) sin(a) Die komplexe Gamma-Funktion ∞ (1 + z) =
dt t z e−t
Re [z] > 0
0
1.6
Vektoren in der analytischen Geometrie
1.6.1
Grundbegriffe und Grundregeln
Vektoren lassen sich als eine Menge von entweder zwei oder drei reellen Zahlen auffassen, bei denen die Reihenfolge, in der die Zahlen angegeben werden, eine Rolle spielt. In solch einem Fall von „geordneten“ Mengen wird von Tupeln gesprochen. Je nachdem, ob das Tupel zwei oder drei Zahlen beinhaltet, wird von einem zwei- oder dreidimensionalen Vektor gesprochen. Die typische Darstellung für Vektoren v ist durch einen Spaltenvektor ⎛ ⎞ a ⎝ v = b⎠ c gegeben. v ist dabei die Bezeichnung für den Vektor bestehend aus dem Tupel a, b und c. In Büchern ist es üblich einen Vektor dadurch kenntlich zu machen, indem dieser fett gedruckt → wird. Andere Möglichkeiten bestehen durch einen Pfeil (− v ) oder einen Strich (v) ¯ über dem Namen des Vektors. Hier soll jedoch die erste vorgestellte Variante Anwendung finden. Anschaulich lassen sich solche Vektoren darstellen, indem sie als Pfeile im Raum eingezeichnet werden. Dazu werden drei senkrecht stehende Achsen im Raum festgelegt, die x-, yund die z-Achse. Die Reihenfolge, wie diese zueinander stehen, ist durch die Rechte-HandRegel gegeben. Der Daumen der rechten Hand symbolisiert die x-Achse, der Zeigefinger die y-Achse und der Mittelfinger die z-Achse. Daumen und Zeigefinger werden so ausgestreckt, dass sie die Ebene der Handfläche fortsetzen. Der Mittelfinger wird dann so ausgestreckt, dass er senkrecht auf Daumen und Zeigefinger steht.
1.6 Vektoren in der analytischen Geometrie
103
Um den Vektor dann im Raum einzuzeichnen, wird die Strecke a entlang der x-Achse abgelaufen, danach die Strecke b entlang der y-Achse und schlussendlich die Strecke c entlang der z-Achse. Die Verbindungslinie, die im Ursprung startet und auf kürzestem Weg an den so aufgefundenen Punkt stößt, symbolisiert dann den Vektor. In zwei Dimensionen ist ein Vektor durch a v= b gegeben. Es fällt dann aus der obigen Betrachtung die z-Achse heraus. Da die Skizzen in zwei Dimensionen etwas einfacher und übersichtlicher sind, soll im Folgenden stets der zweidimensionale Fall für zeichnerische Beispiele betrachtet werden. Wird ein Vektor also als Pfeil im Raum dargestellt, so hat dieser Pfeil eine Länge und eine Richtung im Raum. Die Länge lässt sich über den Satz des Pythagoras |vv | = a 2 + b2 + c2 (1.46) bestimmen. Im zweidimensionalen Fall ist in obiger Gleichung c = 0. |vv | heißt dabei der Betrag18 von v . Die Richtung von v ist durch den Vektor nˆ =
v |vv |
gegeben. Dies ist ein normierter Vektor, der die Länge eins hat. Er zeigt auf einen Punkt der Einheitskugel oder im zweidimensionalen Fall des Einheitskreises und gibt die Achse an, auf der der Vektor v liegt. Da bei der Darstellung des Vektors als Pfeil im Raum nur eine Vorschrift vorgegeben wird, wie von einem Punkt zum anderen gelangt wird, ist klar, dass Vektoren nicht zwangsläufig im Ursprung starten müssen. Sie können an jedem Punkt im Raum starten. Sie behalten dabei ihren Betrag und ihre Orientierung im Raum. Die Achse n wird dazu parallel in den neuen Startpunkt verschoben. Es wird auch davon gesprochen, dass Vektoren translationsinvariant19 sind, da sie sich unter einer Verschiebung nicht verändern. Für Vektoren lassen sich einige weitere Rechenregeln einführen. Die wichtigsten sind dabei die Addition bzw. Subtraktion untereinander und die Multiplikation mit reellen Zahlen. 1. Bei der Addition bzw. Subtraktion zweier Vektoren werden die Objekte komponentenweise addiert bzw. subtrahiert. Die formale Notation ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ wx vx ± wx vx v ± w = ⎝v y ⎠ ± ⎝w y ⎠ ≡ ⎝v y ± w y ⎠ vz
wz
vz ± wz
18 In der Mathematik wird auch von der Norm von v gesprochen. 19 Translation heißt Verschiebung.
104
1 Einführung und Wiederholung
macht dabei klar, dass wegen der Vertauschung der Addition in den reellen Zahlen auch die Addition zweier Vektoren v +w = w +v vertauscht. Anschaulich lässt sich dies verstehen als das Folgen des zu v gehörenden Pfeils und dem anschließenden Folgen des zu w gehörenden Pfeils. Da die Addition vertauscht, kann auch zuerst w und anschließend v gefolgt werden. In beiden Fällen ist der Zielpunkt derselbe, und v und w spannen ein Parallelogramm auf. Der Pfeil, der v + w entspricht, ist die „lange“ Diagonale20 des Parallelogramms. Dies ist zu sehen in Abb. 1.10a. Die Subtraktion vertauscht, wie auch schon bei den reellen Zahlen, nicht. Hier ist die anschauliche Interpretation von v − w : Welcher Vektor muss zu w addiert werden, um zu v zu gelangen? Starten v und w also am selben Punkt, so ist es der Verbindungsvektor vom zu w gehörenden Punkt zum zu v gehörenden Punkt. Der Vektor zwischen zwei gegebenen Punkten lässt sich demnach berechnen, indem von den Koordinaten des Endpunktes die des Anfangspunktes abgezogen werden. In der Anschauung mit dem Parallelogramm handelt es sich um die „kurze“ Diagonale des Parallelogramms und ist in Abb. 1.10b zu sehen. Ein Vektor, der nur die Nullen als Komponenten hat, heißt Nullvektor und wird mit 0 gekennzeichnet. Für die Addition und Subtraktion gilt v +0 = v v − v = 0. Der Nullvektor hat den Betrag null und ist auch der einzige Vektor, der den Betrag null haben kann. Ist der Betrag eines Vektors null, so muss der Vektor der Nullvektor sein. |vv | = 0 ⇒ v = 0 . Über den Betrag der Summe zweier Vektoren lässt sich mit den hier eingeführten Konzepten21 noch keine konkrete Aussage treffen, dennoch ist es möglich den Betrag abzuschätzen. Anschaulich wird der Betrag aus der Summe der beiden Vektoren v und w die Summe der beiden Beträge sein, falls die Vektoren parallel zueinander liegen. Liegen die Vektoren nicht parallel zueinander, so war die Summe die Diagonale im aufgespannten Parallelogramm. Diese ist damit aber auch eine Seite in einem Dreieck, bestehend aus v , w und v + w . Es leuchtet ein, dass das Ablaufen einer direkten, geraden Verbindung zwischen zwei Punkten ein kürzerer Weg ist, als zuerst zu einem dritten Punkt zu laufen, 20 Es handelt sich nur um die „lange“ Diagonale, falls der Winkel zwischen den beiden Vektoren 90◦
nicht überschreitet. 21 Für eine formale Herleitung werden Erkenntnisse über das Skalarprodukt aus Abschn. 1.6.2 benötigt.
1.6 Vektoren in der analytischen Geometrie
105
um von dort zum eigentlichen Ziel zu gelangen. Die Strecke der direkten Verbindung v + w wird also geringer ausfallen als die Summe der beiden geradlinigen Umwege v und w . So lässt sich insgesamt die Dreiecksungleichung w| |vv + w | ≤ |vv | + |w
(1.47)
motivieren. 2. Bei der Multiplikation mit einer reellen Zahl λ wird jede Komponente eines Vektors mit dieser Zahl gemäß ⎛ ⎞ ⎛ ⎞ vx λvx λ · v = λ · ⎝v y ⎠ ≡ ⎝λv y ⎠ vz λvz multipliziert. Anschaulich behält der Vektor zwar seine Richtung, doch der Betrag ändert sich um den Faktor |λ|. Für negative λ zeigt der Vektor entlang der gleichen Achse mit umgekehrter Orientierung. Ist |λ| > 1, so wird der Vektor gestreckt. Ist 0 < |λ| < 1, so wird der Vektor gestaucht. All diese Fälle sind in Abb. 1.11 aufgezeigt. Ist λ = 0, so wird v zum Nullvektor 0 · v = 0. Da der Faktor λ den Vektor skaliert, werden diese Faktoren, also gewöhnliche Zahlen, auch als Skalare bezeichnet. Auch durch die Multiplikation ändert sich der Betrag eines Vektors. Aus der Definition des Betrags (1.46) lässt sich der Betrag des gestreckten Vektors λvv mittels ⎛ ⎞ λvx √ |λvv | = ⎝λv y ⎠ = (λvx )2 + (λv y )2 + (λvz )2 = λ2 vx2 + v 2y + vz2 λv z ⇒
|λvv | = |λ||vv |
(1.48)
bestimmen. Dabei wurde im letzten Schritt ausgenutzt, dass die Wurzel aus dem Quadrat einer Zahl stets deren Betrag zurückgibt. Wird also der Vektor mit einem Skalar multipliziert, wird auch seine Länge mit dem Betrag dieses Skalars multipliziert, so wie es aus der anschaulichen Überlegung heraus zu erwarten war.
1.6.2
Skalarprodukte
Motivation Sind zwei Vektoren v und w gegeben, so könnte es von Interesse sein, welche Anteile von v parallel zu w liegen und welche senkrecht dazu liegen. Anders ausgedrückt, geht es darum, wie sich der Vektor v auf den Vektor w projizieren lässt. Zunächst ist klar, dass der Vektor v nur aus zwei Anteilen bestehen kann, den parallelen v und den senkrechten Anteilen v ⊥ . Dies wird in Abb. 1.12a verdeutlicht. Der Vektor v ist dann durch die Summe
106
1 Einführung und Wiederholung
Abb.1.10 Veranschaulichung zur Vektoraddition und -subtraktion. In a ist die Addition der Vektoren v und w als das Aneinanderhängen von Pfeilen skizziert. Das Ergebnis ist der Vektor, der vom Ursprung zu dem Punkt führt, der erreicht wird, wenn zuerst v und dann w gefolgt wird. Es handelt sich hier um die „lange“ Diagonale des Parallelogramms. In b ist die Subtraktion zweier Vektoren skizziert. Das Ergebnis ist der Vektor, der vom Punkt w zum Punkt v führt. Es handelt sich hier um die „kurze“ Diagonale des Parallelogramms Abb. 1.11 Veranschaulichung zur Multiplikation eines Vektors mit einer Zahl. Durch eine Multiplikation mit λ > 1 behält v seine Richtung bei und wird gestreckt. Ist 0 < λ < 1, so kommt es zu einer Stauchung. Für negative λ wie hier λ = −1 wird die Richtung des Vektors umgekehrt. Alle Ergebnisse liegen weiterhin auf der richtungsgebenden Geraden
v = v + v⊥ gegeben. Durch Einzeichnen in der von v und w aufgespannten Ebene in Abb. 1.12a ergibt sich mit dem Winkel φ zwischen den Vektoren der Betrag des parallelen Anteils zu |vv | = |vv | cos(φ) . Das heißt, es ist nun notwendig, den Winkel zwischen den Vektoren auf eine geeignete Weise zu bestimmen. Wird die Ebene von v und w mit der x y-Eben identifiziert, so ist klar, dass beiden Vektoren ein Winkel φv und φw mittels
1.6 Vektoren in der analytischen Geometrie
wx w| |w vx cos(φv ) = |vv |
cos(φw ) =
107
wy w| |w vy sin(φv ) = |vv | sin(φw ) =
zugeteilt werden kann. Dies ist in Abb. 1.12b veranschaulicht. Wird zur Vereinfachung π2 ≥ φv ≥ φw ≥ 0 angenommen, die Vektoren liegen also nur im ersten Quadranten, so lässt sich der Winkel zwischen den Vektoren durch φ = φv − φw ausdrücken. Über die trigonometrischen Additionstheoreme des Kosinus lässt sich dann der Ausdruck cos(φ) = cos(φv ) cos(φw ) + sin(φv ) sin(φw ) vy wy vx wx = · + · w | |vv | |w w| |vv | |w finden. Nach beidseitiger Multiplikation der Beträge ergibt sich w | cos(φ) . vx wx + v y w y = |vv ||w Der Winkel zwischen den Vektoren lässt sich also durch die Kenntnisse um die Beträge und die Summe aus der komponentenweisen Multiplikation der Vektoren bestimmen. Daher wird das Skalarprodukt22 gemäß w | cos(φ) v · w = vx wx + v y w y = |vv ||w definiert. In drei Dimensionen ist das Skalarprodukt durch w | cos(φ) v · w = vx wx + v y w y + vz wz = |vv ||w
(1.49)
gegeben. Da zwei Vektoren eine Ebene aufspannen, kann ein Koordinatensystem immer so gewählt werden, dass vz wz = 0 ist. In diesem Sinne lässt sich das dreidimensionale auf das zweidimensionale Produkt reduzieren, und dieser Ausdruck gibt wirklich den Zusammenhang zwischen den Beträgen der Vektoren und dem Winkel φ zwischen ihnen an. Eine weitere Besonderheit, die auffällt, ist das Skalarprodukt eines Vektors v mit sich selbst. Hier gilt v · v = vx2 + v 2y + vz2 = |vv |2 . Der Betrag eines Vektors lässt sich also mittels des Skalarprodukts bestimmen. Es wird hier auch die Notation 22 Skalar bedeutet hier, dass die Vektoren auf eine einfache Zahl abgebildet werden.
108
1 Einführung und Wiederholung
Abb. 1.12 Veranschaulichung zur Interpretation des Skalarprodukts. In a ist die senkrechte Projektion des Vektors v auf den Vektor w zu sehen. Der senkrechte v ⊥ und parallele Anteil v sind ebenfalls aufgetragen. Mit dem Winkel φ zwischen den Vektoren wird der Zusammenhang |vv | = |vv | cos(φ) klar. In b sind die Vektoren v und w innerhalb der x y-Ebene mit ihren Winkeln φv und φw bezüglich der x-Achse verortet
1.6 Vektoren in der analytischen Geometrie
109
v 2 ≡ v · v = |vv |2 genutzt. Für den parallelen Anteil von v zu w lässt sich dann w w ·v w w |vv | cos(φ) = = v = nˆ w |vv | = w| w| w w| |w |w |w
w ·v w| |w
(1.50)
w schreiben. Dabei wurde der Richtungsvektor nˆ w = |w w | von w eingesetzt. Es ist zu beachten, dass die Klammersetzung eine wichtige Rolle spielt. Der so entstandene Vektor ist parallel zu w . Wären die Klammern als w w · v w | |w w| |w
gesetzt worden, wäre der entstandene Vektor parallel zu v . Der senkrechte Anteil von v zu w ist durch w w v⊥ = v − v = v − ·v w | |w w| |w
(1.51)
gegeben. Somit lassen sich Vektoren in senkrechte und parallele Anteile bezüglich anderer Vektoren zerlegen. Es ist klar, dass das Skalarprodukt von v mit w nur das Produkt der beiden Beträge ist, da der Winkel zwischen v und w durch null gegeben ist. Doch was ist das Skalarprodukt von v ⊥ mit w ? Dazu wird die Rechnung w w2 w w w · v⊥ = w · v − ·v = w ·v − ·v w | |w w| w | |w w| |w |w w w| = w · v − |w ·v = w ·v −w ·v = 0 w| |w w |2 ist. Scheinbar ist das Skalarprodukt betrachtet. Dabei wurde ausgenutzt, dass w 2 = |w zweier senkrechter Vektoren null. Dies läst sich auch anschaulich über die Beträge erkennen. Hier ist wegen w | cos(φ) v · w = |vv ||w das Skalarprodukt nur dann null, wenn entweder einer der Vektoren den Betrag null hat oder wenn cos(φ) = 0 ist, also der Winkel π/2 oder 3π/2 ist. Dies entspricht aber gerade senkrechten Einstellungen der Vektoren zueinander. Da später der Vektorbegriff auch auf nicht geometrische Strukturen verallgemeinert werden soll, wird davon gesprochen, dass zwei Vektoren orthogonal zueinander stehen, wenn ihr Skalarprodukt null ist. Es soll noch kurz darauf eingegangen werden, dass sich mit Gl. (1.49) auch die zuvor aufgeführte Dreiecksungleichung (1.47) formal herleiten lässt. Dazu wird das Quadrat von |vv + w | betrachtet. Über die Definition des Betrags (1.46) ist dies durch
110
1 Einführung und Wiederholung
|vv + w |2 = (vx + wx )2 + (v y + w y )2 + (vz + wz )2 = vx2 + 2vx wx + wx2 + v 2y + 2v y w y + w2y + vz2 + 2vz wz + wz2 = vx2 + v 2y + vz2 + wx2 + w2y + wz2 + 2(vx wx + v y w y + vz wz ) w |2 + 2vv · w = |vv |2 + |w bestimmt. Anhand von Gl. (1.49) wird klar, dass das Skalarprodukt kleiner ausfallen wird als das Produkt der Beträge. Somit ist die Abschätzung w |2 + 2vv · w |vv + w |2 = |vv |2 + |w w |2 + 2|vv ||w w| ≤ |vv |2 + |w w |)2 = (|vv | + |w gerechtfertigt. Durch das Ziehen der Wurzel auf beiden Seiten ergibt sich so die Dreiecksungleichung w |, |vv + w | ≤ |vv | + |w die bereits in Abschn. 1.6.1 motiviert wurde. Lineare Unabhängigkeit Unter Umständen kann es sinnvoll sein, einen Vektor durch eine Linearkombination von anderen Vektoren auszudrücken. Beispielsweise könnte ein Vektor v als Linearkombination der Vektoren u und w über v = λ1u + λ2w geschrieben werden. Ist dies möglich, so werden die Vektoren v , w und u als linear abhängig bezeichnet, da es eine Linearkombination gibt, die die Vektoren ineinander überführt. Dies kann hilfreich sein, um in Berechnungen Vereinfachungen vorzunehmen. Auf der anderen Seite kann es hilfreich sein zu überprüfen, ob Vektoren nicht linear abhängig sind. Dieser Umstand wird als linear unabhängig bezeichnet. Ist dies der Fall, so lässt sich in Gleichungen ein Koeffizientenvergleich der linear unabhängigen Teile durchführen, da die linear unabhängigen Vektoren sich nie gegenseitig auslöschen können. Es ist schnell klar, dass es in drei Dimensionen höchstens drei linear unabhängige Vektoren geben kann. Die formale Beschreibung von linearer Unabhängigkeit dreier Vektoren v 1 , v 2 und v 3 setzt voraus, dass keiner der drei Vektoren der Nullvektor ist. Folgt aus der Gleichung λ1v 1 + λ2v 2 + λ3v 3 = 0 , dass diese nur erfüllt werden kann, wenn alle λi null sind, so heißen die drei Vektoren linear unabhängig. Dies stimmt mit der obigen Überlegung überein, denn gäbe es eine Kombination
1.6 Vektoren in der analytischen Geometrie
111
von nicht verschwindenden λi , so könnte λ1 = 1 gesetzt werden, und es kann die Gleichung so umformuliert werden, dass v 1 als Linearkombination der anderen Vektoren auftritt. Eine Besonderheit ist hier, dass orthogonale Vektoren immer linear unabhängig sind. Dazu werden drei orthogonale Vektoren u 1 , u 2 und u 3 betrachtet, die jeweils nicht der Nullvektor sind. Außerdem soll die Gleichung λ1u 1 + λ2 u 2 + λ3u 3 = 0 gültig sein. Nun kann das Skalarprodukt dieser Gleichung mit u 1 , 0 = λ1 (uu 1 · u 1 ) + λ2 (uu 1 · u 2 ) + λ3 (uu 1 · u 3 ) = λ1 |uu 1 |2 gebildet werden. Dabei wurde ausgenutzt, dass die Vektoren zueinander orthogonal sind und ihre Skalarprodukte daher verschwinden. Da u 1 nicht der Nullvektor ist, kann sein Betrag nicht null sein. Die einzige Möglichkeit dies zu erfüllen ist, wenn λ1 = 0 gilt. Diese Argumentation kann mit allen Vektoren u i durchgeführt werden. Das heißt, alle λi müssen null sein, und deshalb sind die drei orthogonalen Vektoren linear unabhängig. Basis Es wurden bereits linear unabhängige Vektoren besprochen, und es wurde auch erwähnt, dass es in drei Dimensionen nur drei linear unabhängige Vektoren geben kann. Das heißt wiederum, sobald drei linear unabhängige Vektoren gefunden sind, kann ein jeder vierte Vektor durch diese drei Vektoren als Linearkombination dargestellt werden. Eine solche Menge von drei Vektoren, durch die sich alle anderen Vektoren darstellen lassen, wird als Basis des dreidimensionalen Raums bezeichnet. Sind die Vektoren der Basis alle orthogonal zueinander, wird von einer Orthogonalbasis gesprochen. Haben die Basisvektoren darüber hinaus den Betrag eins, so wird von einer Orthonormalbasis gesprochen. Etwas weiter unten im Text wird vorgestellt, wie sich aus einer Menge von linear unabhängigen Vektoren eine Orthonormalbasis konstruieren lässt. Die Basisvektoren einer solchen Orthonormalbasis werden üblicherweise mit eˆ i bezeichnet, wobei i ein Index ist, der die Basisvektoren durchnummeriert. Die Orthonormalität lässt sich formal durch eˆ i · eˆ j = δi j =
1
i=j
0
i = j
ausdrücken. Darin ist δi j das Kronecker-Delta, das ausführlicher in Abschn. 2.4 besprochen wird. Über die Linearkombination v = aeˆ 1 + bˆe 2 + cˆe 3 lässt sich über die Skalarprodukte recht schnell eine andere Darstellung der Komponenten a, b und c durch
112
1 Einführung und Wiederholung
eˆ 1 · v = a(ˆe 1 · eˆ 1 ) + b(ˆe 1 · eˆ 2 ) + c(ˆe 1 · eˆ 3 ) = a eˆ 2 · v = a(ˆe 2 · eˆ 1 ) + b(ˆe 2 · eˆ 2 ) + c(ˆe 2 · eˆ 3 ) = b eˆ 3 · v = a(ˆe 3 · eˆ 1 ) + b(ˆe 3 · eˆ 2 ) + c(ˆe 3 · eˆ 3 ) = c bestimmen. Damit lässt sich ein Vektor auch als v = eˆ 1 (ˆe 1 · v ) + eˆ 2 (ˆe 2 · v ) + eˆ 3 (ˆe 3 · v ) ausdrücken. Die Standardbasis, die verwendet wird, ist die sogenannte kartesische23 Basis mit den Vektoren ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 0 0 eˆ 1 = eˆ x = ⎝0⎠ eˆ 2 = eˆ y = ⎝1⎠ eˆ 3 = eˆ z = ⎝0⎠ . 0 0 1 Weiter unten werden drei weitere, in der Physik häufig Anwendung findende Basen vorgestellt. Gram-Schmidt-Verfahren Unter Umständen kann es vorkommen, dass drei Vektoren gegeben sind, die zwar linear unabhängig, aber nicht orthogonal zueinander stehen. Es gibt hierfür ein spezielles Verfahren, um orthogonale Vektoren zu konstruieren; dieses Verfahren heißt Gram-SchmidtOrthogonalisierungsverfahren. Es seien dazu drei Vektoren v 1 , v 2 und v 3 gegeben, die linear unabhängig, aber nicht zwangsweise orthogonal sind. Außerdem soll keiner der Vektoren der Nullvektor sein. Oben wurde gezeigt, dass der parallele Anteil eines Vektors a bezüglich eines Vektors b durch b b ·a a = |bb | |bb | gegeben ist. Es ist sinnvoll den ersten Vektor der drei zu konstruierenden orthogonalen Vektoren u 1 , u 2 und u 3 mit v 1 identisch, also u1 = v1 zu wählen. Um nun aus v 2 einen auf u 1 orthogonalen Vektor zu erzeugen, müssen von v 2 die zu u 1 parallelen Anteile abgezogen werden. Damit ergibt sich u1 u1 · v2 u1 · v2 = v2 − u1 . u2 = v2 − u u u1 · u1 |u 1 | |u 1 | Für den dritten orthogonalen Vektor wird mit v 3 gestartet. Damit der konstruierte Vektor u 3 orthogonal auf u 1 und u 2 steht, müssen die orthogonalen Anteile von v 3 bezüglich dieser 23 Benannt nach René Descartes, französischer Philosoph, Mathematiker und Naturwissenschaftler.
1.6 Vektoren in der analytischen Geometrie
113
beider Vektoren subtrahiert werden. Es verbleibt u2 u1 u2 u1 u3 = v3 − · v3 − · v3 |uu 1 | |uu 1 | |uu 2 | |uu 2 | u1 · v3 u2 · v3 = v3 − u1 − u2 u1 · u1 u2 · u2 als dritter orthogonaler Vektor. Diese Herleitung der orthogonalen Vektoren lässt sich auch etwas formaler gestalten. Wieder wird von u 1 = v 1 ausgegangen. Da ein zweiter senkrecht darauf stehender Vektor gefunden werden soll, kann eine Linearkombination aus dem Vektor u 1 und v 2 betrachtet werden. Da der Betrag der Vektoren beliebig ist, kann ohne Beschränkung der Allgemeinheit der Koeffizient für v 2 auf null gewählt werden. Dann ist u 2 = v 2 + αuu 1 ein Ansatz für u 2 , mit einer reellen Zahl α. Da u 2 senkrecht auf u 1 stehen soll, muss deren gemeinsames Skalarprodukt verschwinden. Es ergibt sich 0 = u 1 · u 2 = u 1 · v 2 + α(uu 1 · u 1 ) !
als Bestimmungsgleichung für α. Nach Auflösung α=−
u1 · v2 u1 · u1
ergibt sich u2 = v2 − u1
u1 · v2 u1 · u1
als orthogonaler Vektor auf u 1 . Es kann auch für die Konstruktion des dritten Vektors so vorgegangen werden. Hier müssen in der Linearkombination die Vektoren v 3 , u 1 und u 2 eingehen. Damit gibt es zwei Koeffizienten in der Linearkombination u 3 = v 3 + βuu 1 + γ u 2 , die wieder über die Bedingung u 1 · u 3 = 0 und u 2 · u 3 = 0 bestimmt werden können. Das Ergebnis ist wie oben der Vektor u3 = v3 − u1
u1 · v3 u2 · v3 − u2 . u1 · u1 u2 · u2
Da die Projektionsformeln einfacher werden, wenn die Vektoren normiert sind, kann es von Interesse sein orthonormale Vektoren zu konstruieren. Dazu müssen die oben gefundenen Vektoren noch normiert werden. So gilt
114
1 Einführung und Wiederholung
w1 ≡
u1 |uu 1 |
w2 ≡
u2 |uu 2 |
w3 ≡
u3 , |uu 3 |
und durch die Ersetzung u i · u i = |uu i |2 und u i = w i |uu i | lassen sich die Bestimmungsgleichungen u1 · v2 w1 · v 2) = v 2 − w 1 (w u1 · u1 u1 · v3 u2 · v3 w 1 · v 3 ) − w 2 (w w2 · v 3) u3 = v3 − u1 − u2 = v 3 − w 1 (w u1 · u1 u2 · u2
u2 = v2 − u1
einfacher ausdrücken. Dies ist von besonderem Interesse, wenn keine geometrischen Strukturen, sondern verallgemeinerte Vektorbegriffe wie in Kap. 3 betrachtet werden. Es lässt sich dann auch dort eine Orthonormal- oder Orthogonalbasis finden.
1.6.3
Kreuzprodukte
Eine weitere Frage könnte sein, welche Fläche das von zwei Vektoren aufgespannte Parallelogramm aufweist. Dazu sollen zunächst zwei Vektoren v und w betrachtet werden, die nur in der x y-Ebene, dem Grundriss liegen. Das Parallelogramm soll am Ursprung verankert sein, zu sehen in Abb. 1.13. Es lässt sich ein großes Rechteck, mit den Längen vx + wx und v y + w y , dessen Seiten parallel zu den Koordinatenachsen sind, identifizieren. Von dieser Fläche müssen dann die Flächen der beiden Rechtecke v y wx , die Flächen der beiden v v w w Dreiecke x2 y und die Flächen der beiden Dreiecke x2 y abgezogen werden. Es ergibt sich somit eine Fläche wx w y vx v y −2 2 2 = vx v y + vx w y + v y wx + wx w y − 2v y wx − vx v y − wx w y
A = (vx + wx )(v y + w y ) − 2v y wx − 2 = vx w y − v y wx ,
die mit den Beträgen der Vektoren und dem Winkel, den diese einschließen, über w | sin(φ) A = |vv ||w in Verbindung gebracht werden kann. Dabei wurde ausgenutzt, dass bei einer Ausrichtung von v entlang der x-Achse das Dreieck auf der linken Seite des Parallelogramms zur rechten Seite verschoben werden kann. So ergibt sich insgesamt ein Rechteck mit den Seitenlängen w | sin(φ). |vv | und |w Eine Fläche lässt sich in drei Raumdimensionen24 auch durch einen Vektor ausdrücken. Der Betrag des Vektors soll dabei der Flächeninhalt sein, während die Richtung senkrecht 24 In mehr als drei Dimensionen ist dies nicht der Fall. Die Fläche wird durch den Vektor charakteri-
siert, da alle Vektoren in der Fläche senkrecht auf dem Flächenvektor stehen. In zwei Dimensionen
1.6 Vektoren in der analytischen Geometrie
115
Abb. 1.13 Veranschaulichung zur Flächenbestimmung eines Parallelogramms. Das aus durchgezogenen Linien bestehende Parallelogramm in der Mitte wird durch die Vektoren v und w aufgespannt. Seine Fläche kann durch die Fläche des umfassenden Quadrates mit den Seitenlängen vx + wx und v y + w y bestimmt werden. Dazu müssen jedoch die Flächen der äußeren beiden Rechtecke und der vier Dreiecke abgezogen werden, deren Inhalt durch die Komponenten der Vektoren bestimmt werden kann
auf der Fläche steht. Somit wird der Vektor, der das Parallelogramm mit Flächeninhalt A beschreibt durch ⎛ ⎞ 0 ⎠ A = Anˆ = Aˆe z = ⎝ 0 vx w y − v y wx gegeben sein. Da sich der Flächeninhalt aus Produkten der Komponenten der Vektoren v und w nach einer speziellen Vorschrift ergibt, wird ⎞ ⎛ ⎞ ⎛ ⎞ wx vx 0 ⎠ ≡ ⎝v y ⎠ × ⎝w y ⎠ A=⎝ 0 vx w y − v y wx 0 0 ⎛
als Kreuzprodukt der Vektoren v und w bezeichnet. Es zeigt sich sofort, dass der so entstandene Vektor A senkrecht auf v und w stehen muss. Zwei Vektoren spannen stets eine Ebene auf, und die obige Betrachtung in der x y-Ebene durchzuführen war vollkommen willkürlich. Stattdessen kann die Betrachtung auch in der yz-Ebene, dem Aufriss oder der zx-Ebene, dem Kreuzriss durchgeführt werden. Durch eine ist das zu einem Vektor senkrecht stehende Objekt nur eine Gerade. In vier Dimensionen wäre das zu einem Vektor senkrechte Objekt ein dreidimensionales Volumen.
116
1 Einführung und Wiederholung
zyklische Fortsetzung25 entsteht so die allgemeine Vorschrift ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ wx v y wz − vz w y vx v × w = ⎝v y ⎠ × ⎝w y ⎠ ≡ ⎝ vz wx − vx wz ⎠ . vz wz vx w y − v y wx
(1.52)
Auf diese Weise ist wegen der Skalarprodukte ⎛ ⎞ ⎛ ⎞ v y wz − vz w y vx v · (vv × w ) = ⎝v y ⎠ · ⎝ vz wx − vx wz ⎠ vz vx w y − v y wx = vx v y wz − vx vz w y + v y vz wx − v y vx wz + vz vx w y − vzxv y wx = 0 ⎞ ⎛ ⎞ ⎛ v y wz − vz w y wx w · (vv × w ) = ⎝w y ⎠ · ⎝ vz wx − vx wz ⎠ wz vx w y − v y wx = v y w x wz − vz w x w y + vz w y w x − v x w y wz + v x wz w y − v y wz w x = 0 ein auf v und w senkrecht stehender Vektor konstruiert worden. Nach wie vor gilt der Zusammenhang w | sin(φ) , |vv × w | = |vv ||w
(1.53)
da die beiden Vektoren ein Parallelogramm aufspannen und das Koordinatensystem prinzipiell immer so ausgerichtet werden kann, dass die beiden Vektoren v und w in der neuen x y-Ebene liegen. Das entspricht dann der obigen Herleitung. Es ist so möglich mittels des Kreuzprodukts einen Vektor zu konstruieren, der senkrecht auf zwei gegebenen Vektoren steht und dessen Betrag mit dem Flächeninhalt des aufgespannten Parallelogramms zusammenhängt. Zwei der wichtigsten Regeln im Umgang mit dem Kreuzprodukt sind die Antisymmetrie und die Bilinearität. 1. Die Antisymmetrie besagt, dass beim Vertauschen der Vektoren ein zusätzliches Minuszeichen eingefügt werden muss. Dies ist schnell mittels ⎛ ⎞ ⎞ vz w y − v y wz v y wz − vz w y v × w = ⎝ vz w x − v x wz ⎠ = − ⎝ v x wz − vz w x ⎠ vx w y − v y wx v y wx − vx w y ⎛ ⎞ w y vz − wz v y w ×v = − ⎝ wz vx − wx vz ⎠ = −w wx v y − w y vx ⎛
25 Durch diese Konvention wird sichergestellt, dass v , w und v × w der Rechte-Hand-Regel folgen.
1.6 Vektoren in der analytischen Geometrie
117
zu zeigen. Damit folgt auch direkt, dass das Kreuzprodukt eines Vektors mit sich selbst denn Nullvektor ergibt, v ×vv = 0 . Anschaulich lässt sich dies dadurch verstehen, dass das Kreuzprodukt einen senkrechten Vektor auf den beiden gegebenen Vektoren konstruiert. Haben die beiden Vektoren unterschiedliche Richtungen, so bleiben für den konstruierten Vektor nur zwei mögliche Richtungen übrig, von der nur eine per Konvention gewählt wird. Haben aber beide Vektoren dieselbe Richtung, was bei v × v der Fall ist, so gibt es eine unendliche Menge an Richtungen, die senkrecht auf v stehen. Da v beliebig ist, ist die einzig sinnvolle Ersetzung für v × v durch den Nullvektor gegeben. Anders lässt sich auch argumentieren, dass der Winkel zwischen v und v null ist und somit für den Betrag |vv × v | = |vv ||vv | sin(0) = 0 gilt. Da aber der Nullvektor der einzige Vektor mit dem Betrag null war, muss v × v bereits der Nullvektor sein. 2. Die Bilinearität besagt, dass falls einer der beiden Vektoren als Linearkombination gegeben ist, das Kreuzprodukt der beiden Vektoren als Linearkombination von Kreuzprodukten gegeben ist.26 Für eine Linearkombination als erstes Argument lässt sich dies über die Rechnung ⎞ αv y u z + βw y u z − (αvz u y + βwz u y ) w ) × u = ⎝ αvz u x + βwz u x − (αvx u z + βwx u z ) ⎠ (αvv + βw αvx u y + βwx u y − (αv y u x + βw y u x ) ⎛ ⎞ α(v y u z − vz u y ) + β(w y u z − wz u y ) = ⎝ α(vz u x − vx u z ) + β(wz u x − wx u z ) ⎠ α(vx u y − v y u x ) + β(wx u y − w y u x ) ⎛ ⎛ ⎞ ⎞ w y u z − wz u y v y u z − vz u y = α ⎝ vz u x − v x u z ⎠ + β ⎝ wz u x − w x u z ⎠ vx u y − v y u x wx u y − w y u x ⎛
w × u) = α(vv × u ) + β(w zeigen. Ausgerüstet mit diesem Zusammenhang und der Antisymmetrie lässt sich die Aussage auch für eine Linearkombination im zweiten Argument über w + βuu ) = −(αw w + βuu ) × v v × (αw w × v ) − β(w w × u ) = α(vv × w ) + β(uu × w ) = −α(w beweisen.
26 „Bi“ steht für zwei und „Linear“ steht für die Linearkombination.
118
1 Einführung und Wiederholung
Einige weitere nützliche Eigenschaften wie das Spatprodukt und das Quadrat eines Kreuzprodukts werden in Abschn. 2.4 vorgestellt und bewiesen.
1.6.4
Zylinder-, Kugel- und Polarkoordinaten
Bisher wurde in kartesischen Koordinaten gearbeitet. Dabei werden drei orthogonale Achsen fest im Raum positioniert, und der Wert eines jeden Vektors A ermisst sich als die Abstände eines Punktes projiziert auf diese drei Achsen A x , A y und A z . Es ist A = A x eˆ x + A y eˆ y + A z eˆ z Ein anderer Weg dies aufzufassen ist dadurch gegeben, dass jeder Punkt im Raum durch die Angabe der drei Komponenten dadurch erreicht werden kann, indem vom Ursprung aus startend die x-Komponente entlang der x-Achse abgelaufen wird, danach wird die yKomponente entlang der y-Achse abgelaufen, und schlussendlich wird die z-Komponente entlang der z-Achse abgelaufen. Diese Methode einen Punkt im Raum zu erreichen, ist nicht die einzige. Um zwei konkrete alternative Möglichkeiten aufzuzeigen, sei als Referenz ein kartesisches Koordinatensystem fest im Raum verortet, und die x y-Ebene sei die Horizontale. Die beiden Möglichkeiten sind dann: 1. Eine Richtung in der horizontalen Ebene anvisieren. Diese wird charakterisiert durch den Winkel φ zwischen dem Strahl, der die anvisierte Richtung beschreibt, und der x-Achse. Der Winkel φ kann dabei Werte aus dem Intervall [0, 2π ) annehmen. Der Wert 2π wird ausgeschlossen, da sonst ein und derselbe Punkt mehrmals beschrieben werden würde. Dies wird gefolgt von dem Ablaufen einer vorgegebenen Weglänge s in der horizontalen Ebene. Die Weglänge kann Werte aus dem Intervall [0, ∞) annehmen. Schlussendlich folgt das Aufsteigen entlang der z-Achse um einen vorgegebenen Wert z. Hierbei kann z Werte aus (−∞, ∞) annehmen. Ein Ort ist dann durch die drei Komponenten s, φ und z eindeutig beschrieben. 2. Es wird eine Richtung im Raum anvisiert. Hierzu wird zunächst ein Strahl in die horizontale Ebene gelegt. Seine Richtung ist charakterisiert durch den Winkel φ, den er mit der x-Achse einschließt. Nun wird die Höhenausrichtung des Strahls vorgenommen. Der Winkel zwischen dem Strahl und der horizontalen Ebene ist χ . Zeigt der Strahl horizontal nach oben, nimmt χ den Wert π/2 an. Per Konvention27 soll in diesem Fall der charakterisierende Winkel aber null betragen, und daher wird der komplimentäre Winkel θ = π/2−χ verwendet. Nun wird eine festgelegte Strecke r an diesem Strahl abgelaufen. Ein Ort ist dann durch die drei Komponenten r , θ und φ vollständig festgelegt.
27 Ein Weg diese Konvention zu rechtfertigen, ist die Injektivität von cos θ auf einem Intervall von
[0, π ]. In vielen Ausdrücken taucht dieser als Faktor auf.
1.6 Vektoren in der analytischen Geometrie
119
In der Physik gibt es zwei besonders häufig verwendete Koordinatensysteme, die den Namen Zylinder- und Kugelkoordinaten tragen. Diese entsprechen respektive den beiden oben beschriebenen Möglichkeiten einen Punkt im Raum zu lokalisieren. Sie kommen zum Einsatz, wenn spezielle Symmetrien in einem Problem vorliegen. Die Achsen dieser Koordinatensysteme sind dabei nicht raumfest, sondern hängen vom betrachteten Punkt ab. Bezogen auf die Physik ergibt sich dadurch der spezielle Umstand, dass bei der totalen Zeitableitung von vektoriellen Größen nicht nur die Ableitungen der Komponenten, sondern auch die Ableitungen der Basisvektoren berücksichtigt werden. Solche Koordinatensysteme werden als krummlinige Koordinatensysteme bezeichnet. Es sollen hier ein paar Eigenschaften der einzelnen Koordinatensysteme gesammelt werden. Zylinderkoordinaten Der Ortsvektor wird durch das Tripel (s, φ, z) beschrieben und ist durch ⎞ s cos φ r = ⎝ s sin φ ⎠ z ⎛
gegeben. Die Achsen, die zum Aufsuchen des Punktes r verwendet wurden, dienen als erster Anhaltspunkt für die Definition der Basisvektoren. Diese waren die Achse in der horizontalen Ebene und die z-Achse ⎞ ⎛ ⎞ ⎛ 0 cos φ r = s ⎝ sin φ ⎠ + z ⎝0⎠ ≡ seˆ s + zeˆ z 1 0 mit ⎞ cos φ eˆ s = ⎝ sin φ ⎠ 0 ⎛
⎛ ⎞ 0 eˆ z = ⎝0⎠ . 1
Es handelt sich bei diesen beiden Vektoren tatsächlich um orthonormierte Vektoren, denn es gilt eˆ s · eˆ s = cos2 φ + sin2 φ = 1
eˆ z · eˆ z = 1
eˆ s · eˆ z = 0. Für ein vollständiges Basissystem wird ein dritter, auf beiden senkrecht stehender Vektor benötigt. Dieser kann durch ein Kreuzprodukt gefunden werden:28 28 Die Reihenfolge auf der rechten Seite der Definition legt dabei die Reihenfolge fest, in der die
drei Vektoren ein Orthonormalsystem bilden. Hier wird die Standardkonvention verwendet, in der das Orthonormalsystem durch die Reihenfolge (s, φ, z) gegeben ist.
120
1 Einführung und Wiederholung
⎞ ⎞ ⎛ ⎛ ⎞ ⎛ − sin φ cos φ 0 eˆ φ ≡ eˆ z × eˆ s = ⎝0⎠ × ⎝ sin φ ⎠ = ⎝ cos φ ⎠ . 0 0 1 Es gilt insgesamt eˆ s · eˆ s = eˆ φ · eˆ φ = eˆ z · eˆ z = 1 eˆ s · eˆ φ = eˆ s · eˆ z = eˆ φ · eˆ z = 0. Mit diesen Basisvektoren kann ein beliebiger Vektor A in Zylinderkoordinaten dargestellt werden. Die einzelnen Komponenten sind dabei durch As = eˆ s · A
Aφ = eˆ φ · A
A z = eˆ z · A
gegeben. Es ist dann A = As eˆ s + Aφ eˆ φ + A z eˆ z = (ˆe s · A )ˆe s + (ˆe φ · A )ˆe φ + (ˆe z · A )ˆe z . Mithilfe dieser Methode kann ein Vektor, der in kartesischen Koordinaten gegeben ist auch in Zylinderkoordinaten überführt werden und umgekehrt. In kartesischen Koordinaten gilt A = A x eˆ x + A y eˆ y + A z eˆ z = (ˆe x · A )ˆe x + (ˆe y · A )ˆe y + (ˆe z · A )ˆe z und somit im Vergleich zu Zylinderkoordinaten As = eˆ s · A = A x (ˆe s · eˆ x ) + A y (ˆe s · eˆ y ) + A z (ˆe s · eˆ z ) = A x cos φ + A y sin φ Aφ = eˆ φ · A = A x (ˆe φ · eˆ x ) + A y (ˆe φ · eˆ y ) + A z (ˆe φ · eˆ z ) = −A x sin φ + A y cos φ A z = eˆ z · A = A x (ˆe z · eˆ x ) + A y (ˆe z · eˆ y ) + A z (ˆe z · eˆ z ) = Az . Umgekehrt gilt A x = eˆ x · A = As (ˆe x · eˆ s ) + Aφ (ˆe x · eˆ φ ) + A z (ˆe x · eˆ z ) = As cos φ − Aφ sin φ A y = eˆ y · A = As (ˆe y · eˆ s ) + Aφ (ˆe y · eˆ φ ) + A z (ˆe y · eˆ z ) = As sin φ + Aφ cos φ A z = eˆ x · A = As (ˆe z · eˆ s ) + Aφ (ˆe z · eˆ φ ) + A z (ˆe z · eˆ z ) = Az .
1.6 Vektoren in der analytischen Geometrie
121
In der Physik wird die Bewegung im Raum dadurch betrachtet, dass der Ortsvektor r als Funktion der Zeit aufgefasst wird. Um die Einwirkung von Kräften auf den Ortsvektor zu betrachten sind die Geschwindigkeit und die Beschleunigung des Ortsvektors von Interesse. In Zylinderkoordinaten sind die zeitvariablen Werte (s(t), φ(t), z(t)), die einen Punkt im Raum beschreiben, Bestandteile der Basisvektoren, und daher werden sich die Basisvektoren auch mit der Zeit verändern. Diese Zeitableitungen sollen nun bestimmt werden. Hierzu wird sukzessive Gebrauch von der Kettenregel gemacht. Das Ziel ist es, die Ableitungen der jeweiligen Basisvektoren durch eine Linearkombination derselbigen auszudrücken. ⎞ ⎞ ⎛ ⎛ − sin φ cos φ d d ⎝ eˆ s = sin φ ⎠ = φ˙ ⎝ cos φ ⎠ = φ˙ eˆ φ dt dt 0 0 ⎛ ⎞ ⎛ ⎞ − sin φ − cos φ d ⎝ d eˆ φ = cos φ ⎠ = φ˙ ⎝ − sin φ ⎠ = −φ˙ eˆ s dt dt 0 0 ⎛ ⎞ 0 d ⎝ ⎠ d eˆ z = 0 = 0. dt dt 1 Mit diesen Zusammenhängen lassen sich nun die Zeitableitungen des Ortsvektors über die Produktregel r˙ =
d
d d seˆ s + zeˆ z = s˙eˆ s + s eˆ s + z˙eˆ z + z eˆ z dt dt dt = s˙eˆ s + s φ˙ eˆ φ + z˙eˆ z d d d d r¨ = r˙ = s¨eˆ s + s˙ eˆ s + s˙ φ˙ eˆ φ + s φ¨ eˆ φ + s φ˙ eˆ φ + z¨eˆ z + z˙ eˆ z dt dt dt dt
¨ e φ + z¨eˆ z = s¨ − s φ˙ 2 eˆ s + (2˙s φ˙ + s φ)ˆ
bestimmen. Kugelkoordinaten Der Ortsvektor wird durch das Tripel (r , θ, φ) beschrieben und ist durch ⎞ ⎛ cos φ sin θ r = r ⎝ sin φ sin θ ⎠ cos θ gegeben. Die Achse, die zum Aufsuchen des Punktes r verwendet wurde, dient als erster Anhaltspunkt für die Definition eines Basisvektors. Diese Achse
122
1 Einführung und Wiederholung
r ≡ r eˆ r
⇒
⎞ ⎛ cos φ sin θ r eˆ r = = ⎝ sin φ sin θ ⎠ r cos θ
ist gegeben als der Ortsvektor r geteilt durch die Strecke r . Als Motivation für einen weiteren Basisvektor wird folgender Ansatz betrachtet: Eine Kugel kann wie ein Globus in Längen- und Breitenkreise unterteilt werden. Die Längengrade werden dadurch erzeugt, dass eine Ebene, die die z-Achse enthält, die Kugel schneidet. Die Schnitte sind dabei immer Kreise mit dem Radius der Kugel und werden als Großkreise bezeichnet. Die Breitenkreise werden dadurch erzeugt, dass eine Ebene parallel zur horizontalen Ebene mit der Kugel geschnitten wird. Die Breitenkreise sind dadurch Kreise, deren Radien mit zunehmender Höhenlage der Ebene kleiner werden. Gesucht sind Basisvektoren, die in die Umlaufrichtung dieser Längen- und Breitenkreise zeigen. Schließlich geben die beiden Winkel φ und θ die Längen- und Breitengrade an. Und bei der Bewegung in eine zu φ zugeordnete Richtung sollte sich auch nur der Wert für den Längengrad verändern. Der Basisvektor in φ-Richtung ist somit identisch mit dem der Zylinderkoordinaten ⎛ ⎞ − sin φ eˆ φ = ⎝ cos φ ⎠ . 0 Der dritte Basisvektor kann wieder durch das Bilden eines Kreuzprodukts gefunden werden.29 ⎞ ⎞ ⎛ ⎛ cos φ sin θ − sin φ eˆ θ ≡ eˆ φ × eˆ r = ⎝ cos φ ⎠ × ⎝ sin φ sin θ ⎠ cos θ 0 ⎛ ⎞ ⎞ ⎛ cos φ cos θ cos φ cos θ ⎠ = ⎝ sin φ cos θ ⎠ . =⎝ sin φ cos θ 2 2 − sin φ sin θ − cos θ sin θ − sin θ Und es gilt insgesamt eˆ r · eˆ r = eˆ θ · eˆ θ = eˆ φ · eˆ φ = 1 eˆ r · eˆ θ = eˆ r · eˆ φ = eˆ θ · eˆ φ = 0. Eine Besonderheit, auf die eingegangen werden sollte, ist, dass die Kugelkoordinaten sich im Falle θ = π/2 zu Zylinderkoordinaten reduzieren, dabei gilt allerdings 29 Die Reihenfolge auf der rechten Seite der Definition legt dabei die Reihenfolge fest, in der die drei
Vektoren ein orthonormales System bilden. Hier wird die Standardkonvention verwendet, in der das Orthonormalsystem durch die Reihenfolge (r , θ, φ) dargestellt ist.
1.6 Vektoren in der analytischen Geometrie
eˆ s = eˆ r
θ=π/2
123
eˆ φ = eˆ φ
eˆ z = −ˆe θ
θ=π/2
θ=π/2
.
Mit den Basisvektoren der Kugelkoordinaten kann ein beliebiger Vektor A in eben diesen Koordinaten dargestellt werden. Die einzelnen Komponenten sind dabei gegeben durch Ar = eˆ r · A
Aθ = eˆ θ · A
Aφ = eˆ φ · A .
Es ist dann auch A = Ar eˆ r + Aθ eˆ θ + Aφ eˆ φ
= eˆ r · A eˆ r + eˆ θ · A eˆ θ + eˆ φ · A eˆ φ . Mithilfe dieser Methode kann ein Vektor, der in kartesischen Koordinaten gegeben ist, auch in Kugelkoordinaten überführt werden und umgekehrt. In kartesischen Koordinaten gilt A = A x eˆ x + A y eˆ y + A z eˆ z = (ˆe x · A )ˆe x + (ˆe y · A )ˆe y + (ˆe z · A )ˆe z und somit im Vergleich zu Kugelkoordinaten Ar = eˆ r · A = A x (ˆe r · eˆ x ) + A y (ˆe r · eˆ y ) + A z (ˆe r · eˆ z ) = A x cos φ sin θ + A y sin φ sin θ + A z cos θ Aθ = eˆ θ · A = A x (ˆe θ · eˆ x ) + A y (ˆe θ · eˆ y ) + A z (ˆe θ · eˆ z ) = A x cos φ cos θ + A y sin φ cos θ − A z sin θ Aφ = eˆ φ · A = A x (ˆe φ · eˆ x ) + A y (ˆe φ · eˆ y ) + A z (ˆe φ · eˆ z ) = −A x sin φ + A y cos φ. Umgekehrt gilt A x = eˆ x · A = Ar (ˆe x · eˆ r ) + Aθ (ˆe x · eˆ θ ) + Aφ (ˆe x · eˆ φ ) = Ar cos φ sin θ + Aθ cos φ cos θ − Aφ sin φ A y = eˆ y · A = Ar (ˆe y · eˆ r ) + Aθ (ˆe y · eˆ θ ) + Aφ (ˆe y · eˆ φ ) = Ar sin φ sin θ + Aθ sin φ cos θ + Aφ cos φ A z = eˆ z · A = Ar (ˆe z · eˆ r ) + Aθ (ˆe z · eˆ θ ) + Aφ (ˆe z · eˆ φ ) = Ar cos θ − Aθ sin θ. In der Physik wird die Bewegung im Raum dadurch betrachtet, dass der Ortsvektor r als Funktion der Zeit aufgefasst wird. Um die Einwirkung von Kräften auf den Ortsvektor zu betrachten, sind die Geschwindigkeit und die Beschleunigung des Ortsvektors von Interesse. In Kugelkoordinaten sind die zeitvariablen Werte (r (t), θ (t), φ(t)), die einen Punkt
124
1 Einführung und Wiederholung
im Raum beschreiben, Bestandteile der Basisvektoren, und daher werden sich die Basisvektoren auch mit der Zeit verändern. Diese Zeitableitungen sollen nun bestimmt werden. Hierzu wird sukzessive Gebrauch von der Kettenregel gemacht. Das Ziel ist es, die Ableitungen der jeweiligen Basisvektoren durch eine Linearkombination derselbigen auszudrücken. Zunächst werden die Basisvektoren eˆ r und eˆ θ , ⎞ ⎞ ⎛ ⎛ −φ˙ sin φ sin θ + θ˙ cos φ cos θ cos φ sin θ d ⎝ d eˆ r = sin φ sin θ ⎠ = ⎝ φ˙ cos φ sin θ + θ˙ sin φ cos θ ⎠ dt dt −θ˙ sin θ cos θ ⎞ ⎛ ⎞ ⎛ cos φ cos θ − sin φ = φ˙ sin θ ⎝ cos φ ⎠ + θ˙ ⎝ sin φ cos θ ⎠ = θ˙eˆ θ + φ˙ sin θ eˆ φ − sin θ 0 ⎞ ⎞ ⎛ ⎛ −φ˙ sin φ cos θ − θ˙ cos φ sin θ cos φ cos θ d ⎝ d eˆ θ = sin φ cos θ ⎠ = ⎝ φ˙ cos φ cos θ − θ˙ sin φ sin θ ⎠ dt dt −θ˙ cos θ − sin θ ⎞ ⎞ ⎛ ⎛ cos φ sin θ − sin φ = φ˙ cos θ ⎝ cos φ ⎠ − θ˙ ⎝ sin φ sin θ ⎠ = −θ˙eˆ r + φ˙ cos θ eˆ φ cos θ 0 betrachtet. Für den Basisvektor eˆ φ gilt hingegen ⎞ ⎞ ⎛ cos φ − sin φ d d ⎝ eˆ φ = cos φ ⎠ = −φ˙ ⎝ sin φ ⎠ . dt dt 0 0 ⎛
Um diesen Ausdruck nun in Kugelkoordinaten darzustellen, muss eine Projektion auf die einzelnen Basisvektoren ⎞ ⎞ ⎛ ⎛ cos φ cos φ sin θ d eˆ r · eˆ φ = −φ˙ ⎝ sin φ sin θ ⎠ · ⎝ sin φ ⎠ = −φ˙ sin θ dt 0 cos θ ⎞ ⎞ ⎛ ⎛ cos φ cos φ cos θ d eˆ θ · eˆ φ = −φ˙ ⎝ sin φ cos θ ⎠ · ⎝ sin φ ⎠ = −φ˙ cos θ dt 0 − sin θ ⎞ ⎞ ⎛ ⎛ cos φ − sin φ d eˆ φ · eˆ φ = −φ˙ ⎝ cos φ ⎠ · ⎝ sin φ ⎠ = 0. dt 0 0 durchgeführt werden. Dies lässt sich zu dem Ergebnis d eˆ φ = −φ˙ sin θ eˆ r − φ˙ cos θ eˆ θ dt
1.6 Vektoren in der analytischen Geometrie
125
zusammenfassen. Mit diesen Zusammenhängen lassen sich nun die Zeitableitungen des Ortsvektors über die Produktregel zu d r eˆ r dt d = r˙eˆ r + r eˆ r dt = r˙eˆ r + r θ˙eˆ θ + r φ˙ sin θ eˆ φ d d d d d d
r θ˙ + r θ˙ eˆ θ + eˆ φ r φ˙ sin θ + r φ˙ sin θ eˆ φ r¨ = r˙ = r¨eˆ r + r˙ eˆ r + eˆ θ dt dt dt dt dt dt = r¨eˆ r + r˙ θ˙eˆ θ + r˙ φ˙ sin θ eˆ φ
+ r˙ θ˙ + r θ¨ eˆ θ − r θ˙ 2eˆ r + r θ˙ φ˙ cos θ eˆ φ
+ r˙ φ˙ sin θ + r φ¨ sin θ + r φ˙ θ˙ cos θ eˆ φ − r φ˙ 2 sin2 θ eˆ r − r φ˙ 2 sin θ cos θ eˆ θ
= r¨ − r θ˙ 2 − r φ˙ 2 sin2 θ eˆ r + 2˙r θ˙ + r θ¨ − r φ˙ 2 sin θ cos θ eˆ θ
+ 2˙r φ˙ sin θ + 2r θ˙ φ˙ cos θ + r φ¨ sin θ eˆ φ r˙ =
bestimmen. Polarkoordinaten Polarkoordinaten sind der zweidimensionale Fall von Zylinder- und Kugelkoordinaten. Es müssen dafür in Zylinderkoordinaten z = 0 und s durch r ersetzt und in Kugelkoordinaten θ = 0 gesetzt werden. Die Übersetzung erfolgt am einfachsten durch die Zylinderkoordinaten. Die Bewegungen in der x y-Ebene werden dann durch den Abstand zum Ursprung r und den Winkel φ der Verbindungslinie mit der x-Achse beschrieben. Die Einheitsvektoren sind dann cos(φ) − sin(φ) . eˆ r = eˆ φ = sin(φ) cos(φ) Nach wie vor stehen diese orthogonal aufeinander; eˆ r · eˆ r = 1, eˆ φ · eˆ φ = 1 und eˆ r · eˆ φ = 0. Ein Vektor A lässt sich durch A = eˆ r (ˆe r · A ) + eˆ φ (ˆe φ · A ) ausdrücken. Damit lassen sich die Polarkoordinaten mittels Ar = A x cos φ + A y sin φ Aφ = −A x sin φ + A y cos φ durch die kartesischen Koordinaten ausdrücken. Kartesische Koordinaten können mit
126
1 Einführung und Wiederholung
A x = As cos φ − Aφ sin φ A y = Ar sin φ + Aφ cos φ durch Polarkoordinaten ausgedrückt werden. Die Zeitableitungen sind wieder durch d eˆ r = φ˙ eˆ φ dt
d eˆ φ = −φ˙ eˆ r dt
gegeben, und es gilt für die Geschwindigkeit und die Beschleunigung des Ortsvektors r = r eˆ r r˙ = r˙eˆ r + r φ˙ eˆ φ
¨ eφ . r¨ = r¨ − r φ˙ 2 eˆ r + (2˙r φ˙ + r φ)ˆ
1.6.5
Formelsammlung – Vektoren in analytischer Geometrie
Addition von Vektoren und Multiplikation mit reellen Zahlen ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ vx wx vx ± wx v ± w = ⎝v y ⎠ ± ⎝w y ⎠ = ⎝v y ± w y ⎠ vz wz vz ± wz Betrag und Richtung eines Vektors
|vv | = vx2 + v 2y + vz2
⎛ ⎞ ⎛ ⎞ vx λvx λ · v = λ · ⎝v y ⎠ = ⎝λv y ⎠ vz λvz
nˆ v =
v |vv |
Skalarprodukt und sein Zusammenhang mit dem Betrag w | cos(φ) v · w = vx wx + v y w y + vz wz = |vv ||w v ·w = w ·v
v 2 = v · v = |vv |2
w ) = α(uu · v ) + β(uu · w ) u · (αvv + βw
a (bb · c ) = (aa · b )cc Parallele und senkrechte Anteile von v auf w w w w w ·v v⊥ = v − v = v − ·v v = w | |w w| w | |w w| |w |w v⊥ · w = 0 Linear unabhängige Vektoren v 1 , v 2 und v 3 , die nicht der Nullvektor sind; orthogonale Vektoren sind immer linear unabhängig λ1v 1 + λ2v 2 + λ3v 3 = 0 ⇒ λ1 = λ2 = λ3 = 0
1.6 Vektoren in der analytischen Geometrie
127
Kartesische Basis ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 0 0 eˆ 1 = eˆ x = ⎝0⎠ eˆ 2 = eˆ y = ⎝1⎠ eˆ 3 = eˆ z = ⎝0⎠ eˆ i · eˆ j = δi j 0 0 1 v = eˆ 1 (ˆe 1 · v ) + eˆ 2 (ˆe 2 · v ) + eˆ 3 (ˆe 3 · v ) Gram-Schmidt-Verfahren für linear unabhängige Vektoren v 1 , v 2 und v 3 v1 u2 u3 w2 = w3 = |vv 1 | |uu 2 | |uu 3 | w1 · v 2) w 1 · v 3 ) − (w w2 · v 3) u 3 = v 3 − (w u 2 = v 2 − (w w1 =
Kreuzprodukte ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ vx wx v y wz − vz w y v × w = ⎝v y ⎠ × ⎝w y ⎠ = ⎝ vz wx − vx wz ⎠ vz wz vx w y − v y wx
w | sin(φ) |vv × w | = |vv ||w
v · (vv × w ) = 0 = w · (vv × w ) w ) × u = α(vv × u ) + β(w w × u) (αvv + βw w + βuu ) = α(vv × w ) + β(uu × w ) v × (αw w ×v v × w = −w
v ×v = 0
Zylinderkoordinaten – Ortsvektor und Variablen ⎞ ⎛ s cos φ r = ⎝ s sin φ ⎠ s ∈ [0, ∞), φ ∈ [0, 2π ), z ∈ (−∞, ∞) z Zylinderkoordinaten – Basisvektoren ⎞ ⎞ ⎛ ⎛ ⎞ cos φ − sin φ 0 ⎠ ⎠ ⎝ ⎝ ⎝ eˆ s = sin φ eˆ φ = cos φ eˆ z = 0⎠ 0 0 1 ⎛
eˆ s · eˆ s = eˆ φ · eˆ φ = eˆ z · eˆ z = 1
eˆ s · eˆ φ = eˆ s · eˆ z = eˆ φ · eˆ z = 0
eˆ z = eˆ s × eˆ φ eˆ s = eˆ φ × eˆ z eˆ φ = eˆ z × eˆ s d d d eˆ s = φ˙ eˆ φ eˆ φ = −φ˙ eˆ s eˆ z = 0 dt dt dt Zylinderkoordinaten – Komponenten eines Vektors A A = As eˆ s + Aφ eˆ φ + A z eˆ z = eˆ s (ˆe s · A ) + eˆ φ (ˆe φ · A ) + eˆ z (ˆe z · A )
128
1 Einführung und Wiederholung
Zylinderkoordinaten – Ortsvektorableitungen r˙ = s˙eˆ s + s φ˙ eˆ φ + z˙eˆ z
¨ e φ + z¨eˆ z r¨ = s¨ − s φ˙ 2 eˆ s + (2˙s φ˙ + s φ)ˆ
Kugelkoordinaten – Ortsvektor und Variablen ⎞ cos φ sin θ r = r ⎝ sin φ sin θ ⎠ r ∈ [0, ∞), θ ∈ [0, π ], φ ∈ [0, 2π ) cos θ ⎛
Kugelkoordinaten – Basisvektoren ⎞ ⎞ ⎞ ⎛ ⎛ cos φ sin θ cos φ cos θ − sin φ eˆ r = ⎝ sin φ sin θ ⎠ eˆ θ = ⎝ sin φ cos θ ⎠ eˆ φ = ⎝ cos φ ⎠ cos θ − sin θ 0 ⎛
eˆ r · eˆ r = eˆ θ · eˆ θ = eˆ φ · eˆ φ = 1
eˆ r · eˆ θ = eˆ r · eˆ φ = eˆ θ · eˆ φ = 0
eˆ φ = eˆ r × eˆ θ eˆ r = eˆ θ × eˆ φ eˆ θ = eˆ φ × eˆ r d d eˆ r = θ˙eˆ θ + φ˙ sin θ eˆ φ eˆ θ = −θ˙eˆ r + φ˙ cos θ eˆ φ dt dt d eˆ φ = −φ˙ sin θ eˆ r − φ˙ cos θ eˆ θ dt Kugelkoordinaten – Komponenten eines Vektors A A = Ar eˆ r + Aθ eˆ θ + Aφ eˆ φ = eˆ r (ˆe r · A ) + eˆ θ (ˆe θ · A ) + eˆ φ (ˆe φ · A ) Kugelkoordinaten – Ortsvektorableitungen r˙ = r˙eˆ r + r θ˙eˆ θ + r φ˙ sin θ eˆ φ
r¨ = r¨ − r θ˙ 2 − r φ˙ 2 sin2 θ eˆ r + 2˙r θ˙ + r θ¨ − r φ˙ 2 sin θ cos θ eˆ θ
+ 2˙r φ˙ sin θ + 2r θ˙ φ˙ cos θ + r φ¨ sin θ eˆ φ Polarkoordinaten – Ortsvektor und Variablen r cos φ r = r ∈ [0, ∞), φ ∈ [0, 2π ) r sin φ Polarkoordinaten – Basisvektoren cos φ − sin φ eˆ r = eˆ φ = sin φ cos φ eˆ r · eˆ φ = 0 eˆ r · eˆ r = eˆ φ · eˆ φ = 1 d d eˆ r = φ˙ eˆ φ eˆ φ = −φ˙ eˆ r dt dt
1.6 Vektoren in der analytischen Geometrie
Polarkoordinaten – Komponenten eines Vektors A A = Ar eˆ r + Aφ eˆ φ = eˆ r (ˆer · A ) + eˆ φ (ˆe φ · A ) Polarkoordinaten – Ortsvektorableitungen r˙ = r˙eˆ r + r φ˙ eˆ φ
¨ eφ r¨ = r¨ − r φ˙ 2 eˆ r + (2˙r φ˙ + r φ)ˆ
129
2
Erste neue und grundlegende Konzepte
Inhaltsverzeichnis 2.1
2.2
2.3
2.4
2.5
2.6
Hyperbolische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Die Umkehrfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3 Das anschauliche Verständnis der hyperbolischen Funktionen . . . . . . . . . . . . . . . . 2.1.4 Formelsammlung – hyperbolische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Induktive Beweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Das allgemeine Verfahren der vollständigen Induktion . . . . . . . . . . . . . . . . . . . . . . . 2.2.2 Einige weitere Beispiele zur vollständigen Induktion . . . . . . . . . . . . . . . . . . . . . . . . 2.2.3 Induktive Beweise – Formelsammlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Gamma-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Die Stirling-Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Formelsammlung – Gamma-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Indexschreibweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Die Einstein’sche Summenkonvention . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.2 Das Kronecker-Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.3 Das Levi-Civita-Symbol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.4 Formelsammlung – Indexschreibweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Dirac-Delta- und Heaviside-Theta-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.1 Definition und Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5.2 Regeln zum Umgang mit der Dirac-Delta- und Heaviside-Theta-Funktion . . . . 2.5.3 Dirac-Delta- und Heaviside-Theta-Funktion – Formelsammlung . . . . . . . . . . . . . Lösen von Differentialgleichungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.1 Variation der Konstanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6.2 Lineare Differentialgleichungen mit konstanten Koeffizienten . . . . . . . . . . . . . . . . 2.6.3 Grundlegende Aspekte von Green’schen Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 2.6.4 Vereinfachen von Differentialgleichungen durch asymptotisches Verhalten . . . 2.6.5 Lösen von Differentialgleichungen – Formelsammlung . . . . . . . . . . . . . . . . . . . . . .
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_2
132 132 137 141 144 145 145 147 158 159 160 162 163 164 164 166 168 173 174 174 178 184 185 186 190 195 202 208
131
132
2 Erste neue und grundlegende Konzepte
In diesem Kapitel soll ein erster Einstieg in neue Konzepte gemacht werden. Einige dieser Konzepte tauchen in der Physik immer wieder auf, passen aber schwer in eigene Kapitel. Andere Konzepte, wie die in Abschn. 2.4 eingeführte Indexschreibweise, tauchen nicht nur in der Physik immer wieder auf, sondern werden auch in den folgenden Kapiteln, allen voran den Kap. 7, 8 und 10 Anwendung finden und stellen ein unverzichtbares Werkzeug der theoretischen Physik dar.
2.1
Hyperbolische Funktionen
In diesem Abschnitt soll es um hyperbolische Funktionen gehen. Sie sind in ihren Eigenschaften recht ähnlich zu den trigonometrischen Funktionen, weisen aber keine Periodizität auf. In der theoretischen Physik finden sie immer wieder Anwendung. Ihre Nützlichkeit liegt auch darin, dass Exponentialfunktionen mit reellen Argumenten durch diese Funktionen ausgedrückt werden können. Die prominentesten Beispiele für ihr Auftauchen in der Physik sind die Lösungen des gedämpften harmonischen Oszillators im überdämpften Fall oder die Bestimmung thermodynamischer Zustandsgrößen in Systemen, die aus Paramagneten bestehen.
2.1.1
Definition und Eigenschaften
Die sogenannten hyperbolischen Funktionen sinh(x), cosh(x) und tanh(x) weisen Ähnlichkeiten zu den aus der Schule bekannten trigonometrischen Funktionen sin(x), cos(x) und tan(x) auf. Eine Motivation für diese Funktionen kann durch die Frage gegeben sein, welche Werte die trigonometrischen Funktionen für komplexe Argumente annehmen. Aus Abschn. 1.5.2 ist klar, dass cos(x) =
eix + e−ix 2
sin(x) =
eix − e−ix 2i
gilt. Für ein rein imaginäres Argument ix ergibt sich dann cosh(x) = cos(ix) =
ex + e−x 2
sinh(x) = −i sin(ix) =
ex − e−x . 2
Davon sollten die jeweils letzten Gleichheiten cosh(x) ≡
e x + e−x 2
sinh(x) ≡
ex − e−x 2
(2.1)
2.1
Hyperbolische Funktionen
133
als Definition der hyperbolischen Funktionen aufgefasst werden. Die Funktion sinh(x) wird als Sinus hyperbolicus oder auch hyperbolischer Sinus bezeichnet, während die Funktion cosh(x) die Bezeichnung Kosinus hyperbolicus bzw. hyperbolischer Kosinus erhält. Für den Tangens hyperbolicus bzw. hyperbolischen Tangens tanh(x) gilt tanh(x) =
sinh(x) ex − e−x = x , cosh(x) e + e−x
(2.2)
ganz analog zur trigonometrischen Definition. Neben dem hyperbolischen Tangens kann auch der hyperbolische Kotangens coth(x) =
cosh(x) 1 = tanh(x) sinh(x)
(2.3)
analog zum trigonometrischen Kotangens eingeführt werden. Für einen Eindruck der Funktionen soll der Funktionsgraph gefunden werden. Es ist dazu nützlich zunächst die Grenzfälle cosh(0) = cosh(x) ≈
1 x 2e 1 −x 2e
1+1 =1 2
|x| 1 ∧ x > 0 |x| 1 ∧ x < 0
sinh(0) =
1−1 =0 2
sinh(x) ≈
1 2
ex
|x| 1 ∧ x > 0
− 21 e−x
|x| 1 ∧ x < 0
zu betrachten. Die Parität der Funktionen lässt sich mit der Definition über die Betrachtung ex − e−x e−x − ex =− = −sinh(x) 2 2 −x x x −x e +e e +e cosh(−x) = = = cosh(x) 2 2 sinh(−x) =
untersuchen. Es zeigt sich dabei, dass der Sinus hyperbolicus genauso wie der trigonometrische Sinus eine ungerade Funktion ist, während der hyperbolische Kosinus gerade ist. Da der hyperbolische Tangens somit eine Kombination aus einer geraden und einer ungeraden Funktion ist, ist er selbst ungerade, und es gilt tanh(−x) = −tanh(x). Da der hyperbolische Kosinus aufgrund seiner Definition (2.1) immer positiv ist und somit keine Nullstellen aufweist, wird der Tangens hyperbolicus über keine Polstellen verfügen. Der Kotangens hyperbolicus wird für x = 0 jedoch eine Polstelle aufweisen, da dort der Sinus hyperbolicus seine einzige Polstelle besitzt. Da sich die beiden hyperbolischen Funktionen sinh(x) und cosh(x) für betragsmäßig große Werte bis auf ein Vorzeichen nicht voneinander unterscheiden, werden der hyperbolische Tangens und Kotangens immer mehr gegen den Wert eins streben.
134
2 Erste neue und grundlegende Konzepte
Abb. 2.1 Funktionsgraphen der hyperbolischen Funktionen. In a sind die Funktionsgraphen zum hyperbolischen Sinus und Kosinus dargestellt. Der Sinus hyperbolicus ist dabei die durchgezogene Linie, während der Kosinus hyperbolicus die gestrichelte Linie ist. Die gepunkteten Linien sind dabei Hilfslinien der Form ± e±x /2, die die asymptotischen Verhalten der hyperbolischen Funktionen darstellen. In b sind die Funktionsgraphen des hyperbolischen Tangens und des Kotangens dargestellt. Die durchgezogene Linie ist dabei der Tangens, während die gestrichelte Linie der Kotangens ist. Die gepunkteten Geraden bei y = ±1 stellen das asymptotische Verhalten dar
Mit diesen Überlegungen lässt sich ein Eindruck der Funktionsgraphen aller vier hyperbolischen Funktionen gewinnen, der auch in Abb. 2.1 zu sehen ist. Aus der Definition (2.1) kann ein nützlicher Zusammenhang zwischen der Exponentialfunktion und den hyperbolischen Funktionen ex + e−x + ex − e−x = ex 2 ex + e−x − e x − e−x = e−x cosh(x) − sinh(x) = 2
cosh(x) + sinh(x) =
gewonnen werden. Mit der Definition des hyperbolischen Sinus und Kosinus sowie dem Zusammenhang zwischen den trigonometrischen Funktionen und der Exponentialfunktion kann über1 eix − e−ix eix − e−ix =i = i sin(x) 2 2i 2 2 ei x − e−i x 1 e x − e−x sin(ix) = =− · = i sinh(x) 2i i 2
sinh(ix) =
1 Damit zeigt sich auch sofort ein weiterer Zusammenhang; auf den komplexen Zahlen sind die
Funktionen Sinus und Kosinus nicht beschränkt und es gibt somit Lösungen in C für Gleichungen wie sin(z) = 2.
2.1
Hyperbolische Funktionen
135
und eix + e−ix = cos(x) 2 e−x + e+x cos(ix) = = cosh(x) 2
cosh(ix) =
ein Zusammenhang zwischen den trigonometrischen und hyperbolischen Funktionen für komplexe Argumente gefunden werden. Dies kann dazu verwendet werden, um einige hilfreiche Identitäten zu beweisen. Mit diesen Ausdrücken können die Additionstheoreme der hyperbolischen Funktionen sin(x ± y) = sin(x) cos(y) ± sin(y) cos(x) ⇒ sinh(x ± y) = −i sin(ix ± iy) = −i sin(ix) cos(iy) ± (−i) sin(iy) cos(ix) = −i · i sinh(x) cosh(y) ± (−i) i sinh(y) cosh(x) = sinh(x) cosh(y) ± sinh(y) cosh(x) und cos(x ± y) = cos(x) cos(y) ∓ sin(x) sin(y) ⇒ cosh(x ± y) = cos(ix ± iy) = cos(ix) cos(iy) ∓ sin(ix) sin(iy) = cosh(x) cosh(y) ∓ i sinh(x) i sinh(y) = cosh(x) cosh(y) ± sinh(x) sinh(y) gefunden werden. In ihrer vereinfachten Form für verdoppelte Argumente 2x ergeben sich die Ausdrücke sinh(2x) = 2 sinh(x) cosh(x) und cosh(2x) = cosh2 (x) + sinh2 (x). Während der Ausdruck für den hyperbolischen Sinus in vollkommener Analogie zu dem des trigonometrischen Sinus steht, weist der Ausdruck für den hyperbolischen Kosinus ein anderes Vorzeichen auf. Für die Subtraktion zweier Argumente lässt sich der Ausdruck 1 = cosh(0) = cosh(x − x) = cosh2 (x) − sinh2 (x)
(2.4)
136
2 Erste neue und grundlegende Konzepte
finden. Dieser steht in Analogie zu dem pythagoreischen Ausdruck 1 = cos2 (x) + sin2 (x) und wird in Abschn. 2.1.3 noch einmal aufgegriffen. Über die gefundenen Ausdrücke für den hyperbolischen Sinus und Kosinus lassen sich auch für den hyperbolischen Tangens und Kotangens die Zusammenhänge sinh(ix) sin(x) =i = i tan(x) cosh(ix) cos(x) 1 1 coth(ix) = = = −i cot(x) tanh(ix) i tan x
tanh(ix) =
finden. Im letzten Schritt wurde dabei ausgenutzt, dass der Kehrwert der imaginären Einheit durch ihr Negatives 1i = −i gegeben ist. Ebenso gelten für den trigonometrischen Tangens und Kotangens die Zusammenhänge sin(ix) i sinh(x) = = i tanh(x) cos(ix) cosh(x) cos(ix) cosh(x) cot(ix) = = = −i coth(x). sin(ix) i sinh(x) tan(ix) =
Über die Definition (2.1) lassen sich die Ableitungen und die Stammfunktionen der hyperbolischen Funktionen bestimmen, wie es in den Abschn. 1.3.2 und 1.4.2 getan wurde. Dabei wurden die Ergebnisse d d sinh(x) = cosh(x) cosh(x) = sinh(x) dx dx dx cosh(x) = sinh(x) dx sinh(x) = cosh(x) gefunden. Mithilfe dieser Erkenntnisse lassen sich einige weitere Zusammenhänge, wie die Integrale über die Quadrate der hyperbolischen Funktionen2 sinh(x) cosh(x) x dx sinh2 (x) = − + 2 2 sinh(x) cosh(x) x dx cosh2 (x) = + 2 2 oder die Ableitungen des hyperbolischen Tangens und Kotangens
2 Wie es mittels partieller Integration in Abschn. 1.4.2 getan wurde.
2.1
Hyperbolische Funktionen
137
cosh2 (x) − sinh2 (x) d 1 tanh(x) = = = 1 − tanh2 (x) 2 dx cosh (x) cosh2 (x) sinh2 (x) − cosh2 (x) d 1 coth(x) = =− = 1 − coth2 (x) dx sinh2 (x) sinh2 (x) finden.
2.1.2
Die Umkehrfunktionen
Ebenso wie im Falle der trigonometrischen Funktionen gibt es auch für die hyperbolischen Funktionen entsprechende Umkehrfunktionen, die Gleichungen der Form Arsinh(sinh(x)) = x erfüllen. Die Umkehrfunktionen werden als Areasinus hyperbolicus Arsinh(x), Areakosinus hyperbolicus Arcosh(x), Areatangens hyperbolicus Artanh(x) und Areakotangens hyperbolicus Arcoth(x) bezeichnet. Auf die Namensgebung wird in Abschn. 2.1.3 eingegangen. Da der hyperbolische Sinus bijektiv ist, ist der Areasinus hyperbolicus für alle reellen x definiert. Er lässt sich in einer expliziten Form angeben. Dazu wird betrachtet, dass der Areasinus hyperbolicus von x die Zahl ist, welche in den hyperbolischen Sinus eingesetzt werden muss, um x zu erhalten. Damit ergibt sich über die Definition des hyperbolischen Sinus in (2.1) die Bestimmungsgleichung x = sinh(Arsinh(x)) =
1 Arsinh(x) e − eArsinh(x) . 2
Für die Rechnung soll der Arsinh(x) mit A abgekürzt werden, um die Formeln etwas übersichtlicher zu machen. Die Bestimmungsgleichung lässt sich mittels 2x = e A − e−A
⇒
2x e A = e2 A −1
e2 A −2x e A −1 = 0 zu einer quadratischen Gleichung der Form u 2 − 2xu − 1 = 0 in u = e A umformen. Die Lösung einer solchen Gleichung lässt sich über die pq-Formel zu u 1/2 = x ± x 2 + 1 bestimmen. Da u durch e A gegeben ist, es sich somit um eine positive Zahl handelt, und √ x 2 + 1 > x ist, kann nur das positive Vorzeichen sinnvoll sein. Durch das Logarithmieren
138
2 Erste neue und grundlegende Konzepte
findet sich Arsinh(x) = ln x + x 2 + 1
(2.5)
als expliziter Ausdruck des Areasinus hyperbolicus. Für betragsmäßig kleine Werte von x geht der Areasinus hyperbolicus gegen null, während er für besonders große Werte von |x| gegen ln(2x) strebt. Für den Areakosinus hyperbolicus lässt sich eine vollkommen analoge Betrachtung mit der Bestimmungsgleichung x = cosh(Arcosh(x)) =
1 Arcosh(x) e + eArcosh(x) 2
durchführen. Diese führt zu der quadratischen Gleichung u 2 − 2xu + 1 = 0 , die durch u 1/2 = x ±
x2 − 1
gelöst wird. √ u muss dabei wie zuvor auch eine positive Zahl sein. Da in diesem Fall die Wurzel x 2 − 1 ein wenig kleiner als x ist, gibt dies keinen Aufschluss darüber, welches Vorzeichen vor der Wurzel gewählt werden sollte, da in beiden Fällen der Term auf der rechten Seite positiv bleibt. Wichtig ist hierbei auch zu bemerken, dass die rechte Seite nur definiert ist, falls x betragsmäßig größer als eins ist. Soll der Areakosinus hyperbolicus bestimmt werden, muss noch der Logarithmus betrachtet werden. Im Falle eines negativen Vorzeichens vor der Wurzel würde für immer größere x das Argument des Logarithmus immer mehr gegen null streben. Bei Argumenten, die kleiner als eins sind, wird der Logarithmus negativ. In Abschn. 1.2.1 wurde darauf hingewiesen, dass eine Umkehrfunktion durch das Spiegeln an der Winkelhalbierenden y = x erreicht wird und nur für bijektive Funktionen auf dem gesamten Bildbereich definiert ist. Der Kosinus hyperbolicus ist jedoch eine gerade und damit nicht injektive Funktion. Die Wahl des Vorzeichens des Kosinus hyperbolicus entspricht der Wahl zwischen den beiden durch die Spiegelung entstehenden Äste über- und unterhalb der x-Achse. Anders ausgedrückt, entspricht es der Wahl, auf welchen Definitionsbereich der Kosinus hyperbolicus eingeschränkt werden muss, um ihn injektiv und damit auch bijektiv zu machen. Es wird hier die Standardkonvention verwendet, in der der hyperbolische Kosinus so eingeschränkt wird, dass er für positive Argumente bijektiv ist. Damit wird nach positiven Werten für den Areakosinus hyperbolicus gesucht, und dieser ist somit durch Arcosh(x) = ln x + x 2 − 1 (2.6) gegeben. Definiert ist er wegen des Radikanden dabei nur auf dem Definitionsbereich D = [1, ∞).
2.1
Hyperbolische Funktionen
139
Für Argumente besonders nahe an x = 1 strebt der Areakosinus hyperbolicus auch gegen null, während er sich, wie auch der Areasinus hyperbolicus, für große Argumente mehr und mehr wie ln(2x) verhält. Die Funktionsgraphen des Areasinus und des Areakosinus hyperbolicus sind in Abb. 2.2(a) aufgetragen. Für die Umkehrfunktion des Tangens hyperbolicus kann die Kombination 1+x 1−x mit x = tanh(u) betrachtet werden. Mit der Definition des Tangens hyperbolicus ausgedrückt in Exponentialfunktionen tanh(u) =
sinh(u) eu − e−u = u cosh(u) e + e−u
lässt sich so der Ausdruck 1+ 1+x = 1−x 1−
eu − e−u eu + e−u eu − e−u eu + e−u
=
eu + e−u + eu − e−u 2 eu = = e2u u −u u −u 2 e−u e +e − e −e
finden. Da der hyperbolische Tangens auch bijektiv ist und somit die Bestimmungsgleichung x = tanh(Artanh(x)) erfüllt, muss u = Artanh(x) entsprechen, und es ist damit
1 1+x Artanh(x) = ln 2 1−x als expliziter Ausdruck für den Areatangens hyperbolicus gefunden. Andererseits ist aufgrund des Zusammenhangs x = tanh(u) =
1 coth(u)
auch die Ersetzung t=
1 = coth(u) x
in der Gleichung 1+ 1+x = 1−x 1−
1 t 1 t
=
t +1 = e2u t −1
(2.7)
140
2 Erste neue und grundlegende Konzepte
Abb.2.2 Funktionsgraphen der inversen hyperbolischen Funktionen. In a sind die Funktionsgraphen zum Areasinus hyperbolicus und Areakosinus hyperbolicus dargestellt. Der Arkussinus hyperbolicus ist dabei die durchgezogene Linie, während der Arkuskosinus hyperbolicus die gestrichelte Linie ist. In b sind die Funktionsgraphen des Areatangens hyperbolicus und des Areakotangens hyperbolicus dargestellt. Die durchgezogene Linie ist dabei der Arkustangens, während die gestrichelte Linie der Areakotangens hyperbolicus ist. Die gepunkteten Linien verdeutlichen die Polstellen der beiden Funktionsgraphen bei x = ±1
möglich, um so u = Arcoth(t) zu bestimmen. Es ergibt sich dann der Ausdruck
1 t +1 Arcoth(t) = ln 2 t −1 als expliziter Ausdruck für den Areakotangens hyperbolicus. Da der hyperbolische Tangens nur Werte zwischen −1 und 1 annehmen kann, ist die oben gefundene Formel auch nur für Werte von x im Bereich (−1, 1) gültig. Dies zeigt sich auch daran, dass für Werte von x nahe bei x = 1 der Nenner gegen null gehen würde, wodurch das Argument des Logarithmus beliebig groß würde, was dazu führt, dass der Areatangens hyperbolicus gegen unendlich strebt, also eine Polstelle bei x = 1 aufweist. Ebenso würde für Argumente nahe bei x = −1 der Zähler gegen null streben, wodurch das Argument des Logarithmus beliebig nahe an null herantritt, sodass der Logarithmus in die negative Unendlichkeit strebt. Der Areatangens hyperbolicus hat somit auch eine Polstelle bei x = −1. Dies ist auch in Abb. 2.2(b) zu erkennen. Der Areakotangens hyperbolicus ist hingegen nur auf dem Bereich x ∈ R\[−1, 1] definiert und weist die gleichen Polstellen wie der Areatangens hyperbolicus auf. Er ist ebenfalls in Abb. 2.2(b) aufgetragen.
2.1
Hyperbolische Funktionen
2.1.3
141
Das anschauliche Verständnis der hyperbolischen Funktionen
Wie in Abschn. 2.1.1 bereits durchgeführt, kann der Zusammenhang 2.1 in Analogie zum pythagoreischen Ausdruck gefunden werden. Dieser kann auch direkt über den Zusammenhang zwischen trigonometrischen und hyperbolischen Funktionen durch 1 = cos2 (ix) + sin2 (ix) = cosh2 (x) + i2 sinh2 (x) = cosh2 (x) − sinh2 (x) gefunden werden. Dieser Ausdruck beschreibt die Einheitshyperbel und liefert so auch eine anschauliche Interpretation der hyperbolischen Funktionen und ihrer Umkehrfunktionen. Zu diesem Zwecke soll zunächst der Blick auf die trigonometrischen Funktionen gerichtet werden. Diese können anhand des Einheitskreises verstanden werden. Der Einheitskreis wird durch den Zusammenhang x 2 + y2 = 1 beschrieben. Dieser ist in Abb. 2.3 zu sehen. In Abb. 2.3a sind dazu die Strecken, die mit den trigonometrischen Funktionen sin(φ) und cos(φ) zu identifizieren sind, aufgetragen, während in Abb. 2.3b die Strecken für die Funktionen tan(φ) und cot(φ) aufgetragen sind. Für x und y können stattdessen auch cos(φ) und sin(φ) eingesetzt werden. In der Physik entspräche dies einem Übergang in die Polarkoordinaten mit festem Radius eins. Anstelle des Winkels φ, den der Ortsvektor des betrachteten Punktes und die x-Achse einschließen, kann auch die Fläche des Kreisbogens betrachtet werden. Diese ist durch
Abb. 2.3 Geometrische Interpretation der trigonometrischen Funktionen. In a und b werden diese über den Einheitskreis y = 1 − x 2 konstruiert. In a sind der Sinus und Kosinus anschaulich die Seiten des entstehenden rechtwinkligen Dreiecks. In b sind Tangens und Kotangens die Schnittpunkte des verlängerten Strahls mit den Geraden x = 1 und y = 1. Über den Strahlensatz können die sin(φ) cot(φ) = tan(φ) und cos(φ) nachvollzogen werden Verhältnisse cos(φ) 1 1 sin(φ) =
142
2 Erste neue und grundlegende Konzepte
A = R2 ·
φ φ = 2 2
gegeben. Das ist einfach zu überprüfen, denn die Fläche des vollen Kreises bei φ = 2π ist gegeben durch π R 2 . Damit lässt sich aber auch die pythagoreische Formel als 1 = cos2 (2 A) + sin2 (2 A) aufschreiben, und es gilt x = cos(2 A)
y = sin(2 A).
Auf eben diese Art kann auch das Argument der hyperbolischen Funktionen verstanden werden. Die Gleichung x 2 − y2 = 1 beschreibt eine Einheitshyperbel, also eine Hyperbel, die ihren Durchgang durch die xAchse bei x = 1 und x = −1 hat. Das asymptotische Verhalten ist durch die beiden Winkelhalbierenden y = x und y = −x gegeben. Dies ist in Abb. 2.4 mit den entsprechenden Strecken, welche die hyperbolischen Funktionen beschreiben, zu sehen. Wird ein Punkt auf √ 2 der Hyperbel betrachtet, der durch P(L| L − 1) gegeben ist, so kann die Fläche bestimmt werden, die durch den Ortsvektor des Punktes, die Hyperbel und die x-Achse begrenzt ist. Der Ortsvektor bildet bei Projektion auf die x-Achse ein Dreieck mit Grundseite L und Höhe
Abb. 2.4 Geometrische Interpretation der hyperbolischen Funktionen. In a und b werden diese an der Einheitsparabel y = x 2 − 1 konstruiert. In a sind der hyperbolische Sinus und Kosinus anschaulich die Seiten des entstehenden rechtwinkligen Dreiecks. In b sind der hyperbolische Tangens und Kotangens die Schnittpunkte mit den Geraden x = 1 und y = 1. Über den Strahlensatz können sinh(2 A) tanh(2 A) A) coth(2 A) und cosh(2 nachvollzogen werden die Verhältnisse cosh(2 1 1 A) = sinh(2 A) =
2.1
Hyperbolische Funktionen
143
√
L 2 − 1 und somit mit Fläche ADreieck = gilt L AHyperbel =
dx
L 2
√
L 2 − 1. Für die Fläche unter der Hyperbel
Arcosh(L)
x2
du sinh(u) cosh2 (u) − 1
−1=
1
0
Arcosh(L)
du sinh2 (u) =
=
u 1 sinh(u) cosh(u) − 2 2
0
Arcosh(L) 0
1 u Arcosh(L) 2 cosh (u) − 1 cosh(u) − = 2 2 0 1 1 = L L 2 − 1 − Arcosh(L). 2 2 In der ersten Zeile wurde dabei die Substitution x = cosh(u) vorgenommen. Damit wurde das Differential durch dx = sinh(u) du ersetzt. Ebenso ist für die oberer Grenze die Umkehrfunktion des cosh, der Arcosh ins Spiel gekommen. Somit gilt für die gesuchte Fläche
L 2 1 1 A = ADreieck − AHyperbel = L L 2 − 1 − Arcosh(L) L −1− 2 2 2 1 = Arcosh(L) 2 ⇒ L = cosh(2 A). Doch L war die x-Komponente des betrachteten Punktes. Das Argument bei der Parametrisierung des Punktes durch hyperbolische Funktionen, x = cosh(2 A)
y = sinh(2 A),
ist die eingeschlossene Fläche A. In der Herleitung zu dieser Parametrisierung hat sich gezeigt, dass für L = x 2 A = Arcosh(x) gilt. Dabei war Arcosh(x) die Umkehrfunktion des cosh. Diese Funktion war der Areakosinus hyperbolicus. Die erste Silbe „Area“ bezieht sich dabei darauf, dass diese Funktion die eingeschlossene Fläche bestimmt.3
3 Ganz analog tragen die trigonometrischen Umkehrfunktionen die Vorsilbe „Arc“, weil sie eine
Aussage über die Länge des Einheitskreisbogens treffen, denn l = R · φ = φ.
144
2.1.4
2 Erste neue und grundlegende Konzepte
Formelsammlung – hyperbolische Funktionen
Definition ex + e−x 2 ex − e−x sinh(x) = x tanh(x) = cosh(x) e + e−x cosh(x) =
ex − e−x 2 ex + e−x cosh(x) = x coth(x) = sinh(x) e − e−x sinh(x) =
Zusammenhang mit trigonometrischen Funktionen sinh(ix) = i sin(ix) cosh(ix) = cos(x) sin(ix) = i sinh(ix) cos(ix) = cosh(x) Eigenschaften cosh(0) = 1 sinh(0) = 0 tanh(0) = 0
cosh(−x) = cosh(x) sinh(−x) = −sinh(x) tanh(−x) = −tanh(x) coth(−x) = −coth(x)
|x|
cosh(x) ≈ e2 (|x| 1) |x| sinh(x) ≈ sgn(x) e2 (|x| 1) tanh(x) ≈ sgn(x) (|x| 1) coth(x) ≈ sgn(x) (|x| 1)
Additionstheoreme sinh(x ± y) = sinh(x) cosh(y) ± cosh(x) sinh(y) cosh(x ± y) = cosh(x) cosh(y) ± sinh(x) sinh(y) cosh2 (x) − sinh2 (x) = 1 Ableitungen und Integrale d d sinh(x) = cosh(x) cosh(x) = sinh(x) dx dx d 1 1 d tanh(x) = coth(x) = − 2 dx dx cosh (x) sinh2 (x) dx cosh(x) = sinh(x) dx sinh(x) = cosh(x) dx coth(x) = ln(|sinh(x)|) dx tanh(x) = −ln(|cosh(x)|) sinh(x) cosh(x) x dx sinh2 (x) = − + 2 2 sinh(x) cosh(x) x 2 dx cosh (x) = + 2 2
2.2
Induktive Beweise
145
Die Umkehrfunktionen Arsinh(x) = ln x + x 2 + 1
1+x 1 Artanh(x) = ln 2 1−x
2.2
Arcosh(x) = ln x + x 2 − 1
1 x +1 Arcoth(x) = ln 2 x −1
Induktive Beweise
Die vollständige Induktion stellt ein hilfreiches Beweisverfahren dar, um rekursive Zusammenhänge in explizite Zusammenhänge umzuwandeln. Mit ihrer Hilfe können nicht nur mathematische Fragestellungen wie einige spezielle Integrale, sondern auch geometrische Fragestellungen wie das Volumen einer Kugel in n-Dimensionen oder physikalische Fragestellungen wie das Verhalten des quantenmechanischen, harmonischen Oszillators4 behandelt werden.
2.2.1
Das allgemeine Verfahren der vollständigen Induktion
Bereits in den Abschn. 1.3.3 und 1.4.2 wurde dieses Beweisverfahren verwandt, um die Leibniz-Regel und den Zusammenhang zwischen der Gamma-Funktion und der Fakultät zu beweisen. In beiden Fällen ging es darum, für eine Größe, die abhängig von einer natürlichen Zahl n war, einen expliziten Ausdruck nachzuweisen. Bei der Leibniz-Regel war dies die n-te Ableitung eines Produkts von Funktionen n
dn n f (n−k) (x)g (k) (x), f (x)g(x)) = ( n k dx k=0
während bei der Gamma-Funktion der Funktionswert an der Stelle 1 + n mit der Fakultät (1 + n) = n! in Verbindung gesetzt wurde. Generell findet die Beweismethode der vollständigen Induktion dann Anwendung, wenn ein expliziter Ausdruck für eine Größe gesucht ist, die von einer natürlichen Zahl n ∈ N abhängt. Dies könnten beispielsweise spezielle Integrale wie π In =
dx cosn (x) −π
4 Der etwas später in den Abschn. 2.6.4 und 4.1.6 kurz betrachtet wird.
146
2 Erste neue und grundlegende Konzepte
oder geometrische Fragestellungen wie das Volumen einer Kugel in n Dimensionen sein. In den beiden Abschn. 1.3.3 und 1.4.2 wurde auch kurz auf die Gültigkeit des Beweisverfahrens eingegangen: Ist eine Vermutung für den expliziten Ausdruck in Abhängigkeit von n gefunden, so wird angenommen, dass dieser für ein beliebiges, aber festes n gültig ist. Für n + 1 wird diese vermutete Ausdrucksform nicht angenommen. Durch algebraische Umformung oder rekursive Zusammenhänge wird dann versucht den Ausdruck für n + 1 durch den Ausdruck für n aufzuschreiben. Im Falle der Gamma-Funktion konnte dazu der rekursive Ausdruck (1 + n) = n(n) verwendet werden, während für die Leibniz-Regel einfach die Ableitung
n dn+1 d d f (x)g(x)) = f (x)g(x)) ( ( dx n+1 dx dx n gebildet wurde. Aus diesem Zusammenhang wird dann versucht den Ausdruck für n + 1 auf die Form zu bringen, die sich aus dem vermuteten expliziten Ausdruck ergeben würde. Gelingt dies, so wurde gezeigt, dass bei Gültigkeit der Vermutung für ein n die Vermutung auch für n + 1, also den um eins höheren Wert gelten muss. Da dann aber die Vermutung für n + 1 gilt und n + 1 auch eine natürliche Zahl m ist, muss die Vermutung auch für m + 1 = n + 2 gelten. Diese Argumentation lässt sich fortsetzen, sodass die Vermutung für alle natürlichen Zahlen, die größer als das ursprünglich betrachtete n sind, gültig sein muss. Um nun zu zeigen, dass die Vermutung wirklich für all natürlichen Zahlen gilt, muss nur noch geprüft werden, ob die Vermutung für das kleinstmögliche n, typischerweise n = 1 gültig ist. In etwas allgemeineren Fällen kann es vorkommen, dass keine Rekursion zwischen zwei direkt aufeinanderfolgenden Werten n und n + 1, sondern nur zwischen zwei aufeinanderfolgenden Werten mit größeren Abständen5 wie n und n + 2 gefunden werden kann. Es kann dann auf zwei Weisen vorgegangen werden: 1. Lassen sich die Ausdrücke unabhängig voneinander in gerade und ungerade Anteile aufspalten, sodass für den Beweis der Ausdrücke mit geradem n nicht die Form der Ausdrücke mit ungeraden n benötigt werden, so können zwei voneinander getrennte Induktionen durchgeführt werden. Der Laufindex n kann durch n = 2m für die geraden und n = 2m + 1 für die ungeraden Anteile ersetzt werden. Dadurch durchläuft m alle natürlichen Zahlen. 2. Die Ausdrücke lassen sich nicht unabhängig voneinander behandeln. In solch einem Fall muss die Vermutung für zwei Terme n und n +1 angenommen werden und der Ausdruck für n + 2 auf die oben beschriebene Art und Weise aus diesen Ausdrücken bestimmt und auf die Form der Vermutung gebracht werden. Es muss dann auch die Vermutung nicht 5 Ganz allgemein könnten natürlich auch vollkommen andere Abstände, wie drei oder fünf oder eine
beliebige andere Zahl auftreten. In der Physik treten aber meist nur die Abstände eins und zwei auf.
2.2
Induktive Beweise
147
nur für ein niedrigstes n, sondern für die beiden niedrigsten n, typischerweise eins und zwei bewiesen werden. Zum konkreten Vorgehen lässt sich aus der oben beschriebenen Methode eine strukturierte Vorgehensweise erstellen. Es werden hier auch die gängigen Bezeichnungen für die einzelnen Schritte eingeführt und kursiv hervorgehoben. Außerdem ist nur das Vorgehen bei einer einfachen Induktion und nicht das Vorgehen bei einer zweischrittigen Induktion aufgeführt. Das Vorgehen lässt sich jedoch recht einfach durch die obige Beschreibung auch für solch einen Fall verallgemeinern. 1. Die Vermutung. Gesucht ist die explizite Form eines Ausdrucks in Abhängigkeit einer natürlichen Zahl der Form In . Es bietet sich oftmals an, für die ersten paar n, meist genügen die ersten fünf möglichen Werte von n, die sich ergebenden Ausdrücke In explizit zu bestimmen und zu versuchen darin ein Muster zu erkennen. Dies sollte auf eine Vermutung für einen funktionalen Zusammenhang der Form In = f (n) führen, wobei f eine Funktion ist. Das Aufstellen einer Vermutung ist typischerweise der aufwendigste Teil eines induktiven Beweises, liefert aber meist bereits den Beweis für den Induktionsanfang und auch oft eine Idee für den Induktionsschritt. 2. Der Induktionsanfang. Zuerst wird der funktionale Zusammenhang In = f (n) für die kleinsten n explizit nachgewiesen. Das kleinste n ist typischerweise n = 1. 3. Die Induktionsvoraussetzung. Es wird nun angenommen, dass die Vermutung In = f (n) für ein beliebiges n gültig ist. Wichtig ist hierbei, dass diese Annahme wirklich nur für dieses eine n gültig sein soll. 4. Der Induktionsschritt. Es wird nun versucht den Ausdruck In+1 durch algebraische Umformungen oder rekursive Vorschriften o. Ä. in Verbindung mit In zu bringen. Da wegen der Induktionsvoraussetzung der Ausdruck In mit f (n) gleichgesetzt werden darf, kann ein Zusammenhang zwischen In+1 und f (n) gefunden werden. Durch weitere Umformungen muss versucht werden, den Ausdruck In+1 auf die Form f (n + 1) zu bringen. Gelingt dies, ist die vollständige Induktion gelungen, und die Vermutung für den expliziten Ausdruck In = f (n) konnte bewiesen werden. Im folgenden Abschn. 2.2.2 soll das Verfahren an einigen Beispielen vorgestellt werden.
2.2.2
Einige weitere Beispiele zur vollständigen Induktion
• Eingangs wurden bereits Integrale über natürliche Potenzen der Kosinusfunktion erwähnt. Zunächst wird versucht einen rekursiven Zusammenhang zwischen
148
2 Erste neue und grundlegende Konzepte
π In =
dx cosn (x) −π
und einem vorhergehenden Integral dieser Art zu finden. Es werden dazu ein natürliches n > 1 betrachtet und die partielle Integration gemäß π In =
π dx cos (x) = n
−π
dx cosn−1 (x) cos(x) −π
= (1 − n) cos
n−1
π
π
(x) sin(x)
−π
+ (n − 1)
dx cosn−2 (x) sin2 (x)
−π
π = (n − 1)
dx cosn−2 (x) (1 − cos2 (x)) = (n − 1)In−2 − (n − 1)In
−π
bemüht. Dabei wurden sin(x) als Stammfunktion von cos(x) im Integral eingesetzt und die Ableitung von cosn−1 (x) zu −(n − 1) sin(x) cosn−2 (x) bestimmt. Die Randterme verschwinden, da sin(±π ) = 0 ist. Schlussendlich wurde der Satz des Pythagoras cos2 (x) + sin2 (x) = 1 verwendet, um die Integrale In und In−2 zu erhalten. Die so erhaltene algebraische Gleichung In = (n − 1)In−2 − (n − 1)In lässt sich lösen, um den rekursiven Zusammenhang In =
n−1 In−2 n
zu erhalten. Es handelt sich hier also um einen rekursiven Zusammenhang, der in Zweierschritten abläuft. Wie im vorherigen Abschn. 2.2.1 beschrieben, gibt es zwei Methoden hiermit umzugehen. Da die Rekursionsvorschrift In nur von In−2 und nicht zusätzlich von In−1 abhängig macht, lassen sich gerade und ungerade Anteile aufspalten. Für die ungeraden Anteile wäre das kleinste zu betrachtende Integral π I1 =
dx cos(x) = 0, −π
weshalb auch alle anderen ungeraden Terme null sein müssen. Sollen die Ausdrücke der geraden n, also n = 2m mit einer natürlichen Zahl m gefunden werden, so bietet es sich an, zunächst alle Terme als Vielfaches von I2 auszudrücken. Dabei zeigen sich in der Folge
2.2
Induktive Beweise
149
4−1 3·1 I2 = 2I2 4 4·2 8−1 7·5·3·1 I6 = 2I2 I8 = 8 8·6·4·2 I4 =
6−1 5·3·1 I4 = 2I2 6 6·4·2 10 − 1 9·7·5·3·1 I8 = 2I2 = 10 10 · 8 · 6 · 4 · 2
I6 = I10
das Produkt über die geraden Zahlen im Nenner und das Produkt über die ungeraden Zahlen im Zähler. Das Produkt aller geraden Zahlen bis einschließlich 2m lässt sich erhalten, indem die Fakultät von m mit m Zweien multipliziert wird. Dadurch wird jede der natürlichen Zahlen in m! mit je einer Zwei multipliziert, und es ergeben sich nur gerade Zahlen. Die größte davon ist 2 · m = 2m. Der so entstandene Ausdruck (2m)!! = m!2m lässt sich verwenden, um für das Produkt über alle ungeraden Zahlen bis einschließlich 2m − 1 den Zusammenhang (2m − 1)!! =
(2m)! (2m)! = (2m)!! m!2m
zu erhalten. Die Zeichen n!! geben dabei die sogenannte Doppelfakultät an, die das Produkt aller geraden bzw. ungeraden Zahlen von n einschließlich n bildet. Ob gerade oder ungerade Faktoren betrachtet werden, hängt also davon ab, ob n gerade oder ungerade ist. Das Integral I2 ist durch
π I2 =
dx cos2 (x) = −π
cos(x) sin(x) x + 2 2
π −π
=π
bestimmt. Damit lässt sich die Vermutung f (n) =
(n − 1)!! n! 2I2 = 2 2π n n!! ! 2n 2
für den expliziten Ausdruck von In finden. Zu zeigen ist nun, dass In = f (n) gilt. Im Induktionsanfang ist dieser Umstand zuerst für n = 2 zu beweisen. Es ergibt sich I2 = π f (2) =
2 2! 2π = 2π = π, (1!)2 22 4
wobei die erste Zeile aus der expliziten Berechnung des Integrals kam und die zweite Zeile den Ausdruck f (n) für n = 2 auswertet. Die beiden Werte stimmen überein, was aufgrund der Herleitung der Vermutung aber auch nicht verwunderlich ist.
150
2 Erste neue und grundlegende Konzepte
Für die Induktionsvoraussetzung wird nun angenommen, dass der Ausdruck n! In = 2 2π n n 2 ! 2 für ein beliebiges n gültig ist. Im Induktionsschritt wird nun der Ausdruck für In+2 versucht mit f (n +2) in Verbindung zu bringen. Über die Rechnung In+2 =
n! n+2−1 n+1 In = 2π n+2 n + 2 n ! 2 2n 2
(n + 2)! (n + 2)(n + 1)n! = 2 n 2 2π n 2 2π = n n (n + 2)2 2 ! 2n 22 2 + 1 2 ! 2 (n + 2)! (n + 2)! 2π = 2π = f (n + 2) = 2 2 n n+2 n+2 n+2 2 +1 ! 2 2 ! 2 zeigt sich unter Ausnutzung des rekursiven Zusammenhangs und der Induktionsvoraussetzung der gewünschte Ausdruck. Damit sind die Integrale π −π
n! dx cosn (x) = 2 2π n n 2 ! 2
(2.8)
für alle geraden, natürlichen n bestimmt. • Ein ähnliches Integral, wie das des vorherigen Beispiels, ist durch π/2 In =
dx cosn (x) −π/2
gegeben. Über die exakt gleiche Rechnung lässt sich die Rekursionsformel In =
n−1 In−2 n
bestimmen. Der einzige Unterschied besteht darin, dass bei der partiellen Integration die Randterme nun aufgrund von cos(±π/2) = 0 verschwinden. Ein wesentlicher Unterschied zu dem vorangegangenen Beispiel besteht hier jedoch darin, dass nicht nur I2 = 0 ist, sondern auch I1 = 0. Das heißt, es gibt hier den geraden und den ungeraden Zweig der Induktion zu beachten. Diese beiden Integrale können über
2.2
Induktive Beweise
151
π/2 I1 =
π/2
dx cos(x) = [sin(x)]−π/2 = 2 −π/2
π/2 I2 =
cos(x) sin(x) x + dx cos (x) = 2 2 2
−π/2
π/2 −π/2
=
π 2
bestimmt werden. Für den weiteren Verlauf sollen die geraden und ungeraden Anteile mithilfe einer natürlichen Zahl m dargestellt werden. Die geraden n sind durch n = 2m und die ungeraden Zahlen n durch n = 2m − 1 gegeben. Für die geraden Anteile wurde bereits im vorherigen Beispiel der Zusammenhang I2m =
(2m!) 2I2 (m!)2 22m
bewiesen, womit sich der explizite Ausdruck I2m =
(2m!) π (m!)2 22m
(2.9)
für die geraden Anteile ergibt. Für die ungeraden Anteile muss zunächst mittels der Rekursionsformel In =
n−1 In−2 n
eine neue Vermutung aufgestellt werden. Durch sukzessives Einsetzen zeigt sich in der Folge 2 I1 3 6 6·4·2 I1 I7 = I5 = 7 7·5·3 I3 =
4 4·2 I3 = I1 5 5·3 8 8·6·4·2 I1 , I9 = I7 = 9 9·7·5·3 I5 =
dass im Nenner das Produkt aller ungeraden Zahlen auftaucht, während im Zähler das Produkt aller geraden Zahlen auftaucht. Zusammen mit den Erkenntnissen über die Doppelfakultät (2m)!! = m!2m
(2m − 1)!! =
(2m)! m!2m
aus dem vorherigen Beispiel und dem Wert für Integral I1 = 2 ergibt sich der Ausdruck f (m) =
(2(m − 1))!! (m!)2 22m m!(m − 1)!2m 2m−1 I1 = 2= 2 (2m − 1)!! (2m)! 2m(2m)!
152
2 Erste neue und grundlegende Konzepte
als Vermutung für den Wert der ungeraden Integrale. Zu zeigen ist also, dass I2m−1 = f (m) gilt. Für den Induktionsanfang wird also m = 1 eingesetzt, um die Ausdrücke I1 = 2 f (1) =
12 2 2 2=2 2·2
zu erhalten. Dabei ist die erste Zeile das bereits berechnete Integral. Für die Induktionsvoraussetzung wird nun angenommen, dass der Ausdruck f (m) für ein festes m den korrekten Sachverhalt widerspiegelt. Im Induktionsschritt wird nun das Integral I2(m+1)−1 betrachtet. Mit der Rekursionsformel I2(m+1)−1 =
2(m + 1) − 1 − 1 2m I2m−1 = I2m−1 2(m + 1) − 1 2m − 1
und unter Verwendung der Induktionsvoraussetzung lässt sich dies auf die Form 2m 2m (m!)2 22m I2m−1 = 2 2m + 1 2m + 1 2m(2m)! (m + 1)2 (m!)2 22m ((m + 1)!)2 22m 22 = 2 = 2 (m + 1)2 (2m + 1)! 2(m + 1)(2m + 2)(2m + 1)! ((m + 1)!)2 22(m+1) = 2 = f (m + 1) 2(m + 1)(2(m + 1))!
I2(m+1)−1 =
bringen. Damit konnte I2m+1 auf die erwartete Form f (m + 1) gebracht werden, und der gefundene Ausdruck I2m−1 =
(m!)2 22m 2 2m(2m)!
(2.10)
beschreibt die ungeraden Anteile. Diese beiden Integrale werden sich als hilfreich beim Bestimmen des Volumens einer n-dimensionalen Kugel erweisen. • Ein geometrisches Beispiel ist das Volumen einer Kugel in n Dimensionen, das mithilfe der Gamma-Funktion ausgedrückt werden kann. Für eine Vermutung muss zunächst ein rekursiver Zusammenhang gefunden werden. Im Folgenden soll Vn (R) das Volumen einer n-dimensionalen Kugel mit Radius R bezeichnen. Dieses lässt sich mathematisch als die Menge aller Tupel (x1 , x2 , . . . , xn ) auffassen, die die Gleichung x 2 1
R
+
x 2 2
R
+ ··· +
x 2 n
R
≤1
2.2
Induktive Beweise
153
erfüllen.6 Um einen Eindruck für ein mögliches Vorgehen zu gewinnen, werden die Fälle einer ein-, zwei- und dreidimensionalen Kugel betrachtet. – Im Fall einer eindimensionalen Kugel gibt es nur eine Größe x, die Werte zwischen −R und +R annehmen kann. Es handelt sich also um eine Linie mit der Länge V1 (R) = 2R. – Im Falle einer zweidimensionalen Kugel wird die Gleichung x 2 1
R
+
x 2 2
R
≤1
erfüllt. Die äußere Begrenzung ist dabei ein Kreis mit Radius R. Die Fläche eines Kreises kann dadurch ermittelt werden, indem der Kreis in horizontale Streifen aufgeschnitten wird. Die Höhe der Streifen soll durch x2 bezeichnet werden. Die Breite der Streifen variiert mit den betrachteten Werten von x2 . Wichtig ist dabei aber, dass die Breite der Streifen eine eindimensionale Linie, also eine eindimensionale Kugel darstellen. Der Radius dieser eindimensionalen Kugel, also die halbe Breite der Streifen ist dabei durch r (x2 ) = R 2 − x22 gegeben. Der Flächeninhalt eines Streifens A ist so durch den Ausdruck A = x 2 V1 (r (x2 )) = x2 2 R 2 − x22 gegeben, und durch Summation aller Streifen
R x2 V1 (r (x2 )) → V2 (R) =
dx2 V1
R2
−
x22
−R
R =
dx2 2 R 2 − x22 −R
lässt sich der Übergang zu einem Integralbilden. Der Integrand ist dabei das Volumen der eindimensionalen Kugel mit Radius R 2 − x22 . Das Integral kann mit den elementaren Integralen aus Abschn. 1.4.4 bestimmt werden, um das aus der Schule bekannte Ergebnis V2 (R) = π R 2 zu erhalten. 6 Formell handelt es sich um einen n-dimensionalen Vektor aus dem Raum Rn , der in Abschn. 3.1
eingeführt wird.
154
2 Erste neue und grundlegende Konzepte
– Im Falle einer dreidimensionalen Kugel wird die Gleichung x 2 1
R
+
x 2 2
R
+
x 2 3
R
≤1
erfüllt. Hier lässt sich das Volumen berechnen, indem die Kugel in Zylinderscheiben parallel zur x y-Ebene unterteilt wird. Die Höhe dieser Zylinderscheiben wird mit x 3 bezeichnet. Die Grundfläche dieser Zylinderscheiben ist durch das Volumen der zweidimensionalen Kugel gegeben. Jedoch ist der Radius dieser Zylinderscheiben auch hier über den Ausdruck r (x3 ) = R 2 − x32 bestimmt. Das Volumen der Zylinderscheiben V ist dann also durch V = x3 V2 (r (x3 )) zu bestimmen. Durch einen Grenzübergang
R x3 V2 (r (x3 )) → V3 (R) =
dx3 V2
R 2 − x32
−R
R =
dx3 π
2 R 2 − x32
−R
R =
2 dx3 π R 2 − x32
−R
lässt sich auch hier das Volumen der dreidimensionalen Kugel durch ein Integral über die Volumina von zweidimensionalen Kugeln mit Radius R 2 − x32 ermitteln. Durch Lösen des Integrals mit den in Abschn. 1.4 eingeführten Regeln ergibt sich das bekannte Ergebnis V3 (R) = 43 π R 3 . Aus diesen speziellen Fällen, vor allem für die zwei- und dreidimensionale Kugel, lässt sich ein generelles Muster für die Bestimmung des Volumens einer n-dimensionalen Kugel durch ein Integral über die Volumina von n − 1-dimensionalen Kugeln mit variierenden Radien aufstellen. Dazu wird die n-dimensionale Kugel entlang der xn -Achse in Teilvolumina aufgeteilt, die senkrecht zur xn -Achse das Volumen Vn−1 R 2 − xn2 aufweisen und entlang der xn -Achse die Dicke xn tragen. Somit lässt sich das Volumen der n-dimensionalen Kugel durch das Integral
2.2
Induktive Beweise
155
R Vn (R) =
dxn Vn−1
R2
−
xn2
−R
aufschreiben. In den ersten drei Beispielen wurde auch klar, dass das Volumen einer n-dimensionalen Kugel als Vn (R) = Vn (1)R n geschrieben werden kann. Dies soll verwendet werden, um das Integral weiter aufzuschlüsseln.7 Damit ergibt sich R Vn (R) =
R dxn Vn−1 (R) = Vn−1 (1)
−R
n−1 −
R2
dxn
xn2
−R
R = Vn−1 (1)
dxn
R − 2
xn2
n−1 2
1 = Vn−1 (1)R
R2 − R2u2
n−1 2
−1
−R
1 = Vn−1 (1)R
du
n−1
R
n−1 du 1 − u 2 2 = Vn−1 (R)R
−1
π/2 dt cosn (t)
−π/2
als Ausdruck für das Volumen einer n-dimensionalen Kugel. In der zweiten Zeile wurde dabei die Substitution xn = R ·u durchgeführt, während in der letzten Zeile die Ersetzung u = sin(t) vorgenommen wurde. Das verbleibende Integral wurde im vorangegangenen Beispiel berechnet und wird mit π/2 In =
dt cosn (t) −π/2
bezeichnet. Da das Integral In davon abhängig war, ob n gerade oder ungerade ist, scheint es von Vorteil zu sein, eine Rekursion zu finden, die in Zweierschritten voranschreitet. Und so wird der Ausdruck Vn (R) = Vn−1 (R)R In = Vn−2 (R)R 2 In In−1 gefunden, indem die Rekursion mit einem einfachen Schritt zweimal eingesetzt wird. Aus den gefundenen Ergebnissen I2m =
(2m − 1)!! 2I2 (2m)!!
I2m−1 =
(2(m − 1))!! I1 (2m − 1)!!
7 Dass dies nicht nur für n = 1 bis n = 3, sondern allgemein gilt, ist eine Aussage, die bewiesen werden muss. Dazu sind Kenntnisse aus Abschn. 8.4 nötig. Es kann bewiesen werden, indem im xi = Rwi durchgeführt wird und so die JacobiIntegral dn x die Koordinatentransformation Determinante im Integral dn x = R n dn w auftaucht, wobei das Integral auf der rechten Seite ein Integral über eine Kugel mit Radius eins ist.
156
2 Erste neue und grundlegende Konzepte
lassen sich für gerade n = 2m der Ausdruck In In−1 = I2m I2m−1 =
(2m − 1)!! (2(m − 1))!! 2 2π · 2I2 I1 = I1 I2 = (2m)!! (2m − 1)!! 2m n
und für ungerade n = 2m + 1 = 2(m + 1) − 1 der Ausdruck In In−1 = I2(m+1)−1 I2m =
(2m − 1)!! (2m)!! 2 2π · 2I2 I1 = I1 I2 = (2m + 1)!! (2m)!! 2m + 1 n
finden. Und somit kann die recht simple Rekursionsformel Vn (R) =
2π R 2 Vn−2 (R) n
gefunden werden. Um eine Vermutung für den expliziten Ausdruck des Volumens einer n-dimensionalen Kugel zu finden, sollen zunächst nur die ersten paar Ausdrücke für gerade n, V2 (R) = π R 2 2π R 2 π3 6 V4 (R) = R 6 3·2 2π R 2 π5 V8 (R) = R 10 V10 (R) = 10 5·4·3·2 V6 (R) =
2π R 2 π2 4 V2 (R) = R 4 2 2π R 2 π4 V6 (R) = R8 V8 (R) = 8 4·3·2 V4 (R) =
betrachtet werden. Dabei kommt die Vermutung auf, dass im allgemeinen Ausdruck im Nenner die Fakultät von der Hälfte von n stehen wird. Der Zähler wird durch eine Potenz von π bestimmt sein. So lässt sich der Ausdruck π n/2 n R f˜(n) = (n/2)! aufstellen. Dieser Term ist allerdings noch nicht sehr umgänglich, da er die Fakultät von halbzahligen Zahlen für ungerade n im Nenner enthält. So würde für n = 3 im Nenner die Fakultät von 23 auftauchen. Um dies etwas sauberer zu formulieren, wird die Gamma-Funktion aus dem nächsten Abschn. 2.3 verwendet, die eine Verallgemeinerung der Fakultät auf die reellen Zahlen zulässt. Durch den Zusammenhang (1 + k) = k! lässt sich so die Vermutung f (n) =
π n/2 Rn 1 + n2
aufstellen. Für den Induktionsanfang müssen wegen der doppelten Schrittweite der Rekursionsformel zwei Anfangspunkte festgelegt werden. Der erste davon ist n = 1. Hier gilt
2.2
Induktive Beweise
157
V1 (R) = 2R
√ π 1/2 1 π R = 2R, f (1) = R =√ (3/2) π/2
wobei der Wert
3 2
=
√
π 2
eingesetzt wurde. Für den zweiten bei n = 2 ist hingegen V2 (R) = π R 2 π R2 = π R2 f (2) = (2)
gültig. Damit gilt der Ausdruck f (n) für die Anfangspunkte. Für die Induktionsvoraussetzung soll für ein beliebiges n der Zusammenhang Vn (R) = f (n) gültig sein. Im Induktionsschritt gilt es nun zu zeigen, dass deshalb Vn+2 (R) = f (n + 2) ist. Dazu wird die Rekursionsformel gemäß Vn+2 (R) =
2π R 2 Vn (R) n+2
ausgenutzt. Unter Verwendung der Induktionsvoraussetzung und der Rechnung 2π R 2 2π R 2 Vn (R) = f (n) n+2 n+2 2π R 2 π n/2 π (n+2)/2 n R n+2 = = R n + 2 1 + n2 1 + n2 1 + n2
Vn+2 (R) =
=
π (n+2)/2 π (n+2)/2 n+2 = R R n+2 = f (n + 2), 1 + n2 + 1 1 + n+2 2
in welcher die Eigenschaft (1+k) = k(k) ausgenutzt wurde, zeigt sich so schließlich, dass der erwartete Zusammenhang besteht und das Volumen einer n-dimensionalen Kugel durch Vn (R) =
π n/2 Rn 1 + n2
(2.11)
gegeben ist. Dieses Ergebnis findet in der Physik zweierlei Anwendung: 1. Statistische Physik. Im Zuge der statistischen Physik kann die thermodynamische Zustandsgröße der Entropie über das Abzählen der möglichen Mikrozustände bestimmt werden. Im Falle eines idealen Gases lässt sich die Anzahl der möglichen Zustände bei festgelegter innerer Energie auf das Volumen einer 3N -dimensionalen Kugel zurückführen, wobei
158
2 Erste neue und grundlegende Konzepte
N die Anzahl der betrachteten Teilchen ist. Das Ergebnis dieser Betrachtung ist die Sackur-Tetrode-Gleichung und stellt einen expliziten Zusammenhang zwischen der Entropie, der inneren Energie, dem Volumen V und der Teilchenzahl N für das ideale Gas her. 2. Quantenfeldtheorie. In der Quantenfeldtheorie können sich einige Integrale in der vierdimensionalen Raumzeit als divergent erweisen. Durch die Betrachtung des Problems in 4 − Dimensionen lassen sich die Singularitäten dieser Integrale isolieren, und es können konkrete Berechnungen angestellt werden. Dieses Verfahren wird als dimensionale Regularisierung bezeichnet. Besonders ist hieran, dass der Ausdruck des Kugelvolumens mithilfe der Gamma-Funktion auch in einer gebrochenen Anzahl an Dimensionen gültig ist. Überspitzt formuliert, kann so das Volumen einer 23 -dimensionalen Kugel berechnet werden. Eine weitere Besonderheit ist, dass durch diesen Ausdruck das Volumen einer ndimensionalen Kugel Vn (R) mit dem eines n-dimensionalen Würfels Wn (a) = a n verglichen werden kann. Wird a = 2R gewählt, so handelt es sich in zwei Dimensionen um einen Kreis, der in einem Quadrat enthalten ist und die vier Kanten des Quadrates tangiert. In drei Dimensionen handelt es sich um eine Kugel, die die sechs Seiten des Würfels tangiert. Dies kann auch auf höhere Dimensionen übertragen werden, und das Verhältnis der beiden Volumina Vn (R) π n/2 = n Wn (R) 2 1 + n2 geht gegen null, wenn n gegen unendlich geht. Das heißt, in höheren Dimensionen besetzt eine n-dimensionale Kugel immer weniger und weniger Volumen innerhalb des n-dimensionalen Würfels.
2.2.3
Induktive Beweise – Formelsammlung
Vorgehen 1. Vermutung für den expliziten Ausdruck von In in Form von In = f (n) aufstellen. Dabei bietet es sich an für kleine n die Ausdrücke explizit zu bestimmen. 2. Im Induktionsanfang wird I1 = f (1) bewiesen. 3. In der Induktionsvoraussetzung wird für ein beliebiges aber festes n angenommen, dass In = f (n) gilt.
2.3
Die Gamma-Funktion
159
4. Im Induktionsschritt wird der Ausdruck In+1 auf In zurückgeführt und unter Ausnutzung der Induktionsvoraussetzung auf In+1 = f (n + 1) umgeformt. Aussagen, die mithilfe vollständiger Induktion bewiesen wurden • Die Leibniz-Formel n
dn n f (n−k) (x)g (k) (x) f (x)g(x)) = ( k dx n k=0
• Der Zusammenhang zwischen Gamma-Funktion und der Fakultät (1 + n) = n! • Die Integrale π dx cos2n (x) = −π
(2n)! (n!)2 22n
2π
und π/2 I2n =
dx cos2n (x) = −π/2
(2n!) (2n − 1)!! π= π (2n)!! (n!)2 22n
π/2 I2n−1 =
dx cos2n−1 (x) = −π/2
(n!)2 22n (2(n − 1))!! 2= 2 (2n − 1)!! 2n(2n)!
• Das Volumen einer n-dimensionalen Kugel mit Radius R Vn (R) =
2.3
π n/2 Rn 1 + n2
Die Gamma-Funktion
Die Gamma-Funktion, die bereits teilweise in Abschn. 1.4.2 eingeführt wurde, soll hier erneut vorgestellt und die Eigenschaften sollen gesammelt werden. Außerdem soll mittels der Gamma-Funktion eine Näherung der Fakultät für besonders große Zahlen gefunden werden. Diese findet zuweilen häufig Anwendung in dem Teilgebiet der statistischen Physik. Die Gamma-Funktion selbst wird in der Physik am ehesten in diesem Teilgebiet oder im Bereich der Quantenfeldtheorie angetroffen.
160
2.3.1
2 Erste neue und grundlegende Konzepte
Definition und Eigenschaften
Die Gamma-Funktion ist für komplexe Zahlen mit Re [z] > −1 durch den Ausdruck ∞ (1 + z) =
dt t z e−t
(2.12)
0
definiert. Es hatte sich in Abschn. 1.4.2 durch partielle Integration der Zusammenhang (1 + z) = z(z)
(2.13)
herausgestellt, der für natürliche n ∈ N den Zusammenhang (1 + n) = n!
(2.14)
mit der Fakultät liefert. Da die Gamma-Funktion aber nicht nur natürliche, sondern auch reelle und sogar komplexe Argumente entgegennehmen kann, handelt es sich um eine stetige Fortsetzung der Fakultät. Die kurz in Abschn. 2.2.2 angesprochene Doppelfakultät lässt sich so auch durch die Gamma-Funktion ausdrücken. War n eine natürliche Zahl, so war (2n)!! = 2n n!
(2n − 1)!! =
(2n)! n!2n
die Doppelfakultät für eine gerade bzw. ungerade natürliche Zahl. Durch Anwenden von Gl. (2.14) ergibt sich (2n)!! = 2n (1 + n)
(2n − 1)!! =
(1 + 2n) 2n (1 + n)
(2.15)
als der Ausdruck der Doppelfakultät durch die Gamma-Funktion für natürliche Zahlen n. Mit der Substitutionsregel wurde in Abschn. 1.4.2 auch der Frage nachgegangen, was sich somit als Fakultät von 1/2 erweisen würde. Das Ergebnis war dabei durch √ π 3 = (2.16) 2 2 gegeben. Dies lässt sich durch Induktion auf einen allgemeinen Ausdruck für
1 +n 2 mit natürlichen n ∈ N bringen. Mithilfe der Gl. (2.16) und (2.13) lassen sich so die ersten paar Werte
2.3
Die Gamma-Funktion
n=1: n=2: n=3: n=4: n=5:
161
√ 3 π = 2 2
5 3 3 3√ = = π 2 2 2 4
5 15 √ 7 5 = = π 2 2 2 8
7 105 √ 9 7 = = π 2 2 2 16
9 945 √ 11 9 = = π 2 2 2 32
bestimmen. Dabei fällt auf, dass im Zähler alle ungeraden Zahlen, die kleiner als 2n sind, miteinander multipliziert werden, während der Nenner stets mit zwei multipliziert wird. Um nun auch alle geraden Zahlen im Zähler zu erzeugen, bietet es sich an mit n!2n zu erweitern. Für jeden Faktor in n! steht damit je eine Zwei zur Verfügung. Das heißt, das Produkt n!2n ist das Produkt aller geraden Zahlen zwischen zwei und 2n. Der Nenner wird damit aber zu n!2n · 2n = n!4n , während der Zähler durch (2n)! gegeben ist. Alternativ lässt sich der Zähler direkt als die Doppelfakultät (2n − 1)!! erkennen und ersetzen. Auf beide Weisen lässt sich die Vermutung
(2n)! √ 1 +n = π (2.17) 2 n!4n für einen expliziten Ausdruck aufstellen. Diese kann mittels vollständiger Induktion bewiesen werden. Für den Fall n = 1 ergibt dieser Ausdruck √
2·1 √ π 3 = , π= 1 2 1·4 2 was in Abschn. 1.4.2 allein aus der Definition der Gamma-Funktion bestimmt war. Gilt der Zusammenhang (2.17) für ein beliebiges aber festes n, so gilt für n + 1 der Zusammenhang
1 1 1 (2n)! √ 1 = n+ n+ = n+ π (1 + n) + 2 2 2 2 n!4n (2n + 2) (2n + 1)(2n)! √ (2n + 1)(2n)! √ π= π = n!2 · 4n (2n + 2) n!2 · 4n (2(n + 1))! √ (2n + 2)! √ π= π. = n (n + 1)n!4 · 4 (n + 1)!4n+1 Das ist aber genau der Zusammenhang, der von (2.17) für n + 1 erwartet würde. Dabei wurden nur die Rekursionseigenschaft (2.13) der Gamma-Funktion und die Induktionsvoraussetzung verwendet. Somit stellt Gl. (2.17) den gesuchten Zusammenhang dar.
162
2 Erste neue und grundlegende Konzepte
2.3.2
Die Stirling-Formel
In der Vielteilchenphysik mit Zahlen in der Größenordnung N = 1023 oder noch größer kann es von Vorteil sein, einen Näherungsausdruck für die Fakultät zur Hand zu haben. Dazu wird versucht, den Integranden in (2.12) durch eine Gauß-Funktion der Art exp −(t − t0 )2 /2σ 2 auszudrücken. Das Maximum des Integranden f n (t) = t n e−t wird durch !
0 = f (t) = nt
n−1 −t
e
n −t
−t e
=
t − 1 f (t) n
bestimmt. Da der Integrand nur für t = n zu null wird, wandert das Maximum mit großen n immer weiter weg vom Ursprung. Um auszudrücken, dass n große Werte annimmt, soll ab sofort der Buchstabe N verwendet werden. Um den Integranden als Gauß-Funktion ausdrücken zu können, wird der Logarithmus g(t) = ln( f (t)) = ln t N e−t = N ln(t) − t betrachtet. Damit lässt sich f (t) = exp(g(t)) schreiben. Am Maximum t = N hat der Logarithmus dabei den Wert g(N ) = N ln(N ) − N , während die erste und zweite Ableitung durch N −1 g(N ) = 0 t N 1 g (t) = − 2 g (N ) = − t N g (t) =
bestimmt sind. Aus Gründen, auf die in Abschn. 4.1 genau eingegangen wird, kann die Funktion g(t) durch g(t) ≈ g(N ) + g (N ) · (t − N ) +
g (N ) (t − N )2 · (t − N )2 = N ln(N ) − N − 2 2N
in der Nähe von t = N beschrieben werden. Formal handelt es sich hier um TaylorEntwicklung. Dies kann in die Definition der Gamma-Funktion (2.12) eingesetzt werden, um so
2.3
Die Gamma-Funktion
163
∞ (1 + N ) ≈
(t − N )2 dt exp N ln(N ) − N − 2N
0
∞ ≈ exp(N ln(N ) − N ) =
N e
N
−∞
(t − N )2 dt exp 2N
√ 2π N
zu erhalten. Im zweiten Schritt wurde die untere Integrationsgrenze auf −∞ ausgeweitet, da √ 2 der Integrand dort kaum etwas zum Integral beiträgt und das Integral dx e−ax = π/a, welches in Abschn. 8.4 genauer hergeleitet wird, bekannt ist. Da die Gamma-Funktion über (2.14) einen Zusammenhang mit der Fakultät besitzt, ergibt sich die Näherungsgleichung N ! = (1 + N ) ≈
N e
N
√ 2π N
(2.18)
bzw. für den Logarithmus ln(N !) ≈ N ln(N ) − N +
1 ln(2π N ) ≈ N ln(N ) − N , 2
(2.19)
wobei im letzten Schritt der Term ∼ ln(N ) vernachlässigt wurde, da dieser wesentlich langsamer wächst als die Terme proportional zu N bzw. N ln(N ). Dieses Ergebnis ist als Stirling-Formel bekannt.
2.3.3
Formelsammlung – Gamma-Funktion
Definition und rekursiver Zusammenhang ∞ (1 + z) =
dt t z e−t
(1 + z) = z(z)
0
Zusammenhang zur Fakultät und Doppelfakultät (1 + n) = n!
(2n)!! = 2n (1 + n)
(2n − 1)!! =
Halbzahlige Fakultäten
√ 1 = π 2
(2n)! √ 1 +n = π 2 n!4n
(1 + 2n) 2n (1 + n)
164
2 Erste neue und grundlegende Konzepte
Stirling-Formel für große N 1 (1 + N ) ≈
2.4
N e
N
√ 2π N
ln(N !) ≈ N ln(N ) − N
Die Indexschreibweise
Da in der Physik das Rechnen mit Vektoren unumgänglich ist, muss ein effektiver Umgang mit Vektorgrößen oder mit Matrizen, welche in Kap. 7 ausführlich behandelt werden, gewährleistet sein. Ein möglicher Umgang kann durch unzählige Vektoridentitäten, wie der Zyklizität des Spatprodukts oder der bac-cab-Regel a · (bb × c ) = b · (cc × a ) = c · (aa × b ) a × (bb × c ) = b (aa · c ) − c (aa · b ) gegeben sein. Da in der Physik aber häufig aufwendigere Terme auftreten, ist dies nicht ausreichend. Daher wird stattdessen mit den Komponenten der Vektoren gerechnet. Dazu wird die in diesem Abschnitt vorliegende Methode der Indexschreibweise eingeführt.
2.4.1
Die Einstein’sche Summenkonvention
Wie sich bereits in Abschn. 1.6 gezeigt hat, treten bei Rechnungen mit Vektoren häufig Summen auf. So lässt sich ein Vektor a durch eine Basis über die Summe a=
3
ai eˆ i
i=1
ausdrücken. Die Basisvektoren sind dabei meistens orthonormal. In Abschn. 1.6.4 wurden dabei die drei gängigsten Basen, die Kartesischen Koordinaten, die Zylinderkoordinaten und die Kugelkoordinaten besprochen. Bei der Bildung des Skalarprodukts zwischen zwei Vektoren a und b tritt ebenfalls eine Summe a ·b =
3
ai bi
i=1
auf. Da es unübersichtlich sein kann, mehrere Summenzeichen aufzuschreiben, werden diese nicht explizit ausgeschrieben. Es wird in diesem Fall von der Einstein’schen Summenkonvention gesprochen. Dabei wird ausgenutzt, dass bei einer Summe über einen Index i dieser
2.4
Die Indexschreibweise
165
typischerweise zweimal in einem Ausdruck auftritt. So tritt beispielsweise bei der Bildung von Skalarprodukten aus dem Vektor a und b die Summe a ·b =
3
ai bi
i=1
auf, und der Index i tritt sowohl als Index für die Komponenten von a als auch als Index für die Komponenten des Vektors b auf. Diese Erkenntnis wird rückwärts verwendet, um aus einem Ausdruck in der Einstein’schen Summenkonvention alle vorhandenen Summenzeichen wiederherzustellen. Es gilt dabei die Regel: Taucht ein Index zweimal auf, wird darüber summiert. Indices, über die nicht summiert wird, werden als freie Indices bezeichnet. Liegt eine Gleichung vor, so müssen die freien Indices auf beiden Seiten miteinander übereinstimmen. Dies bietet eine Möglichkeit gefundene Ergebnisse einer Konsistenzprüfung zu unterziehen. Der Ausdruck ai b j ci dk ist damit als ai b j ci dk =
3
ai b j ci dk = b j dk
i=1
3
ai ci
i=1
zu lesen, während der etwas abgewandelte Ausdruck ai b j ci d j als ai b j ci d j =
3 3
ai b j ci d j
i=1 j=1
zu lesen ist. Im ersten Ausdruck treten dabei die freien Indices j und k auf. Ein relativ ähnlicher Umstand wird auch häufig in der modernen Physik eingeführt und als natürliche Einheiten bezeichnet. Dort werden für das Vereinfachen der Rechnungen das reduzierte Planck’sche Wirkungsquantum und die Lichtgeschwindigkeit c auf eins gesetzt. Durch eine Dimensionsanalyse der sich ergebenden Terme lassen sich die fehlenden Faktoren an und c wieder rekonstruieren. Auf ähnliche Weise sollte anfangs auch mit der Einstein’schen Summenkonvention verfahren werden, um einen Gewöhnungseffekt zu erzielen. Sie stellt eine Erleichterung beim Aufschreiben von Rechnungen dar. In finalen Ausdrücken sollten eventuell auftretende Summen aber wieder explizit ausgeschrieben werden.
166
2 Erste neue und grundlegende Konzepte
Ein Nachteil der Einstein’schen Summenkonvention besteht darin, dass es unter gewissen Umständen zu Mehrdeutigkeiten kommen kann. So sind die Komponenten einer Matrix M mit Mi j zu bezeichnen. Sollen nun die diagonalen Elemente M11 , M22 und M33 betrachtet werden und diese als Mii angegeben werden, ist nicht ganz klar, ob nun über die Diagonalelemente summiert wird8 oder ob nur die i-te Diagonalkomponente angegeben wird. Für solche Fälle soll in Zukunft immer explizit angegeben werden, wenn keine Summe vorliegt. Damit gilt Mii =
3
Mii ,
i=1
während die Komponenten durch Mii
keine Summe
bezeichnet werden. Auch die Summe über mehrfach indizierte Objekte kann dann als Ai1 i2 ···i···in B j1 j2 ···i··· jm =
3
Ai1 i2 ···i···in B j1 j2 ···i··· jn
(2.20)
i=0
aufgeschrieben werden und kann für die Behandlung von Matrizen im Kap. 7 und Koordinatentransformationen im Kap. 10 von Vorteil sein.
2.4.2
Das Kronecker-Delta
Wie im letzten Abschn. 2.4.1 bereits erwähnt, lassen sich Vektoren durch die Basisvektoren mit a = ai eˆ i
(2.21)
ausdrücken. Die Basisvektoren sollten dabei ein Orthonormalsystem bilden, also senkrecht zueinander stehen und die Länge eins aufweisen. Um diesen Umstand prägnant zu notieren wird die Symbolik 1 i= j δi j = (2.22) 0 i = j
8 Die so konstruierte Größe wird als die Spur einer Matrix bezeichnet und in Kap. 7 genauer bespro-
chen.
2.4
Die Indexschreibweise
167
eingeführt. Das Symbol δi j wird dabei als Kronecker-Delta bezeichnet. Es nimmt den Wert eins an, wenn die beiden betrachteten Indices gleich sind. Es wird null, wenn die Indices verschieden sind. Für einen einfach indizierten Ausdruck ist dann über δ1 j a j =
3
δ1 j a j = δ11 a1 + δ12 a2 + δ13 a3 = a1
j=0
δ2 j a j =
3
δ2 j a j = δ21 a1 + δ22 a2 + δ23 a3 = a2
j=0
δ3 j a j =
3
δ3 j a j = δ31 a1 + δ32 a2 + δ33 a3 = a3
j=0
schnell zu sehen, dass das Kronecker-Delta aus einer Summe über einen seiner Indices nur den Wert des anderen Index heraus projiziert. Mit der Indexschreibweise lässt sich dies allgemeiner als δi j a j =
3
δi j a j = ai
j=0
formulieren. Dies lässt sich auch auf mehrfach indizierte Objekte übertragen. Dabei gilt nach wie vor, in einer Summe mit einem Kronecker-Delta wird der Summationsindex durch den zweiten Index des Kronecker-Deltas ersetzt: δi j Ai1 i2 i3 ··· j···in = Ai1 i2 i3 ···i···in . Ein wichtiger Zusammenhang ist dann eine Summe über zwei Kronecker-Deltas mit einem gemeinsamen Index, der wegen δi j δ jk =
3
δi j δ jk = δik
(2.23)
j=1
wieder ein Kronecker-Delta ergibt. Tragen beide Kronecker-Deltas hingegen das gleiche Indexpaar, so ergibt sich δi j δi j =
3 3 i=1 j=1
δi j δi j =
3
δii = δii = 3.
i=1
Das Skalarprodukt zweier Vektoren lässt sich dann auch über a · b = (ai eˆ i ) · (b j eˆ j ) = ai b j (ˆe i · eˆ j ) = ai b j δi j = ai bi
(2.24)
168
2 Erste neue und grundlegende Konzepte
bestimmen, wobei ausgenutzt wurde, dass die Orthonormalität durch die Bedingung eˆ i · eˆ j = δi j bestimmt ist.
2.4.3
Das Levi-Civita-Symbol
Um für das Kreuzprodukt eine ähnliche Darstellung in Indexschreibweise zu finden, ist es nötig das sogenannte Levi-Civita-Symbol einzuführen. Dafür wird eine rechtshändige Basis eˆ i betrachtet. In solch einer Basis gilt für die Kreuzprodukte der Basisvektoren eˆ 1 × eˆ 2 = eˆ 3 eˆ 2 × eˆ 3 = eˆ 1 eˆ 3 × eˆ 1 = eˆ 2 . Zum Überprüfen könnten hier beispielsweise die kartesischen Basisvektoren eingesetzt werden, um die angegebenen Relationen zu erhalten. Die drei angegebenen Basisvektoren sind in der Reihenfolge einer jeden Zeile jeweils eine rechtshändige Basis. Für das Kreuzprodukt gilt dann a × b = (ai eˆ i ) × (b j eˆ j ) = ai b j (ˆe i × eˆ j ). Das Kreuzprodukt ist selbst aber wieder ein Vektor, kann also als Summe der Basisvektoren (aa × b ) = (aa × b )k eˆ k geschrieben werden. Außerdem ist aus den Überlegungen aus Abschn. 1.6.3 klar, dass die Komponenten des Kreuzprodukts eine Summe aus Produkten der Komponenten von a und b enthalten. Damit lässt sich der Ansatz !
a × b = eˆ k ki j ai b j
(2.25)
rechtfertigen. Es gilt dann die Größe i jk zu bestimmen, die als Levi-Civita-Symbol bekannt ist. Aus einem Vergleich der beiden Ausdrücke wird klar, dass ki j eine Bestimmungsgleichung mit den rechtshändigen Basisvektoren eˆ k ki j = eˆ i × eˆ j
2.4
Die Indexschreibweise
169
erfüllen muss. Um die Einträge von i jk zu bestimmen wird die Gleichung explizit ausgewertet. Es werden die Indices i = 1 und j = 2 betrachtet, die so den Zusammenhang eˆ 1 112 + eˆ 2 212 + eˆ 3 312 = eˆ 1 × eˆ 2 ergeben. Da die Basisvektoren orthogonal sind, sind sie auch linear unabhängig. Auf der rechten Seite steht nach der obigen Gleichung der Basisvektor eˆ 3 . Damit müssen aber die ersten beiden Beiträge null sein und der dritte Beitrag muss eins sein. Also sind bereits die drei Einträge 112 = 212 = 0 312 = 1 bestimmt. Das Kreuzprodukt ist antisymmetrisch, also a × b = −bb × a . Damit gilt dann auch eˆ 3 321 = eˆ 2 × eˆ 1 = −ˆe 1 × eˆ 2 = −ˆe 3 , und daher ist automatisch ein vierter Eintrag 321 = −312 bestimmt. Für den Fall, dass auf der rechten Seite der Bestimmungsgleichung zwei gleiche Vektoren stehen, beispielsweise eˆ 1 × eˆ 1 = 0 , zeigt sich weiter eˆ 1 111 + eˆ 2 211 + eˆ 3 311 = 0. Aufgrund der linearen Unabhängigkeit der Basisvektoren muss somit 111 = 211 = 311 = 0 gelten. Dies lässt sich für die beiden anderen Bestimmungsgleichungen i = 1, j = 3 und i = 2, j = 3 wiederholen. Es zeigt sich dann eine allgemeine Regel: Beim Vertauschen zweier beliebiger Indices tauscht das Levi-Civita-Symbol i jk sein Vorzeichen. Damit behält es beim zweifachen Tausch zweier Indices aber sein Vorzeichen. Zusammen zeigt sich i jk = jki = ki j = −k ji = − jik = −ik j .
(2.26)
170
2 Erste neue und grundlegende Konzepte
Daher wird von einem vollständig antisymmetrischen9 Objekt gesprochen. Durch die Antisymmetrie ist es null, wenn zwei oder mehr Indices den gleichen Wert annehmen. Die nicht verschwindenden Komponenten sind 123 = 312 = 231 = 1
(2.27)
321 = 132 = 213 = −1.
(2.28)
Es zeigt sich, dass die Indices zyklisch durchrotiert werden können, ohne das Vorzeichen des Levi-Civita-Symbols zu vertauschen. Es wird bei dieser Eigenschaft gelegentlich auch von der Zyklizität des Levi-Civita-Symbols gesprochen. Anders als die Antisymmetrie ist dies keine allgemeine Eigenschaft des Levi-Civita-Symbols. In der Formulierung der speziellen und allgemeinen Relativitätstheorie tritt so beispielsweise ein Levi-Civita-Symbol mit vier Indices μνρσ auf, das zwar auch antisymmetrisch beim Vertauschen zweier Indices, aber nicht zyklisch ist. Eine andere Betrachtung zur Herleitung des Levi-Civita-Symbols kann mit der expliziten Definition des Kreuzprodukts in kartesischen Koordinaten durchgeführt werden, ⎛ ⎞ a 2 b3 − a 3 b2 a × b = ⎝a3 b1 − a1 b3 ⎠ = eˆ 1 (a2 b3 − a3 b2 ) + eˆ 2 (a3 b1 − a1 b3 ) + eˆ 3 (a1 b2 − a2 b1 ) a 1 b2 − a 2 b1 !
= eˆ k ki j ai b j , und zeigt so einen neuen Zusammenhang für das Levi-Civita-Symbol. Es kann so ein Ausdruck des Levi-Civita-Symbols durch Kronecker-Deltas ki j = δk1 (δi2 δ j3 − δi3 δ j2 ) + δk2 (δi3 δ j1 − δi1 δ j3 ) + δk3 (δi1 δ j2 − δi2 δ j1 ) abgelesen werden. Mithilfe dieses Ausdrucks kann auch der Ausdruck ki j klm bestimmt werden, der beispielsweise bei doppelten Kreuzprodukten a × (bb × c ) auftritt. Dazu wird direkt ausgenutzt, dass die Summe über den Index k nur Beiträge liefert, wenn die Kronecker-Deltas, die den Index k tragen, denselben zweiten Index haben. Der Term δk1 δk2 trägt so beispielsweise nicht bei, während ein Term mit δk1 δk1 einen nicht verschwindenden Beitrag leisten wird.
9 Eine Matrix heißt antisymmetrisch wenn A = −A gilt. ij ji i jk zeigt dieses Verhalten für jedes
Paar an Indices, deshalb vollständig.
2.4
Die Indexschreibweise
171
Somit ergibt sich mit der expliziten Rechnung ki j klm = δk1 (δi2 δ j3 − δi3 δ j2 ) + δk2 (δi3 δ j1 − δi1 δ j3 ) + δk3 (δi1 δ j2 − δi2 δ j1 ) × (δk1 (δl2 δm3 − δl3 δm2 ) + δk2 (δl3 δm1 − δl1 δm3 ) + δk3 (δl1 δm2 − δl2 δm1 )) = (δi2 δ j3 − δi3 δ j2 ) · (δl2 δm3 − δl3 δm2 ) + (δi3 δ j1 − δi1 δ j3 ) · (δl3 δm1 − δl1 δm3 ) + (δi1 δ j2 − δi2 δ j1 ) · (δl1 δm2 − δl2 δm1 ) = δi2 δl2 (δ j3 δm3 + δ j1 δm1 ) + δi3 δl3 (δ j2 δm2 + δ j1 δm1 ) + δi1 δl1 (δ j3 δm3 + δ j2 δm2 ) − δi3 δm3 (δ j2 δl2 + δ j1 δl1 ) − δi2 δm2 (δ j3 δl3 + δ j1 δm1 ) − δi1 δm1 (δ j3 δl3 + δ j2 δl2 ) = δi2 δl2 δ jm + δi3 δl3 δ jm + δi1 δl1 δ jm − δi3 δm3 δ jl − δi2 δm2 δ jl − δi1 δm1 δ jl = δil δ jm − δim δ jl der Zusammenhang ki j klm = δil δ jm − δim δ jl
(2.29)
als die Summe über das Produkt zweier Levi-Civita-Symbole mit einem gemeinsamen Index. Dabei wurden in der Rechnung Erweiterungen der Form δi2 δl2 δ j2 δm2 − δi2 δl2 δ j2 δm2 eingeführt, um zunächst in den einzelnen Klammern die Summe δ js δms = δ jm und δ js δls = δ jl zu vervollständigen. Damit ließen sich dann auch die Summen der Form δis δls = δil und δis δms = δim bilden. Um Ausdruck (2.29) nicht jedes Mal nachschlagen zu müssen, ist es hilfreich zu erkennen, dass im ersten Summanden als Indices der Kronecker-Deltas die Indices der LeviCivita-Symbole miteinander gepaart werden, die an der gleichen Stelle stehen, während für den zweiten, negativen Summanden die Indices in überkreuzter Kombination eingesetzt werden. Dies gilt aber nur, falls der gemeinsame Index der erste Index in beiden Levi-CivitaSymbolen ist. Sollte dies nicht der Fall sein, kann Eigenschaft (2.26) verwendet werden, um einen Ausdruck auf eben diese Form zu bringen. Mit Ausdruck (2.29) lässt sich auch bestimmen, was bei zwei gleichen Indices geschieht: ki j kim = δii δ jm − δim δ ji = 3δ jm − δ jm = 2δ jm .
(2.30)
Ein wichtiges Argument, welches häufig Anwendung im Umgang mit dem Levi-CivitaSymbol findet, tritt bei Summen mit Ausdrücken, die symmetrisch unter dem Vertauschen zweier Indices sind, auf. Sei also Ai j = A ji , so gilt auch Ai j = 21 Ai j + A ji . Nun gilt weiter
172
2 Erste neue und grundlegende Konzepte
1 1 ki j Ai j + A ji = klm (Alm + Aml ) 2 2 1 1 = k ji A ji + Ai j = − ki j A ji + Ai j 2 2 1 = − ki j Ai j + A ji . 2
ki j Ai j =
Im ersten Schritt wurden die Summationsindices umbenannt, nach dem Schema i → l und j → m. Solch eine Umbenennung der Indices kann immer durchgeführt werden, solange über sie summiert wird. Im zweiten Schritt wurde dann eine erneute Umbenennung durchgeführt nach dem Schema l → j und m → i. Insgesamt wurde also eine Umbenennung der Art i ↔ j durchgeführt. Danach wurden im Levi-Civita-Symbol die Indices vertauscht, was zu einem zusätzlichen Minus führt. Schließlich wird die Kommutativität der Addition verwendet, um die Ausdrücke Ai j und A ji in der Summe zu tauschen. Damit ist der ursprüngliche Ausdruck aber sein eigenes Negatives. Dies ist nur möglich, wenn dieser Ausdruck bereits null ist. Das gleiche Argument kann auf mehrfach indizierte Objekte übertragen werden. Dann gilt Ai1 i2 ···i··· j···in = Ai1 i2 ··· j···i···in ⇒ i jk Ai1 i2 ···i··· j···in = 0.
(2.31)
Beispiele mit Vektoridentitäten Mit den obigen Zusammenhängen sollen nun einige Identitäten der Vektorrechnung gezeigt werden. Zunächst wird dazu die Zyklizität des Spatprodukts a · (bb × c ) = ai (bb × c )i = ai i jk b j ck = i jk ai b j ck = b j jki ck bi = b j (cc × a ) j = b · (cc × a ) = ck ki j ai b j = ck (aa × b )k = c · (aa × b ) betrachtet. Darin wurde die Zyklizität des Levi-Civita-Symbols ausgenutzt, welche bei einer ungeraden Anzahl an Indices stets gültig ist. Als Nächstes soll die bac-cab-Regel mittels a × (bb × c ) = eˆ i i jk a j (bb × c )k = eˆ i i jk a j klm bl cm = eˆ i ki j klm a j bl cm = eˆ i (δil δ jm − δim δ jl )a j bl cm = eˆ i bi a j c j − eˆ i ci a j b j = eˆ i bi (aa · c ) − eˆ i ci (aa · b ) = b (aa · c ) − c (aa · b ) bestimmt werden. Dabei wurde beim Übergang in die zweite Zeile die Zyklizität von i jk ausgenutzt, um es durch ki j zu ersetzen. Im darauffolgenden Schritt wurde die Identität für
2.4
Die Indexschreibweise
173
zwei Levi-Civita-Symbole mit zwei gleichen Indices verwendet. In den restlichen Schritten wurden Summen über gleiche Indices durchgeführt. Weitere Beispiele für eine Anwendung der Indexschreibweise werden in den Kap. 7 und 8 auftreten.
2.4.4
Formelsammlung – Indexschreibweise
Einstein’sche Summenkonvention 3
Ai1 i2 ···i···in B j1 j2 ···i··· jm =
Ai1 i2 ···i···in B j1 j2 ···i··· jn
i=0
Definition Levi-Civita-Symbol i jk = jki = ki j = −k ji = − jik = −ik j 123 = 1
ii j = 0 iii = 0 keine Summen
Rechenregeln LCS i jk ilm = δ jl δkm − δ jm δkl
i jk i jm = 2δkm
Ai1 i2 ···i··· j···in = Ai1 i2 ··· j···i···in ⇒ i jk Ai1 i2 ···i··· j···in = 0 Definition Kronecker-Delta δi j =
1 i= j 0 i = j
Rechenregeln Kronecker-Delta δi j Ai1 i2 i3 ··· j···in = Ai1 i2 i3 ···i···in
δi j δ jk = δik
Rechenregeln für Vektoren in Indexschreibweise a = eˆ i ai
a · b = ai bi
a × b = eˆ i i jk a j bk
Rechenregeln für orthonormale, rechtshändige Basisvektoren eˆ i eˆ i · eˆ j = δi j
eˆ i × eˆ j = i jk eˆ k
174
2 Erste neue und grundlegende Konzepte
Vektoridentitäten, die sich mit der Indexschreibweise beweisen lassen a · (bb × c ) = b · (cc × a ) = c · (aa × b ) a × (bb × c ) = b (aa · c ) − c (aa · b )
2.5
Dirac-Delta- und Heaviside-Theta-Funktion
Die Dirac-Delta-Funktion und die Heaviside-Theta-Funktionen sind zwei unverzichtbare Konzepte der theoretischen Physik. Ihr primärer Anwendungszweck in der klassischen theoretischen Physik dient der analytischen Beschreibung von Masse- und Ladungsverteilungen. Dabei kommen sie vor allem zum Einsatz, wenn es sich um punktförmige bzw. niederdimensionale oder räumlich beschränkte Ausdehnungen handelt. Im Zuge des allgemeinen Vektorbegriffs aus Kap. 3 wird die Dirac-Delta-Funktion auch eine kontinuierliche Erweiterung des in Abschn. 2.4 eingeführten Kronecker-Deltas darstellen.
2.5.1
Definition und Motivation
Für Massendichten- oder Ladungsverteilungen ρ(rr ) lassen sich einige Größen, wie die gesamte Masse bzw. Ladung oder auch die Potentiale der entstehenden gravitativen bzw. elektrischen Felder aus Integralen über diese Verteilungen bestimmen. Im Folgenden sollen stets Massenverteilungen betrachtet werden. Einige solcher Größen, für deren Herleitung und Interpretation die entsprechende Literatur herangezogen werden kann, sind: • Die Gesamtmasse
m=
d3r ρ(rr )
• Der Schwerpunkt R=
1 m
d3r ρ(rr )rr
• Das Gravitationspotential
(rr ) = −G
d3 r
ρ(rr ) |rr − r |
2.5
Dirac-Delta- und Heaviside-Theta-Funktion
175
• Die gravitative Selbstenergie G U =− 2
3
d r
d3 r
ρ(rr )ρ(rr ) |rr − r |
• Der Trägheitstensor Ji j =
d3r ρ(rr )(δi j r 2 − ri r j )
Darin wurden die allgemeinen Raumintegrale, die in Abschn. 8.4 ausführlich besprochen werden, verwendet. Dabei wird über jede Komponente des Vektors ⎛ ⎞ x r = ⎝y⎠ z über die reellen Zahlen integriert. Für die Motivation sollen im Folgenden die eindimensionalen Varianten Anwendung finden. Die Gesamtmasse wird dann beispielsweise durch ∞ m=
dx ρ(x) −∞
gegeben. Anschaulich lässt sich dies als die Masse eines Stabes mit ortsabhängiger Massendichte auffassen. So hat z. B. das Queue eines Billardspiels mehr Masse am hinteren Ende als an der Stoßseite, und die Massendichte nimmt in etwa linear ab.
Die Heaviside-Theta-Funktion Dieses Beispiel wirft bereits die Frage auf, wie der Anfang und das Ende des Queues im Ausdruck für die Gesamtmasse eingebracht werden können. Es gäbe die Möglichkeit die Grenzen des Integrals händisch anzupassen. Im Falle einer einfachen Massenverteilung mag dies noch praktikabel sein, aber für zusammengesetzte Massenverteilungen müssten jedes Mal die Integrale von Hand auseinandergezogen und die Grenzen angepasst werden. Dies ist äußerst fehleranfällig, weshalb es sich anbietet eben diese Information in der Massenverteilung festzuhalten. Dazu wird die Heaviside-Theta-Funktion eingeführt. Sie ist eine Stufenfunktion und durch 1 x ≥0 (2.32) (x) = 0 x 0 gewählt werden, für die dann der Zusammenhang ε dx δ (x) = 1 −ε
gültig ist. Wird ein Integral der Dirac-Delta-Funktion mit einer beliebigen Funktion f (x) gebildet, so bleibt aufgrund des Verschwindens der Dirac-Delta-Funktion für alle x = 0 nur ein möglicher Wert für das Integral, da im Produkt der Dirac-Delta-Funktion mit der Funktion f (x) jeder mögliche Beitrag von f (x) mit x = 0 keinen Beitrag leisten wird. Der einzige verbleibende Beitrag ist der Funktionswert der Funktion f an der Stelle x = 0. Diese sich dadurch ergebende Formulierung ist etwas allgemeiner und mathematisch sauberer gefasst 11 Zwei weitere häufig verwendete Funktionenfolgen sind in Abschn. 11.7 zu finden. 12 Mathematisch gesehen handelt es sich bei der Dirac-Delta-Funktion nicht um eine Funktion,
sondern um eine sogenannte Distribution. Für weitere Aspekte dieses Umstandes sei auf das Gebiet der Distributionentheorie und die dazugehörige Literatur verwiesen.
178
2 Erste neue und grundlegende Konzepte
und soll deshalb als Definition der Dirac-Delta-Funktion dienen. Diese ist somit durch die Eigenschaft ε dx δ (x) f (x) = f (0)
(2.34)
−ε
für eine beliebige Funktion f (x) und eine beliebige positive reelle Zahl ε > 0 definiert.
2.5.2
Regeln zum Umgang mit der Dirac-Delta- und Heaviside-Theta-Funktion
Die in diesem Abschnitt eingeführten Regeln beziehen sich ausschließlich auf den eindimensionalen Fall der Dirac-Delta-Funktion und können mit den Erkenntnissen aus den Abschn. 1.6 und 8.4 auf den mehrdimensionalen Fall verallgemeinert werden, wie es auch teilweise in Abschn. 8.4 getan wird.
Die Heaviside-Theta-Funktion 1. Als Erstes soll untersucht werden, wie sich eine Heaviside-Theta-Funktion formal auf die Grenzen eines unendlichen Integrals auswirkt. Dazu wird zunächst der Ausdruck ∞ dx (x − a) f (x) −∞
betrachtet. Die Heaviside-Theta-Funktion wird für alle Werte von x, die kleiner als a sind, ein negatives Argument besitzen und somit null sein. Damit gibt es für alle Werte von x < a keine Beiträge zum Integral. Das Integral könnte stattdessen also auch bei x = a beginnen. Auf diese Weise setzt die Heaviside-Theta-Funktion die untere Grenze des Integrals auf a, und es ergibt sich der Zusammenhang ∞
∞ dx (x − a) f (x) =
−∞
dx f (x).
(2.35)
a
Für den Fall, dass im Integranden die Heaviside-Theta-Funktion (b − x) steht, lässt sich auf analoge Weise argumentieren, dass die obere Grenze auf b gesetzt werden muss und der Zusammenhang ∞
b dx (b − x) f (x) =
−∞
dx f (x) −∞
(2.36)
2.5
Dirac-Delta- und Heaviside-Theta-Funktion
179
gilt. Wird schlussendlich der Ausdruck ∞ dx (x − a) (b − x) f (x) −∞
betrachtet, so ist klar, dass sowohl die obere als auch die untere Grenze durch b bzw. a ersetzt werden. Wichtig ist hierbei allerdings, dass das Integral nur einen Beitrag liefern wird, falls b > a ist. Denn wäre a > b, so besagt die erste Heaviside-Theta-Funktion, dass x mindestens den Wert a annehmen muss, um einen Beitrag zu liefern. Die zweite Heaviside-Theta-Funktion erlaubt allerdings nur Werte von x, die kleiner als b und somit auch kleiner als a sind. Insgesamt ist der Integrand dann also für alle Werte von x null. Zusammenfassend lässt sich dieser Umstand als ∞
b dx (x − a) (b − x) f (x) = (b − a)
−∞
dx f (x)
(2.37)
a
ausdrücken. 2. Gelegentlich treten Heaviside-Theta-Funktionen auch in Integralen mit bereits festgelegten Grenzen in der Form b dx (x) f (x) a
auf. Dabei soll b eine positive Zahl größer als a sein. Dieses Integral lässt sich dann in zwei Terme spalten. Da x aufgrund der Heaviside-Theta-Funktion positiv sein muss, lässt sich eine Fallunterscheidung für negative und positive a machen. Ist a positiv, so ist das Argument der Heaviside-Theta-Funktion für alle möglichen Werte von x positiv, und das volle Integral trägt bei. Ist a hingegen negativ, nehmen die x im Integral auch teilweise negative Werte an. Daher kann die untere Grenze in diesem Fall auf null gesetzt werden. Damit ergibt sich der Zusammenhang b
b dx (x) f (x) = (a)
a
b dx f (x) + (−a)
a
dx f (x).
(2.38)
0
3. Häufig tritt die Heaviside-Theta-Funktion auch in einer symmetrischen Form auf. Beispielsweise könnte ein Zylinder betrachtet werden, dessen Massendichte auf der z-Achse durch +h/2 und −h/2 begrenzt ist. Dies lässt sich als das Produkt (h/2 + z) (h/2 − z)
180
2 Erste neue und grundlegende Konzepte
aufschreiben. Die erste Funktion beschränkt dabei die Höhe nach unten, während die zweite die Höhe nach oben einschränkt. Dies lässt sich aber auch in der Kombination (h/2 − |z|) aufschreiben, die besagt, dass der Betrag von z nicht den Wert von h/2 überschreiten darf. Damit ergibt sich der Zusammenhang (h/2 + z) (h/2 − z) = (h/2 − |z|) ,
(2.39)
der gelegentlich dazu verwendet werden kann, um Kombinationen von Heaviside-ThetaFunktionen etwas übersichtlicher aufzuschreiben. 4. Als Letztes soll noch die Ableitung der Heaviside-Theta-Funktion gefunden werden. Da die Heaviside-Theta-Funktion für x < 0 den konstanten Wert null und für x > 0 den konstanten Wert eins annimmt, ist klar, dass die Ableitung in diesen Gebieten den Wert null annehmen wird. An der Stelle x = 0 macht die Heaviside-Theta-Funktion einen Sprung vom Wert null auf den Wert eins, nimmt also zu. Für eine solche Unstetigkeit ist nach Abschn. 1.3 zwar keine Ableitung definiert, aber es sieht so aus, als müsste die Steigung in einem solchen Punkt unendlich groß sein. Damit lässt sich als Vermutung die Dirac-Delta-Funktion ansetzen. Um dies zu überprüfen wird die Stammfunktion der Dirac-Delta-Funktion mittels x F(x) =
dt δ (t) −∞
bestimmt. Ist x < 0, so wird die Stammfunktion auch den Wert null haben, während sie für alle x > 0 den Wert eins annimmt und somit mit der Heaviside-Theta-Funktion übereinstimmt.13 Nach dem Hauptsatz der Differential- und Integralrechnung aus Abschn. 1.4 muss demnach die Dirac-Delta-Funktion der Ableitung der Heaviside-Theta-Funktion d (x) = δ (x) dx
(2.40)
entsprechen.
13 Für x = 0 entspricht diese Stammfunktion tatsächlich nicht der hier verwendeten Definition der Heaviside-Theta-Funktion, weshalb sich auch gelegentlich eine Konvention für (0) = 1/2 findet. Da der Wert des angegebenen Integrals aber gewissermaßen willkürlich ist – die Funktionenfolge für die Dirac-Delta-Funktion muss beispielsweise nicht zwingend symmetrisch gewählt werden – soll diese Ungereimtheit am Punkt x = 0 nicht weiter beachtet werden.
2.5
Dirac-Delta- und Heaviside-Theta-Funktion
181
Dirac-Delta-Funktion 1. Die erste Eigenschaft, die für die Dirac-Delta-Funktion untersucht werden soll, ist ihr Verhalten unter Translation um eine reelle Zahl a. Wird das Integral ∞ dx δ (x − a) f (x) −∞
betrachtet, so lässt sich mittels der Substitution u = x − a der Ausdruck ∞
∞ dx δ (x − a) f (x) =
−∞
du δ (u) f (u + a) = f (0 + a) = f (a)
(2.41)
−∞
bestimmen. Die verschobene Dirac-Delta-Funktion weist im Integral der Funktion also den Funktionswert an der Stelle des Verschiebungsparameters a zu. In anderen Worten wird die Spitze der Dirac-Delta-Funktion zum Punkt x = a verschoben. Als physikalisches Beispiel kann hier eine eindimensionale Perlenkette betrachtet werden. Jede Perle hat die Masse m. Die Perlen befinden sich jeweils an den Positionen x = a1 , x = a2 und so weiter bis hin zu x = an . Die Massendichte dieser Perlenkette kann dann als ρ(x) = mδ (x − a1 ) + mδ (x − a2 ) + · · · + mδ (x − an ) =
n
mδ (x − ai )
i=1
aufgeschrieben werden. Dabei wurde die Massendichte der Schnur selbst, die die Perlen verbindet und zusammenhält, vernachlässigt. 2. Nachdem die Translation betrachtet wurde, soll auch die Streckung des Arguments um den Faktor a ∈ R \ {0} betrachtet werden. Dazu wird das Integral ∞ dx δ (ax) f (x) −∞
mittels der Substitution u = ax berechnet. Es gibt hierbei zwei Fälle zu unterscheiden: (a) Ist a > 0, so bleibt die Reihenfolge der Grenzen erhalten, und es ergibt sich ∞ −∞
1 dx δ (ax) f (x) = a
∞ du δ (u) f (u/a) = −∞
f (0) . a
(b) Ist a < 0, so wird die Reihenfolge der Grenzen vertauscht, und es ergibt sich
182
2 Erste neue und grundlegende Konzepte
∞ −∞
1 dx δ (ax) f (x) = a
−∞ du δ (u) f (u/a) ∞
1 = −a
∞ du δ (u) f (u/a) = −∞
f (0) . −a
Für beide Fälle lässt sich das Ergebnis durch den Betrag von a als ∞ dx δ (ax) f (x) = −∞
f (0) |a|
ausdrücken. Da sich der Funktionswert von f an der Stelle x = 0 wieder durch ein Integral über die Funktion mit der Dirac-Delta-Funktion ∞ dx δ (x) f (x)
f (0) = −∞
ausdrücken lässt, lässt sich das Ergebnis weiter zu ∞
∞ dx δ (ax) f (x) =
−∞
dx −∞
δ (x) f (x) |a|
umformen. Durch den Vergleich der Integranden lässt sich so die Identität δ (ax) =
δ (x) |a|
(2.42)
ablesen. Mithilfe dieses Zusammenhangs lassen sich unter Umständen Terme bereits vereinfachen, bevor überhaupt ein Integral betrachtet werden muss. Es lässt sich aber eine weitere, vor allem für die Physik wichtige Folgerung aus diesem Zusammenhang ziehen. Trägt das Argument der Dirac-Delta-Funktion eine Einheit, so handelt es sich dabei um einen multiplikativen Faktor. Nach der gefundenen Identität können multiplikative Faktoren aber als Kehrbruch aus der Dirac-Delta-Funktion extrahiert werden. Das bedeutet, die Dirac-Delta-Funktion besitzt die inverse Einheit von ihrem Argument. Ist das Argument beispielsweise eine Länge, wie im Ausdruck δ (x) wobei x eine Raumkoordinate angibt, so wird die Dirac-Delta-Funktion die Dimension einer inversen Länge aufweisen, und ihre Einheit wird durch m1 gegeben sein. Es gibt einen zweiten Weg dies zu sehen. Da die Dirac-Delta-Funktion per Definition die Gleichung
2.5
Dirac-Delta- und Heaviside-Theta-Funktion
183
∞ dx δ (x) = 1 −∞
erfüllt und das Differential x die Dimension einer Länge trägt, muss für das Erhalten einer dimensionslosen Zahl die Dirac-Delta-Funktion die Dimension einer inversen Länge aufweisen. 3. Der vorangegangene Umstand kann in einer etwas allgemeineren Form auftreten, wenn das Argument der Dirac-Delta-Funktion durch eine Funktion g(x) gegeben ist. Zunächst ist klar, dass es nur Beiträge geben kann, wenn die Funktion g(x) Nullstellen aufweist. Darüber hinaus wird auch sofort klar, dass es in einem solchen Fall nicht nur einen Beitrag, sondern eventuell mehrere Beiträge an allen Nullstellen xi der Funktion g(x) geben kann. Für das Finden der entsprechenden Identität wird ein Vorgriff auf Abschn. 4.1 gemacht. Dort wird festgestellt, dass eine Funktion g(x) in naher Umgebung um einen Punkt xi durch eine Gerade der Form g(xi ) + g (xi )(x − xi ) angenähert werden kann. Da xi die Nullstellen der Funktion g(x) sein sollten, lässt sich diese also annähernd durch g(x) ≈ g (xi )(x − xi ) ausdrücken. Die Dirac-Delta-Funktion δ (g(x)) lässt sich dann als eine Summe über alle Nullstellen in der Form
δ (g(x)) =
δ g (xi )(x − xi )
xi , g(xi )=0
darstellen. Dabei werden die Umgebungen so klein gewählt, dass die Näherung um jede der Nullstellen gerechtfertigt ist. Mit den Erkenntnissen aus dem vorherigen Beispiel gilt dann δ (g(x)) =
xi , g(xi )=0
δ (x − xi ) . |g (xi )|
(2.43)
Diese und die vorhergehende Eigenschaft werden auch in Abschn. 8.4 dazu verwendet werden, um die Dirac-Delta-Funktion für Zylinder- und Kugelkoordinaten zu definieren. Als Beispiel kann dazu die Dirac-Delta-Funktion δ (sin(x)) betrachtet werden. Die Funktion g(x) = sin(x) hat dann die Nullstellen x = nπ für ganzzahlige n. Die Ableitung der Funktion ist durch g (x) = cos(x) gegeben, und der
184
2 Erste neue und grundlegende Konzepte
Betrag der Ableitung an den Nullstellen ist durch |g (nπ )| = (−1)n = 1 gegeben. Damit lässt sich die Identität δ (sin(x)) =
δ (x − nπ )
n∈Z
angeben, die periodisch aufeinander folgende Spitzen an den Stellen x = nπ beschreibt. 4. Als Letztes soll noch eine Eigenschaft angesprochen werden, die in Abschn. 2.5.1 kurz angeschnitten wurde. Ist ein Ausdruck gegeben, der ein Produkt aus einer Dirac-DeltaFunktion und einer weiteren Funktion f (x) der Form δ (x − a) f (x) enthält, kann das Argument von f auch ohne Integral bereits durch a ersetzt werden, sofern f an dieser Stelle keine Singularität enthält. Dies kann auch dazu verwendet werden, um Produkte von Delta-Funktionen mit verschiedenen Verschiebungen a = b bezogen auf die gleiche Variable x der Form δ (x − a) δ (x − b) = δ (x − a) δ (a − b) = δ (x − a) · 0 = 0 zu eliminieren.
2.5.3
Dirac-Delta- und Heaviside-Theta-Funktion – Formelsammlung
Definition der Dirac-Delta-Funktion ε ε>0⇒
dx δ (x) f (x) = f (0) −ε
Alternative Definition der Dirac-Delta-Funktion δ (x) =
∞ x =0 0
x = 0
∞ dx δ (x) = 1 −∞
2.6
Lösen von Differentialgleichungen
185
Eigenschaften der Dirac-Delta-Funktion ∞ dx δ (x − a) f (x) = f (a) −∞
δ (x) |a| δ (g(x)) =
δ (ax) =
xi , g(xi )=0
δ (x − xi ) |g (xi )|
Definition der Heaviside-Theta-Funktion (x) =
1 x ≥0
0 x a
0
(h/2 + x) (h/2 − x) = (h/2 − |x|) d (x) = δ (x) dx
2.6
Lösen von Differentialgleichungen
Bereits in Abschn. 1.4.3 wurde eine Methode vorgestellt, um Differentialgleichungen erster Ordnung auf ein Integral zu reduzieren und damit zu lösen. In diesem Abschnitt sollen einige weitere einfache Methoden zur Lösung von Differentialgleichungen vorgestellt werden, da diese Form der Gleichungen besonders häufig in der Physik auftritt. Die meisten fundamentalen Theorien sind allein in Form von Diffe-
186
2 Erste neue und grundlegende Konzepte
rentialgleichungen formuliert, wie die Newton’sche Mechanik und Gravitationslehre, die Elektrodynamik, die allgemeine Relativitätstheorie. Andere Zweige der Physik, wie die Lagrange- und Hamilton-Mechanik beschäftigen sich mit dem systematischen Aufstellen von gekoppelten Differentialgleichungen eines physikalischen Systems. Die in diesem Abschnitt vorgestellten Methoden sind nur ein kleiner Ausschnitt, stellen aber die wichtigsten Vorgehensweisen in der Physik dar. Im Laufe des Werkes werden noch einige weitere Methoden vorgestellt, wie der Potenzreihenansatz in Abschn. 4.1.6 und das Umwandeln in algebraische Gleichungen mittels Fourier-Reihen in Abschn. 4.3.5 oder Fourier-Transformation in Abschn. 6.5.
2.6.1
Variation der Konstanten
Eine besonders einfache Form von Differentialgleichungen stellen die linearen Differentialgleichungen erster Ordnung dar. Es handelt sich um Gleichungen, die nur die erste Ableitung einer Funktion f (x) enthalten. Sie sind durch f (x) + a(x) f (x) = g(x)
(2.44)
definiert. Darin sind a(x) und g(x) zwei beliebige14 Funktionen. g(x) wird die Inhomogenität genannt. Wie in Abschn. 1.4.3 bereits erklärt wurde, besteht die Lösung zu dieser Differentialgleichung aus einer Lösung f h (x) der homogenen Gleichung f (x) + a(x) f (x) = 0
(2.45)
und der partikulären Lösung f p (x). Mögliche Anfangsbedingungen werden über die homogene Lösung eingebracht. Da es sich um eine Differentialgleichung erster Ordnung handelt, bedarf es nur einer Anfangsbedingung. In der Physik ist es häufig der Fall, dass der Funktionswert an einer Stelle x0 bekannt ist, dass also die Anfangsbedingung f (x0 ) = f 0 aufgestellt werden kann. Um die homogene Differentialgleichung zu lösen, kann die in Abschn. 1.4.3 vorgestellte Methode der Trennung der Variablen verwendet werden. Dazu werden die Ableitung als f (x) =
df dx
geschrieben und die Umformung
14 Damit Lösungen existieren, können diese Funktionen selbstverständlich nicht vollkommen belie-
big sein. Es handelt sich um beliebige aber „gutartige“ Funktionen, die eine Lösung garantieren.
2.6
Lösen von Differentialgleichungen
187
df = −a(x) f (x) dx
df = −a(x)dx f
⇒
durchgeführt. Nach einer unbestimmten Integration auf beiden Seiten lässt, unter Berücksichtigung der Integrationskonstanten, sich df = ln( f ) + A1 f = A2 − dx a(x) finden. Auf der rechten Seite empfiehlt es sich, wegen der Anfangsbedingungen das unbestimmte Integral durch das bestimmte Integral x du a(u) x0
zu ersetzen. Durch die Spezifizierung der Integralgrenzen ändert sich die Integrationskonstante. Jedoch kann diese Änderung zusammen mit A1 in eine Integrationskonstante C˜ kombiniert werden, sodass der Ausdruck ln( f (x)) = C˜ −
x du a(u) x0
entsteht. Nach Auflösen nach f ist die Lösung der homogenen Gleichung f h mit noch unbestimmter Integrationskonstante durch ⎛ x ⎞ (2.46) f h (x) = C exp⎝− du a(u)⎠ x0 ˜
gegeben, wobei C durch eC bestimmt ist. Wäre nur die homogene Differentialgleichung mit der Anfangsbedingung f (x0 ) = f 0 zu lösen, so wäre wegen der Eigenschaft der bestimmten Integrale x0 du a(u) = 0
(2.47)
x0
die Integrationskonstante C durch f 0 gegeben, sodass ⎛ f (x) + a(x) f (x) = 0
f (x0 ) = f 0
⇒
f (x) = f 0 exp⎝−
x x0
⎞ du a(u)⎠
(2.48)
188
2 Erste neue und grundlegende Konzepte
gilt. Wenn nun eine inhomogene Gleichung zu lösen ist, kann entweder eine partikuläre Lösung geraten werden, was üblicherweise mit einigen physikalischen Argumenten15 geschieht, oder es kann mittels eines systematischen Weges die partikuläre Lösung bestimmt werden. Dazu wird das Verhalten der homogenen Lösung in die Funktion mit eingebaut, und der Ansatz für die Lösung ist durch das Produkt der homogenen Lösung und einer noch zu bestimmenden Funktion h(x) gegeben. Da dies die Form ⎛ x ⎞ f p (x) = h(x)C exp⎝− du a(u)⎠ x0
hat und die Konstante C in die Funktion h einbezogen werden kann, sieht es so aus, als würde die Konstante C dahingehend verändert, indem sie selbst als Funktion von x aufgefasst wird. Da die Integrationskonstante C nun also selbst variabel ist, wird dieses Verfahren als Variation der Konstanten bezeichnet. Der Ansatz für die Lösung ist also durch ⎛ x ⎞ f p (x) = C(x) exp⎝− du a(u)⎠ (2.49) x0
gegeben. Nach Einsetzen in die Differentialgleichung f (x) + a(x) f (x) = g(x) lässt sich unter den Umformungen ⎛ f p (x)
= C (x) exp⎝−
x x0
⎛
⎞
du a(u)⎠ − a(x)C(x) exp⎝− ⎛
= C (x) − a(x)C(x) exp⎝−
x
⎞
x
⎞ du a(u)⎠
x0
du a(u)⎠
x0
⎛ x ⎞ ⇒ f p (x) + a(x) f p (x) = C (x) − a(x)C(x) + a(x)C(x) exp⎝− du a(u)⎠ ⎛ = C (x) exp⎝−
x
⎞
x0
du a(u)⎠ = g(x)
x0
15 Beispielsweise könnte eine Anforderung an einen gebundenen und damit räumlich beschränkten
Zustand sein, dass eine Funktion nicht unendlich werden darf. Bei einer Dynamik einer Differentialgleichung, die zunächst nach unendlichem Wachstum aussieht, kann daher oft geraten werden, dass die partikuläre Lösung durch eine Konstante gegeben ist.
2.6
Lösen von Differentialgleichungen
189
die Differentialgleichung ⎛ C (x) = g(x) exp⎝
x
⎞ du a(u)⎠
x0
für C ablesen. Diese kann durch ein unbestimmtes Integral gelöst werden. Wie auch bei der homogenen Lösung empfiehlt es sich aber in die Integrationskonstante eine geschickte Wahl der Integrationsgrenzen zu absorbieren, sodass sich ⎛ w ⎞ x (2.50) C(x) = K + dw g(w) exp⎝ du a(u)⎠ x0
x0
als praktische Lösung für C(x) herausstellt. Da C(x) noch mit ⎛ x ⎞ exp⎝− du a(u)⎠ x0
multipliziert werden muss, ist die vollständige Lösung durch ⎛ ⎛ x ⎛ w ⎞⎞ ⎞ x f (x) = ⎝ K + dw g(w) exp⎝ du a(u)⎠⎠ exp⎝− du a(u)⎠ x0
x0
x0
gegeben. Diese enthält mit K = 0 bereits einen homogenen Teil. Daher ist der reine partikuläre Anteil durch ⎛ x ⎞ x ⎛ w ⎞ (2.51) f p (x) = exp⎝− du a(u)⎠ dw g(w) exp⎝ du a(u)⎠ x0
x0
x0
gegeben. Mit der Anfangsbedingung f (x0 ) = f 0 kann die vollständige Lösung zu ⎛ x ⎡ ⎛ w ⎞⎤ ⎞ x (2.52) f (x) = ⎣ f 0 + dw g(w) exp⎝ du a(u)⎠⎦ exp⎝− du a(u)⎠ x0
x0
x0
bestimmt werden. Da im Falle Differentialgleichungen erster Ordnung die vollständige Lösung bereits in geschlossener Form angegeben werden kann, lassen sich diese auch durch numerische Methoden lösen, falls keine analytische Lösung vorhanden sein sollte.
190
2 Erste neue und grundlegende Konzepte
Beispiel Als Beispiel wird die Differentialgleichung aus Abschn. 1.4.3, dv + γ v = −g dt
v(t0 ) = v0
betrachtet. Die Rolle der Variable x wird von t übernommen. Die gesuchte Funktion ist v(t). Die Funktion a(x) ist hier durch die Konstante γ gegeben, während die Funktion g(x) durch die Konstante −g gegeben ist. Zunächst empfiehlt es sich immer das Integral a(x)dx auszurechnen, das hier durch t dτ γ = γ (t − t0 ) t0
gegeben ist. Damit lässt sich die Lösung mit ⎤ ⎡ t v(t) = ⎣v0 + dτ (−g) eγ (τ −t0 ) ⎦ e−γ (t−t0 ) t0
aufstellen. Das Integral in der Klammer lässt sich durch t dτ (−g) e
γ (τ −t0 )
= −g e
−γ t0
t0
t
dτ eγ τ
t0
= −g e−γ t0
g γ (t−t0 )−1 1 γt e − e γ t0 = − e γ γ
lösen. Nach Einsetzen ergibt sich
g γ (t−t0 )−1 −γ (t−t0 ) g e e 1 − e−γ (t−t0 ) = v0 e−γ (t−t0 ) − v(t) = v0 − γ γ als Lösung der Differentialgleichung. Das ist dieselbe Lösung, wie in Abschn. 1.4.3.
2.6.2
Lineare Differentialgleichungen mit konstanten Koeffizienten
Eine weitere besondere Klasse von Differentialgleichungen wird durch die homogenen linearen Differentialgleichungen n-ter Ordnung mit konstanten Koeffizienten dargestellt. Diese sind durch n k=0
ak f (k) (x) = 0
(2.53)
2.6
Lösen von Differentialgleichungen
191
mit an = 0 gegeben. Sie lassen sich mit dem Exponentialansatz lösen. Dazu wird f (x) = C eλx
(2.54)
mit einer noch unbekannten Zahl λ, die auch komplex sein kann, angenommen. Durch Einsetzen in die Differentialgleichung und das Verhalten bei Ableiten der Exponentialfunktion f (x) = λC eλx = λ f (x)
⇒
f (k) (x) = λk eλx
lässt sich n k=0
ak f (k) (x) =
n
ak λk f (x) = f (x)
k=0
n
ak λk = 0
k=0
finden. Da f (x) ∼ eλx niemals null wird bzw. da die Differentialgleichung für alle x gelten muss, muss die Summe bereits null sein, damit die Differentialgleichung gelöst wird. Der Ausdruck p(λ) =
n
ak λk
(2.55)
k=0
wird daher charakteristisches Polynom genannt. Das Lösen der Differentialgleichung besteht dann vor allem darin, die Nullstellen dieses Polynoms zu finden. Ist λi eine einfache Nullstelle des Polynoms, so ist die Lösung zu λi durch f i (x) = eλi x gegeben. Falls die Nullstelle eine mehrfache Nullstelle ist, so muss die Lösung durch ein Polynom in der Form f i (x) = ri (x) eλi x erweitert werden. Das Polynom ist durch Einsetzen in die Differentialgleichung und die Anfangsbedingungen zu bestimmen. Sein Grad ist durch die Vielfachheit der Nullstelle weniger eins gegeben. Die allgemeine Lösung ist dann dadurch gegeben, dass die einzelnen Lösungen mit noch zu bestimmenden Konstanten aufaddiert werden, womit sich der Ausdruck f (x) = Ci f i (x) (2.56) λi ; p(λi )=0
ergibt. Da es sich um eine Differentialgleichung n-ter Ordnung handelt, werden n Anfangsbedingungen benötigt.
192
2 Erste neue und grundlegende Konzepte
Da die λi auch komplex sein können, ist es möglich, dass sich neben exponentiellen Verhalten auch periodische Verhalten ergeben können. Ist beispielsweise λ = ik mit einem reellen und positiven k, so ist eλx = eikx = cos(kx) + i sin(kx) eine andere Darstellung der Lösung der Differentialgleichung.
Beispiele Als Beispiel für homogene lineare Differentialgleichungen mit konstanten Koeffizienten soll der klassische harmonische Oszillator betrachtet werden, der durch x (t) + ω02 x(t) = 0 definiert ist. Darin übernimmt t die Rolle der Variable und x(t) ist die gesuchte Funktion. Mit dem Exponentialansatz x(t) ∼ eλt lässt sich das charakteristische Polynom p(λ) = λ2 + ω02 aufstellen. Die Nullstellen sind rein imaginär und durch λ± = ±iω0 zu bestimmen. Damit sind die beiden Lösungen durch x± (t) = e±iω0 t = cos(ω0 t) ± i sin(ω0 t) gegeben, die zur allgemeinen Lösung x(t) = A˜ eiω0 t + B˜ e−iω0 t kombiniert werden. Um Anfangsbedingungen bei t = t0 einzufügen, bietet es sich an die Konstanten etwas umzudefinieren, sodass der Ausdruck x(t) = A eiω0 (t−t0 ) +B e−iω0 (t−t0 ) = C cos(ω0 (t − t0 )) + D sin(ω0 (t − t0 )) gewonnen werden kann, wobei C = A + B und D = i(A − B) gelten. Die Ableitung von x nach der Zeit lässt sich dann durch
2.6
Lösen von Differentialgleichungen
193
x (t) = ω0 (D cos(ω0 (t − t0 )) − C sin(ω0 (t − t0 ))) bestimmen. Sind die beiden Anfangsbedingungen durch x (t0 ) = v0
x(t0 ) = x0 gegeben, so kann die allgemeine Lösung durch
x(t0 ) = C cos(0) + D sin(0) = C = x0 x (t0 ) = ω0 (D cos(0) − C sin(0)) = Dω0 = v0 zu x(t) = x0 cos(ω0 (t − t0 )) +
v0 sin(ω0 (t − t0 )) ω0
bestimmt werden. Ein weiteres Beispiel ist der gedämpfte harmonische Oszillator, dessen Differentialgleichung durch x (t) + 2γ x (t) + ω02 x(t) = 0 gegeben ist. Darin sind γ und ω0 reelle und positive Konstanten. Als Anfangsbedingungen werden wieder x(t0 ) = x0
x (t0 ) = v0
angesetzt. Durch den Exponentialansatz x(t) ∼ eλt wird das charakteristische Polynom p(λ) = λ2 + 2γ λ + ω02 bestimmt. Dessen Nullstellen sind durch λ± = −γ ± gegeben. Mit Einführung von ≡
γ 2 − ω02
|ω02 − γ 2 | lassen sich drei Fälle unterscheiden.
1. ω0 > γ wird als Schwingfall bezeichnet, und die Nullstellen lassen sich als λ± = −γ ± i schreiben. Die beiden Lösungen sind durch x± (t) = e−γ t e±it
194
2 Erste neue und grundlegende Konzepte
gegeben. Über eine ähnliche Rechnung wie im ungedämpften Fall lässt sich so die Lösung
v0 + γ x 0 −γ (t−t0 ) x0 cos((t − t0 )) + sin((t − t0 )) x(t) = e herleiten. Dabei rührt der Einfluss von x0 auf den Koeffizienten des Sinus daher, dass nun bei der Ableitung sowohl die Ableitungen der trigonometrischen Funktionen wie auch der Exponentialfunktion berücksichtigt werden müssen. 2. ω0 < γ wird als Kriechfall bezeichnet, und die Nullstellen lassen sich als λ± = −γ ± schreiben. Die beiden Lösungen sind deshalb durch x± (t) = e−γ t e±t gegeben. Um diese einfacher bearbeiten zu können, empfehlen sich die hyperbolischen Funktionen, die mittels e±t = cosh(t) ± sinh(t) ins Spiel gebracht werden können. Über eine ähnliche Rechnung wie im ungedämpften Fall wird die Lösung dann zu
v0 + γ x 0 −γ (t−t0 ) x0 cosh((t − t0 )) + sinh((t − t0 )) x(t) = e bestimmt. Da die Nullstellen im Schwingfall und im Kriechfall sich nur darin unterscheiden, ob vor dem die imaginäre Einheit steht oder nicht, kann die Lösung des Kriechfalls aus der des Schwingfalls konstruiert werden, indem die Substitution → i vorgenommen wird. Mit den Eigenschaften für komplexe Argumente der trigonometrischen Funktionen sin(ix) = i sinh(x)
cos(ix) = cosh(x)
aus Abschn. 2.1 ergibt sich dann aus der Lösung des Schwingfalls die Lösung des Kriechfalls. 3. ω0 = γ wird aperiodischer Grenzfall genannt. In diesem Fall ist = 0, und λ = −γ ist eine doppelte Nullstelle, daher besteht die Lösung aus der Exponentialfunktion und einem Polynom ersten Grades, was als ˜ + A) ˜ e−γ t x(t) = ( Bt geschrieben werden kann. Wegen der Anfangsbedingungen ist es wieder sinnvoll die Konstanten so umzudefinieren, dass im Exponenten und im Polynom das Argument (t − t0 ) steht und der Ansatz durch x(t) = (B(t − t0 ) + A) e−γ (t−t0 )
2.6
Lösen von Differentialgleichungen
195
gegeben ist. Die Ableitung wird durch x (t) = B e−γ (t−t0 ) −γ (B(t − t0 ) + A) e−γ (t−t0 ) = (B − γ A − γ B(t − t0 )) e−γ (t−t0 ) bestimmt. Mit Einsetzen der Anfangsbedingungen x(t0 ) = A = x0 x (t0 ) = B − γ A = v0 lässt sich die Lösung so zu x(t) = (x0 + (v0 + γ x0 )(t − t0 )) e−γ (t−t0 ) ermitteln. Da im aperiodischen Grenzfall = 0 ist, lässt sich dieses Ergebnis auch aus dem Schwingfall und dem Kriechfall erhalten, indem der Limes (t − t0 ) → 0 vollzogen wird. Wichtig ist dabei, dass γ (t − t0 ) nicht gleichzeitig gegen null geht, die Grenzwertbildung also durch eine Variation von erfolgt. Es wird dabei ausgenutzt, dass cos(0) = cosh(0) = 1 und lim
x→0
sin(x) sinh(x) = lim =1 x→0 x x
gelten. Um Letzteres zu verwenden, muss in den Ausdrücken mit dem Sinus bzw. dem Sinus hyperbolicus der Bruch mit (t − t0 ) erweitert werden, wodurch die lineare Zeitabhängigkeit der Klammer im aperiodischen Grenzfall ins Spiel kommt.
2.6.3
Grundlegende Aspekte von Green’schen Funktionen
Das Lösen von homogenen, linearen Differentialgleichungen mit konstanten Koeffizienten ist mit der im letzten Abschnitt dargestellten Methode ausgesprochen einfach. Auch das Lösen homogener linearer Differentialgleichungen mit nicht konstanten Koeffizienten ist meistens möglich mit einer Methode, die in Abschn. 4.1.6 vorgestellt wird. Häufig tritt in der Physik aber die Situation auf, dass inhomogene Differentialgleichungen gelöst werden müssen. Anschaulich ausgedrückt, liegt dies daran, dass homogene Gleichungen ein System beschreiben, das sich selbst überlassen wird, während inhomogene Gleichungen irgendwelche Anregungen darstellen. Anders ausgedrückt, für die Beschreibung von elektromagnetischen Wellen werden homogene Gleichungen benötigt, während für die Beschreibung des Sendens und Empfangens von elektromagnetischen Wellen, was technisch durch zeitlich variable Ströme erfolgt, inhomogene Gleichungen benötigt werden.
196
2 Erste neue und grundlegende Konzepte
Aus dem Grund, dass inhomogene Gleichungen physikalisch interessant sind, wird hier eine spezielle Methode dargestellt, wie partikuläre Lösungen für inhomogene Gleichungen gefunden werden können. Eine inhomogene lineare Differentialgleichung lässt sich als n
n
ak (x) f (k) (x) =
k=0
ak (x)
k=0
dn f (x) = g(x) dx n
schreiben. Dabei sind die ak (x) Funktionen, wobei an (x) nicht überall null sein darf. Die Differentialgleichung lässt sich dann auch durch das Anwenden des Differentialoperators
Dx(n)
=
n
ak (x)
k=0
dn dx n
(2.57)
auf die Funktion f (x) in der Form
Dx(n) f (x) = g(x) schreiben. Der Differentialoperator ist dabei so zu verstehen, dass er f (x) entgegennimmt und alle Ableitungen auf diese Funktion wirken. Mit den Erkenntnissen aus Abschn. 2.5 lässt sich diese Gleichung aber auch als
Dx(n)
∞ f (x) =
dx δ x − x g(x )
−∞
schreiben. Gäbe es nun die Möglichkeit die Delta-Funktion als die Anwendung des Differentialoperators Dx(n) auf eine Funktion G(x, x ) zu schreiben, so könnte mit der Rechnung
Dx(n)
∞ f (x) =
∞
dx δ x − x g(x ) = −∞
dx Dx(n) G(x, x )g(x )
−∞
= Dx(n)
∞
dx G(x, x )g(x )
−∞
der Differentialoperator vor das Integral gezogen werden, da dieser auf x aber nicht auf x wirkt, und der Ansatz ∞ f p (x) = −∞
dx G(x, x )g(x )
(2.58)
2.6
Lösen von Differentialgleichungen
197
für die partikuläre Lösung würde naheliegen. Die Funktion G(x, x ) wird Green’sche Funktion des Differentialoperators Dx(n) genannt und ist durch die Differentialgleichung Dx(n) G(x, x ) = δ x − x
(2.59)
definiert, da dieser Zusammenhang ausgenutzt werden musste, um die Dirac-Delta-Funktion ersetzen zu können. Sollte es sich um konstante Koeffizienten im Differentialoperator Dx(n) handeln, lässt sich die Green’sche Funktion sogar über die einfache Gleichung
Dx(n) G(x) = δ (x)
(2.60)
bestimmen. Die partikuläre Lösung ist dann durch ∞ f p (x) =
dx G(x − x )g(x )
(2.61)
−∞
gegeben. Der Grund dafür ist, dass bei konstanten Koeffizienten die Differentialgleichung sich nicht ändern wird, wenn eine Verschiebung der Koordinaten um einen festen Wert vorgenommen wird. Der Vorteil in Green’schen Funktionen besteht darin, dass diese für einen gegebenen Differentialoperator, also für ein gegebenes physikalisches System, nur ein einziges Mal bestimmt werden müssen.16 Die Integrale, die dann für die partikuläre Lösung zu berechnen sind, können teilweise mit analytischen oder aber auch mit numerischen Methoden ausgewertet werden. Für die meisten Differentialoperatoren sind in Tabellenwerken auch die Green’schen Funktionen hinterlegt. Dennoch soll in einem typischen Beispiel gezeigt werden, wie sich diese bestimmen lassen.
Beispiel Es soll wieder der gedämpfte harmonische Oszillator mit Inhomogenität betrachtet werden, dessen Differentialgleichung x (t) + 2γ x (t) + ω02 x(t) = f (t) (2)
lautet. Der Differentialoperator Dt
ist daher durch
16 Üblicherweise werden in die Green’sche Funktion Anfangs- bzw. Randbedingungen eingearbeitet.
In eindimensionalen Problemen gibt es oft physikalische Gründe, mit denen die Lösung auf eine einzige Green’sche Funktion reduziert werden kann. In höherdimensionalen Problemen, wie in der Elektrostatik, sind die Randbedingungen durch geometrische Anordnungen wie leitende Kugeln oder Platten gegeben, und für jede dieser geometrischen Anordnungen ist eine eigene Green’sche Funktion zu bestimmen.
198
2 Erste neue und grundlegende Konzepte
Dt(2) =
d2 d + ω02 + 2γ 2 dt dt
gegeben. Da die Koeffizienten alle konstant sind, genügt es die einfachere Gleichung
Dt(2) G(t) = G (t) + 2γ G (t) + ω02 G(t) = δ (t) zu lösen. Zu diesem Zwecke ist es hilfreich festzustellen, dass für t < 0 und t > 0 die Green’sche Funktion G(t) die homogene Lösung ist, die bereits im Abschn. 2.6.2 gefunden wurde. Offen bleiben die Anfangsbedingungen, die für G angesetzt werden müssen. Da alle homogenen Lösungen des harmonischen Oszillators wegen der Exponentialfunktion mit zunehmender Zeit gegen null streben und nur die Dirac-Delta-Funktion eine Anregung des Oszillators darstellt, kann davon ausgegangen werden, dass die Green’sche Funktion für t < 0 durch null gegeben ist. Gleiches gilt für die Ableitung von G. Da aber für t > 0 die Auswirkung der Anregung betrachtet werden muss, wird die Green’sche Funktion von null verschiedene Werte annehmen. Um einige Aussagen über die Stetigkeit und damit die Stetigkeitsbedingungen der Funktion zu erhalten, werden die physikalischen Gegebenheiten betrachtet. Das physikalische System des harmonischen Oszillators stellt beispielsweise ein Pendel dar. Die Green’sche Funktion beschreibt den Ort der Pendelmasse. Das Einwirken der Dirac-Delta-Funktion entspräche einem ruckartigen Anstoßen der Pendelmasse, wenn sie sich in Ruhe befindet. Da die Pendelmasse nicht plötzlich von Ort A zu Ort B teleportiert wird, sondern sich stetig durch den Raum bewegt, muss auch die Green’sche Funktion bei t = 0 stetig sein. Das bedeutet G(0) = 0. Die Geschwindigkeit des Pendels entspricht der Ableitung der Green’schen Funktion und kann sich ruckartig ändern. Um diese Änderung bestimmen zu können, wird die Differentialgleichung G (t) + 2γ G (t) + ω02 G(t) = δ (t) von −τ bis τ integriert. Geht τ gegen null, so kann der Sprung der Ableitung bei t = 0 bestimmt werden. Das Integral der Gleichung lässt sich zu τ
dt (G (t) + 2γ G
τ (t) + ω02 G(t))
−τ
=
dt δ (t) −τ
G (τ ) − G (−τ ) + 2γ (G(τ ) − G(−τ )) + ω02
τ dt G(t) = 1
−τ
bestimmen. Da die Funktion G(t) stetig ist, wird der zweite Term auf der linken Seite verschwinden. Der dritte Term verschwindet ebenfalls, da das Integral einer stetigen Funktion wieder stetig ist. Somit verbleibt
2.6
Lösen von Differentialgleichungen
199
G(0+) = G(0−) + 1 = 1 als Anschlussbedingung der Ableitung, wobei eingesetzt wurde, dass G(t) für negative t bereits null sein muss. Mit diesen Voraussetzungen sind die Bedingungen für die homogene Lösung als t0 = 0
G(0) = 0
G(0+) = 1
zu lesen. Damit G(t) für negative t null ist, wird an die homogene Lösung eine HeavisideTheta-Funktion anmultipliziert. Mit den Ergebnissen aus Abschn. 2.6.2 und den Ersetzungen x0 = 0, v0 = 1 und t0 = 0 ergibt sich ⎧ sin(t) ⎪ ω0 > γ ⎪ ⎨ G(t) = (t) e−γ t
sinh(t)
⎪ ⎪ ⎩t
ω0 < γ
ω0 = γ
als Green’sche Funktion des gedämpften harmonischen Oszillators in den drei möglichen Fällen. Die partikuläre Lösung wird dann durch ∞ xp (t) =
dt G(t − t ) f (t )
−∞
bestimmt. Die vollständige Lösung des harmonischen Oszillators wird durch eine Summe der homogenen und der partikulären Lösung x(t) = xh (t) + xp (t) berechnet. Da die Anfangsbedingungen x(t0 ) = x0
x (t0 ) = v0
nur über die Konstanten in der homogenen Lösung eingearbeitet werden, empfiehlt es sich, die Anfangsbedingungen nach xh (t0 ) und xh (t0 ) aufzulösen, womit sich die Ausdrücke xh (t0 ) = x0 − xp (t0 )
xh (t0 ) = v0 − xp (t0 )
ergeben. Wegen der Übersichtlichkeit wird t0 = 0 eingesetzt, die Lösungen mit t0 = 0 lassen sich aber durch die Ersetzung t → (t − t0 ) zurückerhalten. Für den harmonischen Oszillator ist die Lösung mit Inhomogenität durch
200
2 Erste neue und grundlegende Konzepte
x(t) = xp (t) ⎧ v0 −xp (0)+γ (x0 −xp (0)) ⎪ sin(t) ⎪ ⎨(x0 − xp (0)) cos(t) + v0 −xp (0)+γ (x0 −xp (0)) −γ t +e sinh(t) (x0 − xp (0)) cosh(t) + ⎪ ⎪ ⎩ x0 − xp (0) + [v0 − xp (0) + γ (x0 − xp (0))]t
ω0 > γ ω0 < γ ω0 = γ
gegeben. Es sollen nun zwei Inhomogenitäten betrachtet werden, deren partikuläre Lösung im Schwingfall bestimmt werden soll. 1. Als Inhomogenität wird f (t) =
p δ (t) m
betrachtet. Diese entspricht dem Anstoßen des harmonischen Oszillators zum Zeitpunkt t = 0 und wird daher als Kraftstoß bezeichnet. Der Oszillator kann dabei aber vorher bereits einer Anregung ausgesetzt gewesen sein und sich bereits in einem Schwingungszustand befunden haben; das hängt von den gewählten Anfangsbedingungen ab. Die partikuläre Lösung wird also durch das Integral ∞ xp (t) =
dt G(t − t )
−∞
=
p δ t m
p G(t) m
bestimmt, wobei die Eigenschaft der Dirac-Delta-Funktion ausgenutzt wurde. Damit ist die partikuläre Lösung einfach nur durch xp (t) = (t)
p sin(t) −γ t e m
gegeben. 2. Als Inhomogenität wird eine konstante Kraft f (t) = f 0 betrachtet. Damit ist für die partikuläre Lösung das Integral
2.6
Lösen von Differentialgleichungen
∞ xp (t) =
201
dt G(t − t ) f 0
−∞
=
f0
∞
dt t − t e−γ (t−t ) sin (t − t )
−∞
zu bestimmen. Zunächst bietet sich die Substitution τ = t − t an, mit der das Integral auf f0 xp (t) =
∞
dτ (τ ) e−γ τ sin(τ )
−∞
umgeschrieben werden kann. Die Substitution vertauscht dabei die obere und die untere Grenze, führt aber wegen dτ = −dt ein zusätzliches Minuszeichen ein, mit dem die Grenzen wieder zurückgetauscht werden können. Die Heaviside-Theta-Funktion ist nur eins, wenn τ positiv ist. Damit bleibt das Integral f0 xp (t) =
∞
dτ e−γ τ sin(τ )
0
zu lösen. Es zeigt sich bereits, dass die partikuläre Lösung nicht von t abhängen wird und daher konstant ist. Zum weiteren Rechnen bietet es sich an, den Sinus in seine Exponentialanteile aufzuspalten. Dann kann mittels der Rechnung f0 xp (t) = 2i
∞
dτ e−γ τ eiτ − e−iτ
0
∞ 1 f0 1 −γ τ +iτ −γ τ −iτ e e − = 2i −γ + i −γ − i 0
1 1 f0 1 1 f0 + = − =− 2i −γ + i γ + i 2i γ − i γ + i
f0 f0 γ + i 2i γ − i = = − 2 2i γ 2 + 2 γ + 2 2i γ 2 + 2 f0 = 2 γ + 2 die Lösung xp (t) =
f0 ω02
202
2 Erste neue und grundlegende Konzepte
ermittelt werden, wobei ausgenutzt wurde, dass im Schwingfall γ 2 + 2 = γ 2 + (ω02 − γ 2 ) = ω02 gilt. In diesem speziellen Fall hätte für die Differentialgleichung x (t) + 2γ x (t) + ω02 x(t) = f 0 auch geraten werden können, dass die partikuläre Lösung eine Konstante ist. Da dann xp (t) und xp (t) beide null wären, müsste ω02 xp (t) = f 0 gelten. Daraus lässt sich das Ergebnis direkt ablesen. Prinzipiell funktioniert diese Methode für alle Arten von Inhomogenitäten, die für t → ∞ nicht divergieren. Die entsprechenden Integrale lassen sich aber meist nur numerisch lösen.
2.6.4
Vereinfachen von Differentialgleichungen durch asymptotisches Verhalten
Eine besondere Methode um lineare Differentialgleichungen zu vereinfachen, wird häufig in der Quantenmechanik verwendet. Dabei werden Grenzwerte für Differentialgleichungen betrachtet, sodass einige Terme aus physikalischen Gründen vernachlässigt werden können. Dadurch werden die Differentialgleichungen meistens einfacher, und es kann das asymptotische Verhalten im betrachteten Grenzwert, z. B. weit entfernt von einem Punkt oder sehr nah an einer Singularität im Potential, bestimmt werden. Durch das Aufspalten der gesuchten Funktion in ein Produkt aus mehreren Funktionen lassen sich diese asymptotischen Verhalten in Extremen bereits als Faktoren einarbeiten. Zumeist besteht die restliche Aufgabe im Lösen der Differentialgleichungen, wobei sogenannte modulierende Polynome zu bestimmen sind.
Beispiele Als erstes Beispiel soll der quantenmechanische harmonische Oszillator betrachtet werden, dessen Differentialgleichung durch −
2 1 ψ (x) + mω02 x 2 ψ(x) = Eψ(x) 2m 2
2.6
Lösen von Differentialgleichungen
203
gegeben ist. Nach einer variablen Variablentransformation17 mω0 x u= ergibt sich auch du d d2 = 2 dx dx du
du d dx du
=
du dx
2
mω0 d2 d2 = du 2 du 2
als Ausdruck für die zweite Ableitung, wobei der vorletzte Schritt nur möglich ist, da eine Konstante ist. Damit kann die Gleichung auf18
du dx
2 mω0 1 2 ψ (u) + mω02 u ψ(u) = Eψ(u) 2m 2 mω0
2E − u 2 ψ(u) = 0 ⇒ ψ (u) + ω0 −
reduziert werden. Der Einfachheit halber wird die Konstante K =
2E ω0
eingeführt. Um die so gefundene Gleichung ψ (u) + K − u 2 ψ(u) = 0 zu lösen kann der Fall großer |u| betrachtet werden. Dort gewinnt der Term u 2 gegen die Konstante K , weswegen in diesem Grenzfall die zu lösende Gleichung ψ (u) − u 2 ψ(u) = 0 lautet. Die Gleichung zeigt, dass nach zweimaligem Ableiten ein Faktor x 2 an die Funktion multipliziert wird. Daher kann als erster Versuch die Lösung ψ(u) = exp ±αu 2 mit einem positiven α angesetzt werden. Die erste Ableitung wird durch ψ (u) = ±2αu exp ±αu 2 = ±2αuψ(u) 17 Ein Weg auf diese Transformation zu kommen ist, eine dimensionslose Variable erhalten zu wollen,
um das physikalische Problem in ein rein mathematisches umzuwandeln. Die einzigen dimensionsbehafteten Parameter des Systems sind m, ω0 und , die auf einfachste Weise zu einer inversen Länge zu kombinieren sind. 18 Mathematisch korrekt müsste hier ψ(x(u)) stehen, in der Physik ist es aber üblich den Bezeichner zu behalten und nur das neue Argument einzusetzen, sodass überall ψ(u) steht.
204
2 Erste neue und grundlegende Konzepte
gegeben, wodurch sich die zweite Ableitung zu ψ (u) = ±2αψ(u) ± 2αu(±2αu)ψ(u) = ±(2α ± 4α 2 u 2 )ψ(u) bestimmen lässt. Da große |u| betrachtet werden, kann der konstante Term wieder vernachlässigt werden, sodass ψ (u) ≈ 4α 2 u 2 ψ(u) gilt. Wenn α = 21 ist, erfüllt der Ansatz also die Differentialgleichung im Fall großer |u|. Die Lösung muss sich in diesem Bereich also durch ψ(u) = A e
u2 2
+B e−
u2 2
schreiben lassen. Aus physikalischen Gründen darf die Funktion ψ(u) für große |u| nicht divergieren, sodass nur e− der Ansatz
u2 2
ein sinnvolles asymptotisches Verhalten darstellt. Daher kann ψ(u) = h(u) e−
u2 2
getätigt werden. Die beiden Ableitungen ψ (u) = h (u) e−
u2 2
+h(u)(−u) e−
u2 2
ψ (u) = (h (u) − h(u) − uh (u)) e−
= (h (u) − uh(u)) e− u2 2
u2 2
+(h (u) − uh(u))(−u) e−
= (h (u) − 2uh (u) + (u 2 − 1)h(u)) e−
u2 2
u2 2
ergeben eingesetzt in die ursprüngliche Differentialgleichung (h (u) − 2uh (u) + (u 2 − 1)h(u)) e−
u2 2
+(K − u 2 )h(u) e−
(h (u) − 2uh (u) + (K − 1)h(u)) e
u2 2
2 − u2
=0 =0
die bestimmende Differentialgleichung h (x) − 2xh (x) + (K − 1)h(x) = 0 für h(x). Dabei wurde im letzten Schritt eine Variablenumbenennung u → x durchgeführt. Um diese Gleichung zu lösen wird eine Methode verwendet, die in Abschn. 4.1.6 besprochen wird. Dort wird dieses Problem auch als explizites Beispiel betrachtet. Die Lösungen sind die sogenannten Hermite-Polynome h n (x), die in verschiedenen Tabellenwerken nachzuschlagen sind.
2.6
Lösen von Differentialgleichungen
205
Als zweites Beispiel wird das Wasserstoffatom in seiner quantenmechanische Beschreibung betrachtet. Dazu muss die Differentialgleichung
2 1 d 2 l(l + 1) e2 1 2 d − r R(r ) + R(r ) = E R(r ) R(r ) − 2 2 2m r dr dr 2mr 4π ε0 r gelöst werden. R(r ) stellt den sogenannten radialen Teil der Wellenfunktion dar und ist verknüpft mit der Wahrscheinlichkeit das Elektron im Abstand r zum Kern zu finden. l ist eine natürliche Zahl oder null und hängt mit dem Bahndrehimpuls des Elektrons zusammen. e ist die (positive) elementare Ladung, während ε0 die elektrische Feldkonstante darstellt. E ist die Energie des Elektrons, und wie in der Quantenmechanik üblich werden für gebundene Zustände mit E < 0 nur bestimmte Werte für die Energie erlaubt sein. Zunächst bietet es sich an die Differentialgleichung zu vereinfachen, indem der Ableitungsausdruck im ersten Term
1 d 2 d r R(r ) r 2 dr dr vereinfacht wird. Dazu wird R(r ) als eine Funktion R(r ) =
u(r ) r
geschrieben, wodurch sich für die Ableitungen u r − u d R= dr r2 und 1 d r 2 dr
1 d 1 u (r ) 2 d r R(r ) = 2 u r − u = 2 (u r + u − u ) = dr r dr r r
ergibt. Eingesetzt in die Differentialgleichung, kann diese zu −
2 2 l(l + 1) e2 1 u (r ) + u(r ) = Eu(r ) u(r ) − 2m 2mr 2 4π ε0 r
vereinfacht werden. Nach der algebraischen Umformung u (r ) −
2m E l(l + 1) me2 1 u(r ) = − 2 u(r ) u(r ) + 2 2 r 4π ε0 2 r
206
2 Erste neue und grundlegende Konzepte
lassen sich die beiden reellen und positiven Konstanten 4π ε0 2 2m E λ= − 2 a0 = me2 einführen. a0 hat die Dimension einer Länge und heißt Bohr’scher Radius. Damit vereinfacht sich die Differentialgleichung zu u (r ) −
l(l + 1) 2 u(r ) = λ2 u(r ) u(r ) + r2 a0 r
und kann mit der Substitution x = λr
⇒
2 d2 2 d = λ dr 2 dx 2
auf die Differentialgleichung u (x) −
l(l + 1) 2 u(x) = u(x) u(x) + x2 λa0 x
für eine dimensionslose Variable x gebracht werden. Indem nun die beiden Grenzbereiche x → ∞ und x → 0 betrachtet werden, lassen sich die asymptotischen Verhalten der Lösung in diesen Fällen bestimmen. Für besonders große x werden die Terme mit 1/x und 1/x 2 verschwinden, sodass die Gleichung u (x) = u(x) verbleibt. Mit dem Exponentialansatz wird diese durch u(x) ∼ A ex +B e−x gelöst. Da für große x aus physikalischen Gründen die Funktion gegen null streben muss, kann nur das Verhalten e−x verbleiben. Damit ist das asymptotische Verhalten u(x) ∼ e−x für große Werte von x gefunden. Für kleine Werte von x wird der 1/x 2 -Term den Hauptbeitrag liefern, sodass die Gleichung u (x) −
l(l + 1) u(x) = 0 x2
zu lösen ist. Hier müssen die Lösungen geraten werden, doch sie lassen sich zu u(x) ∼ Ax l+1 + Bx −l bestimmen, da
2.6
Lösen von Differentialgleichungen
207
u (x) ∼ A(l + 1)x l − l Bx −l−1 u (x) ∼ Al(l + 1)x l−1 − l(−l − 1)Bx −l−2 = l(l + 1)
u(x) x2
gilt. Auch hier muss aus physikalischen Gründen die Funktion u(x) x für x → 0 endliche Werte annehmen. Dies ist nur für den Term x l+1 möglich, sodass das asymptotische Verhalten hier durch u(x) ∼ x l+1 bestimmt wird. Insgesamt lässt sich also der Ansatz u(x) = g(x)x l+1 e−x machen. Die zweite Ableitung lässt sich durch eine eher längere Rechnung zu
g (x) l + 1 l(l + 1) l +1 g (x) +2 −1 + u(x) +1−2 u (x) = g(x) g(x) x x2 x bestimmen, was eingesetzt in die ursprüngliche Differentialgleichung mit einer weiteren unschönen Rechnung die zu lösende Differentialgleichung
1 − (l + 1) g(x) = 0 xg (x) + 2g (x)(l + 1 − x) + 2 λa0 ergibt. Mit einer Methode, die in Abschn. 4.1.6 vorgestellt wird, hier aber nicht explizit durchgeführt werden soll, stellt sich heraus, dass die modulierenden Funktionen g(x) mit den zugeordneten Laguerre-Polynomen über g(x) = L 2l+1 n−l−1 (2x) zusammenhängen. Die Zahl n ist dabei eine natürliche Zahl, die mit den Konstanten λ und n über λ=
1 a0 n
verknüpft ist. Da λ mit der Energie zusammenhängt, sind die Energien auch über En = −
2 1 2ma02 n 2
208
2 Erste neue und grundlegende Konzepte
quantisiert. Ebenfalls fällt bei der Rechnung heraus, dass die Gleichung nur eine Lösung hat, wenn l < n ist. Für jedes l gibt es 2l + 1 Orbitale, die durch eine weitere Quantenzahl m bestimmt werden. Dies sorgt dafür, dass in der niedrigsten Schale nur 1 Orbital möglich ist, während in der zweiten Schale 4 = 1 + 3 Orbitale vorhanden sind und in der dritten Schale 9 = 1 + 3 + 5 Orbitale. Jedes Orbital kann doppelt besetzt werden. Damit sind in der ersten Schale 2 Zustände denkbar, in der zweiten Schale 8 Zustände, und in der dritten Schale sind 18 Zustände denkbar. Dieser Zusammenhang spiegelt die Struktur des Periodensystems der Elemente wider, welches in der ersten Periode nur 2 Hauptgruppen, in der zweiten und dritten Periode 8 Hauptgruppen und in der vierten und fünften Periode 8 Hauptgruppen und 10 Nebengruppen, also insgesamt 18 Gruppen kennt.19 Ab einem n von 4 kann l auch den Wert 3 annehmen, was insgesamt 16 = 1 + 3 + 5 + 7 Orbitalen mit 32 Zuständen entspricht. Im Periodensystem kommen ab der sechsten Periode die Reihen der Lanthanoide und Actinoide hinzu, mit denen eine Periode über insgesamt 32 Elemente verfügt.
2.6.5
Lösen von Differentialgleichungen – Formelsammlung
Lineare Differentialgleichungen erster Ordnung – Variation der Konstanten f (x) + a(x) f (x) = g(x) f (x0 ) = f 0 ⎛ x ⎞ ⎛ x ⎞ f p (x) = C(x) exp⎝− du a(u)⎠ f h (x) = C exp⎝− du a(u)⎠ x0
⎡ f (x) = ⎣ f 0 +
x
x0
⎛ w ⎞⎤ ⎛ x ⎞ dw g(w) exp⎝ du a(u)⎠⎦ exp⎝− du a(u)⎠
x0
x0
x0
Lineare Differentialgleichung mit konstanten Koeffizienten n
ak f (k) (x) = 0
f (x) = C eλx
⇒
p(λ) =
k=0
f i (x) = e
n k=0
λi x
oder
f i (x) = ri (x) e
λi x
⇒
!
ak λk = 0
f (x) =
Ci f i (x)
λi ; p(λi )=0
19 Das genaue Auffüllen der Schalen hängt dabei von den Hund’schen Regeln und im Besonderen
vom Madelung-Schema ab.
2.6
Lösen von Differentialgleichungen
209
Green’sche Funktionen
Dx(n) =
n
ak (x)
k=0
Dx(n) G(x, x )
dn dx n
Dx(n) f (x) = g(x)
=δ x−x
∞
f p (x) =
dx G(x, x )g(x )
−∞
ak (x) = const.
⇒
Dx(n) G(x)
∞ = δ (x)
f p (x) =
dx G(x − x )g(x )
−∞
Harmonischer Oszillator x (t) + ω02 x(t) = 0
x(t0 ) = x0 x (t0 ) = v0 v0 x(t) = x0 cos(ω0 (t − t0 )) + sin(ω0 (t − t0 )) ω0
⇒
Gedämpfter harmonischer Oszillator x (t) + 2γ x (t) + ω02 x(t) = 0 x(t0 ) = x0 x (t0 ) = v0 ⇒ ⎧ v0 +γ x0 ⎪ ⎪ ⎨x0 cos((t − t0 )) + sin((t − t0 )) x0 x(t) = e−γ (t−t0 ) x0 cosh((t − t0 )) + v0 +γ sinh((t − t0 )) ⎪ ⎪ ⎩x + (v + γ x )(t − t ) 0
0
0
0
=
|ω02 − γ 2 |
ω0 > γ ω0 < γ ω0 = γ
Angeregter gedämpfter harmonischer Oszillator x (t) + 2γ x (t) + ω02 x(t) = f (t) ∞ xp (t) =
dt G(t − t ) f (t ) −∞
x(0) = x0 x (0) = v0 ⎧ sin(t) ⎪ ⎪ ⎨ G(t) = (t) e−γ t sinh(t) ⎪ ⎪ ⎩t
x(t) = xp (t) ⎧ v0 −xp (0)+γ (x0 −xp (0)) ⎪ (x − x (0)) cos(t) + sin(t) ⎪ 0 p ⎨ + e−γ t (x0 − xp (0)) cosh(t) + v0 −xp (0)+γ (x0 −xp (0)) sinh(t) ⎪ ⎪ ⎩ x0 − xp (0) + [v0 − xp (0) + γ (x0 − xp (0))]t
ω0 > γ ω0 < γ ω0 = γ
ω0 > γ ω0 < γ ω0 = γ
Der allgemeine Vektorbegriff im mathematischen Sinne
Inhaltsverzeichnis 3.1 3.2 3.3
3.4
3.5
N -dimensionale reelle Vektoren im R N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . N -dimensionale komplexe Vektoren im C N . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der allgemeine Vektorbegriff – Begriffe und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1 Der Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2 Normen auf Vektorräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.3 Skalarprodukte auf Vektorräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.4 Gram-Schmidt-Verfahren, Operatoren und der duale Raum . . . . . . . . . . . . . . . . . . Beispiele zu allgemeinen Vektorräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Raum der quadratintegrablen Funktionen auf dem Intervall [−1, 1] . . . . . . . . . . 3.4.2 Raum der quadratintegrablen Funktionen auf dem Intervall (−∞, ∞) . . . . . . . . Formelsammlung – Verallgemeinerung des Vektorbegriffs im mathematischen Sinne . .
212 216 220 220 222 224 226 236 236 244 246
Die folgenden Unterabschnitte behandeln Konzepte, die zwar in der Schule nicht eingeführt wurden, aber stark damit verwandt sind, und stellen ein breiter gefasstes Verständnis von Vektoren dar. Es soll der Vektorbegriff verallgemeinert werden. Dabei werden zunächst zwei besondere Beispiele, die N -dimensionalen reellen und komplexen Vektoren, betrachtet, in denen die jeweilige Neuerung gegenüber des Vektorbegriffs in der Schule dargestellt wird. Anschließend wird aus diesen Erkenntnissen abgeleitet, wie sich ein allgemeiner Vektorbegriff definieren lässt. Dies ist im Besonderen für die Quantenmechanik von Bedeutung. Hier finden Konzepte aus der analytischen Geometrie Anwendung, da eine besondere Klasse von Funktionen als Vektoren aufgefasst werden kann, die in der Quantenmechanik dann zur Beschreibung der Aufenthaltswahrscheinlichkeit von Teilchen dienen.
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_3
211
3
212
3.1
3 Der allgemeine Vektorbegriff im mathematischen Sinne
N-dimensionale reelle Vektoren im R N
Unter Umständen kann es sinnvoll sein Probleme auch in höheren Dimensionen zu behandeln. Dazu soll hier zunächst die Verallgemeinerung auf N Dimensionen erfolgen. Ein Vektor ist in N Dimensionen ein aus N Komponenten bestehendes Objekt, bei dem es auf die Reihenfolge der Komponenten ankommt. Da die Komponenten reelle Zahlen sind und es N Stück gibt, wird die Menge der Vektoren als R N bezeichnet. Die Darstellung erfolgt wieder über einen Spaltenvektor der Form ⎛
⎞ v1 ⎜ v2 ⎟ ⎜ ⎟ v = ⎜ . ⎟. ⎝ .. ⎠
(3.1)
vN Die beiden grundlegenden Rechenregeln werden hier komponentenweise übertragen. Das heißt, die Addition und die Multiplikation ⎛
⎞ v1 + w1 ⎜ v2 + w2 ⎟ ⎜ ⎟ v +w ≡ ⎜ ⎟ .. ⎝ ⎠ . vN + wN
⎛
⎞ αv1 ⎜ αv2 ⎟ ⎜ ⎟ α ·v ≡ ⎜ . ⎟ ⎝ .. ⎠ αv N
(3.2)
geschehen für jede Komponente. Auch in N Dimensionen hat der Vektor v einen Betrag. Beim Übergang von zwei auf drei Dimensionen musste zum Betragsquadrat v12 + v22 des Vektors nur das Quadrat der dritten Komponente hinzugefügt werden. Es spricht nichts dagegen, dieses Muster weiterzuführen und so den Betrag N |vv | =
vi2 (3.3) i=1
zu erhalten. Somit erfüllt der Betrag eines Vektors nach wie vor die Dreiecksungleichung w| |vv + w | ≤ |vv | + |w und zeigt dasselbe Verhalten unter Streckung |λvv | = |λ||vv |. Die Richtung eines Vektors ist wieder durch einen Vektor bestimmt, der auf die N dimensionale Einheitskugel zeigt. Dieser Vektor nˆ v =
v |vv |
3.1
N -dimensionale reelle Vektoren im R N
213
hat den Betrag eins. Das Skalarprodukt lässt sich auch verallgemeinern v ·w ≡
N
w | cos (φ) , vi wi = |vv ||w
(3.4)
i=1
indem über alle neuen Komponenten summiert wird. Die letzte Gleichheit kann dabei so begründet werden, dass zwei Vektoren auch in N Dimensionen nach wie vor eine zweidimensionale Ebene aufspannen. Daher kann das Koordinatensystem immer so gedreht werden, dass v und w in der x y-Ebene liegen. Dort galt aber genau der Zusammenhang, der das Skalarprodukt mit den Beträgen und dem Winkel verknüpft. Durch diese Definition gilt auch weiterhin für den Betrag v 2 ≡ v · v = |vv |2 . Der zu w parallele Anteil von v kann demnach über
w w · v = nˆ w (nˆ w · v ) v = w | |w w| |w gefunden werden. Der senkrechte Anteil ist dann durch v ⊥ = v − v = v − nˆ w (nˆ w · v ) gegeben. n ≤ N Vektoren heißen dann linear unabhängig, wenn sie jeweils nicht der Nullvektor sind und aus n
λi v i = 0
i=1
folgt, dass alle λi null sein müssen. Im Besonderen sind orthogonale Vektoren linear unabhängig, was sich wie oben zeigen lässt. Eine Orthonormalbasis ist wieder eine Menge von N Vektoren, die es vermögen jeden anderen Vektor darzustellen, paarweise orthogonal sind und alle den Betrag eins haben. Sie werden wieder mit eˆ i gekennzeichnet, und es gilt eˆ i ·eˆ j = δi j . Damit lässt sich zeigen, dass ein Vektor geschrieben werden kann als v=
N
eˆ i (ˆe i · v ),
i=1
was die i-te Komponente von v als eˆ i · v entlarvt. Um aus n ≤ N linear unabhängigen Vektoren v 1 , . . . , v n eine Menge an n senkrechten Vektoren zu konstruieren, kann das Gram-Schmidt-Verfahren angewendet werden. Es sollen hierbei die Vektoren direkt normiert werden. Auf diese Weise ergibt sich im Falle n = N eine Orthonormalbasis des R N , da jeder beliebige Vektor als Linearkombination der gefundenen Vektoren geschrieben werden kann und die jeweiligen Vektoren nicht nur orthogonal, also senkrecht aufeinander stehen, sondern sie zusätzlich den Betrag eins haben. Der erste Vektor
214
3 Der allgemeine Vektorbegriff im mathematischen Sinne
w1 =
v1 |vv 1 |
ist als normierter Vektor v 1 gegeben. Für den zweiten Vektor wird von v 2 ausgegangen. Damit dieser senkrecht auf w 1 steht, müssen die parallelen Anteile bezüglich w 1 abgezogen werden, und über w1 · v 2) u 2 = v 1 − w 1 (w ergibt sich durch Normierung w2 =
u2 |uu 2 |
direkt der zweite Vektor. Für den dritten Vektor wird von v 3 ausgegangen. Hier müssen nicht nur die parallelen Anteile bezüglich w 1 , sondern auch die bezüglich w 2 abgezogen werden. Da w 1 und w 2 senkrecht aufeinander stehen, können sich diese Subtraktionen nicht gegenseitig beeinflussen, und es entsteht w 1 · v 3 ) − w 2 (w w2 · v 3) u 3 = v 3 − w 1 (w als Kandidat für den dritten Vektor. Dieser muss noch über w3 =
u3 |uu 3 |
normiert werden. Allgemein lässt sich für den j-ten Vektor der Ansatz machen uj =vj +
j−1
λi w i .
i=1
Da dieser Vektor senkrecht auf den zuvor gefundenen Vektoren w 1 , . . . , w j−1 stehen soll, müssen die Skalarprodukte von u j mit diesen Vektoren verschwinden. Da die Vektoren w 1 , . . . , w j−1 paarweise zueinander orthogonal stehen, gilt 0 = wk · u j = wk · v j +
j−1
λi w k · w i = w k · v j +
i=1
j−1
λi δik
i=1
= w k · v j + λk . Dabei wurde ausgenutzt, dass δik null ist, außer wenn i = k. Damit lässt sich der Koeffizient wk · v j λk = −w
3.1
N -dimensionale reelle Vektoren im R N
215
bestimmen. Da der Vektor w k ein beliebiger Vektor der bereits gefundenen senkrechten Vektoren war, gilt dies für alle der bereits gefundenen Vektoren, und es sind alle Koeffizienten bekannt. Der Vektor uj =vj −
j−1
wi · v j ) w i (w
i=1
muss normiert werden, um den j-ten Vektor wj =
uj |uu j |
zu finden. Es soll hier ein besonderes Augenmerk auf den zweiten Term in der Bestimmungsgleichung von u j gelegt werden. Der Term j−1
wi · v j ) w i (w
i=1
projiziert die parallelen Anteile von v j bezüglich der gefundenen Vektoren w 1 , . . . , w j−1 heraus und summiert diese auf. Das heißt, es werden die Vektoranteile von v j genommen, die in dem von den w 1 , . . . , w j−1 aufgespannten j − 1-dimensionalen Unterraum1 liegen. Im Falle von j = 3 spannen die Vektoren w 1 und w 2 beispielsweise eine Ebene auf. Im Falle j = 4 spannen die Vektoren w 1 , w 2 und w 3 einen dreidimensionalen Raum auf und so weiter. Der einzige Anteil, der von v j verbleibt, ist derjenige, der senkrecht darauf ist. Damit handelt es sich aber bei der Abbildung Pˆ j−1 : R N → R N v →
j−1
wi · v ) w i (w
i=1
um eine Abbildung, welche die Teile von v herausprojiziert, die im j − 1-dimensionalen Unterraum liegen. Bei solch einer Abbildung wird von einem Projektionsoperator gesprochen. Da j beliebig war, kann auch der Projektionsoperator bezüglich jedes anderen Unterraums betrachtet werden. Im Folgenden soll ein beliebiges n betrachtet werden. Statt Pˆn (vv ) wird auch einfach Pˆn v geschrieben. Der Projektionsoperator erfüllt die Eigenschaft, dass er sein eigenes Quadrat ist. Diese Eigenschaft wird als idempotent bezeichnet. Um dies zu zeigen, wird ein beliebiger Vektor v betrachtet, und die Projektion zweimal durchgeführt. Die Rechnung
1 Für den Anfang ist es hilfreich sich diese Projektion auf den Unterraum stets wie eine Projektion
eines dreidimensionalen Vektors auf eine Ebene vorzustellen.
216
3 Der allgemeine Vektorbegriff im mathematischen Sinne
Pˆn ( Pˆn v ) = Pˆn
n
wi · v ) = w i (w
i=1
=
n
n
wj wj ·
j=1
n n w j · w i )(w wi · v ) = wj (w wj
j=1
i=1
j=1
n
wi · v ) w i (w
i=1 n
wi · v ) = δi j (w
i=1
n
w j · v) w j (w
j=1
= Pˆn v zeigt dann, dass die zweimalige Anwendung von Pˆn auf v dasselbe Ergebnis wie eine einmalige Anwendung liefert. Es wurde dabei ausgenutzt, dass die Vektoren w 1 , . . . , w n senkrecht aufeinander stehen und dass das Skalarprodukt linear in seinen Argumenten ist. Anschaulich lässt sich die Idempotenz dadurch verstehen, dass nach der ersten Projektion auf den Unterraum nur noch die Teile im Unterraum vorhanden sind. Bei einer zweiten Projektion ändert sich nichts. Dieser Umstand wird als Operatoridentität auch als Pˆn2 = Pˆn geschrieben. Damit wird ausgedrückt, dass bei Anwendung auf jeden beliebigen Vektor dieser Zusammenhang gilt. Im Falle, dass n = N ist, wird der Vektor einfach nur durch die Basis PˆN v =
N
wi · v ) = w i (w
i=1
N
eˆ i (ˆe i · v ) = v
i=1
dargestellt. Das heißt, PˆN lässt jeden beliebigen Vektor v unverändert. Eine Abbildung, die ein Objekt unverändert lässt, wird als Identität bezeichnet. In der Operatorsprache wird von dem Einheitsoperator 1 : RN → RN v →
N
eˆ i (ˆe i · v ) = v
i=1
gesprochen. Dieser Zusammenhang findet beispielsweise in der Quantenmechanik Anwendung, wofür aber auch zusätzlich Konzepte des verallgemeinerten Vektorbegriffs angewendet werden.
3.2
N-dimensionale komplexe Vektoren im C N
Es ist möglich und häufig auch hilfreich, bisweilen sogar unvermeidbar, Vektoren zu definieren, deren Komponenten keine reellen, sondern komplexe Zahlen sind. Der N -dimensionale Raum dieser Vektoren wird dann als C N bezeichnet. Ein komplexer Vektor v hat dann die
3.2
N -dimensionale komplexe Vektoren im C N
217
Form ⎛
⎞ a1 + ib1 ⎜ a2 + ib2 ⎟ ⎜ ⎟ v =⎜ ⎟. .. ⎝ ⎠ . a N + ib N
(3.5)
Daneben lässt sich der komplex konjugierte Vektor ⎛
⎞ a1 − ib1 ⎜ a2 − ib2 ⎟ ⎜ ⎟ v∗ = ⎜ ⎟ .. ⎝ ⎠ . a N − ib N
(3.6)
definieren, bei welchem die komplexe Konjugation komponentenweise durchgeführt wird. Die Addition und Multiplikation gehen nach wie vor komponentenweise vonstatten. Das Besondere bei der Multiplikation ist dabei, dass die Koeffizienten nun auch komplexe Zahlen sein können. Der Betrag eines solchen komplexen Vektors soll dadurch gegeben sein, dass komponentenweise der Betrag der komplexen Zahlen gebildet wird und diese quadratisch addiert werden. Der Betrag eines N -dimensionalen komplexen Vektors v (3.7) |vv | = (a12 + b12 ) + (a22 + b22 ) + · · · + (a 2N + b2N ) sieht dabei aus wie der Betrag eines 2N -dimensionalen Vektors.2 Dadurch erfüllt auch diese Definition des Betrags die Dreiecksungleichung w| |vv + w | ≤ |vv | + |w und das Verhalten |λvv | = |λ||vv | unter Streckung mit einem komplexen Skalar λ ∈ C, was in Abschn. 3.3 noch explizit gezeigt wird. Für komplexe Vektoren soll auch ein Skalarprodukt definiert werden. Für diese Verallgemeinerung soll auch eine neue Notation w vv |w
2 Es lassen sich N -dimensionale komplexe Vektoren tatsächlich in den 2N -dimensionalen Raum
einbetten, sind dann aber wesentlich unhandlicher.
218
3 Der allgemeine Vektorbegriff im mathematischen Sinne
für das Skalarprodukt eingeführt werden. Die anschauliche Interpretation über den Winkel zwischen den Vektoren ist dabei aber nicht möglich, denn was ist der Winkel eines komplexen Vektors beispielsweise mit der x-Achse? Eine andere Eigenschaft des Skalarprodukts war es aber, dass das Betragsquadrat mit dem Skalarprodukt eines Vektors mit sich selbst verbunden war. Soll diese Eigenschaft übertragen werden, so ist der naive Ansatz w naiv = vv |w
N
vi wi
i=1
nicht sinnvoll. Denn auf diese Weise gilt vv |vv naiv = =
N
vi vi i=1 a12 − b12
= (a1 + ib1 )(a1 + ib1 ) + · · · (a N + ib N )(a N + ib N ) + 2ia1 b1 + · · · + a 2N − b2N + 2ia N b N
für das Skalarprodukt von v mit sich selbst. Da dies aber das Betragsquadrat des Betrags von v sein soll, muss es sich um eine nicht negative reelle Zahl handeln. Der Imaginärteil wird sich für allgemeine Vektoren v nicht zu null addieren. Darüber hinaus können sich im Realteil die Anteile zu negativen Zahlen addieren. Würde dahingegen komponentenweise mit dem komplex Konjugierten multipliziert werden, so würden sich die komponentenweisen Beträge ergeben. Es ist Konventionssache, welcher der beiden Vektoren komplex konjugiert wird, und es wird hier die Konvention w ≡ vv |w
N
vi∗ wi
(3.8)
i=1
gewählt.3 Eine wichtige Beobachtung für die in Abschn. 3.3 durchgeführte Verallgemeinerung ist dabei, dass unter komplexer Konjugation der Zusammenhang w ∗ = vv |w
N i=1
∗ vi∗ wi
=
N
w |vv vi wi∗ = w
(3.9)
i=1
auftritt. Durch komplexe Konjugation des Skalarprodukts werden somit die Argumente des Skalarprodukts vertauscht. Mit Definition (3.8) gilt dann auch
3 Das ist die in der Physik übliche Konvention, während in der Mathematik teilweise die genau
entgegengesetzte Konvention, betreffend der Wahl des zu konjugierenden Vektors, Anwendung findet.
3.2
N -dimensionale komplexe Vektoren im C N
vv |vv = =
N
219
vi∗ vi = (a1 + ib1 )∗ (a1 + ib1 ) + · · · (a N + ib N )∗ (a N + ib N )
i=1 a12 + b12
+ · · · + a 2N + b2N ,
was mit dem Betragsquadrat von v übereinstimmt. Der Zusammenhang |vv | = vv |vv konnte damit verallgemeinert werden. Eine Besonderheit im Umgang mit dem komplexen Skalarprodukt ist nun, wie Koeffizienten herausgezogen werden. Dazu werden die beiden Skalarprodukte mit den komplexen Vektoren v , w und u und den komplexen Koeffizienten α und β, w |uu = αvv + βw
N
(αvi + βwi )∗ u i = α ∗
i=1
N
vi∗ u i + β ∗
i=1
N
wi∗ u i
i=1
w |uu = α ∗ vv |uu + β ∗ w w + βuu = vv |αw
N
vi∗ (αwi + βu i ) = α
i=1
N
vi∗ wi + β
i=1
N
vi∗ u i
i=1
w + βvv |uu = αvv |w
betrachtet. Es wird klar, dass beim Herausziehen eines Koeffizienten aus dem ersten Argument der Koeffizient komplex konjugiert werden muss, während dies beim Herausziehen aus dem zweiten Argument nicht der Fall ist. Diese Eigenschaft wird als Sesquilinearität4 bezeichnet. Es kann nach wie vor Vektoren geben, deren gemeinsames Skalarprodukt uu |vv verschwindet. Diese Vektoren sind zwar im eigentlichen Sinne des Wortes nicht senkrecht aufeinander, dennoch ist diese Beziehung zwischen den Vektoren besonders und nützlich. Daher wird sie weiterhin mit orthogonal bezeichnet, und alle Aussagen, die über senkrecht zueinander stehende Vektoren getroffen wurde, können auch auf orthogonal zueinander stehende (komplexe) Vektoren getroffen werden. Im Besonderen können weiterhin über das Gram-Schmidt-Verfahren vollständige Orthonormalbasen konstruiert werden. Es gilt dabei für n linear unabhängige Vektoren v 1 , . . . , v n , dass die Vektoren der Orthonormalbasis durch w1 =
v1 |vv 1 |
wj =
uj |uu j |
uj = vj −
j−1
w i (w wi · v j )
j >1
i=1
gegeben sind. Eine Projektion auf den n-dimensionalen Unterraum ist durch 4 „Sesqui“ bedeutet anderthalbfach und hängt damit zusammen, dass das Skalarprodukt auf ein Argu-
ment bezogen linear und auf das zweite bis auf die komplexe Konjugation linear, also nur halblinear ist.
220
3 Der allgemeine Vektorbegriff im mathematischen Sinne
Pˆn : C N → C N v →
n
w i |vv w i w
i=1
gegeben, und es gilt nach wie vor die Idempotenz Pˆn2 = Pˆn .
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
Bisher wurden zwei sehr konkrete Verallgemeinerungen betrachtet. Die Idee für eine große Verallgemeinerung liegt nun darin, die vorher implizit vorhandenen und essenziellen Eigenschaften zu nehmen und allgemein zu formulieren. Dabei sollen zuerst die Begrifflichkeiten geklärt werden und dann im nächsten Abschn. 3.4 zwei weitere sehr konkrete Beispiele gebracht werden.
3.3.1
Der Vektorraum
Zuvor gab es beispielsweise immer eine Menge V von Objekten, die als Vektoren bezeichnet wurden. Diese waren der R3 , R N oder C N . Darüber hinaus gab es auch stets eine Menge von Zahlen K, mit denen die Vektoren multipliziert wurden. Diese waren R oder C. Da im Folgenden nicht mehr über Tupel von Zahlen geredet werden soll, werden die Vektoren nicht mehr durch einen fetten Buchstaben dargestellt, sondern sie sollen durch |v dargestellt werden.5 Dabei ist v der Bezeichner, der den Namen des betrachteten Elements darstellt. |· zeigt hingegen an, dass es sich um ein Element der Menge V handelt, ähnlich wie es das Darstellen des Bezeichners in fetten Buchstaben für Elemente von R3 , R N oder von C N getan hat. Zwischen den Vektoren gab es eine Addition, die zwei Vektoren auf einen dritten Vektor +:V ×V →V abgebildet hat. Diese wird als innere Verknüpfung bezeichnet, da sie nur Elemente aus derselben Mengen miteinander verknüpft. Es gab außerdem eine Multiplikation, bei der ein Paar aus einer Zahl und einem Vektor auf einen Vektor ·:K×V → V abgebildet wurde. Diese wird als äußere Verknüpfung bezeichnet, da sie Elemente aus unterschiedlichen Mengen miteinander verknüpft. 5 Diese Darstellungsform ist die übliche Darstellung von Vektoren in der Quantenmechanik und wird
als Dirac-Ket-Schreibweise bezeichnet.
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
221
Es bleibt jedoch eine offene Frage. Die Zahlen aus K verfügen selbst über eine Addition und eine Multiplikation. Was gilt für diese? Zunächst einmal sind Multiplikation und Addition in der Menge der Zahlen K abgeschlossen. Das heißt, es kann durch Addition oder Multiplikation nie ein Element erreicht werden, dass nicht in der Menge liegt. So ist beispielsweise die Menge {0, 1} unter Multiplikation zwar abgeschlossen, nicht jedoch unter Addition, denn 1 + 1 = 2. Die Addition von reellen und komplexen Zahlen • • • •
ist assoziativ, die Klammersetzung ist also beliebig (a + b) + c = a + (b + c), hat ein neutrales Element, es gibt also eine 0, sodass für ein beliebiges a gilt a + 0 = a, hat zu jedem Element a ein inverses Element b, sodass a + b = 0, ist kommutativ, die Reihenfolge ist also beliebig a + b = b + a.
Die Multiplikation von reellen und komplexen Zahlen • • • •
ist assoziativ, die Klammersetzung ist also beliebig (a · b) · c = a · (b · c), hat ein neutrales Element, es gibt also eine 1, sodass für ein beliebiges a gilt 1 · a = a, hat zu jedem Element a ein neutrales Element b, sodass a · b = 1, ist kommutativ, die Reihenfolge ist also beliebig a · b = b · a.
Außerdem gibt es ein Distributivgesetz a · (b + c) = a · b + a · c, das eine Verbindung zwischen der Addition und der Multiplikation herstellt. Hat eine Menge von Zahlen K abgeschlossene Verknüpfungen + und ·, die diese Eigenschaften erfüllen, so wird das Tupel (K, +, ·) als Körper bezeichnet. Beispielsweise sind auch die rationalen Zahlen (Q, +, ·) ein Körper. Dabei ist klar, dass alle Eigenschaften der Multiplikation und Addition sowie das Distributivgesetz erfüllt sind, da Q ⊂ R ist. Die Abgeschlossenheit der Addition ist auch klar, denn Zahlen aus R, die nicht in Q liegen, können nicht als Summe von zwei rationalen Zahlen geschrieben werden und ebenso wenig als Produkt. Es gibt also beispielsweise keine rationalen Zahlen p und q mit p + q = π oder p · q = π . Was für Eigenschaften gelten nun bei Vektoren für die innere und äußere Verknüpfung? Die Addition war hier • • • • •
abgeschlossen, assoziativ, hatte ein neutrales Element, das im Folgenden mit 0 bezeichnet werden soll,6 hatte ein inverses Element, das im Folgenden mit − |v bezeichnet werden soll, und war kommutativ.
6 Die Bezeichnung |0 wird vermieden, da es in der Quantenmechanik üblich ist, den Grundzustand
mit |0 darzustellen, und eine Verwechslung mit dem Nullvektor ausgeschlossen werden soll.
222
3 Der allgemeine Vektorbegriff im mathematischen Sinne
Für die äußere Verknüpfung vor allem im Zusammenspiel mit der Multiplikation galt: • Die Klammersetzung war beliebig (ab) · |v = a · (b · |v ). • Es gab ein Distributivgesetz bei der Addition von zwei Zahlen (a+b)·|v = a·|v +b·|v . • Es gab ein Distributivgesetz bezüglich der inneren Verknüpfung a · (|u + |v ) = a · |u + b · |v . • Das neutrale Element der Multiplikation in den Zahlen bildet jeden Vektor in der äußeren Verknüpfung auf sich selbst ab, 1 · |v = |v . Das Tupel (V , K, +, ·) aus der Menge der Vektoren, der Menge der Zahlen und der inneren sowie äußeren Verknüpfung heißt dann Vektorraum.
3.3.2
Normen auf Vektorräumen
Ein weiterer Begriff, der für Vektoren von Bedeutung war, war die Länge oder der Betrag eines Vektors. Dieser wird in allgemeiner Form als die Norm eines Vektors |v mit || |v || bezeichnet. Der Betrag erfüllt dabei die Eigenschaften: • Nicht negative Zahlen, also nur Zahlen aus dem Intervall [0, ∞) waren mögliche Beträge. • Der Betrag konnte nur null sein, wenn der Nullvektor, also das neutrale Element bezüglich der inneren Verknüpfung betrachtet wurde. Andererseits war der Betrag der betrachteten Nullvektoren stets null. • Wurde ein Vektor durch die äußere Verknüpfung gestreckt, so wurde der Betrag des Vektors um den Betrag des entsprechenden Koeffizienten verlängert. • In der geometrischen Interpretation ließen sich stets Parallelogramme zeichnen. Daraus ist klar, dass die Summe der Beträge zweier Vektoren größer oder gleich des Betrags der Summe der Vektoren ist. Anders ausgedrückt, hängt dies damit zusammen, dass eine gerade Linie die kürzeste Verbindung zwischen zwei Punkten darstellt. Diese Eigenschaften sollen benutzt werden, um einen abstrakteren Begriff der Norm einzuführen. Diese wird als eine Abbildung aufgefasst, die Vektoren auf das Intervall [0, ∞) abbildet. In mathematischer Notation wird dies durch || · || : V → [0, ∞) dargestellt. Dabei muss diese Abbildung die folgenden drei Eigenschaften erfüllen: 1. Die Norm ist null genau dann, wenn der Nullvektor betrachtet wird: || |v || = 0 ⇔ |v = 0.
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
223
2. Koeffizienten können herausgezogen werden, ||α · |v || = |α| · || |v ||. Der Betrag um den Koeffizienten α wird benötigt, da es sich hier beispielsweise um eine komplexe Zahl handeln könnte, die Norm aber eine nicht negative reelle Zahl sein soll. 3. Es soll auch allgemein die Dreiecksungleichung gelten: || |v + |u || ≤ || |v || + || |u ||. Die Definition des Betrags für komplexe Vektoren erfüllt dabei diese Kriterien. Dazu seien nun v und w komplexe dreidimensionale Vektoren. Der Betrag und damit die Norm eines komplexen Vektors von C N waren als N N ∗
vi vi =
|vi |2 ||vv || = i=1
i=1
definiert. Da auf der rechten Seite die Summe von Betragsquadraten von komplexen Zahlen betrachtet wird, kann die Norm nur reelle nicht negative Zahlen zum Ergebnis haben. Außerdem kann die Summe nur dann null sein, wenn alle drei Komponenten null sind. Damit muss es sich aber bereits um den Nullvektor handeln. Also folgt aus einer verschwindenden Norm das Vorliegen des Nullvektors. Andererseits ist jeder Summand null, wenn der Nullvektor betrachtet wird, also folgt aus der Betrachtung des Nullvektors eine verschwindende Norm. Damit ist die erste Eigenschaft erfüllt. Wird das komplexe Skalar α betrachtet, so ist die i-te Komponente des gestreckten Vektors durch (αvv )i = αvi gegeben. Damit wird die Norm des gestreckten Vektors zu N N N N ∗
∗ ∗ 2 2 (αvi ) (αvi ) = α αvi vi = |α| |vi | = |α|
|vi |2 ||αvv || = i=1
i=1
i=1
i=1
= |α|||vv ||. Dabei wurde ausgenutzt, dass α nicht von i abhängt und aus der Summe herausgezogen werden kann. Für die dritte Eigenschaft wird das Quadrat der essenziellen Bedingung ||vv + u ||2 ≤ ||vv ||2 + ||uu ||2 + 2||vv || · ||uu ||
224
3 Der allgemeine Vektorbegriff im mathematischen Sinne
betrachtet. Der Term auf der linken Seite ||vv + u ||2 =
N N (vi + u i )∗ (vi + u i ) = |vi |2 + |u i |2 + vi∗ u i + u i∗ vi i=1
=
N i=1
i=1
|vi | + 2
N
|u i | + 2 Re 2
i=1
N
u i∗ vi
i=1
unterscheidet sich von dem Term auf der rechten Seite ||vv ||2 + ||uu ||2 + 2||vv || · ||uu || =
N
|vi |2 +
i=1
N
|u i |2 + 2||vv || · ||uu ||
i=1
nur im jeweils letzten Term. Damit muss ein Zusammenhang zwischen diesen beiden Termen festgestellt werden. Im Term der rechten Seite ||vv ||·||uu || werden nur die Beträge der Vektoren multipliziert. Da der Betrag einer jeden Komponente kleiner oder gleich dem Betrag des Vektors sein muss, wird der Term auf der linken Seite insgesamt kleiner sein als der Term der rechten Seite. Nicht nur kann der Term der linken Seite höchstens so groß werden wie der Term der rechten Seite, er könnte beispielsweise auch negative Werte annehmen. Mit diesem Zusammenhang wird auch klar, dass die Dreiecksungleichung gilt. Eine Schlussbemerkung sollte hier sein, dass im mathematischen Sinne über Normen auf einem Vektorraum bestimmte Klassen von Vektorräumen definiert werden. Die wichtigste Klasse ist dabei wohl die Klasse der Banach-Räume,7 in deren Klasse typischerweise die in der Physik betrachteten Vektorräume eingeordnet werden können. Dies hat den Hintergrund, dass in Banach-Räumen garantiert ist, dass unendliche Summen von Vektoren einen Vektor des betrachteten Raums bilden. So lassen sich auch unendliche Linearkombinationen einer Basis betrachten, ohne den Vektorraum zu verlassen.
3.3.3
Skalarprodukte auf Vektorräumen
Auch wenn die Anschaulichkeit von senkrechten Vektoren schon bei komplexen Vektoren verloren ging, konnte das Skalarprodukt dahingehend verallgemeinert werden, dass das Einführen des Begriffs der Orthogonalität alle Vorteile behalten hat. Dabei war zu sehen, dass das Skalarprodukt zwei Vektoren entgegennimmt und diese auf eine komplexe Zahl, also ein Element des Körpers abbildet. Dies wird mathematisch durch ·|· : V × V → K notiert. Es gab dabei die Eigenschaften: 7 Es wird dabei eine Aussage über die Konvergenz von sogenannten Cauchy-Folgen unter der betrach-
teten Norm getroffen.
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
225
1. Das Tauschen der Argumente führt zu einer komplexen Konjugation v|u = u|v ∗ . 2. Das Skalarprodukt ist linear im rechten Argument w| (α |u + β |w ) = αw|u + βw|v . 3. Das Skalarprodukt eines Vektors mit sich selbst ist eine reelle Zahl und positiv, wenn der Nullvektor nicht betrachtet wird, v|v > 0
|v = 0
v|v = 0
|v = 0.
Damit heißen zwei Vektoren |u und |v nach wie vor orthogonal, wenn ihr gemeinsames Skalarprodukt verschwindet. Durch ein Skalarprodukt wird immer eine Norm induziert, die dann auch als skalarproduktinduzierte Norm bezeichnet wird. Diese ist durch || |v || = v|v definiert. Das die Norm so auf die nicht negativen reellen Zahlen abbildet, folgt direkt aus der dritten Eigenschaft des Skalarprodukts. Die erste Eigenschaft der Norm || |v || = 0
⇔
|v = 0
folgt aus der dritten Eigenschaft des Skalarprodukts. Die zweite Eigenschaft der Norm ||α |v || = |α| · || |v || folgt aus der Linearität, also der zweiten Eigenschaft des Skalarprodukts. Und die letzte Eigenschaft folgt aus einer ähnlichen Überlegung wie bei den komplexen Vektoren, die den Zusammenhang |v|u |2 ≤ v|v u|u
(3.10)
verwendet, der als Cauchy-Schwarz’sche Ungleichung bekannt ist. Diese lässt sich dabei aus den Eigenschaften des Skalarprodukts herleiten. Zu diesem Zweck werden die orthogonalen Anteile von |u zu |v |w ≡ |u −
v|u |v v|v
betrachtet. Wird das Skalarprodukt von |w mit sich selbst gebildet, so muss aufgrund der dritten Eigenschaft des Skalarprodukts auch der Zusammenhang
226
3 Der allgemeine Vektorbegriff im mathematischen Sinne
|v|u |2 |v|u |2 + v|v v|v 2 |v|u | = u|u − v|v
0 ≤ w|w = u|u − 2
gelten. Dies lässt sich auf die obige Ungleichung (3.10) umformen. Auch durch Skalarprodukte können Klassen von Vektorräumen definiert werden. Eine der wichtigsten Klassen der Physik dabei sind die Hilbert-Räume. Hilbert-Räume sind Vektorräume mit einem Skalarprodukt und damit mit einer durch das Skalarprodukt induzierten Norm. Dabei muss der Vektorraum mit dieser durch das Skalarprodukt induzierten Norm einen Banach-Raum bilden. Der Raum der Funktionen, die in der Quantenmechanik betrachtet werden, ist beispielsweise ein Hilbert-Raum und soll weiter unten auch besprochen werden.
3.3.4
Gram-Schmidt-Verfahren, Operatoren und der duale Raum
Mit der eingeführten abstrakten Schreibweise lassen sich nun nahezu alle Ergebnisse betreffend der komplexen Vektoren übernehmen und in Zusammenhänge für allgemeine Vektorräume übersetzen.
Dimensionalität Zwei besondere Neuerungen betreffen dabei vor allem die Dimensionalität von Vektorräumen. Zuvor wurden N -dimensionale Vektorräume betrachtet. Die Dimension war also endlich. In der Tat lassen sich auch Vektorräume konstruieren, die keine endliche Dimensionalität aufweisen. Weiter unten wird beispielsweise ein Vektorraum aus stetigen Funktionen betrachtet. Eine einfache Basis für diesen Vektorraum bieten die Monome x n . Da zur vollständigen Darstellung einer jeden stetigen Funktion aber jedes mögliche n betrachtet werden muss, gibt es unendlich viele Basisvektoren, und damit ist der Vektorraum unendlich dimensional. Nun handelt es sich bei dieser Art der Unendlichkeit noch um eine sehr umgängliche Unendlichkeit, da über einen diskreten Index n und somit über eine diskrete Menge an Basisvektoren summiert werden kann. Eine solche Basis heißt daher diskret. Es können aber auch Vektorräume aufgebaut werden, deren Basen aus unendlich vielen Basisvektoren, die durch einen kontinuierlichen Index beschrieben werden,8 bestehen. Eine solche Basis heißt dann kontinuierlich. Beispiele hierfür sind Vektorräume aus der Quantenmechanik. Hier können Impulseigenzustände als Basis genutzt werden, und der kontinuierliche Parameter ist der Impuls p des Systems. Die Summen müssen in diesem Fall durch Integrale ersetzt werden.
8 Die einzelnen Arten der Unendlichkeit werden durch den hebräischen Buchstaben Aleph ℵ mit
einem Index Null für abzählbar und Eins für überabzählbar bezeichnet.
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
227
Es gibt auch Situationen, in denen sich die Basis des betrachteten Vektorraums aus diskreten und kontinuierlichen Anteilen zusammensetzt. So sind die gebundenen Energiezustände im Wasserstoffatom diskret, aber dennoch abzählbar unendlich viele, während die Ionisationszustände kontinuierlich und überabzählbar unendlich viele sind. In so einem Fall sollen Summen durch das Symbol ˆ
dargestellt werden. Es deutet an, dass über diskrete Indices summiert werden soll, während über kontinuierliche integriert wird. Die Ergebnisse der beiden Bereiche werden dabei addiert: ⎧ ⎪ n ist diskret ⎪ ˆ ⎨´ n cn |vn . (3.11) cn |vn = n ist kontinuierlich d n cn |vn ⎪ ⎪ ⎩ c |v + ´ d n c |v n n ist diskret und kontinuierlich n n
n
n
n
Lineare Unabhängigkeit und Orthogonalität Eine Menge von Vektoren |vn , die jeweils nicht der Nullvektor sind, heißt nach wie vor linear unabhängig, wenn ihre Linearkombination nur dann null ergeben kann, wenn bereits alle Koeffizienten null sind, ˆ λn |vn = 0 ⇒ λn = 0. (3.12) n
Damit sind auch orthogonale Vektoren linear unabhängig. Doch bevor dieser Beweis geführt wird, muss erst die Orthogonalitätseigenschaft von einer Menge von Vektoren geklärt werden. Im Fall von einer endlichen Menge an Vektoren war diese durch vn |vm = δnm vn |vn mit dem Kronecker-Delta δnm gegeben. Dadurch wird aus einer Summe nur der Anteil von |vn herausprojiziert. Das Problem ist nun, dass einzelne Punkte zu Riemann-Integralen keinen Beitrag leisten. Ob ein Integral über das Intervall (a, b) oder [a, b] geht, macht keinen Unterschied, solange der Integrand keine Singularitäten aufweist. Um dieses Problem zu umgehen, wird die Dirac-Delta-Funktion verwendet, die die Eigenschaft ˆ∞ d n f (n)δ (n − m) = f (m) −∞
besitzt. Die genaueren Eigenschaften dieser Funktion wurden in Abschn. 2.5 genauer diskutiert, und es ist hier nur die gegebene Eigenschaft vonnöten, da sie das Kronecker-Delta auf
228
3 Der allgemeine Vektorbegriff im mathematischen Sinne
kontinuierliche Bereiche erweitert. Liegt ein Vektorraum vor, mit teilweiser diskreter und kontinuierlicher Basis, wird von der symbolischen Notation diskreter Fall δnm (3.13) δ(n, m) = δ (n − m) kontinuierlicher Fall Gebrauch gemacht. Damit wird die Orthogonalitätsbedingung für solche Mengen von Vektoren zu vn |vm = δ(n, m)vn |vn bestimmt, und es gilt
ˆ
(3.14)
δ(n, m) f n = f m
n
bei einer Summe über diskrete und kontinuierliche Vektoren. Ist nun eine Linearkombination der Vektoren |vn gegeben, so lässt sich das Skalarprodukt mit dem Vektor |vm bilden: ⎛ ⎞ ˆ ˆ ˆ ⎝ ⎠ λn |vn = λn vm |vn = λn δ(n, m)vn |vn = λm vm |vm 0 = vm | n
n
n
Da es sich nicht um Nullvektoren handeln sollte und somit vm |vm > 0 ist, muss bereits λm = 0 sein. Da |vm aber beliebig aus der Menge gewählt war, gilt dies für alle λn , und somit sind orthogonale Vektoren linear unabhängig.
Das Gram-Schmidt-Verfahren und Einführung des Dualraums Das Gram-Schmidt-Verfahren lässt sich für Vektorräume mit einer diskreten Basis verallge meinern. Sind also linear unabhängige Vektoren v j gegeben, lassen sich daraus orthogonale und normierte Vektoren w j konstruieren. Dazu wird |w1 =
|v1 || |v1 ||
gewählt, und für alle nachfolgenden Vektoren gilt j−1 u j = v j − |wi wi |v j i=1
w j =
u j . || u j ||
Dies wird auf genau dieselbe Weise wie bei komplexen Vektoren hergeleitet. Die Interpretation ist dabei wieder, dass der Term
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition n
229
|wi wi |v j
i=1
den Vektor v j auf den Unterraum, der von den Vektoren |w1 bis |wn aufgespannt wird, projiziert. Diese Teile werden von v j abgezogen, und es verbleibt somit nur noch der Teil von v j , der nicht in dem entsprechenden Unterraum vorhanden ist und somit senkrecht dazu stehen muss. Dieser Term n |wi wi |v j Pˆn v j ≡ i=1
kann als ein Projektionsoperator Pˆn , der auf |vn wirkt, aufgefasst werden. Allein vom Aussehen des Terms her könnte die Idee aufkommen, diesen Operator schematisch als Pˆn ≡
n
|wi wi |
i=1
aufzuschreiben. Um dies zu tun, muss allerdings erst geklärt werden, was das Symbol w| zu bedeuten hat. Hierzu ist die Idee, dass das Skalarprodukt w|v den Vektor |v nach einer bestimmten Vorschrift auf eine komplexe Zahl abbildet. Damit könnte w| als eine Abbildung vom Vektorraum in den zugrunde liegenden Körper w| :V → K |v → w|v aufgefasst werden. Diese Abbildung nimmt nun beliebige Vektoren aus dem Vektorraum V entgegen. Da die Abbildung mit dem Skalarprodukt assoziiert ist, handelt es sich auch um eine lineare Abbildung. Die Menge aller linearen Abbildungen vom Vektorraum V auf den Körper K heißt dualer Raum V ∗ und bildet ebenfalls einen Vektorraum. Die innere und äußere Verknüpfung funktionieren wie im Raum V selbst. Zu jedem Vektor |v des Raums V gibt es einen assoziierten dualen Vektor v|, der die Eigenschaft v|v = || |v ||2 erfüllen muss. Dieser Vektor heißt dann dualer Bra(-Vektor) v| zum Ket(-Vektor) |v . Die Bezeichnungen Bra und Ket sind in der Physik weit verbreitet und rühren daher, dass die Klammer „Bracket“ des Skalarprodukts in zwei Teile, Bra-Ket aufgeteilt wird. Um den Unterschied zwischen Vektor und dualem Vektor zu veranschaulichen, sollen drei dimensionale reelle Vektoren betrachtet werden. Das Ket |v lässt sich in gewohnter Spaltenform
230
3 Der allgemeine Vektorbegriff im mathematischen Sinne
⎛ ⎞ vx |v = ⎝v y ⎠ vz schreiben. Das Bra hingegen ist als Abbildung v| :R3 → R ⎛ ⎞ a ⎝b ⎠ → v x a + v y b + vz c c zu formulieren. Das heißt, das Bra beinhaltet bereits die Summation. Dennoch ist diese Schreibweise äußerst nützlich. Wichtig ist dabei noch, dass es ja zu jedem Vektor aus dem Vektorraum einen dualen Vektor gibt. Damit gibt es auch für die Linearkombination |ψ = a |u + b |w einen dualen Vektor. Der duale Vektor soll |v auf das Skalarprodukt mit |ψ , also auf ψ|v abbilden. Zu diesem Zwecke wird der Ausdruck v|ψ = v| (a |u + b |w ) betrachtet. Aufgrund der ersten Eigenschaft von Skalarprodukten ist dies das komplex Konjugierte vom gesuchten Ausdruck. Daher ergibt sich ψ|v = (v|ψ )∗ = (v| (a |u + b |w )) = (av|u + bv|w )∗ = a ∗ v|u ∗ + b∗ v|w ∗ = a ∗ u|v + b∗ w|v = a ∗ u| + b∗ w| |v , und somit ergibt sich der Bra ψ| = a ∗ u| + b∗ w|
(3.15)
durch Ablesen. Hierbei wird klar, wird der duale Vektor einer Linearkombination gesucht, so werden alle Kets in Bras umgewandelt und alle Koeffizienten werden komplex konjugiert. Eine Schlussbemerkung zur Thematik des Dualraums ist, dass zwar zu jedem Element des Vektorraums ein dualer Vektor existiert, dies umgekehrt jedoch nicht der Fall ist. Für manche Vektoren des Dualraums gibt es kein vermeintlich duales Element im Vektorraum. Als Beispiel wird der Raum der quadratintegrablen Funktionen L(2) auf (−∞, ∞) betrachtet, der in Abschn. 3.4 ausführlicher behandelt wird. Es handelt sich also um alle Funktionen f für die ein Integral mit dem Integranden | f |2 konvergent ist. In diesem Raum sind die √ 1 Funktionen eikx / 2π mit reellem k nicht enthalten, denn das Betragsquadrat ist 2π , was in einem Integral über den ganzen Raum unendlich ergibt. Aber die Abbildung
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
231
k| : L(2) → C ˆ∞ e−ikx f → dx √ f (x) 2π −∞
ist linear und ergibt tatsächlich eine komplexe Zahl. Es handelt sich um die FourierTransformation, wie sie in Kap. 6 eingeführt wird.
Operatoren
Im Gram-Schmidt-Verfahren wurde bereits der Projektionsoperator Pˆn , der auf den von den |w1 bis |wn aufgespannten Unterraum projiziert, eingeführt. Dabei konnte dieser durch die Bra und Ket Schreibweise als Pˆn ≡
n
|wi wi |
i=1
geschrieben werden. Eine lineare Abbildung9 , die auf einen Vektor |v wirkt, wird als Operator bezeichnet und meist mit einem kleinen Dach über dem Bezeichner dargestellt, wie beispielsweise Pˆ für den Projektions- oder Paritätsoperator, Hˆ für den Hamilton-Operator oder pˆ für den Impulsoperator in der Quantenmechanik. Auch Ableitungen sind linear und können daher als Operatoren aufgefasst werden. Durch das Anwenden eines Operators Aˆ auf einen Vektor |v entsteht ein neuer Vektor |u = Aˆ |v . Damit kann auf das Ergebnis |u wieder ein Operator Bˆ angewendet werden. Da sich wieder ein Vektor ergibt, kann die Hintereinanderausführung von Aˆ gefolgt von Bˆ als ein neuer Operator Cˆ aufgefasst werden. Die Klammersetzung bei mehreren Operatoren, ˆ Bˆ C) ˆ = ( Aˆ B) ˆ Cˆ A( ist zwar nicht entscheidend, wohl aber die Reihenfolge, in der die Operatoren angewendet werden, was etwas weiter unten ausgeführt wird. Von besonderem Interesse ist dabei der Operator, der einen beliebigen Vektor vollkommen unverändert lässt. Dazu soll eine vollständige orthonormale Basis10 |en des Vektorraums betrachtet werden. Ein Vektor |v lässt sich dann über die Linearkombination 9 Eine lineare Abbildung, die auf Vektoren wirkt, kann auch durch Matrizen dargestellt werden.
In diesem Sinne handelt es sich hier auch um eine Verallgemeinerung vom Matrizenbegriff aus Kap. 7. Das Anwenden von Operatoren in der Quantenmechanik ist vollkommen analog zu dem Anwenden von Matrizen auf Vektoren, mit dem feinen Unterschied, dass in der Quantenmechanik durch diese schematische Schreibweise auch Matrizen der Dimensionalität ∞ × ∞ oder Matrizen mit kontinuierlichen Indices behandelt werden können. 10 In der Physik wird gelegentlich auch einfach |n geschrieben. Das soll hier aber nicht gemacht werden, da der Bezeichner n unter Umständen den Wert null annehmen kann und so eine Verwechslung
232
3 Der allgemeine Vektorbegriff im mathematischen Sinne
|v =
ˆ
cn |en
n
ausdrücken. Durch eine Projektion auf |em ergibt sich ˆ ˆ em |v = cn em |en = cn δ(n, m) = cm . n
n
Diese Koeffizienten können eingesetzt werden, um ˆ |v = |en en |v n
zu erhalten. Damit ergibt die Identifikation ˆ |en en | 1=
(3.16)
n
den Operator, der nichts am Vektor |v ändert. Dieser Operator wird als Einheitsoperator bezeichnet. In Hintereinanderausführung mit anderen Operatoren lässt er diese invariant,11 also ˆ = A. ˆ 1 Aˆ = A1 Für eine nicht orthonormale Basis würde Gl. (3.16) zu ˆ |en en | 1= en |en
(3.17)
n
werden. Da Vektoren aber stets normiert werden können, genügt häufig Gl. (3.16). Diese sollte als eine Definition für eine vollständige Orthonormalbasis aufgefasst werden. Es könnte nun die Frage aufkommen, wie eine Gleichheit unter Operatoren zu verstehen ist. Wenn Operatoridentitäten wie Aˆ = Bˆ aufgeschrieben werden, ist darunter zu verstehen, dass sich Aˆ unter allen Aspekten wie Bˆ verhält. Wird auf einen beliebigen Vektor Aˆ oder Bˆ angewendet, so ist das Ergebnis dasselbe. Mathematisch gilt für jedes beliebige |v Aˆ |v = Bˆ |v .
mit dem Nullvektor entstehen könnte. Dass |e0 nicht der Nullvektor ist, ist dahingegen einfacher zu erkennen. 11 Die Menge von linearen Operatoren ist unter Hintereinanderausführung abgeschlossen, assoziativ und besitzt ein neutrales Element, ist somit also ein sogenanntes Monoid. Die Menge der linearen Operatoren muss aber nicht zwangsweise zu jedem Element ein Inverses besitzen. Der Ableitungsoperator ∂x hat beispielsweise kein Inverses. Denn bei der Anwendung auf die Vektoren x und x + C ergibt sich der gleiche Vektor bestehend aus Eins.
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
233
Es lässt sich aus zwei Operatoren eine Größe konstruieren, die eine Aussage darüber trifft, inwieweit die Reihenfolge vertauscht werden darf. Kommt nämlich der Fall auf, dass Bˆ Aˆ |v = Aˆ Bˆ |v ist, so kann es eventuell doch nützlich sein, eine Vertauschung der Operatoren unter Hinzunahme eines Korrekturterms durchzuführen. Dazu wird die Größe ˆ B] ˆ |v ≡ Aˆ Bˆ |v − Bˆ Aˆ |v [ A,
(3.18)
betrachtet. Diese Größe ist als Kommutator bekannt. Wird die Wirkung des Kommutators auf beliebige Vektoren untersucht, lässt sich eine Operatoridentität aufstellen. Im Allgemeinen ˆ B] ˆ selbst ein Operator. Ist der Kommutator bekannt, so lässt sich obige Gleichung ist [ A, umformen zu ˆ B] ˆ |v . Aˆ Bˆ |v = Bˆ Aˆ |v + [ A, Ist der Kommutator null, so lassen sich Aˆ und Bˆ vertauschen, da der zweite Term in der Gleichung wegfällt. Kommutatoren spielen eine wichtige Rolle in den Grundlagen der Quantenmechanik. ˆ B}, ˆ der eine Aussage Eine ähnliche und verwandte Größe ist der Antikommutator { A, darüber trifft, ob die Operatoren unter Einführung eines Minuszeichens vertauscht werden können. Wie der Kommutator ist auch der Antikommutator ein Operator. Es wird die Größe ˆ B} ˆ |v ≡ Aˆ Bˆ |v + Bˆ Aˆ |v { A,
(3.19)
betrachtet, die sich zu ˆ B} ˆ |v Aˆ Bˆ |v = − Bˆ Aˆ |v + { A, umformen lässt. Ist der Antikommutator null, so lässt sich das Produkt Aˆ Bˆ durch − Bˆ Aˆ ersetzen. Antikommutatoren spielen eine Rolle in der Formulierung einer Lorentz-invarianten Quantenmechanik. Es gibt zu beliebigen Operatoren Aˆ bestimmte Vektoren |v , die sich nach Anwendung des Operators bis auf einen zusätzlichen Faktor a aus K nicht ändern, Aˆ |v = av |v . ˆ Der Faktor a heißt Eigenwert. Da Solche Vektoren heißen Eigenvektoren zum Operator A. sich unter Umständen Vektoren durch ihre Eigenwerte bezüglich eines bestimmten Operators charakterisieren lassen, werden teilweise als Bezeichner für die Vektoren einfach die entsprechenden Eigenwerte verwendet. In der Quantenmechanik beispielsweise werden Eigenvektoren des Hamilton-Operators betrachtet. Die Eigenwerte entsprechen Energien, und so werden dieser Vektoren mit |E 1 , . . . , |E n betitelt.
234
3 Der allgemeine Vektorbegriff im mathematischen Sinne
Es ist durch den Ausdruck für den Einheitsoperator in Gl. (3.17) die Wirkung eines Operators Aˆ auf einen Ket |v durch seine Wirkung auf die Basis |en auszudrücken: ˆ |v = Aˆ |v = (1 A1)
ˆ ˆ n
|en en | Aˆ |em em |v .
m
Damit kann die Wirkung von Aˆ auf |v verstanden werden, wenn die Wirkung von Aˆ auf die Basisvektoren bekannt ist. Dabei wird Anm = en | Aˆ |em als Matrixelement von Aˆ bezeichnet. n und m bilden dabei den Zeilen- und Spaltenindex. Das Matrixelement gibt an, welche Anteile der Vektor |em in Aˆ |en hat. Sind die |en beispielsweise Eigenvektoren zu Aˆ mit den Eigenwerten An so ergibt sich Anm = en | Aˆ |em = en | Am |em = Am en |em = Am δnm ˆ Ist die Basis |en also als die Menge der Eigenvektoren von Aˆ gegeals Matrixelement von A. ben, so ist der Operator in Matrixform diagonal, und die Einträge sind die entsprechenden Eigenwerte. Nun ist bekannt, wie sich ein Vektor |v transformiert, wenn der Operator Aˆ angewendet wird. Untersucht werden sollte aber auch, wie der duale Vektor von Aˆ |v mit dem dualen Vektor von |v in Verbindung steht. Dazu wird das Skalarprodukt vom beliebigen Vektor |w mit |u = Aˆ |v betrachtet. Durch die erste Eigenschaft des Skalarprodukts kann dies dann wieder mit dem dualen Vektor zu |v über ⎛ ⎞∗ ˆ ∗ u|w = w|u ∗ = w| Aˆ |v = ⎝ w|em em | Aˆ |en en |v ⎠ n,m ˆ ˆ ∗ ∗ ∗ ∗ ˆ = w|em em | A |en en |v = v|en em | Aˆ |en em |w n,m
n,m
in Verbindung gebracht werden. Es wäre dabei sehr nützlich, wenn die Positionen von en und em im Matrixelement vertauscht wären, da die Paare gleicher Basisvektoren so wieder zusammenstünden. Es spricht nichts dagegen einen neuen Operator Bˆ einzuführen, der mit Operator Aˆ über die Gleichung ∗ en | Bˆ |em = em | Aˆ |en verbunden ist. Bei genauem Hinsehen wird klar, dass im Matrixelement der Spalten- und der Zeilenindex vertauscht und gleichzeitig die Elemente komplex konjugiert werden. Eine solche Operation bei Matrizen in Kap. 7 wird als hermitesche Konjugation mit dem Zeichen
3.3
Der allgemeine Vektorbegriff – Begriffe und Definition
235
†
am Bezeichner der Matrix kenntlich gemacht. Das Zeichen trägt den Namen Dagger und leitet sich vom englischen Wort für Dolch ab. Damit ergibt sich für die Matrixelemente des hermitesch adjungierten Operators ∗ en | Aˆ † |em = em | Aˆ |en .
Somit wird das obige Skalarprodukt zu ˆ ∗ u|w = v|en em | Aˆ |en em |w n,m ˆ v|en en | Aˆ † |em em |w = n,m
= v| Aˆ † |w .
Der duale Vektor von Aˆ |v ist also durch das Anwenden des hermitesch konjugierten Operators Aˆ † auf den dualen Vektor v| gegeben. Anders ausgedrückt wirkt der hermitesch konjugierte Operator Aˆ † auf den dualen Vektor v| auf dieselbe Weise, wie der Operator Aˆ auf den Vektor |v wirkt. Ist |v zu Aˆ beispielsweise ein Eigenvektor mit Eigenwert λ, so gilt auch v| Aˆ † = v| λ∗ . Die komplexe Konjugation von λ stammt daher, dass beim Übergang vom Vektorraum in den dualen Raum Koeffizienten komplex konjugiert werden müssen. Es gibt nun eine Klasse von besonderen Operatoren, die mit ihrem hermitesch adjungierten zusammenfallen. Es gilt also die Operatoridentität Hˆ † = Hˆ . Solche Operatoren werden als selbstadjungiert oder hermitesch bezeichnet.12 Sie haben die besondere Eigenschaft, dass ihre Eigenwerte reell sind. Dazu soll ein hermitescher Operator Hˆ mit Eigenwert λ zum normierten Eigenvektor |v betrachtet werden. Es lässt sich dann über v| Hˆ |v = v| λ |v = λv|v = λ = v| Hˆ † |v = v| λ∗ |v = λ∗ zeigen, dass λ mit seinem komplex Konjugierten zusammenfällt, was nur für ein reelles λ möglich ist. Dabei wurde ausgenutzt, das Hˆ auf das Ket wirkt, während Hˆ † nach links auf das Bra wirkt.
12 Mathematisch gesehen, gibt es einen Unterschied zwischen hermiteschen und selbstadjungier-
ten Operatoren. Jeder selbstadjungierte Operator ist auch hermitesch, aber nicht jeder hermitesche Operator ist selbstadjungiert. Im Besonderen ist nur die durch Eigenvektoren von selbstadjungierte Operatoren aufgespannte Basis vollständig. Dennoch sind die meisten hermiteschen Operatoren, die in der Physik betrachtet werden, auch selbstadjungiert und die beiden Begriffe werden synonym verwendet.
236
3 Der allgemeine Vektorbegriff im mathematischen Sinne
Eine weitere Eigenschaft ist, dass Eigenvektoren zu unterschiedlichen Eigenvektoren orthogonal aufeinander stehen. Dazu werden zwei Eigenvektoren |v1 und |v2 zu den Eigenwerten λ1 und λ2 betrachtet. Es kann dann der Ausdruck 0 = v1 | Hˆ |v2 −v1 | Hˆ |v2 betrachtet werden. Darüber hinaus kann ein Hˆ durch sein hermitesch Adjungiertes ersetzt werden, und die Eigenwertgleichungen können ausgenutzt werden. Durch 0 = v1 | Hˆ |v2 − v1 | Hˆ |v2 = v1 | Hˆ † |v2 − v1 | Hˆ |v2 = λ∗1 v1 |v2 − λ2 v1 |v2 = (λ∗1 − λ2 )v1 |v2 zeigt sich, dass die rechte Seite nur null sein kann, wenn das Skalarprodukt von |v1 und |v2 verschwindet, denn die Eigenwerte waren ja verschieden. Somit sind aber Eigenvektoren zu verschiedenen Eigenwerten von hermiteschen Operatoren orthogonal zueinander. Aus diesen und weiteren Gründen spielen hermitesche Operatoren eine entscheidende Rolle in der Quantenmechanik. Allgemeiner werden in der Quantenmechanik Operatoren mit Messungen von Systemen identifiziert, und die möglichen Messergebnisse für eine Größe sind die Eigenwerte der Operatoren. Da physikalische Größen reelle Zahlen sind, sollten hermitesche Operatoren benutzt werden, um reelle Messergebnisse zu garantieren. Da die Eigenwerte bestimmter Operatoren als Basis für den betrachteten Vektorraum verwendet werden, ist stets eine Orthogonalbasis gegeben. Dass die Basis vollständig ist, ist eine weitere Eigenschaft der hermiteschen Operatoren, die hier aber nicht bewiesen werden soll.
3.4
Beispiele zu allgemeinen Vektorräumen
Es sollen hier zwei der wichtigsten Beispiele behandelt werden. Das erste Beispiel taucht in einfacher Form bereits in der Formulierung der klassischen Elektrodynamik auf und hängt damit zusammen, wie Funktionen des Raums in Kugelkoordinaten entwickelt werden können. Dort ist der Kosinus des Höhenwinkels θ eine Größe, die im Intervall [−1, 1] liegt und in beliebigen stetigen Funktionen auftreten kann. Das zweite Beispiel betrachtet quadratintegrable Funktionen, die in der Formulierung der Quantenmechanik die Wellenfunktionen, welche den Zustand eines physikalischen Systems beschreiben, darstellen.
3.4.1
Raum der quadratintegrablen Funktionen auf dem Intervall [−1, 1]
Zunächst wird der Raum der reellwertigen, stetigen Funktionen auf dem Intervall [−1, 1] betrachtet. Diese Menge von Funktionen wird mit C ([−1, 1], R) notiert. Das C zeigt dabei die Stetigkeit an.13 Als Körper sollen die reellen Zahlen betrachtet werden. Das Element 13 Auf Englisch heißen stetige Funktionen beispielsweise „continuous“.
3.4
Beispiele zu allgemeinen Vektorräumen
237
des Vektorraums, das zur Funktion f (x) gehört, soll mit | f bezeichnet werden. Zum Überprüfen von Beziehungen zwischen den Funktionen muss die Beziehung an jedem Punkt des Intervalls gelten. So bedeutet | f = |g nichts anderes als f (x) = g(x) für alle x in [−1, 1].
Vektorraumeigenschaften Die innere Verknüpfung soll so verstanden werden, dass | f + |g mit der Funktion f (x) + g(x) an jedem Punkt des Intervalls assoziiert ist. Symbolisch lässt sich dies schreiben als (| f + |g )(x) = f (x) + g(x). Die Addition auf der linken Seite ist dabei die innere Verknüpfung, während die Summe auf der rechten Seite die Summe auf den reellen Zahlen darstellt. Die äußere Verknüpfung ist so aufzufassen, dass die Funktion an jedem Punkt mit einem Faktor aus den reellen Zahlen multipliziert werden soll. Also stellt (α | f )(x) = α f (x) die Vorschrift für die äußere Verknüpfung dar. Auch hier ist die Multiplikation auf der linken Seite die äußere Verknüpfung, während die Multiplikation auf der rechten Seite die Multiplikation der reellen Zahlen darstellt. Diese beiden Verknüpfungen sind abgeschlossen, denn die Summe zweier stetiger Funktionen ist wieder stetig, und das Vielfache einer stetigen Funktion ist auch wieder stetig. Nun müssen die Eigenschaften der inneren und äußeren Verknüpfung untersucht werden. Dabei ist es sinnvoll über die Definition der inneren und äußeren Verknüpfung die Aussagen auf Addition und Multiplikation in den reellen Zahlen zurückzuführen und dort die Körpereigenschaften auszunutzen. • Da die innere Verknüpfung auf die Summe in reellen Zahlen zurückgeführt werden kann, ist sie sicher assoziativ, ((| f + |g ) + |h )(x) = (| f + |g )(x) + h(x) = ( f (x) + g(x)) + h(x) = f (x) + (g(x) + h(x)) = f (x) + (|g + |h )(x) = (| f + (|g + |h ))(x). Da x beliebig ist, gilt dies für alle x, und somit lässt sich (| f + |g ) + |h = | f + (|g + |h ) identifizieren. • Das neutrale Element ist die Funktion O(x) = 0, die jedem Punkt den Wert null zuordnet. • Zu jeder Funktion f (x) gibt es die Funktion − f (x), die ebenso stetig sein muss und unter Addition das inverse Element darstellt. In diesem Sinne soll − | f das Inverse bezüglich der inneren Verknüpfung zu | f darstellen.
238
3 Der allgemeine Vektorbegriff im mathematischen Sinne
• Da sich wie oben die innere Verknüpfung auf die Addition in reellen Zahlen zurückführen lässt, ist die innere Verknüpfung auch sicher kommutativ. (| f + |g )(x) = f (x) + g(x) = g(x) + f (x) = (|g + | f )(x), und somit folgt | f + |g = |g + | f . • Für die äußere Verknüpfung gilt ((αβ) | f )(x) = (αβ) f (x) = α(β f (x)) = α(β | f )(x) = (α(β | f )) (x) für jedes beliebige x und somit (αβ) | f = α(β | f ). • Für das Distributivgesetz bei der Addition von zwei Zahlen gilt ((α + β) | f )(x) = (α + β) f (x) = α f (x) + β f (x) = (α | f + β | f )(x) für jedes beliebige x aus [−1, 1], und somit ist (α + β) | f = α | f + β | f . • Für das Distributivgesetz bezüglich der inneren Verknüpfung gilt (α(| f + |g ))(x) = α(| f + |g )(x) = α( f (x) + g(x)) = α f (x) + αg(x) = (α | f + α |g )(x) für jedes erlaubte x. • Zuletzt gilt noch (1 | f )(x) = 1 · f (x) = f (x) = | f (x). Da somit alle nötigen Eigenschaften für eine innere und äußere Verknüpfung erfüllt sind und die reellen Zahlen ein Körper sind, handelt es sich bei V˜[−1,1] = (C ([−1, 1], R), +, ·, R) um einen Vektorraum.
Norm und Skalarprodukt Nun soll eine Norm auf diesem Raum gefunden werden. Zu diesem Zweck ist es sinnvoll zunächst ein Skalarprodukt zu suchen. Bei dreidimensionalen Vektoren wurde für das Skalarprodukt über die Produkte der einzelnen Komponenten der Vektoren summiert. Hier ist
3.4
Beispiele zu allgemeinen Vektorräumen
239
jedoch noch nicht klar, was die „Komponenten“ von f sind. Eine erste Idee könnte sein, über alle Werte auf dem Intervall [−1, 1] zu summieren. Somit ergäbe sich der Ansatz ˆ1 f |g ≡
d x f (x)g(x). −1
Dieses Integral wird existieren,14 denn jede stetige Funktion ist Riemann-integrierbar, und das Produkt von zwei stetigen Funktionen ist wieder stetig. Ferner dürfen die Funktionen auf [−1, 1] keine Polstellen aufweisen, da sie stetig sein müssen, und das betrachtete Intervall ist endlich. Damit wird dieses Integral stets eine reelle Zahl zum Ergebnis haben. Damit ist auch bereits die erste Eigenschaft des Skalarprodukts erfüllt, denn ˆ1
ˆ1
g| f =
d x g(x) f (x) = −1
d x f (x)g(x) = f |g = f |g ∗ .
−1
Die letzte Gleichheit gilt, da eine reelle Zahl ihr eigenes komplex Konjugiertes ist. Die zweite Eigenschaft eines Skalarprodukts ist die Linearität, die auf die Linearität des Integrals über ˆ1 f | (α |g + β |h ) =
ˆ1 d x f (x) (αg(x) + βh(x)) =
−1
d x (α f (x)g(x) + β f (x)h(x)) −1
ˆ1 =α
ˆ1 d x f (x)g(x) + β
−1
d x f (x)h(x) −1
= α f |g + β f |h zurückgeführt werden kann. Für die dritte Eigenschaft wird das Skalarprodukt von | f mit sich selbst betrachtet: ˆ1
ˆ1 d x f (x) f (x) =
f|f = −1
d x | f (x)|2 . −1
Da | f (x)| ≥ 0 für jedes erlaubte x ist, wird auch der gesamte Ausdruck ≥ 0 sein. Ein anderer Weg dies zu veranschaulichen ist, dass | f (x)| alle negativen Bereiche von f über die x-Achse klappen wird und somit nur eine Fläche oberhalb der x-Achse betrachtet wird, 14 Damit sind die Funktionen in diesem Raum auch alle quadratintegrable Funktionen auf dem Intervall [−1, 1]. Der Raum der quadratintegrablen Funktionen wird dabei mit L(2) ([−1, 1]) bezeichnet und wird etwas weiter unten verwendet. Er ist etwas größer. So ist die Funktion (1 + x)−1/4 zwar
quadratintegrabel, aber nicht stetig (fortsetzbar), da sie für x → −1 eine Polstelle auf dem Intervall [−1, 1] aufweist.
240
3 Der allgemeine Vektorbegriff im mathematischen Sinne
die damit nicht negativ ausfällt. Die einzige Möglichkeit, wie dieses Integral null ergeben kann, ist, indem f (x) = 0 für jedes erlaubte x ist. Damit müsste | f aber der Nullvektor sein, und umgekehrt ist das Skalarprodukt des Nullvektors mit sich selbst auch null: f | f = 0 ⇔ | f = 0. Da so ein Skalarprodukt gefunden wurde, kann damit direkt die Norm durch ˆ1 || f || = d x | f (x)|2 −1
definiert werden. Es stellt sich dann aber heraus, dass mit dieser Norm manche Folgen nicht innerhalb des Raums V˜[−1,1] konvergieren.15 Dies ist jedoch eine Eigenschaft, die für einen Hilbert-Raum vorausgesetzt wird. Dies lässt sich beheben, indem statt der stetigen Funktionen der etwas größere Raum der quadratintegrablen Funktionen L(2) ([−1, 1]) betrachtet wird. Von nun an soll also V[−1,1] = (L(2) ([−1, 1]), +, ·, R) betrachtet werden. Tatsächlich ist dieser Vektorraum unter der oben definierten inneren und äußeren Verknüpfung dennoch abgeschlossen, und die Eigenschaften lassen sich eins zu eins aus den Überlegungen von oben herleiten. Quadratintegrabel heißt dabei, dass das Integral ˆ1 f|f =
d x | f (x)|2 < ∞ −1
existiert. Durch die Definition des Skalarprodukts wird auch klar, wie der zu | f duale Vektor zu definieren ist. Dieser ist die Abbildung f | : V[−1,1] → R ˆ1 |g →
d x f (x)g(x). −1
Basis Wird nach einem sinnvollen Begriff für „Komponenten“ gesucht, so muss zunächst eine Basis gefunden werden. Dafür ist eine Menge von linear unabhängigen Funktionen nötig. 15 Beispielsweise lässt sich die Funktion (1+x)−1/4 als Grenzwert der Folge von stetigen Funktionen darstellen, ist aber selbst keine stetige (fortsetzbare) Funktion.
3.4
Beispiele zu allgemeinen Vektorräumen
241
Es gibt hier verschiedene Möglichkeiten, die in Kap. 4 im Detail besprochen werden. Doch es ist einfach zu sehen, dass die Funktionen f (x) = 1 und g(x) = x voneinander linear unabhängig sind. Es gibt keine reellen Zahlen α und β, abgesehen von null, für die der Ausdruck α·1+β ·x den Wert null für jedes erlaubte x annimmt. Somit kann die Gleichung λ1 | f + λ2 |g = 0 nur erfüllt sein, wenn λ1 = λ2 = 0 ist. Genauso lässt sich zeigen, dass die Menge aller Monome x n mit n ∈ N0 eine Menge von linear unabhängigen Vektoren bildet. √ Monome der Art x r mit r ∈ R\N0 sind nicht Teil von V[−1,1] , da x für negative x keine reelle Zahl ist und somit nicht innerhalb des Vektorraums definiert ist. Es könnte die Frage aufkommen, ob Funktionen der Art (1 + x)r mit r ∈ R \ N0 weitere linear unabhängige Vektoren darstellen. Diese liegen für nicht negative r definitiv im Vektorraum. Doch wie in Kap. 4 gezeigt wird, lassen sie sich als Linearkombination (Reihenentwicklung) der x n darstellen. Tatsächlich bilden die Monome x n eine vollständige Basis von V[−1,1] . Das soll an dieser Stelle aber nicht bewiesen werden. Diese Menge der Monome bildet zwar eine Basis, doch diese ist nicht orthogonal, denn es gilt ˆ1 x n |x m =
ˆ1 d x xnxm =
d x x n+m =
−1
=
−1 n+m+1 1 − (−1)
n+m+1
x n+m+1 n+m+1
!1 −1
,
und dieser Ausdruck ist für ein gerades n + m nicht null. So gilt beispielsweise x 3 |x =
2 1 − (−1)1+3+1 = = 0. 1+3+1 5
Auch sind die Vektoren nicht normiert, denn x n |x n =
2 2n + 1
2 vorhanden ist. zeigt, dass ein zusätzlicher Faktor 2n+1 Mithilfe des Gram-Schmidt-Verfahrens kann nun eine Orthogonalbasis konstruiert werden. Dabei sollen die orthogonalen Vektoren mit | pl bezeichnet werden. Der erste Vektor ist gegeben durch
242
3 Der allgemeine Vektorbegriff im mathematischen Sinne
| p0 = x 0 und hat die Norm || | p0 || =
√ 2. Damit wird der zweite Vektor zu
p0 |x 1 1 0 x 0 |x 1 1 | p1 = x 1 − | p0 = x − x = x p0 | p0 2 mit der Norm || | p1 || = 23 . Dabei wurde ausgenutzt, dass x 0 |x 1 = 0 ist. Für den dritten Vektor ergibt sich p0 |x 2 p1 |x 2 2 0 x 0 |x 2 1 3 1 2 | p2 = x 2 − | p0 − | p1 = x − x − x x |x p0 | p0 p1 | p1 2 2 2 1 = x 2 − x 0 = x 2 − x 0 . 2·3 3 Auf diese Weise lassen sich die weiteren orthogonalen Vektoren konstruieren. Die Vektoren könnten dann normiert werden. Tatsächlich ergeben sich auf diese Weise die LegendrePolynome, die in Kap. 4 eingeführt werden als die orthogonale Basis des Raums V[−1,1] . Sie sind dabei auf die Weise normiert, dass |Pl (1) = 1 gilt. Damit ergibt sich im Zusammenhang mit den oben gefunden, ersten drei Basisvektoren |P0 = | p0 = x 0 |P1 = | p1 = x 1 |P2 =
3 1 | p1 = (3 x 2 − x 0 ). 2 2
Dass diese drei Vektoren tatsächlich orthogonal zueinander stehen, lässt sich schnell durch P0 |P1 = x 0 |x 1 = 0 ˆ1 P0 |P2 =
dx −1
ˆ1 P1 |P2 = −1
#1 1 1" 3 (3x 2 − 1) = x − x −1 = 0 2 2
1 1 3 4 1 2 x − x d x (3x 3 − x) = 2 2 4 2
!1 −1
=0
überprüfen. Hierdurch sind die Legendre-Polynome nach wie vor so normiert, dass || |Pl || = 2 2l+1 gilt und die Orthogonalitätsrelation als Pl |Pl = δll
2 2l + 1
3.4
Beispiele zu allgemeinen Vektorräumen
243
geschrieben werden kann. Damit lässt sich der Einheitsoperator schreiben als 1=
∞ 2l + 1 l=0
2
|Pl Pl | .
Der Ableitungsoperator Zuletzt soll noch ein Beispiel für einen Operator in diesem Vektorraum betrachtet werden. Dieser Operator soll der Ableitungsoperator Dˆ sein. Auf eine Funktion f (x) hat dieser die Wirkung ( Dˆ | f )(x) = f (x). Auf die Basis der Monome hat dieser dann die Wirkung ( Dˆ x n )(x) = nx n−1 = n x n−1 . Die Frage, die sich dann stellen könnte, ist die nach einem Eigenvektor des Ableitungsoperators. Dazu wird ein Vektor | f als Linearkombination der Basisvektoren |f =
∞
cn x n
n=0
geschrieben. Das Ziel ist es über die Eigenwertgleichung Dˆ | f = λ | f die Koeffizienten cn zumindest teilweise zu bestimmen. Eingesetzt in die Eigenwertgleichung ergibt sich so Dˆ | f =
∞
∞ ∞ $ cn Dˆ x n = cn n x n−1 = ck+1 (k + 1) x k
n=0
=
∞
n=1
k=0
λcn x n .
n=0
Da die Vektoren |x n linear unabhängig sind, müssen die Koeffizienten zu gleichen Vektoren gleich sein, und es ergibt sich die rekursive Formel cn+1 (n + 1) = λcn ⇒ cn =
λ λn cn−1 ⇒ cn = c0 n n!
zur Bestimmung der Koeffizienten. Der letzte Schritt wandelt dabei die rekursive in eine explizite Gleichung um. Damit wird der Eigenvektor | f zu
244
3 Der allgemeine Vektorbegriff im mathematischen Sinne ∞ λn n | f = c0 x n! n=0
und nimmt an der Stelle x = 0 den Wert c0 an. Doch eine Funktion, die die Gleichung d f (x) = λ f (x) dx erfüllt, ist bereits bekannt; es handelt sich um die Exponentialfunktion f (x) = eλx , die an der Stelle x = 0 den Wert eins annimmt. Wird also c0 = 1 gewählt, so muss | f (x) = f (x) = eλx =
∞ λn n=0
n!
xn
gelten. Dies ist die Reihenentwicklung der Exponentialfunktion, die in Kap. 4 auf etwas andere Weise hergeleitet wird. Sie kann hilfreich sein, wenn kleine Argumente x betrachtet werden, um ex ≈ 1 + x anzunähern.
3.4.2
Raum der quadratintegrablen Funktionen auf dem Intervall (−∞, ∞)
Es wird nun der Raum der quadratintegrablen Funktionen auf dem Intervall (−∞, ∞) betrachtet. Dabei sollen komplexwertige Funktionen betrachtet werden. Die genaue Einführung findet in Kap. 5 statt. Das Wichtigste ist hier, dass die Funktion f (x) einen Realund Imaginärteil besitzt und als f (x) = Re [ f (x)] + i Im [ f (x)] geschrieben werden kann. Eine Funktion heißt dann quadratintegrabel, wenn das Integral ˆ∞ d x | f (x)|2 < ∞ −∞
existiert. Dieser Raum von Funktionen wird als L(2) ((−∞, ∞)) bezeichnet, und als Körper werden die komplexen Zahlen C verwendet. Die Cauchy-Schwarz’sche Ungleichung besagt dabei, dass ∞ ⎛ ⎞⎛ ∞ ⎞ ˆ ˆ ˆ∞ d x g(x)∗ f (x) ≤ ⎝ d x | f (x)|2 ⎠ ⎝ d x |g(x)|2 ⎠ −∞
−∞
−∞
3.4
Beispiele zu allgemeinen Vektorräumen
245
gilt, und somit wird über die Rechnung ∞ ∞ ˆ ˆ " # 2 2 ∗ 2 = d x | f (x) + g(x)| d x | f (x)| + 2 Re g (x) f (x) + |g(x)| −∞ −∞ ⎡ ⎤ ˆ∞ ˆ∞ 2 = d x | f (x)| + 2 Re ⎣ d x g ∗ (x) f (x)⎦ −∞
ˆ∞ +
−∞
d x |g(x)|2
−∞
∞ ˆ ˆ∞ 2 ∗ d x | f (x)| + 2 d x g (x) f (x) + d x |g(x)|2 ≤ −∞ −∞ −∞ ⎛ ⎞ ⎛ ⎞ ˆ∞ ˆ∞ ˆ∞ ≤ d x | f (x)|2 + 2 ⎝ d x | f (x)|2 ⎠ ⎝ d x |g(x)|2 ⎠ ˆ∞
−∞
−∞
−∞
ˆ∞ +
d x |g(x)|2 < ∞
−∞
schnell klar, dass die Summe zweier quadratintegrabler Funktionen wieder quadratintegrabel sein muss. Dabei wurde ausgenutzt, dass der Realteil einer komplexen Zahl immer kleiner sein wird als der Betrag der komplexen Zahl. Anschaulich kann dies aber auch so verstanden werden: Damit die Funktionen quadratintegrabel sind, müssen ihre Beträge für |x| → ∞ √ schneller abfallen als 1/ x. Denn das Integral 1/x auf einem Intervall von [1, ∞) divergiert, während 1/x r für r > 1 konvergiert. Dieses Teilintervall [1, ∞) stellt natürlich nicht alle Werte für x dar, sondern soll nur das Verhalten für große x widerspiegeln. Da nun aber beide √ Funktionen im Unendlichen einen schnelleren Abfall als 1/ x aufweisen müssen, weist auch ihr Produkt ein schnelleres Abfallverhalten als 1/x auf, und ihr gemeinsames Integral konvergiert somit. Ähnlich wie im vorherigen Beispiel werden auch für diese Funktionen die Eigenschaften der inneren und der äußeren Verknüpfung auf die Körpereigenschaften der komplexen Zahlen zurückgeführt. Das Skalarprodukt muss dabei aufgrund der komplexen Funktionen etwas modifiziert werden und wird zu ˆ∞ f |g = −∞
d x f ∗ (x)g(x).
246
3 Der allgemeine Vektorbegriff im mathematischen Sinne
Damit ergibt sich auch die Norm einer Funktion zu ˆ∞ d x | f (x)|2 . || | f || = f | f =
−∞
Der Raum der quadratintegrablen Funktionen bildet in der Quantenmechanik den Raum der Wellenfunktionen, die den Zustand eines Systems beschreiben. Das Anwenden von Operatoren ist mit dem Durchführen von Messungen zu vergleichen, und die Eigenwerte dieser Operatoren sind die möglichen Messergebnisse.
3.5
Formelsammlung – Verallgemeinerung des Vektorbegriffs im mathematischen Sinne
Körper (K, +, ·) • + : K × K → K ist abgeschlossen, assoziativ, hat ein neutrales Element, besitzt inverse Elemente und ist kommutativ. • · : K × K → K ist abgeschlossen, assoziativ, hat ein neutrales Element, besitzt inverse Elemente uns ist kommutativ. • Es gilt das Distributivgesetz a · (b + c) = a · b + a · c für beliebige a, b, c ∈ K. Vektorraum (V , +, ·, K) • Innere Verknüpfung + : V × V → V ist abgeschlossen, assoziativ, hat ein neutrales Element, besitzt inverse Elemente und ist kommutativ. • · : K × V → V hat die Eigenschaften – (ab) · |v = a · (b · |v ) – (a + b) · |v = a · |v + b · |v – a · (|u + |v ) = a · |u + a · |v – 1 · |v = |v • Es gilt das Distributivgesetz a · (b + c) = a · b + a · c für beliebige a, b, c ∈ K. Norm auf Vektorräumen, || · || : V → [0, ∞) • || |v || = 0 ⇔ |v = 0 • ||α · |v || = |α||| |v || • || |v + |u || ≤ || |v || + || |u || Skalarprodukte auf Vektorräumen, ·|· : V × V → K
3.5
Formelsammlung – Verallgemeinerung des Vektorbegriffs im mathematischen Sinne
• v|u = u|v ∗ • w| (α |u + β |w ) = αw|u + βw|v • v|v > 0 wenn |v = 0 und v|v = 0 wenn |v = 0 Skalarprodukt induzierte Norm || |v || = v|v |v|u |2 ≤ |v|v | · |u|u | = || |v || · || |u || Lineare Unabhängigkeit, Orthogonalität und Gram-Schmidt-Verfahren • Lineare Unabhängigkeit: vn |vm = δnm vn |vn • Orthogonalität: vn |vm = δ(n, m)vn |vn j−1 |u |wi wi |v j • w j = |||u j || , |u 1 = |v1 , u j = v j − j i=1 Operatoren ˆ B] ˆ |v = Aˆ Bˆ |v − Bˆ Aˆ |v bzw. Aˆ Bˆ = Bˆ Aˆ + [ A, ˆ B] ˆ • Kommutator: [ A, ˆ B} ˆ |v = Aˆ Bˆ |v + Bˆ Aˆ |v bzw. Aˆ Bˆ = − Bˆ Aˆ + { A, ˆ B} ˆ • Antikommutator: { A, ´ |en en | • en |em = δ(n, m)en |en führt zu 1 = n en |en ´ ´ • Aˆ = n m |en en | Aˆ |em em |, Anm = en | Aˆ |em ∗ • en | Aˆ † |em = em | Aˆ |en bzw. (A† )nm = A∗mn • Hermitesche Operatoren Hˆ † = Hˆ
247
4
Reihenentwicklungen
Inhaltsverzeichnis 4.1
4.2
4.3
4.4
4.5
4.6
Die Taylor-Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Motivation und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Konvergenz der Taylor-Reihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Wichtige Taylor-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Verkettete Taylor-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.5 Taylor-Reihe in führender Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.6 Der Potenzreihenansatz zum Lösen von Differentialgleichungen . . . . . . . . . . . . . Die Laurent-Reihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Einige Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Die Fourier-Reihe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Motivation und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Komplexwertige Fourier-Reihen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.3 Eigenschaften der Entwicklungskoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.4 Beispiele für Fourier-Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.5 Lösen inhomogener, linearer Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . Legendre-Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.1 Motivation und definierende Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.2 Orthogonalität der Legendre-Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4.3 Entwicklung in Legendre-Polynomen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kugelflächenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.1 Motivation und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Anschauliches Verständnis und reelle Kugelflächenfunktionen . . . . . . . . . . . . . . . 4.5.3 Entwicklung in Kugelflächenfunktionen und Eigenschaften der Kugelflächenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formelsammlung – Reihenentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
250 250 254 254 259 262 266 274 274 275 278 278 283 285 289 291 295 295 305 306 308 308 312 320 324
Das Konzept, eine Funktion zu entwickeln, ist in der Physik weit verbreitet. Es gibt dabei verschiedene Arten von Entwicklungen, die in diesem Kapitel vorgestellt werden sollen. Das Ziel einer Entwicklung ist es typischerweise eine andere Darstellung oder eine Annäherung © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_4
249
250
4 Reihenentwicklungen
an die tatsächliche Funktion für gewisse physikalische Situationen zu finden, um so das Problem rechnerisch zu vereinfachen und eine analytische Lösung zu finden.
4.1
Die Taylor-Entwicklung
Ein Beispiel einer solchen Entwicklung ist die Taylor-Entwicklung, die in dem folgenden Abschnitt behandelt werden soll. Sie wird vor allem dann angewendet, wenn das Argument der betrachteten Funktion nur wenig von einem bestimmten Wert abweicht. In der Physik werden auch häufig dimensionslose Quotienten betrachtet, die besonders klein gegenüber eins sind. Beispielsweise ist im klassischen Bereich der statistischen Physik die Separation der Energieniveaus des Systems E besonders klein gegenüber der thermischen Energie kB T , und die Energie erscheint somit als ein Kontinuum. Der Quotient kE wird klein BT gegenüber eins, was durch kE 1 ausgedrückt wird. 1 bezieht sich dabei auf einen BT unspezifischen Faktor, der zumindest kleiner als ein Zehntel ausfallen sollte. Je kleiner dieser Faktor ausfällt, umso besser trifft die Taylor-Entwicklung zu. Ein weiteres bekanntes Beispiel ist die Kleinwinkelnäherung für trigonometrische Funktionen wie die Sinusfunktion, die für ein Argument x im Bogenmaß durch sin(x) ≈ x angenähert wird. Auch hier muss |x| 1 sein.
4.1.1
Motivation und Definition
Zur Motivation soll die Taylor-Reihe durch folgende Problemstellung hergeleitet werden: Ist das Verhalten einer Funktion f (x) nur an der Stelle x0 bekannt, wie kann daraus der Wert der Funktion an der Stelle x bestimmt werden? Zur Veranschaulichung soll schrittweise vorgegangen werden, indem eine Situation betrachtet wird, in der zwei Personen A und B ein Ratespiel spielen. Person A hat sich eine Funktion ausgedacht und verrät Person B immer wieder häppchenweise etwas über das Verhalten der Funktion an der Stelle x0 . Die Aufgabe von Person B besteht dann darin den Funktionswert an der Stelle x zu ermitteln. Dazu konstruiert sie eine Schätzung, die sie mit g(x) bezeichnet. Zu Anfang verrät Person A, dass die Funktion den Funktionswert f (x0 ) besitzt. Welchen Wert kann Person B mit dieser Information vernünftigerweise raten? Da nur ein Funktionswert bekannt ist, gibt es keine Information darüber, ob die Funktion steigt oder fällt oder ob sie gekrümmt ist oder nicht. In Ermangelung dieser Informationen wäre es das Beste für Person B zu raten, dass die Funktion bei x näherungsweise den Funktionswert
4.1
Die Taylor-Entwicklung
251
g(x) = f (x0 ) annimmt. Person A gibt als nächsten Hinweis die Steigung der Funktion an der Stelle x0 als f (x0 ) an. Da Person B dadurch immer noch keine Information über die Krümmung der Funktion, wohl aber über ihre Steigung an der Stelle x0 hat, wäre es das Beste auf Grundlage dieser Informationen den Wert g(x) = f (x0 ) + f (x0 )(x − x0 ) zu raten. Dies ist eine Gerade, die auf dem Punkt (x0 , f (x0 )) aufliegt. Es handelt sich dabei um den einzigen Punkt, von dem Person B sicher weiß, dass er auf der Funktion liegt. Zusätzlich erfüllt diese Schätzung alle vorhandenen Informationen: • Für x = x0 nimmt die Funktion den Wert g(x0 ) = f (x0 ) + f (x0 )(x0 − x0 ) = f (x0 ) an. • Die Ableitung dieser Schätzung ist durch g (x) = f (x0 ) gegeben und stimmt an der Stelle x0 somit mit der Vorgabe g (x0 ) = f (x0 ) überein. Mit der nächsten Information, der zweiten Ableitung f (x0 ) an der Stelle x0 sind nun Informationen über die Krümmung der Funktion bekannt. Es lässt sich so eine Parabel konstruieren, auf der der Punkt (x0 , f (x0 )) liegt und die an der Stelle x0 die Steigung f (x0 ) aufweist. Aus der vorherigen Überlegung erscheint es sinnvoll, dass der neue Term die Form f (x0 )(x −x0 )2 haben sollte. Allerdings muss die Schätzung auch hier die drei vorgegebenen Informationen g(x0 ) = f (x0 ), g (x0 ) = f (x0 ) und g (x0 ) = f (x0 ) erfüllen. Da beim Bilden der Ableitung des Terms (x − x0 )2 ein zusätzlicher Faktor 2 entsteht, muss dieser präventiv in die Schätzung durch g(x) = f (x0 ) + f (x0 )(x − x0 ) +
f (x0 ) (x − x0 )2 2
eingebaut werden. Für die drei oben genannten Bedingungen gilt dann
2 0) • g(x0 ) = f (x0 ) + f (x0 )(x0 − x0 ) + f (x 2 (x 0 − x 0 ) = f (x 0 ), • g (x) = f (x0 ) + f (x0 )(x − x0 ), und somit gilt an der Stelle x = x0 der Ausdruck g (x0 ) = f (x0 ), • g (x) = f (x0 ).
Das Ratespiel kann auf diese Weise unendlich lange weitergeführt werden. Dabei gilt stets, die Schätzung muss alle Informationen, die gegeben sind, erfüllen und darf keine zusätzlichen, willkürlich festgelegten Informationen mit einfließen lassen. So konnte Person B
252
4 Reihenentwicklungen
beispielsweise keine Steigung in die Schätzung mit aufnehmen, als sie nur den Funktionswert an der Stelle x0 kannte. Da die Schätzung eine unendliche Summe aus verschiedenen Potenzen von x − x0 darstellt, wird die Taylor-Entwicklung auch als Potenzreihe bezeichnet. Das Wort Reihe bezieht sich hierbei auf das Bilden einer unendlichen Summe. Durch das sukzessive Fortführen lässt sich so der Ausdruck f (x) =
∞ f (n) (x0 ) (x − x0 )n n!
(4.1)
n=0
finden. Es fällt auf, dass die Schätzung schon bei kleinen Potenzen besonders gut wird, wenn die Größe x − x0 betragsmäßig kleiner ist als eins, |x − x0 | 1. In diesem Fall werden höhere Potenzen des Terms x − x0 immer kleinere Zahlen, und Terme mit höheren Potenzen werden immer unbedeutender und können vernachlässigt werden. Um dies kenntlich zu machen, wird die Summe nach der (n − 1)-ten Potenz abgebrochen und die Potenz (x − x0 )n in Klammern hinter den Buchstaben O gesetzt, um alle verbleibenden Terme zu symbolisieren. Dieser Ausdruck O (x − x0 )n bedeutet also nichts weiter als: Alle folgenden Terme haben mindestens diese Potenz und sind deshalb so klein, dass sie nicht weiter beachtet werden müssen. Dieses Zeichen findet sich unter dem Namen O-Notation und erlaubt es zu markieren, ab welcher Ordnung Terme vernachlässigt werden. Für das eingangs erwähnte Beispiel der Kleinwinkelnäherung gilt beispielsweise sin(x) = x + O(x 3 ), da die nächsten Terme, die von null verschieden sind und beitragen würden, von der Form 3 − x6 aufgebaut sind. Zu diesem Zweck soll die Taylor-Reihe der Funktion f (x) = sin(x) um den Wert x0 = 0 betrachtet werden. Dazu werden zunächst die Ableitungen nach f (x) = cos(x) f (3) (x) = − cos(x)
f (x) = − sin(x) f (4) (x) = sin(x)
bestimmt. Es zeichnet sich also das Muster f (2n) (x) = (−1)n sin(x) ab, womit auch
f (2n+1) (x) = (−1)n cos(x)
4.1
Die Taylor-Entwicklung
253
f (2n) (0) = 0
f (2n+1) (0) = (−1)n
gilt. Einsetzen in die Definition (4.1) der Taylor-Reihe liefert dann f (x) =
∞ ∞ ∞ f (2n) (0) 2n f (2n+1) (0) 2n+1 (−1)n 2n+1 x + x x = (2n)! (2n + 1)! (2n + 1)! n=0
=x−
n=0
x3 6
+
x5 120
n=0
+ O(x 7 ).
Hierbei wurde die Taylor-Reihe bis zur fünften Ordnung berechnet. In Abb. 4.1 sind die Taylor-Reihen für die erste, die dritte und die fünfte Ordnung dargestellt. Hierbei sind zwei Dinge zu erkennen: 1. Die Taylor-Reihe beschreibt die ursprüngliche Funktion nur in der Nähe der Stelle, um die die Entwicklung durchgeführt wird, in diesem Fall x0 = 0. 2. Es wird deutlich, dass die Genauigkeit der Reihe mit zunehmender Ordnung zunimmt. Für kleine Abstände von x0 reichen aber schon wenige Terme der Reihe aus, um eine gute Näherung zu erhalten. Dies stimmt mit den obigen Überlegungen überein.
Abb. 4.1 Schematische Darstellung der Annäherung einer Taylor-Reihe für die Beispielfunktion f (x) = sin(x). Die durchgezogene Linie ist die Funktion sin(x). Die gestrichelte Linie stellt den ersten Term der Taylor-Reihe x dar. Die gepunktstrichelte Linie ist die Taylor-Reihe bis zum zweiten 3 3 x 5 ist Term x − x6 , während die gepunktete Linie die Taylor-Reihe bis zum dritten Term x − x6 + 120
254
4.1.2
4 Reihenentwicklungen
Konvergenz der Taylor-Reihe
Im vorherigen Abschn. 4.1.1 wurde eine Annahme getroffen, die nicht immer wahr ist. Es wurde behauptet, dass durch sukzessives Fortsetzen auf höhere Potenzen eine Summe entsteht, die beim Hinzufügen von immer mehr Termen trotzdem gegen einen unendlichen Wert konvergiert. Selbst wenn alle Summanden stets kleiner werden, garantiert dies nicht zwangsläufig die Konvergenz der Summe, wie durch die harmonische Reihe bekannt ist, in der die Kehrwerte aller natürlichen Zahlen aufsummiert werden. Sie ist nicht konvergent. Ebenso kann es passieren, dass die Taylor-Reihe einer Funktion nicht immer konvergiert. Besitzt die Funktion beispielsweise eine Polstelle an dem Punkt x p ergibt sich für die Reihe um die Stützstelle x0 R = x p − x0 als der Konvergenzradius. Das bedeutet, dass die Taylor-Reihe für |x − x0 | > R nie konvergieren wird, unabhängig davon, wie viele Terme berücksichtigt werden.1 Als Beispiel dafür soll der natürliche Logarithmus ln(1 + x) betrachtet werden. Diese Funktion hat eine Polstelle bei x = −1, wodurch sich für eine Entwicklung um die Stelle x0 = 1 ein Konvergenzradius R = 1 ergibt. Die Reihe konvergiert also beispielsweise nicht für x = 5. Das bedeutet, dass der Wert ln(1 + 5) mit dieser Entwicklung nicht bestimmt werden kann, unabhängig davon, wie viele Glieder betrachtet werden.
4.1.3
Wichtige Taylor-Reihen
Im Folgenden sollen einige Reihenentwicklungen angegeben werden, die immer wieder auftauchen. Hierbei wird immer die Entwicklung um x0 = 0 betrachtet, sodass die TaylorReihe eine gute Näherung der Funktion für kleine Werte von |x| 1 ergibt. Es soll dabei in den meisten Fällen nicht auf die Herleitung durch die Definition (4.1) eingegangen werden. • Die binomische Taylor-Entwicklung Zunächst soll ein besonders nützlicher Fall betrachtet werden, der es erleichtert einige weitere Taylor-Reihen direkt zu bestimmen. Dazu wird der binomische Lehrsatz
(1 + x) = n
n n k=0
k
xk
1 Über die Konvergenz auf dem Konvergenzradius |x − x | = R lässt sich im Allgemeinen keine 0
Aussage treffen. Es gibt Situationen, in denen die so entstehende Reihe konvergiert oder aber divergiert.
4.1
Die Taylor-Entwicklung
255
herangezogen, der mit einer natürlichen Zahl n die n-te Potenz von 1 + x beschreibt. Dabei sind n =1 0 und n! n(n − 1) · · · (n − k + 1) n = = k (n − k)!k! k! der k-te Binomialkoeffizient, wenn k ≥ 1, k = n ist. Es wurde dabei verwendet, dass wegen n > k der Ausdruck n! auch den Ausdruck (n − k)! beinhaltet und dieser herausgekürzt werden kann. Im Zähler verbleibt dann das Produkt von der Zahl n − k + 1 bis hin zu n. Der Binomialkoeffizient ließe sich dann also auch als k 1 n = (n − m + 1) k k! m=1
schreiben. Durch diese Ausdrücke ist schon die Taylor-Reihe für natürliche Potenzen n als n 1 (1 + x) = 1 + k! n
k=1
= 1 + nx +
k
(n − m + 1) x k
(4.2)
m=1
n(n − 1) 2 n(n − 1)(n − 2) 3 x + x + O(x 4 ) 2 6
vollständig bekannt, bei der es sich um eine endliche Summe handelt. Wird beispielsweise bis zu Termen der ersten Ordnung eine Näherung für (a + x)3 gesucht, ergäbe sich die Abschätzung (1 + x)3 = 1 + 3x + O(x 2 ). Darüber hinaus vermag es diese Reihe aber auch die Taylor-Reihe von Wurzeln oder Kehrbrüchen zu bestimmen. Dazu wird erneut der Ausdruck für den Binomialkoeffizienten k 1 n = (n − m + 1) k k! m=1
256
4 Reihenentwicklungen
herangezogen. Durch dessen besondere Form lässt sich erklären, warum für natürliche Potenzen eine endliche Summe auftritt. Wird für k der Wert n eingesetzt, ergibt sich der Binomialkoeffizient zu 1. Wird stattdessen für k die n + 1 eingesetzt, so entsteht ein Faktor n + 1 − n − 1 = 0, der den gesamten Binomialkoeffizienten verschwinden lässt. Dies gilt auch für alle Werte von k mit k − n > 1. Damit kann in dem gefundenen Ausdruck die Summe über k auch bis unendlich laufen, da ab k = n + 1 alle Terme verschwinden. Der Ausdruck ∞ 1 (1 + x) = 1 + k! n
k=1
k
(n − m + 1) x k
(4.3)
m=1
ist dann der Startpunkt, um die Taylor-Reihe von Kehrbrüchen und Wurzeln zu bestimmen. • Kehrbrüche Die grundlegende Frage ist: Was passiert mit dem Ausdruck (4.3), wenn nicht eine natürliche Zahl n, sondern eine ganze Zahl, wie beispielsweise n = −1 eingesetzt wird. Auf der linken Seite ergäbe sich so der Ausdruck (1 + x)−1 =
1 , 1+x
während sich auf der rechten Seite die Summe ∞ 1 1+ k! k=1
k
(−1)m x k = 1 +
m=1
∞ (−1)k k=0
k!
k!x k = 1 +
∞ (−1)k x k k=0
ergibt. Dabei wurde der wiederkehrende Faktor (−1) aus dem Produkt herausgezogen unter der Berücksichtigung, dass er k-mal auftritt. Außerdem wurde aus dem Produkt k m die Fakultät von k extrahiert. m=1
Da nun in dem Produkt nicht mehr der Fall auftritt, dass ein Faktor 0 wird, ist die Summe tatsächlich unendlich lang. Und es ergibt sich die Taylor-Entwicklung ∞
1 =1+ (−1)k x k 1+x k=0
= 1 − x + x 2 − x 3 + O(x 4 ). Dies führt auch zu den häufig benutzten Abschätzungen
(4.4)
4.1
Die Taylor-Entwicklung
257
1 ≈1−x 1+x
1 ≈1+x 1−x
für besonders kleine x. Über die Definition (4.1) lässt sich auch nachrechnen, dass Gl. (4.4) wirklich die TaylorReihe der Funktion 1 1+x ist. Aus der Polstelle bei x = −1 ist klar, dass die Reihe nur für Werte −1 < x < 1 sicher konvergiert. • Wurzeln √ Um die Taylor-Reihe der Wurzel 1 + x zu bestimmen, wird wieder vom Ausdruck (4.3) ausgegangen. Diesmal wird jedoch die Potenz n = 21 eingesetzt, um ∞ 1 1+ k! k=1
k
k ∞ 1 1 k −m+1 (3 − 2 m) x k x =1+ 2 2k k!
m=1
k=1
m=1
auf der rechten Seite zu erhalten. Damit ergibt sich ∞ √ 1 1+x =1+ k 2 k!
k=1
=1+
k
(3 − 2m) x k
(4.5)
m=1 x3
x2 x − + + O(x 4 ) 2 8 16
als Taylor-Reihe. Da die Funktion nur für x > −1 definiert ist, ist ihre Taylor-Reihe nur für −1 < x < 1 sicher konvergent. • Kehrbruch der Wurzel Um aus Gl. (4.3) die Taylor-Reihe der Funktion 1 √ 1+x zu erhalten, wird n auf − 21 gesetzt. Dadurch ergibt sich die Taylor-Entwicklung ∞ (−1)k
1
=1+ √ 2k k! 1+x k=1 =1−
k
(2m − 1) x k
m=1
x 3 5 + x 2 − x 3 + O(x 4 ), 2 8 16
(4.6)
258
4 Reihenentwicklungen
die nur auf dem Bereich −1 < x < 1 sicher konvergent ist. • Binomialentwicklung für eine reelle Potenz Für eine reelle Potenz n = r wird Ausdruck (4.3) zu der Reihe ∞ 1 (1 + x) = 1 + k! r
k=1
= 1+r ·x +
k
(r − m + 1) x k
(4.7)
m=1
r (r − 1) 2 r (r − 1)(r − 2) 3 x + x + O(x 4 ). 2 6
• Trigonometrische Funktionen Aufgrund der in Abschn. 1.3 berechneten und in Abschn. 1.3.4 aufgeführten Ableitungen von trigonometrischen Funktionen lassen sich die Taylor-Reihen des Sinus, ∞ x 2k+1 (−1)k sin(x) = (2k + 1)!
(4.8)
k=0
=x−
x3 x5 + + O(x 7 ), 6 120
und des Kosinus,
cos(x) =
∞ x 2k (−1)n (2k)!
(4.9)
k=0
=1−
x4 x2 + + O(x 6 ) 2 24
bestimmen. • Hyperbolische Funktionen Aufgrund der in Abschn. 1.3 berechneten und in Abschn. 1.3.4 aufgeführten Ableitungen von hyperbolischen Funktionen lassen sich die Taylor-Reihen des Sinus hyperbolicus,
sinh(x) =
∞ k=0
=x+ und des Kosinus hyperbolicus,
x 2k+1 (2k + 1)! x3 x5 + + O(x 7 ), 6 120
(4.10)
4.1
Die Taylor-Entwicklung
259 ∞ x 2k cosh(x) = (2k)!
(4.11)
k=0
=1+
x4 x2 + + O(x 6 ) 2 24
bestimmen. • Exponentialfunktion Da die Exponentialfunktion beim Ableiten sich selbst ergibt, ist das Finden der TaylorReihe exp (x) =
∞ xk k!
(4.12)
k=0
=1+x +
x3 x4 x2 + + + O(x 5 ) 2 6 24
besonders einfach, da f (n) (0) = f (0) = 1 gilt. • Logarithmus Da Werte von x um null herum betrachtet werden sollen und ln (x) dort eine Polstelle hat, soll stattdessen die Funktion ln (1 + x) betrachtet werden, deren Taylor-Reihe durch ln (1 + x) =
∞
(−1)k
k=1
=x−
xk k
(4.13)
x3 x4 x2 + − + O(x 5 ) 2 3 4
gegeben ist und auf −1 < x < 1 sicher konvergiert.
4.1.4
Verkettete Taylor-Reihen
Bisher wurden Taylor-Reihen betrachtet, in denen x immer isoliert auftritt. In der Physik kommen vor allem Terme vor, in denen die zu entwickelnde Größe ein Quadrat von x oder ein Polynom in x ist. Um mit solchen Ausdrücken umzugehen, können die bereits gefundenen Taylor-Entwicklungen verwendet werden, wenn das Quadrat von x klein gegenüber eins ist, was für kleine |x| 1 immer der Fall ist, oder wenn das betrachtete Polynom klein gegenüber eins ist. Es sollen dazu zwei Beispiele angeführt werden. √ √ • Die Funktion 1 + x 2 lässt sich mit der kleinen Größe u = x 2 als die Funktion 1 + u schreiben, deren Taylor-Entwicklung
260
4 Reihenentwicklungen ∞ √ 1 1+u =1+ k 2 k!
k
bekannt ist. Die Taylor-Entwicklung der Funktion zung von u mit x 2 zu ∞ 1 2 1+x =1+ 2k k!
(3 − 2m) u k
m=1
k=1
k=1 x2
√ 1 + x 2 kann daraus durch die Erset-
k
(3 − 2m) x 2k
m=1
x4 x6 − + + O(x 8 ) =1+ 2 8 16 gefunden werden. • Das zweite äußerst wichtige Beispiel hängt mit typischen physikalischen Abstandsgesetzen zusammen. Die Coulomb-Kraft und die Newton’sche Gravitationskraft fallen beide mit dem Quadrat des Abstands von der Quelle ab. Dies sorgt dafür, dass die Potentiale mit dem Abstand abfallen. Die Potentiale können dabei über Integrale der Form
ρ(rr ) d3 r |rr − r | bestimmt werden. Die genaue Behandlung dieser Integrale wird in Abschn. 8.4 eingeführt. Wichtig ist hierbei nur, dass der Vektor r effektiv alle möglichen Positionen der Quellen der Felder überstreicht und der Vektor r den Punkt repräsentiert, an dem das Feld betrachtet werden soll. Befinden sich nun alle Ladungen innerhalb einer Kugel mit Radius R, deren Mittelpunkt im Koordinatenursprung liegt, und ist der Betrag des Vektors r sehr groß gegenüber R, also R 1, |rr | so sind auch die Beträge des Vektors r gegenüber |rr | sehr klein. Von nun an sollen der Betrag von r mit r und der des Vektor r mit r bezeichnet werden, es gilt also r 1. r Die Idee ist es nun, innerhalb des Integrals den Ausdruck 1 |rr − r | für eben diesen Fall zu entwickeln und nur die ersten paar Terme zu betrachten. Dieses Vorgehen wird auch als Multipolentwicklung bezeichnet. Der Ausdruck lässt sich als
4.1
Die Taylor-Entwicklung
261
1 1 =√ 2 |rr − r | r − 2rr · r + r 2 1 1 = 2 r 1 + rr − 2 rr rˆ · rˆ schreiben. Darin bezeichnen rˆ und rˆ die Einheitsvektoren jeweils in r - und r -Richtung. Ihr Skalarprodukt ist wegen den Überlegungen aus Abschn. 1.6 nur von den Winkeln zwischen ihnen abhängig und damit unabhängig von den Beträgen r und r . Somit steht in der Wurzel eine Summe aus einer Eins und dem kleinen Polynom 2 r r − 2 rˆ · rˆ r r
u= in der kleinen Variable
r r.
Durch die Ersetzung von u im Ausdruck (4.6) ∞ (−1)k
1
=1+ √ 2k k! 1+u k=1
k
(2m − 1) u k
m=1
ergibt sich so die Entwicklung 1+
1 2 r r
− 2 rr rˆ · rˆ
1 =1− 2
r 2 r − 2 rˆ · rˆ r r
2
r 2 r r 3 − 2 rˆ · rˆ +O r r r
r r 3 r 2 3(ˆr · rˆ )2 − 1 = 1 + rˆ · rˆ + +O , r r 2 r 3 + 8
wobei beim Übergang in die letzte Zeile höhere Ordnungen, die zuvor explizit in den Klammern aufgeführt waren, in die O-Notation mit aufgenommen wurden. Diese besondere Entwicklung beinhaltet Polynome in der Größe rˆ · rˆ , die als Legendre-Polynome bezeichnet werden und in Abschn. 4.4 noch eingehend untersucht werden. Die auf diese Weise entstehenden Integrale2
1 1 d3r ρ(rr ) d3r ρ(rr )(rr · r ) r r3 lassen sich wesentlich leichter behandeln als das ursprüngliche Integral. 2 Der dritte Term bedarf weiterer Umformungen, weswegen dieser hier nicht weiter betrachtet werden
soll.
262
4.1.5
4 Reihenentwicklungen
Taylor-Reihe in führender Ordnung
Häufig werden so kleine Zahlen |x − x0 | 1 betrachtet, dass es nur notwendig wird, den ersten nicht verschwindenden Term der Taylor-Reihe zu bestimmen. Es handelt sich dann also um die erste, von null verschiedene Ableitung, der Funktion f , die sich dann als f (x) = f (x0 ) + f (x0 )(x − x0 ) für den Fall, dass f (x0 ) = 0 ist, oder f (x) = f (x0 ) +
f (x0 ) (x − x0 )2 2
für den Fall, dass f (x0 ) = 0 und f (x0 ) = 0 sind, schreiben lässt. In diesem Fall wird von einer Taylor-Reihe bis zur führenden bzw. bis zur ersten nicht verschwindenden Ordnung gesprochen. Fälle, in denen die ersten zwei Ableitungen beide null sind und die dritte von null verschieden ist, kommen in der Physik kaum vor. Mithilfe der Taylor-Entwicklungen erster Ordnung lassen sich auch die ersten Terme in den Taylor-Reihen für bestimmte Umkehrfunktionen oder die Taylor-Reihe für die Brüche aus Funktionen mit bekannter Taylor-Reihe bestimmen. Diese beiden Fälle sollen im Folgenden betrachtet werden: 1. Umkehrfunktionen Für diese Betrachtung soll angenommen werden, dass sowohl für die Funktion f (x) als auch für ihre Umkehrfunktion f −1 (y) die führende Ordnung linear sein soll, dass sich also f als f (x) = f (x0 ) + f (x0 )(x − x0 ) schreiben lässt, während der lineare Term für f −1 noch als unbekannte Konstante a in der Form f −1 (y) = f −1 (y0 ) + a(y − y0 ) angesetzt werden soll. Dabei sollen x0 und y0 über y0 = f (x0 )
x0 = f −1 (y0 )
zusammenhängen. Die Funktion f wird also um den Punkt (x0 , y0 ) herum entwickelt, während f −1 um den Punkt y0 , x0 betrachtet wird. Da die Umkehrfunktion den Zusammenhang x = f −1 ( f (x))
4.1
Die Taylor-Entwicklung
263
erfüllen muss, lässt sich durch Einsetzen y = f (x) der beiden obigen Ausdrücke gemäß x = f −1 (y) = f −1 (y0 ) + a(y − y0 ) = f −1 (y0 ) + a[ f (x0 ) + f (x0 )(x − x0 ) − y0 ] = x0 + a f (x0 )(x − x0 ) = x0 (1 − a f (x0 )) + a f (x0 )x die Gleichung 1 1 = −1 f (x0 ) f ( f (y0 ))
!
a=
ablesen. Dies führt auf die Taylor-Reihe in führender Ordnung der Umkehrfunktion als f −1 (y) = f −1 (y0 ) +
1 (y − y0 ) + O((y − y0 )2 ). f ( f −1 (y0 ))
In dem hier vorgestellten Verfahren wurden für die Funktion und ihre Inverse eine lineare Taylor-Reihe angenommen. Diese wurden über die Verknüpfungsgleichung f −1 ( f (x)) = x in Verbindung gesetzt, um so die Koeffizienten in der Taylor-Reihe mit den Eigenschaften der Funktion f in Verbindung zu bringen. Dieses Ergebnis hätte auch durch das naive Einsetzen in Gl. (4.1) erfolgen können, wobei d −1 1 f (y) = −1 dy f ( f (y)) aus Abschn. 1.3 Anwendung hätte finden müssen. Mittels dieses Vorgehens kann auch die zweite Ableitung der Umkehrfunktion zu f ( f −1 (y)) 1 1 d2 −1 −1 = − f (y) = − f ( f (y)) dy 2 [ f f −1 (y))]2 f ( f −1 (y)) [ f ( f −1 (y))]3 bestimmt werden. Ebenso lässt sich die dritte Ableitung aus der Quotientenregel f ( f −1 (y)) f ( f −1 (y)) − 3( f ( f −1 (y)))2 d3 −1 f (y) = − dy 3 [ f ( f −1 (y))]5 bestimmen. Damit lässt sich die noch ausführlichere Form der Taylor-Reihe der Umkehrfunktion zu f ( f −1 (y0 )) (y − y0 )2 f ( f −1 (y0 )) 2[ f ( f −1 (y0 ))]3 f ( f −1 (y0 )) f ( f −1 (y0 )) − 3( f ( f −1 (y0 )))2 − (y − y0 )3 6[ f ( f −1 (y0 ))]5
f −1 (y) = f −1 (y0 ) +
1
+ O((y − y0 )4 )
(y − y0 ) −
(4.14)
264
4 Reihenentwicklungen
bestimmen. Wenn von vorneherein einfach die Gl. (4.1) hätte benutzt werden können, warum wird dieses Verfahren hier trotzdem vorgestellt? In Kap. 7 werden sogenannte Matrizen und Funktionen von Matrizen eingeführt. Im Zuge dessen wird auch ein neuer Begriff einer Inversen eingeführt, einer inversen Matrix. In Kap. 10 werden dann Größen eingeführt, die jedem Punkt im Raum eine Matrix zuordnen.3 Mit diesen mathematischen Werkzeugen lässt sich die allgemeine Relativitätstheorie formulieren, und es lassen sich auch hier die recht komplizierten Gleichungen auf einfachere Gleichungen reduzieren, indem für diese Matrizen eine Taylor-Entwicklung durchgeführt wird. Da es notwendig ist, nicht nur die Matrizen selbst, sondern auch ihre Inversen zu kennen, muss klar sein, wie eine Inverse bestimmt werden kann. Dies geschieht über einen Ansatz, der sehr ähnlich zu dem hier vorgestellten ist. Die bekannte Taylor-Reihe der Matrix und die unbekannte Reihe der Taylor-Reihe der inversen Matrix werden aufgeschrieben und durch ihre Verknüpfungsgleichung so lange bearbeitet, bis die Taylor-Reihe der inversen Matrix vollständig durch die Parameter aus der Taylor-Reihe der Matrix bekannt ist. Mit den sich daraus ergebenden Formeln lassen sich im Rahmen der allgemeinen Relativitätstheorie beispielsweise Gravitationswellen herleiten. Es sollen einige nützliche Beispiele in Form der Taylor-Entwicklungen in führender Ordnung für die trigonometrischen und hyperbolischen Funktionen folgen: • Arkussinus Die Entwicklung soll hier um y0 = 0 stattfinden, die Ableitungen des Sinus werden also an der Stelle f −1 (0) = Arcsin(0) = 0 betrachtet. Damit ergibt sich der Ausdruck Arcsin(y) = y +
1 3 y + O(y 5 ). 6
(4.15)
• Arkuskosinus Die Entwicklung soll hier um y0 = 0 stattfinden; die Ableitungen des Kosinus werden also an der Stelle f −1 (0) = Arccos(0) = π/2 betrachtet. Damit ergibt sich der Ausdruck Arccos(y) = π/2 − y −
1 3 y + O(y 5 ). 6
(4.16)
• Arkussinus hyperbolicus Die Entwicklung soll hier um y0 = 0 stattfinden; die Ableitungen des Sinus hyperbolicus4 werden also an der Stelle f −1 (0) = Arsinh (0) = 0 betrachtet. Damit ergibt 3 Es handelt sich dabei um sogenannte Tensoren bzw. genauer Tensorfelder, die die mathematische
Grundlagen der allgemeinen Relativitätstheorie sind. 4 Die Umkehrfunktion des hyperbolischen Kosinus lässt sich nicht auf diese Weise finden, da dieser
bei y = 1 eine unendlich hohe erste Ableitung aufweist.
4.1
Die Taylor-Entwicklung
265
sich der Ausdruck Arsinh (y) = y −
1 3 y + O(y 5 ). 6
(4.17)
2. Brüche und Produkte von Funktionen mit bekannter Taylor-Reihe Sollen Brüche oder Produkte zweier Funktionen f und g mit bekannten Taylor-Reihen bestimmt werden, so können die Taylor-Reihen eingesetzt werden und alle Terme vernachlässigt werden, die über die führende Ordnung hinausgehen. Praktische Beispiele hierfür sind die trigonometrische und hyperbolische Tangensfunktion: • Tangens Der Tangens ist durch tan(x) =
sin(x) cos(x)
definiert. Soll dieser um den Punkt x = 0 herum entwickelt werden, werden die beiden Reihen in führender Ordnung x− sin(x) ≈ cos(x) 1−
x3 6 x2 2
eingesetzt. Da die Abweichung im Nenner klein ist, kann eine verkettete Taylor-Reihe mit Gl. (4.4) gemäß x− 1−
x3 6 x2 2
x2 x3 1+ ≈ x− 6 2 x3 x3 − + O(x 5 ) 2 6 x3 + O(x 5 ) =x+ 3 =x+
gebildet werden. Damit ist die Taylor-Entwicklung des Tangens sogar bis zur dritten Ordnung tan(x) = x +
x3 + O(x 5 ) 3
bestimmt. • Tangens hyperbolicus Der Tangens hyperbolicus ist durch tanh(x) =
sinh(x) cosh(x)
(4.18)
266
4 Reihenentwicklungen
definiert. Soll dieser um den Punkt x = 0 herum entwickelt werden, werden die beiden Reihen in führender Ordnung x+ sinh(x) ≈ cosh(x) 1+
x3 6 x2 2
eingesetzt. Da die Abweichung im Nenner klein ist, kann eine verkettete Taylor-Reihe mit Gl. (4.4) gemäß x+ 1+
x3 6 x2 2
x2 x3 1− ≈ x+ 6 2 x3 x3 + + O(x 5 ) 2 6 x3 + O(x 5 ) =x− 3 =x−
gefunden werden. Damit ist die Taylor-Entwicklung des Tangens hyperbolicus sogar bis zur dritten Ordnung tanh(x) = x −
x3 + O(x 5 ) 3
(4.19)
bestimmt.
4.1.6
Der Potenzreihenansatz zum Lösen von Differentialgleichungen
Liegt eine lineare Differentialgleichung n-ter Ordnung mit nicht konstanten Koeffizienten n
ak (x) f (k) (x) = 0
(4.20)
k=0
vor, so kann durch eine Reihenentwicklung der Funktion f (x) in Monomen x l versucht werden die Lösung zu bestimmen. Dazu ist es hilfreich, wenn die Koeffizientenfunktionen bekannte Potenzreihen haben oder im Idealfall Polynome sind. Mit dem Ansatz f (x) =
∞
cl x l
(4.21)
l=0
können alle weiteren Ableitungen zu f (k) (x) =
∞ l=k
∞
(l + k)! l! cl x l−k = cl+k x l (l − k)! l! l=0
(4.22)
4.1
Die Taylor-Entwicklung
267
berechnet werden, wobei im zweiten Schritt eine Verschiebung des Index l → l + k durchgeführt wurde. Dieses Ergebnis kann nun in die Differentialgleichung eingesetzt werden, um n
ak (x) f (k) (x) =
k=0
n
ak (x)
k=0
∞ (l + k)! l=0
l!
cl+k x l = 0
zu erhalten. In Fällen mit nicht konstanten ak (x) muss die Potenzreihe der ak (x) ausgeschrieben werden, und es müssen alle x der selben Potenz l in dieser Summe ausgeklammert werden, um so den Koeffizienten zu einem festen l zu erhalten. Da sich dies allgemein nur sehr umständlich aufschreiben lässt, soll hier das Vorgehen anhand von konstanten Koeffizienten betrachtet werden. In den Beispielen wird auch eine Gleichung mit nicht konstanten Koeffizienten betrachtet. Ist die zu lösende Differentialgleichung also durch n
ak f (k) (x) = 0
k=0
gegeben, so lässt sich mit dem Ansatz (4.21) die Gleichung n
n ∞ ∞ (l + k)! (l + k)! l cl+k x = cl+k x l = 0 ak ak l! l! k=0
l=0
l=0
k=0
aufstellen. Da die Monome x l voneinander linear unabhängig sind, muss die Klammer bereits null sein, sodass n k=0
ak
(l + k)! cl+k = 0 l!
(4.23)
gilt. Das ist eine rekursive, numerische Gleichung, die cl bis cl+k miteinander verknüpft. Ziel ist es dann diese rekursiven Gleichungen in explizite Gleichungen umzuwandeln und so die Entwicklungskoeffizienten cl zu bestimmen. Die Anfangsbedingungen der Differentialgleichungen werden dann dadurch eingearbeitet, dass die expliziten Ausdrücke der cl z. B. proportional zu c0 oder c1 sind, also cl mit niedrigen l beinhalten. Die Anfangsbedingungen werden dann durch die Wahl dieser cl festgelegt. Die Anzahl der cl , die so festgelegt werden müssen, entspricht dem Grad der Differentialgleichung. Zuletzt muss noch geprüft werden, ob die so entstandene Potenzreihe auch konvergiert. Hierdurch ergeben sich teilweise wichtige Folgerungen für die Struktur der Differentialgleichungen und der damit verbundenen physikalischen Systeme, wie im Beispiel für nicht konstante Koeffizienten klar wird. Da in der Physik auch Funktionen von komplexen Zahlen vorkommen, ist es manchmal nötig Differentialgleichungen mit komplexen Variablen zu lösen. Der Potenzreihenansatz
268
4 Reihenentwicklungen
lässt sich mit der Laurent-Reihe aus Abschn. 4.2 analog definieren, um auch in solch einem Fall Lösungen finden zu können. Beispiel für konstante Koeffizienten Als erstes Beispiel soll der klassische harmonische Oszillator x (t) + ω02 x(t) = 0 betrachtet werden. Die Rolle der Variable x wird hier von der Zeit t übernommen, während x(t) die gesuchte Funktion ist. Der Ansatz für die Funktion x(t) =
∞
cl t l
l=0
liefert die Ableitungen
x (t) =
∞
(l + 1)cl+1 t l
x (t) =
∞
l=0
(l + 1)(l + 2)cl+2 t l ,
l=0
welche in die Differentialgleichung eingesetzt werden können, um ∞
cl+2 (l + 2)(l + 1) + ω02 cl t l = 0
l=0
zu erhalten. Diese kann nur erfüllt sein, wenn die cl die Rekursionsgleichung cl+2 = −ω02
cl (l + 1)(l + 2)
erfüllen. Zunächst fällt auf, dass hier nur eine Verbindung zwischen l und l + 2 hergestellt wird. Das heißt, dass gerade und ungerade l voneinander unabhängig sind. Daher zerfällt die Potenzreihe in zwei Teile: eine, in der die l = 2m sind, und solche, in denen die l = 2m + 1 sind, wobei m die Werte aller natürlichen Zahlen inklusive der Null annehmen kann. Da so auch nur gerade bzw. ungerade Potenzen von t in x(t) auftauchen, zerfallen die Lösungen in einen geraden und einen ungeraden Anteil. Es lässt sich mittels vollständiger Induktion wie aus Abschn. 2.2 zeigen, dass die expliziten Formen durch
c2m = gegeben sind.
(−1)m 2m ω c0 (2m)! 0
c2m+1 =
(−1)m ω2m+1 c1 (2m + 1)! 0
4.1
Die Taylor-Entwicklung
269
Damit lassen sich die geraden Anteile zu xg (t) =
∞
c2m t 2m = c0
m=0
∞ (−1)m 2m 2m ω t = c0 cos(ω0 t) (2m)! 0
m=0
und die ungeraden Anteile zu
xu (t) =
∞
c2m+1 t 2m+1 = c1
m=0
∞ m=0
(−1)m ω2m+1 t 2m+1 = c1 sin(ω0 t) (2m + 1)! 0
bestimmen, wobei die Potenzreihenentwicklung der trigonometrischen Funktionen ausgenutzt wurde. Beispiel für nicht konstante Koeffizienten Als zweites Beispiel soll der quantenmechanische harmonische Oszillator betrachtet werden. Der Unterschied zum klassischen harmonischen Oszillator besteht bereits darin, dass er eine fundamental andere Differentialgleichung lösen muss. Während der klassische Oszillator die Gleichung
m
d2 x(t) = −V (x) dt 2
mit dem Potential
V (x) =
1 mω02 x 2 2
des harmonischen Oszillators lösen muss, muss in der Quantenmechanik die stationäre Schrödinger-Gleichung
−
2 ψ (x) + V (x)ψ(x) = Eψ(x) 2m
für ψ(x) gelöst werden. Dies führt auch auf einige Besonderheiten, wie das für die Quantenmechanik typische, diskrete Energiespektrum. Wie in Abschn. 2.6.4 bereits diskutiert, lässt sich durch das asymptotische Verhalten im Grenzfall |x| → ∞ die Differentialgleichung auf die Differentialgleichung h (x) − 2xh (x) + (K − 1)h(x) = 0
270
4 Reihenentwicklungen
reduzieren.5 Die Konstante K hängt dabei mit der Energie zusammen und ist direkt proportional zu dieser. Um dieses Problem zu lösen werden nun der Ansatz
h(x) =
∞
cl x l
l=0
gemacht und die Ableitungen
h (x) =
∞
h (x) =
(l + 1)cl+1 x l
l=0
∞ (l + 2)(l + 1)cl+2 x l l=0
berechnet. Die erste Ableitung muss beim Einsetzen in die Differentialgleichung mit x multipliziert werden, sodass sich nach einer weiteren Verschiebung des Index l → l − 1 der Ausdruck
xh (x) = h (x) =
∞ ∞ (l + 1)cl+1 x l+1 = lcl x l l=0
l=1
ergibt. Werden all diese Ergebnisse in die Differentialgleichung eingesetzt, so kann die Gleichung 0 = h (x) − 2xh (x) + (K − 1)h(x) =
∞
(l + 2)(l + 1)cl+2 x l −
l=0
∞
2lcl x l +
l=1
∞
(K − 1)cl x l
l=0
∞ (l + 2)(l + 1)cl+2 − 2lcl + (K − 1)cl x l = 2c2 + (K − 1)c0 + l=1
gefunden werden. Für l = 0 lässt sich die Rekursion c2 =
1−K c0 2
ablesen, während für l > 0 die Rekursion
5 Das x in dieser Differentialgleichung und der Schrödinger-Gleichung sind nicht dasselbe x, da hier eine Variablentransformation durchgeführt wurde, die x dimensionslos macht. Um aber der eingeführten Schreibweise dieses Abschnitts treu zu bleiben, wurde der Name x für die Variable gewählt.
4.1
Die Taylor-Entwicklung
⇒
271
(l + 2)(l + 1)cl+2 − 2lcl + (K − 1)cl = 0 2l + 1 − K cl cl+2 = (l + 2)(l + 1)
gilt. Tatsächlich reduziert sich die letzte Formel für den Fall l = 0 auf die Rekursion für l = 0, sodass für alle l ≥ 0 der Zusammenhang cl+2 =
2l + 1 − K cl (l + 2)(l + 1)
gültig ist. Wie auch im ersten Beispiel gibt es hier nur einen Zusammenhang zwischen jedem zweiten der cl , was heißt, dass die geraden und ungeraden Teile voneinander unabhängig sind. Die Anfangsbedingungen werden über die Konstanten c0 bzw. c1 eingebaut. Nun bleibt die Frage, ob diese Reihen auch konvergieren. Dazu werden große l betrachtet, sodass die Rekursion näherungsweise in
cl+2 ≈
2l 2 cl = cl 2 l l
übergeht, denn für hohe l können alle Konstanten in einer Summe mit l vernachlässigt werden. Wäre dies die tatsächliche Rekursion, würde sie durch
cl = l 2
C
−1 !
gelöst werden, da
cl+2 =
C 2 1 C C cl = l · l = l = (l+2) l −1 ! 2 2 −1 ! 2 ! 2
gilt. Da für hohe l alle Konstanten gegenüber l vernachlässigt werden können, ist auch C cl = l 2
!
eine Näherungslösung. Wird diese Lösung in die Potenzreihe eingesetzt, so ergibt sich näherungsweise
h(x) =
∞ l=0
cl x l ≈
∞ ∞ C C 2l 2 x = C ex , l xl ≈ l! ! l=0 2 l=0
272
4 Reihenentwicklungen
wobei im vorletzten Schritt nur jeder zweite Summand berücksichtigt wurde. Das verändert das Ergebnis dahingehend nicht, dass die Funktion h(x) für positive x sogar noch schnel2 ler gegen unendlich laufen wird als ex . Da aber die Funktionen h(x) multipliziert6 mit 2 e−x /2 gegen null streben müssen, dürfen Koeffizienten mit besonders hohen l nicht vorkommen. Die einzige Möglichkeit dies zu erreichen ist, indem die Reihe an irgendeinem Punkt abbricht, die Rekursion bei irgendeinem n also den Wert cn+2 = 0 ergibt. Um das zu erreichen, müssen die Werte der Konstante K limitiert werden und zwar so, dass 2l + 1 − K = 0 für l = n gilt. Die Konstante K kann also nur Werte der Form K = 2n + 1 annehmen. Dabei kann n alle natürlichen Zahlen und die Null sein. Dass die Konstante K nur bestimmte Werte annehmen kann, ist in der Quantenmechanik auch der Grund für das diskrete Energiespektrum des harmonischen Oszillators. Da für ein gegebenes n nur cn+2 null wird, aber cn+1 und alle anderen Teile dieser Folge nicht null werden, muss die grundlegende Konstante bereits null sein. Das heißt, für ein gerades n ist c0 = 0, und der ungerade Teil trägt nicht bei, und für ein ungerades n ist c1 = 0, und der gerade Teil trägt nichts bei. Da die Lösungen zu der so eingeschränkten Differentialgleichung h (x) − 2xh (x) + (2n + 1 − 1)h(x) = h (x) − 2xh (x) + 2nh(x) = 0 nur eine endliche Summe sind, heißen sie Hermite-Polynome.7 Für die ersten paar n lassen sich die Hermite-Polynome bestimmen. • n = 0 ist ein gerades n, womit c0 = 0, aber c1 = 0 gilt. Außerdem ist K = 2 · 0 + 1 = 1. Wegen
6 Die genauen Gründe dafür hängen damit zusammen, dass die Gleichung für h(x) in Abschn. 2.6.4
dadurch hergeleitet wurde, dass genau dieses asymptotische Verhalten e−x /2 durch einen Produktansatz in die eigentliche Funktion eingebaut wurde. 7 Die verbleibende Konstante c bzw. c wird per Konvention so gewählt, dass die höchste Potenz 0 1 x n den Koeffizienten 2n hat. 2
4.1
Die Taylor-Entwicklung
273
c2 = c0+2 =
2·0+1−1 c0 = 0 2
ist das nullte Hermite-Polynom !
h(x) = c0 ∼ 20 x 0 durch h 0 (x) = 1 gegeben. • n = 1 ist ein ungerades n, womit c1 = 0, aber c0 = 0 gilt. Außerdem ist K = 2·1+1 = 3. Wegen c3 = c1+2 =
2·1+1−3 c1 = 0 3·2
ist das erste Hermite-Polynom !
h(x) = c1 x ∼ 21 x 1 durch h 0 (x) = 2x gegeben. • n = 2 ist ein gerades n, womit c0 = 0, aber c1 = 0 gilt. Außerdem ist K = 2 · 2 + 1 = 5. Wegen c2 = c0+2 =
2·0+1−5 4 c0 = − c0 = −2c0 2 2
und c4 = c2+2 =
2·2+1−5 c2 = 0 4·3
ist das zweite Hermite-Polynom ! h(x) = c0 −2x 2 + 1 ∼ 22 x 2 durch h 2 (x) = 4x 2 − 2 gegeben.
274
4 Reihenentwicklungen
• n = 3 ist ein ungerades n, womit c1 = 0, aber c0 = 0 gilt. Außerdem ist K = 2·3+1 = 7. Wegen c3 = c1+2 =
2·1+1−7 2 c1 = − c1 3·2 3
und c5 = c3+2 =
2·3+1−7 c3 = 0 5·4
ist das dritte Hermite-Polynom 2 3 ! h(x) = c1 − x + x ∼ 23 x 3 3 durch h 3 (x) = 8x 3 − 12x gegeben. Die restlichen Hermite-Polynome können auf die gleiche Weise erarbeitet werden.
4.2
Die Laurent-Reihe
Bisher wurden nur Funktionen betrachtet, die auf ihren jeweiligen Definitionsgebieten um den Entwicklungspunkt herum stetig sind und keine problematischen Stellen, wie beispielsweise Polstellen besaßen. Was passiert nun aber, wenn eine Funktion an eben solch einer Polstelle behandelt werden soll? Um dies zu ermöglichen wird in diesem Abschnitt die Laurent-Reihe eingeführt.
4.2.1
Definition
Die Laurent-Reihe ist eine Verallgemeinerung der Potenzreihe. Sie ist für die Funktion f (x), die an der Stelle x = x0 eine Polstelle besitzt, in erster Linie über eine Potenzreihe f (x) =
∞ k=−∞
ak (x − x0 )k =
∞ k=0
ak (x − x0 )k +
∞
a−k (x − x0 )−k
(4.24)
k=1
definiert. Die Terme negativer Potenz ermöglichen es dabei das Verhalten an der Polstelle zu beschreiben, da x nicht zu sehr von x0 abweichen soll. Es ist sofort klar, dass die LaurentReihe für x = x0 nicht definiert ist, da sie nicht konvergieren wird. Der Term
4.2
Die Laurent-Reihe
275
N (x) =
∞
ak (x − x0 )k
k=0
wird Nebenteil der Laurent-Reihe genannt, während H (x) =
∞
a−k (x − x0 )−k
k=1
als Hauptteil der Laurent-Reihe bezeichnet wird. Um die Koeffizienten ak praktisch zu bestimmen, lassen sich, wie auch in Abschn. 4.1.5, die wichtigsten Koeffizienten der Laurent-Reihe bestimmen, indem die Funktion auf eine bekannte Taylor-Reihe zurückgeführt wird. Dies wird anhand von Beispielen in Abschn. 4.2.2 deutlich. Für eine systematische Bestimmung der Koeffizienten der Laurent-Reihe sind Kenntnisse aus Kap. 5 nötig. Darin werden Funktionen betrachtet, die komplexe Zahlen als Argumente entgegennehmen. Dementsprechend ist der Definitionsbereich dieser Funktionen die komplexe Ebene. Da die reellen Zahlen vollständig in der komplexen Ebene enthalten sind, können gewöhnliche reelle Funktionen auch als Funktionen von komplexen Zahlen aufgefasst werden. Durch die Verallgemeinerung einer reellen Funktion auf eine komplexe Funktion lässt sich die Bestimmung der Koeffizienten der Laurent-Reihe wesentlich leichter handhaben.8 Es zeigt sich, dass, wenn die Funktion f (z) für eine komplexe Zahl z aus einem Kreisring um die Polstelle z 0 stetig ist und durch eine Laurent-Reihe dargestellt werden kann, die Koeffizienten der Laurent-Reihe der Funktion durch ein Kreisintegral der Art 1 f (z) dz (4.25) ak = 2π i γ (z − z 0 )k+1 bestimmt werden können. Die Herleitung dieses Ausdrucks wird in Abschn. 5.2 behandelt und soll hier nur zur Vollständigkeit angegeben werden.
4.2.2
Einige Beispiele
Um zu verstehen, wie in praktischen Fällen die Laurent-Reihe bestimmt werden kann, sollen drei Beispiele betrachtet werden.
8 Es kommt in der Physik öfter vor, dass ein Problem scheinbar komplizierter gemacht werden muss,
um es lösen zu können. So lässt sich zum Beispiel die Differentialgleichung für einen harmonisch getriebenen, gedämpften harmonischen Oszillator durch das Einführen komplexer Größen leichter lösen.
276
4 Reihenentwicklungen
1. Die Kotangensfunktion Die Kotangensfunktion hat an der Stelle x = 0 eine Polstelle. Um die wichtigsten Terme der Laurent-Reihe zu bestimmen, werden die führenden Terme der Taylor-Reihen der Sinus- und der Kosinusfunktion in die Definition cot(x) =
cos(x) sin(x)
eingesetzt, und es ergibt sich der Ausdruck cot(x) ≈
1− x−
x2 2 x3 6
,
welcher mittels der Taylor-Reihe (4.4) in führender Ordnung zu 1− x−
x2 2 x3 6
2
1 1 − x2 · x 1 − x2 6 x2 x2 1 x2 x2 1 1+ = 1− + + O(x 4 ) ≈ · 1− x 2 6 x 2 6 x 1 = − + O(x 3 ) x 3 =
bestimmt werden kann. Damit sind die führenden Terme der Kotangensfunktion um x = 0 durch cot(x) =
x 1 − + O(x 3 ) x 3
(4.26)
bestimmt. 2. Der Kotangens hyperbolicus Der Kotangens hyperbolicus hat an der Stelle x = 0 eine Polstelle. Um die wichtigsten Terme der Laurent-Reihe zu bestimmen, werden die führenden Terme der Taylor-Reihen des Sinus hyperbolicus und des Kosinus hyperbolicus in die Definition coth(x) =
cosh(x) sinh(x)
eingesetzt, und es ergibt sich der Ausdruck coth(x) ≈
1+ x+
x2 2 x3 6
,
welcher mittels der Taylor-Reihe (4.4) in führender Ordnung zu
4.2
Die Laurent-Reihe
1+ x+
x2 2 x3 6
277 2
1 1 + x2 = · x 1 + x2 6 x2 x2 1 x2 x2 1 4 1− = 1+ − + O(x ) ≈ · 1+ x 2 6 x 2 6 x 1 = + + O(x 3 ) x 3
bestimmt werden kann. Damit sind die führenden Terme der Kotangensfunktion um x = 0 durch coth(x) =
x 1 + + O(x 3 ) x 3
(4.27)
bestimmt. Diese Laurent-Reihe findet beispielsweise in der statistischen Physik Anwendung, wo sie besonders häufig bei der Untersuchung von magnetischen Effekten auftaucht. 3. Sinus mit inversem Argument Nun soll ein Beispiel betrachtet werden, in dem sich die gesamte Laurent-Reihe aus der Taylor-Reihe bestimmen lässt. Dazu wird die Funktion 1 f (x) = sin x um die Stelle x0 = 0 betrachtet. Diese Funktion ist für die gewählte Entwicklungsstelle nicht definiert und kann deshalb nicht mit einer Taylor-Reihe entwickelt werden. Es wird eine Substitution u = 1/x durchgeführt. Die Taylor-Reihe des Sinus um die Entwicklungsstelle u = 0 ist durch Gl. (4.8) als sin(u) =
∞ n=0
(−1)n
u5 u 2n+1 u3 + + O(u 7 ) =u− 6 120 (2n + 1)!
bekannt. Die Laurent-Reihe lässt sich nun bestimmen, indem u wieder mit 1/x ersetzt werden soll, womit sich ∞ 1 1 (−1)n sin = 2n+1 x (2n + 1)! x
(4.28)
n=0
=
1 1 1 − 3+ + ··· x 6x 120x 5
als Laurent-Reihe ergibt. Wichtig ist hierbei, dass dieses Vorgehen nur deshalb funktioniert, da die Taylor-Reihe des Sinus einen unendlichen Konvergenzradius besitzt und die Reihenentwicklung anschaulich für den Entwicklungspunkt u = 0 auch Aussagen über das Verhalten an der Stelle u = ∞ und damit x = 1/u = 0 treffen kann. Anders als
278
4 Reihenentwicklungen
bei Taylor-Reihen, geben die ersten Terme nicht das Verhalten in der Nähe der Entwicklungsstelle an, sondern das Verhalten für besonders große Argumente x. Je mehr Terme hinzugenommen werden, desto besser wird die Beschreibung der Funktion in der Nähe von x = 0.
4.3
Die Fourier-Reihe
In den bisherigen Abschnitten wurden die Taylor-Reihe und die Laurent-Reihe, die der Entwicklung einer Funktion in eine Potenzreihe entsprechen, beleuchtet. Dieses Verfahren kann prinzipiell auf jede beliebige Funktion angewendet werden. Oft haben Funktionen aber spezielle Eigenschaften, die in solchen Potenzreihen nicht mehr zu erkennen sind. Eine solche Eigenschaft ist beispielsweise die 2π -Periodizität der trigonometrischen Funktionen Sinus und Kosinus, die nicht aus der Taylor-Reihe ersichtlich ist. Die Frage ist nun also: Wie können andere Reihenentwicklungen gefunden werden, um solche Eigenschaften sichtbar zu machen? In diesem Abschnitt soll etwas allgemeiner die Eigenschaft der Periodizität untersucht werden. Die bekannten trigonometrischen Funktionen bilden dabei die Grundlage der Reihenentwicklung.
4.3.1
Motivation und Definition
Da periodische Funktionen betrachtet werden, die häufig im Rahmen der Signalverarbeitung auftreten, soll als Variable der Funktion der Buchstabe t verwendet werden, welcher die Zeit repräsentiert. Eine Funktion wird als T -periodisch bezeichnet, wenn sie den Zusammenhang f (t + T ) = f (t)
(4.29)
erfüllt. Es lässt sich die Kreisfrequenz ω=
2π T
einführen, die die nachfolgenden Formeln etwas übersichtlicher gestaltet. Es handelt sich dabei um die sogenannte Grundfrequenz der Funktion f . Die grundlegende Idee der Fourier-Reihe besteht nun darin, die Funktion f als die Summe eines konstanten Terms und einer unendliche Summe von Kosinus- und Sinusfunktionen mit Frequenzen, die einem Vielfachen der Grundfrequenz der Funktion f entsprechen, auszudrücken. Der Ansatz dafür wäre also durch f (t) = C +
∞ n=1
an cos(nωt) + bn sin(nωt)
4.3
Die Fourier-Reihe
279
gegeben. Darin beginnt die unendliche Summe mit n = 1, da der Sinusterm für n = 0 keinen Beitrag leisten würde, während der Kosinusterm für n = 0 einen konstanten Beitrag leisten würde, der durch C bereits vollständig abgedeckt sein soll. Die Grundfrequenz trägt dann also einen Term bei, der auf der Zeitskala einer einzelnen Periode T variiert. Die Vielfachen der Grundfrequenz sorgen dafür, dass auch Variationen auf kleineren Zeitskalen betrachtet werden können. Das Doppelte der Grundfrequenz beinhaltet beispielsweise Sinus- und Kosinusfunktionen, die auf einer Zeitskala von T /2 eine ganze Periode durchlaufen. Physikalisch gesehen, handelt es sich bei der doppelten Grundfrequenz um die erste Oberschwingung, so wie ein um eine Oktave höher gespielter Ton auf einem Musikinstrument die erste Oberschwingung mit doppelter Frequenz des Grundtons ist. In diesem Sinne werden Funktionen so nicht mehr dadurch dargestellt, dass jedem Zeitpunkt t ein fester Funktionswert zugewiesen wird, sondern indem jeder Oberschwingung ein Wert zugewiesen wird, der angibt, wie stark diese zur gesamten Funktion beiträgt. Die Unterscheidung in Sinus- und Kosinusfunktionen ist dabei anschaulich die Unterscheidung in Schwingungen, bei denen beide Enden der Schwingung Knoten bzw. beide Enden der Schwingung Bäuche sind. Eine weitere Möglichkeit Funktionen nicht durch ihre Funktionswerte darzustellen, wird in Abschn. 8.4.2 vorgestellt. Dabei werden Funktionen effektiv durch die Menge aller Tangenten repräsentiert. Um nun den konstanten Wert und die einzelnen Koeffizienten zu bestimmen, wird ausgenutzt, dass alle Beiträge zumindest auf dem Intervall von −T /2 bis T /2 periodisch sind und dass sich die Integrale über Produkte von periodischen Funktionen nach den Erkenntnissen aus Abschn. 1.4 bestimmen lassen. Wird also beispielsweise das Integral
T /2 dt f (t) sin(mωt) −T /2
für ein m ∈ N betrachtet, so lässt sich dieses als
T /2
T /2 dt f (t) sin(mωt) =C
−T /2
dt sin(mωt) −T /2
T /2 ∞ + an dt cos(nωt) sin(mωt) n=1
−T /2
T /2 + bn
dt sin(nωt) sin(mωt) −T /2
280
4 Reihenentwicklungen
ausdrücken. Die drei darin auftauchenden Integrale lassen sich dann zu
T /2 −T /2
T /2
1 dt cos(nωt) sin(mωt) = ω
−T /2
T /2 −T /2
1 dt sin(mωt) = ω
1 dt sin(nωt) sin(mωt) = ω
π dx sin(mx) −π
π dx cos(nx) sin(mx) −π
π dx sin(nx) sin(mx) −π
umschreiben. Würde die gleiche Betrachtung mit dem Produkt cos(mωt) f (t) durchgeführt, so würden noch die beiden Integrale
T /2 −T /2
T /2 −T /2
1 dt cos(mωt) = ω
1 dt cos(nωt) cos(mωt) = ω
π dx cos(mx) −π
π dx cos(nx) cos(mx) −π
auftauchen. In beiden Fällen wurde dabei vom Übergang von links nach rechts eine Substitution der Art x = ωt durchgeführt. Es gilt nun also diese fünf Integrale zu bestimmen. Die einfachsten dabei sind die jeweils ersten Integrale 1 ω
π dx sin(mx) −π
1 ω
π dx cos(mx) . −π
Hier kann verwendet werden, dass Sinus und Kosinus 2π -periodische Funktionen sind und ihr Integral jeweils null ergeben muss. Das Integral
π 1 dx cos(nx) sin(mx) ω −π
lässt sich auch sehr leicht bestimmen, da es sich beim Integranden um eine ungerade Funktion handelt, die über ein symmetrisches Intervall integriert wird. Dieses Integral muss also auch null sein.
4.3
Die Fourier-Reihe
281
Die beiden Integrale 1 ω
π
1 ω
dx sin(nx) sin(mx) −π
π dx cos(nx) cos(mx) −π
lassen sich dann bestimmen, indem das trigonometrische Additionstheorem cos((n ± m)x) = cos(nx) cos(mx) ∓ sin(nx) sin(mx) angewendet wird, um die jeweiligen Integranden durch 1 [cos((n − m)x) − cos((n + m)x)] 2 1 cos(nx) cos(mx) = [cos((n − m)x) + cos((n + m)x)] 2 sin(nx) sin(mx) =
zu ersetzen. Da es sich wieder um 2π -periodische Funktionen handelt, verschwindet das Integral. Der einzige Fall, in dem diese Integrale von null verschieden sind, liegt vor, wenn n = m gilt. Der jeweils erste Term wird dann zu einer Eins und die beiden Integrale ergeben damit 1 ω 1 ω
π −π
1 dx sin(nx) sin(mx) = δnm 2ω
π dx cos(nx) cos(mx) = δnm −π
1 2ω
π dx = δnm
π T = δnm ω 2
dx = δnm
π T = δnm . ω 2
−π
π −π
Darin ist δnm das in Abschn. 2.4 eingeführte Kronecker-Delta. Mit diesen Erkenntnissen lassen sich die anfangs eingeführten Integrale nun zu
T /2 dt f (t) cos(mωt) =
∞
an δnm
T T = am 2 2
bn δnm
T T = bm 2 2
n=1
−T /2
T /2 dt f (t) sin(mωt) =
∞ n=1
−T /2
bestimmen. Durch Umstellen können so die beiden Formeln 2 an = T
T /2 dt f (t) cos(nωt) −T /2
(4.30)
282
4 Reihenentwicklungen
und 2 bn = T
T /2 dt f (t) sin(nωt)
(4.31)
−T /2
gefunden werden, mit denen die Koeffizienten der Fourier-Reihe bestimmt werden. Es fehlt noch der konstante Term. Hierfür kann ausgenutzt werden, dass alle Terme der Fourier-Reihe, die Sinus- und Kosinusterme beinhalten, in einem Integral von −T bis T verschwinden. Damit ergibt sich beim Integral über f (t) der Ausdruck
T /2
T /2 dt f (t) = C
−T /2
dt = C T , −T /2
der sich nach C in der Form 1 C= T
T /2 dt f (t) −T /2
umstellen lässt. Rein technisch gesehen, wird f im Integranden ja mit der Funktion cos(0 · ωt) multipliziert, und es lässt sich eine Ähnlichkeit zum Ausdruck für ein hypothetisches a0 bis auf einen Faktor 2 in der Form a0 1 C= = 2 T
T /2 dt f (t)
(4.32)
−T /2
erkennen. Damit lässt sich die Fourier-Reihe dann als ∞
a0 + f (t) = an cos(nωt) + bn sin(nωt) 2
(4.33)
n=1
schreiben. Zum Ende dieses Abschnitts soll noch eine kurze Bemerkung über die mathematische Struktur der Fourier-Reihe gemacht werden. Das Bestimmen der Koeffizienten der FourierReihe hat starke Ähnlichkeit zu dem Einführen eines Skalarprodukts auf einem Vektorraum von Funktionen, wie es in Kap. 3 getan wurde. Tatsächlich spannen die Funktionen cos(nt) mit n ∈ N0 und sin(nt) mit n ∈ N einen Vektorraum auf. Es handelt sich um den Raum der auf dem Intervall [−T /2, T /2] quadratintegrablen Funktionen. Das heißt, eine Funktion f aus dem Vektorraum erfüllt die Eigenschaft
4.3
Die Fourier-Reihe
283
T /2 dt [ f (t)]2 < ∞. −T /2
Die trigonometrischen Funktionen bilden eine vollständige Orthogonalbasis. Die FourierReihe entwickelt einen Vektor | f , also die Funktion f (t) in ihren Anteilen an den Basisvektoren |sn und |cn , die für sin(nωt) und cos(nωt) stehen sollen. Die Fourier-Reihe lässt sich dann schematisch auch mit |f =
∞
∞
|cn
n=0
cn | f sn | f |sn + cn |cn sn |sn n=1
schreiben. Das Skalarprodukt auf diesem Vektorraum ist durch
T /2 f |g =
dt f (t)g(t) −T /2
definiert, und die Basisvektoren erfüllen die Orthogonalitätseigenschaften T 2 T cn |cm = δnm 2 sn |sm = δnm
4.3.2
cn |sm = 0 c0 |c0 = T .
Komplexwertige Fourier-Reihen
In der Physik wird häufig auch die Fourier-Reihe einer komplexen Funktion benötigt. Ähnlich wie bei der Eingangsüberlegung ist das Verwenden der Fourier-Reihe ∞
f (t) =
a0 + an cos(nωt) + bn sin(nωt) 2 n=1
unpraktisch, da nicht sofort der komplexwertige Charakter offensichtlich wird. Stattdessen bietet es sich an die Funktion f durch eine Reihe mit anderen Basisfunktionen auszudrücken. Diese Basisfunktionen sollten dabei auch Oberschwingungen der Grundfrequenz ω beinhalten und direkt den komplexwertigen Charakter verdeutlichen. Eine Möglichkeit dies zu erreichen, besteht darin, die trigonometrischen Funktionen durch ihre komplexen Exponentialfunktionen gemäß cos(x) =
eix + e−ix 2
sin(x) =
eix − e−ix 2i
284
4 Reihenentwicklungen
auszudrücken. Eingesetzt in die Fourier-Reihe ergibt sich so der Ausdruck ∞
f (t) = =
a0 einωt + e−inωt einωt − e−inωt + + bn an 2 2 2i n=1 ∞
a0 + 2
n=1
wobei von dem Zusammenhang Fourier-Reihe durch
1 i
an − ibn inωt an + ibn −inωt e e + , 2 2
= −i Gebrauch gemacht wurde. Dies legt nahe, dass die
f (t) =
∞
cn exp (inωt)
(4.34)
n=−∞
ausgedrückt werden kann.9 Durch einen Vergleich mit dem obigen Ausdruck lassen sich die Bestimmungsgleichungen für die Koeffizienten cn aus den Bestimmungsgleichungen für die Koeffizienten an und bn zu 1 an − ibn cn = = 2 T
=
c−n
1 T
1 an + ibn = = 2 T
=
1 T
T /2 −T /2
1 dt f (t) cos(nωt) − i T
T /2 dt f (t) sin(nωt) −T /2
T /2 dt f (t) exp (−inωt) −T /2
T /2 −T /2
1 dt f (t) cos(nωt) + i T
T /2 dt f (t) sin(nωt) −T /2
T /2 dt f (t) exp (−i(−n)ωt) −T /2
bestimmen, wobei n ∈ N ist. Für den Koeffizienten von n = 0 gilt wieder
T /2
T /2 dt f (t) =
−T /2
dt c0 = c0 T , −T /2
und er lässt sich somit zu
9 Das Vorzeichen im Exponenten ist eine Konvention, die in dieser Form, wegen ihrer Verträglichkeit
mit der Konvention der Fourier-Transformation aus Kap. 6 gewählt werden soll.
4.3
Die Fourier-Reihe
285
1 c0 = T
T /2 dt f (t) exp (−i · 0 · ωt) −T /2
bestimmen. Insgesamt werden die Koeffizienten der komplexen Fourier-Reihe durch 1 cn = T
T /2 dt f (t) exp (−inωt)
(4.35)
−T /2
bestimmt. Die Koeffizienten der komplexen Fourier-Reihe cn sind üblicherweise selbst komplex. Diese komplexe Fourier-Reihe wird auch der Startpunkt für die Fourier-Transformation in Kap. 6 sein. Mit dem Ausdruck für die Koeffizienten der komplexwertigen Fourier-Reihen lassen sich einige allgemeine Eigenschaften bestimmen.
4.3.3
Eigenschaften der Entwicklungskoeffizienten
Nun sollen einige Eigenschaften untersucht werden, die das Bestimmen der Fourier-Reihe unter Umständen einfacher machen können, indem beispielsweise eine unbekannte FourierReihe auf eine bekannte zurückgeführt wird. Dazu werden hauptsächlich die komplexwertigen Fourier-Reihen verwendet. Die betrachteten Funktionen f (t), g(t) und h(t) sollen die Fourier-Reihen ∞
f (t) = g(t) = h(t) =
n=−∞ ∞ n=−∞ ∞
cn exp (inωt) dn exp (inωt) en exp (inωt)
n=−∞
haben. Zusätzlich soll die Funktion f , falls sie reell ist, durch die Reihe ∞
f (t) =
a0 + an cos(nωt) + bn sin(nωt) 2 n=1
gegeben sein. • Linearität Die Funktionen f , g und h sollen über
286
4 Reihenentwicklungen
h(t) = α f (t) + βg(t) zusammenhängen. Die Koeffizienten ihrer Fourier-Reihe hängen dann wegen ∞
h(t) =
en exp (inωt)
n=−∞ ∞
=α
n=−∞ ∞
=
∞
cn exp (inωt) + β
dn exp (inωt)
n=−∞
(αcn + βdn ) exp (inωt)
n=−∞
über en = αcn + βdn
(4.36)
zusammen. Der lineare Zusammenhang zwischen den Funktionen übersetzt sich also direkt in einen linearen Zusammenhang der Fourier-Koeffizienten. • Ableitungen Nun soll die Funktion g durch g(t) = f (t) gegeben sein. Aufgrund des Zusammenhangs g(t) = =
∞
dn n=−∞ ∞ d dt
exp (inωt) cn exp (inωt) =
n=−∞
∞
inωcn exp (inωt)
n=−∞
hängen die Fourier-Koeffizienten gemäß dn = inω · cn
(4.37)
zusammen. Sie sind also dadurch gegeben, dass der Fourier-Koeffizient der n-ten Oberschwingung mit der imaginären Einheit und der Frequenz der n-ten Oberschwingung, nämlich nω multipliziert wird. • Translation in t Der Zusammenhang zwischen g und f soll hier durch g(t) = f (t − τ ) bestimmt sein, wobei τ eine beliebige reelle Zahl ist. Aufgrund des Zusammenhangs
4.3
Die Fourier-Reihe
g(t) = =
∞ n=−∞ ∞
287
dn exp (inωt) cn exp (inω(t − τ )) =
n=−∞
∞
cn exp (−inωτ ) exp (inωt)
n=−∞
hängen die Koeffizienten der Fourier-Reihe über dn = cn exp (−inωτ )
(4.38)
zusammen. Die beiden Koeffizienten der Fourier-Reihe unterscheiden sich damit nur in einem Phasenfaktor, der mit der Verschiebung der Variable τ und der Frequenz nω der betrachteten Oberschwingung zusammenhängt. • Rückführung auf 2π -periodische Funktionen Die Fourier-Reihe einer jeden T -periodischen Funktion f (t + T ) = f (t) kann auf die Fourier-Reihe einer 2π -periodischen Funktion g(u + 2π ) = g(u) zurückgeführt werden. Dafür muss der Zusammenhang f (t) = g(ωt)
(4.39)
hergestellt werden. Mit diesem gilt f (t + T ) = g(ω(t + T )) = g(ωt + ωT ) = g(ωt + 2π ) = g(ωt). Somit müssen die Fourier-Reihen ähnlicher Funktionen nicht mehrmals berechnet werden, sondern es können tabellierte Reihen, die 2π -periodisch sind, nachgeschlagen werden. • Reelle Funktionen in komplexer Darstellung Handelt es sich bei f um eine reelle Funktion, so erzeugt dies eine Einschränkung auf die komplexen Koeffizienten cn . Die Funktion und ihr komplex Konjugiertes lassen sich als f (t) = f ∗ (t) =
∞ n=−∞ ∞ n=−∞
cn exp (inωt) cn∗ exp (−inωt) =
∞
∗ c−n exp (inωt)
n=−∞
schreiben. Durch einen direkten Vergleich ergibt sich die Bedingung
288
4 Reihenentwicklungen ∗ cn = c−n
(4.40)
für die Koeffizienten. • Reelle gerade und ungerade Funktionen Wird eine reelle Funktion betrachtet, welche die Eigenschaft f (−t) = f (t) erfüllt und somit eine gerade Funktion ist, so ist der Koeffizient bn durch 2 bn = T
T /2 dt f (t) sin(nωt) −T /2
gegeben, was einem Integral einer insgesamt ungeraden Funktion über ein symmetrisches Intervall entspricht. Nach den Erkenntnissen aus Abschn. 1.4 ist der Koeffizient damit Null, also durch bn = 0
(4.41)
gegeben. Dies ist unabhängig von der betrachteten Oberschwingung. Der Zusammenhang lässt sich explizit über 2 bn = T 2 = T
T /2 dt f (t) sin(nωt) −T /2
0 −T /2
2 =− T
2 dt f (t) sin(nωt) + T
T /2 dt f (t) sin(nωt) 0
T /2
T /2 dt f (t) sin(nωt) = 0
0
0
2 dτ f (τ ) sin(nωτ ) + T
nachrechnen, wobei beim Übergang in die letzte Zeile die Substitution τ = −t durchgeführt und die Eigenschaft f (−τ ) = f (τ ) ausgenutzt wurden. Schlussendlich wurde noch verwendet, dass die Benennung der Integrationsvariable beliebig ist. Ebenso gilt für ungerade Funktionen f (−t) = − f (t), dass die Koeffizienten
4.3
Die Fourier-Reihe
289
2 an = T
T /2 dt f (t) cos(nωt) −T /2
durch ein Integral einer insgesamt ungeraden Funktion über ein symmetrisches Intervall gegeben sind und damit die Koeffizienten durch an = 0
(4.42)
bestimmt sind. Darüber hinaus wurde in Abschn. 1.2 diskutiert, dass sich die geraden und ungeraden Anteile einer Funktion durch f g (t) =
f (t) + f (−t) 2
f u (t) =
f (t) − f (−t) 2
bestimmen lassen. Damit lassen sich die Koeffizienten der Fourier-Reihe einer beliebigen, reellen Funktion f durch 4 an = T
T /2 dt f g (t) cos(nωt)
4 bn = T
0
T /2 dt f u (t) sin(nωt)
(4.43)
0
bestimmen.
4.3.4
Beispiele für Fourier-Reihen
Es sollen drei typische Beispielsignale untersucht werden, die alle reell sind. 1. Die Rechteckfunktion Die Rechteckfunktion ist durch f (t + T ) = f (t),
f (t) =
−a
−T /2 ≤ t < 0
a
0 ≤ t < T /2
definiert. Darin ist a eine reelle und positive Zahl a ∈ R+ . Die Rechteckfunktion ist damit eine ungerade Funktion, und es müssen nur die Koeffizienten bn mittels 4 bn = T
T /2
T /2
π 4a 4a dt f (t) sin(nωt) = dt sin(nωt) = du sin(nu) T ωT 0
0
0
4a 2a [(−1)n − 1] = [1 − (−1)n ] =− nωT nπ
290
4 Reihenentwicklungen
bestimmt werden, wobei die Substitution u = ωt und der Zusammenhang ωT = 2π verwendet wurden. Die Fourier-Reihe der Rechteckfunktion ist also durch f (t) =
∞ 2a [1 − (−1)n ] sin(nωt) nπ
(4.44)
n=1
gegeben. 2. Die Sägezahnfunktion Die Sägezahnfunktion ist durch f (t + T ) = f (t),
f (t) = at
− T /2 ≤ t < T /2
definiert. Darin ist a eine reelle und positive Zahl a ∈ R+ . Die Sägezahnfunktion ist damit eine ungerade Funktion, und es müssen nur dir Koeffizienten bn mittels 4 bn = T
T /2
T /2
π 4a 4a dt f (t) sin(nωt) = dt t sin(nωt) = 2 du u sin(nu) T ω T 0
0
0
4a π(−1)n 2a = 2 = −(−1)n ω T −n nω bestimmt werden, wobei die Substitution u = ωt und der Zusammenhang ωT = 2π verwendet wurden. Die Fourier-Reihe der Sägezahnfunktion ist also durch f (t) = −
∞
(−1)n
n=1
2a sin(nωt) nω
(4.45)
gegeben. 3. Die Zickzackfunktion Die Zickzackfunktion ist durch f (t + T ) = f (t),
f (t) = a|t|
− T /2 ≤ t < T /2
definiert. Darin ist a eine reelle und positive Zahl a ∈ R+ . Die Zickzackfunktion ist damit eine gerade Funktion, und es müssen nur dir Koeffizienten an für n ∈ N mittels 4 an = T
T /2
T /2
π 4a 4a dt f (t) cos(nωt) = dt t cos(nωt) = 2 du u cos(nu) T ω T 0
0
0
4a (−1)n − 1 2a = 2 [(−1)n − 1] = 2 ω T n2 n πω bestimmt werden, wobei die Substitution u = ωt und der Zusammenhang ωT = 2π verwendet wurden.
4.3
Die Fourier-Reihe
291
Der Koeffizient a0 wird durch 4 a0 = T
T /2
T /2 4a 2a T 2 πa dt f (t) = dt t = = T T 2 ω 0
0
bestimmt. Die Fourier-Reihe der Zickzackfunktion ist also wegen ∞
f (t) =
a0 + an cos(nωt) + bn sin(nωt) 2 n=1
durch ∞
f (t) =
πa 2a + [(−1)n − 1] cos(nωt) 2ω n2π ω
(4.46)
n=1
gegeben.
4.3.5
Lösen inhomogener, linearer Differentialgleichungen
Für lineare Differentialgleichungen mit einer periodischen Inhomogenität ist es möglich eine partikuläre Lösung mithilfe der Fourier-Reihe zu finden. Dazu wird auf einige Erkenntnisse und Definitionen aus Abschn. 2.6 zurückgegriffen. Lässt sich eine lineare Differentialgleichung mit konstanten Koeffizienten durch n
ak f (k) (t) = g(t)
k=0
ausdrücken, wobei g(t) eine periodische Funktion mit Winkelfrequenz ω und bekannter Fourier-Reihe g(t) =
∞
ck exp (iωk t)
k=−∞
mit ωk = kω ist, so kann die partikuläre Lösung bestimmt werden, indem zuerst die Differentialgleichung für eine bestimmte Inhomogenität gelöst wird. Dazu wird die Gleichung n k=0
ak f (k) (t) = eit
(4.47)
292
4 Reihenentwicklungen
aufgestellt, wobei eine beliebige positive Zahl ist. Genau wie bei der Suche nach der Green’schen Funktion, ist es hier zunächst nötig, die Differentialgleichung für eine bestimmte Inhomogenität zu lösen. Diese kann durch den Ansatz f (t) = χ() eit
f (k) (t) = χ ()(i)k eit
⇒
geschehen. Eingesetzt in die Differentialgleichung kann so die noch unbestimmte Funktion χ() mittels n
n n ak f (k) (t) = ak χ()(i)k eit = χ () ak (i)k eit = eit k=0
k=0
k=0
zu 1
χ() =
n
(4.48)
ak (i)k
k=0
bestimmt werden. χ() wird Antwortfunktion des Systems auf periodische Anregungen genannt. Da die periodische Inhomogenität g(t) als Fourier-Reihe ausgedrückt werden kann, ist die Inhomogenität nur die Summe vieler Inhomogenitäten. Da aber die Differentialgleichung linear ist, ist die partikuläre Lösung die Summe über die partikulären Lösungen der Summanden in der Reihendarstellung von g(t). Jeder dieser Summanden stellt die Inhomogenität gk (t) = ck exp (iωk t) dar, der die zugehörende partikuläre Lösung f p,k (t) = ck χ(ωk ) exp (iωk t) entspricht. Daher lässt sich die partikuläre Lösung insgesamt durch f p (t) =
∞
ck χ(ωk ) exp (iωk t)
(4.49)
k=−∞
bestimmen. Zur Probe kann diese Lösung in die ursprüngliche Differentialgleichung eingesetzt werden, und die Rechnung
4.3
Die Fourier-Reihe n
293
ak f p(k) (t)
=
k=0
n k=0
= = = =
n k=0 n
∞ dk ak k cl χ (ωl ) exp (iωl t) dt l=−∞
∞
ak
ak
k=0 ∞
l=−∞ ∞
cl χ(ωl )
cl χ(ωl )(iωl )k exp (iωl t)
l=−∞ n
cl
l=−∞ ∞
dk exp (iωl t) dt k
ak (iωl )
k
χ (ωl ) exp (iωl t)
k=0
cl exp (iωl t) = g(t)
l=−∞
zeigt, dass es sich tatsächlich um die partikuläre Lösung handelt. im letzten Schritt wurde dabei der explizite Ausdruck der Antwortfunktion χ(ωl ) =
1 n
ak (iωl )k
k=0
ausgenutzt. Mit numerischen Berechnungen lässt sich so für beliebige Systeme mit periodischen Inhomogenitäten die partikuläre Lösung relativ einfach bestimmen, da die Fourier-Reihe der partikulären Lösung bekannt ist. Beispiel Als einfaches Beispiel wird der gedämpfte harmonische Oszillator x (t) + 2γ x (t) + ω02 x(t) = f 0 cos(ωt + φ) betrachtet. Zunächst muss die Antwortfunktion bestimmt werden. Da sich die linke Seite als 2
ak x (k) (t)
k=0
mit a0 = ω02 , a1 = 2γ und a2 = 1 schreiben lässt, ist die Antwortfunktion durch χ(ω) =
(iω)2
1 1 = 2 2 2 + 2γ (iω) + ω0 (ω0 − ω ) + 2iγ ω
gegeben. Die Fourier-Reihendarstellung des Kosinus lässt sich über
294
4 Reihenentwicklungen
cos(ωt + φ) =
1 iφ iωt 1 −iφ −iωt e e + e e 2 2
bestimmen. Die Fourier-Koeffizienten c1 =
f 0 iφ e 2
c−1 =
f 0 −iφ e 2
sind also mit der Antwortfunktion χ(ω) und χ(−ω) zu multiplizieren, um mit xp (t) = c1 χ(ω) eiωt +c−1 χ (−ω) e−iωt die partikuläre Lösung zu erhalten. Um die Rechnungen etwas zu vereinfachen, empfiehlt es sich, die Antwortfunktion in die Euler-Darstellung mit Betrag und einer Phase ψ in der Form χ(ω) =
(ω02 − ω2 ) − 2iγ ω 1 = |χ (ω)| eiψ(ω) = (ω02 − ω2 ) + 2iγ ω (ω02 − ω2 )2 + 4γ 2 ω2
mit tan(ψ(ω)) = −
2γ ω − ω2
ω02
|χ(ω)| =
1 χ ∗χ = (ω02 − ω2 )2 + 4γ 2 ω2
zu bringen. Wichtig ist hierbei, dass wegen dem einfachen Auftreten im Nenner des Bruches für die Phase ψ(−ω) = −ψ(ω) gilt, während der Betrag sich unter dem Tausch des Vorzeichens nicht ändert. Damit lässt sich die partikuläre Lösung zu xp (t) = |χ(ω)| c1 ei(ωt+ψ(ω)) +c−1 e−i(ωt+ψ(ω)) f 0 i(ωt+φ+ψ(ω)) f 0 −i(ωt+φ+ψ(ω)) e = |χ(ω)| + e 2 2 cos(ωt + φ + ψ(ω)) = f 0 |χ(ω)| cos(ωt + φ + ψ(ω)) = f 0 (ω02 − ω2 )2 + 4γ 2 ω2 bestimmen. Die Antwortfunktion weist besonders hohe Beträge in der Umgebung von ω = ω0 auf. Dieses Phänomen wird als Resonanz bezeichnet und bei der Behandlung des harmonischen Oszillators für gewöhnlich ausführlich diskutiert.
4.4
Legendre-Polynome
4.4
295
Legendre-Polynome
In diesem und dem folgenden Abschn. 4.5 soll eine Entwicklung in Funktionen stattfinden, die jeweils die Lösungen einer, in der Physik häufig auftretenden, Gleichung unter speziellen Bedingungen sind. Bei dieser Gleichung handelt es sich um die sogenannte LaplaceGleichung, bei der die mehrdimensionale zweite Ableitung einer Funktion f (rr ) = 0 betrachtet wird. Die genauen Details und einige der Manipulationen an dieser Gleichung, die in diesem und dem nächsten Abschnitt erfolgen, richten sich an den Erkenntnissen aus Kap. 8. Für das anschauliche Verständnis genügt es vorerst davon auszugehen, dass die Aussage der Laplace-Gleichung darin besteht, dass ein arithmetisches Mittel über die Funktionswerte um den betrachtet Punkt herum null ergibt. In dem hier vorliegenden Abschnitt soll es um Legendre-Polynome gehen, die bereits in Abschn. 4.1.3 kurz angeschnitten wurden. Dort sind sie bei der Entwicklung der Funktion 1 |rr − r | als Funktionen der Größe rˆ · rˆ aufgetaucht. In Abschn. 4.5 wird auch eine verallgemeinerte Form der hier vorgestellten LegendrePolynome betrachtet, weshalb die hier vorgestellten Legendre-Polynome gelegentlich auch als Legendre-Polynome erster Art bezeichnet werden.
4.4.1
Motivation und definierende Eigenschaften
Zur Motivation der Legendre-Polynome soll zunächst die Laplace-Gleichung in Kugelkoordinaten, für den Fall einer von φ unabhängigen Funktion betrachtet werden. Es handelt sich also um einen zylindersymmetrischen Fall. Der Laplace-Operator lässt sich in Kugelkoordinaten stets, wie es in Kap. 8 ausführlich getan wird, in einen Anteil aufspalten, der nur Ableitungen nach der Abstandskoordinate r beinhaltet, und in einen Teil, der nur Ableitungen nach den Winkeln θ und φ beinhaltet. Der Term mit Ableitungen nach r soll mit r gekennzeichnet werden, während der Term mit Ableitungen nach θ und φ mit θ,φ gekennzeichnet werden soll. Die Laplace-Gleichung lässt sich somit als r f +
1 θ,φ f = 0 r2
schreiben. Der Vorfaktor r12 im Winkelanteil lässt sich anschaulich damit verstehen, dass θ,φ zweite Ableitungen nach den Winkeln θ und φ enthält, der Laplace-Operator aber
296
4 Reihenentwicklungen
zweite Ableitungen nach den Ortskoordinaten sind und deshalb aus Dimensionsgründen ein Faktor, der das inverse Quadrat einer Länge beinhaltet, eingefügt werden muss. Es kann der Ansatz gemacht werden, dass die Funktion f als ein Produkt einer Funktion von r und einer Funktion von θ und φ in der Form f (rr ) = R(r )Y (θ, φ) geschrieben werden kann. Die Laplace-Gleichung lässt sich dann auf 1 θ,φ (R(r )Y (θ, φ)) r2 R(r ) = Y (θ, φ)r R(r ) + 2 θ,φ Y (θ, φ)) r
0 = r (R(r )Y (θ, φ)) +
umformen. Durch eine Division mit R(r ) und Y (θ, φ) lässt sich so die Form r2 1 θ,φ Y = − r R Y R erhalten. Die linke Seite ist dabei nur von θ und φ abhängig, während die rechte Seite nur von r abhängt. Da nun aber prinzipiell r variiert werden kann, ohne dass gleichzeitig θ und φ variiert werden, würde die linke Seite konstant bleiben, während sich die rechte Seite verändert. Da die beiden Seiten aber immer gleich sein müssen, muss es sich bei beiden Seiten um eine Konstante C handeln. Damit lässt sich eine Gleichung nur für den Winkelanteil in der Form θ,φ Y (θ, φ) = CY (θ, φ)
(4.50)
finden. Es handelt sich bei den gesuchten Funktionen Y also um die Eigenfunktionen des Winkelanteils des Laplace-Operators in Kugelkoordinaten. Im Folgenden soll eine zylindersymmetrische Funktion betrachtet werden; das bedeutet, die Funktion Y hängt nur von θ ab, und alle Ableitungen bezüglich φ ergeben null. In Abschn. 4.1.3 wurden die Legendre-Polynome kurz angeschnitten, die dabei als Funktionen von rˆ · rˆ auftraten. Werden Kugelkoordinaten betrachtet und der Vektor r entlang der z-Achse gelegt, so handelt es sich bei dieser Größe um cos θ . Ebenso kann auch allgemein in Kugelkoordinaten die Größe cos(θ) anstelle der Größe θ betrachtet werden, was den Definitionsbereich dieser Größe auf [−1, 1] einschränkt. Deshalb soll nun Gl. (4.50) für die Funktion Y (θ, φ) = P(cos(θ )) betrachtet werden. Der Winkelanteil des Laplace-Operators wird in Kap. 8 hergeleitet, und es ergibt sich so die Gleichung
4.4
Legendre-Polynome
297
d dP 1 sin(θ) CP = sin(θ) dθ dθ d dP 2 = sin (θ) dcos(θ) dcos(θ) dP d 2 = (1 − cos (θ )) , dcos(θ) dcos(θ) wobei die Produktregel dcos(θ) d f df df = = − sin(θ ) dθ dθ dcos(θ ) dcos(θ) verwendet wurde. Um diese Gleichung etwas übersichtlicher zu gestalten, soll cos(θ ) mit x bezeichnet werden, um so d 2 d (1 − x ) P(x) − C P(x) = 0 dx dx (1 − x 2 )P (x) − 2x P (x) − C P(x) = 0
⇒
zu erhalten, wobei beim Übergang in die zweite Zeile die Produktregel für Ableitungen ausgenutzt wurde. Die Variable x nimmt dabei wie oben beschrieben nur Werte aus dem Intervall [−1, 1] an. Um nun Lösungen für diese lineare Differentialgleichung zweiter Ordnung zu finden, empfiehlt es sich die Funktion P als Potenzreihe in der Form P(x) =
∞
ck x k
k=0
zu schreiben. Da es sich um eine Differentialgleichung zweiter Ordnung handelt, müssen zwei der ck vorgegeben werden, während sich alle anderen durch Einsetzen in die Differentialgleichung über (1 − x 2 ) ⇒
∞
ck k(k − 1)x k−2 − 2x
k=0 ∞
∞ k=0
ck kx k−1 − C
∞
ck x k = 0
k=0
ck (1 − x 2 )k(k − 1)x k−2 − 2xkx k−1 − C x k = 0
k=0
⇒
∞
x k ((ck+2 (k + 2)(k + 1) − k(k − 1)ck ) − 2kck − Cck ) = 0
k=0
⇒
∞
x k (ck+2 (k + 2)(k + 1) − (k(k + 1) + C)ck ) = 0
k=0
⇒
ck+2 (k + 2)(k + 1) − (k(k + 1) + C)ck = 0
298
4 Reihenentwicklungen
bestimmen lassen. Dabei wurde beim Übergang in die dritte Zeile eine Indexverschiebung vorgenommen, um alle Beiträge der selben Potenz x k zu sammeln. Beim Übergang in die letzte Zeile wurde verwendet, dass die Summe nur null ergeben kann, wenn alle Koeffizienten null sind, da die Potenzen x k linear unabhängig voneinander sind. Damit lässt sich eine Rekursionsformel der Koeffizienten ck+2 =
k(k + 1) + C ck (k + 2)(k + 1)
finden. Um weitere Aussagen über die Koeffizienten zu treffen, müssen zwei Forderungen eingebracht werden, die beide zum Ziel haben, möglichst einfache Polynome zu erzeugen. Sie traten bereits bei der Betrachtung der Hermite-Polynome in Abschn. 4.1.6 auf. Diese sind: 1. Abbruch der Reihe Es empfiehlt sich endliche Polynome P(x) zu betrachten.10 Damit dies der Fall ist, muss eine spezielle Wahl für C getroffen werden. Durch das Festlegen von C wird nach einer Funktion P(x) gesucht, die die Differentialgleichung für genau diesen Wert von C erfüllt. Wird C auf −l(l + 1) für ein l ∈ N0 gewählt, so ist der Koeffizient cl+2 durch cl+2 =
l(l + 1) − l(l + 1) cl = 0 (l + 2)(l + 1)
gegeben. Alle nachfolgenden Koeffizienten von cl+2 sind dann ebenfalls null. 2. Nur ein Zweig Es mussten zwei Koeffizienten c0 und c1 als Startbedingungen festgelegt werden. Nur eine dieser beiden Folgen c2k und c2k+1 wird schlussendlich cl überstreichen und dadurch ab einem gewissen Folgenglied auf null gesetzt werden. Die andere Folge muss händisch auf null gesetzt werden, indem der Startkoeffizient c0 bzw. c1 auf null gesetzt wird. Dies hat auch zur Folge, dass die Legendre-Polynome abhängig vom Wert von l gerade bzw. ungerade sind. Damit sind einige der grundlegenden Eigenschaften der Legendre-Polynome geklärt. Als Lösung des Winkelanteils der Laplace-Gleichung müssen sie die lineare Differentialgleichung zweiter Ordnung (1 − x 2 )Pl (x) − 2x Pl (x) + l(l + 1)Pl (x) = 0,
(4.51)
die auch als Legendre’sche Differentialgleichung bekannt ist, für ein l ∈ N0 erfüllen. Die Polynome sind endlich und sind gerade Funktionen für gerade Werte von l und ungerade 10 Tatsächlich würden die Reihen nicht konvergieren, falls sie unendlich wären, da die Koeffizienten
für k → ∞ einen konstanten Wert annehmen, der für x = 1 immer weiter aufaddiert würde. Das Polynom würde also für x = 1 nicht definiert sein. Da es aber zum Entwickeln von endlichen Funktionen auf dem Intervall [−1, 1] verwendet wird, erweist sich dies als problematisch.
4.4
Legendre-Polynome
299
Funktionen für ungerade Werte von l. Da es sich aber um eine lineare Differentialgleichung handelt, ist noch keine Aussage über die Normierung der Legendre-Polynome möglich. Aus der Rekursionsformel ck+2 =
k(k + 1) − l(l + 1) ck (k + 2)(k + 1)
(4.52)
lassen sich so, bis auf eine Normierungskonstante die ersten Legendre-Polynome durch l=0
c0 = 0 c1 = 0
⇒
c2 = 0
⇒
P0 = c0
l=1
c0 = 0 c1 = 0
⇒
c3 = 0
⇒
P1 = c1 x
l=2
c0 = 0 c1 = 0
⇒
l=3
c0 = 0 c1 = 0
⇒
c2 = −3c0 c4 = 0 ⇒ P2 = c0 (1 − 3x 2 ) 5 c1 3x − 5x 3 c3 = − c1 c5 = 0 ⇒ P3 = 3 3
herleiten. Bis auf die Koeffizienten sind diese Polynome bereits in der Entwicklung von ∞ 1 = Pl (x)z l √ 2 1 − 2x z + z l=0 als Pl (x) in Abschn. 4.1.3 aufgetreten.11 Hierbei handelt es sich um den zweiten Weg die Legendre-Polynome zu motivieren. Es soll sich um die Menge an Polynomen Pl handeln, welche die Funktion ∞ 1 = Pl (x)z l (4.53) f (z, x) = √ 1 − 2x z + z 2 l=0 für ein |z| < 1 und x ∈ [−1, 1] entwickelt. Die praktische Anwendung bezieht sich dabei auf die Multipolentwicklung, wie sie in Abschn. 4.1.3 bereits diskutiert wurde. Aus der Rechnung ∞ ∞ 1 1 1 f (z, 1) = √ = =1+ = (−1)k (−z)k = zk |1 − z| 1−z 1 − 2z + z 2 k=1 k=0 !
=
∞
Pl (1)z l
l=0
ließe sich so eine Bedingung für die Normierung der Legendre-Polynome in der Form Pl (1) = 1
(4.54)
11 Bei einem solchen Zusammenhang wird die linke Seite als erzeugende Funktion der Polynome
auf der rechten Seite, hier der Legendre-Polynome, bezeichnet.
300
4 Reihenentwicklungen
ableiten. Dabei wurde ausgenutzt, dass die Reihenentwicklung von (1 − z)−1 durch Gl. (4.4) bekannt ist. Es bleibt noch zu zeigen, dass die Polynome Pl aus Gl. (4.53) tatsächlich auch die Legendre’sche Differentialgleichung (4.51) erfüllen. Zu diesem Zwecke werden die Ableitungen von f nach x und nach z in der Form ∞
∂f 1 −2z 3 =− Pl (x)z l 3/2 = z f = ∂x 2 1 − 2x z + z 2 l=0
∂2
f
∂x2
= z·3f2
∂f = 3z 2 f 5 = ∂x
∞
Pl (x)z l
l=0 ∞
1 −2x + 2z ∂f 3 =− Pl (x)lz l−1 3/2 = (x − z) f = ∂z 2 1 − 2x z + z 2 l=0
∂2 f ∂f = − f 3 + 3(x − z)2 f 5 = − f 3 + (x − z) · 3 f 2 ∂z 2 ∂z = − f 3 + 3(x 2 − 2x z + z 2 ) f 5 + 3(1 − 1) f 5 = − f 3 + 3(1 − 2x z + z 2 ) f 5 + 3(x 2 − 1) f 5 = 2 f 3 + 3(x 2 − 1) f 5 =
∞
Pl (x)l(l − 1)z l−2
l=0
bestimmt.12 Beim Übergang in die allerletzte Zeile wurde dabei ausgenutzt, dass (1 − 2x z + z 2 ) = f −2 gilt. In Hinblick darauf, dass die Legendre’sche Differentialgleichung (4.51) erreicht werden soll, wirkt der letzte Term in der zweiten Ableitung nach z ausgesprochen vielversprechend, wenn dieser mit z 2 multipliziert würde. Somit lässt sich über z2
∂2 f = 2z 2 f 3 + 3(x 2 − 1)z 2 f 5 ∂z 2 ∂f ∂f ∂2 f − 2z + (x 2 − 1) 2 = 2x ∂x ∂z ∂x
eine Differentialgleichung für f finden, die auf eine Differentialgleichung für die Pl zurückgeführt werden muss. Darin wurde ausgenutzt, dass wegen den Ableitungen
12 Die Ableitungsoperatoren ∂ und ∂ werden erst vollständig in Kap. 8 eingeführt, bedeuten hier ∂x ∂z
aber nichts anderes als Ableitung nach x bzw. z. Die unterschiedlichen Bezeichnungen rühren daher, dass die Funktion f von zwei Größen abhängt.
4.4
Legendre-Polynome
301
∂f = (x − z) f 3 ∂z
∂f = zf 3 ∂x
auch der Zusammenhang
∂f z f = z · xf − ∂z 2 3
3
= xz f 3 − z
∂f ∂f ∂f =x −z ∂z ∂x ∂z
gilt. Die gefundene Differentialgleichung 0 = z2
2 ∂f ∂f ∂2 f 2 ∂ f + 2z + (1 − x ) − 2x 2 2 ∂z ∂x ∂x ∂z
kann über den Zusammenhang der Ableitungen mit der Reihenentwicklung auf die Form 0 = z2
∞
l(l − 1)Pl (x)z l−2 + (1 − x 2 )
l=0
+ 2z
∞
Pl (x)z l − 2x
l=0 ∞
∞
Pl (x)z l
l=0
Pl (x)lz l−1
l=0
=
∞
z l l(l − 1)Pl (x) + 2l Pl (x) + (1 − x 2 )Pl (x) − 2x Pl (x)
l=0
=
∞
z l (1 − x 2 )Pl (x) − 2x Pl (x) + l(l + 1)Pl (x)
l=0
⇒ 0 = (1 − x 2 )Pl (x) − 2x Pl (x) + l(l + 1)Pl (x) gebracht werden. Und damit erfüllen die Entwicklungspolynome in Gl. (4.53) tatsächlich die Legendre’sche Differentialgleichung (4.51) und legen damit auch die Normierung der Legendre-Polynome über Gl. (4.54) fest. Zusammen mit den zuvor gesammelten Erkenntnissen lassen sich die ersten vier Legendre-Polynome immerhin durch
bzw. durch
P0 (x) = 1
P2 (x) = 21 (3x 2 − 1)
P1 (x) = x
P3 (x) = 21 (5x 3 − 3x)
302
4 Reihenentwicklungen
P0 (cos(θ)) = 1
P2 (cos(θ)) = 21 (3 cos2 (θ) − 1)
P1 (cos(θ)) = cos(θ )
P3 (cos(θ)) = 21 (5 cos3 (θ ) − 3 cos(θ ))
ausdrücken. Doch für jedes Legendre-Polynom die Rekursion der Koeffizienten zu lösen, wirkt aufwendig. Stattdessen wäre es zu begrüßen einen direkteren Weg zu finden, um die Legendre-Polynome mit ihrer Normierung bestimmen zu können. Genau das erfüllt die sogenannte Rodrigues-Formel. Diese besagt, dass das l-te Legendre-Polynom mit der l-ten Ableitung des Terms (x 2 −1)l in Verbindung gebracht werden kann. Um dies zu motivieren sollen die Legendre-Polynome P1 (x), P2 (x) und P3 (x) betrachtet werden. Das Polynom P1 (x) kann als P1 (x) = x =
1 d 2 (x − 1) 2 dx
geschrieben werden. Um nun das Polynom P2 (x) als eine zweite Ableitung eines Polynoms zu schreiben, muss der Grad des Polynoms gerade 4 betragen, da P2 (x) ein Polynom zweiten Grades ist und das doppelte Differenzieren den Grad um 2 verringert. Damit lässt es sich als P2 (x) =
1 1 d2 2 (3x 2 − 1) = (x − 1)2 2 8 dx 2
schreiben. Für P3 (x) sieht die Situation ähnlich aus, und es ergibt sich P3 (x) =
1 1 d3 2 (5x 3 − 3x) = (x − 1)3 2 48 dx 3
als Ausdruck für das vierte Legendre-Polynom P3 (x). Mit dieser Betrachtung scheint sich auch herauszukristallisieren, dass der Normierungsfaktor in dieser Form durch 1 2l l! gegeben zu sein scheint. Somit ließen sich die Legendre-Polynome insgesamt in der Form Pl (x) =
1 dl 2 (x − 1)l 2l l! dx l
(4.55)
angeben, welche als Rodrigues-Formel bezeichnet wird. Um diese zu beweisen, wird zunächst nach der Differentialgleichung zweiter Ordnung gesucht, die von der Funktion f (x) = (x 2 − 1)l erfüllt wird, in der Hoffnung diese l-fach differenzieren zu können, um so auf die Legendre’sche Differentialgleichung (4.51) zu kommen. Dazu werden die ersten beiden Ableitungen
4.4
Legendre-Polynome
303
f (x) = l(x 2 − 1)l−1 · 2x f (x) = l(l − 1)(x 2 − 1)l−2 · (2x)2 + 2l(x 2 − 1)l−1 betrachtet. Wird die zweite Ableitung mit x 2 − 1 multipliziert, so ergibt sich im ersten Term ein Ausdruck, der mit der ersten Ableitung identifiziert werden kann, während der zweite Term die Funktion selbst auf die Weise (x 2 − 1) f (x) = l(l − 1)(x 2 − 1)l−1 (2x)2 + 2l(x 2 − 1)l = 2x(l − 1) f (x) + 2l f (x) beinhaltet. Somit erfüllt die Funktion f (x) = (x 2 − 1)l die lineare Differentialgleichung zweiter Ordnung: 0 = (1 − x 2 ) f (x) + 2x(l − 1) f (x) + 2l f (x). Da das l-te Legendre-Polynom die l-te Ableitung der Funktion f sein soll, wird diese Differentialgleichung l-mal unter Verwendung der Leibniz-Regel differenziert, um so dl dl dl 2 ) f (x) + 2(l − 1) (x) + 2l f (x) (1 − x x f dx l dx l dx l l k l k d d l l 2 (l−k+2) = (1 − x ) f + (l − 1) 2x f (l−k+1) k k dx k dx k
0=
k=0
+ 2l f
k=0
(l)
(x)
d2 f (l) d f (l) l l d f (l) (l) − 2 f − 2x + 2x(l − 1) 2 1 dx dx 2 dx l +2 (l − 1) f (l) + 2l f (l) 1
= (1 − x 2 )
d2 f (l) d f (l) + (−l(l − 1) + 2l(l − 1) + 2l) f (l) + (−l + l − 1)2x dx 2 dx d2 f (l) d f (l) + l(l + 1) f (l) = (1 − x 2 ) − 2x dx 2 dx = (1 − x 2 )
zu erhalten, wobei die Binomialkoeffizienten 1 l l =l = l(l − 1) 1 2 2
304
4 Reihenentwicklungen
eingesetzt wurden. Es handelt sich dabei für f (l) (x) aber um die Differentialgleichung für die Legendre-Polynome (4.51). Damit handelt es sich bei den durch die Rodrigues-Formel (4.55) erzeugten Polynome um die Legendre-Polynome. Für die Normierung kann die l-te Ableitung von f (x) = (x 2 − 1)l = (x − 1)l (x + 1)l über die Leibniz-Formel zu l (l−k) (k) dl f l (x + 1)l (x − 1)l = l k dx k=0
=
l l k=0
k
l! l! (x + 1)k (x − 1)l−k (l − k)! k!
gebildet werden. Damit zeigt sich wegen des letzten Terms, dass nur für k = l bei x = 1 ein Beitrag vorliegen kann, und es ergibt sich dl f l! l = l!2k = 2l l! l dx l x=1 k! als Wert an der Stelle x = 1. Und somit zeigt sich, dass über die Rodrigues-Formel die Legendre-Polynome auf Pl (1) = 1 normiert sind, wie es von Gl. (4.54) verlangt wird. Damit lassen sich dann auch alle weiteren Legendre-Polynome systematisch bestimmen, wie beispielsweise 1 (35x 4 − 30x 2 + 3) 8 1 P5 (x) = (63x 5 − 70x 3 + 15x). 8
P4 (x) =
Anhand der Rodrigues-Formel ist auch sofort zu erkennen, dass für gerade Zahlen 2l P2l (−x) = P2l (x)
(4.56)
gilt, während für ungerade Zahlen 2l + 1 P2l+1 (−x) = −P2l+1 (x)
(4.57)
gültig ist. Dies hat auch zur Folge, dass an der Stelle x = −1 der Zusammenhang Pl (−1) = (−1)l
(4.58)
4.4
Legendre-Polynome
305
gültig ist. Zur Veranschaulichung sind in Abb. 4.2 die ersten sechs Legendre-Polynome aufgetragen. Dabei zeigt sich, dass das l-te Legendre-Polynom scheinbar l Schnittpunkte mit der x-Achse besitzt. Dies ist tatsächlich eine allgemeine Eigenschaft der LegendrePolynome, die hier aber nicht bewiesen werden soll.
4.4.2
Orthogonalität der Legendre-Polynome
Bisher ist klar, dass die Legendre-Polynome eine Differentialgleichung lösen und die Funktion 1 √ 1 − 2x z + z 2 vollständig in Legendre-Polynomen dargestellt werden kann. Tatsächlich sind die LegendrePolynome bereits in Abschn. 3.4 aufgetreten. Dort konnten sie mit dem Gram-SchmidtVerfahren aus den linear unabhängigen Monomen x n konstruiert werden. Da die Monome eine vollständige Basis bilden, was hier ohne Beweis angegeben sein soll, bilden auch die
Abb. 4.2 Grafische Darstellung der ersten sechs Legendre-Polynome. In a sind dabei die geraden Legendre-Polynome aufgetragen. Die durchgezogene Linie ist P0 (x), die gestrichelte Linie ist P2 (x), während es sich bei der gepunktstrichelten Linie um P4 (x) handelt. Für x = −1 nehmen sie alle den Wert y = 1 an. In b sind die ungeraden Legendre-Polynome zu sehen. Die durchgezogene Linie ist P1 (x), die gestrichelte Linie ist P3 (x), während es sich bei der gepunktstrichelten Linie um P5 (x) handelt. Für x = −1 nehmen sie alle den Wert y = −1 an. Die jeweiligen Funktionen können dabei entweder dem Text oder aus Tab. 4.4 der Formelsammlung am Ende dieses Kapitels entnommen werden
306
4 Reihenentwicklungen
Legendre-Polynome eine Basis. Mehr noch, scheint es sich um eine orthogonale Basis zu handeln. Die Orthogonalität bezieht sich dabei auf auf das Skalarprodukt
1 f |g =
dx f (x)g(x). −1
Der Umstand der Orthogonalität sowie die Normierung der Legendre-Polynome unter diesem Skalarprodukt kann mittels der Rodrigues-Formel ermittelt werden. Dies soll hier allerdings nicht geschehen und stattdessen die Orthogonalitätsrelation
1 dx Pl (x)Pl (x) = −1
2 δll 2l + 1
(4.59)
ohne Beweis angegeben werden.
4.4.3
Entwicklung in Legendre-Polynomen
Da die Legendre-Polynome ein vollständiges Orthogonalsystem für die quadratintegrablen Funktionen auf dem Intervall [−1, 1] bilden, lassen sich alle quadratintegrablen Funktionen in ihnen entwickeln. Die Entwicklungskoeffizienten lassen sich dabei, wie es in Kap. 3 besprochen wurde, durch das Skalarprodukt der zu entwickelnden Funktion mit den Legendre-Polynomen bilden. Dazu wird die Funktion f (x) als f (x) =
∞
cl Pl (x)
(4.60)
l=0
geschrieben. Das Skalarprodukt von f (x) mit Pl (x) ist dann durch
1 P | f =
1 dx P (x) f (x) =
l
−1
=
∞ l=0
=
dx P (x)
l
l
dx Pl (x)Pl (x) =
cl −1
2 cl 2l + 1
cl Pl (x)
l=0
−1
1
∞
∞ l=0
cl
2 δll 2l + 1
4.4
Legendre-Polynome
307
gegeben. Und somit lässt sich der Entwicklungskoeffizient als cl =
2l + 1 2
1 dx Pl (x) f (x)
(4.61)
−1
bestimmen. Dass die Legendre-Polynome tatsächlich vollständig sind, wird hier ohne Beweis verwendet, kann aber in der mathematischen Fachliteratur nachgeschlagen werden. Allerdings lässt sich aus der Tatsache der Vollständigkeit eine bestimmte Relation herleiten, die die Legendre-Polynome mit der Dirac-Delta-Funktion aus Abschn. 2.5 in Verbindung bringt. Dazu wird in der Entwicklung von f (x) in Legendre-Polynomen der Koeffizient cl durch das gefundene Integral ersetzt; dabei muss jedoch beachtet werden, dass die Variable x bereits vergeben ist, weshalb das Integral über x laufen muss. Damit ergibt sich über die Rechnung f (x) =
∞
cl Pl (x) =
l=0
∞ l=0
2l + 1 Pl (x) 2
1 =
dx
dx Pl (x ) f (x )
−1
∞ 2l + 1 l=0
−1
1
2
Pl (x)Pl (x )
f (x )
ein Zusammenhang, der aber ein Integral über den Definitionsbereich von f darstellt und nur den Wert von f an einer Stelle, nämlich x herausprojiziert. Dies war aber die definierende Eigenschaft
f (x) = dx δ x − x f (x ) der Dirac-Delta-Funktion. Damit kann der Ausdruck in Klammern als andere Darstellungsmöglichkeit der Dirac-Delta-Funktion ∞ 2l + 1 δ x − x = Pl (x)Pl (x ) (4.62) 2 l=0
aufgefasst werden. Dieser Zusammenhang wird auch als Vollständigkeitsrelation bezeichnet. In den Kap. 6 und 8 werden noch weitere Darstellungsmöglichkeiten für die Dirac-DeltaFunktion eingeführt.
308
4.5
4 Reihenentwicklungen
Kugelflächenfunktionen
Im letzten Abschnitt wurde der Winkelanteil der Laplace-Gleichung für das Vorliegen einer Zylindersymmetrie gelöst. Häufig liegt diese jedoch nicht vor. Stattdessen liegt eine Kugelsymmetrie vor, in der das Problem nur vom Abstand zum Koordinatenursprung r abhängt. Ein Beispiel hierfür wäre die Newton’sche Gravitationskraft oder die Coulomb-Kraft, wie sie auch zur quantenmechanischen Beschreibung des Wasserstoffatoms eingesetzt wird. In diesem Fall muss Gl. (4.50) für einen allgemeineren Fall als im letzten Abschnitt gelöst werden.
4.5.1
Motivation und Definition
Ausgehend von Gl. (4.50) und der Darstellung des Laplace-Operators in Kugelkoordinaten aus Kap. 8 muss die Gleichung 1 ∂ 2Y ∂ ∂Y 1 sin(θ) + = CY sin(θ) ∂θ ∂θ sin2 (θ) ∂φ 2 für die Funktion Y (θ, φ) für eine noch unbekannte Konstante C gelöst werden. Über den gleichen Weg wie im letzten Abschnitt lassen sich die Ableitungen nach θ in Ableitungen nach cos(θ) ersetzen, um so die Gleichung ∂Y ∂ 2Y 1 ∂ 2 (1 − cos (θ)) + = CY ∂cos(θ) ∂cos(θ) 1 − cos2 (θ) ∂φ 2 zu erhalten. Wird angenommen, dass sich die Lösung Y (θ, φ) als ein Produkt aus zwei Funktionen P(cos(θ)) und (φ) schreiben lässt, die jeweils nur von cos(θ) oder φ abhängen, so lässt sich über ∂ ∂P 1 1 ∂ 2 1 (1 − cos2 (θ)) + =C 2 P ∂cos(θ) ∂cos(θ) 1 − cos (θ) ∂φ 2 ∂ ∂P 1 1 ∂ 2 2 2 (1 − cos (θ )) (1 − cos (θ)) C + =− P ∂cos(θ) ∂cos(θ) ∂φ 2 eine Gleichung erhalten, die auf der rechten Seite nur von φ und auf der linken Seite nur von θ abhängt. Nach den Überlegungen des vorherigen Abschnitts müssen dann aber beide Seiten einer Konstante entsprechen, die mit D bezeichnet werden soll. Aus der linken Seite ergibt sich somit die Differentialgleichung d dP 1 D 2 (1 − cos (θ)) − C = , P dcos(θ) dcos(θ) 1 − cos2 (θ) die mit der Einführung von x = cos(θ) auf
4.5
Kugelflächenfunktionen
d dx
309
dP (1 − x ) dx
2
− C+
D 1 − x2
P=0
umgeformt werden kann. Für D = 0 sieht diese Differentialgleichung der definierenden Differentialgleichung der Legendre-Polynome (4.51) ähnlich. Tatsächlich stellen die Lösungen dieser Differentialgleichung eine Verallgemeinerung der Legendre-Polynome dar und werden deshalb als zugeordnete Legendre-Polynome bezeichnet. Da die Herleitung der Legendre-Polynome im letzten Abschnitt ausführlich diskutiert wurde, sollen hier das Verfahren nur grob skizziert und die Lösung angegeben werden. Durch das Ansetzen einer Potenzreihe für P(x) zeigt sich, dass diese nur konvergieren, wenn C durch eine Zahl l ∈ N0 durch C = −l(l +1) beschrieben werden kann. Gleichzeitig muss sich D durch D = m 2 darstellen lassen, wobei es sich bei m um eine ganze Zahl m ∈ Z handelt, die kleiner oder gleich l ist. m kann also die Werte −l, −(l − 1), . . . , −1, 0, 1, . . . , l − 1, l annehmen. Die zugeordneten Legendre-Polynome Plm (x) erfüllen somit die lineare Differentialgleichung zweiter Ordnung m2 d 2 dP P=0 (4.63) (1 − x ) + l(l + 1) − dx dx 1 − x2 für je ein vorgegebenes l und dazugehöriges m. Genau wie die Legendre-Polynome Pl (x) aus Abschn. 4.4 lassen sich die zugeordneten Legendre-Polynome durch eine mehrfache Ableitung der Funktion (x 2 − 1)l in Form einer Rodrigues-Formel Plm (x) = (1 − x 2 )m/2
1 dm dl+m Pl (x) = l (1 − x 2 )m/2 l+m (x 2 − 1)l m dx 2 l! dx
(4.64)
darstellen. Dieser Zusammenhang gilt nur für ein nicht negatives13 m, also m ≥ 0. Die ersten Legendre-Polynome bis einschließlich l = 2 sind somit durch P00 (x) =
1
P20 (x) =
1 2 2 (3x
− 1)
P10 (x) =
x
P21 (x) =
√ 3x 1 − x 2
P11 (x) =
√ 1 − x2
P22 (x) =
3(1 − x 2 )
13 Gelegentlich finden sich auch Konventionen, in denen die zugeordneten Legendre-Polynome für
negative m definiert werden und dabei nicht nur unterschiedliche Vorzeichen, sondern auch zusätzliche Faktoren aufweisen.
310
4 Reihenentwicklungen
bzw. durch P00 (cos(θ)) =
1
P20 (cos(θ )) =
1 2 2 (3 cos (θ ) − 1)
P10 (cos(θ)) =
cos(θ)
P21 (cos(θ )) =
3 cos(θ ) sin(θ )
P11 (cos(θ)) =
sin(θ)
P22 (cos(θ )) =
3 sin2 (θ)
gegeben. Es fällt auf, dass das zugeordnete Legendre-Polynom für m = 0 dem gewöhnlichen Legendre-Polynom Pl0 (x) = Pl (x) entspricht. Ebenso erfüllen sie die Orthogonalitätsrelationen
1 dx Plm (x)Plm (x) = −1
1
dx Plm (x)Plm (x) = −1
2 (l + m)! δll 2l + 1 (l − m)!
(4.65)
(l + m)! 2 δmm . 2l + 1 m(l − m)!
(4.66)
Dadurch, dass mit den zugeordneten Legendre-Polynomen auch die Konstanten in der Laplace-Gleichung festgelegt sind, lässt sich auch eine Gleichung für die rechte Seite d2 = −m 2 dφ 2 aufstellen, deren Lösung proportional zu den Exponentialfunktionen (φ) ∼ exp (imφ) sein wird. Damit ist klar, dass die Funktionen Y von den Konstanten l und m abhängen werden und sowohl zu den zugeordneten Legendre-Polynomen als auch zu einer Exponentialfunktion proportional sein werden. Da die zugeordneten Legendre-Polynome zunächst nur für m ≥ 0 definiert waren, sollen auch zunächst nur die Kugelflächenfunktionen für m ≥ 0 definiert werden. Außerdem sollen die Kugelflächenfunktionen Ylm (θ, φ) das Verhalten der Winkelanteile beschreiben. Aus diesem Grunde ist es sinnvoll sie so zu normieren, dass sie die Orthogonalitätsrelation
π
2π dθ sin(θ)
0
0
∗ dφ Ylm (θ, φ)Yl m (θ, φ) = δll δmm
(4.67)
4.5
Kugelflächenfunktionen
311
erfüllen. Damit wird auch implizit die Form des Skalarprodukts für zwei komplexe Funktionen f und g, die auf der Kugeloberfläche definiert sind, als
π f |g =
2π
d f ∗ (θ, φ)g(θ, φ)
dφ f (θ, φ)g(θ, φ) =
dθ sin(θ) 0
∗
(4.68)
0
festgelegt, wobei d = dθ dφ sin(θ) die Integration über den Raumwinkel angibt. Die komplexe Konjugation tritt dabei auf, da wegen der Erkenntnisse aus Kap. 3 klar ist, dass bei komplexen Funktionen nur so ein echtes Skalarprodukt konstruiert werden kann. Die Kugelflächenfunktionen sind wegen der Proportionalität zu exp (imφ) komplexe Funktionen. Unter Beachtung der Orthogonalitätsrelation lassen sich die Kugelflächenfunktionen so für 0 ≤ m ≤ l als m 2l + 1 (l − m)! m Ylm (θ, φ) = (−1) P (cos(θ)) exp (imφ) (4.69) 4π (l + m)! l definieren. Die in der Physik gängige Konvention für die Kugelflächenfunktionen mit negativen m ist durch ∗ Yl −|m| = (−1)m Yl|m|
(4.70)
gegeben. Dies rührt daher, dass Kugelflächenfunktionen auch in der Quantentheorie eine entscheidende Rolle spielen. Dort taucht der Winkelanteil des Laplace-Operators als das 2 Quadrat des Drehimpulsoperators Lˆ auf, und die Kugelflächenfunktionen stellen somit die Drehimpulsanteile in Wellenfunktionen und der Theorie des Spins dar. Die Kugelflächenfunktionen bis einschließlich l = 2 sind damit durch Y00 =
Y22 =
√1 4π
Y21 = Y11 = Y10 = Y1−1 =
gegeben.
−
3 8π
sin(θ) exp (iφ)
Y20 =
3 4π
cos(θ)
Y2−1 =
3 8π
sin(θ) exp (−iφ)
Y2−2 =
−
15 32π
sin2 (θ ) exp (2iφ)
15 8π
5 16π 15 8π
cos(θ) sin(θ ) exp (iφ)
3 cos2 (θ) − 1
cos(θ) sin(θ ) exp (−iφ)
15 32π
sin2 (θ ) exp (−i2φ)
312
4.5.2
4 Reihenentwicklungen
Anschauliches Verständnis und reelle Kugelflächenfunktionen
Anschauliche Interpretation Um die Kugelflächenfunktionen anschaulich zu verstehen, werden zunächst Kugelflächenfunktionen mit m = 0 betrachtet. Hier ist der einzige Beitrag zu den Kugelflächenfunktionen durch die gewöhnlichen Legendre-Polynome gegeben. Das l-te LegendrePolynom hatte dabei aber l Schnittpunkte mit der x- also der cos(θ )-Achse. Das heißt, die Kugelflächenfunktion Yl0 (θ, φ) teilt die Kugel in l + 1 Gebiete auf, deren Grenzen nur durch den Höhenwinkel θ bestimmt sind. Damit handelt es sich bei den Grenzlinien in der Analogie zu einem Globus um Breitenkreise. Andererseits werden bei Kugelflächenfunktionen mit m = l die 2l-ten Ableitungen der Funktion (x 2 − 1)l gebildet. Diese ist ein Polynom vom Grad 2l, und damit ist seine 2l + 1te Ableitung eine Konstante. Die einzige Veränderliche steckt nun also in der exp (ilφ)Abhängigkeit. Aufgrund dieser Abhängigkeit nehmen Realteil und Imaginärteil getrennt voneinander jeweils l-mal den Wert null an. Würde also beispielsweise nur der Realteil der Kugelflächenfunktion Yll betrachtet werden, so würde dieser die Kugel in 2l Gebiete teilen. Die Grenzflächen sind dabei nur abhängig von dem Azimutalwinkel φ und entsprechen auf einem Globus den Längenkreisen. Diese Überlegung lässt sich auch auf andere Kombinationen von l und m erweitern. Dabei lassen sich folgende Überlegungen anstellen: • Schnittebenen Sowohl die Breitenkreise als auch die Längenkreise lassen sich als Schnitte einer Kugeloberfläche mit einer Ebene darstellen. Im Fall von Breitenkreisen handelt es sich um Schnittebenen, die parallel zur x y-Ebene liegen. Im Fall von Längenkreisen sind es Ebenen, die die z-Achse enthalten. • Anzahl der Schnittebenen Sowohl im Fall m = 0 als auch im Fall m = l gab es insgesamt l Schnittebenen. Dieser Trend setzt sich auch für alle dazwischenliegenden Kombinationen fort. Es wird immer l Schnittebenen geben. • Bedeutung der Zahl m Die Zahl m gibt an, wie viele Schnittebenen die z-Achse enthält, also in wie viele Segmente die Kugel längs des Azimutalwinkels unterteilt wird. Es handelt sich dabei immer um 2m Gebiete. • Bedeutung der Zahl l − m Die verbleibenden l − m Ebenen teilen die Kugeloberfläche mittels Ebenen senkrecht zur x y-Ebene auf. Es werden also l − m Breitenkreise eingezogen und die Kugel so in l − m + 1 Gebiete längs des Höhenwinkels aufgeteilt.
4.5
Kugelflächenfunktionen
313
Die maximale Anzahl an Gebieten ist dabei für jedes l durch 2l gegeben. Aus diesem Grund werden die Kugelflächenfunktionen für l auch als 2l-Pole bezeichnet. Bei l = 1 handelt es sich also um Dipole, während l = 2 Quadrupole und l = 3 Sextupole beschreiben. Reelle Kugelflächenfunktionen Im nächsten Abschnitt wird die Entwicklung einer Funktion in Kugelflächenfunktionen besprochen. Diese wird auch, wie die Entwicklung in Legendre-Polynomen, mit einem Integral über die Funktion und die Kugelflächenfunktionen zusammenhängen. Da Exponentialfunktionen in solchen Integralen leichter zu handhaben sind, werden die komplexwertigen für den praktischen Gebrauch bevorzugt. Um die Kugelflächenfunktionen anschaulich darzustellen und zu interpretieren, bietet es sich aber an, reellwertige Kugelflächenfunktionen als Linearkombinationen zu konstruieren. Diese sollen mit Slm bezeichnet werden. Wie sich aus der Definition ⎧ ⎨(−1)m 2l+1 (l−m)! P m (cos(θ)) exp (imφ) m≥0 4π (l+m)! l Ylm (θ, φ) = ⎩(−1)m Y ∗ (θ, φ) m0 ⎪ ⎨a(Yl −m + (−1) Ylm ) Slm = Yl0 m=0 ⎪ ⎪ ⎩ib(Y mY − (−1) ) m0 ⎪ ⎨2a(−1) Re [Ylm (θ, φ)] =
Yl0 ⎪ ⎪ ⎩2b(−1)m Im Y (θ, φ) l |m|
m=0
m0 ⎪ ⎨ 2(−1) Re [Ylm (θ, φ)] Slm = Yl0 (4.71) m=0 ⎪ ⎪ ⎩√2(−1)m Im Y (θ, φ) m0 ⎪ ⎨cos(mφ) m 2l + 1 (l − |m|)! |m| (4.72) = (−1) Pl (cos(θ )) · 1 m=0 ⎪ 2π (l + |m|)! ⎪ ⎩sin(mφ) m 0 beinhaltet, da es nur um das Vorzeichen des Exponenten geht. Zusammengefasst lässt sich das Lemma von Jordan also als ∞ dx f (x) e −∞
±iax
= ± lim
R→∞ γ R,±
dz f (z) e±iaz = ±2π i
res( f , z k,± ) e±iaz k,±
z k,±
(5.12)
5.4
Der Residuensatz
347
schreiben. Von besonderer Bedeutung ist das Lemma von Jordan beim Bestimmen von Fourier-Transformationen, wie sie in Kap. 6 eingeführt werden, da hier Integrale eines solchen Typs auftreten. Als Beispiel für das Lemma von Jordan soll das Integral ∞ dx −∞
eiux x − ia
betrachtet werden. Der Parameter a ist positiv, während für u alle reellen Werte erlaubt sein sollen. Es bietet sich daher eine Fallunterscheidung an. Die Funktion f (z) ist durch f (z) =
1 z − ia
bestimmt und geht für |z| → ∞ tatsächlich gegen null. • u>0 Ist u positiv, so ist der Exponent durch e+i|u|x gegeben. Daher muss ein Residuum in der oberen Halbebene gesucht werden. Ein Kandidat für das Residuum ist z = ia, womit sich lim f (z)(z − ia) = lim 1 = 1
z→ia
z→ia
als das Residuum ergibt. Mit dem Lemma von Jordan lässt sich das Integral dann zu ∞ dx −∞
ei|u|x = lim R→∞ x − ia
γ R,+
dz f (z) ei|u|z = 2π i 1 · ei(ia)|u| = 2π i e−a|u|
bestimmen. Wird nun zusätzlich der Grenzwert a → 0 gebildet, so wird die Exponentialfunktion zu einer Eins, und das gesamte Integral ist nur noch durch die Konstante ∞ lim
a→0 −∞
dx
ei|u|x = 2π i x − ia
gegeben. • u0 eiux = du u − ia 0 x 0 ∞ −∞
dx f (x) e±iax = ± lim
R→∞ γ R,±
dz f (z) e±iaz = ±2π i
res( f , z k,± ) e±iaz k,±
z k,±
Darstellung der Heaviside-Theta-Funktion 1 (±x) = lim a→0 2π i
∞ −∞
e±ikx dk k − ia
1 (±x) = lim a→0 2π i
∞ dk −∞
e∓ikx k + ia
6
Fourier-Transformationen
Inhaltsverzeichnis 6.1 6.2 6.3 6.4 6.5 6.6
Einführung der Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konventionen und Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Übertragung auf Ortskoordinaten und höhere Dimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . Beispiele für Fourier-Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lösen von inhomogenen Differentialgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formelsammlung – Fourier-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
351 353 357 359 367 371
Die Fourier-Transformation stellt das kontinuierliche Pendant zur Fourier-Reihe dar und erlaubt es, viele der Vorzüge, die sich bei der Fourier-Reihe gezeigt haben, auch auf Funktionen anzuwenden, die keine Periodizität aufweisen. Durch sie können lineare Differentialgleichungen in numerische Gleichungen umgewandelt werden, um diese zu lösen. Besonders in der Elektrodynamik und Quantenmechanik spielt die Fourier-Transformation eine entscheidende Rolle, da die Lösungen zu den fundamentalen Gleichungen eine ebene Wellenform haben. Beliebige Lösungen werden durch eine Linearkombination der ebenen Wellen dargestellt, was einer Fourier-Transformation entspricht. Aus diesem Grund wird in diesem Abschnitt auch das wohl wichtigste Wellenpaket, die Gauß’sche Funktion, und sein Verhalten unter Fourier-Transformation untersucht.
6.1
Einführung der Fourier-Transformation
In Abschn. 4.3 wurde bereits die Fourier-Reihe eingeführt. Dabei wird eine T -periodische Funktion f (t) in ihre Frequenzanteile zerlegt, f (t) =
∞
cn eiωn t ,
n=−∞
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_6
351
352
6 Fourier-Transformationen
wobei ωn = n 2π T ist, mit einem ganzzahligen n ∈ Z und den Koeffizienten 1 cn = T
T /2
dt f (t) e−iωn t .
−T /2
Dabei war es nötig, dass es sich bei f um eine T -periodische Funktion handelt. Das Ziel der Fourier-Transformation ist es nun eine beliebige Funktion in periodischen Funktionen zu entwickeln. Eine nicht periodische Funktion kann dann als eine Funktion, deren Periodenzeit bei T = ∞ liegt, betrachtet werden. Um auch solch eine Funktion in ihre Frequenzanteile zu zerlegen, wird daher der Grenzübergang T → ∞ betrachtet. Dazu wird zunächst die Separation zwischen den einzelnen Frequenzen ω ≡
2π T
eingeführt. Für T → ∞ wird ω beliebig klein und verhält sich wie ein Differential. Dies kann in der obigen Fourier-Reihe verwendet werden, um den Ausdruck f (t) =
∞
∞
cn eiωn t =
n=−∞
ω
n=−∞
cn iωn t e ω
zu erhalten. Es werden neue Koeffizienten1 F [ f (t)](ωn ) gemäß T 1 cn = F [ f (t)](ωn ) ≡ ω 2π T =
1 2π
T /2
T /2
dt f (t) e−iωn t
−T /2
dt f (t) e−iωn t
−T /2
eingeführt. Für den Fall, dass T → ∞ geht und ωn ≡ ω durch eine geeignete Wahl von n festgehalten wird, ändern sich dabei nur die Integralgrenzen, und es gilt 1 F [ f (t)](ω) = 2π
∞
dt f (t) e−iωt .
−∞
1 Das F steht dabei für Fourier und nicht für die Funktion f . Gelegentlich findet sich in der Literatur
auch die Bezeichnung fˆ(ω) für F [ f (t)](ω). Aufgrund der hohen Spezifikation der Argumente der Fourier-Transformation soll hier aber zunächst die ausführliche Bezeichnung verwendet werden.
6.2
Konventionen und Regeln
353
Die Summe geht in ein Integral über, denn durch die immer kleiner werdenden ω werden immer mehr näher beieinanderliegende Werte der ω abgedeckt, was dem Übergang einer diskreten Summe in ein kontinuierliches Integral entspricht. Das Differential entsteht hierbei aus ω. Die Fourier-Reihe wird dann zur Inversen der Fourier-Transformation ∞
f (t) =
∞ ω F [ f (t)](ωn ) e
iωn t
dω F [ f ](ω) eiωt .
→
n=−∞
−∞
Die Funktion F [ f (t)](ω) heißt dann die Fourier-Transformation von f (t). Genauso wie die Koeffizienten der Fourier-Reihe die Anteile der Oberschwingungen zur Grundfrequenz einer T -periodischen Funktion angegeben haben, gibt die FourierTransformation die Frequenzanteile einer beliebigen Funktion f (t) zu einer beliebigen Frequenz ω an. Im folgenden Abschn. 6.2 werden dazu einige Regeln, Anwendungen und Beispiele diskutiert.
6.2
Konventionen und Regeln
1 Es gibt verschiedene Konventionen bezüglich der Vorfaktoren 2π und der Positionierung des Minuszeichens im Exponenten. Die Gemeinsamkeiten aller Konventionen sind dabei; bei Hin- und Rücktransformation muss jedes Vorzeichen im Exponenten einmal vorkommen.2 1 Das Produkt der beiden Vorfaktoren muss im eindimensionalen Fall 2π ergeben. So gibt es auch eine symmetrische Konvention, die im Folgenden Verwendung finden soll. Es gilt dann
∞ f (t) = −∞
∞
dω √ F [ f ](ω) eiωt 2π
F [ f ](ω) = −∞
dt f (t) e−iωt . √ 2π
(6.1)
Wird die Fourier-Transformation in die inverse Transformation eingesetzt, kann die FourierTransformation des Dirac-Deltas gefunden werden: ∞ f (t) = −∞
dω √ F [ f ](ω) eiωt = 2π
∞ −∞ ∞
=
dω √ 2π dt
−∞
∞ −∞
dt f (t ) e−iωt eiωt √ 2π
1 f (t ) 2π
∞
dω eiω(t−t ) .
−∞
Dann ist aber der Ausdruck 2 Sollte auf eine Liste von Fourier-Transformationen mit der entgegengesetzten Vorzeichenkonven-
tion zurückgegriffen werden, so kann einfach ω auf −ω gesetzt werden, um die Liste für diese Konvention zu verwenden.
354
6 Fourier-Transformationen
1 2π
∞
dω eiω(t−t )
−∞
ein Ausdruck, der die definierende Eigenschaft (2.41) der Delta-Distribution ∞ f (t) =
dt δ t − t f (t )
−∞
erfüllt. Die Identität 1 δ t − t = 2π
∞
dω eiω(t−t )
(6.2)
−∞
muss also gültig sein. Für einen einfachen Ausdruck der Delta-Distribution gilt somit 1 δ (t) = 2π
∞
∞ dω e
−∞
iωt
= −∞
1 dω √ √ eiωt . 2π 2π
Somit ist auch zu erkennen, dass √1 die Fourier-Transformierte der Dirac-Delta-Funktion 2π ist. Es handelt sich hierbei, wie auch schon im Abschn. 4.4, um eine andere Darstellungsmöglichkeit der Dirac-Delta-Funktion. Für die Fourier-Transformation gelten dieselben Eigenschaften, die schon im Abschn. 4.3 für die Koeffizienten der Fourier-Reihe besprochen wurden. • Linearität Durch Einsetzen der Definition und das Ausnutzen einiger Regeln aus Abschn. 1.4 gilt ∞
F [λ f (t) + μg(t)](ω) = −∞
dt √ (λ f (t) + μg(t)) e−iωt 2π
∞ =λ −∞
dt f (t) e−iωt +μ √ 2π
∞
−∞
= λF [ f (t)](ω) + μF [g(t)](ω).
dt √ g(t) e−iωt 2π (6.3)
Die Fourier-Transformation der Summe zweier Funktionen ist also die Summe der Fourier-Transformationen der einzelnen Funktionen. Vorfaktoren können herausgezogen werden. • Ableitung Mit den Regeln für die partielle Integration aus Abschn. 1.4 gilt
6.2
Konventionen und Regeln
355
∞ dt d d f (t) (ω) = f (t) e−iωt F √ dt 2π dt −∞
∞ = f (t) e−iωt −∞ −
∞
−∞
∞ = iω −∞
dt f (t)(−iω) e−iωt √ 2π
dt f (t) e−iωt √ 2π
= iωF [ f (t)](ω).
(6.4)
Dabei wurde im vorletzten Schritt ausgenutzt, dass die Funktion f für die Existenz der Fourier-Transformierten hinreichend schnell gegen null konvergieren muss und daher die Randterme wegfallen. Damit zeigt sich, die Fourier-Transformierte der Ableitung ist gegeben durch die FourierTransformation der Funktion mit einem zusätzlichen Faktor iω. Dies lässt sich auf höhere Ableitungen mit n d F f (t) (ω) = (iω)n F [ f (t)](ω) (6.5) dt n übertragen. • Multiplikation mit t Wird die Fourier-Transformation einer Funktion f multipliziert mit t gebildet, so gilt ∞
F [t · f (t)](ω) = −∞
=
dt √ t · f (t) e−iωt = 2π
1 d −i dω
∞ −∞
∞ −∞
1 d −iωt dt e f (t) √ −i dω 2π
1 d dt F [ f (t)](ω). f (t) e−iωt = √ −i dω 2π
Und damit gilt dann auch der Zusammenhang d F [ f (t)](ω) = −iF [t · f (t)](ω) = F [−it · f (t)](ω). dω
(6.6)
Die Ableitung der Fourier-Transformation nach der Frequenz entspricht also der FourierTransformierten der Funktion multipliziert mit −it. Anwendung findet dies in der Quantenmechanik,3 wo zwischen Impulsraum und Ortsraum mittels Fourier-Transformation 3 In der Quantenmechanik werden Operatoren eingeführt, die über eine bestimmte Wirkung auf die
Wellenfunktion definiert sind. Während sich im Ortsraum der Ortsoperator durch eine Multiplikation von x mit der Wellenfunktion manifestiert, taucht er aufgrund der Eigenschaften der FourierTransformation im Impulsraum als eine Ableitung der Wellenfunktion auf.
356
6 Fourier-Transformationen
gewechselt werden kann. Dies wird auch im folgenden Abschn. 6.3 besprochen. Auch in der klassischen Physik wird diese Methode verwendet, um lineare Differentialgleichungen zu vereinfachen, was in Abschn. 6.5 diskutiert wird. Dass dabei das negative Vorzeichen auftritt, hängt damit zusammen, dass die Umkehrung der Fourier-Transformation wieder eine Fourier-Transformation mit umgekehrtem Vorzeichen ist. Dies lässt sich wie bei den Ableitungen nach der Zeit auch auf höhere Dimensionen übertragen: dn F [ f (t)](ω) = F [(−it)n · f (t)](ω). dωn
(6.7)
• Verschiebung in der Zeit t Hierzu sei τ ∈ R. Es gilt dann, unter Verwendung der Substitutionsregeln aus Abschn. 1.4 ∞
F [ f (t − τ )](ω) = −∞
dt f (t − τ ) e−iωt = √ 2π
= e−iωτ
∞ −∞
=e
−iωτ
∞ −∞
dt f (t) e−iω(t+τ ) √ 2π
dt f (t) e−iωt √ 2π
F [ f (t)](ω).
(6.8)
Dabei wurde im ersten Schritt eine Substitution der Art u = t − τ vorgenommen. Dies ersetzt jedes t durch u + τ , und durch eine Umbenennung von u in t ergibt sich die zweite Zeile. Damit zeigt sich, bei der Fourier-Transformation einer im Argument verschobenen Funktion erhält die Fourier-Transformation einen zusätzlichen Phasenfaktor. • Verschiebung in der Frequenz ω Durch Einsetzen der Definition ergibt sich ∞
∞ dt dt f (t) eit e−iωt f (t) e−i(ω−)t = √ √ 2π 2π −∞ −∞
= F f (t) eit (ω).
F [ f (t)](ω − ) =
Damit zeigt sich, bei der Fourier-Transformation einer Funktion mit zusätzlichem Phasenfaktor wird das Argument der Fourier-Transformation verschoben. • Negative Frequenzen Mit der Definition (6.1) gilt ⎛ ∞ ⎞∗ ∞ dt dt F [ f (t)](−ω) = f (t) eiωt = ⎝ f ∗ (t) e−iωt ⎠ √ √ 2π 2π −∞ ∗
−∞
∗
= F [ f (t)].
6.3
Übertragung auf Ortskoordinaten und höhere Dimensionen
357
Dabei drückt F ∗ das komplex Konjugierte der Fourier-Transformation aus. Für eine reelle Funktion f kann die Fourier-Transformation der negativen Frequenzen über die komplexe Konjugation ermittelt werden. Häufig ist das Argument der Funktion f aus dem Kontext klar, und es wird im Folgenden stets
F [ f ] = F [ f (t)](ω) angenommen, wenn nichts anderes explizit angegeben ist.
6.3
Übertragung auf Ortskoordinaten und höhere Dimensionen
In den ersten Semestern des Studiums der theoretischen Physik wird zumeist immer nur ein Aufenthaltsort eines Körpers betrachtet, da dies die sinnvollsten Betrachtungen im Rahmen der Mechanik sind. Doch mit dem Einstieg in die Elektrodynamik und später der Quantenmechanik werden physikalische Größen an einem festen Ort r im Raum ausgewertet. Hier kann es auch sinnvoll sein, zum Lösen der Probleme die Konzepte der Fourier-Transformation auch auf den Raum zu übertragen. Dazu wird der Wellenvektor k eingeführt. Sein Betrag ist durch |kk | = k =
2π λ
gegeben, wobei λ die Wellenlänge ist. Es werden also physikalische Größen in einer Überlagerung einzelner Wellen verschiedener Wellenlängen ausgedrückt. Da der Raum dreidimensional ist, ist es notwendig auch die Fourier-Transformation bezüglich jeder Koordinate durchzuführen. Dadurch multiplizieren sich die Faktoren √1 zusammen. Der Exponent 2π setzt sich später als eine Summe der Exponenten der einzelnen Transformationen zusammen und enthält deshalb die Kombination kx x + k y y + kz z = k · r
(6.9)
Dann ergibt sich die räumliche Fourier-Transformation f (rr ) =
d 3k (2π )
3 2
F [ f (rr )](kk ) e
ikk ·rr
F [ f (rr )](kk ) =
d3r 3
(2π ) 2
f (rr ) e−ikk ·rr .
(6.10)
Für die Fourier-Transformation der Delta-Distribution gilt dann in Analogie zu Gl. (6.2) 1 d3r eikk ·(rr −rr ) . (6.11) δ(3) (rr − r ) = (2π )3
358
6 Fourier-Transformationen
Dies lässt sich ebenfalls durch das Einsetzen der Fourier-Transformation in die Rücktransformation zeigen. Die wichtigste Änderung zu den Rechenregeln von oben ist hierbei, dass bei den Ableitungen nur eine Komponente herausprojiziert wird. So gilt beispielsweise ∂ i(k x x+k y y+kz z) e = ik x ei(k x x+k y y+kz z) . ∂x Es gilt allgemein4
F [∂i f (rr )] (kk ) = iki F [ f (rr )](kk ).
(6.12)
Für den Laplace-Operator = ∂x2 + ∂ y2 + ∂z2 ergibt sich dann
F [ f (rr )] (kk ) = F ∂x2 f + F ∂ y2 f + F ∂z2 f = (ik x )2 F [ f ] + (ik y )2 F [ f ] + (ik z )2 F [ f ] = −(k x2 + k 2y + k z2 )F [ f ] = −kk 2 F [ f (rr )](kk ).
(6.13)
Es gibt zusätzlich drei weitere Operationen, die in Kap. 8 vollständig eingeführt werden und deren Anwendung auf die Fourier-Transformation hier zur Vollständigkeit angegeben werden soll. Dabei ist zu beachten, dass im Falle von vektoriellen Größen A die Zusammenfassung der Fourier-Transformationen der einzelnen Komponenten auch als vektorielle Größe gemäß A (rr )](kk ) = eˆ i F [Ai (rr )](kk ) F [A
(6.14)
aufgefasst wird. Die zu betrachtenden Operationen sind: • Der Gradient Für ihn lässt sich
F [∇ f (rr )](kk ) = eˆ i F [∂i f ] = iˆe i ki F [ f ] = ikk F [ f (rr )](kk )
(6.15)
ermitteln. • Die Rotation Für sie lässt sich A (rr )](kk ) F [∇ × A (rr )](kk ) = eˆ l F [ lmn ∂m An ] = iˆe l lmn km F [An ] = ikk × F [A
(6.16)
ermitteln. 4 Dabei bezeichnet ∂ die partielle Ableitung nach der Komponente x , nämlich ∂ . Sie wird volli i ∂ xi
ständig im Kapitel 8 eingeführt.
6.4
Beispiele für Fourier-Transformationen
359
• Die Divergenz Für sie lässt sich A (rr )](kk ) F [∇ A (rr )](kk ) = F [∂i Ai ] = iki F [Ai ] = ikk · F [A
(6.17)
ermitteln.
6.4
Beispiele für Fourier-Transformationen
• Die Sinusfunktion Als erstes Beispiel soll eine Sinusfunktion mit dem Wellenvektor q betrachtet werden. Diese wird als f (x) = sin(q x) =
eiq x − e−iq x 2i
umgeschrieben. Damit gilt für die Fourier-Transformation eiq x − e−iq x −ikx 1 dx e F [ f ](k) = √ 2i 2π 1 1 dx e−i(k−q)x − dx e−i(k+q)x =√ 2π 2i √ 2π = (δ (k − q) − δ (k + q)) 2i √ δ (k − q) − δ (k + q) . = 2π 2i Das Auftreten der Dirac-Delta-Funktion zeigt dabei an, dass nur zwei Wellenvektoren q und −q beitragen. Diese lassen sich so interpretieren, dass die Sinusfunktion eine Überlagerung aus einer rechtsläufigen q und einer linksläufigen −q Welle ist. • Die Rechteckfunktion Als Nächstes wird eine Rechteckfunktion f (x) = (a − |x|) betrachtet. Ihre Fourier-Transformation berechnet sich gemäß 1 F [ f ](k) = √ 2π
∞ −∞
1 dx (a − |x|) e−ikx = √ 2π
a −a
dx e−ikx
1 2 1 1 1 ika 1 −ikx a e e − e−ika = √ sin(ka) = √ = √ −a 2π −ik 2π ik 2π k 2 sin(ka) = . π k
360
6 Fourier-Transformationen
Die dabei auftretende Kombination sin(x) x wird auch gelegentlich als sinc-Funktion si(x) bezeichnet. Sie gibt das Interferenzmuster, das bei der Beugung von Licht am Einzelspalt entsteht, wieder. Generell gibt es eine Verbindung zwischen den Interferenzmustern und der Fourier-Transformation. So kann das Interferenzmuster aus der Fourier-Transformation der Spaltform bestimmt werden. Die Ausführungen dazu finden sich in der entsprechenden Fachliteratur. • Exponentiell abfallendes Verhalten Nun folgt ein Beispiel, welches eine Anwendung in der Teilchenphysik findet. Es wird eine exponentielle Zerfallsfunktion betrachtet, die gespiegelt für negative Zeiten fortgesetzt wird und durch f˜(t) = A e−λ|t| gegeben ist. Hierbei ist λ die Zerfallskonstante und hängt mit der Halbwertszeit über T1/2 =
ln (2) λ
zusammen. Da im Rahmen der Quantenmechanik grundsätzlich Wellenfunktionen beschrieben werden, deren Betragsquadrat die Wahrscheinlichkeitsverteilung darstellt, lässt sich die Funktion f (t) = f 0 e−λ|t|/2 eiω0 t aufstellen. Darin sind | f 0 |2 = A und ω0 die Eigenfrequenz des Systems. Die FourierTransformation dieser Funktion lautet 1 F [ f ](ω) = √ 2π
∞
dt f 0 e−λ|t|/2 ei(ω0 −ω)t
−∞
⎛ 0 ⎞ ∞ f0 ⎝ =√ dt eλt/2 ei(ω0 −ω)t + dt e−λt/2 ei(ω0 −ω)t ⎠ 2π −∞ 0 ⎛ 0 ⎞ ∞ f0 ⎝ dt e(λ/2+i(ω0 −ω))t + dt e(−λ+i(ω0 −ω))t ⎠ =√ 2π −∞ 0 f0 1 1 =√ − 2π λ2 + i(ω0 − ω) − λ2 + i(ω0 − ω) λ f0 . = √ 2 2π λ + (ω0 − ω)2 2
6.4
Beispiele für Fourier-Transformationen
361
Die sich ergebende Funktion wird auch als Cauchy-Verteilung bezeichnet. Werden λ = τ1 durch die Lebensdauer ausgedrückt und die Frequenz über mit der Energie E = ω in Verbindung gebracht, nimmt sie die Form
F[ f ]
E
f0 = √ 2 τ 2π + (E − E )2 0 2τ
an. Die Größe τ wird als die Zerfallsbreite bezeichnet. Dies hängt damit zusammen, dass die Verteilung bei E = E 0 den maximalen Wert von ∼ 1 annimmt. Bei den Werten E = E 0 ± /2 nimmt die Verteilung die Hälfte dieses maximalen Wertes E0 F [ f ] f0 f0 1 E 0 ± /2 = √ 2 2 = · √ 2 = F[ f ] 2 2 2π 2π + 2
2
2
an. Daher handelt es sich bei um die volle Breite, bei halber Höhe, was nach dem Englischen full width at half maximum mit FWHM bezeichnet wird. Die Cauchy-Verteilung tritt als Näherung um ein Resonanzmaximum bei Zerfallsprozessen auf. Dies lässt sich aus der sogenannten Breit-Wigner-Verteilung erkennen, welche das Resonanzverhalten durch W (ω) =
1 (ω2 − ω02 )2 + γ 2 ω02
beschreibt. Für den Fall γ ω0 tritt ein starkes Maximum, welches die Resonanz beschreibt, auf. In der Nähe des Maximums ω = ω0 + δω lässt sich das Quadrat von ω durch ω2 = ω02 + 2ω0 δω ausdrücken. Eingesetzt in die Breit-Wigner-Verteilung W (ω + δω) =
1 1 1 1 1 = γ 2 = 2 2 2 2 2 (2ω0 δω) + γ ω0 4ω0 δω2 + 4ω0 (ω − ω0 )2 + γ 2 2 2
ergibt sich so, bis auf einige Vorfaktoren, die Cauchy-Verteilung.5 Resonanzphänomene spielen in der gesamten Physik eine Rolle, von klassischen Systemen wie dem harmonischen Oszillator bis hin zu den Teilchenzerfallsprozessen an Teilchenbeschleunigern.
5 In der Literatur werden die Bezeichnungen für Cauchy-Verteilung und Breit-Wigner-Verteilung
teilweise synonym verwendet. Daneben gibt es auch die Lorentz-Kurve, die je nach Kontext die Breit-Wigner- oder die Cauchy-Verteilung bezeichnet. Um Verwirrung zu vermeiden, wurde auf diese Bezeichnung hier verzichtet, soll der Vollständigkeit halber aber erwähnt werden.
362
6 Fourier-Transformationen
Die Cauchy-Verteilung findet sich dabei beispielsweise auch bei der Beschreibung von Austauschteilchen der Wechselwirkungen, wie beispielsweise dem Z -Boson wieder und taucht dort als sogenannter Propagator auf. • Fourier-Transformation der (vereinfachten) Cauchy-Verteilung Es soll noch die Umkehrung des letzten Beispiels in vereinfachter Form betrachtet werden, da der Rechenweg eine wichtige Argumentation aus der Funktionentheorie verwendet, die in der Quantenmechanik und der theoretischen Teilchenphysik Anwendung findet. Dabei handelt es sich um die konkrete Anwendung des Lemmas von Jordan aus Abschn. 5.4.3. Obwohl aus diesem Abschnitt die Erweiterung reeller Integrale auf komplexe bekannt ist, soll der Rechenweg hier dennoch ausführlich dargelegt werden. Die Vereinfachung an der zu integrierenden Funktion findet in der Form statt, dass das Maximum in den Punkt x = 0 gelegt wird und Vorfaktoren ignoriert werden. Es wird also die Funktion 1 1 1 1 f (x) = 2 − = x + a2 −2ia x + ia x − ia betrachtet. Dabei wurde bereits eine Partialbruchzerlegung durchgeführt. Außerdem soll a reell und positiv sein. Damit wird die Fourier-Transformierte zu 1 F [ f ](k) = √ 2π
∞
e−ikx x 2 + a2
dx −∞
⎛
1 1 ⎝ =√ 2π −2ia
∞
−∞
dx
e−ikx x + ia
∞ − −∞
dx
e−ikx x − ia
⎞ ⎠.
Jedes der Integrale beinhaltet eine Polstelle. Im ersten Fall liegt die Polstelle unterhalb der reellen Achse. Im zweiten Fall liegt der Pol darüber. Um solche Integrale zu lösen können der Cauchy-Integralsatz und der Residuensatz verwendet werden. Zu diesem Zwecke müssen Wege in der komplexen Ebene gefunden werden, die die Polstellen umschließen. Es soll die Situation k > 0 betrachtet werden. Wird der endliche Weg6 in Abb. 6.1a betrachtet, so ist klar, dass für eine komplexe Zahl z = x + iy der Exponent e−ik(x+iy) = e−ikx eky für y → −∞ gegen null strebt. Wird der endliche Weg also bis ins Unendliche aufgeblasen, werden die Teile des Weges mit imaginären Anteilen, also der Bogen unterhalb der reellen Achse, gegen null gehen und nichts zum Integral beitragen. Es bleibt somit nur noch die Integration über die reelle Achse über. Diese bringt allerdings noch ein Vorzeichen mit sich, aufgrund der Umlaufrichtung des gewählten Weges. Das Integral 6 Dabei ist zu beachten, dass der Weg im mathematisch positiven Sinn, also entgegen des Uhrzeiger-
sinnes umlaufen wird.
6.4
Beispiele für Fourier-Transformationen
363
Abb. 6.1 Die beiden möglichen Integrationswege bei der Fourier-Transformation der CauchyVerteilung als gestrichelte Linie mit den Polstellen als Punkte dargestellt. a Der Integrationsweg der unterhalb der reellen Achse entlangführt. b Der Integrationsweg, der oberhalb der reellen Achse entlangführt
über die reelle Achse kann also als ∞
dx h(x) e−ikx = −
−∞
γa
dz h(z) e−ikz
geschrieben werden. Im Falle h(z) =
1 z + ia
liegt die Polstelle in dem vom Weg eingeschlossenen Gebiet. Damit findet der Integralsatz von Cauchy (5.5) eine Anwendung. Es wird g(z) = e−ikz definiert. Dann gilt g(z) = 2π i · g(−ia) = 2π i · e−ka . dz z − (−ia) γa Für den Fall h(z) =
1 z − ia
befindet sich die Polstelle nicht im umschlossenen Gebiet. Es muss deshalb das Residuum der Funktion h(z)g(z) bestimmt werden. Dazu wird die Laurent-Reihe wie in Abschn. 4.2 betrachtet:
364
6 Fourier-Transformationen
e−ik(z+ia)−ka e−ka e−ik(z+ia) e−ikz = = · z − ia (z + ia) − 2ia −2ia 1 − (z+ia) ∞ 2ia∞ −ka n m e (−ik) (z + ia) (z + ia)n = (−1)m . −2ia n! (2ia)m n=0
m=0
Im ersten Schritt wurde dabei eine Erweiterung der Art +ia − ia im Exponenten und im Nenner vorgenommen. Im dritten Schritt wurden dann die aus Abschn. 4.1.3 bekannten Taylor-Reihen eingesetzt. Damit ist klar, dass diese Laurent-Reihe nur aus dem Nebenteil besteht, da jeder Exponent von (z +ia) nicht negativ ist. Das Residuum ist dann a−1 = 0. Damit wird auch das Integral über den Weg γa null. Für den Fall k > 0 ergibt sich also insgesamt ⎛ ∞ ⎞ ∞ 1 e−ikx e−ikx ⎠ 1 ⎝ − F [ f ](k) = √ dx dx x + ia x − ia 2π −2ia −∞ −∞ √ √ 1 1 2π −ka 2π −|k|a −ka =√ −2π i e e e −0 = = . 2a 2a 2π −2ia Im Falle eines negativen k kann wieder der Exponent von e−ik(x+iy) = e−ikx eky betrachtet werden. Nun strebt dieser gegen null für den Fall y → ∞. Es muss also der Weg in Abb. 6.1b gewählt werden, damit das Integral über die reelle Achse durch ein Kurvenintegral ersetzt werden kann. Diesmal entspricht das Ablaufen der reellen Achse auch dem Umlaufen des Weges (b) in positiver Richtung, es muss also kein zusätzliches Minus eingeführt werden. Aus analogen Gründen wie oben wird diesmal das Integral mit h(z) =
1 z + ia
keinen Beitrag geben, da das Residuum verschwindet. Diesmal wird aus dem CauchyIntegralsatz klar, dass für h(z) =
1 z − ia
das Integral den Wert 1 g(z) = 2π i · g(ia) = 2π i · eka = 2π i · e−|k|a dz z − ia γb annimmt. Damit gilt für den Fall k < 0
6.4
Beispiele für Fourier-Transformationen
365
⎛ 1 1 ⎝ F [ f ](k) = √ 2π −2ia
∞ dx
−∞
∞
e−ikx x + ia
− −∞
dx
e−ikx x − ia
⎞ ⎠
√ 1 1 2π −|k|a =√ 0 − 2π i e−|k|a = e . −2ia 2a 2π
Insgesamt gilt also
F [ f ](k) =
√ 2π −|k|a e , 2a
was nach dem vorherigen Beispiel wegen 2a F √ f (x) (k) = e−|k|a 2π auch zu erwarten war. • Die Gauß-Funktion Als letztes Beispiel für eine Fourier-Transformation soll die Fourier-Transformation einer Gauß-Funktion besprochen werden. Diese findet vor allem in der Quantenmechanik bei der Berechnung der Erwartungswerte des Impulsoperators Anwendung. Die Gauß-Funktion soll hier7 durch f σ (x) ≡
1 πσ2
1 4
e
−
x2 2σ 2
definiert sein. Dabei weist die Standardabweichung σ die Dimension einer Länge auf. Die Gauß-Funktion wurde dabei gemäß ∞ dx | f σ (x)|2 = 1 −∞
normiert. Sie erfüllt die bestimmende Differentialgleichung x d f σ (x) = − 2 f σ (x). dx σ Die Anfangsbedingung ist dabei die oben gewählte Normierung; sie legt die Amplitude 1 4 1 fest. Mit den Regeln für Ableitungen einer Funktion oder der Ableitung der 2 πσ Fourier-Transformation kann so die Fourier-Transformierte der Gauß-Funktion gefunden werden. Es gilt
7 Entsprechend der Normierung in der Quantenmechanik.
366
6 Fourier-Transformationen
d f σ (x) (k) = ik F [ f σ ] F dx x 1 = F − 2 f σ = 2 F [−ix · f σ ] σ iσ 1 d = 2 F [ f σ (x)] (k). iσ dk In der ersten Zeile wurde dabei die Eigenschaft der Fourier-Transformation von Ableitungen ausgenutzt. In der zweiten Zeile wurde die Ableitung der Gauß-Funktion eingesetzt und anschließend mit der Regel der Ableitung der Fourier-Transformation umgeformt. Damit ergibt sich die Differentialgleichung 1 d F [ f σ (x)] (k) = ik F [ f σ (x)] (k) iσ 2 dk d ⇔ F [ f σ (x)] (k) = −kσ 2 F [ f σ (x)] (k) dk für die Fourier-Transformierte. Das ist aber die Differentialgleichung, die von einer GaußFunktion mit σ1 anstelle von σ gelöst wird. Allerdings ist die Amplitude dieser Funktion noch nicht bekannt. Sie lässt sich allerdings durch
F [ f σ (x)] (k) = F [ f σ (x)] (0) e−
k2 σ 2 2
ausdrücken. Die Amplitude kann aus der Fourier-Transformation mit k = 0 über ∞
F [ f σ (x)] (0) = −∞ ∞
= −∞
dx f σ (x) e−i0·x √ 2π dx √ 2π
1 =√ 2π
1 πσ2
1 πσ2
F [ f σ (x)] (k) =
σ2 π
41
4
e
1 4
bestimmt werden. Dabei wurde das Gauß-Integral insgesamt
1
e−
−
x2 2σ 2
2π σ 2
=
e−a·x = 2
k2 σ 2 2
σ2 π π a
41
verwendet. Damit gilt
= f 1 (k). σ
Damit ist die Fourier-Transformation einer Gauß-Funktion der Breite σ wieder eine Gauß-Funktion mit der Breite σ1 . Mit den Regeln über Verschiebung von Funktionen und Multiplikationen von Phasenfaktoren lässt sich auch die Fourier-Transformation einer
6.5
Lösen von inhomogenen Differentialgleichungen
367
allgemeineren Gauß-Funktion finden. Es sei dazu f σ,μ,q (x) ≡ e
iq (x− μ2 )
f σ (x − μ) =
1 πσ2
1 4
e
− (x−μ) 2
2
2σ
μ
eiq (x− 2 )
betrachtet. Dabei sind σ die Breite der Gauß-Funktion, μ der Erwartungswert der GaußFunktion, also die Position ihres Maximums und q ein Wellenvektor, der sich als die Position des Maximums der Fourier-Transformation herausstellen wird. In diesem Sinne ist q der Wellenvektorerwartungswert. Damit gilt
μ μ F f σ,μ,q (x) (k) = F eiq (x− 2 ) f σ (x − μ) (k) = e−ikμ F eiq (x+ 2 ) f σ (x) (k)
q q = e−i(k− 2 )μ F eiq x f σ (x) (k) = e−i(k− 2 )μ F [ f σ (x)] (k − q) 2 41 q (k−q)2 σ 2 σ e− 2 = f 1 ,q,−μ (k). = e−iμ(k− 2 ) σ π Also gilt
F
1 πσ2
1 4
e
− (x−μ) 2 2σ
2
e
iq (x− μ2 )
(k) =
σ2 π
14
e−
(k−q)2 σ 2 2
e−iμ(k− 2 ) q
(6.18)
für die Fourier-Transformation einer allgemeinen Gauß-Funktion.
6.5
Lösen von inhomogenen Differentialgleichungen
Eine der wichtigsten Anwendungen der Fourier-Transformationen ist das Lösen von inhomogenen linearen Differentialgleichungen mit konstanten Koeffizienten. Auch hier wird auf die eingeführten Begrifflichkeiten und Beispiele aus Abschn. 2.6 eingegangen. Ist ein Differentialoperator der Art
Dt(N ) ≡
N
an ∂tn
n=0
mit konstanten Koeffizienten gegeben, so kann die homogene Lösung durch das Aufstellen des charakteristischen Polynoms N n=0
an λn = 0
368
6 Fourier-Transformationen
und dessen Nullstellen gefunden werden. Gibt es N verschiedene Lösungen λ(i) des charakteristischen Polynoms, so gehört zu jedem dieser eine Lösung8 f (t) = eλ
(i) t
der homogenen Gleichung. Die homogene Lösung setzt sich dann aus der Linearkombination dieser N Lösungen zusammen. Soll eine partikuläre Lösung gefunden werden, so bietet sich die Fourier-Transformation an. Es ist also die Differentialgleichung
Dt(N ) f (t) = g(t) gegeben. Dann können die Fourier-Transformationen von f und g verwendet werden. 0 = Dt(N ) f (t) − g(t) ∞ ∞ dω dω (N ) iωt = Dt √ F [ f ](ω) e − √ F [g](ω) eiωt 2π 2π −∞
∞ = −∞ ∞
= −∞
−∞
dω F [ f ](ω)Dt(N ) eiωt −F [g](ω) eiωt √ 2π dω (N ) √ eiωt F [ f ](ω) e−iωt Dt eiωt −F [g](ω) . 2π
Damit muss aber der Inhalt der Klammern bereits null sein. Die Ableitungen lassen sich über ∂tn eiωt = (iω)n eiωt einfach berechnen. Und damit nimmt die Klammer die Form
F [ f ](ω)
N
an (iω)n − F [g](ω) = 0
n=0
an. Dies ist eine algebraische Gleichung anstelle einer Differentialgleichung. So kann die Fourier-Transformierte von f zu
8 Handelt es sich bei einer Nullstelle um eine mehrfache Nullstelle, so unterscheiden sich die Lösun-
(i) (i) gen durch ein Polynom in t als Vorfaktor von eλ t . Typische Beispiele sind Lösungen wie t eλ t , wie beim asymptotischen Grenzfall des gedämpften harmonischen Oszillators.
6.5
Lösen von inhomogenen Differentialgleichungen
F [ f ](ω) =
F [g](ω) N
369
= χ (ω)F [g](ω)
an (iω)n
n=0
bestimmt werden. Dabei wurde die Antwortfunktion χ(ω) =
1 N
an (iω)n
n=0
aus Abschn. 4.3.5 eingesetzt. Die Lösung der ursprünglichen Gleichung ist dann durch die Rücktransformation ∞ f (t) = −∞
∞ dω F [g](ω) iωt dω e = √ √ χ (ω)F [g](ω) eiωt N 2π 2π −∞ an (iω)n
(6.19)
n=0
gegeben.9 Diese Integrale sind häufig nicht einfach zu lösen, aber das ursprüngliche Problem ist an und für sich gelöst. Das Finden der Funktion f (t) ist nicht immer analytisch möglich. In solchen Fällen findet die Berechnung üblicherweise numerisch mit dem Computer statt. Beispiel Ein besonderes Beispiel der Physik ist hierbei der harmonische Oszillator. Sein Differentialoperator lautet
Dt(2) = ∂t2 + 2γ ∂t + ω02 , wodurch die Differentialgleichung durch
Dt(2) x(t) = f (t) gegeben ist. f bezeichnet hier die zusätzlich wirkende Kraft, während x(t) die Auslenkung der bewegten Masse bezeichnet. Wird als Inhomogenität f die Dirac-Delta-Funktion betrachtet, führt dies auf x (t) + 2γ x (t) + ω02 x(t) = δ (t) als zu lösende Differentialgleichung. Die Lösung ist dann die Green’sche Funktion
9 Es ist nicht verwunderlich, dass es hier eine gewisse Ähnlichkeit zu der Lösung inhomogener Diffe-
rentialgleichungen mit periodischen Anregungen aus Abschn. 4.3.5 gibt. Dort wurde statt der FourierTransformation die Fourier-Reihe der Inhomogenität betrachtet. Aber die Fourier-Transformation stellt ja nur einen Grenzfall der Fourier-Reihe dar.
370
6 Fourier-Transformationen
G(t) = (t) e
aus Abschn. 2.6.3, wobei = kuläre Lösung durch
−γ t
⎧ sin(t) ⎪ ⎪ ⎨
γ < ω0
⎪ ⎩t
γ = ω0
sinh(t) ⎪
γ > ω0
|ω02 − γ 2 | ist. Mit der Green’schen Funktion ist die parti∞
xp (t) =
dt G(t − t) f (t )
−∞
bestimmt. Die Fourier-Transformierte der Dirac-Delta-Funktion ist √1 , und damit gilt für die 2π Green’sche Funktion und den Erkenntnissen aus Gl. (6.19) auch ∞ G(t) = −∞ ∞
= −∞
dω F [δ (t)](ω) eiωt = √ 2π (iω)2 + 2γ iω + ω02
∞ −∞
dω χ (ω) iωt e √ √ 2π 2π
1 1 dω eiωt . · 2 √ √ 2 2π 2π ω0 − ω + 2γ iω
Dabei ist χ(ω) =
1 ω02 − ω2 + 2γ iω
die Antwortfunktion des harmonischen Oszillators auf eine periodisch antreibende Kraft, die in Abschn. 4.3.5 bestimmt wurde. Die Green’sche Funktion ist also über die FourierTransformation mit der Antwortfunktion einer periodisch antreibenden Kraft in der Form χ(ω) 1 1 F [G(t)](ω) = √ =√ 2 2π 2π (iω) + 2iγ ω + ω02 verknüpft. Dieses Ergebnis hätte über die Rechnung ∂t2 G + 2γ ∂t G + ω02 G = δ (t) ⇒ ⇒
1 (iω)2 F [G] + 2iγ ωF [G] + ω02 F [G] = √ 2π 1 1 F [G] = √ 2π (iω)2 + 2iγ ω + ω02
6.6
Formelsammlung – Fourier-Transformation
371
auch zu Fuß erreicht werden können. Dabei werden beim Übergang in die FourierDarstellung f und G durch ihre Fourier-Transformierten ersetzt und Ableitungen durch Faktoren von iω ersetzt.
6.6
Formelsammlung – Fourier-Transformation
Fourier-Transformation und Rücktransformation in Zeitkoordinaten ∞
F [ f ](ω) = −∞
∞
dt f (t) e−iωt √ 2π
dω √ F [ f ](ω) eiωt 2π
f (t) = −∞
Fourier-Transformation und Rücktransformation in Raumkoordinaten
F [ f ](kk ) =
d3r (2π )
3 2
f (rr ) e−ikk ·rr
f (rr ) =
d 3k (2π )
3 2
F [ f ](kk ) eikk ·rr
Darstellungen des Dirac-Deltas 1 δ t − t = 2π
∞
dω eiω(t−t )
δ(3) r − r =
−∞
1 (2π )3
d3r eikk ·(rr −rr )
Rechenregeln
F [ f (t)](−ω) = F ∗ [ f ∗ (t)]
F [ f (t − τ )](ω) = e−iωτ F [ f (t)](ω) F [ f (t)](ω − ) = F f (t) eit (ω) n d d f (t) (ω) = iωF [ f (t)](ω) F F f (t) (ω) = (iω)n F [ f (t)](ω) dt dt n
dn F [ f (t)](ω) = F (−it)n · f (t) (ω) dωn
F [λ f (t) + μg(t)](ω) = λF [ f (t)] + μF [g(t)]
F [∂i f (rr )] (kk ) = iki F [ f (rr )](kk ) A (rr )](kk ) = eˆ i F [Ai (rr )](kk ) F [A A (rr )](kk ) F [∇ × A (rr )](kk ) = ikk × F [A
F [ f (rr )] (kk ) = −kk 2 F [ f (rr )](kk ) F [∇ f (rr )](kk ) = ikk F [ f (rr )](kk ) A (rr )](kk ) F [∇ A (rr )](kk ) = ikk · F [A
Lösen inhomogener linearer Differentialgleichungen
372
6 Fourier-Transformationen
Dt(N ) f (t) = g(t)
Dt(N ) ≡
N
an ∂tn
n=0
∞ ⇒ f (t) = −∞
∞ dω F [g](ω) iωt dω e = √ √ χ (ω)F [g](ω) eiωt N 2π 2π −∞ an (iω)n n=0
Fourier-Transformation einer Gauß-Funktion
F
1 πσ2
1 4
e
− (x−μ) 2 2σ
2
e
iq (x− μ2 )
(k) =
σ2 π
41
e−
(k−q)2 σ 2 2
e−iμ(k− 2 ) q
7
Matrizen
Inhaltsverzeichnis 7.1
7.2
7.3
7.4
Definitionen und Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Motivation der Matrixform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1.2 Praktische Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mathematische Strukturen mit Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Funktionen von Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2 Gruppen von Matrizen und Darstellungen von Gruppen . . . . . . . . . . . . . . . . . . . . . 7.2.3 Lie-Gruppen und Lie-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Einige spezielle Matrizengruppen und ihre Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1 Die Gruppe der Drehmatrizen SO(3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 Die Gruppe der komplexen Drehmatrizen SU(n) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formelsammlung – Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
374 374 378 414 414 425 429 437 437 443 454
In der Physik treten Matrizen in den ersten Semestern meist nur in Kombination mit Vektoren auf. Dort werden sie als eine lineare Abbildung von Vektoren aufgefasst. Das heißt, Matrizen nehmen einen Vektor entgegen und wandeln diesen in einen neuen Vektor um. Beispielsweise lassen sich Drehungen eines Vektors im Raum durch die Anwendung einer Matrix auf einen Vektor beschreiben. Da in diesem allgemeinen Sinne Matrizen nur lineare Abbildungen von Vektoren sind, lassen sich diese als lineare Operatoren ausdrücken, und ebenso lassen sich lineare Operatoren als Matrizen ausdrücken. Solche linearen Operatoren wurden bereits in Abschn. 3.3.4 besprochen. Dort wurde auch darauf verwiesen, dass sich die formale Beschreibung der Quantenmechanik in Analogie zu der Anwendung von Matrizen auf Vektoren auffassen lässt. Bereits in frühen, aber vor allem in späteren Semestern wird die Struktur, die die Matrizen durch Anwendung auf andere Matrizen erzeugen, von zunehmender Bedeutung. So lassen sich Gruppenstrukturen und Algebrastrukturen durch Matrizen beschreiben, die schlussendlich essenziell für die Beschreibung des Standardmodells der Teilchenphysik werden. © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_7
373
374
7 Matrizen
Bei der Anwendung der Matrizen auf andere Matrizen ist, ähnlich wie bei Funktionen, die Besonderheit vorhanden, dass die Reihenfolge der Verknüpfung entscheidend ist. Es wird davon gesprochen, dass die Matrizenmultiplikation nicht kommutativ ist. In diesem Kapitel soll zunächst die Anwendung der Matrizen auf Vektoren besprochen werden, bevor auf die Eigenschaften der durch die Matrizen gebildeten Strukturen eingegangen wird.
7.1
Definitionen und Rechenregeln
Zunächst sollen die Matrizen als lineare Abbildungen, wirkend auf Vektoren, aufgefasst werden und ausgehend davon einige Eigenschaften und Regeln abgeleitet werden. Dabei ist es stets hilfreich den Begriff „Abbildung“ in Analogie zum Begriff „Funktion“ aufzufassen und Matrizen als „Funktionen von Vektoren“ zu sehen. Auf diese Weise ergibt sich eine recht intuitive Begründung für die Einführung einiger Begriffe aus der Sprache der Matrizen.
7.1.1
Motivation der Matrixform
Als Erstes soll die Matrix über die Abbildungseigenschaft motiviert werden. Zur Veranschaulichung wird zunächst ein Matrix A betrachtet, die einen Vektor v des R3 entgegennimmt. Da es sich um eine Abbildung handelt, ließe sich A(vv ) schreiben, wobei beim Umgang mit Matrizen jedoch häufiger die Schreibweise Avv verwendet wird. Diese soll aber erst ab Abschn. 7.2 verwendet werden, um zuerst die Abbildungseigenschaften etwas klarer zu machen. Das Einzige, wovon das Ergebnis der Abbildung abhängen kann, sind die Komponenten des gegebenen Vektors v . Damit ließe sich die Abbildung auch als A(v1 , v2 , v3 ) schreiben. Je nachdem, wie die Matrix geartet sein soll, ist es möglich, dass der sich ergebene Vektor wieder Teil von R3 ist. Ein Beispiel für solch einen Prozess wäre eine Drehung oder eine Streckung des Vektors. Eine andere Möglichkeit besteht darin, dass v auf einen Vektor von R2 abgebildet wird. Ein Beispiel hierfür stellt die Projektion eines dreidimensionalen Vektors in die x y-Ebene dar. Ebenso könnte die Abbildung einen vier-, fünf- oder sechsdimensionalen
7.1
Definitionen und Rechenregeln
375
reellen Vektor ergeben. Genauso wäre es möglich den Vektor v auf einen komplexen Vektor abzubilden. Dass der Ausgangsvektor nur ein reeller dreidimensionaler Vektor war, war willkürlich und wegen der Anschauungsmöglichkeiten gewählt. Ganz allgemein, könnte es sich hier auch um einen beliebig dimensionalen Vektor, der entweder komplex oder reell ist, handeln. Die schiere Anzahl an Möglichkeiten zeigt, dass eine Matrix einen Vektor aus einem n-dimensionalen Vektorraum Vn , wie dem Rn oder dem Cn nimmt und diesen auf einen m-dimensionalen Vektorraum Wm wie den Rm oder den Cm abbildet. Die Abbildung lässt sich also durch A : Vn → Wm v → A(v1 , . . . , vn ) beschreiben. Der so entstandene Vektor des Wm besteht dann aus m Komponenten. Damit lässt sich die Abbildung A auch auffassen als eine Zusammenstellung von m Abbildungen a j : Vn → W1 v → a j (v1 , . . . , vn ), wobei jede für eine der Komponenten des sich ergebenden Vektors verantwortlich ist. Dementsprechend nimmt j nur ganzzahlige Werte zwischen 1 und n an. W1 soll dabei schematisch darstellen, dass das Ergebnis von a j eine einfache Zahl ist, die dem eindimensionalen Analogon von Wm entstammt. Ist Wm der Cm , so ist W1 der Körper der komplexen Zahlen. Ebenso handelt es sich um die reellen Zahlen, wenn Wm durch dem Rm gegeben ist. Wird gefordert, dass es sich bei A um eine Funktion handelt, muss sie die in Abschn. 1.2.1 besprochenen Eigenschaften erfüllen. Es muss also für jedes Element aus dem Raum Vn genau ein Element aus dem Raum Wm existieren. Darüber hinaus sollte es sich um eine lineare Abbildung handeln. Das bedeutet, dass die w eine Linearkombination der Abbildungen von Abbildung einer Linearkombination αvv +βw v und w sein muss. Dies lässt sich als w ) = α A(vv ) + β A(w w) A(αvv + βw
(7.1)
schreiben. Wird nun ausgenutzt, dass die Abbildung nur von den Komponenten des gegebenen Vektors abhängen kann und auf m Komponenten abbildet, die jede eine eigene Abbildung darstellen, so lässt sich diese Gleichung auch als
376
7 Matrizen
⎞ ⎛ ⎞ ⎛ ⎞ a1 (v1 , . . . , vn ) a1 (w1 , . . . , wn ) a1 (αv1 + βw1 , . . . , αvn + βwn ) ⎜ a2 (v1 , . . . , vn ) ⎟ ⎜ a2 (w1 , . . . , wn ) ⎟ ⎜ a2 (αv1 + βw1 , . . . , αvn + βwn ) ⎟ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ = α + β ⎟ ⎟ ⎟ ⎜ ⎜ ⎜ .. .. .. ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ . . . am (αv1 + βw1 , . . . , αvn + βwn ) am (v1 , . . . , vn ) am (w1 , . . . , wn ) ⎛ ⎞ αa1 (v1 , . . . , vn ) + βa1 (w1 , . . . , wn ) ⎜ αa2 (v1 , . . . , vn ) + βa2 (w1 , . . . , wn ) ⎟ ⎜ ⎟ =⎜ ⎟ .. ⎝ ⎠ . αam (v1 , . . . , vn ) + βam (w1 , . . . , wn ) ⎛
schreiben. Damit zeigt sich, dass bereits die Abbildung einer jeden Komponente linear sein muss. Die einzige Möglichkeit dies zu erreichen, ist dadurch gegeben, dass die einzelnen Komponenten a j (v1 , . . . , vn ) durch eine Linearkombination der ihr übergebenen Komponenten (v1 , . . . , vn ) bestehen. Eine jede Komponente muss sich also als a j (v1 , . . . , vn ) = a j1 v1 + · · · + a jn vn schreiben lassen. Darin sind a jn einfache Zahlen, die entweder reelle oder komplexe Zahlen sein können. Damit lässt sich die Abbildung schließlich als ⎛
⎞ a11 v1 + a12 v2 + · · · + a1n vn ⎜ a21 v1 + a22 v2 + · · · + a2n vn ⎟ ⎜ ⎟ A(vv ) = ⎜ ⎟ .. ⎝ ⎠ . am1 v1 + am2 v2 + · · · + amn vn schreiben. Offensichtlich ist die Abbildung durch die Kenntnis der n · m Zahlen ai j mit i ∈ {1, . . . , m} und j ∈ {1, . . . , n} vollständig bekannt. Zumal sieht der sich so ergebende Vektor bereits gut strukturiert aus. Um die erste Komponente zu erhalten, muss in einer Liste einer Zeile a1 j durchgegangen und mit der Komponente v j multipliziert werden. Die sich ergebenden Zahlen werden dann addiert. Mit der in Abschn. 2.4 eingeführten Schreibweise ließe sich die i-te Komponente des Vektors A(vv ) also durch [A(vv )]i = [Avv ]i = ai j v j bestimmen. Die Komponenten ai j können dann in der Blockform ⎛
a11 a12 ⎜ a21 a22 ⎜ ⎜ . .. ⎝ .. . am1 am2
⎞ · · · a1n · · · a2n ⎟ ⎟ .. ⎟ .. . . ⎠ · · · amn
(7.2)
7.1
Definitionen und Rechenregeln
377
geschrieben werden. Mit der Vereinbarung1 ⎛
a11 a12 ⎜ a21 a22 ⎜ ⎜ . .. ⎝ .. . am1 am2
⎞⎛ ⎞ ⎛ ⎞ · · · a1n v1 a11 v1 + a12 v2 + · · · + a1n vn ⎜ ⎟ ⎜ ⎟ · · · a2n ⎟ ⎟ ⎜v2 ⎟ ⎜ a21 v1 + a22 v2 + · · · + a2n vn ⎟ ≡ ⎟ ⎜ ⎟ ⎜ ⎟ . . . .. .. ⎠ ⎝ .. ⎠ ⎝ .. ⎠ . vn am1 v1 + am2 v2 + · · · + amn vn · · · amn
lässt sich die Abbildung A auch durch die Matrix ⎛
a11 a12 ⎜ a21 a22 ⎜ A=⎜ . .. ⎝ .. . am1 am2
⎞ · · · a1n · · · a2n ⎟ ⎟ .. ⎟ .. . . ⎠ · · · amn
(7.3)
mit der Abbildungsvorschrift ⎛
a11 a12 ⎜ a21 a22 ⎜ A(vv ) = Avv = ⎜ . .. ⎝ .. . am1 am2
⎞⎛ ⎞ ⎛ ⎞ · · · a1n v1 a11 v1 + a12 v2 + · · · + a1n vn ⎜ ⎟ ⎜ ⎟ · · · a2n ⎟ ⎟ ⎜v2 ⎟ ⎜ a21 v1 + a22 v2 + · · · + a2n vn ⎟ = ⎟ ⎜ ⎟ ⎜ ⎟ . . . .. .. ⎠ ⎝ .. ⎠ ⎝ .. ⎠ . vn am1 v1 + am2 v2 + · · · + amn vn · · · amn (7.4)
ausdrücken. A wird wegen dem Vorhandensein von m Zeilen und n Spalten auch als (m × n)-Matrix bezeichnet. Die Menge der (m × n)-Matrizen wird als Rm×n bzw. als Cm×n bezeichnet, je nachdem, ob die Komponenten ai j nur reelle oder auch komplexe Werte annehmen können. Die Zahlen ai j stellen in dieser Form die Werte der Komponenten Ai j der Matrix dar. Damit lässt sich die Indexschreibweise aus (7.2) auch als [A(vv )]i = [Avv ]i = Ai j v j
(7.5)
ausdrücken. Im Folgenden soll für die Bezeichnung der Komponenten stets Ai j verwendet werden. In der Physik werden meistens nur solche Matrizen betrachtet, die einen Vektor in denselben Vektorraum abbilden. Beispielsweise bilden Drehungen einen dreidimensionalen Vektor auf einen anderen dreidimensionalen Vektor ab. Eine Matrix, in der m = n entspricht und daher eine (n × n)-Matrix darstellt, wird als quadratische Matrix bezeichnet. Die im nächsten Abschn. 7.1.2 eingeführten Regeln sollen zunächst etwas allgemeiner gehalten werden und beziehen sich daher auf (m × n)-Matrizen, soweit möglich.
1 Diese Vereinbarung greift bereits ein wenig auf die Matrixmultiplikation, die im Abschn. 7.1.2
eingeführt wird, vor.
378
7.1.2
7 Matrizen
Praktische Rechenregeln
Für einige weitere Regeln im Umgang mit Matrizen ist es hilfreich, noch einmal die Analogie zwischen Abbildungen und Funktionen zu betrachten. • Addition Es kann eine Addition von zwei Funktionen f und g aufgefasst werden als die Addition der punktweisen Auswertungen. Dies lässt sich als ( f + g)(x) = f (x) + g(x) schreiben. Genauso kann argumentiert werden, dass es eine Addition zwischen Matrizen geben muss, die über die Bestimmungsgleichung (A + B)(vv ) = A(vv ) + B(vv ) für beliebige Vektoren gegeben ist. Die Addition auf der rechten Seite ergibt nur Sinn, wenn sowohl A als auch B angewendet auf v einen Vektor der selben Dimensionalität ergeben. Es muss sich allgemein für die Möglichkeit einer Addition also sowohl bei A als auch bei B um eine Matrix mit m Zeilen handeln. Es wurde auch diskutiert, dass die Anzahl der Spalten einer Matrix von der Dimensionalität des übergebenen Vektors v abhängt. Hat v insgesamt n Komponenten, kann die Addition also nur ausgeführt werden, wenn es sich bei A und B um eine m × n-Matrix handelt. Durch das Einsetzen von Definition (7.3) in die Bestimmungsgleichung auf beiden Seiten ergibt sich der Zusammenhang ⎛
⎞⎛ ⎞ A11 A12 · · · A1n v1 ⎜ A21 A22 · · · A2n ⎟ ⎜v2 ⎟ ⎜ ⎟⎜ ⎟ (A + B)(vv ) = ⎜ . .. .. ⎟ ⎜ .. ⎟ .. ⎝ .. . . . ⎠⎝ . ⎠ Am1 Am2 · · · Amn vn ⎛ ⎞⎛ ⎞ B11 B12 · · · B1n v1 ⎜ B21 B22 · · · B2n ⎟ ⎜v2 ⎟ ⎜ ⎟⎜ ⎟ +⎜ . .. .. ⎟ ⎜ .. ⎟ .. ⎝ .. . . . ⎠⎝ . ⎠ Bm1 Bm2 · · · Bmn vn ⎛ ⎞ A11 v1 + A12 v2 + · · · + A1n vn ⎜ a21 v1 + A22 v2 + · · · + A2n vn ⎟ ⎜ ⎟ =⎜ ⎟ .. ⎝ ⎠ . Am1 v1 + Am2 v2 + · · · + Amn vn
7.1
Definitionen und Rechenregeln
379
⎛
⎞ B11 v1 + B12 v2 + · · · + B1n vn ⎜ B21 v1 + B22 v2 + · · · + B2n vn ⎟ ⎜ ⎟ +⎜ ⎟ .. ⎝ ⎠ . Bm1 v1 + Bm2 v2 + · · · + Bmn vn ⎛ ⎞ (A11 + B11 )v1 + (A12 + B12 )v2 + · · · + (A1n + B1n )vn ⎜ (A21 + B21 )v1 + (A22 + B22 )v2 + · · · + (A2n + B2n )vn ⎟ ⎜ ⎟ =⎜ ⎟ .. ⎝ ⎠ . (Am1 + Bm1 )v1 + (Am2 + Bm2 )v2 + · · · + (Amn + Bmn )vn ⎛ ⎞⎛ ⎞ A11 + B11 A12 + B12 · · · A1n + B1n v1 ⎜ A21 + B21 A22 + B22 · · · A2n + B2n ⎟ ⎜v2 ⎟ ⎜ ⎟⎜ ⎟ =⎜ ⎟⎜ . ⎟, .. .. .. .. ⎝ ⎠ ⎝ .. ⎠ . . . . Am1 + Bm1 Am2 + Bm2 · · · Amn + Bmn vn der die Additionsvorschrift ⎛ A11 + B11 A12 + B12 ⎜ A21 + B21 A22 + B22 ⎜ A+B =⎜ .. .. ⎝ . . Am1 + Bm1 Am2 + Bm2
· · · A1n · · · A2n .. . · · · Amn
⎞ + B1n + B2n ⎟ ⎟ ⎟ .. ⎠ . + Bmn
(7.6)
in Matrixschreibweise erkennen lässt. Die Matrizen werden also komponentenweise addiert. Dieses Ergebnis lässt sich auch durch die Indexschreibweise aus Gl. (7.5) herleiten. Dazu wird diese in die definierende Gleichung eingesetzt, um [(A + B)(vv )]i = (A + B)i j v j = [A(vv ))i + (B(vv )]i = Ai j v j + Bi j v j = (Ai j + Bi j )v j zu erhalten, was sich durch einen Vergleich als (A + B)i j = Ai j + Bi j
(7.7)
schreiben lässt. Dies ist Gl. (7.6) in Komponentenschreibweise. Die Mengen Rm×n und Cm×n bilden mit dieser Addition jeweils eine Gruppe aus Matrizen. • Multiplikation mit einem Skalar Wie sich auch Funktionen mit einer Zahl α multiplizieren lassen, so lassen sich auch Matrizen mit Zahlen multiplizieren. Bei einer Funktion f läuft dies wieder auf eine definierende Gleichung über die punktweise Auswertung (α f )(x) = α · f (x)
380
7 Matrizen
hinaus. Mit dieser Analogie lässt sich die definierende Gleichung (α A)(vv ) = α · A(vv ) für die Multiplikation einer Zahl α mit einer Matrix A aufstellen. Wird Definition (7.3) verwendet um ⎛ ⎞⎛ ⎞ A11 A12 · · · A1n v1 ⎜ A21 A22 · · · A2n ⎟ ⎜v2 ⎟ ⎜ ⎟⎜ ⎟ (α A)(vv ) = α · ⎜ . .. .. ⎟ ⎜ .. ⎟ .. ⎝ .. . . . ⎠⎝ . ⎠ Am1 Am2 · · · Amn vn ⎛ ⎞ A11 v1 + A12 v2 + · · · + A1n vn ⎜ A21 v1 + A22 v2 + · · · + A2n vn ⎟ ⎜ ⎟ =α·⎜ ⎟ .. ⎝ ⎠ . Am1 v1 + Am2 v2 + · · · + Amn vn ⎛ ⎞ α A11 v1 + α A12 v2 + · · · + α A1n vn ⎜ α A21 v1 + α A22 v2 + · · · + α A2n vn ⎟ ⎜ ⎟ =⎜ ⎟ .. ⎝ ⎠ . α Am1 v1 + α Am2 v2 + · · · + α Amn vn ⎞⎛ ⎞ v1 α A11 α A12 · · · α A1n ⎜ α A21 α A22 · · · α A2n ⎟ ⎜v2 ⎟ ⎜ ⎟⎜ ⎟ =⎜ . .. .. ⎟ ⎜ .. ⎟ .. ⎝ .. . . . ⎠⎝ . ⎠ α Am1 α Am2 · · · α Amn vn ⎛
zu erhalten, lässt sich die komponentenweise Multiplikation einer Zahl α mit einer Matrix A ⎛ ⎞ α A11 α A12 · · · α A1n ⎜ α A21 α A22 · · · α A2n ⎟ ⎜ ⎟ αA = ⎜ . (7.8) .. .. ⎟ .. ⎝ .. . . . ⎠ α Am1 α Am2 · · · α Amn erkennen. Dieses Ergebnis lässt sich auch hier durch die Indexschreibweise aus Definition (7.5) über [(α A)(vv )]i = (α A)i j v j = α[A(vv )]i = α Ai j v j = (α Ai j )v j herleiten. Damit ergibt sich (α A)i j = α Ai j
(7.9)
7.1
Definitionen und Rechenregeln
381
als Ausdruck von Gl. (7.8) in Komponentenschreibweise. • Der Vektorraum der Matrizen Die Menge der reellen bzw. der komplexen (m × n)-Matrizen bildet mit der Matrizenaddition und der Multiplikation mit Zahlen je einen Vektorraum. Die Zahlen, mit denen die Matrizen multipliziert werden, müssen dabei aus demselben Körper stammen, wie ihre Komponenten. Sonst würde ein Element der reellen Matrizen durch eine Multiplikation mit einer komplexen Zahl zu einem Element der komplexen Matrizen werden. Damit sind m×n R , R, +, · und m×n C , C, +, · Vektorräume. Das heißt vor allem, dass die Distributivgesetze (α + β)A = α A + α B
(7.10)
und α(A + B) = α A + α B gültig sind. • Die Identität Wie auch bei Funktionen, gibt es bei Matrizen eine spezielle Abbildung, die jeden Vektor auf sich selbst abbildet. In der Sprache der Funktionen wird diese häufig als Identität bezeichnet und hat id(x) = x als definierende Eigenschaft. Die Matrix, die dies für Vektoren vermag, wird als Einheitsmatrix mit 1 bezeichnet und erfüllt 1(vv ) = v als definierende Eigenschaft. Da sie einen n-dimensionalen Vektor annehmen und auch einen solchen ausgeben soll, muss es sich um eine quadratische Matrix handeln. Sie lässt sich als
382
7 Matrizen
⎛
1
⎜ ⎜0 ⎜ ⎜. 1=⎜ ⎜ .. ⎜. ⎜. ⎝. 0
⎞ ··· ··· 0 .. ⎟ .. . 1 .⎟ ⎟ . . . . . . .. ⎟ . . . .⎟ ⎟ ⎟ .. ⎟ . 1 0⎠ ··· ··· 0 1 0
darstellen. Da die Einheitsmatrix nur auf der mittleren Diagonale, der sogenannten Hauptdiagonale, Einträge hat, wird sie als Diagonalmatrix mit 1 = diag (1, . . . , 1) bezeichnet. Mit dem in Abschn. 2.4 eingeführten Kronecker-Delta lassen sich ihre Komponenten als (1)i j = δi j
(7.11)
ausdrücken. Damit lässt sich auch sehr einfach überprüfen, dass es sich um die gesuchte Matrix handelt, da [1(vv )]i = δi j v j = vi gilt. Um die Dimensionalität der Einheitsmatrix explizit anzugeben, wird die Einheitsmatrix der (n × n)-Matrizen auch mit 1 = 1n×n bezeichnet. • Diagonalmatrizen Quadratische (n × n)-Matrizen D, die nur auf der Hauptdiagonale Einträge haben und sonst nur Nullen aufweisen, werden als Diagonalmatrix bezeichnet. Sie werden oft durch die Aufzählung ihrer Einträge λ1 , λ2 , . . . , λn−1 , λn auf der Hauptdiagonale angegeben, indem vor das Tupel die Bezeichnung diag in der Form ⎛ ⎞ λ1 0 · · · · · · 0 ⎜ .. ⎟ ⎜ 0 λ ... .⎟ ⎜ ⎟ 2 ⎜. . ⎟ . . . ⎜ ⎟ . . . . . D=⎜. . . . . ⎟ = diag (λ1 , . . . , λn ) ⎜. ⎟ .. ⎜. ⎟ . λn−1 0 ⎠ ⎝. 0 ··· ··· 0 λn gestellt wird. Ihre Komponenten werden in Indexschreibweise durch
7.1
Definitionen und Rechenregeln
383
Di j = δi j λi
(7.12)
ausgedrückt, wobei auf der rechten Seite nicht summiert wird. Eine beliebige Matrix A wird als diagonalisierbar bezeichnet, wenn eine invertierbare Matrix2 U existiert, die die Matrix A in eine Diagonalmatrix D mit dem Zusammenhang D = U AU −1
(7.13)
überführt. • Hintereinanderanwendung und Matrixmultiplikation Funktionen lassen sich hintereinander ausführen und ergeben dabei eine neue Funktion. Beispielsweise könnte eine Funktion h durch die Funktionen f und g durch h(x) = f (g(x)) definiert sein.3 Ebenso lassen sich zwei Matrizen nacheinander auf einen Vektor anwenden, um dabei eine neue Matrix zu ergeben. Die definierende Gleichung C(vv ) = A(B(vv )) lässt dabei bereits einige Rückschlüsse auf die Gestalt von A, B und C zu. Handelt es sich bei B um eine (m × n)-Matrix, so bildet sie den n-dimensionalen Vektor auf einen m-dimensionalen Vektor ab. Damit muss A einen m-dimensionalen Vektor entgegennehmen und wandelt diesen in einen l-dimensionalen Vektor um. Da die Hintereinanderausführung der Matrix C entsprechen soll, muss diese einen n-dimensionalen Vektor entgegennehmen und auf einen l-dimensionalen Vektor abbilden. Daher muss es sich bei C um eine (l × n)-Matrix handeln. Damit zeigt sich zum einen, dass eine Hintereinanderausführung zwischen zwei Matrizen A und B nur dann sinnvoll ist, wenn A die gleiche Anzahl an Spalten besitzt wie die Anzahl an Zeilen von B; zum anderen zeigt sich, dass die Hintereinanderausführung einer (l × m)-Matrix und einer (m × n)-Matrix eine (l × n)-Matrix ergibt. Um aus dieser definierenden Gleichung die Matrixmultiplikation herzuleiten, wird übersichtshalber nur die Indexschreibweise aus Gl. (7.5) verwendet. Damit ergibt sich über die Rechnung
2 Die genauen Details, was eine invertierbare Matrix ist, werden in einem der Aufzählungspunkte weiter unten aufgeführt. Hier ist zunächst wichtig, dass U −1 U = 1 ist. Wie die Matrix U für ein
gegebenes A systematisch bestimmt werden kann, wird im Aufzählungspunkt über Eigenwerte und Eigenvektoren behandelt, da es einen Zusammenhang zwischen den Eigenwerten der Matrix A und den Einträgen der Matrix D gibt. Warum genau diese Reihenfolge der Matrizen gewählt wird, wird im Aufzählungspunkt über transponierte und adjungierte Matrizen aufgegriffen. 3 In der Mathematik wird diese Verkettung von Funktionen auch mit ( f ◦g)(x) = f (g(x)) bezeichnet.
384
7 Matrizen
[C(vv )]i = Ci j v j = [A(B(vv ))]i = Aik [B(vv )]k = Aik (Bk j v j ) = (Aik Bk j )v j der Vergleich Ci j =
m
Aik Bk j .
(7.14)
k=1
Die obere Grenze der Summe rührt dabei aus der oben diskutierten Tatsache, dass A über m Spalten verfügen muss, während B über m Zeilen verfügt. In der Summe handelt es sich beim Laufindex k bei A um den Spaltenindex, während es sich bei B um den Zeilenindex handelt. Die Hintereinanderanwendung von Matrizen lässt sich so durch eine Matrix darstellen, deren Komponenten durch eine Multiplikation und Addition der Komponenten von A und B bestimmt sind. Die Multiplikation und anschließende Addition von Komponenten sind als Struktur bereits bei geometrischen Vektoren in den Abschn. 1.6.2 und 1.6.3 als Skalar- und Kreuzprodukt aufgetreten. In beiden Fällen wurden diese Komponenten durch die Bezeichnung „Produkt“ mit dem Konzept der Multiplikation4 assoziiert. Daher liegt es auch hier Nahe von einer Multiplikation von Matrizen bzw. der Matrixmultiplikation zu sprechen. Diese ist dann durch ⎛
⎞⎛ A11 A12 · · · A1m B11 ⎜ A21 A22 · · · A2m ⎟ ⎜ B21 ⎜ ⎟⎜ AB = ⎜ . .. .. ⎟ ⎜ .. .. ⎝ .. . . . ⎠⎝ . Al1 Al2 · · · Alm Bm1 ⎛ m m A B A B ··· ⎜k=1 1k k1 k=1 1k k2 ⎜m m ⎜ ⎜ A B A2k Bk2 · · · 2k k1 ⎜ k=1 ≡ ⎜k=1 ⎜ .. .. .. ⎜ . . . ⎜ m m ⎝ Alk Bk1 Alk Bk2 · · · k=1
k=1
⎞ B12 · · · B1n B22 · · · B2n ⎟ ⎟ .. .. ⎟ .. . . . ⎠ Bm2 · · · Bmn ⎞ m A1k Bkn ⎟ k=1 ⎟ m ⎟ A2k Bkn ⎟ ⎟ k=1 ⎟ ⎟ .. ⎟ . ⎟ m ⎠ Alk Bkn
(7.15)
k=1
definiert. 4 Es ist dabei darauf zu achten, dass in beiden Fällen nicht die Art von Multiplikation bezeichnet wird,
die in Körpern normaler Zahlen wie den reellen oder den komplexen Zahlen vorliegt. Im ersten Fall, dem Skalarprodukt, werden zwei Vektoren genommen und auf eine Zahl, also ein vollkommen anderes Objekt abgebildet. Im zweiten Fall, dem Kreuzprodukt, werden zwar beide Vektoren wieder auf einen Vektor abgebildet, das Produkt eines Vektors mit sich selbst ist in solch einem Fall aber immer null. Mathematisch gesehen, verfehlen diese beiden „Produkte“ die Eigenschaften für eine Gruppe mit der Verknüpfung des jeweiligen Produkts. Das Skalarprodukt scheitert an der Abgeschlossenheit, während das Kreuzprodukt neutrale und inverse Elemente vermisst und zu allem Überfluss nicht einmal assoziativ ist.
7.1
Definitionen und Rechenregeln
385
• Nicht-Kommutativität der Matrixmultiplikation Allein schon durch die Tatsache, dass Spalten- und Zeilenanzahl zweier Matrizen miteinander übereinstimmen müssen, zeigt sich, dass die Reihenfolge nicht vertauscht werden kann. Handelt es sich beispielsweise bei A um eine (l × m)- und bei B um eine (m × n)Matrix, so ergibt zwar AB eine (l × n)-Matrix, die Multiplikation B A ist hingegen nicht möglich. Mathematisch wird davon gesprochen, dass die Matrixmultiplikation nicht kommutativ ist. Das heißt nichts weiter, als dass die Reihenfolge in der Matrixmultiplikation nicht beliebig getauscht werden kann. Als Vergleich können auch hier Funktionen betrachtet werden. Für diese gilt im Allgemeinen f (g(x)) = g( f (x)). Werden zum Beispiel die Funktionen f (x) = x 2
g(x) = ex
betrachtet, so ergeben sich 2 f (g(x)) = e x = e2x und g( f (x)) = exp x 2 als die andere Möglichkeit. Wie leicht zu sehen ist, sind diese beiden Funktionen nicht gleich. Nun könnte die Idee aufkommen, dass eventuell im Spezialfall von quadratischen Matrizen eine Kommutativität vorliegt. Doch auch dies ist nicht der Fall, wie an dem Beispiel der Pauli-Matrizen5
0 1 0 −i 1 0 σx = σy = σz = (7.16) 1 0 i 0 0 −1 explizit gesehen werden kann. Die Produkte von σx und σz sind
0 1 1 0 0 −1 = σ x σz = 1 0 0 −1 1 0 und
5 Sie werden in Abschn. 7.3.2 noch genauer betrachtet. In der Physik sind sie von Bedeutung um eine Beschreibung für den Spin oder die schwache Wechselwirkung zu liefern.
386
7 Matrizen
σz σ x =
1 0 0 −1
0 1 0 1 = 1 0 −1 0
und somit unterschiedlich. • Kommutator und Antikommutator Da in der Physik meist nur quadratische Matrizen auftreten, werden hier noch einige Besonderheiten für den Umgang mit nicht vertauschenden, quadratischen Matrizen gegeben. Es bietet sich oft an, einige algebraische Eigenschaften auszunutzen, anstatt die Matrizen explizit einzusetzen. Daher kann es von Vorteil sein zwei Matrizen zu tauschen, beispielsweise weil in einem Ausdruck ABvv die Wirkung von A auf v bekannt ist, die von B auf v jedoch nicht. Üblicherweise würde durch ein einfaches Tauschen aber ein Fehler entstehen, da die Matrizenmultiplikation nicht vertauschbar ist. Aus diesem Grund werden zwei Größen eingeführt, die dies korrigieren. Sie heißen Kommutator und Antikommutator. Der Kommutator ist als [A, B] ≡ AB − B A
(7.17)
definiert. Durch diese Definition ist der Kommutator die Differenz aus dem Produkt zweier Matrizen und selbst wieder eine Matrix. Der Kommutator nimmt zwei Matrizen entgegen und bildet diese auf eine Matrix ab, ähnlich wie ein Kreuzprodukt zwei Vektoren entgegennimmt und auf einen anderen Vektor abbildet.6 Damit lässt sich bei Kenntnis des Kommutators das Produkt AB durch AB = B A + [A, B] ersetzen. Im obigen Beispiel ist der Kommutator der Matrix σz mit σx durch
0 2 0 −i = 2i = 2iσ y [σz , σx ] = σz σx − σx σz = −2 0 i 0 gegeben. Wird die Zuordnung (x, y, z) → (1, 2, 3) gemacht, erfüllen die Pauli-Matrizen allgemeiner den Kommutator [σi , σ j ] = 2ii jk σk .
(7.18)
6 Dennoch gibt es Unterschiede zwischen Kommutatoren und Kreuzprodukten. Die etwas weiter
unten besprochene Leibniz-Regel hat beispielsweise kein Analogon bei Kreuzprodukten, da das Produkt zwischen zwei Vektoren eine Zahl ist. Das Kreuzprodukt mit einem Kreuzprodukt wird von der Jacobi-Identität abgedeckt.
7.1
Definitionen und Rechenregeln
387
Der Kommutator aus Definition (7.17) erfüllt dabei einige Eigenschaften: – Antisymmetrie Aufgrund der Definition (7.17) lässt sich [A, B] = AB − B A = −(−AB + B A) = −(B A − AB) = −[B, A] finden. Werden die Argumente vertauscht, erhält der Kommutator ein zusätzliches Vorzeichen. Er wird daher als antisymmetrisch bezeichnet, und der Zusammenhang [A, A] = A A − A A = 0 folgt sofort. – Linearität Mit der Definition (7.17) lässt sich der Kommutator einer Linearkombination zu [α A + β B, C] = (α A + β B)C − C(α A + β B) = α(AC − C A) + β(BC − C B) = α[A, C] + β[B, C] bestimmen. Somit ist der Kommutator einer Linearkombination die Linearkombination der Kommutatoren. – Leibniz-Regel Soll ein Kommutator bestimmt werden, der ein Produkt enthält, kann dieser nach der Definition (7.17) mit [AB, C] = ABC − C AB = ABC − AC B + AC B − C AB = A(BC − C B) + (AC − C A)B = A[B, C] + [A, C]B bestimmt werden. Bei einem Produkt wird der linke Faktor also nach links herausgezogen, während der rechte Faktor im Kommutator verbleibt. Dazu wird ein zweiter Kommutator addiert, bei dem der rechte Faktor nach rechts herausgezogen wird und der linke Faktor verbleibt. – Jacobi-Identität Ein Kommutator ist nicht assoziativ, das heißt, das Setzen der Klammern spielt eine Rolle, ähnlich wie bei Kreuzprodukten von Vektoren. Stattdessen gilt die Identität [A, [B, C]] + [B, [C, A]] + [C, [A, B]] = 0, die hier aber nicht bewiesen werden soll. Durch explizites Ausschreiben kann sie aber schnell geprüft werden. Die Assoziativität wird also dadurch ersetzt, dass die Summe der zyklischen Permutation null ergibt. Die wohl wichtigste Eigenschaft des Kommutators ist, dass bei einem verschwindenden Kommutator [A, B] = 0 die Reihenfolge der Matrizen problemlos getauscht werden kann und
388
7 Matrizen
[A, B] = 0
⇒
AB = B A
gilt. Kommutatoren spielen vor allem in der Quantenphysik eine Rolle, wo sie Rechnungen erheblich vereinfachen können oder fundamentale Strukturen erkennen lassen. So sind Bahndrehimpulse und Spin durch ein gleiches Verhalten ihrer Kommutatoren eindeutig miteinander verbunden. Der Antikommutator ist mittels {A, B} ≡ AB + B A
(7.19)
definiert. Damit lässt sich bei Kenntnis des Antikommutators das Produkt AB durch AB = −B A + {A, B} ersetzen. Im obigen Beispiel ist der Antikommutator der Matrix σz mit σx durch
0 0 =0 {σz , σx } = σz σx + σx σz = 0 0 gegeben. Ein zweites Beispiel ist durch {σx , σx } = σx σx + σx σx = 2σx σx
0 1 0 1 1 0 =2 =2 =1 1 0 1 0 0 1 gegeben. Für die Pauli-Matrizen gilt allgemein {σi , σ j } = 2δi j 1.
(7.20)
Wie auch der Kommutator gibt es ein paar Eigenschaften, die der Antikommutator erfüllt: – Symmetrie Wegen Definition (7.19) lässt sich auch {A, B} = AB + B A = B A + AB = {B, A} bestimmen, was zeigt, dass der Antikommutator symmetrisch ist. – Linearität Mit Definition (7.19) kann der Antikommutator einer Linearkombination als {α A + β B, C} = (α A + β B)C + C(α A + β B) = α(AC + C A) + β(BC + C B) = α{A, C} + β{B, C}
7.1
Definitionen und Rechenregeln
389
bestimmt werden. Der Antikommutator einer Linearkombination ist also eine Linearkombination der Antikommutatoren. – Kommutator durch Antikommutatoren Durch die Definitionen (7.17) und (7.19) lässt sich die Leibniz-Regel der Kommutatoren auch in der Form [A, BC] = ABC − BC A = ABC + B AC − B AC − BC A = (AB + B A)C − B(AC + C A) = {A, B}C − B{A, C} schreiben. Ist der Antikommutator null, {A, B} = 0, so lassen sich in einem Produkt die Matrizen unter Einführung eines Vorzeichens vertauschen. Es gilt dann AB = −B A. Antikommutatoren spielen in der Beschreibung der relativistischen Quantenmechanik eine Rolle. Die durch sie festgelegte Struktur führt zur Einführung der Dirac-Spinoren, die die Existenz von Antiteilchen vorhergesagt haben. Abschließend bleibt zu sagen, dass sich das Produkt zweier Matrizen auch durch deren Kommutator und Antikommutator als
1 AB = [A, B] + {A, B} (7.21) 2 ausdrücken lässt. Mit den gefundenen Kommutatoren und Antikommutatoren der PauliMatrizen ergibt sich so der Zusammenhang σi σ j = ii jk σk + δi j 1.
(7.22)
• Zeilen- und Spaltenvektoren Mithilfe der Matrixmultiplikation ist es auch möglich die Anwendung der Matrizen auf einen Vektor als die Multiplikation einer (m × n)- mit einer (n × 1)-Matrix aufzufassen.7 Der Vektor wird dabei als eine (n × 1)-Matrix aufgefasst, und das Abbildungsverhalten folgt dem Verhalten der Matrixmultiplikation ⎛
⎞ ⎛ ⎞⎛ ⎞ A11 v1 + · · · + A1n vn A11 · · · A1n v1 ⎜ ⎟ ⎜ ⎟ ⎜ . . . . .. .. .. ⎠ ⎝ ... ⎟ A(vv ) = ⎝ ⎠ = ⎝ .. ⎠, Am1 v1 + · · · + Amn vn Am1 · · · Amn vn weshalb auch typischerweise die anfangs erwähnte Bezeichnung Avv anstelle von A(vv ) verwendet wird. Es stellt sich auch die Frage, was passiert, wenn eine (1 × n)-Matrix auf einen n7 Dies wurde bereits implizit im Abschn. 7.1.1 zur Motivation der Matrixform getan.
390
7 Matrizen
dimensionalen Vektor angewendet wird. Nach den obigen Überlegungen müsste sich eine (1 × 1)-Matrix, also eine einfache Zahl ergeben. Wird diese (1 × n)-Matrix vorerst mit W bezeichnet, so würde dieser Zusammenhang die Form
W11 W12
⎛ ⎞ v1 ⎟ v ⎜ ⎜ 2⎟ · · · W1n ⎜ . ⎟ = W11 v1 + W12 v2 + · · · + W1n vn ⎝ .. ⎠ vn
ergeben. Die Festlegung des Zeilenindex ist jedoch überflüssig, weshalb die Komponenten dieser speziellen Matrix auch als W1 , W2 , . . . Wn bezeichnet werden könnten. Damit ergibt sich der Ausdruck W 1 v1 + W 2 v2 + · · · + W n vn , was an den Ausdruck für ein Skalarprodukt aus zwei reellen, n-dimensionalen Vektoren, wie in Abschn. 3.1 erinnert. Damit liegt es nahe diese spezielle Matrix W als Zeilenvektor zu bezeichnen. Das Skalarprodukt zwischen zwei Vektoren scheint sich dann als eine Matrixmultiplikation zwischen einem Spaltenvektor und dem dazu passenden Zeilenvektor darstellen zu lassen. Dabei bleibt zunächst allerdings offen, was dieser passende Zeilenvektor ist. Für reelle Vektoren scheint es zu genügen, die Einträge des Spaltenvektors in einer Zeile aufzuschreiben. Formal werden der Zeilen- und der Spaltenindex getauscht. Ein solcher Vektor wird als transponierter Vektor mit einem hochgestellten T bezeichnet. Ihre Komponenten sind dann in Matrixschreibweise durch vT = (vv )i1 1i
gegeben. In Vektorschreibweise sind die Komponenten selbstverständlich gleich v T = vi , (7.23) i
da der jeweils zweite Index nicht explizit erwähnt wird. Soll eine Matrix auf einen transponierten Vektor angewendet werden, so muss dieser links von der Matrix in der Form ⎞ ⎛ A11 · · · A1m ⎜ .. ⎟ .. A v T = v1 · · · vn ⎝ ... (7.24) . . ⎠ An1 · · · Anm geschrieben werden. In Komponentenschreibweise lässt sich dieser Zusammenhang durch
7.1
Definitionen und Rechenregeln
391
A vT = v T A = v j A ji i
i
(7.25)
ausdrücken. Dabei wird über den ersten Index summiert, da eine (n × m)-Matrix einen n-dimensionalen Zeilenvektor nur von links annehmen kann, um diesen in einen mdimensionalen Zeilenvektor, also eine (1 × m)-Matrix zu überführen. Bei komplexen Vektoren muss zusätzlich zum Tauschen der Indices noch eine komplexe Konjugation eingeführt werden, um das in Abschn. 3.2 eingeführte Skalarprodukt zu erhalten. Ein solcher Vektor wird als adjungiert mit einem hochgestellten † bezeichnet. Das Zeichen † wird dabei als „Dagger“, englisch für Dolch, gesprochen. Damit sind die Komponenten in Matrixschreibweise durch † ∗ v 1i = (vv )i1 gegeben. In Komponentenschreibweise unterscheiden sich die Komponenten nur um eine komplexe Konjugation und lassen sich als † v i = vi∗
(7.26)
schreiben. Soll eine Matrix auf einen adjungierten Vektor angewendet werden, ist zu beachten, dass die Abbildungsvorschrift gemäß ⎞ A11 · · · A1m ⎜ . .. ⎟ .. · · · vn∗ ⎝ .. . . ⎠ An1 · · · Anm ⎛
A v † = v1∗
(7.27)
auszuführen ist. In Komponentenschreibweise lässt sich dies als
A(vv † )
i
= v † A i = v ∗j A ji
(7.28)
auffassen. In Abschn. 3.3.4 wurde bereits das Konzept des Dualraums angeschnitten. Die Zeilenvektoren in Kombination mit der Anwendung auf gewöhnliche Spaltenvektoren können dann als Vektoren des Dualraums aufgefasst werden. Der duale Vektor zu einem reellen Vektor ist dann sein transponierter Vektor, und der eines komplexen Vektors ist sein adjungierter Vektor. • Modifizierte Skalarprodukte Im vorherigen Abschnitt wurde bereits gezeigt, dass das Skalarprodukt als eine Multiplikation eines Zeilen- mit einem Spaltenvektor aufgefasst werden kann. Dabei wurden zwei Vektoren auf eine Zahl abgebildet. Es ist jedoch leicht einzusehen, dass dies nicht die einzige Möglichkeit ist, zwei Vektoren auf ein Skalar abzubilden, sodass die Komponenten eines jeden Vektors nur linear eingehen. Stattdessen könnte zwischen den
392
7 Matrizen
Zeilen- und den Spaltenvektor w T und v noch eine Matrix A gestellt werden: w T Avv = wi Ai j v j . Die Matrix A mischt dann die Komponenten der Vektoren untereinander. Auf diese Weise kommen in der entstehenden Zahl beispielsweise auch Terme der Art A13 w1 v3 vor.8 Es wurden hier reelle Vektoren gewählt, da in der Physik auch meistens reelle Vektoren an solchen Ausdrücken beteiligt sind. Falls es sich trotzdem um komplexe Vektoren handeln sollte, so würde ein solches Skalarprodukt in der Form w † Avv geschrieben werden. Ein „normales“ Skalarprodukt lässt sich auch auf diese Weise ausdrücken, indem für die Matrix A die Einheitsmatrix 1 eingesetzt wird. Und so wird das Produkt w T 1vv = wi δi j v j = wi vi zum bekannten Skalarprodukt. In der klassischen Physik findet sich ein modifiziertes Skalarprodukt für die Rotationsenergie. Die auftretende Matrix J heißt dann Trägheitstensor9 und ist abhängig von der Geometrie und Massenverteilung des sich drehenden Objekts. Sie wird mit den Rotationsachsen10 ω über 1 ω E rot. = ω T Jω 2 in Beziehung gesetzt. Ein ähnlicher Ausdruck entsteht auch, wenn die kinetische Energie in krummlinigen Koordinaten, wie beispielsweise den Zylinderkoordinaten, die in Abschn. 1.6 eingeführt wurden, ausgedrückt werden soll. Hier wird der Ortsvektor als r = s eˆ s +zeˆ z beschrieben, und seine Ableitung ist durch r˙ = s˙eˆ s + s φ˙ eˆ φ + z˙eˆ z 8 Von einer mathematischen Perspektive aus, handelt es sich dann nicht mehr unbedingt um ein Skalarprodukt, da der Ausdruck v T Avv auch negativ werden könnte, was aber nach einer der defi-
nierenden Eigenschaften eines Skalarprodukts aus Kap. 3 ausgeschlossen war. In der Physik wird mit der Bezeichnung etwas freizügiger umgegangen. Das so aufgebaute „Skalarprodukt“ wird im Formalismus der Relativitätstheorie meist trotzdem als solches bezeichnet. 9 Die Bezeichnung „Tensor“ rührt von einem speziellen Transformationsverhalten her und wird in Kap. 10 ausführlich besprochen. Wichtig ist hier zunächst, dass sich jeder Tensor (vom Rang 2) als Matrix darstellen lässt, aber nicht jede Matrix ein Tensor ist. 10 Die Richtung der Drehachse ω ist die Achse, um die gedreht wird, während ihr Betrag ω = |ω ω | die Winkelgeschwindigkeit der Drehung anzeigt. Eine tiefergehende Behandlung findet in Kap. 10 statt.
7.1
Definitionen und Rechenregeln
393
gegeben. Die kinetische Energie wird damit zu E kin. =
1 2 1 mr˙ = m(˙s 2 + s 2 φ˙ 2 + z˙ 2 ). 2 2
Es lässt sich dieser Ausdruck auch als E kin.
⎞⎛ ⎞ ⎛ s˙ 1 02 0 1 = m s˙ φ˙ z˙ ⎝0 s 0⎠ ⎝φ˙ ⎠ 2 z˙ 0 0 1
schreiben. Die darin auftretende Matrix wird als metrischer Tensor der Zylinderkoordinaten bezeichnet und wird noch eine Rolle in Abschn. 8.4 und Kap. 8 spielen. Ein weiteres Beispiel ist die Bildung von Skalarprodukten in der speziellen und allgemeinen Relativitätstheorie. So ist das Skalarprodukt des Impulsvektors mit sich selbst stets das Quadrat der Ruhemasse des sich bewegenden Objekts. Das Skalarprodukt wird durch eine Summe über den metrischen Tensor g vollführt. Da aufgrund der nicht trivialen Metrik g duale Vektoren sich nicht einfach durch Transponieren von den eigentlichen Vektoren unterscheiden, werden Objekte des Dualraums mit tiefgestellten Indices und Objekte des Vektorraums mit hochgestellten Indices bezeichnet. Die genauen Details werden auch hier in Kap. 10 besprochen. Das Quadrat der Ruhemasse ist dann durch m 2 c4 = pμ gμν p ν auszudrücken. • Matrizen aus Vektoren erzeugen Da eine (m × n)-Matrix nach den Regeln der Matrixmultiplikation auch aus der Multiplikation einer (m × 1)- mit einer (1 × n)-Matrix aufgefasst werden kann, ist es möglich Matrizen aus einem Produkt von einem Spaltenvektor v mit einem Zeilenvektor w T mittels ⎛ ⎞ ⎞ ⎛ v1 v1 w1 · · · v1 wn ⎜ ⎜ ⎟ .. ⎟ .. A = ⎝ ... ⎠ w1 · · · wn = ⎝ ... . . ⎠ vm vm w1 · · · vm wn aufzubauen. Die Komponenten sind dann durch Ai j = vi w j gegeben. Diese Art ein „Produkt“ zwischen zwei Vektoren zu bilden, wird auch als dyadisches Produkt oder in der Physik häufiger als Tensorprodukt mit A = v ⊗w bezeichnet.
394
7 Matrizen
• Transponierte Matrizen Um eine transponierte Matrix zu motivieren, kann von der Fragestellung ausgegangen werden, welche Matrix B den Zeilenvektor v T in den Zeilenvektor w T transformiert, wenn die Matrix A den Spaltenvektor v in den Spaltenvektor w transformiert. Die Transformation, die durch A durchgeführt wird, kann zu w )i = [A(vv )]i = Ai j v j (w umgeformt werden. Da die Komponenten von transponierten Vektoren gleich sind, muss dies auch den Komponenten von w T entsprechen. Diese sind mit der Transformation durch B aber mit w T )i = B v T = v j B ji (w w )i und w T i kann über zu bestimmen. Durch das Gleichsetzen von (w w )i = Ai j v j = v j B ji = w T (w
i
der Vergleich Ai j = B ji gezogen werden. Diese Identifikation entspricht aber dem Vertauschen von Zeilen und Spalten. Wie auch bei Vektoren wird hier von einer transponierten Matrix gesprochen. Sie wird mit einem hochgestellten T symbolisiert und ihre Komponenten sind durch AT = A ji (7.29) ij
gegeben. Eine transponierte Matrix hat auf einen transponierten Vektor v T dabei konstruktionsgemäß die gleiche Wirkung wie die Matrix A auf den Vektor v , was sich auch als v T A T = (Avv )T
(7.30)
schreiben lässt. Soll ein Produkt aus Matrizen transponiert werden, so ist zu beachten, dass mit Gl. (7.29) und der Rechnung (AB)T = (AB) ji = A jk Bk i ij = Bki A jk = B T AT = B T AT ik
kj
ij
folgt, dass beide Matrizen transponiert werden müssen, aber auch ihre Reihenfolge gemäß (AB)T = B T A T
(7.31)
7.1
Definitionen und Rechenregeln
395
getauscht werden muss. Mithilfe der Definition der transponierten Matrix lassen sich zwei besondere Klassen von Matrizen einführen: – Symmetrische Matrizen Eine Matrix S, die mit ihrer Transponierten nach ST = S
(7.32)
übereinstimmt, wird als symmetrisch bezeichnet. Ihre Komponenten erfüllen wegen Gl. (7.29) die Gleichung Si j = S T = S ji . (7.33) ij
– Orthogonale Matrizen Eine Matrix O, deren Inverse durch ihre Transponierte nach O −1 = O T
⇒
OT O = 1 = O OT
(7.34)
gegeben ist, wird als orthogonal bezeichnet. Drehmatrizen sind ein Beispiel für solche Matrizen. Mit ihnen lässt sich verstehen, warum zur Diagonalisierung einer Matrix A die Form D = O AO −1 gewählt wurde. Handelt es sich bei der Matrix O um eine orthogonale Matrix, so lässt sich diese Gleichung auch als D = O AO T schreiben. Taucht A in einem modifizierten Skalarprodukt auf, lässt sich dieses auf w T Avv = w T 1A1vv = w T O T O AO T Ovv w )T (O AO −1 )(Ovv ) = (Ow w )T D(Ovv ) = (Ow umformen. Das modifizierte Skalarprodukt kann dann aufgeschrieben werden als ein einfacheres Produkt über eine Diagonalmatrix und zwei Vektoren, die beide mit der gleichen Matrix O modifiziert werden. In der Physik wird es sich dabei typischerweise um Drehungen handeln. • Adjungierte Matrizen Um eine adjungierte Matrix zu motivieren, kann von der Fragestellung ausgegangen werden, welche Matrix B den komplexen Zeilenvektor v † in den komplexen Zeilenvektor w † transformiert, wenn die Matrix A den komplexen Spaltenvektor v in den komplexen Spaltenvektor w transformiert. Die Transformation, die durch A durchgeführt wird, kann
396
7 Matrizen
zu w )i = [A(vv )]i = Ai j v j (w umgeformt werden. Da die Komponenten von zueinander adjungierten Vektoren bis auf eine komplexe Konjugation gleich sind, muss dies auch dem komplex Konjugierten der Komponenten von w † entsprechen. Diese sind mit der Transformation durch B aber mit w † )i = B v † = v ∗j B ji (w w )i∗ und w † i kann über zu bestimmen. Durch das Gleichsetzen von (w w )i∗ = Ai∗j v ∗j = v ∗j B ji = w † i (w der Vergleich Ai∗j = B ji gezogen werden. Diese Identifikation entspricht aber dem Vertauschen von Zeilen und Spalten, gefolgt von einer komplexen Konjugation jeder einzelnen Komponente. Wie auch bei Vektoren wird hier von einer adjungierten Matrix gesprochen. Sie wird mit einem hochgestellten † symbolisiert und ihre Komponenten sind durch ∗ † A i j = AT = A∗ji (7.35) ij
gegeben. Eine adjungierte Matrix hat auf einen adjungierten Vektor v † dabei konstruktionsgemäß die gleiche Wirkung wie die Matrix A auf den Vektor v , was sich auch als v † A† = (Avv )†
(7.36)
schreiben lässt. Soll ein Produkt aus Matrizen adjungiert werden, so ist zu beachten, dass mit Gl. (7.35) und der Rechnung
(AB)†
ij
= (AB)∗ji = A∗jk Bk i ∗ ∗ ∗ = Bki A jk = B † ik A† k j = B † A† i j
folgt, dass beide Matrizen adjungiert werden müssen, aber auch ihre Reihenfolge gemäß (AB)† = B † A†
(7.37)
getauscht werden muss. Mithilfe der Definition der adjungierten Matrix lassen sich zwei besondere Klassen von Matrizen einführen: – Hermitesche Matrizen Eine Matrix H , die mit ihrer Adjungierten nach
7.1
Definitionen und Rechenregeln
397
H† = H
(7.38)
übereinstimmt, wird als hermitesch bezeichnet. Ihre Komponenten erfüllen wegen Gl. (7.35) die Gleichung Hi j = H † i j = H ji∗ .
(7.39)
Hermitesche Matrizen spielen in der Quantenmechanik die Rolle von physikalisch messbaren Größen, da sie eine spezielle Eigenschaft haben, die dafür sorgt, dass alle durch sie beschriebenen Größen reell sind. – Unitäre Matrizen Eine Matrix U , deren Inverse durch ihre Adjungierte nach U −1 = U †
⇒
U † U = 1 = UU †
(7.40)
gegeben ist, wird als unitär bezeichnet. Zeitentwicklungsoperatoren in der Quantenmechanik sind ein Beispiel für solche unitären Matrizen. Mit ihnen lässt sich auch verstehen, warum zur Diagonalisierung einer Matrix A die Form D = U AU −1 gewählt wurde. Handelt es sich bei der Matrix U um eine unitäre Matrix, so lässt sich diese Gleichung auch als D = U AU † schreiben. Taucht A in einem modifizierten Skalarprodukt auf, lässt sich dieses dann als w † Avv = w † 1A1vv = w † U † U AU † Uvv w )† (U AU −1 )(Uvv ) = (Uw w )† D(Uvv ) = (Uw schreiben. Das modifizierte Skalarprodukt kann dann aufgeschrieben werden als ein einfacheres Produkt über eine Diagonalmatrix und zwei Vektoren, die beide mit der gleichen Matrix U modifiziert werden. • Inverse Matrizen Bei Funktionen mussten diese bijektiv sein, damit es eine Umkehrfunktion gab. Die Frage ist nun, ob es zu einer gegebenen Matrix A auch eine Matrix B gibt, die für einen gegeben Vektor w eindeutig einen Vektor v über w) = v B(w bestimmen kann, für den dann
398
7 Matrizen
A(vv ) = w gilt. Falls ja, wird diese Matrix B die inverse Matrix von A genannt und mit A−1 bezeichnet. In der Multiplikation11 zwischen A und A−1 gilt wegen w ) = v = 1(vv ) A−1 (A(vv )) = A−1 (w w )) = A(vv ) = w = 1(w w) A(A−1 (w der Zusammenhang A−1 A = 1 = A A−1 .
(7.41)
In den meisten Fällen lassen sich die inversen Matrizen durch das Anwenden von bestimmten Eigenschaften bestimmen. Beispielsweise werden in der Physik oft nur Matrizen betrachtet, deren Inverse durch die Transponierte oder die Adjungierte gegeben sind. Die dazugehörende Struktur wird in Abschn. 7.3 diskutiert. Ist dies nicht der Fall, so können die inversen Matrizen durch einen speziellen Algorithmus, der als Gauß-Jordan-Algorithmus bezeichnet wird, konstruiert werden. Auf diesen soll hier jedoch nicht eingegangen werden, sondern eine Eigenschaft vorgestellt werden, die es oft ermöglicht die inverse Matrix geschickt zu erraten. Dazu wird betrachtet, dass sich eine Matrix auch als ein Spaltenvektor bestehend aus Zeilenvektoren v iT , ⎛ T⎞ v1 ⎜ .. ⎟ A=⎝ . ⎠ v nT auffassen lässt. Die Komponenten sind dann durch Ai j = v iT j
gegeben. Die inverse Matrix lässt sich schreiben als ein Zeilenvektor, der aus mehreren Spaltenvektoren w i , A−1 = w 1 · · · w n besteht. Ihre Komponenten lassen sich als
11 Da in der Physik meist nur quadratische Matrizen betrachtet werden, wird hier von (n×n)-Matrizen
ausgegangen. Werden stattdessen (n × m)-Matrizen betrachtet, gibt es zwei inverse Matrizen: eine die nur von links auf A angewendet werden kann und eine die nur von rechts auf A angewendet werden kann. Sie werden als Linksinverse und Rechtsinverse bezeichnet. Die sich ergebenden Einheitsmatrizen hätten dann jeweils die Dimension m bzw. n.
7.1
Definitionen und Rechenregeln
399
w j )i (A−1 )i j = (w ausdrücken. Das Produkt der beiden Matrizen lässt sich mittels w j )k = v iT w j (A A−1 )i j = Aik (A−1 )k j = v iT (w k
bestimmen. Dies ist aber nur das Skalarprodukt zwischen den Vektoren v i und w j . Damit sich daraus die Einheitsmatrix ergibt, muss dieses Produkt δi j entsprechen. Die Aufgabe besteht dann also darin bei gegebenen Vektoren v i die Vektoren w j zu bestimmen. Werden komplexe Matrizen betrachtet, so sollte per Konstruktion die Matrix aus Adjungierten statt transponierten Vektoren bestehen, um so v i†w j = δi j zu erhalten. Für das Prüfen von A−1 A lässt sich die obige Auffassung umdrehen. Es wird dann die Matrix A als ein Zeilenvektor aus Spaltenvektoren betrachtet, während A−1 als Spaltenvektor aus Zeilenvektoren betrachtet wird. Soll das Produkt einer Matrix invertiert werden, so ist darauf zu achten, dass aufgrund von (B −1 A−1 )AB = B −1 (A−1 A)B = B −1 1B = 1 nicht nur die einzelnen Komponenten invertiert werden müssen, sondern auch die Reihenfolge der Matrizen gemäß (AB)−1 = B −1 A−1
(7.42)
getauscht werden muss. • Determinante einer Matrix Alle im letzten Punkt angeführten Verfahren helfen natürlich nichts, wenn eine solche Matrix A−1 gar nicht existiert. Wie lässt sich also schnell erkennen, ob A invertierbar ist oder nicht? Die erste Beobachtung, die sich recht schnell machen lässt, ist, dass A nicht invertierbar sein kann, wenn zwei der oben aufgeführten Vektoren v linear abhängig sind. Wäre dies der Fall, so gäbe es entweder einen Vektor w , der im Produkt mit zwei der Zeilen in der Matrix A je eine Eins erzeugt, und die sich ergebende Matrix hätte in einer Spalte zwei Einsen, oder es gäbe keinen Vektor w der im Produkt mit den beiden v eine Eins erzeugt, dann hätte die sich ergebende Matrix aber eine Spalte in der nur Nullen stehen. Mit einer ähnlichen Überlegung ist schnell einzusehen, dass das gleiche für linear abhängige Spalten gilt. Ein systematischerer Weg zu bestimmen, ob eine Matrix invertierbar ist, ist die sogenannte Determinante der Matrix A. Sie lässt sich mittels einer Verallgemeinerung des LeviCivita-Symbols aus Abschn. 2.4 bestimmen. In dieser Verallgemeinerung auf n Indices
400
7 Matrizen
ist das Levi-Civita-Symbol als ⎧ ⎪ (i 1 , . . . , i n ) gerade Permutation von (1, . . . , n) ⎪ ⎨+1 i1 ...in = −1 (i 1 , . . . , i n ) ungerade Permutation von (1, . . . , n) ⎪ ⎪ ⎩0 sonst
(7.43)
definiert. Die Determinante wird dann durch det (A) = i1 ...in A1i1 · · · Anin
(7.44)
berechnet. Für den Fall der (2 × 2)-Matrix ergibt sich der einfache Fall det (A) = i j A1i A2 j = A11 A22 − A12 A21
(7.45)
und für den Fall einer (3 × 3)-Matrix ergibt sich die aus der Schule bekannte Regel von Sarrus det A = i jk A1i A2 j A3k = A11 (A22 A33 − A23 A32 ) − A12 (A21 A33 − A23 A31 ) + A13 (A21 A32 − A22 A31 ).
(7.46)
Durch diese beiden Fälle lässt sich auch eine geometrische Interpretation der Determinante finden. Der Ausdruck für die (2 × 2)-Matrix sieht aus wie die dritte Komponente aus dem Kreuzprodukt aus den Spaltenvektoren der Matrix. Der Betrag derselbigen entspricht aber der Fläche des aufgespannten Parallelogramms. Ebenso ist der Ausdruck für den dreidimensionalen Fall mit der Notation aus dem letzten Aufzählungspunkt, det (A) = i jk A1i A2 j A3k = i jk v 1T v 2T v 3T i
j
k
= i jk (vv 1 )i (vv 2 ) j (vv 3 )k = v 1 · (vv 2 × v 3 ) das Spatprodukt aus den drei Zeilenvektoren und entspricht somit dem Volumen des aufgespannten Parallelepipeds. Sind zwei der Vektoren parallel, so ließe sich der Ausdruck auf ein Kreuzprodukt der beiden parallelen Vektoren zurückführen. Da dieses aber null ist, wird auch die Determinante verschwinden. Es lässt sich so die allgemeine Interpretation der Determinante ableiten. Wird die Matrix als eine Menge von Vektoren aufgefasst, so gibt die Determinante das Volumen des aus den Vektoren aufgespannten Hyperraums an. Damit wird auch sofort klar, warum die Determinante null werden muss, wenn zwei der Vektoren linear abhängig sind. Bei linear abhängigen Zeilen wären zwei der Vektoren parallel. Damit würde es sich im
7.1
Definitionen und Rechenregeln
401
n-dimensionalen Fall nur noch um einen (n − 1)-dimensionalen Hyperraum handeln, dessen n-dimensionales Volumen null ist. Anschaulich gesprochen, hat in drei Dimensionen eine Fläche kein Volumen, sondern höchstens einen Flächeninhalt. Einige der wichtigsten Eigenschaften, die aber nicht alle bewiesen werden sollen, sind: – Determinante und Invertierbarkeit Eine Matrix, deren Determinante nicht verschwindet, det (A) = 0 ist invertierbar. – Multiplikativität Für die Determinante zweier Matrizen A und B gilt det (AB) = det (A) det (B).
(7.47)
Die Determinante aus dem Produkt zweier Matrizen ist also das Produkt der beiden Determinanten. – Determinante einer Transponierten Die Determinante einer Matrix und ihrer Transponierten sind gleich. Dies lässt sich durch det A T = det (A) ausdrücken. Dieser Zusammenhang lässt sich auch mit der Notation von oben zumindest motivieren. Anstatt A durch einen Spaltenvektor von Zeilenvektoren auszudrücken, hätte genauso gut ein Zeilenvektor aus Spaltenvektoren betrachtet werden können. Diese Spaltenvektoren wären die gleichen Vektoren wie die Zeilenvektoren der Transponierten von A. Dann wäre die Matrix aber nicht invertierbar, wenn zwei der Zeilenvektoren von A T linear abhängig wären. Da die Determinante in diesem Kontext ein Maß für die Invertierbarkeit darstellt, sollte sie für eine Matrix und ihre Transponierte übereinstimmen. Die Definition (7.44) kann mit diesem Wissen auch als det (A) = det A T = i1 ...in A T · · · AT 1i 1
= i1 ...in Ai1 1 · · · Ain n geschrieben werden. – Determinante der Einheitsmatrix Die Komponenten der Einheitsmatrix lassen sich als (1)i j = δi j angeben. Eingesetzt in die Definition (7.44) ergibt sich
ni n
402
7 Matrizen
det (1) = i1 ...in δ1i1 · · · δin n = 1...n = 1 als Ausdruck für die Determinante der Einheitsmatrix. – Determinante einer Diagonalmatrix Die Komponenten einer Diagonalmatrix diag (α1 , . . . , αn ) lassen sich als (diag (α1 , . . . , αn ))i j = δi j αi schreiben. Ihre Determinante lässt sich dann mit det (diag (α1 , . . . , αn )) = i1 ...in δ1i1 α1 · · · δnin αn = 1...n
n
αi =
i=1
n
αi
i=1
berechnen. Die Determinante einer Diagonalmatrix ist also nur das Produkt ihrer Einträge. – Determinante der Inversen Ist die Matrix A invertierbar, so ist wegen der Multiplikativität der Determinante 1 = det (1) = det A A−1 = det (A) det A−1 die Determinante der Inversen durch det A−1 =
1 det (A)
(7.48)
gegeben. – Determinante einer mit einer Zahl multiplizierten Matrix Die Komponenten einer mit einer Zahl c multiplizierten Matrix A lassen sich als (c A)i j = c Ai j schreiben. Wegen Definition (7.44) lässt sich die Determinante dann zu det (c A) = i1 ...in c A1i1 · · · c Anin = cn i1 ...in A1i1 · · · Anin = cn det (A) bestimmen. • Spur einer Matrix Für die Zerlegung einer (n × n)-Matrix kann es sinnvoll sein, bei der Zählung der Freiheitsgrade eine Größe zu betrachten, die als Spur bezeichnet wird. Sie ist definiert als die Summe der Diagonaleinträge
7.1
Definitionen und Rechenregeln
403
Spur (A) =
n
Aii
(7.49)
i=1
und spielt auch in der Formulierung der relativistischen Quantenmechanik und damit verbunden der theoretischen Teilchenphysik eine entscheidende Rolle. Dort treten vor allem die Spuren bestimmter Matrixstrukturen, den sogenannten Gamma-Matrizen auf. Feynman-Diagramme lassen sich auf Integrale über solche Spuren bzw. auf Spuren von Integralen mit Matrixstruktur zurückführen. Ein anderer Anwendungsbereich der Spur in der Physik ist die statistische Physik. Hier lassen sich die Erwartungswerte von physikalischen Größen über eine Spur des dazugehörigen Operators Aˆ in Kombination mit einem speziellen Operator, der die statistischen Informationen des Systems in sich trägt und als Dichteoperator ρˆ bezeichnet wird, über den Ausdruck ˆ = Spur ρˆ Aˆ A bestimmen. Ist die Spur einer Matrix null, wird die Matrix als spurlos bezeichnet. Mittels der Definition (7.49) lassen sich einige Eigenschaften herleiten. – Linearität Für die Linearkombination von Matrizen α A + β B ist die Spur durch Spur (α A + β B) = α Aii + β Bii = α Spur (A) + β Spur (B) gegeben. – Zyklizität Das Produkt dreier Matrizen darf innerhalb der Spur zyklisch durchrotiert werden, da Spur (ABC) = (ABC)ii = Ai j B jk Cki = Cki Ai j B jk = (C AB)kk = Spur (C AB) = B jk Cki Ai j = (BC A) j j = Spur (BC A) gilt. Vereinfacht gilt dann für das Produkt zweier Matrizen auch Spur (AB) = Spur (B A) . – Transposition Die Spur der Transponierten von A stimmt wegen Spur A T = A T = Aii = Spur (A) ii
mit der Spur von A überein.
404
7 Matrizen
– Spur der Einheitsmatrix Die Spur der Einheitsmatrix der n × n-Matrizen ist wegen Spur (1) =
n
δii =
i=1
n
1=n
i=1
durch n zu bestimmen. • Eigenwerte und Eigenvektoren Bei Eigenvektoren handelt es sich um besondere Argumente zu einer gegebenen quadratischen (n × n)-Matrix. Es handelt sich um solche Vektoren, die bei der Anwendung der Matrix nur um einen konstanten Faktor λ gestreckt werden. Bei komplexen Vektoren kann es sich hierbei auch um eine komplexe Zahl handeln. Die Faktoren, um die ein Eigenvektor dabei gestreckt wird, werden als Eigenwerte bezeichnet. Eigenwerte und Eigenvektoren erfüllen also die spezielle Gleichung A(vv ) = Avv = λvv ,
(7.50)
die auch als Eigenwertgleichung bezeichnet wird. Da eine Matrix eine lineare Abbildung darstellt, ist auch jedes Vielfache eines Eigenvektors ein Eigenvektor zum selben Eigenwert. Prinzipiell könnte so auch der Nullvektor als Eigenvektor angesehen werden. Da dies aber zu einigen Inkonsistenzen in weiteren Definitionen führt, wird der Nullvektor als Eigenvektor ausgeschlossen. Es ist auch möglich, dass zu einem Eigenwert mehrere Eigenvektoren existieren, die linear unabhängig sind. In diesem Fall ist jede Linearkombination dieser beiden Eigenvektoren ein Eigenvektor mit demselben Eigenwert. Zu diesem Zweck sollen v und w w Eigenvektoren von A zum Eigenwert λ sein. Wird A auf ihre Linearkombination αvv +βw angewendet, ergibt sich über die Rechnung w ) = α A(vv ) + β A(w w ) = αλvv + βλw w = λ(αvv + βw w) A(αvv + βw die Richtigkeit der Behauptung. Die Menge der Eigenvektoren einer Matrix A σ (A) = {λ1 , . . . , λm } wird als Spektrum der Matrix A bezeichnet. Da Eigenwerte auch doppelt oder mehrfach auftauchen können, muss die Anzahl m nicht mit der Dimensionalität n übereinstimmen. Jedoch ist n ≥ m, wie sich etwas weiter unten zeigen wird. Eigenvektoren haben in der Physik eine große Relevanz. In der klassischen Physik lassen sich mit ihnen beispielsweise Eigenmoden von schwingenden Systemen bestimmen. Das heißt, es werden spezielle Schwingungszustände gefunden, in denen das System verbleibt. Zwei durch eine Feder gekoppelte Pendel gleicher Masse und Länge haben beispielsweise das exakte gegeneinander und das exakt synchrone Schwingen als Eigen-
7.1
Definitionen und Rechenregeln
405
moden. Eine allgemeine Schwingung der gleichen Systeme besteht aus einer Überlagerung dieser speziellen Schwingungszustände. Vor allem in dieser Eigenschaft liegt die Nützlichkeit der Eigenvektoren. Sie bilden unter den richtigen Umständen eine Basis des betrachteten Vektorraums, und es wird möglich jede allgemeine Lösung als Linearkombination der Eigenvektoren auszudrücken. In der Quantenmechanik wird so beispielsweise verwendet, dass die Eigenvektoren einer Matrix, die mit ihrer adjungierten Matrix übereinstimmt, immer eine Basis des Vektorraums bilden. Darüber hinaus sind die Eigenwerte einer solchen Basis stets reell und Eigenvektoren zu unterschiedlichen Eigenwerten sind orthogonal. Diese Betrachtungen wurden in einer etwas allgemeineren Form bereits in Kap. 3 durchgeführt. Die Eigenwerte des Hamilton-Operators sind dabei die möglichen Energieniveaus, die das System annehmen kann. Sie stellen das Energiespektrum des Systems dar. Im Wasserstoffatom handelt es sich so beispielsweise um die Energie der Elektronen in den einzelnen Schalen. Hier soll nun auf die Bestimmung der Eigenvektoren und der Eigenwerte eingegangen werden. Zu diesem Zwecke kann die Eigenwertgleichung (7.50) zu Avv = λvv = λ1vv ⇒
(A − λ1)vv = 0
umgestellt werden. Wenn die Matrix (A − λ1) invertierbar wäre, so würde sich der Nullvektor als Eigenvektor ergeben; dieser war aber per Definition ausgeschlossen. Damit die linke Seite tatsächlich durch die Anwendung der Matrix A − λ1 auf den Vektor v den Nullvektor ergibt, darf die Matrix also nicht invertierbar sein, und ihre Determinante muss verschwinden. Damit ergibt sich die Gleichung !
p(λ) = det (A − λ1) = 0,
(7.51)
welche nur von den Komponenten der Matrix und vom Eigenwert λ abhängig ist. Der Ausdruck p(λ) = det (A − λ1) wird auch als charakteristisches Polynom der Matrix A bezeichnet und ist ein Polynom in λ im Grad n. Die Nullstellen dieses Polynoms sind die Eigenwerte der Matrix A. Ein Eigenwert kann dabei auch eine mehrfache Nullstelle des charakteristischen Polynoms sein. Diese Mehrdeutigkeit eines Eigenwertes wird als algebraische Vielfachheit bezeichnet. Als Beispiel sollen die Eigenwerte der (2 × 2)-Matrix 1 1 A=
2 1 6
6 1 2
bestimmt werden. Es ist somit die Determinante der Matrix
406
7 Matrizen
A − λ1 =
1 6 − λ 1 0 2
1 2 1 6
1 0 −λ = 2 1 λ 6
1 2
1 6
−λ
zu bestimmen. Nach den Regeln der Bestimmung der Determinanten ist das charakteristische Polynom durch p(λ) = (A − λ1)11 (A − λ1)22 − (A − λ1)12 (A − λ1)21
2
1 2 1 1 1 −λ − = λ− = − 2 36 2 36 gegeben. Die Nullstellen dieses Polynoms sind die Eigenwerte der Matrix A und durch !
p(λ1/2 ) = 0
⇒
λ1/2 =
⇒
λ1 =
1 1 ± 2 6
1 3
λ2 =
2 3
gegeben. Sind nun die Eigenwerte einer Matrix bekannt, können die Eigenvektoren bestimmt werden. Dazu werden die Vektoren gesucht, die für einen gegeben Eigenwert λi die Gleichung (A − λi 1)vv = 0
(7.52)
erfüllen. Als Beispiel wird auch hier die Matrix A= betrachtet. Für den Eigenvektor zu λ1 = Gleichung 0 = (A − λ1 1) v 1 =
1 6 1 2
1 2 1 6 1 3
muss ein Vektor gefunden werden, der die
1 2 1 6
1 1 6 − 3 1 0 2
1 1 1 v1 = 6 1 1
0 1 3
v1
erfüllt. Solch ein normierter Vektor ist durch 1 −1 v1 = √ 2 1 gegeben. Für den Eigenvektor zu λ2 = Gleichung
2 3
muss ein Vektor gefunden werden, der die
7.1
Definitionen und Rechenregeln
407
0 = (A − λ2 1) v 2 =
1 2 1 6
2 1 6 − 3 1 0 2
1 −1 1 v2 = 6 1 −1
0 2 3
v1
erfüllt. Solch ein normierter Vektor ist durch 1 1 v2 = √ 2 1 gegeben. Sollte ein Eigenwert mehrere linear unabhängige Eigenvektoren aufweisen, verfügt dieser Eigenwert über eine sogenannte geometrische Vielfachheit. Sie entspricht der Dimension des von den Eigenvektoren aufgespannten Raums. In der Physik wird dann von einer Entartung gesprochen. Die geometrische Vielfachheit wird daher in der Physik häufig als Entartungsindex ri angegeben. Ein Beispiel für solch eine Entartung stellt das Wasserstoffatom dar. Im zweiten Energieniveau gibt es 4 Zustände mit unterschiedlichen Möglichkeiten für den Bahndrehimpuls des Elektrons. Darüber hinaus hat das Elektron 2 mögliche Spinzustände. Damit ergibt sich ein Entartungsgrad von r2 = 2 · 4 = 8, was erklärt, warum die zweite Schale mit 8 Elektronen voll besetzt wird. Auch die erste Schale wird durch 2 Elektronen voll besetzt, weil der Energiezustand E 1 einen Entartungsgrad von r1 = 2 aufweist. In tiefergehenden Untersuchungen des Wasserstoffatoms zeigt sich, dass die Entartung durch kleine Korrekturen zum Potential innerhalb der Störungstheorie aufgehoben wird. Diese kleinen Korrekturen berücksichtigen Dinge wie das magnetische Moment der Elektronen und des Kerns und werden mit Fein- und Hyperfeinstruktur bezeichnet. Sind die Eigenvektoren einer Matrix A bekannt, kann diese einfach diagonalisiert werden. Das heißt, es kann eine invertierbare Matrix U gefunden werden, mit welcher der Ausdruck D = U AU −1 nur Einträge auf der Hauptdiagonale hat. Anhand einer reellen Matrix, deren Eigenvektoren alle orthogonal sind und unterschiedliche Eigenwerte haben,12 soll dies schematisch durchgeführt werden und bestimmt werden, was die Einträge der Diagonale sind. Erfüllen also die normierten Eigenvektoren v i die Eigenwertgleichung 12 Das gilt beispielsweise bei einer symmetrischen Matrix S = S T mit unterschiedlichen Eigenwerten, da hier 0 = v iT (S T − S)vv j = v iT v j (λi − λ j ) gilt. Da die Eigenwerte aber verschieden sein
sollten, muss das Skalarprodukt der Eigenvektoren verschwinden, und die Vektoren sind orthogonal.
408
7 Matrizen
Avv i = λvv i , so dient als Ansatz für die Matrix U −1 U −1 = v 1 v 2 · · · v n , wobei dieser Ausdruck so aufzufassen ist, dass die erste Spalte der Matrix U −1 durch den Eigenvektor v 1 gegeben ist, die zweite Spalte durch den Eigenvektor v 2 und so weiter. Ihre Komponenten sind also durch −1 U = (vv j )i ij auszudrücken. Die Matrix U ist dann mit ⎛ T⎞ v1 ⎜v T ⎟ ⎜ 2⎟ U =⎜ . ⎟ ⎝ .. ⎠ v nT bestimmt. Dies liegt daran, dass nun in der Multiplikation von U mit U −1 der Eintrag 11 durch die Multiplikation von v 1T mit v 1 bestimmt wird, während der Eintrag 12 durch die Multiplikation von v 1T mit v 2 bestimmt ist. Die Komponenten von U sind durch Ui j = v iT j
gegeben. In Komponentenschreibweise lassen sich die Komponenten des Produkts über (UU −1 )i j = Uik U −1 k j = v iT · (vv j )k = v iT · v j = δi j k
bestimmen. Dies entspricht den Komponenten der Einheitsmatrix. Wird nun der Ausdruck U AU −1 in Komponentenschreibweise (U AU −1 )i j = Uik Akl U −1 l j = Uik Akl (vv j )l = Uik (Avv j )k = v iT λ j (vv j )k = λ j v i · v j = λ j δi j k
betrachtet, so ergibt sich eine Diagonalmatrix D = diag (λ1 , . . . , λn ) , deren Einträge die Eigenwerte der Matrix A sind. Um dies an einem Beispiel zu veranschaulichen, soll wieder die Matrix
7.1
Definitionen und Rechenregeln
409
A=
1 2 1 6
1 6 1 2
betrachtet werden. Da ihre Eigenvektoren zu den Eigenwerten λ1 =
1 3
λ2 =
2 3
zu 1 −1 v1 = √ 2 1
1 1 v2 = √ 2 1
bestimmt waren, lassen sich die Matrizen T
1 −1 1 v U = 1T = √ v2 2 1 1 und U
−1
1 −1 1 = v1 v2 = √ 2 1 1
aufstellen. Diese sind zueinander wegen
1 2 0 1 −1 1 −1 1 −1 U U= = =1 1 1 2 1 1 2 0 2 tatsächlich invers. Die Multiplikation
1 1
1 2 1 −1 1 1 −1 1 −1 1 −3 3 −1 2 6 = D = U AU = 1 1 2 1 1 − 13 2 1 1 2 1 1 6 2 3
2
1 3 0 1 2 = diag , = 2 0 43 3 3 ergibt dann tatsächlich eine Diagonalmatrix, deren Einträge die Eigenwerte der Matrix A sind. Die Reihenfolge, in der die Einträge auf der Hauptdiagonale auftauchen, hängt direkt mit der gewählten Reihenfolge der Eigenvektoren in der Definition von U −1 bzw. U zusammen. Eine wichtige Modifikation zu diesem Verfahren stellt der Fall für komplexe Eigenvektoren dar. Hier muss U aus den adjungierten Eigenvektoren aufgebaut werden, sodass −1 Ui j = v i† = vj i U ij j
gilt. Sollte es Eigenwerte mit einer geometrischen Vielfachheit größer als eins geben, also
410
7 Matrizen
eine Entartung vorliegen, so muss zunächst eine Orthonormalbasis des aus den zu diesem Eigenwert gehörenden Eigenvektoren aufgespannten Raums gefunden werden. Dies kann beispielsweise mittels des Gram-Schmidt-Verfahrens geschehen. • Zerlegung einer reellen (3 × 3)-Matrix Eine reelle (3 × 3)-Matrix lässt sich in drei Teile zerlegen, die alle eine unterschiedliche Anzahl an Freiheitsgraden und Eigenschaften aufweisen. In Kap. 10 wird darauf eingegangen, wie dies mit dem Transformationsverhalten einer Matrix zusammenhängt. Der erste Schritt besteht darin, zu erkennen, wie viele Freiheitsgrade eine reelle (3×3)-Matrix A aufweist. Da sie im Allgemeinen aus 9 unabhängigen Komponenten besteht, hat sie auch 9 Freiheitsgrade. Durch das Aufschreiben der Komponenten als Ai j =
1 1 (Ai j + A ji ) + (Ai j − A ji ) 2 2
lässt sich die Matrix A in einen Teil zerlegen, der symmetrisch unter dem Tauschen der Indices ist, und in einen Teil, der antisymmetrisch ist. Der symmetrische Teil hat daher 6 unabhängige Komponenten; 3 für die Diagonalelemente und 3 für die Elemente oberhalb der Hauptdiagonale, die mit den Elementen unterhalb der Hauptdiagonale übereinstimmen. Der antisymmetrische Teil hat keine Diagonalelemente und daher auch nur 3 Freiheitsgrade, da die Elemente oberhalb der Hauptdiagonale das Negative der Elemente unterhalb der Diagonale sind. Es gibt für den symmetrischen Teil jedoch eine weitere Vereinfachung, die durchgeführt werden kann. Es kann dazu die Spur der Matrix A auf der Hauptdiagonale eingeführt werden, um
1 1 1 1 Ai j = δi j Spur (A) + Ai j − A ji + (Ai j + A ji ) − δi j Spur (A) 3 2 2 3 = Si j + Vi j + Ti j zu erhalten. Der erste Teil ist die Spur, auf die ein Freiheitsgrad entfällt. Der zweite Teil ist nach wie vor der antisymmetrische Teil, der 3 Freiheitsgrade enthält, während der dritte Teil nun eine symmetrische, spurlose Matrix ist und dadurch nur noch 5 Freiheitsgrade beinhaltet. Dies liegt daran, dass durch die verschwindende Spur das dritte Diagonalelement durch das negative der beiden ersten gegeben ist. In der Quantenmechanik findet dies Anwendung, um Operatoren auf sphärische Tensoroperatoren zu reduzieren. Jeder der drei Teile verhält sich unter Drehung auf eine jeweils andere, aber fest vorgeschriebene Weise, die in Kap. 10 näher beleuchtet werden. Der erste ist ein Skalar unter Drehung, der zweite Teil ein Vektor unter Drehung, und der letzte Term ist ein spurloser Tensor zweiter Stufe unter Drehung. Zuletzt soll noch der Einfluss der Eigenwerte auf die Determinante und die Spur betrachtet werden. Da die Determinante einer Diagonalmatrix das Produkt ihrer Einträge ist und die Determinante zyklisch ist, lässt sich über
7.1
Definitionen und Rechenregeln
411
det (A) = det (1A) = det U −1 U A = det U AU −1 = det (diag (λ1 , . . . , λn )) zeigen, dass die Determinante einer Matrix durch das Produkt ihrer Eigenwerte det (A) =
n
λi
i=1
gegeben ist. Genauso ist die Spur zyklisch und ist durch die Summe der Eigenwerte Spur (A) =
n
λi
i=1
gegeben. • Projektoren zu Eigenvektoren In Abschn. 1.6.2 wurde bereits besprochen, dass sich die parallelen Anteile eines Vektors w an einem Vektor v aus dem Produkt w = v (vv · w ) bilden lassen, wenn der Vektor v normiert ist. Mit den Erkenntnissen über Zeilen- und Spaltenvektoren lässt sich dieser Zusammenhang auch als w = v v T · w für reelle und als w = v v† · w für komplexe Vektoren schreiben. Zur Einfachheit sollen für die weiteren Betrachtungen reelle Vektoren angenommen werden. Der gefundene Zusammenhang ließe sich durch eine etwas andere Klammersetzung w = vv T w als die Anwendung einer Matrix Pv ≡ v v T auf den Vektor w auffassen. Die Komponenten13 dieser Matrix sind durch (Pv )i j = vi v j
(7.53)
13 Im komplexen Fall lauten die Komponenten wegen der komplexen Konjugation (P ) = v v ∗ . v ij i j
412
7 Matrizen
gegeben. Aufgrund seiner Definition erfüllt diese Matrix die Eigenschaft P 2 = P P = vv T vv T = v v T v v T = v v T = P,
(7.54)
welche als idempotent bezeichnet wird. Da die Matrix parallele Anteile zu v herausprojiziert, wird sie als Projektionsmatrix oder Projektor bezeichnet. Sind Projektoren Pi und P j zu zwei orthogonalen Vektoren v i und v j gegeben, so ergibt ihr Produkt wegen Pi P j = v i v iT v j v Tj = v i v iT v j v Tj eine Matrix, die nur aus Nullen besteht. Die Projektoren Pi und P j werden, wie auch Vektoren, orthogonal genannt. Dies lässt sich zusammengefasst mit der Idempotenz auch als Pi P j = δi j Pi
(7.55)
schreiben. Falls die Eigenvektoren einer Matrix A mit v i bezeichnet werden und eine vollständige Basis ihres Vektorraums bilden, so lässt sich die Einheitsmatrix durch 1=
n
v i v iT =
i=1
n
Pi
(7.56)
i=1
schreiben. Die Matrix A selbst lässt sich über A=
n
λi Pi
(7.57)
i=1
ausdrücken, da durch die Wirkung der Matrix auf ihre Eigenvektoren, die eine Basis des Vektorraums bilden, bereits die komplette Wirkung auf alle Vektoren festgelegt wird. Diese Art und Weise A auszudrücken wird als spektrale Darstellung der Matrix A bezeichnet. Als Beispiel für diese Eigenschaften soll erneut die Matrix 1 1 A=
2 1 6
6 1 2
betrachtet werden. Ihre Eigenwerte und Eigenvektoren waren durch λ1 =
1 3
λ2 =
2 3
7.1 Definitionen und Rechenregeln
413
und 1 −1 v1 = √ 2 1
1 1 v2 = √ 2 1
gegeben. Wie sich leicht erkennen lässt, sind die Eigenvektoren orthogonal zueinander. Der Projektor des ersten Eigenvektors ist durch
1 1 −1 1 −1 T P1 = v 1v 1 = −1 1 = 2 1 2 −1 1 gegeben, während P2 =
v 2v 2T
1 1 1 1 1 = 1 1 = 2 1 2 1 1
den Projektor des zweiten Eigenvektors darstellt. Das Quadrat des ersten Projektors
1 1 −1 1 1 −1 1 −1 = = P1 P12 = −1 1 4 −1 1 2 −1 1 ist wieder der Projektor P1 , genauso wie auch der Projektor P2
1 1 1 1 1 1 1 1 = = P2 P22 = 1 1 4 1 1 2 1 1 idempotent ist. Aufgrund von P1 P2 =
1 1 −1 1 1 0 0 = 1 1 0 0 4 −1 1
sind die beiden Projektoren P1 und P2 orthogonal. Die Summe der beiden Projektoren
1 1 1 1 1 0 1 1 −1 + = =1 P1 + P2 = 2 −1 1 2 1 1 2 0 1 ergibt die Einheitsmatrix, während die mit den Eigenwerten λ1 = 1/3 und λ2 = 2/3 gewichtete Summe
1 1 2 1 1 1 1 1 1 −1 + · = 21 16 = A λ1 P1 + λ2 P2 = · 3 2 −1 1 3 2 1 1 6 2 die Matrix A selbst ergibt.
414
7.2
7 Matrizen
Mathematische Strukturen mit Matrizen
In diesem Abschnitt soll nun nicht mehr die Anwendung von Matrizen auf Vektoren betrachtet werden, sondern die Matrizen sollen selbst im Vordergrund stehen. Wie sich bereits gezeigt hat, bilden Matrizen Strukturen wie beispielsweise einen Vektorraum. In der Physik sind vor allem die Gruppenstrukturen von Matrizen, im Besonderen die Lie-Gruppen von Bedeutung. Um dies zu verstehen, ist es notwendig Funktionen von Matrizen bilden zu können. Daher wird einer der ersten Schritte sein, zu verstehen, wie eine Funktion von einer Matrix aufgefasst werden kann. Danach wird auf die allgemeinen Strukturen und ihre Beschreibungen eingegangen. Da diese Strukturen in der Physik nur für (n × n)-Matrizen auftreten, werden in diesem Abschnitt nur (n × n)-Matrizen betrachtet.
7.2.1
Funktionen von Matrizen
Zunächst soll verstanden werden, was die Funktion einer Matrix ist. Dabei kommen in der Physik essenziell nur zwei Funktionen vor: • Die Exponentialfunktion Die Exponentialfunktion einer Matrix A wird als exp (A) geschrieben und taucht in der Quantenmechanik auf, um beispielsweise die Entwicklung eines gegebenen Zustands zu beschreiben. Dort wird die Exponentialfunktion des Hamilton-Operators, der sich auch als Matrix auffassen lässt, betrachtet. Etwas allgemeiner wird der Zeitentwicklungsoperator betrachtet, der noch berücksichtigt, ob der Hamilton-Operator zu jedem Paar von zwei Zeitpunkten t und t miteinander vertauscht. Ein weiteres Beispiel ist die gruppentheoretische Struktur, mit der die theoretische Teilchenphysik die grundlegenden Kräfte der Natur beschreibt. Hier werden Exponentialfunktionen von Operatoren betrachtet, die mit den Austauschteilchen der fundamentalen Kräfte verknüpft sind. • Der Logarithmus Der Logarithmus einer Matrix A wird mit ln (A) bezeichnet. In der Physik spielt diese Funktion auf dem Gebiet der statistischen Physik eine Rolle. Hier wird ein System im quantenmechanischen Fall durch den sogenannten Dichteoperator ρ, der auch als Matrix aufgefasst werden kann, beschrieben. Die Entropie des Systems wird dann über
7.2
Mathematische Strukturen mit Matrizen
415
S = −kB Spur (ρ ln (ρ)) bestimmt. Um die Funktionen solcher Matrizen zu bestimmen, ist es hilfreich zu berücksichtigen, dass sich Funktionen nach Kap. 4 in Taylor-Reihen entwickeln lassen. Exponentialfunktionen von Matrizen Zunächst soll die Exponentialfunktion einer Matrix betrachtet werden. Die Exponentialfunktion einer Zahl x war durch exp (x) =
∞
xn n! n=0
gegeben und konvergierte für alle x ∈ R. Stumpfes Einsetzen würde also das Auffassen der Exponentialfunktion einer Matrix als exp (A) =
∞
1 n A n!
(7.58)
n=0
erlauben. Dabei sind die Potenz der Matrix A als das n-fache Produkt der Matrix mit sich selbst zu verstehen und A0 = 1 zu setzen. Eine notwendige Voraussetzung für die Sinnhaftigkeit dieser Definition ist die Konvergenz der Reihe. In den meisten Fällen ist diese in der Physik gegeben, sollte im Zweifelsfall aber überprüft werden. Als einfaches Beispiel soll die Exponentialfunktion der Matrix ⎞ 0 0 1 A = ⎝ 0 0 0⎠ −1 0 0 ⎛
multipliziert mit einer Zahl α betrachtet werden. Ihre zweite und dritte Potenz lassen sich zu ⎞ ⎞ ⎛ ⎞⎛ ⎛ −1 0 0 0 0 1 0 0 1 A 2 = ⎝ 0 0 0⎠ ⎝ 0 0 0⎠ = ⎝ 0 0 0 ⎠ −1 ⎛ 0 A3 = ⎝ 0 −1
−1 ⎞⎛ −1 0 1 0 0⎠ ⎝ 0 0 0 0 0 0
0 ⎛ 0 0 0 0 0 ⎠ = ⎝0 1 0 −1 0 0
⎞
0 −1 ⎞ 0 −1 0 0 ⎠ = −A 0 0
bestimmen. Aus dem letzten Zusammenhang lässt sich so auch direkt A4 = A3 A = −A A = −A2
416
7 Matrizen
erkennen, was auf beliebige Potenzen A2k = (−1)(k+1) A2 A
2k+1
k>0
= (−1) A k
verallgemeinert werden kann. Damit lässt sich die Potenzreihe in einen geraden und einen ungeraden Anteil gemäß exp (α A) =
∞
αn
n!
n=0
=1+
An
∞ ∞
α 2k+1 α 2k 2k A2k+1 + A (2k + 1)! 2k! k=0 ∞
=1+ A
k=0
k=1
α 2k+1 (2k + 1)!
(−1)k − A2
∞
α 2k k=1
2k!
(−1)k
= 1 + A sin (α) − A2 (cos (α) − 1) aufspalten. Beim Übergang von der zweiten in die dritte Zeile wurden dabei die gefundenen Potenzen von A eingesetzt, während beim Übergang in die letzte Zeile die Potenzreihen des Sinus und des Kosinus aus Kap. 4 verwendet wurden. Durch explizites Einsetzen der Matrizen A und A2 ergibt sich so ⎞ ⎞ ⎛ 0 0 sin (α) 1 0 0 exp (α A) = ⎝0 1 0⎠ + ⎝ 0 0 0 ⎠ − sin (α) 0 0 0 0 1 ⎞ ⎛ cos (α) − 1 0 0 ⎠ +⎝ 0 0 0 0 0 cos (α) − 1 ⎞ ⎛ cos (α) 0 sin (α) =⎝ 0 1 0 ⎠ − sin (α) 0 cos (α) ⎛
als Exponentialfunktion von α A. Dies ist eine Matrix, die einen Vektor um die y-Achse um den Winkel α gegen den Uhrzeigersinn dreht. In Abschn. 7.2.2 wird sich die Matrix A als eine spezielle Matrix für die Gruppe der Drehmatrizen herausstellen. Eine Frage, die sich dann stellt, ist, wie die Exponentialfunktion einer Matrix mit einer anderen getauscht werden kann oder wie zwei Exponentialfunktionen von Matrizen getauscht werden können oder wie sich die Summe von Matrizen als Argument einer Exponentialfunktion auseinanderziehen lässt. In den für die Physik wichtigen Fällen, in denen die Matrizen A und B nicht vertauschen, aber jeweils mit ihrem Kommutator nach
7.2
Mathematische Strukturen mit Matrizen
417
[A, [A, B]] = [B, [A, B]] = 0 vertauschen, bietet die sogenannte Baker-Campbell-Hausdorff-Identität eine Antwort auf diese Fragen.14 Sie ist durch
1 (7.59) exp (A + B) = exp (A) exp (B) exp − [A, B] 2 gegeben und lässt sich auch als exp (A) exp (B) = exp (B) exp (A) exp ([A, B]) schreiben. Die Reihenfolge darf dabei nicht vertauscht werden, da es sich um Matrizen handelt. Der Beweis, welcher hier ausgeführt werden soll, ist etwas länglich und kann auch gerne übersprungen werden. Zunächst ist festzustellen, dass wegen der Potenzreihenentwicklung [A, exp (x A)] = 0 gelten muss. Darin ist x eine reelle Zahl. Außerdem lässt sich die Einheitsmatrix auch als exp (−x A) exp (x A) = 1 = exp (x A) exp (−x A) schreiben. Nun lässt sich zunächst die Frage stellen, wie die Exponentialfunktion exp (−x A) mit dem Kommutator von [A, B] vertauscht. Dazu wird die Rechnung ∞ ∞
(−x)k
(−x)k k k [exp (−A) , [A, B]] = A , [A, B] = A , [A, B] k! k! k=1
k=1
herangezogen. Der letzte Kommutator verschwindet, da aufgrund der Leibniz-Regel stets Faktoren von A nach links und rechts herausgezogen werden können und der Ausdruck auf [A, [A, B]] = 0 zurückgeführt werden kann. Damit vertauscht die Exponentialfunktion mit dem Kommutator von A und B. Als Nächstes lässt sich betrachten, wie die Exponentialfunktion exp (−x A) mit B vertauscht. Dazu wird die Funktion f (x) = exp (−x A) B exp (x A) betrachtet. Für x = 0 entspricht sie der Matrix B. Das Ziel ist es eine andere Darstellung der Funktion zu finden, um so einen Zusammenhang zwischen dem Kommutator von exp (−x A) 14 Beispielsweise vertauschen der Orts- und Impulsoperator nicht. Ihr Kommutator ist aber ein dia-
gonaler Operator, der mit jedem Operator vertauscht. Der Orts- und Impulsoperator würde die hier aufgeführte Bedingung also erfüllen.
418
7 Matrizen
und B mit dem Kommutator von A und B herzustellen. Zu diesem Zwecke wird die Ableitung f (x) = −A e−x A B e x A + e−x A B A e x A = − e−x A AB e x A + e−x A B A ex A = e−x A (B A − AB) e x A = e−x A [B, A] ex A = [B, A] betrachtet. Dabei wurde zuerst ausgenutzt, dass A mit exp (−x A) vertauscht und dass letztere Funktion mit dem Kommutator von A und B vertauscht. Die Funktion f lässt sich an der Stelle x wegen des Hauptsatzes der Differential- und Integralrechnung auch als x f (x) = f (0) +
d t f (t)
0
schreiben. Somit ergibt sich f (x) = e−x A B e x A = B + [B, A]x als zweite Darstellung der Funktion. Durch das Subtrahieren von B auf beiden Seiten und das Multiplizieren von e−x A von rechts ergibt sich e−x A B − B e−x A = [B, exp (−x A)] = x[B, A] e−x A als Ausdruck für den Kommutator von B mit der Exponentialfunktion exp (−x A). Um nun schlussendlich die Identität zu beweisen, wird die Funktion g(x) = exp (x(A + B)) exp (−x A) exp (−x B) betrachtet. Die Ableitung lässt sich dann zu g (x) = ex(A+B) (A + B) e−x A e−x B − ex(A+B) A e−x A e−x B − ex(A+B) e−x A B e−x B = ex(A+B) B e−x A − e−x A B e−x B = ex(A+B) [B, exp (−x A)] e−x B = ex(A+B) x[A, B] e−x A e−x B = e x(A+B) e−x A e−x B x[A, B] = g(x)x[A, B] bestimmen. Damit ergibt sich eine Differentialgleichung, die durch ⎛ x ⎞
1 2 g(x) = g(0) exp ⎝ d t t[A, B]⎠ = exp x [A, B] 2 0
7.2
Mathematische Strukturen mit Matrizen
419
gelöst wird. Dabei wurde verwendet, dass g(0) = 1 ist. An der Stelle x = −1 ergibt sich die Identität
1 g(−1) = exp (−(A + B)) exp (A) exp (B) = exp [A, B] , 2 welche sich durch einfache Umformungen auf die Form in (7.59) bringen lässt. Die gefolgerte Identität lässt sich erhalten, wenn in der Identität die Umbenennung A ↔ B
1 exp (A + B) = exp (A) exp (B) exp − [A, B] 2
1 = exp (B + A) = exp (B) exp (A) exp [B, A] 2 betrachtet und zu exp (A) exp (B) = exp (B) exp (A) exp ([B, A]) umgeformt wird. Zuletzt soll noch eine Eigenschaft betrachtet werden, die eine Aussage über die Determinante der Exponentialfunktion einer Matrix A trifft. Dazu soll eine Matrix A betrachtet werden, die durch die Matrix U über D = U AU −1 diagonalisiert wird und die Eigenwerte λ1 bis λn aufweist. Es ist dann klar, dass für eine jede Potenz k von A die Diagonalform U Ak U −1 = U A1A · · · A1AU −1 = U AU −1 U AU −1 · · · U AU −1 U AU −1 = diag (λ1 , . . . , λn ) diag (λ1 , . . . , λn ) · · · diag (λ1 , . . . , λn ) diag (λ1 , . . . , λn ) = (diag (λ1 , . . . , λn ))k = diag λk1 , . . . , λkn angenommen wird. Damit lässt sich die Determinante zu det (exp (A)) = det (exp (A)) det U −1 U = det (U ) det (exp (A)) det U −1 = det U exp (A) U −1 ∞ ∞
1
1 k −1 k −1 A U UA U = det U = det k! k! k=0 k=0 ∞
1 = det diag λk1 , . . . , λkn = det (diag (exp (λ1 ) , . . . , exp (λn ))) k! k=0 n
= exp λi i=1
420
7 Matrizen
bestimmen. Da die Summe der Eigenwerte einer Matrix aber ihrer Spur entspricht, ergibt sich der Zusammenhang det (exp (A)) = exp (Spur (A))
(7.60)
zwischen der Determinante einer Exponentialfunktion und der Spur einer Matrix. Dies wird auch im Abschn. 7.2.2 verwendet werden, um zu zeigen, dass die Generatoren gewisser Gruppen eine verschwindende Spur aufweisen. Allgemeine Funktionen Die Exponentialfunktion stellt dabei einen sehr besonderen Fall dar, da schon die Potenzreihe der Funktion für reelle Zahlen stets konvergierte. Für den natürlichen Logarithmus oder ganz allgemeine Funktionen ist dies nicht der Fall. Aus diesem Grund sollen zunächst einige allgemeine Überlegungen angestellt werden, bevor der Logarithmus einer Matrix bestimmt werden soll. Das Vorgehen lässt sich auf „beliebige“ Funktionen15 verallgemeinern. Die Potenzreihe einer Matrix lässt sich dann als f (A) =
∞
f (k) (0) k A k!
(7.61)
k=0
aufstellen. Wird die Matrix A durch die Matrix U diagonalisiert und besitzt die Eigenwerte λ1 bis λn , so lässt sich wegen ∞ ∞
f (k) (0)
f (k) (0) −1 k A U −1 = U Ak U −1 U f (A)U = U k! k! k=0
k=0
∞
f (k) (0) diag λk1 , . . . , λkn = k! k=0
= diag ( f (λ1 ), . . . , f (λn )) die Funktion der Matrix einfach aus den Eigenwerten über f (A) = U −1 diag ( f (λ1 ), . . . , f (λn )) U
(7.62)
15 Natürlich gibt es auch hier Einschränkungen. So muss die Funktion beispielsweise im Punkt x = 0
unendlich oft stetig differenzierbar sein und sich als Taylor-Reihe darstellen lassen. In der Physik sind die häufig auftretenden Funktionen aber so geartet, dass das vorgestellte Verfahren problemlos angewendet werden kann. Interessanterweise ist der natürliche Logarithmus am Punkt x = 0 nicht definiert. Dies kann umgangen werden, wie sich etwas weiter unten zeigt. Die hier vorgestellten Ergebnisse bleiben dennoch gültig. Die betrachtete Matrix muss die Reihe zudem zur Konvergenz führen.
7.2
Mathematische Strukturen mit Matrizen
421
berechnen. Damit zeigt sich auch direkt, dass die Funktion einer Matrix nur dann zu bestimmen ist, wenn die Funktion an jedem Eigenwert der Matrix f (λi ) definiert ist. Eine zweite, etwas mathematischere Weise dieses Ergebnis zu beschreiben, ist über den sogenannten Funktionalkalkül einer Matrix, der die Funktion f als eine Funktion auffasst, die die Eigenwerte einer gegeben Matrix A auf eine reelle oder komplexe Matrix abbildet. So wird die Funktion mathematisch als eine Funktion gesehen, die nicht eine Matrix, sondern ihr Spektrum σ (A) entgegennimmt und dies in eine Matrix übersetzt. Lautet die spektrale Darstellung der Matrix A A=
n
λi Pi ,
i=1
mit den Projektoren Pi , die die Eigenschaft Pi P j = δi j Pi erfüllen, so lässt sich dies in die Taylor-Reihe der Funktion einsetzen, um über n k ∞
f (k) (0)
f (A) = λi Pi k! = =
k=0 ∞
k=0 n
f (k) (0) k!
i=1 n
λik Pi
i=1
∞ n
f (k) (0) k λi Pi = k! i=1
k=0
f (λi )Pi
i=1
die Funktion als eine gewichtete Summe der Projektoren Pi mit den Gewichten f (λi ) zu erhalten. Da die Projektoren auf den Unterraum der Eigenwerte abbilden, die von den Eigenvektoren v i der Matrix A aufgespannt werden, gilt auch16 Pi v j = δi j v i , was dazu führt, dass f (A) angewandt auf einen Eigenvektor den Ausdruck f (A)vv j =
n
f (λi )Pi v j = f (λ j )vv j
i=1
ergibt. Die Eigenvektoren der Matrix A sind also auch Eigenvektoren der Matrix f (A), und ihre Eigenwerte sind f (λi ). Für eine Exponentialfunktion einer Matrix würde für den 16 Zur Einfachheit wurde hier ein nicht entartetes Spektrum angenommen, die Ergebnisse lassen sich
aber auf entartete Spektren übertragen, indem der entartete Unterraum diagonalisiert wird.
422
7 Matrizen
Eigenvektor v mit Eigenwert λ also exp (A) v = exp (λ) v gelten. Logarithmen von Matrizen Der natürliche Logarithmus einer Matrix A kann bei einer spektralen Darstellung A=
n
λi Pi
i=1
also als ln (A) =
n
ln (λi ) Pi
(7.63)
i=1
oder aber bei der Diagonalisierung diag (λ1 , . . . , λn ) = U AU −1 auch als ln (A) = U −1 diag (ln (λ1 ) , . . . , ln (λn )) U
(7.64)
bestimmt werden. In beiden Fällen ist zu erkennen, dass die Matrix A dabei keine (komplexen) Eigenwerte besitzen darf, die null sind. Ist die Matrix A reell, müssen die Eigenwerte alle größer als null sein. Dies ist eine Eigenschaft, die als positiv definit bezeichnet wird. Alternativ lässt sich mit der Reihenentwicklung des natürlichen Logarithmus aus Kap. 4 ln (x) =
∞
(−1)k
k=1
(x − 1)k k
auch der Zusammenhang ln (A) = ln (1 + (A − 1)) =
∞
(−1)k k=1
k
(A − 1)k
(7.65)
aufstellen, der unter passenden Umständen Anwendung finden kann. Um die beiden ersten Vorgehen etwas genauer zu beleuchten, soll wieder die Matrix 1 1 A=
2 1 6
6 1 2
7.2
Mathematische Strukturen mit Matrizen
423
betrachtet werden. Zuerst soll die spektrale Darstellung verwendet werden. Hierzu sind die Projektoren
1 1 −1 P1 = 2 −1 1 und
1 1 1 P2 = 2 1 1 nötig. Über den Zusammenhang ln (A) =
2
ln (λi ) Pi
i=1
ist der Logarithmus von A durch ⎛ √ √ ⎞
ln 32 ln 2 1 1 1 −1 2 1 1 1 √ ⎠ ln (A) = ln · + ln · = ⎝ √ 2 3 2 −1 1 3 2 1 1 2 ln 3 ln bestimmt, wobei √ 1 ln (x) = ln x 2 verwendet wurde. Für die Bestimmung des Logarithmus über die Diagonalisierung werden die Diagonalisierungsmatrizen
1 −1 1 U=√ 2 1 1 und
1 −1 1 U −1 = √ 2 1 1 benötigt. Über den Zusammenhang ln (A) = U −1 diag (ln (λ1 ) , ln (λ2 )) U lässt sich über
424
7 Matrizen
1
1 −1 1 0 ln 3 −1 1 2 0 ln 3 1 1 2 1 1
− ln 1 ln 1 1 −1 1 3 3 = 1 1 2 1 1 ln 3 ln ⎛ 3√ √ ⎞ 2 2 ln 2 ln 3 1 ln 9 ln (2) ⎟ ⎜ 2 = ⎝ √ = √ ⎠ 2 2 ln (2) ln 9 ln 2 ln
ln (A) =
3
der Logarithmus der Matrix A bestimmen, der mit der vorangegangenen Methode übereinstimmt. Matrix A wurde so gewählt, dass sie allen physikalischen Anforderungen eines Dichteoperators ρ aus der statistischen Physik entspricht, der ein Zustandsgemisch beschreibt, dass sich mit einer Wahrscheinlichkeit von 13 im ersten Zustand und mit einer Wahrscheinlichkeit von 23 im zweiten Zustand befindet. Mit der eingangs gegebenen Formel soll jetzt noch die Entropie des Systems über ⎛ √ ⎞⎞ ⎛ √ 1 1 ln 2 ln 32 √ ⎠⎠ S = −kB Spur (A ln (A)) = −kB Spur ⎝ 21 16 ⎝ √ 2 ln 32 ln 6 2 ⎛⎛ 1 4 1 4 ⎞⎞ 6 ln 27 6 ln 3 kB 4 ⎠ ⎠ ⎝ ⎝ = −kB Spur = − ln 3 27 1 4 1 4 6 ln 3 6 ln 27 bestimmt werden. Typische Beispiele, die mit solch einem Dichteoperator konstruiert werden, werden aus Spinzuständen aufgebaut. Zuletzt soll noch ein Gegenstück für den Zusammenhang zwischen der Determinante einer Exponentialfunktion und der Spur der Matrix gefunden werden. Dieses Gegenstück wird dabei eine Aussage über die Spur des natürlichen Logarithmus einer Matrix treffen. Diese lässt sich mittels Spur (ln (A)) = Spur U −1 diag (ln (λ1 ) , . . . , ln (λn )) U = Spur (diag (ln (λ1 ) , . . . , ln (λn ))) n n
= ln (λi ) = ln λi i=1
i=1
bestimmen. Da das Produkt der Eigenwerte aber die Determinante einer Matrix ist, gilt der Zusammenhang Spur (ln (A)) = ln (det (A)) .
(7.66)
7.2
Mathematische Strukturen mit Matrizen
7.2.2
425
Gruppen von Matrizen und Darstellungen von Gruppen
Eine der wichtigsten Strukturen in der Physik, die von Matrizen gebildet werden können und von Matrizen beschrieben werden, sind Gruppen. Eine Gruppe ist dabei eine Menge von Elementen G, auf der eine Verknüpfung ·:G×G →G definiert ist, die vier Eigenschaften zu erfüllen hat: • Abgeschlossenheit Sind die Elemente a und b Teil der Menge G, dann ist auch ihr Produkt a·b ∈ G in der Menge G enthalten. Mathematisch wird dies durch ∀a,b∈G a · b ∈ G
(7.67)
ausgedrückt. • Assoziativität Die Klammersetzung ist bei dem Produkt dreier Elemente a, b und c der Menge G irrelevant. Das heißt konkret, a · (b · c) = (a · b) · c, was mathematisch voll ausformuliert als ∀a,b,c∈G a · (b · c) = (a · b) · c
(7.68)
zu notieren ist. • Neutrales Element Es muss in der Menge G ein ausgezeichnetes Element e existieren, dass bei der Verknüpfung mit einem anderen Element dieses unverändert lässt. Dies lässt sich mathematisch als ∃e∈G ∀a∈G e · a = a · e = a
(7.69)
notieren. Dieses spezielle Element e wird als neutrales Element bezeichnet. • Inverse Elemente Für jedes Element a aus G muss es auch ein Element a −1 geben, dass bei der Verknüpfung mit a das neutrale Element e ergibt. Mathematisch wird dies durch ∀a∈G ∃a −1 ∈G a · a −1 = a −1 · a = e
(7.70)
426
7 Matrizen
notiert. Das Element a −1 heißt dann das inverse Element zu a. Mathematisch wird typischerweise nur das Tupel (G, ·) als Gruppe bezeichnet, da in der Physik aber die Verknüpfung oft klar ist, wird synonym auch nur die Menge G als Gruppe bezeichnet. Einfache Beispiele für solche Gruppen sind die ganzen Zahlen mit der Addition (Z, +) oder die reellen Zahlen ohne Null R \ {0} mit der Multiplikation (R \ {0}, ·). Die natürlichen Zahlen mit Null N0 mit der Addition bilden keine Gruppe, da hier beispielsweise die inversen Elemente fehlen und die Gleichung 5+x =0 keine Lösung besitzt. (n × n)-Matrizen können nun mit der Matrixmultiplikation eine Gruppe bilden, wenn sichergestellt wird, dass • alle Produkte der Matrizen untereinander wieder in der Gruppe liegen, • in der verwendeten Menge die Einheitsmatrix als neutrales Element der Matrixmultiplikation vorhanden ist und • für jede Matrix A auch ihre inverse Matrix vorhanden ist. Die zwei wichtigsten Beispiele an Gruppen aus Matrizen in der Physik sind die Gruppe der reellen orthogonalen Matrizen mit einer Determinante 1 und die unitären Matrizen mit Determinante 1. Beide bilden aus den folgenden Gründen jeweils eine Gruppe: • Die Gruppe der orthogonalen Matrizen – Die Menge an Elementen kann durch SO(n) = O ∈ Rn×n O O T = O T O = 1, det (O) = 1
(7.71)
festgeschrieben werden. Sie wird dabei als SO(n) bezeichnet.17 Das O steht für orthogonal, während das S für speziell steht. Die Wahl der Determinante schränkt die Gruppe nur ein wenig ein. Aus der Orthogonalität und der Multiplikativität der Determinante folgt direkt 1 = det (1) = det O T O = det O T det (O) = (det (O))2 , was eine Determinante von +1 oder −1 zulässt. Durch die Wahl der positiven Determinante wird also die Menge der Elemente kleiner. Zu beachten ist, dass hier eine 17 Häufig findet sich auch die Bezeichnung SO(N ), von der aus Konsistenzgründen hier aber abge-
sehen werden soll.
7.2
Mathematische Strukturen mit Matrizen
427
Wahl zwischen zwei Möglichkeiten und nicht ein kontinuierlicher Parameter eingeschränkt wird, dadurch verringert sich die Zahl der Freiheitsgrade nicht. Die Menge ohne diese Einschränkung wird als O(n) bezeichnet. – Die Matrixmultiplikation ist auf der SO(n) abgeschlossen, da das Produkt zweier orthogonalen Matrizen O1 und O2 wegen (O2 O1 )T (O2 O1 ) = O1T O2T O2 O1 = O1T O1 = 1 auch wieder orthogonal ist. Da die Determinante multiplikativ ist, gilt auch det (O2 O1 ) = det (O2 ) det (O1 ) = 1 · 1 = 1, was zeigt, dass die Determinante des Produktes auch 1 ist. – Die Matrixmultiplikation ist immer assoziativ. – Das neutrale Element ist die Einheitsmatrix, die als symmetrische Matrix orthogonal ist. – Durch die Wahl von orthogonalen Matrizen ist auch die Transponierte O T einer orthogonalen Matrix O enthalten, da O T auch orthogonal ist. Die Gruppe SO(3) ist beispielsweise die Gruppe der Matrizen, die Drehungen von Vektoren im dreidimensionalen Raum beschreiben. • Die Gruppe der unitären Matrizen – Die Menge an Elementen kann durch n×n (7.72) SU(n) = U ∈ C UU † = U † U = 1, det (U ) = 1 festgeschrieben werden. Sie wird dabei als SU(n) bezeichnet.18 Das U steht für unitär, während das S für speziell steht. Aus der Unitarität und der Multiplikativität der Determinante folgt direkt 1 = det (1) = det U † U = det U † det (U ) ∗ = det U T det (U ) = det (U )∗ det (U ) = |det (U )|2 , was eine Determinante von det (U ) = exp (iφ) mit einem Winkel φ ∈ [0, 2π ) zulässt. Durch die Wahl der Determinante 1 wird also die Menge der Elemente erheblich kleiner. Zu beachten ist, dass hier ein kontinuierlicher Parameter eingeschränkt wird, dadurch verringert sich die Zahl der Freiheitsgrade um 1. Die Menge ohne diese Einschränkung wird als U(n) bezeichnet.19 18 Häufiger findet sich auch die Bezeichnung SU(N ), von der aus Konsistenzgründen hier aber
abgesehen werden soll. 19 Ein besonderer Vertreter dieser Gruppe ist die U(1)-Gruppe, die effektiv nur die Elemente U =
exp (iφ) mit φ ∈ [0, 2π ) enthält. Sie beschreibt die elektromagnetische Wechselwirkung und die schwache Hyperladung im Standardmodell der Elementarteilchenphysik.
428
7 Matrizen
– Die Matrixmultiplikation ist auf der SU(n) abgeschlossen, da das Produkt zweier unitärer Matrizen U1 und U2 wegen (U2 U1 )† (U2 U1 ) = U1† U2† U2 U1 = U1† U1 = 1 auch wieder unitär ist. Da die Determinante multiplikativ ist, gilt auch det (U2 U1 ) = det (U2 ) det (U1 ) = 1 · 1 = 1, was zeigt, dass die Determinante des Produktes auch 1 ist. – Die Matrixmultiplikation ist immer assoziativ. – Das neutrale Element ist die Einheitsmatrix, die als reelle symmetrische Matrix auch unitär ist. – Durch die Wahl von unitären Matrizen ist auch das adjungierte U † einer unitären Matrix U enthalten, da U † auch unitär ist. Die Gruppe SU(2) ist beispielsweise essenziell für die Beschreibung der schwachen Wechselwirkung im Standardmodell der Teilchenphysik. Diese beiden Gruppen werden in den Abschn. 7.3.1 und 7.3.2 noch genauer untersucht, im Besonderen auf die im nächsten Abschn. 7.2.3 vorgestellten Eigenschaften. Es gibt eine Vielzahl weiterer Gruppen in der theoretischen Physik, die hier zumindest erwähnt werden sollen. Zu diesen Gruppen zählen: • die Gruppe der isomorphen Transformationen, die effektiv Translationen um feste Vektoren und Rotationen um feste Winkel im Raum umfasst, • die Gruppe der Galilei-Transformationen, die im klassischen Fall zwischen relativ zueinander bewegten Bezugssystemen wechselt, • die Gruppe der Lorentz-Transformationen, die die Lorentz-Boosts als Wechsel zwischen zwei Bezugssystemen im relativistischen Sinn und Drehungen um feste Winkel umfasst, • die Poincaré-Gruppe, die neben den Lorentz-Transformationen noch feste Verschiebungen in der Raumzeit berücksichtigt. Einige davon werden auch im Kap. 10 ausgeführt. Zunächst soll aber noch kurz auf Darstellungen von Gruppen eingegangen werden. Gruppen, die zunächst scheinbar nichts mit Matrizen zu tun haben, wie die Gruppe an Drehungen eines Würfels oder die Gruppe aller winkel- und längenerhaltenden Transformationen in der zweidimensionalen Ebene, lassen sich dennoch durch Gruppen von Matrizen mit der Matrixmultiplikation darstellen. Eine solche n-dimensionale Darstellung wird aufgefasst als eine Abbildung aus der Gruppe G in die Menge der komplexen (n × n)-Matrizen, die jedem Element eindeutig eine Matrix zuordnet. Mathematisch wird die Darstellung r also als r : G → Cn×n
7.2
Mathematische Strukturen mit Matrizen
429
notiert. Die Darstellung muss dabei die beiden Eigenschaften r (a · b) = r (a)r (b)
(7.73)
r (e) = 1
(7.74)
und
erfüllen. Die Darstellung der Verknüpfung zweier Elemente muss durch das Produkt der Darstellungen der beiden Elemente in gleicher Reihenfolge gegeben sein, und das neutrale Element der Gruppe muss auf die Einheitsmatrix abgebildet werden. Durch diese Eigenschaften lässt sich wegen 1 = r (r ) = r (a · a −1 ) = r (a)r (a −1 ) die Darstellung des inversen Elements durch r (a −1 ) = (r (a))−1
(7.75)
finden und ist durch die inverse Matrix der Darstellung von a gegeben. Die Darstellungstheorie ist ein hilfreiches Werkzeug in der theoretischen Physik. So lässt sich aus darstellungstheoretischen Überlegungen zu der Gruppe der LorentzTransformationen ein ganzer Satz an unterschiedlichen Bewegungsgleichungen für eine relativistische Verallgemeinerung der Quantenmechanik finden, die alle ihre jeweilige Anwendung haben. Darunter fallen die Majorana-Gleichung und die Dirac-Gleichung.
7.2.3
Lie-Gruppen und Lie-Algebren
Eine in der Physik verwendete Klasse von Gruppen sind die sogenannten Lie-Gruppen. Sie haben die definierende Eigenschaft, dass sich ihre Elemente als eine Potenzreihe von g reellen Parametern θ1 , . . . , θg beschreiben lassen. Da auch die SO(3) eine Lie-Gruppe bildet und Drehungen beschreibt, werden die Parameter gerne mit θ bezeichnet, da sie an Winkel erinnern. Es gibt allerdings auch andere Interpretationen dieser Parameter. Im Rahmen der theoretischen Teilchenphysik können diese Parameter auch mit den Feldern der Austauschteilchen wie den Photonen der elektromagnetischen Wechselwirkung zusammenhängen. Die Menge einer Lie-Gruppe wird dann als (7.76) G = U (θ1 , . . . , θg )(θ1 , . . . , θg ) ∈ Rg notiert. Da die Parameter so auch als reeller, g-dimensionaler Vektor θ aufgefasst werden können, wird diese Notation teilweise übernommen.
430
7 Matrizen
Wegen der in Abschn. 7.2.1 eingeführten Funktionen von Matrizen können die Elemente mit der Exponentialfunktion g
a a L θ ) = exp −i U (θ1 , . . . , θg ) = exp (−iL L θ (7.77) a=1
dargestellt werden. Die Größen L a beschreiben dabei g unterschiedliche Matrizen, die mit dem hochgestellten a durchnummeriert werden.20 Dabei wird der Summationsindex hochgestellt, um ihn später klar von den Komponenten der Matrix zu unterscheiden. Der erste Ausdruck umfasst ein Skalarprodukt aus einem Vektor L und dem Parametervektor. Der Vektor L ist dabei aufzufassen als ein Vektor aus Matrizen, dessen erste Komponente durch L 1 gegeben ist, während die zweite Komponente L 2 ist und so weiter. Als Beispiel sollen dazu die Pauli-Matrizen aus Gl. (7.16) betrachtet werden. Sie lassen sich im Vektor ⎛
⎞ 0 1 ⎟ ⎛ ⎞ ⎜ ⎜ 1 0 ⎟ σx ⎟ ⎜ ⎜ 0 −i ⎟ σ = ⎝σ y ⎠ = ⎜ ⎟ ⎜ i 0 ⎟
⎟ ⎜ σz ⎝ 1 0 ⎠ 0 −1 zusammenfassen. Wird der Vektor nˆ in den üblichen Kugelkoordinaten durch ⎛ ⎞ ⎛ ⎞ nx cos (φ) sin (θ) nˆ = ⎝n y ⎠ = ⎝ sin (φ) sin (θ ) ⎠ cos (θ) nz parametrisiert, so lässt sich die Matrix σ nˆ zu σ nˆ = n x σx + n y σ y + n z σz
cos (θ) sin (θ) (cos (φ) − i sin (φ)) = sin (θ) (cos (φ) + i sin (φ)) − cos (θ)
cos (θ) sin (θ ) exp (−iφ) = sin (θ) exp (iφ) − cos (θ)
(7.78)
bestimmen. Sie hat die Eigenvektoren v1 =
cos (θ/2) e−iφ/2 sin (θ/2) eiφ/2
(7.79)
20 Je nach betrachteter Gruppe und je nach Teilgebiet der Physik, gibt es unterschiedliche Kon-
ventionen betreffend des Vorzeichens in der Exponentialfunktion. Es soll hier aber konsequent die Konvention mit einem expliziten Minus in der Exponentialfunktion verwendet werden.
7.2
Mathematische Strukturen mit Matrizen
zum Eigenwert +1 und den Eigenvektor
− sin (θ/2) e−iφ/2 v2 = cos (θ/2) eiφ/2
431
(7.80)
zum Eigenwert −1. Diese Zusammenhänge können verwendet werden, um die Spinausrichtungen eines Teilchens bezüglich einer beliebigen Achse nˆ im Raum zu bestimmen, und liefern ein gutes Beispiel für den Umgang mit Vektoren aus Matrizen. An diesem Beispiel wird auch klar, dass die Dimensionalität der Darstellung der betrachteten Lie-Gruppe von der Dimensionalität der Matrizen L a abhängig ist. Wie sich etwas weiter unten noch zeigen wird, lässt sich immer eine spezielle Darstellung mit (g × g)Matrizen finden. Häufig gibt es aber einfachere Darstellungen, die für die wichtigsten Fälle in den Abschn. 7.3.1 und 7.3.2 aufgeführt werden. Die Matrizen L a lassen sich wegen ihrer Definition und wegen ∂U ∂ b b L θ) = −iL b δab exp (−iL = exp −iL θ ∂θ a ∂θ a ∂U −iL a = a ∂θ θ =00
⇒ durch die Ableitung
1 ∂U L =− i ∂θ a θ =00 a
(7.81)
bestimmen. Sie werden Generatoren der Lie-Gruppe genannt und enthalten Informationen über ihre Wirkweise.21 Die Generatoren bilden dabei linear unabhängige Matrizen. Da es g Parameter gab, gibt es auch g Generatoren. Die Inverse der Matrix U (θθ ) ist durch L θ) (U (θθ ))−1 = exp (iL gegeben. Um etwas über die Beziehung der Generatoren untereinander zu erfahren, werden Gruppenelemente nahe der Einheitsmatrix betrachtet. Dies kann dadurch geschehen, dass besonders kleine Winkel |δθ a | 1 in Gl. (7.77) eingesetzt werden, um unter Vernachlässigung der dritten Ordnung den Ausdruck 1 L δθθ )(L L δθθ ) + O (δθ a )3 L δθθ − (L U (δθθ ) = 1 − iL 2 21 In der theoretischen Physik gibt es das bemerkenswerte Noether-Theorem, das aussagt, dass es
zu jeder Symmetrie eines Problems eine Erhaltungsgröße geben muss. Eine Drehsymmetrie um eine Achse führt so zu einem erhaltenen Drehimpuls um diese Achse. In der Quantenmechanik sind die Operatoren, also Matrizen, dieser Erhaltungsgrößen die entsprechenden Generatoren der zugehörigen Symmetrietransformation. So sind die Drehimpulsmatrizen die Erzeuger der quantenmechanischen Drehmatrizen.
432
7 Matrizen
zu erhalten. Dabei wurde die Taylor-Reihe aus Kap. 4 eingesetzt. Die Inverse dieser Matrix muss durch 1 L δθθ )(L L δθθ ) + O (δθ a )3 L δθθ − (L (U (δθθ ))−1 = U (−δθθ ) = 1 + iL 2 gegeben sein, was sich über
1 1 L δθθ )(L L δθθ ) L δθθ − (L L δθθ )(L L δθθ ) L δθθ − (L 1 − iL U −1 U = 1 + iL 2 2 1 L δθθ )(L L δθθ ) L δθθ − (L =1 − iL 2 L δθθ + (L L δθθ )(L L δθθ ) + iL 1 L δθθ )(L L δθθ ) + O (δθ a )3 − (L 2 =1 + O (δθ a )3 nachprüfen lässt, wobei Terme in dritter Ordnung vernachlässigt wurden. Damit lässt sich aber überprüfen, was passiert, wenn zwei unterschiedliche Elemente U (δθθ 1 ) und U (δθθ 2 ) hintereinander multipliziert werden. Am einfachsten ist dies durch Drehungen zu veranschaulichen. Wird ein Objekt erst um die x-Achse und anschließend um die y-Achse gedreht, um danach um die gleichen Winkel in entgegengesetzter Richtung wieder zuerst um die xAchse und die y-Achse gedreht zu werden, so wird das Objekt im Allgemeinen nicht in seine Ausgangsposition zurückkehren. Es wird also eine Nettodrehung erfahren haben, die wieder ein Element der Drehmatrizen darstellen muss. Mathematisch lässt sich dies durch U (δθθ 3 ) = U (δθθ 2 )−1 U (δθθ 1 )−1 U (δθθ 2 )U (δθθ 1 ) = U2−1 U1−1 U2 U1 ausdrücken, was den zu untersuchenden Ausdruck darstellt. Mittels der länglichen Rechnung
1 1 −1 −1 L δθθ 2 )(L L δθθ 1 )(L L δθθ 2 − (L L δθθ 2 ) L δθθ 1 − (L L δθθ 1 ) 1 + iL U2 U1 U2 U1 = 1 + iL 2 2
1 1 L δθθ 2 − (L L δθθ 2 )(L L δθθ 1 )(L L δθθ 2 ) L δθθ 1 − (L L δθθ 1 ) × 1 − iL 1 − iL 2 2
1 1 2 2 L δθθ 1 + iL L δθθ 1 ) − (L L δθθ 2 ) − (L L δθθ 2 − (L L δθθ 2 )(L L δθθ 1 ) = 1 + iL 2 2
1 1 2 2 L δθθ 1 − iL L δθθ 1 ) − (L L δθθ 2 ) − (L L δθθ 2 − (L L δθθ 2 )(L L δθθ 1 ) × 1 − iL 2 2 1 1 L δθθ 1 )2 − (L L δθθ 2 )2 − (L L δθθ 2 − (L L δθθ 2 )(L L δθθ 1 ) L δθθ 1 − iL =1 − iL 2 2 L δθθ 1 + (L L δθθ 1 )(L L δθθ 1 ) + (L L δθθ 1 )(L L δθθ 2 ) + iL L δθθ 2 + (L L δθθ 2 )(L L δθθ 1 ) + (L L δθθ 2 )(L L δθθ 2 ) + iL
7.2
Mathematische Strukturen mit Matrizen
433
1 1 L δθθ 1 )2 − (L L δθθ 2 )2 − (L L δθθ 2 )(L L δθθ 1 ) − (L 2 2 L δθθ 1 )(L L δθθ 2 ) − (L L δθθ 2 )(L L δθθ 1 )) =1 + ((L =1 + [L a , L b ]δθ1a δθ2b lässt sich feststellen, dass die Transformation U3 , die in führender Ordnung als U3 = 1 − iL c δθ3c ausgedrückt werden kann, auch durch ein Produkt der beiden Winkel δθ1 und δθ2 in der Form U3 = 1 + [L a , L b ]δθ1a δθ2b geschrieben werden kann. Da die Transformation U3 in erster Ordnung linear in L c sein muss, lässt sich der Zusammenhang [L a , L b ] = i f abc L c
(7.82)
aufstellen, wobei f abc eine als Strukturkonstante bezeichnete Größe ist, die die Kommutatoreigenschaften der Generatoren festlegt. Es ist aufgrund der Kommutatoreigenschaft direkt klar, dass die Strukturkonstante antisymmetrisch f abc = − f bac unter Vertauschung der ersten beiden Indices sein muss. Die in der Physik betrachteten Gruppen haben antisymmetrische und zyklische Strukturkonstanten, sodass f abc = f bca = f cab = − f cba = − f bac = − f acb gilt. Mit ihr wird die Transformation U3 zu !
U3 = 1 + [L a , L b ]δθ1a δθ2b = 1 + i f abc L c δθ1a δθ2b = 1 − iL c δθ3c , und der Zusammenhang zwischen den drei Vektoren δθθ 1 , δθθ 2 und δθθ 3 wird durch δθ3c = − f abc δθ1a δθ2b festgelegt.22 Die Menge der Matrizen, die durch die Linearkombinationen von L a und der Einheitsmatrix 1 aufgespannt wird, bildet mit den komplexem Zahlen als Körper einen Vektorraum. 22 Im Fall von dreidimensionalen Drehungen handelt es sich beispielsweise um das Kreuzprodukt
der beiden Vektoren.
434
7 Matrizen
Die gefundene Kommutatorvorschrift bildet auf diesem Vektorraum eine Verknüpfung ×, die zwei Vektoren aus dem Raum V entgegennimmt und wieder auf den Raum V abbildet, × : V × V → V, ähnlich wie es ein Kreuzprodukt tut. Dabei ist die Verknüpfung in beiden Argumenten linear, sodass für eine Zahl α ∈ C und Vektoren u, v, w ∈ V die Zusammenhänge (u + v) × w = u × v + u × w u × (v + w) = u × v + u × w λ(v × w) = (λv) × w = v × (λw) gelten. Ein Vektorraum mit einer Verknüpfung, die diese drei Bedingungen erfüllt, wird als Algebra bezeichnet. Die zu einer Gruppe G gehörende Algebra wird meistens mit denselben Buchstaben der Gruppe in kleinen Buchstaben in Frakturschrift g gekennzeichnet. Der Vektorraum R3 mit dem Kreuzprodukt ist ein Beispiel für eine Algebra, da das Kreuzprodukt die drei Bedingungen erfüllt. Erfüllt die Verknüpfung zusätzlich die Jacobi-Identität u × (v × w) + v × (w × u) + w × (u × v) = 0 und gilt v × v = 0, so wird die Algebra als Lie-Algebra bezeichnet. Da die Lie-Algebra aus den Gruppenelementen um das neutrale Element 1 herum abgeleitet wurde, stellt die Lie-Gruppe den Tangentialraum der Lie-Gruppe um ihr neutrales Element dar. In der Physik bilden die Lie-Algebren zusammen mit den Lie-Gruppen die mathematische Basis für das Standardmodell der Teilchenphysik. Jede der drei dadurch beschriebenen fundamentalen Kräfte, die starke Kraft, die schwache Kraft und die elektromagnetische Kraft, lassen sich mit den Generatoren unterschiedlicher Lie-Gruppen beschreiben.23 Die Generatoren legen dabei auch fest, welche Prozesse möglich sind und welche nicht, beispielsweise dass Neutronen über das Aussenden eines negativen W -Bosons in ein Proton zerfallen, während das W -Boson in ein Elektron und ein Antielektronneutrino zerfällt. Ein anderes physikalisches Beispiel für eine Lie-Algebra bilden die Poisson-Klammern der Hamilton-Mechanik, die für zwei Funktionen f (q, p) und g(q, p) im eindimensionalen Fall mittels
23 Rein technisch gesehen, sind die schwache und die elektromagnetische Kraft eine Mischung der
im Standardmodell verwendeten Gruppen, da nicht die elektrische Ladung, sondern die Hyperladung mit einem der Generatoren assoziiert wird.
7.2
Mathematische Strukturen mit Matrizen
{ f , g} =
435
∂ f ∂g ∂ f ∂g − ∂q ∂ p ∂ p ∂q
definiert sind. Der Vektorraum ist der Raum der Funktionen und die Poisson-Klammern erfüllen die Bedingungen einer Algebra und einer Lie-Algebra. Sie können verwendet werden, um Erhaltungsgrößen zu bestimmen, und stellen einen Übergangspunkt von der klassischen Mechanik in die Quantenmechanik dar, da in der Quantenmechanik analoge Gleichungen mit dem Übergang i ˆ ˆ B] {A, B} → − [ A, gefunden werden können, wobei Aˆ und Bˆ die mit A und B verbundenen Operatoren, also effektiv Matrizen bezeichnen. Drehimpulse erfüllen dabei beispielsweise die Zusammenhänge {L i , L j } = i jk L k , was in der Quantenmechanik in [ Lˆ i , Lˆ j ] = ii jk Lˆ k übergeht. Diese spezielle Kommutatoralgebra, in der die Strukturkonstante maßgeblich durch das Levi-Civita-Symbol festgelegt wird, wird daher in der Physik auch als Drehimpulsalgebra bezeichnet.24 Wie sich in Gl. (7.18) gezeigt hat, erfüllen auch die Pauli-Matrizen diese Algebra bis auf einen Faktor 2 und können daher unter geringer Modifikation als Drehimpulse aufgefasst werden. Da die schwache Wechselwirkung auch durch die PauliMatrizen beschrieben wird, wird die mit ihr assoziierte Größe als Isospin bezeichnet. Es gibt die Möglichkeit ein Polynom aus den Generatoren aufzubauen, sodass dieses mit allen anderen Generatoren vertauscht. Ein solches Polynom wird als Casimir-Operator oder Casimir-Invariante bezeichnet. Der einfachste zu konstruierende Casimir-Operator ist die Summe der Quadrate C2 =
g
La La
a=1
aller Generatoren. Aufgrund von [L a L a , L b ] = L a [L a , L b ] + [L a , L b ]L a = i f abc (L a L c + L c L a ) = −i f abc (L a L c + L c L a ) = 0
24 Da in natürlichen Einheiten = 1 gesetzt wird, wird der Faktor gerne unterschlagen, ist aber
essenziell für die Dimensionalität der Drehimpulse.
436
7 Matrizen
vertauscht er mit allen Generatoren. Dabei wurde die Antisymmetrie der Strukturkonstante verwendet. Zuletzt soll noch die Darstellung durch (g × g)-Matrizen besprochen werden. Dazu wird von der Jacobi-Identität 0 = [L a , [L b , L c ]] + [L b , [L c , L a ]] + [L c , [L a , L b ]] ausgegangen, um durch Einsetzen der Kommutatorrelation [L a , L b ] = i f abc L c und kurzer Rechnung 0 = i f bcj [L a , L j ] + i f ca j [L b , L j ] + i f abj [L c , L j ] = i f bcj i f a jk L k + i f ca j i f bjk L k + i f abj i f cjk L k = L k i f bcj i f a jk + i f ca j i f bjk + i f abj i f cjk die Gleichung 0 = i f bcj i f a jk + i f ca j i f bjk + i f abj i f cjk zu erhalten, da die Generatoren linear unabhängig sind. Durch geschicktes Umsortieren und Ausnutzen der Antisymmetrie kann so die Gleichung −i f ak j −i f bjc − −i f bk j −i f a jc = i f abj −i f jkc erhalten werden, die unter Einführung von (F a )i j = −i f ai j
(7.83)
nur die Komponentenschreibweise von [F a , F b ] = i f abj F j darstellt. Damit erfüllen die Matrizen F a aber selbst die grundlegende Kommutatoreigenschaft und bilden somit die Generatoren für eine Darstellung durch (g × g)-Matrizen. Diese Darstellung wird als adjungierte Darstellung bezeichnet und findet in der Physik Anwendung, um die Quantenzahlen der Austauschteilchen wie der W - und Z -Bosonen zu bestimmen.
7.3
Einige spezielle Matrizengruppen und ihre Algebren
7.3
437
Einige spezielle Matrizengruppen und ihre Algebren
In diesem Abschnitt sollen zwei der wichtigsten Lie-Gruppen und ihre Lie-Algebren für die Physik vorgestellt werden. Abschnitt 7.3.1 beschäftigt sich dabei mit den Gruppen der Drehmatrizen SO(3), während Abschn. 7.3.2 das Augenmerk vor allem auf die SU(2) und die SU(3) richtet. Diese Gruppen beschreiben in der theoretischen Teilchenphysik die schwache und die starke Wechselwirkung.
7.3.1
Die Gruppe der Drehmatrizen SO(3)
Um nun die reellen, orthogonalen (n × n)-Matrizen O mit Determinante eins zu betrachten, die die Gruppe der SO(3) bilden, sollen erst ein paar allgemeine Eigenschaften diskutiert werden, bevor das Beispiel der SO(3), welche die Drehmatrizen darstellt, diese etwas konkretisiert. Zunächst einmal stellt sich die Frage nach der Anzahl der Generatoren g. Da es sich um (n × n)-Matrizen handelt, verfügt eine jede solche Matrix über n · n = n 2 Elemente, die zunächst alle unabhängig voneinander sind. Durch die Bedingung der Orthogonalität OT O = 1
⇒
Oik O jk = δi j
gibt es für i = j insgesamt n Gleichungen, die die Zahl der Freiheitsgrade reduzieren. Ist i = j, so gibt es für i insgesamt n mögliche Werte, während für j nur n −1 Werte verbleiben. Da ein Tausch zwischen i und j die Gleichung nicht ändert, gibt es in solch einem Fall n(n − 1) 2 Gleichungen, die die Zahl der Freiheitsgrade einschränken. Die Determinante wird nur zwischen zwei möglichen Werten, +1 oder −1 eingeschränkt und reduziert die Zahl der Freiheitsgrade dadurch nicht. Insgesamt verbleiben somit g = n2 − n −
n(n − 1) n(n − 1) n(n − 1) = n(n − 1) − = 2 2 2
Freiheitsgrade, was der Anzahl an Generatoren entspricht. Für die SO(3) ergeben sich so 3 Generatoren, während sich für die SO(10) 45 Generatoren ergeben.25 Über die Generatoren und folglich die Algebra der so(3) lassen sich auch ein paar Aussagen treffen. Aufgrund der Orthogonalität der Matrizen O = exp −iL a θ a 25 Die SO(10) wird gelegentlich betrachtet um Strukturen von großen vereinheitlichten Theorien zu
untersuchen.
438
7 Matrizen
lässt sich so nämlich der Vergleich ! O T = exp −i(L a )T θ a = exp iL a θ a anstellen, der offenbart, dass es sich bei den Generatoren um Matrizen handeln muss, die (L a )T = −L a erfüllen. Solche Matrizen werden antisymmetrisch genannt. Wegen der Determinante und dem Zusammenhang (7.60), der die Determinante der Exponentialfunktion mit der Exponentialfunktion der Spur in Verbindung setzt, lässt sich 1 = det (O) = det exp −iL a θ a = exp Spur −iL a θ a = exp −iθ a Spur L a finden, was eine verschwindende Spur Spur L a = 0 für alle Generatoren impliziert, da die θ a vollkommen unabhängig voneinander waren. Da die Gruppenelemente O reelle Matrizen sind, werden die Generatoren im Allgemeinen komplexwertig sein. Zum Schluss soll noch erwähnt werden, dass häufig auch eine zweite Parametrisierung für die Matrizen der SO(n) zu finden ist. Da es sich um reelle Matrizen handeln soll, wird auch die Parametrisierung O = exp J a θ a verwendet, um die Generatoren reell zu halten. Für diese gilt ebenso (J a )T = −J a und Spur J a = 0. Sie lassen sich aus der Matrix O mittels
∂ O J = a ∂θ θ =00 a
bestimmen. Es werden zwar stets die Ergebnisse für diese Parametrisierung mit angegeben, die Rechnungen sollen aber mit den L a durchgeführt werden, um zu den in Abschn. 7.2.3 eingeführten Konventionen zu passen.
7.3
Einige spezielle Matrizengruppen und ihre Algebren
439
Die Drehgruppe SO(3) Das hier vorgestellte Beispiel der SO(3) hat aufgrund der dadurch dargestellten Drehmatrizen eine große Relevanz für die Physik. Zunächst sollen die Generatoren der SO(3) gefunden werden. Zu diesem Zweck werden die Drehungen um die x-, y- und z-Achse ⎞ ⎞ ⎛ 1 0 0 cos (α) 0 sin (α) Uy = ⎝ Ux = ⎝0 cos (α) − sin (α)⎠ 0 1 0 ⎠ 0 sin (α) cos (α) − sin (α) 0 cos (α) ⎞ ⎛ cos (α) − sin (α) 0 Uz = ⎝ sin (α) cos (α) 0⎠ 0 0 1 ⎛
bei Drehung gegen den Uhrzeigersinn um den Winkel α betrachtet. Die Generatoren lassen sich dann zu ⎞ ⎞ ⎛ ⎛ 0 0 0 0 0 0 dU 1 1 x L1 = − = − ⎝0 0 −1⎠ = ⎝0 0 −i⎠ , i dα α=0 i 0 i 0 0 1 0 ⎞ ⎞ ⎛ ⎛ 0 0 i 0 0 1 dU 1 1 y L2 = − = − ⎝ 0 0 0⎠ = ⎝ 0 0 0⎠ i dα α=0 i −i 0 0 −1 0 0 und ⎛ ⎞ ⎛ ⎞ 0 −1 0 0 −i 0 dU 1 1 z L3 = − = − ⎝1 0 0 ⎠ = ⎝ i 0 0 ⎠ i dα α=0 i 0 0 0 0 0 0 bestimmen. Aus ihnen lassen sich auch direkt ⎛ ⎞ ⎛ ⎞ 0 0 0 0 0 1 J 2 = ⎝ 0 0 0⎠ J 1 = ⎝0 0 −1⎠ 0 1 0 −1 0 0
⎛ ⎞ 0 −1 0 J 3 = ⎝1 0 0 ⎠ 0 0 0
ablesen. Die Matrix J 2 entspricht dabei der Matrix A, die im Abschn. 7.2.1 als Beispiel für die Exponentialfunktion einer Matrix verwendet wurde. Über die expliziten Rechnungen, wie
440
7 Matrizen
⎞⎛ ⎛ 0 0 0 0 0 [L 1 , L 2 ] = ⎝0 0 −i⎠ ⎝ 0 0 −i 0 0 i 0 ⎛ ⎞ ⎛ 0 0 1 0 ⎝ ⎠ ⎝ = i = −1 0 0 i 0 0 0 0
⎞ ⎞⎛ ⎞ ⎛ 0 0 0 0 0 i i 0⎠ − ⎝ 0 0 0⎠ ⎝0 0 −i⎠ 0 i 0 −i 0 0 0 ⎞ −i 0 0 0⎠ = iL 3 0 0
lässt sich die Algebrastruktur [L a , L b ] = i abc L c der so(3) erkennen, wobei abc das Levi-Civita-Symbol mit oben stehenden Indices ist. Damit sind die Generatoren durch Fa = La gegeben. Dies wird im Vergleich mit der Algebrastruktur der su(2) nützlich sein. Ganz analog ergibt der Kommutator der J a [J a , J b ] = abc J c als grundlegende Struktur. Zuletzt soll noch ein allgemeines Element der SO(3) durch die Kenntnis der Generatoren bestimmt werden. Zu diesem Zweck wird der Parametervektor ⎛ ⎞ nx ⎝ θ = θ ny⎠ nz betrachtet. Darin ist θ eine Zahl zwischen 0 und 2π , und die n i erfüllen n 2x + n 2y + n 2z = 1. Die Matrix L θ ist dann durch ⎛
⎞ 0 −in z in y L θ = θ ⎝ in z 0 −in x ⎠ ≡ −iθ A −in y in x 0 mit der Matrix ⎞ 0 n z −n y A = ⎝−n z 0 nx ⎠ n y −n x 0 ⎛
7.3
Einige spezielle Matrizengruppen und ihre Algebren
441
gegeben. Die Matrix A enthüllt wegen ihres Quadrates ⎞⎛ ⎞ 0 n z −n y 0 n z −n y A2 = ⎝−n z 0 n x ⎠ ⎝−n z 0 nx ⎠ n y −n x 0 n y −n x 0 ⎛ 2 ⎞ 2 −n y − n z nx n y nx nz = ⎝ n y nx −n 2x − n 2z n y nz ⎠ nz nx nz n y −n 2x − n 2y ⎛ 2 ⎞ nx − 1 nx n y nx nz = ⎝ n y n x n 2y − 1 n y n z ⎠ nz nx n z n y n 2z − 1 ⎛
und ihrer dritten Potenz ⎛
⎞⎛ 2 ⎞ nx − 1 nx n y nx nz 0 n z −n y A3 = ⎝−n z 0 n x ⎠ ⎝ n y n x n 2y − 1 n y n z ⎠ n y −n x 0 nz nx n z n y n 2z − 1 ⎞ ⎛ 0 −n z n y = ⎝ nz 0 −n x ⎠ = −A −n y n x 0
L θ . So lassen sich aus bereits Einiges über die Matrix iL L θ) = θ A (iL L θ )2 = θ 2 A2 (iL L θ )3 = θ 2 A2 (θ A) = θ 3 A3 = −θ 3 A (iL L θ )4 = −θ 3 A(θ A) = −θ 4 A2 (iL die allgemeineren Ausdrücke L θ )2k+1 = (−1)k θ 2k+1 A (iL
L θ )2k = −(−1)k θ 2k A2 (iL
motivieren. Dabei gilt der Ausdruck für 2k nur für k > 0, da sich für k = 0 einfach die Einheitsmatrix ergibt. Somit kann die Exponentialfunktion über
442
7 Matrizen ∞
1 L θ )k (−1)k L θ) = (iL O = exp (−iL k! k=0 ∞ ∞
1 1 2k L θ) L θ )2k+1 (iL (iL = 1+ + (−1) (2k)! (2k + 1)! k=1 k=0 ∞ ∞ k
(−1)
(−1)k θ 2k − A θ 2k+1 = 1 − A2 (2k)! (2k + 1)! k=1
k=0
= 1 − A (cos (θ ) − 1) − A sin (θ ) 2
= 1 + A2 (1 − cos (θ)) − A sin (θ) ermittelt werden. Durch explizites Einsetzen der Matrizen A und A2 ist die Matrix O so durch ⎛ 2 ⎞ ⎛ ⎞ nx − 1 nx n y nx nz 1 0 0 O = ⎝0 1 0⎠ + (1 − cos (θ)) ⎝ n y n x n 2y − 1 n y n z ⎠ 0 0 1 nz nx n z n y n 2z − 1 ⎞ ⎛ 0 n z −n y − sin (θ) ⎝−n z 0 nx ⎠ n y −n x 0 ⎞ ⎛ ⎛ ⎞ nx nx nx n y nx nz 1 0 0 = cos (θ ) ⎝0 1 0⎠ + (1 − cos (θ)) ⎝n y n x n y n y n y n z ⎠ 0 0 1 ⎛ ⎞ 0 n z −n y − sin (θ) ⎝−n z 0 nx ⎠ n y −n x 0
nz nx
nz n y nz nz
gegeben. Ihre Komponenten können als L θ ))i j = δi j cos (θ) + n i n j (1 − cos (θ)) − i jk n k sin (θ ) Oi j = (exp (iL geschrieben werden. Dieser Ausdruck wird in Kap. 10 in Gl. (10.29) als Drehmatrix auftauchen und dort etwas ausführlicher diskutiert. Es zeigt sich, dass der Vektor ⎛
⎞ nx nˆ = ⎝n y ⎠ nz die Achse einer Drehachse und θ den Drehwinkel um diese Achse gegen den Uhrzeigersinn darstellen.
7.3
Einige spezielle Matrizengruppen und ihre Algebren
7.3.2
443
Die Gruppe der komplexen Drehmatrizen SU(n)
Um die Gruppe der komplexen, unitären Drehmatrizen mit Determinante eins SU(n) zu betrachten, soll auch hier zuerst die Zahl der benötigten Parameter bzw. Generatoren bestimmt werden. Da es sich um komplexe (n × n)-Matrizen handelt, gibt es zunächst 2n 2 Freiheitsgrade, da jedes der n 2 Elemente über einen Real- und Imaginärteil verfügt. Die Unitarität der Matrix U kann als † ∗ U U i j = Uik U jk = δi j geschrieben werden. Für i = j kann i insgesamt n mögliche Werte annehmen, während für j nur n − 1 Werte verbleiben. Da ein Tausch von i und j die Gleichung nur komplex konjugiert, ergibt sich eine neue Gleichung. Damit ergeben sich für i = j n(n − 1) 2 Formeln, die aber alle eine Aussage über den Realteil und den Imaginärteil der linken Seite treffen. Damit werden insgesamt n(n − 1) Zusammenhänge unter den freien Parametern festgelegt. Für i = j gibt es n-Möglichkeiten. Da die Gleichungen n
k=1
∗ Uik Uki
=
n
|Uik |2 = 1
k=0
für ein festes i aber eine Aussage über ein Betragsquadrat treffen, wird hier für jede Gleichung tatsächlich nur ein Freiheitsgrad reduziert. Dies hängt damit zusammen, dass auf der linken Seite kein Imaginärteil vorhanden ist. Da die Determinante im komplexen Fall ein kontinuierlicher Parameter ist, wird durch ihre Wahl die Zahl der Freiheitsgrade auch um 1 reduziert. Damit verbleiben g(SU(n)) = 2n 2 − n(n − 1) − n − 1 = n 2 − 1
(7.84)
freie Parameter. Die SU(n) besitzt daher auch g = n 2 − 1 Generatoren. Die SU(2) hat beispielsweise 3 Generatoren, die der Anzahl der schwachen Austauschteilchen im Standardmodell entsprechen, während die SU(3) über 8 Generatoren verfügt, was der Anzahl der verschiedenen Gluonen im Standardmodell entspricht. Um einige Aussagen der Generatoren L a der SU(n) und somit der Basis der su(n) zu treffen, wird wieder der Ausdruck U = exp −iL a θ a
444
7 Matrizen
betrachtet. Aufgrund der Unitarität ! † U † = exp i L a θ a = exp iL a θ a müssen die Generatoren hermitesche Matrizen sein. Das heißt, sie müssen über
La
†
= La
ihrer Adjungierten entsprechen. Aufgrund der Wahl der Determinante und des Zusammenhangs (7.60) muss 1 = det exp −iL a θ a = exp Spur −iL a θ a = exp −iθ a Spur L a erfüllt sein. Damit müssen die Generatoren spurlos, Spur L a = 0 sein, da die θ a alle unabhängig voneinander und beliebig sind. In der Physik werden die Generatoren der SU(n) üblicherweise durch La =
λa 2
parametrisiert, womit sich für die Kommutatorrelation [L a , L b ] = i f abc L c der Ausdruck ! ⇒
λa λb , 2 2
" = i f abc
λc 2
[λa , λb ] = 2i f abc λc
(7.85)
ergibt. Die λa sind dann trotzdem weiterhin hermitesch und spurlos. Die Gruppe SU(2) Zuerst sollen die unitären (2 × 2)-Matrizen betrachtet werden. Eine übliche Darstellung dieser Matrizen findet sich in der Cayley-Klein-Parametrisierung. Um diese zu erhalten, wird von einer Matrix U mit 4 komplexen Zahlen in der Form
a b U= c d ausgegangen. Ihre Adjungierte ist durch
7.3
Einige spezielle Matrizengruppen und ihre Algebren
U† =
445
∗ ∗ a c b∗ d ∗
gegeben. Wegen der Unitarität muss wegen
∗ ∗ a b a c U †U = ∗ ∗ c d b d
∗ ∗ a a + c c a ∗ b + c∗ d ! 1 0 = = ab∗ + cd ∗ b∗ b + d ∗ d 0 1 die Formel a ∗ b + c∗ d = 0 gelten. Eine einfache Wahl, um diese Formel zu erfüllen, ist durch d = a∗
c = −b∗
gegeben, womit die Matrix U die Form
a b U= −b∗ a ∗
(7.86)
annimmt. Die Determinante der Matrix kann zu det (U ) = |a|2 + |b|2 = 1
(7.87)
bestimmt werden und legt somit einen der 4 freien Parameter der beiden komplexen Zahlen a und b fest. Damit ist eine unitäre (2 × 2)-Matrix gefunden, deren Determinante 1 beträgt und die durch 3 Parameter voll bestimmt ist. Da die SU(2)-Generatoren im einfachsten Fall auch (2 × 2)-Matrizen sind, eine Form wie in Gl. (7.85), [λa , λb ] = 2i f abc λc erfüllen müssen und es sich um 3 Generatoren handeln muss, liegt es nahe die drei PauliMatrizen aus Gl. (7.16)
0 1 0 −i 1 0 1 1 2 2 3 3 λ = σ = σy = λ = σ = σz = λ = σ = σx = 1 0 i 0 0 −1 in Betracht zu ziehen. Die Strukturkonstante wird dann zu f abc = abc ,
(7.88)
446
7 Matrizen
mit dem Levi-Civita-Symbol abc , das die Indices oben trägt. Es bleibt mit diesem Ansatz zu zeigen, dass
σa a U = exp −i α 2 alle SU(2)-Transformationen darstellen kann, also der Cayley-Klein-Parametrisierung aus (7.86) entspricht. Dazu wird der Parametervektor26 α als ⎛ ⎞ n1 ⎝ α = αnn = α n 2 ⎠ n3 geschrieben, wobei n 21 + n 22 + n 23 = 1 erfüllt sein soll. Die Matrix
0 1 0 −i 1 0 + n2 + n3 1 0 i 0 0 −1
n 1 − in 2 n3 = n 1 + in 2 −n 3
σ n = n1
besitzt das Quadrat
n3 1 0 n 1 − in 2 n 1 − in 2 n3 2 σn) = = = 1. (σ 0 1 n 1 + in 2 −n 3 n 1 + in 2 −n 3 Damit lassen sich für den Exponenten α σ σn) iL a α a = iα n = i (σ 2 2 die ersten vier Potenzen
26 Normalerweise wird der Parameter mit θ bezeichnet. Da die SU(2) aber über 3 Generatoren
verfügt, lässt sich der Parametervektor als dreidimensionaler Vektor darstellen. Da dieser häufig in Kugelkoordinaten ausgedrückt wird, besteht eine Verwechslungsgefahr mit dem Winkel θ der Kugelkoordinaten. Daher soll der Parametervektor hier ausnahmsweise mit α bezeichnet werden.
7.3
Einige spezielle Matrizengruppen und ihre Algebren
447
α σn) iL a α a = i (σ 2 α 2 α 2 σ n )2 = − (σ 1 (iL a α a )2 = − 2 2 α 3 σn) (σ (iL a α a )3 = −i 2 α 4 1 (iL a α a )4 = 2 und daraus die allgemeinen Formen (iL a α a )2k+1 = i(−1)k
α 2k+1 2
σn) (σ
(iL a α a )2k = (−1)k
α 2k 2
1
bestimmen, wobei die letzte Gleichung auch für k = 0 gilt. Durch Einsetzen in die Exponentialfunktion
exp −iL α
a a
∞
k α 1 α σn) = σ n ) (−1)k i (σ = exp −i (σ 2 k! 2 k=0
∞ ∞
(−1)k α 2k (−1)k α 2k+1 σn) i = 1− (σ (2k)! 2 (2k + 1)! 2 k=0 ∞
(−1)k
k=0
(2k)!
=1
k=0
α 2k 2
σn) − i(σ
∞
(−1)k α 2k+1 (2k + 1)! 2 k=0
ergibt sich unter Ausnutzung der Taylor-Reihen des Sinus und des Kosinus aus Kap. 4 die Matrix σn) U = 1 cos (α/2) − i sin (α/2) (σ
n3 1 0 n 1 − in 2 − i sin (θ/2) = cos (α/2) 0 1 n 1 + in 2 −n 3
cos (α/2) − in 3 sin (α/2) − sin (α/2) (n 2 + in 1 ) . = sin (α/2) (n 2 − in 1 ) cos (α/2) + in 3 sin (α/2) Da die Eigenvektoren der Matrix σ n auch Eigenvektoren zu der entsprechenden Exponentialfunktion sind, sind die Vektoren
cos (θ/2) e−iφ/2 − sin (θ/2) e−iφ/2 v1 = v2 = sin (θ/2) eiφ/2 cos (θ/2) eiφ/2 Eigenvektoren zur Matrix α cos (α/2) − in sin (α/2) − sin (α/2) (n + in ) 3 2 1 σn) = , U = exp −i (σ sin (α/2) (n 2 − in 1 ) cos (α/2) + in 3 sin (α/2) 2
448
7 Matrizen
wobei die Eigenwerte durch α α λ1 = exp −i λ2 = exp i 2 2 gegeben sind. Dies lässt sich auch durch eine explizite Rechnung prüfen, die aber wegen ihrer Länge hier nicht aufgeführt werden soll. Mit den Zahlen a = cos (α/2) − in 3 sin (α/2) b = − sin (α/2) (n 2 + in 1 ) entspricht U aufgrund von |a|2 + |b|2 = cos2 (α/2) + n 23 sin2 (α/2) + sin2 (α/2) (n 21 + n 22 ) = cos2 (α/2) + sin2 (α/2) (n 21 + n 22 + n 23 ) = cos2 (α/2) + sin2 (α/2) = 1 der Cayley-Klein-Darstellung und stellt alle unitären (2 × 2)-Matrizen dar, wenn θ aus dem Intervall [0, 4π ) kommt. Die drei grundlegenden Transformationen der SU(2) können daraus ermittelt werden, indem eines der n i auf 1 gesetzt wird, während die anderen auf 0 gesetzt werden. Damit ergeben sich
cos (α/2) −i sin (α/2) cos (α/2) − sin (α/2) U2 = U1 = −i sin (α/2) cos (α/2) sin (α/2) cos (α/2)
exp (−iα/2) 0 , (7.89) U3 = 0 exp (iα/2) aus welchen sich über
σa 1 dUa =− 2 i dα α=0
die Pauli-Matrizen ableiten lassen. Um einen Einblick in die Algebra su(2) zu erhalten, soll aufgrund von Gl. (7.88) [L a , L b ] = i abc L c betrachtet werden. Mit der Definition der Generatoren in adjungierter Darstellung, ergeben sich
Fa
ij
= −i f ai j = −i ai j
7.3
Einige spezielle Matrizengruppen und ihre Algebren
⎞ ⎛ 0 0 0 F 1 = ⎝0 0 −i⎠ 0 −i 0 ⎞ ⎛ 0 −i 0 3 F = ⎝ i 0 0⎠ 0 0 0
449
⎞ 0 0 i F 2 = ⎝ 0 0 0⎠ −i 0 0 ⎛
als die drei Basismatrizen der adjungierten Darstellung der su(2). Diese entsprechen aber den Generatoren der SO(3) bzw. der Basis der so(3). Die adjungierte Darstellung der SU(2) ist damit die SO(3). Da die Pauli-Matrizen die Eigenschaft (7.22) σ a σ b = δab 1 + i abc σ c erfüllen, lässt sich die Spur des Produkts zu Spur σ a σ b = Spur δab 1 + i abc σ c
= δab Spur (1) + i abc Spur σ c = 2δab
bestimmen. Des Weiteren erfüllen die Pauli-Matrizen 3
a=1
1 (σ a )i j (σ a )kl = 2 δil δk j − δi j δkl 2
als Vollständigkeitsrelation. Diese beiden Zusammenhänge sind hilfreich um Verallgemeinerungen auf höhere n vorzunehmen. Die Gruppe der SU(3) Für die SU(3) werden die 8 Generatoren La =
λa 2
mit ⎞ ⎞ ⎞ ⎛ ⎛ ⎛ 0 1 0 0 −i 0 1 0 0 λ1 = ⎝1 0 0⎠ λ2 = ⎝ i 0 0⎠ λ3 = ⎝0 −1 0⎠ , 0 0 0 0 0 0 0 0 0 ⎞ ⎞ ⎛ ⎛ 0 0 1 0 0 −i λ4 = ⎝0 0 0⎠ λ5 = ⎝0 0 0 ⎠ , 1 0 0 i 0 0
450
7 Matrizen
⎞ ⎞ ⎛ ⎛ 0 0 0 0 0 0 λ6 = ⎝0 0 1⎠ λ7 = ⎝0 0 −i⎠ 0 1 0 0 i 0 und ⎞ ⎛ 1 0 0 1 λ8 = √ ⎝0 1 0 ⎠ 3 0 0 −2 betrachtet, die als Gell-Mann-Matrizen bezeichnet werden. Bis auf die achte Gell-MannMatrix, lassen sich in ihnen die Pauli-Matrizen wiederfinden. Für die erste bis dritte GellMann-Matrix müssen dafür die jeweils dritte Spalte und dritte Zeile gestrichen werden, damit sich die Pauli-Matrizen σ 1 , σ 2 und σ 3 ergeben. Für die vierte und sechste Gell-Mann-Matrix müssen jeweils die zweite Zeile und Spalte gestrichen werden, um die Pauli-Matrizen σ 1 und σ 2 zu erhalten. Für die sechste und siebte Gell-Mann-Matrix werden jeweils die erste Zeile und Spalte gestrichen, um die Pauli-Matrizen σ 1 und σ 2 zu erhalten. Wie auf den ersten Blick zu erkennen ist, sind die beiden Gell-Mann-Matrizen λ3 und λ8 Diagonalmatrizen. In der Quantenchromodynamik, also wörtlich der Farbquantentheorie, die sich mit der starken Wechselwirkung beschäftigt, legen ihre Eigenwerte und Eigenvektoren die Farbladungen der Quarks und der Gluonen fest.27 Da es sich um Diagonalmatrizen handelt, sind sie vertauschbar. Anders als bei der SU(2) gibt es hier 2 Generatoren, die miteinander vertauschen, also einen verschwindenden Kommutator besitzen. Allgemein wird die Anzahl der vertauschbaren Generatoren als Rang einer Gruppe bezeichnet. Die SU(n) besitzt einen Rang von n − 1, was hier aber nicht bewiesen werden soll. Durch explizite Rechnungen, wie ⎛⎛
⎞⎛ ⎞ ⎛ 0 0 0 1 0 0 ⎠ ⎝ 0 0 0 0 ⎠ − ⎝0 0 3 0 −2 1 0 0 1 0 ⎛⎛ ⎞ ⎛ ⎞⎞ 0 0 1 0 0 −2 1 = √ ⎝⎝ 0 0 0⎠ − ⎝0 0 0 ⎠⎠ 3 −2 0 0 1 0 0 ⎛ ⎞ ⎛ ⎞ 0 0 3 0 0 1 √ 1 ⎝ ⎠ ⎝ 0 0 0 = 3 0 0 0⎠ = √ 3 −3 0 0 −1 0 0 ⎛ ⎞ √ √ 0 0 −i = i 3 ⎝0 0 0 ⎠ = i 3λ5 = 2i f 845 λ5 i 0 0 1
1 [λ8 , λ4 ] = √ ⎝⎝0
0 1 0
⎞⎛ 1 1 0 ⎠ ⎝0 0 0
0 1 0
⎞⎞ 0 0 ⎠⎠ −2
27 Die erste Komponente des dreikomponentigen Vektors gibt dabei in der gängigen Konvention die
roten Anteile wieder, während die zweite die blauen und die letzte die grünen Komponenten darstellt. Die beiden Ladungen, die durch λ3 und λ8 bestimmt werden, sind dabei nicht die Farbladungen, sondern ermöglichen es, die Teilchen in ihren Multipletts anzuordnen.
7.3
Einige spezielle Matrizengruppen und ihre Algebren
451
lassen sich die Strukturkonstanten f 123 = 1 1 f 147 = f 156 = f 246 = f 257 = f 345 = f 376 = 2 √ 3 f 458 = f 678 = 2
(7.90)
bestimmen. Da die Strukturkonstanten zyklisch und antisymmetrisch sind, sind auch die Werte von f 714 und f 174 bekannt. Alle Werte, die sich nicht aus der hier gegebenen Liste bestimmen lassen, wie beispielsweise f 381 , sind null. Die allgemeine SU(3)-Matrix soll nicht berechnet werden. Dennoch lassen sich die grundlegenden, mit den einzelnen Gell-Mann-Matrizen verknüpften Matrizen finden. Über explizite Rechnungen für λ1 kann so beispielsweise ⎞ cos (θ/2) −i sin (θ/2) 0 U1 = ⎝−i sin (θ/2) cos (θ/2) 0⎠ 0 0 1 ⎛
gefunden werden. Werden die dritte Zeile und dritte Spalte gestrichen, so ergibt sich die Matrix U1 der SU(2). Dies ist aus zwei Gründen nicht verwunderlich: Zum einen ist der betrachtete Generator bis auf die dritte Zeile und Spalte der Generator der Matrix U1 aus der SU(2), zum anderen müssen die Matrizen der SU(2) sich auch in die Menge der (3 × 3)-Matrizen einbetten lassen. Mathematisch wird davon gesprochen, dass die SU(2) eine Untergruppe der SU(3) bildet. Damit die Matrix weiterhin unitär bleibt, muss auf dem zusätzlichen Diagonalplatz eine 1 stehen. Damit lassen sich die Matrizen ⎞ ⎛ cos (θ/2) − sin (θ/2) 0 U2 = ⎝ sin (θ/2) cos (θ/2) 0⎠ 0 0 1 ⎞ ⎛ cos (θ/2) 0 −i sin (θ/2) ⎠ U4 = ⎝ 0 1 0 −i sin (θ/2) 0 cos (θ/2) ⎞ ⎛ 1 0 0 U6 = ⎝0 cos (θ/2) −i sin (θ/2)⎠ 0 −i sin (θ/2) cos (θ/2)
⎞ ⎛ exp (−iθ/2) 0 0 U3 = ⎝ 0 exp (iθ/2) 0⎠ 0 0 1 ⎞ ⎛ cos (θ/2) 0 − sin (θ/2) ⎠ U5 = ⎝ 0 1 0 sin (θ/2) 0 cos (θ/2) ⎞ ⎛ 1 0 0 U7 = ⎝0 cos (θ/2) − sin (θ/2)⎠ 0 sin (θ/2) cos (θ/2)
bestimmen. Sie können einfach über den Zusammenhang λa 1 dUa =− 2 i dθ θ=0 geprüft werden. Da für Diagonalmatrizen der Zusammenhang
452
7 Matrizen
exp (diag (α1 , . . . , αn )) = diag (exp (α1 ) , . . . , exp (αn )) gilt, lässt sich auch die Matrix ⎛ ⎞ √ exp −iθ/(2 3) 0 0 ⎜ ⎟ √ ⎜ ⎟ 0 exp −iθ/(2 3) 0 U8 = ⎜ ⎟ ⎝ √ ⎠ 0 0 exp iθ/ 3 bestimmen. Die Algebra su(3) betreffend soll die adjungierte Darstellung untersucht werden. Da es sich bei der adjungierten Darstellung hier um (8 × 8)-Matrizen handelt, sollen nicht alle angegeben werden. Für die Physik sind aber die adjungierten Darstellungen von λ3 /2 und λ8 /2 interessant, da sich mit ihnen die Ladungen der Gluonen bestimmen lassen. Für die adjungierte Darstellung von λ3 /2 werden die Strukturkonstanten f 312 =
1 = − f 321 2
f 345 =
1 = − f 354 2
f 367 = −
1 = − f 376 2
benötigt, um aus (F 3 )i j = −i f 3i j den Ausdruck ⎞ 0 −i 0 0 0 0 0 0 ⎜i 0 0 0 0 0 0 0⎟ ⎟ ⎜ ⎜0 0 0 0 0 0 0 0⎟ ⎟ ⎜ ⎟ ⎜ 0 0 0⎟ ⎜0 0 0 0 −i/2 3 F =⎜ ⎟ ⎜0 0 0 i/2 0 0 0 0⎟ ⎟ ⎜ ⎜0 0 0 0 0 0 i/2 0⎟ ⎟ ⎜ ⎝0 0 0 0 0 −i/2 0 0⎠ 0 0 0 0 0 0 0 0 ⎛
zu erhalten. Für die adjungierte Darstellung von λ8 /2 werden die Strukturkonstanten √ √ 3 3 845 854 867 f =−f = − f 876 = f = 2 2 benötigt, um aus (F 8 )i j = −i f 8i j den Ausdruck
7.3
Einige spezielle Matrizengruppen und ihre Algebren
⎛ 0 ⎜0 ⎜ ⎜0 ⎜ ⎜ ⎜0 8 F =⎜ ⎜0 ⎜ ⎜ ⎜0 ⎜ ⎝0 0
0 0 0 0 0 0
0 0 0
0 0
0
0 0 0√
−i
3 2
453
0 0 0
0 0 0
0
0
0 0
√ i 23
0
0
0 0
0
0
0 √
0 0 0 0
0 0
0 0
i
3 2
0
0√
−i
3 2
0 0
⎞ 0 0⎟ ⎟ 0⎟ ⎟ ⎟ 0⎟ ⎟ 0⎟ ⎟ ⎟ 0⎟ ⎟ 0⎠ 0
zu erhalten. Durch explizite Rechnungen, lassen sich auch für die Gell-Mann-Matrizen die Zusammenhänge (7.91) Spur λa λb = 2δab und 8
a=1
1 (λa )i j (λa )kl = 2 δil δk j − δi j δkl 3
(7.92)
prüfen. Diese sind in ähnlicher Form schon bei den Pauli-Matrizen vorgekommen. Allgemeine Eigenschaften der Generatoren der SU(n) Die beiden für die Pauli- und die Gell-Mann-Matrizen auftretenden Ausdrücke für die Spur des Produktes lassen sich für ein beliebiges n auf Spur λa λb = 2δab (7.93) verallgemeinern, wenn auch hier die Generatoren durch L a = λa /2 ausgedrückt werden. Die Vollständigkeitsrelation lässt sich als 2 −1 n
a=1
1 (λ )i j (λ )kl = 2 δil δk j − δi j δkl n a
a
(7.94)
ausdrücken. Dabei läuft die Summe über alle Generatoren, deren Anzahl n 2 −1 war, während der Vorfaktor des zweiten Terms durch die Dimension der Matrizen bestimmt war.
454
7.4
7 Matrizen
Formelsammlung – Matrizen
Grundlegende Rechenregeln Matrizen des Rn×n ⎛
A11 A12 ⎜ A21 A22 ⎜ A=⎜ . .. ⎝ .. . Am1 Am2
⎞ · · · A1n · · · A2n ⎟ ⎟ .. ⎟ .. . . ⎠ · · · Amn
Ai j ∈ R
⎞ · · · A1n · · · A2n ⎟ ⎟ .. ⎟ .. . . ⎠ · · · Amn
Ai j ∈ C
Matrizen des Cn×n ⎛
A11 A12 ⎜ A21 A22 ⎜ A=⎜ . .. ⎝ .. . Am1 Am2
Matrixaddition und Multiplikation mit Zahl α (A + B)i j = Ai j + Bi j
(α A)i j = α Ai j
Komponenten der Einheitsmatrix (1)i j = δi j Matrixmultiplikation (AB)i j =
n
Aik Bk j
k=1
Kommutator und Antikommutator [A, B] = AB − B A {A, B} ≡ AB + B A
1 AB = [A, B] + {A, B} 2 Transponierte und adjungierte Matrizen AT = A ji ij T
(AB) = B T A T Symmetrische und hermitesche Matrizen
A†
ij
= A∗ji
(AB)† = B † A†
7.4
Formelsammlung – Matrizen
455
S = ST
H = H† Hi j = H ji∗
Si j = S ji Orthogonale und unitäre Matrizen OT O = 1
U †U = 1 ∗ Uik U jk = δi j
Oik O jk = δi j Inverse Matrix det (A) = 0
⇒
∃ A−1 A A−1 = 1
(AB)−1 = B −1 A−1 Determinante einer Matrix det (A) = i1 ...in A1i1 · · · Anin det (AB) = det (A) det (B) 1 det A T = det (A) det A−1 = det (A) Spur einer Matrix Spur (A) =
n
Aii Spur (α A + β B) = α Spur (A) + β Spur (B)
i=1
Spur (ABC) = Spur (C AB) = Spur (BC A) Matrizen und Vektoren Anwendung von Matrizen auf Vektoren [Avv ]i = Ai j v j
v T A = v j A ji i
Eigenwerte und Eigenvektoren p(λ) = det (A − λi 1) = 0
(A − λi 1)vv = 0
Diagonalisierung der Matrix A mit ihren Eigenvektoren D = diag (λ1 , . . . , λn ) = U AU −1 −1 U −1 = v 1 v 2 · · · v n = (vv j )i U ij Determinante und Spur bei bekannten Eigenwerten
456
7 Matrizen
det (A) =
n
λi
Spur (A) =
n
i=1
λi
i=1
Projektoren Pi P j = δi j Pi
1=
n
Pi
i=1
Projektoren auf Eigenvektoren (Pv )i j = vi v ∗j Spektrale Darstellung und Funktionalkalkül A=
n
λi Pi
⇒
f (A) =
i=1
n
f (λi )Pi
i=1
Funktion einer Matrix f (A) =
∞
f (k) (0) k A k!
f (A) = U −1 diag ( f (λ1 ), . . . , f (λn )) U
k=0
Exponentialfunktion einer Matrix ∞
1 n A exp (A) = n!
det (exp (A)) = exp (Spur (A))
n=0
Baker-Campbell-Hausdorff-Identität [A, [A, B]] = [B, [A, B]] = 0
⇒
1 exp (A + B) = exp (A) exp (B) exp − [A, B] 2
Logarithmus einer Matrix ln (A) = U −1 diag (ln (λ1 ) , . . . , ln (λn )) U
⇒
Spur (ln (A)) = ln (det (A))
Lie-Gruppe und Algebren Lie-Gruppe und ihre Elemente G = U (θ1 , . . . , θg )(θ1 , . . . , θg ) ∈ Rg L θ ) = exp −i U (θ1 , . . . , θg ) = exp (−iL
g
a=1
L θ
a a
7.4
Formelsammlung – Matrizen
457
Generatoren einer Lie-Gruppe 1 dU L =− i dθ a θ =00
[L a , L b ] = i f abc L c
a
Adjungierte Darstellung (F a )i j = −i f ai j
[F a , F b ] = i f abc F c
Die SO(n) Definition, Anzahl der Generatoren und ihre Eigenschaften n×n SO(n) = O ∈ R O O T = O T O = 1, det (O) = 1 g=
n(n − 1) 2
Spur L a = 0
(L a )T = −L a
Generatoren der SO(3) ⎞ ⎛ 0 0 0 L 1 = ⎝0 0 −i⎠ 0 i 0
⎞ 0 0 i L 2 = ⎝ 0 0 0⎠ −i 0 0 ⎛
⎞ 0 −i 0 L 3 = ⎝ i 0 0⎠ 0 0 0 ⎛
Lie-Algebra so(3) der SO(3) [L a , L b ] = i abc L c Allgemeine SO(3)-Matrix mit θ ∈ [0, 2π ) und n 2 = 1 L θ ))i j = δi j cos (θ) + n i n j (1 − cos (θ)) − i jk n k sin (θ) Oi j = (exp (−iL Die SU(n) Definition, Anzahl der Generatoren und ihre Eigenschaften n×n SU(n) = U ∈ C UU † = U † U = 1, det (U ) = 1 g = n2 − 1
La
†
= La
Spur L a = 0
Spur und Vollständigkeitsrelation Spur λa λb = 2δab
2 −1 n
a=1
1 (λ )i j (λ )kl = 2 δil δk j − δi j δkl n a
Generatoren der SU(2) sind die Pauli-Matrizen
a
458
7 Matrizen
σa a U = exp −i θ 2
σa L = 2 a
Lie-Algebra su(2) der SU(2) [L a , L b ] = i abc L c Allgemeine SU(2)-Matrix mit α ∈ [0, 4π ) und n 2 = 1
σa cos (α/2) − in 3 sin (α/2) − sin (α/2) (n 2 + in 1 ) U = exp −iα n a = sin (α/2) (n 2 − in 1 ) cos (α/2) + in 3 sin (α/2) 2 Generatoren der SU(3) sind die Gell-Mann-Matrizen
λa λa La = U = exp −i θ a 2 2 Lie-Algebra su(3) der SU(3) [L a , L b ] = i f abc L c f
123
=1
f
458
= f
678
√ 3 = 2
f 147 = f 156 = f 246 = f 257 = f 345 = f 376 =
1 2
Besondere Matrizen Pauli-Matrizen σx =
0 1 1 0
σy =
0 −i i 0
σz =
1 0 0 −1
Kommutatoreigenschaften der Pauli-Matrizen [σi , σ j ] = 2ii jk σk
{σi , σ j } = 2δi j 1
σi σ j = ii jk σk + δi j 1 Linearkombination der Pauli-Matrizen und ihre Eigenvektoren
cos (θ) sin (θ) exp (−iφ) σ nˆ = sin (θ) exp (iφ) − cos (θ)
cos (θ/2) e−iφ/2 − sin (θ/2) e−iφ/2 v1 = v = 2 sin (θ/2) eiφ/2 cos (θ/2) eiφ/2 σ nˆ )vv 1 = (+1)vv 1 (σ
σ nˆ )vv 2 = (−1)vv 2 (σ
7.4
Formelsammlung – Matrizen
Gell-Mann-Matrizen ⎛
⎞ 1 0 0 0⎠ 0 0 ⎞ 0 1 0 0⎠ 0 0 ⎞ 0 0 0 1⎠ 1 0 ⎛ 1 0 1 λ8 = √ ⎝0 1 3 0 0 0 λ1 = ⎝1 0 ⎛ 0 λ4 = ⎝0 1 ⎛ 0 6 ⎝ λ = 0 0
459
⎛
0 λ2 = ⎝ i 0 ⎛ 0 λ5 = ⎝0 i ⎛ 0 7 ⎝ λ = 0 0 ⎞ 0 0⎠ −2
⎞ ⎞ ⎛ −i 0 1 0 0 0 0⎠ λ3 = ⎝0 −1 0⎠ 0 0 0 0 0 ⎞ 0 −i 0 0⎠ 0 0 ⎞ 0 0 0 −i⎠ i 0
8
Vektoranalysis
Inhaltsverzeichnis 8.1 8.2 8.3
8.4
8.5
8.6
8.7
Skalar- und Vektorfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ableitung von Feldern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Integrale von Feldern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.1 Wegintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Flächenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.3 Volumenintegrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.4 Das Keilprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.3.5 Krummlinige Koordinatensysteme und die Jacobi-Matrix . . . . . . . . . . . . . . . . . . . . 8.3.6 Dirac-Delta in Volumenintegralen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Differentiale von Funktionen und Feldern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Geometrische Interpretation eines Differentials einer Funktion . . . . . . . . . . . . . . . 8.4.2 Die Legendre-Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Differentialoperatoren Gradient, Rotation und Divergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.1 Motivation und Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.2 Zweite Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.3 Produkt- und andere Rechenregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5.4 In krummlinigen Koordinaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Integralsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.1 Einleitung und Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.2 Der Satz von Gauß . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.3 Der Satz von Stokes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.4 Der Gradientensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.5 Der Satz vom wandernden d . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.6 Folgerungen aus den Integralsätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.7 Verallgemeinerung in der flachen Raumzeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.8 Die Green’schen Integralsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.6.9 Der Helmholtz’sche Zerlegungssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formelsammlung – Vektoranalysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_8
462 462 464 468 469 474 483 486 490 499 502 502 506 509 509 515 515 519 534 534 535 537 539 541 541 543 544 545 551
461
462
8 Vektoranalysis
Bisher wurden meist nur Funktionen betrachtet, die als Argumente nur ein reelles Argument entgegennehmen. In Kap. 5 wurden Funktionen betrachtet, bei denen dieses Argument auch komplex sein kann. In Abschn. 4.5 wurden die Kugelflächenfunktionen vorgestellt, die als Argument zwei reelle Zahlen, in diesem Fall Winkel entgegennehmen. Sie stellten eine Größe in Form einer komplexen Zahl auf einer Kugeloberfläche dar. Eine Erweiterung auf einen höherdimensionalen, im Speziellen den dreidimensionalen, Fall bietet die Vektoranalysis, die Funktionen von mehreren Variablen betrachtet.
8.1
Skalar- und Vektorfelder
8.1.1
Definition und Beispiele
Hier sollen Funktionen in einem dreidimensionalen Raum betrachtet werden.1 All diese Funktionen sollen als Argument einen Vektor r des R3 entgegennehmen. Es gibt zwei2 Arten von Funktionen, die sich konstruieren lassen: 1. Skalarfelder Diese Funktionen nehmen einen Vektor entgegen und bilden ihn auf eine reelle Zahl ab; ein typisches Symbol ist (rr ). Es wird also jedem Punkt im Raum eine Zahl : R3 → R zugeordnet. Beispiele für solche Skalarfelder sind • Die Temperatur: Jedem Punkt im Raum kann eine Zahl, die Temperatur zugeordnet werden. • Die Höhe: Im zweidimensionalen Fall kann jedem Punkt in einer gedachten Ebene eine Zahl, die Höhe über einer zuvor festgelegten Grundhöhe zugeordnet werden. Zur bildlichen Veranschaulichung eines gegebenen Skalarfeldes in zwei Dimensionen werden entweder eine Wärmekarte angegeben, bei der jeder Punkt in der Ebene entsprechend des Wertes des Skalarfeldes eine Farbe erhält, oder Konturlinien, die Linien gleicher Werte für ein Skalarfeld anzeigen. Diese können auch kombiniert werden, wie in Abb. 8.1 zu sehen ist. 1 Es gibt auch die Möglichkeit, dies auf Räume anderer Dimensionalität d zu verallgemeinern. 2 Dies sind in der klassischen Physik die wichtigsten Klassen von Funktionen. In der modernen Physik gibt es noch weitere Größen, die als Funktionen auf dem Rd aufgefasst werden, beispielsweise
Tensorfelder in der allgemeinen Relativitätstheorie, die ein Feld auf der Raumzeit darstellen.
8.1
Skalar- und Vektorfelder
463
2. Vektorfelder Diese Funktionen nehmen einen Vektor entgegen und bilden ihn auf einen anderen Vektor ab. Es wird so jedem Punkt im Raum ein Vektor zugeordnet. Typische Bezeichnungen sind A (rr ) oder V (rr ), A : R3 → R3 , der von diesem Punkt aus abzutragen ist. Wichtig ist hierbei, dass solch ein Vektorfeld auch als ein Tupel von drei Skalarfeldern A x , A y und A z aufgefasst werden kann und sich deshalb als A (rr ) =
3
eˆ i Ai (rr )
(8.1)
i=1
schreiben lässt. Im Folgenden wird meist die Einstein’sche Summenkonvention aus Abschn. 2.4 verwendet. Beispiele für Vektorfelder sind: • Der Wind: Jedem Punkt im Raum kann ein Geschwindigkeitsvektor der Luft zugeordnet werden. Auch kann jedem Punkt in einer Flüssigkeit ein Geschwindigkeitsvektor der Flüssigkeit zugeordnet werden. Dies wird auch als Geschwindigkeitsfeld u (x, t) bezeichnet und findet in der Strömungsmechanik Anwendung. • Das Elektrische Feld: Jedem Punkt im Raum kann ein Vektor des elektrischen Feldes E (rr , t) zugeordnet werden. Ladungen erfahren eine Kraft in Richtung dieses Vektors. • Das magnetische Feld: Jedem Punkt im Raum kann ein Vektor des magnetischen Feldes B (rr , t) zugeordnet werden. Bewegte Ladungen erfahren eine Kraft senkrecht zur Richtung dieses Vektors und ihrer eigenen Geschwindigkeit. Zur bildlichen Veranschaulichung eines gegebenen Vektorfeldes können beispielsweise Vektoren an einzelnen Punkten abgetragen werden, wie es in Abb. 8.2 getan wird. In der Physik ist jedoch häufig das Konzept der Feldlinien anzutreffen. Diese werden konstruiert, indem an jedem Punkt r als Tangentenvektor der Vektor A (rr ) verwendet wird.3 Die Dichte der Feldlinien ist proportional zum Betrag von A (rr ) und somit zur Feldstärke. In beiden Fällen, für Skalar- und Vektorfelder, werden Gleichungen oft unübersichtlich, wenn die Argumente explizit ausgeschrieben werden. Aus diesem Grund werden die Abhängigkeiten oft durch die Schreibweise 3 Formal lassen sich die Feldlinien auch über die Gleichung drr × A (rr ) = 0 bestimmen. Es handelt sich um eine Differentialgleichung, deren Lösung die Komponenten von r sind.
464
8 Vektoranalysis
Abb. 8.1 Bildliche Veranschaulichung eines Skalarfeldes, bestehend aus zwei überlagerten GaußKurven. In a nur als Wärmekarte, in b nur als Konturlinien gleicher Werte und in c als Kombination der ersten beiden
x eˆ zu Abb. 8.2 Bildliche Veranschaulichung von Vektorfeldern. In a ist das Vektorfeld A = |x| x sehen, während in b das Vektorfeld A = (−y/r , x/r ) aufgetragen ist
= (rr )
A = A (rr )
unterdrückt, wenn klar ist, welche Größen vom Raumpunkt abhängig sind. Abkürzend werden sowohl Skalar- als auch Vektorfelder oft einfach als Felder bezeichnet. Der entsprechende Zweig der Physik, der sich mit der Dynamik von Feldern beschäftigt, wird als Feldtheorie bezeichnet. Die Gesetze der Gravitation, der Elektrodynamik und der Quantenmechanik sind einige Beispiele für solche Feldtheorien. Das Standardmodell der Teilchenphysik selbst beruht auf der sogenannten Quantenfeldtheorie.
8.2
Ableitung von Feldern
Bereits in Kap. 5 wurde ein neuer Ableitungsbegriff eingeführt, um nach komplexen Zahlen ableiten zu können. Ebenso ist es nötig in der Vektoranalysis neue Ableitungsbegriffe einzu-
8.2
Ableitung von Feldern
465
führen. Im Besonderen ergeben sich dadurch die Ableitungsoperatoren Gradient, Rotation und Divergenz, die eingehend in Abschn. 8.5 untersucht werden. Um diese vollständig zu verstehen ist das Verständnis mehrdimensionaler Integrale, die in Abschn. 8.3 eingeführt werden, vonnöten. Aus diesem Grund soll hier zunächst die partielle Ableitung eingeführt werden. Als Erstes geschieht dies am Beispiel eines Skalarfeldes. Das Skalarfeld ist eine Funktion des Vektors r = (x, y, z), somit können Ableitungen in die jeweiligen Richtungen ∂ (x + , y, z) − (x, y, z) (x, y, z) ≡ lim →0 ∂x (x, y + , z) − (x, y, z) ∂ (x, y, z) ≡ lim →0 ∂y ∂ (x, y, z + ) − (x, y, z) (x, y, z) ≡ lim →0 ∂z betrachtet werden. Das Zeichen ∂ steht dabei für die partielle Ableitung, die angibt, dass die Funktion nur nach der angegebenen Variable abgeleitet wird, obwohl sie von mehreren Variablen abhängig ist. Da die Raumkoordinaten unabhängig voneinander sind, ergibt sich hier keine Zweideutigkeit. In der klassischen Physik, in der keine Felder, sondern Teilchen mit festen Positionen r (t) betrachtet werden, lassen sich Funktionen definieren, die sowohl von der Teilchenposition als auch vom betrachteten Zeitpunkt f (rr , t) abhängig sind. In solch einem Fall tragen die Ableitungen d dt und ∂ ∂t zwei maßgeblich unterschiedliche Bedeutungen. Die erste der beiden, die als totale Ableitung bezeichnet wird, berücksichtigt, dass die Teilchenpositionen auch von der Zeit abhängen, während die zweite der beiden nur explizite Zeitabhängigkeiten von f berücksichtigt. Der Zusammenhang zwischen den beiden ist durch ∂ f dxi ∂f df = + f˙ = dt ∂ xi dt ∂t 3
i=1
gegeben. Die totale Zeitableitung wird auch mit einem Punkt über der betreffenden Größe notiert.
466
8 Vektoranalysis
Die partielle Zeitableitung einer Funktion f (rr , t) = αrr + βt = αeˆ i xi + βt wäre dann durch ∂f =β ∂t gegeben, während die totale Zeitableitung durch ∂ f dxi df ∂f = + dt ∂ xi dt ∂t 3
i=1
=
3
αeˆ i x˙i + β = αr˙ + β
i=1
gegeben ist. Der für die Skalarfelder eingeführte Ableitungsbegriff lässt sich auch auf höhere Ableitungen erweitern. Dabei gibt es für die zweite Ableitung die Möglichkeit zweimal nach einer Koordinate mittels ∂ (x + , y, z) − ∂ ∂ ∂ ∂ x (x, y, z) = lim ∂ x →0 ∂x ∂x abzuleiten oder nach unterschiedlichen Koordinaten mittels ∂ ∂y
∂ ∂x
∂ →0 ∂ x (x,
=→
y + , z) −
∂ ∂ x (x,
y, z)
abzuleiten. Der Satz von Schwarz, der hier nicht bewiesen werden soll, sagt aus, dass bei einer Funktion, die hinreichend oft stetig differenzierbar ist, die Reihenfolge der partiellen Ableitungen vertauscht werden darf. Ist die Funktion also beispielsweise zweimal stetig differenzierbar, gilt ∂ ∂f ∂ ∂f = , ∂ y ∂x ∂x ∂ y während ∂ ∂ ∂f ∂ ∂ ∂f = ∂z ∂ y ∂ x ∂z ∂ x ∂ y nicht zwangsläufig gewährleistet ist. Da die meisten Funktionen in der Physik aber hinreichend oft stetig differenzierbar sind, können die partiellen Ableitungen in ihrer Reihenfolge beliebig getauscht werden. Die zweifache Ableitung wird in dieser Form auch als
8.2
Ableitung von Feldern
467
∂ ∂f ∂2 f ≡ ∂ x∂ y ∂x ∂ y geschrieben. Eine weitere Frage, die sich stellt, ist wie nun die Taylor-Entwicklung des Skalarfeldes (rr ) zu schreiben ist. Schon an der einfachen Beispielfunktion (rr ) = (ax − c)(by − d) = abx y − bcy − ad x + cd lässt sich erkennen, dass die Taylor-Entwicklung Produkte in x und y zulassen muss, die proportional zu den Produkten der jeweiligen Ableitungen sind. Der einfachste Ansatz 3 ∂ (rr0 + r ) ≈ (rr 0 )+ ∂r i=1
i r =rr 0
(rr − r 0 )i
3 1 ∂ 2 + (rr − r 0 )i (rr − r 0 ) j + · · · 2 ∂ri ∂r j r =rr 0
(8.2)
i, j=1
genügt um diese Kriterien zu erfüllen und die Taylor-Reihe einer Funktion in mehreren Variablen zu beschreiben. Der große Strich neben der Ableitung zeigt dabei an, dass die Ableitung an der Stelle r 0 auszuwerten ist. Da sich die Änderung eines Skalarfeldes so in erster Ordnung auch durch = (rr + rr ) − (rr ) 3 3 ∂ ∂ ri = (rr ) + (rr )i − (rr ) = ∂ri r ∂ri r i=1 i=1 ∂ ∂ ∂ = r1 + r2 + r3 ∂r1 r ∂r2 r ∂r3 r beschreiben lässt, wird für infinitesimal kleine Abstände rr = drr ein sogenanntes Differential des Skalarfeldes eingeführt. Dieses ist dann durch ∂ ∂ ∂ d ≡ dr1 + dr2 + dr3 ∂r1 r ∂r2 r ∂r3 r
(8.3)
definiert. Die genauen Details im Umgang mit solchen Differentialen werden in Abschn. 8.4 besprochen. Der eingeführte Ableitungsbegriff der partiellen Ableitung für Skalarfelder lässt sich auf ein Vektorfeld komponentenweise verallgemeinern, da ein Vektorfeld nur eine Tupel von Skalarfeldern ist. So ist beispielsweise die Ableitung ∂A ∂x
468
8 Vektoranalysis
durch ∂ Ai ∂A = eˆ i ∂x ∂x definiert. Damit lassen sich auch die Taylor-Entwicklung (8.2) und das Differential (8.3) für Vektorfelder zu 3 ∂ A A (rr0 + r ) ≈ A (rr 0 )+ ∂r i=1
i r =rr 0
(rr − r 0 )i
3 1 ∂ 2 A + (rr − r 0 )i (rr − r 0 ) j + · · · 2 ∂ri ∂r j r =rr 0
(8.4)
∂ A ∂ A ∂ A dr + dr + dr3 1 2 ∂r1 r ∂r2 r ∂r3 r
(8.5)
i, j=1
und A ≡ dA
verallgemeinern. Gelegentlich wird auch eine abkürzende Schreibweise eingeführt. Wird in einem orthogonalen Koordinatensystem nach einer Komponente abgeleitet, so wird diese Komponente als ein Index an das Ableitungssymbol ∂ geschrieben. Es ist also in Zylinderkoordinaten beispielsweise ∂s =
∂ ∂ ∂ , ∂φ = , ∂z = , ∂s ∂φ ∂z
während in Kugelkoordinaten ∂r =
∂ ∂ ∂ , ∂θ = , ∂φ = ∂r ∂θ ∂φ
ist. In kartesischen Koordinaten werden die Subskripte x, y und z durch die Zahlen 1, 2 und 3 ersetzt, womit sich ∂1 = ∂x , ∂2 = ∂ y , ∂3 = ∂z als Bezeichnung ergibt. Dies ermöglicht es auch im Falle von kartesischen Koordinaten in Indexschreibweise zu wechseln, die in Abschn. 2.4 eingeführt wurde.
8.3
Integrale von Feldern
Durch die Betrachtung eines höherdimensionalen Raums ergeben sich verschiedene Möglichkeiten ein Integral eines Feldes zu definieren. Zum einen hängt die Form des Integrals
8.3
Integrale von Feldern
469
von dem zu integrierenden Feld ab, also ob es sich um ein Skalar- oder ein Vektorfeld handelt, zum anderen hängt die Form des Integrals von der Dimensionalität des betrachteten Integrationsbereichs ab. So lassen sich Integrale entlang eines Weges (eine Dimension), über eine Fläche (zwei Dimensionen) oder ein Volumen (drei Dimensionen) definieren. Diese drei Möglichkeiten sollen im Folgenden untersucht werden.
8.3.1
Wegintegrale
Ein Wegintegral wird entlang eines Weges γ ausgeführt und führt von Punkt r 1 zu Punkt r 2 . Dafür wird wie in Abschn. 5.2 eine Parametrisierung des Weges γ benötigt. Da eine Linie ein eindimensionales Objekt eingebettet im dreidimensionalen Raum ist, gibt es nur einen Freiheitsgrad. Daher wird die Parametrisierung nur von einer Variablen abhängen. Dennoch verfügt ein Punkt auf dem Weg über eine zusätzliche Information; nämlich die Richtung, in die sich der Weg fortsetzt. Da diese Charakteristik eines Weges zu berücksichtigen ist, wird es notwendig sein, ein vektorielles Differential zu betrachten. Die Parametrisierung soll hier mitrr (t) bezeichnet werden. Diese Benennung der Parametrisierung rührt in der Physik daher, dass in der klassischen Mechanik oft ein Massenpunkt mit einer vorgegebenen Bahnkurve betrachtet wird. Diese Bahnkurve ist eine Funktion der Zeit. In der Elektrodynamik, wo Wegintegrale auch ganz unabhängig von der Bewegung einzelner Massenpunkte betrachtet werden, werden häufig andere Parametrisierungen vorgenommen, auf die weiter unten näher eingegangen wird. In der Mathematik ist auch die Bezeichnung γ (t) geläufig, wobei t aber oft nur Werte zwischen 0 und 1 oder 0 und 2π bei kreisförmigen Wegen durchläuft und nicht direkt mit der Zeit zusammenhängt. Die Parametrisierung spezifiziert aber nur, welche Werte für den Ortsvektor durchlaufen werden, daher soll hier die Parametrisierung mit dem gleichen Buchstaben wie der Ortsvektor bezeichnet werden. Es gibt auch Integrale, deren Werte von der Parametrisierung des Weges abhängen. Da diese durch die Angabe von r (t) klar sind, werden sie nicht zusätzlich notiert, jedoch gibt es in anderen Notationen das Vorgehen, den Weg γ unten an das Integralzeichen ˆ γ
zu schreiben, um zu verdeutlichen, dass über diesen Weg zu integrieren ist. Wie auch in Kap. 5 wird ein Integral über einen Weg, der denselben Anfangs- und Endpunkt hat, mit ˛ γ
notiert und als Kreisintegral bezeichnet. In der Physik sind relevante und häufig auftretende Wegintegrale Integrale über Vektorfelder und durch
470
8 Vektoranalysis
ˆr 2
ˆr 2 drr A (rr ) ≡
r1
ˆt2 drr · A (rr ) =
r1
t1
ˆt2 =
drr · A (rr ) = dt dt
dt
3
t1
ˆt2 dt r˙ (t) · A (rr ) t1
ri (t)Ai (t)
(8.6)
i=1
definiert. Dabei wird das Skalarprodukt aus der Geschwindigkeit und dem Vektorfeld gebildet. Anschaulich drückt der erste Term aus, dass die Feldlinien des Vektorfeldes auf die Tangentialvektoren des Weges projiziert werden. Daraus wird die Summe gebildet. Solche Integrale kommen ständig in der Physik vor, am bekanntesten dürften sie aber aus der klassischen Mechanik als Integral der Arbeit oder aus der klassischen Elektrodynamik sein. Als Beispiel für ein solches Wegintegral soll das Vektorfeld A (rr ) = −mgeˆ z mit zwei positiven Konstanten m und g über den Weg ⎞ R cos(ωt) r (t) = ⎝ R sin(ωt) ⎠ vz t ⎛
über dem Intervall t ∈ [0, T ] mit ωT = 2π betrachtet werden. Dieser Weg entspricht einer Schraubenbahn eines Körpers, der sich mit der Geschwindigkeit vz > 0 nach oben bewegt, während er mit ω > 0 eine gleichzeitige Kreisbewegung um die z-Achse gegen den Uhrzeigersinn vollführt. Die Ableitung r˙ ist dann durch ⎞ ⎛ −Rω sin(ωt) r˙ = ⎝ Rω cos(ωt) ⎠ vz gegeben. Da das Skalarprodukt mit dem Vektorfeld durch ⎞ ⎛ ⎞ ⎛ 0 −Rω sin(ωt) r˙ · A = ⎝ Rω cos(ωt) ⎠ · ⎝ 0 ⎠ = −mgvz −mg vz gegeben ist, lässt sich das Wegintegral zu
8.3
Integrale von Feldern
471
ˆr 2
ˆt2 dt r˙ · A
drr A (rr ) = r1
t1
ˆT dt (−mgvz ) = −mgvz T = −mg(z 2 − z 1 )
= 0
berechnen. Dabei wurde im letzten Schritt ausgenutzt, dass ⎞ ⎞ ⎛ 0 x2 − x1 r 2 − r 1 = ⎝ y2 − y1 ⎠ = ⎝ 0 ⎠ vz T z2 − z1 ⎛
gilt. Das Integral hängt in seiner physikalischen Interpretation mit der Arbeit zusammen, die der Körper auf seiner Schraubenbahn gegen das Gravitationsfeld in Erdnähe verrichtet. Gelegentlich gibt es auch Situationen, in denen ein Wegintegral über ein Skalarfeld (rr ) benötigt wird, welches durch ˆr 2
ˆt2 drr (rr ) =
r1
drr (rr (t)) = dt dt
t1
≡
3 i=1
ˆt2 dt r˙ (t)(rr (t)) t1
ˆt2 eˆ i
dt r˙i (t)(rr (t))
(8.7)
t1
definiert ist. Die Integration findet also komponentenweise statt, wobei das Skalarfeld mit der jeweiligen Komponente von r˙ multipliziert wird. Anschaulich werden die am Weg anliegenden Tangentialvektoren mit dem Wert des Skalarfeldes gestreckt und aufaddiert; das Ergebnis ist ein Vektor. Gewissermaßen wird hier eine gewichtete Summe der Tangentialvektoren mit den Werten des Skalarfeldes als Gewichten gebildet. Wegintegrale in kartesischen Koordinaten sowie Zylinder- und Kugelkoordinaten Um einen weiteren speziellen Aspekt der Wegintegrale, vor allem in unterschiedlichen Koordinatensystemen, zu betrachten, soll ein Weg in kartesischen Koordinaten betrachtet werden, der parallel zur x-Achse liegt. In einem solchen Fall lässt sich der Weg direkt über die x-Koordinate als r (x) = r 1 + (x − x1 )ˆe x parametrisieren. Da sich durch die parallele Bewegung zur x-Achse nur dieser Wert ändern wird, sind die y- und z-Komponente von r 1 und r 2 gleich. Die Klammer (x − x1 ) garantiert, dass für x = x2 wirklich der Vektor r 2 getroffen wird. In dieser Parametrisierung ist die Ableitung von r (x) durch
472
8 Vektoranalysis
drr = eˆ x dx gegeben. Aus diesem Grund lässt sich das Linienintegral eines Vektorfeldes als ˆr 2
ˆx2 drr · A =
r1
x1
dr A= dx dx
ˆx2 x1
⎛ ⎞ ⎛ ⎞ ˆx2 dx Ax ⎠ ⎝ ⎝ dx eˆ x A = 0 · Ay ⎠ 0 Az x1
schreiben. Dabei wurde im letzten Schritt etwas salopp das Differential in einen Vektor geschrieben. Damit wird aber eine Identifikation zwischen dem Differential drr und dem Vektor ⎛ ⎞ dx ⎝0⎠ 0 möglich. Da sich eine ähnliche Betrachtung auch für Wege parallel zur y- und z-Achse anstellen lässt, lassen sich ähnliche Identifikationen durchführen. Aus diesem Grund wird das Differential in kartesischen Koordinaten auch oft als ⎛ ⎞ dx (8.8) drr ≡ ⎝dy ⎠ dz angegeben, das dann als Linienelement bezeichnet wird. Dies sieht nun aus, als würde der Weg durch drei Freiheitsgrade parametrisiert werden, wobei er doch nur einen besaß. Doch wird ein Weg betrachtet, der parallel zur x-Achse ist, so werden einfach dy und dz auf null gesetzt, denn es findet ja keine Änderung in diesen Variablen statt. Auf diese Weise lässt sich bei einem günstigen Weg auch ohne umständliche Parametrisierung mit Gl. (8.8) das Wegintegral finden. Wichtig ist hierbei, dass der betrachtete Weg parallel zu einer der definierenden Achsen des betrachteten Koordinatensystems, hier den kartesischen Koordinaten, liegen muss. Das Linienelement (8.8) lässt sich dabei aber auch als drr = eˆ x dx + eˆ y dy + eˆ z dz =
3 i=1
eˆ i dri =
3 ∂rr dri ∂ri i=1
schreiben. Dies ist der Ausdruck für das Differential des Vektorfeldesrr (x, y, z) aus Gl. (8.5). Der Zusammenhang eˆ i =
∂rr ∂ri
8.3
Integrale von Feldern
473
rührt dabei aus obiger Herleitung des Elements in x-Richtung her. Soll dies auf andere Koordinaten verallgemeinert werden, die durch das Parametertupel (a, b, c) charakterisiert werden, so ergibt sich drr =
3 ∂rr dai ∂ai
(8.9)
i=1
als allgemeiner Ausdruck, worin a1 = a, a2 = b und a3 = c bezeichnen. Damit sollen nun die Linienelemente von Zylinder- und Kugelkoordinaten bestimmt werden. Für Zylinderkoordinaten (s, φ, z) war nach Abschn. 1.6.4 der Ortsvektor durch ⎞ s cos(φ) r = seˆ s + zeˆ z = ⎝ s sin(φ) ⎠ z ⎛
gegeben. Durch Einsetzen in Gl. (8.9) kann so ∂rr ∂rr ∂rr ds + dφ + dz ∂s ∂φ ∂z ⎛ ⎞ ⎞ ⎛ ⎞ ⎛ 0 −s sin(φ) cos(φ) = ⎝ sin(φ) ⎠ ds + ⎝ s cos(φ) ⎠ dφ + ⎝0⎠ dz 1 0 0
drr =
gefunden werden, was sich auf die Form drr = eˆ s ds + seˆ φ dφ + eˆ z dz
(8.10)
bringen lässt. Diese Form wird dann als Linienelement in Zylinderkoordinaten bezeichnet. Es ist angebracht, wenn ein Weg radial von der z-Achse wegweist, aber in einer Ebene parallel zur x y-Ebene liegt (ds ), ein kreisförmiger Weg um die z-Achse herum betrachtet wird (dφ ) oder ein Weg parallel zur z-Achse liegt (dz ). Der zweite Fall ist in der Elektrodynamik beispielsweise für Kreisströme von Bedeutung. Für Kugelkoordinaten (r , θ, φ) war nach Abschn. 1.6.4 der Ortsvektor durch ⎞ ⎛ r cos(φ) sin(θ ) r = r eˆ r = ⎝ r sin(φ) sin(θ) ⎠ r cos(θ) gegeben. Durch Einsetzen in Gl. (8.9) kann so ∂rr ∂rr ∂rr ds + dφ + dz ∂s ∂φ ∂z ⎛ ⎞ ⎞ ⎛ ⎞ ⎛ 0 −s sin(φ) cos(φ) = ⎝ sin(φ) ⎠ ds + ⎝ s cos(φ) ⎠ dφ + ⎝0⎠ dz 1 0 0
drr =
474
8 Vektoranalysis
gefunden werden, was sich auf die Form drr = eˆ r dr + r eˆ θ dθ + r sin(θ) eˆ φ dφ
(8.11)
bringen lässt. Diese Form wird dann als Linienelement in Kugelkoordinaten bezeichnet. Es ist angebracht, wenn ein Weg radial vom Ursprung nach außen weist (dr ), ein Weg auf einer Kugeloberfläche auf Längenkreisen verläuft (dθ ) oder wenn ein Weg auf einer Kugeloberfläche auf Breitenkreisen verläuft (dφ ). Im Fall der Zylinderkoordinaten war bereits deutlich, dass für dφ neben den Vektoren und den Differentialen ein zusätzlicher Faktor s benötigt wird. Aus einer dimensionalen Betrachtung lässt sich dies leicht darüber erklären, dass es sich bei φ um einen dimensionslosen Winkel handelt, während das Differential drr mit der Dimension einer Länge behaftet ist. Da durch dφ ein Kreisbogenstück beschrieben wird, muss das Wegelement proportional zum Radius des Kreises sein, der durch s bestimmt ist. Aus dem gleichen Grund taucht in Kugelkoordinaten vor den Differentialen dθ und dφ der Faktor r auf. Der zusätzliche Faktor sin(θ) vor dφ rührt daher, dass hier Wege auf Breitenkreise betrachtet werden, deren Radius von θ abhängig ist.
8.3.2
Flächenintegrale
Um das Integral über eine Oberfläche zu finden, muss auch zunächst für die Oberfläche eine geeignete Parametrisierung bestimmt werden. Eine Fläche ist ein zweidimensionales Objekt eingebettet im dreidimensionalen Raum, daher wird es 2 Freiheitsgrade und damit 2 Variablen geben, die im Folgenden mit a und b bezeichnet werden. Es könnte sich dabei beispielsweise um Winkel handeln, die die Richtung vom Ursprung zum betrachteten Flächenpunkt angeben. Die Parametrisierungrr (a, b) beschreibt dann Punkte auf der Oberfläche, indem sie ihre Vektoren angibt. Da sich Integrale nach wie vor als Grenzfälle einer Summe auffassen lassen, ist es sinnvoll ein kleines Flächenelement zu betrachten. Dieses Flächenelement soll Informationen über die Fläche in einer kleinen Umgebung um den Punkt r geben. Des Weiteren muss das Flächenelement eine Aussage darüber treffen, wie die Fläche im Raum orientiert ist. So ist es in der Physik beispielsweise von Interesse, ob Vektorfelder senkrecht oder parallel zu Oberflächen stehen. Daher wird das Flächenelement eine vektorielle Größe sein. Für ein Flächenelement findet sich oft die Bezeichnung d f , welche auch hier verwendet werden soll.4 Häufig wird die Fläche, über die zu integrieren ist, durch ein tiefgestelltes F am Integralzeichen 4 Seltener finden sich auch die Bezeichnungen d2r , um anzuzeigen, dass über einen zweidimensionalen Raum integriert wird, oder d2 S um anzuzeigen, dass über eine zweidimensionale Fläche, vom
A , wegen dem englischen „area“ Anwendung. englischen „surface“ integriert wird. Ebenso findet dA
8.3
Integrale von Feldern
475
¨ F
verdeutlicht. Es bedeutet in diesem Kontext: ein Integral über die Menge aller Punkterr (a, b). Das doppelte Integralzeichen rührt dabei daher, dass über 2 Freiheitsgrade a und b integriert werden muss. Es kann vorkommen, dass die betrachtete Fläche ein Volumen vollständig umschließt, wie beispielsweise eine Kugeloberfläche das Kugelvolumen umschließt. In einem solchen Fall wird von einer geschlossenen Oberfläche gesprochen, und das Integral wird durch ‹ F
kenntlich gemacht. Für ein allgemeines Flächenelement ist nun zu beachten, dass es zwei Richtungen gibt, in ∂rr die sich die Fläche unterschiedlich verändern kann. Der Vektor ∂a ist der erste Tangential∂rr vektor der Fläche am Punkt r (a, b) in a-Richtung, während ∂b der zweite Tangentialvektor ist und in die b-Richtung zeigt. Die beiden spannen ein Parallelogramm auf, dessen Flächeninhalt multipliziert mit da und db in erster Näherung den Flächeninhalt in der Umgebung von r angibt. Die einfachste Möglichkeit beide Informationen, den Flächeninhalt und die Orientierung aus den Tangentialvektoren zu bestimmen, ist das Kreuzprodukt zu bilden. Auf diese Weise entsteht ein Vektor, der senkrecht auf der Oberfläche steht, bis auf ein Vorzeichen also seine Orientierung angibt und eine Aussage über den Flächeninhalt trifft. Das Flächenelement ist somit durch ∂rr ∂rr df ≡ × da db (8.12) ∂a ∂b gegeben.5 In Indexschreibweise lässt sich Gl. (8.12) als d f i = i jk
∂r j ∂rk da db ∂a ∂b
(8.13)
darstellen. In der Physik ist vor allem ein Flächenintegral über ein Vektorfeld A interessant. Es ist durch
5 Eigentlich stehen die Differentiale auf der rechten Seite im Keilprodukt, das im Abschn. 8.3.4
eingeführt wird. Es garantiert, dass dem Flächenelement eine eindeutige Richtung zugewiesen wird, da unter Vertauschung von a und b sich mit der hier gegebenen Definition das Vorzeichen wegen des Kreuzprodukts ändern würde.
476
8 Vektoranalysis
¨
¨ F
d f A (rr ) ≡ ˆ =
ˆ
F
d f · A (rr ) =
da
ˆ db
da
3
ˆ
i jk
i, j,k=1
db
∂rr ∂rr × ∂a ∂b
· A (rr (a, b))
∂r j ∂rk Ai (rr (a, b)) ∂a ∂b
(8.14)
A , dass ein Skalarprodukt aus dem Flächenelement definiert. Dabei bedeutet das Produkt d f ·A und den Vektoren des Vektorfeldes gebildet wird. An Punkten, an denen das Vektorfeld senkrecht auf dem Oberflächenelement steht, gibt es somit keinen Beitrag zum Integral. Das bedeutet anschaulich, dass das Flächenintegral über ein Vektorfeld aufsummiert, wie viele Vektoranteile senkrecht durch die Oberfläche stoßen. Ist die Oberfläche geschlossen, so wird somit gezählt, wie viele Vektoren in das geschlossene Volumen ein- und austreten. Seltener wird ein Integral über ein Skalarfeld benötigt, das durch ¨ ˆ ˆ ∂rr ∂rr × (rr (a, b)) d f (rr ) ≡ da db ∂a ∂b F ˆ ˆ 3 ∂r j ∂rk db = (rr (a, b)) (8.15) eˆ i i jk da ∂a ∂b i, j,k=1
definiert ist. Es werden hierbei die Vektoren des Flächenelements mit den Werten des Skalarfeldes gewichtet aufsummiert. In beiden Fällen darf die Reihenfolge der Integrale beliebig vertauscht werden, sofern die Grenzen einer Variable nicht von einer anderen abhängig sind. In einem solchen Fall muss zuerst das Integral mit der abhängigen Grenze ausgeführt werden. Sind die Felder, aus denen der Integrand besteht, ˆ ˆ da db h(a, b) als Produkt trennbar, h(a, b) = f (a)g(b), so kann das Integral auch als Produkt aus zwei Integralen ˆ
ˆ
ˆ da
db f (a)g(b) =
ˆ da f (a)
db g(b)
geschrieben werden. Flächenintegrale in kartesischen Koordinaten sowie Zylinder- und Kugelkoordinaten Ähnlich wie bei Wegintegralen, lassen sich auch bei Flächenintegralen in kartesischen Koordinaten und Zylinder- sowie Kugelkoordinaten einige spezielle Flächenelemente herleiten.
8.3
Integrale von Feldern
477
Wird in kartesischen Koordinaten die x y-Ebene betrachtet, so sind die damit zusammenhängenden Vektoren durch ∂rr = eˆ x ∂x
∂rr = eˆ y ∂y
gegeben. Das Flächenelement wird dann durch d f xy =
∂rr ∂rr × dx dy = eˆ x × eˆ y dx dy = eˆ z dx dy ∂x ∂y
(8.16)
bestimmt. Das tiefgestellte x y soll dabei verdeutlichen, dass es sich um eine Fläche in der x y-Ebene handeln soll. Auf gleiche Weise werden d f yz = eˆ x dy dz
(8.17)
d f zx = eˆ y dz dx
(8.18)
und
gefunden. Der Einsatz dieser Flächenelemente ist dann angebracht, wenn eine rechteckige Fläche parallel zu der x y-, yz- und zx-Ebene betrachtet wird. In der Elektrodynamik finden sie zum Beispiel Anwendung, wenn das elektrische Feld einer unendlich ausgedehnten geladenen Platte bestimmt wird. Für Zylinderkoordinaten lassen sich wegen der Ableitungen ∂rr = eˆ s ∂s
∂rr = seˆ φ ∂φ
∂rr = eˆ z ∂z
die Flächenelemente d f sφ =
∂rr ∂rr × ds dφ = eˆ z s ds dφ , ∂s ∂φ
(8.19)
d f φz =
∂rr ∂rr × dφ dz = eˆ s s dφ dz ∂φ ∂z
(8.20)
∂rr ∂rr × dz ds = eˆ φ dz ds ∂z ∂s
(8.21)
und d f zs =
finden. Das Flächenelement (8.19) ist angebracht, wenn eine kreisrunde Fläche, die parallel zur x y-Ebene liegt, betrachtet wird. Anschaulich handelt es sich um die Kappen eines Zylinders mit der z-Achse als Symmetrieachse. Das Flächenelement (8.20) ist angebracht, wenn eine gekrümmte Fläche betrachtet wird, die sich kreisförmig mit dem Radius s um die z-Achse biegt und parallel zur z-Achse verläuft.
478
8 Vektoranalysis
Anschaulich handelt es sich um ein Stück der Mantelfläche eines Zylinders mit der z-Achse als Symmetrieachse. Das Flächenelement (8.21) ist angebracht, wenn eine Fläche in einer Ebene betrachtet wird, die zwar die z-Achse enthält, aber weder parallel zur x- noch zur y-Achse ist. φ ist dann der Winkel, den die Fläche mit der zx-Ebene einschließt. Für Kugelkoordinaten lassen sich wegen der Ableitungen ∂rr = eˆ r ∂r
∂rr = r eˆ θ ∂θ
∂rr = r sin(θ) eˆ φ ∂φ
die Flächenelemente ∂rr ∂rr × dr dθ = eˆ φ r dr dθ , ∂r ∂θ
(8.22)
d f θφ =
∂rr ∂rr × dθ dφ = eˆ r r 2 sin(θ ) dθ dφ ∂θ ∂φ
(8.23)
d f φr =
∂rr ∂rr × dφ dr = eˆ θ r sin(θ) dφ dr ∂φ ∂r
(8.24)
d f rθ =
und
finden. Das Flächenelement (8.22) ist angebracht, wenn ein Kreissegment betrachtet wird, das in einer Ebene liegt, die die z-Achse enthält und mit der zx-Ebene den Winkel φ einschließt. Das Flächenelement (8.23) ist angebracht, wenn eine gekrümmte Fläche betrachtet wird, die sich kugelförmig mit dem Radius r um den Ursprung legt. Anschaulich handelt es sich um ein Stück der Kugeloberfläche. Es ist das am häufigsten gebrauchte Flächenelement in Kugelkoordinaten. Das Flächenelement (8.24) ist angebracht, wenn ein Kegel betrachtet wird, dessen Spitze im Ursprung liegt. Ist θ < π/2, so entspricht θ dem halben Öffnungswinkel des nach oben geöffneten Kegels. Das Flächenelement zeigt nach außen. Für θ > π/2 beschreibt π − θ den halben Öffnungswinkel des nach unten geöffneten Kegels. Das Flächenelement zeigt zum Inneren des Kegels. Im Falle θ = π/2 reduziert sich das Flächenelement auf − d f sφ aus den Zylinderkoordinaten und beschreibt einen Kreis in der x y-Ebene. Einige Beispiele Es sollen einige Beispiele betrachtet werden. Einige davon bestimmen die Oberfläche geometrischer Körper wie Zylinder und Kugel, während sich aus einem weiteren das berühmte Gauß’sche Integral ˆ∞ −∞
dx e−ax = 2
π a
8.3
Integrale von Feldern
479
bestimmen lässt. Außerdem soll auf abhängige Integralgrenzen eingegangen werden. • Mantelfläche des Zylinders Um eine gegebene Oberfläche aus dem Differential d f zu bestimmen, muss mit dem momentanen Normalenvektor multipliziert werden. Das Oberflächenelement für die Manteloberfläche eines Zylinders war durch Gl. (8.20) d f φz = eˆ s s dφ dz gegeben. Der Einheitsvektor in Richtung der Fläche ist mit eˆ s bestimmt. Um den gesamten Mantel eines Zylinders mit Höhe h einzuschließen, müssen die Grenzen φ ∈ [0, 2π ) und z ∈ [−h/2, h/2] gewählt werden. Damit lässt sich mittels ˆ2π
¨ M=
d f φz · eˆ s =
F
ˆh/2
ˆ2π dz seˆ s · eˆ s =
dφ −h/2
0
ˆh/2 dφ
0
dz s −h/2
⎞ ⎛ 2π ⎞ ⎛ h/2
ˆ ˆ h h ⎜ ⎟ + = 2π s · h = s ⎝ dφ ⎠ ⎝ dz ⎠ = s · (2π ) · 2 2 −h/2
0
die Mantelfläche des Zylinders bestimmen. Diese entspricht dabei der Schulformel „Umfang mal Höhe“. Eine wichtige Notiz ist hier, dass die Integrale in der zweiten Zeile separiert betrachtet werden konnten, da sie nicht voneinander abhängig waren. • Kugeloberfläche Für die Kugeloberfläche wird das Flächenelement d f θφ = eˆ r r 2 sin(θ) dθ dφ aus Gl. (8.23) benötigt. Die Variablen φ und θ durchlaufen dabei das Intervall [0, 2π ) und [0, π ]. Das zu betrachtende Vektorfeld ist dann A = eˆ r , und es ergibt sich ˆπ
‹ A=
F
d f θφ · eˆ r =
⎛ = r2 ⎝
ˆ2π
0
ˆπ 0
dφ r 2 sin(θ )
dθ 0
⎞ ⎛ 2π ⎞ ⎞ ⎛ 1 ˆ ˆ dθ sin(θ)⎠ ⎝ dφ ⎠ = r 2 ⎝ dcos(θ) ⎠ 2π 0
−1
= 4πr 2 als Kugeloberfläche. Diese Formel ist bereits aus der Schule bekannt. Für das Integral über θ wurde dabei eine Substitution durchgeführt, sodass über cos(θ) integriert wird. Dies ist ein häufig verwendeter Trick, um Integrale über θ auszuwerten.
480
8 Vektoranalysis
• Kegeloberfläche Für die Oberfläche eines Kegels können Kugelkoordinaten verwendet werden. Es bietet sich an dann das Flächenelement d f φr =
∂rr ∂rr × dφ dr = eˆ θ r sin(θ) dφ dr ∂φ ∂r
aus Gl. (8.24) mit dem Vektorfeld eˆ θ zu verwenden. Zur Anschauung soll θ < π/2 sein, um einen nach oben geöffneten Kegel zu erzeugen. Die diagonale Strecke, die vom Ursprung aus zur Kegelkante läuft, wird von r überstrichen und soll die Länge s haben. Der Kegel soll als Grundfläche einen Kreis mit Radius R aufweisen. Der Winkel θ lässt sich wegen des rechtwinkligen Dreiecks aus s und R durch sin(θ) =
R s
bestimmen. Damit lässt sich die Mantelfläche durch ˆ2π
¨ M=
F
d f φr · eˆ θ =
ˆs dr r sin(θ )
dφ 0
0
⎛ 2π ⎞⎛ s ⎞ ˆ ˆ s2 = sin(θ) ⎝ dφ ⎠ ⎝ dr r ⎠ = sin(θ) 2π 2 0
0
R = π s 2 = π Rs s berechnen. • Integral einer zweidimensionalen Gauß-Kurve Es soll das Integral über das Vektorfeld A (rr ) = eˆ z exp −a(x 2 + y 2 ) in der x y-Ebene betrachtet werden. In kartesischen Koordinaten lässt sich dieses Integral daher als ˆ∞
¨ I =
R2
d f xy · A =
ˆ∞ dx
−∞
dy exp −a(x 2 + y 2 )
−∞
schreiben. Die Bezeichnung R2 als Bezeichnung der Fläche soll dabei klar machen, dass über die gesamte Ebene integriert wird, weshalb auch die Integralgrenzen im Unendlichen liegen. Da sich der Integrand wegen exp −a(x 2 + y 2 ) = exp −ax 2 exp −ay 2
8.3
Integrale von Feldern
481
auseinanderziehen lässt, lassen sich auch die Integrale zu ⎛ ∞ ⎞ ⎛ ∞ ⎞ ˆ ˆ I =⎝ dx exp −ax 2 ⎠ · ⎝ dy exp −ay 2 ⎠ −∞
−∞
trennen. Beide Integrale ergeben denselben Wert, und da die Benennung der Integrationsvariable nach den Erkenntnissen aus Abschn. 1.4 willkürlich ist, kann dieses Integral auch als ⎛ ∞ ⎞2 ˆ I =⎝ dx exp −ax 2 ⎠ −∞
geschrieben werden. Wenn nun also das Integral I auf andere Weise bestimmt werden kann, liefert seine Wurzel eine Aussage über das Gauß’sche Integral. Zu diesem Zweck wird das Integral in Zylinderkoordinaten betrachtet. Dort ist die Kombination x 2 + y2 mit dem Quadrat des Abstands s, also s 2 zu ersetzen. Das zu verwendende Flächenelement ist in diesem Fall d f sφ , wobei s von null bis unendlich geht und φ dem Intervall [0, 2π ) entstammt. Damit wird die gesamte x y-Ebene abgedeckt, und das Integral kann durch ˆ∞
¨ I =
R2
d f sφ · A =
ˆ2π ds
0
dφ s exp −as 2
0
⎛ ⎞⎛ ∞ ⎞ ⎛ 2π ⎞ ˆ ˆ ˆ∞ 1 du exp(−u)⎠ = ⎝ dφ ⎠ ⎝ ds s exp −as 2 ⎠ = 2π · ⎝ 2a 0
0
0
∞ π π = − exp(−u) 0 = a a
bestimmt werden. Dabei wurde die Substitution as 2 = u durchgeführt, was auf du = 2as ds ⇒ s ds =
1 2a
führt. Da nun das Integral bekannt ist, lässt sich aus ⎛ ∞ ⎞ ˆ √ ⎝ dx exp −ax 2 ⎠ = I −∞
die bekannte Formel
482
8 Vektoranalysis
ˆ∞
dx e−ax =
π a
2
−∞
(8.25)
für das Gauß’sche Integral herleiten. • Fläche eines Kreises in kartesischen Koordinaten In kartesischen Koordinaten wird ein Kreis durch x 2 + y2 = R2 begrenzt. Um die Fläche des Kreises in kartesischen Koordinaten zu finden, kann die Fläche durch x und y parametrisiert werden. x soll als erste Variable die Werte [−R, R] durchlaufen können. Da durch die Wahl von y dann der Kreis begrenzt wird, stammen die Werte von y für ein gegebenes x aus dem Intervall − R2 − x 2, R2 − x 2 , was bereits anzeigt, dass die Integralgrenzen voneinander abhängig sind. In diesem Fall ist das Flächenintegral durch √
ˆR
¨ d f x y eˆ z =
A= S
R ˆ2 −x 2
dx
dy √
−R
− R 2 −x 2
gegeben. Dabei können die Integrale nicht getauscht werden. Das letzte Integral lässt sich recht einfach durch √
R ˆ2 −x 2
dy = 2 R 2 − x 2
√ − R 2 −x 2
bestimmen. Die Stammfunktion von
R2 − x 2 = R 1 −
x2 R2
ist aufgrund von ˆ dx
1 − x2 =
1 Arcsin(x) + x 1 − x 2 2
aus Tab. 1.4 und der Substitutionsregel ˆ F(ax) dx f (ax) = a
8.3
Integrale von Feldern
483
mit ˆ dx
⎛ ⎞ x x 2 2 R x ⎝Arcsin + R2 − x 2 = 1− 2⎠ 2 R R R =
x x R2 Arcsin + R2 − x 2 2 R 2
zu bestimmen. Damit lässt sich die Fläche aus ˆR A=
dx 2
R x x R2 2 2 Arcsin + =2 R −x 2 R 2 −R
R2
−R 2
−
x2
= R [Arcsin(1) − Arcsin(−1)] = R 2 [π/2 + π/2] = π R2 bestimmen. Dabei wurde verwendet, dass der Wert des Arkussinus durch Arcsin(±1) = ±π/2 gegeben ist. Es ergibt sich so die aus der Schule bekannte Formel für die Fläche. Darüber hinaus bietet es ein einfaches Beispiel, wie zu verfahren ist, wenn die Grenzen eines Integrals von einer weiteren Integrationsvariable abhängig sind.
8.3.3
Volumenintegrale
Mit den Erkenntnissen über Linien- und Flächenintegrale ist klar, dass es einer Parametrisierung der Volumina bedarf. Da ein Volumen in drei Dimensionen keine Richtung aufweist, handelt es sich bei dem Volumenelement um eine skalare Größe, die häufig mit dV bezeichnet wird. Eine zweite Bezeichnung, die auch hier verwendet werden soll, wenn es sinnvoll erscheint, ist d3r . Hierbei wird durch die hochgestellte Drei klar, dass es sich um ein Volumenintegral handelt. Der Vorteil in diesem Ausdruck liegt darin, die Integrationsvariable explizit anzugeben. Auf der Negativseite steht hingegen, dass der skalare Charakter des Volumenelements verschleiert wird. Das Integral über ein Volumen wird typischerweise durch ein tiefgestelltes V am Integralzeichen ˚ V
kenntlich gemacht. Die kalligrafische Form von V wird dabei gewählt um keine Verwechslung mit dem Volumenelement zu erzeugen. Das dreifache Integralzeichen rührt wieder daher, dass über drei Freiheitsgrade integriert wird.
484
8 Vektoranalysis
Das Volumen ist dreidimensional und besitzt deshalb drei Freiheitsgrade r (a, b, c). Zwei dieser Variablen können dazu verwendet werden um parallele Flächen unterschiedlicher Größe zu charakterisieren. Die dritte Variable charakterisiert dann die radiale Richtung. Es muss dann entlang einer radialen Linie integriert werden, dazu muss mit dem obigen Flächenelement ein Spatprodukt gebildet werden. Das Spatprodukt gibt anschaulich das r ∂rr ∂rr Volumen des von den Vektoren ∂a , ∂b und ∂r ∂c aufgespannten Parallelepipeds an. Damit ist ein Volumenelement mit der Parametrisierung r (a, b, c) durch ∂x ∂x ∂x ∂a ∂b ∂c ∂rr ∂rr ∂rr dV = · × dc da db = ∂∂ay ∂∂by ∂∂cy da db dc (8.26) ∂z ∂z ∂z ∂c ∂a ∂b ∂a ∂b ∂c gegeben, wobei der Zusammenhang im letzten Schritt durch die Determinante einer Matrix ausgedrückt wurde, mit der der zyklische Charakter, der sich in Komponentenschreibweise6 durch dV = i jk
∂rr ∂rr ∂rr da db dc ∂ai ∂a j ∂ak
(8.27)
äußert, hervorgehoben wird. Ein Integral über ein Skalarfeld (rr ), das in der Physik häufiger angetroffen wird, wird dann durch ˚ ˆ ˆ ˆ ∂rr ∂rr ∂rr r × (rr (a, b, c)) dV (r ) ≡ da db dc ∂a ∂b ∂c V ˆ ˆ ˆ ∂rr ∂rr ∂rr (rr (a, b, c)) (8.28) = da db dc i jk ∂ai ∂a j ∂ak definiert. Anschaulich werden durch das Volumenintegral eines Skalarfeldes alle Werte innerhalb des Volumens aufaddiert. Im einfachsten Fall einer Parametrisierung durch kartesische Koordinaten (a, b, c) = (x, y, z) reduziert sich dieser Ausdruck zu ˚ ˆ ˆ ˆ dV (rr ) = dx dy dz (x, y, z), V
was auch häufig als Definition des Volumenintegrals verwendet wird. Darin wurde verwendet, dass ∂r = eˆ x ∂x
∂r = eˆ y ∂y
∂r = eˆ z ∂z
6 a beschriebt dabei die i-te Komponente des Tupels a = (a, b, c). i
8.3
Integrale von Feldern
485
und eˆ x · (ˆe y × eˆ z ) = 1 gelten. Das Volumenelement lässt sich in kartesischen Koordinaten daher durch dV = dx dy dz
(8.29)
ausdrücken. Zwei weitere wichtige Spezialfälle sind die Zylinder- und die Kugelkoordinaten. Durch die Betrachtungen aus Abschn. 8.3.2 lässt sich schnell zeigen, dass das Volumenelement in Zylinderkoordinaten durch ∂rr ∂rr ∂rr dV = × ds dφ dz = eˆ s ds d f φz ∂s ∂φ ∂z = s ds dφ dz
(8.30)
gegeben ist, während es im Fall von Kugelkoordinaten durch ∂rr ∂rr ∂rr × dr dθ dφ = eˆ r dr d f θφ dV = ∂r ∂θ ∂φ = r 2 sin(θ) dr dθ dφ
(8.31)
bestimmt ist. Für ein Vektorfeld A (rr ) gilt ˚ ˆ ˆ ˆ ∂rr ∂rr ∂rr × A (rr (a, b, c)) dV A (rr ) ≡ da db dc ∂a ∂b ∂c V ˆ ˆ ˆ ∂rr ∂rr ∂rr A (rr (a, b, c)) = da db dc i jk ∂ai ∂a j ∂ak
(8.32)
als Definition eines Volumenintegrals. Das Ergebnis ist ein Vektor, denn es werden alle Vektoren des Feldes innerhalb des Volumens aufaddiert. Für die kartesischen Koordinaten, die Zylinder- und Kugelkoordinaten, lässt sich dies, wie das Integral des Skalarfeldes, auf ˚
ˆ V
dV A (rr ) =
dx ˆ
= = reduzieren.
ˆ
ˆ
ˆ ds
ˆ
ˆ dφ
ˆ dr
dz A (x, y, z)
dy
ˆ dθ
dz s A (s, φ, z) dφ r 2 sin(θ ) A (r , θ, φ)
486
8 Vektoranalysis
Einige Beispiele Als Beispiele sollen die Volumen zweier geometrischer Körper betrachtet werden. • Volumen eines Zylinders Es soll ein Zylinder betrachtet werden, der eine Höhe von h und einen Radius R besitzt. Die Variablen s, φ und z durchlaufen dann die Intervalle [0, R], [0, 2π ) und [−h/2, h/2]. Das Volumen kann bestimmt werden, indem das Skalarfeld (rr ) = 1 betrachtet wird, da es in der Summe über alle Punkte jeden Punkt gleich gewichtet. Das Volumen lässt sich so zu ˆR
˚ V =
V
⎛ =⎝
ˆR
dV =
ds 0
=
2
ˆh/2 dφ
dz s −h/2
0
⎞ ⎞ ⎛ 2π ⎞ ⎛ h/2 ˆ ˆ ⎜ ⎟ ds s ⎠ ⎝ dφ ⎠ ⎝ dz ⎠
0
R2
ˆ2π
−h/2
0
· 2π · h = π R 2 · h
bestimmen. Dies entspricht der Schulformel „Grundfläche mal Höhe“. • Volumen einer Vollkugel Es soll eine Kugel betrachtet werden, die einen Radius R besitzt. Die Variablen r , θ und φ durchlaufen dann die Intervalle [0, R], [0, π ] und [0, 2π ). Das Volumen lässt sich so zu ˆR
˚ V =
V
dV =
ˆπ dr
0
ˆ2π dφ r 2 sin(θ )
dθ 0
0
⎛ R ⎞ ⎛ 2π ⎞ ⎞⎛ π ˆ ˆ ˆ = ⎝ dr r 2 ⎠ ⎝ dθ sin(θ )⎠ ⎝ dφ ⎠ 0
=
⎛
R3 ⎝ · 3
0
ˆ1
−1
⎞
0
R3 · 2 · 2π dcos(θ) ⎠ · 2π = 3
4 = π R3 3 bestimmen.
8.3.4
Das Keilprodukt
Es soll hier eine weitere Möglichkeit besprochen werden, um die Linien-, Flächen- und Volumenelemente in beliebigen Koordinaten zu finden. Dafür wird das sogenannte Keilpro-
8.3
Integrale von Feldern
487
dukt eingeführt, das in der Mathematik auch als Graßmann-Produkt bezeichnet wird.7 Das Keilprodukt zwischen zwei Differentialen wird durch ∧ dargestellt und ist antisymmetrisch, wodurch es die Eigenschaft dx ∧ dy = − dy ∧ dx
(8.33)
erfüllt. Differentiale sind also nicht kommutativ bezüglich der Multiplikation, sondern erhalten beim Vertauschen, außerhalb von Integralen ein zusätzliches Minuszeichen. Dies kann auch geometrisch verstanden werden: Wird ein Linienintegral über ein Rechteck betrachtet, dann wird bezüglich x und y integriert. Würde das Rechteck aus lauter rechteckigen Schleifen unterschiedlicher Größen bestehen, so könnte das Integral aufgebaut werden aus Schleifen, die gegen den Uhrzeigersinn oder im Uhrzeigersinn umlaufen werden. Der Umlaufsinn ändert das Vorzeichen, wie schon im Kap. 5 klar wurde. Nun kann das Differential dy ∧ dx aufgefasst werden als zunächst dem Rechteck nach rechts, entlang der x-Achse zu folgen und dann dem Rechteck nach oben, entlang der yAchse zu folgen. Dies entspricht einer Bewegung gegen den Uhrzeigersinn. Das Differential dx ∧ dy entspricht hingegen zunächst dem Folgen des Rechtecks nach oben und dann der Bewegung nach rechts, also eine Bewegung im Uhrzeigersinn, daher das geänderte Vorzeichen. Allein aus der Antisymmetrie Gl. (8.33), aber auch aus dieser geometrischen Betrachtung lässt sich so schnell der Zusammenhang dx ∧ dx = 0
(8.34)
ableiten. Aus diesem Grund wird das Keilprodukt auch als nilpotent bezeichnet. Ein ähnlicher Zusammenhang gilt auch für das Kreuzprodukt zwischen zwei Vektoren. In der geometrischen Interpretation entspricht dies einem Folgen der x-Achse und einem rückwärts Ablaufen derselbigen; das Integral wird dadurch null. Im Dreidimensionalen hängt das Berücksichtigen des Keilprodukts mit der Rechtshändigkeit der physikalischen Koordinatensysteme zusammen. Die Differentiale müssen also immer auf eine Reihenfolge getauscht werden, in der die entsprechenden Einheitsvektoren ein Rechtssystem bilden. Das Keilprodukt beliebig vieler Differentiale lässt sich aufgrund der Antisymmetrie mit dem verallgemeinerten Levi-Civita-Symbol aus Gl. (7.43) als 7 In der Mathematik wird diese Einführung oft wesentlich rigoroser durchgeführt und hängt vor allem
damit zusammen, wie Differentiale als mathematische Objekte aufgefasst werden können. Hier soll das Keilprodukt vorrangig dazu verwendet werden, um, neben der Motivation, ein anderes Verständnis für das Auftauchen der Jacobi-Matrix in Abschn. (8.3.5) zu finden. Es ist allerdings auch interessant um die geometrische Algebra zu verstehen, die als Basiselemente des dreidimensionalen Raums nicht nur die drei Basisvektoren, sondern das Skalar, das eine Zahl ist, die drei Basisvektoren, die die Linienelemente sind, die drei Pseudovektoren, die die Flächenelemente sind, und das Pseudoskalar, das das Volumenelement ist, betrachtet.
488
8 Vektoranalysis
dxi1 ∧ · · · ∧ dxin = i1 ...in dx1 · · · dxn
(8.35)
ausdrücken. Mit diesem Ausdruck fällt es in Abschn. (8.3.5) leichter, den Übergang in beliebige Koordinatensysteme zu verstehen. Werden Integrale gebildet, entfallen die Symbole ∧, und die Integrale dürfen, falls es die Grenzen zulassen, vertauscht werden. Das Keilprodukt bietet nur eine Hilfe für den Umgang mit Differentialen außerhalb von Integralen. Anwendungsbeispiele Es sollen noch zwei Beispiele betrachtet werden, um mit dem Umgang des Keilprodukts vertraut zu werden. Dabei handelt es sich um Zylinder- und Kugelkoordinaten, deren Volumenelemente aus Abschn. (8.3.3) bereits bekannt sind. • Zylinderkoordinaten In Zylinderkoordinaten sind die Komponenten des Ortsvektors durch x = s cos(φ)
y = s sin(φ)
z=z
gegeben. Die rechtshändige Reihenfolge der Koordinaten ist dabei a = (s, φ, z). Für jedes der Skalarfelder x(s, φ, z), y(s, φ, z) und z(s, φ, z) lässt sich dann gemäß Gl. (8.3) das Differential über dri =
3 ∂ri da j ∂a j j=1
zu dx = cos(φ) ds − s sin(φ) dφ dy = sin(φ) ds + s cos(φ) dφ dz = dz
bestimmen. Damit ist das Keilprodukt aus dx und dy durch dx ∧ dy = cos(φ) (sin(φ) ds ∧ ds + s cos(φ) ds ∧ dφ ) − s sin(φ) (sin(φ) dφ ∧ ds + s cos(φ) dφ ∧ dφ ) = s cos2 (φ) ds ∧ dφ + s sin2 (φ) ds ∧ dφ = s ds ∧ dφ gegeben. Im ersten Schritt wurden die Differentiale unter Beachtung der Reihenfolge ausmultipliziert. Im zweiten Schritt wurden die Terme der Art da ∧ da ausgelassen und für den zweiten Term die Antisymmetrie des Keilprodukts ausgenutzt. Mit dem
8.3
Integrale von Feldern
489
Differential für z ergeben sich dann das Volumenelement dx ∧ dy ∧ dz = s ds ∧ dφ ∧ dz in Zylinderkoordinaten und damit das bekannte Volumenintegral ˚ V
ˆ dV (rr ) =
ˆ ds
ˆ dφ
dz s(s, φ, z)
aus Abschn. (8.3.3). • Kugelkoordinaten In Kugelkoordinaten sind die Komponenten des Ortsvektors durch x = r cos(φ) sin(θ)
y = r sin(φ) sin(θ )
z = r cos(θ )
gegeben. Die rechtshändige Reihenfolge der Koordinaten ist a = (r , θ, φ). Die entsprechenden Differentiale sind dann nach Gl. (8.3) zu dx = cos(φ) sin(θ) dr + r cos(φ) cos(θ ) dθ − sin(φ) sin(θ) dφ dy = sin(φ) sin(θ) dr + r sin(φ) cos(θ) dθ + cos(φ) sin(θ ) dφ dz = cos(θ) dr − r sin(θ) dθ zu bestimmen. Damit kann das Keilprodukt von dx und dy zu dx ∧ dy = cos(φ) sin(θ) (r sin(φ) cos(θ) dr ∧ dθ + r cos(φ) sin(θ ) dr ∧ dφ ) + r cos(φ) cos(θ) (sin(φ) sin(θ) dθ ∧ dr + r cos(φ) sin(θ ) dθ ∧ dφ ) − r sin(φ) sin(θ) (sin(φ) sin(θ) dφ ∧ dr + r sin(φ) cos(θ ) dφ ∧ dθ ) = r sin(φ) cos(θ) cos(φ) sin(θ ) dr ∧ dθ + r cos2 (φ) sin2 (θ) dr ∧ dφ + r sin(φ) cos(θ) cos(φ) sin(θ ) dθ ∧ dr + r 2 cos2 (φ) sin(θ) cos(θ ) dθ ∧ dφ − r sin2 (φ) sin2 (θ) dφ ∧ dr − r 2 sin2 (φ) cos(θ ) sin(θ) dφ ∧ dθ = −r sin2 (θ) dφ ∧ dr + r 2 sin(θ) cos(θ ) dθ ∧ dφ bestimmt werden. Im ersten Schritt wurden dabei unter Beachtung der Reihenfolge die obigen Terme ausmultipliziert, Terme der Art da ∧ da wurden direkt ausgelassen. Im zweiten Schritt wurden die Terme nur weiter ausmultipliziert. Im dritten Schritt wurden dann Terme mit da ∧ db = − db ∧ da und cos2 (x) + sin2 (x) = 1 zusammengefasst und gleich auf die rechtshändige Reihenfolge gebracht. Nun lässt sich das Produkt aller drei Differentiale zu
490
8 Vektoranalysis
dx ∧ dy ∧ dz = −r sin2 (θ) (cos(θ) dφ ∧ dr ∧ dr − r sin(θ ) dφ ∧ dr ∧ dθ )× r 2 sin(θ) cos(θ ) (cos(θ) dθ ∧ dφ ∧ dr − r sin(θ ) dθ ∧ dφ ∧ dθ ) = r 2 sin2 (θ) sin(θ) dφ ∧ dr ∧ dθ + r 2 cos2 (θ) sin(θ) dθ ∧ dφ ∧ dr = r 2 sin2 (θ) sin(θ) dr ∧ dθ ∧ dφ + r 2 cos2 (θ) sin(θ) dr ∧ dθ ∧ dφ = r 2 sin(θ) dr ∧ dθ ∧ dφ bestimmen. Im ersten Schritt wurden dabei wieder die Differentiale unter Beachtung der Reihenfolge ausmultipliziert. Danach wurden Terme der Form da ∧da = 0 ausgelassen. Durch eine gerade Anzahl an Vertauschungen der Differentiale kann die Reihenfolge zyklisch geändert werden, ohne das Vorzeichen zu ändern. Im letzten Schritt wurden die Terme dann addiert, und es ergibt sich so das Volumenelement in Kugelkoordinaten ˚ ˆ ˆ ˆ dV (rr ) = dr dθ dφ r 2 sin(θ ) (r , θ, φ), V
welches schon aus Abschn. (8.3.3) bekannt ist.
8.3.5
Krummlinige Koordinatensysteme und die Jacobi-Matrix
Mit der Definition des Volumenelements (8.26) aus Abschn. 8.3.3 ist bereits klar, wie das Volumenintegral in einem beliebigen Koordinatensystem aussieht. In diesem Abschnitt soll eine weitere Methode vorgestellt werden, um auf dasselbe Ergebnis zu kommen. Eine essenzielle Bedeutung kommt hierbei dem Wechsel zwischen zwei Koordinatensystemen zu. In einem weiter gefassten Sinne kann der so eingeführte Formalismus auch dazu verwendet werden, um Integrale im Rahmen der allgemeinen Relativitätstheorie zu bestimmen. In einem zweiten Teil des Abschnitts soll noch darauf eingegangen werden, wie sich diese Methode auf die Bestimmung von Wegelementen in unterschiedlichen Koordinatensystemen auswirkt. Volumenelemente In einem Volumenintegral steht in kartesischen Koordinaten das Differential dx dy dz . Dieses soll jetzt durch eine Koordinatentransformation überführt werden in ein Differential da db dc . Dies könnte zum Beispiel der Wechsel von kartesischen in Zylinder- oder Kugelkoordinaten sein.8 Dazu werden die Tupel (x, y, z) und (a, b, c) als Vektoren r und a aufgefasst und die jeweiligen Differentiale als d(x, y, z) und d(a, b, c) bezeichnet. Nach naivem Einsetzen in die Substitutionsregel ergibt sich so 8 In einem physikalischen Kontext wäre auch der Wechsel zwischen zwei Bezugssystemen möglich.
8.3
Integrale von Feldern
491
˚
˚ V
d(x, y, z) =
V
d(a, b, c)
∂(x, y, z) ∂(a, b, c)
als Volumenintegral im neuen Koordinatensystem. Es stellt sich die Frage, um was für ein Objekt es sich bei ∂(x,y,z) ∂(a,b,c) handelt. Da die Tupel als Vektoren aufgefasst wurden und jede Komponente der kartesischen Koordinaten nach jeder Komponente der neuen Koordinaten abgeleitet werden muss, ergeben sich 3 · 3 Ausdrücke, die in der Form einer 3 × 3-Matrix angeordnet werden können. Der Zeilenindex ist durch die kartesischen Koordinaten r gegeben. Der Spaltenindex ist durch die neuen Koordinaten a gegeben. Also entspricht Zeile 1 allen Ableitungen von x. Zeile 2 entspricht den Ableitungen von y und Zeile 3 entspricht den Ableitungen von z. Die erste Spalte sind alle Ableitungen nach der neuen Koordinate a und so weiter. Die Komponenten der Matrix lassen sich daher durch Ji j =
∂ri ∂a j
bestimmen. Diese Matrix
(8.36)
⎛
J (a, b, c) =
∂(x, y, z) = ∂(a, b, c)
∂x ⎜ ∂∂ay ⎝ ∂a ∂z ∂a
∂x ∂b ∂y ∂b ∂z ∂b
⎞
∂x ∂c ∂y ⎟ ∂c ⎠ ∂z ∂c
(8.37)
wird Jacobi-Matrix genannt. In diesem einfachen Fall war das betrachtete Skalarfeld im Integral durch (rr ) = 1 gegeben, wodurch das Volumen von V bestimmt wird. Das Ergebnis des Integrals ist daher eine einfache Zahl und kann nicht als Lösung eine Matrix ergeben. Deshalb muss zusätzlich die Determinante der Matrix bestimmt werden. Diese Determinante heißt Jacobi-Determinante det(J (a, b, c)) und wird ebenfalls als Funktionaldeterminante bezeichnet. Also lässt sich ein Volumenintegral durch ˚
˚ V
d(x, y, z) (x, y, z) = =
˚V V
d(a, b, c) det
∂(x, y, z) (a, b, c) ∂(a, b, c)
d(a, b, c) det(J (a, b, c)) (a, b, c)
(8.38)
in anderen Koordinaten ausdrücken. Das ist genau das Verhalten, das in Gl. (8.26) für die Volumenelemente hergeleitet wurde. Dabei wurde (a, b, c) als abkürzende Schreibweise von (x(a, b, c), y(a, b, c), z(a, b, c)) = (rr (a, b, c)) verwendet. Das Differential der i-ten Komponenten von r lässt sich aufgrund von Gl. (8.3) und der Definition der Komponenten der Jacobi-Matrix durch
492
8 Vektoranalysis
∂ri da j = Ji j da j ∂a j
dri =
ausdrücken. Andererseits lässt sich daher auch das Differential der i-ten Komponente von a als dai =
∂ai ∂ai ∂r j dr j = dak ∂r j ∂r j ∂ak
ausdrücken. Im letzten Schritt wurden dabei die Differentiale von r durch die Differentiale von daa ausgedrückt. Da aber das Differential dai mit dak übereinstimmen muss, muss die Kombination ∂ai ∂r j = δik ∂r j ∂ak entsprechen. Damit stellen ∂ai ∂r j aber die Komponenten der Inversen der Jacobi-Matrix J −1 über
J −1
ij
=
∂ai ∂r j
(8.39)
dar. Dieser Umstand wird in Kap. 10 erneut aufgefasst, wo die Inverse der Jacobi-Matrix J −1 mit der Transformationsmatrix, üblicherweise O, U oder , zusammenhängen wird. Dementsprechend lässt sich das Volumenelement d(a, b, c) durch ∂(a, b, c) = d(x, y, z) det J −1 = d(x, y, z) d(a, b, c) = d(x, y, z) ∂(x, y, z) det(J )
(8.40)
ausdrücken. Das Auftreten der Jacobi-Determinante kann auch mithilfe des Keilprodukts und der Koordinatentransformation der Differentiale auch auf mathematische Weise verstanden werden. Außerhalb eines Integrals ist das Keilprodukt dx ∧ dy ∧ dz = dx 1 ∧ dx2 ∧ dx3 zu betrachten. Die einzelnen Differentiale transformieren sich jeweils nach dx ∧ dy ∧ dz = J1i dai ∧ J2 j da j ∧ J3k dak = J1i J2 j J3k dai ∧ da j ∧ dak mit der Jacobi-Matrix. Das Keilprodukt dai ∧ da j ∧ dak kann wie in Gl. (8.35) als
8.3
Integrale von Feldern
493
dai ∧ da j ∧ dak = i jk da1 ∧ da2 ∧ da3 ausgedrückt werden. Für das Differential lässt sich so insgesamt der Ausdruck dx ∧ dy ∧ dz = J1i J2 j J3k i jk da1 ∧ da2 ∧ da3 T T T = i jk Ji1 J j2 Jk3 da1 ∧ da2 ∧ da3 T = det J da1 ∧ da2 ∧ da3
= det(J ) da1 ∧ da2 ∧ da3 finden. Im vorletzten Schritt wurde dabei die Definition der Determinante mit dem LeviCivita-Symbol (7.44) ausgenutzt. Im letzten Schritt wurde benutzt, dass eine Matrix und ihre Transponierte die gleiche Determinante haben. Damit gilt dann im Integral ˆ ˆ d(x, y, z) = d(a, b, c) det(J ) , was auch bereits weiter oben in Gl. (8.38) gefunden wurde. Linienelemente Bereits in Abschn. 8.3.1 wurden vektorielle Linienelemente eingeführt. Daneben werden in der Physik, vor allem im Rahmen der Relativitätstheorie, auch skalare Linienelemente betrachtet, die aus (dl )2 ≡ drr · drr gebildet werden. Sie sind eine Summe aus Produkten zweier Differentiale, die nicht im Keilprodukt stehen. In kartesischen Koordinaten wird das Linienelement so durch (dl )2 = (dx )2 + (dy )2 + (dz )2 bestimmt. Dies ist das sogenannte Euklid’sche Linienelement. Wird ein Problem betrachtet, bei dem nur eine Bewegung entlang der x-Achse stattfindet, ist damit das Linienelement dl schnell zu berechnen, es ist dann einfach dx . Aus diesem Grund kann es effektiv sein, das Linienelement auch für andere Koordinaten zu bestimmen. Wesentlich allgemeiner kann das Linienelement als (dl )2 = gi j (rr ) dri dr j
(8.41)
geschrieben werden. r steht hierbei nicht mehr allein für kartesische Koordinaten, sondern für einen beliebigen Koordinatensatz. Es wurde die Einstein’sche Summenkonvention verwendet. Das Objekt gi j (rr ) wird als metrischer Tensor bezeichnet und hängt vom betrachteten Punkt ab. In kartesischen Koordinaten ist der metrische Tensor gi j = δij die Einheitsmatrix. Natürlich soll das Linienelement für das gleiche Problem unabhängig von den Koordinaten
494
8 Vektoranalysis
sein. Das heißt konkret, dass bei einem Übergang zu Koordinaten a der Zusammenhang !
(aa ) dam dan (dl )2 = gi j (rr ) dri dr j = gmn
vorausgesetzt wird. Der erste Ausdruck kann mit der Jacobi-Matrix als Transformationsmatrix zu (dl )2 = gi j (rr ) dri dr j = gi j (rr (aa ))
∂r j ∂ri dam dan ∂rm ∂an
∂r j ∂ri gi j (rr (aa )) dam dan = Jim gi j (rr (aa ))J jn dam dan ∂am ∂an = (J T )mi gi j (rr (aa ))J jn dam dan =
umgeschrieben werden. Damit zeigt sich, dass sich der metrische Tensor bei Koordinatentransformation nach
gmn (aa ) = (J T )mi gi j (rr (aa ))J jn
⇔
g = J T g J
(8.42)
transformiert. Der zweite Ausdruck ist dabei die reine Matrixschreibweise. So kann das Linienelement in anderen Koordinaten einfach bestimmt werden und eventuell die Rechnungen eines Problems vereinfachen. Wird von kartesischen Koordinatenrr = (x, y, z) ausgegangen, so lässt sich der metrische Tensor besonders einfach durch g = J T 1J = J T J
(8.43)
bestimmen. Anwendungsbeispiele Es sollen noch einige Beispiele gegeben werden. Darunter sind die üblichen Beispiele der Zylinder- und Kugelkoordinaten sowie ein naheliegendes Beispiel aus der Physik, dass sich mit dem Formalismus der Relativitätstheorie auseinandersetzt. • Zylinderkoordinaten Für die Zylinderkoordinaten lässt sich aus den in Abschn. (8.3.4) berechneten Differentialen die Jacobi-Matrix ⎞ ⎛ cos(φ) −s sin(φ) 0 ∂(x, y, z) ⎝ (8.44) J (s, φ, z) = = sin(φ) s cos(φ) 0⎠ ∂(s, φ, z) 0 0 1 bestimmen. Effektiv werden die Komponenten nur aus der bereits in Matrixform aufgeschriebenen Gleichung in Abschn. (8.3.4) abgelesen. Die Determinante ist dann durch
8.3
Integrale von Feldern
495
det(J (s, φ, z)) = s gegeben. Damit lässt sich das Volumenintegral in Zylinderkoordinaten durch ˚
ˆ V
(rr ) =
ˆ ds
ˆ dφ
dz s(s, φ, z)
ausdrücken, und der metrische Tensor in Zylinderkoordinaten ist dann mit ⎞⎛ cos(φ) −s sin(φ) cos(φ) sin(φ) 0 g (r , φ, z) = ⎝−s sin(φ) s cos(φ) 0⎠ ⎝ sin(φ) s cos(φ) 0 0 0 0 1 ⎛ ⎞ 1 0 0 ⎝ = 0 s 2 0⎠ 0 0 1 ⎛
⎞ 0 0⎠ 1 (8.45)
zu bestimmen. Das Linienelement in Zylinderkoordinaten lässt sich so mit (dl )2 = (ds )2 + s 2 (dφ )2 + (dz )2
(8.46)
berechnen. • Kugelkoordinaten Mit den in Abschn. (8.3.4) berechneten Differentialen lässt sich für die Kugelkoordinaten direkt die Jacobi-Matrix ⎞ ⎛ cos(φ) sin(θ ) r cos(φ) cos(θ) −r sin(φ) sin(θ ) ∂(x, y, z) ⎝ J (r , θ, φ) = = sin(φ) sin(θ) r sin(φ) cos(θ ) r cos(φ) sin(θ ) ⎠ ∂(r , θ, φ) cos(θ ) −r sin(θ) 0 (8.47) berechnen. Die Determinante kann nach den Regeln aus Abschn. 7 bestimmt werden. Sie ist durch det(J (r , θ, φ)) = r 2 sin(θ ) gegeben. Damit lässt sich für ein Integral in Kugelkoordinaten der Zusammenhang ˚ V
ˆ (rr ) =
ˆ dr
ˆ dθ
dφ r 2 sin(θ ) (r , θ, φ)
finden. Der metrische Tensor in Kugelkoordinaten ist dann durch
496
8 Vektoranalysis
⎞ cos(φ) sin(θ) sin(φ) sin(θ) cos(θ) g (r , θ, φ) = ⎝ r cos(φ) cos(θ) r sin(φ) cos(θ) −r sin(θ)⎠ × −r sin(φ) sin(θ) r cos(φ) sin(θ) 0 ⎞ ⎛ cos(φ) sin(θ) r cos(φ) cos(θ) −r sin(φ) sin(θ ) ⎝ sin(φ) sin(θ) r sin(φ) cos(θ ) r cos(φ) sin(θ ) ⎠ cos(θ) −r sin(θ) 0 ⎛ ⎞ 1 0 0 ⎠ = ⎝0 r 2 0 ⎛
(8.48)
0 0 r 2 sin2 (θ) gegeben. Damit wird das Linienelement in Kugelkoordinaten durch (dl )2 = (dr )2 + r 2 (dθ )2 + r 2 sin2 (θ) (dφ )2
(8.49)
bestimmt. • Relativitätstheorie In der Relativitätstheorie werden Raum und Zeit in einem Vierervektor zusammengefasst, x μ = (ct, r ). Die Vektoren werden dann nur mit x bezeichnet, um klar zu machen, dass es sich um einen vierkomponentigen Vektor handelt. Aus Gründen, auf die in Abschn. 10 eingegangen wird, gibt es Indices die oben stehen und solche die unten stehen. Es kann in diesem Rahmen als eine zusätzliche Konsistenzprüfung betrachtet werden, in dem nur über einen Index summiert werden darf, wenn er einmal oben und einmal unten steht. Wird nach einer Komponente x μ abgeleitet, zählt der Index μ so, als stünde er unten. In der speziellen Relativitätstheorie ist der metrische Tensor durch gμν (x) = ημν = (1, −1, −1, −1) gegeben. Dieser metrische Tensor definiert den sogenannten Minkowski-Raum und η wird entsprechend als Minkowski-Metrik bezeichnet. Das Linienelement ist dann durch (ds )2 = (c dt )2 − (dx )2 − (dy )2 − (dz )2 gegeben.9 Es sollen zwei Bezugssysteme betrachtet werden. Beispielsweise könnten sich in einem der Bezugssysteme Myonen, die durch kosmische Strahlung erzeugt wurden, in Ruhe befinden. Die Vektoren dieses Systems sollen durch lateinische Buchstaben bezeichnet werden. Der Raumzeitvektor wird in diesem System also durch x bezeichnet. In einem 9 Hierbei wurde die Konvention η μν = diag(1, −1, −1, −1) verwendet, die vor allem in der Teilchenphysik vorkommt. Es gibt noch einige andere Konventionen, wie ημν = diag(−1, 1, 1, 1), die häufig in Büchern, die sich mit der allgemeinen Relativitätstheorie auseinandersetzen, anzutreffen ist. Dagegen gibt es noch die veralteten Konventionen ημν = diag(−1, −1, −1, 1) und ημν = diag(1, 1, 1, −1), die die Zeitkomponente als vierte Komponente aufführen.
8.3
Integrale von Feldern
497
anderen Bezugssystem, das beispielsweise ein Bezugssystem ist, in dem eine beobachtende Person auf der Erdoberfläche ruht, soll er mit gestrichenen lateinischen Buchstaben, also x bezeichnet werden. Die inverse Jacobi-Matrix wird dann als Lorentz-Transformationsmatrix mit den Komponenten
μν =
∂ x μ ∂xν
bezeichnet und transformiert aus dem System mit den Vektoren x in das System mit den Vektoren x . Die Determinante dieser Matrix lässt sich mit μ
ρ
det( ) = μνρσ 0 ν1 2 σ3 berechnen. Dabei ist μνρσ das auf vier Indices verallgemeinerte Levi-Civita-Symbol mit 0123 = 1. Ein Integral über den Minkowski-Raum wird so durch die Vorschrift ˆ ˆ d4 x = d4 x det( ) transformiert. Aus der Forderung eines erhaltenen metrischen Tensors lässt sich zeigen, dass die Determinante der Transformationsmatrix den Wert 1 annehmen muss. Somit wird ein Integral über die gesamte Raumzeit ˆ ˆ d4 x = d4 x sich nicht ändern. Anders würde ein Integral über die Zeit im System x eine Transformation der Art ˆ ˆ dx 0 = dx ν 0ν durchmachen. Daher werden in der Relativitätstheorie Aussagen über Zeitvariationen durch die Eigenzeit dτ 2 =
ds 2 c2
getroffen, da diese sich nicht transformiert. So wird beispielsweise die Kraft über eine Ableitung des Impulsvektors p μ nach der Eigenzeit Fμ = m
d pμ dτ
definiert.10 10 Obwohl es auch die Definition der bewegten Masse m = γ m gibt, wird in der theoretischen Physik 0 mit m die Ruhemasse bezeichnet, die ein Lorentz-Skalar ist und dem Zusammenhang E 2 − p 2 c2 = m 2 c4 genügt.
498
8 Vektoranalysis
In der allgemeinen Relativitätstheorie werden die Auswirkungen der Gravitation als die Bewegung von Objekten in einer gekrümmten Raumzeit auf kürzesten Wegen aufgefasst. Die Krümmung der Raumzeit wird durch einen nicht trivialen metrischen Tensor11 beschrieben. Beim Wechsel zwischen Koordinaten oder Bezugssystemen gibt
(x ) = gμν
∂xα ∂xβ g (x) αβ ∂ x μ ∂ x ν
die Transformation des metrischen Tensors an. Dabei soll g den metrischen Tensor im System x beschreiben. Da die allgemeine12 Transformation mit
μα =
∂ x μ ∂xα
definiert war, sind die Komponenten der inversen Transformationsmatrix durch
−1
α μ
=
∂xα ∂ x μ
gegeben. Damit zeigt sich, dass die Metrik durch die Matrixgleichung g = ( −1 )T g −1 transformiert wird. Dadurch wird die Determinante der Metrik mittels 2 det(g) det g = det ( −1 )T g −1 = det −1 det(g) = det( )2 überführt. Da sich das Raumzeitdifferential nach der obigen Überlegung mittels d4 x = d4 x det( ) transformiert, muss ein zusätzlicher Faktor eingeführt werden, um ein Lorentz-invariantes Raumzeitdifferential zu erhalten. Dieses kann durch die Determinante der Metrik wegen det(g) 4
4
d x − det(g ) = d x det( ) − = d4 x − det(g) 2 det( ) zu
11 Im klassischen Limes hängen die Einträge des metrischen Tensors mit dem Gravitationspotential
zusammen; in diesem Sinne beschreibt der metrische Tensor also Gravitationsfelder. 12 Es wird hier zwar der Buchstabe für die Transformationsmatrix verwendet, der eigentlich nur
für Lorentz-Transformationen vorbehalten ist, dennoch soll er für eine allgemeine Transformation stehen.
8.3
Integrale von Feldern
499
ˆ
d4 x
− det(g )
definiert werden. Es wird dabei die Wurzel der negativen Determinante gezogen, da im Minkowski-Raum die Determinante negativ ist und deshalb in allen Bezugssystemen die Determinante der Metrik negativ sein wird.
8.3.6
Dirac-Delta in Volumenintegralen
Wie auch in einer Dimension, lässt sich im Dreidimensionalen eine Dirac-Delta-Funktion definieren. Diese wird über ihre Eigenschaft bei einem Volumenintegral über den gesamten Raum als ˚ dV δ(3) (rr − r 0 ) (rr ) = (rr 0 ) (8.50) R3
definiert. In kartesischen Koordinaten lässt sie sich aus einem Produkt für die Dirac-DeltaFunktionen für jede Komponente δ(3) (rr ) = δ (x) δ (y) δ (z)
(8.51)
zusammensetzen. In krummlinigen Koordinaten, wie den Zylinder- oder Kugelkoordinaten, ist diese naive Übersetzung nicht so einfach möglich. Damit ergibt sich durch die Rechnung ˆ ˆ ˆ ds dφ dz s(s, φz)δ (s) δ (φ) δ (z) = 0 ein verschwindendes Integral bei der Integration über s. Da die Wahl der Koordinaten keinen Einfluss auf das Ergebnis haben sollte, muss eine Korrektur durchgeführt werden. Das Problem besteht in dem Faktor aus der Jacobi-Determinante. Ein anderer Weg dieses Problem zu sehen, ist durch die Betrachtung des Skalarfeldes (rr ) = 1. Damit wird das obige Integral zu ˚ dV δ(3) (rr ) (rr ) = 1, R3
was eine Aussage über die Dimensionalität von δ(3) (rr ) trifft. Da das Differential dV per Konstruktion die Dimension eines Volumens, also Länge hoch drei aufweist, muss für ein Ergebnis von eins die Dirac-Delta-Funktion eine Dimension von
1 δ(3) (rr ) = V
aufweisen. Da nach den Überlegungen aus Abschn. 2.5 die Dirac-Delta-Funktion von φ aber keine Dimension hat, hat das Produkt
500
8 Vektoranalysis
δ (s) δ (φ) δ (z) nur die Dimension eins pro Fläche. Um dieses Problem zu lösen, ist es sinnvoll das Linienelement der jeweiligen Koordinaten zu betrachten. Würde ein Linienintegral über einen Kreisweg um die z-Achse betrachtet werden, so wäre das Linienelement durch drr = eˆ φ s dφ gegeben. Da das Ziel der Delta-Funktion δ (φ − φ0 ) in der Praxis aber nur sein sollte, die Werte von φ auf φ0 zu setzen, sollte sich das Integral ˆ dφ s D(φ − φ0 ) auf
ˆ dφ δ (φ − φ0 )
reduzieren. Dabei beschreibt D(φ − φ0 ) den vollen, noch unbekannten Ausdruck, der einzusetzen ist, um das Verhalten einer Delta-Funktion zu erhalten. Scheinbar handelt es sich schlicht um einen Vorfaktor, der das Inverse zum zusätzlichen Vorfaktor des jeweiligen Linienelements darstellt. Damit lassen sich für Zylinderkoordinaten die korrigierten Ausdrücke drr = eˆ s ds + eˆ φ s dφ + eˆ z dz ⇒ D(s) = δ (s)
D(φ) =
1 δ (φ) s
D(z) = δ (z)
(8.52)
und für Kugelkoordinaten die korrigierten Ausdrücke drr = eˆ r dr + eˆ θ r dθ + eˆ φ r sin(θ) dφ 1 ⇒ D(r ) = δ (r ) D(θ ) = δ (θ) r
D(φ) =
1 δ (φ) r sin(θ)
(8.53)
bestimmen. Die Dirac-Delta-Funktionen für einen beliebigen Punkt im Volumen sind dann durch δ(3) (rr − r 0 ) = D(s − s0 )D(φ − φ0 )D(z − z 0 ) 1 = δ (s − s0 ) δ (φ − φ0 ) δ (z − z 0 ) s und
(8.54)
8.3
Integrale von Feldern
501
δ(3) (rr − r 0 ) = D(r − r0 )D(θ − θ0 )D(φ − φ0 ) 1 δ (r − r0 ) δ (θ − θ0 ) δ (φ − φ0 ) = 2 r sin(θ)
(8.55)
zu verwenden. Diese Formen der Dirac-Delta-Funktionen finden bereits in den ersten Semestern des Studiums der Physik Anwendung. Sie können dazu verwendet werden, um infinitesimal dünne Massen oder Ladungsansammlungen formal zu beschreiben. So kann die Massendichte eines Hohlzylinders mit Masse M, Radius R und Höhe H als ρM (rr ) =
M δ (s − R) (H /2 − |z|) 2π R H
beschrieben werden, während ein geladener Kreisring mit Ladung Q und Radius R in der x z-Ebene in Kugelkoordinaten durch Q δ (φ) δ (r − R) δ (φ − π ) δ (r − R) ρQ (rr ) = + 2π R r sin(θ) r sin(θ) beschrieben wird. Die Vorfaktoren stammen dabei aus der einfachen Überlegung, dass sich die Masse bzw. die Ladung auf die Oberfläche des Zylinders bzw. auf dem Umfang des Ringes zu verteilen hat. In beiden Fällen ergibt sich die gesamte Masse bzw. Ladung durch die Rechnungen ˚
M d r ρM (rr ) = 2π R H R3
ˆ∞
3
ˆ2π ds
0
⎛ M ⎝ = 2π R H
ˆ∞
0
ˆ∞
dz sδ (s − R) (H /2 − |z|)
dφ −∞
⎞ ⎛ 2π ⎞⎛ ∞ ⎞ ˆ ˆ ds sδ (s − R)⎠ ⎝ dφ ⎠ ⎝ dz (H /2 − |z|)⎠
0
−∞
0
M R · 2π · H = M = 2π R H und ˚
ˆ∞ ˆπ ˆ2π Q d r ρQ (rr ) = dr dθ dφ r 2 sin(θ ) 3 2π R R 0 0 0 δ (φ) δ (r − R) δ (φ − π ) δ (r − R) × + r sin(θ) r sin(θ) ⎛∞ ⎞⎛ π ⎞ ⎛ 2π ⎞ ˆ ˆ ˆ Q ⎝ = dr r δ (r − R)⎠ ⎝ dθ ⎠ ⎝ dφ (δ (φ) + δ (φ − π ))⎠ 2π R 3
0
Q = · R·π ·2= Q 2π R
0
0
502
8 Vektoranalysis
zu den erwarteten Werten. Besondere Vorteile bietet diese Methode, wenn Dipolmomente durch ˚ P = d3r ρ(rr )rr R3
oder Quadrupolmomente durch ˚ Qi j =
R3
d3r ρ(rr ) 3ri r j − δi j r 2
zu bestimmen sind.
8.4
Differentiale von Funktionen und Feldern
In der theoretischen Physik treten Differentiale in den ersten Semestern immer zusammen mit Integralen auf. Dabei ist der Wechsel zwischen Koordinatensystemen aus Abschn. 8.3.5 wohl noch das wichtigste Hilfsmittel. Spätestens in der Thermodynamik werden Differentiale auch vollkommen losgelöst von Integralen betrachtet und tauchen als Differentiale von skalaren Funktionen auf. Dabei stellen die Differentiale ein Maß der Änderung einer Größe dar. Einige Zusammenhänge diesbezüglich sollen in diesem Abschnitt untersucht werden.
8.4.1
Geometrische Interpretation eines Differentials einer Funktion
Ist eine Funktion f an einem Punkt x0 gegeben, so könnte die Frage aufkommen, wie sich die Funktion in näherer Umgebung verändert. Nach Abschn. 8.2 kann dies durch die erste Ordnung der Taylor-Entwicklung durch Gl. (8.2) beschrieben werden. Für einen gegebenen Abstand x lässt sich die Änderung der Funktion näherungsweise durch f (x0 ) ≡ f (x0 + x) − f (x0 ) ≈
df (x0 )x + O(x 2 ) dx
beschreiben. Hierbei wurde eine Taylor-Entwicklung f (x0 + x) ≈ f (x0 ) +
df (x0 )x dx
verwendet. Somit werden die Steigung der Funktion am Punkt x0 bestimmt und die Änderung der Funktion durch die Änderung der Variable x ausgedrückt. Ein Differential betrachtet nun so kleine Abstände, dass die höheren Ordnungen vollkommen ignoriert werden können und sich df =
df dx dx
8.4
Differentiale von Funktionen und Feldern
503
ergibt. Ist die Funktion in mehreren unabhängigen Variablen (x, y, z) definiert, also f (x, y, z), so ist das Differential der Funktion durch ∂ f ∂ f ∂ f df = dx + dy + dz (8.56) ∂ x y,z ∂ y x,z ∂z x,y gegeben. Darin macht ∂ deutlich, dass die Funktion nicht alleine von der entsprechenden Variable abhängt. Es handelt sich um die partielle Ableitung, die auf formale Weise in Abschn. 8.2 eingeführt wurde. Auch im Ausdruck (8.56) wird in jede Richtung an die Funktion eine Tangente angelegt, und daraus wird die infinitesimale Änderung bestimmt. Da aber nur in einer Richtung die Tangente angelegt werden soll, müssen alle anderen Variablen konstant gehalten werden. Dies wird ausgedrückt, indem die festgehaltenen Variablen als Index neben einem senkrechten Strich rechts neben der Ableitung geschrieben werden. Vor allem im Bereich der Thermodynamik findet sich eine alternative Bezeichnung derselben Aussage ∂f , ∂ x y,z in der die partielle Ableitung in Klammern gesetzt wird und die festgehaltenen Variablen als Index der Klammer auftauchen.13 Ist eine Funktion f (x, y) zweimal stetig differenzierbar, so lassen sich ihre partiellen Ableitungen vertauschen: ∂ ∂f ∂ ∂f = . ∂ y ∂x ∂x ∂ y
(8.57)
Es macht also keinen Unterschied, ob zuerst nach x oder nach y abgeleitet wird. Dieses Ergebnis ist als Satz von Schwarz bekannt. Stattdessen soll auf die Implikationen für die Physik eingegangen werden. Die sich dadurch ergebenden Gleichungen werden in der Thermodynamik als Maxwell-Relationen bezeichnet. Beispielsweise lässt sich die innere Energie U eines Systems durch die Entropie S und das Volumen V über U (S, V ) bestimmen. Das totale Differential der inneren Energie ist dann durch dU = T dS − P dV gegeben, wobei T die Temperatur und P den Druck bezeichnen. Durch Ablesen des Differentials lässt sich
13 Dies spiegelt zwei unterschiedliche Notationen wider. In der Thermodynamik wird vor allem
diese Konvention verwendet. In der Vektoranalysis, wie sie beispielsweise in der Elektrodynamik zum Einsatz kommt, wird die Konvention aus Gl. (8.3) verwendet, bei der die Angabe am Strich Auskunft darüber gibt, an welchem Punkt das Differential ausgewertet wird.
504
8 Vektoranalysis
∂U T = ∂ S V
∂U −P= ∂ V S
erkennen. Aufgrund des Satzes von Schwarz ∂ ∂U ∂ ∂U = ∂V ∂S ∂S ∂V muss somit auch ∂T ∂P =− ∂V ∂S gelten. In bestimmten physikalischen Situationen ist nur ein Differential gegeben. So kann es vorkommen, dass die Funktionen A(x, y, z), B(x, y, z) und C(x, y, z) im Ausdruck δg = A(x, y, z) dx + B(x, y, z) dy + C(x, y, z) dz gegeben sind. Es ist dabei zunächst offen, ob eine Funktion f (x, y, z) existiert, die beim Einsetzen in Gl. (8.56) mit dem gegebenen Differential δg übereinstimmt. Ist dies der Fall, wird δg mit dg bezeichnet und als vollständiges Differential betitelt. Dann sind nach der obigen Überlegung aber die partiellen Ableitungen ∂ f ∂ f ∂ f = A(x, y, z) = B(x, y, z) = C(x, y, z) (8.58) ∂ x y,z ∂ y x,z ∂z x,y vollständig bekannt. Dadurch lässt sich auch das Integral ˆf2 f2 − f1 =
df f1
mittels
ˆ f2 − f1 =
∂f ∂f ∂f dx + dy + dz ∂x ∂y ∂z
ˆr 2 drr · ∇ f = f (rr 2 ) − f (rr 1 )
= r1
schematisch bestimmen. Besonders sticht dabei hervor, dass für ein Kreisintegral ˛ df =0
(8.59)
gilt. Soll die totale Ableitung von f bezüglich einer Größe a gebildet werden, gilt es dabei zu beachten, dass alle Differentiale durch das Differential da geteilt werden, um
8.4
Differentiale von Funktionen und Feldern
505
dx dy dz df =A +B +C da da da da zu erhalten. In der Physik, vor allem in der Thermodynamik, sind vollständige Differentiale mit Zustandsgrößen verknüpft, die also bei gegebenen (x, y, z) bekannt sind. Die Entropie eines Systems ist eine Zustandsgröße und beispielsweise durch die Angabe der Temperatur, des Volumens und der Teilchenzahl bestimmt. Existiert hingegen keine solche Funktion f , so wird δg als unvollständiges Differential bezeichnet. Für diese Art an Differentialen gilt im Allgemeinen ˛ δg = 0, was im klaren Kontrast zum Ergebnis für vollständige Differentiale steht. Damit bietet sich ein Weg, um Differentiale auf Vollständigkeit zu prüfen. Es existiert dann aber eine Funktion μ(x, y, z), die als integrierender Faktor bezeichnet wird, mit dem dh ≡ μ(x, y, z)δg ein vollständiges Differential darstellt. Im Falle eines Differentials für zwei Variablen, δg = A dx + B dy ⇒ dh = μA dx + μB dy , lässt sich der integrierende Faktor oft bestimmen, indem die sich ergebende MaxwellRelation
⇒
∂ ∂h ∂ ∂h = ∂ y ∂x ∂x ∂ y ∂(μB) ∂(μA) = ∂y ∂x
betrachtet wird. Aus ihr ergibt sich eine Differentialgleichung, die es zu lösen gilt. In der Physik hängen diese unvollständigen Differentiale mit Prozessgrößen zusammen, also Größen, deren Werte explizit vom betrachteten Prozess abhängen. Die Wärme δQ ist ein Beispiel für eine solche Prozessgröße. Der integrierende Faktor ist in diesem Fall die Temperatur, sodass sich das totale Differential dS =
δQ T
ergibt.14 14 Aus physikalischen Gründen gilt dieser Zusammenhang aber nur für reversible Prozesse.
506
8.4.2
8 Vektoranalysis
Die Legendre-Transformation
Die Legendre-Transformation findet in der theoretischen Physik in der analytischen Mechanik und in der Thermodynamik ihre Anwendung. Sie erlaubt es eine Funktion nicht als eine Sammlung von Punkten, sondern als eine Sammlung von Tangenten anzusehen. Motivation und Definition Ist eine Funktion f abhängig von der Variable x gegeben, so ist ihr Differential durch df =
df dx dx
gegeben. Wie oben schon diskutiert, ist ddxf die Steigung der Tangente und soll deshalb als m bezeichnet werden. Dabei ist m(x) eine Funktion von x, da die Tangente an jedem Punkt eine andere Steigung besitzt. Damit lässt sich das Differential der Funktion f auch als d f = m(x) dx schreiben. Das Ziel der Legendre-Transformation ist es nun, die Funktion f durch eine andere Funktion g zu beschreiben, die eine Funktion von m sein soll. Es wird also eine Variablentransformation durchgeführt. Eine Tangente wird durch die Steigung und durch den y-Achsenabschnitt definiert. Es ist deshalb von Interesse zunächst eine Funktion h zu betrachten. Diese Funktion soll jeder Tangente mit der Steigung m den entsprechenden y- Achsenabschnitt zuordnen. Die Gerade j lässt sich dann für ein gegebenes m durch j(m, x) = h(m) + m · x ausdrücken. Nur an dem Punkt, an dem m der Steigung der Funktion f entspricht, bildet j die Tangente an f . Die Steigung m kann wie oben als Funktion der Variable x aufgefasst werden. Für die verschiedenen Punkte x entsteht wegen der Abhängigkeit der Steigung m von x eine Tangentenschar, welche die Funktion einhüllt. Die Funktion f kann daher durch f (x) = j(m(x), x) ausgedrückt werden. Somit ist h eine Funktion, die von m abhängig ist, und es vermag die Funktion f zu beschreiben. Sie entspricht der gesuchten Funktion g. Sie wird als LegendreTransformation von f bezüglich x bezeichnet und ist durch g = f −m·x
⇔
g(m) = f (x(m)) − m · x(m)
(8.60)
definiert. Sie ordnet jeder Tangentensteigung ihren y-Achsenabschnitt zu. Damit sie wirklich eine Funktion von m ist, müssen der Zusammenhang m(x) nach x aufgelöst und damit alle Ausdrücke von x ersetzt werden. Anschaulich beschreibt die Funktion g(m) die Funktion f
8.4
Differentiale von Funktionen und Feldern
507
als eine Ansammlung von Tangenten, die die Funktion f einhüllen. Da g(m) eine Funktion sein soll, darf sie einer Steigung nicht mehrere Werte zuordnen. Das heißt, die Tangenten an der Funktion f dürfen jede Steigung nur einmal aufweisen. Mathematisch lässt sich dies erzielen, indem die zweite Ableitung von f von null verschieden ist und ihr Vorzeichen nicht wechselt. Das Differential der Legendre-Transformation lässt sich unter Anwendung von d(mx) = x dm + m dx zu dg = d f − m dx − x dm = m dx − m dx − x dm = −x dm bestimmen. In diesem Kontext wird von m und x als konjugierten Variablen gesprochen. Bei einer Funktion, die von mehreren Variablen abhängt, können auch mehrere LegendreTransformationen gefunden werden. Jede dieser Transformationen kann für eine bestimmte Art von Problem sinnvoll sein. Sind also f (x, y) und d f = m dx + n dy bekannt, dann können g(m, y), h(x, n) und j(m, n) nach g(m, y) = f − m · x h(x, n) = f − n · y
(8.61)
j(m, n) = f − m · x − n · y definiert werden. Ihre Differentiale sind dann durch dg = −x dm + n dy dh = m dx − y dn d j = −x dm − y dn gegeben. Anwendungsbeispiele aus der Physik
• Thermodynamik Die Thermodynamik mit den sogenannten thermodynamischen Potentialen innere Energie U , Helmholtz’sche freie Energie F, Enthalpie H , freie Enthalpie G und das großkano-
508
8 Vektoranalysis
nische Potential bildet das erste Beispiel. Der erste Hauptsatz15 der Thermodynamik macht eine Aussage über das Differential der inneren Energie als eine Funktion von Entropie S, Volumen V und Teilchenzahl N , also U = U (S, V , N ) und postuliert das Differential16 dU = T dS − P dV + μ dN . Die Temperatur T , der Druck P und das chemische Potential μ sind dann die jeweiligen konjugierten Variablen. Die thermodynamischen Potentiale sind dann durch F(T , V , N ) = U − T S H (S, P, N ) = U + P V G(T , P, N ) = H − T S = F + P V = U − T S + P V (T , P, μ) = G − μN = U − T S + P V − μN gegeben. Damit gilt dann auch für die Differentiale dU = T dS − P dV + μ dN dF = −S dT − P dV + μ dN dH = T dS + V d P + μ dN dG = −S dT + V d P + μ dN d = −S dT + V d P − N dμ . Je nach Situation bietet es sich an, andere thermodynamische Potentiale zu betrachten. Läuft eine chemische Reaktion beispielsweise bei konstantem Druck und konstanter Temperatur ab, so ist die Änderung der freien Enthalpie dG nur durch μ dN gegeben, also nur von der Änderung der Anzahl der einzelnen Reaktanten abhängig, da die Differentiale d P und dT auf null zu setzen sind, da diese Größen gerade konstant sein sollten. Aus den konkreten Ausdrücken der freien Enthalpie der einzelnen Reaktanten lassen sich dann weitere Formeln ableiten, die es schlussendlich ermöglichen die Konzentrationen der einzelnen Reaktanten, die sich im thermischen Gleichgewicht einstellen, zu bestimmen. • Analytische Mechanik Ein weiteres Anwendungsbeispiel stammt aus der analytischen Mechanik, bei der Verknüpfung zwischen der Lagrange-Funktion L(q, q, ˙ t) und der Hamilton-Funktion H (q, p, t). Die Lagrange-Funktion L ist dabei eine Funktion der verallgemeinerten Koordinaten q und deren Zeitableitung q. ˙ Die Hamilton-Funktion H hingegen ist eine Funktion der verallgemeinerten Koordinaten q und des kanonischen Impulses p, die sich 15 Hier wurde für die Arbeit nur mechanische Arbeit betrachtet, bei der sich das Volumen verän-
dert. Eine Verallgemeinerung wäre durch das Ersetzen von −P dV durch die Arbeitsänderung δW gegeben. 16 In dieser Form gilt das Differential nur für reversible Prozesse.
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
509
aus p≡
∂L ∂ q˙
bestimmen. Die Hamilton-Funktion ist die Legendre-Transformation bezüglich der Ableitungen der verallgemeinerten Koordinaten q. ˙ In der schlussendlichen Transformation H = pq˙ − L befindet sich ein historisches Minuszeichen, dass auf die Interpretation der Variablentransformation keinen Unterschied macht.
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
8.5.1
Motivation und Definition
In diesem Abschnitt sollen zunächst kartesische Koordinaten betrachtet werden. Es stellt sich im Fall eines Skalarfeldes die Frage, wie es sich in eine gegebene Richtung nˆ ändern wird. Dabei soll der Vektor nˆ die Länge eins besitzen. Die Änderung wird sich durch eine Summe der Änderungen in die einzelnen Richtungen zusammensetzen, gewichtet durch den Richtungsvektor nˆ . Ein Weg dies formal klar zu machen, ist durch die in Abschn. 8.2 eingeführte TaylorEntwicklung eines Skalarfeldes (rr ) aus Gl. (8.2) bis zur ersten Ordnung in Verbindung mit einem Differentialquotienten (rr + nˆ ) − (rr ) (rr ) + n i ∂i (rr ) − (rr ) = lim →0 →0 = lim n i ∂i (rr ) = n i ∂i (rr ).
∂nˆ (rr ) = lim
→0
gegeben. Dabei wurde mit ∂nˆ die Ableitung in Richtung nˆ gekennzeichnet. Beim Einsetzen der Taylor-Entwicklung wurde direkt ausgenutzt, dass Terme mit höherer Ableitung nicht beitragen werden, da sich bei ihnen auch die Potenz von erhöht. Damit würden diese Terme in der letzten Zeile proportional zu oder höheren Potenzen sein und damit bei der Grenzwertbildung verschwinden. Das Ergebnis kann als Skalarprodukt von zwei Vektoren ⎞ ⎛ ⎞ ⎛ ∂x nx n i ∂i (rr ) = ⎝n y ⎠ · ⎝∂ y ⎠ ∂z nz
510
8 Vektoranalysis
aufgefasst werden. Der zweite Vektor ist dabei abhängig vom betrachteten Punkt. An einem gegebenen Punkt lässt sich dieses Skalarprodukt auch über die Beträge des zweiten Vektors und den Winkel α zwischen dem ersten Vektor und dem zweiten Vektor darstellen, ⎞ ⎛ ⎞ ⎛ nx ∂x ⎝n y ⎠ · ⎝∂ y ⎠ = 1 · (∂x )2 + (∂ y )2 + (∂z )2 cos(α) , ∂z nz denn der Betrag von nˆ sollte ja eins betragen. Dieser Ausdruck ist an einem gegebenen Punkt maximal, wenn die Vektoren nˆ und (∂x , ∂ y , ∂z ) parallel liegen und in die gleiche Richtung zeigen. Dieser Vektor ⎞ ⎛ ∂x (8.62) grad() ≡ ⎝∂ y ⎠ ∂z erhält den Namen Gradient des Skalarfeldes . Er zeigt in die Richtung des steilsten Anstiegs, und sein Betrag ist die Steigung in dieser Richtung. Es ist zu beachten, dass so aus dem Skalarfeld ein Vektorfeld konstruiert wurde. Durch den Gradienten kann die Taylor-Entwicklung des Skalarfeldes (8.2) in erster Ordnung auch durch 3 ∂ (rr0 + r ) ≈ (rr 0 ) + ∂r i=1
i r =rr 0
(rr − r 0 )i
= (rr 0 ) + grad() · (rr − r0 ) angeben werden. Das konstruierte Vektorfeld grad() kann auch mithilfe eines uneigentlichen Vektors ⎞ ⎛ ⎞ ⎛ ∂x ∂x grad() = ⎝∂ y ⎠ = ⎝∂ y ⎠ ≡ ∇ ∂z
∂z
geschrieben werden, in dem alle Ableitungen zusammengefasst werden. Der uneigentliche Vektor ⎛ ⎞ ∂x (8.63) ∇ ≡ ⎝∂ y ⎠ ∂z wird als Nabla bezeichnet.
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
511
Mit der Hilfe des uneigentlichen Vektors ∇ lassen sich neue Ableitungen für ein Vektorfeld definieren. Es gibt zwei Möglichkeiten ∇ mit einem Vektorfeld zu kombinieren: 1. Kreuzprodukt Hierbei ergibt sich die sogenannte Rotation ⎛
⎞ ∂ y A z − ∂z A y A ) ≡ ∇ × A = ⎝ ∂z A x − ∂x A z ⎠ = eˆ i i jk ∂ j Ak rot(A ∂x A y − ∂ y A x
(8.64)
eines Vektorfeldes A (rr ). Es ist zu beachten, dass hier aus einem Vektorfeld A (rr ) ein neues Vektorfeld V (rr ) erzeugt wurde. Anschaulich kann die Rotation mit dem Satz von Stokes, welcher im Abschn. 8.6 als Gl. (8.96) genauer behandelt wird, verstanden werden. Der Satz von Stokes bildet einen Zusammenhang zwischen einem Integral über die Rotation eines Vektorfeldes auf einer Oberfläche S und einem Integral über das Vektorfeld entlang des, die Oberfläche umschließenden, Weges γ und wird durch ¨ ˛ A) = d f · rot(A drr · A F
γ
ausgedrückt. Das Integral auf der rechten Seite summiert alle Feldlinien, die am äußeren Rand der Fläche angreifen, auf. Als konkretes Beispiel soll ein Kraftfeld der Form F = f 0 x eˆ y betrachtet werden. Es handelt sich also um ein Kraftfeld, das mit steigendem Abstand zum Ursprung in x-Richtung größere Kraftvektoren aufweist, welche parallel zur yAchse gerichtet sind. Seine Rotation ist durch ⎛ ⎞ ⎛ ⎞ ∂x 0 F ) = f 0 ⎝∂ y ⎠ × ⎝x ⎠ = f 0eˆ z rot(F 0 ∂z gegeben und ist konstant. Es wird eine Kreisscheibe in der x y-Ebene betrachtet, die einen Radius R und ihren Mittelpunkt im Ursprung haben soll. Damit wird das Integral auf der linken Seite in Gl. (8.96) ein Produkt aus der Konstanten f 0 und der Fläche der Kreisscheibe, da ihr Flächenelement auch in z-Richtung zeigt. Also ist nach dem Satz von Stokes ˛ ˆ F ) = f 0 π R 2 = 0. drr · F = d f · rot(F γ
F
Das linke Integral summiert hier aber alle Kräfte entlang des Weges um die Kreisscheibe auf. Es greift also eine Gesamtkraft am Rand der Kreisscheibe an, und sie wird sich anfangen zu drehen.
512
8 Vektoranalysis
Abb. 8.3 Beispiel zum Satz von Gauß mit einer Quelle innerhalb von V (a) und mit einer Senke innerhalb von V (b)
Im Falle eines Geschwindigkeitsfeldes kann das Integral ˛ ˆ drr · v = d f · rot(vv ) γ
F
betrachtet werden. Das Integral auf der linken Seite bildet die Summe aller Geschwindigkeitskomponenten um die Fläche herum und sagt somit, ob diese umflossen wird. Die Rotation gibt also je nach Kontext an, ob es ein Feld vermag etwas in Drehung zu versetzen, oder ob es zu einem geschlossenen Fluss um eine Oberfläche kommen kann. Da im Falle eines Geschwindigkeitsfeldes so ein Wirbel entsteht, wird auch davon gesprochen, dass die Rotation Wirbel im Feld anzeigt. 2. Skalarprodukt Hierbei ergibt sich die sogenannte Divergenz A ) ≡ ∇ · A = ∂x A x + ∂ y A y + ∂z A z = ∂i Ai div(A
(8.65)
eines Vektorfeldes A (rr ). Es ist zu beachten, dass hierdurch aus einem Vektorfeld A (rr ) ein Skalarfeld (rr ) konstruiert wird. Anschaulich kann die Divergenz durch den Satz von Gauß, der in Abschn. 8.6 als Gl. (8.95) eingeführt wird, verstanden werden. Dabei stellt sich heraus, dass es beim Volumenintegral über die Divergenz eines Vektorfeldes einen Zusammenhang mit einem Integral über das Vektorfeld selbst über die, das Volumen begrenzende Oberfläche gemäß ˚ ‹ A) = dV div(A df · A V
F
gibt. Das Integral auf der rechten Seite zählt effektiv, wie viele Vektoren des Feldes in das Volumen ein- bzw. austreten. In Abb. 8.3a, indem auf der linken Seite weniger Vektoren in das Volumen eindringen als auf der rechten Seite austreten, wird klar, dass im Volumen selbst solche Vektoren erzeugt werden müssen. Das heißt, im Volumen muss es eine Quelle geben. Andererseits, wenn mehr Vektoren ein- als austreten, werden Vektoren vernichtet; dies ist in Abb. 8.3b zu sehen. So etwas wird als eine Senke des Feldes bezeichnet.
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
513
Abb. 8.4 Schematische Darstellung der Wirkung der Vektoroperationen Divergenz, Rotation und Gradient auf Skalar- und Vektorfelder
Damit zeigt sich, dass die Divergenz eines Vektorfeldes mit den Quellen und den Senken des Feldes verknüpft ist. Als physikalisches Beispiel soll hier die erste MaxwellGleichung betrachtet werden, die die Divergenz des elektrischen Feldes mit den elektrischen Ladungen ˚ Q= dV ρ(rr ), R3
also den Quellen des Feldes über E) = div(E
ρ 0
in Verbindung bringt. Um einer fehlerhaften Verwendung der Begriffe Gradient, Rotation und Divergenz zu entgehen, kann es von Vorteil sein, die Argumente und die Resultate der einzelnen Operationen zu betrachten. Dazu soll Abb. 8.4 betrachtet werden. Hier werden die Operatoren Gradient, Rotation und Divergenz als Maschinen aufgefasst, die nur bestimmte Arten von Feldern entgegennehmen und nur bestimmte Arten von Feldern zurückgeben. Dabei gilt: • Der Gradient nimmt ein Skalarfeld an und gibt ein Vektorfeld ∇ aus. • Die Rotation nimmt ein Vektorfeld A an und gibt ein neues Vektorfeld ∇ × A aus. • Die Divergenz nimmt ein Vektorfeld A entgegen und gibt ein Skalarfeld ∇ · A zurück. Eingangs wurde der Gradient aus dem Ausdruck ∂nˆ (rr ) = (nˆ · ∇)(rr ) konstruiert. Dieser kann auf einen beliebigen Vektor v zu ∂v (rr ) = (vv · ∇)(rr ) verallgemeinert werden. Es bleibt noch offen, wie der Ableitungsoperator (vv · ∇)
514
8 Vektoranalysis
auf ein Vektorfeld A wirkt. Da sich der Ableitungsoperator als (vv · ∇) = vi ∂i = vx ∂x + v y ∂ y + vz ∂z ausdrücken lässt, stellt er einen skalaren Operator dar, der auf jede Komponente des Vektorfeldes gemäß ⎛
⎞ (vv · ∇)A x A = ⎝(vv · ∇)A y ⎠ (vv · ∇)A (vv · ∇)A z
(8.66)
wirkt. Damit lässt sich die Taylor-Entwicklung eines Vektorfeldes (8.4) in erster Ordnung durch A (rr0 + r ) ≈ A (rr 0 ) +
3 ∂ A ∂r i=1
i r =rr 0
(rr − r 0 )i
= A (rr 0 ) + ((rr − r 0 ) · ∇) A ausdrücken. Normalenvektoren von Flächen Mit dem anschaulichen Verständnis des Gradienten lässt sich auch eine andere Art Konstruktion von Normalenvektoren auf Oberflächen verstehen. Es gibt die Möglichkeiten eine ˜ Oberfläche im Dreidimensionalen durch eine Skalarfunktion F(x, y, z) zu beschreiben, die einen festen Wert C annehmen muss. Dieser konstante Wert kann in die Funktion durch ˜ F(x, y, z) = F(x, y, z) − C = 0 hineindefiniert werden. Diese stellt einen Zusammenhang zwischen drei zuvor unabhängigen Komponenten her. Dadurch sind diese nicht mehr vollständig unabhängig auf der Oberfläche und die Anzahl der Freiheitsgrade wird um 1 verringert. Dies ist auch der Grund, warum sich eine Fläche alternativ durch eine Formulierung mit zwei Parametern a und b in der Form r = r (a, b) beschreiben lässt, wie es in Abschn. 8.3.2 getan wurde. Wird nun aber der Gradient der Funktion F(x, y, z) gebildet, so zeigt dieser in die Richtung des stärksten Anstiegs der Funktion F. Da die Funktion F auf der Oberfläche den Wert null annimmt, wird der Gradient nie entlang der Fläche zeigen, da es hier keine Änderung des Funktionswertes gibt. Die Richtung, in die sich die Funktion F am meisten ändern wird, ist diejenige, die keine Anteile parallel zur Oberfläche selbst hat, die also senkrecht zur Oberfläche steht. Somit lässt sich ein Normalenvektor gemäß grad(F(x, y, z)) fˆ = | grad(F(x, y, z)) | konstruieren.
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
8.5.2
515
Zweite Ableitungen
Ebenso lassen sich auch zweite Ableitungen bilden. Dabei ist die Einführung des LaplaceOperators vonnöten. Dessen Wirkung auf ein Skalarfeld ist in kartesischen Koordinaten durch ≡ ∂x2 + ∂ y2 + ∂z2 = ∂i ∂i
(8.67)
gegeben. Anschaulich kann der Laplace-Operator wie folgt aufgefasst werden. Eine zweite Ableitung bildet die Summe der Steigungen in zwei unterschiedliche Richtungen f (x + ) − f (x) + f (x − ) − f (x) d2 f (x) = lim , →0 dx 2 2 wobei der linke Ausdruck mit der Steigung in positiver x-Richtung und der rechte Ausdruck mit der Steigung in negativer x-Richtung verknüpft sind. Es werden im Ausdruck des Laplace-Operators also insgesamt 6 Steigungen aufaddiert. Würde durch die Zahl der Punkte geteilt werden, so entspräche dies der Mittelung der Steigung in deinem infinitesimalen Oktaeder um den betrachteten Raumpunkt r . Im Falle der sogenannten Laplace-Gleichung = 0 lässt sich die Deutung noch etwas umformulieren, da vor der Betrachtung der Limits die Laplace-Gleichung die Form (x, y, z) (x + ) + (x − ) + (y + ) + (y − ) + (z + ) + (z − ) −6 =0 2 2
annimmt. Dabei wurden aus Platzgründen nur die Abhängigkeiten mit einer Änderung angegeben; die jeweils anderen Komponenten von r = (x, y, z) bleiben unverändert. Dies zeigt die Züge einer Mittelung über die Punkte des Oktaeders, doch wird diese mit dem Wert der Funktion am Punkt r verknüpft. Anschaulich besagt die Laplace-Gleichung also, dass der Funktionswert an der Stelle r dem Mittel der Funktionswerte der Punkte auf einer infinitesimalen Umgebung um den Punkt r entspricht. Auf ein Vektorfeld wirkt der Laplace-Operator wegen seiner skalaren Gestalt komponentenweise, also ist die Wirkung durch ⎛ ⎞ A x A ≡ ⎝A y ⎠ (8.68) A A z definiert.
8.5.3
Produkt- und andere Rechenregeln
Wie auch im eindimensionalen Fall, lassen sich auch Produktregeln und „Kettenregeln“ für die Operationen der Vektoranalysis finden. Zunächst sollen die Produktregeln für die
516
8 Vektoranalysis
jeweils erste Ableitung betrachtet werden. Später sollen „Kettenregeln“ durch die Ableitung von Ableitungen betrachtet werden. Obwohl die Regeln nur für kartesische Koordinaten hergeleitet werden, lassen sie sich immer in Vektorform darstellen, die sie auch in anderen Koordinatensystemen wie den Kugel- und Zylinderkoordinaten gültig macht. Sie sind damit koordinatenunabhängig. Im Folgenden sollen und Skalarfelder sein, während A und B Vektorfelder bezeichnen. Produkte und ihre ersten Ableitungen Für die erste Ableitung gibt es zwei Arten von Produkten, die sich konstruieren lassen: 1. Produkte, die ein Vektorfeld ergeben: Diese Produkte sind durch A A
A×B
gegeben. 2. Produkte, die ein Skalarfeld ergeben: Diese Produkte sind durch
A·B
gegeben. Es gibt daher sechs mögliche Produktregeln: 1. Gradient aus dem Produkt zweier Skalarfelder: grad() = eˆ i ∂i () = ˆe i ∂i + eˆ i ∂i = grad() + grad() .
(8.69)
2. Gradient aus dem Skalarprodukt zweier Vektorfelder: A · B ) = grad(Ai Bi ) = eˆ j ∂ j (Ai Bi ) = Ai eˆ j ∂ j Bi + Bi eˆ j ∂ j Ai grad(A = Ai eˆ j (∂ j Bi − ∂i B j ) + Ai eˆ j ∂i B j + Bi eˆ j (∂ j Ai − ∂i A j ) + Bi eˆ j ∂i A j = Ai eˆ j k ji (∇ × B )k + (Ai ∂i )(ˆe j B j ) + Bi eˆ j k ji (∇ × A )k + (Bi ∂i )(ˆe j A j ) B ))k + (A A · ∇)B B + eˆ j jik Bi (rot(A A ))k + (B B · ∇)A A = eˆ j jik Ai (rot(B B ) + (A A · ∇)B B + B × rot(A A ) + (B B · ∇)A A. = A × rot(B
(8.70)
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
517
Dabei wurde ausgenutzt, dass sich Terme der Art ∂ j Ai − ∂i A j wegen k ji (∇ × A )k = k ji klm ∂l Am = (δ jl δim − δ jm δil )∂l Am = ∂ j Ai − ∂i A j durch das Kreuzprodukt über ∂ j Ai − ∂i A j = k ji (∇ × A )k darstellen lassen. 3. Rotation aus dem Produkt eines Skalarfeldes und eines Vektorfeldes: A ) = eˆ i i jk ∂ j (Ak ) = ˆe i i jk ∂ j Ak + eˆ i i jk (∂ j )Ak rot(A A ) − eˆ i ik j Ak (grad()) j = rot(A A ) − A × grad() . = rot(A
(8.71)
4. Rotation aus dem Kreuzprodukt zweier Vektorfelder: A × B ) = eˆ i i jk ∂ j (A A × B )k = eˆ i i jk ∂ j (klm Al Bm ) = eˆ i ki j klm ∂ j (Al Bm ) rot(A = eˆ i (δil δ jm − δim δ jl )∂ j (Al Bm ) = eˆ i ∂ j (Ai Bj ) − eˆ i ∂ j (A j Bi ) = eˆ i Ai ∂ j B j + B j ∂ j (ˆe i Ai ) − eˆ i Bi ∂ j A j − A j ∂ j (ˆe i Bi ) B ) + (B B · ∇)A A − B div(A A ) − (A A · ∇)B B. = A div(B
(8.72)
5. Divergenz aus dem Produkt eines Skalarfeldes und eines Vektorfeldes: A ) = ∂i (Ai ) = Ai ∂i + ∂i Ai = A grad() + div(A A) . div(A
(8.73)
6. Divergenz aus dem Kreuzprodukt zweier Vektorfelder: A × B ) = ∂i (A A × B )i = ∂i i jk A j Bk = i jk (A j ∂i Bk + Bk ∂i A j ) div(A = −A j jik ∂i Bk + Bk ki j ∂i A j = Bk (∇ × A )k − A j (∇ × B ) j A ) − A · rot(B B) . = B · rot(A
(8.74)
Regeln zu zweiten Ableitungen Es gibt bei zweiten Ableitungen insgesamt vier mögliche Regeln, um Ableitungen von Ableitungen zu bilden. Dies kann damit begründet werden, dass es zwei Kategorien von
518
8 Vektoranalysis
ersten Ableitungen gibt: eine, bei der die erste Ableitung ein Skalarfeld ist, worauf nur der Gradient angewendet werden kann, und eine zweite, bei der die erste Ableitung ein Vektorfeld ergibt, auf die dann sowohl Rotation als auch Divergenz anwendbar sind. Damit ergeben sich bei erster Zählung zwar 1 + 2 × 2 = 5 Regeln, jedoch sind zwei voneinander abhängig. 1. Rotation eines Gradienten: rot(grad()) = eˆ i i jk ∂ j (grad())k = eˆ i i jk ∂ j ∂k = 0.
(8.75)
2. Divergenz eines Gradienten: div(grad()) = ∂i (grad())i = ∂i ∂i = .
(8.76)
3. Divergenz einer Rotation: A )) = ∂i (rot(A A ))i = ∂i i jk ∂ j Ak = i jk ∂i ∂ j Ak = 0. div(rot(A
(8.77)
4. Rotation einer Rotation bzw. Gradient einer Divergenz: A )) = eˆ i i jk ∂ j (rot(A))k = eˆ i i jk ∂ j klm ∂l Am rot(rot(A = eˆ i ki j klm ∂ j ∂l Am = eˆ i (δil δ jm − δim δ jl )∂ j ∂l Am = eˆ i ∂ j ∂i A j − eˆ i ∂ j ∂ j Ai = (ˆe i ∂i )(∂ j A j ) − ∂ j ∂ j eˆ i Ai A ) − A A = eˆ i ∂i div(A A )) − A A. = grad(div(A
(8.78)
Eine entscheidende Notiz zur ersten Regel ist folgende: Zwar ist die Rotation eines Gradientenfeldes immer null, aber falls die Rotation eines Vektorfeldes A null ist, muss dieses nicht zwangsweise durch den Gradienten eines Skalarfeldes darstellbar sein. Beispielsweise darf ein Vektorfeld keine Polstellen oder sonstige Löcher im Definitionsbereich aufweisen. Es soll dazu das Beispiel ⎛ ⎞ −y 1 ⎝ A= 2 x ⎠ x + y2 0 betrachtet werden. Dieses Vektorfeld hat aufgrund von ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ −y ⎞ ⎛ 0 ∂x 0 x 2 +y 2 ⎟ ⎝ ⎠ ⎜ x ⎟ ⎜ ⎝ ⎠ 0 A ) = ∂ y × ⎝ x 2 +y 2 ⎠ = ⎝ rot(A ⎠= 0 2(x 2 +y 2 )−2x 2 −2y 2 0 ∂z 0 2 2 2 (x +y )
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
519
eine verschwindende Rotation. Doch dieses Vektorfeld kann nicht durch einen Gradienten dargestellt werden. Der Grund dafür ist eine Definitionslücke an der Stelle r = 0 .
8.5.4
In krummlinigen Koordinaten
Der Gradient eines Skalarfeldes oder die Rotation oder die Divergenz eines Vektorfeldes sind ebenfalls Skalar- oder Vektorfelder im Raum und abhängig von den betrachteten Feldern. Deshalb sollten sie nicht von der Wahl des Koordinatensystems abhängen. Da aber die Komponenten anders beschrieben werden, werden sich sowohl die Ableitungen selbst wie auch die Basisvektoren wesentlich verändern. Für eine koordinatenspezifische Darstellung ist es also nötig zu betrachten, wie sich diese Operationen ändern. Es soll zuerst ein etwas verallgemeinerter Fall diskutiert werden, bevor die wichtigen Spezialfälle der Zylinder- und Kugelkoordinaten explizit aufgegriffen werden. Die Diskussion in diesem Abschnitt ist ausgesprochen technisch; wichtig sind die Ergebnisse der Gl. (8.83) bis (8.94). Zunächst sollte daran erinnert werden, dass ein Vektor im Raumrr über drei Freiheitsgrade verfügt und somit durch die Angabe von drei Größen gegeben ist. In kartesischen Koordinaten sind dies die Komponenten auf der x-, y- und z-Achse, in Zylinderkoordinaten der Abstand zur z-Achse s, der Winkel φ und die Koordinate z, während in Kugelkoordinaten der Abstand zum Ursprung r , der Höhenwinkel θ und der Azimut φ betrachtet werden. In einem anderen Koordinatensystem sollen die neuen Parameter mit a, b und c bezeichnet werden, sodass r als Funktion r = r (a, b, c) dieser Parameter aufgefasst werden kann. Hierbei ist wichtig, dass die Parameter voneinander unabhängig sind, also ∂ai = δi j ∂a j ∂rr gilt. Die Änderung des Vektors bei Variation dieser Parameter kann durch die Ableitung ∂a i bestimmt werden. Dadurch ergeben sich drei Vektoren, die voneinander linear unabhängig, aber nicht zwangsweise orthogonal sein werden. Diese drei Vektoren
−1 ∂rr ∂rr eˆ a = ∂a ∂a
−1 ∂rr ∂rr eˆ b = ∂b ∂b
−1 ∂rr ∂rr eˆ c = ∂c ∂c
können nach Normierung als eine Basis des dreidimensionalen Raums dienen. Im Folgenden werden kartesische Basisvektoren mit lateinischen Subskripten bezeichnet, also eˆ i und die neuen Basisvektoren mit tiefgestelltem a und dem entsprechenden Subskript, also eˆ ai . Die Komponenten der neuen Basisvektoren, ausgedrückt in kartesischen Koordinaten sind dann
520
8 Vektoranalysis
als ∂rr eˆ ai j = ∂a
−1 ∂r j ∂a i i
gegeben. Die auftretenden Ableitungen sind mit den Komponenten der Jacobi-Matrix ∂rr ∂ri eˆ a = Ji j = j i ∂a j ∂a j aus Abschn. 8.3.5 verknüpft. Diese lässt sich nämlich auch als ein Zeilenvektor von Spaltenvektoren der Art J=
∂rr
∂rr ∂rr ∂a ∂b ∂c
schreiben. Damit beinhaltet sie die neuen Basisvektoren, die aber noch nicht um ihren Betrag zu Einheitsvektoren korrigiert sind. Es sollen hier solche Koordinaten (a, b, c) betrachtet werden, in denen die so entstehenden Basisvektoren ein Orthonormalsystem17 gemäß eˆ ai × eˆ a j = i jk eˆ ak bilden. Mit diesen neuen Basisvektoren lässt sich ein Vektor durch seine Komponenten bezüglich dieser als A = eˆ i Ai = eˆ a j Aa j darstellen. Durch eine Projektion lässt sich so Ai = eˆ i · A = eˆ i · eˆ a j Aa j = eˆ a j i Aa j finden. Da hier Differentialoperatoren betrachtet werden, muss das Transformationsverhalten der Ableitungen gefunden werden. Dies geschieht mittels der Kettenregel ∂a j ∂ ∂ = , ∂ri ∂ri ∂a j die eine Transformation mit der Inversen der Jacobi-Matrix J −1 darstellt. Da es sich bei den Basisvektoren um ein Orthonormalsystem handelt, kann die inverse Matrix sofort bestimmt werden. Ihre Zeilen müssen sich aus den Basisvektoren, korrigiert um den Betrag der ursprünglichen Ableitungen, zusammensetzen und somit durch
17 Da schlussendlich die für die Physik wichtigen Fälle von Zylinder- und Kugelkoordinaten betrach-
tet werden, soll diese Einschränkung erlaubt sein.
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
(J −1 )i j =
521
∂rr −1 ∂ai = eˆ ai j ∂r j ∂ai
gegeben sein. Die Probe lässt sich über die Rechnung
(J −1 J )i j =
∂rr −1 ∂rr ∂rr −1 ∂rr ∂ai ∂rk eˆ a eˆ a · eˆ a ˆ = = e aj k i k i j ∂rk ∂a j ∂ai ∂a j ∂ai ∂a j −1 ∂rr ∂rr δi j = δi j = ∂ai ∂a j
vollziehen. Damit gilt dann für die Ableitung schlussendlich ∂rr −1 ∂a j ∂ ∂ ∂a = = eˆ a j i j ∂ri ∂ri ∂a j ∂a j als Transformationsvorschrift, und es können so die Operatoren der Vektoranalysis gefunden werden. Gradient Der Gradient eines Skalarfeldes ist in kartesischen Koordinaten durch grad() = eˆ i ∂i gegeben. Für den Gradienten in neuen Koordinaten wird eine Komponente mittels eines neuen Basisvektors herausprojiziert. Ebenso werden die Ableitungen ersetzt, und über die Rechnung ∂rr −1 ∂a eˆ a j · grad() = eˆ a j · eˆ i ∂i = eˆ a j i eˆ ak i k ∂ak −1 −1 ∂rr ∂a = δ jk ∂rr ∂a = eˆ a j · eˆ ak k k ∂a ∂ak k −1 ∂rr ∂a = j ∂a j
ergibt sich grad() =
3 j=1
∂rr eˆ a j ∂a
j
−1 ∂a j
(8.79)
als Ausdruck des Gradienten in krummlinigen Koordinaten. Es zeigt sich, dass hier eine nahezu naive Übertragung des Gradientenbegriffs auf die krummlinigen Koordinaten mög-
522
8 Vektoranalysis
lich ist. Dabei werden die Ableitungen nach den Koordinaten (a, b, c) ersetzt durch effektive Ableitungen, die Beträge der Ableitungen des Ortsvektors berücksichtigen. Aus physikalischer Sicht kann dies wie folgt aufgefasst werden: Die Ableitungen im Raum tragen die Dimension einer inversen Länge. Da beispielsweise in Zylinderkoordinaten die zweite Koordinate φ ein dimensionsloser Winkel ist, ist dessen Ableitung auch dimensionslos. Durch den zusätzlichen Faktor von 1s wird die Dimension der inversen Länge hergestellt. Rotation In kartesischen Koordinaten ist die Rotation eines Vektorfeldes A durch A ) = eˆ i i jk ∂ j Ak rot(A gegeben. Es soll erneut eine Komponente in den neuen Koordinaten herausprojiziert werden, was über die Rechnung A )]al = eˆ al · eˆ i i jk ∂ j Ak [rot(A
∂rr −1 ∂a = eˆ al i i jk eˆ am j m eˆ an k Aan ∂am ∂rr −1 ∂a = eˆ al × eˆ am k m eˆ an k Aan ∂am ∂rr −1 ∂a = lmo eˆ ao k m eˆ an k Aan ∂am ∂rr −1 ∂a Aa = lmo eˆ ao k eˆ an k m n ∂am −1 ∂rr ∂am eˆ an k + Aan lmo eˆ ao k ∂am ∂rr −1 ∂rr −1 ∂a Aa + Aa lmo eˆ a ∂am eˆ an k = lmn m n n o k ∂am ∂am
geschieht. Dabei wurde beim Übergang von der zweiten in die dritte Zeile ausgenutzt, dass die Kombination der Komponenten der Basisvektoren und des Levi-Civita-Symbols der Bildung eines Kreuzprodukts entspricht. Danach wurde die Orthonormalität verwendet. Anschließend wurde die Produktregel der Ableitungen angewendet, um im ersten verbleibenden Term erneut die Orthonormalität auszunutzen. Die Rotation eines Vektorfeldes kann damit als ∂rr −1 ∂rr −1 A ) = eˆ al lmn rot(A ∂am Aan + Aan lmo eˆ ao k ∂am eˆ an k (8.80) ∂am ∂am ausgedrückt werden. Der erste resultierende Term entspricht einer naiven Übertragung des Rotationsbegriffs in die neuen Koordinaten. Die Korrektur der Ableitungen durch den Betrag einer Ableitung des Ortsvektors war bereits im Fall des Gradienten zu sehen. Es wird also das Kreuzprodukt eines Spaltenvektors, welcher die korrigierten Ableitungen beinhaltet, mit
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
523
einem Spaltenvektor, der die Komponenten des neuen Vektors beinhaltet, gebildet. Dabei entsprechen die Komponenten des Ergebnisvektors den einzelnen neuen Komponenten. Also gilt beispielsweise ⎡⎛ ∂rr −1 ⎞ ⎛ ⎞⎤ ∂a −1 −1 Aa ∂rr ∂rr ⎢⎜ ∂a ∂rr −1 ⎟ × ⎝ A ⎠⎥ = ∂c Aa − ∂a Ac ⎣⎝ ∂b ∂b ⎠ b ⎦ ∂c ∂a ∂rr −1 Ac ∂c ∂c
2
für die b-Komponente des ersten Ausdrucks. Der zweite Term beinhaltet nicht triviale, aber exakte Korrekturterme, die die Abhängigkeiten der Basisvektoren berücksichtigen und für die jeweilig gewählten Koordinaten zu berechnen sind. Divergenz Die Divergenz eines Vektorfeldes A ist in kartesischen Koordinaten durch A ) = ∂i Ai div(A gegeben. Durch das Einsetzen des Transformationsverhaltens der Ableitungen und der Komponenten lässt sich die Rechnung ∂rr −1 ∂a eˆ a Aa A ) = eˆ a j i div(A k j k i ∂a j −1 ∂rr −1 ∂a Aa + Aa eˆ a ∂rr ∂a j eˆ ak i = eˆ a j i eˆ ak i j k k j i ∂a j ∂a j ∂rr −1 ∂rr −1 ∂a j Aa j + Aak eˆ a j i ∂a j eˆ ak i = ∂a j ∂a j durchführen, um die Divergenz −1 ∂rr −1 ∂a Aa + Aa eˆ a ∂rr A ) = div(A ∂a j eˆ ak i j j k j i ∂a j ∂a j
(8.81)
zu erhalten. Beim Übergang in die letzte Zeile wurde im ersten Ausdruck die Orthonormalität ausgenutzt. Es zeigt sich hier wieder, dass der erste Term einer naiven Übersetzung des Divergenzbegriffs auf die krummlinigen Koordinaten entspricht, während der zweite Term, der Korrekturterm, aus der Koordinatenabhängigkeit der Basisvektoren stammt. Weitere Differentialoperatoren Mit diesen Kenntnissen könnte nun auch ein allgemeiner Ausdruck für den Laplace-Operator gefunden werden. Es ist allerdings zweckdienlich diesen erst in konkreten Koordinatensystemen zu bestimmen.
524
8 Vektoranalysis
Es sei noch darauf hingewiesen, dass sich die Richtungsableitung v · ∇ durch ∂rr −1 ∂a (vv · ∇) = vi ∂i = eˆ ak i vak eˆ a j i j ∂a j −1 −1 ∂rr ∂a = va ∂rr ∂a = δk j vak j j j ∂a j ∂a j ausdrücken lässt. Bei einer Anwendung auf ein Skalarfeld kann er in dieser Form nach ∂rr (vv · ∇) = va j ∂a
j
−1 ∂a j
(8.82)
verwendet werden. Zylinder und Kugelkoordinaten Es sollen nun die konkreten Fälle der Zylinder- und Kugelkoordinaten betrachtet werden: • Zylinderkoordinaten In Zylinderkoordinaten war der Ortsvektor durch ⎞ s cos (φ) r (s, φ, z) = ⎝ s sin (φ) ⎠ z ⎛
gegeben. Die Ableitungen des Ortsvektors lassen sich so zu ⎞ ⎛ cos (φ) ∂rr = ⎝ sin (φ) ⎠ ∂s 0
⎞ −s sin (φ) ∂rr = ⎝ s cos (φ) ⎠ ∂φ 0 ⎛
bestimmen, während ihre Beträge durch ∂rr ∂rr =1 =s ∂s ∂φ
⎛ ⎞ 0 ∂rr = ⎝0⎠ ∂z 1
∂rr =1 ∂z
gegeben sind. Damit sind die neuen Basisvektoren durch ⎞ cos (φ) eˆ s = ⎝ sin (φ) ⎠ 0 ⎛
⎞ − sin (φ) eˆ φ = ⎝ cos (φ) ⎠ 0 ⎛
⎛ ⎞ 0 eˆ z = ⎝0⎠ 1
bekannt und entsprechen den in Abschn. 1.6.4 motivierten Basisvektoren. Sie bilden in der Reihenfolge (s, φ, z) ein rechtshändiges Orthonormalsystem. Nach den obigen Überlegungen, die zu Gl. (8.79) führten, lässt sich der Gradient so durch
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
grad() =
3 j=1
= eˆ s
∂rr eˆ a j ∂a
j
525
−1 ∂a j
∂ 1 ∂ ∂ + eˆ φ + eˆ z ∂s s ∂φ ∂z
(8.83)
schreiben. Die Rotation war durch Gl. (8.80) ∂rr A )]al = lmn [rot(A ∂a
m
−1 ∂a Aa + Aa lmo eˆ a ∂rr m n n o k ∂a
m
−1 ∂am eˆ an k
zu bestimmen. Der erste Term entsprach darin einer naiven Übersetzung des Kreuzprodukts, wobei die Komponenten der Vektoren den Komponenten im neuen Koordinatensystem entsprechen. Somit lässt sich dieser erste Teil aus ⎞ ⎛ ⎞ ⎛1 ⎞ As ∂s s ∂φ A z − ∂ z A φ ⎝ 1 ∂ φ ⎠ × ⎝ A φ ⎠ = ⎝ ∂ z A s − ∂s A z ⎠ s ∂z Az ∂s Aφ − 1s ∂φ As ⎛
bestimmen. Für den zweiten Term müssen Ableitungen der Basisvektoren betrachtet werden. Die Basisvektoren sind nur von φ abhängig, und somit muss der Index m den Wert 2 annehmen. Die Ableitungen können als Matrix aufgeschrieben werden, mit dem Zeilenindex k und dem Spaltenindex n und nehmen so die Form ⎞ ⎛ − sin(φ) − cos(φ) 0 1 1 ∂ eˆ an k = ⎝ cos(φ) − sin(φ) 0⎠ s ∂φ s 0 0 0 an. Die Summation über k entspricht der Multiplikation des o-ten Einheitsvektors mit den einzelnen Spaltenvektoren der Matrix. Für eine weitere Auswertung müssen konkrete Werte für l gewählt werden: – l = 1: Es verbleibt nur o = 3. Dies entspricht dem Einheitsvektor in z-Richtung, der bei der Multiplikation mit jeder der drei Spalten eine Null ergibt. Somit gibt es keinen weiteren Beitrag. Es verbleibt also A) = eˆ s · rot(A
1 ∂φ A z − ∂z Aφ s
für die s-Komponenten. – l = 2: Da bereits m = 2 war, ist das Levi-Civita-Symbol null, und auch hier gibt es keinen weiteren Beitrag. Somit verbleibt
526
8 Vektoranalysis
A ) = ∂z As − ∂s A z eˆ φ · rot(A für die φ-Komponente. – l = 3: Es verbleibt für o nunmehr die Wahl Eins. Dies entspricht dem Einheitsvektor in s-Richtung. Da die erste Spalte der Matrix der Basisvektor in φ-Richtung ist und senkrecht auf dem in s-Richtung steht, gibt es hier keinen Beitrag. Die zweite Spalte ist der negative Basisvektor in s-Richtung, daher gibt es den Beitrag − 1s . Die dritte Spalte ist null, und es gibt keinen Beitrag. Dies lässt sich als Zeilenvektor mit Spaltenindex n aufschreiben und nimmt die Form ∂rr −1 1 ˆ , 0 eˆ a1 k ∂ e = 0, − a a n k 2 ∂a2 s an. Da die Summe über n noch auszuführen ist, ergibt sich ⎛ ⎞ As ∂rr −1 1 1 ⎝ e e ˆ ˆ ∂a2 an k = 321 0, − , 0 · Aφ ⎠ = Aφ Aan 32o ao k ∂a2 s s Az als Beitrag für den Korrekturterm. Für die dritte Komponente der Rotation lässt sich somit insgesamt
1 1 1 ∂ ∂ A ) = ∂s Aφ − ∂φ As + Aφ = (s Aφ ) − As eˆ z · rot(A s s s ∂s ∂φ schreiben. Dabei wurde die Produktregel rückwärts über 1 ∂ 1 1 (s Aφ ) = s∂s Aφ + Aφ = ∂s Aφ + Aφ s ∂s s s ausgenutzt. Die Rotation in Zylinderkoordinaten ist somit insgesamt durch
∂ Aφ ∂ Az ∂ As 1 ∂ 1 ∂ Az ∂ As A ) = eˆ s − + eˆ φ − + eˆ z (s Aφ ) − rot(A s ∂φ ∂z ∂z ∂s s ∂s ∂φ (8.84) gegeben. Für die Divergenz wurde oben die Formel (8.81) ∂rr −1 ∂rr −1 A e ˆ div(A ) = ∂a j Aa j + Aak a j i ∂a j eˆ ak i ∂a j ∂a j gefunden. Der erste Term ist dabei wieder die naive Übersetzung in die neuen Koordinaten und lässt sich mit
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
∂rr ∂a
527
−1 ∂a Aa = ∂ As + 1 ∂ Aφ + ∂ A z j j ∂s s ∂φ ∂z j
berechnen. Für den zweiten Term werden wieder die Ableitungen der Ortsvektoren benötigt, die bereits bei der Rotation bestimmt wurden. Die gefundene Matrix ⎛ − sin (φ) − cos (φ) 1⎝ 1 ∂ eˆ ak i = cos (φ) − sin (φ) s ∂φ s 0 0
⎞ 0 0⎠ 0
kann übernommen werden, hat nun aber den Zeilenindex i und den Spaltenindex k. Die Summe über i entspricht der Multiplikation des j-ten Einheitsvektors mit den einzelnen Spalten. Da j aber die Ableitung festlegt und 2 war, wird der φ-Einheitsvektor mit den einzelnen Spalten multipliziert. Da die erste Spalte auch der φ-Einheitsvektor ist, gibt es hier den Beitrag 1s . Von den anderen Spalten gibt es keinen Beitrag. Damit ergibt sich der Zeilenvektor 1 , 0, 0 s mit Spaltenindex k. Dieser ist nun zu multiplizieren mit dem Spaltenvektor, welcher die Komponenten des Vektorfeldes beinhaltet, um so ⎛ ⎞ As ∂rr −1 1 1 ⎝ ˆ Aak eˆ a j i , 0, 0 · ∂ e = A aj ak i φ ⎠ = As ∂a j s s Az zu ergeben. Und somit ist die Divergenz in Zylinderkoordinaten durch 1 ∂ Aφ ∂ Az 1 ∂ As + + + As ∂s s ∂φ ∂z s ∂ Az 1 ∂ 1 ∂ Aφ (s As ) + + = s ∂s s ∂φ ∂z
A) = div(A
(8.85)
gegeben. Hierbei wurde im letzten Schritt für die Ableitung in s-Richtung erneut die Produktregel rückwärts ausgenutzt. Die Ergebnisse für Divergenz und Gradient ∂ 1 ∂ ∂ + eˆ φ + eˆ z ∂s s ∂φ ∂z ∂ Az 1 ∂ Aφ 1 ∂ A) = (s As ) + + div(A s ∂s s ∂φ ∂z
grad() = eˆ s
können kombiniert werden um den Laplace-Operator in Zylinderkoordinaten über
528
8 Vektoranalysis
∂ 1 ∂ 1 ∂ ∂ ∂ 1 ∂ s + + = div(grad()) = s ∂s ∂s s ∂φ s ∂φ ∂z ∂z ∂ 1 ∂ 2 ∂ 2 1 ∂ s + 2 + = s ∂s ∂s s ∂φ 2 ∂z 2
(8.86)
herzuleiten. Im letzten Schritt wurde die Unabhängigkeit von s und φ ausgenutzt. Für Richtungsableitung lässt sich schlussendlich ∂rr v · ∇ = va j ∂a = vs ∂s +
j
−1 ∂a j
vφ ∂φ + v z ∂ z s
schreiben, was angewandt auf ein Skalarfeld den Ausdruck (vv · ∇) = vs
∂ vφ ∂ ∂ + + vz ∂s s ∂φ ∂z
(8.87)
zur Folge hat. • Kugelkoordinaten In Kugelkoordinaten war der Ortsvektor durch ⎞ ⎛ cos (φ) sin (θ ) r (r , θ, φ) = r ⎝ sin (φ) sin (θ ) ⎠ cos (θ ) gegeben. Dabei nimmt der Elevationswinkel Werte aus [0, π ] an, während der Azimut Werte aus dem Intervall [0, 2π ) überstreift. Damit ist sin(θ) stets positiv. Daher gilt auch sin2 (θ) = sin(θ). Zur Abkürzung sollen Sinus und Kosinus in Zukunft mit s und c bezeichnet werden und ihr Argument als Subskript tragen. Es ist also beispielsweise sin(φ) = sŒ . Die Ableitungen des Ortsvektors sind damit durch ⎛ ⎞ cφ sθ ∂rr = ⎝sφ sθ ⎠ ∂r cθ
⎛ ⎞ c φ cθ ∂rr = r ⎝sφ cθ ⎠ ∂θ −sθ
gegeben, und ihre Beträge lassen sich zu ∂rr ∂rr =r =1 ∂θ ∂r bestimmen. Damit sind die Basisvektoren durch ⎛ ⎛ ⎞ ⎞ cφ sθ c φ cθ eˆ θ = ⎝sφ cθ ⎠ eˆ r = ⎝sφ sθ ⎠ cθ −sθ
⎞ ⎛ −sφ sθ ∂rr = r ⎝ cφ sθ ⎠ ∂φ 0 ∂rr = r sθ ∂φ ⎞ −sφ eˆ φ = ⎝ cφ ⎠ 0 ⎛
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
529
gegeben und entsprechen den bereits in Abschn. 1.6.4 gefundenen Basisvektoren. Sie bilden in dieser Reihenfolge (r , θ, φ) ein rechtshändiges Orthonormalsystem. Nach den obigen Überlegungen lässt sich aus Gl. (8.79) über grad() =
3 j=1
= eˆ r
∂rr eˆ a j ∂a
j
−1 ∂a j
∂ ∂ 1 ∂ 1 + eˆ θ + eˆ φ ∂r r ∂θ r sin(θ) ∂φ
(8.88)
der Gradient in Kugelkoordinaten bestimmen. Die Rotation war durch Gl. (8.80) −1 ∂rr −1 ∂a Aa + Aa lmo eˆ a ∂rr A )]al = lmn ∂am eˆ an k [rot(A m n n o k ∂am ∂am zu bestimmen. Der erste Term entsprach darin einer naiven Übersetzung des Kreuzprodukts, wobei die Komponenten der Vektoren den Komponenten im neuen Koordinatensystem entsprechen und somit den Ausdruck ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 1 ∂ A − ∂ A ∂r Ar θ φ φ θ r sin(θ) ⎜r 1 ⎜ 1 ⎟ ⎟ ∂φ Ar − ∂r Aφ ⎠ ⎝ r ∂θ ⎠ × ⎝ Aθ ⎠ = ⎝ r sin(θ) 1 Aφ ∂r Aθ − r1 ∂θ Ar r sin(θ) ∂φ zur Folge haben. Für den zweiten Term müssen Ableitungen der Basisvektoren betrachtet werden. Die Basisvektoren sind nur von θ und φ abhängig, und somit muss der Index m den Wert 2 oder 3 annehmen. Die Ableitungen können als Matrix aufgeschrieben werden, mit dem Zeilenindex k und dem Spaltenindex n und nehmen so die Form ⎞ ⎛ −1 cφ cθ −cφ sθ 0 ∂ 1 1 ∂a eˆ a eˆ an k = ⎝sφ cθ −sφ sθ 0⎠ n k = 2 r ∂θ r 2 −sθ −cθ 0
∂rr ∂a sowie
⎞ ⎛ −1 −sφ sθ −sφ cθ −cφ ∂ 1 1 ∂a eˆ a ⎝ cφ sθ cφ cθ −sφ ⎠ eˆ an k = n k = 3 r sin(θ) ∂φ r sin(θ) 3 0 0 0
∂rr ∂a
an. Die Summation über k entspricht der Multiplikation des o-ten Einheitsvektor mit den einzelnen Spaltenvektoren der Matrix. Für eine weitere Auswertung müssen konkrete Werte für l gewählt werden: – l = 1: Bei m = 2 verbleibt für o nunmehr die Wahl Drei, was einer Multiplikation mit dem
530
8 Vektoranalysis
Einheitsvektor in φ-Richtung entspricht. Dieser steht senkrecht auf allen Spalten, und es wird keinen Beitrag geben. Bei m = 3 verbleibt für o die Wahl Zwei, was einer Multiplikation mit dem Einheitsvektor in θ-Richtung entspricht. Es ergibt sich daher der Zeilenvektor cos(θ ) 0, 0, − r sin(θ) mit Spaltenindex n. Der schlussendliche Beitrag wird aus einer Multiplikation mit dem Spaltenvektor, welcher die neuen Komponenten beinhaltet, mittels ⎛ ⎞ Ar ∂rr −1 cos(θ) ⎝ ˆ · Aan 1mo eˆ ao k 0, 0, − ∂ e = A a a 132 θ⎠ m n k ∂am r sin(θ) Aφ cos(θ ) = Aφ r sin(θ) gebildet. Somit ist die radiale Komponente durch 1 1 cos(θ ) ∂θ Aφ − ∂φ Aθ + Aφ r r sin(θ ) r sin(θ)
∂ 1 ∂ Aφ sin(θ ) − Aθ = r sin(θ) ∂θ ∂φ
A) = eˆ r · rot(A
gegeben. Es wurde im letzten Schritt die Produktregel rückwärts 1 1 ∂ cos(θ ) Aφ sin(θ) = ∂θ Aφ + Aφ r sin(θ) ∂θ r r sin(θ) ausgenutzt, um die Terme zusammenzufassen. – l = 2: Wegen des Levi-Civita-Symbols kann es nur einen Beitrag geben, wenn m = 3 und somit o = 1 ist. Das entspricht einer Multiplikation mit dem radialen Einheitsvektor, und es ergibt sich der Zeilenvektor 1 0, 0, − , r mit dem der zweite Beitrag durch ⎛ ⎞ Ar ∂rr −1 1 ⎝ ˆ 0, 0, − · ∂ e = Aan 2mo eˆ ao k A a a 231 θ⎠ m n k ∂am r Aφ 1 = − Aφ r
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
531
gegeben ist. Damit wird die Elevationskomponente durch 1 1 ∂φ Ar − ∂r Aφ − Aφ r sin(θ) r
1 ∂ Ar ∂ 1 − r Aφ = r sin(θ) ∂φ ∂r
A) = eˆ θ · rot(A
bestimmt. Hierbei wurde im letzten Schritt wieder die Produktregel rückwärts gemäß Aφ 1 ∂ r Aφ = ∂r Aφ + r ∂r r ausgenutzt. – l = 3: Wegen des Levi-Civita-Symbols kann es nur einen Beitrag geben, falls m = 2 und damit o = 1, also eine Multiplikation mit dem radialen Einheitsvektor, ist. Es ergibt sich so der Zeilenvektor 1 0, − , 0 r mit Spaltenindex n. Für den Beitrag muss dieser mit dem Spaltenvektor der neuen Komponenten über ⎛ ⎞ Ar ∂rr −1 1 1 ⎝ ∂am eˆ an k = 321 0, − , 0 · Aθ ⎠ = Aθ Aan 3mo eˆ ao k ∂am r r Aφ verbunden werden. Und somit wird die azimutale Komponente durch 1 1 A ) = ∂r Aθ − ∂θ Ar + Aθ eˆ φ · rot(A r r
∂ = 1r (r Aθ ) − ∂θ Ar ∂r bestimmt. Dabei wurde im letzten Schritt, wie schon bei der Elevationskomponente, die Produktregel angewandt. Für die Rotation wird so die etwas längliche Formel
∂ ∂ ∂ Aθ 1 1 1 ∂ Ar A ) =ˆe r (Aφ sin(θ)) − + eˆ θ − (r Aφ ) rot(A r sin(θ) ∂θ ∂φ r sin(θ ) ∂φ ∂r
∂ Ar 1 ∂ + eˆ φ (r Aθ ) − (8.89) r ∂r ∂θ gefunden.
532
8 Vektoranalysis
Die Divergenz war durch die Formel (8.81) ∂rr A ) = div(A ∂a
j
−1 ∂a Aa + Aa eˆ a ∂rr j j k j i ∂a
j
−1 ∂a j eˆ ak i
zu bestimmen. Der erste Term ∂rr ∂a
−1 ∂ Aφ 1 ∂a Aa = ∂ Ar + 1 ∂ Aθ + j j ∂r r ∂θ r sin(θ) ∂φ j
ist dabei wieder die naive Übersetzung in die neuen Koordinaten. Für den zweiten Term werden wieder die Ableitungen der Ortsvektoren benötigt, die bereits bei der Rotation bestimmt wurden. Die gefundenen Matrizen ⎞ ⎛ −1 cφ cθ −cφ sθ 0 ∂a eˆ a = 1 ∂ eˆ a = 1 ⎝sφ cθ −sφ sθ 0⎠ 2 k i k i r ∂θ r 2 −sθ −cθ 0
∂rr ∂a und
⎞ ⎛ −1 −sφ sθ −sφ cθ −cφ ∂ 1 1 ∂a eˆ a = ⎝ cφ sθ cφ cθ −sφ ⎠ eˆ ak i = 3 k i r sin(θ ) ∂φ r sin θ 3 0 0 0
∂rr ∂a
können übernommen werden, haben nun aber den Zeilenindex i und den Spaltenindex k. Die Summe über i entspricht der Multiplikation des j-ten Einheitsvektors mit den einzelnen Spalten. Da durch j aber die Ableitung festgelegt war, lassen sich somit ∂rr −1 ∂a eˆ a = 1 eˆ θ ∂ eˆ a eˆ a2 i 2 k i k i i ∂a2 r ∂θ 1 , 0, 0 = r und ∂rr −1 ∂ 1 ∂a eˆ a = eˆ φ eˆ a3 i eˆ ak i 3 k i i ∂a3 r sin(θ) ∂φ 1 cos(θ ) , ,0 = r r sin(θ) berechnen. Diese beiden Vektoren müssen nun noch mit den Spaltenvektoren, welche die neuen Komponenten beinhalten,
8.5
Differentialoperatoren Gradient, Rotation und Divergenz
533
⎛ ⎞ Ar ∂rr −1 1 ⎝ Aθ ⎠ ˆ , 0, 0 · Aak eˆ a j i ∂ e = a a j k i ∂a j r Aφ
⎛ ⎞ Ar 1 cos(θ) ⎝ + , , 0 · Aθ ⎠ r r sin(θ) Aφ 2 cos(θ ) = Ar + Aθ , r r sin(θ)
multipliziert werden. Damit ist die Divergenz in Kugelkoordinaten durch ∂ Aφ 1 ∂ Aθ 1 2 cos(θ ) ∂ Ar + + + Ar + Aθ ∂r r ∂θ r sin(θ) ∂φ r r sin(θ)
∂ 1 ∂ 2 ∂ 1 r Ar + Aφ = 2 (Aθ sin(θ )) + r ∂r r sin(θ ) ∂θ ∂φ
A) = div(A
(8.90)
gegeben. Dabei wurde im letzten Schritt zweimal die Produktregel der Form 1 ∂ 2 2r 2 r Ar = ∂r Ar + 2 Ar = ∂r Ar + Ar r 2 ∂r r r ∂ 1 cos(θ ) 1 Aθ (Aθ sin(θ)) = ∂θ Aθ + r sin(θ) ∂θ r r sin(θ) ausgenutzt. Die Ergebnisse für Gradient und Divergenz ∂ ∂ 1 ∂ 1 + eˆ θ + eˆ φ ∂r r ∂θ r sin(θ ) ∂φ
∂ ∂ 1 1 ∂ 2 A r Ar + Aφ div(A ) = 2 (Aθ sin(θ )) + r ∂r r sin(θ ) ∂θ ∂φ
grad() = eˆ r
können kombiniert werden, um zu einem Ausdruck für den Laplace-Operator zu führen. Durch Einsetzen ergibt sich somit = div(grad())
∂ 1 ∂ 1 ∂ ∂ 1 ∂ 1 2 ∂ = 2 r + sin(θ) + r ∂r ∂r r sin(θ) ∂θ r ∂θ ∂φ r sin(θ) ∂φ
1 ∂ ∂ 1 ∂ 2 1 ∂ ∂ r2 + 2 sin(θ) + = 2 r ∂r ∂r r sin(θ) ∂θ ∂θ sin(θ ) ∂φ 2 als Laplace-Operator in Kugelkoordinaten. Gelegentlich wird der Laplace-Operator in Kugelkoordinaten auch in Radial- und Winkelanteil aufgespalten. Der Winkelanteil ist durch
534
8 Vektoranalysis
∂ 1 ∂ 2 1 ∂ sin θ + sin θ ∂θ ∂θ sin θ ∂φ 2
cos θ ∂ ∂2 1 ∂2 = + 2+ sin θ ∂θ ∂θ sin2 θ ∂φ 2
θ,φ =
(8.91)
gegeben, während der radiale Anteil durch 1 ∂ r = 2 r ∂r
2 ∂ r ∂r
(8.92)
bestimmt wird. Der gesamte Laplace-Operator wird über die Summe 1 ∂ = 2 r ∂r
1 2 ∂ r + 2 θ,φ ∂r r
(8.93)
bestimmt. Diese Separation führte in Abschn. 4 auch auf die Kugelflächenfunktionen. Die Richtungsableitung kann durch ∂rr v · ∇ = va j ∂a = vr ∂r +
j
−1 ∂a j
vφ vθ ∂θ + ∂φ r r sin(θ)
bestimmt werden. Bei Anwendung auf ein Skalarfeld lässt sich so der Ausdruck
(vv · ∇) = vr
vφ ∂ ∂ vθ ∂ + + ∂r r ∂θ r sin(θ) ∂φ
(8.94)
finden.
8.6
Integralsätze
8.6.1
Einleitung und Motivation
Die Integralsätze der Vektoranalysis stellen üblicherweise eine Verbindung zwischen Integralen einer Ableitung einer Funktion über ein geometrisches Objekt und einem Integral über die Funktion selbst über das geometrische Objekt, welches ersteres beschränkt, her. Dabei gilt, ein Volumen wird durch seine umgebende Fläche beschränkt. Eine Fläche wird durch einen Pfad beschränkt. Ein Pfad wird durch zwei Punkte, den Anfangs- und den Endpunkt beschränkt. Das beschränkende geometrische Objekt hat also stets eine um 1 verringerte Dimensionalität gegenüber dem Ausgangsobjekt. Es wird vom Rand des geometrischen
8.6
Integralsätze
535
Objekts gesprochen, dieser wird mit ∂ notiert. Der Rand eines Volumens V ist die Fläche ∂ V . Der Rand einer Fläche F ist der Weg ∂ F . Da es sich im Falle des Randes eines Weges P nur um zwei Punkte und somit um kein kontinuierliches geometrisches Objekt handelt, wird die Bezeichnung ∂ P nur selten verwendet. Da die Fläche um ein Volumen herum geschlossen ist, genauso wie ein Weg um eine Oberfläche geschlossen ist, wird dies in den jeweiligen Integralen durch die Kreise in den Integralzeichen ‹ ˛ df drr ∂V
∂F
deutlich gemacht. Eine Übertragung auf den Fall eines Weges würde mit der schematischen Übersetzung
B
˛ ∂P
≡ A
einhergehen. Dabei sind A und B der Anfangs- und der Endpunkt des Weges P .
8.6.2
Der Satz von Gauß
Der Satz von Gauß stellt einen Zusammenhang zwischen dem Integral der Divergenz eines Vektorfeldes A über ein Volumen V und einem Integral über das Vektorfeld A über den Rand des Volumens ∂ V her. Dieser Zusammenhang wird durch ‹
˚ V
A) = dV div(A
∂V
df · A
(8.95)
ausgedrückt. Die rechte Seite dieser Gleichung summiert die Vektoren des Feldes, welche durch die Oberfläche treten, auf. Dabei wird die Richtung der Vektoren auf den Normalenvektor der Oberfläche projiziert. Wie im Abschn. 8.5.1 bereits erwähnt, erlaubt dies die Veranschaulichung der Divergenz als Quellen und Senken des Feldes innerhalb des Volumens V . Zur Motivation der Gültigkeit soll zunächst ein Quader V Q in kartesischen Koordinaten betrachtet werden. In diesem Fall lässt sich das Volumenintegral durch das Element und die Begrenzungen dV = dx dy dz
ausdrücken. Über die Rechnung
a1 < x < a2 b1 < y < b2 c1 < z < c2
536
8 Vektoranalysis
˚
˚ VQ
A) = dV div(A
VQ
dx dy dz ∂x A x + ∂ y A y + ∂z A z
ˆb2 =
ˆc2 dy c1
a1
ˆc2 +
ˆa2 dz
dy ∂ y A y (x, y, z)
dx a1
b1
ˆa2
ˆb2
ˆc2
dx
c1
b1
ˆb2
dz ∂z A z (x, y, z)
dy
a1
ˆc2 dz [A x (a2 , y, z) − A x (a1 , y, z)]
dy c1
b1
ˆc2 +
ˆa2 dz
dx
c1
a1
ˆa2
ˆb2
+ =
ˆb2
c1
+
¨
dx ∂x A x (x, y, z)
dz
b1
=
ˆa2
dx
dy
a1
A y (x, b2 , z) − A y (x, b1 , z)
A z (x, y, c2 ) − A z (x, y, c1 )
b1
F yz
A (a2 , y, z) − A (a1 , y, z)] dy dz eˆ x · [A
¨
+ ¨ +
Fx y
¨ =
Fzx
F yz,2
A (x, b2 , z) − A (x, b1 , z)] dz dx eˆ y · [A A (x, y, c2 ) − A (x, y, c1 )] dx dy eˆ z · [A ¨
dy dz eˆ x · A (x, y, z) +
¨ + ‹ =
Fzx,2 Fx y,2
∂VQ
dy dz (−ˆe x ) · A (x, y, z)
¨
¨
+
F yz,1
dz dx eˆ y · A (x, y, z) +
Fzx,1
dz dx (−ˆe y ) · A (x, y, z)
¨ dx dy eˆ z · A (x, y, z) +
Fx y,1
dx dy (−ˆe z ) · A (x, y, z)
d f · A (x, y, z)
lässt sich der Satz von Gauß für diesen Quader beweisen. Dabei wurde im ersten Schritt die Definition der Divergenz in kartesisches Koordinaten eingesetzt. Danach wurde das Integral in drei separate Integrale aufgespalten. Dabei wurde auch direkt die Reihenfolge der
8.6
Integralsätze
537
Integration so verändert, dass die Anwendung des Hauptsatzes der Differential- und Integralrechnung bezüglich der Komponenten x, y und z Anwendung finden konnte. Dies wurde auch im folgenden Schritt getan, und es wurden die jeweils oberen und unteren Grenzen der Integrationen eingesetzt, wie aus der Vorüberlegung abzulesen war. Danach wurden die verbleibenden Komponenten als eine Projektion des Feldes A auf den jeweiligen Einheitsvektor umgeschrieben. Dadurch ergeben sich Flächenintegrale über Rechtecke in der yz-, zx- und x y-Ebene. Durch das Aufspalten der verbleibenden Integrale ist es möglich die negativen Vorzeichen zu den Einheitsvektoren zu schreiben. Dadurch ergeben sich aber die Flächenelemente der sechs, den Quader umschließenden Rechtecke, denn die Flächenelemente sind bei Volumen immer so gerichtet, dass sie immer nach außen zeigen. Damit bildet die Summe aller Integrale ein einziges Flächenintegral über die den Quader umschließende Oberfläche. Dieser Spezialfall des Quaders kann nun verwendet werden um ein Argument über die allgemeine Gültigkeit für ein beliebiges Volumen V anzubringen. Solch ein Volumen lässt sich aus vielen kleinen Quadern zusammensetzen. Für jeden dieser infinitesimalen Quader lässt sich dann dieser Spezialfall des Satzes von Gauß anwenden. Da die Flächenelemente immer nach außen zeigen, werden sich jene Integrale über sich berührende Oberflächen zweier benachbarter Quader gegenseitig aufheben, denn die Vorzeichen sind entgegengesetzt. Damit verbleiben aber nur die Oberflächenintegrale der Quader, die an keinen Nachbarquader anschließen, also am äußeren Rand des Volumens liegen. Dadurch wird aber die begrenzende Oberfläche des Volumens ∂ V beschrieben, wenn immer kleinere Quader bis zu einer infinitesimalen Größe betrachtet werden. Somit hat der Satz von Gauß eine allgemeine Gültigkeit für beliebige Volumen.
8.6.3
Der Satz von Stokes
Der Satz von Stokes stellt einen Zusammenhang zwischen dem Integral über die Rotation eines Vektorfeldes A über eine Fläche F und einem Integral über das Vektorfeld A entlang des Randes von F her. Dieser Zusammenhang wird durch ¨ ˛ A) = d f rot(A drr · A (8.96) F
∂F
ausgedrückt. Die rechte Seite der Gleichung summiert dabei alle Feldlinien, die an dem die Fläche F begrenzenden Weg angreifen, auf. Dabei werden die Feldlinien auf den Tangentenvektor des Weges projiziert. Besonders ist hier zu beachten, dass die Fläche im Dreidimensionalen auf eine beliebige Größe und Form aufgeblasen werden kann. Sofern der begrenzende Rand immer gleich bleibt, nimmt auch das Integral auf der linken Seite immer denselben Wert an. Zur Motivation der Gültigkeit soll wieder obige Logik zum Einsatz kommen. Der Satz von Stokes lässt sich auf simple Weise in kartesische Koordinaten für rechteckige Flä-
538
8 Vektoranalysis
chen in der x y-, yz- und zx-Ebene zeigen. Diese Flächen sind begrenzt durch rechteckige Schleifen. Eine jede Oberfläche F lässt sich als eine Überlagerung aus unendlich vielen, infinitesimalen solcher Rechtecke darstellen. Die Ränder dieser Rechtecke werden aber in so einem Drehsinn umlaufen, dass sich all die Teile, die nicht zum Rand der Fläche F beitragen, gegenseitig wegkürzen. Dies ist analog zu der Betrachtung in Abschn. 5.4 bei der Motivation zum Residuensatz, im Besonderen Abb. 5.3. Damit muss der Satz von Stokes für die besagten Rechtecke in den x y-, yz- und zxEbenen gezeigt werden. Dies wird für die x y-Ebene explizit durchgerechnet. Die Rechnungen für die restlichen zwei Ebenen verlaufen vollkommen analog. Eine Veranschaulichung der Integrationswege ist in Abb. 8.5 gegeben. Das Flächenelement und die Begrenzungen sind durch d f = dx dy eˆ z
a 1 < x < a 2 b1 < y < b 2
bestimmt. Damit lässt sich die Rechnung ¨ Fx y
ˆa2 A) = d f rot(A
ˆb2 A) dy eˆ z · rot(A
dx a1
b1
ˆa2 =
ˆb2 dx
dy
a1
b1
ˆb2 =
ˆa2
ˆa2 dx ∂x A y (x, y, z) −
dy a1
b1
ˆb2 =
∂x A y (x, y, z) − ∂ y A x (x, y, z)
dy
ˆb2 dy ∂ y A x (x, y, z)
dx a1
b1
A y (a2 , y, z) − A y (a1 , y, z)
b1
ˆa2 − ˆ =
dx [A x (x, b2 , z) − A x (x, b1 , z)] a1
y
A (a2 , y, z) − A (a1 , y, z)] drr · [A ˆ −
ˆ =
x1
A (x, b2 , z) − A (x, b1 , z)] drr · [A ˆ drr · A (x, b1 , z) + drr · A (a2 , y, z) x
y1
ˆ
ˆ
+ ˛ =
x2
∂ Fx y
drr · A (x, b2 , z) + drr · A (x, y, z)
y2
drr · A (a1 , y, z)
8.6
Integralsätze
539
Abb. 8.5 Skizze der Integrationswege zur Motivation vom Satz von Stokes
durchführen. Dabei wurde beim Übergang in die zweite Zeile die Definition der dritten Komponente der Rotation eingesetzt, da diese durch den Einheitsvektor eˆ z herausprojiziert wurde. Beim Übergang in die dritte Zeile wurde das Integral in zwei aufgeteilt, und im ersten Integral wurde die Reihenfolge der Integration vertauscht. In der vierten Zeile wurde dann der Hauptsatz der Differential- und Integralrechnung in einer Dimension bezüglich x im ersten Integral und bezüglich y im zweiten Integral ausgenutzt. Anschließend wurde das Produkt aus der x-Komponente des Feldes A mit dem Differential dx als das Skalarprodukt aus dem Wegelement dll entlang der x-Achse mit dem Feld A aufgefasst. Analoges wurde für die y-Achse vorgenommen. Wichtig ist hierbei, dass beide Achsen in Richtung zunehmender Werte durchlaufen werden. Dadurch lassen sich die beiden Integrale weiter separieren und die Vorzeichen in Integrale entgegen der Richtung zunehmender Werte absorbieren. Bei einem Vergleich mit Abb. 8.5 zeigt sich, dass diese Summe dem Umlaufen des Rechtecks entspricht, wodurch die Ersetzung mit dem Wegintegral über den Rand der Fläche Fx y gerechtfertigt ist.
8.6.4
Der Gradientensatz
Der Gradientensatz stellt einen Zusammenhang zwischen dem Integral über den Gradienten eines Skalarfeldes entlang eines Weges P und dem Skalarfeld ausgewertet am Anfangs- und
540
8 Vektoranalysis
Endpunkt A und B mittels ˆ P
˛ drr · grad() =
∂P
= (B) − (A)
(8.97)
her. Das Integral auf der linken Seite ist demnach unabhängig von der Wahl des Weges. Der Weg kann beliebig große Schlaufen haben. Sofern er denselben Anfangs- und Endpunkt hat, wird sich das Integral nicht verändern. Physikalisch findet dies Anwendung bei der Definition konservativer Kräfte. Ist eine Kraft darstellbar durch ein Gradientenfeld, so ist das Integral wegunabhängig, und die Kraft wird als konservativ bezeichnet. Dies hängt damit zusammen, dass die Arbeit einer Kraft durch ein Wegintegral bestimmt ist. Im Falle eines geschlossenen Weges fallen Anfangsund Endpunkt zusammen, was zur Folge hat, dass das Integral den Wert null annimmt. Das heißt eine konservative Kraft verrichtet keine Arbeit beim Ablaufen des Weges, und somit ändert sich die Energie des Systems entlang eines solchen Weges nicht. Zur Motivation der Gültigkeit soll eine Parametrisierung des Weges über die zurückgelegte Weglänge s stattfinden, wobei die maximale Weglänge durch L gegeben sein soll. Die Endpunkte lassen sich so durch s=0
⇒ r (0) = A
s=L
⇒ r (L) = B
ausdrücken. Des Weiteren sollen hier nur kartesische Koordinaten betrachtet werden. Damit zeigt sich dann nach der Definition der Wegintegrale (8.6) in Abschn. 8.3.1 ˆL
ˆ P
drr grad((rr )) =
drr eˆ i ∂i (rr ) = ds ds
0
ds 0
ˆL =
ˆL
ds
dri ∂ (rr ) ds ∂ri
d (rr (s)) = (rr (L)) − (rr (0)) ds
0
= (B) − (A), wobei im ersten Schritt der Gradient in kartesischen Koordinaten eingesetzt wurde. Im nächsten Schritt wurden die Ableitungen des Ortsvektors r auf die kartesischen Einheitsvektoren projiziert. Es wurde dann die Kettenregel des Ableitens rückwärts dri ∂ d (rr (s)) (rr ) = ds ∂ri ds verwendet. Schlussendlich wurden die Integration mittels des Hauptsatzes der Differentialund Integralrechnung verwendet und die entsprechenden Grenzen eingesetzt.
8.6
Integralsätze
8.6.5
541
Der Satz vom wandernden d
Die drei zuvor genannten Integralsätze können symbolisch in einem Satz zusammengefasst werden. In diesem wird über ein geometrisches Objekt, einer sogenannten Zelle integriert. Diese ist in drei Dimensionen ein Volumen, in zwei Dimensionen eine Fläche und in einer Dimension ein Weg. Beim Integranden handelt es sich um eine Differentialform eines Objekts, bezeichnet mit ∂ω. Das ∂ steht dabei für die Ableitung von ω. In drei Dimensionen ist diese Ableitung der Differentialform die Divergenz eines Vektorfeldes, in zwei Dimensionen ist diese die Rotation eines Vektorfeldes und in einer Dimension ist diese der Gradient eines Skalarfeldes. So lässt sich zusammenfassend ˆ ˛ ∂ω = ω (8.98)
∂
schreiben. Da das ∂ aus der Differentialform beim Übergang zur rechten Seite vor die Bezeichnung der Zelle gesetzt wird, wird dies auch als Satz vom wandernden d bezeichnet.
8.6.6
Folgerungen aus den Integralsätzen
Aus den zwei Integralsätzen, Satz von Stokes und Satz von Gauß lassen sich zusammen mit den Produktregeln der Vektoranalysis weitere Integralsätze herleiten. Es soll zunächst das Integral ˚ A) dV rot(A V
betrachtet werden. Hierfür kann die Produktregel (8.74) A × B ) = B · rot(A A ) − A · rot(B B) div(A betrachtet werden. Für ein konstantes aber beliebigen Vektorfeld B lässt sich so ˚ ˚ ˚ A × B) = A) − B) dV div(A dV B · rot(A dV A · rot(B V V V ˚ A) =B· dV rot(A V ‹ ‹ A × B) = B · = d f · (A df × A ∂V
∂V
bestimmen. Dabei wurde beim Übergang in die zweite Zeile verwendet, dass B ein konstantes Feld ist, wodurch die Rotation verschwindet. Beim Übergang in die dritte Zeile wurde der Satz von Gauß auf den linken Ausdruck der ersten Zeile verwandt. Schlussendlich wurde
542
8 Vektoranalysis
die Zyklizität des Spatprodukts verwendet. Da B beliebig war, müssen bereits die beiden Integrale gleich sein, und es kann ˚
‹
V
A) = dV rot(A
∂V
df × A
(8.99)
gefunden werden. Ebenso kann ein Volumenintegral eines Gradienten ˆ dV grad() V
betrachtet werden. Hierfür kann die Produktregel (8.73) A ) = A · grad() + div(A A) div(A angewendet werden. Wird ein beliebiges, aber konstantes Vektorfeld A gewählt, so lässt sich ˚ ˚ ˚ A A A) dV div(A ) = dV · grad() + dV div(A V V V ˚ =A· dV grad() V ‹ ‹ = d f · A = A · df ∂V
∂V
bestimmen. Dabei wurde beim Übergang in die zweite Zeile verwendet, dass das Vektorfeld A konstant ist und somit die Divergenz verschwindet. Beim Übergang in die dritte Zeile wurde auf den linken Ausdruck der ersten Zeile der Satz von Gauß angewandt. Schlussendlich wurde das konstante Vektorfeld A aus dem Integral herausgezogen. Da aber das Feld A beliebig war, müssen bereits die beiden Integrale aus Zeile zwei und drei übereinstimmen und daher ˚ ‹ dV grad() = df (8.100) V
∂V
erfüllen. Zum Schluss wird das Integral ¨ F
d f × grad()
betrachtet. Hierfür kann der Satz von Stokes zusammen mit der Produktregel (8.71) A ) = rot(A A ) − A × grad() rot(A
8.6
Integralsätze
543
verwendet werden. Mit einem konstanten Vektorfeld A lässt sich so der Zusammenhang ¨ ¨ ¨ A) = A) − A × grad()) d f · rot(A d f · rot(A d f · (A F F F ¨ ¨ = d f · (grad() × A ) = A · d f × grad() F ˆF ˆ = drr · A = A · drr ∂F
∂F
aufstellen. Beim Übergang in die zweite Zeile wurde ausgenutzt, dass das Vektorfeld A konstant ist und damit die Rotation verschwindet. Außerdem wurde das Kreuzprodukt innerhalb des Integrals getauscht, sodass sich das Minuszeichen aufhebt. Anschließend wurden die Zyklizität des Spatprodukts ausgenutzt und das konstante Vektorfeld A vor das Integral gezogen. Beim Übergang in die dritte Zeile wurde für den linken Ausdruck in der ersten Zeile der Satz von Stokes angewandt, anschließend wurde das konstante Vektorfeld A vor das Integral gezogen. Da das Vektorfeld A beliebig ist, müssen bereits die beiden Integrale in der zweiten und der dritten Zeile ¨ ˆ d f × grad() = drr (8.101) F
∂F
miteinander übereinstimmen.
8.6.7
Verallgemeinerung in der flachen Raumzeit
Es kann auch praktisch sein den Satz von Gauß auf den vierdimensionalen Fall zu verallgemeinern. Dazu sei Aμ (x) ein Vektorfeld auf der vierdimensionalen Raumzeit, abhängig vom vierdimensionalen Vektor x μ = (ct, x, y, z). Es ist dann die Divergenz durch ∂μ A μ gegeben. Und somit wird der Satz von Gauß bei einem Volumenintegral über die gesamte Raumzeit durch ˆ ˛ d4 x ∂μ Aμ = dSμ Aμ beschrieben. Darin ist dSμ nach den Überlegungen in Abschn. 8.3 durch dSμ = μνρσ dx ν dx ρ dx σ gegeben. In der Physik wird typischerweise ˆ d4 x ∂μ Aμ = 0
544
8 Vektoranalysis
sein, da das Feld im Unendlichen keine Beiträge besitzen soll. Ebenso lässt sich die Folgerung ˆ ˛ dV grad() = df V
∂V
auf den vierdimensionalen Fall verallgemeinern. Dazu sei (x) ein Skalarfeld abhängig vom vierdimensionalen Vektor x μ = (ct, x, y, z). Der vierdimensionale Gradient dieses Feldes ist dann mit ∂μ (x) bestimmt. Und für ein Integral über die gesamte Raumzeit lässt sich dann ˆ
˛ d x ∂μ (x) =
dSμ (x)
4
schreiben.
8.6.8
Die Green’schen Integralsätze
Die Green’schen Integralsätze ersetzen in der Vektoranalysis die partielle Integration für Skalarfelder. Sie lassen sich aus dem Satz von Gauß und der Produktregel (8.73) A ) = A · grad() + div(A A) div(A
⇒
A ) = div(A A ) − A · grad() div(A
herleiten. Es werden zwei Skalarfelder und im Integral ˚ V
˚ dV =
V
dV div(grad())
˚
˚ dV div( grad()) − dV grad() · grad() V ‹V ˚ = d f grad() − dV grad() · grad() (8.102) =
∂V
V
betrachtet. In der ersten Zeile wurde dabei ausgenutzt, dass sich der Laplace-Operator bei Anwendung auf ein Skalarfeld schreiben lässt als = div(grad()). Bei Übergang in die zweite Zeile wurde dann die Produktregel (8.73) ausgenutzt, wobei als Vektorfeld A der Gradient des Skalarfeldes also A = grad() angesetzt wurde. Beim Übergang in die letzte Zeile wurde dann der Satz von Gauß auf das erste Integral angewandt. Die resultierende Relation ist als erster Green’scher Integralsatz bekannt. Es ist zu beachten, dass dieser die Form einer partiellen Integration aufweist. Bei einer partiellen Integration haben die Terme die Struktur
8.6
Integralsätze
545
ˆ
ˆ dx g∂ f = [ f · g] −
dx g∂ f ,
wobei ∂ symbolisch für die Ableitung stehen soll. Es befindet sich zunächst eine Funktion f in einer Ableitung. Dies ist im obigen Fall der Gradient von . Dies wird gleichgesetzt mit den Randtermen, dem Integral über den Rand des Volumens, also der Fläche ∂ V verringert um ein Integral über den ursprünglichen Bereich mit den Funktionen f und g in vertauschten Rollen. Es wird also nun die Ableitung der Funktion f gebildet, was im Falle des ersten Green’schen Satzes der Gradientenbildung des Skalarfeldes entspricht. Der zweite Green’sche Integralsatz setzt sich aus einer antisymmetrischen Kombination unter Vertauschung der Felder und des ersten Green’schen Satzes zusammen, wodurch nur die Randterme erhalten bleiben, was auf ˚ ‹ ˚ f dV [ − ] = d grad() − dV grad() · grad() V ∂V V ‹ ˚ − d f grad() + dV grad() · grad() ∂V V ‹ = d f grad() − grad() (8.103) ∂V
führt. Dabei wurde in der ersten Zeile für die jeweiligen Terme der erste Green’sche Integralsatz angewandt. Die beiden Volumenintegrale kürzen sich gegenseitig. Dies ist der zweite Green’sche Integralsatz.
8.6.9
Der Helmholtz’sche Zerlegungssatz
Das Ziel des Helmholtz’schen Zerlegungssatzes ist es nur aus der Kenntnis über die Divergenz und der Rotation eines Vektorfeldes dieses vollständig zu bestimmen. Da in diesem Fall zwei Ortsvektoren auftauchen werden, werden Volumenelemente im Folgenden mit dV ≡ d3r bezeichnet, womit klar wird, bezüglich welches Vektors integriert wird. Der Ortsvektor, an dem das Feld ausgewertet wird, wird mit r bezeichnet, während der Vektor, über den integriert werden wird, mit r bezeichnet werden soll. Zur Herleitung ist es zunächst von Vorteil eine andere Darstellung der Delta-Funktion im Dreidimensionalen zu finden. Dazu wird das Vektorfeld V (rr ) =
1 eˆ r r2
in Kugelkoordinaten betrachtet. Die Divergenz dieses Vektorfeldes ist nach den Erkenntnissen aus Abschn. 8.5.4 durch 1 1 V (rr )) = 2 ∂r r 2 2 = 0 div(V r r
546
8 Vektoranalysis
gegeben. Dies gilt offensichtlich nur für r > 0. Das Volumenintegral über die Divergenz über eine Kugel mit Radius R zeigt aber unter Verwendung des Gauß’schen Satzes seitens ˚ ‹ ‹ 1 3 2 V) = d r div(V R d eˆ r · eˆ r 2 = d = 4π R V ∂V ∂V ein unerwartetes Verhalten. Dabei wurde das Flächenelement in Kugelkoordinaten d f = R 2 d mit dem Raumwinkelelement d = sin θ dθ dφ verwandt, bei dessen Integration sich 4π ergibt. Nach der naiven Bestimmung der Divergenz müsste diese überall null sein, außer bei r = 0. Damit würde eigentlich ˚ V) = 0 d3r div(V V
erwartet werden. Der einzige Ausweg besteht darin, dass es am Punkt r = 0 einen unendlich V ) gibt, sodass großen Beitrag von div(V 1 V ) = div 2 eˆ r = 4π δ (3) (rr ) div(V r gilt, denn damit ergibt sich ˚ V
˚ V ) = 4π d3r div(V
d3r δ (3) (rr ) = 4π.
Da sich aber das Vektorfeld V auch als ∂ 1 1 1 V = − grad = −ˆe r = eˆ r 2 r ∂r r r darstellen lässt, gilt auch 1 1 V ) = −4π δ (3) (rr ). = − div(V = div grad r r Noch allgemeiner lässt sich der Ausdruck
1 = −4π δ(3) r − r
|rr − r |
(8.104)
finden, wobei der Laplace-Operator auf r wirkt.18 Somit lässt sich ein beliebiges Vektorfeld A (rr ) durch ein Integral
18 Wegen dieses Zusammenhangs ist das Skalarfeld − 1 die Green’sche Funktion des Laplace4πr Operators.
8.6
Integralsätze
547
˚
1 A (rr ) = d r A (rr )δ (rr − r ) = − 4π ˚ 1 1 d3r A (rr ) =− 4π |rr − r | 3
(3)
˚
d3r A (rr )
1 |rr − r |
über den gesamten R3 darstellen. Dabei wirkt der Laplace-Operator auf den Vektor r . Generell sollen zunächst alle Differentialoperatoren nur auf r wirken, außer es wird explizit etwas anderes angegeben. Der Laplace-Operator wirkt hier auf ein Vektorfeld, wodurch die Regel (8.78) der zweiten Ableitungen W = grad(div(W W )) − rot(rot(W W )) W Anwendung findet. Angewandt auf den obigen Ausdruck ergibt sich so ˚ 1 1 3
A (rr ) = − grad div d r A (rr ) 4π |rr − r | ˚ 1 1 3
+ rot rot d r A (rr ) 4π |rr − r | ˚ 1 1 3
r A r =− grad d div (r ) 4π |rr − r | ˚ 1 1 + rot d3r rot A (rr ) . 4π |rr − r | Hier finden die Produktregeln (8.71) und (8.73), A ) = rot(A A ) − A × grad() rot(A A ) = div(A A ) + A grad() div(A Anwendung. Da aber das Vektorfeld A im Integral von r abhängt und die Differentialoperatoren bezüglich r wirken, werden die jeweils ersten Terme verschwinden, und das Feld A (rr ) lässt sich als ˚ 1 1 3
grad d r div A (rr ) A (rr ) = − 4π |rr − r | ˚ 1 1 3
+ rot d r rot A (rr ) 4π |rr − r | ˚ 1 1 3
=− grad d r A (rr ) · grad 4π |rr − r | ˚ 1 1 3
− rot d r A (rr ) × grad 4π |rr − r | 1 schreiben. Nun kann verwendet werden, dass der Gradient bezüglich r des Feldes |rr −r r |
durch den Gradienten bezüglich r ausgedrückt werden kann. Da aber im Nenner ein anderes
548
8 Vektoranalysis
Vorzeichen vor r steht, muss dies durch 1 1
= −grad grad |rr − r | |rr − r | berücksichtigt werden, wobei der Strich am Gradienten die Wirkung auf den Vektor r
ausdrückt. Somit lässt sich dann ˚ 1 1 grad d3r A (rr ) · grad A (rr ) = − 4π |rr − r | ˚ 1 1 3
− rot d r A (rr ) × grad 4π |rr − r | ˚ 1 1 = grad d3r A (rr ) · grad
4π |rr − r | ˚ 1 1 3
+ rot d r A (rr ) × grad 4π |rr − r | ˚ " # div A (rr ) A (rr ) 1 3
d r div grad − = 4π |rr − r | |rr − r | ˚ " #
1 A (rr ) 3 rot A (rr )
dr + rot − rot 4π |rr − r | |rr − r |
finden. Dabei wurden im letzten Schritt die Produktregel (8.71) und (8.73) angewendet. In diesem Fall wirken die Differentialoperatoren bezüglich des Vektors r , wodurch sie auch auf das Feld A (rr ) wirken. Der jeweils erste und letzte Term bedürfen genauerer Betrachtung. Dazu werden als Volumen eine Kugel mit Radius R betrachtet und anschließend ein Grenzwert für R → ∞ ausgeführt. Für den ersten Term lässt sich ˚ ‹ ‹
)
) eˆ r · A (rr ) r r A (r A (r 3
2
=R = d r div d df · |rr − r | |rr − r | |rr − r | ‹ A (rr ) d
≤ R2 |rr − r |
bestimmen. Dabei wurde im ersten Schritt der Satz von Gauß verwendet. Im zweiten Schritt wurde das Oberflächenelement einer Kugel eingesetzt. Im letzten Schritt wurde das Skalarprodukt aus A und eˆ r nach oben durch den Betrag von A abgeschätzt, da der Betrag von eˆ r durch eins gegeben ist und der Betrag von cos(α) mit dem Winkel α zwischen eˆ r und A kleiner ist als eins. Der Nenner des Integranden wird mit zunehmendem R wie R1 gehen. Nur wenn für A (rr )
8.6
Integralsätze
549
A (rr )| ≤ |A
const. |rr |2
für große r gilt, kann die weitere Abschätzung ˚ ‹ ‹
1 1 A (rr ) 3
2
A (rr ) d r div d ≤ const. d
∼ ≤R |rr − r | |rr − r | |rr − r | R erfolgen. Im Grenzfall R → ∞ verschwindet dieses Integral also. Für den zweiten Term lässt sich ˚ ‹ ‹
)
) eˆ r × A (rr ) r r A (r A (r 3
2
= =R d d r rot df × |rr − r | |rr − r | |rr − r | ‹ A (rr ) d
≤ R2 |rr − r | feststellen. Im ersten Schritt wurde die erste Folgerung aus dem Gauß’schen Satz verwendet. Danach wurde das Flächenelement einer Kugel eingesetzt. Schlussendlich wurde das Kreuzprodukt aus eˆ r und A nach oben durch den Betrag von A abgeschätzt. Wenn nun A (rr ) wie A (rr )| ≤ |A
const. |rr |2
geht, gilt auch ˚ ‹ ‹
) A (rr ) r 1 1 A (r 3
2
≤R d d ≤ const. d
∼ . r rot
|rr − r | |rr − r | |rr − r | R Im Grenzfall R → ∞ verschwindet dieses Integral. Damit gilt für Vektorfelder mit A (rr )| ≤ |A
const. |rr |2
der Helmholtz’sche Zerlegungssatz in der Form
1 A (rr ) = − grad 4π
˚
˚
A (rr )
A (rr ) div rot 1 + . rot d 3r
d 3r
|rr − r | 4π |rr − r | R3 R3 (8.105)
Dieser Zerlegungssatz besagt nun, dass ein Vektorfeld vollständig aus der Divergenz und der Rotation konstruiert werden kann. Es kann dargestellt werden aus der Kombination des Gradienten eines skalaren Potentials und der Rotation eines Vektorpotentials W , welche die Form
550
8 Vektoranalysis
div A (rr ) dr |rr − r | ˚ rot A (rr ) 1 d3r
W (rr ) = 4π |rr − r | 1 (rr ) = 4π
˚
3
annehmen. Damit wird das Vektorfeld zu W (rr )) A (rr ) = − grad((rr )) + rot(W bestimmt. Als physikalisches Beispiel soll hier die Elektrostatik betrachtet werden. Die MaxwellGleichungen für das elektrische Feld E vereinfachen sich zu den Ausdrücken E) = div(E wodurch 1 W = 4π und 1 (rr ) = 4π
˚
ρ 0
E ) = 0, rot(E
rot E (rr ) =0 dr |rr − r | R3
˚
3
˚
div E (rr ) 1 3 ρ(rr ) = dr d r |rr − r | 4π 0 |rr − r | R3 R3 3
gelten. Damit ist dann das elektrische Potential nach einer Integration bekannt. Ähnlich lassen sich aus dem Newton’schen Gravitationsgesetz einer Masse m im Zentralpotential durch M, F = −G
Mm eˆ r r2
⇒
G≡
F m
die Divergenz und die Rotation zu G ) = −4π G Mδ(3) (rr ) = −4π Gρ(rr ) div(G
G) = 0 rot(G
bestimmen. Damit lässt sich das Gravitationspotential dann auch über ˚ ρ(rr ) r d 3r
(r ) = −G |rr − r | R3 bestimmen, und die Kraft ist durch F = −m grad() gegeben.
8.7
8.7
Formelsammlung – Vektoranalysis
551
Formelsammlung – Vektoranalysis
Taylor-Entwicklung von Skalar- und Vektorfeldern (rr0 + r ) ≈ (rr 0 )+
3 ∂ ∂r
i r =rr 0
i=1
+
(rr − r 0 )i
3 1 ∂ 2 (rr − r 0 )i (rr − r 0 ) j + · · · 2 ∂ri ∂r j r =rr 0 i, j=1
∂ A (rr − r 0 )i A (rr0 + r ) ≈ A (rr 0 )+ ∂ri r =rr 0 i=1 3 1 ∂ 2 A + (rr − r 0 )i (rr − r 0 ) j + · · · 2 ∂ri ∂r j r =rr 0 3
i, j=1
Weg-, Flächen- und Volumenintegrale ˆr 2
ˆt2 dt r˙ (t) · A (rr )
drr A (rr ) = r1
t1
∂rr ∂rr × · A (rr (a, b)) d f A (rr ) = da db ∂a ∂b F ˚ ˆ ˆ ˆ ∂rr ∂rr ∂rr × (rr (a, b, c)) dV (rr ) = da db dc ∂a ∂b ∂c V ¨
ˆ
ˆ
Keilprodukt, nur außerhalb des Integrals dx ∧ dy = − dy ∧ dx
dx ∧ dx = 0
dxi1 ∧ · · · ∧ dxin = i1 ...in dx1 · · · dxn
Koordinatentransformation und Jacobi-Determinante ⎛ ⎞ ∂x ∂x ∂b ∂y ∂b ∂z ∂a ∂b
∂(x, y, z) ⎜ ∂∂ay = ⎝ ∂a J (a, b, c) = ∂(a, b, c) ∂z ˚
˚ d(x, y, z) =
(dl )2 = gi j (rr ) dri dr j
∂x ∂c ∂y ⎟ ∂c ⎠ ∂z ∂c
Ji j =
∂ri ∂a j
dri = Ji j da j
˚
d(a, b, c) det(J ) g = J T g J
Differentiale, Metrik und Jacobi – Zylinderkoordinaten
˚ d(a, b, c) =
d(x, y, z) det(J )
552
8 Vektoranalysis
(dl )2 = (ds )2 + s 2 (dφ )2 + (dz )2
dV = s ds dφ dz
drr = eˆ s ds + seˆ φ dφ + eˆ z dz d f sφ = eˆ z s ds dφ dx = cos(φ) ds ⎛ 1 g (r , φ, z) = ⎝0 0
d f φz = eˆ s s dφ dz
d f zs = eˆ φ dz ds
− s sin(φ) dφ dy = sin(φ) ds + s cos(φ) dφ ⎞ ⎞ ⎛ cos(φ) −s sin(φ) 0 0 0 J (s, φ, z) = ⎝ sin(φ) s cos(φ) 0⎠ s 2 0⎠ 0 0 1 0 1
dz = dz
Delta-Funktionen in Zylinderkoordinaten D(s) = δ (s)
D(φ) =
δ(3) (rr − r 0 ) =
1 δ (φ) s
D(z) = δ (z)
1 δ (s − s0 ) δ (φ − φ0 ) δ (z − z 0 ) s
Differentiale, Metrik und Jacobi – Kugelkoordinaten (dl )2 = (dr )2 + r 2 (dθ )2 + r 2 sin2 (θ) (dφ )2
dV = r 2 sin2 (θ) dr dθ dφ
drr = eˆ r dr + r eˆ θ dθ + r sin(θ) eˆ φ dφ d f r θ = eˆ φ r dr dθ
d f θφ = eˆ r r 2 sin(θ) dθ dφ
d f φr = eˆ θ r sin(θ) dφ dr
dx = cos(φ) sin(θ) dr + r cos(φ) cos(θ ) dθ − r sin(φ) sin(θ ) dφ dy = sin(φ) sin(θ) dr + r sin(φ) cos(θ) dθ + r cos(φ) sin(θ ) dφ dz = cos(θ) dr − r sin(θ) dθ ⎛ ⎞ 1 0 0
⎠ g (r , θ, φ) = ⎝0 r 2 0 2 2 0 0 r sin (θ) ⎞ ⎛ cos(φ) sin(θ) r cos(φ) cos θ −r sin(φ) sin(θ ) J (r , θ, φ) = ⎝ sin(φ) sin(θ) r sin(φ) cos θ r cos(φ) sin(θ) ⎠ cos(θ) −r sin(θ) 0 Delta-Funktionen in Kugelkoordinaten D(r ) = δ (r ) δ(3) (rr − r 0 ) =
D(θ ) = 1 r 2 sin(θ)
1 δ (θ) r
D(φ) =
1 δ (φ) r sin(θ)
δ (r − r0 ) δ (θ − θ0 ) δ (φ − φ0 )
Differential einer Funktion f (x, y)
⇒
df =
∂ f ∂ f dx + dy ∂ x y ∂ y x
8.7
Formelsammlung – Vektoranalysis
553
Satz von Schwarz, Maxwell-Relation für eine zweimal stetig differenzierbare Funktion df =
∂f ∂f dx + dy ∂x ∂y
∂ ∂f ∂ ∂f = ∂ y ∂x ∂x ∂ y
⇒
Vollständige Differentiale ˛ df =0 d f = A dx + B dx
⇒
∂ f ∂ f =A =B ∂ x y ∂ y x
Unvollständige Differentiale ˛ δg = 0
d f = μ · δg
Legendre-Transformation, Tauschen von Variablen f (x, y)
⇒
d f = m dx + n dy
g(m, y) = f (x(m)) − m · x(m)
⇒
dg = −x dm + n dy
Vektoroperatoren Gradient, Rotation und Divergenz und Laplace-Operator in kartesischen Koordinaten ⎛ ⎞ ⎞ ⎛ ⎛ ⎞ ∂x ∂ y A z − ∂z A y ∂x A ) = ∇ × A = ⎝ ∂z A x − ∂ x A z ⎠ ∇ = ⎝∂ y ⎠ grad() = ⎝∂ y ⎠ rot(A ∂z
∂z
∂x A y − ∂ y A x
A ) = ∇ · A = ∂ x A x + ∂ y A y + ∂z A z div(A = ∂x2 + ∂ y2 + ∂z2 Vektoroperatoren in Zylinderkoordinaten A =As eˆ s + Aφ eˆ φ + A z eˆ z ∂ 1 ∂ ∂ + eˆ φ + eˆ z grad() =ˆe s ∂s s ∂φ ∂z
∂ Aφ 1 ∂ Az ∂ As ∂ Az ∂ As 1 ∂ A ) =ˆe s − + eˆ φ − + eˆ z (s Aφ ) − rot(A s ∂φ ∂z ∂z ∂s s ∂s ∂φ ∂ Az 1 ∂ Aφ 1 ∂ A) = (s As ) + + div(A s ∂s s ∂φ ∂z ∂ vφ ∂ ∂ (vv · ∇) =vs + + vz ∂s s ∂φ ∂z 1 ∂ ∂ 1 ∂ 2 ∂ 2 = s + 2 + s ∂s ∂s s ∂φ 2 ∂z 2 Vektoroperatoren in Kugelkoordinaten
554
8 Vektoranalysis
A =Ar eˆ r + Aθ eˆ θ + Aφ eˆ φ ∂ ∂ 1 ∂ 1 + eˆ θ + eˆ φ grad() =ˆe r ∂r r ∂θ r sin(θ) ∂φ
∂ 1 ∂ Ar ∂ ∂ Aθ 1 1 A ) =ˆe r (Aφ sin(θ)) − + eˆ θ − (r Aφ ) rot(A r sin(θ) ∂θ ∂φ r sin(θ ) ∂φ ∂r
∂ Ar 1 ∂ + eˆ φ (r Aθ ) − r ∂r ∂θ
1 ∂ 2 ∂ ∂ 1 A) = 2 div(A r Ar + Aφ (Aθ sin(θ )) + r ∂r r sin(θ) ∂θ ∂φ vφ ∂ ∂ vθ ∂ (vv · ∇) =vr + + ∂r r ∂θ r sin(θ) ∂φ 1 ∂ ∂ 1 ∂ 2 1 ∂ 2 ∂ r + 2 sin θ + 2 2 = 2 r ∂r ∂r r sin θ ∂θ ∂θ r sin θ ∂φ 2 Produktregeln grad() = grad() + grad() A · B ) = A × rot(B B ) + (A A · ∇)B B + B × rot(A A ) + (B B · ∇)A A grad(A A ) = rot(A A ) − A × grad() rot(A A × B ) = A div(B B ) + (B B · ∇)A A − B div(A A ) − (A A · ∇)B B rot(A A ) = A grad() + div(A A) div(A A × B ) = B · rot(A A ) − A · rot(B B) div(A Die zweiten Ableitungen rot(grad()) = 0 A )) = 0 div(rot(A
div(grad()) = A )) = rot(rot(A A )) + A A grad(div(A
Der Satz vom wandernden d, der Gradientensatz, der Satz von Stokes und der Satz von Gauß ˛ dω = ω
∂ ¨ ˛ A) = d f rot(A dll · A ˆ
F
∂F
ˆ P
˚
drr · grad() = (B) − (A) ‹ A) = dV div(A df · A
V
Folgerungen aus dem Satz von Gauß und dem Satz von Stokes
∂V
8.7
Formelsammlung – Vektoranalysis
555
˚
‹
˚
V
¨
V
F
A) = dV rot(A
df × A
∂V
‹ dV grad() =
∂V
df
˛ d f × grad() =
∂F
drr
Die Sätze von Green ‹ ˚ ˚ f dV = d grad() − dV grad() · grad() V ∂V V ˚ ‹ dV [ − ] = d f grad() − grad() V
∂V
Darstellung der Delta-Funktion
1 = −4π δ (3) (rr − r ) |rr − r |
Helmholtz’scher Zerlegungssatz const. (|rr | → ∞) |rr |2 ˚ ˚
A (rr )
A (rr ) div rot 1 1 A (rr ) = − grad + rot d 3r
d 3r
4π |rr − r | 4π |rr − r | R3 R3 A (rr )| ≤ |A
⇒
9
Variationsrechnung
Inhaltsverzeichnis 9.1
9.2
9.3
9.4
Funktionale und ihre Extrema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Die Euler-Lagrange-Gleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.2 Erhaltungsgrößen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.3 Variation unter Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Klassische Beispiele zur Variationsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Analytische Mechanik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Lichtbrechung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.3 Schnellster Weg im Schwerefeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.4 Durchhängen einer Kette . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.5 Geodätengleichung auf Oberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Nicht klassische Beispiele zur Variationsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Relativistische Verallgemeinerung des Lagrange-Formalismus und Feldtheorie 9.3.2 Geodätengleichung auf allgemeinen Oberflächen . . . . . . . . . . . . . . . . . . . . . . . . . . . . Formelsammlung - Variationsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
558 558 561 562 563 563 566 570 573 576 578 578 582 586
Die Variationsrechnung findet in der Physik meist eine Anwendung, wenn es darum geht eine Bahnkurve zu bestimmen, die eine gewisse Größe maximiert oder minimiert. Diese Größe kann die potentielle Energie, die Wirkung oder die Zeit, die benötigt wird um jene Bahnkurve zu beschreiten, sein. Es geht also nicht darum das Maximum einer Funktion von Zahlen zu finden, so wie bei Optimierungsproblemen, sondern es geht darum das Maximum einer Größe zu finden, die von der Wahl einer anderen Funktion abhängt. Dafür wird eine Abbildungsvorschrift eingeführt, die solche Funktionen auf Zahlen abbildet.
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_9
557
558
9 Variationsrechnung
9.1
Funktionale und ihre Extrema
9.1.1
Die Euler-Lagrange-Gleichung
Eine solche Funktion einer Funktion wird als Funktional bezeichnet. Notiert wird diese durch die Bezeichnung, beispielsweise J mit der Funktion von der sie abhängt, also dem Argument, in eckigen Klammern, beispielsweise J [ f ]. Typische Abbildungen, die in der Physik auftreten, sind durch Integrale gegeben. Es wird also ein Integral eines Ausdrucks, der f enthält, auf einem bestimmten Intervall J : C (R) → R x2 f → dx g( f , f , x) x1
aufgestellt, was auch kurz durch x2 J[ f ] =
dx g( f , f , x)
(9.1)
x1
ausgedrückt wird. Dabei ist g( f , f , x) ein Ausdruck, der die Funktion f , ihre Ableitung und möglicherweise explizite Abhängigkeiten von x enthält. In der analytischen Mechanik entspricht das Funktional J der Wirkung S des Systems. Der Ausdruck g entspricht der Lagrange-Funktion L des Systems. Die Funktion f entspricht der verallgemeinerten Koordinate q und die Variable x entspricht der Zeit t. Der Einfachheit halber soll nur die Variation in einer Variable betrachtet werden. Eine Verallgemeinerung auf mehrere Variablen stellt sich aber als sehr einfach heraus, da all diese Variablen unabhängig voneinander variiert werden können. Da in der Physik J [ f ] eine Größe beschreibt, die extreme Werte annehmen soll, müssen die Funktionen f gefunden werden, die J zu einem Minimum oder Maximum bringen. Dazu wird davon ausgegangen, dass die gesuchte Funktion f bereits gefunden ist. Werden nun kleine Abweichungen um diese Funktion f gewählt, so darf sich der Wert von J in erster Näherung nicht ändern. Es wird also die Funktion f variiert. Eine Analogie bieten hier die Extrema einer Funktion, an denen die erste Ableitung der Funktion verschwindet. Sei also h(x) eine Funktion, die ein Extremum an der Stelle x0 besitzen soll. Für kleine Auslenkungen x um x0 war h(x0 + x) ≈ h(x0 ) + x · h (x0 ) ⇒ h(x0 ) ≡ h(x0 + x) − h(x0 ) = x · h (x0 ) = 0
9.1
Funktionale und ihre Extrema
559
gegeben. Darin wurde in der ersten Zeile die Taylor-Entwicklung um x0 aus Abschn. 4.1 verwendet. In der zweiten Zeile wurde im letzten Schritt ausgenutzt, dass die erste Ableitung bei einem Extremum verschwindet. Im Falle eines Funktionals wird von einer sogenannten virtuellen Verschiebung ausgegangen. Das heißt, es werden Abweichungen zu der Funktion f der Form δ f betrachtet, die nicht die tatsächliche Änderung der Funktion bei der Änderung des Arguments x auf x + dx angeben sollen, sondern die künstlich eingeführte Abweichung zur ursprünglichen Funktion f . Es kann als eine hypothetische, eine „Was-wäre-wenn“-Abweichung von der ursprünglichen Funktion angesehen werden. Dies wird durch Abb. 9.1 veranschaulicht, in der neben der Funktion f , die das Funktional J [ f ] extremalisiert, zwei Variationen eingezeichnet sind. Die einzige Einschränkung, die diese Verschiebungen aufweisen, ist, dass sie an den Grenzen des Integrals δ f (x1 ) = δ f (x2 ) = 0 verschwinden müssen. Ein wichtiger Zusammenhang ergibt sich hierbei für die Ableitung der Funktion f . Wird die Variation durch f˜(x) = f (x) + δ f (x) ausgedrückt, so lässt sich für die Ableitung auch d ˜ d f (x) = f (x) + δ f (x) dx dx finden. Da die Variation der Ableitung durch δf =
d d d ˜ f − f = δ f (x) dx dx dx
Abb. 9.1 Darstellung der Variation einer Funktion. Die extremalisierende Funktion ist hier durch die durchgezogene Linie kenntlich gemacht. Die gestrichelte und gepunktstrichelte Linie stellen zwei unterschiedliche Variationen der Funktion dar. Die Variationen verschwinden am Anfangs- bzw. am Endpunkt
560
9 Variationsrechnung
bestimmt ist, lassen sich die Variation δ und die Ableitung menhang d df = δ (δ f ) dx dx
d dx
vertauschen, und der Zusam-
(9.2)
ist gültig. Es sollen bei der Variation alle hypothetischen möglichen Bahnen zwischen zwei Punkten betrachtet werden. Damit lässt sich die Änderung des Funktionals J um ein Extremum herum zu !
0 = δJ[ f ] ≡ J[ f + δ f ] − J[ f ] x2 = dx g( f + δ f , f + δ f , x) − g( f , f , x) x1 x2
≈
dx g( f , f , x) +
x1 x2
=
dx
x1
∂g δf = ∂ f
∂g ∂g δf + δf ∂f ∂ f x2
dx δ f x1
x1
x2 =
∂g ∂g δf + δ f − g( f , f , x) ∂f ∂ f
x2 +
dx x1
=
dx x1
∂g δf − ∂f
d ∂g ∂g − ∂f dx ∂ f
x2
∂g d ∂g δf + δf ∂f ∂ f dx
d ∂g dx ∂ f
δf
(9.3)
bestimmen. Dabei wurde in der dritten Zeile die Taylor-Entwicklung des Ausdrucks g( f , f , x) eingesetzt. Beim Übergang von der vierten in die fünfte Zeile wurde für den zweiten Term im Integral eine partielle Integration durchgeführt. Der Randterm verschwindet beim Übergang in die nächste Zeile, da die Verschiebungen δ f an der Stelle x1 und x2 verschwinden sollen. Da die Verschiebungen δ f beliebig sind und an einem Extremum die !
Änderung des Funktionals J gerade verschwinden sollen, δ J = 0, muss bereits der Term in der Klammer ∂g d ∂g − =0 ∂f dx ∂ f
(9.4)
verschwinden. Dies ist die Euler-Lagrange-Gleichung. Es handelt sich um eine Differentialgleichung der zweiten Ordnung. Eine Funktion f , die das Funktional zu einem Extremum bringen soll, muss diese Gleichung erfüllen, und daher lässt sich aus ihr f bestimmen.
9.1
Funktionale und ihre Extrema
9.1.2
561
Erhaltungsgrößen
Es kann vorkommen, dass die Euler-Lagrange-Gleichung zu komplizierten Differentialgleichungen führt. Durch das Betrachten von Erhaltungsgrößen können meist einfachere Differentialgleichungen gefunden werden. Diese treten bei bestimmten Problemen auf, und es sollen hier zwei spezielle Fälle betrachtet werden: 1. Der Ausdruck g( f , f , x) hängt nicht explizit von f ab. In diesem Fall gilt aufgrund der Euler-Lagrange-Gleichung (9.4) d ∂g = 0. dx ∂ f Daher ist der Ausdruck ∂∂ fg eine Erhaltungsgröße bezüglich x, und es kann so eine Differentialgleichung erster Ordnung aus P≡
∂g = const. ∂ f
(9.5)
gefunden werden. In diesem Fall wird von einer zyklischen Koordinate f gesprochen. In der analytischen Mechanik erhält ∂∂ fg den Beinamen verallgemeinerter Impuls zu f . 2. Der Ausdruck g( f , f , x) hängt nicht explizit von x ab. In diesem Fall kann eine Erhaltungsgröße bezüglich x als E ≡ f
∂g − g = const. ∂ f
(9.6)
gefunden werden, denn es gilt ∂g ∂ g ∂ g ∂g d ∂g dE = f + f f − − f − dx ∂f dx ∂ f ∂f ∂ f ∂x ∂ g ∂ g ∂ g ∂ g = f + f − f − f ∂f ∂f ∂f ∂ f = 0. Dabei wurden in der ersten Zeile die Produktregel und Kettenregel beim Ableiten anged ∂g wandt. Der Term dx ∂ f wurde beim Übergang in die zweite Zeile mit der Hilfe der Euler-Lagrange-Gleichung (9.4) durch
∂g ∂f
ersetzt. Außerdem wurde ausgenutzt, dass g
keine explizite Abhängigkeit von x aufweist und somit ∂∂ gx = 0 gilt. Damit stellt Gl. (9.6) tatsächlich eine Erhaltungsgröße dar, und es kann davon eine Differentialgleichung erster Ordnung gefunden werden. In der analytischen Mechanik entspricht dieser Ausdruck der Gesamtenergie des Systems.
562
9.1.3
9 Variationsrechnung
Variation unter Nebenbedingungen
Es kann auch zu Problemen kommen, bei denen eine Größe zu einem Extremum gebracht werden muss, während eine weitere Größe auf einem festen Wert gehalten werden muss. Solch ein Problem wird als ein Extremalproblem mit Nebenbedingungen bezeichnet. Sei also C die Größe, welche auf einem konstanten Wert gehalten werden muss. Mit C[ f ] soll das Funktional, das mit C verbunden ist, bezeichnet werden. Es lässt sich auch als Integral x2 C[ f ] =
dx K ( f , f , x)
(9.7)
x1
ausdrücken. Dabei ist K ( f , f , x) ein Ausdruck, der von f und f und eventuell explizit von x abhängt. Es soll dann also C[ f ] = C ⇒ C[ f ] − C = 0 gelten. Um diese Nebenbedingung in das Extremalproblem einfließen zu lassen, wird der zweite Term, welcher eine Null darstellt, mit einem sogenannten Lagrange-Multiplikator λ auf das Funktional J addiert. Dadurch werden das Funktional und damit auch das Extremum nicht geändert, allerdings ändern sich die Euler-Lagrange-Gleichungen so, dass nun auch automatisch die Nebenbedingung erfüllt wird. Es ist dann I [ f ] ≡ J [ f ] + λ(C[ f ] − C ).
(9.8)
Dabei entsteht aus der Klammer ein konstanter Term −λC , der keinen Einfluss auf die Variation hat. Es kann daher die Variation des Ausdrucks I [ f ] + λC = J [ f ] + λC[ f ] betrachtet werden. Die obigen Überlegungen zur Herleitung der Euler-Lagrange-Gleichung (9.4) lassen sich separat auf J [ f ] und C[ f ] anwenden, und es folgt nach eben dieser Gleichung d ∂g d ∂K ∂K ∂g =0 − − +λ ∂f dx ∂ f ∂f dx ∂ f ∂g d ∂g d ∂K ∂K ⇒ . (9.9) − − = −λ ∂f dx ∂ f ∂f dx ∂ f Dies ergibt im Falle der analytischen Mechanik die Euler-Lagrange-Gleichung erster Art. Dort werden Zwangsbedingungen K betrachtet, die nicht von f abhängen. Der Term auf der rechten Seite wird dabei als Zwangskraft bezeichnet.
9.2
Klassische Beispiele zur Variationsrechnung
9.2
563
Klassische Beispiele zur Variationsrechnung
In diesem Abschnitt sollen einige klassische Beispiele der Variationsrechnung, wie der Lagrange-Formalismus oder das Fermat’sche Prinzip beleuchtet werden.
9.2.1
Analytische Mechanik
In der analytischen Mechanik wird als Größe, die ihr Extremum annehmen muss, die Wirkung S betrachtet. Das Wirkungsfunktional ist durch t2
S [{qi }] ≡
dt L({qi }, {q˙i }, t) t1
gegeben. Dabei ist L die Lagrange-Funktion und gemäß L = T −U bestimmt durch die kinetische Energie T und die potentielle Energie U des Systems. Die Menge {qi (t)} stellt die Menge der N verallgemeinerten Koordinaten dar. Diese erfüllen automatisch alle Zwangsbedingungen, die dem System aufliegen. Sie müssen nicht zwangsweise die Dimension einer Länge haben; so kann es sich beispielsweise um Winkel handeln. Ebenso wie die Euler-Lagrange-Gleichung (9.4) abgeleitet wurde, kann dies auf das Wirkungsfunktional angewendet werden. Dabei kann das Integral aufgrund der Menge von Koordinaten {qi (t)} zu t2 δS =
dt t1
N
δqi
i=0
d ∂L ∂L − ∂qi dt ∂ q˙i
bestimmt werden. Da alle Variationen der Koordinaten δqi voneinander unabhängig sein sollen, muss jeder Summand für sich bereits null sein, und es ergeben sich so N Differentialgleichungen d ∂L ∂L − = 0. ∂qi dt ∂ q˙i
(9.10)
Dass es sich beim Wirkungsfunktional um die Größe handelt, welche ihren maximalen Wert annehmen muss, wird als Hamilton’sches Prinzip bezeichnet. Ein simples Beispiel ist durch ein physikalisches Pendel mit Masse m und Länge l gegeben. Das Pendel soll sich nur in der x z-Ebene bewegen. Dann sind x 2 + z2 = l 2
y=0
564
9 Variationsrechnung
die Zwangsbedingungen des Problems. Damit verfügt das System nur noch über 1 Freiheitsgrad, und es kann als verallgemeinerte Koordinate der Auslenkungswinkel θ gewählt werden, womit sich x = l sin(θ) ⇒ x˙ = l θ˙ cos(θ) z = −l cos(θ) ⇒ z˙ = l θ˙ sin(θ) finden lässt. Damit gelten für die kinetische Energie T =
1 1 2 1 mr˙ = m x˙ 2 + z˙ 2 = ml 2 θ˙ 2 cos2 (θ ) + sin2 (θ ) 2 2 2 1 2 2 = ml θ˙ 2
und U = mgz = −mgl cos(θ) für die potentielle Energie. Dabei wurde der Nullpunkt der potentiellen Energie auf z = 0 gelegt. Die Lagrange-Funktion wird so durch ˙ = T −U = L(θ, θ)
1 2 2 ml θ˙ + mgl cos(θ) 2
bestimmt. Damit lautet nach Gl. (9.10) die Bewegungsgleichung d ∂L ∂L =0 − dt ∂ θ˙ ∂θ
⇒
d 2 ml θ˙ + mgl sin(θ) = 0 dt ⇒ ml 2 θ¨ + mgl sin(θ ) = 0 g ⇒ θ¨ + sin(θ ) = 0. l
Dies ist auch das Ergebnis, das aus der Betrachtung der Newton’schen Mechanik mit der Fadenspannung und der Gewichtskraft folgt. Die Nützlichkeit des Lagrange-Formalismus liegt darin, dass er unabhängig von Bezugssystemen zu den Bewegungsgleichungen führt und dass für komplexe Systeme nur die Energien betrachtet und nicht alle Kräfte ausgearbeitet werden müssen. Um den letzten Punkt zu illustrieren, soll hier das Doppelpendel mit Massen m 1 und m 2 und den Längen l1 und l2 betrachtet werden, wie es auch in Abb. 9.2 dargestellt ist. Das Doppelpendel soll sich wieder nur in der x z-Ebene bewegen. In der Newton’schen Betrachtungsweise müssen hier zwei Fadenspannungen und zwei Gewichtskräfte berücksichtigt werden. Im Lagrange-Formalismus werden zwei verallgemeinerte Koordinaten θ1 und θ2 eingeführt. Diese stellen die jeweilige Auslenkung bezüglich des Lots dar. Die Koordinaten
9.2
Klassische Beispiele zur Variationsrechnung
565
Abb. 9.2 Darstellung des Doppelpendels mit den entsprechenden Pendellängen, Pendelmassen und Auslenkungen gegenüber dem Lot
sind dann durch x1 = l1 sin(θ1 ) z 1 = −l1 cos(θ1 ) x2 = x1 + l2 sin(θ2 ) = l1 sin(θ1 ) + l2 sin(θ2 ) z 2 = z 1 − l2 cos(θ2 ) = −l1 cos(θ1 ) − l2 cos(θ2 ) gegeben. Damit zeigt sich ⎛
⎞ cos θ1 r˙ 1 = l1 θ˙1 ⎝ 0 ⎠ sin θ1
⎛ ⎞ ⎛ ⎞ cos θ1 cos θ2 r˙ 2 = l1 θ˙1 ⎝ 0 ⎠ + l2 θ˙2 ⎝ 0 ⎠ . sin θ1 sin θ2
Und somit gilt für die kinetische Energie 1 1 m 1r 21 + m 2r 22 2 2 1 1 2 ˙ = m 1l1 θ1 + m 2 l12 θ˙12 + 2l1l2 θ˙1 θ˙2 (cos(θ1 ) cos(θ2 ) + sin(θ1 ) sin(θ2 )) + l22 θ˙22 2 2 1 1 = (m 1 + m 2 )l1 θ˙12 + m 2 l2 θ˙22 + m 2 l1l2 θ˙1 θ˙2 cos(θ1 − θ2 ) , 2 2
T =
während für die potentielle Energie hingegen U = m 1 gz 1 + m 2 gz 2 = −(m 1 + m 2 )gl1 cos(θ1 ) − m 2 gl2 cos(θ2 ) gilt. Und somit ist die Lagrange-Funktion durch
566
9 Variationsrechnung
1 1 L = (m 1 + m 2 )l1 θ˙12 + m 2 l2 θ˙22 + m 2 l1l2 θ˙1 θ˙2 cos(θ1 − θ2 ) 2 2 + (m 1 + m 2 )gl1 cos θ1 + m 2 gl2 cos(θ2 ) gegeben. Diese besitzt
d dt
d dt
∂L ∂θ1 ∂L ∂θ2 ∂L ∂ θ˙1 ∂L ∂ θ˙1 ∂L ∂ θ˙2 ∂L ∂ θ˙2
= −m 2 l1l2 θ˙1 θ˙2 sin(θ1 − θ2 ) − (m 1 + m 2 )gl1 sin(θ1 ) = +m 2 l1l2 θ˙1 θ˙2 sin(θ1 − θ2 ) − m 2 gl2 sin(θ2 ) = (m 1 + m 2 )l1 θ˙1 + m 2 l1l2 θ˙2 cos(θ1 − θ2 ) = (m 1 + m 2 )l1 θ¨1 + m 2 l1l2 θ¨2 cos(θ1 − θ2 ) − m 2 l1l2 θ˙2 (θ˙1 − θ˙2 ) sin(θ1 − θ2 ) = m 2 l2 θ˙2 + m 2 l1l2 θ˙1 cos(θ1 − θ2 ) = m 2 l2 θ¨2 + m 2 l1l2 θ¨1 cos(θ1 − θ2 ) − m 2 l1l2 θ˙1 (θ˙1 − θ˙2 ) sin(θ1 − θ2 )
als relevante Ableitungen. Damit ergeben sich aus Gl. (9.10) die beiden Bewegungsgleichungen (m 1 + m 2 )l1 θ¨1 + m 2 l1l2 θ¨2 cos(θ1 − θ2 ) + m 2 l1l2 θ˙22 sin(θ1 − θ2 ) = −(m 1 + m 2 )gl1 sin(θ1 ) m 2 l2 θ¨2 + m 2 l1l2 θ¨1 cos(θ1 − θ2 ) − m 2 l1l2 θ˙12 sin(θ1 − θ2 ) = −m 2 gl2 sin(θ2 ) für das Doppelpendel. Diese Differentialgleichungen lassen sich für einige Spezialfälle mit analytischen Näherungen lösen, müssen für allgemeine Lösungen aber mit einem Computer numerisch integriert werden.
9.2.2
Lichtbrechung
Durchquert ein Lichtstrahl ein Medium mit dem Brechungsindex n, so erhält das Licht im Medium die effektive Geschwindigkeit cn =
c . n
Der Brechungsindex von Wasser beträgt beispielsweise n H2 O = 43 , und somit ist cH2 O =
3 c 4
9.2
Klassische Beispiele zur Variationsrechnung
567
die Lichtgeschwindigkeit in Wasser. Das Fermat’sche Prinzip besagt nun, dass das Licht den Weg zwischen zwei Punkten nehmen wird, bezüglich dessen die Laufzeit des Lichtes minimal ist. Davon ausgehend soll das Verhalten eines Lichtstrahls an einer Übergangsschicht untersucht werden. Die Strahlenverläufe sind in Abb. 9.3 deutlich gemacht. Es starte also ein Lichtstrahl am Punkt (0|y A ) und befinde sich in einem Medium des Brechungsindex n 1 . An einer Stelle x trifft er auf eine Grenzfläche, an der sich der Brechungsindex ändern soll. Er hat bis dorthin den Weg s1 = y 2A + x 2 bei einer Zeit von n 1 y 2A + x 2 s1 T1 = = c1 c zurückgelegt. Er trifft dabei mit einem Winkel θ1 , der sin(θ1 ) =
x x = s1 y 2A + x 2
erfüllt, zum Lot gemessen auf die Grenzfläche auf. Das Licht befindet sich nun in einem Medium mit Brechungsindex n 2 und verlässt die Grenzfläche unter einem Winkel θ2 vom Lot gemessen und erreicht schließlich den Punkt (x B |y B ). Der Lichtstrahl legt dabei im zweiten Medium den Weg s2 = y B2 + (x B − x)2
Abb. 9.3 Darstellung des Lichtweges als durchgezogene Linie, mit Lot an der Grenzschicht als gestrichelte Linie
568
9 Variationsrechnung
in der Zeit n 2 y B2 + (x B − x)2 s2 T2 = = c2 c zurück. Damit ist der Winkel θ2 durch sin(θ2 ) =
xB − x xB − x = s2 y B2 + (x B − x)2
zu bestimmen. Für die Gesamtzeit T gilt n 2 y B2 + (x B − x)2 n 1 y 2A + x 2 T = T1 + T2 = + , c c womit das Extremum von T bezüglich x zu ⎛ ⎞ 1⎝ dT x (x B − x) ⎠ n1 = − n2 dx c 2 2 2 2 yA + x y B + (x B − x) 1 x (x B − x) ! = n1 − n2 =0 c s1 s2 bestimmt werden kann. Und somit gilt n1
x (x B − x) − n2 = n 1 sin(θ1 ) − n 2 sin(θ2 ) = 0 s1 s2 ⇒ n 1 sin(θ1 ) = n 2 sin(θ2 ) .
Dies ist das Brechungsgesetz von Snellius. Es ist ein Beispiel für ein diskretes Optimierungsproblem. Im Falle eines ortsabhängigen und stetig verlaufenden Brechungsindex lässt sich der Weg des Lichtes durch die Variationsrechnung bestimmen. Es soll dabei ein Brechungsindex n(x) betrachtet werden, der sich entlang der x-Achse ändert. Damit ist auch die Geschwindigkeit c(x) =
c n(x)
ortsabhängig. Dazu lässt sich aus dem diskreten Fall T =
N si c(xi ) i=0
das Funktional der Bahnkurve y(x) über einen Kontinuumlimes
9.2
Klassische Beispiele zur Variationsrechnung
569
L T [y] =
ds
1 c(x)
0
herleiten. Mit dem Linienelement ds 2 = dx 2 + dy 2 findet sich auch ds = dx
1+
dy dx
2 = dx
1 + y 2 .
Und somit lässt sich das Funktional als L T [y] =
1 = ds c(x)
x B dx
1 + y 2 ≡ c(x)
xA
0
x B
dx K (y, y , x)
xA
schreiben. Die Größe K ist analog zu der Lagrange-Funktion in der analytischen Mechanik. In diesem speziellen Fall ist K unabhängig von y, und somit ist y eine zyklische Variable. Gemäß Gl. (9.5) ist so die Erhaltungsgröße P=
∂K = const. ∂ y
gegeben. Die Differentialgleichung der Bahnkurve wird dann durch P=
y c(x) 1 + y 2
⇒ y 2 (1 − c2 (x)P 2 ) = P 2 c2 (x) Pc(x) ⇒ y (x) = ± 1 − c2 (x)P 2 bestimmt. Dabei zeigt sich, dass P aus der Anfangsrichtung des Lichtstrahls und dem Brechungsindex bei x A vollständig durch P=
y (x A ) c(x A ) 1 + y 2 (x A )
bestimmt ist. Das Vorzeichen von P stimmt mit dem Vorzeichen von y überein, weshalb
570
9 Variationsrechnung
y (x) =
Pc(x) 1 − c2 (x)P 2
x B ⇒ y(x) − y A = xA
Pc(x) dx 1 − c2 (x)P 2
gültig ist. Eine weitere Auswertung kann nur vorgenommen werden, wenn das Verhalten des Brechungsindex n(x) bekannt ist.
9.2.3
Schnellster Weg im Schwerefeld
Ein beliebtes Beispiel ist die Frage nach dem schnellsten Weg eines gleitenden Massenpunktes im Schwerefeld der Erde von einem Punkt (0|0) zum Punkt (x B |y B ), wobei x B > 0 und y B < 0 sein soll. Der Massenpunkt soll sich zu Anfang in Ruhe befinden. Wie im vorherigen Beispiel ist auch hier klar, dass die Zeit, die der Massenpunkt benötigt um auf der Kurve y(x) entlangzugleiten, durch L T [y] =
ds 0
1 v(s)
gegeben ist, wobei v(s) die Geschwindigkeit des Massenpunktes ist. Diese kann im reibungsfreien Fall durch den Energieerhaltungssatz 1 2 mv + mgy = 0 ⇒ v = −2gy 2 gefunden werden. Die Gesamtenergie ist dabei null, da das Potential bei y = 0 auf null gewählt wurde und sich der Körper zu Anfang in Ruhe befand. Für das Wegelement gilt ds = dx 1 + y 2 , womit für das Funktional L T [y] = 0
1 = ds v(s)
x B dx 0
1 + y 2 ≡ −2gy
x B
dx K (y, y , x)
0
gilt. Es zeigt sich, dass K (y, y , x) nicht explizit von x abhängig ist. Damit lässt sich gemäß Gl. (9.6) die Erhaltungsgröße
9.2
Klassische Beispiele zur Variationsrechnung
E≡
∂K y ∂y
571
−K =y 1+y
y √ 2
−2gy
−
1 + y 2 −2gy
y 2
− (1 + y 2 ) = −2gy(1 + y 2 ) −1 = −2gy(1 + y 2 ) konstruieren. Dies lässt sich dann über 1 1 ⇒ 2 = −2gy(1 + y 2 ) −E= E −2gy(1 + y 2 ) 1 1 + 2gy E 2 2 ⇒1 + y 2 = − ⇒ y = − 2gy E 2 2gy E 2 1 2g E 2 + y ⇒y = − −y nach y auflösen. Das Vorzeichen wurde auf Minus gewählt, da die Ableitung der Bahnkurve aufgrund von yB yB − y A = 0 fortsetzen. Wichtig ist hierbei, dass bei x = 0 somit auch y (0) = 0 gelten muss, da dies die einzige Ableitung ist, die mit der Spiegelsymmetrie und der Stetigkeit der Dichteverteilung1 vereinbar ist. Damit wird 1 Falls die Kette einzelne Massenpunkte enthält, die sie beschweren, ist diese Aussage nicht mehr
gültig. Ein physikalisches Beispiel wären Perlen, die auf der Kette aufgereiht sind.
9.2
Klassische Beispiele zur Variationsrechnung
575
auch das negative Vorzeichen in der obigen Gleichung gewählt, und es ergibt sich x −
y d x˜ =
−d
d y˜ 0
1 gρ y˜ −λ E
2
−1
als Gleichung. Zur Lösung dieses Integrals wird die Substitution ρg gρ y˜ − λ = cosh(t) ⇒ d y˜ = sinh(t) dt E E verwendet; es kann dabei t > 0 gewählt werden. Damit lässt sich das Integral auf der rechten Seite zu y d y˜ 0
1 gρ y˜ −λ E
2
−1
E = ρg E = ρg
t2 dt t1
t2 dt t1
sinh(t) cosh2 (t) − 1
E sinh(t) = (t2 − t1 ) sinh(t) ρg
vereinfachen, während die linke Seite durch x −
d x˜ = −(x + d)
−d
zu bestimmen ist. Die Größen t1 und t2 lassen sich aus der ursprünglichen Substitution zu λ λ ρg t2 = Arcosh y− t1 = Arcosh − E E E bestimmen, und somit ist λ ρg ρg y− = − (x + d) + t1 E E E λ ρg λ ρg y− = cosh − (x + d) + Arcosh − ⇒ E E E E λ E ρg λ ⇒y= + cosh − (x + d) + Arcosh − ρg ρg E E
t2 = Arcosh
die vorläufige Lösung des Problems. Damit dieser Term mit der Spiegelsymmetrie verträglich ist, muss y (0) = 0 sein, wodurch sich
576
9 Variationsrechnung
λ ρg y (x) = − sinh − (x + d) + Arcosh − E E λ ρg ⇒ y (0) = − sinh − d + Arcosh − E E λ ρg ⇒ Arcosh − = d E E ρg E λ =− cosh d ⇒ ρg ρg E
bestimmen lässt. Daher ist die schlussendliche Lösung durch y(x) =
ρg ρg E cosh x − cosh d ρg E E
gegeben. Ein Seil hängt also in Form des hyperbolischen Kosinus durch. Die Größe E wird dabei durch die Nebenbedingung der Länge 0
L=2
dx
0 1 + y 2 = 2
−d
dx cosh
−d
ρgx E
sinh ρgd E 2E ρgd = sinh = 2d ρgd ρg E E
vollständig festgelegt.
9.2.5
Geodätengleichung auf Oberflächen
Das letzte klassische Beispiel, das betrachtet werden soll, ist das Finden von Geodäten auf einer Oberfläche, also der kürzesten Verbindung zweier Punkte auf einer gekrümmten Oberfläche. Im klassischen Fall wird eine zweidimensionale Fläche durch zwei Parameter a und b beschrieben. Da ein Weg auf dieser Fläche ein eindimensionales Objekt ist, bedarf es zu dessen Beschreibung nur eines Parameters, und die beiden Parameter, welche die Oberfläche beschreiben, sind nicht mehr unabhängig voneinander. Typischerweise wird zur Lösung einer der Parameter als eine Funktion des anderen Parameters ausgedrückt, beispielsweise a = a(b). Das zu extremalisierende Funktional ist das Längenfunktional L L[a] =
ds, 0
welches vom Wegelement ds der konkret betrachteten Oberfläche abhängt. Es sollen hier zwei besondere Beispiele betrachtet werden:
9.2
Klassische Beispiele zur Variationsrechnung
577
• Der Zylinder: Zunächst wird ein Zylinder mit Radius S betrachtet. Das Linienelement auf dem Zylinder ist nach Gl. (8.46) aus Abschn. 8.3.5 durch ds 2 = S 2 dφ 2 + dz 2 gegeben. Es können hier z als eine Funktion des Winkels φ betrachtet und so der Zusammenhang 2 dz ds 2 = dφ 2 S 2 + ⇒ ds = dφ S 2 + z 2 dφ aufgestellt werden. Das Funktional für die Länge eines Weges ist dann durch φ B
L L[z] =
ds =
dφ φA
0
S2
+
z 2
φ B ≡
dφ K (z, z , φ)
φA
gegeben. Es fällt sofort auf, dass z eine zyklische Variable ist und daher nach Gl. (9.5) die Erhaltungsgröße P=
z ∂K = ∂z S 2 + z 2
gebildet werden kann. Diese kann nach z aufgelöst werden, um z =
PS dz PS = ±√ =√ 2 dφ 1− P 1 − P2
zu erhalten. Da P aufgrund seiner Definition dasselbe Vorzeichen wie z trägt, stellt sich das positive Vorzeichen als das physikalische Vorzeichen heraus. Diese Gleichung ist einfach zu lösen, da sie auf der rechten Seite nur Konstanten enthält und somit PS z(φ) = √ (φ − φ0 ) + z 0 1 − P2 ergibt. Dieses Ergebnis war zu erwarten, da die Mantelfläche eines Zylinders abgerollt werden kann und so eine zweidimensionale Ebene betrachtet wird, in der der kürzeste Abstand eine gerade Linie ist. • Kugel Beim Beispiel einer Kugel mit Radius R ist das Linienelement nach Gl. (8.49) aus Abschn. 8.3.5 durch ds 2 = dθ 2 + sin2 θ dφ 2
578
9 Variationsrechnung
gegeben. Es bietet sich an, hier φ als eine Funktion von θ auszudrücken. Das Linienelement wird dann zu ds 2 = dθ 2 1 + sin2 θ φ 2 umgeformt, wodurch das Wegfunktional zu L L[φ] =
θ B ds =
0
θA
θ B 2 dθ 1 + sin θ φ 2 ≡ dθ K (φ, φ , θ ) θA
wird. Es fällt auf, dass φ eine zyklische Koordinate ist, und somit nach Gl. (9.5) die Erhaltungsgröße P=
φ ∂K = ∂φ 1 + sin2 θ φ 2
konstruiert werden kann. Dies erlaubt das Betrachten der speziellen Lösung P = 0, was zum Fall φ = 0 ⇒ φ = φ0 = const. führt. Die Lösung ist also das Abfahren der verschiedenen Höhenwinkel θ bei festen Azimutalwinkeln φ0 . Auf einem Globus sind diese Lösung Längengrade und somit Großkreise. Da das Problem rotationssymmetrisch ist, sind alle Lösungen Großkreise.
9.3
Nicht klassische Beispiele zur Variationsrechnung
Zuletzt sollen noch ein paar Beispiele betrachtet werden, die typischerweise erst in höheren Semestern betrachtet werden, die aber auch auf ein Extremalprinzip zurückzuführen sind. Hierfür sind Kenntnisse der speziellen Relativitätstheorie und der mathematischen Konzepte der allgemeinen Relativitätstheorie vonnöten. Einen Anhaltspunkt auf diese mathematischen Konzepte bietet Kap. 10.
9.3.1
Relativistische Verallgemeinerung des Lagrange-Formalismus und Feldtheorie
Über die Anwendung in der klassischen Physik hinaus gibt es eine relativistische Verallgemeinerung des Lagrange-Formalismus.2 Wichtig ist hierbei, dass es nicht um die Beschrei2 Dieses Themengebiet wird typischerweise in der modernen Quantenphysik oder in der theoretischen
Teilchenphysik behandelt.
9.3
Nicht klassische Beispiele zur Variationsrechnung
579
bung eines sich relativistisch bewegenden Teilchens geht, sondern um das Beschreiben von Feldgrößen, wie den elektrischen und magnetischen Feldern in unterschiedlichen Bezugssystemen. Ausgangspunkt ist auch hier eine extremale Wirkung. Da im Wirkungsfunktional zuvor aber als Integrationsvariable die Zeit verwendet wurde, welche sich unter dem Wechsel von Bezugssystemen auf nicht triviale Weise transformiert, muss eine neue Formulierung gefunden werden, bei der das Integrationsmaß mit einem Lorentz-Vektor verknüpft ist. Es bietet sich daher an, die Lagrange-Funktion als das Volumenintegral einer neuen Funktion der sogenannten Lagrange-Dichte über L = d3r L(rr , t) auszudrücken. Dadurch ist die Wirkung durch S = d4 x L(x) gegeben. r beschreibt dabei Ortsvektoren, während x die Raumzeitvektoren beschreibt. Es wird dabei über das gesamte Raumzeitvolumen integriert. Die Lagrange-Dichte wird als ein Skalar unter Lorentz-Transformation formuliert. Das Differential d4 x ist invariant unter Lorentz-Transformation, da die Transformationsmatrix nach Abschn. 8.3.5 mit der Jacobi-Matrix zusammenhängt und die Determinante eins besitzt. Daher ist die Wirkung auch ein Skalar unter Lorentz-Transformation und ist in jedem Bezugssystem extremal. Die Lagrange-Funktion hängt dann nicht mehr von den Koordinaten eines Systems ab, sondern typischerweise von Feldern, also von Funktionen, die an jedem Raumzeitpunkt einen bestimmten Wert annehmen. Ein konkretes Beispiel hierfür ist die Formulierung der Elektrodynamik mittels LagrangeFormalismus. Es werden dafür als Felder die elektromagnetischen Potentiale Aμ (x) = ,A c betrachtet. Hierbei bezeichnet der oben stehende Index die Komponenten eines kontravarianten Vektors, wie er in Kap. 10 eingeführt wird. Aus diesem Feld lässt sich ein Tensor zweiter Stufe Fμν = ∂μ Aν − ∂ν Aμ konstruieren, der als Komponenten die elektrischen und magnetischen Felder beinhaltet. Darin sind die unten stehenden Indices, genau wie in Kap. 10, mit den oben stehenden Indices über die Metrik durch A Aμ = ημν Aν = , −A c
580
9 Variationsrechnung
verknüpft. ∂μ bezeichnet die Ableitung nach der μ-ten Komponente des kontravarianten Vektors x μ , also ∂μ = ∂ x∂ μ . Die Komponenten dieses sogenannten Feldstärketensors sind dann durch ⎞ ⎛ 0 E x /c E y /c E z /c ⎜−E x /c 0 −Bz By ⎟ ⎟ (Fμν ) = ⎜ ⎝−E y /c Bz 0 −Bx ⎠ −E z /c −B y Bx 0 gegeben. Es handelt sich dabei um einen antisymmetrischen Tensor, der somit die Eigenschaft Fμν = −Fνμ erfüllt. Die Lagrange-Dichte der Elektrodynamik ist in SI-Einheiten durch 1 L = − Fμν F μν − μ0 j μ Aμ 4 gegeben, wobei j μ = (ρc, j ) die relativistische Verallgemeinerung der Stromdichte ist. Diese Lagrange-Dichte wird nun nach den Feldern Aσ und dessen Ableitungen variiert und liefert so die Variation ∂L ∂L 4 δS = d x δ(∂λ Aσ ) δ Aσ + ∂ Aσ ∂(∂λ Aσ ) ∂L ∂L = d4 x δ Aσ − ∂λ ∂ Aσ ∂(∂λ Aσ ) des Wirkungsfunktionals. Dabei wurde im letzten Schritt eine partielle Integration durchgeführt. Die Randterme fallen auch hier weg, da die Felder im Unendlichen nicht variiert werden sollen. Damit ergeben sich aber die Gleichungen ∂L ∂L = 0, − ∂λ ∂ Aσ ∂(∂λ Aσ ) da die Wirkung extremal sein soll und die Variationen δ Aσ beliebig waren. Die Ableitungen bezüglich Aσ sind durch ∂L = −μ0 j μ δμσ = −μ0 j σ ∂ Aσ gegeben, während die Ableitungen des Feldstärketensors durch ∂ Fμν = δμλ δνσ − δμσ δνλ ∂(∂λ Aσ ) gegeben sind. Für die Ableitung der Lagrange-Dichte nach ∂λ Aσ wird der erste Term3 zu 3 Dieser wird auch als kinetischer Term bezeichnet. Es kann hier als Analogie aufgefasst werden,
dass dies der Term ist, der von den Ableitungen abhängt, ebenso wie in der klassischen Mechanik der
9.3
Nicht klassische Beispiele zur Variationsrechnung
581
1 1 Lkin. = − Fμν F μν = − ημα ηνβ Fμν Fαβ 4 4 umgeschrieben. Somit lässt sich die Ableitung zu ∂ Fαβ ∂ Fμν 1 μα νβ ∂ Lkin. =− η η Fαβ + Fμν ∂(∂λ Aσ ) 4 ∂(∂λ Aσ ) ∂(∂λ Aσ ) 1 = − ημα ηνβ δμλ δνσ − δμσ δνλ Fαβ + Fμν δαλ δβσ − δασ δβλ 4 1 = − F λσ − F σ λ + F λσ − F σ λ = −F λσ 4 bestimmen. Dabei wurde im letzten Schritt ausgenutzt, dass der Feldstärketensor antisymmetrisch ist. Somit folgt ∂λ
∂L ∂L = ∂(∂λ Aσ ) ∂ Aσ
⇒
∂λ F λσ = μ0 j σ
aus der Euler-Lagrange-Gleichung. Wird die Lorenz-Eichung verwendet, die hier die Form ∂λ A λ =
1 ∂ − ∇A = 0 c2 ∂t
annimmt, so gilt ∂λ F λσ = ∂λ ∂ λ Aσ − ∂ σ ∂λ Aλ = ∂λ ∂ λ Aσ =
1 ∂2 − Aσ = μ0 j σ. c2 ∂t 2
Und so lässt sich für σ = 0 und unter Verwendung von c =
1 ∂2 = cμ0 ρ − c2 ∂t 2 c
⇒
√1 0 μ0
1 ∂2 μ0 ρ − = ρ= c2 ∂t 2 0 μ 0 0
finden. Für die Komponenten σ ∈ {1, 2, 3} lässt sich das Ergebnis in einer Vektorgleichung 1 ∂2 − A = μ0 j c2 ∂t 2 zusammenfassen. Dies sind aber die bekannten Wellengleichungen der Elektrodynamik. Es handelt sich hier jedoch nur um die inhomogenen Gleichungen. Die homogenen Maxwell-Gleichungen werden durch den dualen Feldstärketensor F˜ μν = μνρσ Fρσ
Term mit den Ableitungen der verallgemeinerten Koordinaten typischerweise die kinetische Energie war.
582
9 Variationsrechnung
konstruiert, der wegen des Levi-Civita-Symbols und der Ableitungen in Fρσ automatisch die Gleichung ∂μ F˜ μν = 0 erfüllt. Durch Ausarbeiten ergeben sich hieraus die homogenen Maxwell-Gleichungen, während sich aus dem Ausarbeiten der Gleichung ∂μ F μν = μ0 j ν die inhomogenen Maxwell-Gleichungen ergeben. Die Formulierung einer Lagrange-Dichte von Feldern wird auch verwendet um in der theoretischen Teilchenphysik die Interaktion von elementaren Teilchen zu beschreiben. Das Standardmodell der Elementarteilchenphysik ist gegeben durch eine Lagrange-Dichte, die einzelne Felder enthält. Darunter gibt es jene Teilchenfelder, welche die Materie beschreiben, die Leptonen und die Quarks und die Teilchenfelder, die die Interaktionen zwischen diesen Teilchen vermitteln, die Photonen, W- und Z-Bosonen und die Gluonen.
9.3.2
Geodätengleichung auf allgemeinen Oberflächen
Bei der Herleitung der Geodätengleichungen auf speziellen Oberflächen wurden die Parameter der Oberflächen als eine Funktion der anderen Parameter aufgefasst. Eine allgemeinere Methode4 betrachtet aber die Parameter als Funktionen der Weglänge. Dafür wird das Wegelement mithilfe des symmetrischen metrischen Tensors gμν (x) gemäß ds dx μ dx ν dx μ dx ν 2 μ ν 2 ⇒ = gμν ds = gμν dx dx = dλ gμν dλ dλ dλ dλ dλ ausgedrückt. Damit wird das Weglängenfunktional zu μ dx μ dx ν μ μ dx L[x ] = ds = dλ gμν ≡ dλ K x , . dλ dλ dλ Auf dieses Funktional wird eine Variation5 σ dx ∂K ∂K δL = dλ σ δx σ + d x σ δ ∂x dλ ∂ dλ σ ν ∂ gμν σ dx μ dx ν dx μ ν 1 dx μ dx + gμν δσ + δσ δ δx = dλ σ α β ∂x dλ dλ dλ dλ dλ x dx gαβ ddλ dλ 4 Dieses Themengebiet wird typischerweise erst in der allgemeinen Relativitätstheorie behandelt. 5 Hierbei beschreibt δ
d xσ dλ
x σ und nicht die Dirac-Delta-Funktion. die Variation von ddλ
9.3
Nicht klassische Beispiele zur Variationsrechnung
σ ν ∂ gμν σ dx μ dx ν dx dx μ ν μ dx δ + g + δ δx μν σ σ δ ds σ ∂ x ds ds ds ds ds dλ σ μ ν ν μ ∂ gμν σ dx dx dx ν dx dx + gμν δσμ + δσ δ δx = ds σ ∂x ds ds ds ds ds μ dx ν ν μ ∂ g dx dx dx d μν δσμ = ds δx σ − gμν + δν ∂ x σ ds ds ds ds ds σ ν dx μ ν d μ dx − gμν δσ + δ ds ds ds σ μ ν ∂ gμν dx λ μ dx ν dx μ ν σ ∂ gμν dx dx = ds δx − δσ + δ ∂ x σ ds ds ∂ x λ ds ds ds σ d2xμ ν d2xν − gμν δσμ 2 + δ ds ds 2 σ ∂ gμν dx μ dx ν ∂ gμσ dx λ dx μ ∂ gσ ν dx λ dx ν d2xν = ds δx σ − − − 2g σν ∂ x σ ds ds ∂ x λ ds ds ∂ x λ ds ds ds 2 μ ν ∂ gμν ∂ gμσ dx dx ∂ gσ ν d2xλ = ds δx σ − 2g − − σ λ ∂xσ ∂xμ ∂xν ds ds ds 2 μ ν ∂ gμσ dx dx ∂ gσ ν d2xλ σ σ ∂ gμν = ds δx δσ − 2gσ λ 2 − − ∂xμ ∂xν ds ds ds ∂xσ ∂ gμσ ∂ gμν dx μ dx ν d2xλ g λσ ∂ gσ ν σ + + − = −2 ds gσ λ δx 2 ∂xμ ∂xν ds ds ds 2 ∂xσ
=
dλ
1
583
ds dλ
2
ausgeführt. Dabei wurde beim Übergang von der vierten in die fünfte Zeile eine partielle Integration durchgeführt, deren Randterme verschwinden. Da die Variationen δx σ beliebig sind, muss aber der Term in Klammern null sein, und es gilt g λσ d2xλ + 2 ds 2
∂ gμσ ∂ gμν ∂ gσ ν + − μ ν ∂x ∂x ∂xσ
dx μ dx ν = 0. ds ds
Der Term, welcher Ableitungen des metrischen Tensors enthält, wird als Christoffel-Symbol λ μν ≡
g λσ 2
∂ gμσ ∂ gμν ∂ gσ ν + − μ ∂x ∂xν ∂xσ
(9.11)
bezeichnet und spielt in der allgemeinen Relativitätstheorie eine zentrale Rolle. Dabei ist zu bemerken, dass die Christoffel-Symbole in den unteren beiden Indices symmetrisch sind und daher λ λ μν = νμ
erfüllen. Mit diesen Christoffel-Symbolen wird die Geodätengleichung zu
584
9 Variationsrechnung μ ν d2xλ λ dx dx = 0. + μν 2 ds ds ds
(9.12)
Als konkretes Beispiel werden im Folgenden nur zweidimensionale Oberflächen betrachtet. • Geodäten-Gleichungen eines Zylinder Es soll hier der metrische Tensor eines Zylinder mit Radius S betrachtet werden. Das Wegelement war durch ds 2 = S 2 dφ 2 + dz 2 gegeben. Mit den Koordinaten x 1 = φ und x 2 = z ergibt sich so der metrische Tensor 2 S 0 . (gμν ) = 0 1 Dieser ist unabhängig von den Koordinaten x 1 und x 2 . Daher verschwinden alle Ableitungen des metrischen Tensors, und auch alle Christoffel-Symbole sind null. Die Geodätengleichungen sind dann nach Gl. (9.12) durch φ¨ = 0
z¨ = 0
gegeben. Mit der Wahl φ = Aλ + φ0 und z = Bλ + z 0 lässt sich z als Funktion von φ ausdrücken, indem λ durch φ über λ=
φ − φ0 A
ausgedrückt wird und somit z=
B (φ − φ0 ) + z 0 A
gilt. Das ist aber genau die Form von Lösung, die auch auf klassischem Wege in Abschn. 9.2.5 gefunden wurde. • Geodätengleichungen einer Kugel Es soll hier der metrische Tensor einer Kugel mit Radius R betrachtet werden. Das Wegelement war durch
9.3
Nicht klassische Beispiele zur Variationsrechnung
585
ds 2 = R 2 dθ 2 + R 2 sin2 (θ ) dφ 2 gegeben. Mit den Koordinaten x 1 = θ und x 2 = φ wird der metrische Tensor zu 2 0 R . (gμν ) = 0 R 2 sin2 (θ) Der inverse metrische Tensor ist also sofort durch (g
μν
)=
1 R2
0
1 R 2 sin2(θ)
0
gegeben. Die einzige nicht verschwindende Ableitung der Metrik ist ∂ g22 = 2R 2 sin(θ ) cos(θ ) . ∂x1 Damit werden die einzigen nicht verschwindenden Christoffel-Symbole zu 1 22 = − sin(θ) cos(θ)
2 2 12 = 21 =
cos(θ ) . sin(θ )
Mit Gl. (9.12) werden die beiden Geodätengleichungen zu θ¨ − φ˙ 2 sin(θ) cos(θ) = 0 φ + 2θ˙ φ˙ cot(θ ) = 0 bestimmt. Diese Gleichungen lassen zwei spezielle Lösungen zu: – φ˙ = 0, φ¨ = 0, und somit folgt θ¨ = 0. Die Lösung ist dann also φ = φ0 = const.
θ=
s + θ0 . R
Es handelt sich bei dieser Lösung auf einem Globus um Längengrade, und diese wurde auch auf klassischem Wege in Abschn. 9.2.5 gefunden. – θ = π2 , θ˙ = 0, θ¨ = 0. Damit folgt φ¨ = 0, und die Lösung ist durch θ=
π 2
φ=
s + φ0 R
gegeben. Diese Lösung entspricht auf dem Globus dem Äquator. Beide diese Lösungen sind Großkreise. Da das Problem rotationssymmetrisch ist, sind alle Lösungen Großkreise. • Anwendung in der allgemeinen Relativitätstheorie Es soll hier darauf hingewiesen werden, dass die vierdimensionale Raumzeit auch als eine Oberfläche im mathematischen Sinne einer Mannigfaltigkeit aufgefasst werden kann. Dies ist die mathematische Grundlage der allgemeinen Relativitätstheorie. Damit gilt die
586
9 Variationsrechnung
Geodätengleichung (9.12) auch für die vierdimensionale Raumzeit und beschreibt die kürzesten Wege in der Raumzeit, welcher Objekte folgen. Die Metrik ist dabei mit den Gravitationsfeldern verknüpft und wird durch die Anwesenheit von Massen verändert. Somit sorgen Massen für eine Krümmung der Raumzeit, die Objekte auf ihren Wegen von geraden Bahnen ablenken. Dieses Folgen der Geodäte durch die Raumzeit kann als eine Ablenkung durch eine Kraft interpretiert werden, der Gravitationskraft. Die Geodätengleichung stellt damit eine der beiden Grundgleichungen der allgemeinen Relativitätstheorie dar und beschreibt, wie sich Objekte in der gekrümmten Raumzeit bewegen. Die zweite Gleichung ist die Einstein’sche Feldgleichung (10.22), die beschreibt, wie Massen die Raumzeit krümmen. In Analogie dazu können auch die Lorentz-Kraft und die Maxwell-Gleichungen herangezogen werden. Die Lorentz-Kraft beschreibt, wie sich Ladungen in elektrischen und magnetischen Feldern bewegen, während die Maxwell-Gleichungen beschreiben, wie elektrische und magnetische Felder durch Ladungen und Ströme beeinflusst werden.
9.4
Formelsammlung - Variationsrechnung
Funktional x2 J[ f ] =
dx g( f , f , x)
x1
Euler-Lagrange-Gleichung ohne Nebenbedingung !
x2
0 = δJ[ f ] =
dx δ f x1
d ∂g ∂g − ∂f dx ∂ f
⇒
∂g d ∂g − =0 ∂f dx ∂ f
Besondere Umstände • g( f , f , x) hängt nicht explizit von f ab, also d ∂g =0 dx ∂ f
⇒
P=
∂g = const. ∂ f
f wird dann als zyklisch bezeichnet. • g( f , f , x) hängt nicht explizit von x ab, dann gilt E = f
∂g − g = const. ∂ f
9.4
Formelsammlung - Variationsrechnung
587
Euler-Lagrange-Gleichung mit Nebenbedingung x2
C = C[ f ] = x1
δI = 0
⇒
dx K ( f , f , x)
I [ f ] = J [ f ] + λ(C[ f ] − C )
∂g d ∂g d ∂K ∂K − − = −λ ∂f dx ∂ f ∂f dx ∂ f
Euler-Lagrange-Gleichung der analytischen Mechanik d ∂L ∂L − =0 ∂qi dt ∂ q˙i Geodätengleichung und Christoffel-Symbole μ ν d2xλ λ dx dx =0 + μν ds 2 ds ds
λ μν ≡
g λσ 2
∂ gμσ ∂ gμν ∂ gσ ν + − μ ν ∂x ∂x ∂xσ
Vektoren und Tensoren im physikalischen Sinne
10
Inhaltsverzeichnis 10.1 Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1.1 Arten von Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Skalare, Vektoren und Tensoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Skalare. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.3 Kovariante, kontravariante und duale Objekte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.4 Tensoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.5 Kovariante Ableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Einige physikalische Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.1 Drehungen um feste Winkel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.2 Translationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.3 Isometrische Gruppe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.4 Galilei-Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.5 Lorentz-Transformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.6 Raumspiegelung, Zeit- und Ladungsumkehr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.4 Formelsammlung – Vektoren und Tensoren im physikalischen Sinne . . . . . . . . . . . . . . . . .
589 591 594 595 597 598 601 603 608 608 612 614 616 619 631 636
In der Physik wird der Begriff Tensor häufig gebraucht. Vor allem bei der Formulierung der speziellen und allgemeinen Relativitätstheorie ist er unumgänglich. Tensoren sind immer mit einer Transformation verknüpft. In der klassischen Physik sind mit Tensoren meist Objekte gemeint, die ein spezielles Transformationsverhalten unter Drehungen aufweisen, während in der modernen Physik allgemeiner von der Lorentz-Transformation ausgegangen wird.
10.1
Transformationen
Unter einer Transformation wird in der Physik ein Koordinatenwechsel oder ein Bezugssystemwechsel verstanden. © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_10
589
590
10 Vektoren und Tensoren im physikalischen Sinne
Transformationen haben nicht nur eine maßgebliche Bedeutung bei der Definition der Begriffe Skalar, Vektor und Tensor, sondern sind durch das Noether-Theorem auch mit Erhaltungsgrößen der Physik verknüpft. Physikalische Größen, die sich bei einer Transformation nicht verändern, werden als invariant unter der entsprechenden Transformation bezeichnet. Ist die Wirkung S = dt L(q, q, ˙ t) unter solch einer Transformation invariant, so wird die Transformation als eine Symmetrie des Problems bezeichnet. Im einfachsten Fall1 ist dies zu erreichen, indem die LagrangeFunktion L nach der Transformation unverändert bleibt. Dies führt auch dazu, dass unter der Transformation die Bewegungsgleichungen gleich bleiben. Solch eine Symmetrie führt zu einer Erhaltungsgröße; dieser Zusammenhang wird als Noether-Theorem bezeichnet. Ist eine Transformation keine Symmetrie des Problems, so wird die Transformation als gebrochene Symmetrie bezeichnet, beispielsweise gebrochene Translationsinvarianz. In diesem Fall gibt es keine mit der Transformation assoziierte Erhaltungsgröße. Beispielsweise ist die Lagrange-Funktion eines freien Teilchens im Schwerefeld der Erde in der Nähe des Erdbodens durch L(rr , r˙ , t) =
1 2 mr˙ − mgz 2
gegeben. Durch eine Translation in horizontaler Richtung ändert sich die Lagrange-Funktion nicht und der Impuls ist in horizontale Richtung erhalten. In z-Richtung würde sich die Lagrange-Funktion bei einer Translation ändern, wodurch der Impuls in z-Richtung nicht erhalten ist. Für ihn gilt d d pz = m z˙ = −mg dt dt nach den Newton’schen Gesetzen bzw. nach der Euler-Lagrange-Gleichung (9.10). Durch diese Motivation wird klar, dass es zunächst sinnvoll ist, einen Blick auf die Transformationen selbst zu werfen. Da es sich um einen Basis- oder Bezugssystemwechsel handelt, soll im Folgenden das ursprüngliche Koordinaten- oder Bezugssystem mit ungestrichenen Buchstaben bezeichnet werden, beispielsweise x, y und z, während das neue Koordinatensystem durch gestrichene Buchstaben, beispielsweise x , y und z bezeichnet werden soll.
1 Rein technisch gesehen, muss nur die Variation der Wirkung invariant sein, aber diese Details sollen
den Lehrbüchern der analytischen Mechanik überlassen werden.
10.1 Transformationen
591
10.1.1 Arten von Transformationen Zunächst gibt es die Unterscheidung zwischen kontinuierlichen und diskreten Transformationen. Anschaulich lassen sich kontinuierliche Transformationen aus beliebig vielen infinitesimalen Transformationen aufbauen. Eine Translation um einen festen Abstand a kann so in beliebig vielen kleinen Schritten, beispielsweise in 100 Schritten von der Länge a/100 oder noch kleineren Schritten aufgebaut werden. Bei diskreten Transformationen wie einer Spiegelung ist dies nicht der Fall. Üblicherweise lassen sich alle Transformationen durch eine Transformationsmatrix ausdrücken. Diese lässt sich wie in Abschn. (7.2) als eine Exponentialfunktion von Matrizen L in Kombination mit einem Parameter θ über = exp(−iLθ) ausdrücken. Im Falle einer kontinuierlichen Transformation kann θ Werte aus einem kontinuierlichen Intervall annehmen, während bei diskreten Transformationen nur eine endliche2 Menge an Werten für θ zur Verfügung steht. Ob es sich um kontinuierliche oder diskrete Transformationen handelt, macht vor allem in der Quantenmechanik einen Unterschied. In der klassischen Mechanik folgen nur aus kontinuierlichen Symmetrien Erhaltungsgrößen. In der Quantenmechanik sind die Erhaltungsgrößen, die durch Symmetrien zu Stande kommen, mit Quantenzahlen verknüpft. Kontinuierliche Symmetrien erzeugen dabei additive Quantenzahlen, während diskrete Symmetrien multiplikative Quantenzahlen erzeugen. Die zweite Unterscheidung, die getroffen werden kann, ist die zwischen aktiven und passiven Transformationen. Einfach gesagt, ändert die aktive Transformation die Koordinaten eines Punktes explizit, während das Koordinatensystem festgehalten wird, während bei einer passiven Transformation das exakte Gegenteil eintritt. Der Punkt bleibt also gleich, während das Koordinatensystem verändert wird. Dadurch ändern sich jedoch auch die Koordinaten des Punktes relativ zu diesem Bezugssystem. Beide Arten sind in ihrer Wirkung äquivalent, liefern aber unterschiedliche Vorteile. Sie lassen sich am besten anhand der Beispiele der Translation und der Rotation verstehen. • Translation Die Translation soll entlang der x-Achse stattfinden und den Betrag a besitzen. Sie wird in Abb. 10.1 veranschaulicht. Bei der aktiven Transformation werden die Koordinaten eines Punktes in der Ebene geändert. Der Punkt P(x, y) wird nach der Vorschrift
2 Technisch gesehen, können auch abzählbar unendlich viele Parameter möglich sein, sollen hier aber
nicht betrachtet werden.
592
10 Vektoren und Tensoren im physikalischen Sinne
Abb. 10.1 Darstellung einer aktiven Translation (a) und einer passiven (b)
x → x = x + a y → y = y transformiert. Damit wird er auf den neuen Punkt P verschoben. Bei einer passiven Transformation wird die Situation in einem neuen Koordinatensystem betrachtet. Dieses Koordinatensystem S hat Achsen, die parallel sind zu denen des ursprünglichen Systems S, aber mit einem anderen Ursprung. Ausgedrückt in den Koordinaten von S ist dieser Ursprung dann (−a, 0). Die Koordinaten des Punktes P im Koordinatensystem S sind dann durch (x + a, y) gegeben. Das sind aber auch die Koordinaten, die der Punkt nach einer aktiven Transformation hat. Die Beschreibungen sind daher äquivalent. • Rotation Für die Rotation soll bei der aktiven Transformation der Punkt P(x, y) um die z-Achse um den Winkel θ entgegen dem Uhrzeigersinn gedreht werden. Die Veranschaulichung ist in Abb. 10.2 zu sehen. Die Koordinaten des neuen Punktes P (x, y) werden somit durch x → x = x cos θ − y sin θ y → y = x sin θ + y cos θ bestimmt. Bei der passiven Transformation wird hingegen das Koordinatensystem an der z-Achse des Systems S im Uhrzeigersinn um den Winkel θ gedreht. Der Ursprung der beiden Systeme stimmt im Nachhinein noch überein. Die Basisvektoren von S ausgedrückt durch die Basisvektoren von S sind dann aber durch
10.1 Transformationen
593
Abb. 10.2 Darstellung einer aktiven Rotation (a) und einer passiven (b)
eˆ x = eˆ x cos θ − eˆ y sin θ eˆ y = eˆ x sin θ + eˆ y cos θ gegeben. Die Koordinaten des Punktes P im System S lauten dann aber (x cos θ − y sin θ, x sin θ + y cos θ ). Auch hier sind die Beschreibungen äquivalent. Anhand dieser Beispiele ist zu erkennen, dass bei einer aktiven Transformation gilt: Das Koordinatensystem bleibt fest, und die Änderung eines mathematischen Vektors kann durch r = ri eˆ i → r = rieˆ i beschrieben werden. Bei einer passiven Transformation hingegen wird die Basis des Koordinatensystems S transformiert. Es ergibt sich ein neues Koordinatensystem S . In diesem neuen Koordinatensystem hat ein Vektor die neuen Komponenten r = ri eˆ i → r = r = ri eˆ i , beschreibt aber den gleichen Punkt im Raum. Ein typisches Beispiel für das äquivalente Verwenden von aktiven und passiven Transformationen in der Physik ist die Drehung eines starren Körpers um die raumfesten Achsen und das Drehen um die körpereigenen Achsen. Beim Drehen um die raumfesten Achsen, beschrieben durch drei Drehmatrizen um die x-, y- und z-Achsen, wird jeder Punkt des starren Körpers auf einen neuen Punkt im Raum überführt. Beim Drehen um die körpereigene z -, y - und wieder z -Achse kann der starre Körper auch in jede beliebige Ausrichtung gebracht werden. Die Koordinaten der Punkte bezüglich des körpereigenen Systems bleiben dabei fest, während sich die Koordinaten bezogen auf ein raumfestes Koordina-
594
10 Vektoren und Tensoren im physikalischen Sinne
tensystem ändern. Es wird sozusagen das raumfeste Koordinatensystem aus der Sicht des starren Körpers gedreht. Die beiden Formulierungen sind zwar äquivalent, für ein physikalisches Verständnis ist aber die passive Transformation angemessener. Denn die physikalische Situation sollte nicht von der Wahl des Koordinatensystems abhängen. In gewissen Situationen darf die physikalische Situation auch nicht von der Wahl des Bezugssystems abhängen. So ist es in der klassischen Mechanik möglich einen Prozess in einem ruhenden Bezugssystem oder in einem mit fester Geschwindigkeit relativ dazu bewegten Bezugssystem zu beschreiben, ohne dass sich die physikalische Situation ändert. In beschleunigten Bezugssystemen treten hingegen Scheinkräfte auf, die die physikalische Situation ändern, aber dennoch dasselbe beschreiben.
10.2
Skalare, Vektoren und Tensoren
In diesem Abschnitt sollen die Begriffe der Skalare, des Vektors und des Tensors im physikalischen Sinne eingeführt werden. Dabei wird auch auf die Bedeutung von ko- und kontravarianten Komponenten eingegangen. Zunächst wird aber so gerechnet, als seien ko- und kontravariant nicht zu unterscheiden, was beispielsweise für Drehungen der Fall ist. Die Betrachtungen, die hier angestellt werden, beziehen sich dabei besonders auf die Drehungen und teilweise die Lorentz-Transformationen. Wie diese auf andere Transformationen zu verallgemeinern sind, wird bei den jeweiligen Transformationen in Abschn. 10.3 erläutert. Die vorliegende Transformation wird durch die Transformation des Differentials des Ortsvektorsrr für Drehungen oder des Raumzeitvektors x für Lorentz-Transformationen definiert. Der Einfachheit halber wird zunächst die Drehung betrachtet. In diesem Fall lassen sich die Komponenten nach der Transformation durch die Komponenten vor der Transformation x = x (x, y, z)
y = y (x, y, z)
z = z (x, y, z)
ausdrücken. Somit ist die Transformationsmatrix durch dri = i j dr j bestimmt, was aufgrund der Definition des Differentials (8.56) dri =
∂ri dr j ∂r j
∂ri ∂r j
⇔
den Zusammenhang i j =
= J −1
10.2
Skalare, Vektoren und Tensoren
595
zur Jacobi-Matrix J aus Abschn. 8.3.5 offenbart. Andere physikalische Größen, wie die Geschwindigkeit oder die Energie, könnten aber auf andere Weise transformieren. Und diese möglichen Transformationsverhalten sollen klassifiziert werden.
10.2.1 Skalare Wird eine Transformation durchgeführt und eine Größe s ändert sich dabei nicht, so wird sie als Skalar bezeichnet. Sie gehorcht somit s → s = s
(10.1)
als Transformationsvorschrift. Im Fall von Drehungen lässt sich ein Skalar durch das Skalarprodukt von zwei Vektoren bilden. Da beide Vektoren nur gedreht werden, bleiben ihre Längen und die Winkel zwischen ihnen erhalten. Die Länge eines Vektors bzw. das Betragsquadrat eines Vektors ist damit auch ein Skalar. Aber auch andere Größen können Skalare sein. So ist die Masse eines Teilchens invariant unter Transformationen. Ein Elektron wird in jedem Bezugssystem eine Masse von etwa 9,11 · 10−31 kg bzw. 511 keV/c2 aufweisen. Ebenso sind Ladungen skalare Größen. Auch Skalarfelder können Skalare sein, wenn sie die Gleichung s (rr ) = s(rr ) = s(−1r )
(10.2)
erfüllen. Aus den infinitesimalen Transformationen lassen sich auch Operatordarstellungen ˆ S s(rr ) ≈ (1 − iGˆ aS θ a )s(rr ) = s(rr ) − iθ a Gˆ aS s(rr ) s (rr ) ≡ ˆ S und Gˆ a für die Ausführung der Transformation auf ein Skalarfeld finden. Die Größen S sind dabei Operatoren, die auf das Skalarfeld wirken. Andererseits lässt sich durch die Transformationsgleichung eines Skalarfeldes der Ausdruck s (rr ) = s(−1r ) ≈ s((1 + iF a θ a )rr ) ≈ s(rr ) + iθ a F ar i ∂i s finden, wobei die Taylor-Reihe eines Skalarfeldes (8.2) eingesetzt wurde. Durch einen direkten Vergleich lassen sich die Operatoren Gˆ aS zu Gˆ aS = − F a i j r j ∂i bestimmen. Im Fall einer Drehung sind die Generatoren F a = L a nach den Erkenntnissen aus Abschn. 7.3.1 durch
596
10 Vektoren und Tensoren im physikalischen Sinne
⎞ ⎛ 0 0 0 L 1 = ⎝0 0 −i⎠ 0 i 0
⎞ 0 0 i L 2 = ⎝ 0 0 0⎠ −i 0 0 ⎛
⎞ 0 −i 0 L 3 = ⎝ i 0 0⎠ 0 0 0 ⎛
gegeben, was sich auch als
La
ij
= −iai j
darstellen lässt, wodurch die Operatoren Gˆ aS die Form Gˆ aS = iai j r j ∂i erhalten. In der Ortsdarstellung der Quantenmechanik entspricht die Komponente des Ortsvektors dem Ortsoperator, während die Ableitung mit dem Impulsoperator durch pˆ i =
∂i i
gegeben ist, wobei das reduzierte Planck’sche Wirkungsquantum ist. Damit lassen sich die Generatoren dann aber als Lˆ aQM 1 1 Gˆ aS = − ai j rˆ j pˆ i = a ji rˆ j pˆ i =
(10.3)
ausdrücken und stehen in direktem Zusammenhang mit dem Drehimpulsoperator Lˆ aQM = a ji rˆ j pˆ i der Quantenmechanik. Das heißt, die Generatoren der Transformation für skalare Felder in der Quantenmechanik stehen in Zusammenhang mit den Operatoren der klassischen Größen, die durch eine Symmetrie unter eben dieser Transformation erhalten wurden. Anders ausgedrückt, handelt es sich um eine Erweiterung des Noether-Theorems. Jede Symmetrie zieht eine Erhaltungsgröße nach sich, die in der Quantenmechanik in Operatorform zum Generator der Transformation des Skalarfeldes wird. Ein weiteres Beispiel dieser Sorte wird in Abschn. 10.3.2 besprochen. Dies wird so beispielsweise in der Quantenmechanik angewendet, um Transformationen auf die Wellenfunktionen (rr ) ausführen zu können. Damit erfolgt die Drehung eines Quantensystems durch die spezifische Darstellung der Drehgruppe in Form eines Operators Dˆ (θθ ) = exp −iθ a Lˆ aQM / . Für Systeme mit Spin werden mehrkomponentige Wellenfunktionen, sogenannte Spinoren, eingeführt, deren Komponenten unter speziellen Darstellungen der Drehgruppe mischen. Diese Matrizen werden als Wigner-D(arstellungs)-Matrizen bezeichnet, sollen hier aber
10.2
Skalare, Vektoren und Tensoren
597
nicht betrachtet werden, da diese üblicherweise ausführlicher Gegenstand der Quantenmechanikkurse sind.
10.2.2 Vektoren Bei Vektoren handelt es sich um Objekte, deren Komponenten mit der Transformationsmatrix transformieren. Sie erfüllen somit ai → ai = i j a j
(10.4)
als Transformationsverhalten. Im Falle von Drehungen um feste Winkel wären daher alle mathematischen Vektoren auch Vektoren im physikalischen Sinne. So sind auch die Geschwindigkeit oder die Beschleunigung und damit die Kraft beispielsweise wegen vi =
dr dri dri → vi = i = i j = i j v j dt dt dt
Vektoren unter der Drehung.3 Da die Geschwindigkeit aber ein Vektor unter Drehung ist, ist seine Länge ein Skalar unter der Drehung, und daher ist die translative kinetische Energie T =
1 2 1 mvv = mvv2 = T 2 2
ebenfalls ein Skalar unter Drehung. Ebenso wie bei Skalaren lassen sich auch Vektorfelder als physikalische Vektorfelder auffassen, wenn diese die Gleichung ai (rr ) → ai (rr ) = i j a j (rr ) = i j a j (−1r )
(10.5)
erfüllen. Bereits bei Vektoren gibt es aber eine Zweideutigkeit, die betrachtet werden muss. Sie tritt nicht bei Drehungen auf, sondern erst bei Transformationen wie der Lorentz-Transformation und hängt damit zusammen, ob die dualen Vektoren den eigentlichen Vektoren entsprechen oder wesentliche Unterschiede aufweisen. Dieser Fall wird in Abschn. 10.2.3 behandelt.
3 Dies funktioniert nur, da die Transformationsmatrix zeitunabhängig ist. Im Allgemeinen wird
die Transformationsmatrix nicht nur von der Zeit, sondern auch von den Raumkoordinaten abhängig sein.
598
10 Vektoren und Tensoren im physikalischen Sinne
10.2.3 Kovariante, kontravariante und duale Objekte
Kovariant und kontravariant Um den Unterschied zwischen ko- und kontravarianten Vektoren zu verdeutlichen, wird eine passive Transformation eines Vektors a betrachtet. Der Vektor bleibt also gleich, während sich die Basisvektoren und die Komponenten bezüglich der neuen Basis gemäß a = a j eˆ j = ai eˆ i = a ändern. Die Komponenten sollen sich mit der Transformationsmatrix transformieren, wodurch eˆ j a j = eˆ i i j a j gilt. Da aber immer noch a = a gelten muss, lässt sich das Transformationsverhalten der Basisvektoren zu
eˆ k = −1 jk eˆ j = (−1 )T (10.6) eˆ j kj
bestimmen. Der Vektor, bestehend aus den drei Basisvektoren, transformiert sich also mit der Transponierten der inversen Transformationsmatrix. Alle Vektoren, die sich auf diese Weise transformieren, werden als kovariante Vektoren bezeichnet, da sie sich mit der Basis transformieren. Dazu gehören die Ableitungen nach den Komponenten des Ortsvektors, da sie ∂
∂ ∂r j ∂ ∂ ∂ → = = −1 ji = (−1 )T i j ∂r j ∂ri ∂ri ∂ri ∂r j ∂r j erfüllen. Alle Vektoren, die sich entgegen der Basis transformieren, heißen kontravariant. Dadurch zeigt sich auch schnell, warum im Fall von Drehungen keine solche Unterscheidung nötig ist, denn die kovarianten und kontravarianten Vektoren transformieren aufgrund von T = −1 auf gleiche Weise. Duale Vektoren Soll nun das Skalarprodukt zweier Vektoren gebildet werden, so geschieht dies in einem allgemeinen Fall durch ein modifiziertes Skalarprodukt mit einer Matrix. Wie bereits in Abschn. 8.3.5 klar wurde, ist die vermittelnde Matrix für das Linienelement (dl )2 der metrische Tensor g. Damit lässt sich das Skalarprodukt eines Vektors a mit sich selbst als
10.2
Skalare, Vektoren und Tensoren
599
aa |aa = a T gaa schreiben. Dieses soll sich durch eine Transformation a = aa nicht ändern, weshalb auch die Gleichheit a T g a = (aa )T g aa = a T T g aa = a T gaa gilt, wodurch die Transformation des metrischen Tensors g = T g
⇔
T g = −1 g−1
(10.7)
festgelegt wird. Wie sich in Abschn. 10.2.4 zeigen wird, handelt es sich dabei um das Transformationsverhalten eines kovarianten Tensors zweiter Stufe. Da der metrische Tensor symmetrisch ist, lassen sich die beiden Skalarprodukte aber auch als T aa |aa = g a a und aa |aa = (gaa )T a schreiben. Sie könnten damit als das einfache Skalarprodukt von zwei Vektoren aufgefasst werden, wobei der jeweils transponierte Vektor durch a˜ ≡ g a
(10.8)
bzw. a˜ ≡ gaa definiert wird. Dieser Vektor wird dann der duale Vektor zu a bzw. a genannt. Wie auch in Kap. 3 bildet er zusammen mit der Bildung des Skalarprodukts ein Element des dualen Vektorraums. Aus der Gleichheit der beiden Skalarprodukte !
a˜ T a = a˜ T a lässt sich, mit der zunächst noch unbekannten Transformationsmatrix ¯ a˜ , a˜ = über die Rechnung T T ¯ a˜ aa = a˜ T ¯ T aa = a˜ T 1aa a˜ a =
600
10 Vektoren und Tensoren im physikalischen Sinne
die Transformationsmatrix ¯ = −1 T
(10.9)
bestimmen. Damit transformiert sich der duale Vektor aber wie die Basis und ist ein kovarianter Vektor. Um die Komponenten des dualen Vektors vom eigentlichen Vektor zu unterscheiden werden die Indices des dualen Vektors unten an den Bezeichner des Vektors in der Form aμ geschrieben, während bei den Komponenten des eigentlichen Vektors die Indices oben geschrieben werden. Typischerweise, vor allem in der speziellen und allgemeinen Relativitätstheorie, werden griechische Indices verwendet. Weil sich die dualen Vektoren kovariant transformieren, werden alle kovariant transformierenden Vektoren als Vektoren des Dualraums aufgefasst, und bei den Komponenten des dualen Vektors findet sich auch oft die Bezeichnung der „Komponenten des kovarianten Vektors“. Die Einstein’sche Summenkonvention wird dahingehend erweitert, dass nur dann eine Summe gebildet wird, wenn einer der beiden Indices oben und der andere unten steht, da so ein Produkt aus einem Vektor und einem dualen Vektor gebildet wird. Da es sich bei den Ableitungen um Ableitungen nach den kontravarianten Komponenten handelt, werden obere Indices im Argument der Ableitung aufgrund von ∂ = ∂μ ∂r μ zu unteren Indices. Auch bei der Transformationsmatrix wird es notwendig auf die Position der Indices zu achten, wodurch sich die Regeln ∂r μ = μν ∂r ν
μ
∂r μ −1 μ −1 T = ( ) = ( ) ν ν ∂r ν
(10.10)
ergeben. Somit transformieren sich die ko- und kontravarianten Komponenten eines Vektors a nach den beiden Vorschriften ν
∂r ν aν = μ αν (10.11) aμ → aμ = (−1 )T μ ∂r und a μ → a μ = μν a ν =
∂r μ ν α . ∂r ν
Die Komponenten des dualen Vektors lassen sich aufgrund seiner Definition a˜ = gaa
(10.12)
10.2
Skalare, Vektoren und Tensoren
601
einfach aus den Komponenten des Vektors und des metrischen Tensors bestimmen. Da eine Summe nur gebildet werden kann, wenn ein Index oben und der andere unten steht und die Komponenten des Vektors einen oberen Index haben, muss der Spaltenindex des metrischen Tensors ein unterer sein. Die Position von freien Indices muss auf beiden Seiten gleich sein, sonst würde ja ein Objekt des Raums und nicht des Dualraums gebildet werden. Aus diesem Grund steht auch der Zeilenindex des metrischen Tensors unten, und es ergibt sich aμ = gμν a ν
(10.13)
als Überführungsvorschrift. Für das Überführen der Komponenten des dualen Vektors in die des Vektors ist offensichtlich das Inverse der Metrik vonnöten. Da aber wieder ein Index oben stehen muss, um eine Summe bilden zu können, und der zweite Index oben stehen muss, um die Komponenten eines Vektors zu erzeugen, müssen beide Indices oben stehen. Daher bezeichnet der gleiche Buchstabe g aber mit oben stehenden Indices das Inverse der Metrik, und die Vorschrift a μ = g μν aν
(10.14)
wird gefunden. Mit dieser Notation lässt sich die Gleichung g −1 g = 1 in Komponentenschreibweise als g μλ gλν = δμ ν
(10.15)
ausdrücken.
10.2.4 Tensoren Ebenso wie Vektoren, sind auch Tensoren durch das Transformationsverhalten definiert. Im Großen und Ganzen handelt es sich bei einem Tensor nur um eine Verallgemeinerung des Vektorbegriffs. So war ein Vektor ein Objekt mit einem Index, das dem Transformationsverhalten gehorchte. Ein Tensor zweiter Stufe ist ein Objekt mit zwei Indices, der sich für jeden Index transformiert wie ein Vektor. Sind t αβ also die kontravarianten Komponenten des Tensors vor der Transformation, so sind die Komponenten t μν nach der Transformation durch t μν = μα νβ t αβ =
∂r μ ∂r ν αβ t ∂r α ∂r β
(10.16)
gegeben. Ebenso können Tensoren zweiter Stufe mit einer Mischung aus ko- und kontravarianten Komponenten oder nur kovarianten Komponenten betrachtet werden. Diese erfüllen
602
10 Vektoren und Tensoren im physikalischen Sinne
dann
β ∂r μ ∂r β α μ −1 T t μ t αβ = t ν = α ( ) ν ∂r α ∂r ν β
(10.17)
α β
∂r α ∂r β tμν (−1 )T = (−1 )T tαβ = μ ν tαβ μ ν ∂r ∂r
(10.18)
und
als jeweilige Transformationsvorschrift. Im Falle von Tensoren zweiter Stufe können diese durch Matrizen dargestellt werden, da auch Matrizen zwei Komponenten, den Zeilen- und Spaltenindex haben.4 Gl (10.17) als Definition eines Tensors lässt sich noch weiter verallgemeinern auf Objekte mit einer beliebigen Anzahl an oberen und unteren Indices, die das Transformationsverhalten
β1 β2 βl
...αm −1 T −1 T −1 T 2 ...μm = μ1 μ2 · · · μm tνμ1 ν12μ...ν ( ( ) ) · · · ( ) tβα11βα22...β α1 α2 αm l l ν1
ν2
νl
(10.19) erfüllen. Die Zahl n = m + l zählt dabei die Gesamtanzahl an Indices und heißt Stufe oder auch Rang eines Tensors. Damit sind auch Vektoren als Tensoren erster Stufe und Skalare als Tensoren nullter Stufe in dieser Definition erfasst. Durch Kombination von Tensoren lassen sich neue Tensoren bilden. So könnten zwei Vektoren a μ und bν betrachtet werden, um ein Skalar durch s ≡ a μ bμ zu bilden. Dies ist aufgrund von
γ μ γ
μ (−1 )T = λ (−1 )T a λ bγ = ()T a λ bγ s = a μ bμ μ λ μ γ
γ = ()T (−1 )T a λ bγ = δλ a λ bγ λ
λ
= a bλ = s tatsächlich ein Skalar. Auf ähnliche Weise lassen sich aus den Vektoren die Tensoren zweiter Stufe a μ bν
a μ bν
a μ bν
4 Es ist aber wichtig anzumerken, dass sich nur Objekte der Form M μ wie „klassische“ Matrizen ν
verhalten. Sie nehmen ein Element des Vektorraums entgegen und bilden es auf ein Element des Vektorraums ab. Die Objekte M αβ und Mαβ nehmen Elemente des Dualraums oder Vektorraums an und bilden auf den jeweils anderen Raum ab.
10.2
Skalare, Vektoren und Tensoren
603
bilden. Der Prozess, in dem ein Tensor geringerer Stufe durch das Summieren über einen Index gebildet wird, wird als Kontraktion bezeichnet. Genauso lassen sich die Indices eines Vektors und eines Tensor kontrahieren, um beispielsweise wieder einen Vektor t μν aν zu bilden oder um ein Skalar durch aμ t μν bν zu erzeugen. Eine spezielle Kontraktion, die bei Tensoren zweiter Stufe erzeugt werden kann, ist die Summe über obere und untere Indices, die durch t = tμμ
(10.20)
gegeben ist und die Spur des Tensors als Skalar beschreibt. Genauso wie bei Skalaren oder Vektoren lassen sich auch Tensoren betrachten, die vom jeweiligen Raumpunkt abhängig sind. Diese werden als Tensorfelder bezeichnet und erfüllen
β1 βl
...αm μ1 μm −1 T −1 T 1 ...μm (r r tνμ1 ...ν ( ) = · · · ) · · · ( ) tβα11...β (rr ) α1 αm l l ν1
νl
(10.21)
als Transformationseigenschaften. In der allgemeinen Relativitätstheorie tritt eine Vielzahl von Tensorfeldern auf. Die Einstein’schen Feldgleichungen G μν (x) =
8π G N Tμν (x) c4
(10.22)
bilden einen Zusammenhang zwischen dem Tensorfeld des Einstein-Tensors G μν (x), der die Krümmung der Raumzeit beschreibt, und dem Tensorfeld des Energieimpulstensors Tμν (x), der den Materieinhalt der Raumzeit beschreibt. Insgesamt beschreibt die Gleichung, wie die Raumzeit durch die Anwesenheit von Materie gekrümmt wird.
10.2.5 Kovariante Ableitungen Liegen Skalar-, Vektor- und Tensorfelder vor, so kann die Frage aufkommen, ob die Ableitungen dieser Felder weiterhin das gewünschte Transformationsverhalten aufweisen. Vor allem im Rahmen der allgemeinen Relativitätstheorie findet dies Anwendung, weshalb sich in diesem Abschnitt auf die allgemeine Relativitätstheorie mit den Raumzeitvektoren x bzw. x aus den Systemen S und S bezogen werden soll. Die Transformationen eines Vektorfeldes a μ (x) sind dann durch a μ =
∂ x μ ν a ∂xν
604
10 Vektoren und Tensoren im physikalischen Sinne
und aμ =
∂ x μ ν a ∂ x ν
gegeben. Da die Transformationen auch von den Raumzeitkoordinaten abhängig sein können, ergibt sich als Transformation für den Term ∂a μ ∂ x ν durch die Rechnung ∂xλ ∂ ∂a μ = ∂ x ν ∂ x ν ∂ x λ
∂ x μ ρ a ∂xρ
∂ x λ ∂ x μ = ν ∂x ∂xρ
∂a ρ ∂xλ
+
∂ x λ ∂ 2 x μ ρ a ∂ x ν ∂ x λ ∂ x ρ
ein Zusatzterm der Form ∂ x λ ∂ 2 x μ ρ ∂ x λ μ ∂ 2 x σ κ ∂ x λ ∂ x μ a = δ a = ∂ x ν ∂ x λ ∂ x ρ ∂ x ν σ ∂ x λ ∂ x κ ∂ x ν ∂ x ρ
∂ x ρ ∂ 2 x σ κ a , ∂ x σ ∂ x λ ∂ x κ
wobei im ersten Schritt der laufende Index ρ in κ umbenannt wurde und der Index μ mit einem Kronecker-Delta aus der Ableitung befreit wurde, um dann im zweiten Schritt das Kronecker-Delta durch die Hin- und Rücktransformation auszudrücken. Damit bestimmt ∂a μ ∂ x λ ∂ x μ ∂a ρ ∂ x ρ ∂ 2 x σ κ = ν + σ λ κ a ∂ x ν ∂x ∂xρ ∂xλ ∂x ∂x ∂x die gesamte Transformation des ursprünglichen Terms. Nur der erste Term entspricht der Transformation eines Tensorfeldes. Damit transformiert sich der ursprüngliche Ausdruck also nicht wie ein Tensor. Stattdessen kann der Term ∂a μ Da μ μ ≡ + νλ a λ Dx ν ∂xν
(10.23)
als Ansatz für eine sogenannte kovariante Ableitung gewählt werden. Das bedeutet, sie soll μ sich wie ein Tensor zweiter Stufe transformieren. Dazu muss eine Bedingung an die νλ gestellt werden, da ihr Transformationsverhalten noch nicht bekannt ist. Handelt es sich beim Koordinatensystem S zufällig um ein System, in dem die kovariante und die partielle Ableitung zusammenfallen, so sind die durch den Term μ
νλ =
∂ x μ ∂ 2 x σ ∂ x σ ∂ x ν ∂ x λ
(10.24)
gegeben. Im Rahmen der allgemeinen Relativitätstheorie ist ein solches System durch ein lokales Inertialsystem gegeben, in dem die Gesetze der speziellen Relativitätstheorie gelten. An dem hier auftretenden Ausdruck (10.24) lässt sich bereits erkennen, dass die symmetrisch unter Vertauschung der beiden unteren Indices sind.
10.2
Skalare, Vektoren und Tensoren
605
Unabhängig von dieser Annahme, lassen sich auch ähnliche Ausdrücke für Tensoren zweiter Stufe und kovariante Komponenten finden. Um einen entsprechenden Ausdruck für Tensoren zweiter Stufe zu finden, lässt sich die Rechnung
∂t μν ∂ x σ ∂ = σ σ ∂ x σ ∂x ∂x =
∂ x μ ∂ x ν μ ν t ∂xμ ∂xν
2 μ ∂ x σ ∂ x μ ∂ x ν ∂t μ ν ∂ x σ μ ν ∂ x μ ∂ 2 x ν ∂ x ν ∂ x + t + ∂ x σ ∂ x μ ∂ x ν ∂ x σ ∂ x σ ∂xσ ∂xμ ∂xν ∂xμ ∂xσ ∂xν ∂ x μ ∂ 2 x ρ λν ∂ x ν ∂ 2 x ρ μ λ ∂ x σ ∂ x μ ∂ x ν ∂t μ ν + ρ σ λ t + ρ σ λ t = ∂ x σ ∂ x μ ∂ x ν ∂ x σ ∂x ∂x ∂x ∂x ∂x ∂x
betrachten, wobei im letzten Schritt ein paar Laufindices umbenannt und wie bei der Herleitung für kontravariante Vektoren geschickte Kronecker-Deltas eingefügt und durch Hinund Rücktransformation ersetzt wurden. Die beiden Zusatzterme in der Klammer sehen aus wie die , nur dass der Zusatzterm diesmal für beide Indices auftritt, wodurch der Ansatz ∂t μν Dt μν μ = + σ λ t λν + σν λ t μλ σ Dx ∂xσ
(10.25)
für kontravariante Tensoren naheliegt. Entsprechend werden die kovarianten Ableitungen für kontravariante Tensoren höherer Stufe definiert. Für jeden Index wird der Ausdruck mit den in analoger Art addiert. Den Ausdruck für kovariante Vektoren herzuleiten ist um Einiges aufwendiger, da dies durch Ableitungen der Metrik über den Zusammenhang aμ = gμσ a σ
geschieht. So treten in der Ableitung des kovarianten Vektors σ ∂ gμσ ∂ ∂ σ ∂a a = a + a σ g = g μσ ∂ x ν μ ∂ x ν μσ ∂ x ν ∂ x ν
nun auch Ableitungen der Metrik auf. Diese erweisen sich wieder als schwierig, da die Metrik kovariant ist und bisher nur ein Ansatz für die kontravarianten Tensoren vorliegt. Um diese Schwierigkeit zu umgehen, kann die Ableitung der Einheitsmatrix 0=
∂ μλ ∂ g μλ ∂ μ μλ ∂ gλν δ = g + g g = g λν ∂ x σ ν ∂ x σ ∂ x σ ∂ x σ λν
genutzt werden, um den Zusammenhang ∂ g = −gμρ ∂ x ν μσ
∂ g ρλ ∂ x ν
gσ λ
zu erhalten, wodurch sich die partielle Ableitung des kovarianten Vektors als
(10.26)
606
10 Vektoren und Tensoren im physikalischen Sinne
∂aμ
∂ x ν
= gμσ
∂a σ − a σ gμρ ∂ x ν
∂ g ρλ ∂ x ν
gσ λ
beschreiben lässt. Davon ausgehend lässt sich unter der Transformation das Verhalten ∂aμ
∂ x ν
=
∂xμ ∂xσ ∂ x ν ∂ x σ Da σ gμ σ · ν σ μ σ ∂x ∂x ∂ x ∂ x Dx ν ∂xμ ∂xρ ∂xλ ∂xσ ∂ x σ ∂ x ν ∂ x ρ ∂ x λ Dg ρ λ − μ ρ gμ ρ · λ σ gλ σ · σ a σ · ν ρ λ ∂x ∂x ∂x ∂x ∂x ∂x ∂x ∂x Dx ν
finden. Dabei wurden die kovarianten Ableitungen des Vektors und der Metrik zwar aufgeschrieben, aber noch nicht explizit eingesetzt, um den Ausdruck etwas übersichtlicher zu gestalten. Durch das Zusammenziehen von Hin- und Rücktransformationen in der ersten und zweiten Zeile können die Indices σ und σ in der ersten Zeile und ρ und ρ , λ und λ sowie σ und σ in der zweiten Zeile miteinander identifiziert werden, um den etwas einfacheren Ausdruck ρ λ ∂aμ ∂xμ ∂xν Da σ Dg σ = gμ σ − gμ ρ gλ σ a ∂ x ν ∂ x μ ∂ x ν Dx ν Dx ν ∂xμ ∂xν Da σ Dg ρ λ = gμ σ − gμ ρ aλ ∂ x μ ∂ x ν Dx ν Dx ν zu erhalten. Um den Term in Klammern weiter zu vereinfachen, können für die partielle Ableitung des Vektorfeldes
σ Dg σ σ ∂a σ σ σ Da = g + aσ ν ν ∂x Dx Dx ν
eingesetzt und die Rechnung
gμ σ
Da σ Dg ρ λ ∂ gσ σ σ σ ∂aσ ρ a λ σ g σ aσ − g =g + g + gμ σ νσ λ a λ μ μ μ ν ν ν ν Dx Dx ∂x ∂x ∂ gρ λ λ ρ λλ λ ρ − gμ ρ aλ + ν λ g + ν λ g ∂xν
durchgeführt werden. Dabei lassen sich die Laufindices bei den Termen mit der Ableitung der Metrik clever umbenennen, sodass sich die beiden Terme kürzen. Auf ähnliche Weise kürzen sich auch zwei der Terme mit den . Im ersten Term kombinieren sich die Metrik und ihre Inverse zu einem Kronecker-Delta, sodass die Ableitung eines kovarianten Vektors gebildet wird. Insgesamt ist der Term in der Klammer daher durch
∂aμ Da σ Dg ρ λ λ ρ a λ gμ σ − g μ = − ν μ aλ ν ν ν Dx Dx ∂x
10.2
Skalare, Vektoren und Tensoren
607
gegeben, wodurch der Ansatz Daμ ∂aμ λ ≡ − μν aλ Dx ν ∂xν
(10.27)
einer kovarianten Ableitung für kovariante Vektorfelder gerechtfertigt wird. Um eine Verallgemeinerung auf kovariante Tensoren zweiter Stufe vorzunehmen, wird auch für jeden Index ein Term mit einem gemäß des Ansatzes Dtμν ∂tμν λ λ ≡ − μσ tλν − νσ tμλ σ Dx ∂xσ
(10.28)
abgezogen. Insgesamt wird für jeden kontravarianten Index ein Term mit addiert, während im Fall eines kovarianten Index ein Term mit abgezogen wird. Um eine explizite, transformationsunabhängige Form der zu finden, soll der physikalische Fall der allgemeinen Relativitätstheorie betrachtet werden. Da im Rahmen der allgemeinen Relativitätstheorie die kovariante Ableitung mit der partiellen Ableitung in einem lokalen Inertialsystem zusammenfällt, ist die kovariante Ableitung des metrischen Tensors durch Dgμν ∂ημν = =0 Dx σ ∂xσ gegeben, wobei η die konstante Minkowski-Metrik ist. Mit der Symmetrie der und des metrischen Tensors sowie der verschwindenden kovarianten Ableitung der Metrik lassen sich die bestimmen. Dazu werden die drei kovarianten Ableitungen Dgμν ∂ gμν σ σ = − μλ gσ ν − νλ gμσ = 0 λ Dx ∂xλ ∂ gλμ Dgλμ σ σ = − λν gσ μ − μν gλσ = 0 ν Dx ∂xν Dgνλ ∂ gνλ σ σ = − νμ gσ λ − λμ gνσ = 0 μ Dx ∂xμ betrachtet. Die Summe der letzten beiden Zeilen, vermindert um die erste Zeile, führt so auf den Ausdruck ∂ gλμ ∂ gμν ∂ gνλ σ + − − 2μν gλσ = 0, ∂xν ∂xμ ∂xλ da sich der mittlere und letzte Term der ersten Zeile mit dem letzten Term der dritten Zeile und dem mittleren Term der zweiten Zeile wegheben. Durch das Multiplizieren mit der inversen Metrik kann so ∂ gμν g σ λ ∂ gμλ ∂ gλν σ + − μν = 2 ∂xν ∂xμ ∂xλ
608
10 Vektoren und Tensoren im physikalischen Sinne
gefunden werden. Dies entspricht den bereits in Gl. (9.11) aus Abschn. 9.3.2 gefundenen Christoffel-Symbolen. Im Falle der speziellen Relativitätstheorie transformiert die kovariante Ableitung eines Tensorfeldes wieder wie ein Tensorfeld, mit dem entsprechenden Rang. Die kovariante Ableitung bildet den Stützpfeiler für das Kovarianzprinzip, mit dem sich aus den Gesetzen der speziellen Relativitätstheorie die Gesetze in Anwesenheit von Gravitationsfeldern herleiten lassen.
10.3
Einige physikalische Transformationen
Im Folgenden sollen einige häufige Transformationen und ihre mathematische Beschreibung gegeben werden. Außerdem wird die Auswirkung auf verschiedene physikalische Größen angegeben.
10.3.1 Drehungen um feste Winkel Bei der Rotation wird um eine raumfeste Achse um einen festen Winkel gedreht. Die neuen Koordinaten des Ortsvektors bei einer aktiven Transformation lassen sich durch eine Rotationsmatrix der SO(3) aus Abschn. 7.3.1 bestimmen. Die mit der Drehsymmetrie verknüpfte Erhaltungsgröße ist der Drehimpuls. Ausgedrückt durch den Vektor θ mit dem Drehwinkel θ = |θθ | und der Drehachse n = θθ sind die Elemente der Drehmatrix durch Oi j = δi j cos(θ) + (1 − cos(θ))n i n j − i jk n k sin(θ )
(10.29)
gegeben. Da bei orthogonalen Matrizen die Vektoren und ihre dualen Vektoren gleich sind, werden hier nur unten stehende lateinische Indices verwendet. Anstatt die SO(3)-Matrizen axiomatisch als Drehmatrizen anzusetzen, kann auch eine physikalische Motivation vorgenommen werden. Dazu wird der Ortsvektor in zwei Teile aufgespalten. Ein Teil liegt parallel zur Rotationsachse n und wird als r bezeichnet. Dieser wird bei der Drehung nicht verändert und ist durch r = n (nn · r ) gegeben, denn n · r ist die Längenprojektion von r auf die Rotationsachse und n ist die richtungsgebende Komponente des parallelen Anteils. Der zweite Teil steht senkrecht zur Drehachse n und wird mit r⊥ = r − r bezeichnet. Dieser Teil wird sich bei der Drehung ändern.
10.3
Einige physikalische Transformationen
609
In der zur Rotationsachse senkrechten Ebene gibt es sowohl den Vektor r ⊥ als auch einen senkrecht darauf stehenden Vektor, welcher durch n × r ⊥ gegeben ist. Im Fall einer Drehung um π/2 würde der senkrechte Teil exakt in diesen Teil übergehen. Daher lässt sich der senkrechte Anteil nach der Drehung aus r ⊥ = r ⊥ cos(θ ) + (nn × r ⊥ ) sin(θ) konstruieren. Damit lässt sich aber auch der gesamte Vektor r nach der Drehung über r = r + r ⊥ = r + r ⊥ cos(θ) + (nn × r ⊥ ) sin(θ) = n (nn · r ) + (rr − n (nn · r )) cos(θ) + (nn × (rr − n (nn · r ))) sin(θ) = r cos(θ) + n (nn · r )(1 − cos(θ )) + (nn × r ) sin θ = eˆ i δi j r j cos(θ ) + (1 − cos(θ))n i n j r j + ik j n k r j sin(θ ) e ˆ = i δi j cos(θ) + (1 − cos(θ))n i n j − i jk n k sin(θ ) r j finden, was in Indexschreibweise der Transformation durch die Transformationsmatrix O entspricht. Da die Achse und der Winkel zeitunabhängig sind, lässt sich für die Geschwindigkeit das Transformationsverhalten vi =
dri dr j d = O i j r j = Oi j = Oi j v j dt dt dt
finden, wodurch auch die Geschwindigkeit ein Vektor ist. Ebenso lässt sich für die Beschleunigung ai =
dvi dv j d = O i j v j = Oi j = Oi j a j dt dt dt
finden, wodurch Beschleunigungen und folglich auch Kräfte aufgrund des zweiten Newton’schen Gesetzes F = maa Vektoren sind. Aus ihnen lassen sich durch das Bilden des Skalarprodukts skalare Größen wie r ·v
r2 = r ·r
v2 = v · v
bilden. Damit ist auch die translative kinetische Energie T =
1 2 mvv 2
ein Skalar unter Rotation. Nach obiger Überlegung erhält die Rotation somit die Länge von Vektoren und die Skalarprodukte der Vektoren. Etwas allgemeiner gefasst, lässt sich sagen, dass Drehungen die Abstände zwischen Punkten und die Winkel zwischen Vektoren erhalten. Es handelt sich
610
10 Vektoren und Tensoren im physikalischen Sinne
aber bei der Drehung nicht um die einzige Gruppe, die dies vermag. Translationen gehören neben den Drehungen auch zu den Elementen der isometrischen Gruppe, die diese beiden Eigenschaften, Abstände und Winkel, erhält. Auf Translationen wird in Abschn. 10.3.2 näher eingegangen. Eine weitere Vektorgröße, die auf den ersten Blick aber nicht so offensichtlich zu belegen ist, ist der Drehimpuls L = r × p . Durch Einsetzen der Transformationen von r und p lässt sich der Ausdruck L i = i jk r j pk = i jk O jl rl Okm pm = i jk O jl Okm rl pm ermitteln. Der Term in Klammern lässt sich bestimmen, indem die Transformationsmatrix als ein Zeilenvektor aus Spaltenvektoren mit dem Zusammenhang O jl = v (l) j aufgefasst wird. Der Spaltenindex legt damit den Vektor fest, während der Zeilenindex seine Komponente bestimmt. Da die Transformationsmatrix orthogonal sein muss, müssen auch die Vektoren senkrecht aufeinander stehen. Darüber hinaus muss die Determinante positiv sein. Da die Determinante auch als das Spatprodukt der Vektoren aufgefasst werden kann, müssen diese ein rechtshändiges System bilden, sodass der Zusammenhang v (l) × v (m) = lmn v (n) gültig ist. Damit lässt sich das Transformationsverhalten über (l) (m) r l pm L i = i jk O jl Okm rl pm = i jk v j vk (n) = v (l) × v (m) rl pm = lmn vi rl pm i
= Oin nlm rl pm = Oin L n weiter umformen, und es zeigt sich, dass der Drehimpuls unter Drehung eine Vektorgröße ist. Ein interessanter Aspekt hierbei ist, dass sich ein Tensor zweiter Stufe definieren lässt, der als einzige Komponenten die Komponenten des Drehimpulsvektors
Li j ≡ ri p j − r j pi ⎞ ⎛ 0 L z −L y (L)i j = ⎝−L z 0 Lx ⎠ L y −L x 0 besitzt. Dieser transformiert sich aufgrund von
10.3
Einige physikalische Transformationen
611
Li j = ri pj − r j pi = Oik O jl rk pl − O jl Oik rl pk = Oik O jl (rk pl − rl pk ) = Oik O jl Lkl wirklich wie ein Tensor zweiter Stufe. Mit einer ähnlichen Konstruktion lässt sich so ein Drehimpulstensor im Rahmen der speziellen und allgemeinen Relativitätstheorie definieren. Ein weiteres physikalisches Beispiel für einen Tensor unter Rotationen ist der Trägheitstensor, der in seiner integralen Form als Ji j = d3r ρM (rr ) r 2 δi j − ri r j R3
definiert ist, wobei ρM (rr ) hier die Massendichte bezeichnet, welche eine skalare Größe im (rr ) = ρ (rr ) ist. Das Volumenelement transformiert sich gemäß Abschn. 8.3.5 Sinne von ρM M mit einem Zusatzfaktor stammend aus der Jacobi-Determinante. Die Jacobi-Determinante ist mit der Determinante der Transformationsmatrix O verknüpft, welche gerade eins war. Dadurch transformiert sich das Volumenelement auf triviale Weise mit d3r → d3r = d3r . Für das Kronecker-Delta lässt sich mit der Orthogonalität von O durch δi j = Oil O jm δlm ein triviales Transformationsverhalten herleiten. Anschaulich ausgedrückt, wird die Einheitsmatrix nicht durch die Transformation beeinflusst. Damit lässt sich auch das Transformationsverhalten des Trägheitstensors unter Drehungen über Jij = d3r ρM (rr ) r 2 δi j − rir j = d3r ρM (rr ) r 2 δi j − Oil O jm rl rm 3 R3 R = d3r ρM (rr ) r 2 δlm Oil O jm − Oil O jm rl rm R3 = Oil O jm d3r ρM (rr ) r 2 δi j − rl rm = Oil O jm Jlm R3
bestimmen, weshalb es sich bei J wirklich um einen Tensor handelt. Mit ihm lässt sich ein weiteres Skalar bilden, indem die Rotationsachse eines Körpers ω betrachtet wird. Diese transformiert sich wie ein Vektor, weshalb die kinetische Rotationsenergie 1 ω Trot. = ω T Jω 2 ein Skalar ist. Auch bei den Multipolmomenten der Multipolentwicklung der Elektrostatik
612
10 Vektoren und Tensoren im physikalischen Sinne
q=
R3
d3r ρ Q (rr )
pi =
R3
Qi j =
R3
d3r ρ Q (rr )ri d3r ρ Q (rr ) 3ri r j − r 2 δi j
handelt es sich beim Monopolmoment um ein Skalar, beim Dipolmoment um einen Vektor und beim Quadrupolmoment um einen Tensor zweiter Stufe, was hier aber nicht weiter bewiesen werden soll. Aus ihnen lässt sich das skalare Potential (rr ) =
q p ·r 1 ri Q i j r j + 3 + + ··· r r 2 r5
als Skalar unter Drehung aufbauen, wodurch das elektrische Feld E = −∇ zu einem Vektor unter Drehungen wird.
10.3.2 Translationen Die Translation wird am häufigsten als Symmetrietransformation betrachtet. Durch das Noether-Theorem ist der Impuls die mit der Translationsinvarianz verknüpfte Erhaltungsgröße. Bei der Translation wird auf den Ortsvektor ein fester Vektor c aufaddiert. Dadurch bleibt das Differential des Ortsvektors unverändert dri = dri und die Transformationsmatrix ist mit der Einheitsmatrix zu bestimmen. Der Ortsvektor selbst r = r +c
(10.30)
unterliegt dennoch einer Transformation. Aufgrund von vi =
dri d dri = (ri + ci ) = = vi = δi j v j dt dt dt
folgt die Geschwindigkeit dem gleichen Translationsverhalten wie dem Differential des Ortsvektors, wie auch die Beschleunigung, was an der Rechnung
10.3
Einige physikalische Transformationen
ai =
613
dvi d dvi = vi = = ai = δi j a j dt dt dt
nachzuvollziehen ist, wodurch beide zu Vektoren unter Translation werden. Ganz anders verhält sich der Drehimpuls L = r × p , bei dem nach kurzer Rechnung L = r × p = (rr + c ) × p =r × p +c × p = L +c × p ein nicht triviales Transformationsverhalten zu erkennen ist. Die Änderung des Drehimpulses ist dabei vom jeweiligen Bewegungszustand abhängig. p2 verhält sich wegen des TransforDie Energie eines freien Punktteilchens, also E = 2m mationsverhaltens der Geschwindigkeit E=
p2 p 2 = = E 2m 2m
wie ein Skalar, da sie nur aus einer Komponente besteht. In diesem speziellen Fall ist die Energie5 also invariant unter der Translation. Befände sich das Punktteilchen hingegen in einem Potential, das vom Ortsvektor abhinge V (rr ), so wäre die Energie nicht mehr invariant unter der Translation. Die Translationsinvarianz wäre gebrochen. Ein interessanter Fall ist das Potential der Schwerkraft mit V (rr ) = mgz. Damit ist das Potential invariant unter Translationen in der x y-Ebene. Deshalb wird der Impuls in x- und y-Richtung erhalten. Währenddessen ist der Impuls in z-Richtung nicht erhalten, da die Translationsinvarianz in z-Richtung gebrochen ist. Für skalare Felder lässt sich der Generator der Transformation unter einer infinitesimalen Translation durch den Zusammenhang s (rr ) = s(rr ) = s(rr − c ) ≈ s(rr ) − ci ∂i s ˆ S s(rr ) ≈ (1 − iGˆ aS ca )s = s(rr ) − ica Gˆ aS s = zu Gˆ aS = −i∂a bestimmen. In der Quantenmechanik ist der Impulsoperator über a pˆ QM =
∂ i ∂ra
(10.31)
verknüpft, womit der Generator zu 5 Die fundamentale Größe, die zu betrachten wäre, ist die Wirkung, doch da es im Falle freier Teilchen
und Teilchen in zeitunabhängigen Gradientenfeldern keinen Unterschied gibt, wird hier stattdessen die Energie betrachtet.
614
10 Vektoren und Tensoren im physikalischen Sinne a pˆ QM 1 ∂ = Gˆ aS = i ∂ra
bestimmt wird. Wieder zeigt sich, dass der Generator der Transformation für das Skalarfeld mit dem Operator zur Erhaltungsgröße der entsprechenden Invarianz bestimmt ist. Eine Wellenfunktion wird somit durch die Anwendung des Translationsoperators a Tˆ (cc ) = exp −ica pˆ QM / auf eine Wellenfunktion transformiert, die eine Translation um den Vektor c beschreibt.
10.3.3 Isometrische Gruppe Wie auch die Drehungen erhalten Translationen die Abstände und Winkel zwischen Vektoren. Zusammen mit den Drehungen bilden sie die isometrische Gruppe, die hier etwas genauer untersucht werden soll. Ein Gruppenelement wird immer aus einem Tupel einer Rotationsmatrix R und einem Translationsvektor t bestehen und ist durch seine Wirkung auf einen Vektor r , (R, t )(rr ) ≡ Rrr + t definiert. Die Verknüpfung der Gruppe ist die Hintereinanderausführung der Transformationen und kann über [(R2 , t 2 ) ◦ (R1 , t 1 )] (rr ) = [(R2 , t 2 )] (R1r + t 1 ) = R2 (R1r + t 1 ) + t 2 = R2 R1r + R2t 1 + t 2 = [(R2 R1 , R2t 1 + t 2 )] (rr ) zu (R2 , t 2 ) ◦ (R1 , t 1 ) = (R2 R1 , R2t 1 + t 2 ) bestimmt werden. Wie in Abschn. 7.2.2 erwähnt wurde, lassen sich Gruppen durch Matrizen darstellen. Es liegt damit nahe eine Darstellung für die Gruppenelemente in Matrixform zu finden, die das Verknüpfungsverhalten wiedergibt. Eine solche Darstellung ist durch 1 0T r ((R, t )) = t R gegeben. Dabei handelt es sich um eine 4×4-Matrix, die so zu lesen ist, dass die erste Spalte aus einer 1 und dem Translationsvektor besteht, während die restlichen Komponenten der ersten Zeile alle 0 sind. Unten rechts ist die 3×3-Matrix R eingebettet. Das neutrale Element der Transformationen ist (1, 0 ), wodurch die Darstellung
10.3
Einige physikalische Transformationen
615
r ((1, 0 )) =
1 0T 0 1
wirklich auf die Einheitsmatrix abbildet. Das Matrixprodukt aus der Darstellung zweier Elemente 1 0T 1 0T 1 0T = t 2 R2 t 1 R1 t 2 + R2t 1 R2 R1 ergibt die Darstellung der Verknüpfung. Damit ist r tatsächlich eine Darstellung der isometrischen Gruppe. Dies legt aber nahe, dass ein vierdimensionaler Vektor 1 1 x= x = r r eingeführt werden kann, um sowohl Rotation als auch Translation vollständig durch eine Multiplikation mit der Transformationsmatrix 1 0T ≡ t R darzustellen. Für eine Transformation des Ortsvektors 1 0T 1 1 1 = x = = x = t R r Rrr + t r lässt sich so das bereits erwartete Verhalten auffinden, während für den vierdimensionalen Geschwindigkeitsvektor dx dx 0 0 u= = u = = v v dt dt das Transformationsverhalten 1 0T 0 0 0 = u = = u = t R v Rvv v gefunden wird. Dies entspricht aber gerade dem notwendigen Verhalten unter Rotation wie auch Translation. Ein ähnliches Vorgehen kann bei der Galilei-Transformation vollzogen werden und liefert schließlich eine mathematische Motivation, warum in der speziellen und allgemeinen Relativitätstheorie die vierdimensionale Raumzeit betrachtet wird. Da die inverse Matrix 1 0T −1 = −R T t R T
616
10 Vektoren und Tensoren im physikalischen Sinne
einer Transformation nicht mit ihrer Transponierten 1 tT T = 0 RT übereinstimmt, ist auch schnell einzusehen, dass ko- und kontravariante Vektoren unterschieden werden müssen.
10.3.4 Galilei-Transformationen Bei der Galilei-Transformation handelt es sich um den Wechsel eines Bezugssystems in der klassischen Mechanik. Der Hauptteil der Galilei-Transformation besteht darin, dass die Zeit in beiden Bezugssystemen gleich ist und eine Verschiebung um den Vektor w t mit fester Geschwindigkeit w stattfindet. Damit kann der Hauptteil der Transformation als r = r + wt
t = t
(10.32)
geschrieben werden. Damit lassen sich direkt die Transformationsverhalten der Geschwindigkeit und der Beschleunigung zu v = v + w
a = a
bestimmen. Am Transformationsverhalten der Beschleunigung ist ersichtlich, dass bei einem Wechsel zwischen zwei Inertialsystemen die Kräfte gleich bleiben. Auch hier lassen sich Vektoren mit mehr Komponenten einführen, um das Transformationsverhalten vollständig in einer Matrixform abzubilden. Da aber diesmal kein konstanter Vektor addiert wird, sondern der Vektor w t, bietet es sich an, in die erste Komponente keine Eins, sondern die Zeit t einzutragen, sodass sich die vierdimensionalen Vektoren t t x= x = r r ergeben. Damit lässt sich die Transformation t 1 0T t t = x = = r + wt r w 1 r durch die Matrix = darstellen. Durch die Rechnung
1 0T w 1
(10.33)
10.3
Einige physikalische Transformationen
1 0T w 1
1 0T w 1 −w
617
=
1 0T w −w 1
=1
ist schnell zu sehen, dass die inverse Matrix 1 0T −1 = w 1 −w durch das Einsetzen der negativen Relativgeschwindigkeit zu erhalten ist. Somit lassen sich durch dx dx 1 1 0T 1 1 = = = u u = = = v +w w 1 v v dt dt und du du 0 1 0T 0 0 = = = A A = = = a w 1 a a dt dt
auch die Transformationen der Geschwindigkeit und Beschleunigung finden, die mit den obigen Überlegungen übereinstimmen. Dies kann mitunter als Motivation genutzt werden, um die Einführung einer vierdimensionalen Raumzeit in der Relativitätstheorie zu rechtfertigen. Besonders interessant ist hierbei noch die Transformation des elektrischen und magnetischen Feldes. Aufgrund der nicht trivialen Transformation des Ortsvektors dx μ = μν dx ν lässt sich aus ν ∂
∂ = (−1 )T μ μ ∂xν ∂x das Transformationsverhalten der Ableitungen wT ∂t 1 −w ∂t − w T ∇r ∂t = = ∇r 0 1 ∇r ∇r
(10.34)
bestimmen. Aufgrund ihres Zusammenhangs mit der Kraft, ist es sinnvoll die elektrischen und magnetischen Felder mit der Transformationseigenschaft E (rr ) = E (rr )
B (rr ) = B (rr )
618
10 Vektoren und Tensoren im physikalischen Sinne
anzunehmen.6 Hier bezeichnet der Strich die elektrischen und magnetischen Felder im S System. Die homogene Maxwell-Gleichung ∇r × E +
∂B =0 ∂t
weist damit das Transformationsverhalten 0 = ∇r × E +
∂ w · ∇r ) B − (w ∂r B ∂ w · ∇r )B B − (w = ∇r × E + ∂t
∂B = ∇r × E + ∂t
auf. Die ersten beiden Terme entsprechen der Erwartung der homogenen Maxwell-Gleichung im S-System, der letzte Term hingegen ist nicht verschwindend und stört somit die Forminvarianz der Maxwell-Gleichung. Damit zeigt sich entweder, dass die Maxwell-Gleichung nicht invariant unter dem Wechsel mechanischer Inertialsysteme ist oder dass die GalileiTransformation die falsche Transformation ist, um zwischen Inertialsystemen zu wechseln. Um die Gesetze der Physik einschließlich der Maxwell-Gleichungen in allen Inertialsystemen forminvariant zu machen, ist es daher nötig eine neue Art der Transformationen zwischen den Inertialsystemen einzuführen, die Lorentz-Transformationen, die ausführlich in Abschn. 10.3.5 behandelt werden. Dort wird auch das korrekte Transformationsverhalten der elektrischen und magnetischen Felder hergeleitet. Auch bei der Galilei-Transformation gibt es die Möglichkeit eine allgemeinere Form der Transformation, r = Rrr + w t + c
t = t + a
(10.35)
zu finden. Dabei sind R eine Drehmatrix um eine feste Achse mit einem festen Winkel, c ein konstanter Vektor und a eine konstante Zahl. Die Elemente der allgemeinen Galilei-Gruppe lassen sich so als ein Tupel aus vier Objekten g = (R, w , c , a) aufschreiben. Durch eine Anwendung zweier Transformationen hintereinander auf das Tupel (rr , t), die sich nach
6 Wie sich mit den Kenntnissen der Relativitätstheorie herausstellt, handelt es sich hier tatsächlich
um das Transformationsverhalten der elektrischen und magnetischen Felder in erster Ordnung, also bei besonders kleinen Geschwindigkeiten. Bei hohen Geschwindigkeiten werden E - und B -Felder gemischt.
10.3
Einige physikalische Transformationen
619
[g2 ◦ g1 ](rr , t) = [(R2 , w 2 , c 2 , a2 ) ◦ (R1 , w 1 , c 1 , a1 )] (rr , t) = [(R2 , w 2 , c 2 , a2 )] (R1r 1 + w 1 t + c 1 , t + a1 ) w 1 t + c 1 ) + w 2 (t + a1 ) + c 2 , t + a1 + a2 ) = (R2 R1r + R2 (w = (R2 R1r + (R2w 1 + w 2 )t + (R2c 1 + w 2 a1 + c 2 ), t + a1 + a2 ) berechnet, lässt sich die Verknüpfungsrelation der Galilei-Transformation zu (R2 , w 2 , c 2 , a2 ) ◦ (R1 , w 1 , c 1 , a1 ) = (R2 R1 , R2w 1 + w 2 , R2c 1 + w2 a1 + c 2 , a1 + a2 ) bestimmen. Das neutrale Element dieser Gruppe aus Galilei-Transformationen ist durch e = (1, 0, 0, 0) gegeben, während das inverse Element zu g = (R, w , c , a) wegen !
(R2 R1 , R2w 1 + w 2 , R2c 1 + w2 a1 , a1 + a2 ) =(1, 0, 0, 0) ⇔ R T R, R T w − R T w , R T c − R T w a − R T c − R T w a , t + a − a = (1, 0, 0, 0) durch g −1 = (R T , −R T w , −R T c + R T w a, −a) bestimmt wird. Diese Kenntnisse können genutzt werden, um allgemeine GalileiTransformationen aufzustellen.
10.3.5 Lorentz-Transformationen Die Lorentz-Transformationen sind die in der speziellen Relativitätstheorie betrachteten Transformationen, die zwischen zwei Inertialsystemen vermitteln. Daher sind sie durch das Erfüllen der Gleichung T η = η
(10.36)
definiert, wobei η die Minkowski-Metrik η = diag(1, −1, −1, −1) ist. Dadurch wird das Linienelement ds 2 = c2 dt 2 − dx 2 − dy 2 − dz 2 des Raumzeitvektors x μ = (ct, x, y, z) konstant gehalten und spiegelt anschaulich die Konstanz der Lichtgeschwindigkeit wider. Da die Lorentz-Transformationen diese spezielle Orthogonalitätseigenschaft erfüllen, wird die aus ihnen gebildete Gruppe als O(1, 3)
620
10 Vektoren und Tensoren im physikalischen Sinne
bezeichnet. Es handelt sich unter dem Skalarprodukt mit einer Metrik mit einer positiven und drei negativen Komponenten um orthogonale Matrizen mit einer Determinante von Betrag eins.7 Für den Hauptteil der Lorentz-Gruppe, die den Wechsel zwischen den Bezugssystemen beschreibt, lassen sich jeweils in die x-, y- und z-Richtung die Transformationen ⎛
cosh(ν) ⎜− sinh(ν) x = ⎜ ⎝ 0 0 ⎛ cosh(ν) ⎜ 0 z = ⎜ ⎝ 0 − sinh(ν)
⎞ 0 0⎟ ⎟ 0⎠ 1 ⎞ 0 0 − sinh(ν) ⎟ 1 0 0 ⎟ ⎠ 0 1 0 0 0 cosh(ν) − sinh(ν) cosh(ν) 0 0
0 0 1 0
⎛
cosh(ν) ⎜ 0 y = ⎜ ⎝− sinh(ν) 0
0 − sinh(ν) 1 0 0 cosh(ν) 0 0
⎞ 0 0⎟ ⎟ 0⎠ 1
(10.37)
finden. Diese erfüllen die Bestimmungsgleichung (10.36) und werden als Lorentz-Boosts bezeichnet. Der Parameter ν heißt in der Physik Rapidität und wird durch v 1 c + v ν = Artanh = ln c 2 c−v bestimmt, wobei v die Relativgeschwindigkeit der Bezugssysteme bezeichnet. Häufig findet in der theoretischen Physik auch das Verhältnis der Relativgeschwindigkeit zur Lichtgeschwindigkeit β=
v c
β=
v c
Gebrauch. Durch die Bestimmung der Rapidität aus dem Areatangens hyperbolicus lassen sich der Sinus und Kosinus hyperbolicus alternativ auch als 1 cosh(ν) = =γ 1 − v 2 /c2
v/c sinh(ν) = = γβ 1 − v 2 /c2
darstellen, wobei γ oft als Lorentz-Faktor bezeichnet wird und immer größer oder gleich eins ist. Um nun einen allgemeinen Lorentz-Boost zu bestimmen, ist es nötig die Generatoren der Lorentz-Boosts zu bestimmen. Dies kann nach Gl. (7.81) aus Abschn. 7.2.3 durch die 7 In der Physik gibt es noch weitere Unterscheidungen in eigentliche und uneigentliche oder ortho-
chrone und nicht orthochrone Lorentz-Transformationen, die damit zusammenhängen, dass die Lorentz-Gruppe O(1, 3) aus vier Teilen besteht, die durch die diskreten Transformationen der Spiegelung und der Zeitumkehr voneinander getrennt sind. Hier wird nur der Teil der O(1, 3) betrachtet, der eine positive Determinante hat, also SO(1, 3) und eine positive 00-Komponente, weshalb die ↑ betrachtete Gruppe etwas genauer als SO+ (1, 3) oder auch L+ bezeichnet werden müsste. Diese Unterscheidung wird in Abschn. 10.3.6 etwas ausführlicher beleuchtet.
10.3
Einige physikalische Transformationen
621
Ableitung der Transformationen x , y und z über 1 dx Kx = − i dν
ν=0
1 d y Ky = − i dν ν=0 1 dz Kz = − i dν
ν=0
⎛
0 ⎜−i =⎜ ⎝0 0 ⎛ 0 ⎜0 =⎜ ⎝−i 0 ⎛ 0 ⎜0 =⎜ ⎝0 −i
−i 0 0 0 0 0 0 0 0 0 0 0
⎞ 0 0⎟ ⎟ 0⎠ 0 ⎞ −i 0 0 0⎟ ⎟ 0 0⎠ 0 0 ⎞ 0 −i 0 0⎟ ⎟ 0 0⎠ 0 0 0 0 0 0
geschehen.8 Ein allgemeiner Boost wird dann durch die Exponentialfunktion K ν ) = exp(−A) = exp(−iK ausgedrückt. Die Matrix
0 νT Kν = A = iK ν 0
kann mit der einfachen Rechnung A2 =
0 ν
νT 0
νT
0 ν
⎛ 2 ⎞ ν 0 0 0 2 T ⎜ 0 ν1 ν1 ν1 ν2 ν1 ν3 ⎟ 0 ν ⎟ =⎜ = T ⎝ 0 ν2 ν1 ν2 ν2 ν2 ν3 ⎠ 0 νν 0 ν3 ν1 ν3 ν2 ν3 ν3
0
quadriert und über A3 = A A2 =
0 νT ν 0
2 0 ν 2ν T 0T ν = = ν2 A 0 νν T ν 2ν 0
auch bis zur dritten Potenz bestimmt werden. Dabei zeigt sich, dass bereits nach zwei Potenzen von A ein periodisches Verhalten eintritt, dass sich durch A2k = ν 2k
A2 k>0 ν2
A2k+1 = ν 2k A
8 Da die Lorentz-Transformationen kontinuierliche Transformationen sind, handelt es sich um eine
Lie-Gruppe.
622
10 Vektoren und Tensoren im physikalischen Sinne
explizit aufschreiben lässt. Eingesetzt in die Potenzreihe kann so Kν) = 1 + = exp(−iK
∞ k=1
=1+
∞ A2
ν2
k=1
ν 2k (2k)!
−
A ν
∞
1 1 A2k − A2k+1 (2k)! (2k + 1)! k=0
∞
ν 2k+1
k=0
(2k + 1)!
A2 A = 1 + 2 (cosh(ν) − 1) − sinh(ν) ν ν 1 0T 1 0T 0 νT = + sinh(ν) (cosh(ν) − 1) − 0 1 0 νν T ν 0 T cosh(ν) − νν sinh(ν) = T − νν sinh(ν) 1 + ννν2 (cosh(ν) − 1) als allgemeiner Lorentz-Boost bestimmt werden. Im Falle einer einfachen Richtung stimmt eine der letzten drei Komponenten der ersten Zeile mit dem Lorentz-Faktor und der Geschwindigkeit in der Form νi sinh(ν) = γβi ν überein. Daher kann die Richtung von ν als die Richtung der Relativgeschwindigkeit β ν = ν β interpretiert werden. Mit dieser Ersetzung und der Ersetzung der hyperbolischen Funktionen lässt sich der allgemeine physikalische Lorentz-Boost ⎞ ⎛ γ −γ β T ⎟ ⎜ (10.38) =⎝ ⎠ T −γ β 1 + βββ2 (γ − 1) bestimmen. Angewandt auf einen Raumzeitvektor x γ −γ β T ct ct ct T = = x = r r r −γ β 1 + βββ2 (γ − 1) γ (ct − β T r ) T = −γ β ct + r + ββ ββ r (γ − 1) γ (ct − β T r ) γ (ct − β T r ) = = −γ β ct + r + r ⊥ + r (γ − 1) r ⊥ + γ r − β ct
10.3
Einige physikalische Transformationen
623
lässt sich erkennen, dass nur die parallelen räumlichen Anteile verändert werden, während die Senkrechten unverändert bleiben. Dadurch ist auch nur der parallele Anteil einer Strecke bei der Lorentz-Kontraktion betroffen, nicht aber die senkrecht mitgeführte Fläche. Eine weitere interessante Implikation ist die Transformation von elektrischen und magnetischen Feldern. Dazu wird die Transformation des elektromagnetischen Feldstärketensors ⎞ 0 E x /c E y /c E z /c ⎜−E x /c E T /c 0 −Bz By ⎟ 0 ⎟= =⎜ ⎝−E y /c Bz B ×· E /c −B 0 −Bx ⎠ −E z /c −B y Bx 0 ⎛
Fμν
betrachtet. Dabei ist B × · so zu verstehen, dass ein von rechts angenommener Vektor mit B ins Kreuzprodukt gesetzt wird. Für das Transformationsverhalten der Komponenten eines kovarianten Tensors wird die inverse Transformationsmatrix benötigt, die mit T T η = η ⇒ −1 = η T T η = ηη T zu bestimmen ist. Für einen allgemeinen Boost aus Gl. (10.38) lässt sich so über die Rechnung −1
T γ −γ β T 1 0T 1 0T T = 0 −1 −γ β 1 + βββ2 (γ − 1) 0 −1 T T γ −γ β T γ γβT 1 0T T T = = γ β −1 − βββ2 (γ − 1) 0 −1 γ β 1 + βββ2 (γ − 1)
die inverse Matrix zu −1
=
γβT
γ
γβ 1 +
ββ T β2
(10.39)
(γ − 1)
bestimmen. Dies entspricht einer Umkehrung der Richtung, was auch schon aus den Überlegungen von Abschn. 10.3.4 zu erwarten war. Das Transformationsverhalten des kovarianten Tensors α β
(−1 )T = (−1 )T Fαβ = (−1 )T F Fμν μ
ν
folgt somit Gl. (10.18). Und daher lässt sich der Feldstärketensor zu
μν
624
10 Vektoren und Tensoren im physikalischen Sinne Fμν =
= =
0 E T /c E /c −B B × · −E γ γβT
γ β 1 + βββ2 (γ − 1) γ γβT T
γ γβT 0 E T /c T E /c −B B ×· −E γ β 1 + βββ2 (γ − 1)
γ β 1 + βββ2 (γ − 1) ⎞ ⎛ βT E )β β E )/c γ (β E T /c + (ββcβ 2 (γ − 1) ⎠ ×⎝ β )β βT E /c + B × β ) γ E β T /c + · × B − (BB ×β (γ − 1) γ (E β2 ⎛ ⎞ T E ⊥ /c + β × B ⊥ )T 0 E /c + γ (E ⎜ ⎟ =⎝ ⎠
E⊥ β ×E E /c − γ (E E ⊥ /c + β × B ⊥ ) ×· −E − B + γ B⊥ − c T
bestimmen. Darin bezeichnen Striche am Feldstärketensor oder an den elektromagnetischen Feldern die Werte im S -System. Im letzten Schritt wurden aufgrund der Überschaubarkeit ein paar Zwischenschritte übersprungen. Diese beinhalteten das Anwenden der Relation γ 2 (1 − β 2 ) = 1 sowie das Aufspalten der Felder in parallele und senkrechte Anteile nach E =
βE) β (β β β
B =
βB) β (β β β
und das Faktum, dass Kreuzprodukte mit β senkrecht auf eben diesem Vektor stehen und deshalb β × B) = 0 β (β erfüllen. Einfacher lässt sich dieses Ergebnis über eine Verallgemeinerung aus dem Boost entlang der x-Achse ⎛ ⎞ 0 E x /c E y /c E z /c ⎜−E /c 0 −Bz B y ⎟ ⎜ ⎟ x =⎜ Fμν ⎟ 0 −Bx ⎠ ⎝−E y /c Bz −E z /c −B y Bx 0 ⎛ ⎞⎛ ⎞⎛ ⎞ γ γβ 0 0 γ γβ 0 0 0 E x /c E y /c E z /c ⎜γβ γ 0 0⎟ ⎜−E x /c ⎜ ⎟ 0 −Bz By ⎟ ⎟ ⎜γβ γ 0 0⎟ ⎟⎜ =⎜ ⎝0 ⎠ ⎠ ⎝ ⎝ −E y /c Bz 0 −Bx 0 1 0 0 0 1 0⎠ 0
0
0 1
−E z /c −B y
Bx
0
0
0
0 1
10.3
Einige physikalische Transformationen
625
⎛
⎞⎛ γ E x /c γ γβ 0 0 γβ E x /c ⎜γβ γ 0 0⎟ ⎜ −γ E /c −γβ E x /c x ⎟⎜ =⎜ ⎝0 0 1 0⎠ ⎝γ (−E y /c + β Bz ) γ (−β E y /c + Bz ) γ (−E z /c − β B y ) γ (−β E z /c − B y ) 0 0 0 1 ⎛ γ (E y /c − β Bz ) 0 E x /c ⎜ −E /c 0 −γ (Bz − β E y /c) x =⎜ ⎝−γ (E y /c − β Bz ) γ (Bz − β E y /c) 0 −γ (E z /c + β B y ) −γ (B y + β E z /c) Bx
⎞ E y /c E z /c −Bz By ⎟ ⎟ 0 −Bx ⎠ Bx 0
⎞ γ (E z /c + β B y ) γ (B y + β E z /c)⎟ ⎟ ⎠ −Bx 0
unter Verwendung von ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ Ex β 0 β × E = ⎝ 0 ⎠ × ⎝ E y ⎠ = ⎝−β E z ⎠ 0 Ez β Ey
⎞ ⎛ ⎞ ⎛ ⎞ ⎛ Bx 0 β β × B = ⎝ 0 ⎠ × ⎝ B y ⎠ = ⎝−β Bz ⎠ Bz β By 0
herleiten. Nach diesen Erkenntnissen transformieren sich elektromagnetische Felder unter Lorentz-Transformation über E ⊥ + v × B ⊥) E = E + γ (E und B = B + γ
B⊥ −
v × E⊥ c2
(10.40)
(10.41)
und werden dabei gemischt. Neben dem allgemeinen Boost könnte auch von Interesse sein, was bei einer Hintereinanderausführung passiert. Zunächst soll die Hintereinanderausführung in gleicher Richtung betrachtet werden. Zur Überschaubarkeit soll dies beide Male in x-Richtung geschehen, wodurch sich die Transformationsmatrizen auf die obere linke (2 × 2)-Matrix der Transformation in x-Richtung reduzieren. Wird mit Rapiditäten gerechnet, so sind die jeweiligen Matrizen durch ci −si cosh(νi ) − sinh(νi ) ≡ i = −si ci − sinh(νi ) cosh(νi ) gegeben. Ihr Produkt kann zu 3 = 2 1 cosh(ν1 ) − sinh(ν1 ) cosh(ν2 ) − sinh(ν2 ) = − sinh(ν2 ) cosh(ν2 ) − sinh(ν1 ) cosh(ν1 )
626
10 Vektoren und Tensoren im physikalischen Sinne
=
c2 c1 + s2 s1 −c2 s1 − s2 c1 −s2 c1 − c2 s1 s2 s1 + c1 s1
cosh(ν3 ) − sinh(ν3 ) cosh(ν1 + ν2 ) − sinh(ν1 + ν2 ) = = − sinh(ν1 + ν2 ) cosh(ν1 + ν2 ) − sinh(ν3 ) cosh(ν3 )
bestimmt werden. Hierbei wurden die Additionstheoreme cosh(ν1 ) cosh(ν2 ) + sinh(ν1 ) sinh(ν2 ) = cosh(ν1 + ν2 ) sinh(ν1 ) cosh(ν2 ) + sinh(ν1 ) cosh(ν2 ) = sinh(ν1 + ν2 ) für die hyperbolischen Funktionen ausgenutzt. Bei der Hintereinanderausführung zweier Boosts werden die Rapiditäten ν3 = ν1 +ν2 also einfach addiert. Durch den Zusammenhang der Rapidität und der Geschwindigkeiten kann so mittels 1 1 c + v1 c + v2 (c + v1 )(c + v2 ) 1 + ln = ln ν1 + ν2 = ln 2 c − v1 2 c − v2 2 (c − v1 )(c − v2 ) ⎛ ⎞ c(v1 +v2 ) 2 1 ⎝ 1 + c2 +v1 v2 ⎠ 1 c + v1 v2 + c(v1 + v2 ) = ln = ln 2 1 v2 ) 2 c + v1 v2 − c(v1 + v2 ) 2 1 − cc(v 2 +v v 1 2 v1 +v2 c + 1+v v /c2 1 1 c + v3 1 2 = ν3 = ln = ln 2 2 c − v3 c − v1 +v2 2 1+v1 v2 /c
die neue Relativgeschwindigkeit zu v3 =
v 1 + v2 1 + vc1 v2 2
bestimmt werden. Dies ist die relativistische Geschwindigkeitsaddition. Sie verhindert, dass sich Dinge schneller als die Lichtgeschwindigkeit bewegen können, bzw. sie bewirkt, dass das Licht sich immer mit Lichtgeschwindigkeit bewegt. Was geschieht nun, wenn zwei Boosts in unterschiedliche Richtung hintereinander ausgeführt werden? Um diese Frage zu beantworten, soll wie in Abschn. 7.3 der Kommutator der Generatoren betrachtet werden. Die naive Erwartung wäre, dass der Kommutator der Generatoren der Boosts wieder ein Generator der Boosts ist. Es soll beispielhaft die Rechnung [K x , K y ] = K x K y − K y K x ⎛ ⎞⎛ 0 −i 0 0 0 ⎜−i 0 0 0⎟ ⎜ 0 ⎟⎜ =⎜ ⎝ 0 0 0 0⎠ ⎝−i 0 0 0 0 0
⎞ 0 −i 0 0 0 0⎟ ⎟ 0 0 0⎠ 0 0 0
10.3
Einige physikalische Transformationen
⎛
0 0 ⎜0 0 −⎜ ⎝−i 0 0 0 ⎛ 0 0 0 ⎜0 0 −1 =⎜ ⎝0 0 0 0 0 0
627
⎞⎛ −i 0 0 −i ⎜−i 0 0 0⎟ ⎟⎜ 0 0⎠ ⎝ 0 0 0 0 0 0 ⎞ ⎛ 0 0 0 0 ⎜0 0 0 0⎟ ⎟−⎜ 0⎠ ⎝0 −1 0 0 0 0 0
0 0 0 0
⎞ 0 0⎟ ⎟ 0⎠ 0 ⎞
⎛ 0 0 ⎜0 0⎟ ⎟ = −i ⎜ ⎝0 0⎠ 0 0
⎞ 0 0 0 0 −i 0⎟ ⎟ i 0 0⎠ 0 0 0
betrachtet werden, die den Kommutator der ersten beiden Generatoren bestimmt. Dies scheint keiner der Generatoren der Boost, noch irgendeine Linearkombination davon zu sein. Der Grund dafür wird schnell klar, wenn die Anzahl der Freiheitsgrade in der LorentzGruppe betrachtet wird. Es handelt sich um reelle (4 × 4)-Matrizen, was zunächst 16 freie Parameter einräumt. Durch die definierende Gl. (10.36) ημν = αμ βν ηαβ werden für verschiedene μ und ν 6 Parameter festgelegt. Durch die Gleichungen mit gleichen μ und ν werden 4 Parameter festgelegt, womit insgesamt 6 Freiheitsgrade offen bleiben. Außerdem fällt bei einem Blick auf die Minkowski-Metrik auf, dass die Raumkomponenten als Unterraum existieren. Damit können auch Drehungen als Untergruppe der LorentzGruppe auftreten und ein Blick auf die SO(3)-Generatoren aus Abschn. 7.3.1 ⎞ ⎛ 0 0 0 L 1 = ⎝0 0 −i⎠ 0 i 0
⎞ 0 0 i L 2 = ⎝ 0 0 0⎠ −i 0 0 ⎛
⎞ 0 −i 0 L 3 = ⎝ i 0 0⎠ 0 0 0 ⎛
zeigt, dass auf der unteren rechten (3 × 3)-Matrix der dritte Generator der SO(3) sitzt. Die Generatoren angepasst auf den vierdimensionalen Fall ⎛ 0 ⎜0 Lx = ⎜ ⎝0 0
0 0 0 0
⎞ 0 0 0 0⎟ ⎟ 0 −i⎠ i 0
⎛
0 0 ⎜0 0 Ly = ⎜ ⎝0 0 0 −i
0 0 0 0
⎞ 0 i⎟ ⎟ 0⎠ 0
⎛
0 ⎜0 Lz = ⎜ ⎝0 0
⎞ 0 0 0 0 −i 0⎟ ⎟ i 0 0⎠ 0 0 0
erfüllen dann nach wie vor die gleiche Kommutatorrelation [L i , L j ] = ii jk L k
(10.42)
wie in Abschn. 7.3.1. Mit ihnen lässt sich der Kommutator der Generatoren der Boosts
628
10 Vektoren und Tensoren im physikalischen Sinne
⎛
0 ⎜0 [K x , K y ] = −i ⎜ ⎝0 0
⎞ 0 0 0 0 −i 0⎟ ⎟ = −i12k L k i 0 0⎠ 0 0 0
im allgemeinen Fall nun durch [K i , K j ] = −ii jk L k
(10.43)
ausdrücken. Anschaulich bedeutet dies, dass das Hintereinanderausführen zweier nicht gleich gerichteter Boosts mit einer Drehung einhergeht. Ein physikalischer Effekt, bei dem dies auftritt, ist die sogenannte Thomas-Präzession, bei der sich eine Kreiselachse in einem beschleunigten Bezugssystem relativ zu einem Inertialsystem zu drehen beginnt. Da nun auch die Generatoren der Drehungen als Generatoren der Lorentz-Gruppe bestimmt wurden, fragt sich, was der Kommutator mit den Boosts ist. Über die beispielhafte Rechnung [K x , L y ] = K x L y − L y K x ⎛ ⎞⎛ ⎞ 0 −i 0 0 0 0 0 0 ⎜−i 0 0 0⎟ ⎜0 0 0 i ⎟ ⎟⎜ ⎟ =⎜ ⎝ 0 0 0 0⎠ ⎝0 0 0 0⎠ 0 0 0 0 0 −i 0 0 ⎛ ⎞⎛ ⎞ 0 0 0 0 0 −i 0 0 ⎜0 0 0 i ⎟ ⎜−i 0 0 0⎟ ⎟⎜ ⎟ −⎜ ⎝0 0 0 0⎠ ⎝ 0 0 0 0⎠ 0 −i 0 0 0 0 0 0 ⎛ ⎞ ⎛ ⎞ ⎛ 0 0 0 1 0 0 0 0 0 ⎜0 0 0 0⎟ ⎜ 0 0 0 0⎟ ⎜0 ⎟ ⎜ ⎟ ⎜ =⎜ ⎝0 0 0 0⎠ − ⎝ 0 0 0 0⎠ = ⎝0 0 0 0 0 −1 0 0 0 1 ⎞ ⎛ 0 0 0 −i ⎜0 0 0 0⎟ ⎟ = i⎜ ⎝ 0 0 0 0 ⎠ = iK z = i12k K k −i 0 0 0
0 0 0 0
0 0 0 0
⎞ 1 0⎟ ⎟ 0⎠ 0
lässt sich die allgemeine Formel [K i , L j ] = ii jk K k
(10.44)
[L i , K j ] = ii jk K k
(10.45)
erahnen, die auch als
10.3
Einige physikalische Transformationen
629
geschrieben werden kann, wegen der Antisymmetrie des Kommutators und der Antisymmetrie des Levi-Civita-Symbols. Eine allgemeine Transformation ist ziemlich aufwendig, es soll aber dennoch ein wichtiger Trick betrachtet werden, der für die Struktur der relativistischen Teilchenphysik von Bedeutung ist. Dabei geht es darum, dass es sehr umständlich wäre eine allgemeine Transformation mit den K und den L zu bestimmen. Dies liegt daran, dass die Generatoren mischen. Stattdessen ist es ratsam eine Überlagerung der beiden Generatoren in der Form W± ≡
1 L ± iK K) (L 2
(10.46)
zu betrachten. Diese können mit den Ausdrücken für die K und die L explizit zu ⎛
W1+ =
W3+ =
W1− =
W3− =
⎞ ⎛ 0 1 0 0 0 0 ⎟ ⎜0 0 1⎜ 1 1 0 0 0 + ⎜ ⎟ W2 = ⎜ 2 ⎝0 0 0 −i⎠ 2 ⎝1 0 0 0 i 0 0 −i ⎛ ⎞ 0 0 0 1 ⎟ 1⎜ ⎜0 0 −i 0⎟ ⎝ 2 0 i 0 0⎠ 1 0 0 0 ⎛ ⎞ ⎛ 0 −1 0 0 0 ⎜ ⎟ ⎜ 1 ⎜−1 0 0 0 ⎟ 1 0 W2− = ⎜ 0 0 −i⎠ 2⎝ 0 2 ⎝−1 0 0 i 0 0 ⎛ ⎞ 0 0 0 −1 ⎜ 1 ⎜ 0 0 −i 0 ⎟ ⎟ 2⎝ 0 i 0 0 ⎠ −1 0 0 0
1 0 0 0
⎞ 0 i⎟ ⎟ 0⎠ 0
⎞ 0 −1 0 0 0 i⎟ ⎟ 0 0 0⎠ −i 0 0
bestimmt werden. Mittels der Rechnungen 1 [L i ± iK i , L j ± iK j ] 4 1 = [L i , L j ] ± i[K i , L j ] ± i[L i , K j ] − [K i , K j ] 4 1 = ii jk K k ± i(ii jk K k ) ± i(ii jk K k ) − ii jk L k 4 i = i jk (L k ± K k ) = ii jk Wk± 2
[Wi± , W ± j ]=
630
10 Vektoren und Tensoren im physikalischen Sinne
und 1 [L i + iK i , L j − iK j ] 4 1 = [L i , L j ] + i[K i , L j ] − i[L i , K j ] + [K i , K j ] 4 1 = ii jk L k + i(ii jk K k ) − i(ii jk K k ) − ii jk L k 4
[Wi+ , W − j ]=
=0 lässt sich schnell erkennen, dass mit diesen Generatoren die SO(1, 3) in zwei getrennte SU(2)-Algebren zerfällt. Im Rahmen der relativistischen Quantenmechanik sind die Generatoren W ± mit halbzahligen, spinartigen Quantenzahlen (W + , W − ) verknüpft und beschreiben, wie sich verschiedene Objekte transformieren. Ein Objekt mit den Quantenzahlen (0, 0) transformiert sich wie ein Skalar, beispielsweise ein Klein-Gordon-Feld, Objekte mit ( 21 , 0) bzw. (0, 21 ) transformieren wie ein zweikomponentiger Spinor, Objekte mit (1, 0) bzw. (0, 1) transformieren wie ein räumliches Vektorfeld, und Objekte mit ( 21 , 21 ) transformieren sich ebenfalls wie Vektorfelder. Soll eine allgemeine Lorentz-Transformation mit diesen neuen Generatoren aufgestellt werden, so müssen zunächst die alten Generatoren L und K über L = W+ +W−
K =
1 + W + W −) (W i
durch die neuen Generatoren ausgedrückt werden. Damit lässt sich der Exponent 1 + W + W − ) + iα α (W W + + W −) α L = iνν (W iνν K + iα i α )W W + − (νν − iα α )W W− = (νν + iα in zwei Teile zerlegen, sodass das Produkt α )W W + exp (νν − iα α )W W− = exp −(νν + iα die allgemeine Transformation bestimmt. Diese Rechnung soll hier aber nicht durchgeführt werden. Schlussendlich bleibt noch zu sagen, dass es ähnlich wie bei Rotationen auch hier eine weitere Klasse von Transformationen gibt, die Skalarprodukte und das Abstandselement ds 2 erhalten. Dabei handelt es sich um Verschiebungen der Raumzeitkoordinaten um eine feste Größe cμ . Zusammen mit der Lorentz-Gruppe wird diese Gruppe an Transformationen als Poincaré-Gruppe bezeichnet. Die vier zusätzlichen Erzeuger hängen wieder mit dem Impulsoperator zusammen. Als Casimir-Invariante der Gruppe fällt dabei auch die Masse von Teilchen heraus.
10.3
Einige physikalische Transformationen
631
10.3.6 Raumspiegelung, Zeit- und Ladungsumkehr ˆ der ZeitumZuletzt sollen noch die drei diskreten Transformationen der Raumspiegelung P, ˆ ˆ kehr T und der Ladungsumkehr C betrachtet werden. Die zweimalige Anwendung derselben Operation erzeugt wieder den Ausgangszustand, wodurch alle Operatoren die Eigenschaft Pˆ 2 = 1
Tˆ 2 = 1
Cˆ 2 = 1
erfüllen. Dadurch können ihre Eigenwerte nur (+1) oder (−1) sein. Parität Die Raumspiegelung definiert die Parität einer Größe und entspricht dem Eigenwert des Raumspiegelungoperators, der auch als Paritätsoperator bezeichnet wird. Die Spiegelung wird als Punktspiegelung am Ursprung durchgeführt, sodass der Ortsvektor die definierende Eigenschaft ˆ r = −rr r → r = Pr
(10.47)
erfüllt. Er erhält bei der Paritätstransformation damit ein zusätzliches Vorzeichen. Da das Differential des Ortsvektor das Transformationsverhalten festlegt, heißt jede vektorielle Größe, die sich mit einem zusätzlichen Minuszeichen transformiert, Vektor. Jede vektorielle Größe, die kein zusätzliches Vorzeichen bei der Transformation erhält, wird als Pseudovektor oder auch Axialvektor bezeichnet. Da die Geschwindigkeit und die Beschleunigung über die Ableitungen des Ortsvektors definiert sind, erhalten sie auch ein zusätzliches Vorzeichen und sind somit Vektoren. Der Drehimpuls L =r × p weist hingegen das Transformationsverhalten L = r × p = (−rr ) × (−pp ) = r × p = L auf und ist somit ein Pseudovektor. Anschaulich bedeutet dies, dass sich die Richtung einer Drehbewegung durch eine Betrachtung im Spiegel nicht ändert. Neben Pseudovektoren gibt es auch sogenannte Pseudoskalare. Skalare Größen wie das Betragsquadrat des Ortsvektors r 2 = r · r = (−rr ) · (−rr ) = r · r = r 2 ändern sich unter Paritätstransformation nicht. Werden jedoch Skalarprodukte aus Vektoren und Pseudovektoren betrachtet, so ergibt sich ein Pseudoskalar. So kann die Projektion des Eigendrehimpulses eines Körpers S auf den Impuls p betrachtet werden. Aus der obigen
632
10 Vektoren und Tensoren im physikalischen Sinne
Überlegung handelt es sich beim Eigendrehimpuls um einen Pseudovektor. Damit ist das Transformationsverhalten des Skalarprodukts durch S · p = S · (−pp ) = − (SS · p ) bestimmt, womit es sich um ein Pseudoskalar handelt. Die Größe h≡S·
p , p
die den Teilchenspin auf den Impuls des Teilchens projiziert, wird als Helizität bezeichnet und spielt eine entscheidende Rolle beim Pionenzerfall. Wird von Pseudoskalaren oder Pseudovektoren gesprochen, ohne dass zusätzlich eine Transformation explizit angegeben wird, sind meist Pseudoskalare und Pseudovektoren unter Raumspiegelung gemeint. Im Rahmen der Relativitätstheorie lässt sich die Paritätstransformation durch P μν = diag(1, −1, −1, −1) ausdrücken. Durch die explizite Form des elektromagnetischen Feldstärketensors ⎞ 0 E x /c E y /c E z /c ⎜−E x /c 0 −Bz By ⎟ ⎟ =⎜ ⎝−E y /c Bz 0 −Bx ⎠ −E z /c −B y Bx 0 ⎛
Fμν
lassen sich durch die Rechnung ⎛ ⎞ 0 E x /c E y /c E z /c ⎜−E /c 0 −Bz B y ⎟ ⎜ ⎟ x =⎜ Fμν ⎟ 0 −Bx ⎠ ⎝−E y /c Bz −E z /c −B y Bx 0 α β
(P −1 )T Fαβ = (P −1 )T μ
ν
⎞⎛ ⎞ 1 0 0 0 1 0 0 0 0 E x /c E y /c E z /c ⎜ ⎜0 −1 0 ⎜ 0 −Bz By ⎟ 0⎟ 0⎟ ⎟ ⎜0 −1 0 ⎟ ⎟ ⎜−E x /c =⎜ ⎠ ⎝ ⎝0 0 −1 0 ⎠ ⎝−E y /c Bz 0 −Bx 0 0 −1 0 ⎠ −E z /c −B y Bx 0 0 0 0 −1 0 0 0 −1 ⎞⎛ ⎞ ⎛ 1 0 0 0 0 E x /c E y /c E z /c ⎟ ⎜0 −1 0 ⎟ ⎜ E x /c 0 B −B 0 z y ⎟⎜ ⎟ =⎜ ⎠ ⎝ ⎝ E y /c −Bz 0 Bx 0 0 −1 0 ⎠ E z /c B y −Bx 0 0 0 0 −1 ⎛
⎞⎛
10.3
Einige physikalische Transformationen
633
⎞ 0 −E x /c −E y /c −E z /c ⎜ E x /c 0 −Bz By ⎟ ⎟ =⎜ ⎝ E y /c Bz 0 −Bx ⎠ E z /c −B y Bx 0 ⎛
die Transformationsverhalten des elektrischen und magnetischen Feldes direkt ablesen. Das elektrische Feld verhält sich wie ein Vektor unter Spiegelung und erhält das zusätzliche E , während sich das magnetische Feld wie ein Pseudovektor B → B Vorzeichen E → −E verhält. Die Ableitungen transformieren sich wie der Ortsvektor, wodurch die Operatoren der Vektoranalysis das Verhalten von Vektoren ∇ → −∇
grad → −grad
rot → −rot
div → −div
aufweisen. Massen und Ladungen sowie ihre Dichten sind hingegen Skalare unter der Spiegelung. Werden die Maxwell-Gleichungen der Elektrodynamik betrachtet, so zeigt sich, dass diese unter einer Spiegelung forminvariant sind, genauso wie die Newton’schen Gesetze. Aus diesem Grund wurde lange Zeit angenommen, dass alle fundamentalen Gesetze der Physik über diese diskrete Symmetrie verfügen müssen. Tatsächlich hat sich aber im WuExperiment gezeigt, dass die schwache Wechselwirkung diese Symmetrie bricht. Dabei zeigt sich vereinfacht ausgedrückt, dass bei einem radioaktiven Zerfall eines Kobaltkerns die Elektronen bevorzugt entgegen des Kernspins ausgesandt werden. Dieser Befund regte zu einem Überdenken der Universalität der P-, C- und T -Symmetrie an, wodurch davon ausgegangen wurde, dass Kombinationen der drei Transformationen zu Symmetrien führen. Später stellte sich im System von Kaonen heraus, dass die schwache Wechselwirkung auch in der Lage ist, die Kombination C P zu verletzen. Die höchste Kombination an Symmetrien, die C P T -Symmetrie wird aber von allen fundamentalen Wechselwirkungen respektiert. Zeitumkehr Wie auch die Raumspiegelung ist die Zeitumkehr durch ein zusätzliches Minuszeichen in der Zeitkomponente t → t = Tˆ t = −t
(10.48)
definiert. Dadurch erhalten auch zeitliche Ableitungen ein zusätzliches Minuszeichen. Der Ortsvektor r bleibt aber unverändert und verhält sich deshalb wie ein Pseudovektor unter Zeitumkehr. Die Geschwindigkeit hingegen erhält als Ableitung des Ortsvektors ein zusätzliches Vorzeichen v → v = −vv
634
10 Vektoren und Tensoren im physikalischen Sinne
und ist ein Vektor unter Zeitumkehr, während die Beschleunigung wieder ein Pseudovektor ist. Ebenso sind Kräfte Pseudovektoren, wodurch aber das zweite Newton’sche Gesetz m
d p dp dp d(−pp ) =F →m =m =m = F = F dt dt d(−t) dt
unter Zeitumkehr seine Form beibehält. Im Zuge der Relativitätstheorie lässt sich die Zeitumkehr als T μν = diag(−1, 1, 1, 1) ausdrücken. Mit ihr lässt sich wieder über ⎛ ⎞ 0 E x /c E y /c E z /c ⎜−E /c 0 −Bz B y ⎟ ⎜ ⎟ x Fμν =⎜ ⎟ 0 −Bx ⎠ ⎝−E y /c Bz −E z /c −B y Bx 0 α β
(T −1 )T Fαβ = (T −1 )T μ
ν
⎞⎛ ⎛ ⎞⎛ −1 −1 0 0 0 0 E x /c E y /c E z /c ⎟⎜ 0 ⎜ 0 1 0 0⎟ ⎜−E x /c 0 −B B z y ⎟⎜ ⎟⎜ =⎜ ⎝ 0 0 1 0⎠ ⎝−E y /c Bz 0 −Bx ⎠ ⎝ 0 −E z /c −B y Bx 0 0 0 0 0 1 ⎞⎛ ⎞ ⎛ −1 0 0 0 0 −E x /c −E y /c −E z /c ⎜ ⎟ ⎜−E x /c 0 −Bz By ⎟ ⎟ ⎜ 0 1 0 0⎟ =⎜ ⎠ ⎝ ⎝−E y /c Bz 0 −Bx 0 0 1 0⎠ −E z /c −B y Bx 0 0 0 0 1 ⎞ ⎛ 0 −E x /c −E y /c −E z /c ⎜ E x /c 0 −Bz By ⎟ ⎟ =⎜ ⎝ E y /c Bz 0 −Bx ⎠ E z /c −B y Bx 0
0 1 0 0
0 0 1 0
⎞ 0 0⎟ ⎟ 0⎠ 1
das vermeintliche Verhalten der elektrischen und magnetischen Felder unter Zeitumkehr bestimmen. Allerdings gibt es hier ein weiteres Detail, das zu berücksichtigen ist. Die Lorentz-invariante Form der Maxwell-Gleichungen mit Quellen lässt sich als ∂μ F μν = μ0 j ν schreiben. Da die Ladungsdichte ρ ein Skalar und die Stromdichte j = ρvv ein Vektor unter Zeitumkehr sind, wird die Stromdichte das Transformationsverhalten j ν → jν
10.3
Einige physikalische Transformationen
635
aufweisen. Ebenso wird sich der Ableitungsoperator gemäß ∂μ → −∂ μ transformieren. Wie eben herausgefunden, folgt der Feldstärketensor schlussendlich F μν → Fμν als Transformationsverhalten. Damit werden die Maxwell-Gleichungen nach ∂μ F μν = μ0 j ν →(−∂ μ )Fμν = μ0 jν ⇔∂μ (−F μν ) = μ0 j ν transformieren. Damit also die Maxwell-Gleichungen ihre Form behalten, ist der Term, der die neuen physikalischen E - und B -Felder beinhaltet, durch ⎞ 0 E x /c E y /c E z /c ⎜−E x /c 0 Bz −B y ⎟ ⎟ =⎜ ⎝−E y /c −Bz 0 Bx ⎠ −E z /c B y −Bx 0 ⎛
−Fμν
B, gegeben. Damit transformiert sich diesmal das magnetische Feld wie ein Vektor B → −B während das elektrische Feld ein Pseudovektor E → E ist. Dass dies das richtige Transformationsverhalten ist, lässt sich auch argumentativ recht einfach herausfinden. Die Quellen des elektrischen Feldes sind die Ladungen, die sich unter Zeitumkehr nicht verändern, daher behält es seine Richtung. Die Quellen des magnetischen Feldes sind die Ströme, die ihre Richtung ändern, dadurch muss sich auch die Richtung des magnetischen Feldes ändern. Zusammen mit der Parität lässt sich die Lorentz-Gruppe in ihre vier nicht zusammenhängenden Teile aufspalten. Die Lorentz-Transformationen, die in Abschn. 10.3.5 eingeführt wurden, werden als eigentliche, orthochrone Lorentz-Transformationen bezeichnet, da sie eine positive Determinante haben und das Vorzeichen der 00-Komponente ebenfalls positiv ↑ ist. Dieser Teil der Gruppe O(1, 3) wird in der Teilchenphysik zumeist mit L+ bezeichnet. Das L symbolisiert die Lorentz-Gruppe, der nach oben gerichtete Pfeil die positive 00-Komponente, und das Pluszeichen symbolisiert das Vorzeichen der Determinante. Die uneigentlichen, orthochronen Lorentz-Transformationen werden durch eine Paritätstransformation erreicht, sodass sich ↑ ↑ L− = Pˆ L+
schreiben lässt. Die nicht orthochronen uneigentlichen Lorentz-Transformationen lassen sich durch eine Zeitumkehr über ↓ ↑ L− = Tˆ L+
636
10 Vektoren und Tensoren im physikalischen Sinne
erreichen, während die nicht orthochronen, eigentlichen Lorentz-Transformationen durch ↓ ↑ L+ = Tˆ Pˆ L+
mit einer Zeitumkehr und Raumspiegelung zu erreichen sind. Damit lässt sich die O(1, 3) als Vereinigung all dieser vier Teile ↑ ↑ ↑ ↑ O(1, 3) = L+ ∪ Pˆ L+ ∪ Tˆ L+ ∪ Tˆ Pˆ L+
auffassen. Ladungsumkehr Bei der Ladungsumkehr werden die Vorzeichen der elektrischen Ladungen vertauscht, sodass q → −q
(10.49)
gilt. Alle vektoriellen, mechanischen Größen, wie der Ortsvektor, der Geschwindigkeitsvektor, der Impuls, der Drehimpuls, die Beschleunigung und so weiter verhalten sich unter Ladungsumkehr daher wie Pseudovektoren. Wie auch die Ladung gehen die Ladungsdichte und die Stromdichte auf ihr Negatives über, ρQ → −ρQ
j → −j
und verhalten sich daher wie ein Pseudoskalar und ein Vektor unter Ladungsumkehr. Mit der Invarianz der beiden Maxwell-Gleichungen E) = div(E
ρ ε0
B ) − μ0 ε0 rot(B
∂E = −μ0 j ∂t
lassen sich die Transformationsverhalten des elektrischen und magnetischen Feldes zu E E → −E
B B → −B
bestimmen. Beide verhalten sich somit als Vektoren unter Ladungsumkehr.
10.4
Formelsammlung – Vektoren und Tensoren im physikalischen Sinne
Definierende Transformationsverhalten von kontravarianten und kovarianten Indices durch die Differentiale
10.4
Formelsammlung – Vektoren und Tensoren im physikalischen Sinne
dr μ = μν dr ν =
ν ∂
∂r ν ∂ ∂ −1 T = ( ) = μ ∂r ν ∂r μ ∂r μ ∂r ν
∂r μ ν dr ∂r ν
Skalare s (x ) = s(x)
s=s Vektoren a μ =
∂ x μ ν a ∂xν
∂ x μ ν a (x) ∂xν aμ = gμν a ν
a μ (x) =
∂xν aν ∂ x μ ∂xν aμ (x ) = μ aν (x) ∂x a μ = g μν aν aμ =
Tensoren ∂ x μ1 ∂ x μm · · · ∂ x α1 ∂ x αm μ1 ∂x ∂ x μm 1 ...μm (x ) = tνμ1 ...ν · · · l ∂ x α1 ∂ x αm 1 ...μm = tνμ1 ...ν l
Christoffel-Symbole und kovariante Ableitungen ∂ gμν g σ λ ∂ gμλ ∂ gλν σ μν = + − 2 ∂xν ∂xμ ∂xλ μ μ ∂a Da μ = + νλ a λ ν Dx ∂xν ∂t μν Dt μν μ = + σ λ t λν + σν λ t μλ σ Dx ∂xσ
∂ x βl ...αm ∂ x β1 · · · ν tβα11...β ν l ∂x 1 ∂x l β β ∂ x l ...αm ∂x 1 · · · ν tβα11...β (x) ν l 1 ∂x ∂x l
∂s Ds = μ Dx μ ∂x Daμ ∂aμ λ = − μν aλ ν Dx ∂xν Dtμν ∂tμν λ λ = − μσ tλν − νσ tμλ Dx σ ∂xσ
Transformationen • Drehungen r i = Oi j r j
Oi j = δi j cos(θ) + (1 − cos(θ ))n i n j − i jk n k sin(θ )
• Translation r = r +c • Galilei-Transformation r = r + wt Einbettung im vierdimensionalen Raum
t = t
637
638
10 Vektoren und Tensoren im physikalischen Sinne
x = −1
t 1 0T t x = = r r w 1 T ∂t − w T ∇r ∂t 1 0 = = w 1 −w ∇r ∇r
Allgemeine Galilei-Transformation r = Rrr + w t + c
t = t + a
g = (R, w , c , a)
(R2 , w 2 , c 2 , a2 ) ◦ (R1 , w 1 , c 1 , a1 ) = (R2 R1 , R2w 1 + w 2 , R2c 1 + w2 a1 + c 2 , a1 + a2 ) e = (1, 0, 0, 0)
g −1 = (R T , −R T w , −R T c + R T w a, −a)
• Lorentz-Transformationen Definierende Eigenschaft der Lorentz-Gruppe O(1, 3) und ihre Zerlegung T η = η
↑ ↑ ↑ ↑ O(1, 3) = L+ ∪ Pˆ L+ ∪ Tˆ L+ ∪ Tˆ Pˆ L+
β, der Lorentz-Faktor und die Rapidität v β β = Artanh(β) = β c
γ =
Allgemeiner Lorentz-Boost γ −γ β T T = −γ β 1 + βββ2 (γ − 1)
1 1 − β2
1+β β ln ν= 2β 1−β
ct γ (ct − β T r ) = r ⊥ + γ γrr − β ct r
Transformationsverhalten der elektromagnetischen Felder E ⊥ + v × B ⊥) E = E + γ (E
B = B + γ
Relativistische Geschwindigkeitsaddition v3 = Generatoren der Boosts
v 1 + v2 1 + vc1 v2 2
B⊥ −
v × E⊥ c2
10.4
Formelsammlung – Vektoren und Tensoren im physikalischen Sinne
⎛
0 ⎜−i Kx = ⎜ ⎝0 0 ⎛ 0 ⎜0 Kz = ⎜ ⎝0 −i
−i 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0
⎞ 0 0⎟ ⎟ 0⎠ 0 ⎞ −i 0⎟ ⎟ 0⎠ 0
⎛
⎞ 0 −i 0 0 0 0⎟ ⎟ 0 0 0⎠ 0 0 0
⎞ 0 i⎟ ⎟ 0⎠ 0
⎛ 0 ⎜0 Lz = ⎜ ⎝0 0
0 ⎜0 Ky = ⎜ ⎝−i 0
639
Generatoren der Drehungen ⎛
0 ⎜0 Lx = ⎜ ⎝0 0
0 0 0 0
⎞ 0 0 0 0⎟ ⎟ 0 −i⎠ i 0
⎛
0 0 ⎜0 0 Ly = ⎜ ⎝0 0 0 −i
0 0 0 0
⎞ 0 0 0 0 −i 0⎟ ⎟ i 0 0⎠ 0 0 0
Kommutatorrelationen der Generatoren [K i , K j ] = −ii jk L k
[L i , L j ] = ii jk L k
[K i , L j ] = ii jk K k
[L i , K j ] = ii jk K k
Zerlegung in SU(2) ⊗ SU(2) 1 L ± iK K) (L L = W+ +W− K 2 ± [Wi± , W ± [Wi+ , W − j ] = ii jk Wk j ]=0 α )W W + exp (νν − iα α )W W− = exp −(νν + iα ⎛ ⎞ ⎛ 0 1 0 0 0 ⎜ ⎟ ⎜ 1 1 1 0 0 0 0 ⎟ W2+ = ⎜ W1+ = ⎜ ⎝ ⎠ ⎝ 0 0 0 −i 2 2 1 0 0 i 0 0 ⎛ ⎞ 0 0 0 1 ⎜ 1 0 0 −i 0⎟ ⎟ W3+ = ⎜ ⎝ 2 0 i 0 0⎠
W± ≡
⎛
W1−
1 0
0
0
⎞ 0 −1 0 0 1 ⎜−1 0 0 0 ⎟ ⎟ = ⎜ 0 0 −i⎠ 2⎝ 0 0 0 i 0
=
0 0 0 −i
⎛
W2−
1 + W + W −) (W i
1 0 0 0
⎞ 0 i⎟ ⎟ 0⎠ 0
⎞ 0 0 −1 0 1 ⎜ 0 0 0 i⎟ ⎟ = ⎜ 2 ⎝−1 0 0 0⎠ 0 −i 0 0
640
10 Vektoren und Tensoren im physikalischen Sinne
⎛
W3−
0 1⎜ 0 = ⎜ 2⎝ 0 −1
⎞ 0 0 −1 0 −i 0 ⎟ ⎟ i 0 0⎠ 0 0 0
• Raumspiegelung Pˆ P μν = diag(1, −1, −1, −1)
r → −rr
Skalar, Pseudoskalar, Vektor und Pseudovektor s→s
h → −h
v → −vv
a →a
• Zeitumkehr Tˆ t → −t
T μν = diag(−1, 1, 1, 1)
• Ladungsumkehr Cˆ q → −q
Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
11
Inhaltsverzeichnis 11.1 Monome, Polynome und gebrochen rationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.1 Monome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2 Polynome . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3 Gebrochen rationale Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Exponentialfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Logarithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Trigonometrische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Hyperbolische Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.6 Theta-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7 Dirac-Delta-Distribution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.8 Gamma-Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
641 642 643 644 646 648 649 653 656 658 661
In diesem Abschnitt sollen Eigenschaften zu den wichtigsten Funktionen gesammelt sein. Dies sind Eigenschaften, die im Laufe dieses Werkes diskutiert wurden oder aus der Schule bekannt sind. Aus diesem Grund sind sie hier in Form einer kleinen Formelsammlung wiedergegeben.
11.1
Monome, Polynome und gebrochen rationale Funktionen
Die erste und grundlegende Klasse von Funktionen, die betrachtet werden soll, sind diejenigen Funktionen, die aus Potenzen von x aufgebaut werden.
© Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9_11
641
642
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
11.1.1 Monome Monome sind Funktionen der Art x 0 , x 1 , x 2 , x 3 und so weiter. In der allgemeinen Form f n (x) = x n wird die natürliche Zahl n ∈ N als Grad des Monoms bezeichnet. Das Monom x 0 ist konstant eins. Monome nehmen jede reelle Zahl entgegen und bilden bei einem geraden Grad, abgesehen von null, auf die nicht negativen reellen Zahlen R+ 0 ab, während sie bei einem ungeraden Grad auf alle reellen Zahlen R abbilden. Für einen Grad n > 1 gilt für |x| < 1 der Zusammenhang |x n | < |x|, während für x > 1 der Zusammenhang |x n | > |x| gilt. Abgesehen vom Grad n = 0 weisen alle Monome eine Nullstelle bei x = 0 auf. Die drei wichtigsten Monome sind x, x 2 und x 3 . Ihre Funktionsgraphen sind in Abb. 11.1 zu sehen. Monome weisen die Ableitung
Abb. 11.1 Die drei wichtigsten, nicht trivialen Monome. Die durchgezogene Linie ist der Funktionsgraph des Monoms x. Die gestrichelte Linie ist der Funktionsgraph des Monoms x 2 . Die gepunktstrichelte Linie ist der Funktionsgraph des Monoms x 3
11.1
Monome, Polynome und gebrochen rationale Funktionen
643
d n x = nx n−1 dx und die Stammfunktion dx x n =
x n+1 +C n+1
auf.
11.1.2 Polynome Polynome sind eine Summe verschiedener Monome. Die allgemeine Form ist durch f (x) =
n
ck x k
k=0
gegeben. Die ck sind reelle Koeffizienten. Dabei muss cn = 0 gelten. In diesem Fall wird n als der Grad des Polynoms f (x) bezeichnet. Die Ableitungen und Stammfunktionen von Polynomen lassen sich durch die Linearität der Ableitung und Integrale aus denen der Monome zu n n n−1 d k ck x = = ck kx k−1 = ( j + 1)c j+1 x j dx k=0 k=0 j=0 n n n+1 x k+1 xj dx =C+ ck x k = C + ck c j−1 k+1 j k=0
k=0
j=1
bestimmen. Die Ableitung eines Polynoms vom Grad n ist ein Polynom vom Grad n − 1. Die Stammfunktion eines Polynoms vom Grad n ist ein Polynom vom Grad n + 1. Das wohl wichtigste Polynom ist die allgemeine quadratische Funktion f (x) = ax 2 + bx + c, die in ihrer Scheitelpunktform b 2 b2 f (x) = a x + +c− 2a 4a oder durch ihre Nullstellen x1/2 = mit
−b ±
√ b − 4ac 2a
644
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
f (x) = (x − x1 )(x − x2 ) ausgedrückt werden kann. Dabei sollte die letzte Form bevorzugt nur Anwendung finden, wenn die Nullstellen reell sind. Die Scheitelpunktform streckt das Monom x 2 um den Faktor b b2 a und verschiebt es zusätzlich um den Wert 2a nach rechts und um den Wert c− 4a nach oben. So lässt sich mit der Scheitelpunktform schnell eine Skizze der vorliegenden quadratischen Funktion anfertigen.
11.1.3 Gebrochen rationale Funktionen Bei gebrochen rationalen Funktionen handelt es sich um den Bruch bestehend aus zwei Polynomen Z (x) und N (x) in der Form f (x) =
Z (x) . N (x)
Z (x) wird dabei als Zählerpolynom bezeichnet und soll den Grad n Z haben, während N (x) als Nennerpolynom bezeichnet wird und den Grad n N haben soll. Gebrochen rationale Funktionen können Definitionslücken aufweisen. Dies sind alle Nullstellen des Nennerpolynoms N (x0 ) = 0. Ist die Definitionslücke nicht hebbar, handelt es sich um eine Polstelle, an der der Betrag der Funktion gegen unendlich strebt, lim | f (x)| = x→x0
∞. Hat das Zählerpolynom am gleichen Punkt eine Nullstelle Z (x0 ), so kann es sich um eine hebbare Definitionslücke handeln. Bei einer hebbaren Definitionslücke nimmt die Funktion f (x) an der Stelle x0 einen endlichen Wert an. Um dies zu bestimmen, müssen entweder die beiden Polynome in all ihre Nullstellen faktorisiert werden, oder es muss die Regel von de L’Hospital angewendet werden. Für die Faktorisierung wird das Beispiel (x − 1)(x + 1) (x − 1)(x + 1) 1 x2 − 1 = 2 = = 2 4 2 2 x −1 (x − 1)(x + 1) (x − 1)(x + 1)(x + 1) x +1 betrachtet. Hier sind die beiden Definitionslücken x = 1 und x = −1 also hebbar. Der Funktionsgraph ist in Abb. 11.2a zu sehen. Als Beispiel für die Regel von de L’Hospital soll f (x) =
Z (x) x2 − 1 = 4 N (x) x − 2x 3 + x 2
betrachtet werden. Das Nennerpolynom hat eine Nullstelle bei x = 1, ebenso wie das Zählerpolynom. Durch das Bilden der beiden Ableitungen lim
x→1
Z (x) Z (x) 2x = lim = lim 3 x→1 x→1 N (x) N (x) 4x − 6x 2 + 2x
11.1
Monome, Polynome und gebrochen rationale Funktionen
645
zeigt sich, dass das Nennerpolynom nach wie vor eine Nullstelle für x = 1 aufweist, während das Zählerpolynom dort keine Nullstelle hat. Hier ist die Definitionslücke also nicht hebbar; es handelt sich um eine Polstelle. Der letzte Ausdruck lässt sich dabei zu 1 2x 2 − 3x + 1 kürzen. Mit der Scheitelpunktsform lässt sich der Nenner zu 3 2 1 2x 2 − 3x + 1 = 2 x − − 4 8 umformulieren. Für Werte von x, die etwas größer sind als eins, wird der erste Term etwas größer sein als ein Achtel, und damit ist der Nenner positiv. Für Werte x > 1 strebt die ursprüngliche Funktion f (x) also gegen +∞. Für Werte von x, die etwas kleiner als eins sind, wird der erste Term etwas kleiner als ein Achtel ausfallen, und der gesamte Nenner wird somit negativ. Damit strebt die Funktion f (x) für Werte x < 1 gegen −∞. Der entsprechende Funktionsgraph von f (x) =
x4
x2 − 1 − 2x 3 + x 2
ist in Abb. 11.2b zu sehen. Ist n Z > n N , so lässt sich ein nicht gebrochen rationaler Teil aus Polynomdivision bestimmen. Dazu soll die Funktion f (x) =
x 2 + 3x − 1 2x − 2
betrachtet werden. Mit der Rechnung (x 2 + 3x − 1) : (2x − 2) = 21 x + 2 + −x 2 + x 4x − 1 −4x + 4 3
3 2x−2
als Polynomdivision ergibt sich eine Summe aus einem gewöhnlichen Polynom x2 + 2 und 3 einer gebrochen rationalen Funktion 2x−2 . Das gewöhnliche Polynom gibt das asymptotische Verhalten für |x| → ∞ wieder, während die gebrochen rationale Funktion Aussagen über Polstellen beinhaltet. Der Funktionsgraph der Funktion f (x) =
x 2 + 3x − 1 x 3 = +2+ 2x − 2 2 2(x − 1)
ist in Abb. 11.2c inklusive des asymptotischen Verhaltens aufgetragen.
646
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
Abb. 11.2 Verschiedene Beispiele zu gebrochen rationalen Funktionen. In a ist die gebrochen ratio2 nale Funktion f (x) = x 4 −1 dargestellt, die eine hebbare Definitionslücke bei x = 1 und x = −1 x −1 aufweist. In b ist die durchgezogene Linie der Funktionsgraph der gebrochen rationalen Funktion 2 f (x) = 4 x −1 , die eine Polstelle bei x = 0 und x = 1 aufweist. Zur Verdeutlichung der x −2x 3 +x 2 Polstelle bei x = 1 ist die gepunktstrichelte Gerade parallel zur Vertikalen eingezeichnet. In c ist 3 aufgetragen, die ein Polstelle bei x = 1 die gebrochen rationale Funktion f (x) = x2 + 2 + 2(x−1) aufweist, welche durch die gepunktstrichelte Gerade verdeutlicht wird. Die gestrichelte Linie ist der Funktionsgraph des asymptotischen Anteils x2 + 2
11.2
Exponentialfunktionen
Exponentialfunktionen sind Funktionen mit einem positiv reellen Parameter a ∈ R+ , die alle reellen Zahlen entgegennehmen und auf die positiven reellen Zahlen f a : R → R+ x → a x abbilden. a heißt dabei die Basis. Bei einer Basis a > 1 ist die Funktion streng monoton wachsend. Für eine Basis a < 1 ist die Funktion streng monoton fallend. Für a = 1 ist die Funktion konstant eins. Diese Funktionsgraphen sind in Abb. 11.3 zu sehen. Eine besondere Basis stellt die Euler’sche Zahl ∞ 1 e= n! n=0
dar. Mit dieser Basis wird die Ableitung der Funktion g(x) = ex zu g (x) = ex = g(x). Wegen dieser Eigenschaft werden üblicherweise alle Exponentialfunktionen in der Physik mit der Basis e ausgedrückt. Ihre Reihendarstellung um x = 0 ist durch
11.2
Exponentialfunktionen
647
Abb. 11.3 Skizze von Exponentialfunktionen a x . Die durchgezogene Linie zeigt eine Exponentialfunktion mit a > 1, während die gestrichelte Linie a < 1 betrachtet. Die gepunktstrichelte Linie ist die Exponentialfunktion für den Fall a = 1
ex =
∞ xn n! n=0
gegeben. Durch die Umkehrfunktion, den natürlichen Logarithmus ln(y) lässt sich die Exponentialfunktion f a (x) = a x durch x f a (x) = a x = eln(a) = e x·ln(a) = g(x · ln(a)) ausdrücken. Die Ableitungen der Exponentialfunktionen sind durch d λx e = λ eλx dx
d x a = a x ln(a) dx
gegeben, während die Stammfunktionen durch
dx eλx =
eλx +C λ
dx a x =
ax +C ln(a)
bestimmt sind. Die Exponentialfunktion g(x) = eλx ist die Lösung der Differentialgleichung g (x) = λg(x). Daneben erfüllen alle Exponentialfunktionen die algebraische Gleichung f a (x + y) = a x+y = a x a y = f a (x) f a (y). Die Exponentialfunktion besitzt über
648
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
e±x = cosh(x) ± sinh(x) e±ix = cos(x) ± i sin(x) einen Zusammenhang mit den trigonometrischen und den hyperbolischen Funktionen. Halbwertszeiten T1/2 und Lebenszeiten τ sind durch einen Basiswechsel der Form 2−t/T1/2 = e−t/τ miteinander verknüpft. Damit gilt −t/T1/2 −t ln(2) e−t/τ = 2−t/T1/2 = eln(2) = e T1/2 ⇒τ =
11.3
T1/2 T1/2 ≈ . ln(2) 0,6932
Logarithmen
Logarithmen sind Funktionen mit einem positiv reellen Parameter a ∈ R+ \ {1}, die alle positiven reellen Zahlen entgegennehmen und auf alle reellen Zahlen f a : R+ → R x → loga (x) abbilden. a heißt dabei die Basis. Logarithmen stellen die Umkehrfunktion zur Exponentialfunktion h a (x) = a x dar und fragen, mit welcher Zahl a potenziert werden muss, um h a (x) zu erhalten. Bei einer Basis a > 1 ist die Funktion streng monoton wachsend. Für eine Basis a < 1 ist die Funktion streng monoton fallend. Die Funktion hat einen Nulldurchgang bei x = 1. Die Funktionsgraphen sind in Abb. 11.4 zu sehen. Da bei Exponentialfunktionen die Euler’sche Zahl eine besondere Basis darstellt, ist dies auch bei den Logarithmen der Fall. Der Logarithmus zur Basis e heißt natürlicher Logarithmus. Typischerweise findet in der Physik nur der natürliche Logarithmus Anwendung. Der Logarithmus einer beliebigen Basis lässt sich über
x = a loga(x) = exp ln(a) loga (x) = exp(ln(x)) ln(x) ⇒ loga (x) = ln(a) durch den natürlichen Logarithmus ausdrücken. Die Ableitungen der Logarithmen sind durch d 1 ln(x) = dx x
d 1 loga (x) = dx x ln(a)
11.4 Trigonometrische Funktionen
649
Abb. 11.4 Skizzen von Logarithmen loga (x). Die durchgezogene Linie ist für den Fall a > 1, während die gestrichelte Linie a < 1 betrachtet
gegeben, während die Stammfunktionen durch dx ln(x) = x ln(x) − x + C dx loga (x) = x loga (x) −
x +C ln(a)
bestimmt sind. Die Logarithmen erfüllen die algebraische Gleichung f a (x · y) = loga (x · y) = loga (x) + loga (y) = f a (x) + f a (y).
11.4
Trigonometrische Funktionen
Die trigonometrischen Funktionen sind der Sinus sin(x), der Kosinus cos(x), der Tangens tan(x) und der Kotangens cot(x). Sie beschreiben Streckenverhältnisse am Kreis mit Radius 1 unter dem Winkel x, den ein Strahl mit der Horizontalen einschließt. Dazu kann Abb. 11.5 betrachtet werden. Die Vorsilbe „Ko“ steht dabei für komplimentär und hängt damit zusammen, dass diese das jeweils selbe Ergebnis wie für den komplimentären Winkel, also π/2−x
650
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
Abb. 11.5 Geometrische Interpretation der trigonometrischen Funktionen. In a und b werden diese über den Einheitskreis y = 1 − x 2 konstruiert. In a sind der Sinus und Kosinus anschaulich die Seiten des entstehenden rechtwinkligen Dreiecks. In b sind Tangens und Kotangens die Schnittpunkte des verlängerten Strahls mit den Geraden x = 1 und y = 1. Über den Strahlensatz können die sin(φ) cos(φ) cot(φ) = tan(φ) Verhältnisse cos(φ) 1 und sin(φ) = 1 nachvollzogen werden
liefern würde. Der Zusammenhang cos(x) = sin(π/2 − x)
cot(x) = tan(π/2 − x)
spiegelt dies wider. Die jeweiligen Funktionsgraphen sind in den Abb. 11.6a und b zu finden. Einige der wichtigsten Funktionswerte sind in Tab. 11.1 aufgelistet. Die Reihenentwicklung des Sinus und des Kosinus sind durch sin(x) =
∞ n=0
x 2n+1 (−1)n (2n + 1)!
cos(x) =
∞ x 2n (−1)n (2n)! n=0
gegeben. Tangens und Kotangens lassen sich durch Sinus und Kosinus durch tan(x) =
sin(x) cos(x)
cot(x) =
cos(x) sin(x)
ausdrücken. Über komplexe Zahlen lassen sich Sinus und Kosinus durch sin(x) =
eix − e−ix 2i
cos(x) =
eix + e−ix 2
ausdrücken. Die drei am häufigsten gebrauchten Additionstheoreme sind
11.4 Trigonometrische Funktionen
651
Abb.11.6 Funktionsgraphen der trigonometrischen Funktionen. In a sind die Funktionsgraphen zum Sinus und Kosinus auf dem Intervall von 0 bis 2π dargestellt. Der Sinus ist dabei die durchgezogene Linie, während der Kosinus die gestrichelte Linie ist. In b sind die Funktionsgraphen des Tangens und des Kotangens auf den Intervallen (−π/2, π/2) bzw. (0, π ) dargestellt. Die durchgezogene Linie ist dabei der Tangens, während die gestrichelte Linie der Kotangens ist. Die Funktionen in a und b werden außerhalb der betrachteten Intervalle periodisch fortgesetzt Tab. 11.1 Einige Funktionswerte der trigonometrischen Funktionen α x
0◦ 0
sin(x)
0 √2 4 2
cos(x) tan(x) cot(x)
√
0 ∞
30◦ π/6
√ 1 √2 3 2√
1/ 3 √ 3
45◦ π/4
60◦ π/3
2 √2 2 2
3 √2 1 √2
√
1 1
√
3 √ 1/ 3
90◦ π/2 √ 4 √2 0 2
∞ 0
sin(x ± y) = sin(x) cos(y) ± sin(y) cos(x) cos(x ± y) = cos(x) cos(y) ∓ sin(x) sin(y) sin2 (x) + cos2 (x) = 1. Die Ableitungen der trigonometrischen Funktionen lauten d d sin(x) = cos(x) cos(x) = − sin(x) dx dx d d 1 1 tan(x) = 1 + tan2 (x) = cot(x) = −(1 + cot2 (x)) = − 2 . dx cos2 (x) dx sin (x) Die Stammfunktionen der trigonometrischen Funktionen lauten
652
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
dx sin(x) = − cos(x) + C
dx tan(x) = − ln(| cos(x) |) + C
dx cos(x) = sin(x) + C dx cot(x) = ln(| sin(x) |) + C.
Die Umkehrfunktionen der trigonometrischen Funktionen werden mit der Vorsilbe „Arkus“ für Kreisbogensegment bezeichnet. In den mathematischen Ausdrücken wird dies zu „arc“ abgekürzt. Das liegt daran, dass der Winkel x im Bogenmaß am Einheitskreis gerade mit der Länge des betrachteten Kreisbogenstückes zusammenfällt. Die Länge des Halbkreises ist beispielsweise π , was einem Winkel von 180◦ im Bogenmaß entspricht. Die Definitions- und Bildbereiche D und B der reellen Umkehrfunktionen sind dabei jeweils: • • • •
Arkussinus: D = [−1, 1], B = [−π/2, π/2]. Arkuskosinus: D = [−1, 1], B = [−π/2, π/2]. Arkustangens: D = R, B = (−π/2, π/2). Arkuskotangens: D = R, B = (0, π ).
Die Funktionsgraphen sind in den Abb. 11.7 zu sehen.
Abb. 11.7 Funktionsgraphen der inversen trigonometrischen Funktionen. In a sind die Funktionsgraphen zum Arkussinus und Arkuskosinus dargestellt. Der Arkussinus ist dabei die durchgezogene Linie, während der Arkuskosinus die gestrichelte Linie ist. In b sind die Funktionsgraphen des Arkustangens und des Arkuskotangens dargestellt. Die durchgezogene Linie ist dabei der Arkustangens, während die gestrichelte Linie der Arkuskotangens ist. Die gepunkteten Linien stellen das asymptotische Verhalten der Funktionen dar
11.5
11.5
Hyperbolische Funktionen
653
Hyperbolische Funktionen
Die hyperbolischen Funktionen sind der Sinus hyperbolicus sinh(x), der Kosinus hyperbolicus cosh(x), der Tangens hyperbolicus tanh(x) und der Kotangens hyperbolicus coth(x). Sie beschreiben Projektionen der Einheitshyperbel mit der Fläche 2 A, den ein Strahl mit der Horizontalen einschließt. Dazu kann Abb. 11.8 betrachtet werden. Die jeweiligen Funktionsgraphen sind in den Abb. 11.9 zu finden. Die Reihenentwicklungen des Sinus hyperbolicus und des Kosinus hyperbolicus sind durch sinh(x) =
∞ n=0
x 2n+1 (2n + 1)!
∞ x 2n cosh(x) = (2n)! n=0
gegeben. Tangens hyperbolicus und Kotangens hyperbolicus lassen sich durch Sinus und Kosinus durch tanh(x) =
sinh(x) cosh(x)
coth(x) =
cosh(x) sinh(x)
ausdrücken. Über die Exponentialfunktion lassen sich Sinus hyperbolicus und Kosinus hyperbolicus durch sinh(x) =
ex − e−x 2
cosh(x) =
ex + e−x 2
Abb. 11.8 Geometrische Interpretation der hyperbolischen Funktionen. In a und b werden diese 2 an der Einheitsparabel y = x − 1 konstruiert. In a sind der hyperbolische Sinus und Kosinus anschaulich die Seiten des entstehenden rechtwinkligen Dreiecks. In b sind der hyperbolische Tangens und Kotangens die Schnittpunkte mit den Geraden x = 1 und y = 1. Über den Strahlensatz können sinh(φ) coth(φ) = tanh(φ) und cosh(φ) nachvollzogen werden die Verhältnisse cosh(φ) 1 1 sinh(φ) =
654
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
Abb. 11.9 Funktionsgraphen der hyperbolischen Funktionen. In a sind die Funktionsgraphen zum hyperbolischen Sinus und Kosinus dargestellt. Der Sinus hyperbolicus ist dabei die durchgezogene Linie, während der Kosinus hyperbolicus die gestrichelte Linie ist. Die gepunkteten Linien sind dabei Hilfslinien der Form ± e±x /2, die die asymptotischen Verhalten der hyperbolischen Funktionen darstellen. In b sind die Funktionsgraphen des hyperbolischen Tangens und des Kotangens dargestellt. Die durchgezogene Linie ist dabei der Tangens, während die gestrichelte Linie der Kotangens ist. Die gepunkteten Geraden bei y = ±1 stellen das asymptotische Verhalten dar
ausdrücken. Die drei am häufigsten gebrauchten Additionstheoreme sind sinh(x ± y) = sinh(x) cosh(y) ± sinh(y) cosh(x) cosh(x ± y) = cosh(x) cosh(y) ± sinh(x) sinh(y) cosh2 (x) − sinh2 (x) = 1. Die Ableitungen der hyperbolischen Funktionen lauten d d sinh(x) = cosh(x) cosh(x) = sinh(x) dx dx d 1 tanh(x) = 1 − tanh2 (x) = dx cosh2 (x) d 1 coth(x) = 1 − coth2 (x) = − . dx sinh2 (x) Die Stammfunktionen der trigonometrischen Funktionen lauten dx sinh(x) = cosh(x) + C dx cosh(x) = sinh(x) + C dx tanh(x) = − ln(| cosh(x) |) + C dx coth(x) = ln(| sinh(x) |) + C.
11.5
Hyperbolische Funktionen
655
Die Umkehrfunktionen der hyperbolischen Funktionen werden mit der Vorsilbe „Area“ für die Fläche bezeichnet. In den mathematischen Ausdrücken wird dies zu „Ar“ abgekürzt. Die Definitions- und Bildbereiche D und B der reellen Umkehrfunktionen sind dabei jeweils: • • • •
Areasinus hyperbolicus: D = R, B = R. Areakosinus hyperbolicus: D = [1, ∞), B = [0, ∞). Areatangens hyperbolicus: D = (−1, 1), B = R. Arkuskotangens: D = R \ [−1, 1], B = R \ {0}.
Die Funktionsgraphen sind in den Abb. 11.10 zu sehen. Durch den Zusammenhang der hyperbolischen Funktionen mit der Exponentialfunktion lassen sich die Umkehrfunktionen durch den natürlichen Logarithmus √ • Arsinh(x) = ln x + x 2 + 1 , √ • Arcosh(x) = ln x + x 2 − 1 , , • Artanh(x) = 21 ln 1+x 1−x • Arcoth(x) = 21 ln x+1 x−1 . ausdrücken.
Abb. 11.10 Funktionsgraphen der inversen hyperbolischen Funktionen. In a sind die Funktionsgraphen zum Areasinus hyperbolicus und Areakosinus hyperbolicus dargestellt. Der Areasinus hyperbolicus ist dabei die durchgezogene Linie, während der Areakosinus hyperbolicus die gestrichelte Linie ist. In b sind die Funktionsgraphen des Areatangens hyperbolicus und des Areakotangens hyperbolicus dargestellt. Die durchgezogene Linie ist dabei der Areatangens hyperbolicus, während die gestrichelte Linie der Areakotangens hyperbolicus ist. Die gepunkteten Linien verdeutlichen die Polstellen der beiden Funktionsgraphen bei x = ±1
656
11.6
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
Theta-Funktion
Die Theta-Funktion (x) ist eine Stufenfunktion, die in der Physik häufig Anwendung findet. Sie ist durch
1 x ≥0 (x) = 0 x 0 durch
dx δ (x) f (x) = f (0) −
gegeben. Dies lässt sich für = ∞ auch ausdrücken durch ∞ dx δ (x) f (x) = f (0), −∞
was häufig auch als definierende Eigenschaft1 angegeben wird. Mit der Funktion f (x) = 1 ergibt sich auch sofort der Zusammenhang ∞ dx δ (x) = 1, −∞
mit dem verknüpft die Dirac-Delta-Funktion auch gelegentlich durch
∞ x =0 δ (x) = 0 x = 0 ausgedrückt wird.
1 Mit dieser Eigenschaft ist die Delta-Funktion das neutrale Element für die mathematische Faltung
zweier Funktionen f ∗ δ = f
11.7
Dirac-Delta-Distribution
659
Mit der obigen definierenden Eigenschaft lassen sich auch die Zusammenhänge ∞ dx δ (x − a) f (x) = f (a) −∞ ∞
dx δ (ax) f (x) = −∞ ∞
f (0) |a|
dx δ (g(x)) f (x) =
xi , g(xi )=0
f (xi ) |g (xi )|
−∞
zeigen, von denen die letzten beiden auch durch die Identitäten δ (ax) =
δ (x) |a|
δ (g(x)) =
xi , g(xi )=0
δ (x − xi ) |g (xi )|
ausgedrückt werden können. Aus der Eigenschaft δ (ax) = δ(x) |a| wird ersichtlich, dass die Einheit der Dirac-Delta-Funktion die inverse Einheit des Arguments ist. So ist beispielsweise bei der Dirac-Delta-Funktion δ(s − R) die Einheit m1 , wobei s die Radiuskoordinate in Zylinderkoordinaten darstellt.. Die Dirac-Delta-Funktion kann durch Funktionsfolgen f (x) mit dem Parameter → 0 beschrieben werden. Dafür sind die Eigenschaften
∞ dx f (x) = 1 −∞
lim f (x) =
→0
∞ x =0 0
zu beweisen. Die drei häufigsten Funktionenfolgen sind dabei: 1. Stufenfunktion: f (x) =
( − |x|) . 2
2. Gauß-Funktion: x2
e− 2
. f (x) = √ 2π
3. Die Cauchy-Verteilung: f (x) =
1
. 2 π + x2
x = 0
660
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
Die Funktionsgraphen zu all diesen drei Darstellungen sind in Abb. 11.12 aufgetragen. Daneben ergibt sich durch die Fourier-Transformation die Darstellung 1 δ (r ) = 2π
∞ dk eikr −∞
der Dirac-Delta-Funktion. Im Dreidimensionalen wird die definierende Eigenschaft zu d3r δ(3) (rr ) f (rr ) = f (00), R3
und es ergibt sich die Darstellung δ(3) (rr ) = −
1 1 4π r
bzw. mittels der dreidimensionalen Fourier-Transformation δ
(3)
1 (rr ) = (2π )3
∞ d3k eikkr . −∞
Die anschauliche Bedeutung typisch auftretender Dirac-Delta-Funktionen in krummlinigen Koordinaten ist dabei: • δ (s − R) in Zylinderkoordinaten beschreibt die Mantelfläche eines Zylinders mit Radius R parallel zur z-Achse, • δ (z − h) in Zylinderkoordinaten beschreibt eine entlang der z-Achse um den Wert h verschobene x y-Ebene,
Abb. 11.12 Darstellungen der Dirac-Delta-Funktion über Funktionenfolgen. In a, b und c sind die im Text betrachteten Funktionenfolgen aus Kastenfunktion, Gauß-Kurve und Lorentz-Kurve für unterschiedliche Parameter aufgetragen. Die durchgezogene Kurve hat dabei immer den größten Wert für . Die gestrichelte Linie hat einen mittleren Wert für , während die gepunktstrichelte Linie den kleinsten Wert für besitzt
11.8
Gamma-Funktion
661
• δ (r − R) in Kugelkoordinaten beschreibt die Oberfläche einer Kugel mit Radius R, • δ (cos(θ)) in Kugelkoordinaten beschreibt die x y-Ebene. In krummlinigen Koordinaten muss die höherdimensionale Dirac-Delta-Funktion beim ∂rr Umschreiben auf die Komponenten a, b und c durch den Term ∂a korrigiert werden. i So ergibt sich für Zylinderkoordinaten ⎛
⎞ s0 cos(φ0 ) δ (φ − φ0 ) δ (z − z 0 ) r 0 = ⎝ s0 sin(φ0 ) ⎠ ⇒ δ(3) (rr − r 0 ) = δ (s − s0 ) s z0 und für Kugelkoordinaten ⎛ ⎞ r0 cos(φ0 ) sin(θ0 ) δ (θ − θ0 ) δ (φ − φ0 ) r 0 = ⎝ r0 sin(φ0 ) sin(θ0 ) ⎠ ⇒ δ(3) (rr − r 0 ) = δ (r − r0 ) . r r cos θ r0 cos(θ0 )
11.8
Gamma-Funktion
Die Gamma-Funktion stellt eine Verallgemeinerung der Fakultät n! auf die reellen und komplexen Zahlen dar. Für komplexe Zahlen z mit Realteil Re [z] > −1 ist sie durch ∞ (1 + z) =
dt t z e−t
0
gegeben. Diese Definition ist für die Physik zumeist ausreichend. Für ein natürliches n ∈ N gilt (1 + n) = n!, während für ein beliebiges z ∈ C der Zusammenhang (1 + z) = z(z) gültig ist. Ein Funktionsgraph für reelle Argumente x ∈ R ist in Abb. 11.13 zu sehen. Über den speziellen Wert √ 1 = π 2
662
11 Zusammenfassung wichtiger Funktionen und ihrer Eigenschaften
Abb. 11.13 Funktionsgraph der Gamma-Funktion (1 + x) für reelle Argumente. Der Wert (1 + √ 3) = 3! verdeutlicht den Zusammenhang zur Fakultät, während der Wert (1 + 1/2) = π /2 verdeutlicht, dass die Gamma-Funktion eine Fortsetzung des Fakultätsbegriffs auf reelle Zahlen darstellt
lässt sich eine Verallgemeinerung der Fakultät auf die natürlichen Zahlen plus je
1 2
nach
1 (2n)! √ +n = π 2 n!4n
vornehmen. Für große reelle Argumente N ergeben sich die Stirling-Formel und folglich aus der Gamma-Funktion für die Fakultät N √ N 2π N ln(N !) ≈ N ln(N ) − N . (1 + N ) = N ! ≈ e
Weiterführende Literatur
In der nachfolgenden Liste soll eine kleine Auswahl an Büchern oder Buchreihen aufgeführt sein, in denen die in diesem Buch vorgestellten Konzepte ebenfalls behandelt werden und die als weitere Nachschlagewerke dienen können. Mathematische Überblickswerke Einen Überblick über die Mathematik, vor allem in Bezug auf die Natur- und Ingenieurwissenschaften bieten folgende Werke: • Ilja N. Bronstein, Heiner Mühlig, Gerhad Musiol, Konstantin A. Semendjajew, Taschenbuch der Mathematik, Europa Lehrmittel, (2020) • Peter Furlan, Das gelbe Rechenbuch, Bd. 1–3, Verlag Martina Furlan, (1995) • Lothar Papula, Mathematik für Ingenieure und Naturwissenschaftler, Bd. 1–3, Springer Verlag, (2018, 2015, 2016) Mathematische Formelsammlungen Formelsammlungen zur natur- und ingenieurwissenschaftlichen Mathematik sind die folgenden: • Gerhard Merzinger, Günter Mühlbach, Formeln und Hilfe zur Höheren Mathematik, Binomi Verlag, (2013) • Lothar Papula, Mathematische Formelsammlung, Springer Verlag (2017) Physikalische Fachliteratur Bekannte Bücher der theoretischen Physik führen die mathematischen Konzepte themengebunden ein, wenn sie für physikalische Rechnungen notwendig sind. Eine kleine Auswahl ist durch die folgenden Werke gegeben:
© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9
663
664
Weiterführende Literatur
• Wolfgang Nolting, Grundkurs Theoretische Physik, Springer-Verlag Berlin Heidelberg , (2013) • Thorsten Fließbach, Lehrbuch zur Theoretischen Physik, Springer-Verlag Berlin Heidelberg, (2020) • David J. Griffiths, Elektrodynamik – Eine Einführung, Pearson, (2018) • David J. Griffiths, Quantenmechanik – Eine Einführung, Pearson, (2012)
Stichwortverzeichnis
A Abbildung, 6 linksvollständige, 6 rechtseindeutige, 7 abc-Formel, 4 Abgeschlossenheit, 425 Ableitung, 13 Kettenregel, 21 kovariante, 603–608 Leibniz-Regel, 29 Linearität, 20 n-te, 28 partielle, 465 Produktregel, 20 Quotientenregel, 22 totale, 465 Umkehrfunktion, 24 zweite, 27 Additionstheoreme hyperbolische, 135, 654 trigonometrische, 5, 95, 650 Algebra, 434 Lie-, 434 Antikommutator, 233, 388 Linearität, 388 Symmetrie, 388 Antwortfunktion, 292, 369 Aperiodischer Grenzfall. siehe Harmonischer Oszillator Areakosinus hyperbolicus, 138 Areakotangens hyperbolicus, 140 Areasinus hyperbolicus, 137
Areatangens hyperbolicus, 139 Assoziativität, 221, 425 Äußere Verknüpfung, 220 Axialvektor. siehe Pseudovektor B bac-cab-Regel, 172 Bahndrehimpuls Quantenmechanik, 205 Baker-Campbell-Hausdorff-Identität, 417 Banach-Raum, 224 Basis, 111 kartesische, 112 Orthogonal-, 111 Orthonormal-, 111, 213 Beweis induktiver, 32, 145–159 Induktionsanfang, 147 Induktionsschritt, 147 Induktionsvoraussetzung, 147 Bildbereich, 6 Binomialkoeffizient, 3, 255 Binomische Formel, 2 Binomischer Lehrsatz, 3, 254 Bohr’scher Radius, 206 Bra, 229 Brachistochrone, 572 Breit-Wigner-Verteilung, 361 C Casimir-Operator, 435
© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 M. Eichhorn, Einführung in die Mathematik der Theoretischen Physik, https://doi.org/10.1007/978-3-662-66079-9
665
666 Cauchy’sche Integralformel, 340 Cauchy-Schwarz’sche Ungleichung, 225 Cauchy-Verteilung, 361 Cayley-Klein-Parametrisierung. siehe Unitäre Gruppe Christoffel-Symbole, 583, 608
D Dagger, 235, 391 Definitionsbereich, 6 Delta-Funktion, 177, 658 Darstellung durch Laplace-Operator, 545 einer Funktion, 183 Einheiten(kontrolle), 182 Integraldarstellung, 353 Kugelkoordinaten, 500 Streckung, 181 Translation, 181 Volumenintegral, 499–502 Zylinderkoordinaten, 500 Determinante. siehe Matrix Dichteoperator, 424 Differential, 467 integrierender Faktor, 505 unvollständiges, 505 vollständiges, 504 Differentialgleichung, 80 asymptotisches Verhalten, 202–208 charakteristisches Polynom, 191 erster Ordnung, 82 Exponentialansatz, 191 homogene, 80 homogene Lösung, 80 inhomogene, 80 lineare, 80, 291, 367 erster Ordnung, 186 konstante Koeffizienten, 190–195 n-ter Ordnung, 190, 266 partikuläre Lösung, 80 Trennung der Variablen, 83, 186 Variation der Konstanten, 186–190 Differentialoperator, 196, 367 Differentialquotient, 13 Differenzenquotient, 13 Dirac-Delta-Funktion. siehe Delta-Funktion Dirac-Schreibweise, 220 Distribution, 177 Distributivgesetz, 221
Stichwortverzeichnis Divergenz, 512 krummlinige Koordinaten, 523 Kugelkoordinaten, 533 Zylinderkoordinaten, 527 Doppelfakultät, 149, 160 Doppelpendel, 564 Drehimpulsalgebra, 435 Drehmatrix, 442, 608 Dreiecksungleichung, 105, 110, 212, 217, 223 Dualraum. siehe Vektorraum Dyadisches Produkt. siehe Tensorprodukt
E Eigenmoden, 404 Eigenvektor, 233, 404 Eigenwert, 233, 404 algebraische Vielfachheit, 405 geometrische Vielfachheit, 407 Spektrum, 404 Eigenwertgleichung, 404 Einheitshyperbel. siehe Hyperbel Einheitskreis, 141 Einheitsmatrix. siehe Matrix Einheitsoperator, 216, 232 Einstein’sche Feldgleichungen, 603 Einstein’sche Summenkonvention, 164, 600 Euler’sche Zahl, 19, 646 Euler-Darstellung. siehe Komplexe Zahl Euler-Formel. siehe Komplexe Zahl Euler-Lagrange-Gleichung, 560 Exponentialfunktion, 244, 646 Basis, 646
F Feldstärketensor, 580, 623 Feldtheorie, 464 Fermat’sches Prinzip, 567 Feynman-Trick. siehe Integral Flächenelement, 474 Kugelkoordinaten, 478 Zylinderkoordinaten, 477 Flächennormalvektor, 514 Folge, 4 Fourier-Reihe, 278–291 Ableitung, 286 Linearität, 285 Rechteckfunktion, 289
Stichwortverzeichnis Sägezahnfunktion, 290 Zickzackfunktion, 290 Fourier-Transformation, 351–371 Ableitung, 354 Linearität, 354 Freie Indices, 165 full width at half maximum (FWHM), 361 Fundamentalsatz der Algebra, 90 Funktion, 5–12 bijektive, 10 gebrochen rationale, 644 gerade, 11, 74 -graph, 7 holomorphe, 335 hyperbolische, 132–145, 653 injektive, 9 Krümmung, 28 linkseindeutige, 10 n-mal stetig differenzierbare, 28 quadratintegrable, 244 rechtsvollständige, 9 stetig differenzierbare, 15 stetige, 11 surjektive, 8 trigonometrische, 649 Umkehr-, 10 ungerade, 11, 74 Verkettung, 383 Funktional, 558 Funktionaldeterminante. siehe JacobiDeterminante Funktionalkalkül, 421 Funktionenfolge, 176
G Galilei-Transformation, 616–619 Gamma-Funktion, 53, 66, 100, 145, 156, 159–163, 661 Definition, 160 halbzahlige Argumente, 160 Gauß’sche Zahlenebene, 91 Gauß-Funktion Fourier-Transformation, 366 Gebiet, 333 einfach zusammenhängendes, 334 zusammenhängendes, 333 Gell-Mann-Matrizen. siehe Unitäre-Gruppe, SU(3)-Generatoren
667 Generator, 596 adjungierte Darstellung, 436 Lie-Gruppe, 431 Geodäte, 576 Gradient, 510 krummlinige Koordinaten, 521 Kugelkoordinaten, 529 Zylinderkoordinaten, 524 Gradientensatz, 539–540 Gram-Schmidt-Verfahren. siehe auch Vektor Graßmann-Produkt. siehe Keilprodukt Green’sche Funktion, 195–202 Anschlussbedingung, 199 Grenzwert, 4 Grundfrequenz, 278 Gruppe, 425 -darstellung, 428 Lie-, 429–436 Strukturkonstante, 433
H Halbwertszeit, 360, 648 Hamilton’sches Prinzip, 563 Harmonischer Oszillator allgemeine Lösung, 199 aperiodischer Grenzfall, 194 gedämpfter, 193, 293 getrieben, 197 Green’sche Funktion, 199 klassischer, 192, 268 Kraftstoß, 200 Kriechfall, 194 quantenmechanischer, 202, 269 Schwingfall, 193 Hauptdiagonale. siehe Matrix Hauptsatz für Differential- und Integralrechnung, 43 Heaviside-Theta-Funktion. siehe ThetaFunktion Helizität, 632 Helmholtz’scher Zerlegungssatz, 545–550 Hermite-Polynome, 204, 272 Hilbert-Raum, 226 Holomorph. siehe Funktion Homogene Lösung. siehe Differentialgleichung Hund’sche Regeln, 208 Hyperbel, 141
668 I Idempotenz, 216, 412 Identität. siehe Einheitsoperator Imaginäre Einheit, 90 Imaginärteil. siehe Komplexe Zahl Indexschreibweise, 164–174 Antisymmetrie, 170 Induktionsanfang. siehe Beweis Induktionsschritt. siehe Beweis Induktionsvoraussetzung. siehe Beweis Innere Verknüpfung, 220 Integral, 34 abschätzen, 41 Addition von Grenzen, 39 auf symmetrischen Intervallen, 74 bestimmtes, 42 Feynman-Trick, 78 Flächen-, 474 Skalarfeld, 476 Vektorfeld, 475 Gauß’sches, 5, 480 -grenzen, 36 Theta-Funktion, 178 Integrand, 36 Integrationskonstante, 42 Integrationsvariablen, 40 Kreis-, 469 Linearität, 38 Linienkomplexes, 335 Kreisintegral, 469 Skalarfeld, 471 Vektorfeld, 469 Obersumme, 36 Parameter-, 78 partielles, 51 Stammfunktion, 41 Streckung, 72 Substitution, 58 Tauschen von Grenzen, 40 Translation, 71 Umkehrfunktion, 70 unbestimmtes, 42 uneigentliches, 50 Untersumme, 36 Volumen-, 483 Skalarfeld, 484 Vektorfeld, 485 Integrand. siehe Integral
Stichwortverzeichnis Integrationsvariablen. siehe Integral Integrierender Faktor. siehe Differential Inverses Element, 221, 425 Isochrone, 572 Isometrische Gruppe, 610, 614–616
J Jacobi-Determinante, 491 Jacobi-Identität. siehe Kommutator Jacobi-Matrix, 491
K Keilprodukt, 486–490 Ket, 229 Kommutativität, 221 Kommutator, 233, 386 Antisymmetrie, 387 Jacobi-Identität, 387 Leibniz-Regel, 387 Linearität, 387 Komplexe Konjugation. siehe Komplexe Zahl, konjugiert Komplexe Zahl Argument, 93 Betrag, 92 Euler-Darstellung, 94 Imaginärteil, 91, 95 konjugiert, 92 Logarithmus, 99 Hauptzweig, 100 Potenz, 97 Realteil, 91, 95 trigonometrische Funktionen, 100 Wurzel, 98 Hauptzweig, 99 Komplexe Zahlen, 89 Konjugierte Variable. siehe LegendreTransformation Konvergenzradius. siehe Taylor-Entwicklung Koordinatensystem, 119 krummliniges, 119 Körper, 221 Kreisfrequenz, 278 Kreuzprodukt. siehe Vektor Kriechfall. siehe Harmonischer Oszillator Kronecker-Delta, 111, 166–168 Krümmung. siehe Funktion
Stichwortverzeichnis Kugel n-dimensionaler, 152–158 Kugelflächenfunktionen, 308–324 Orthogonalität, 310 reelle, 313–315 Vollständigkeit, 322 Kugelkoordinaten, 119, 121–125
L Ladungsumkehr, 636 Lagrange-Dichte, 579 Lagrange-Funktion, 558, 563 Lagrange-Multiplikator, 562 Laguerre-Polynome, zugeordnete, 207 Laplace-Operator, 515 Kugelkoordinaten, 533 radialer Anteil, 534 Winkelanteil, 533 Zylinderkoordinaten, 527 Laurent-Reihe, 274–277, 338 Hauptteil, 275 Nebenteil, 275 Lebensdauer, 648 Legendre-Polynome, 242, 261, 295–307 1. Art, 295 erzeugende Funktion, 299 Rodrigues-Formel, 302, 309 Vollständigkeit, 307 zugeordnete, 309 Legendre-Transformation, 506–509 konjugierte Variable, 507 Leibniz-Regel, 145 Lemma von Jordan, 345–349, 362 Levi-Civita-Symbol, 168–173 Produkt mit einem gleichen Index, 171 mit symmetrischem Objekt, 171 mit zwei gleichen Indices, 171 Lie-Gruppe. siehe Gruppe Linearkombination, 110 Linienelement, 472 Euklid’sches, 493 Kugelkoordinaten, 474 skalares, 493 Zylinderkoordinaten, 473 Linienintegral. siehe Integral Logarithmus, 648 Basis, 648
669 -gesetze, 4 Lorentz-Boost, 620 Generator, 620 Lorentz-Faktor, 620 Lorentz-Transformation, 619–630
M Madelung-Schema, 208 Massendichte, 174 Massenverteilung, 174 Matrix -addition, 378 adjungierte, 395 charakteristisches Polynom, 405 Determinante, 399 Diagonal-, 382 diagonalisierbar, 383 Einheits-, 381 Exponentialfunktion, 415 -funktionen, 420 Hauptdiagonale, 382 hermitesche, 396 inverse, 397 Komponenten, 377 Logarithmus, 422 -multiplikation, 384 orthogonale, 395 Projektions-, 412 quadratische, 377 spektrale Darstellung, 412 Spektrum, 404 Spur, 402 spurlose, 403 symmetrische, 395 transponierte, 394 unitäre, 397 -zerlegung, 411 Maxwell-Relationen, 503 Mengen ganze Zahlen, 89 natürliche Zahlen, 89 rationale Zahlen, 89 reelle Zahlen, 89 typische, 3, 89 Metrischer Tensor, 493, 582, 598 Kugelkoordinaten, 495 Minkowski-Metrik, 496 Zylinderkoordinaten, 495
670 Modulierende Polynome, 202 Mollweide-Projektion, 316 Monoid, 232 Monom, 642 Multipolentwicklung, 260
N Nabla, 510 Natürliche Einheiten, 165 Neutrales Element, 221, 425 Noether-Theorem, 431, 590, 596 Norm, 222 Nullvektor. siehe Vektor
O O-Notation, 252 Ordnung, 3 Obersumme. siehe Integral Operator, 231–236 hermitesch konjugierter, 235 hermitescher, 235 -identität, 232 Matrixelement, 234 selbstadjungierter, 235 Orbitale, 208, 314 Orthogonale Gruppe, 426, 437–442 Freiheitsgrade, 437 Generatoren, 439
P Parameterintegral. siehe Integral Parität, 11, 631 Partialbruchzerlegung, 57 Partikuläre Lösung. siehe Differentialgleichung Pascal’sches Dreieck, 3 Pauli-Matrizen, 90, 385, 430 Antikommutator, 388 Kommutator, 386 Periodizität, 278 Phönix aus der Asche, 55 Poincaré-Gruppe, 630 Poisson-Klammern, 435 Polarkoordinaten, 125–126 Polynom, 643 -division, 645 Grad, 643
Stichwortverzeichnis Potenzgesetze, 4 Potenzreihe. siehe Taylor-Entwicklung pq-Formel, 4 Produktzeichen, 2 Projektionsoperator, 215, 229 Projektor. siehe Projektionsoperator Pseudoskalar, 631 Pseudovektor, 631
R Rand, 534 Rapidität, 620 Realteil. siehe Komplexe Zahl Rechte-Hand-Regel, 102 Regel von de L’Hospital, 644 Regel von Sarrus, 400 Reibung Newton, 84 Stokes, 84 Rekursion Kugelvolumen, 156 Relativistische Geschwindigkeitsaddition, 626 Residuensatz, 343 Residuum, 342 Resonanz, 361 Rotation, 511, 592 krummlinige Koordinaten, 522 Kugelkoordinaten, 531 Zylinderkoordinaten, 526 Rotationsenergie, 392
S Satz vom wandernden d, 541 Satz von Gauß, 535–537 Satz von Schwarz, 466 Satz von Stokes, 537–539 Sätze von Green, 544–545 Schwingfall. siehe Harmonischer Oszillator Sekante, 13 Sesquilinearität, 219 Sinc-Funktion, 360 Singularität, 340 Skalar, 595 Skalarfeld, 462 Skalarprodukt. siehe Vektor, 167 Snellius’sches Gesetz, 568 Spatprodukt, 172
Stichwortverzeichnis Stammfunktion. siehe Integral Stetigkeit, 11 Stirling-Formel, 162–163 Substitution. siehe Integral Summe Gauß’sche Formel, 4 Summenzeichen, 2 Symmetrie, 590
T Taylor-Entwicklung, 250–266 Konvergenzradius, 254 mehrere Variablen, 467 Ordnung, 252 Taylor-Reihe. siehe Taylor-Entwicklung Tensor, 601–603 Kontraktion, 603 metrischer, 393 Rang. siehe Tensor, Stufe Stufe, 602 zweiter Stufe, 601 Tensorprodukt, 393 Theta-Funktion, 175, 656 Ableitung, 180 Integraldarstellung, 348 Thomas-Präzession, 628 Trägheitstensor, 392, 611 Transformation, 589 aktive, 591 diskrete, 591, 631 kontinuierliche, 591 passive, 591 Translation, 591, 612 -invarianz, 103 -operator, 614 Transzendente Zahlen, 89 Trennung der Variablen. siehe Differentialgleichung Tupel, 102
U Umkehrfunktion. siehe Funktion Unitäre Gruppe, 427, 443–453 SU(2)-Generatoren, 445 SU(3)-Generatoren, 450 SU(3)-Strukturkonstanten, 451 Cayley-Klein-Parametrisierung, 444
671 Freiheitsgrade, 443 Unterraum, 215 Untersumme. siehe Integral
V Vektor, 102 Addition, 103, 212 adjungierter, 391 Basis, 111 Betrag, 103, 212, 217, 222 dualer, 229 Gram-Schmidt-Verfahren, 112, 213, 219 komplex konjugierter, 217 Kreuzprodukt, 115 Antisymmetrie, 116 Bilinearität, 117 Indexschreibweise, 168 linear abhängig, 110 linear unabhängig, 110, 213 Multiplikation, 212 Norm, 103 Null-, 104 orthogonal, 109, 213, 219 physikalischer, 597 kontravarianter, 598 kovarianter, 598 Skalarprodukt, 107, 213, 217, 390 modifiziertes, 391, 598 Spalten-, 212 Streckung, 212, 217 Vektorfeld, 463 Vektorraum, 222 Basis, 226 diskrete, 226 kontinuierliche, 226 Dimensionalität, 226 Dualraum, 229 Gram-Schmidt-Verfahren, 228 lineare Unabhängigkeit, 227 Norm, 222–224 skalarproduktinduzierte, 225 Orthogonalität, 227–228 Skalarprodukt, 224–226 Virtuelle Verschiebung, 559 Volumenelement, 483, 490 Kugelkoordinaten, 485 Zylinderkoordinaten, 485
672 W Wasserstoffatom, 205 Weg, 335 geschlossener, 335 offener, 335 Rand, 337 Wegintegral. siehe auch Integral, KreisWellenlänge, 357 Wellenvektor, 357 Wirkung, 558, 563 Würfel
Stichwortverzeichnis n-dimensionaler, 158
Z Zeitumkehr, 633 Zerfallsbreite, 361 Zerfallskonstante, 360 Zwangskraft, 562 Zyklische Koordinate, 561 Zykloide, 572 Zylinderkoordinaten, 119–121