283 51 888KB
German Pages [156] Year 2008
Quantum Computation aus algorithmischer Sicht von Prof. Dr.rer.nat. Dr.-Ing.Thomas F. Sturm und Prof. Dr.-Ing. Jörg Schulze
Oldenbourg Verlag München
Thomas Sturm studierte Mathematik an der TU München, wo er 1992 auch zum Dr. rer. nat. promovierte. Eine zweite Promotion zum Dr.-Ing. erhielt er 2003 an der Universität der Bundeswehr München. Von 1995 bis 2003 war er Projektwissenschaftler bei Siemens bzw. Infineon Technologies. Seit 2004 lehrt Thomas Sturm als Fachhochschulprofessor für Mathematik, insbesondere Technomathematik, an der Universität der Bundeswehr München. Jörg Schulze arbeitete – nach dem Studium der Physik und der Promotion zum Dr.-Ing. – als Wissenschaftlicher Mitarbeiter an der Universität der Bundeswehr München, wo er sich 2004 habilitierte. Ab 2005 war er bei der Siemens AG in München tätig. Parallel lehrte er als Privatdozent an der Fakultät für Physik der UdB München. Zum 1. Oktober 2008 wechselte Jörg Schulze an die Universität Stuttgart, wo er seitdem das Institut für Halbleitertechnik leitet.
Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über abrufbar.
© 2009 Oldenbourg Wissenschaftsverlag GmbH Rosenheimer Straße 145, D -81671 München Telefon: (089) 4 50 51- 0 oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Lektorat: Kathrin Mönch Herstellung: Dr. Rolf Jäger Coverentwurf: Kochan & Partner, München Gedruckt auf säure- und chlorfreiem Papier Gesamtherstellung: Books on Demand GmbH, Norderstedt ISBN 978-3-486-58914-6
Vorwort Quantenalgorithmen werden auch in populärwissenschaftlichen Beiträgen häufig diskutiert und die mögliche neue Revolution auf dem Sektor der Informationsverarbeitung durch Quantencomputer oft zitiert. Es kommt dabei schnell der Eindruck einer sich neu entwickelnden Geheimwissenschaft auf, die nur wenigen Eingeweihten zugänglich ist. Obwohl eine große Zahl von Wissenschaftlern, Ingenieuren und Informatikern mit Algorithmik mehr oder weniger intensiv befasst ist, erscheint vielen Nichtphysikern der Zugang zu Quantenalgorithmen „mysteriös“. Eine Zielsetzung des Buches ist es, die algorithmische Sicht auf das Quantum Computation durch Bereitstellung der Werkzeuge und möglichst vollständige Modellierung herauszuarbeiten. Nach einer physikalischen Betrachtung der Quantenmechanik werden daher zunächst die benötigten mathematischen Grundlagen eingeführt, namentlich Vektorräume, darauf aufbauend Hilberträume und die Tensorrechnung, gefolgt von den Grundlagen der Wahrscheinlichkeitsrechnung. Je nach Kenntnisstand des geneigten Lesers ist dieses Kapitel als Einführung, Vertiefung, Wiederholung oder Notationsvereinbarung zu verstehen. Die Erfahrung hat gezeigt, dass sich das „Mysteriöse“ der Quantenalgorithmen oft nicht zuletzt aus unklaren Notationen ergab. Auf diesen Grundlagen wird ein Quantencomputer insoweit modelliert, wie es für die Formulierung von Algorithmen notwendig ist, d.h. als mathematisches Modell der Quantenbits, der Zeitentwicklung durch Gates und der abschließenden Messungen. Auf diesem Modell werden dann die klassischen Quantenalgorithmen jeweils vollständig eingeführt und erklärt. Schließlich wird die denkbare Umsetzung von Quantenalgorithmen auf heute existierende klassische Computer diskutiert. Nach Hoffnung der Autoren erscheint das Quantum Computation durch Lesen des Buches nicht mehr mysteriös, sondern einer breiteren Gruppe von Menschen mit den üblichen Mitteln der Mathematik fassbar. Die „andere“ Denkweise bei Quantenalgorithmen bleibt faszinierend und könnte auch andere Gebiete befruchten. Wir danken dem Verlag für das Interesse und die stets hervorragende Zusammenarbeit. Außerdem möchten wir insbesondere Herrn Prof. Dr. rer. nat. Dr.-Ing. h. c. Albert Gilg herzlich danken, der im Rahmen von Projekten der Siemens AG in München das Buchvorhaben initiierte und förderte. Thomas F. Sturm, Jörg Schulze
Inhaltsverzeichnis 1
Grundlagen aus der Quantenmechanik
1
1.1
Eine kleine historische Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Physikalischer Zustandsraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Observablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.4
Zeitliche Dynamik des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.5
Quantenmechanik und Quantum Computation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2
Mathematische Grundlagen und Notationen
9
2.1 2.1.1 2.1.2 2.1.3 2.1.4 2.1.5
Vektoren und Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gruppe, Ring, Körper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vektorraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Untervektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Lineare Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Basis und Dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9 9 13 16 18 20
2.2 2.2.1 2.2.2 2.2.3
Hilberträume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Skalarprodukt und Norm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Hilbertraum und Orthonormalbasis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Operatoren und Adjungierte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24 24 28 29
2.3 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5
Tensorprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Kartesisches Produkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Konstruktion des Tensorproduktes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Charakterisierungssatz des Tensorproduktes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tensorprodukt von Hilberträumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tensorprodukt von Tupelräumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30 30 31 36 38 39
2.4 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6
Wahrscheinlichkeitstheoretische Begriffe und Grundlagen . . . . . . . . . . . . . . . . . . . . . Maße auf σ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Der Integralbegriff von Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Wahrscheinlichkeitsräume und Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Charakterisierung von Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Stochastische Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41 41 45 49 52 59 61
VIII
Inhaltsverzeichnis
3
Modellierung eines Quantencomputers
65
3.1 3.1.1 3.1.2
Das Quantenbit (Qbit) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Definition eines Qbits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Messung eines Qbits bezüglich einer Basis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5
Multi-Qbits und ihre Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Definition von Multi-Qbits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Charakterisierung von Multi-Qbit-Zuständen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Messung eines Multi-Qbits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Vollständige Messung eines Multi-Qbits bezüglich einer Basis . . . . . . . . . . . . . . . . Partielle Messung eines Multi-Qbits bezüglich einer Basis . . . . . . . . . . . . . . . . . . . .
68 68 70 72 74 76
3.3 3.3.1 3.3.2 3.3.3 3.3.4 3.3.5 3.3.6
Unitäre Operationen auf Quantenbits (Zeitentwicklung) . . . . . . . . . . . . . . . . . . . . . . . Definition von Gates (Unitäre Operatoren). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tensorprodukt von Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elementare Gates für ein Qbit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Elementare Gates für zwei Qbits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Gates für Boolesche Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Quanten-Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83 83 84 86 89 90 92
4
Quantenalgorithmen für Quantencomputer
95
4.1
Das Grundprinzip der Quantenalgorithmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.2 4.2.1 4.2.2
Der Deutsch-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Formulierung des Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.3 4.3.1 4.3.2
Der Deutsch-Jozsa-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 Formulierung des Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.4 4.4.1 4.4.2
Der Grover-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Formulierung des Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.5 4.5.1 4.5.2 4.5.3 4.5.4 4.5.5
Der Shor-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Anwendungshintergrund: Das RSA-Verschlüsselungsverfahren . . . . . . . . . . . . . . . . 106 Primfaktorzerlegung durch Ordnungsbestimmung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Quantenalgorithmus zur Ordnungsbestimmung durch Phasenschätzung . . . . . . . . 111 Ordnungsbestimmung durch Kettenbruchzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 Gesamtalgorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5
Quantenalgorithmen für klassische Computer
5.1
Vorüberlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.2
Speicherplatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.3 5.3.1
Algorithmen für ausgewählte Gates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Hadamard-Gate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
123
Inhaltsverzeichnis
IX
5.3.2 5.3.3
Fouriertransformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Exponentialgate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.4
Implementierung von Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.5
Kaskadierte Messungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
5.6
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
Literaturverzeichnis
137
Index
139
1
Grundlagen aus der Quantenmechanik
1.1
Eine kleine historische Einführung
Mit der Erkenntnis der Maxwellschen Theorie elektromagnetischer Phänomene, dass sich elektromagnetische Felder im Vakuum mit Lichtgeschwindigkeit ausbreiten, schien der Jahrhunderte alte Streit über die Natur des Lichts – Korpuskel oder Welle? – zugunsten der Wellennatur endgültig entschieden, bis Max Plancks Arbeiten über die Theorie der Schwarzkörper- bzw. Hohlraumstrahlung diese scheinbare Endgültigkeit wieder in Frage stellte. Um die spektrale Energiedichteverteilung der Hohlraumstrahlung erklären zu können, sah sich Planck gezwungen, die Strahlungsenergie zu einer gegebenen Frequenz f beziehungsweise1 ω als ein ganzzahliges Vielfaches eines Grundquantums2 h·f = ·ω anzunehmen. Flankiert durch zahlreiche experimentelle Ergebnisse verschiedener Forscher, die mit Hilfe einer Kathodenstrahlröhre im Zeitraum 1897–1905 gewonnen wurden, kam damit Einstein zu der Erkenntnis, dass man Licht der Frequenz f unter bestimmten experimentellen Umständen als Korpuskel (Einstein prägte den Begriff des „Photons“) mit der Energie W = h · f = · ω und den damit verbundenen Lichtstrahl als einen Korpuskelstrahl betrachten muss. Der Streit über die Natur, die Dualität des Lichtes war wieder eröffnet. Die Fülle der experimentellen Resultate, die mit Hilfe unterschiedlich modifizierter Kathodenstrahlröhren in den ersten 20 Jahren des 20. Jahrhunderts gesammelt wurden, motivierte die Forscher auch zur Frage nach der Struktur der Atome. Jeder Versuch einer rein klassischen Interpretation scheiterte. Erst durch das semiklassische Bohrsche Atommodell, welches das Atom aus einer Hülle von korpuskularen Elektronen, die einen festen, positiv geladenen Kern auf Kreisbahnen umkreisen, bestehend beschreibt, gelang 1913 ein erster befriedigender Ansatz. Allerdings musste man dafür die klassisch nicht begründbare Quantisierung des Bahndrehimpulses der Elektronen akzeptieren, die als „Drittes Bohrsches Postulat“ berühmt geworden ist und die eine Auswahlregel für die „erlaubten“ Kreisbahnradien der Elektronenbahnen darstellt. Louis de Broglie erkannte, dass sich diese Quantisierungsregel befriedigend als ein „Stehende Welle“-Phänomen beschreiben lässt, billigt man den Elektronen eine Wellennatur durch Einführung einer Wellenlänge zu. Inspiriert dadurch erhob Louis de Broglie in seiner Dissertation „Recherches sur la théorie des Quanta“ 1924 den „Welle-Teilchen-Dualismus“ zu einem Grundprinzip der Natur und postulierte, dass er auch auf jegliche Arte fester Materie anwendbar ist. Folgt man de Broglies Postulat, so muss sich eine Wellengleichung für z. B. ein ruhemassebehaftetes nicht-relativistisches Teilchen finden lassen, die die Ausbreitung der „Materiewelle“ 1 Kreisfrequenz ω
= 2π · f . Naturkonstante (Dirac-Konstante bzw. reduziertes Plancksches Wirkungsquantum) hat den Wert = wobei h das Plancksche Wirkungsquantum ist mit h ≈ 6.626 · 10−34Js, siehe [13]. 2 Die
h , 2π
2
1 Grundlagen aus der Quantenmechanik
ψ(r, t), die nun das Korpuskel darstellt, im Raum und in der Zeit richtig beschreibt. Die Formulierung dieser Wellengleichung gelang 1926 Erwin Schrödinger und trägt seitdem ihm zu Ehren seinen Namen. Für ein nicht-relativistisches Korpuskel der Masse m, welches sich mit dem Impuls p im Potential Wpot (r, t) bewegt, lautet sie: 2 ∂ψ(r, t) = − · Δ + Wpot (r, t) · ψ(r, t) = H · ψ(r, t). (1.1) i·· ∂t 2·m Der in der Schrödinger-Gleichung (1.1) eingeführte Operator H wird Hamilton-Operator genannt. Die Schrödinger-Gleichung ist so konstruiert, dass die ebene Welle ψ(r, t) = ψ0 · exp i( k, r ± ω · t)
(1.2)
Lösung ist und sich als Dispersionsrelation der nicht-relativistische Energiesatz für ruhemassebehaftete Teilchen ergibt: · ω = Wges =
2 · k 2 p2 + Wpot = + Wpot = Wkin + Wpot. 2·m 2·m
(1.3)
Diese Konstruktion führt aber zu dem Problem, dass sich nur komplexwertige Wellenfunktionen ψ(r, t) ergeben, die sich physikalisch nicht interpretieren lassen, da die physikalische Interpretierbarkeit an reellwertige und damit physikalisch messbare Funktionen geknüpft ist. Diese Schwierigkeit behebt die auf Born, Bohr und Heisenberg zurückgehende Kopenhagener Deutung der Quantenmechanik von 1927, die auf einer Wahrscheinlichkeitsinterpretation fußt: Der Deutung zufolge ist die Wellenfunktion ψ(r, t) selbst nicht interpretierbar, auch wenn man ihr den wohlklingenden Namen „Aufenthaltswahrscheinlichkeitsdichtenamplitude“ gab, vergleiche auch Definition 2.83 auf Seite 58. Wohl ist aber das Betragsquadrat der Wellenfunktion interpretierbar, welches ein Maß für die Wahrscheinlichkeit ist, das Teilchen am Ort r zum Zeitpunkt t zu finden: g(r, t) := |ψ(r, t)|
2
(1.4)
Zu einem Zeitpunkt t muss das Teilchen mit Wahrscheinlichkeit 1 irgendwo im Raum gefunden werden, so dass also die folgende Normierungsbedingung gilt: ! g(r, t) dr = |ψ(r, t)|2 dr = 1. (1.5) R3
R3
1.2 Physikalischer Zustandsraum
1.2
3
Physikalischer Zustandsraum
Nun betrachten wir etwas mathematisch abstrahiert eine Wellenfunktion als eine Abbildung von einem k-dimensionalen reellen Parameterraum in die komplexen Zahlen: ψ : Rk → C Die Menge der möglichen Wellenfunktionen zur Beschreibung eines Teilchens lässt sich zu einem Funktionenraum zusammenfassen ⏐ L 2 (Rk ) := ψ : Rk → C ⏐ ψ messbar und |ψ|2 integrierbar . In diesem Zusammenhang steht Messbarkeit für die Lebesgue-Messbarkeit von Funktionen, siehe Abschnitt 2.4.2 auf Seite 45 und [1, 23]. L 2 (Rk ) ist damit ein komplexer unendlichdimensionaler Vektorraum. Um eine Norm und ein Skalarprodukt für Wellenfunktionen angeben zu können, siehe Abschnitt 2.2.1 auf Seite 24, müssen noch redundante Wellenfunktionen zu Klassen zusammengefasst werden, d.h. Wellenfunktionen, die hinsichtlich des Lebesgue-Maßes fast überall gleich sind, was in physikalischer Interpretation für ununterscheidbare Wellenfunktionen steht. Für solche Wellenfunktionen verwendet man die Äquivalenzrelation ψ1 ∼ ψ2
:⇔
ψ1 (x) = ψ2 (x) für fast alle x ∈ Rk .
Auf dem Faktorraum L2 (Rk ) := L 2 (Rk )/N ⏐ von L 2 (Rk ) nach der Untermenge N := ψ ∈ L2 (Rk ) ⏐ ψ = 0 fast überall lässt sich ein Skalarprodukt und eine dazu korrespondierende Norm, ψ = ψ, ψ, für die beschriebenen Wellenfunktionen festlegen, und L2 (Rk ) ist dann der Hilbertraum der Wellenfunktionen, vgl. Abschnitt 2.2.1. Ein Element aus L2 (Rk ) entspricht dabei einem Zustand des Systems. Die mathematische Lösung der Schrödingergleichung (1.1) ergibt gleich eine ganze Schar von Lösungen α · ψ mit α ∈ C. Die Kopenhagener Deutung besagt nun, dass diese Schar von Wellenfunktionen nur einen einzigen Zustand beschreibt und sich auf eine normierte Darstellung reduzieren lässt. Durch die Normierung der Form (1.5) ergibt sich eine statistische Wahrscheinlichkeitsinterpretation. Das physikalische System kann verschiedene Zustände einnehmen, die durch jeweils eine Wellenfunktion ψ ausgedrückt werden und wegen der Linearität des Hilbertraumes kann es auch alle durch eine Linearkombination dieser Zustände entstehenden Zustände einnehmen [4]. Eine Linearkombination von normierten Zuständen ist zwar nicht selbst normiert, aber der neu entstandene Zustand befindet sich auf einem Vektorstrahl, auf dem sich auch der äquivalente normierte Zustand befindet. Der Teilchen-Spin ist der einzig relevante Parameter in der Quanteninformationstheorie, denn der Spin lässt sich identifizieren mit dem Bit b ∈ B := {0, 1}, der klassischen Informationseinheit. Die Identifikation erfolgt beispielsweise durch Spin-up (↑) als 1 (Bit gesetzt) und
4
1 Grundlagen aus der Quantenmechanik
Spin-down (↓) als 0 (Bit nicht gesetzt). Der Spin ist unabhängig von den anderen Parametern. Zerlegt man nun die Wellenfunktion in zwei Wellenfunktionen, die vektoriell wieder zu ψ↑ (x) ψ(x) = (1.6) ψ↓ (x) zusammengefasst werden, so spricht man von der Spinor-Wellenfunktion. Diese hat dann entsprechend eine Spin-up- und eine Spin-down-Komponente. Wendet man nun die bisherigen Überlegungen auf die Spinor-Wellenfunktion an, so erhält man das erste Postulat zur Beschreibung des physikalischen Systems.
Postulat 1 Physikalischer Zustandsraum Der Spin-Zustand eines physikalischen Systems wird durch eine quadratintegrierbare SpinorWellenfunktion ψ↑ (x) ψ : Rk → C2 , ψ(x) = , ψ↓ (x) im Hilbertraum L2 (Rk ) × L2 (Rk ) über C in Abhängigkeit des Parameters x ∈ Rk charakterisiert. Zudem soll die Normierungsbedingung 2 k 2 k ψ(x) d x := |ψ↑ (x)| d x + |ψ↓ (x)|2 dk x := 1 (1.7) Rk
Rk
Rk
gelten.
(1.7) ist natürlich die Übertragung der Normierungsbedingung (1.5) der Kopenhagener Deutung. Damit kann die Beobachtung des Spin-Zustands eines Teilchens als Zufallsexperiment mit dem Wahrscheinlichkeitsraum3 ({↑, ↓}, {{∅}, {↑, ↓}, {↑}, {↓}}, P )
(1.8)
angesehen werden. Beobachtet man nun ein Teilchen, so ist die Wahrscheinlichkeit für einen Spin-up durch P (↑) = |ψ↑ (x)|2 dk x Rk
gegeben, dem ersten Summanden von Gleichung (1.7). Analog wird die Wahrscheinlichkeit für ein Spin-down-Teilchen bestimmt. Im Unterschied zur klassischen Informationseinheit Bit, welches entweder gesetzt ist oder nicht, ist der Spin-Zustand wahrscheinlichkeitsbehaftet. Da die möglichen Zustände eines Spin-Teilchens somit nur vom zweidimensionalen Funktionswert der Spinor-Wellenfunktion abhängen, lässt sich die Zustandsbeschreibung vom bisherigen 3 Eine
Einführung in die Wahrscheinlichkeitstheorie findet sich in Abschnitt 2.4.
1.2 Physikalischer Zustandsraum
5
Hilbertraum L2 (Rk ) × L2 (Rk ) reduzieren auf die Vektoren in einem zweidimensionalen Hilbertraum H, der als Zustandsraum des Spin-Teilchens bezeichnet wird. In dieser vereinfachten vektoriellen Darstellung beschreiben die (normierten) Vektoren aus H die Spin-Zustände. Im Hilbertraum H sei nun eine spezielle Orthonormalbasis B = {v1 , v2 } ,
v1 , v2 ∈ H
ausgezeichnet. Zu jedem Zustand ψ ∈ H gibt es dann eine eindeutige Darstellung ψ = λ1 · v1 + λ2 · v2
mit λ1 , λ2 ∈ C.
(1.9)
Wird die Normierungsbedingung ψ2 = 1 gefordert, so folgt |λ1 |2 + |λ2 |2 = 1.
(1.10)
Durch die Darstellung (1.9) und (1.10) wird Postulat 1 auf der vorherigen Seite in der reduzierten Form erfüllt. Die vektorielle Sichtweise erlaubt die vereinfachte Beschreibung der SpinWahrscheinlichkeiten als P (↑) = |λ1 |2 ,
P (↓) = |λ2 |2 .
Das in Abschnitt 2.3 auf Seite 30 definierte Tensorprodukt erlaubt die Erweiterung auf eine beliebige Anzahl n von Spin-Teilchen, deren Zustände beschrieben werden als Vektoren aus H⊗n =
n
H.
i=1
Dabei ist H⊗n ein Hilbertraum der Dimension 2n über C. Jeder Zustand ψ aus H⊗n kann geschrieben werden als ψ=
2 i1 =1
...
2
λi1 ...in · vi1 ⊗ . . . ⊗ vin .
in =1
In Definition 3.1 auf Seite 65 und Definition 3.5 auf Seite 68 werden diese Folgerungen aus Postulat 1 auf der vorherigen Seite noch einmal präzise formuliert.
6
1 Grundlagen aus der Quantenmechanik
1.3
Observablen
Als Observablen bezeichnet man die Messgrößen eines physikalischen Systems, die zu einem festen Zeitpunkt und während eines bestimmten Zustandes gemessen werden können. In der Quantenmechanik sind Observablen im Allgemeinen Mengen von linearen Operatoren, die auf den Wellenfunktionen bzw. auf den Zuständen in vektorieller Darstellung wirken. Die möglichen Messwerte einer Observablen ergeben sich gemäß einer Wahrscheinlichkeitsverteilung. Eine Messung verändert das System dahingehend, dass es in einen neuen Zustand übergeht, der zum jeweiligen Messoperator gehört. Man bezeichnet das als Zustandsreduktion des Systems.
Postulat 2 Messung Es sei durch {M0 , . . . , Mm−1 } eine Menge von Operatoren gegeben, die die Eigenschaft besitzen m−1
Mj ∗ Mj = I,
j=0
wobei I die identische Abbildung ist und Mj ∗ der zu Mj adjungierte Operator. Ist das Quantensystem vor der Messung im Zustand ψ, so ist die Wahrscheinlichkeit für das Ergebnis j gegeben durch pj := Mj ψ2 ,
j = 0, . . . , m − 1.
Nach der Messung mit einem Messergebnis j befindet sich das System im Zustand 1 √ Mj ψ. pj
In Abschnitt 3.2.3 wird dieses Postulat mathematisch vollständig ausformuliert. Sind Mj Projektoren, also Mj ∗ = Mj
und Mj2 = Mj ,
und projizieren sie auf je orthogonale Untervektorräume, so lässt sich die Menge der Operatoren zu einem einzelnen hermiteschen Operator A zusammenfassen, der dann Observable genannt wird: A :=
m−1 j=0
j · Mj ∗ Mj =
m−1
j · Mj
j=1
In diesem wichtigen Spezialfall sind die Messergebnisse die Eigenwerte 0, . . . , m − 1 von A und das System befindet sich nach der Messung in einem Eigenzustand bezüglich A.
1.4 Zeitliche Dynamik des Systems
1.4
7
Zeitliche Dynamik des Systems
Stellt man die Frage nach der Bestimmung der rein zeitlichen Entwicklung eines quantenmechanischen Systems, gibt erneut die Schrödinger-Gleichung (1.1) Auskunft: i··
∂ψ(t) = H · ψ(t). ∂t
(1.11)
Da der Hamilton-Operator den Energie-Operator des gegebenen Problems darstellt (hier: nichtrelativistisches Korpuskel der Masse m, welches sich mit dem Impuls p im Potential Wpot(r, t) bewegt), folgt in mathematischer Konsequenz, dass H hermitesch mit reellen Eigenwerten ist, die die Observablen des Systems darstellen. Außerdem gilt, dass die Gesamtenergie des Systems eine zeitliche Erhaltungsgröße ist, womit folgt: ∂H = 0. ∂t
(1.12)
Damit lässt sich nun die Zeitentwicklung eines quantenmechanischen Systems folgendermaßen beschreiben: Zum Zeitpunkt t = 0 befindet sich das System in einem definierten Anfangszustand ψ(0) = ψ0 . Somit hat die Schrödinger-Gleichung (1.11) unter Berücksichtigung von (1.12) die Lösung i·H ·t ψ(t) = exp − · ψ0 = U (t) · ψ0 . (1.13) U (t) nennt man den Zeitentwicklungsoperator des Systems. Damit folgt für H die gruppentheoretische Interpretation als „Propagator der Zeitentwicklung“. Ist H in (1.11) selbstadjungiert, so ist der Zeitentwicklungsoperator U (t) des Systems zu jedem Zeitpunkt unitär, siehe Abschnitt 3.3 auf Seite 83. Es ergibt sich hieraus das dritte Postulat der Quantenmechanik. Postulat 3
Zeitentwicklung des physikalischen Systems
Die zeitabhängige Entwicklung der Zustände eines physikalischen Systems wird durch die zeitabhängige Schrödinger-Gleichung i··
∂ψ(t) = H · ψ(t) ∂t
(1.14)
beschrieben. Der bei einem selbstadjungierten und zeitunabhängigen Hamiltonoperator resultierende Zeitentwicklungsoperator i·H ·t U (t) = exp − ist unitär.
(1.15)
8
1 Grundlagen aus der Quantenmechanik
1.5
Quantenmechanik und Quantum Computation
Eine Konsequenz der Kopenhagener Deutung der Quantenmechanik ist, dass der Zustand eines quantenmechanischen Systems als Superposition von Basiszuständen begriffen wird. Damit verbunden ist eine Wahrscheinlichkeitsverteilung, die angibt, mit welcher Wahrscheinlichkeit das quantenmechanische System in einen dieser Basiszustände fällt, wenn man den Systemzustand durch eine Messung bestimmt. Die Wahrscheinlichkeit, dass bei einer Messung ein bestimmter Systemzustand gemessen wird, ist dabei durch das Betragsquadrat der Wellenfunktion bezüglich dieses Zustandes gegeben. Allerdings verändert die Zeitentwicklung des Systems nach einer solchen Messung den Zustand des Systems wieder, so dass (mit Ausnahme von Wahrscheinlichkeitsaussagen) nichts über den Systemfolgezustand ausgesagt werden kann. Dazu ist eine erneute Messung nötig, um das System wieder in einen der möglichen Basiszustände zu werfen. Ein einfaches Beispiel ist der Spin eines Teilchens, z.B. eines Elektrons. Die möglichen Basiszustände sind „Spin-up“ und „Spin-down“. Über ein „ungemessenes“ Teilchen mit Spin lässt sich also nur sagen, dass es einen Spin besitzt und dass man bei einer Messung den Zustand „Spin-up“ bzw. „Spin-down“ nur mit einer bestimmten Wahrscheinlichkeit P (↑) bzw. P (↓) = 1 − P (↑) messen wird. In welchem konkreten Spin-Zustand sich das „ungemessene“ Teilchen befindet, lässt sich also nicht sagen. Damit lässt sich verknappt nur formulieren: • Vor der Messung: ψ = λ1 · ↑ +λ2 · ↓,
P (↑) = |λ1 |2 , P (↓) = |λ2 |2 .
• Nach der Messung: P (↑) = 1, P (↓) = 0 oder P (↑) = 0, P (↓) = 1. Nach der Messung bewirkt die zeitliche Entwicklung des Systems wieder eine Veränderung der durch die Messung bestimmten Wahrscheinlichkeitsverteilung. Aus diesem physikalischen Sachverhalt wurde die Idee des Quantum Computation basierend auf q-Bits geboren: Quantum Computation bedeutet die Durchführung von Algorithmen auf Systemen, deren Zustände Superpositionen von Basiszuständen sind und deren zeitliche Entwicklungen sich durch (unitäre) Operatoren darstellen lassen. Die Systemzustände sind mit Wahrscheinlichkeitsverteilungen verknüpft, die die Wahrscheinlichkeiten dafür angeben, dass eine Auswertung (Messung) der Systemzustände bestimmte Basiszustände ergeben.
2
Mathematische Grundlagen und Notationen
Die folgende Zusammenstellung der benötigten mathematischen Grundlagen kann je nach Vorwissen selektiv gelesen werden bzw. dient als Referenz für die im Späteren verwendeten Notationen. Um dieses Kapitel knapp zu halten, wird auf Beweise in der Regel verzichtet und jeweils auf die Literatur verwiesen. Für den ersten Abschnitt 2.1 gilt dies im Besonderen, da die Theorie der Vektorräume Teil jedes naturwissenschaftlichen und ingenieurwissenschaftlichen Studiengangs sein sollte. Eine Vertiefung findet statt mit dem nachfolgenden Abschnitt 2.2, in dem u.a. das benötigte Skalarprodukt eingeführt ist, welches als in der zweiten Komponente1 linear definiert wird. Damit werden Hilberträume definiert und die für die Quantenalgorithmen wichtigen Operatoren auf Hilberträumen. Die in der Physik und bei den Quantenalgorithmen oft gebrauchte Tensorrechnung wird in anderen Fächern selten oder nur nebenbei betrachtet. Im Abschnitt 2.3 wird das Tensorprodukt elementar eingeführt, d.h. es wird über einen konstruktiven Ansatz definiert anstatt als Element eines gewissen Faktorraums, um die Verständlichkeit zu erhöhen. Bei der Messung eines Quantenzustands handelt es sich um einen stochastischen Vorgang. Die benötigten Werkzeuge aus der Wahrscheinlichkeitstheorie werden in Abschnitt 2.4 bereitgestellt.
2.1
Vektoren und Vektorräume
2.1.1
Gruppe, Ring, Körper
Definition 2.1:
Gruppe
Es sei G eine Menge mit einer inneren Verknüpfung ◦. Das Paar (G, ◦) heißt eine Gruppe, wenn die folgenden Eigenschaften gelten: (i) In (G, ◦) gilt das assoziative Gesetz, d.h. für alle a, b, c ∈ G gilt a ◦ (b ◦ c) = (a ◦ b) ◦ c. 1 In vielen Mathematik-Lehrbüchern wird es als in der ersten Komponente linear festgelegt, aber für die Anwendung erweist sich die zweite Komponente als schreibfreundlicher und wird daher in der Physik gern so gebraucht.
10
2 Mathematische Grundlagen und Notationen (ii) Es existiert ein neutrales Element e ∈ G, d.h. für alle a ∈ G gilt a ◦ e = e ◦ a = a. (iii) Zu jedem Element a ∈ G existiert ein inverses Element a−1 ∈ G mit a ◦ a−1 = a−1 ◦ a = e. Gilt außerdem das kommutative Gesetz, d.h. wenn für alle a, b ∈ G gilt a ◦ b = b ◦ a, so heißt (G, ◦) eine kommutative Gruppe oder eine abelsche Gruppe2 .
(Z, +) ist damit eine kommutative Gruppe, wobei gilt: • Das neutrale Element ist die Zahl 0, da a + 0 = 0 + a = a. • Zu jedem a ∈ Z ist −a das jeweilige inverse Element, welches in der Gruppendefinition mit a−1 bezeichnet wurde. (Z, +) ist der „Urtyp“ der Gruppen. Gruppen müssen nicht unendlich groß sein und auch nicht unbedingt kommutativ, wie das folgende Beispiel illustriert. Beispiel 1 Wir betrachten drei nummerierte Sitzplätze und die Menge V = {v1 , . . . , v6 } aller sechs möglichen Vertauschungen dieser Sitzplätze. Diese Vertauschungen seien v1 v2 v3 v4 v5 v6
= ”1 → 1, = ”1 → 1, = ”1 → 2, = ”1 → 2, = ”1 → 3, = ”1 → 3,
2 → 2, 2 → 3, 2 → 1, 2 → 3, 2 → 1, 2 → 2,
3 → 3”, 3 → 2”, 3 → 3”, 3 → 1”, 3 → 2”, 3 → 1”.
Die Hintereinanderausführung u ◦ v von zwei Vertauschungen u, v ∈ V , wobei erst v und dann u durchgeführt wird, ergibt wieder eine Vertauschung der drei Plätze. Also ist ◦ eine innere Verknüpfung. In (V, ◦) gilt das assoziative Gesetz3 . v1 ist das neutrale Element, denn v1 ◦ vj = vj ◦ v1 = vj , 2 nach N.
H. Abel (1802–1829)
3 Nachweis: Fleißaufgabe!
für alle j = 1, . . . , 6.
2.1 Vektoren und Vektorräume
11
Die inversen Elemente ergeben sich durch die Umkehrung der Vertauschung, also v1−1 = v1 ,
v2−1 = v2 ,
v3−1 = v3 ,
v4−1 = v5 ,
v5−1 = v4 ,
v6−1 = v6 .
Damit ist (V, ◦) eine Gruppe. Diese Gruppe ist aber nicht kommutativ, denn es gilt: v2 ◦ v3 = ”1 → 3, 2 → 1, 3 → 2” = v5 , v3 ◦ v2 = ”1 → 2, 2 → 3, 3 → 1” = v4 = v2 ◦ v3 In der Gruppentheorie [12, 15] werden Gruppenstrukturen untersucht und charakterisiert. Anwendungen finden sich u.a. in der Quantenphysik. Nimmt man nun noch eine zweite Verknüpfung hinzu, erhalten wir die algebraische Struktur eines Ringes. Definition 2.2:
Ring
Es sei R eine Menge mit zwei inneren Verknüpfungen + und ·. Das Tripel (R, +, ·) heißt ein Ring, wenn die folgenden Eigenschaften gelten: (i) (R, +) ist eine kommutative Gruppe. (ii) In R gilt das assoziative Gesetz bezüglich ·, d.h. für alle a, b, c ∈ R gilt a · (b · c) = (a · b) · c. (iii) Es gilt das distributive Gesetz der Verknüpfung · bezüglich der Verknüpfung +, d.h. für alle a, b, c ∈ R gilt a · (b + c) = (a · b) + (a · c), (b + c) · a = (b · a) + (c · a). Gilt außerdem das kommutative Gesetz bezüglich der Verknüpfung ·, so heißt (R, +, ·) ein kommutativer Ring. Das neutrale Element bezüglich der Verknüpfung + wird Nullelement genannt. Besitzt der Ring auch ein neutrales Element bezüglich der Verknüpfung ·, so nennt man es Einselement und spricht von einem Ring mit Einselement. (Z, +, ·) ist damit ein kommutativer Ring mit Einselement, wie man sofort aus der Definition ersieht. Das Nullelement ist natürlich die Null und das Einselement ist die Eins. Damit haben wir zum einen alle Eigenschaften der Grundrechenarten auf der Menge der ganzen Zahlen festgehalten, zum anderen können wir künftig die Eigenschaften einer Menge mit ihren Verknüpfungen beschreiben, indem wir sie als „Gruppe“ oder „Ring“ nachweisen.
12
2 Mathematische Grundlagen und Notationen
Definition 2.3: Körper Es sei K eine Menge mit zwei inneren Verknüpfungen + und ·. Das Tripel (K, +, ·) heißt ein Körper, wenn die folgenden Eigenschaften gelten: (i) (K, +) ist eine kommutative Gruppe, d.h. (K1) In (K, +) gilt das assoziative Gesetz, d.h. für alle a, b, c ∈ K gilt a + (b + c) = (a + b) + c. (K2) Es existiert ein Nullelement 0 ∈ K, d.h. für alle a ∈ K gilt a + 0 = 0 + a = a. (K3) Zu jedem Element a ∈ K existiert ein inverses Element −a ∈ K mit a + (−a) = (−a) + a = 0,
Abkürzung: a − a = −a + a = 0.
(K4) In (K, +) gilt das kommutative Gesetz, d.h. für alle a, b ∈ K gilt a + b = b + a. (ii) (K \ {0} , ·) ist eine kommutative Gruppe, d.h. (K5) In (K \ {0} , ·) gilt das assoziative Gesetz, d.h. für alle a, b, c ∈ K \ {0} gilt a · (b · c) = (a · b) · c. (K6) Es existiert ein Einselement 1 ∈ K, d.h. für alle a ∈ K \ {0} gilt a · 1 = 1 · a = a. (K7) Zu jedem Element a ∈ K \ {0} existiert ein inverses Element a−1 ∈ K \ {0} mit a · a−1 = a−1 · a = 1. (K8) In (K \ {0} , ·) gilt das kommutative Gesetz, d.h. für alle a, b ∈ K gilt a · b = b · a. (iii) Es gilt das distributive Gesetz der Verknüpfung · bezüglich der Verknüpfung +. (K9) Für alle a, b, c ∈ K gilt (K10) Für alle a, b, c ∈ K gilt
a · (b + c) = (a · b) + (a · c). (b + c) · a = (b · a) + (c · a).
Sind bei einem Körper (K, +, ·) die Verknüpfungen aus dem Kontext heraus klar, so wird auch K als Bezeichnung für den Körper verwendet. In der obigen Definition haben wir alle Recheneigenschaften der rationalen Zahlen versammelt, d.h. (Q, +, ·) ist der Körper der rationalen Zahlen; abgekürzt nur Q genannt.
2.1 Vektoren und Vektorräume
13
Beispiel 2 In der digitalen Nachrichtentechnik spielt der binäre Körper (B, ⊕, ) eine große Rolle. B := {0, 1} ist der kleinste Körper und besteht nur aus seinen beiden neutralen Elementen. Die beiden inneren Verknüpfungen sind wie folgt definiert: 1 ⊕ 1 = 0, 1 ⊕ 0 = 1, 0 ⊕ 1 = 1, 0 ⊕ 0 = 0,
1 1 = 1, 1 0 = 0, 0 1 = 0, 0 0 = 0.
Es lassen sich weitere endliche Körper mit pm Elementen konstruieren, wobei p eine Primzahl ist, die Galoiskörper4 oder Galoisfelder genannt werden. Sie werden z.B. in der Kryptologie zur Erzeugung von Schlüsseln verwendet und dienen als Grundlage für symbolbasierte Codes in der Kanalcodierung; am bekanntesten sind die Reed-Solomon-Codes.
2.1.2
Vektorraum
Für Verschiebungsvektoren aus geometrienahen Anwendungen sind eine Reihe von Gesetzmäßigkeiten bekannt, etwa die Gruppeneigenschaft bezüglich der Addition oder die Gesetze zur Multiplikation mit Skalaren aus R. Nun definieren wir eine Menge mit Verknüpfungen, die diesen Gesetzen folgen, als Vektorraum. Statt R könnte man auch einen anderen Körper wie Q oder C für die Skalare verwenden; in der Definition halten wir dies offen. Definition 2.4:
Vektorraum
Es sei (K, +, ·) ein Körper und V eine Menge mit einer inneren Verknüpfung „+“ zwischen Elementen aus V und einer äußeren Verknüpfung „·“, die für jedes α ∈ K und jedes v ∈ V ein Element α · v = αv ∈ V definiert. Ein Element v ∈ V heißt ein Vektor, ein Element α ∈ K heißt ein Skalar, und V heißt ein Vektorraum über dem Körper K bzw. ein K-Vektorraum, wenn die folgenden Eigenschaften gelten: (i) (V, +) ist eine kommutative Gruppe, d.h. (V1) In (V, +) gilt das assoziative Gesetz, d.h. für alle u, v, w ∈ V gilt u + (v + w) = (u + v) + w. (V2) Es existiert ein Nullvektor 0 ∈ V , d.h. für alle v ∈ V gilt v + 0 = 0 + v = v. 4 Nach Evariste
Galois (1811–1832).
14
2 Mathematische Grundlagen und Notationen (V3) Zu jedem Vektor v ∈ V existiert ein negativer Vektor −v ∈ V mit v + (−v) = (−v) + v = 0,
Abkürzung: v − v = −v + v = 0.
(V4) In (V, +) gilt das kommutative Gesetz, d.h. für alle u, v ∈ V gilt u + v = v + u. (ii) Es gelten die folgenden Gesetze für die Multiplikation von Skalaren mit Vektoren: (V5) Für alle α, β ∈ K und alle v ∈ V gilt (α · β) · v = α · (β · v). (V6) Für alle α, β ∈ K und alle v ∈ V gilt (α + β) · v = α · v + β · v. (V7) Für alle α ∈ K und alle u, v ∈ V gilt α · (u + v) = α · u + α · v. (V8) Für alle v ∈ V gilt 1 · v = v. Statt R-Vektorraum sagt man auch reeller Vektorraum, statt C-Vektorraum sagt man auch komplexer Vektorraum.
Zur Vereinfachung der Schreibweise haben wir + sowohl für die Addition zwischen Skalaren als auch zwischen Vektoren verwendet. Ebenso wurde · für die Multiplikation zwischen Skalaren und zwischen Skalar und Vektor verwendet. Für den Nullvektor und das Nullelement des Körpers haben wir jeweils das Zeichen 0 verwendet; bei der „Pfeilschreibweise“ würde man 0 und 0 verwenden. Merke: Jede Menge mit Verknüpfungen, die die Eigenschaften von Definition 2.4 auf der vorherigen Seite erfüllen, ist ein Vektorraum! Es muss keinen geometrischen oder physikalischen Bezug für Vektorräume geben. Zu den einfachsten und grundlegendsten Vektorräumen gehören die Räume der n-Tupel.
2.1 Vektoren und Vektorräume
15
Vektorraum Kn
Satz und Definition 2.5
Für einen Körper K und n ∈ N ist die Menge aller reellen n-Tupel das n-fache kartesische Produkt Kn := K × . . . × K . n-fach
Für die Elemente u ∈ Kn sei die Spaltenschreibweise ⎛ ⎞ u1 ⎜ .. ⎟ u = ⎝ . ⎠ mit u1 , . . . , un ∈ K un vereinbart. Bezüglich der Addition ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ v1 u1 + v1 u1 ⎜ ⎟ ⎜ .. ⎟ ⎜ .. ⎟ .. ⎠ ⎝ . ⎠ + ⎝ . ⎠ := ⎝ . un
vn
un + vn
und der Vervielfachung ⎛ ⎞ ⎛ ⎞ αu1 u1 ⎜ ⎟ ⎜ ⎟ α · ⎝ ... ⎠ := ⎝ ... ⎠ un
für alle u1 , . . . , un , v1 , . . . , vn ∈ K
für alle α, u1, . . . , un ∈ K
αun
ist Kn ein K-Vektorraum. Beweis. Der Beweis folgt elementar aus den Körper-Eigenschaften, siehe Definition 2.3 auf Seite 12, mit denen die nachzuweisenden Vektorraum-Eigenschaften gelten. • Der Nullvektor im Kn ist gegeben durch ⎛ ⎞ 0 ⎜ .. ⎟ ⎝.⎠ . 0 • Die Spaltenschreibweise für die n-Tupel aus Kn ist vereinbart, da diese Vektoren später in der Matrizenrechnung verwendet werden und selbst Spezialfälle von Matrizen sind. Durch Verwendung des Transponierungszeichens kann man die Spalten auch platzsparend als Zeile schreiben: ⎛ ⎞ u1 ⎜ .. ⎟ (u1 , . . . , un ) := ⎝ . ⎠ . un
16
2 Mathematische Grundlagen und Notationen • Ist n = 1, so entspricht R1 dem Körper R selbst. Daher ist R selbst der einfachste reelle Vektorraum.
Beispiel 3 Im R4 gilt: ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 5 4 1 ⎜2⎟ ⎜5⎟ ⎜ 7 ⎟ ⎝3⎠+⎝6⎠ = ⎝ 9 ⎠ , 11 7 4
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 0 1 1 ⎜2⎟ ⎜ 1 ⎟ ⎜ 1 ⎟ ⎝3⎠ −⎝ 6 ⎠ = ⎝−3⎠ , 6 −2 4
⎛ ⎞ ⎛1⎞ 1 2 1 ⎜2⎟ ⎜ 1⎟ ⎟ ⎝3⎠ = ⎜ ⎝3⎠ . 2 2 4 2
Es gibt eine Vielzahl weiterer Vektorräume: • Vektorraum der Matrizen • Vektorraum der stetig differenzierbaren Funktionen • Vektorraum der Polynome • ...
2.1.3
Untervektorräume
Satz und Definition 2.6 Untervektorraum Sei V ein K-Vektorraum. Eine Teilmenge U ⊆ V heißt Untervektorraum von V , wenn U = ∅ und wenn für alle u, v ∈ U und alle α ∈ K gilt: u + v ∈ U,
αu ∈ U.
Ein Untervektorraum U von V ist zusammen mit der durch V gegebenen Addition und Skalarmultiplikation selbst ein K-Vektorraum.
Beweis.
[10]
2.1 Vektoren und Vektorräume Satz und Definition 2.7
17
Linearkombination, lineare Hülle
Sei V ein K-Vektorraum. Sind v1 , . . . , vn ∈ V und α1 , . . . , αn ∈ K, so nennt man n
αi vi = α1 v1 + . . . + αn vn ∈ V
i=1
eine Linearkombination der Vektoren v1 , . . . , vn und α1 , . . . , αn heißen die Koeffizienten der Linearkombination. Die Menge aller Linearkombinationen der Vektoren v1 , . . . , vn ⎧ ⎫ ⏐ n ⎨ ⎬ ⏐ span {v1 , . . . , vn } := v ∈ V ⏐ v= αj vj , mit αj ∈ K ⊆ V ⏐ ⎩ ⎭ j=1
heißt lineare Hülle von v1 , . . . , vn . Die lineare Hülle ist der von v1 , . . . , vn aufgespannte Untervektorraum von V und damit selbst ein K-Vektorraum. Beweis.
Die Summe zweier Linearkombinationen ist wieder eine Linearkombination: n
αi vi +
i=1
n
βi vi =
i=1
n
(αi + βi )vi ∈ span {v1 , . . . , vn } .
i=1
Das λ-fache einer Linearkombination ist wieder eine Linearkombination: λ·
n i=1
αi vi =
n
(λαi )vi ∈ span {v1 , . . . , vn } .
i=1
Nach Satz und Definition 2.6 ist die lineare Hülle damit ein Untervektorraum.
Beispiel 4 Ist V = R3 , so ist ⎧⎛ ⎞ ⎫ ⎧⎛ ⎞ ⎫ ⎨ 2 ⎬ ⎨ 2λ ⎬ ⏐ span ⎝3⎠ = ⎝3λ⎠ ∈ R3 ⏐ λ ∈ R ⎩ 0 ⎭ ⎩ 0 ⎭ ein Untervektorraum von R3 . Geometrisch interpretiert handelt es sich dabei um eine Gerade im dreidimensionalen Raum durch den Nullpunkt.
18
2 Mathematische Grundlagen und Notationen
2.1.4
Lineare Unabhängigkeit a b c
Abbildung 2.1: Kollineare Vektoren
• Betrachtet man Verschiebungsvektoren, deren Repräsentanten parallel zueinander sind, wie in Abbildung 2.1, so bezeichnet man sie als kollineare Vektoren (zu einer Geraden gehörend). Zwei zueinander kollineare Vektoren a und b können somit durch Multiplikation mit einem Skalar ineinander übergeführt werden, also b = μa mit μ ∈ R; oder allgemeiner formuliert λ1a + λ2b = 0 mit λ1 , λ2 ∈ R \ {0} . Findet man aber keine Linearkombination dieser Art, d.h. wenn λ1 = λ2 = 0 sein muss, damit 0 erzeugt werden kann, dann sind a und b nicht kollinear und werden linear unabhängig genannt.
λ3c λ2b
λ1a Abbildung 2.2: Komplanare Vektoren
• Betrachtet man Verschiebungsvektoren a, b und c, deren Repräsentanten nach geeigneter Streckung wie in Abbildung 2.2 ein Dreieck als geschlossene Vektorkette bilden, so bezeichnet man sie als komplanare Vektoren (zu einer Ebene gehörend). Es gilt also dann λ1a + λ2b + λ3c = 0
mit λ1 , λ2 , λ3 ∈ R und nicht alle λi sind Null.
Findet man aber keine Linearkombination dieser Art, d.h. wenn λ1 = λ2 = λ3 = 0 sein muss, damit 0 erzeugt werden kann, dann sind a, b und c nicht komplanar und werden linear unabhängig genannt. Dieser Begriff der linearen Unabhängigkeit lässt sich für beliebige Vektorräume formulieren.
2.1 Vektoren und Vektorräume Definition 2.8:
19
Lineare Unabhängigkeit
Sei V ein K-Vektorraum. Endlich viele Vektoren v1 , . . . , vn ∈ V heißen linear unabhängig, wenn eine Linearkombination von v1 , . . . , vn nur dann Null sein kann, wenn alle Koeffizienten der Linearkombination Null sind (triviale Linearkombination), d.h. wenn aus α1 v1 + . . . + αn vn = 0 stets folgt, dass α1 = . . . = αn = 0. Anderenfalls heißen die Vektoren v1 , . . . , vn linear abhängig, d.h. es gibt dann β1 , . . . , βn ∈ K, die nicht alle Null sind, mit β1 v1 + . . . + βn vn = 0. Beispiel 5 Die Vektoren v1 , v2 ∈ R3 mit ⎛ ⎞ ⎛ ⎞ 1 0 v1 := ⎝0⎠ , v2 := ⎝2⎠ 0 3 sind linear unabhängig, da ⎞ ⎛ ⎞ ⎛ ⎞ 0 α1 α1 0 = α1 v1 + α2 v2 = ⎝ 0 ⎠ + ⎝2α2 ⎠ = ⎝2α2 ⎠ 0 3α2 3α2 ⎛
nur gelten kann, wenn α1 = α2 = 0. Mit
⎛ ⎞ −1 v3 := ⎝ 4 ⎠ 6
gilt aber, dass v1 , v2 , v3 nicht linear unabhängig sind, denn es gilt v1 − 2v2 + v3 = 0. Lemma 2.9 Lineare (Un-)Abhängigkeit Sei V ein K-Vektorraum. Vektoren v1 , . . . , vn ∈ V sind genau dann linear abhängig, wenn einer von ihnen als Linearkombination der anderen darstellbar ist. Beweis.
Aus α1 v1 + . . . + αn vn = 0
20
2 Mathematische Grundlagen und Notationen
mit mindestens einem αi = 0 folgt vi = −
1 (α1 v1 + . . . + αi−1 vi−1 + αi+1 vi+1 + . . . + αn vn ). αi
Umgekehrt gilt, dass wenn vi = β1 v1 + . . . + βi−1 vi−1 + βi+1 vi+1 + . . . + βn vn , dann gilt 0 = β1 v1 + . . . + βi−1 vi−1 + (−1)vi + βi+1 vi+1 + . . . + βn vn .
2.1.5
Basis und Dimension
Definition 2.10: Basis Sei V ein K-Vektorraum. Ein n-Tupel (v1 , . . . , vn ) von Vektoren aus V heißt Basis von V, wenn gilt (i) v1 , . . . , vn sind linear unabhängig. (ii) V wird von den Basisvektoren aufgespannt, d.h. V = span {v1 , . . . , vn } . Beispiel 6 Für den Vektorraum R3 gilt ⎧⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎫ 0 ⎬ 0 ⎨ 1 span ⎝0⎠ , ⎝1⎠ , ⎝0⎠ = R3 . ⎩ 0 1 ⎭ 0 Außerdem ist ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 0 0 α1 α1 ⎝0⎠ + α2 ⎝1⎠ + α3 ⎝0⎠ = ⎝α2 ⎠ α3 0 0 1 nur dann Null, wenn α1 = α2 = α3 = 0, d.h. die drei Einheitsvektoren sind linear unabhängig. Damit bilden sie eine Basis des R3 ; die sogenannte kanonische Basis.
2.1 Vektoren und Vektorräume
21
Lemma 2.11 Eindeutigkeit der Basisdarstellung Sei V ein K-Vektorraum mit einer Basis (v1 , . . . , vn ). Dann ist jedes v ∈ V in eindeutiger Weise als ⎛ Linearkombination der Basisvektoren darstellbar, d.h. zu jedem v ∈ V gibt es ⎞ α1 ⎜ ⎟ genau ein ⎝ ... ⎠ ∈ Kn , für das gilt αn v = α1 v1 + . . . + αn vn .
Beweis.
Da V = span {v1 , . . . , vn }, gibt es zu jedem v ∈ V eine Linearkombination v = α1 v1 + . . . + αn vn .
Ist nun durch v = β1 v1 + . . . + βn vn eine weitere Linearkombination gegeben, dann ist (β1 − α1 )v1 + . . . + (βn − αn )vn = v − v = 0 Wegen der linearen Unabhängigkeit von v1 , . . . , vn folgt daraus βi − αi = 0, also βi = αi für i = 1, . . . , n. Man nennt die Basisdarstellung auch Komponentenzerlegung, da man einen Vektor bezüglich der Basis in Komponenten zerlegt. Beispiel 7 Im R2 ist durch (b1 , b2 ) mit 1 b1 = 21 , b2 = 2 , 3 2 eine Basis gegeben. Mit Lemma 2.11 ist jeder Vektor aus R2 eindeutig als Linearkombination dieser Basisvektoren darstellbar. 9 Betrachtet man v = , so lässt sich die Komponentenzerlegung geometrisch eindeutig 8 mit einem Vektorparallelogramm durchführen, siehe Abbildung 2.3 auf Seite 22. Im vorliegenden Beispiel gilt 1 2 1 9 8 4b1 + 2b2 = 4 1 + 2 2 = + = = v. 6 8 2 3 2 =: v1
=: v2
v1 und v2 nennt man auch die Vektorkomponenten von v bezüglich der betrachteten Basis.
22
2 Mathematische Grundlagen und Notationen
v v2
b2 v1 b1 Abbildung 2.3: Komponentenzerlegung eines Vektors
Satz 2.12 Basisergänzungssatz Sei V ein K-Vektorraum und v1 , . . . , vr , w1 , . . . , ws ∈ V . Sind v1 , . . . , vr linear unabhängig und gilt span {v1 , . . . , vr , w1, . . . , ws } = V, dann kann man (v1 , . . . , vr ) durch eventuelle Hinzunahme geeigneter Vektoren aus {w1 , . . . , ws } zu einer Basis von V ergänzen. Beweis.
[10]
Satz 2.13 Basislänge Ist V ein K-Vektorraum und sind (v1 , . . . , vn ) und (w1 , . . . , wm) Basen von V , so ist n = m. Beweis.
[10]
Definition 2.14: Dimension (i) Besitzt ein K-Vektorraum V eine Basis (v1 , . . . , vn ), so heißt V ein endlichdimensionaler Vektorraum und n die Dimension von V, geschrieben als dim V = n. (ii) Besitzt ein K-Vektorraum V = {0} für kein n ∈ N eine Basis (v1 , . . . , vn ), so heißt V ein unendlichdimensionaler Vektorraum und man schreibt dim V = ∞.
2.1 Vektoren und Vektorräume
23
(iii) Für den K-Vektorraum {0} setzt man dim {0} = 0. Lemma 2.15 Dimension von Kn Für den K-Vektorraum Kn gilt dim Kn = n. Die Einheitsvektoren bilden eine Basis (e1 , . . . , en ).
Beweis.
Daher ist der Raum der Ortsvektoren aus der Anschauungsebene ein zweidimensionaler Vektorraum und der „gewöhnliche“ Raum der Ortsvektoren ein dreidimensionaler Vektorraum. Mit den entwickelten Werkzeugen ist die Behandlung höherdimensionaler Vektorräume kein Problem. In der Physik nimmt man oft die Zeit als vierte Komponente zu den drei Raumkomponenten hinzu, d.h. man betrachtet den R4 . Zusammen mit der Zeit entsteht somit ein vierdimensionaler Vektorraum, den man nicht unbedingt geometrisch interpretieren muss. Satz 2.16 Eigenschaften endlichdimensionaler Vektorräume Sei V ein K-Vektorraum mit dim V = n für ein n ∈ N. Dann gilt: (i) Je n linear unabhängige Vektoren aus V bilden eine Basis von V . (ii) Ist V = span {v1 , . . . , vn }, dann ist (v1 , . . . , vn ) eine Basis von V . (iii) Je r Vektoren aus V mit r > n sind linear abhängig. (iv) Ist U ⊆ V ein Untervektorraum von U , so ist entweder U = V oder dim U < dim V .
Beweis.
[10]
Beispiel 8 • Im komplexen Vektorraum C3 sind die Vektoren ⎞ ⎞ ⎛ ⎞ ⎛ ⎛ 7i −1 3 + 4i v1 := ⎝ 0 ⎠ , v2 := ⎝2 + i⎠ , v3 := ⎝ 5 ⎠ 0 5i 0 linear unabhängig. Da dim C3 = 3, ist (v1 , v2 , v3 ) eine Basis von C3 . • Im reellen Vektorraum R2 müssen die Vektoren 1 7 −5 , , 2 19 216 linear abhängig sein, da dim R2 = 2. • Sind v1 , . . . , vr , r ∈ N, Vektoren aus V \ {0} mit dim V = n, so gilt 1 ≤ dim (span {v1 , . . . , vr }) ≤ min {n, r} .
24
2 Mathematische Grundlagen und Notationen
2.2
Hilberträume
2.2.1
Skalarprodukt und Norm
Die Abbildung • : Rn → R+ 0,
x → x := !
n
x2i =
" x21 + . . . + x2n ,
i=1
die jedem x ∈ Rn geometrisch gesehen die Länge des Vektors zuordnet, heißt euklidische Norm auf dem Rn . Die allgemeine Normdefinition lautet wie folgt: Definition 2.17: Norm, normierter Raum Ist K = R oder K = C und ist V ein K-Vektorraum, so heißt eine Abbildung • : V → R+ 0 Norm, wenn folgende Eigenschaften gelten: (i) Positivität: v ≥ 0 für alle v ∈ V ; v = 0 nur für v = 0. (ii) Linearität: λv = |λ| v
für alle λ ∈ K, v ∈ V.
(iii) Dreiecksungleichung: u + v ≤ u + v
für alle u, v ∈ V.
Man nennt (V, •) dann normierter Raum. Die euklidische Norm ist damit natürlich eine Norm. Es lassen sich viele weitere Normen finden. Auf dem R3 ist z.B. xsum := |x1 | + |x2 | + |x3| die Summennorm, die ebenfalls alle Normeigenschaften erfüllt, aber nicht mehr die Länge des Vektors x berechnet. Die Berechnung von Winkeln zwischen Vektoren spielt eine große Rolle in der Anwendung der Vektorrechnung und ebenfalls in der weiteren Ausarbeitung der Theorie.
2.2 Hilberträume
25
Beispiel 9 Ein physikalisches Gesetz besagt, dass für die Verschiebung eines Körpers der Masse m durch eine Kraft F um ein Wegstück s eine Arbeit W der Größe W =F ·s zu leisten ist. Wirkt nun eine vektorielle Kraft F nicht parallel zum Weg s, den der Körper nimmt, wie in Abbildung 2.4 dargestellt, so wirkt nur die zu s parallele Komponente Fs von F . Für die geleistete Arbeit gilt somit # # # # # # # # # # # # W = #Fs # · s = #F # · s · cos (s, F ) = #F # · s · cos (F , s).
F
(s, F ) m
Fs
s
Abbildung 2.4: Komponentenzerlegung einer Kraft
Das im Beispiel verwendete Produkt zur Berechnung der Arbeit wird als Skalarprodukt bezeichnet und mit einer eigenen Bezeichnung versehen. Für das Skalarprodukt zweier Vektoren a und b aus Rn soll # # # # a, b := a · #b# · cos (a, b) gelten. Die Abbildung •, • : Rn × Rn → R, (x, y) → x, y :=
n
xi yi = x1 y1 + . . . + xn yn
i=1
heißt Standard-Skalarprodukt auf dem Rn . Eine alternative Schreibweise für x, y ist x y. Die Abbildung •, • : Cn × Cn → C, (x, y) → x, y :=
n i=1
xi yi = x1 y1 + . . . + xn yn
26
2 Mathematische Grundlagen und Notationen
heißt Standard-Skalarprodukt auf dem Cn . Eine alternative Schreibweise für x, y ist x y. Die allgemeine Skalarproduktdefinition lautet wie folgt:
Definition 2.18: Skalarprodukt, Prähilbertraum Ist K = R oder K = C und ist V ein K-Vektorraum, so heißt eine Abbildung •, • : V × V → K Skalarprodukt, wenn folgende Eigenschaften gelten: (i) (Konjugierte) Symmetrie: u, v = v, u
für alle u, v ∈ V.
(ii) Linearität in der zweiten Komponente: u, v1 + v2 = u, v1 + u, v2 für alle u, v1 , v2 ∈ V ; u, λv = λ u, v für alle λ ∈ K, u, v ∈ V. (iii) Positive Definitheit: v, v ≥ 0 für alle v ∈ V ; v, v = 0 nur für v = 0. Man nennt (V, •, •) dann K-Prähilbertraum. • Die Konjugation z = x−iy für z = x+iy ∈ C und x, y ∈ R kann für reelle Vektorräume weggelassen werden bzw. es gilt x = x für alle x ∈ R. • Die Linearität in der zweiten Komponente ist eine Konzession an die Schreibweisen in der Quantenmechanik, da man sonst sehr oft die Linearität in der ersten Komponente fordert. Für reelle Vektorräume ergibt sich auch hier kein Unterschied. • Das Standard-Skalarprodukt erfüllt alle diese Eigenschaften und ist damit natürlich ein Skalarprodukt. Mit dieser Definition kann man nun auch Skalarprodukte z.B. für Vektorräume von Funktionen festlegen.
2.2 Hilberträume
27
Definition 2.19: Winkel, orthogonale Vektoren Es sei (V, •, •) ein Prähilbertraum. (i) Für x, y ∈ V mit x = 0, y = 0, ist der Öffnungswinkel (x, y) zwischen x und y definiert durch cos((x, y)) :=
Re(x, y) , x y
0 ≤ (x, y) ≤ π.
(ii) Zwei Vektoren x, y ∈ V heißen orthogonal zueinander, wenn x, y = 0. Man sagt dann auch, x steht senkrecht auf y und man schreibt x⊥y, um die Orthogonalität auszudrücken. Lemma 2.20 Induzierte Norm auf Prähilberträumen Ist K = R oder K = C und ist (V, •, •) ein K-Prähilbertraum, so ist durch • : V → R+ x → v, v 0, eine Norm auf V definiert, die durch das Skalarprodukt induzierte Norm.
Beweis.
[9, 24]
Beispiel 10 Für a, b ∈ Rn gilt mit den Eigenschaften von Definition 2.18 auf der vorherigen Seite für das Standard-Skalarprodukt: 2
a + b = a + b, a + b = a, a + b + b, a + b = a, a + a, b + b, a + b, b 2
2
= a + 2 a b cos (a, b) + b . Stehen a und b aufeinander senkrecht, so ist cos (a, b) = 0. Die Vektoren a und b sind dann die Katheten eines rechtwinkeligen Dreiecks und a + b ist die Hypotenuse. Wir erhalten damit den Satz von Pythagoras: 2
2
2
a + b = a + b . Die folgende Ungleichung kann oft nützlich eingesetzt werden.
28
2 Mathematische Grundlagen und Notationen
Satz 2.21 Cauchy-Schwarzsche Ungleichung Ist (V, •, •) ein Prähilbertraum, so gilt die | x, y | ≤ x y ,
Beweis.
2.2.2
für alle x, y ∈ V.
[10]
Hilbertraum und Orthonormalbasis
Eine Folge (xn )n∈N von Vektoren xn ∈ V eines Prähilberträumes V heißt Cauchy-Folge, falls es zu jedem > 0 ein N ∈ N gibt, so dass xn − xm < für alle n, m > N . Die Folge konvergiert gegen ein v ∈ V , falls es zu jedem > 0 ein N ∈ N gibt, so dass xn − v < für alle n > N . Definition 2.22: Hilbertraum Es sei K = R oder K = C und (V, •, •) sei ein K-Prähilbertraum mit der induzierten Norm •. (V, •, •) heißt ein Hilbertraum, falls er vollständig ist, d.h. falls alle CauchyFolgen aus V bezüglich • gegen ein Element aus V konvergieren. (Cn , •, •) mit dem Standard-Skalarprodukt ist ein Beispiel für einen Hilbertraum. Auf endlichdimensionalen Hilberträumen lassen sich in einfacher Weise Orthogonalbasen betrachten. Dies funktioniert auch bei unendlichedimensionalen Hilberträumen, siehe [9], aber für Quantencomputer genügen endlichdimensionale Hilberträume. Definition 2.23: Orthonormalbasis, Hilbertbasis Es sei n ∈ N und es sei (V, •, •) ein n-dimensionaler K-Hilbertraum für K = R oder K = C. Eine Basis (v1 , . . . , vn ) von V heißt Orthonormalbasis oder Hilbertbasis, falls gilt vj , vk = δjk ,
für alle j, k = 1, . . . , n.
Dabei bezeichnet δjk das Kronecker-Symbol mit $ 1, für j = k, . δjk = 0, sonst Lemma 2.24 Hilbertbasis von Cn Für jedes n ∈ N bilden die Einheitsvektoren (e1 , . . . , en ) eine Orthonormalbasis von Cn versehen mit dem Standard-Skalarprodukt. Beweis. toren.
Folgt sofort aus den Definitionen des Standard-Skalarprodukts und der Einheitsvek
2.2 Hilberträume
2.2.3
29
Operatoren und Adjungierte
Definition 2.25: Lineare Abbildung Gegeben seien ein Körper K und zwei Vektorräume V und W über K. Eine Abbildung f : V →W heißt lineare Abbildung, wenn sie folgende beiden Forderungen erfüllt: (i) f(x + y) = f(x) + f(y), (ii) f(λx) = λf(x),
für alle x, y ∈ V .
(Additivität)
für alle x ∈ V und alle λ ∈ K.
(Homogenität)
Definition 2.26: Linearer Operator Es sei (V, •, •) ein K-Hilbertraum für K = R oder K = C. Eine lineare Abbildung A : V → V heißt Automorphismus oder linearer Operator auf V . Ist v ∈ V , so schreibt man auch abkürzend Av := A(v). Lineare Abbildungen zwischen endlichdimensionalen Vektorräumen lassen sich bezüglich gegebener Basen mit Hilfe einer Matrix darstellen. Ein linearer Operator A : Cn → Cn wird aus Bequemlichkeit oft mit der Matrix bezüglich der Einheitsbasis identifiziert.
Satz und Definition 2.27 Adjungierter Operator Es sei (V, •, •) ein K-Hilbertraum für K = R oder K = C. Ist A ein linearer Operator auf V , so gibt es genau einen linearen Operator A∗ mit der Eigenschaft A∗ x, y = x, Ay ,
für alle x, y ∈ V.
A∗ heißt adjungierter Operator zu A.
Beweis.
[9]
Lemma 2.28 Eigenschaften adjungierter Operatoren Es sei (V, •, •) ein K-Hilbertraum für K = R oder K = C. Für alle linearen Operatoren A, B auf V und α ∈ K gilt: ∗
(A + B) = A∗ + B ∗ ,
∗
(αA) = αA∗ ,
A∗ ∗ = A.
30
2 Mathematische Grundlagen und Notationen
Beweis. & % ∗ (A + B) x, y = x, (A + B)y = x, Ay + x, By %
∗
&
= A∗ x, y + B ∗ x, y = (A∗ + B ∗ )x, y ;
(αA) x, y = x, (αA)y = α x, Ay = α A∗ x, y = αA∗ x, y ; % ∗∗ & A x, y = x, A∗ y = A∗ y, x = y, Ax = Ax, y .
Definition 2.29: Selbstadjungierter Operator (hermitesch) Es sei (V, •, •) ein K-Hilbertraum für K = R oder K = C. Ein linearer Operator A heißt selbstadjungiert oder hermitesch, falls A = A∗ gilt.
2.3
Tensorprodukt
2.3.1
Kartesisches Produkt
Die Elemente eines kartesischen Raumes V ×W bestehen aus den Tupeln (v, w) mit Elementen aus V und W .
Definition 2.30: Tupel, kartesischer Produktraum Zu einem Körper K sei V ein n-dimensionaler K-Vektorraum und W ein m-dimensionaler K-Vektorraum. Für v ∈ V und w ∈ W heiße (v, w) ein Tupel mit den Komponenten v und w. Die Menge aller solchen Tupel ⏐ V × W := (v, w) ⏐ v ∈ V, w ∈ W heißt Produktraum (kartesisches Produkt von Vektorräumen). Auf V × W sei definiert die innere Verknüpfung „+“ (v, w) + (ˆ v, w) ˆ := (w + vˆ, w + w), ˆ
für alle (v, w), (ˆ v , w) ˆ ∈V ×W
und die äußere Verknüpfung „·“ λ · (v, w) := (λv, λw),
für alle
(v, w) ∈ V × W, λ ∈ K.
2.3 Tensorprodukt
31
Satz 2.31 Vektorraumeigenschaft des kartesischen Produktraumes Ist K ein Körper und ist V ein n-dimensionaler K-Vektorraum und W ein m-dimensionaler K-Vektorraum, so ist der kartesische Produktraum V × W mit seinen Verknüpfungen ein (n + m)-dimensionaler K-Vektorraum. Ist (v1 , . . . , vn ) eine Basis von V und (w1 , . . . , wm ) eine Basis vom W , so ist durch ((v1 , 0), . . . , (vn , 0), (0, w1), . . . , (0, wm)) eine Basis von V × W gegeben.
Definition 2.32: Mehrfache Bildung kartesischer Produkte Zu einem Körper K seien die endlichdimensionalen Vektorräume U, V, W gegeben. Die kanonisch isomorphen Räume (U × V ) × W und U × (V × W ) werden identifiziert und man schreibt U × V × W = (U × V ) × W = U × (V × W ). Für n ∈ N definiert man weiter U n := U × U . . . × U
2.3.2
(n-fach).
Konstruktion des Tensorproduktes
In Analogie zu Tupeln und Produktraum werden nun Tensoren und Tensorraum eingeführt. Ein Tensor x ⊗ y ist wie das Tupel (x, y) ein neues Objekt der Anschauung. Im Unterschied zu den Tupeln erweitert man die Menge der Tensoren um formale Summen von Tensoren der Art x ⊗ y, die man dann auch wieder Tensoren nennt. Definition 2.33: Tensor, Tensorraum Zu einem Körper K sei V ein n-dimensionaler K-Vektorraum mit einer Basis (v1 , . . . , vn ), und W sei ein m-dimensionaler K-Vektorraum mit einer Basis (w1 , . . . , wm ). (i) Für x ∈ V und y ∈ W heißt x ⊗ y ein zerlegbarer Tensor mit den Komponenten x und y. (ii) Die Menge ⎧ ⎫ m n ⎨ ⏐ ⎬ V ⊗ W := t ⏐ t = tjk · vj ⊗ wk mit tjk ∈ K ⎩ ⎭ j=1 k=1
heißt Tensorraum (Tensorprodukt von Vektorräumen) und jedes t ∈ V ⊗ W heißt Tensor. t wird bezüglich der gegebenen Basen eindeutig durch die Faktoren tjk cha'n ' m rakterisiert, die rein formal über j=1 k=1 tjk · vj ⊗ wk verknüpft sind.
32
2 Mathematische Grundlagen und Notationen (iii) Es gelte die Fundamentalidentität für alle x =
n ' j=1
x⊗y =
m n
xj vj ∈ V, y =
m ' k=1
yk wk ∈ W :
xj · yk · vj ⊗ wk .
j=1 k=1
(iv) Auf V ⊗ W sei definiert die innere Verknüpfung „+“ s + t :=
m n
(sjk + tjk ) · vj ⊗ wk ,
für alle
s, t ∈ V ⊗ W
j=1 k=1
und die äußere Verknüpfung „·“ λ · t :=
m n
(λ · tjk ) · vj ⊗ wk ,
für alle
t ∈ V ⊗ W, λ ∈ K.
j=1 k=1
In der Konstruktion des Tensorraumes wurden beliebige, aber fest gewählte Basen von V und W verwendet. Aufgrund der Fundamentalidentität ist der Tensorraum aber unabhängig von den jeweils gewählten Basen. Man betrachte dazu eine alternative Basis (ˆ v1 , . . . , vˆn ) von V und eine alternative Basis (w ˆ1, . . . , w ˆ m ) von W mit vˆp =
n
hpj vj ,
wˆq =
j=1
m
gqk wk .
k=1
ˆ definiert. Für ein t ∈ V ⊗W ˆ gilt dann Mit diesen Basen sei nun der Tensorraum V ⊗W t=
m n
ˆ tpq · vˆp ⊗ wˆq
p=1 q=1
=
( n m m n j=1 k=1
=
Fund.id.
n m
tˆpq ·
p=1 q=1
)
hpj · tˆpq · gqk
m n
hpj · gqk · vj ⊗ wk
j=1 k=1
· vj ⊗ wk ∈ V ⊗ W.
p=1 q=1
Entsprechend zeigt man die umgekehrte Richtung. Der Tensorraum V ⊗ W , also die Menge der Tensoren, ist somit unabhängig von der gewählten Basis. Die Darstellung eines Tensors mit seinen Faktoren ist aber natürlich basisabhängig. Satz 2.34 Vektorraumeigenschaft des Tensorraumes Ist K ein Körper und ist V ein n-dimensionaler K-Vektorraum und W ein m-dimensionaler K-Vektorraum, so ist der Tensorraum V ⊗ W mit seinen Verknüpfungen ein (n · m)-dimensionaler K-Vektorraum. Ist (v1 , . . . , vn ) eine Basis von V und (w1 , . . . , wm) eine Basis vom W , so ist durch (v1 ⊗ w1 , . . . , vn ⊗ wm ) eine Basis von V ⊗ W gegeben.
2.3 Tensorprodukt
33
Beweis. Zum Vektorraum-Nachweis müssen die acht definierenden Eigenschaften nachgewiesen werden. (V1) In (V ⊗ W, +) gilt das assoziative Gesetz, denn für alle t, s, u ∈ V ⊗ W folgt sofort mit Definition 2.33 auf Seite 31 t + (s + u) = (t + s) + u. (V2) Es existiert ein Nulltensor 0 ∈ V ⊗ W , nämlich 0 :=
m
0 · vj ⊗ wk ,
k=1
wobei für alle t ∈ V ⊗ W ⊗ W gilt t + 0 = 0 + t = t. (V3) Zu jedem Tensor t ∈ V ⊗ W existiert ein negativer Tensor −t ∈ V ⊗ W , nämlich −t :=
m n
(−tjk ) · vj ⊗ wk
j=1 k=1
mit t + (−t) = (−t) + t = 0,
Abkürzung: t − t = −t + t = 0.
(V4) In (V ⊗ W, +) gilt das kommutative Gesetz sofort mit Definition 2.33 auf Seite 31, d.h. für alle s, t ∈ V ⊗ W gilt s + t = t + s. (V5) Für alle α, β ∈ K und alle t ∈ V ⊗ W gilt (α · β) · t = (α · β) ·
m n
tjk · vj ⊗ wk
j=1 k=1
= =
m n
((α · β) · tjk ) · vj ⊗ wk
j=1 k=1 m n
(α · (β · tjk )) · vj ⊗ wk
j=1 k=1 m n
=α·
(β · tjk ) · vj ⊗ wk = α · (β · t).
j=1 k=1
34
2 Mathematische Grundlagen und Notationen
(V6) Für alle α, β ∈ K und alle t ∈ V ⊗ W gilt (α + β) · t = (α + β) ·
m n
tjk · vj ⊗ wk
j=1 k=1
= = =
m n
((α + β) · tjk ) · vj ⊗ wk
j=1 k=1 m n
(αtjk + βtjk ) · vj ⊗ wk
j=1 k=1 m n
αtjk · vj ⊗ wk +
j=1 k=1
m n
βtjk · vj ⊗ wk
j=1 k=1
= α · t + β · t. (V7) Für alle α ∈ K und alle s, t ∈ V ⊗ W gilt α · (s + t) = α ·
n m
(sjk + tjk ) · vj ⊗ wk
j=1 k=1
= =
n m
(α · (sjk + tjk )) · vj ⊗ wk
j=1 k=1 m n
(α · sjk + α · tjk ) · vj ⊗ wk = α · s + α · t.
j=1 k=1
(V8) Für alle t ∈ V ⊗ W gilt 1·t=1· =
m n
tjk · vj ⊗ wk =
j=1 k=1 m n
m n
(1 · tjk ) · vj ⊗ wk
j=1 k=1
tjk · vj ⊗ wk = t.
j=1 k=1
Weiter gilt, dass ein Tensor t ∈ V ⊗ W genau dann der Nulltensor ist, wenn gilt t=
m n
tjk · vj ⊗ wk
mit tjk = 0 für alle 1 ≤ j ≤ n, 1 ≤ k ≤ m.
j=1 k=1
Das ist aber gleichbedeutend damit, dass die Tensoren v1 ⊗w1 , . . . , vn ⊗wm linear unabhängig sind. Da sich jeder Tensor als Linearkombination dieser Tensoren darstellen lässt, liegt damit eine Basis vor. Somit ist V ⊗ W mit seinen Verknüpfungen ein (n · m)-dimensionaler KVektorraum.
2.3 Tensorprodukt
35
Satz 2.35 Bilinearität der kanonischen Abbildung Zu einem Körper K seien die endlichdimensionalen Vektorräume V und W gegeben. Die kanonische Abbildung τ : V × W → V ⊗ W,
(v, w) → v ⊗ w
ist bilinear, d.h. für alle x, x ˆ ∈ V , y, yˆ ∈ W , λ ∈ K gilt (x + xˆ) ⊗ y = x ⊗ y + xˆ ⊗ y, x ⊗ (y + yˆ) = x ⊗ y + x ⊗ yˆ, λ(x ⊗ y) = (λx) ⊗ y = x ⊗ (λy).
Beweis. (x + x ˆ) ⊗ y = = =
m n j=1 k=1 m n j=1 k=1 m n
(xj + xˆj ) · yk · vj ⊗ wk (xj yk + x ˆj yk ) · vj ⊗ wk xj yk · vj ⊗ wk +
j=1 k=1
m n
x ˆj yk · vj ⊗ wk
j=1 k=1
= x⊗y+x ˆ ⊗ y, x ⊗ (y + yˆ) = x ⊗ y + x ⊗ yˆ (analog), m m n n λ(x ⊗ y) = λ xj · yk · vj ⊗ wk = λ · xj · yk · vj ⊗ wk j=1 k=1
= =
m n j=1 k=1 n m
j=1 k=1
(λ · xj ) · yk · vj ⊗ wk = (λx) ⊗ y xj · (λ · yk ) · vj ⊗ wk = x ⊗ (λy).
j=1 k=1
Definition 2.36: Mehrfache Bildung von Tensorräumen Zu einem Körper K seien die endlichdimensionalen Vektorräume U, V, W gegeben. Die kanonisch isomorphen Räume (U ⊗ V ) ⊗ W und U ⊗ (V ⊗ W ) werden identifiziert und man schreibt U ⊗ V ⊗ W = (U ⊗ V ) ⊗ W = U ⊗ (V ⊗ W ).
36
2 Mathematische Grundlagen und Notationen Für n ∈ N definiert man weiter U ⊗n := U ⊗ U . . . ⊗ U
(n-fach).
Satz 2.37 Multilinearität der kanonischen Abbildung Zu einem Körper K seien die endlichdimensionalen Vektorräume V1 , . . . , Vp gegeben. Die kanonische Abbildung τ : V1 × . . . × Vp → V1 ⊗ . . . ⊗ Vp ,
(v1 , . . . , vp) → v1 ⊗ . . . ⊗ vp
ist multilinear. Beweis.
2.3.3
Der Beweis folgt durch induktive Anwendung von Satz 2.35 auf der vorherigen Seite.
Charakterisierungssatz des Tensorproduktes
Satz 2.38 Charakterisierungssatz des Tensorproduktes Zu einem Körper K seien die endlichdimensionalen Vektorräume V1 , . . . , Vp und der endlichdimensionale Vektorraum U gegeben und man betrachte die kanonische Abbildung τ : V1 × . . . × Vp → V1 ⊗ . . . ⊗ Vp ,
(v1 , . . . , vp) → v1 ⊗ . . . ⊗ vp .
Zu jeder multilinearen Abbildung B : V1 × . . . × Vp → U gibt es genau eine lineare Abbildung b : V1 ⊗ . . . ⊗ Vp → U mit der Eigenschaft B = b ◦ τ. Das folgende Diagramm ist somit kommutativ: V1 × . . . × Vp
τ
B
V1 ⊗ . . . ⊗ Vp b
U
2.3 Tensorprodukt
37
Beweis. Der Beweis wird geführt für p = 2 mit V := V1 und W := V2 . Die allgemeine Aussage folgt dann induktiv. Im ersten Schritt wird gezeigt, dass zu einer gegebenen linearen Abbildung b : V ⊗ W → U genau eine bilineare Abbildung B : V × W → U existiert mit B = b ◦ τ . Diese Aussage ist aber trivial, da τ bilinear ist und b linear, d.h. B = b ◦ τ ist damit sofort bilinear. Nun sei eine bilineare Abbildung B : V × W → U gegeben und wir konstruieren eine zugehörige lineare Abbildung b : V ⊗ W → U . Die Abbildungsvorschrift für b wird zunächst für die zerlegbaren Tensoren x ⊗ y ∈ V ⊗ W festgelegt: b(x ⊗ y) = b ◦ τ (x, y) := B(x, y). Ist (v1 , . . . , vn ) eine Basis von V und (w1 , . . . , wm ) eine Basis vom W , so bedeutet dies b(vj ⊗ wk ) = B(vj , wk )
für alle 1 ≤ j ≤ n, 1 ≤ k ≤ m,
d.h. die Abbildung b ist auf einer Basis von V ⊗ W eindeutig festgelegt und somit ist über b(t) :=
m n
tjk B(vj , wk ).
j=1 k=1
die eindeutige lineare Abbildung b auf V ⊗ W festgelegt. Es gilt insbesondere ⎛ ⎞ m n n m xj yk B(vj , wk ) = B ⎝ xj vj , yk wk ⎠ = B(x, y), b(x ⊗ y) = j=1 k=1
j=1
k=1
d.h. diese lineare Abbildung erfüllt (notwendigerweise) für alle Tensoren x ⊗ y ∈ V ⊗ W die Eigenschaft b(x ⊗ y) = b ◦ τ (x, y) := B(x, y).
38
2.3.4
2 Mathematische Grundlagen und Notationen
Tensorprodukt von Hilberträumen
Das Tensorprodukt von Hilberträumen ist in kanonischer Weise selbst ein Hilbertraum.
Satz 2.39 Tensorprodukt von Hilberträumen Es sei (V, +, ·, •, •V ) ein n-dimensionaler C-Hilbertraum mit einer Basis (v1 , . . . , vn ), und (W, +, ·, •, •W ) sei ein m-dimensionaler C-Hilbertraum mit einer Basis (w1 , . . . , wm ). Dann ist durch •, • : (V ⊗ W ) × (V ⊗ W ) → C m m n n (t, s) → tjk · spq · vj , vp V · wk , wq W j=1 k=1 p=1 q=1
ein Skalarprodukt auf V ⊗ W gegeben. Insbesondere gilt x ⊗ y, x ˆ ⊗ yˆ = x, x ˆV · y, yˆW
für alle x ⊗ y, x ˆ ⊗ yˆ ∈ V ⊗ W.
Sind (v1 , . . . , vn ) und (w1 , . . . , wm) jeweils Orthonormalbasen, so gilt t, s =
m n
tjk · sjk
für alle t, s ∈ V ⊗ W.
j=1 k=1
(V ⊗ W, +, ·, •, •) ist ein (n · m)-dimensionaler C-Hilbertraum.
Beweis. Der Beweis der Skalarprodukteigenschaft erfolgt durch einfaches Nachprüfen: Man betrachte t, s, r ∈ V ⊗ W und λ ∈ C: s, t =
n n m m
sjk · tpq · vj , vp V · wk , wq W
j=1 k=1 p=1 q=1
= = t, s + r =
n n m m j=1 k=1 p=1 q=1 m n m n p=1 q=1 j=1 k=1 m m n n
sjk · tpq · vp , vj V · wq , wk W tpq · sjk · vp , vj V · wq , wk W = t, s . tjk · (spq + rpq ) · vj , vp V · wk , wq W
j=1 k=1 p=1 q=1
= t, s + t, r . m n n m t, λs = tjk · (λspq ) · vj , vpV · wk , wq W = λ t, s . j=1 k=1 p=1 q=1
2.3 Tensorprodukt
39
Sind (v1 , . . . , vn ) und (w1 , . . . , wm) jeweils Orthonormalbasen, so gilt vj , vp V = δjp
wk , wq W = δkq
und
und damit m n
t, s =
tjk · sjk
für alle t, s ∈ V ⊗ W.
j=1 k=1
Mit dieser Darstellung folgt auch sofort t, t =
m n
tjk · tjk =
j=1 k=1
m n
|tjk |2 ≥ 0
und
t, t = 0 nur für t = 0.
j=1 k=1
Schließlich betrachte man für beliebige Basen noch x=
n
xj vj , x ˆ=
j=1
n
x ˆp vp ∈ V,
y=
p=1
m
yk wk , yˆ =
m
yˆq wq ∈ W.
q=1
k=1
Es gilt: x ⊗ y, x ˆ ⊗ yˆ =
m m n n
xj yk · x ˆ p yˆq · vj , vp V · wk , wq W
j=1 k=1 p=1 q=1
=
* n j=1
xj vj ,
n
+ ·
x ˆp vp
p=1
*m
V
yk wk ,
k=1
m q=1
+ yˆq wq W
= x, x ˆV · y, yˆW Die Vollständigkeit von V ⊗ W zeigt man elementar über Verwendung von Orthonormalbasen.
2.3.5
Tensorprodukt von Tupelräumen
Das Tensorprodukt zweier Tupelräume Kn und Km ergibt einen (n · m)-dimensionalen Vektorraum Kn ⊗ Km . Dieser könnte mit dem Matrizenvektorraum Kn,m identifiziert werden, aber diese Identifikation ist nicht verträglich mit einer mehrfachen Anwendung des Tensorproduktes. Daher identifiziert man Kn ⊗ Km mit Knm , wobei die Basis lexikographisch angeordnet wird. Definition 2.40: Kanonisches Tensorprodukt von Tupelräumen Gegeben seien ein Körper K und n, m ∈ N. Weiter seien e1 , . . . , en und f1 , . . . , fm die Einheitsvektoren von Kn und Km und es seien g1 , . . . , gnm die Einheitsvektoren von Knm . Das kanonische Tensorprodukt sei definiert durch die Identifikation Kn ⊗ Km ≡ Knm , wobei die Basis des Kn ⊗ Km in lexikographischer Reihenfolge der Basis des Knm zugeordnet werde, also ej ⊗ fk = g(j−1)·m+k
für alle 1 ≤ j ≤ n, 1 ≤ k ≤ m.
40
2 Mathematische Grundlagen und Notationen
Lemma 2.41 Kanonisches Tensorprodukt Gegeben seien ein Körper K und n, m ∈ N. Unter Verwendung des kanonischen Tensorproduktes gilt: ⎞ x1 y1 ⎜ x1 y2 ⎟ ⎜ . ⎟ ⎟ ⎜ ⎛ ⎞ ⎛ ⎞ ⎜ .. ⎟ x1 y1 ⎟ ⎜ ⎜ x1 ym ⎟ ⎜ x2 ⎟ ⎜ y2 ⎟ ⎜ x y ⎟ ⎜ . ⎟ ⊗ ⎜ . ⎟ = ⎜ 2 1 ⎟ . für alle x ∈ Kn , y ∈ Km . ⎝ . ⎠ ⎝ . ⎠ ⎜ . ⎟ . . ⎜ . ⎟ ⎜ . ⎟ xn ym ⎜x y ⎟ ⎜ 2 m⎟ ⎜ . ⎟ ⎝ .. ⎠ ⎛
xn ym
Beweis. Der Beweis folgt mit Definition 2.33 auf Seite 31 und Definition 2.40 auf der vorherigen Seite. Lemma 2.42 Verträglichkeit der Tensorraumidentifikation Gegeben seien ein Körper K und n, m, p ∈ N. Die Identifikation des Tensorraumes mit einem Tupelraum ist verträglich mit der mehrfachen Produktbildung, d.h. es gilt (Kn ⊗ Km ) ⊗ Kp = Knm ⊗ Kp = Knmp = Kn ⊗ Kmp = Kn ⊗ (Km ⊗ Kp ) , (x ⊗ y) ⊗ z = x ⊗ (y ⊗ z) für alle x ∈ Kn , y ∈ Km , z ∈ Kp .
Beweis. Der Beweis folgt sofort aufgrund der Erweiterbarkeit der lexikographischen Anordnungstruktur.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
41
Beispiel 11 Für alle x ∈ K2 , y ∈ K3 und z ∈ K2 gilt: ⎞ ⎛ x1 y1 z1 ⎜x1 y1 z2 ⎟ ⎟ ⎜ ⎜x1 y2 z1 ⎟ ⎟ ⎜ ⎜x1 y2 z2 ⎟ ⎟ ⎜ ⎛ ⎞ x y z ⎟ ⎜ y1 ⎜ 1 3 1⎟ x1 z ⎜x y z ⎟ ⊗ ⎝y2 ⎠ ⊗ 1 = ⎜ 1 3 2 ⎟ . x⊗y⊗z = x2 x2 ⎜x2 y1 z1 ⎟ y3 ⎜x y z ⎟ ⎜ 2 1 2⎟ ⎜x y z ⎟ ⎜ 2 2 1⎟ ⎜x y z ⎟ ⎜ 2 2 2⎟ ⎝x2 y3 z1 ⎠ x2 y3 z2
2.4
Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
Im Folgenden werden grundlegende Begriffe der Wahrscheinlichkeitstheorie eingeführt, die hier Verwendung finden. Dieser Überblick folgt der Darstellung in [11, 17–19, 22].
2.4.1
Maße auf σ-Algebren
Wir betrachten eine beliebige nichtleere Basismenge Ω. Eine Menge F ⊆ P(Ω) wird als Mengensystem (über Ω) bezeichnet, wobei P die Potenzmenge (Menge aller Teilmengen) von Ω darstellt. Mit R := R ∪ {−∞, +∞} wird eine Erweiterung der Menge aller reellen Zahlen definiert. Die algebraische Struktur von R wird folgendermaßen auf R erweitert: Für alle a ∈ R gilt: a + (±∞) = (±∞) + a = (±∞) + (±∞) = (±∞), +∞ − (−∞) = +∞, ⎧ ⎨ (±∞), für a > 0, 0, für a = 0, a · (±∞) = (±∞) · a = ⎩ (∓∞), für a < 0, a (±∞) · (±∞) = +∞, (±∞) · (∓∞) = −∞, = 0. ±∞ Somit ist R kein Körper. Die Vorzeichen bei ±∞ dürfen bei den obigen Formeln nicht kombiniert werden, denn der Ausdruck +∞−(+∞) ist nicht definiert. Die Bedeutung der Festlegung 0 · (±∞) = (±∞) · 0 = 0 wird später deutlich. Vorsicht ist allerdings bei den Grenzwertsätzen geboten: 1 lim = (+∞) · 0 = 0. x· x→+∞ x
42
2 Mathematische Grundlagen und Notationen
Ergänzt man die Ordnungsstruktur von R durch −∞ < a, a < +∞ für alle a ∈ R und −∞ < +∞, so ist (R, ≤) eine geordnete Menge. Aufgrund topologischer Überlegungen können wir unter Verzicht auf die entsprechenden Grenzwertsätze vereinbaren, dass die Folge (n)n∈N den Grenzwert +∞ ∈ R besitzt. Für „+∞“ schreiben wir oft „∞“. In Analogie zur Berechnung von Volumina in der Geometrie versucht man, Mengen aus einem Mengensystem F über Ω Maße (Volumina) zuzuordnen. Zu diesem Zweck zeichnet man spezielle Funktionen aus. Definition 2.43: (σ-endliches) Maß Sei F ⊆ P(Ω), ∅ ∈ F. Eine Funktion μ : F → R heißt Maß auf F , falls die folgenden Bedingungen erfüllt sind: (M1) μ(A) ≥ 0
für alle A ∈ F ,
(M2) μ(∅) = 0, (M3) Für jede Folge (Ai )i∈N paarweise disjunkter Mengen mit Ai ∈ F , ∞ , i ∈ N, und Ai ∈ F gilt: i=1
μ
(∞ -
) Ai
i=1
=
∞
μ(Ai )
(σ-Additivität).
i=1
Besitzen für eine Folge (Bi )i∈N mit Bi ⊆ Bi+1 , Bi ∈ F und i ∈ N, ein endliches Maß, so wird μ als σ-endlich bezeichnet.
∞ , i=1
Bi = Ω alle Mengen Bi ,
Es wäre naheliegend, Maße auf der Potenzmenge von Ω zu betrachten. Allerdings ist diese Vorgehensweise problematisch, da es zum Beispiel nicht möglich ist, ein translationsinvariantes Maß μ auf der Potenzmenge des R3 mit μ(R3 ) = 1 zu finden. Daher hat man sich im Allgemeinen mit speziellen Mengensystemen über Ω (Teilmengen der Potenzmenge) zu begnügen. Dies führt auf den Begriff der σ-Algebra. Definition 2.44: σ-Algebra Ein Mengensystem S ⊆ P(Ω) heißt σ-Algebra über Ω, falls die folgenden Axiome erfüllt sind: (S1) Ω ∈ S, (S2) Aus A ∈ S folgt Ac := Ω \ A ∈ S, (S3) Aus Ai ∈ S, i ∈ N, folgt
∞ , i=1
Ai ∈ S.
Die folgende Eigenschaft von σ-Algebren ist wichtig.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
43
Satz 2.45 Durchschnittsstabilität von σ-Algebren Sei I eine.beliebige nichtleere Menge und Si für jedes i ∈ I eine σ-Algebra über Ω, so ist auch Si eine σ-Algebra über Ω. Diese Eigenschaft wird Durchschnittsstabilität von i∈I
σ-Algebren genannt. Wir können also von erzeugten σ-Algebren sprechen. Definition 2.46: Erzeugte σ-Algebra Sei F ⊆ P(Ω) und sei Σ.die Menge aller σ-Algebren über Ω, die F enthalten, dann wird die σ-Algebra σ(F ) := S als die von F erzeugte σ-Algebra bezeichnet. S∈Σ
Für Ω = Rn , n ∈ N, betrachten wir die σ-Algebra Bn = σ({([a1 , b1 [× . . . × [an , bn [) ∩ Rn ; −∞ ≤ ai ≤ bi ≤ ∞, i = 1, . . . , n}), wobei [a1 , b1 [× . . . × [an , bn [ := ∅, falls aj ≥ bj für mindestens ein j ∈ {1, . . . , n}. Auf dieser σ-Algebra lässt sich nun ein eindeutiges Maß λn durch ⎧ n ⎨/ (b − ai ), falls alle bi > ai , λn (([a1 , b1 [× . . . × [an , bn [) ∩ Rn ) = i=1 i ⎩ 0, sonst festlegen. Dieses Maß heißt Lebesgue-Borel-Maß. Die σ-Algebra Bn wird als Borelsche σAlgebra bezeichnet. Alle für die Praxis wichtigen Teilmengen des Rn (etwa alle offenen, abgeschlossenen und kompakten Teilmengen) sind in Bn enthalten. Das Maß λn ist unter allen translationsinvarianten Maßen μ auf Bn das einzige Maß mit μ ([0, 1[× . . . × [0, 1[) = 1. Sei nun μ ein Maß auf einer σ-Algebra S über Ω, so heißt jede Menge A ∈ S mit μ(A) = 0 eine μ-Nullmenge. Es ist nun naheliegend, jeder Teilmenge B ⊆ A einer μ-Nullmenge ebenfalls das Maß μ(B) = 0 zuzuordnen. Allerdings ist nicht gewährleistet, dass für jedes B ⊆ A auch B ∈ S gilt. Das führt zum Begriff der Vervollständigung und des vollständigen Maßes. Definition 2.47: Vollständiges Maß, Vervollständigung Ein Maß μ auf einer σ-Algebra S über Ω heißt vollständig, falls jede Teilmenge einer μNullmenge zu S gehört und damit eine μ-Nullmenge ist. Ist μ nicht vollständig, so heißt die σ-Algebra S0 := {A ∪ N ; A ∈ S, N Teilmenge einer μ-Nullmenge} μ-Vervollständigung von S. Mit μ0 (A ∪ N ) := μ(A) ist μ0 ein vollständiges Maß auf S0 . Die Mengen der σ-Algebra B0n heißen Lebesgue-messbare Mengen. Das Maß λn0 auf B0n heißt Lebesgue-Maß. Die zugehörigen Nullmengen heißen Lebesguesche Nullmengen. Betrachtet man eine Funktion F : R → R mit folgenden Eigenschaften:
44
2 Mathematische Grundlagen und Notationen • F ist monoton steigend, • F ist stetig von links,
so ist durch
μF ([a, b[ ∩ R) :=
⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨
F (b) − F (a),
falls − ∞ < a < b < ∞
lim F (b) − F (a),
falls − ∞ < a < b = ∞
b→∞
F (b) − lim F (a), falls − ∞ = a < b < ∞ a→−∞ ⎪ ⎪ ⎪ ⎪ lim F (b) − lim F (a), falls − ∞ = a, b = ∞ ⎪ ⎪ a→−∞ ⎪ ⎩ b→∞ 0, falls a ≥ b
ein eindeutiges Maß μF auf B definiert. Dieser Sachverhalt führt zu folgender Definition. Definition 2.48: Maßerzeugende Funktion Eine monoton steigende Funktion F : R → R, die stetig von links ist, heißt maßerzeugende Funktion. F Das Maß μF heißt Lebesgue-Borel-Stieltjes-Maß. Das vollständige Maß μF 0 auf der μ -VerF F vollständigung B0 von B heißt Lebesgue-Stieltjes-Maß. Die Mengen A ∈ B0 heißen LebesgueStieltjes-messbar. Durch analoge Vorgehensweise lassen sich maßerzeugende Funktionen auf Ω = Rn definieren. Wir wollen darauf aber nicht näher eingehen.
Definition 2.49: Messraum, Maßraum Ist S eine σ-Algebra über Ω, so heißt das Paar (Ω, S) Messraum. Ist μ ein Maß auf S, so heißt das Tripel (Ω, S, μ) Maßraum. Nun untersuchen wir spezielle Funktionen zwischen zwei Grundmengen Ω1 , Ω2 = ∅. Definition 2.50: Messbare Abbildung Seien (Ω1 , S1 ) und (Ω2 , S2 ) zwei Messräume. Eine Abbildung T : Ω1 → Ω2 mit T −1 (A ) := {x ∈ Ω1 ; T (x) ∈ A } ∈ S1 für alle A ∈ S2 heißt S1 -S2 -messbar. Messbare Abbildungen spielen in der Wahrscheinlichkeitstheorie bei der Definition von Zufallsvariablen eine wichtige Rolle. Der folgende Satz zeigt, dass für den Nachweis der Messbarkeit einer Abbildung nicht immer das Urbild T −1 (A ) für alle Mengen A ∈ S2 untersucht werden muss.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
45
Satz 2.51 Messbarkeit bei einer erzeugten σ-Algebra Seien (Ω1 , S1 ) und (Ω2 , S2 ) zwei Messräume, wobei S2 = σ(F ) von einem Mengensystem F erzeugt ist. Die Abbildung T : Ω1 → Ω2 ist genau dann S1 -S2 -messbar, falls T −1 (A ) ∈ S1 für alle A ∈ F .
Sind drei Messräume (Ω1 , S1 ), (Ω2 , S2 ), (Ω3 , S3 ) und zwei Abbildungen T1 : Ω1 → Ω2 , T1 S1 -S2 -messbar, T2 : Ω2 → Ω3 , T2 S2 -S3 -messbar, gegeben, so ist die Abbildung T2 ◦ T1 : Ω1 → Ω3 , ω → T2 (T1 (ω)), S1 -S3 -messbar.
Satz 2.52 Bildmaß Seien (Ω1 , S1 , μ1 ) ein Maßraum, (Ω2 , S2 ) ein Messraum und T : Ω1 → Ω2 S1 -S2 -messbar, so ist durch 1 2 μ2 (A ) := μ1 T −1 (A ) , A ∈ S2 , ein Maß μ2 auf S2 definiert. Das Maß μ2 wird als Bildmaß von μ1 bezeichnet mit der Schreibweise μ2 = T (μ1 ).
2.4.2
Der Integralbegriff von Lebesgue
Um Zufallsgrößen analysieren zu können, benötigt man einen Integralbegriff. Daher soll im Folgenden kurz die Integrationstheorie für messbare Abbildungen zusammengefasst werden. Zunächst betrachten wir die Integration einer speziellen Klasse von Funktionen.
Definition 2.53: elementare Funktion Sei (Ω, S) ein Messraum. Eine S-B-messbare Funktion e : Ω → R heißt elementare Funktion, falls sie nur endlich viele verschiedene Funktionswerte annimmt.
Eine spezielle elementare Funktion ist die Indikatorfunktion $ IA : Ω → R,
ω →
1, falls ω ∈ A 0, sonst
,
die anzeigt, ob ω Element einer Menge A ∈ S ist. Mit Hilfe von Indikatorfunktionen lassen sich die elementaren Funktionen darstellen.
46
2 Mathematische Grundlagen und Notationen
Satz 2.54 Darstellung elementarer Funktionen Sei (Ω, S) ein Messraum. Ist e : Ω → R eine elementare Funktion, so existieren eine natürliche Zahl n, paarweise disjunkte Mengen A1 , . . . , An ∈ S und reelle Zahlen α1 , . . . , αn mit: e=
n
αi IAi ,
i=1
n
Ai = Ω.
i=1
Die eben betrachtete Darstellung von e heißt eine Normaldarstellung von e. Sind alle αi paarweise verschieden, so spricht man von einer kürzesten Normaldarstellung von e. Kürzeste Normaldarstellungen sind eindeutig. Aus der Normaldarstellung elementarer Funktionen folgt sofort: Summe, Differenz und Produkt elementarer Funktionen sind elementare Funktionen. Für alle c ∈ R ist auch c · e eine elementare Funktion, wenn e eine elementare Funktion ist. Nun betrachten wir nichtnegative elementare Funktionen auf einem Maßraum (Ω, S, μ) und definieren das (μ-)Integral dieser Funktionen. Definition 2.55: (μ-)Integral nichtnegativer elementarer Funktionen Sei (Ω, S, μ) ein Maßraum und e : Ω → R+ 0, e =
n ' i=1
αi IAi , αi ≥ 0, i = 1, . . . , n, eine
nichtnegative elementare Funktion in Normaldarstellung, so wird
e dμ :=
e dμ := Ω
n
αi · μ(Ai )
i=1
als (μ-)Integral von e über Ω bezeichnet. 3 3 Damit e dμ wohldefiniert ist, ist natürlich zu zeigen, dass e dμ unabhängig von der Wahl der Normaldarstellung für e ist. Sei nun E die Menge aller nichtnegativen elementaren Funktionen auf (Ω, S, μ), so erhalten wir eine Abbildung Int : E → R+ , e → e dμ. 0 Die folgenden Eigenschaften von Int lassen sich leicht nachweisen: •
3
IA dμ = μ(A) für alle A ∈ S. 3 • (αe)dμ = α e dμ für alle e ∈ E, α ∈ R+ 0. 3 3 3 • (u + v)dμ = u dμ + v dμ für alle u, v ∈ E. 3 3 • Ist u(ω) ≤ v(ω) für alle ω ∈ Ω, so ist u dμ ≤ v dμ für alle u, v ∈ E. 3
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
47
Wählen wir Ω = Rn , S = Bn , μ = λn und f : Ω → R+ 0 , x → 0, so erhalten wir
0 dλn = 0 · λn (Rn ) = 0 · ∞ = 0.
f dλn =
Unsere Vereinbarung 0 · ∞ = 0 erlaubt uns somit, das (λn -)Integral über die Nullfunktion zu berechnen. Betrachtet man die Menge R der um {±∞} erweiterten reellen Zahlen, so bildet die Menge B¯ := A ∈ P(R); A ∩ R ∈ B eine σ-Algebra über R. Um nun den Integralbegriff auf eine größere Klasse von Funktionen fortzusetzen, benötigen wir die folgende Definition. Definition 2.56: numerische Funktion Eine auf einer nichtleeren Menge A ⊆ Ω definierte Funktion f : A → R heißt numerische Funktion. Nun betrachten wir nichtnegative numerische Funktionen, die als Grenzwert einer Folge elementarer Funktionen gegeben sind. Satz 2.57 Grenzwerte spezieller Folgen elementarer Funktionen ¯ Seien (Ω, S) ein Messraum und f : Ω → R+ 0 eine nichtnegative, S-B-messbare numerische Funktion, so gibt es eine monoton steigende Folge (en )n∈N von nichtnegativen elementaren Funktionen en : Ω → R+ 0 , n ∈ N, die punktweise gegen f konvergiert. Wir schreiben dafür: en ↑ f. Nach diesen Vorbereitungen sind wir in der Lage, die (μ-)Integration auf eine spezielle Klasse von Funktionen in naheliegender Weise fortzusetzen. Definition 2.58: (μ-)Integral für messbare, nichtnegative numerische Funktionen ¯ Seien (Ω, S, μ) ein Maßraum und f : Ω → R+ 0 eine S-B-messbare, nichtnegative numerische Funktion. Sei ferner (en )n∈N eine monoton steigende Folge nichtnegativer elementarer Funktionen en : Ω → R+ 0 , n ∈ N, mit en ↑ f, so definieren wir durch en dμ f dμ := f dμ := lim n→∞
Ω
das (μ-)Integral von f über Ω. Da die approximierende Folge elementarer Funktionen für f nicht eindeutig ist, muss natürlich erwähnt werden, dass das eben definierte Integral wohldefiniert ist. Wir werden nun in einem letzten Schritt die Klasse der integrierbaren Funktionen erweitern. Dazu dient die folgende Definition.
48
2 Mathematische Grundlagen und Notationen
Definition 2.59: Positivteil, Negativteil einer numerischen Funktion ¯ Seien (Ω, S) ein Messraum und f : Ω → R eine S-B-messbare numerische Funktion, so wird die Funktion 4 f(ω), falls f(ω) ≥ 0 + + f : Ω → R0 , ω → 0, sonst Positivteil von f und die Funktion 4 −f(ω), falls f(ω) ≤ 0 , ω → f − : Ω → R+ 0 0, sonst Negativteil von f genannt. Die folgenden Eigenschaften von f + und f − sind unmittelbar einzusehen: • f + (ω) ≥ 0, f − (ω) ≥ 0 für alle ω ∈ Ω. ¯ numerische Funktionen. • f + und f − sind S-B-messbare • f = f+ − f−. Mit Hilfe des Positiv- und Negativteils einer messbaren numerischen Funktion f : Ω → R können wir das (μ-)Integral auf messbare numerische Funktionen erweitern. Definition 2.60: (μ-)integrierbar, (μ-)quasiintegrierbar, (μ-)Integral ¯ Seien (Ω, S, μ) ein Maßraum und 3 +f : Ω → R eine3 S-−B-messbare numerische Funktion. f heißt (μ-)integrierbar, falls f 3dμ < ∞ und f dμ 3 < ∞. f heißt (μ-)quasiintegrierbar, falls f + dμ < ∞ oder f − dμ < ∞. Ist f (μ-)quasiintegrierbar, so ist durch f dμ := f dμ := f + dμ − f − dμ Ω
das (μ-)Integral von f über Ω definiert. Als (μ-)Integral über einer Menge A ∈ S definieren wir für (μ-)quasiintegrierbares f · IA : f dμ := f · IA dμ. A
Betrachtet man speziell den Maßraum (Rn , Bn , λn ), so wird das (λn -)Integral als LebesgueIntegral bezeichnet. Ist f (λn -)integrierbar, so heißt f Lebesgue-integrierbar. Ist ein Maß μF durch eine maßerzeugende Funktion F : Rn → R gegeben, so wird das (μF -)Integral als Lebesgue-Stieltjes-Integral bezeichnet und in der Form f dF := f dμF geschrieben. Lebesgue-Stieltjes-Integrale besitzen die wichtige Eigenschaft, dass sie häufig durch Riemann-Integrale berechnet werden können.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
2.4.3
49
Wahrscheinlichkeitsräume und Zufallsvariablen
In der Wahrscheinlichkeitstheorie werden Methoden zur Beschreibung und Analyse von Zufallsexperimenten (Experimente mit nicht vorhersehbarem Ausgang) bereitgestellt (für Details sei auf [1, 2, 19, 23] verwiesen). Der umgangssprachliche Begriff „Zufallsexperiment“ wird durch einen Maßraum (Ω, S, P ) mit der Eigenschaft P (Ω) = 1 mathematisch präzisiert. Wir definieren daher:
Definition 2.61: Wahrscheinlichkeitsraum, Wahrscheinlichkeitsmaß, Ereignis Ein Maßraum (Ω, S, P ) mit P (Ω) = 1 wird als Wahrscheinlichkeitsraum bezeichnet. Die Punkte ω ∈ Ω heißen Ergebnisse, die Mengen A ∈ S Ereignisse. Das Maß P wird als Wahrscheinlichkeitsmaß bezeichnet. Für alle Ereignisse A wird P (A) die Wahrscheinlichkeit von A genannt.
Wir werden im Folgenden davon ausgehen, dass ein Zufallsexperiment durch einen Wahrscheinlichkeitsraum (Ω, S, P ) gegeben ist. Es ist in der Praxis oft nicht leicht, ein verbal formuliertes Zufallsexperiment durch einen Wahrscheinlichkeitsraum zu modellieren – insbesondere dann, wenn das Experiment ungenau formuliert ist. Die Elemente der Menge Ω stellen die möglichen Ergebnisse des Zufallsexperimentes dar.
Beispiel 12: „Scheibenschießen“ Wir betrachten das Schießen mit einem Gewehr auf eine kreisförmige Schießscheibe mit dem Radius r = √1π und dem Mittelpunkt m = (0, 0) . Wir nehmen an, dass bei jedem Schuss die Scheibe getroffen wird. Als Ergebnis eines Schusses erhalten wir einen Punkt ω = (ω1 , ω2 ) ∈ Ω := K √1
π
,0
1 := {x ∈ R2 ; x2 ≤ √ }. π
Wir wählen S := {A ∩ K √1 ,0 ; A ∈ B2 } als σ-Algebra und P = λ2 |S als Wahrscheinπ lichkeitsmaß auf S. Da der Schütze bei jedem Schuss umso mehr Punkte (Ringe) erhält, je kleiner der Abstand seines Schusses zum Mittelpunkt der Schießscheibe ist, interessiert als Ergebnis in erster Linie dieser Abstand zum Mittelpunkt. Man betrachtet also eine Funktion 1 d : Ω → [0, √ ] =: Ω , ω → ω2 . π Kann man nun mit Hilfe der Funktion d und des Wahrscheinlichkeitsraumes (Ω, S, P ) jeder Menge A ∈ S := {B ∩ [0, √1π ]; B ∈ B} eine Wahrscheinlichkeit zuordnen? Dies ist genau dann möglich, wenn d S-S -messbar ist.
50
2 Mathematische Grundlagen und Notationen
Definition 2.62: (n-dimensionale reelle, numerische) Zufallsvariable Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Ω , S ) ein Messraum, dann heißt eine S-S -messbare Funktion X : Ω → Ω Zufallsvariable. Ist Ω = Rn , n ∈ N, und S = Bn , so wird X als n-dimensionale reelle Zufallsvariable ¯ so wird X als numerische Zufallsvariable bezeichnet. bezeichnet. Ist Ω = R und S = B, Eine eindimensionale reelle Zufallsvariable wird reelle Zufallsvariable genannt. Als geeignetes Wahrscheinlichkeitsmaß P auf S ergibt sich das Bildmaß von X. Somit erhalten wir für unser obiges Beispiel P (A ) = P (d−1 (A )) für alle A ∈ S . Die Tatsache, dass λ2 ({ω}) = 0 für alle ω ∈ K √1 ,0 , verdeutlicht den Sinn der Verwendung von Ereignissen π A ∈ S. Definition 2.63: Verteilung einer Zufallsvariablen, Bildmaß Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum, (Ω , S ) ein Messraum und X : Ω → Ω
eine Zufallsvariable, dann wird das Bildmaß PX von X Verteilung von X genannt. Nach unserer Interpretation von Wahrscheinlichkeitsräumen ist der Wert X(ω) einer Zufallsvariablen an der Stelle ω vom Ergebnis eines Zufallsexperimentes abhängig. Wir fragen danach, welcher Wert von X „zu erwarten“ ist. Definition 2.64: Erwartungswert einer numerischen Zufallsvariablen Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und X eine (P -)quasiintegrierbare numerische Zufallsvariable X : Ω → R, dann wird durch E (X) := X dP der Erwartungswert von X definiert. Den Erwartungswert einer n-dimensionalen reellen Zufallsvariablen definiert man durch komponentenweise Bildung des Erwartungswertes. Um eine Vorstellung vom Begriff des Erwartungswertes zu bekommen, betrachten wir die folgende reelle Zufallsvariable auf (Ω, S, P ): Seien A1 , . . . , An paarweise disjunkte Mengen aus n ' S mit Ai = Ω und α1 , . . . , αn nichtnegative reelle Zahlen, dann ist i=1
X : Ω → R, ω →
n
αi IAi (ω)
i=1
eine reelle Zufallsvariable. Für den Erwartungswert von X erhalten wir E (X) =
n i=1
αi P (Ai ).
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
51
Der Erwartungswert ist in diesem Fall also eine gewichtete Summe der möglichen Werte von X, wobei die Gewichte gerade die Wahrscheinlichkeiten für das Auftreten dieser Werte sind. Gilt P (Ai ) = n1 für alle i = 1, . . . , n, so erhalten wir als Erwartungswert das arithmetische Mittel der Werte von X. Ist eine reelle Zufallsvariable (P -)integrierbar, so lässt sich der Erwartungswert von X auch mit Hilfe des Bildmaßes PX berechnen: E (X) = x dPX (x) := f dPX mit f : R → R, x → x. Da wir auch an Erwartungswerten von speziellen Funktionen von X interessiert sind, benötigen wir den folgenden Satz. Satz 2.65 Messbarkeit stetiger Funktionen reeller Zufallsvariablen Seien X eine reelle Zufallsvariable definiert auf dem Wahrscheinlichkeitsraum (Ω, S, P ) und g : R → R eine stetige Funktion, dann ist g ◦ X : Ω → R, ω → g(X(ω)) eine reelle Zufallsvariable auf (Ω, S, P ). Somit folgt sofort, dass für eine reelle Zufallsvariable X auf (Ω, S, P ) und für jedes k ∈ N und jedes α ∈ R auch (X − α)k und |X − α|k reelle Zufallsvariablen auf (Ω, S, P ) sind. Dies ermöglicht die folgende Definition. Definition 2.66: zentrierte (absolute) Momente k-ter Ordnung Sei X eine auf (Ω, S, P ) definierte reelle Zufallsvariable, 1 dem Wahrscheinlichkeitsraum 2 dann heißt E |X − α|k , k ∈ N, das in α zentrierte 2Moment k-ter Ordnung von 1 absolute k k X. Ist (X − α) (P -)quasiintegrierbar, so heißt E (X − α) das in α zentrierte Moment k-ter Ordnung. Ist α = 0, so spricht man nur von absoluten Momenten bzw. Momenten k-ter Ordnung. Besonders interessant ist der Fall k = 2. Definition 2.67: Varianz einer reellen Zufallsvariablen Sei X eine auf dem Wahrscheinlichkeitsraum (Ω, S, P ) definierte, (P -)integrierbare reelle Zufallsvariable, dann heißt 2 Var (X) := (X − E (X)) dP die Varianz von X. Die Zahl σ = Var (X) wird als Streuung oder Standardabweichung von X bezeichnet. Oft schreibt man σ 2 für Var (X). Die Varianz ist ein Maß für die zu erwartende Abweichung von X und E (X).
52
2 Mathematische Grundlagen und Notationen
Lemma 2.68 Standardisierung Sei X eine auf dem Wahrscheinlichkeitsraum (Ω, S, P ) definierte, (P -)integrierbare reelle Zufallsvariable mit Streuung 0 < σ < ∞. Dann ist Y :=
X − E (X) σ
eine Zufallsvariable mit Erwartungswert E (Y ) = 0 und Varianz Var (Y ) = 1.
Den Übergang von X zu Y bezeichnet man als „Standardisierung“ von X.
2.4.4
Charakterisierung von Verteilungen
Im Folgenden betrachten wir einige wichtige Begriffe der elementaren Wahrscheinlichkeitstheorie. Ausgangspunkt ist der Wahrscheinlichkeitsraum (Ω, S, P ) und zwei Mengen A, B ∈ S mit P (B) > 0. Auf S definieren wir nun ein Wahrscheinlichkeitsmaß P B : S → [0, 1] durch A → P P(A∩B) . Durch den Übergang von P zu P B erhält die Menge B das Wahrscheinlich(B) keitsmaß 1. Wir interpretieren P B (A) als die Wahrscheinlichkeit von A unter der Bedingung, dass das Ereignis B (P B -)fast sicher eintrifft. Dies führt zur Definition der bedingten Wahrscheinlichkeit.
Definition 2.69: bedingte Wahrscheinlichkeit Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und A, B ∈ S mit P (B) > 0. Dann heißt
P (A|B) :=
P (A ∩ B) P (B)
die (bedingte) Wahrscheinlichkeit von A unter der Bedingung B.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
53
Satz 2.70 Formel von der totalen Wahrscheinlichkeit, Satz von Bayes Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und {Di ⊂ Ω; i ∈ N} eine Partition5 von Ω, so dass Di ∈ S und P (Di ) > 0 für alle i ∈ N. (i) Es gilt die „Formel von der totalen Wahrscheinlichkeit“: P (A) =
∞
P (Di ) · P (A|Di ),
für alle A ∈ S.
i=1
(ii) Ist A ∈ S mit P (A) > 0, so gilt P (Di |A) =
P (A|Di ) · P (Di ) , P (A)
für alle i ∈ N.
(iii) Es gilt der „Satz von Bayes“: P (A|Di ) · P (Di ) , P (Di |A) = ' ∞ P (Dj ) · P (A|Dj )
für alle i ∈ N.
j=1
Analoge Formeln ergeben sich natürlich für eine endliche Partition {Di ⊂ Ω; i = 1, . . . , n} von Ω. Es soll nun die Frage untersucht werden, unter welchen Voraussetzungen ein Wahrscheinlichkeitsmaß P in der folgenden Art und Weise durch ein Maß μ dargestellt werden kann. Definition 2.71: Dichte Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und μ ein Maß auf S. Wenn eine nichtnegative, ¯ S-B-messbare numerische Funktion f : Ω → R existiert mit P (A) = f dμ, für alle A ∈ S, A
so heißt f eine Dichte(funktion) des Wahrscheinlichkeitsmaßes P bezüglich μ. Man sagt auch, dass P bezüglich μ eine Dichte f besitzt. Satz 2.72 Beziehung zwischen (P -) und (μ-)Nullmengen Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum, μ ein Maß auf S und f eine Dichte von P bezüglich μ, dann gilt für alle A ∈ S mit μ(A) = 0: P (A) = 0. Die folgende Definition resultiert aus dem eben betrachteten Satz. 5 {D
i
⊂ Ω; i ∈ N} heißt eine Partition von Ω, falls die Mengen Di paarweise disjunkt sind und Ω =
∞ i=1
Di .
54
2 Mathematische Grundlagen und Notationen
Definition 2.73: absolute Stetigkeit von P bezüglich μ Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und μ ein Maß auf S. P heißt absolutstetig bezüglich μ, falls für alle A ∈ S mit μ(A) = 0 gilt: P (A) = 0. Wie der folgende Satz zeigt, ist die absolute Stetigkeit bezüglich eines σ-endlichen Maßes μ das entscheidende Kriterium für die Existenz einer Dichte. Satz 2.74 Radon-Nikodym Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und μ ein σ-endliches Maß auf S, dann besitzt P genau dann eine Dichte bezüglich μ, wenn P absolutstetig bezüglich μ ist. Nun betrachten wir eine spezielle Klasse von Wahrscheinlichkeitsmaßen. Mit |A| wird die Anzahl der Elemente (Mächtigkeit) von A bezeichnet. Definition 2.75: diskretes Wahrscheinlichkeitsmaß, diskrete Zufallsvariable Sei (Rn , Bn , P ), n ∈ N, ein Wahrscheinlichkeitsraum. Das Wahrscheinlichkeitsmaß P heißt diskret, falls eine Menge B ∈ Bn mit |B| ≤ |N| und P (B) = 1 existiert. Eine m-dimensionale reelle Zufallsvariable X definiert auf (Rn , Bn , P ), m ∈ N, heißt diskret, falls das Bildmaß PX von X ein diskretes Wahrscheinlichkeitsmaß auf (Rm , Bm ) ist. Da für m = n das Bildmaß PX der Zufallsvariablen X : Rn → Rn , x → x, gleich P ist, wird oft der Begriff Verteilung statt Wahrscheinlichkeitsmaß verwendet. Um nun mit Hilfe des Satzes von Radon-Nikodym diskrete Verteilungen (Wahrscheinlichkeitsmaße) durch Dichtefunktionen darstellen zu können, benötigen wir ein spezielles Maß. Definition 2.76: Zählmaß Das auf einer σ-Algebra S über Ω definierte Maß 4 |A|, falls |A| endlich ist ζ : S → R, A → ∞, sonst wird als das Zählmaß auf S bezeichnet. Sei nun (Rn , Bn , P ) ein Wahrscheinlichkeitsraum und P eine diskrete Verteilung auf Bn mit P (B) = 1 für ein B ∈ Bn und |B| ≤ |N|, dann gilt für alle C ∈ Bn : P (C) = P (C ∩ B) + P (C ∩ B c ) = P (C ∩ B). n n Somit genügt es, den Wahrscheinlichkeitsraum (B, BB , P ) mit BB := {C ∩ B; C ∈ Bn } = P(B) zu betrachten. Da ζ ein σ-endliches Maß auf P(B) ist und ζ(A) = 0 genau dann gilt,
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
55
wenn A = ∅, ist jedes Wahrscheinlichkeitsmaß auf P(B) absolutstetig bezüglich ζ. Somit existiert zu jedem Wahrscheinlichkeitsmaß P auf P(B) eine Dichte f : B → R+ 0 mit P (A) = f dζ = f(ω) = P ({ω}) für alle A ∈ P(B). A
ω∈A
ω∈A
Es läßt sich also jede diskrete Verteilung auf Bn durch eine Folge (pj )j∈N0 nichtnegativer ∞ ' reeller Zahlen mit pj = 1 darstellen. j=0
Definition 2.77: spezielle diskrete Verteilungen Sei (R, B, P ) ein Wahrscheinlichkeitsraum mit einem diskreten Wahrscheinlichkeitsmaß P und P (N0 ) = 1. (i) Poisson-Verteilung: Ist P ({j}) = pj = e−λ
λj , j>
j ∈ N0 , λ > 0,
so spricht man von einer Poisson6 -Verteilung mit Parameter λ. (ii) Gleichverteilung und Laplace-Experiment: Ist P ({j}) = pj =
1 , k+1
für j = 0, . . . , k, und pj = 0 für j > k, k ∈ N0 ,
so wird diese Verteilung Gleichverteilung genannt. Ein Zufallsexperiment, das durch einen Wahrscheinlichkeitsraum mit Gleichverteilung repräsentiert wird, heißt Laplace7 Experiment. (iii) Binomial-Verteilung und Bernoulli-Experiment: Wählt man p ∈ R, 0 < p < 1, und B = {0, 1, 2, . . ., s}, s ∈ N, so wird (mit 1s2 s> := (s−j)>j> ) die durch j s j p (1 −p)s−j P ({j}) = pj = j
für j = 0, . . . , s, und pj = 0 für j > s,
gegebene Verteilung Binomial-Verteilung B(s, p) mit Parameter s, p genannt. Ein Zufallsexperiment, das durch einen Wahrscheinlichkeitsraum mit Binomial-Verteilung mit Parameter s, p repräsentiert wird, heißt Bernoulli8-Experiment mit Parameter s, p. 6 nach D.
Poisson (1781–1840) S. de Laplace (1749–1827) 8 nach J. Bernoulli (1654–1705) 7 nach P.
56
2 Mathematische Grundlagen und Notationen (iv) Eine auf einem Wahrscheinlichkeitsraum (Ω, S, Pˆ ) definierte reelle Zufallsvariable X heißt poissonverteilt / gleichverteilt / binomialverteilt, wenn das Bildmaß P = PˆX poissonverteilt / gleichverteilt / binomialverteilt ist.
Ein Bernoulli-Experiment kann folgendermaßen interpretiert werden: Man betrachtet ein Zufallsexperiment, bei dem es nur zwei mögliche Ergebnisse gibt, nämlich mit Wahrscheinlichkeit p das Ergebnis „T“ (Treffer) und mit Wahrscheinlichkeit (1 − p) das Ergebnis „N“ (Niete). Dieses Experiment führen wir s-mal durch, ohne dass sich die Ergebnisse gegenseitig beeinflussen. Die Wahrscheinlichkeit, dass nach diesen s Versuchen genau j Treffer auftreten, ist gegeben 12 durch sj pj (1 − p)s−j , 0 ≤ j ≤ s, s ∈ N. Somit wird die s-malige Durchführung unseres Experimentes durch ein Bernoulli-Experiment beschrieben, falls die Ergebnisse sich nicht gegenseitig beeinflussen. Für sehr große s und sehr kleine p ist es möglich, eine BinomialVerteilung durch die wesentlich einfacher zu berechnende Poisson-Verteilung mit Parameter λ = s · p zu approximieren. Nun betrachten wir die folgende naheliegende Definition. Definition 2.78: absolutstetige Zufallsvariable Sei (Rn , Bn , P ), n ∈ N, ein Wahrscheinlichkeitsraum. Eine m-dimensionale reelle Zufallsvariable X definiert auf (Rn , Bn , P ), m ∈ N, heißt absolutstetig, falls das Bildmaß PX von X ein absolutstetiges Wahrscheinlichkeitsmaß auf Bm bezüglich λm ist. Nach dem Satz von Radon-Nikodym ist PX genau dann absolutstetig bezüglich λm , wenn PX eine Dichte bezüglich λm besitzt. Mit Hilfe der beiden nächsten Definitionen ist es möglich, alle Wahrscheinlichkeitsmaße auf B zu klassifizieren. Definition 2.79: Verteilungsfunktion Sei (Rn , Bn , P ), n ∈ N, ein Wahrscheinlichkeitsraum. Die Funktion F : Rn → [0, 1], (x1 , . . . , xn ) → P (] − ∞, x1[× . . . ×] − ∞, xn[) wird als Verteilungsfunktion von P bezeichnet. Die Verteilungsfunktion des Bildmaßes PX einer m-dimensionalen reellen Zufallsvariable X : Rn → Rm , m ∈ N, wird auch Verteilungsfunktion von X genannt.
Definition 2.80: stetiges Wahrscheinlichkeitsmaß, stetige Zufallsvariable Sei (Rn , Bn , P ), n ∈ N, ein Wahrscheinlichkeitsraum. Das Wahrscheinlichkeitsmaß (die Verteilung) P heißt stetig, falls die Verteilungsfunktion von P stetig ist. Eine m-dimensionale reelle Zufallsvariable X definiert auf (Rn , Bn , P ), n ∈ N, m ∈ N, heißt stetig, falls die Verteilungsfunktion von X stetig ist. Die Verteilungsfunktion einer diskreten Verteilung ist eine Treppenfunktion und damit nicht stetig. Die Verteilungsfunktion einer bezüglich λn absolutstetigen Verteilung auf Bn ist stetig
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
57
(für n = 1 sogar absolut stetig im topologischen Sinne). Die Umkehrung gilt aber nicht, da es stetige Wahrscheinlichkeitsmaße P gibt, die nicht absolutstetig bezüglich λn sind. Diese Wahrscheinlichkeitsmaße werden singulär genannt. Definition 2.81: singuläres Wahrscheinlichkeitsmaß Sei (Rn , Bn , P ), n ∈ N, ein Wahrscheinlichkeitsraum. Das Wahrscheinlichkeitsmaß (die Verteilung) P heißt singulär bezüglich λn , wenn eine Menge N ∈ Bn existiert mit λn (N ) = 0 und P (N ) = 1. Nun sind wir in der Lage, die Verteilungsfunktion einer reellen Zufallsvariable in drei Komponenten zu zerlegen.
Satz 2.82 Zerlegungssatz von Lebesgue Sei X eine reelle Zufallsvariable mit Verteilungsfunktion F , die auf einem Wahrscheinlichkeitsraum (R, B, P ) definiert ist, dann gibt es nichtnegative reelle Zahlen a1 , a2 , a3 mit a1 + a2 + a3 = 1 und drei Funktionen Fi : R → R, i = 1, 2, 3, mit: • F = a1 F1 + a2 F2 + a3 F3 . • F1 ist Verteilungsfunktion einer diskreten Zufallsvariable auf (R, B, P ), F2 ist Verteilungsfunktion einer bezüglich λ absolutstetigen reellen Zufallsvariable auf (R, B, P ) und F3 ist Verteilungsfunktion einer stetigen reellen Zufallsvariable auf (R, B, P ), deren Bildmaß singulär bezüglich λ ist.
Riemann-Integration Ist P1 ein bezüglich λ absolutstetiges Wahrscheinlichkeitsmaß auf (R, B), so existiert eine Dichte f mit P1 (A) = f dλ, A ∈ B. A
Die Funktion f ist in einem Intervall [a, b], a < b, Riemann-integrierbar, falls sie auf diesem Intervall beschränkt ist und die Menge der Unstetigkeitsstellen von f auf [a, b] das Lebesgue-Maß Null hat. Sind diese Voraussetzungen an f erfüllt, so können wir für jede (P1 -)integrierbare Funktion g : [a, b] → R das (P1 -)Integral von g über dem Intervall [a, b] durch ein RiemannIntegral berechnen, falls g · f Riemann-integrierbar über [a, b] ist: [a,b]
b
g · f dλ =
g dP1 = [a,b]
g(x) · f(x) dx. a
58
2 Mathematische Grundlagen und Notationen
Definition 2.83: Dichtefunktion Sei d : Rn → R, n ∈ N, eine stetige Funktion mit folgenden Eigenschaften: • d(x) ≥ 0 für alle x ∈ Rn , •
3
d(x) dx =
Rn
3∞ -∞
...
3∞
d(x) dx1 . . . dxn = 1,
-∞
3 dann ist auch d dλn = 1 und wir können die Funktion d als Dichte eines Wahrscheinlichkeitsmaßes bezüglich λn auffassen. Nun betrachten wir für jeden Vektor μ ∈ Rn und für jede positiv definite Matrix Σ ∈ Rn,n die Funktion 1 (x − μ)T Σ−1 (x − μ) n . νμ,Σ : R → R, x → · exp − 2 (2π)n det(Σ) Offensichtlich ist νμ,Σ (x) > 0 für alle μ, x ∈ Rn , Σ ∈ Rn,n, Σ positiv definit. Aus der Analysis (Substitutionsregel, Satz von Fubini) ist das Folgende bekannt: (x − μ)T Σ−1 (x − μ) dx = (2π)n det(Σ) exp − 2 Rn
für alle μ ∈ Rn , Σ ∈ Rn,n , Σ positiv definit. Somit können wir νμ,Σ als Dichte eines Wahrscheinlichkeitsmaßes bezüglich λn auffassen. Definition 2.84: Normalverteilung Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum, μ ∈ Rn , n ∈ N, und Σ ∈ Rn,n , Σ positiv definit. Die Zufallsvariable Xμ,Σ : Ω → Rn heißt N (μ, Σ) normalverteilt, falls ihr Bildmaß PXμ,Σ bezüglich λn die folgende Dichte besitzt: 1 (x − μ)T Σ−1 (x − μ) n . νμ,Σ : R → R, x → · exp − 2 (2π)n det(Σ) Um die Parameter μ und Σ einer Normalverteilung interpretieren zu können, benötigen wir die folgende Definition. Definition 2.85: Covarianz, unkorreliert, Korrelationskoeffizient Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und X : Ω → R, Y : Ω → R zwei reelle, (P -)integrierbare Zufallsvariable mit (P -)integrierbarem Produkt X · Y . (i) Dann heißt Cov (X, Y ) := E ((X − E (X)) · (Y − E (Y ))) = E (X · Y )−E (X)·E (Y ) die Covarianz von X und Y · X und Y heißen unkorreliert, falls Cov (X, Y ) = 0.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
59
(ii) Besitzen die Zufallsvariablen X bzw. Y zudem endliche Varianzen Var (X) > 0 bzw. Var (Y ) > 0, so wird die Größe Cov (X, Y ) ρ(X, Y ) := Var (X) · Var (Y ) Korrelationskoffizient von X und Y genannt.
Normalverteilte Zufallsvariablen spielen in der Wahrscheinlichkeitstheorie eine bedeutende Rolle, auf die wir im Zusammenhang mit dem zentralen Grenzwertsatz9 noch zu sprechen kommen. Zunächst fassen wir einige Eigenschaften einer N (μ, Σ) normalverteilten Zufallsvariablen Xμ,Σ zusammen. Dazu fassen wir die Funktion Xμ,Σ : Ω → Rn als Abbildung 1 1 2 n ω → Xμ,Σ (ω), . . . , Xμ,Σ (ω) i auf. Jede Funktion Xμ,Σ : Ω → R, i = 1, . . . , n, ist eine reelle Zufallsvariable. Definiert man
1 n 22 1 1 1 2 , . . . , E Xμ,Σ , E (Xμ,Σ ) := E Xμ,Σ so erhält man E (Xμ,Σ ) = μ. Ferner gilt mit Σ = (σi,j )i,j=1,...,n : j i = σi,j , , Xμ,Σ Cov Xμ,Σ
i, j = 1, . . . , n.
Daher heißt Σ die Covarianzmatrix von Xμ,Σ .
2.4.5
Stochastische Unabhängigkeit
Auf der Basis eines Wahrscheinlichkeitsraumes (Ω, S, P ) haben wir für A, B ∈ S und P (B) > 0 durch P B (A) = P P(A∩B) ein Wahrscheinlichkeitsmaß auf S eingeführt. Wir interpretier(B) ten P B (A) als die Wahrscheinlichkeit von A unter der Bedingung, dass B (P B -)fast sicher eintrifft. Nun stellt sich die Frage, wann diese Bedingung die Wahrscheinlichkeit für A nicht ändert, wann also P B (A) = P (A|B) = P (A) gilt. Wir erhalten: P B (A) = P (A|B) = P (A) ⇐⇒ P (A ∩ B) = P (A) · P (B).
9 siehe dazu Definition
2.92 auf Seite 62 und Satz 2.93 auf Seite 62
60
2 Mathematische Grundlagen und Notationen
Definition 2.86: stochastisch unabhängige Ereignisse Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und A1 , . . . , An ∈ S, n ∈ N, dann heißen die Ereignisse A1 , . . . , An stochastisch unabhängig, falls für alle k ∈ N, k ≤ n, und für alle ij ∈ N, 1 ≤ j ≤ k, mit 1 ≤ i1 < . . . < ik ≤ n gilt: ⎛ P⎝
k 5
j=1
⎞ Aij ⎠ =
k 6
P (Aij ).
j=1
Die stochastische Unabhängigkeit einer Menge {Ai ∈ S; i ∈ I}, I = ∅, von Ereignissen führt man auf die stochastische Unabhängigkeit ihrer endlichen Teilmengen zurück.
Definition 2.87: stochastische Unabhängigkeit einer Menge von Ereignissen Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und {Ai ∈ S; i ∈ I}, I = ∅, eine Menge von Ereignissen, dann heißen diese Ereignisse stochastisch unabhängig, falls Ai1 , . . . , Ain für jedes n ∈ N mit n ≤ |I| und für jede Menge {i1 , . . . , in } ⊆ I stochastisch unabhängig sind.
Um stochastisch unabhängige Zufallsvariable definieren zu können, wird zunächst die stochastische Unabhängigkeit von Mengensystemen betrachtet.
Definition 2.88: stochastische Unabhängigkeit von Mengensystemen Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und {Fi ⊆ S; i ∈ I}, I = ∅, eine Menge von Mengensystemen über Ω, dann heißen diese Mengensysteme stochastisch unabhängig, falls für jedes n ∈ N mit n ≤ |I| und für jedes {i1 , . . . , in } ⊆ I die n Ereignisse Ai1 , . . . , Ain für beliebige Aik ∈ Fik , i = 1, . . . , n, stochastisch unabhängig sind.
Definition 2.89: von einer Zufallsvariablen erzeugte σ-Algebra Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum, (Ω , S ) ein Messraum und X : Ω → Ω eine
Zufallsvariable. Weiter sei F die Menge aller σ-Algebren über Ω, für . die gilt: X ist C-S messbar genau dann, wenn C ∈ F. Die Menge σ(X) := σ(F ) = C ist ebenfalls eine σ-Algebra und wird die von X erzeugte σ-Algebra genannt.
C∈F
Unter allen σ-Algebren A über Ω ist σ(X) die kleinste, für die X A-S -messbar ist. Somit sind wir in der Lage, die stochastische Unabhängigkeit von Zufallsvariablen in naheliegender Weise durch die stochastische Unabhängigkeit von speziellen Mengensystemen zu definieren.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
61
Definition 2.90: stochastische Unabhängigkeit von Zufallsvariablen Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum, (Ω , S ) ein Messraum und {Xi : Ω → Ω ; i ∈ I}, I = ∅, eine Menge von Zufallsvariablen, dann heißen diese Zufallsvariablen stochastisch unabhängig, falls die Mengensysteme {σ(Xi ); i ∈ I} stochastisch unabhängig sind. Die stochastische Unabhängigkeit von Zufallsvariablen ist ein zentraler Begriff der Wahrscheinlichkeitstheorie und im Wesentlichen Bestandteil der Modellierung zu untersuchender Vorgänge.
2.4.6
Stochastische Konvergenzbegriffe
Da eine Folge von reellen Zufallsvariablen eine Funktionenfolge ist, betrachtet man – wie in der Analysis (z.B. gleichmäßige- und punktweise Konvergenz) – auch in der Wahrscheinlichkeitstheorie verschiedene Konvergenzbegriffe. Definition 2.91: verschiedene Konvergenzbegriffe für Folgen reeller Zufallsvariablen Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum, (Xi )i∈N eine Folge reeller Zufallsvariablen Xi : Ω → R, i ∈ N, und X : Ω → R ebenfalls eine reelle Zufallsvariable, dann konvergiert (Xi )i∈N definitionsgemäß (i) im r-ten Mittel (r ∈ R+ ) gegen X genau dann, wenn |Xi −X|r dP = 0, |X|r dP < ∞, lim |Xi |r dP < ∞ für alle i ∈ N, i→∞
(ii) stochastisch gegen X genau dann, wenn für alle > 0 lim P ({ω ∈ Ω; |Xi (ω) − X(ω)| < }) = 1,
i→∞
(iii) mit Wahrscheinlichkeit 1 gegen X genau dann, wenn 8 7 = 1, P ω ∈ Ω; lim Xi (ω) = X(ω) i→∞
(iv) in Verteilung gegen X genau dann, wenn f dPXi = f dPX lim i→∞
für alle beliebig oft differenzierbaren Funktionen f : R → R mit kompaktem Träger. Die stochastische Konvergenz von (Xi )i∈N gegen X wird oft durch (P -) lim Xi = X, st-lim Xi = X oder Xi → X nach Wahrscheinlichkeit i→∞
i→∞
62
2 Mathematische Grundlagen und Notationen
dargestellt. Die Konvergenz mit Wahrscheinlichkeit 1 von (Xi )i∈N gegen X heißt auch (P -)fast sichere Konvergenz und wird durch Xi → X (P -)f.s. dargestellt. Die Konvergenz nach Verteilung wird auch als schwache Konvergenz bezeichnet. Die folgenden Implikationen lassen sich leicht nachweisen. schwache Konvergenz
⇐
stochastische Konvergenz ⇑ Konvergenz mit Wahrscheinlichkeit 1
⇐
Konvergenz im r-ten Mittel
Ausgehend von einem Wahrscheinlichkeitsraum (Ω, S, P ) betrachten wir spezielle Folgen (Xi )i∈N , von reellen Zufallsvariablen Xi : Ω → R, i ∈ N, deren Quadrate Xi2 : Ω → R, ω → Xi2 (ω) für alle i ∈ N (P -)integrierbar sind. Wegen |Xi | dP = |Xi | dP + |Xi | dP Ω
{ω∈Ω; |Xi (ω)|≤1}
{ω∈Ω; |Xi (ω)|>1}
≤1+
|Xi | dP ≤ 1 +
Xi2 dP
für alle i ∈ N
Ω
{ω∈Ω; |Xi (ω)|>1}
besitzen die Zufallsvariablen Xi , i ∈ N, endliche Erwartungswerte. Dies erlaubt die folgende Definition. Definition 2.92: Der zentrale Grenzwertsatz Sei (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Xi )i∈N eine Folge von reellen Zufallsvariablen Xi : Ω → R, i ∈ N, deren Quadrate Xi2 : Ω → R, ω → Xi2 (ω) für alle i ∈ N (P -)integrierbar sind mit Varianzen Var (Xi ) > 0 für alle i ∈ N. Wir vereinbaren, dass für die Folge (Xi )i∈N genau dann der zentrale Grenzwertsatz gilt, wenn die Folge (Ti )i∈N standardisierter reeller Zufallsvariablen i '
(Xj − E (Xj ))
j=1
Ti : Ω → R, ω →
!Var
(
i '
j=1
),
i ∈ N,
Xj
in Verteilung gegen eine N (0, 1) normalverteilte Zufallsvariable konvergiert. Satz 2.93 Der zentrale Grenzwertsatz für stoch. unabh., ident. vert. Zufallsvar. Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und (Xi )i∈N eine Folge stochastisch unabhängiger, identisch verteilter (d.h. PXi = PXj für alle i, j ∈ N) reeller Zufallsvariablen Xi : Ω → R mit 0 < Var (Xi ) < ∞ für alle i ∈ N, dann gilt für (Xi )i∈N der zentrale Grenzwertsatz.
2.4 Wahrscheinlichkeitstheoretische Begriffe und Grundlagen
63
Satz von de Moivre-Laplace Besteht im obigen Satz die Folge (Xi )i∈N aus stochastisch unabhängigen, B(1, p) binomialverteilten Zufallsvariablen, so wird die Gültigkeit des zentralen Grenzwertsatzes für (Xi )i∈N als Satz von de Moivre-Laplace bezeichnet. In diesem Fall ist X1 + . . . + Xn , n ∈ N, B(n, p) binomialverteilt und die für große n aufwendig zu berechnende Binomial-Verteilung lässt sich somit durch die häufig tabellierte N (0, 1) Normalverteilung approximieren. Abschließend betrachten wir ein sehr hilfreiches Resultat. Satz 2.94 Ungleichung von Chebyschev-Markov Seien (Ω, S, P ) ein Wahrscheinlichkeitsraum und X : Ω → R eine numerische Zufallsvariable, dann gilt für jedes Paar reeller Zahlen α > 0, κ > 0 die folgende Ungleichung von Chebyschev-Markov 1 P ({ω ∈ Ω; |X(ω)| ≥ α}) ≤ κ |X|κ dP. α
3
Modellierung eines Quantencomputers
3.1
Das Quantenbit (Qbit)
Quantenbits sind die kleinsten Informationseinheiten eines Quantencomputers. Da es einen Unterschied zwischen dem Ist-Zustand eines Quantenbits und der Beobachtung dieses Zustandes gibt (im Gegensatz zum klassischen Bit), erfordert die Definition des Quantenbits einen gewissen Aufwand.
3.1.1
Definition eines Qbits
Zunächst werden Quantenbits bzw. ihre mathematische Repräsentation als Elemente der Einheitssphäre eines Hilbertraumes eingeführt. Die Zuordnung zu klassischen Bits ist hier noch nicht erkennbar. Definition 3.1:
Qbit
Es sei H ein zweidimensionaler C-Hilbertraum. Dann heißt jeder Vektor v ∈ H mit 2
v, v = v = 1 der Zustand eines Qbits oder kurz Qbit (Quantenbit). H nennt man Zustandsraum eines Qbits und ⏐ SH := v ∈ H ⏐ v = 1 die Menge aller Quantenzustände oder Zustandssphäre. Zeichnet man in H eine spezielle orthonormale Basis aus, so wird natürlich jedes Qbit eindeutig bezüglich dieser Basis ausgezeichnet. Ist ein Qbit Vielfaches eines der beiden Basisvektoren, so nennt man den Zustand rein. Reine Zustände lassen sich später mit klassischen Bits kodieren. Definition 3.2:
Reine Qbit-Zustände
Es sei H ein zweidimensionaler C-Hilbertraum mit einer orthonormalen Basis v1 , v2 , d.h. für jedes Qbit v ∈ SH gilt v = λ1 v1 + λ2 v2
mit je
λ1 , λ2 ∈ C, |λ1 |2 + |λ2 |2 = 1.
66
3 Modellierung eines Quantencomputers v heißt ein reiner Qbit-Zustand bezüglich der gegebenen Basis, falls v das Vielfache eines der Basisvektoren ist, d.h. v = λvj für ein j ∈ {1, 2} und λ ∈ C mit |λ|2 = 1.
Durch Messung bezüglich einer Basis, siehe Abschnitt 3.1.2 auf der nächsten Seite, lässt sich jedem Qbit ein reiner Zustand zuordnen, der mit einem klassischen Bitwert kodiert wird. Zur Darstellung dieser Kodierung lässt sich die Dirac-Schreibweise von Vektoren sinnvoll einsetzen. Im Weiteren verwenden wir sie symbolisch für Orthonormalbasen von Hilberräumen, wobei aber ansonsten auf Rechnungen in Dirac-Schreibweise verzichtet wird. Definition 3.3: Konvention einer ausgezeichneten Basis für ein Qbit Es sei H ein zweidimensionaler C-Hilbertraum mit einer orthonormalen Basis, die mit |0 , |1 ∈ H bezeichnet wird. |0, |1 wird per Konvention als Standardbasis für den Zustandsraum H vereinbart. Insbesondere gilt also für jedes Qbit v ∈ SH : v = λ0 |0 + λ1 |1 =
1
λj |j
mit λ ∈ C2 , λ = 1.
j=0
Durch Messung ordnet man einem Qbit einen der reinen Zustände |0 oder |1 zu, die wir mit den entsprechenden klassischen Bits identifizieren. Ist die Basis festgelegt, so kann man in kanonischer Weise (d.h. durch einen Isomorphismus) den Hilbertraum H mit C2 identifizieren. Die kanonische Basiszuordnung ist dann 1 0 |0 = , |1 = . 0 1 Eine stärker physikalisch orientierte Notation (Polarisationsrichtungen) für die beiden Basisvektoren ist |! , |↔ . Eine alternative Basis kann in dieser Notation wie folgt geschrieben werden
↔
↔
| , | .
3.1 Das Quantenbit (Qbit)
3.1.2
67
Messung eines Qbits bezüglich einer Basis
Gemäß den Postulaten der Quantenmechanik ist der Zustand eines Qbits nicht direkt beobachtbar. Mit Hilfe einer Messanordnung, die eine spezielle Orthonormalbasis des Hilbertraumes H wählt, lässt sich ein Zufallsexperiment durchführen, in dessen Verlauf ein Qbit in einen reinen Zustand wechselt1 . Dabei gilt: • Die Wahrscheinlichkeitsverteilung des Zufallsexperimentes ist abhängig von Zustand des Qbits vor der Messung. • Nach der Messung befindet sich das Qbit in einem reinen Zustand, d.h. in der Regel verändert die Messung den Zustand des Qbits. Die Messung eines Qbits bezüglich einer Basis ist der Spezialfall einer allgemeinen Messung, die wir in Abschnitt 3.2.3 besprechen werden. Definition 3.4:
Messung eines Qbits bezüglich einer Basis
Es sei H ein zweidimensionaler C-Hilbertraum mit einer orthonormalen Basis |0,|1. Unter der Messung eines fest gewählten Qbits v ∈ SH mit v = λ0 |0 + λ1 |1 =
1
λj |j
mit λ ∈ C2 , λ = 1
j=0
bezüglich der Basis |0,|1 versteht man die Realisierung einer Zufallsvariablen M v : Ω → Ω
mit einem Wahrscheinlichkeitsraum (Ω, A, P ), einem Messraum (Ω , P(Ω )) mit Ω := {0, 1} und mit der Verteilung P ({M v = 0}) := p0 := |λ0 |2 ,
P ({M v = 1}) := p1 := |λ1 |2 .
Nach der Messung befindet sich das Qbit mit Wahrscheinlichkeit p0 im reinen Zustand λ0 λ1 |λ0 | |0 und mit Wahrscheinlichkeit p1 im reinen Zustand |λ1 | |1. Das Zufallsexperiment der Messung ergibt also mit Wahrscheinlichkeit p0 den klassischen Bitwert 0 und mit Wahrscheinlichkeit p1 den klassischen Bitwert 1. Die Besonderheit ist, dass das Zufallsexperiment nur jeweils einmal durchführbar ist, da sich der Zustand des Qbits (und damit die Wahrscheinlichkeitsverteilung) durch die Messung ändert. Ist das Ergebnis also z.B. 1, so würde jede erneute Messung ebenfalls den Wert 1 ergeben. Die Messung ist also die stochastische Zuordnung eines Quantenzustands auf ein klassisches Bit. Sie steht i.d.R. am Ende einer oder mehrerer Operationen auf Quantenbits, die in Abschnitt 3.3 beschrieben werden. 1 Physikalisch geschieht dies
durch Wahl von Polarisationsachsen
68
3 Modellierung eines Quantencomputers
3.2
Multi-Qbits und ihre Darstellung
Der Speicher eines Quantencomputers besteht aus einem Multi-Qbit, also mehreren Qbits. Ein Multi-Qbit besteht allerdings nicht einfach aus der sortierten Anordnung von einzelnen Qbits, so dass auch hier eine weitaus kompliziertere Situation im Vergleich zum klassischen Speicher vorliegt.
3.2.1
Definition von Multi-Qbits
Die Aneinanderreihung mehrere klassischer Bits zu einem Multi-Bit (oder besser verständlich: zu einem Speicher) entspricht der Bildung eines kartesischen Produktes, d.h. man betrachtet klassisch Tupel von Bits. Hierin liegt der entscheidende Unterschied zwischen Quantenspeichern und klassischen Speichern: Statt aus der kartesischen Tupelbildung von Qbits entsteht ein Multi-Qbit aus der Tensorbildung von Qbits. Daher ist der Zustandsraum eines Multi-Qbits aus n Qbits nicht 2ndimensional, sondern 2n -dimensional. Definition 3.5: Multi-Qbit Es sei n ∈ N, n > 1, und es sei H ein Zustandsraum, also ein zweidimensionaler CHilbertraum. Der Hilbertraum H⊗n des n-fachen Tensorproduktes von H mit dem kanonisch induzierten Skalarprodukt heißt dann Zustandsraum eines n-Qbits bzw. eines MultiQbits. Jeder Vektor v ∈ H⊗n mit 2
v, v = v = 1 heißt Zustand eines n-Multi-Qbits oder kurz n-Qbit oder Multi-Qbit. Weiter heißt ⏐ SH⊗n := v ∈ H⊗n ⏐ v = 1 die Menge aller Quantenzustände oder Zustandssphäre des Multi-Qbits. Zu Tensorräumen siehe Definition 2.33 auf Seite 31 und Definition 2.36 auf Seite 35; zum kanonisch induzierten Skalarprodukt siehe Satz 2.39 auf Seite 38. Die 2n Vektoren einer Orthonormalbasis von H⊗n wollen wir wieder als reine Zustände eines Multi-Qbits bezeichnen. Die Dirac-Schreibweise erlaubt eine kompakte Notation, die direkt mit klassischen Bits korrespondiert. Definition 3.6: Schreibkonvention für Tensorprodukte einer ausgezeichneten Basis Es sei n ∈ N, n > 1, und es sei H ein zweidimensionaler C-Hilbertraum mit einer orthonormalen Basis |0,|1. Zu jedem x ∈ N mit 0 ≤ x < 2n mit der Binärzahldarstellung x = xn−1 xn−2 . . . x1 x0 =
n−1 j=0
2j · xj ,
xj ∈ {0, 1} , j = 0, . . . , n − 1
3.2 Multi-Qbits und ihre Darstellung
69
definiere |xn ∈ H⊗n bzw. |xn−1 xn−2 . . . x1 x0 ∈ H⊗n durch |xn := |xn−1xn−2 . . . x1 x0 := |xn−1 |xn−2 . . . |x1 |x0 := |xn−1 ⊗ |xn−2 ⊗ . . . ⊗ |x1 ⊗ |x0 . Die Tensorprodukte |0 ⊗ |0 ,
|0 ⊗ |1 ,
|1 ⊗ |0 ,
|1 ⊗ |1
können mittels Definition 3.6 verkürzt als |0 |0 ,
|0 |1 ,
|1 |0 ,
|1 |1
geschrieben werden oder als |00 ,
|01 ,
|10 ,
|11
oder mit Hilfe von Dezimalzahlen als |02 ,
|12 ,
|22 ,
|32 .
Die Angabe der Stellenzahl in der Dezimalschreibweise ist zwingend, da sonst nicht zwischen |32 = |11 und z.B. |34 = |0011 unterschieden werden kann. Satz 3.7 Standardbasis für ein Multi-Qbit Es sei n ∈ N, n > 1, und es sei H ein zweidimensionaler C-Hilbertraum mit einer orthonormalen Basis |0,|1. Dann ist |0n , |1n , . . . , |2n − 2n , |2n − 1n eine Orthonormalbasis von H⊗n , genannt die Standardbasis von H⊗n . Insbesondere gilt für jedes Multi-Qbit v ∈ SH⊗n : v=
n 2 −1
λj |jn
n
mit λ ∈ C2 , λ = 1.
j=0
Beweis. Mit Satz 2.34 auf Seite 32 und Definition 2.36 auf Seite 35 folgt die Basiseigenschaft von |0n , |1n , . . . , |2n − 2n , |2n − 1n nach Konstruktion. Zu zeigen ist nur die Orthonormalität. Zu jedem x, y ∈ N mit 0 ≤ x, y < 2n mit der Binärzahldarstellung x=
n−1 j=0
2j · xj ,
y=
n−1 j=0
2j · yj ,
xj , yj ∈ {0, 1} , j = 0, . . . , n − 1
70
3 Modellierung eines Quantencomputers
betrachte man mit Satz 2.39 auf Seite 38 das Skalarprodukt2 von |xn und |yn |xn , |yn =
n−1 6
|xj , |yj H =
j=0
n−1 6
δxj ,yj = δx,y ,
j=0
wobei δx,y das Kronecker-Symbol ist.
Da die Ziffern der Binärzahldarstellung lexikographisch geordnet sind, ist diese Sortierung verträglich mit dem kanonischen Tensorprodukt auf den kanonisch zugeordeneten Tupelräumen, siehe Lemma 2.41 auf Seite 40 und Lemma 2.42 auf Seite 40. Daher kann dem Vektor |xn der n (x + 1)-te Einheitsvektor von C2 kanonisch zugeordnet werden, so dass folgende Operationen verträglich sind: ⎛ ⎞ 0 ⎜0⎟ ⎜ ⎟ ⎜0⎟ ⎜ ⎟ 0 0 1 ⎜0⎟ ⊗ ⊗ . ⎜ ⎟ ≡ |63 = |110 = |1 ⊗ |1 ⊗ |0 ≡ 1 1 0 ⎜0⎟ ⎜0⎟ ⎜ ⎟ ⎝1⎠ 0
3.2.2
Charakterisierung von Multi-Qbit-Zuständen
Analog zu reinen Qbit-Zuständen lassen sich nun reine Multi-Qbit-Zustände definieren. Definition 3.8: Reine Multi-Qbit-Zustände Es sei n ∈ N, n > 1, und es sei H ein zweidimensionaler C-Hilbertraum mit einer orthonormalen Basis |0,|1. v ∈ SH⊗n heißt ein reiner Multi-Qbit-Zustand bezüglich der Basis |0n , . . . , |2n − 1n , falls v das Vielfache eines der Basisvektoren ist, d.h. v = λ |xn für ein x ∈ {0, . . . , 2n − 1} und λ ∈ C mit |λ|2 = 1. Die Zuordnung eines Qbit-Zustandes zu einem reinen Qbit-Zustand erfolgt wieder durch eine Messung, siehe Abschnitt 3.2.3 auf Seite 72. Bei vielen Anwendungen spielen separable Zustände eine Rolle, die sich als Tensorprodukt zweier Teilzustände schreiben lassen. Als Hilfsdefinition betrachten wir zunächst Tensorpermutationen. Definition 3.9: Tensorpermutation Es sei n ∈ N, n > 1, und es sei H ein zweidimensionaler C-Hilbertraum. Weiter sei σ ∈ S({0, . . . , n − 1}) eine Permutation aus der symmetrischen Gruppe, d.h. eine bijektive 2 Die
nachfolgende Schreibweise ist unschön, aber korrekt
3.2 Multi-Qbits und ihre Darstellung
71
Abbildung σ : {0, . . . , n − 1} → {0, . . . , n − 1}. Der lineare Operator Qσ : H⊗n → H⊗n , der für xi ∈ H eindeutig durch Q (xn−1 ⊗ xn−2 ⊗ . . . ⊗ x1 ⊗ x0 ) := xσ(n−1) ⊗ xσ(n−2) ⊗ . . . ⊗ xσ(1) ⊗ xσ(0) festgelegt ist, heißt Tensorpermutation auf H⊗n . • Eine Tensorpermutation vertauscht die Rollen von einzelnen Qbits innerhalb eines MultiQbits. • Die Tensorpermutation ist als linearer Operator auf H⊗n eindeutig festgelegt, da dieser in der Definition insbesondere auf einer Basis von H⊗n festgelegt ist. • Als Permutation ist Q ein unitärer3 Operator. • Nicht jede Permutation auf H⊗n ist eine Tensorpermutation! Es gibt n! Tensorpermutationen, aber zu einer festgelegten Basis von H⊗n gibt es (2n )! verschiedene Permutationen auf H⊗n .
Definition 3.10: Separabel, verschränkt Es sei n ∈ N, n > 1, und es sei H ein zweidimensionaler C-Hilbertraum. (i) v ∈ SH⊗n heißt ein (direkt) separabler Multi-Qbit-Zustand, falls es ein p ∈ N mit 1 ≤ p < n gibt mit v = x⊗y
für ein x ∈ SH⊗p und ein y ∈ SH⊗q mit q = n − p.
(ii) v ∈ SH⊗n heißt ein indirekt separabler Multi-Qbit-Zustand, falls es eine Tensorpermutation Q auf H⊗n gibt, so dass der Vektor Qv ein direkt separabler Multi-QbitZustand ist. (iii) v ∈ SH⊗n heißt ein verschränkter Multi-Qbit-Zustand, falls v weder direkt noch indirekt separabel ist. Beispiel 13 Ein 2-Qbit-Zustand v mit v = ac |00 + ad |01 + bc |10 + bd |11 ist separabel, da gilt v = (a |0 + b |1) ⊗ (c |0 + d |1). 3 siehe Definition
3.18 auf Seite 83
72
3 Modellierung eines Quantencomputers
Beispiel 14 Der 3-Qbit-Zustand v mit 1 1 v = √ |010 + √ |111 2 2 ist bedingt separabel, denn ist Q die Tensorpermutation, die die die letzten beiden Tensorkomponenten vertauscht, so gilt 1 1 1 1 Qv = √ |001 + √ |111 = √ |00 + √ |11 ⊗ |1 . 2 2 2 2 Beispiel 15 Die folgenden 2-Qbit-Zustände sind jeweils verschränkt. Jeden dieser vier Zustände nennt man Bell-Zustand oder EPR-Zustand4 oder EPR-Paar: 1 β00 := √ (|00 + |11) ; 2 1 β01 := √ (|01 + |10) ; 2 1 β10 := √ (|00 − |11) ; 2 1 β11 := √ (|01 − |10) . 2 Man beachte, dass diese vier Vektoren jeweils orthogonal zueinander sind. Sie bilden daher eine alternative Orthonormalbasis von H⊗2 .
3.2.3
Messung eines Multi-Qbits
Wir beschreiben zunächst die allgemeine Möglichkeit einer Messung, die auf einem Satz von Messoperatoren beruht. Definition 3.11: Messoperatoren Es sei n ∈ N und es sei H ein zweidimensionaler C-Hilbertraum. Unter einem Satz von Messoperatoren auf H⊗n versteht man eine Menge {M0 , . . . , Mm−1 }, m ∈ N, von linearen Operatoren auf H⊗n Mj : H⊗n → H⊗n mit der Eigenschaft m−1
Mj ∗ Mj = I,
j=0 4 Je
nach Bell, Einstein, Podolsky und Rosen
3.2 Multi-Qbits und ihre Darstellung
73
wobei I die identische Abbildung ist und Mj ∗ der zu Mj adjungierte Operator. Ein Satz von Messoperatoren besitzt die folgende zentrale Eigenschaft für jeden Vektor v ∈ SH⊗n : m−1
2
Mj v =
j=0
m−1
Mj v, Mj v =
j=0
* =
v,
m−1
+ Mj ∗ Mj v
m−1
v, Mj ∗ Mj v
j=0
= v, v = 1.
j=0
Die folgende Definition entspricht Postulat 2 auf Seite 6. Definition 3.12: Messung eines Multi-Qbits bezüglich eines Messoperatorsatzes Es sei n ∈ N und es sei H ein zweidimensionaler C-Hilbertraum. Weiter sei ein Satz {M0 , . . . , Mm−1 }, m ∈ N, von Messoperatoren auf H⊗n gegeben und ein n-Qbit v ∈ SH⊗n . Zu einem Wahrscheinlichkeitsraum (Ω, A, P ) und dem Messraum (Ω , P(Ω )) mit Ω := {0, . . . , m − 1} betrachte die Zufallsvariable v M{M : Ω → Ω
0 ,...,Mm−1 }
mit der Verteilung 7 8 2 v P M{M =j := pj := Mj v , 0 ,...,Mm−1 }
j = 0, . . . , m − 1.
Unter der Messung des n-Qbits v ∈ SH⊗n bezüglich des gegebenen Messoperatorsatzes v versteht man eine Realisierung der Zufallsvariablen M{M . 0 ,...,Mm−1 } Nach der Messung mit einem Messergebnis j ∈ Ω befindet sich das n-Qbit im Zustand Mj v 1 = √ Mj v. Mj v pj
74
3 Modellierung eines Quantencomputers
3.2.4
Vollständige Messung eines Multi-Qbits bezüglich einer Basis
Der wichtigste Spezialfall einer Messung ist die Messung bezüglich einer Basis. Durch die Messung geht das Multi-Qbit in einen reinen Zustand bezüglich der verwendeten Basis über. Die Messoperatoren für die Messung bezüglich einer Basis lassen sich übersichtlich mit Hilfe der dualen Basis beschreiben.
Definition 3.13: Duale Basis Es sei n ∈ N, H ein zweidimensionaler C-Hilbertraum und |0n , |1n , . . . , |2n − 2n , |2n − 1n die Standardbasis von H⊗n . ∗ Zu jedem |jn wird die zugehörige duale Abbildung j|n := (|jn ) festgelegt durch j|n : H⊗n → C, j|n linear mit j|n |kn := |jn , |kn = δjk , k = 0, . . . , 2n − 1. 0|n , . . . , 2n − 1|n heißt dann duale Basis und ist eine Basis des Dualraums.
Der Operator Mj := |jn j|n ist eine Projektion auf den von |jn aufgespannten Untervektorraum, wie man sofort sieht:
Mj
n −1 2
k=0
λk |kn =
n 2 −1
k=0
λk |jn j|n |kn = λj |jn .
3.2 Multi-Qbits und ihre Darstellung
75
Lemma 3.14 Messung eines Multi-Qbits bezüglich einer Basis Es sei n ∈ N, H ein zweidimensionaler C-Hilbertraum und |0n , |1n , . . . , |2n − 2n , |2n − 1n die Standardbasis von H⊗n . Dann ist durch {M0 , . . . , M2n −1 } ein Messoperatorsatz auf H⊗n gegeben, wobei Mj := |jn j|n ,
j = 0, . . . , 2n − 1.
Die Messung eines fest gewählten n-Qbits v =
2n −1 ' k=0
λk |kn ∈ SH⊗n bezüglich dieses
Messoperatorsatzes heißt Messung bezüglich der gegebenen Basis und ist die Realisierung der Zufallsvariablen Mnv : Ω → Ω
mit einem Wahrscheinlichkeitsraum (Ω, A, P ), einem Messraum (Ω , P(Ω )) mit Ω := {0, . . . , 2n − 1} und mit der Verteilung P ({Mnv = j}) := pj := |λj |2 ,
j = 0, . . . , 2n − 1.
Nach der Messung mit einem Ergebnis j ∈ Ω befindet sich das n-Qbit im Zustand λj |j . |λj | n
Beweis. Die Operatoren Mj := |jn j|n sind Projektoren auf den durch |j aufgespannten Untervektorraum. Es gilt weiter ∗
Mj ∗ Mj = (|jn j|n ) |jn j|n = |jn j|n |jn j|n = |jn j|n = Mj und für jedes v =
2n −1 ' k=0
λk |kn ∈ SH⊗n folgt
Mj v = |jn j|n
n 2 −1
λk |kn =
k=0
n 2 −1
λk |jn j|n |kn = λj |jn .
k=0
Insbesondere folgt n 2 −1
j=0
Mj ∗ Mj v =
n 2 −1
j=0
Mj v =
n 2 −1
j=0
λj |jn = v
und damit
n 2 −1
j=1
Mj ∗ Mj = I.
76
3 Modellierung eines Quantencomputers
Somit ist {M0 , . . . , M2n−1 } ein Messoperatorsatz und damit gilt 2
2
P ({Mnv = j}) := pj := Mj v = λj |jn = |λj |2 . Der Zustand nach der Messung ist 1 1 λj |jn . λj |jn = √ Mj v = 2 pj |λ |λj | j| Die vollständige Messung bezüglich einer Basis bedeutet somit die stochastische Zuordnung eines Multi-Qbit-Zustandes v auf einen reinen Multi-Qbit-Zustand |jn . Die Binärdarstellung n der Zahl j mit n Binärstellen wird als klassisches n-Bit-Tupel aus {0, 1} interpretiert. Die Messung entspricht also dem Auslesen des „Speicherinhaltes“ eines Quantencomputers. In Abschnitt 3.3 auf Seite 83 wird erklärt, wie Qbit-Zuständen durch Operationen gezielt verändert werden können. Wie man sich sofort überlegen kann, würde eine erneute Messung mit der gegebenen Basis den Zustand des Multi-Qbits nicht weiter verändern, d.h. durch die Messung wurde es auf einen bestimmten reinen Zustand festgelegt. Beispiel 16 Man betrachte ein 2-Qbit v mit 1 1 1 v = √ |00 − |01 + |10 . 2 2 2 Eine Messung bezüglich der Standardbasis, d.h. eine Realisierung der Zufallsvariablen M2v , hat folgende Ergebnisse: Ergebnis 0 = 002 1 = 012 2 = 102
Wahrscheinlichkeit 1 2 1 4 1 4
Ergebniszustand |00 − |01 |10
Das systematisch mögliche Ergebnis 3 = 112 besitzt die Wahrscheinlichkeit 0 und ist nicht dargestellt.
3.2.5
Partielle Messung eines Multi-Qbits bezüglich einer Basis
Nun betrachten wir die partielle Messung eines Multi-Qbits bezüglich einer Basis. Das soll bedeuten, dass einige, aber nicht alle Qbits eines Multi-Qbits auf einen reinen Zustand festgelegt werden. Ohne Einschränkung der Allgemeinheit betrachten wir die Messung der ersten p Qbits eines n-Qbits. Um irgendeine Auswahl von p Qbits zu messen, wende man eine Tensorpermutation auf den betrachteten Zustand an, die diese Qbits an den Anfang tauscht.
3.2 Multi-Qbits und ihre Darstellung
77
Lemma 3.15 Partielle Messung eines Multi-Qbits bezüglich einer Basis Es sei n ∈ N, H ein zweidimensionaler C-Hilbertraum und |0n , |1n , . . . , |2n − 2n , |2n − 1n die Standardbasis von H⊗n . Ist p ∈ N mit 1 ≤ p < n und q := n − p, dann ist durch {M0 , . . . , M2p −1 } ein Messoperatorsatz auf H⊗n gegeben, wobei Mj :=
q 2 −1
|jp ⊗ |rq
|jp ⊗ |rq
∗
,
j = 0, . . . , 2p − 1.
r=0
Die Messung eines fest gewählten n-Qbits v =
2n −1 ' k=0
λk |kn ∈ SH⊗n bezüglich dieses Mess-
operatorsatzes heißt partielle Messung der ersten p Qbits bezüglich der gegebenen Basis und ist die Realisierung der Zufallsvariablen Mpv : Ω → Ω
mit einem Wahrscheinlichkeitsraum (Ω, A, P ), einem Messraum (Ω , P(Ω )) mit Ω := {0, . . . , 2p − 1} und mit der Verteilung q
2 −1 2 1 v |λj·2q +r |2 , P Mp = j := pj :=
j = 0, . . . , 2p − 1.
r=0
Nach der Messung mit einem Ergebnis j ∈ Ω befindet sich das n-Qbit im Zustand |jp ⊗
q 2 −1
r=0
λj·2q +r |rq . √ pj
Beweis. Analog zum Beweis von Lemma 3.14 auf Seite 75 zeigt man, dass {M0 , . . . , M2p−1 } ein Messoperatorsatz ist (die betrachteten Operatoren sind Summen der Operatoren aus Lemma 3.14 auf Seite 75). Außerdem folgt ebenso Mj ∗ Mj = Mj und für jedes v =
2n −1 ' k=0
Mj v =
λk |kn ∈ SH⊗n folgt
q 2 −1
r=0
|jp ⊗ |rq
|jp ⊗ |rq
n −1 ∗ 2
k=0
λk |kn
78
3 Modellierung eines Quantencomputers
=
q n 2 −1 2 −1
∗ λk |jp ⊗ |rq |jp ⊗ |rq |kn
r=0 k=0
=
q 2 −1
λj·2q +r |jp ⊗ |rq = |jp ⊗
r=0
q 2 −1
λj·2q +r |rq .
r=0
Damit gilt # #2 # q #2 q 2 −1 −1 # #2 # # # # # # λj·2q +r |rq # = # λj·2q +r |rq # pj := Mj v = #|jp ⊗ # # # # 2
r=0
=
q 2 −1
r=0
|λj·2q +r |2 .
r=0
Der Zustand nach der Messung ist q
2 −1 1 λj·2q +r |rq . √ Mj v = |jp ⊗ √ pj pj r=0
Nach der Messung der ersten p Qbits spielen diese bei vielen Überlegungen keine Rolle mehr. ˆ r := λj·2q +r , so ist der Zustand nach der Betrachtet man nur die letzten q Qbits und setzt λ Messung q 2 −1
r=0
ˆr λ √ |rq . pj
Beispiel 17 Die Messung von einem Bit eines Bell-Zustandes, vergleiche Beispiel 15 auf Seite 72, legt auch das zweite Bit eindeutig fest. Man betrachte etwa 1 β00 = √ (|00 + |11) . 2 Die Messung des ersten Bits bezüglich der Standardbasis, d.h. eine Realisierung der Zufallsvariablen M1v , ergibt folgende Möglichkeiten: Ergebnis 0 1
Wahrscheinlichkeit 1 2 1 2
Ergebniszustand |0 ⊗ |0 |1 ⊗ |1
3.2 Multi-Qbits und ihre Darstellung
79
Beispiel 18 Man betrachte ein 2-Qbit v mit 1 1 1 v = √ |00 − |01 + |10 . 2 2 2 Die Messung des ersten Bits bezüglich der Standardbasis, d.h. eine Realisierung der Zufallsvariablen M1v , ergibt folgende Möglichkeiten: Ergebnis
Wahrscheinlichkeit
0
3 4 1 4
1
Ergebniszustand " " 2 1 |0 ⊗ |0 − |1 3 3 |1 ⊗ |0
Da nachfolgende einfache Korollar ist eine Umformulierung von Lemma 3.15 auf Seite 77 für den Fall einer speziellen Darstellung eines n-Qbits, die einigen Quantenalgorithmen vorkommt.
80
3 Modellierung eines Quantencomputers
Korollar 3.16 Partielle Messung eines Multi-Qbits (alternative Darstellung) Es sei n ∈ N, H ein zweidimensionaler C-Hilbertraum und |0n , |1n , . . . , |2n − 2n , |2n − 1n die Standardbasis von H⊗n . Ist p ∈ N mit 1 ≤ p < n und q := n − p, dann ist durch {M0 , . . . , M2p −1 } ein Messoperatorsatz auf H⊗n gegeben, wobei q 2 −1
Mj :=
|jp ⊗ |rq
|jp ⊗ |rq
∗
j = 0, . . . , 2p − 1.
,
r=0
Die Messung eines fest gewählten n-Qbits v =
p q−1 2' −1 2'
j=0 r=0
λj,r |jp ⊗ |rq ∈ SH⊗n bezüglich
dieses Messoperatorsatzes heißt partielle Messung der ersten p Qbits bezüglich der gegebenen Basis und ist die Realisierung der Zufallsvariablen Mpv : Ω → Ω
mit einem Wahrscheinlichkeitsraum (Ω, A, P ), einem Messraum (Ω , P(Ω )) mit Ω := {0, . . . , 2p − 1} und mit der Verteilung q
2 −1 1 2 P Mpv = j := pj := |λj,r |2 ,
j = 0, . . . , 2p − 1.
r=0
Nach der Messung mit einem Ergebnis j ∈ Ω befindet sich das n-Qbit im Zustand |jp ⊗
q 2 −1
r=0
Beweis.
λj,r √ |rq . pj
Es gilt v=
p q−1 2 −1 2
λj,r |jp ⊗ |rq =
j=0 r=0
wobei
n 2 −1
μk |kn ,
k=0
|jn ⊗ |rq = |j · 2q + rn
und aus der Eindeutigkeit der Basisdarstellung folgt damit μj·2q +r = λj,r
für alle
j = 0, . . . , 2p − 1, k = 0, . . . , 2n − 1.
Mit Lemma 3.15 auf Seite 77 ergibt sich dann die Aussage.
3.2 Multi-Qbits und ihre Darstellung
81
Nun soll noch die Besonderheit separabler Zustände festgehalten werden. Das nachfolgende Lemma besagt, dass die partielle Messung eines Teilzustandes in einem separablen Zustand den anderen Teilzustand nicht verändert und dieser auch keinen Einfluss auf das Messergebnis hat. Bezüglich der Messung können daher separable Zustände wie getrennte Systeme behandelt werden.
Lemma 3.17 Partielle Messung eines separablen Zustands Es sei n ∈ N, H ein zweidimensionaler C-Hilbertraum und |0n , |1n , . . . , |2n − 2n , |2n − 1n die Standardbasis von H⊗n . Weiter sei v ∈ SH⊗n ein separabler Multi-Qbit-Zustand mit einem p ∈ N mit 1 < p < n, q := n − p und v = x⊗y
mit x =
p 2 −1
λk |kp ∈ SH⊗p und y =
q 2 −1
μr |rq ∈ SH⊗q .
r=0
k=0
Dann ist die partielle Messung der ersten p Qbits bezüglich der gegebenen Basis die Realisierung der Zufallsvariablen Mpv : Ω → Ω
mit einem Wahrscheinlichkeitsraum (Ω, A, P ), einem Messraum (Ω , P(Ω )) mit Ω := {0, . . . , 2p − 1} und mit der Verteilung 1 2 P Mpv = j := pj := |λj |2 ,
j = 0, . . . , 2p − 1.
Nach der Messung mit einem Ergebnis j ∈ Ω befindet sich das n-Qbit im Zustand λj |jp ⊗ y. |λj |
Beweis.
Es gilt v =x⊗y =
p 2 −1
λk |kp ⊗
=
k=0 r=0
μr |rq =
r=0
k=0 p q 2 −1 2 −1
q 2 −1
q
λk μr |k · 2 + rn =
p q 2 −1 2 −1
λk μr |kp ⊗ |rq
k=0 r=0 n 2 −1
j=0
ηj |jn
mit ηk·2q+r = λk μr .
82
3 Modellierung eines Quantencomputers
Mit Lemma 3.15 auf Seite 77 folgt dann für j = 0, . . . , 2p − 1: q
q
2 −1 2 −1 2 1 |ηj·2q+r |2 = |λj μr |2 P Mpv = j = pj = r=0
= |λj |2
q −1 2
r=0
|μr |2 = |λj |2 .
r=0
Der Ergebniszustand lautet nach Lemma 3.15 auf Seite 77: |jp ⊗
q 2 −1
r=0
q
2 −1 ηj·2q +r λj μr |rq |rq = |jp ⊗ √ pj |λj | r=0 q 2 −1 λj λj |j ⊗ |j ⊗ y. = μr |rq = |λj | p |λj | p r=0
Beispiel 19 Man betrachte ein 2-Qbit v mit 1 1 1 1 v = √ |00 − √ |01 + √ |10 − √ |11 . 6 6 3 3 Durch Umformung erkennt man, dass es sich um einen separablen Zustand handelt mit ( ) 9 1 2 1 1 v = √ |0 + |1 ⊗ √ |0 − √ |1 . 3 3 2 2 Die Messung des ersten Bits bezüglich der Standardbasis, d.h. eine Realisierung der Zufallsvariablen M1v , ergibt folgende Möglichkeiten: Ergebnis
Wahrscheinlichkeit
0
1 3
1
2 3
Ergebniszustand |0 ⊗ √12 |0 − √12 |1 |1 ⊗ √12 |0 − √12 |1
Hier sieht man noch einmal deutlich, dass die Ergebniswahrscheinlichkeiten nur von den Koeffizienten des ersten Qbits abhängen und zweite Qbit durch die Messung unverändert bleibt.
3.3 Unitäre Operationen auf Quantenbits (Zeitentwicklung)
3.3
83
Unitäre Operationen auf Quantenbits (Zeitentwicklung)
Operationen auf Quantenbits entsprechen den Operationen auf Bits eines klassischen Speichers. In deterministischer Weise wird der Speicherinhalt, d.h. der Zustand des Mulit-Qbits, durch eine Operation in einen anderen Zustand übergeführt. In der Quantenmechanik spricht man von Zeitentwicklung.
3.3.1
Definition von Gates (Unitäre Operatoren)
Die Anwendung eines unitären Operators auf ein Multi-Qbit wird auch Anwendung eines Gates auf das Multi-Qbit genannt. Definition 3.18: Unitärer Operator Ist V ein C-Hilbertraum, so heißt ein linearer Operator U : V → V , ein unitärer Operator, falls U ∗U = I gilt, wobei I : V → V die identische Abbildung ist. 2
Damit hat man U −1 = U ∗ und für ein v ∈ V mit v = 1 gilt U v2 = U v, U v = U ∗ U v, v = v, v = 1. Daran sieht man, dass die Einheitssphäre auf die Einheitssphäre abgebildet wird. Die Tensorpermutationen aus Definition 3.9 auf Seite 70 sind Beispiele für unitäre Operatoren auf H⊗n , die wir auch als Gates bezeichnen wollen. Definition 3.19: Operationen auf Multi-Qbits, Gate Es sei n ∈ N und H ein zweidimensionaler C-Hilbertraum. Ein unitärer Operator U : H⊗n → H⊗n wird Gate genannt und seine Anwendung auf einen n-Qbit-Zustand v ∈ SH⊗n , also die Durchführung von U v ∈ SH⊗n , nennt man Operation auf dem n-Qbit v. Eine Operation auf einem Multi-Qbit ist also deterministisch (im Gegensatz zu einer Messung) und ist reversibel (durch Anwendung von U −1 = U ∗ ). Bei Vorgabe einer Basis, insbesondere der Standardbasis, lässt sich jeder lineare Operator U auf H⊗n mit Hilfe einer Matrix beschreiben. Oft wird für die Matrix derselbe Bezeichner wie für den Operator verwendet, um die Notation kompakt zu halten.
84
3 Modellierung eines Quantencomputers
Beispiel 20 Man betrachte H⊗2 und die Tensorpermutation P , die die beiden Tensorkomponenten vertauscht. Somit gilt P |00 = |00 ,
P |01 = |10 ,
P |10 = |01 ,
P |11 = |11 .
Eine Matrixdarstellung für P lautet damit ⎛ 1 ⎜0 ⎝0 0
3.3.2
0 0 1 0
0 1 0 0
⎞ 0 0⎟ . 0⎠ 1
Tensorprodukt von Operatoren
Die Konkatenierung von unitären Operatoren ergibt bekanntermaßen selbst wieder einen unitären Operator, d.h. sind A und B zwei unitäre Operatoren auf einem Hilbertraum, so ist AB (genauer A ◦ B) wieder ein unitärer Operator auf diesem Hilbertraum. Es lässt sich auch ein Tensorprodukt von unitären Operatoren auf Hilberträumen angeben, welches wieder einen unitären Operator auf dem Produktraum ergibt. Wir formulieren dies gleich für die Anwendung auf Quanten-Zustandsräume.
Definition 3.20: Tensorprodukt von Operatoren Es sei H ein zweidimensionaler C-Hilbertraum und es seien n1 , . . . , nm , m ∈ N. Weiter sei für alle k = 1, . . . , m jeweils ein linearer Operator Ak : H⊗nk → H⊗nk gegeben. Das Tensorprodukt dieser Operatoren sei ein linearer Operator A1 ⊗ . . . ⊗ Am : H⊗(n1 +...+nm ) → H⊗(n1 +...+nm ) mit der definierenden Eigenschaft (A1 ⊗ . . . ⊗ Am )(x1 ⊗ . . . ⊗ xm ) := (A1 x1 ) ⊗ . . . ⊗ (Am xm ) für alle xk ∈ H⊗nk , k = 1, . . . , m.
Wieder gilt, dass der lineare Operator A1 ⊗ . . . ⊗ Am durch seine definierende Eigenschaft eindeutig festgelegt ist, da er damit insbesondere auf einer Basis von H⊗(n1 +...+nm ) festgelegt ist.
3.3 Unitäre Operationen auf Quantenbits (Zeitentwicklung)
85
Lemma 3.21 Adjungiertes Tensorprodukt und unitäres Tensorprodukt Es sei H ein zweidimensionaler C-Hilbertraum und es seien n1 , . . . , nm , m ∈ N. Weiter sei für alle k = 1, . . . , m jeweils ein linearer Operator Ak : H⊗nk → H⊗nk gegeben. (i) Es gilt ∗
(A1 ⊗ . . . ⊗ Am ) = A1 ∗ ⊗ . . . ⊗ Am ∗ . (ii) Sind A1 , . . . , Am jeweils unitäre Operatoren, so ist auch A1 ⊗ . . . ⊗ Am ein unitärer Operator.
Beweis.
Man betrachte xk , yk ∈ H⊗nk , k = 1, . . . , m. Dann gilt: %
∗
(A1 ⊗ . . . ⊗ Am ) (x1 ⊗ . . . ⊗ xm ), y1 ⊗ . . . ⊗ ym
&
= x1 ⊗ . . . ⊗ xm , (A1 ⊗ . . . ⊗ Am ) (y1 ⊗ . . . ⊗ ym ) = x1 ⊗ . . . ⊗ xm , (A1 y1 ) ⊗ . . . ⊗ (Am ym ) = x1 , A1 y1 · . . . · xm , Am ym = A1 ∗ x1 , y1 · . . . · Am ∗ xm , ym = (A1 ∗ x1 ) ⊗ . . . ⊗ (Am ∗ )xm , y1 ⊗ . . . ⊗ ym = (A1 ∗ ⊗ . . . ⊗ Am ∗ ) (x1 ⊗ . . . ⊗ xm ), y1 ⊗ . . . ⊗ ym Da die Beziehung somit insbesondere für eine Basis von H⊗(n1 +...+nm ) nachgewiesen wurde, gilt sie für alle Elemente von H⊗(n1 +...+nm ) . Aufgrund der Eindeutigkeit des adjungierten Operators folgt damit ∗
(A1 ⊗ . . . ⊗ Am ) = A1 ∗ ⊗ . . . ⊗ Am ∗ . Sind A1 , . . . , Am jeweils unitäre Operatoren, so gilt für alle xk ∈ H⊗nk , k = 1, . . . , m,: ∗
(A1 ⊗ . . . ⊗ Am ) (A1 ⊗ . . . ⊗ Am ) (x1 ⊗ . . . ⊗ xm ) = (A1 ∗ ⊗ . . . ⊗ Am ∗ ) ((A1 x1 ) ⊗ . . . ⊗ (Am xm )) = (A1 ∗ A1 x1 ) ⊗ . . . ⊗ (Am ∗ Am xm ) = x1 ⊗ . . . ⊗ xm . ∗
Somit ist (A1 ⊗ . . . ⊗ Am ) (A1 ⊗ . . . ⊗ Am ) auch auf einer Basis von H⊗(n1 +...+nm ) die Identität, d.h. als lineare Abbildung damit auch auf ganz H⊗(n1 +...+nm ) . Ist A : H → H ein Operator, so erhält man die Matrixdarstellung MA bezüglich der Standardbasis wie folgt: A |0 = a11 |0 + a21 |1 A |1 = a12 |0 + a22 |1
⇔
MA =
a11 a12 . a21 a22
86
3 Modellierung eines Quantencomputers
Lemma 3.22 Matrixdarstellung für ein Tensorprodukt von Operatoren Es sei H ein zweidimensionaler C-Hilbertraum und es seien A : H → H und B : H → H zwei Operatoren mit den Matrixdarstellungen a11 a12 b b MA := und MB := 11 12 a21 a22 b21 b22 bezüglich der Standardbasis. Dann gilt für die Matrixdarstellung von A ⊗ B: MA⊗B =
Beweis.
a11 MB a12 MB a21 MB a22 MB
⎛
a11 b11 ⎜a11 b21 =⎝ a21 b11 a21 b21
a11 b12 a11 b22 a21 b12 a21 b22
a12 b11 a12 b21 a22 b11 a22 b21
⎞ a12 b12 a12 b22 ⎟ . a22 b12 ⎠ a22 b22
Der Nachweis erfolgt durch einfaches Nachrechnen: A ⊗ B |00 = (a11 |0 + a21 |1) ⊗ (b11 |0 + b21 |1) = a11 b11 |00 + a11 b21 |01 + a21 b11 |10 + a21 b21 |11 .
Analog für die drei anderen Basisvektoren.
Lemma 3.22 lässt sich in offensichtlicher Weise auf allgemeine Operatoren bzw. mehrfache Tensorproduktbildung verallgemeinern.
3.3.3
Elementare Gates für ein Qbit
Hier betrachten wir den zweidimensionalen C-Hilbertraum H mit der Standardbasis |0 und |1. Bereits auf einem einzelnen Qbit lassen sich zahlreiche Gates betrachten, die jeweils unitäre Operatoren auf H sind. Im Folgenden werden wichtige Beispiele für solche Gates betrachtet. Es wird jeweils auch eine Matrix-Darstellung der Operatoren bezüglich der Standardbasis angegeben. Das X-Gate vertauscht die beiden Basisvektoren, d.h. es gilt: Definition 3.23: X-Gate (Not-Gate) Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator X : H → H mit der Matrixdarstellung MX das X-Gate oder Not-Gate, wenn gilt X |0 = |1 , X |1 = |0 ,
MX =
0 1 . 1 0
Die Anwendung auf einen reinen Zustand bewirkt den Wechsel des Zustandes, d.h. bei Messung hat sich dann der Bitwert geändert.
3.3 Unitäre Operationen auf Quantenbits (Zeitentwicklung)
87
Definition 3.24: Y-Gate Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator Y : H → H mit der Matrixdarstellung MY das Y-Gate, wenn gilt Y |0 = i |1 , Y |1 = −i |0 ,
MY =
0 −i . i 0
Auch beim Y-Gate werden die Zustände getauscht. Bei Messung ergibt sich hier (zunächst) kein Unterschied zum X-Gate. Definition 3.25: Z-Gate Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator Z : H → H mit der Matrixdarstellung MZ das Z-Gate, wenn gilt Z |0 = |0 , Z |1 = − |1 ,
1 0 MZ = . 0 −1
Das X-, Y-, Z-Gate bzw. die Matrixdarstellung wird auch Pauli-Matrix genannt. Definition 3.26: H-Gate (Hadamard-Gate) Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator H : H → H mit der Matrixdarstellung MH das H-Gate oder Hadamard-Gate, wenn gilt 1 H |0 = √ (|0 + |1) , 2 1 H |1 = √ (|0 − |1) , 2
1 MH = √ 2
1 1 . 1 −1
Das Hadamard-Gate erzeugt aus einem reinen Zustand einen Zustand, der mit Wahrscheinlichkeit 12 jeweils zu 0 oder zu 1 gemessen wird, d.h. es wird eine Gleichverteilung erzeugt. Definition 3.27: P-Gate (Phasen-Gate) Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator P : H → H mit der Matrixdarstellung MP das P-Gate oder Phasen-Gate, wenn gilt P |0 = |0 , P |1 = i |1 ,
MP =
1 0 . 0 i
88
3 Modellierung eines Quantencomputers
Definition 3.28: T-Gate Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator T : H → H mit der Matrixdarstellung MT das T-Gate, wenn gilt
T |0 = |0 , π T |1 = exp(i ) |1 , 4
MT =
1 0 . 0 exp(i π4 )
Das I-Gate ist die Identität und wird der Vollständigkeit halber aufgeführt. Definition 3.29: I-Gate Ist H der zweidimensionale Zustandsraum eines Qbits, so heißt der unitäre Operator I : H → H mit der Matrixdarstellung MI das I-Gate oder die identische Abbildung auf H, wenn gilt I |0 = |0 , 10 MI = . 01 I |1 = |1 , Anwendung von Ein-Qbit-Gates auf ein Multi-Qbit Mit Hilfe des Tensorproduktes für Operatoren lassen sich Ein-Qbit-Gates auch sinngemäß für Multi-Qbits erweitern. Betrachtet man ein n-Qbit und möchte man z.B. das Hadamard-Gate auf das k-te Qbit anwenden, wobei in der Produktdarstellung von rechts nach links beginnend mit 0 gezählt werde, so ist der folgende Operator anzuwenden: Hk := I ⊗ . . . ⊗ I ⊗H ⊗ I ⊗ . . . ⊗ I (n − k − 1)-fach
k-fach
Bei der Komplexitätsbetrachtung für Quantenalgorithmen werden solche Gates nur mit einer bzw. einer konstanten Zahl von Operationen gerechnet. Beispiel 21 Beispielsweise gilt für xk ∈ {0, 1}: H1 (|x3 ⊗ |x2 ⊗ |x1 ⊗ |x0 ) = |x3 ⊗ |x2 ⊗ (H |x1 ) ⊗ |x0 . Man erhält damit z.B. (9 ) 9 1 2 H1 |0000 + |1111 3 3 9 9 9 9 1 1 1 1 |0000 + |0010 + |1101 − |1111 . = 6 6 3 3
3.3 Unitäre Operationen auf Quantenbits (Zeitentwicklung)
89
Beispiel 22 Betrachtet wird ein 2-Qbit und die Anwendung des Hadamard-Gates auf das 0-te oder das 1-te Qbit, also H0 = I ⊗ H und H1 = H ⊗ I. Für die Matrixdarstellung gilt dann mit Lemma 3.22 auf Seite 86 jeweils: ⎞ ⎛ 1 1 0 0 1 ⎜1 −1 0 0 ⎟ MH 0 MH0 = = √ ⎝ ⎠, 0 MH 2 0 0 1 1 0 0 1 −1 ⎞ ⎛ 10 1 0 1 ⎜0 1 0 1 ⎟ 1 MI MI MH1 = √ = √ ⎝ ⎠. 2 MI −MI 2 1 0 −1 0 0 1 0 −1 Es lassen sich natürlich mit Hilfe des Tensorproduktes auch mehrere Ein-Qbit-Gates parallel auf verschiedene Qbits eines Multi-Qbits anwenden. Häufig verwendet wird das mehrfache Hadamard-Gate: H⊗n = H ⊗ . . . ⊗ H n-fach
Beispiel 23 Betrachtet werde ein n-Qbit. Dann gilt: H
⊗n
|0n =
n
i=1
=2
n n
n 1 √ (|0 + |1) = 2− 2 (H |0) = (|0 + |1) 2 i=1 i=1
−n 2
n 2 −1
|jn .
j=0
Beispiel 24 Betrachtet werde ein 2-Qbit und das H⊗2 -Gate. Für die Matrixdarstellung gilt dann mit Lemma 3.22 auf Seite 86: ⎞ ⎛ 1 1 1 1 1 ⎜1 −1 1 −1⎟ 1 MH MH MH⊗2 = √ = ⎝ ⎠. 2 1 1 −1 −1 2 MH −MH 1 −1 −1 1
3.3.4
Elementare Gates für zwei Qbits
Gates für zwei oder mehr Qbits wurden auch bereits im vorangegangenen Abschnitt betrachtet. Diese waren aber stets als Tensorprodukt von Operatoren für je ein Qbit formuliert und „wirkten“ daher nur auf je ein Qbit. Es fehlen noch Operatoren für die Interaktion von Qbits.
90
3 Modellierung eines Quantencomputers
Bei zwei Qbits sieht man eines als das „kontrollierende“ Qbit an, dessen Zustand die Operation auf dem anderen Qbit steuert. Daher wird auch von einer kontrollierten Operation gesprochen. Die einfachste Operation dieser Art ist durch die kontrollierte Not-Operation gegeben: Definition 3.30: C-Gate Ist H⊗n für n ≥ 2 der Zustandsraum eines n-Qbits, so heißt der unitäre Operator Cpq : H⊗n → H⊗n mit n − 1 ≥ p > q ≥ 0 das C-Gate oder CNOT-Gate oder ControlledNote-Gate, wenn für alle x, y ∈ B und 0 ≤ a < 2n−1−p, 0 ≤ b < 2p−q−1 , 0 ≤ c < 2q gilt Cpq |an−1−p |x |bp−q−1 |y |cq = |an−1−p |x |bp−q−1 |y ⊕ x |cq . Analog sei Cqp definiert. Für n = 2 gilt für alle x, y ∈ B: C10 |x |y = |x |y ⊕ x ,
MC10
⎛ 1 ⎜0 =⎝ 0 0
0 1 0 0
0 0 0 1
⎞ 0 0⎟ . 1⎠ 0
Definition 3.31: S-Gate Ist H⊗n für n ≥ 2 der Zustandsraum eines n-Qbits, so heißt der unitäre Operator Spq : H⊗n → H⊗n mit n − 1 ≥ p > q ≥ 0 das S-Gate oder Swap-Gate, wenn für alle x, y ∈ B und 0 ≤ a < 2n−1−p, 0 ≤ b < 2p−q−1 , 0 ≤ c < 2q gilt Spq |an−1−p |x |bp−q−1 |y |cq = |an−1−p |y |bp−q−1 |x |cq . Analog sei Sqp definiert. Für n = 2 gilt für alle x, y ∈ B: ⎛
S10 |x |y = |y |x ,
3.3.5
MS10
1 ⎜0 =⎝ 0 0
0 0 1 0
0 1 0 0
⎞ 0 0⎟ . 0⎠ 1
Gates für Boolesche Funktionen
Für B = {0, 1} ist eine klassische bitwertige Boolesche Funktion in n Stellen eine Abbildung Bn → B. Verwendet man die die Elemente von Bn zur Binärdarstellung einer Zahl (bijektive Abbildung), so lässt sich die Boolesche Funktion kompakt als Abbildung f : {0, 1, 2, . . ., 2n − 1} → B
3.3 Unitäre Operationen auf Quantenbits (Zeitentwicklung)
91
schreiben. Identifiziert man die Elemente der Definitionsmenge mit den Basisvektoren eines Zustandsraumes H⊗n , so lässt sich ein quantenmechanisches Gate Uf definieren, welches der Abbildung zugeordnet werden kann. Um Uf als unitären Operator schreiben zu können, definiert man Uf über: Definition 3.32: Uf -Gate Ist H⊗(n+1) der Zustandsraum eines (n + 1)-Qbits und ist f : {0, 1, 2, . . . , 2n − 1} → B eine n-stellige Boolesche Funktion, so heißt der unitäre Operator Uf : H⊗(n+1) → H⊗(n+1) das Uf -Gate, wenn gilt Uf |xn |y1 = |xn |y ⊕ f(x)1 ,
für alle x ∈ {0, 1, 2, . . . , 2n − 1} , y ∈ B.
Dabei bedeutet ⊕ die binäre Addition, siehe Beispiel 2 auf Seite 13. Es gilt dann Uf Uf (|xn |y1 ) = Uf (|xn |y ⊕ f(x)1 ) = |xn |y ⊕ f(x) ⊕ f(x)1 ) = |xn |y1 . Insbesondere ist U−1 f = Uf und Uf somit ein Automorphismus. Uf permutiert die Basisvektoren von H⊗(n+1) und ist als Permutation unitär. Beispiel 25 Man betrachte eine n-stellige Boolsche Funktion f : {0, 1, 2, . . . , 2n − 1} → B und die Anwendung von Uf auf H0 |xn |1, d.h. die Anwendung auf 1 |0 − |1 H0 |xn |1 = √ (|xn |0 − |xn |1) = |xn ⊗ √ 2 2 Damit folgt |f(x) − |1 ⊕ f(x) (−1)f(x) (|0 − |1) √ √ = |xn ⊗ 2 2 |0 − |1 f(x) = (−1) . · |xn ⊗ √ 2
Uf H0 |xn |1 = |xn ⊗
92
3 Modellierung eines Quantencomputers
3.3.6
Quanten-Fouriertransformation
Die Fouriertransformation lässt sich in naheliegender Weise für Quantenbits formulieren.
Definition 3.33: F⊗n -Gate (Fouriertransformation) Ist H⊗n) der Zustandsraum eines n-Qbits, so heißt der unitäre Operator F⊗n : H⊗n → H⊗n das F⊗n -Gate (Fouriertransformation), wenn gilt ⊗n
F
|xn = 2
−n 2
n 2 −1
y=0
xy exp 2πi n |yn , 2
für alle x ∈ {0, . . . , 2n − 1} .
Die Schreibweise F⊗n wurde der Lesbarkeit halber gewählt. Die mögliche Unterstellung, dass dieses Gate das Tensorprodukt von Gates für ein Qbit ist, ist nicht richtig, auch wenn man dies bisweilen in der Literatur liest. Allerdings gibt es eine handliche Produktdarstellung, wie gleich zu sehen sein wird. Die Unitarität des Operators F⊗n wird in folgendem Satz nachgewiesen, in dem die inverse Fouriertransformation behandelt wird.
Satz 3.34 Inverse Fouriertransformation Ist H⊗n) der Zustandsraum eines n-Qbits und F⊗n : H⊗n → H⊗n sei das F⊗n -Gate. Dann ist die inverse Fouriertransformation gegeben durch 1 ⊗n 2−1 1 ⊗n 2∗ F = F Es gilt für alle x ∈ {0, . . . , 2n − 1}: 2 −1 1 ⊗n 2−1 n xy |xn = 2− 2 exp −2πi n |yn . F 2 y=0 n
Beweis.
Sei U : H⊗n → H⊗n mit n
U |zn = 2− 2
n 2 −1
y=0
zy exp −2πi n |yn , 2
für alle z ∈ {0, . . . , 2n − 1} .
3.3 Unitäre Operationen auf Quantenbits (Zeitentwicklung)
93
Dann gilt: * U |zn , |xn =
2
−n 2
n 2 −1
y=0 n
= 2− 2
n 2 −1
y=0
zy exp −2πi n |yn , |xn 2
+
zy exp −2πi n |yn , |xn 2
n 2 −1 n n zx yx exp 2πi n |zn , |yn = 2− 2 exp 2πi n = 2− 2 2 2 y=0 + * n 2 −1 % & yx −n 2 exp 2πi n |yn = |zn , F⊗n |xn = |zn , 2 2 y=0
1 2∗ Somit ist F⊗n = U. Weiter gilt 2∗ 1 1 ⊗n 2∗ ⊗n F |xn = F⊗n F
( 2
−n 2
n 2 −1
y=0 n
= 2− 2
n 2 −1
exp 2πi
y=0
=2
−n 2
n 2 −1
y=0
xy exp 2πi n |yn 2
)
xy 1 ⊗n 2∗ F |yn 2n
2 −1 xy n yz exp 2πi n 2− 2 exp −2πi n |zn 2 2 z=0
n
y(x − z) |zn exp 2πi 2n y=0 z=0 ( n −1 n y ) −1 2 2 x−z −n |zn = |xn . =2 exp 2πi n 2 z=0 y=0 = 2−n
n n −1 2 −1 2
Die letzte Umformung ergibt sich daraus, dass für z = x die innere Summe 2n ergibt, und für z = x die geometrische Summenformel gilt: n 2 −1
y=0
1 22n y 1 − exp 2πi x−z 1 − exp (2πi(x − z)) x−z n 2 2 = 2 1 1 exp 2πi n = 2 1 − exp 2πi x−z 1 − exp 2πi x−z n 2 2n =
1−1 2 = 0. 1 1 − exp 2πi x−z 2n
94
3 Modellierung eines Quantencomputers
Satz 3.35 Produktdarstellung der Fouriertransformation Ist H⊗n der Zustandsraum eines n-Qbits und F⊗n : H⊗n → H⊗n sei das F⊗n -Gate. Für n−1 ' xj 2j ∈ {0, . . . , 2n − 1} mit xj ∈ B, j = 0, . . . , n − 1, gilt: x= j=0
F⊗n |xn = F⊗n |xn−1 xn−2 . . . x1 x0 n
x n |0 + exp 2πi m |1 = 2− 2 2 m=1 ⎛ ⎛ ⎞ ⎞ n m−1
xj n ⎝|0 + exp ⎝2πi ⎠ |1⎠ . = 2− 2 m−j 2 m=1 j=0
Beweis.
Die erste Produktdarstellung ergibt sich aus der Beobachtung für y = 2n−m , dass xy x2n−m :: n−m& exp 2πi n |yn = exp 2πi 2 n 2 2n x = exp 2πi m |0m−1 |1 |0n−m . 2
Die zweite Produktdarstellung folgt aus ⎛ ⎞ n−1 xj 2j x ⎠ exp 2πi m = exp ⎝2πi 2 2m j=0 ⎞ ⎛ m−1 n−1 xj + 2πi xj 2j−m ⎠ = exp ⎝2πi 2m−j j=0 j=m ⎞ ⎛ m−1 n−1 xj 6 2 1 ⎠ exp 2πixj 2j−m = exp ⎝2πi 2m−j j=0 j=m ⎛ ⎞ m−1 xj ⎠. = exp ⎝2πi 2m−j j=0
4
Quantenalgorithmen für Quantencomputer
4.1
Das Grundprinzip der Quantenalgorithmen
Quantenalgorithmen auf Quantencomputern verfolgen das gleiche Ziel wie klassische Algorithmen auf klassischen Computern: Zu einer gegebenen Problemstellung mit gewissen gegebenen Eingangsdaten, die sich in einen endlichen Speicher ablegen lassen, werden Ausgangsdaten berechnet, die ebenfalls einen nur endlich großen Speicher befüllen. In Kapitel 3 wurde die mathematische Modellierung eines Quantencomputers formuliert, dessen Speicher ein Multi-Qbit ist. Die Besonderheit gegenüber klassischen Computern besteht darin, dass der Speicherinhalt aus einem drastisch größeren Zustandsraum stammt. Dies wird aber dadurch kompensiert, dass die Speicherzustände nicht beobachtet werden können, sondern durch Messung wieder auf eine Zustandsmenge zurückgeführt werden, die dem klassischen Computer entspricht. Ein Quantenalgorithmus besteht typischerweise aus folgenden Teilschritten: 1. Einspeisung von Eingangsdaten (einem klassischen Bittupel), die als reiner Multi-QbitZustand umgesetzt werden. 2. Durchführung von deterministischen quantenmechanischen Operationen auf dem Speicher, d.h. Anwendung von einem oder mehreren unitären Operatoren auf das Multi-Qbit. 3. Messung des Multi-Qbits, d.h. Durchführung eines Zufallsexperimentes. Als Ergebnis erhält man die Ausgangsdaten (ein klassisches Bittupel).
4.2
Der Deutsch-Algorithmus
4.2.1
Zielsetzung
Der dem Prinzip nach auf David Deutsch [6, 14] zurückgehende Algorithmus ist ein besonders einfaches Beispiel, um die Besonderheit von Quantenalgorithmen zu demonstrieren. Man betrachtet dazu eine Boolesche Funktion f : B → B,
(4.1)
deren Funktionsvorschrift unbekannt sei. Die Funktion wird als ausgeglichen bezeichnet, falls sie die beiden möglichen Funktionswerte 0 und 1 jeweils annimmt, und sie wird als konstant bezeichnet, falls f(x) = f(y) für alle x, y ∈ B gilt.
96
4 Quantenalgorithmen für Quantencomputer
Mit einem Algorithmus soll entschieden werden, ob die Funktion f ausgeglichen oder konstant ist. Die naheliegende klassische Lösung besteht darin, dass man die Funktionswerte f(0) und f(1) bestimmt und miteinander vergleicht, d.h. zur Lösung sind zwei Funktionsauswertungen notwendig.
4.2.2
Formulierung des Verfahrens
Die Entscheidung, ob die Funktion f ausgeglichen ist oder nicht, wird mit Hilfe eines Uf -Gates getroffen. Als Speicher wird ein 2-Qbit verwendet, und die formale Darstellung des Verfahrens lautet:
ψ0 := |01 ; ψ1 := H⊗2 ψ0 ; ψ2 := Uf ψ1 ; ψ3 := H1 ψ2 ; Y := M1ψ3 . Y = M1ψ3 ist die Zufallsvariable zur partiellen Messung des ersten Qbits, siehe Lemma 3.15 auf Seite 77. Ist f konstant, so ist die Zufallsvariable Y P -fast sicher 0, und ist f ausgeglichen, so ist die Zufallsvariable Y P -fast sicher 1. Die Einzelschritte des Verfahrens werden nun erläutert. ψ1 := H⊗2 ψ0 = H⊗2 |01 = (H |0) ⊗ (H |1) =
|0 + |1 |0 − |1 √ ⊗ √ 2 2
1
|0 − |1 1 . |x ⊗ √ = √ 2 x=0 2
(4.2)
In Beispiel 25 auf Seite 91 wurde bereits allgemein gezeigt H0 |xn |1 = |xn ⊗
|0 − |1 √ , 2
Uf H0 |xn |1 = (−1)f(x) · |xn ⊗
|0 − |1 √ . 2
Damit folgt 1
1 |0 − |1 ψ2 := Uf ψ1 = √ (−1)f(x) · |x ⊗ √ 2 x=0 2 |0 − |1 1 . = √ (−1)f(0) |0 + (−1)f(1) |1 ⊗ √ 2 2
(4.3)
4.3 Der Deutsch-Jozsa-Algorithmus
97
Weiter gilt
ψ3 := H1 ψ2 |0 − |1 1 (−1)f(0) |0 + (−1)f(0) |1 + (−1)f(1) |0 − (−1)f(1) |1 ⊗ √ = 2 2 (−1)f(0) + (−1)f(1) (−1)f(0) − (−1)f(1) |0 − |1 = |0 + |1 ⊗ √ 2 2 2 |0 − |1 = ± |f(0) ⊕ f(1) ⊗ √ 2 $ |0−|1 √ , für f(0) = f(1), ± |0 ⊗ 2 (4.4) = |0−|1 √ , für f(0) = f(1). ± |1 ⊗ 2 Die partielle Messung des ersten Qbits durch Realisierung von Y = M1ψ3 ergibt somit P -fast sicher 0, falls f konstant ist, und P -fast sicher 1, falls f ausgeglichen ist.
4.3
Der Deutsch-Jozsa-Algorithmus
4.3.1
Zielsetzung
Die Verallgemeinerung des Algorithmus von Deutsch geht auf David Deutsch und Richard Jozsa [7, 14] zurück. Man betrachtet eine n-stellige Boolesche Funktion f : {0, 1, 2, . . . , 2n − 1} → B,
(4.5)
deren Funktionsvorschrift unbekannt sei, von der aber bekannt sein soll, dass sie entweder ausgeglichen oder konstant ist. Die Funktion wird als ausgeglichen bezeichnet, falls sie die beiden möglichen Funktionswerte 0 und 1 jeweils für die Hälfte der Argumente annimmt, und sie wird als konstant bezeichnet, falls f(x) = f(y) für alle x, y ∈ {0, 1, 2, . . ., 2n − 1} gilt. Mit einem Algorithmus soll entschieden werden, ob die Funktion f ausgeglichen oder konstant ist. Ein klassisches Verfahren benötigt 2n−1 + 1 Funktionsauswertungen, um die Fragestellung sicher zu beantworten. Stochastisch lässt sich mit deutlich weniger Funktionsauswertungen die Frage mit einer gewissen Fehlerwahrscheinlichkeit entscheiden.
98
4 Quantenalgorithmen für Quantencomputer
4.3.2
Formulierung des Verfahrens
Definition 4.1: Hadamard-Funktion Die Hadamard-Funktion h sei definiert über h : N20 → B, m ; xj yj , (x, y) →
mit xj , yj ∈ B,
x=
j=0
m
xj 2j ,
y=
j=0
m
yj 2j ,
j=0
d.h. h(x, y) = 1 genau dann, wenn in der Binärdarstellung von x und y beide Zahlen eine ungeradzahlige Anzahl von Ziffern 1 an gleichen Positionen besitzen. Lemma 4.2 ⊗n
Es sei H
Vielfaches Hadamard-Gate mit Standardbasis für ein n ∈ N der Zustandsraum eines n-Qbits mit der Standardbasis. Dann gilt H
⊗n
|x = 2
−n 2
n 2 −1
(−1)h(x,y) |yn
für alle
x ∈ {0, . . . , 2n − 1} .
y=0
Die Matrixdarstellung von H⊗n bezüglich der Standardbasis lautet MH⊗n = (−1)h(i,j) . i=0,...,2n −1, j=0,...,2n−1
Beweis.
Es sei im Weiteren jeweils x=
n−1
xj 2j ,
n−1
y=
j=0
yj 2j ,
mit xj , yj ∈ B.
j=0
Es gilt H⊗n |x =
n−1
n
H |xn−1−j = 2− 2
j=0
(|0 + (−1)xn−1−j |1)
j=0
n
n 2 −1
n
n 2 −1
= 2− 2
n−1
(−1)xn−1 yn−1 ⊕...⊕x0y0 |yn
y=0
= 2− 2
(−1)h(x,y) |yn .
y=0
4.3 Der Deutsch-Jozsa-Algorithmus
99
Die Entscheidung, ob die Funktion f ausgeglichen ist oder konstant, wird erneut mit Hilfe eines Uf -Gates getroffen. Als Speicher wird ein (n+1)-Qbit verwendet, und die formale Darstellung des Verfahrens lautet:
ψ0 := |0n |1 ; ψ1 := H⊗(n+1)ψ0 ; ψ2 := Uf ψ1 ; 1 2 ψ3 := H⊗n ⊗ I ψ2 ; Y := Mnψ3 .
Y = Mnψ3 ist die Zufallsvariable zur partiellen Messung der ersten n Qbits, siehe Lemma 3.15 auf Seite 77, mit Ergebniswerten aus {0, . . . , 2n − 1}. Ist f konstant, so ist die Zufallsvariable Y P -fast sicher 0, und ist f ausgeglichen, so ist die Zufallsvariable Y P -fast sicher größer als 0. Die Einzelschritte des Verfahrens werden nun erläutert. Mit Beispiel 23 auf Seite 89 gilt: 1 2 ψ1 := H⊗(n+1)ψ0 = H⊗n ⊗ H (|0n |1) = H⊗n |0n ⊗ (H |1) n
= 2− 2
n 2 −1
|xn ⊗
x=0
|0 − |1 √ . 2
(4.6)
In Beispiel 25 auf Seite 91 wurde bereits allgemein gezeigt
H0 |xn |1 = |xn ⊗
|0 − |1 √ , 2
Uf H0 |xn |1 = (−1)f(x) · |xn ⊗
|0 − |1 √ . 2
Damit folgt
ψ2 := Uf ψ1 = 2
−n 2
n 2 −1
x=0
(−1)f(x) · |xn ⊗
|0 − |1 √ . 2
(4.7)
100
4 Quantenalgorithmen für Quantencomputer
Weiter gilt 1
ψ3 := H =2
⊗n
−n 2
n
−1 1 2 n 2 |0 − |1 ⊗ I ψ2 = H⊗n ⊗ I 2− 2 (−1)f(x) · |xn ⊗ √ 2 x=0
2
n 2 −1
(−1)f(x) · H⊗n |xn ⊗
x=0
1 = n 2 =
1 2n ⎡
n −1 2
f(x)
(−1)
x=0 n −1 2
y=0
·
n 2 −1
|0 − |1 √ 2
(−1)h(x,y) |yn ⊗
y=0
|0 − |1 √ 2
(2n −1 ) |0 − |1 h(x,y)+f(x) · |yn ⊗ √ (−1) 2 x=0
⎤
) ( n −1 ) n ⎥ ⎢ (2n −1 −1 2 2 ⎥ ⎢1 1 f(x) h(x,y)+f(x) ⎥ · |y (−1) · |0 + (−1) =⎢ n n⎥ ⎢ 2n n 2 y=1 x=0 ⎦ ⎣ x=0 a0 :=
|0 − |1 ⊗ √ . 2
(4.8)
Ist f konstant, so ist a0 = 1 oder a0 = −1. Da ψ3 auf 1 normiert ist, folgt in diesem Fall ψ3 = ± |0n ⊗
|0 − |1 √ , 2
(4.9)
d.h. bei partieller Messung der ersten n Qbits erhält man 0 mit Wahrscheinlichkeit 1. Ist f ausgeglichen, so ist a0 = 0, d.h. bei Messung erhält man das Ergebnis 0 mit Wahrscheinlichkeit 1 nicht.
4.4
Der Grover-Algorithmus
4.4.1
Zielsetzung
Der nach Lov Grover benannte Quanten-Suchalgorithmus [8, 14] sucht aus N gegebenen Elementen einer Menge eines heraus, welches eine vorgegebene Eigenschaft besitzt. Die Elemente können beispielsweise Einträge einer Datenbank sein, z.B. ein Telefonbuch, und die vorgegebene Eigenschaft ein Teil eines Datensatzes, z.B. eine Telefonnummer. Die konsekutive Suche nach einem gewünschten Element benötigt im Schnitt N2 Zugriffe auf die Datenbank, falls es nur eine Lösung gibt. Gibt es M > 1 mögliche Lösungen, so führt die konsekutive oder zufällige Suche natürlich im Schnitt mit weniger Zugriffen zum Ziel, z.B. bei der Suche nach Telefonbucheinträgen mit Rufnummern, die die Zahlenfolge „123“ enthalten.
4.4 Der Grover-Algorithmus
101
Der Einfachheit halber werden N = 2n Elemente betrachtet, die eindeutig durch einen Index aus {0, . . . , 2n − 1} identifizierbar seien. Die Funktionsvorschrift einer n-stelligen Booleschen Funktion f : {0, 1, 2, . . . , 2n − 1} → B,
(4.10)
sei derart, dass f(x) = 1 für gesuchte Indizes x sei, und f(x) = 0 sonst. Dann ist : : M := | {x|f(x) = 1} | = :f −1 ({1}): .
(4.11)
Der Algorithmus hat nun die Aufgabe, mindestens ein x ∈ {0, 1, 2, . . ., 2n − 1} zu finden mit der Eigenschaft f(x) = 1. Man kann dies als Invertierung der Abbildung f bezeichnen (genauer: Urbildsuche).
4.4.2
Formulierung des Verfahrens
Die Entscheidungsfindung, ob ein zu untersuchendes x ∈ {0, 1, 2, . . ., 2n − 1} eine Lösung darstellt, wird oft als Befragung eines Orakels bezeichnet. Hier betrachten wir ein Uf -Gate, obwohl die Entscheidung auch oft effizient von einem klassischenBAlgorithmus gefällt werden " C kann. Als Speicher wird ein (n + 1)-Qbit verwendet. Mit R := Darstellung des Verfahrens:
π 4
M N
lautet die formale
ψ0 := |0n |1 ; ψ1 := H⊗(n+1) ψ0 ; Schleife für r = 1, . . . , R : ψˆr+1 := Uf ψr ; 2 2 11 ψr+1 := H⊗n (2 |0n 0|n − I⊗n )H⊗n ⊗ I ψˆr+1 ; Schleifenende Y := MnψR+1 . ψ
Y = Mn R+1 ist die Zufallsvariable zur partiellen Messung der ersten n Qbits, siehe Lemma 3.15 auf Seite 77, mit Ergebniswerten aus {0, . . . , 2n − 1}. Mit hoher Wahrscheinlichkeit ist das Ergebnis eine Lösung der Problemstellung. Die Einzelschritte des Verfahrens werden nun erläutert. Mit Beispiel 23 auf Seite 89 gilt:
2 1 ψ1 := H⊗(n+1)ψ0 = H⊗n ⊗ H (|0n |1) = H⊗n |0n ⊗ (H |1) =
n 2 −1
x=0
n
2− 2 |xn ⊗
|0 − |1 √ . 2
(4.12)
102
4 Quantenalgorithmen für Quantencomputer
In einer rekursiven Vorgehensweise werden nun Folgen (αr,0 )r∈N und (αr,1 )r∈N definiert, wobei der Rekursionsstart wie folgt festgelegt wird: n
α1,0 := 2− 2
n
und α1,1 := 2− 2 .
(4.13)
Induktiv wird gezeigt, dass gilt
ψr =
n 2 −1
αr,f(x) |xn ⊗
x=0
|0 − |1 √ , 2
für r ≥ 1.
(4.14)
Der Induktionsanfang für r = 1 ist bereits nachgewiesen durch (4.12) und (4.13). In Beispiel 25 auf Seite 91 wurde bereits allgemein gezeigt Uf
|0 − |1 |xn ⊗ √ 2
= (−1)f(x) · |xn ⊗
|0 − |1 √ . 2
(4.15)
Damit folgt ψˆr+1 := Uf ψr =
n 2 −1
(−1)f(x) · αr,f(x) · |xn ⊗
x=0
|0 − |1 √ . 2
(4.16)
2 |0n 0|n − I⊗n ist eine Householder-Spiegelung, die den Basisvektor |0n unverändert lässt und alle anderen Basisvektoren jeweils spiegelt, d.h. 1 2 2 |0n 0|n − I⊗n |xn =
$
für x = 0, |0n , − |xn , für x > 0.
Es gilt dann 1 2 ˆ := H⊗n 2 |0 0| − I⊗n H⊗n G n n 21 2 1 = 2 H⊗n |0n 0|n H⊗n − H⊗n I⊗n H⊗n )( ) ( n n 2 −1 2 −1 n −n − 2 2 =2 2 2 |zn y|n − I⊗n z=0
= 21−n
n n −1 2 −1 2
z=0 y=0
y=0
|zn y| n − I⊗n .
(4.17)
4.4 Der Grover-Algorithmus
103
Weiter gilt mit zunächst beliebigen Koeffizienten ax ∈ C, dass ˆ G
n 2 −1
ax |xn =
x=0
n 2 −1
ˆ |x ax G n
x=0
=
n 2 −1
(
=
n 2 −1
x=0
=
n 2 −1
x=0
=
n 2 −1
2
ax
x=0
1−n
2
1−n
n −1 2
|zn y|n |xn − I
( 1−n
( ( 2
x=0
n −1 2
) )
a z − ax
z=0 n
|xn
|zn − |xn
z=0
2
) ⊗n
z=0 y=0
( ax
n n −1 2 −1 2
2 −1 1 az 2n z=0
|xn
)
) − ax
|xn .
(4.18)
Ist nun speziell ax = (−1)f(x) · αr,f(x) aus (4.16), so gilt insbesondere n
n
2 −1 2 −1 1 1 a = (−1)f(z) · αr,f(z) z 2n z=0 2n z=0
1 1 · M · (−1)1 · αr,1 + n · (2n − M ) · (−1)0 · αr,0 n 2 2 M M = − n · αr,1 + (1 − n ) · αr,0 . 2 2 =
Mit (4.16) und (4.18) folgt die Darstellung ˆ ⊗ I)ψˆr+1 = ψr+1 = (G
n 2 −1
αr+1,f(x) |xn ⊗
x=0
|0 − |1 √ , 2
(4.19)
wenn die Folgenglieder αr+1,0 und αr+1,1 wie folgt gesetzt werden: ( αr+1,0 = 2
n
2 −1 1 az 2n z=0
) − (−1)0 · αr,0
M M = 2 − n · αr,1 + (1 − n ) · αr,0 − αr,0 2 2 M M = (1 − n−1 ) · αr,0 − n−1 · αr,1 2 2 M = αr,0 − n−1 (αr,0 + αr,1 ). 2
(4.20)
104
4 Quantenalgorithmen für Quantencomputer ( αr+1,1 = 2
n
2 −1 1 az 2n z=0
) − (−1)1 · αr,1
M M = 2 − n · αr,1 + (1 − n ) · αr,0 + ·αr,1 2 2 M M = (2 − n−1 ) · αr,0 + (1 − n−1 ) · αr,1 . 2 2 M = 2αr,0 + αr,1 − n−1 (αr,0 + αr,1 ). 2
(4.21)
Die Koeffizientenfolgen (αr,0 )r∈N und (αr,1 )r∈N sind somit über (4.13), (4.20) und (4.21) eindeutig rekursiv festgelegt und durch den Induktionsschritt von r auf r + 1 in (4.19) ist die Formel (4.14) nun allgemein nachgewiesen. Im nächsten Schritt wird eine explizite Darstellung der Koeffizienten hergeleitet. Aufgrund der rekursiven Definition sind die Koeffizientenfolgen (αr,0 )r∈N und (αr,1 )r∈N rein reelle Folgen und es gilt mit der Normierung von ψr jeweils (2n − M )α2r,0 + M α2r,1 = 1 für alle r ∈ N.
(4.22)
Insbesondere folgt mit dem Ansatz β 1 α1,0 = √ cos 2 2n − M
1 β und α1,1 = √ sin 2 M
(4.23)
aus (4.13), dass 1 β 1 √ cos = √ n 2 2 −M 2n
⇒
β cos = 2
9
2n − M , 2n
β sin = 2
9
M . 2n
Somit hat man 9 β = arcsin
M . 2n
(4.24)
Allgemein betrachtet man 1 cos ϕr αr,0 = √ n 2 −M
1 und αr,1 = √ sin ϕr , M
(4.25)
4.4 Der Grover-Algorithmus so dass folgt
105
√ 2n − M · αr+1,0 √ M M n = 2 − M · (1 − n−1 ) · αr,0 − n−1 · αr,1 2 2 √ √ M M = (1 − n−1 ) cos ϕr − 2n − M · n−1 · sin ϕr 2 2 9 9 M 2n − M M = (1 − 2 n ) cos ϕr − 2 · · sin ϕr n 2 2 2n β β β = (1 − 2 sin2 ) cos ϕr − 2 cos · sin · sin ϕr 2 2 2 = cos β · cos ϕr − sin β · sin ϕr = cos(ϕr + β).
cos ϕr+1 =
Man erhält somit 2r − 1 β. (4.26) 2 Insgesamt ist also nun eine explizite Darstellung der Koeffizientenfolgen und damit der Zustände ψr gefunden. ϕr =
Als letzten Schritt ermitteln wir die optimale Iterationszahl für den Algorithmus. Dazu betrachtet man die Wahrscheinlichkeit dafür, dass die Messung eine Lösung y der Aufgabenstellung ergibt, also ein y mit f(y) = 1. Mit (4.14), (4.25) und (4.26) beträgt diese Wahrscheinlichkeit: 2 2R + 1 P ({f(Y ) = 1}) = M α2R+1,1 = sin2 ϕR+1 = sin β . (4.27) 2 Die optimale Iteraionszahl R ist daher wie folgt zu wählen: 2R + 1 π β≈ 2 2 ⇒
R≈
⇒
2R + 1 ≈
π 1 · 2 β2
π 1 1 1 π 1 " − . · − = · 4 β2 2 4 arcsin M 2 2n
Unter Verwendung der Reihenentwicklung des arcsin für M $ 2n erhält man 9 1 π 2n 1 π " · . − R ≈ 4 arcsin M 2 4 M
(4.28)
2n
Beispiel 26 Für n = 30 etwa sind über eine Milliarde Elemente zu durchsuchen, wobei beispielsweise nur ein Element eine Lösung darstellen soll, also M = 1. Dann ist R ≈ 25736. Die Wahrscheinlichkeit, dass eine Messung mit dieser Iterationszahl die gesuchte Lösung ausgibt, ist mit (4.27) nahezu 1.
106
4 Quantenalgorithmen für Quantencomputer
4.5
Der Shor-Algorithmus
4.5.1
Anwendungshintergrund: Das RSA-Verschlüsselungsverfahren
Der Auslöser für das breite Interesse an Quantencomputern und Quantenalgorithmen auch jenseits der Fachwelt war sicher das Verfahren von Peter Shor [21] zur Faktorisierung von Zahlen. Der Grund dafür ist nicht eine neu entdeckte Liebe zu Grundlagen der Zahlentheorie, sondern die möglichen Konsequenzen für die aktuellen Verschlüsselungsverfahren, deren Sicherheit auf der „De-facto-Unzerlegbarkeit“ der Produkte großer Primzahlen beruht. Vor der Diskussion des Faktorisierungsverfahrens soll daher kurz das Grundprinzip des RSAVerschlüsselungsverfahrens vorgestellt werden, um die Bedeutung der Faktorisierung zu unterstreichen und die Anwendung zu beleuchten. Das Verfahren trägt seinen Namen nach Rivest, Shamir und Adleman, die es 1978 veröffentlichten [16]. Es handelt sich um ein sogenanntes Public-Key-Verfahren [3]. Ein öffentlicher Schlüssel wird von einem Nachrichten-Absender zur Verschlüsselung einer Nachricht verwendet. Nur ein privater Schlüssel kann die verschlüsselte Nachricht wieder entschlüsseln (so die Absicht), so dass nur der richtige NachrichtenEmpfänger den unverschlüsselten Inhalt der Nachricht lesen kann. Beim RSA-Verfahren werden diese beiden Schlüssel wie folgt erzeugt: 1. Bestimmung von zwei unterschiedlichen (und großen) Primzahlen p und q. In der Praxis werden solche Primzahlen stochastisch erzeugt und mit Primzahltests auf ihre Primzahleigenschaft hin validiert. 2. Berechnung von n = p · q und ϕ(n) = (p − 1)(q − 1). Bei ϕ(n) handelt es sich um die Eulersche ϕ-Funktion, die die Anzahl der zu n teilerfremden Zahlen kleiner als n angibt. 3. Wahl einer Zahl e mit 1 < e < ϕ(n) und ggT(e, ϕ(n)) = 1. Der öffentliche Schlüssel ist (e, n). 4. Berechnung der Zahl d = e−1 (mod ϕ(n)), d.h. e · d = 1 (mod ϕ(n)). Der private Schlüssel ist (d, n). Nun wird die Verschlüsselung einer Nachricht m betrachtet, wobei hier 0 ≤ m < n angenommen wird (sonst erfolgt eine blockweise Zerlegung). Die verschlüsselte Nachricht c wird mit Hilfe des öffentlichen Schlüssels (e, n) berechnet wie folgt c = me
(mod n).
(4.29)
Die verschlüsselte Nachricht c wird zum Empfänger übertragen, der mit Hilfe des privaten Schlüssels (d, n) die ursprüngliche Nachricht erhält über m = cd
(mod n).
Das Funktionieren der Entschlüsselung ist durch das nachfolgende Lemma abgesichert.
(4.30)
4.5 Der Shor-Algorithmus
107
Lemma 4.3 RSA-Kongruenz Es seien p, q zwei Primzahlen mit p = q und n := p · q. Weiter seien e und d zwei Zahlen mit ggT(e, ϕ(n)) = 1 und e · d = 1 (mod ϕ(n)). Dann gilt med ≡ m
Beweis.
(mod n)
für alle
0 ≤ m < n.
Aus e · d = 1 (mod ϕ(n)) folgt die Existenz von r ∈ N0 mit r · ϕ(n) = e · d − 1.
Ist m = 0, so ist nichts zu zeigen, d.h. sei im Weiteren 1 < m < n. Dann gilt also ggT(m, n) ∈ {1, p, q} . Im Fall ggT(m, n) = 1 folgt r med = mr·ϕ(n)+1 = mϕ(n) · m ≡ m
(mod n),
da nach dem Satz von Euler-Fermat gilt mϕ(n) ≡ 1
(mod n).
Im Fall ggT(m, n) = p teilt p die Zahl m, so dass med ≡ m
(mod p)
gilt. Der kleine fermatsche Satz mq−1 ≡ 1 mod q liefert zudem 2r(p−1) 1 med = mr·ϕ(n)+1 = mr(p−1)(q−1)+1 = mq−1 ·m≡m
(mod q),
so dass der chinesische Restsatz schließlich ergibt med ≡ m
(mod pq)
⇒
Analog verläuft der Fall ggT(m, n) = q.
med ≡ m
(mod n).
Die Sicherheit des RSA-Verfahrens ergibt sich aus der Schwierigkeit, den privaten Schlüssel nachzubilden, wenn man die Faktorisierung n = p · q nicht kennt. Tatsächlich kann man auch mit weniger Wissen die Nachricht entschlüsseln [14], aber eine erfolgreiche Faktorisierung würde die Verschlüsselung brechen. Es sei betont, dass die Faktorisierung natürlich keineswegs unmöglich ist, sondern lediglich aufwendig. Nach allen bekannten Algorithmen ist die Komplexität exponentiell groß, aber es gibt auch dafür keinen allgemeinen Nachweis. Nachfolgend betrachten wir nun einen Faktorisierungsalgorithmus mit Hilfe eines Quantenverfahrens.
108
4.5.2
4 Quantenalgorithmen für Quantencomputer
Primfaktorzerlegung durch Ordnungsbestimmung
Die Verallgemeinerung des Anwendungsproblems aus dem vorhergehenden Abschnitt ist die Primfaktorzerlegung einer beliebigen Zahl n ∈ N mit n > 2, d.h. die Auffindung der Darstellung αm 1 n = pα 1 · . . . · pm ,
(4.31)
wobei p1 , . . . , pm paarweise verschiedene Primzahlen sind und α1 , . . . , αm ∈ N, m ∈ N. Für die Binärdarstellung der Zahl n werden L := %log2 (n + 1)& = 'log2 n( + 1
(4.32)
Binärstellen verwendet, da 2L−1 ≤ n ≤ 2L − 1. L Alle bekannten klassischen Algorithmen benötigen mindestens O L · 2 2 Operationen zur Ermittlung eines Primfaktors, falls m > 1. Bezogen auf die Stellenzahl von n ist die Komplexität also exponentiell groß. Jetzt betrachten wir ein klassisches Verfahren, welches ein Unterprogramm zur sogenannten Ordnungsbestimmung verwendet. Ohne die Komplexität des Unterprogramms einzubeziehen, 1 2 benötigt das jetzt vorgestellte Verfahren nur O L3 Operationen zur Ermittlung eines Primfaktors, hat also nur eine polynomiale Komplexität. Das Unterprogramm hat mit den bekannten klassischen Verfahren zur Ordnungsbestimmung exponentielle Komplexität, aber auf einem Quantencomputer ist die Ordnungsbestimmung mit polynomialer Komplexität möglich. In Abschnitt 4.5.3 wird der quantenmechanische Anteil des Unterprogramms beschrieben. Das Ergebnis wird dann aber noch durch ein in Abschnitt 4.5.4 beschriebenes Verfahren nachbearbeitet. Definition 4.4: Ordnung von a modulo n Es seien a, n ∈ N mit a < n und ggT(a, n) = 1. Dann heißt die kleinste Zahl r ∈ N mit ar ≡ 1
(mod n)
die Ordnung von a modulo n. Beispiel 27 Ist n = 13 und a = 5, so ist r = 4 die Ordnung von 5 modulo 13, da 54 ≡ 1
(mod 13),
aber die Gleichung für kleinere Exponenten nicht erfüllt ist. Die Ordnung ist stets kleiner oder gleich n, wie das folgende einfache Lemma zeigt.
4.5 Der Shor-Algorithmus
109
Lemma 4.5 Größe der Ordnung Es seien a, n ∈ N mit a < n und ggT(a, n) = 1. Dann gibt es eine Ordnung r von a modulo n, und es gilt: 1 ≤ r ≤ n.
Beweis. Man betrachte as (modn) für s = 1, 2, . . .. Da es nur n Zahlen modulo n gibt, muss somit 1 ≤ s1 < s2 existieren mit a s 2 = as 1
(mod n)
⇒
as2 −s1 = 1 (mod n).
Wir nehmen nun an, dass r > n ist. Nun betrachte man wie eben as (modn) für s = 1, 2, . . . Da es nur n Zahlen modulo n gibt, muss somit 1 ≤ r1 < r2 < r existieren mit ar2 = ar1
(mod n)
⇒
ar2 −r1 = 1 (mod n).
Da 1 ≤ r2 − r1 < r gilt, ist r > n widerlegt.
Satz 4.6 Faktorbestimmung über die Ordnung Es seien a, n ∈ N mit a < n und ggT(a, n) = 1. r sei die Ordnung von a modulo n. r Falls r gerade ist und falls a 2 + 1 ≡ 0 (mod n), dann sind r
r
1 < ggT(a 2 + 1, n) < n und 1 < ggT(a 2 − 1, n) < n zwei nichttriviale Faktoren von n. Beweis.
Unter der Voraussetzung, dass r gerade ist, gilt 1 r 21 r 2 a 2 + 1 a 2 − 1 = ar − 1 ≡ 0 (mod n). r
r
Da n die Zahl ar − 1 teilt, besitzt somit n mit a 2 + 1 oder mit a 2 − 1 einen gemeinsamen Faktor, d.h. r
ggT(a 2 + 1, n) > 1 oder
r
ggT(a 2 − 1, n) > 1.
r
Da aufgrund der Voraussetzung a 2 + 1 ≡ 0 (mod n) und aufgrund der Ordnungsdefinition r r a 2 ≡ 1 (mod n), also a 2 − 1 ≡ 0 (mod n), kann n kein Teiler der einzelnen Faktoren sein, also r
ggT(a 2 + 1, n) < n und r
r
ggT(a 2 − 1, n) < n. r
Also besitzt n mit ggT(a 2 + 1, n) oder mit ggT(a 2 − 1, n) einen nichttrivialen Faktor, aber damit auch mit dem jeweils anderen.
110
4 Quantenalgorithmen für Quantencomputer
Beispiel 28 Ist n = 12 und a = 5, so ist r = 2 die Ordnung von 5 modulo 12, da 52 ≡ 1
(mod 12),
aber die Gleichung für kleinere Exponenten nicht erfüllt ist. Die Ordnung ist gerade und 51 + 1 = 6 ≡ 0 (mod 12). Als Faktoren von 12 erhält man ggT(51 + 1, 12) = ggT(6, 12) = 6,
ggT(51 − 1, 12) = ggT(4, 12) = 4.
Beispiel 29 In der Situation von Beispiel 27 auf Seite 108 ist Satz 4.6 auf der vorherigen Seite nicht anwendbar, da 4
5 2 + 1 = 26 ≡ 0
(mod 13).
Im Umkehrschluss gilt natürlich allgemein, dass für Primzahlen n die Voraussetzungen von Satz 4.6 auf der vorherigen Seite niemals erfüllt sein können. Für die allgemeine Anwendung ist es daher wichtig zu wissen, wie wahrscheinlich es ist, dass die Voraussetzungen des Satzes erfüllt sind.
Satz 4.7
Voraussetzungen zur Faktorbestimmung
Es seien n ∈ N ungerade und αm 1 n = pα 1 · . . . · pm ,
wobei p1 , . . . , pm paarweise verschiedene Primzahlen sind und α1 , . . . , αm ∈ N, m ∈ N. Wird a ∈ N mit a < n und ggT(a, n) = 1 gleichverteilt in einem Zufallsexperiment ermittelt und ist r die Ordnung von a modulo n, so gilt P
Beweis.
1 2 r r ist gerade und a 2 + 1 ≡ 0(modn) ≥ 1 −
1 . 2m−1
[14]
Besitzt also ein ungerades n mindestens zwei unterschiedliche Primfaktoren, so ist die Wahrscheinlichkeit der Anwendbarkeit von Satz 4.6 auf der vorherigen Seite mindestens 12 . Damit lässt sich nun folgendes Verfahren (benannt nach G. L. Miller) zur Bestimmung eines nichttrivialen Faktors für n angeben: Schritt 1: Falls n gerade ist, ist 2 ein nichttrivialer Faktor von n (Stop).
4.5 Der Shor-Algorithmus
111
Schritt 2: Prüfung, ob n = ab für eine Zahl a ≥ 3 und b ≥ 2 gilt. In diesem Fall würde gelten: b = loga n =
log2 n < %log2 (n + 1)& = L. log2 a
Daher berechne man für alle1 2 ≤ b ≤ L die Zahlen a1 , a2 ∈ N mit 2
log 2 n b
− 1 < a1 ≤ 2
log 2 n b
≤ a2 < 2
log2 n b
+1
und prüfe ab1 = n und ab2 = n. Bei erfolgreicher Prüfung ist a1 bzw. a2 ein nichttrivialer Faktor von n (Stop). Schritt 3: Man bestimme gleichverteilt ein a ∈ {2, . . . , n − 1}. Falls ggT(a, n) > 1, so ist ggT(a, n) ein nichttrivialer Faktor von n (Stop). Schritt 4: Man berechne die Ordnung r von a modulo n. r
Schritt 5: Falls r gerade ist und falls a 2 + 1 ≡ 0 (mod n), dann sind r
r
1 < ggT(a 2 + 1, n) < n und 1 < ggT(a 2 − 1, n) < n zwei nichttriviale Faktoren von n (Stop). Schritt 6: Gehe zu Schritt 3. 1 2 Das Verfahren benötigt ohne Berücksichtigung des vierten Schrittes O L3 Operationen (Komplexität des Euklidischen Algorithmus) für einen Durchlauf. Das Verfahren terminiert nicht, wenn n eine Primzahl ist. Da anderenfalls die Erfolgswahrscheinlichkeit von Schritt 5 mindestens gleich 12 ist, terminiert der Algorithmus spätestens nach k Durchläufen mit der Wahrscheinlichkeit 1 − ( 12 )k . Weiß man, dass n = p · q für zwei Primzahlen p > 2 und q > 2 gilt, so kann direkt mit Schritt 3 begonnen werden. Offen geblieben ist die Ordnungsberechnung in Schritt 4. Diese wird in den beiden nachfolgenden Abschnitten behandelt.
4.5.3
Quantenalgorithmus zur Ordnungsbestimmung durch Phasenschätzung
Der nun folgende Algorithmus berechnet in der Vorgehensweise von [14, 21] nicht direkt die Ordnung r von a modulo n, sondern ergibt mit einer wählbar hohen Wahrscheinlichkeit eine gute Approximation für einen Bruch s r
mit 0 ≤ s ≤ r.
(4.33)
Unter geeigneten Voraussetzungen lässt sich daraus die Zahl r ermitteln, wie im nächsten Abschnitt 4.5.4 gezeigt wird. 1 Dieses Vorgehen lässt
sich offensichtlich noch optimieren.
112
4 Quantenalgorithmen für Quantencomputer
Definition 4.8: Exponentialgate Ea -Gate Sind m, n, a, L ∈ N mit 1 < n < 2L und a < n und ist H⊗(m+L) der Zustandsraum eines (m + L)-Qbits, so heißt der unitäre Operator Ea : H⊗(m+L) → H⊗(m+L) das Ea -Gate (Exponentialgate), wenn für alle x ∈ {0, . . . , 2m − 1} gilt: $ |xm |ax y(modn)L , für y ∈ {0, . . . , n − 1} , Ea |xm |yL = |xm |yL , für y ∈ n, . . . , 2L − 1 . Zum Nachweis der Unitarität von Ea muss nur die Umkehrbarkeit gezeigt werden. Für y ≥ n ist nichts zu zeigen und für y < n gilt mit der Ordnung r von a: Era |xm |yL = |xm |arx y(modn)L = |xm |y(modn)L = |xm |yL , r−1 also ist E−1 a = Ea .
Das Quantenverfahren arbeitet mit einem (m + L)-Qbit, wobei die Größe von m später behandelt wird. Das Verfahren lässt sich nun wie folgt formal beschreiben:
ψ0 := |0m |1L ; ψ1 := H⊗m ⊗ I⊗L ψ0 ; ψ2 := Ea ψ1 ; ψ3 := F⊗m ⊗ I⊗L ψ2 ; ψ3 Y := Mm .
ψ3 Y = Mm ist die Zufallsvariable zur partiellen Messung der ersten m Qbits, siehe Lemma 3.15 auf Seite 77, mit Ergebniswerten aus {0, . . . , 2m − 1}. Das Messergebnis wird als Bruchzahl s r bzw. als eine Approximation dafür interpretiert, wie weiter unten zu sehen sein wird.
Nun werden die Einzelschritte diskutiert: ψ1 := H⊗m ⊗ I⊗L ψ0 = H⊗m ⊗ I⊗L (|0m |1L ) =
m 2 −1
m
2− 2 |xm |1L .
(4.34)
x=0
Mit Definition 4.8 folgt daraus als Nächstes ψ2 := Ea ψ1 =
m 2 −1
m
2− 2 Ea |xm |1L
x=0 m
= 2− 2
m 2 −1
x=0
|xm |ax (modn)L .
(4.35)
4.5 Der Shor-Algorithmus
113
Dann wird die Fouriertransformation gemäß Definition 3.33 auf Seite 92 angewandt:
⊗m
ψ3 := F =2
−m 2
⊗I
m 2 −1
⊗L
ψ2 = 2
1 2m
2
−m 2
m 2 −1
y=0
m m −1 2 −1 2
y=0
m 2 −1
1
2 F⊗m |xm |ax (modn)L
x=0
(
x=0
=
−m 2
x=0
xy exp 2πi m |ym 2
) |ax (modn)L
xy exp 2πi m |ym |ax (modn)L . 2
(4.36)
Da |ar (modn)L =:|1&L , wird durch |ax (modn)L periodisch für viele 0 < x < 2m − 1 der gleiche Basisvektor :ak L beschrieben, nämlich : & (4.37) |ax (modn)L = :ak L E D m 2 −1−k . für alle x = k + r · j mit 0 ≤ j ≤ r Mit der Abkürzung
D
bk :=
E 2m − 1 − k +1 r
(4.38)
folgt damit m
2 −1−k ( r 2m −1 r−1 ' : k & 1 (k + r · j)y :a (modn) |y ψ3 = m exp 2πi m L 2 y=0 2m
k=0
=
m 2 −1
y=0
|ym
j=0
(4.39)
⎛ ⎞ ⎞ b r−1 exp 2πi ky k −1 m : k & 2 r · j · y ⎝ ⎠ :a (modn) ⎠ . exp 2πi m ⊗⎝ L 2m 2 j=0 ⎛
k=0
Die abschließende partielle Messung der ersten m Qbits von ψ3 , also die Realisierung der Zuψ3 fallsvariablen Y = Mm , liefert nach Korollar 3.16 auf Seite 80 das Ergebnis y ∈ {0, . . . , 2m − 1} mit der Wahrscheinlichkeit ⎛ : ⎞:2 ky : : b r−1 k −1 : exp 2πi 2m r · j · y ⎠:: : ⎝ P ({Y = y}) = py = exp 2πi m : : m 2 2 : j=0 k=0 : : :2 : r−1 :bk −1 r · y j :: 1 :: exp 2πi m = 2m (4.40) : : . 2 2 : k=0 : j=0
114
4 Quantenalgorithmen für Quantencomputer
Von den möglichen Messergebnissen sind diejenigen erwünscht, die s r
mit 0 ≤ s ≤ r
gut approximieren. Als die erwünschte Ergebnismenge definiert man ⎧ ⎫ ⎨ ⎬ : F :: y ⏐ 1 s : E := y ∈ {0, . . . , 2m − 1} ⏐ : m − :≤ 2 . ⎩ 2 r 2r ⎭
(4.41)
s∈{0,...,r}
Ist y ∈ E, so gilt folglich : y 1 s :: : : m − : > 2 für alle s ∈ {0, . . . , r} 2 r 2r : : ry 1 : : für alle s ∈ {0, . . . , r} ⇔ : m − s: > 2 2r ry 1 1 ⇔ < |Δy| ≤ . = s + Δy für ein s ∈ {0, . . . , r} und 2m 2r 2
(4.42)
Somit erhält man für y ∈ E die Wahrscheinlichkeiten (4.40) mit der geometrischen Summe : :2 : r−1 :bk −1 : 1 :: j: py = 2m (exp (2πi(s + Δy))) : : 2 : k=0 : j=0 : :2 : r−1 :bk −1 1 :: j :: = 2m (exp (i2πΔy)) : : 2 : j=0 : k=0
:2 r−1 : 1 :: 1 − exp (i2πbk Δy) :: = 2m : 1 − exp (i2πΔy) : . 2
(4.43)
k=0
Nun gilt aber |1 − exp(iϕ)|2 = |1 − cos ϕ − i sin ϕ|2 = (1 − cos ϕ)2 + sin2 ϕ ϕ = 2 − 2 cos ϕ = 4 sin2 2
(4.44)
und für −π ≤ ϕ ≤ π gilt weiter |1 − exp(iϕ)|2 = 4 sin2
ϕ 2 ϕ 4 = 2 ϕ2 . ≥4 2 π π
(4.45)
Unter Beachtung von |2πΔy| ≤ π folgt damit py ≤
r−1 1
22m
4
4 (2πΔy)2 k=0 π2
=
r 1 . 22m 4(Δy)2
(4.46)
4.5 Der Shor-Algorithmus
115
Zur Abkürzung betrachte man A :=
2m 2r 2
(4.47)
und erhält r r 1 1 r = 2m 1 22 = 4 2 · 1 y 22 2 ry 4(Δy) 2 4 m −s 4r A 4 2 2rA − s 1 = 2 . 4r (y − 2srA)
py ≤
1
22m
(4.48)
Ist y ∈ E, so gibt es also ein s ∈ {0, . . . , r}, so dass : ry : 1 1 1 1 : : < |Δy| ≤ ⇔ < : m − s: ≤ 2r 2: 2r 2 2 : m: m : 2 2 2m :≤ ⇔ A < |y − 2srA| ≤ rA. < ::y − s ⇔ 2r 2 r : 2r Damit folgt 2srA − rA ≤ y < 2srA − A oder
2srA + A < y ≤ 2srA + rA.
(4.49)
Unter Beachtung, dass y ∈ {0, . . . , 2m − 1}, ergibt sich ⎡
P ({Y ∈ E}) ≤
1 ⎣ 4r
1 + 2 y s=1
A 1, denn anderenfalls wäre aK = 1 und damit rK−1 = rK . In diesem Fall würde aber rK−2 = aK−1 rK−1 + rK = aK−1 rK−1 + rK−1 = (aK−1 + 1)rK−1 + 0 gelten und der Algorithmus wäre früher beendet gewesen. Die Eindeutigkeit ergibt sich ohne Einschränkung der Allgemeinheit aus folgender Beobachtung. Angenommen, es wäre a1 , . . . , ˆ aK ], [a0 , a1 , . . . , aK ] = [a0 , ˆ
wobei o.E.d.A.
a1 < ˆa1 .
Dann gäbe es x, y ∈ Q mit 0 ≤ x, y < 1 und a0 +
1 1 = a0 + a1 + x a ˆ1 + y
⇔
a1 +x = a ˆ1 +y
⇔
x−y = a ˆ1 −a1 ≥ 1,
aber es ist x − y < 1 und somit ist die Annahme widerlegt.
Beispiel 31 Es gilt 15 1 1 1 67 =1+ =1+ =1+ =1+ 7 1 52 52 52 3+ 3+ 15 15 15 7 1 =1+ = [1, 3, 2, 7]. 1 3+ 1 2+ 7 In Formulierung mit dem euklidischen Algorithmus lautet die Umformung 67 = 1 · 52 + 15, 52 = 3 · 15 + 7, 15 = 2 · 7 + 1, 7 = 7 · 1 + 0. Satz 4.11 Konvergenteneigenschaft Es seien x, pq ∈ Q mit p ∈ Z und q ∈ N, so dass : : :x − : so ist
p q
Beweis.
: 1 p :: ≤ , q : 2q 2
eine Konvergente in der eindeutigen endlichen Kettenbruchdarstellung von x. [14]
4.5 Der Shor-Algorithmus
119
Korollar 4.12 Konvergenteneigenschaft für den Shor-Algorithmus Es seien m, r ∈ N und es sei r 2 ≤ 2m . Weiter sei y ∈ {0, . . . , 2m − 1} und s ∈ {0, . . . , r}. Falls : y 1 s :: : : m − : ≤ 2, 2 r 2r so ist
s r
Beweis.
eine Konvergente in der eindeutigen endlichen Kettenbruchdarstellung von
y 2m .
Folgt sofort mit Satz 4.11 auf der vorherigen Seite.
Die Vorgehensweise zur Auffindung der Ordnung lautet damit wie folgt: • Man bestimme zu
y 2m
= [a0 , . . . , aK ] die Konvergenten. Die Bruchdarstellung
sk := [a0 , . . . , ak ], rk
für k = 0, . . . , K
ergibt dann Kandidaten rk für die Ordnung. • Man prüfe jeweils, ob rk die Ordnung von a modulo n ist und beendet gegebenenfalls die Suche. Das Verfahren zur Auffindung von r kann scheitern, • falls
y 2m
aus dem Verfahrensteil 4.5.3 keine gute Approximation war
• oder falls s und r nicht teilerfremd sind, da das Kettenbruchverfahren sonst einen um den gemeinsamen Faktor gekürzten Bruch ermittelt. Im Falle des Scheiterns, muss der Algorithmus mit einer neuen Wahl für a erneut durchgeführt werden.
4.5.5
Gesamtalgorithmus
Nun werden noch einmal alle Schritte des Verfahrens von Shor zur Faktorisierung von n zusammengefasst dargestellt. Schritt 1: Falls n gerade ist, ist 2 ein nichttrivialer Faktor von n (Stop). Schritt 2: Prüfung, ob n = ab für eine Zahl a ≥ 3 und b ≥ 2 gilt. In diesem Fall würde gelten: b = loga n =
log2 n < %log2 (n + 1)& = L. log2 a
Daher berechne man für alle 2 ≤ b ≤ L die Zahlen a1 , a2 ∈ N mit 2
log 2 n b
− 1 < a1 ≤ 2
log 2 n b
≤ a2 < 2
log2 n b
+1
und prüfe ab1 = n und ab2 = n. Bei erfolgreicher Prüfung ist a1 bzw. a2 ein nichttrivialer Faktor von n (Stop).
120
4 Quantenalgorithmen für Quantencomputer
Schritt 3: Man bestimme gleichverteilt ein a ∈ {2, . . . , n − 1}. Falls ggT(a, n) > 1, so ist ggT(a, n) ein nichttrivialer Faktor von n (Stop). Schritt 4: Man führe für m > 2L+1 den folgenden Quantenalgorithmus für ein (m+L)-Qbit durch: ψ0 := |0m |1L ; ψ1 := H⊗m ⊗ I⊗L ψ0 ; ψ2 := Ea ψ1 ; ψ3 := F⊗m ⊗ I⊗L ψ2 ; ψ3 Y := Mm .
y sei eine Realisierung der Zufallsvariablen Y . Man bestimme zu 2ym = [a0 , . . . , aK ] die Konvergenten und berechne für k = 0, . . . , K jeweils die Bruchdarstellung s := [a0 , . . . , ak ] r und prüfe, ob r die Ordnung von a modulo n ist. Bei erfolgreicher Prüfung, gehe zu Schritt 5. Scheitert jede Prüfung, gehe zu Schritt 3. r
Schritt 5: Falls r gerade ist und falls a 2 + 1 ≡ 0 (mod n), dann sind r
r
und 1 < ggT(a 2 − 1, n) < n
1 < ggT(a 2 + 1, n) < n zwei nichttriviale Faktoren von n (Stop). Schritt 6: Gehe zu Schritt 3.
1 2 Ein Durchlauf des Verfahrens benötigt O L3 Operationen, wobei aber das Verfahren gegebenenfalls mehrfach durchgeführt werden muss. Da dies mit einer Wahrscheinlichkeit (deutlich) kleiner als 1 geschieht, steigt die Größenordnung2 der Aufwandes nicht. Beispiel 32 Die Durchführung des Verfahrens wird am Beispiel n = 33 erläutert. Es ist dann L = 6. Im Beispiel sei m = 2L + 4 = 16 gewählt. • Da 2 kein Faktor von n ist, führt Schritt 1 nicht zum Stop. 2 Ist cL3 der Gesamtaufwand und die Wiederholwahrscheinlichkeit, so ist der Erwartungswert des Gesamtaufwandes folglich
cL3 + cL3 + 2 cL3 + . . . = cL3
∞ k=0
k =
c L3 . 1−
4.5 Der Shor-Algorithmus
121
• In Schritt 2 werden für 2 ≤ b ≤ 6 je zwei Zahlen a1 und a2 mit 2
log 2 n b
− 1 < a1 ≤ 2
log 2 n b
≤ a2 < 2
log2 n b
+1
berechnet, also a1 ∈ {1, 2, 3, 5} ,
a2 ∈ {2, 3, 4, 6}
Damit gilt abj ∈ {25, 36, 27, 64, 16, 81, 32, 243, 1, 64} und da n = 33 nicht in dieser Menge enthalten ist, führt Schritt 2 nicht zum Stop. • Zufällig werde im Beispiel im dritten Schritt a = 5 gewählt. Da ggT(33, 5) = 1, führt Schritt 3 nicht zum Stop. • Bei der Beispielswahl von m = 2L + 1 + 3 ist 1 1 log2 1 + =3 ⇒ 1+ =8 2 2
⇒
=
1 . 14
Mit einer Wahrscheinlichkeit von mindestens 92% erzeugt der Quantenalgorithmus ein Ergebnis y mit : y 1 s :: : : m − : ≤ 2. 2 r 2r Im vorliegenden Fall ist r = 10 (noch unbekannterweise), so dass also mit mindestens 92% Wahrscheinlichkeit ein Ergebnis y mit : y 1 s :: : − :≤ = 0, 005. : 65536 10 200 erzeugt wird. Die Menge E dieser „gewünschten“ Ergebniswerte ist E = {0, . . . , 327, 6226, . . . , 6881, 12780, . . ., 13434, 19334, . . ., 19988, . . .} . Im Beispiel sei das Ergebnis des Quantenverfahrens die Zahl y = 19412. Es folgt die Kettenbruchzerlegung von 19412 mit dem euklidischen Algorithmus, also 65536 19412 = 0 · 65536 + 19412, 65536 = 3 · 19412 + 7300, 19412 = 2 · 7300 + 4812, 7300 = 1 · 4812 + 2488, 4812 = 1 · 2488 + 2324, 2488 = 1 · 2324 + 164, 2324 = 14 · 164 + 28, 164 = 5 · 28 + 24, 28 = 1 · 24 + 4, 24 = 6 · 4 + 0.
122
4 Quantenalgorithmen für Quantencomputer Damit ist die Kettenbruchdarstellung gefunden: 19412 = [0, 3, 2, 1, 1, 1, 14, 5, 1, 6]. 65536 Nun bestimmt man die Bruchdarstellungen der Konvergenten: [0, 3] = [0, 3, 2] =
[0, 3, 2, 1] =
1 , 3 1 1 3+ 2 1 3+
=
2 , 7 =
1 2+
3 . 10
1 1
Bei der Prüfung des dritten Nenners ergibt sich r = 10 als Ordnung von 5 modulo 33. • Die Ordnung r = 10 ist gerade und 55 +1 = 3126 ≡ 24 ≡ 0 (mod 33). Nichttriviale Faktoren von 33 sind somit r
ggT(a 2 + 1, n) = ggT(55 + 1, 33) = ggT(3126, 33) = 3 und
r
ggT(a 2 − 1, n) = ggT(3124, 33) = 11.
5
Quantenalgorithmen für klassische Computer
5.1
Vorüberlegungen
Quantencomputer und die auf ihnen laufenden Quantenalgorithmen erweitern das klassisch bekannte Spektrum an Informationsverarbeitungsmechanismen. Trotz großer Fortschritte auf dem Gebiet der physischen Realisierung, ist ein Qantencomputer mit realistisch großer Anzahl an Qbits noch nicht in Sicht. Da Quantenalgorithmen aufgrund ihrer Struktur einen neuen Zugang zur Informationsverarbeitung eröffnen, stellt sich die Frage, ob die Algorithmen nicht auch für klassische Computer einsetzbar wären. Neben der rein akademischen Frage steckt dahinter natürlich insbesondere die Frage, ob sich die polynomiale Komplexität des Shor-Algorithmus nicht auch irgendwie auf eine klassische Informationsverarbeitung übertragen ließe. Es gibt zunächst kein grundsätzliches Problem damit, Quantenalgorithmen nicht auf Quantencomputern, sondern auf klassischen Computern zu implementieren. Wie in den vorangegangenen Kapitel ausgeführt wurde, kann ein Quantenalgorithmus in Kurzform wie folgt beschrieben werden: 1. Man betrachtet einen Startzustand v ∈ SH⊗n eines n-Qbits. Dieser Zustand lässt sich in einem klassischen Computer als Tupel darstellen, so dass wir v ∈ C2
n
(5.1)
verwenden können. 2. Der Startzustand wird zeitentwickelt, was einer Abfolge von Anwendungen unitärer Operatoren entspricht. Diese lassen sich zu einem unitären Operator U : H⊗n → H⊗n
(5.2)
zusammenfassen. Für die Matrizendarstellung in einem klassischen Computer gilt dann entsprechend MU ∈ C2
n
,2n
.
(5.3)
3. Der Endzustand w ∈ SH⊗n ergibt sich aus der Zeitentwicklung des Anfangszustandes. In der Tupeldarstellung erhält man ihn auf einem klassischen Computer durch die Multiplikation einer Matrix mit einem Vektor, also hier n
w = MU · u ∈ C2 .
(5.4)
124
5 Quantenalgorithmen für klassische Computer
4. Mit dem Endzustand wird eine Messung vorgenommen. Der Einfachheit halber betrachten wir hier eine vollständige1 Messung bezüglich einer Basis. Dabei handelt es sich um die Realisierung der Zufallsvariablen X := Mnw ,
(5.5)
wobei in der Tupeldarstellung für die Wahrscheinlichkeitsverteilung gilt: P ({X = j − 1}) = |wj |2 ,
j = 1, . . . , 2n .
(5.6)
Auf einem klassischen Computer betrachte man die Zahlen ρ0 := 0,
ρk :=
k
|wj |2 ,
k = 1, . . . , 2n ,
(5.7)
j=1
und bestimme ein x ∈ [0, 1[ gleichverteilt mit einem Zufallszahlengenerator. Die simulierte Messung hat das Ergebnis j, wenn gilt: x ∈ [ρj , ρj+1 [.
(5.8)
In der beschriebenen Allgemeinheit besitzt ein Quantenalgorithmus auf einem klassischen Computer die exponentielle numerische Komplexität 1 2 (5.9) O 22n . Im besten Falle kann man vielleicht für spezielle Matrizen das Produkt w = MU · u mit Komplexität O (2n ) bestimmen, so dass der Quantenalgorithmus auf einem klassischen Computer dennoch exponentielle Komplexität besitzt. In den folgenden Abschnitten werden Lösungsansätze diskutiert zur Reduktion der Komplexität im dargestellten Ablauf. Die Hauptfrage dabei ist, ob sich die exponentielle Komplexität auf polynomiale Komplexität reduzieren lässt.
5.2
Speicherplatz
Um einen „beliebigen“ n-Qbit-Zustand v zu speichern, wird Speicherplatz in der Größenordnung O (2n ) benötigt. Das gilt unabhängig von der gewählten Tupeldarstellung (5.1), also n
v ∈ C2 , sondern folgt allgemein aus der 2n -Dimensionalität des H⊗n . Damit ist nicht nur der Speicherplatz exponentiell groß, sondern jeder Algorithmus, der tatsächlich alle Komponenten von v benötigt und somit mindestens einmal verarbeitet, hat ebenso exponentielle Komplexität. Günstiger ist die Situation, wenn nur bestimmte Zustände zur Speicherung benötigt werden. 1 bei einer partiellen Messung sind entsprechend Wahrscheinlichkeiten zu aggregieren, wie in Lemma 3.15 auf Seite 77 dargestellt.
5.3 Algorithmen für ausgewählte Gates
125
Ein reiner n-Qbit-Zustand x ∈ {0, . . . , 2n − 1} , λ ∈ C, |λ|2 = 1
v = λ |xn ,
(5.10) KnL
benötigt nur Speicherplatz in der Größenordnung O (n), da die Zahl x mit 8 Bytes gespeichert werden kann. Hinzu kommen noch, je nach gewünschter Genauigkeit, ca. konstante 16 Bytes für die Phase λ. Ebenfalls günstig in der Darstellung ist ein voll separabler Zustand, der sich als n-faches Tensorprodukt von einzelnen Qbit-Zuständen schreiben lässt, also v=
n
(αm |0 + βm |1) ,
αm , βm ∈ C, |αm|2 +|βm |2 = 1, m = 1, . . . , n.
m=1
(5.11) Auch für (5.11) wird nur Speicherplatz in der Größenordnung O (n) benötigt, nämlich n-mal der Speicherplatz für zwei komplexe Zahlen. Jeder reine n-Qbit-Zustand (5.10) ist ein Spezialfall eines voll separablen Zustandes, indem die Phasen αm , βm je Werte 0 oder 1 annehmen und λ beispielsweise zum ersten solchen Phasenpaar multipliziert wird. Für λ = 1 gilt etwa: |xn =
n
((1 − xn−m) |0 + xn−m |1)
(5.12)
m=1
für alle x =
n−1
xj 2j ,
xj ∈ B, j = 0, . . . , n − 1.
j=0
Eine Zielsetzung für die Umsetzung eines Quantenalgorithmus auf einem klassischen Computer ist daher die Formulierung mit reinen oder voll separablen Zuständen, falls dies denn möglich ist. Nicht betrachtet wurde Speicherplatz für die Gates. Für ein völlig beliebiges Gate in Matrizendarstellung (5.3), also MU ∈ C2
n
,2n
,
1 2 würde Speicherplatz in der Größenordnung O 22n benötigt. Entsprechend aufwendig wäre eine Multiplikation (5.4) mit einem Vektor. Da aber, wie in Kapitel 4 ausführlich dargestellt wurde, in Quantenalgorithmen keine völlig beliebigen Gates verwendet werden, sondern einige spezifische Gates, die je eine ganz spezielle Struktur haben, sollten diese Gates als je spezielle algorithmische Vorschrift umgesetzt werden und nicht allgemein in linearer Algebra formuliert werden. Daher wird für sie auch kein Speicherplatz benötigt.
5.3
Algorithmen für ausgewählte Gates
Zur Darstellung der Komplexität eines Gates auf einem Quantencomputer werden Gates üblicherweise [14] in eine Abfolge elementarer Gates zerlegt, siehe die Abschnitte 3.3.3 und 3.3.4,
126
5 Quantenalgorithmen für klassische Computer
da sich diese quantenmechanisch realisieren lassen und damit deren Anzahl die Komplexität des Quantenalgorithmus bestimmt. Ein klassischer Computer verfügt zwar nicht über die speziellen Merkmale eines Quantencomputers, aber dafür sind die auf ihm implementierbaren Algorithmen flexibler. Bei der Betrachtung wichtiger Gates wird daher im Folgenden nicht die Zerlegung in quantenmechanisch elementare Gates vorgenommen, sondern eine möglichst optimale Darstellung zur Verarbeitung von reinen oder voll separablen Zuständen gesucht.
5.3.1
Hadamard-Gate
Das n-fache Hadamard-Gate H⊗n ist ein mehrfaches Tensorprodukt und kann daher algorithmisch leicht auf voll separable Zustände angewandt werden.
Lemma 5.1
Hadamard-Gate und voll separable Zustände
Es sei H , n ∈ N, der Zustandsraum eines n-Qbits und H⊗n sei das Hadamard-Gate. Dann gilt für alle αm , βm ∈ C, m = 1, . . . , n: ⊗n
H⊗n
n
(αm |0 + βm |1) =
m=1
n
α ˆm |0 + βˆm |1 , m=1
wobei α ˆm =
αm + βm √ , 2
αm − βm √ βˆm = 2
für alle m = 1, . . . , n.
Beweis. Der Beweis folgt schnell mit Definition 3.20 auf Seite 84 und Definition 3.26 auf Seite 87: H⊗n
n
(αm |0 + βm |1) =
m=1
= = =
n
m=1 n
(H (αm |0 + βm |1)) (αm H |0 + βm H |1)
m=1 n
m=1 n
m=1
αm
|0 + |1 |0 − |1 √ + βm √ 2 2
αm + βm αm − βm √ √ |0 + |1 . 2 2
Die Komplexität zur Berechnung der α ˆ m , βˆm beträgt nur O (n).
5.3 Algorithmen für ausgewählte Gates
127
Das Hadamard-Gate wird oft in der Initialisierungsphase von Quantenalgorithmen verwendet. Für die Anwendung auf Standard-Startzustände lässt sich der Ergebniszustand natürlich sofort angeben und muss nicht mit Computerhilfe berechnet werden: n
1 1 √ |0 + √ |1 , H⊗n |0n = 2 2 m=1 ( n−1 )
1 1 1 1 ⊗n √ |0 + √ |1 ⊗ √ |0 − √ |1 . H |1n = 2 2 2 2 m=1
5.3.2
Fouriertransformation
Die Anwendung des F⊗n -Gates auf einen reinen Zustand |xn wurde bereits in Satz 3.35 auf n−1 ' Seite 94 betrachtet. Für x = xj 2j ∈ {0, . . . , 2n − 1} mit xj ∈ B, j = 0, . . . , n − 1, gilt: j=0
1 1 x √ |0 + √ exp 2πi m |1 2 2 2 m=1 ⎛ ⎛ ⎞ ⎞ n m−1
xj 1 1 ⎝ √ |0 + √ exp ⎝2πi ⎠ |1⎠ . = 2m−j 2 2 m=1 j=0
F⊗n |xn =
n
(5.13)
(5.14)
Ein möglicher Phasenfaktor λ ∈ C beim reinen Zustand kann beliebig auf die Koeffizienten des Ergebnisses verteilt werden. Ein reiner Zustand wird also auf einen voll separablen Zustand abgebildet. Der Einfluss der Komponenten der Ausgangszustandes auf die (separablen) Qbits des Endzustandes ist in Abbildung 5.1 auf der nächsten Seite dargestellt. Die Erstellung von
m−1 ' j=0
xj 2m−j
in (5.14) kann statt durch Division und Summation als Schiebere-
gisteroperation mit O (n) Operationen durchgeführt werden. Ingesamt beträgt die Komplexität 1 2 der Berechnung des Endzustandes also O n2 . Lemma 5.2 Fouriertransformation und voll separable Zustände Es sei H⊗n , n ∈ N, der Zustandsraum eines n-Qbits und F⊗n sei die Fouriertransformation. Dann gilt für alle αm , βm ∈ C, m = 1, . . . , n: n
αm (1 − xn−m ) + βm xn−m √ |0 (αm |0 + βm |1) = F 2 m=1 x=0 m=1 ⎛ ⎞ ⎞ m−1 xj αm (1 − xn−m) + βm xn−m ⎠ |1⎠ . √ exp ⎝2πi + (5.15) m−j 2 2 j=0 ⊗n
n
n 2 −1
128
5 Quantenalgorithmen für klassische Computer |xn
xn−1 xn−2 xn−3 xn−4
x3
x2
x1
x0
F⊗n |xn m
1
3
2
n−3 n−2 n−1
4
n
Abbildung 5.1: Einfluss der einzelnen Qbit-Zustände eines reinen Ausgangszustands auf die Qbits des voll separablen Ergebniszustandes unter der Fouriertransformation
Beweis. F⊗n
n
(αm |0 + βm |1)
m=1
=F
⊗n
n 2 −1
(
x=0
=
n 2 −1
x=0
=
n 2 −1
( (
x=0
n 6 m=1 n 6
n 6
m=1
) (αm (1 − xn−m ) + βm xn−m ) |xn )
(αm (1 − xn−m ) + βm xn−m) F⊗n |xn ) (αm (1 − xn−m ) + βm xn−m)
m=1
⎛ ⎞ ⎞ m−1 xj 1 1 ⎝ √ |0 + √ exp ⎝2πi ⎠ |1⎠ m−j 2 2 2 m=1 j=0 n
=
⎛
n
αm (1 − xn−m ) + βm xn−m √ |0 2 x=0 m=1 ⎛ ⎞ ⎞ m−1 xj αm (1 − xn−m) + βm xn−m ⎠ |1⎠ . √ exp ⎝2πi + 2m−j 2 j=0
n 2 −1
Offen bleibt die Frage, ob die Anwendung der Fouriertransformation auf einen voll separablen
5.3 Algorithmen für ausgewählte Gates
129
Zustand mit polynomialer Komplexität beschrieben werden kann, denn in der Darstellung von Lemma 5.2 auf Seite 127 verbleibt eine Summation mit exponentieller Ordnung. Aus der Formel (5.15) ist ersichtlich, dass jeder Einzel-Qbit-Zustand der summierten separablen Zustände nicht nur die Abhängigkeiten von Abbildung 5.1 auf der vorherigen Seite enthält, sondern zusätzlich die Phasenfaktoren αm und βm , so dass neben der Summation in Abbildung 5.1 auf der vorherigen Seite auch noch vertikale Abhängigkeiten zu ergänzen wären. Die Möglichkeit der Umformulierung auf eine Summation mit polynomialer Komplexität erscheint daher fraglich.
5.3.3
Exponentialgate
Lemma 5.3 Exponentialgate und reine Zustände Es sei H⊗n , n ∈ N, der Zustandsraum eines n-Qbits. Weiter seien n1 , n2 ∈ N mit n1 +n2 = n und a, N ∈ N mit a < N und 1 < N < 2n2 . Ist Ea das Exponentialgate für n1 , n2 , a und sind λ ∈ C und z ∈ {0, . . . , 2n − 1}, so gilt mit z = x · 2n2 + y für x ∈ {0, . . . , 2n1 − 1} und y ∈ {0, . . . , 2n2 − 1}: Ea λ |zn = λEa |xn1 |yn2 $ λ |xn1 |ax y(modN )n2 , für y ∈ {0, . . . , N − 1} , = λ |xn1 |yn2 , für y ∈ {N, . . . , 2n2 − 1} .
Beweis.
Der Beweis folgt sofort aus Definition 4.8 auf Seite 112.
Ein reiner Zustand wird also wieder auf einen reinen Zustand abgebildet. Der Algorithmus besitzt die Komplexität der Berechnung von yˆ = ax y(modN ).
(5.16)
Betrachtet man x in Binärdarstellung, also x=
n 1 −1
xj 2j ,
xj ∈ B, j = 0, . . . , n1 − 1,
j=0
so lässt sich (5.16) wie folgt aufspalten: n1 −1 0 yˆ = axn1 −1 2 (modN ) · . . . · ax0 2 (modN ) · y(modN ). 1 2 Jede Multiplikation (auch modulo N ) von Binärzahlen mit n2 Bits ist mit O n22 Operationen durchführbar. Die Zahlen a2 (modN ),
a4 (modN ),
a8 (modN ), . . .
sind als aufeinanderfolgende Quadraturen 1 2durchführbar, 1 2 so dass der Gesamtaufwand zur Berechnung von (5.16) insgesamt O n1 · n22 = O n3 beträgt, also polynomial ist. Mit Hilfe tieferliegender algebraischer Betrachtungen ist der tatsächlich notwendige Aufwand noch etwas reduzierbar [14].
130
5 Quantenalgorithmen für klassische Computer
Lemma 5.4
Exponentialgate und voll separable Zustände
Es sei H⊗n , n ∈ N, der Zustandsraum eines n-Qbits. Weiter seien n1 , n2 ∈ N mit n1 +n2 = n und a, N ∈ N mit a < N und 1 < N < 2n2 . Es sei Ea das Exponentialgate für n1 , n2 , a. Dann gilt für alle αm , βm ∈ C, m = 1, . . . , n: n
Ea
(αm |0 + βm |1)
m=1
=
1 −1 2n
M(
x=0
⊗
N−1
(
n2 6
N
)
(αn1 +m (1 − yn2 −m ) + βn1 +m yn2 −m ) |a y(modN )n2 x
m=1
n1
+
(αm (1 − xn1−m ) + βm xn1−m ) |xn1
m=1
(
y=0
)
n1 6
)
(αm |0 + βm |1)
m=1
⎛
2 −1 2n
(
n2 6
⊗⎝
)
⎞
(αn1 +m (1 − yn2 −m ) + βn1 +m yn2 −m ) |yn2 ⎠ .
m=1
y=N
Beweis.
Ea
n
(αm |0 + βm |1)
m=1
= Ea
1 −1 2n
x=0
⊗
y=0
=
·
n2 6
n1 6
(N−1 ( n 2 6
+
2 −1 2n
y=N
(αm (1 − xn1−m ) + βm xn1−m ) |xn1
) )
(αn1+m (1 − yn2 −m ) + βn1 +m yn2 −m ) Ea |xn1 |yn2
m=1
(
)
(αm (1 − xn1 −m ) + βm xn1−m )
m=1
y=0
)
(αn1 +m (1 − yn2 −m ) + βn1 +m yn2 −m ) |yn2
m=1
(
x=0
n1 6 m=1
(
2 −1 2n
1 −1 2n
(
n2 6 m=1
)
⎞
(αn1 +m (1 − yn2 −m ) + βn1 +m yn2 −m ) Ea |xn1 |yn2 ⎠
5.4 Implementierung von Messungen
=
1 −1 2n
(
x=0
·
n1 6
y=0
(
1 −1 2n
M(
x=0
n1 6
(αn1+m (1 − yn2 −m ) + βn1 +m yn2 −m ) |xn1 |yn2 ⎠
x=0 N−1
(αm (1 − xn1−m ) + βm xn1−m ) |xn1
n1
+
) (αn1+m (1 − yn2 −m ) + βn1 +m yn2 −m ) |ax y(modN )n2
n2 6
n1 6
n2 6
⎞⎤
)
(αn1+m (1 − yn2 −m ) + βn1 +m yn2 −m ) |yn2 ⎠⎦ )
(αm (1 − xn1−m ) + βm xn1−m ) |xn1
m=1
(
y=0
(
)
m=1
M(
⎞
)
m=1
(
y=N 1 −1 2n
⊗
n2 6
(N−1 ( n 2 6 y=0
=
(αn1+m (1 − yn2 −m ) + βn1 +m yn2 −m ) |xn1 |axy(modN )n2
m=1
2n2 −1
+
)
m=1
y=N
⊗
(αm (1 − xn1−m ) + βm xn1−m )
m=1
2n2 −1
=
)
m=1
(N−1 ( n 2 6
+
131
N
)
(αn1+m (1 − yn2 −m ) + βn1 +m yn2 −m ) |a y(modN )n2 x
m=1
)
(αm |0 + βm |1)
m=1
⎛
2 −1 2n
⊗⎝
y=N
(
n2 6
)
⎞
(αn1 +m (1 − yn2 −m ) + βn1 +m yn2 −m ) |yn2 ⎠ .
m=1
Offen bleibt auch hier die Frage, ob die Anwendung des Exponentialgates auf einen voll separablen Zustand mit polynomialer Komplexität beschrieben werden kann, da die Summation in Lemma 5.4 auf der vorherigen Seite von exponentieller Komplexität ist, und eine polynomiale Umformung nicht offensichtlich ist.
5.4
Implementierung von Messungen
Die Messung eines „beliebigen“ n-Qbit-Zustandes v benötigt nach Abschnitt 5.1 O (2n ) Operationen, wie bereits in (5.7) zu sehen.
132
5 Quantenalgorithmen für klassische Computer
Betrachtet man einen voll separablen Zustand v=
n
(αm |0 + βm |1) ,
αm , βm ∈ C, |αm |2 +|βm |2 = 1, m = 1, . . . , n,
m=1
so kann mit Lemma 3.17 auf Seite 81 jede Qbit-Komponente einzeln gemessen werden. Man betrachte nun die m-te Tensorkomponente in obiger Darstellung, also vm = αm |0 + βm |1. Bei der Messung dieser Komponente handelt es sich um die Realisierung der Zufallsvariablen Xm := M1vm ,
(5.17)
wobei in der Tupeldarstellung für die Wahrscheinlichkeitsverteilung gilt: P ({Xm = 0}) = |αm |2 ,
P ({Xm = 1}) = |βm |2 .
(5.18)
Zur Implementierung auf einem klassischen Computer bestimme man ein xm ∈ [0, 1[ gleichverteilt mit einem Zufallszahlengenerator. Die simulierte Messung hat Ergebnis 0, wenn gilt xm ∈ [0, |αm|2 [, 2
Ergebnis 1, wenn gilt xm ∈ [|αm| , 1[.
(5.19) (5.20)
Hierfür ist konstanter Aufwand notwendig. Mit einer Komplexität von O (n) erhält man somit das Gesamtergebnis als n
2n−m Xm .
m=1
5.5
Kaskadierte Messungen
Aufgrund der abschließenden Messung ist jeder Quantenalgorithmus ein stochastischer Algorithmus. Da sich die Anwendung wichtiger Gates auf reine Zustände mit polynomialer Komplexität auf einem klassischen Computer implementieren lässt, besteht eine Idee darin, dass man nach jedem Gate eine Messung durchführt, um wieder einen reinen Zustand zu erhalten. Die Vorstellung ist, dass das wiederholte Anwenden dieser Vorgehensweise im empirischen Mittel das eigentliche Gesamtergebnis erzeugt. Wendet man die Messung an mehreren Stellen an, so verfolgt ein Durchlauf des Verfahrens einen Pfad durch einen Baum von möglichen Abläufen. Zur Untersuchung der Idee betrachten wir einen Quantenalgorithmus: v := U u,
v X := M{M . 0 ,...,Mm−1 }
(5.21)
Dabei sind u, v ∈ H⊗n zwei Zustände und U ist ein auf u angewandtes Gate. Die abschließende Messung ist die Realisierung der Zufallsvariablen X als Messung bezüglich eines Messoperatorsatzes {M0 , . . . , Mm−1 }, m ∈ N. Inbesondere gilt damit für j = 0, . . . , m − 1: 2
2
P ({X = j}) = Mj v = Mj U u .
(5.22)
5.5 Kaskadierte Messungen
133 Messung
Zustand 1
Zustand 2
Zustand 3
Gate
Gate
Gate
Messung
Zustand 4
Messung
Zustand 5
Zustand 6
Messung
Zustand 7
Zustand 8
Zustand 9
Abbildung 5.2: Formale Darstellung eines Ablaufbaumes bei kaskadierten Messungen. Jede Messung erzeugt einen (Zwischen-)Ergebniszustand mit einer gewissen Wahrscheinlichkeit. Davon ausgehend erfolgt ein weiterer Verfahrensschritt mit einem oder mehreren Gates, woraufhin eine weitere Messung erfolgt.
Nach Definition 3.12 auf Seite 73 ist der Zustand nach der Messung MX v . MX v Nun wird der Algorithmus dahingehend abgewandelt, dass der Zustand u zunächst bezüglich eines Messoperatorsatzes {Q0 , . . . , Qq−1 }, q ∈ N, gemessen wird und erst danach das Gate angewandt wird, also u Y := M{Q , 0 ,...,Qq−1 }
vˆ := U
QY u , QY u
ˆ := M vˆ X {M0 ,...,Mm−1 } .
(5.23)
ˆ um sie mit der von X aus dem Jetzt berechnen wir die Wahrscheinlichkeitsverteilung von X, Originalalgorithmus (5.21) zu vergleichen. Man erhält sie mit der „Formel von der totalen Wahrscheinlichkeit“ aus Satz 2.70 auf Seite 53: q−1 7 8 7 8 ˆ =j ˆ = j|Y = k P X = P ({Y = k}) · P X (5.24) k=0
=
q−1 k=0 q−1
=
k=0
#2 # # Qk u # # # Qk u · #Mj U Qk u # 2
2
Mj U Qk u .
(5.25)
(5.26)
134
5 Quantenalgorithmen für klassische Computer
Folgend aus Definition 3.11 auf Seite 72 gilt bekanntlich q−1
2
2
Qk u = u = 1,
k=0
aber leider hebt sich in (5.26) die Summe der Qk nicht hinweg, d.h. im Allgemeinen hat man P
q−1 7 8 2 2 ˆ =j Mj U Qk u = Mj U u = P ({X = j}) . X =
(5.27)
k=0
Zur Belegung dient die Angabe eines einfachen Gegenbeispiels, das hier in Tupelnotation und mit Matrizen beschrieben wird. Zur Vereinfachung der Darstellung werden den Matrizen die Bezeichnungen der Operatoren gegeben: 1 1 1 1 1 u := √ , U := √ , 5 2 2 1 −1 10 00 10 00 Q0 := , Q1 := , M0 := , M1 := . 00 01 00 01 • Originalalgorithmus 5.21: 3 , −1 # #2 # 1 9 3 # 2 # √ P ({X = 0}) = M0 v = # # 10 0 # = 10 , # #2 # 1 0 # 2 # = 1. # P ({X = 1}) = M1 v = # √ # −1 10 10 1 v = Uu = √ 10
• Modifizierter Algorithmus 5.23 mit kaskadierten Messungen: 1 1 1 1 = √ , U Q0 u = U √ 5 0 10 1 1 1 0 2 U Q1 u = U √ = √ , 5 2 10 −2 7 8 2 2 ˆ =0 P X = M0 U Q0 u + M0 U Q1 u # #2 # #2 # 1 # 1 1 # 2 # # + # √1 # √ =# # 10 0 # # 10 0 # = 2 , 7 8 2 2 ˆ =1 P X = M1 U Q0 u + M1 U Q1 u # #2 # #2 # 1 # 1 0 # 0 # # + # √1 # √ =# # 10 1 # # 10 −2 # = 2 .
5.6 Zusammenfassung
135
Bereits in diesem einfachen Fall führt die zusätzliche Messung innerhalb des Quantenalgorithmus zu einer totalen Verfälschung der Ergebnisverteilung. Daher muss die Idee verworfen werden, dass durch „geschickte Zwischenmessungen“ einfachere Zustände erzeugt werden könnten bei Erhalt des Gesamtergebnisses im globalen Mittel.
5.6
Zusammenfassung
Die polynomiale Komplexität des Shor-Algorithmus und die neue Herangehensweise an die Informationsverarbeitung durch Quantenalgorithmen beflügelt die Vorstellung, diese neuen Ideen bereits heute auf klassischen Computern sinnvoll nutzen zu können. Zu diesem Zweck wird eine Methodik benötigt, die die exponentielle Komplexität von Speicher und Operationen vermeidet, die eine direkte Simulation eines Quantencomputers zwangsläufig mit sich bringen würde. Die Untersuchung der Gates des Shor-Algorithmus in den vorangegangenen Abschnitten zeigt, dass eine Reduktion des Zustandsraumes auf voll separable Zustände oder gewissen Kombinationen von voll separablen Zuständen nicht gelingt. Wäre eine solche Reduktion möglich, so wäre zumindest der Speicherbedarf nur polynomial. Beim Hadamard-Gate, welches ja das Tensorprodukt von Ein-Qbit-Gates ist, gelingt die Reduktion natürlicherweise, aber die Struktur der Fouriertransformation und des Exponentialgates verschließt sich einer solchen Darstellung. Da ein kompletter Quantenalgorithmus aufgrund der Messung insgesamt ein stochastischer Algorithmus ist, ist es eine interessante Idee, die stochastischen Anteile auf alle algorithmischen Teile auszudehnen. Statt nur einer abschließenden Messung könnte man nach ausgewählten Teilschritten messen, was zu einer Zustandsreduktion führt. Dadurch entsteht insgesamt ein stochastischer Prozess. Wie in Abschnitt 5.5 gezeigt wurde, wird die Wahrscheinlichkeitsverteilung der Schlussmessung aber durch Zwischenmessungen im Allgemeinen so verfälscht, dass das Verfahren nicht durchführbar ist. Denkbar bleibt es aber, dass es bestimmte Abläufe von speziellen Gates und speziellen Messungen geben könnte, die Wahrscheinlichkeitsverteilung der Schlussmessung nicht verfälschen. Ein Ansatz dazu mit einem Branch-and-BoundAlgorithmus auf einer Random-Walk-Darstellung von Quantenalgorithmen wird in [20] untersucht. Auch wenn eine konkrete Nutzanwendung von Quantenalgorithmen für klassische Computer zum gegenwärtigen Zeitpunkt noch nicht gelungen ist und vielleicht aufgrund der massiven Verschränkung der Zustände niemals gelingen kann, wird die neue Denkweise der Quantenalgorithmen in Zukunft sicher auch Algorithmen für klassische Computer befruchten.
Literaturverzeichnis [1] Heinz Bauer. Maß- und Integrationstheorie. de Gruyter Verlag, Berlin, New York, zweite Auflage, 1992. [2] Heinz Bauer. Wahrscheinlichkeitstheorie. de Gruyter Verlag, Berlin, New York, fünfte Auflage, 2002. [3] Albrecht Beutelspacher. Kryptologie. Vieweg Verlag, Braunschweig, Wiesbaden, 6. Auflage, 2002. [4] Dirk Bouwmeester, Artur Ekert und Anton Zeilinger. The Physics of Quantum Information. Springer Verlag, Berlin, Heidelberg, New York, 2000. [5] Dagmar Bruß. Quanteninformation. Fischer, Frankfurt am Main, 2003. [6] David Deutsch. Quantum theory, the Church-Turing Principle and the universal quantum computer. In Proceedings Royal Society of London A, Band 400, Seiten 97–117. London, 1985. [7] David Deutsch und Richard Jozsa. Rapid solution of problems by quantum computation. In Proceedings Royal Society of London A, Band 439, Seiten 553–558. London, 1992. [8] Lov K. Grover. A fast quantum mechanical algorithm for database search. In Proceedings 28th Annual ACM Symposium on the Theory of Computing (STOC), Seiten 212–219. Mai 1996. [9] Friedrich Hirzebruch und Winfried Scharlau. Einführung in die Funktionalanalysis. Bibliographisches Institut (B.I.), Mannheim, Leipzig, Wien, Zürich, 1991. [10] Klaus Jänich. Lineare Algebra. Springer-Lehrbuch. Springer Verlag, Berlin, Heidelberg, New York, 10. Auflage, 2004. [11] David Meintrup und Stefan Schäffler. Stochastik. Springer Verlag, Berlin, Heidelberg, New York, 2004. [12] Kurt Meyberg. Algebra Teil 1. Carl Hanser Verlag, München, Wien, zweite Auflage, 1980. [13] Herbert Müther. Quantenmechanik. Vorlesungs-Skriptum, Universität Tübingen, 1999. [14] Michael A. Nielsen und Isaac L. Chuang. Quantum Computation and Quantum Information. Cambridge University Press, Cambridge, 2000. [15] Fritz Reinhardt und Heinrich Soeder. dtv-Atlas zur Mathematik Band 1. dtv-Atlas. Deutscher Taschenbuch Verlag, München, 12. Auflage, 2001.
138
Literaturverzeichnis
[16] Ronald L. Rivest, Adi Shamir und Leonard A. Adleman. A method for obtaining digital signatures and public-key cryptosystems. Communications of the ACM, 21(2): Seiten 120–126, 1978. [17] Stefan Schäffler. Decodierung binärer linearer Blockcodes durch globale Optimierung. Nummer 485 in Theorie und Forschung. Roderer Verlag, Regensburg, 1997. [18] Stefan Schäffler und Thomas F. Sturm. Wahrscheinlichkeitstheorie und Statistik I für Mathematiker. Vorlesungs-Skriptum IAMS Nr. 5, Technische Universität München, München, Oktober 1994. [19] Stefan Schäffler und Thomas F. Sturm. Wahrscheinlichkeitstheorie und Statistik II für Mathematiker. Vorlesungs-Skriptum IAMS Nr. 6, Technische Universität München, München, März 1995. [20] Robert Schmied. Stochastische Analyse von Quantenalgorithmen. Vdm Verlag Dr. Müller, Saarbrücken, 2008. [21] Peter W. Shor. Algorithms for quantum computation: discrete logarithms and factoring. In Proceedings 35th Annual Symposium on Fundamentals of Comp. Science (FOCS), Seiten 124–134. 1994. [22] Thomas F. Sturm. Stochastische Analysen und Algorithmen zur Soft Decodierung binärer linearer Blockcodes. Dissertation, Universität der Bundeswehr München, Neubiberg, Juli 2003. [23] Thomas F. Sturm. Maß- und Integrationstheorie. Vorlesungs-Skriptum, Universität der Bundeswehr München, 2005. [24] Wolfgang Walter. Analysis 2. Springer-Lehrbuch. Springer Verlag, Berlin, Heidelberg, New York, fünfte Auflage, 2002.
Index Abbildung messbare, 44 abelsche Gruppe, 10 absolute Stetigkeit, 54 absolutes Moment k-ter Ordnung, 51 absolutstetige Zufallsvariable, 56 Additivität, 29 adjungierter Operator, 29 assoziatives Gesetz, 9, 11–13, 33 Aufenthaltswahrscheinlichkeitsdichtenamplitude, 2 ausgeglichen, 95, 97 Automorphismus, 29 Basis, 20 Basismenge, 41 Basisvektor, 20 Bayes Satz von, 53 bedingte Wahrscheinlichkeit, 52 Bell-Zustand, 72 Bernoulli-Experiment, 55 Bildmaß, 45, 50 binäre Körper, 13 Binomial-Verteilung, 55, 63 Bit, 3, 4 Boolsche Funktion, 90 Borelsche σ-Algebra, 43 C-Gate, 90 Cauchy-Folge, 28 Cauchy-Schwarzsche Ungleichung, 28 Chebyschev -Markov, Ungleichung von, 63 CNOT-Gate, 90 Controlled-Note-Gate, 90 Covarianz, 58 Covarianzmatrix, 59 Dichte, 53, 58
Dichtefunktion, 58 Dimension, 22 Dirac-Konstante, 1 diskrete Zufallsvariable, 54 diskretes Wahrscheinlichkeitsmaß, 54 Dispersionsrelation, 2 distributives Gesetz, 11, 12 Dreiecksungleichung, 24 duale Basis, 74 Dualität, 1 Durchschnittsstabilität, 43 Ea -Gate, 112 eindeutig, 117 Einselement, 11, 12 endlichdimensionaler Vektorraum, 22 endlicher Kettenbruch, 117 EPR-Paar, 72 EPR-Zustand, 72 Ereignis, 49 stochastisch unabhängige, 60 Ergebnis, 49 Erwartungswert, 50 Erwarungswert einer n-dim. reellen Zufallsvariablen, 50 Erweiterung von R, 41 erzeugte σ-Algebra, 43 von einer Zufallsvariablen, 60 euklidische Norm, 24 Euklidischer Algorithmus, 117 Eulersche ϕ-Funktion, 106 Exponentialgate, 112 F⊗n -Gate, 92, 94 Faktorisierung, 106 fast sichere Konvergenz, 62 Formel von der totalen Wahrscheinlichkeit, 53 Fouriertransformation, 92
140 Fundamentalidentität, 32 Funktion maßerzeugende, 44 Galoisfelder, 13 Galoiskörper, 13 Gate, 83 C, 90 Ea , 112 F⊗n , 92, 94 H, 87 I, 88 P, 87 S, 90 T, 88 Uf , 91 X, 86 Y, 87 Z, 87 Gates, 83 Gleichverteilung, 55 Grenzwertsatz, zentraler, 62 Gruppe, 9 Gruppentheorie, 11 H-Gate, 87 Hadamard-Funktion, 98 Hadamard-Gate, 87 Hamilton-Operator, 2 hermitesch, 30 Hilbertbasis, 28 Hilbertraum, 3–5, 28–30 Homogenität, 29 Householder, 102 I-Gate, 88 Indikatorfunktion, 45 inneren Verknüpfung, 9 Integral, 46–48 Lebesgue, 48 Lebesgue-Stieltjes, 48 integrierbar, 48 Lebesgue, 48 inverses Element, 10, 12 K-Vektorraum, 13 kanonische Abbildung, 35, 36
Index kanonische Basis, 20 kanonische Tensorprodukt, 39 Kettenbruch, 117 Körper, 12 kollineare Vektoren, 18 kommutative Gruppe, 10 kommutativer Ring, 11 kommutatives Gesetz, 10–12, 14, 33 komplanare Vektoren, 18 Komponentenzerlegung, 21 Konjugation, 26 konstant, 95, 97 Konvergente, 117 Konvergenz (P -)fast sicher, 62 im r-ten Mittel, 61 in Verteilung, 61 mit Wahrscheinlichkeit 1, 61 schwache, 62 stochastisch, 61 Kopenhagener Deutung, 2, 3 Korrelationskoffizient, 58 Kronecker-Symbol, 28 Kryptologie, 13 kürzeste Normaldarstellung, 46 Laplace, Satz von de Moivre-, 63 Laplace-Experiment, 55 Lebesgue-Borel-Stieltjes-Maß, 44 Lebesgue, Zerlegungssatz von, 57 Lebesgue-Borel-Maß, 43 Lebesgue-Integral, 48 Lebesgue-integrierbar, 48 Lebesgue-Maß, 43 Lebesgue-messbare Mengen, 43 Lebesgue-Stieltjes-Integral, 48 Lebesgue-Stieltjes-Maß, 44 Lebesgue-Stieltjes-messbare Mengen, 44 linear abhängig, 19 linear unabhängig, 19 lineare Abbildung, 29 lineare Hülle, 17 linearer Operator, 83 Linearität, 24, 26 Linearkombination, 17
Index Markov Ungleichung von Chebyschev-, 63 Maß σ-endliches, 42 Lebesgue-, 43 Lebesgue-Borel, 43 Lebesgue-Borel-Stieljes, 44 Lebesgue-Stieltjes, 44 vollständiges, 43 Maß (σ-endliches), 42 maßerzeugende Funktion, 44 Maßraum, 44 Materiewelle, 1 Menge geordnet, 42 Lebesgue-messbar, 43 Lebesgue-Stieltjes-messbar, 44 Lebesguesche Nullmenge, 43 Nullmenge, 43 Mengensystem stochastische Unabhängigkeit von, 60 über Ω, 41 messbare Abbildung, 44 Messbarkeit, 44 Messoperator, 72 Messraum, 44, 67, 73, 75, 77, 80, 81 Messung, 67, 73, 75, 77, 80 Moivre, de -Laplace, Satz von, 63 Moment absolutes k-ter Ordnung, 51 zentriertes k-ter Ordnung, 51 zentriertes absolutes k-ter Ordnung, 51 Multi-Qbit, 68 negativer Tensor, 33 negativer Vektor, 14 Negativteil, 48 neutrales Element, 10 Norm, 24 Normaldarstellung, 46 kürzeste, 46 Normalverteilung, 58 normierter Raum, 24 Not-Gate, 86 Nullelement, 11, 12 Nullmenge, 43 Lebesguesche, 43
141 Nulltensor, 33 Nullvektor, 13 numerische Funktion, 47 Observable, 6 Observablen, 6 öffentlicher Schlüssel, 106 Öffnungswinkel, 27 Operator, 29 Ordnung, 108–110 orthogonal, 27 Orthonormalbasis, 28 P-Gate, 87 Pauli-Matrix, 87 Phasen-Gate, 87 Photon, 1 Plancksches Wirkungsquantum, 1 Poisson-Verteilung, 55 Positive Definitheit, 26 Positivität, 24 Positivteil, 48 Postulat, 4 Potenzmenge, 41, 42 Prähilbertraum, 26, 28 privater Schlüssel, 106 Produktraum, 30 Public-Key-Verfahren, 106 Qbit, 65, 124, 131 Quantenbit, 65 Quanteninformationstheorie, 3 quasiintegrierbar, 48 Radon-Nikodym Satz von, 54 Reed-Solomon-Codes, 13 reiner Multi-Qbit-Zustand, 70 reiner Qbit-Zustand, 66 Ring, 11 Ring mit Einselement, 11 RSA-Verschlüsselungsverfahren, 106 S-Gate, 90 Satz von de Moivre-Laplace, 63 Satz von Bayes, 53 Satz von Messoperatoren, 72
142 Satz von Pythagoras, 27 Schlüssel, 13 Schrödinger-Gleichung, 2, 7 schwache Konvergenz, 62 selbstadjungiert, 30 senkrecht, 27 separabler Multi-Qbit-Zustand, 71, 81 σ-Additivität, 42 σ-Algebra, 42 Borelsche, 43 σ-endlich, 42 singuläres Wahrscheinlichkeitsmaß, 57 Skalar, 13 Skalarprodukt, 25, 26 Speicher, 68 Spin, 3 Spin-down, 4 Spin-up, 3 Spinor-Wellenfunktion, 4 Standard-Skalarprodukt, 25, 26 Standardabweichung, 51 Standardbasis, 69, 74, 75, 77, 80, 81 Standardisierung, 52 stetige Zufallsvariable, 56 stetiges Wahrscheinlichkeitsmaß, 56 stochastisch unabhängige Ereignisse, 60 stochastische Konvergenz, 61 stochastische Unabhängigkeit einer Menge von Ereignissen, 60 von Ereignissen, 60 von Mengensystemen, 60 von Zufallsvariablen, 61 Streuung, 51 Summennorm, 24 Swap-Gate, 90 Symmetrie, 26 T-Gate, 88 Teilchen-Spin, 3 Tensor, 31, 33 Tensorpermutation, 71 Tensorprodukt, 5, 31, 84 Tensorraum, 31 Transponierungszeichen, 15 triviale Linearkombination, 19 Tupel, 30
Index Uf -Gate, 91 unendlichdimensionaler Vektorraum, 22 Ungleichung von Chebyschev-Markov, 63 unitär, 7 unitärer Operator, 83 unkorreliert, 58 Untervektorraum, 16, 17 Varianz einer reellen Zufallsvariablen, 51 Vektor, 13, 14 Vektorkomponenten, 21 Vektorraum, 13 Verknüpfung, 9 Verschlüsselung, 106 verschränkter Multi-Qbit-Zustand, 71 Verteilung Binomial, 55, 63 diskrete, 54 Gleich-, 55 Normal-, 58 Poisson-, 55 Verteilung einer Zufallsvariablen, 50 Verteilungsfunktion, 56 Vervollständigung, 43 vollständig, 28 vollständiges Maß, 43 Wahrscheinlichkeit, 49 bedingte, 52 Formel von der totalen, 53 Wahrscheinlichkeitsmaß, 49 absolute Stetigkeit, 54 Dichte, 53 diskretes, 54 singuläres, 57 stetiges, 56 Wahrscheinlichkeitsraum, 49, 67, 73, 75, 77, 80, 81 Welle-Teilchen-Dualismus, 1 Wirkungsquantum, Plancksches, 1 X-Gate, 86 Y-Gate, 87 Z-Gate, 87 Zählmaß, 54
Index Zahlentheorie, 106 Zeitentwicklung, 83 Zeitentwicklungsoperator, 7 zentraler Grenzwertsatz, 62 zentriertes absolutes Moment k-ter Ordnung, 51 zentriertes Moment k-ter Ordnung, 51 zerlegbarer Tensor, 31 Zerlegungssatz von Lebesgue, 57 Zufallsexperiment, 49 Bernoulli, 55 Laplace, 55 Zufallsvariable absolutstetige, 56 Covarianz, 58 diskrete, 54 Erwartungswert, 50 numerische, 50 reelle, 50 Standardabweichung, 51 Standardisierung, 52 stetige, 56 stochastische Unabhängigkeit von, 61 Streuung, 51 unkorreliert, 58 Varianz einer reellen, 51 Verteilung, 50 Zustand, 3 Zustand eines n-Multi-Qbits, 68 Zustand eines Qbits, 65 Zustandsraum, 4, 5, 65, 68 Zustandsreduktion, 6 Zustandssphäre, 65, 68
143