232 38 13MB
German Pages 418 [420] Year 2003
de Gruyter Lehrbuch Jacobs/Jungnickel · Einführung in die Kombinatorik
Konrad Jacobs Dieter Jungnickel
Einführung in die Kombinatorik 2., völlig neu bearbeitete und erweiterte Auflage
w Walter de Gruyter DE
G Berlin · New York 2004
Dieter Jungnickel Institut f ü r M a t h e m a t i k Universität A u g s b u r g Universitätsstraße 14 86135 A u g s b u r g
Konrad Jacobs A b t s b e r g 25 96049 B a m b e r g
Mathematics
Subject
Classification
2000: 05-01
© Gedruckt auf säurefreiem Papier, das die US-ANSI-Norm über Haltbarkeit erfüllt.
I S B N 3-11-016727-1 Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.ddb.de abrufbar. © Copyright 2004 by Walter de Gruyter G m b H & Co. K G , 10785 Berlin. Dieses Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Printed in Germany. Umschlaggestaltung: Hansbernd Lindemann, Berlin. Texterfassung in LATgX und Konvertierung der Dateien: I. Zimmermann, Freiburg. Druck und Bindung: Hubert & Co. G m b H & Co. K G , Göttingen.
Vorwort zur zweiten Auflage
Seit dem Erscheinen der ersten Auflage dieses Buches sind nunmehr zwanzig Jahre vergangen. Für die Neuauflage haben Herr Kollege Jacobs und der Verlag de Gruyter mich um eine gründliche Überarbeitung gebeten. Ich habe dabei die im Vorwort zur ersten Auflage von Herrn Jacobs genannte Zielsetzung und den prinzipiellen Aufbau seines Buches respektiert, mich aber trotzdem nicht nur auf die Beseitigung von Druckfehlern und kleineren Irrtümern beschränkt. Neben verhältnismäßig geringfügigen Änderungen in der Darstellung und einigen vereinfachten Beweisen sowie vielen neuen Literaturhinweisen stehen die gründliche Umarbeitung mehrerer Kapitel (insbesondere die über Lateinische Quadrate, Codes, projektive Ebenen und Blockpläne) im Lichte neuerer Entwicklungen, was auch zu einigen umfangreichen Ergänzungen geführt hat. Insgesamt werden diese Teile nun doch systematischer präsentiert, wenn es auch dabei bleibt, daß eine vollständige Theorie im hier gesetzten Rahmen nicht geboten werden kann. Es sind so - wie ich denke - etliche weitere Rosinen zu dem von Herrn Jacobs angesprochenen Kuchen hinzugekommen, wie beispielsweise • mehr Anwendungen CRC-Codes),
aus
der
Codierungstheorie
(Prüfziffersysteme,
• Anwendungen von Codes und projektiven Ebenen in der Kryptographie (Authentikation von Nachrichten, Zugangskontrolle zu geheimen Informationen), • mehr Uber Blockpläne, zum Beispiel der Zusammenhang zur bekannten Hadamardschen Ungleichung, für die wir einen besonders kurzen Beweis eingeschlossen haben, und Differenzmengen, inklusive eines eleganten Beweises für den berühmten Hallschen Multiplikatorsatz, • mehr über projektive Ebenen und Räume, insbesondere über Kollineationen (Satz von Singer) und interessante Unterstrukturen wie Unterebenen, Blockademengen und Bögen, wobei die Bögen einen verblüffenden Zusammenhang zur Codierungstheorie liefern, • ein besonders kurzer und eleganter Beweis des Fünffarbensatzes,
vi
Vorwort zur zweiten Auflage
um nur einige besondere Highlights zu nennen. Dabei haben natürlich auch meine persönlichen Interessen eine gewisse Rolle gespielt. Insgesamt hoffe ich aber, dem Geist der ersten Auflage treu geblieben zu sein und das B u c h noch reichhaltiger und damit vielleicht auch noch eine Spur reizvoller gemacht zu haben. Trotzdem bleiben notgedrungen viele wichtige Aspekte der Kombinatorik gänzlich außen vor, wie etwa die eminent wichtige Matroid-Theorie, die Theorie der Assoziationsschemata, die probabi listi sehe M e t h o d e oder die extremale Kombinatorik. Für die Matroidtheorie sei der Leser auf die Bücher von Tutte \ 1971], Welsh [1976J, Oxley [1992¡, Reeski LI989] und White L1986J, L1987J, L1992J verwiesen. Z u m T h e m a Assoziationsschemata empfehlen wir Bannai und Ito [ 1984] sowie Zieschang [19951, und zur probabi listi sehen M e t h o d e sollte man Erdôs und Spencer [1974J, Alon und Spencer [1992J sowie - f ü r algorithmische Aspekte - Habib et al. [1998] konsultieren. Zur extremalen Kombinatorik vergleiche man Baranov und Stechkin [19951 sowie Jukna Γ2001]; f ü r die extremale Graphentheorie ist nach wie vor das Buch von Bollobás [1978] die Standardreferenz. A n d e r e wichtige Aspekte k o m m e n sicherlich ebenfalls etwas zu kurz; so spielen bei uns weder Algorithmen noch A n w e n d u n g e n eine große Rolle, wenn sie auch gelegentlich angesprochen werden. Es sind aber gerade diese beiden T h e m e n , die die enorme außermathematische Nützlichkeit der Kombinatorik erklären. Stellvertretend f ü r viele mögliche Referenzen sei der an realen A n w e n d u n g e n - etwa im VLSI-Design oder beim Entwurf von Kommunikations- und Verkehrsnetzwerken interessierte Leser auf die Bücher von Lengauer [1990J, Körte et al. [1990J sowie Bermond [1992] verwiesen. Auf diese T h e m e n können wir leider gar nicht eingehen; immerhin werden wir zu Anwendungen in der Kryptographie im Text einiges sagen. Dagegen bleibt leider auch das vielfältig anwendbare „Traveling Salesman Problem" auf der Strecke, das bestens dazu geeignet wäre, nahezu alle relevanten Aspekte der modernen kombinatorischen Optimierung kennenzulernen; dafür müssen wir unsere Leser auf die beiden wunderbaren Sammelwerke von Lavvier et al. [1985J sowie Gutin und Punnen [2002J verweisen. Ich danke dem Verlag de Gruyter und insbesondere Herrn M a n f r e d Karbe f ü r die gute Betreuung dieses Buchprojektes und die stets angenehme Zusammenarbeit. M e i n ganz besonderer D a n k gilt meinem früheren Studenten, Herrn Dr. Andreas Enge, der das Manuskript mit großer A u f m e r k s a m k e i t gelesen und zahlreiche Verbesserungsvorschläge gemacht hat. Die noch verbleibenden Irrtümer gehen ganz und gar zu meinen Lasten. Augsburg, Juli 2003
Dieter
Jungnickel
Vorwort zur ersten Auflage
Es gibt verschiedene Arten, Kombinatorik zu lernen. Will man Berufs-Kombinatoriker werden, so kann man z.B. (a) dem in der Rota-Schule gepflegten Trend zur Systematisierung kombinatorischer Schlußvveisen folgen, wie etwa Rota [1975J, Aigner L1979J, Graver und Watkins [1977J oder (b) versuchen, Kombinatorik im indisch-israelisch-ungarischen Stil (liebevolldynamisches Stellen und Lösen von Einzelproblemen im Lichte großer Leitideen) zu treiben und zur Einübung etwa das Buch von Lovàzs [1979] durcharbeiten. Das Literaturverzeichnis gibt einen Einblick in die Fülle der veröffentlichten Lehrbücher und Monographien. Das vorliegende Buch schließt soweit wie möglich an das Bändchen von Ryser [19631 an. Es wendet sich nicht so sehr an zukünftige Berufskombinatoriker, sondern vor allem an Mathematiker jeder Arbeitsrichtung, die einen knappen, vielseitigen Einblick in die Kombinatorik gewinnen und mit bescheidenem technischen Aufwand schnell an eine Vielzahl berühmter Resultate herankommen wollen. Damit sind insbesondere Studenten und auch Gymnasiallehrer angesprochen (die Kombinatorik wird wegen ihres Reizes und ihrer Direktheit in Zukunft eine wachsende Bedeutung im Schulunterricht haben). Ich habe deshalb, bildlich gesprochen, versucht, einen möglichst kleinen Kuchen mit möglichst vielen Rosinen zu backen. Die Themenauswahl ist aus dem Inhaltsverzeichnis ersichtlich. Kürzer behandelt sind einige Themen, die an sich nicht zum klassischen Themenkanon der Kombinatorik gehören, z . B . das Diktatorproblem und einige Symmetrie-Eigenschaften der Morse-Folge 0 1 1 0 1 0 0 1 . . . Der Versuchung, immer das allgemeinste mögliche Resultat zu beweisen, habe ich zu widerstehen gesucht. Auch auf die Einführung vereinheitlichender Begriffe (z.B. Inzidenzstruktur) habe ich absichtlich verzichtet. Die Kombinatorik ist bunt und soll bunt bleiben. Ich habe vor allem nach dem Typischen getrachtet. So lernt man z . B . die typische Arbeitsweise der Ray-Chaudhuri-Schule hier zweimal, bei der vollständigen Widerlegung der Eulerschen Vermutung über orthogonale lateinische Quadrate und bei der vollständigen Behandlung des Kirk-
viii
Vorwort zur ersten Auflage
man'schen Schulmädchenproblems im Falle der Dreierreihen, gründlich kennen. Dagegen habe ich die umfassenderen Existenzsätze für Blockpläne und auflösbare Blockpläne nur zitiert und nicht bewiesen. Verschiedene Großgebiete der modernen Kombinatorik - Graphentheorie, endliche Geometrie, Code-Theorie, BlockplanTheorie - werden nur in typischen, aber, wie ich hoffe, gründlichen Kostproben vorgeführt; jedes dieser Gebiete würde ein eigenes Studium erfordern. Eine Reihe kombinatorischer Themen mußte aus Platzgründen entfallen (z.B. Such-Theorie, Matroid-Theorie, Fluktuationstheorie, Gittergas-Kombinatorik, topologische und wahrscheinlichkeitstheoretische Methoden, Hadamard-Matrizen, und auch die Permanententheorie, die mit dem Beweis der van-der-Waerden-Vermutung durch Egorychev [19811 und Falikman [1981] soeben einen schönen Schritt vorwärts getan hat, konnte ich nur streifen). An verschiedenen Stellen habe ich Resultate aus anderen mathematischen Theorien genutzt, aus der Gruppentheorie, aus der Theorie der endlichen Körper, aus der elementaren Zahlentheorie, aus der Funktionentheorie. Diese Resultate werden am betr. Ort durch hoffentlich ausreichende Erläuterungen herangeholt. Zwecks Pflege des Familiensinns unter Mathematikern habe ich das Literaturverzeichnis, soweit möglich und tunlich, mit Vornamen und Lebensdaten ausgestattet. Ich hoffe, es sind mir keine Fehler unterlaufen. Zur Bezeichnung: Satz III.5.1 bedeutet: Satz 5.1 aus Kap. III §5. Das Symbol • bezeichnet das Ende eines Beweises. Zahlreichen Freunden und Kollegen bin ich zu Dank verpflichtet. Mein Doktorvater, Herr Wilhelm Maak, dem ich dies Buch widme, hat mir vor langen Jahren einen ersten Zugang zur Kombinatorik eröffnet. Fachkundigen Rat haben mir vor allem Thomas Beth, Hillel Furstenberg, Dietrich Kölzow, Klaus Leeb, Volker Strehl und Benji Weiss gegeben; Maria Reményi hat den Text kritisch gelesen und verbessert. Für die Herstellung der Reinschrift danke ich den Sekretärinnen des Erlanger Mathematischen Instituts, voran Frau Helga Zech, und dem Verlag de Gruyter für die sorgfältige publikatorische Betreuung und die gute Zusammenarbeit. Erlangen, April 1983
Konrad Jacobs
Inhaltsverzeichnis
I
Das kleine Einmaleins der Kombinatorik 1 Mengen 2 Einfache Anzahlaussagen 3 Das Inklusions-Exklusions-Prinzip 3.1 Das Inklusions-Exklusions-Prinzip mit Gewichten 3.2 Zahlentheoretische Anwendungen der Siebformel 3.3 Das Problème des ménages 3.4 Permanenten
1 1 6 12 13 15 17 20
II
Der Heiratssatz und seine Verwandten 1 Der Heiratssatz 2 Zum Heiratssatz verwandte Sätze 2.1 Die Sätze von König und Dilworth 2.2 Die Äquivalenz des Heiratssatzes mit den Sätzen von König und Dilworth 2.3 Verwandte Ergebnisse 2.4 Der Satz von Menger 3 Das Schnitt-Fluß-Theorem von Ford und Fulkerson 3.1 Gerichtete Graphen und Fluß-Netzwerke 3.2 Flußmaximierung 3.3 Flüsse, Matchings und disjunkte Wege 3.4 Der Satz von Baranyai
23 23 27 28 30 33 39 43 44 48 54 57
Orthogonale lateinische Quadrate 1 Problemstellung und Historisches 2 Grundbegriffe und erste Existenzaussagen 3 Endliche Körper 4 Der Satz von MacNeish 5 Differenzmatrizen 6 Widerlegung der Eulerschen Vermutung 7 Eine Anwendung: Authentikationscodes
62 62 64 69 72 74 78 82
III
χ
Inhaltsverzeichnis
ΙΥ
Der Satz vom Diktator 1 Problemstellung 2 Mächtige Familien 3 Auswege
87 87 89 93
V
Fastperiodische O-l-Folgen 1 Die Morse-Thue-Folge 2 Fastperiodizität
96 96 100
VI
Der Satz von Ramsey 1 Die finite Version des Satzes von Ramsey 2 Die unendliche Version des Satzes von Ramsey
104 105 109
VII Der Satz von van der Waerden 1 Arithmetische Progressionen 2 Beweis des Satzes von van der Waerden 3 Der Satz von Szemerédi 4 Ergebnisse von Schur, Rado und Deuber 5 Der Satz von Haies und Jewett
112 112 114 118 120 122
VIII Codes 1 Sofort bzw. eindeutig entzifferbare Codes 2 Prüfziffersysteme 3 Fehlerkorrigierende Codes 4 Lineare Codes 5 Zyklische Codes und Polynomideale 6 BCH-Codes 7 Bemerkungen zur Implementierung
128 129 133 141 146 152 159 165
IX
171 172 176 180 183 186 189 195 200 204
Endliche projektive Ebenen und Räume 1 Grundlagen 2 Existenzfragen 3 Polaritäten 4 Das Freundschaftstheorem 5 Kollineationen und der Satz von Singer 6 Bögen und MDS-Codes 7 Unterebenen und Blockademengen 8 Anwendungen in der Kryptographie 9 Affine Geometrien
Inhaltsverzeichnis
xi
X
Blockpläne 1 Grundlagen 2 Direkte Konstruktionen 3 GDDs 4 Relative Differenzfamilien 5 Der PBD-Hüllenoperator 6 Blockpläne mit k < 5 7 Auflösbare Blockpläne
209 210 215 222 226 228 232 235
XI
Symmetrische Blockpläne und Differenzmengen 1 Symmetrische Blockpläne: Grundlagen 2 Der Satz von Bruck, Ryser und Chowla 3 Hadamardmatrizen und Blockpläne 4 Eine rekursive Konstruktion 5 Differenzmengen und Gruppenringe 6 Multiplikatoren 7 Der Mann-Test 8 Planare Differenzmengen 9 Die Hadamardsche Ungleichung
241 241 245 249 255 259 263 268 270 275
XII Partitionen 1 Formale Potenzreihen 2 Erzeugende Funktionen von Partitions-Anzahlen 3 Eulers Pentagonalzahlen-Theorem
277 277 279 283
XIII Die Abzähltheorie von Pólya 1 Der Zyklenindex einer Permutationsgruppe 2 Das Lemma von Burnside 3 Der Satz von Pólya 4 Bäume und Strünke 5 Alkohole 6 Die Anzahl der Bäume auf η Punkten
292 292 296 300 303 305 309
XIV Kombinatorische Betrachtungen topologischen Ursprungs 1 Das Königsberger Bruckenproblem 2 Der Eulersche Polyedersatz 3 Der Fünffarbensatz 4 Hamiltonsche Kreise 5 Das Spernersche Lemma 6 Der Satz von Helly
314 314 317 322 327 331 334
xii
XV
Inhaltsverzeichnis
Spiele auf Graphen 1 Baumspiele 2 Das klassische Nim-Spiel 3 Spiele vom Typ Nim auf Graphen
XYI Spezielle Folgen von ganzen Zahlen 1 Die Fibonacci-Zahlen 2 Die Ménage-Zahlen 3 Die Rencontres-Zahlen 4 Die Partitionszahlen 5 Die Catalan-Zahlen 6 Die Bell-Zahlen 7 Die Stirling-Zahlen zweiter Art 8 Die Stirling-Zahlen erster Art 9 Die Gauß-Koeffizienten
338 338 341 344 350 350 353 353 354 356 358 359 363 365
Nachwort
369
Literaturverzeichnis
371
Index
395
I Das kleine Einmaleins der Kombinatorik
In diesem einführenden Kapitel wollen wir einige elementare Aussagen und Prinzipien der klassischen Kombinatorik kennenlernen. Nach einem kurzen Rückblick auf die wichtigsten Begriffe der Mengenlehre (der auch dazu dient, die von uns verwendete Notation festzulegen) stellen wir drei grundlegende Abzählprinzipien vor und leiten dann die einfachsten Anzahlaussagen für endliche Mengen her; danach betrachten wir mit dem Inklusions-Exklusions-Prinzip ein etwas schwierigeres Abzählverfahren, das von fundamentaler Bedeutung ist. Hier können wir dann bereits etliche anspruchsvollere Anwendungen behandeln.
1
Mengen
Die Kombinatorik beschäftigt sich Uberwiegend mit endlichen Mengen. Das Unendliche kommt aber sogleich ebenfalls in die Kombinatorik hinein, weil sie Sätze zu beweisen sucht, die für Mengen ohne Beschränkung der Mächtigkeit (also der Anzahl ihrer Elemente) gelten. Ferner bedient sich die Kombinatorik manchmal analytischer, topologischer oder stochastischer Methoden, wodurch sie es mit den reellen und den komplexen Zahlen oder auch mit topologischen Räumen zu tun bekommt; dieser Fall tritt besonders dann ein, wenn man sogenannte asymptotische Aussagen beweisen will. Schließlich lassen sich manche Fragestellungen und Ergebnisse der Kombinatorik von endlichen auf unendliche Mengen übertragen. In diesem Buch steht die Kombinatorik der endlichen Mengen im Vordergrund. Wo dieser Rahmen überschritten wird, werden wir die benötigten Hilfsmittel per Zitat ausdrücklich, aber ohne Beweis bereitstellen. Aber auch beim Umgang mit endlichen Mengen werden wir uns Resultate aus anderen Gebieten der Mathematik, insbesondere aus der Linearen Algebra, der Algebra der endlichen Körper und der Theorie der endlichen Gruppen - wieder per Zitat ohne Beweis - zu Nutze machen. Wir setzen voraus, daß der Leser über gewisse Grundkenntnisse aus der naiven Mengenlehre, d. h. über Mengen und Abbildungen, verfügt. Es geht also nur noch darum, an gewisse Begriffsbildungen aus dieser Theorie zu erinnern und Bezeichnungen festzulegen. Die gesamte Kombinatorik ist, wie praktisch jeder Zwei g der Mathematik, mit Hilfe der Begriffe „Menge" und „Abbildung" formulierbar. Die weiteren Abschnitte dieses Kapitels haben auch den Zweck, dies an einfa-
2
I
Das kleine Einmaleins der Kombinatorik
chen Beispielen zu demonstrieren; dadurch soll insbesondere klar werden, daß zum Verständnis der Kombinatorik kein kombinatorischer Sonderverstand erforderlich ist. Dennoch werden wir später die konsequente Formulierung kombinatorischer Aussagen rein mit Hilfe der Begriffe „Menge" und „Abbildung" oft nicht voll durchführen, nämlich dann, wenn eine andere-beispielsweise verbale-Ausdrucksvveise nach unserer Meinung besser geeignet ist, das Gemeinte klarzumachen. Von einem gewissen Stadium der Beschäftigung mit der Kombinatorik an sollte der Leser im Stande sein, mengentheoretisehen Klartext selbstständig herzustellen, falls er dies wünscht. Folgende Mengen werden uns besonders beschäftigen: Ν = {1, 2, 3 , . . . } = die Menge der natürlichen Zahlen; Ζ = { 0 , 1 , - 1 , 2 , - 2 , . . . } = {.. . , - 1 , 0 , 1 , . . . } = die Menge der ganzen Zahlen; Z + = {0, 1, 2, . . . } = {m I m e Ζ, m > 0} = Ν U {0} = die Menge der ganzen Zahlen ab 0. Das Rechnen mit Kongruenzen (mod m.) in Ν und Ζ wird als bekannt vorausgesetzt. Ferner benötigen wir immer wieder:
die Menge (auch: der Körper) der rationalen Zahlen (womit wir eigentlich Äquivalenzklassen von Brüchen meinen, die Klassenbildung aber meist nicht explizit benützen); M = die Menge (auch: der Körper) der reellen Zahlen; C = die Menge (auch: der Körper) der komplexen Zahlen; GF(q)
= der endliche Körper mit q Elementen (wobei q eine Primzahlpotenz ist, vgl. §111.3).
Mengen mit genau r ( e Z + ) Elementen heißen auch r-elementige Mengen oder r-Mengen. Die leere Menge 0 ist die einzige 0-Menge. Ist M eine Menge und r e Z + , so bezeichnet die Menge aller Teilmengen von M einschließlich der leeren Menge 0; die Menge der r-elementigen Teilmengen von M .
1.1
Mengen
3
Man nennt 2M auch die Potenzmenge
von M. In der älteren Literatur findet man statt
der hier verwendeten Bezeichnungen meist die Symbole ¿P(M)
bzw. ¡Ρ,ΛΜ).
Aus
dem Zusammenhang sollte stets klar sein, ob wir mit 2 M gerade die Potenzmenge einer M e n g e oder aber eine Zahl meinen. D i e Mengenverknüpfungen U, Π und Symbole w i e U } = i ^ / > Uve/
vverden
Htli^k,
als bekannt vorausgesetzt. Sind Ν und M Mengen, so nennt
man Μ \ Ν = {χ I χ e Μ,
χ
Ν} die Differenz
von M und Ν
(in dieser Reihenfolge); Μ Δ Ν = {M \ Ν) U {Ν \ Μ) = {M U Ν) \ {Μ Π Ν) die symmetrische
Differenz
von M und Ν.
Eine M e n g e von M e n g e n wird auch als ein Mengensystem
bezeichnet. Eine A b -
bildung einer nichtleeren M e n g e I in eine M e n g e wird auch eine Familie I heißt dann die Indexmenge
genannt.
der Familie. Ist x¡ das Bild von i e I unter dieser
Abbildung, so schreibt man die Familie als (x¡ )¡e/ · Bei speziellen I verwendet man auch andere Schreib- und Sprechweisen: (x j)¡£{1.2} (yk)ke{l,...,ni (zi)iez+
= (JCI, xi)
(geordnetes)
= ( > ' 1 , . . . , }>n)
n-Tupel,
= (zo, ZI , · · · ) = Z0Z1 · · ·
Paar
n-Vektor
Folge
(jm)meZ = ( · · · , " - 1 , « 0 , « 1 , · · · ) =
... U-iUQiii
...
Folge
und dergleichen mehr. Dies alles gilt insbesondere bei Mengenfamilien,
d. h. A b -
bildungen einer Indexmenge in eine M e n g e von Mengen. Ist M eine nichtleere M e n g e von Mengen, so bezeichnet ^J
M
M u n d
Dann gilt U(η) = |iV \ U?=i
na
°h
Siebformel ergibt sich
2η υ(η) = Σ(-Ό''
Σ
Ι Ο " seS
ι=0
Wir denken uns die Zahlen 1 , . . . , 2η im Kreise angeordnet. Dann haben für je zwei Nachbarn i, k die Mengen N¡ und Λ'/,- einen leeren Durchschnitt. Unter mehr als η der i befinden sich aber immer zwei Nachbarn, weswegen der Durchschnitt von mehr als η der Mengen N¡ stets leer ist. Also dürfen wir die Siebformel so fortsetzen: η υ(η) = Σ ( - \ ) 1 Σ ' ΙΓΚ'' i= 0 seS wobei Y^ bedeutet, daß nur Uber solche S summiert wird, bei denen keine zwei Nachbarn in der Kreisanordnung auftreten. Nach Lemma 3.9 gibt es (für gegebenes i) genau ¿ ^ j f T O s o l c h e s e ( {1 "·.' 2 " 1 ). Für jedes derartige S besteht Π,· 6 5 aus allen σ, bei denen i Plazierungen von Herren vorgeschrieben sind; die anderen η — i Herren dürfen sich setzen, wie sie wollen, wofür es {n — i)\ Möglichkeiten gibt. Also ist
Σ wie behauptet.
"
¡ 2η
Í2 η — i\ i
)
{ η
~
ΐ ) 1
•
Die bemerkenswerte Formel im Satz 3.10 stammt vonTouchard [1934J, der hier angegebene Beweis von Kaplansky [1943J. Mehr Uber die interessante Geschichte des Problème des ménages und verwandte Fragestellungen findet man bei Dutka [1986J. Ein ähnliches, aber wesentlich einfacheres Problem ist das sogenannte Problème des rencontres, das nach der Anzahl e¡ (η) der Permutationen in Sn fragt, die genau i Fixpunkte ( = rencontres) haben. Hier führt eine einfache Anwendung des Inklusions-Exklusions-Prinzips schnell zum Ziel; eine andere Lösung findet man in Korollar XIII.2.7.
20
I
Das kleine Einmaleins der Kombinatorik
Übung 3.11. Man beweise die Formel
(3.9)
e ¡ (
„)=
L J _ k=0 E
und folgere daraus, daß die Anzahl Dn = eo(n) der fixpunktfreien Permutationen („dérangements") asymptotisch etwa 1 / e ist, nämlich D„ — n\
(3.10)
1 -. e
Wenn man also beispielsweise alle Kleidungsstücke in einer nicht allzu kleinen Garderobe zufällig umordnet, wird mit Wahrscheinlichkeit > | niemand mehr seinen eigenen Mantel zurückerhalten!
3.4
Permanenten
Bekanntlich hat man sich bei der Bildung von Determinanten mit dem Vorzeichen von Permutationen zu plagen. Schafft man diese Plage ab, indem man die Vorzeichen wegläßt, so gelangt man zum Begriff der Permanenten,1 Der Anschaulichkeit halber werden wir hier stets von Permanenten reellwertiger Matrizen reden, auch wenn man allgemeiner Matrizen Uber einem beliebigen kommutativen Ring R betrachten könnte. Definition 3.12. Seien m, η e Ν, m s η und 1 die Menge aller Injektionen von { 1 , . . . , m) in { 1 , . . . , ri). 1st
eine (m χ n)-Matrix mit Einträgen aus M, so nennt man per(A) = ^ a i r ( i ) · . . a m x ( m ) τεί die Permanente der Matrix A. 1
D a f ü r handelt m a n sieh allerdings ein viel schlimmeres Problem ein, da Permanenten sehr viel schwerer zu berechnen sind; hier liegt ein sogenanntes NP-vollständiges Problem vor, vgl. Garey und Johnson 119791.
1.3
21
Das Inklusions-Exklusions-Prinzip
Übung 3.13. Man berechne die Determinanten und Permanenten folgender Matrizen: (2
l) ' (l
l ) ' (2
l)(l
l ) = (3
3y
Man beachte, daß sich also die Produktformel für Determinanten nicht auf Permanenten überträgt. Satz 3.14. Matrix aller Matrix
Seien
über a jk mitk
m, η e
M. Für jedes
Ν,
m < η, und
R ç
e R entstehende
Β = (b¡k)/=i,....m,
A = (a¡k)
{ 1 , . . . , η} bedeute (m χ n)-Matrix.
k=l,...,n
mit S(B)
k=ï....,n AR
die aus
Wir bezeichnen
das Produkt
m
eine
χ
(m
A durch
«)-
Nullsetzen
für jede
(m χ
n)-
von
B:
der Zeilensummen
η
7 = 1 k= 1
Dann
gilt ί η - m ) - i
Σ^ S ( A
Ä
+ W )
\R\=n-m.
'
-r-^ Σ
S
(AR)
|Ä|=n—m+1
± · + — n" gilt und Gleichheit nur für Λη. , . ηΛ A = 1 1 V \ η · · · η'/ eintritt. Diese Vermutung war Jahrzehnte lang offen und wurde schließlich von Egorychev Γ198 Π und Falikman [19811 bewiesen. Etwas vereinfachte Darstellungen dieses wichtigen Satzes findet man in Kap. 12 des schönen Buches von van Lint und Wilson [20011 sowie bei Mine [1988], der auch eine immer noch lesenswerte Monographie über Permanenten geschrieben hat, siehe Mine Γ1978].
II Der Heiratssatz und seine Verwandten
In diesem Kapitel beschäftigen wir uns mit einer Gruppe von Resultaten, die eine zentrale Rolle in der Kombinatorik einnehmen und - obwohl sie sich mit recht unterschiedlich wirkenden Themen befassen - in dem Sinne äquivalent sind, daß man jeden dieser Sätze ohne allzu großen Aufwand aus jedem der anderen herleiten kann. Häufig bezeichnet man diesen Themenkomplex als Transversaltheorie, zumindest dann, wenn man ihn mit dem sogenannten Heiratssatz angeht, wie wir es hier tun werden; eine wesentlich ausführlichere Darstellung der Transversaltheorie findet sich in dem als klassisch einzustufenden Buch von Mirsky [1971a]. Alternativ zu dem hier und bei Mirsky verfolgten Ansatz kann man die Transversaltheorie auch aus der Theorie der Netzwerkflüsse aufbauen, was zumindest vom algorithmischen Standpunkt gesehen (wenn man also die von uns diskutierten Objekte konkret und effizient bestimmen möchte) beachtliche Vorteile hat; dieser Aufbau ist vom zweiten Verfasser in einem Übersichtsartikel (siehe Jungnickel [1986J) skizziert und in seiner Monographie Uber Graphen, Netzwerke und Algorithmen (siehe Jungnickel [1994]) näher ausgeführt worden.
1
Der Heiratssatz
Der 1935 von Philip Hall bewiesene Heiratssatz ist ein Satz Uber gewisse injektive Zuordnungen, die man als Verheiratungen interpretieren kann; im selben Jahr bewies Maak [1935] einen gleich starken Satz. Später stellte sich heraus, daß der Heiratssatz implizit bereits in einem beinahe zwanzig Jahre früher bewiesenen Ergebnis von König [19161 enthalten war. Die Bezeichnung „Heiratssatz" und die entsprechende Interpretation stammen von Weyl Γ19491, der von uns wiedergegebene Beweis von Haimos und Vaughan [1950J (vgl. auch Maak [1950J). Beim Heiratssatz hat man es mit folgender Situation zu tun. Gegeben sind zwei endliche Mengen D (die Menge der „Damen") und Η (die Menge der „Herren"). Ist jedem d e D eine Teilmenge F(d) von Η zugeordnet, so sagt man, es sei ein Befreundungssystem F gegeben; man interpretiert F(d) als Menge der Freunde der Dame d. Mathematisch ist ein Befreundungssystem nichts weiter als eine Abbildung / : D 2h, also eine Mengenfamilie. Injektive Abbildungen h: D -> H werden in unserem Kontext auch Heiraten genannt (in der Literatur meist als
24
II
Der Heiratssatz und seine Verwandten
Repräsentantensysteme bezeichnet): Man stellt sich vor, daß die D a m e d den Herrn h(d) heiratet; die Injektivität ist dann als M o n o g a m i e zu interpretieren. M a n sagt, die Heirat h: D H sei mit dem Befreundungssystem f : D 2H verträglich, wenn j e d e D a m e einen ihrer Freunde heiratet, wenn also stets h (d) e F(d) gilt. Man sagt weiter, die B e f r e u n d u n g F erfülle die Bedingung (P) („Party-Bedingung", in der Literatur meist als Hallsche Bedingung bezeichnet), wenn auf keiner von einigen D a m e n mit allen ihren Freunden veranstalteten Party Herrenmangel herrscht, d. h. wenn
de D0 gilt. Es gilt nun der folgende Satz von Philip Hall [1935J: Satz 1.1 (Heiratssatz). Seien D, H endliche Mengen. Dann sind für jedes dungssystem f : D 2h die beiden folgenden Aussagen äquivalent: 1.
Es gibt mindestens
eine mit F verträgliche
2.
Es gilt die Bedingung
Befreun-
Heirat.
(P).
Beweis. 1. =>• 2. Sei h eine mit f : D -> 2H verträgliche Heirat. Dann folgt f ü r j e d e s Do ç D U D(d) J e D0
>
( J {h(d)} J e D0
= |A)I;
das Gleichheitszeichen folgt dabei aus der Injektivität von h, und das > aus der Verträglichkeit von h mit F. A l s o gilt die Bedingung (P). 2. =>· 1. Wir f ü h r e n den Beweis durch Induktion nach der Anzahl \D\ der D a m e n . Für \D\ = 1, etwa D = {d}, ist \F(d)\ > \d\ = 1 laut Bedingung (P), also kann man durch Wahl eines beliebigen ζ e F(d) und die Festsetzung h(d) = ζ eine mit F verträgliche Heirat h definieren. Sei nun | D | > 2 , und die Implikation „2. =>• 1." sei bereits in allen Fällen mit weniger als |£)| D a m e n bewiesen. Ferner sei F ein die Bedingung (P) erfüllendes Befreundungssystem. Fall I. Die Bedingung (P) ist in folgenden Sinne übererfüllt:
(*)
( J F(d) > |A)I + 1 für alle D0 ç D mit D0 φ 0, D. de Do
Dann wählen wir do e D beliebig und wählen irgendein ho e F (do). Das geht wegen |F(do)l > 2 (einem Spezialfall von (*)) sogar auf mindestens zwei Arten. Wir stellen uns vor, wir hätten D a m e do mit Herrn ho bereits verheiratet und stünden
TT. 1
25
D e r Heiratssatz
nun vor der Aufgabe, die verbliebenen Damen mit Freunden Φ ho zu verheiraten. Hierzu wenden wir die Induktionsannahme auf D' = Do \ {do}, Η' = Η \ {ho}, F'(d) = F(d) Π H' an. Das geht, weil das Befreundungssystem F ' : D' tatsächlich die Bedingung (P) erfüllt: Für D'0 ç D' mit D'0 Φ 0 gilt nach (*) U deD'
F
' ( d ) \ = |[
\{hoì
U deD'
> I U deD'0
Fid)
-
1
|Dnl "ι +- 1 — 1 = ÌD'r,' ^> i^oi i^oi· H ' . Durch
Also gibt es eine mit F' verträgliche Heirat h' : D'
h(d)
ho
für d = do
h'(d)
für d φ do
= t
entsteht nun eine mit F verträgliche Heirat h : D —• H. Fall II. Es gibt ein D0 Q D mit D0 φ 0, D und I (J
F{d) I = I -Do I -
de D0
Natürlich können wir wegen |Ζ>ο| < \D\ die Induktionsannahme auf Do, Ho = UdeDo und die Einschränkung /'o von F auf Do anwenden, denn die Bedingung (P) ist für Fo erfüllt, weil sie für F gilt. Wir erhalten eine mit Fo verträgliche Heirat ho: Do Ho. Nun bilden wir Di = D \ Do, H\ = H \ Ho sowie Fi (d) = F(d)\Hofür d e D i . Wir können wegen |Z>i| < | D | auch hier die Induktionsannahme anwenden, wenn es uns gelingt, auch für Fi die Bedingung (P) nachzuweisen. Angenommen, (P) ist für Fi nicht erfüllt. Dann gibt es ein D2 ç D\ mit D2 φ 0 und | \JdeD2 Fi(d)\ < \D2\. Dann aber bilden wir D* = D0 U D2 und finden I U
Fid) I = I U
deD*
Fid)
U (J
de Do
=
Fid)
deD2
Ho U [ ( J
Fid) \ Ho
deD2
=
Ho u ( J [Fid) \ Ho] deD2
= l#ol + |
U deD2
< IÖ0I + IÖ2I = |£>Ί
26
II
d. h. die Bedingung ( P ) wäre für F:
D e r Heiratssatz und seine Verwandten
2H verletzt, ein Widerspruch. Also
D
funktioniert unser Plan, und es ergibt sich eine mit F\: D\ Heirat h \ : D\
2Hl
verträgliche
H\. Durch f ü r d e DQ
ho(d) h(d)
=
fürd e
Jii(d)
ist dann eine mit F verträgliche Heirat h: D
Dι
H gegeben.
•
Übung 1.2. Man verschärfe den Heiratssatz wie folgt: Gilt für ein Befreundungssystem F : D
2H die Party-Bedingung ( P ) sowie |F(r>0
für alle d e D,
so gibt es (1)
im Falle r < |D| mindestens r!
(2)
im Falle r > |D| mindestens r!/(r — |ö|)!
verschiedene mit F verträgliche Heiraten. Übung 1.3 (Haremssatz, Haimos und Vaughan [19501). Man beweise: Sei F : D
2h
ein Befreundungssystem mit I (J
(ηΡ)
F{d)
>n\D0\
für alle D 0 ç D .
de Do
Dann gibt es mindestens eine Abbildung/!: D (1)
άφά'
(2)
\h(d)\
(3)
h(d)
= > =
η
h(d)
nh(d')
=
2H mit folgenden Eigenschaften:
0;
für alle d e D\
ç F(d)
für alle d e D.
Hinweis: Man ver-w-fache jede Dame. Übung 1.4 (Miller [19101). Man zeige: Ist G eine endliche Gruppe und U eine Untergruppe von G, so besitzen die linken und rechten Nebenklassen von G nach U ein gemeinsames Repräsentantensystem. Hinweis: Man interpretiere die linken Nebenklassen als „Damen", die rechten als „Herren" und spreche von Freundschaft, wenn Dame und Herr sich schneiden.
II.2
Zum Heiratssatz verwandte Sätze
27
Ü b u n g 1.5 (van der Waerden [1927b]). Sei Ω eine nichtleere, nicht notwendig endliche Menge. Ferner sei Τ ç 2 Ω so beschaffen, daß es U\,... ,Un e Τ mit Ω = Uι U · · - U ΙΙ η gibt (man denke etwa an offene Überdeckungen eines Kompaktums). Man setze Ν = min{« I es gibt U\,...,Un
e Τ mit U\ U · · · U Un = Ω}
und nenne U ç Τ minimal, wenn Ut/e'U U = Ω und \U\ = Ν gilt. M a n zeige: Sind U, y ç Τ minimal, so gibt es Durchzählungen U = {U\,..., U^}, V = {Vi,..., VN} mit U\ Π Vi φ 0 , . . . , uN η VN Φ 0. Hinweis: Man nenne U e U und V e V befreundet, wenn U Π V φ 0 ist. Ü b u n g 1.6 (König [19161). Sei M = {m ¡u) ¡,k=\,...,« eine reellwertige Matrix mit nichtnegativen Einträgen sowie Zeilen- und Spaltensummen 1, also: η
η
^^mjk = 1= k=1 i=l
f ü r j,¡
Bekanntlich heißt M dann eine doppelt-stochastische stenz einer Permutation r e Sn mit m
.i^(j)>
die Zellen (1, r ( l ) ) , . . . , (η, τ(η))
0
= 1, ...
,n\
Matrix.
M a n zeige die Exi-
f ü r j = 1 , . . . , w;
bilden also eine positive
Diagonale
f ü r M.
Hinweis: Man setze D = {1 , . . . , « } = H, nenne j und k befreundet, falls m ¡k > 0 ist, und wende den Heiratssatz auf diese Situation an. Mit Hilfe des obigen Ergebnisses beweist man dann leicht den bekannten Satz von Birkhoff [1946J, daß die Permutationsmatrizen (also die quadratischen M a trizen mit Einträgen 0 und 1, die in j e d e r Zeile und Spalte genau einen Eintrag 1 enthalten) die Extremalpunkte der (konvexen) M e n g e der doppeltstochastisehen Matrizen sind. Insbesondere erhält man noch das folgende wichtige Ergebnis: Korollar 1.7 ( L e m m a von König). A sei eine quadratische Matrix mit Einträgen® und i,fiir die alle Zeilen- und Spaltensummen gleich k sind. Dann ist A die Summe von k Permutationsmatrizen. •
2
Zum Heiratssatz verwandte Sätze
Der Heiratssatz ist ein tiefes und reizvolles mathematisches Resultat. Es ist aber zugleich - wie bereits einleitend erwähnt - nur eine von mehreren Varianten eines
28
II
Der Heiratssatz und seine Verwandten
Grundgedankens, der die heute Transversaltheorie genannte umfassendere mathematische Theorie beherrscht: Unter gewissen Bedingungen lassen sich zwei Gegensätze vereinen (vgl. Harper und Rota [1971J sowie die Monographie von Mirsky [1971 al). In diesem Abschnitt wollen wir einen Teil der weiteren Varianten dieses Gedankens kennenlernen, nämlich die Sätze von König [19161 und Dilworth [1950J. Wir zeigen zunächst, daß der Heiratssatz, der Satz von König und der Satz von Dilworth äquivalente Aussagen sind, indem wir jeden dieser Sätze aus den jeweils anderen beiden Sätzen herleiten. Im nächsten Abschnitt beweisen wir dann das Schnitt-Fluß-Theorem von Ford und Fulkerson [1956J und leiten den Heiratssatz auch aus diesem Satz her. Schließlich beweisen wir noch mit dem Satz von M e n g e r [ 19271 eines der bekanntesten Resultate der Graphentheorie. Aus innermathematischen Gründen wäre es überdies von Interesse, den Heiratssatz auf unendliche M e n g e n von D a m e n und Herren auszudehnen; wir wollen aber hier darauf verzichten und verweisen den interessierten Leser beispielsweise auf Mirsky [1971aJ.
2.1
Die Sätze von König und Dilworth
Der erste Satz, den wir zum Heiratssatz in Beziehung setzen wollen, ist ein graphentheoretischer Satz von König [1916J. Der ungarische Mathematiker Denes König (1884—1944) hat 1936 die erste Monographie über Graphentheorie publiziert. Wir werden zeigen, daß sein Satz zum Heiratssatz äquivalent ist; wenn man so will, hat also König 1916 bereits ein Äquivalent des erst 1935 von Philip Hall bewiesenen Heiratssatzes zutage gefördert. U m den Satz von König zu formulieren, stellen wir zunächst das benötigte M i n i m u m an Begriffen aus der Graphentheorie zusammen. Ein Graph G ist ein Paar G = ( V , E) aus einer (bei uns stets endlichen) nichtleeren M e n g e V und einer M e n g e E ç ( γ ) . Die Elemente von V heißen Punkte (oder auch Knoten bzw. Ecke), die von E KantenFür eine Kante e = {a, b} heißen a und b die Endpunkte von e \ m a n sagt, daß a und b mit e Inzident sowie daß a und b adjazent sind; wir schreiben auch kurz e = ab oder a — b. In diesem Unterabschnitt betrachten wir nur eine spezielle Klasse von Graphen, die bipartiten Graphen. Diese zeichnen sich dadurch aus, daß es eine Zerlegung der Punktemenge V = S Ù Τ gibt, f ü r die alle Kanten einen Endpunkt in S und den anderen Endpunkt in Τ haben; es verlaufen also keinerlei Kanten innerhalb von S bzw. T. Wir schreiben bipartite Graphen kurz in der Form G = (S U Τ, E). Wir benötigen noch zwei weitere Begriffe. Eine überdeckende Punktemenge eines Graphen G = ( V , E) ist eine Teilmenge W von V, f ü r die j e d e Kante von 1 Die Wahl der Symbole V und E erklärt sich aus den entsprechenden englischen Bezeichnungen für Punkte und Kanten, nämlich „vertex" bzw. „edge".
II.2
Zum Heiratssatz verwandte Sätze
29
G mit mindestens einem Punkt in W inzident ist; die minimale Mächtigkeit einer überdeckenden Punktemenge von G wird mit ß(G) bezeichnet. Ein Matching2 in G ist eine Teilmenge M ç E. für die keine zwei Kanten in M einen gemeinsamen Endpunkt haben; die maximale Mächtigkeit eines Matchings wird mit a'(G) bezeichnet. Matchings mit dieser Mächtigkeit nennt man maximale Matchings. Der Satz von König [1916J lautet nun Satz 2.1 (Satz von König). Sei G = (S U Τ, E) ein bipartiter Graph. Dann ist die maximale Mächtigkeit eines Matchings von G gleich der minimalen Mächtigkeit einer überdeckenden Punktemenge: (2.1)
a'(G) =
ß{G).
Ein weiterer Satz, der sich als äquivalent zum Heiratssatz erweisen wird, wurde 1950 von R. P. Dilworth publiziert; es handelt sich hierbei um eine Aussage über partiell geordnete Mengen. Wir erinnern kurz an einige Grundbegriffe aus der Theorie der partiellen Ordnungen. Sei X eine nichtleere Menge. Teilmengen R von Χ χ X heißen bekanntlich auch Relationen in X. Wir wollen hier statt R auch < und statt (x, v) e R auch χ < y schreiben. Eine Relation · χ < x\
(b)
< ist antisymmetrisch:
(c)
< ist transitiv:
x, y e Χ, χ < y, y < χ =>• x = y\
χ, y, ζ. e Χ, χ < y, y < ζ. =>• χ ^ ζ.
Bekannte Beispiele sind - neben der gewöhnlichen Kleinergleich-Relation < etwa auf den reellen Zahlen - beispielsweise die Teilmengenbeziehung ç auf der Potenzmenge einer Menge oder auch die Teilerrelation | auf N. Ist -< eine partielle Ordnung auf der Menge X, so heißt das Paar (X, α , ein Widerspruch.
2)
Α Π A = Α. Denn hat ein λ; e X sowohl eine Minorante a als auch eine Majorante è in A, so ist α < χ 2 sein muß. Wir wollen nun zeigen, daß man r stets noch verkleinern kann, wenn man eine Ersetzung der Wege W\,..., Wn durch andere paarweise punktedisj unkte Wege W[..... W'n in Kauf nimmt, weswegen man schließlich einen Widerspruch zur Tatsache r > 2 erhält. Die Minimalität von r sorgt zunächst für I{bQ) Π I(ba) = 0 für Q < σ; denn wäre ~p e I(bQ) Π I(ba), so könnte man einen neuen Bogen bauen, der aus bQ bis ~p und ba ab ~p besteht (es ist klar, was hier mit „bis" und „ab" gemeint ist) und so die Brückenlänge r um mindestens 1 herabsetzen. Wir betrachten nun die Endpunkte e\ = ρ und f \ von b\ sowie und f i von ¿>2- Dabei liege f\ etwa auf W¡. o also ebenfalls, und zwar nicht später als f \ . Liegt f i auch auf W\, so können wir annehmen, daß f i hinter f \ kommt, weil man sonst r durch Weglassen von verkleinern könnte. Es kann aber auch f i auf einem W^ mit k Φ l liegen. Ferner gibt es auf W¡ zwischen ρ und f\ keinen Anfangs- oder Endpunkt eines der Bogen bs,..., br, da man sonst wieder q mit einer Brücke der Länge < r erreichen könnte. Wir bilden nun W[, indem wir auf b\ bis f\ und dann auf W\ bis q laufen; für / = 2,... ,n setzen wir W'¡ = W¡. Dann gilt I(W·) Π I{W[) = 0 für i Φ 1. Schließlich bilden wir b'2, indem wir von ρ auf W[ bis ei und dann auf bi bis f i laufen. Offenbar ist nun b'2, ¿3, ..., br eine Brücke für W[,..., W'n, über welche q erreichbar ist; sie hat aber nur die Länge r — 1. Damit ist alles bewiesen. •
Bemerkung 2.9. Der Satz von König folgt leicht aus dem von Menger. Sei also ein bipartiter Graph G = (S U Τ, E) gegeben. Wir fügen zu G zwei neue Punkte ρ und q sowie alle Kanten p s mit s € S und alle Kanten tq mit ί e Γ hinzu; der so entstehende Graph sei mit Η bezeichnet. Dann entsprechen maximale Matchings in G offenbar maximalen Systemen paarweise punktedisjunkter Wege von ρ nach q in Η ; andererseits ist eine G überdeckende Punktemenge klarerweise dasselbe wie eine ρ und q trennende Punktemenge in Η.
42
II
Der Heiratssatz und seine Verwandten
Als nächstes beweisen wir ein Analogon von Satz 2.8 f ü r Kanten statt Punkte. Seien wieder p,q zwei verschiedene Punkte eines Graphen G = ( V , E). Eine M e n g e S ç E heißt eine ρ und q trennende Kantenmenge, wenn j e d e r ρ und q verbindende Weg W mindestens eine Kante in S enthält. Ferner heißen zwei ρ und q verbindende Wege kantendisjunkt, wenn sie keine Kante gemeinsam haben. Satz 2.10 (Satz von Menger, Kantenversion). Seien p, q zwei verschiedene Punkte eines Graphen G = (V, E). Dann ist die Maximalzahl von ρ und q verbindenden, paarweise kantendisjunkten Wegen gleich der minimalen Mächtigkeit einer ρ und q trennenden Kantenmenge. Beweis. Wir führen die Behauptung auf Satz 2.8 zurück, indem wir aus G einen neuen Graphen H auf der Punktemenge {/;, q \ U E konstruieren. Kanten von H seien alle Paare {p, ej, f ü r die e e E mit ρ inzident ist; alle Paare {q, ej, f ü r die e e E mit q inzident ist; und alle Paare {e, e'}, f ü r die e, e' e E einen gemeinsamen Endpunkt haben. M a n sieht unmittelbar, daß dann kantendisjunkte Wege von ρ nach q bzw. ρ und q trennende Kantenmengen in G punktedisj unkten Wegen bzw. trennenden Punktemengen in H entsprechen. • Ü b u n g 2.11. S und Τ seien zwei disjunkte Teilmengen der Punktemenge V eines G r a p h e n G = (V, E). Eine S u n d T trennende Punktemenge isteine M e n g e X ç V, f ü r die jeder Weg von einem Punkt in S zu einem Punkt in Τ einen Punkt in X enthalten muß. M a n zeige, daß die minimale Mächtigkeit einer derartigen M e n g e gleich der Maximalzahl von Wegen von S nach Τ ist, f ü r die keine zwei dieser Wege einen Punkt gemeinsam haben (auch nicht einen der Endpunkte!). Der Satz von M e n g e r legt die folgende Definition der Zusammenhangszahl eines Graphen G = ( V , E) nahe: Falls G ein vollständiger Graph ist (wenn also j e zwei Punkte in G adjazent sind), sei K(G) = | V| — 1; anderenfalls sei K(G) als die minimale Mächtigkeit einer Punktemenge S ç V definiert, f ü r die der induzierte Untergraph G \ S = (V \ S, {ab e E \ a,b e V \ 5}) nicht zusammenhängend ist. G heißt nun k-fach zusammenhängend, K(G) > k gilt. Dann hat man das folgende Resultat von Whitney [1932]:
wenn
Satz 2.12 (Satz von Whitney). Ein Graph G ist genau dann k-fach zusammenhängend, wenn je zwei Punkte von G durch mindestens k punktedisjunkte Wege verbunden sind. Beweis. Wenn j e zwei Punkte von G durch mindestens k punktedisjunkte Wege verbunden sind, ist G offenbar k-fach zusammenhängend. Sei also G umgekehrt
II.3
Das Schnitt-Fluß-Theorem von Ford und Fulkerson
43
/c-f'ach zusammenhängend. Nach dem Satz von M e n g e r sind j e zwei nicht-adjazente Punkte von G durch k punktedisjunkte Wege verbunden. Seien schließlich ρ und q adjazent; dann betrachten wir den Graphen H = G \ pq. M a n überlegt sich leicht, daß H noch mindestens (k — 1 )-fach zusammenhängend ist. Wieder wegen des Satzes von M e n g e r sind ρ und q in Η durch k — 1 punktedisjunkte Wege verbunden, zu denen wir in G die Kante pq als λ'-ten Weg hinzugefiigen können. •
Ü b u n g 2.13. G sei ein A'-fach zusammenhängender Graph und Τ eine M e n g e von k Punkten von G. D a n n gibt es f ü r j e d e n Punkt s G Τ eine M e n g e von k Wegen mit Anfangspunkt .v und Endpunkt in Τ , die paarweise nur den Punkt .v gemeinsam haben.
3
Das Schnitt-Fluß-Theorem von Ford und Fulkerson
In diesem Abschnitt stellen wir ein grundlegendes Resultat aus der kombinatorischen Optimierung vor: das Schnitt-Fluß-Theorem von Ford und Fulkerson 119561. Die wesentlichen in diesem Theorem vorkommenden Begriffe sind - ein Netzwerk mit vorgeschriebenen Fluß-Kapazitäten, - ein Fluß im Netzwerk im R a h m e n der gegebenen Kapazitäten. U m eine rasche Vorstellung von dem zu erhalten, worum es hier geht, sehen wir uns ein spezielles Netzwerk mit an die Kanten ( = Pfeile) geschriebenen Kapazitäten
®
© Ebenso anschaulich stellt sich ein Fluß (von 5 nach t) in diesem Netzwerk dar, bei dem viele Kanten nicht bis an die Grenze ihrer Kapazität ausgelastet sind; der Wert (die Stärke) dieses Flusses beträgt 4.
44
II
Der Heiratssatz und seine Verwandten
Man kann ihn nun leicht auf den Wert 6 anheben:
und die Frage ist, ob im selben Netzwerk und im Rahmen derselben Kapazitäten auch ein Fluß des Wertes 7 oder 8 möglich wäre. Über den Wert 8 kann man offensichtlich nicht hinauskommen, da die aus s hinausführenden Kanten zusammen nur die Kapazität 8 haben. All dies sind natürlich nur intuitive Überlegungen am speziellen anschaulichen Beispiel. Unser Ziel ist die exakte Definition der oben angedeuteten Begriffe und die Gewinnung eines Verfahrens, das uns in endlich vielen, einzeln relativ leichten Schritten zu einem maximalen Fluß führt. Die Aufgabe des exakten Definierens gibt uns die Gelegenheit, den Begriff des gerichteten Graphen einzuführen. Dieser Begriff formalisiert Vorstellungen wie: - einige Punkte, zwischen denen einige Verbindungspfeile gezeichnet sind, - Stadtpläne mit lauter Einbahnstraßen.
3.1
Gerichtete Graphen und Fluß-Netzwerke
Ein gerichteter Graph (oder auch Digraph, kurz für „directed graph") ist ein Paar G = {V, E) aus einer endlichen Menge V und einer Menge E von geordneten Paaren (a, b) mit α φ b aus V? Die Elemente von V heißen wieder Punkte (oder auch Knoten bzw. Ecken), die von E Kanten\zur Unterscheidung vom ungerichteten
II.3
Das Schnitt-Fluß-Theorem von Ford und Fulkerson
45
Fall istauch die Bezeichnung Soge« statt „Kante" üblich. Statte = (a, b) schreiben wir wieder kurz e = ab; a heißt der Anfangspunkt und b der Endpunkt von e; wir schreiben auch e~ für den Anfangspunkt a und e+ für den Endpunkt b von e. Wir sagen, das a und b mit e inzident sind. Zwei Kanten der Form ab und ba heißen antiparallel. Wenn wir einen Digraphen zeichnen wollen, gehen wir wie im ungerichteten Fall vor und deuten die Richtung einer Kante durch einen Pfeil an. Wenn wir jeden Bogen ab von G durch eine (ungerichtete) Kante der Form {a,b} ersetzen, erhalten wir aus G den zugehörigen Graphen |G|. Umgekehrt sei jetzt G = ( V , E) ein Graph. Jeder gerichtete Graph H mit \H\ = G heißt dann eine Orientierung von G. Ersetzt man jede Kante {a,b} e E durch die beiden Bögen (a, b) und (b, a), so erhält man die vollständige Orientierung G von G. Wir können nun die zuvor für Graphen eingeführten Begriffsbildungen auf Digraphen Ubertragen; dabei treten häufig zwei Möglichkeiten auf. Sei also G = ( V , E) ein Digraph. Eine Folge von Kanten (e¡,..., e„) heißt dann ein Weg, wenn die entsprechende Kantenfolge in |G| ein Weg ist. Ähnlich geht man für Kantenzüge, einfache Wege, Kreise und einfache Kreise vor. Wenn (i>o,..., vn) die zugehörige Punktefolge ist, muß also stets i>¿_\v¡ oder >;/'-V-i eine Kante von G sein. Im ersten dieser beiden Fälle spricht man von einer Vorwärtskante, im zweiten Fall von einer Rückwärtskante. Wenn ein Weg nur aus Vorwärtskanten besteht, wird er ein gerichteter Weg genannt; ähnliches gilt wieder für Kantenzüge, Kreise, etc. Im Unterschied zum ungerichteten Fall können jetzt einfache gerichtete Kreise der Länge 2 (also Kreise der Form (ab, ba)) auftreten. Ein Digraph G heißt zusammenhängend, wenn |G| zusammenhängend ist. Auch hier bietet sich noch eine weitere Definition an: Ein Punkt b von G heißt von einem Punkt a aus erreichbar, wenn es einen gerichteten Weg mit Anfangspunkt a und Endpunkt b gibt. Wie üblich lassen wir Wege der Länge 0 zu; jeder Punkt ist also von sich selbst aus erreichbar. G heißt dann stark zusammenhängend, wenn jeder Punkt von jedem anderen Punkt aus erreichbar ist. Allgemein heißt ein Punkt α, von dem aus jeder Punkt erreichbar ist, eine Wurzel von G. Ein Digraph ist also genau dann stark zusammenhängend, wenn jeder Punkt eine Wurzel ist. Man beachte, daß ein zusammenhängender Digraph keineswegs stark zusammenhängend sein muß. In der Flußtheorie untersucht man nun die folgende spezielle Situation: G = (V, E) sei ein Digraph mit einer Abbildung c: E - > M + ; der Wert c(e) heißt dabei die Kapazität der Kante e. Ferner seien q und .v zwei ausgezeichnete Punkte von G, für die 5 von q aus erreichbar ist. Dann nennen wir das Quadrupel Ν = (G,c,q,s) ein Netzwerk (genauer: ein Fluß-Netzwerk) mit Quelle q und Senke s .4 3 Mitunter erlaubt man auch den Fall a = b und spricht dann von einer Schleife. Wenn nichts anderes gesagt ist, sollen bei uns jedoch Schleifen verboten sein. 4 Manche Autoren verlangen zusätzlich, daß es in G keine Kanten mit Endpunkt q bzw. mit Anfangspunkt .s gibt, was für die Resultate, die wir in diesem Buch behandeln werden, unproblematisch
II
46
Der Heiratssatz und seine Verwandten
Ein Fluß auf Ν ist nun eine Abbildung / : Ε - > M, die f ü r jeden Punkt ρ die folgende Flußerhaltungs-Bedingung erfüllt: (Fl)
J2
f(e) = Σ
e+=p
φq,s
("Zufluß nach ρ = Abfluß aus p " ) .
e~=p
Die Zahl ii/ii = Σ
f(e)~
Σ e+=q
e~=q
wird als der Wert (oder die Stärke) des Flusses / bezeichnet. Wenn / f ü r j e d e Kante e die Bedingung (F2)
0 < f(e)
0 sowie γ' + γ" < 1 gelten, so ist auch / zulässig. Offenbar gilt dann ||/1| = γ'|| f'\\ + γ"|| f"\\. Beispiel 3.3. Sei Ν = (G, c, q, s) ein Netzwerk und W ein Weg von q nach s. Dann ist f ü r j e d e Zahl δ e M+ durch
f i e ) :=
δ
falls e eine Vorwärtskante in W ist
—δ
falls e eine Rückwärtskante in W ist
0
sonst
wäre. Andererseits ist es oft eine interessante Fragestellung, die maximalen Flußwerte von q nach s für alle Punktepaare (q, s) in G zu untersuchen (falls G stark zusammenhängend ist), w o f ü r m a n dann die von uns gewählte allgemeinere Definition benötigt. Wir verweisen f ü r dieses T h e m a beispielsweise auf Kapitel 10 in Jungnickel Γ19941.
II.3
47
Das Schnitt-Fluß-Theorem von Ford und Fulkerson
ein Fluß / vom Wert 0. Wir überprüfen (A) und (B) f ü r die neuen Daten (unter Verwendung der entsprechenden Formeln f ü r die alten Daten sowie der Flußerhaltungsbedingung f ü r / ' ) : 2p (Α)
Σ .7 = 1
ρ a a
'i 'iQ = Σ i=\
ρ αί
~ f'Wíhe))
+
~ ϊ —1
Ρ
=
Ρ i iQ - Σ f'(dihe) ¡=1 ¡=1 a Q
= η - 1
1
)/'
60
II
Der Heiratssatz und seine Verwandten
r Σ
η - 1 (α/ρ
- f'(djhe))
r (Β)
U =
Σ
a'h
U...,P)
r Σ
f'(dj-ph
Q
) (j =
p+\,...,2p)
Nach unserer Induktionsannahme gibt es somit zu den neuen („gestrichenen" ) Daten eine Baranyai-Familie {S'· )i=ι 2ρ:ρ=ι,...,ι·, f ü r die also gilt: (a) \B'je\
=a'jQ
f ü r 7 = l, . . . ,2p
(b) Für alle Β e
gilt Β ç
u n d ρ = 1 , . . . , r.
X ' und \B\ = a'j
(für j = 1 , . . . , 2 p und
ρ = ] , . . . ,r).
) 0 e ' n e disjunkte Zerlegung von X'.
(c) Für jedes ρ e {1, . . . , r} ist (d)U
ρ = , ^
= φ
für./
I
2P.
Diese Baranyai-Familie benützen wir nun, um f ü r η eine Baranyai-Familie mit den Daten n, p,r,a\,... ,ap etc. zu konstruieren. Wir wählen ein xo £ X' und setzen X : = {xo} U X ' , so daß wir | X | = η erhalten. Wir bilden nun SiQ
: = £¡q
W e g e n f'{dihQ)
U {{x 0 } U M\M
e {0, 1}, \S'p+ljρ|
e S'p+itQ}
f ü r i = 1 , . . . , p,
= f\dihQ)
und £ f
= 1
zu j e d e m ρ genau ein ie mit \ ^ ' p + ¡ e Q\ = 1, etwa
ρ = 1 , . . . , r.
f ' W
ρ
Q
) = 1 gibt e s
= {MQ}, wobei
Μρ
Mächtigkeit a ¡ — 1 und somit {xo} U Μ ρ Mächtigkeit a¡ g hat. Wir erhalten: ( a ) \Sie\
= \S'iB\
+ \£'ρ+ίρ\
= aiQ -
f'(dihe)
+ /'(^A?) =
(für i = 1 (b) Jedes Β e \C'\ nachzuweisen, bilden wir die Menge p' =
c)|ísS',ceC',íS
F(c)}.
Da für c e C' stets {s | (s, c) e Ρ'} = F(c) gilt, folgt \P'\ = \C'\(n Andererseits gilt für jedes s e S' \{c\ceC,
(s, C)
E
P'}| = \{c \ c min {ρ}1 - 1 , . . . , p%> - 1}. Beweis. Nach Übung 3.11 bzw. Satz 5.4 gibt es für i = 1 , . . . ,m eine (p'¡1 — 1)elementige orthogonale Menge von lateinischen Quadraten der Ordnung p^' bzw. ein orthogonales (p^ + 1, p*¡' )-Array. Aus jedem dieser orthogonalen Arrays darf man einige Zeilen weglassen und auf diese Weise für k = minfp'^ + l , . . . , p'm +1} orthogonale (k, pV)-Array s ( j = 1 , . . . ,m) herstellen. Nach Korollar 4.2 gibt es dann auch ein orthogonales (k, p\l ... pm!)-Array, also ein orthogonales (k, n)Array, d. h. eine orthogonale Menge von k — 2 = minip'J1 — 1 , . . . , p'm — 1} lateinischen Quadraten. • Aus dem Satz von MacNeish folgern wir sofort: Kommt in der Primfaktorzerlegung η = p'l1 . . . p'm von η der Faktor 2 entweder gar nicht oder mindestens in zweiter Potenz vor, womit also min{p\' — 1 , . . . , pSm} > 2 gilt, so ist N(n) > 2. Es gilt also: Korollar 4.4. Sei η e Ν. Wenn η nicht von der Form η = 4m + 2 ist, gibt es ein Paar orthogonaler lateinischer Quadrate. • Für die Frage nach der Existenz von Paaren orthogonaler lateinischer Quadrate sind somit nur die Ordnungen der Form 4m + 2, d. h. 6, 10, 1 4 , . . . kritisch, weil hier der Satz von MacNeish kein Ergebnis liefert. Im Rest dieses Kapitels wird es also vor allem um diese kritischen Fälle gehen.
74
5
III
Orthogonale lateinische Quadrate
Differenzmatrizen
In diesem Abschnitt stellen wir einige besonders wichtige Konstruktionen vor, die sogenannte „Differenzmethoden" verwenden. Dazu sei im folgenden G stets eine endliche, additiv geschriebene Gruppe; der Einfachheit halber setzen wir G als abelsch voraus, um nicht auf die Additionsreihenfolge achten zu müssen, obwohl sämtliche Konstruktionen auch auf nicht-abelsche Gruppen übertragen werden können. In nahezu allen wichtigen Anwendungen - die man in großer Zahl zusammen mit weiteren Varianten der hier vorgestellten Methoden bei Beth, Jungnickel und Lenz [1999J findet - ist G in der Tat abelsch. Wir beginnen mit einer direkten Konstruktion. Definition 5.1. Sei D = (dn ) (i = I . . . . . /v : j = 1. . . . . n) eine Matrix mit Einträgen aus ei nerabel sehen Gruppe G der Ordnung«, die die folgende Bedingung erfüllt: (5.1)
{dih — djh \ h = 1 , . . . , « } = G
(i, j = \,...,
k, i φ
j),
d. h., jedes Element von G tritt für i φ j genau einmal als Differenz der Form dih — djh auf. Dann heißt D eine (n, k)-Differenzmatrix Uber G. Differenzmatrizen wurden von Bose und Bush [1952J für die Konstruktion orthogonaler lateinischer Quadrate eingeführt; dieser Ansatz ist jedoch zur Konstruktion mittels „Orthomorphismen" einer Gruppe, die bereits von Mann [1942,1943] stammt, äquivalent. Der Term „Differenzmatrix" wurde von Jungnickel [1980J geprägt, der diejenigen Mengen von orthogonalen lateinischen Quadraten, die zu Differenzmatrizen gehören, charakterisiert hat; interessanterweise erfüllt diese Klasse die Eulersche Vermutung, siehe Übung 5.5. Doch zunächst zur Konstruktionsmethode: Satz 5.2. Die Existenz einer (n,k)-Differenzmatrix G impliziert N(n) > k — 1.
D Uber einer abelschen
Beweis. Wir listen die Elemente von G als g\ = 0, g2,..., die (k χ η )-Matrix O wie folgt: O = (D
D + g2
...
D +
Gruppe
gn auf und definieren
gn),
wobei die Matrix D + gh aus D durch Addition von gh zu jedem Eintrag von D hervorgehe. Wir behaupten, daß O ein auflösbares orthogonales (k, η)-Array für die Symbolmenge G ist. Die Auflösbarkeit folgt dabei unmittelbar aus der
III.5
75
Differenzmatrizen
Konstruktion: Da für beliebiges χ die Elemente χ + gì,..., Gruppe G durchlaufen, definieren die Mengen i
h
=
[h,
η + h,
. . . , (η — ì ) n + h)
(h
e
χ + gn die gesamte
{1,
...,
η})
von Spaltenindizes offenbar η Parallelklassen für O. Nun seien also zwei verschiedene Zeilen von O gegeben, etwa die Zeilen i und j . Aufgrund der definierenden Eigenschaft (5.1) einer Differenzmatrix gibt es dann für jedes Symbol g e G genau einen Index h e { 1 , . . . , η] mit d¡h = djh + g• Dann durchlaufen aber die entsprechenden η Paare in der zu i h gehörenden Parallelklasse, nämlich djh +
g
d j h +g djh +
djh
+
gl
djh +
gl
g+gn
djh +
gn
gerade alle η Paare in G χ G der Form ('"' / " ) . Die Behauptung folgt somit aus • Satz 2.S Satz 5.2 gestattet uns nun einen einfachen Beweis des bereits in Übung 3.1 angegebenen Resultates. Zuvor aber noch zwei konkrete Beispiele: iel 5.3. Die Matrix ( 00 00 00 00 00 ^ 00
00 01 03 12 04 10
00 02 10 01 15 12
00 03 01 15 14 02
00 04 13 05 02 11
00 05 15 13 11 01
00 10 02 03 12 13
00 11 12 14 10 15
00 12 05 02 13 04
00 13 04 11 01 14
00 14 11 10 03 05
00 ^ 15 14 04 05 03 )
ist eine (12,6)-Differenzmatrix über der Gruppe G = Z2 Θ Xf,. wobei wir die Elemente von G kurz in der Form xy statt (x, y) geschrieben haben. Das folgt durch einfaches (wenn auch längliches) Nachrechnen. Ebenso ist die Matrix D = ( A - A 0) mit f
A
=
0 1 2 6 10
0 2 5 3 6
0 3 7 14 1
0 4 9 10 11
0 5 12 7 2
0 6 4 13 7
0 ^ 7 1 4 12 )
eine (15,5)-Differenzmatrix über Z15. Diese beiden Beispiele stammen von Johnson, Dulmage und Mendelsohn [1961J bwz. Schellenberg, van Rees und Vanstone Γ19781 und zeigen - mit Satz 5.2 - die folgenden Schranken: (5.2)
iV(12) > 5,
N(\5) > 4 .
76
III
Satz 5.4. Für jede Primzahlpotenz (5.3)
Orthogonale lateinische Quadrate
q gilt N(q) = q - 1.
Beweis. Die Multiplikationstafel D = (dx_z) mit dx%7 = χ • ζ (χ, ζ € GF{q)) des endlichen Körpers Κ = GF(q) ist eine (q, q)-Differenzmatrix über der additiven Gruppe (K, + ) , wie unmittelbar aus der Gültigkeit des Distributivgesetzes folgt: [dx,z - dy,z \ z z K } = {xz-yz\zz
K}) = {(x - y)z \ ζ e Κ}) = Κ
für alle x, y e Κ mit χ Φ y. Die Behauptung ergibt sich somit aus den Sätzen 5.2 und 2.5. • Die folgende Übung ist zu einem Spezialfall eines Ergebnisses von Hall und Paige [1955J äquivalent. In der von uns angegebenen Form findet man sie bei Jungnickel Γ19801. Übung 5.5. Man zeige, daß es keine (η, 3)-Differenzmatrix geben kann, falls η die Form η = 4t + 2 hat. Hinweis: Man schreibe die Gruppe G in der Form G = Z2 Θ Η und betrachte die Verteilung der Elemente (bzw. Differenzen) mit erster Koordinate 0 bzw. 1 in einer hypothetischen (n, 2)-Differenzmatrix D: dabei kann man annehmen, daß die erste Zeile von D nur Einträge 0 hat. Auch die folgende Verallgemeinerung von Definition 5.1, die auf Wilson [1974J zurückgeht, ist sehr nützlich. Sie wird uns eine rekursive Konstruktionsmethode gestatten, die ähnlich wie Satz 5.2 funktioniert. Definition 5.6. Sei D = (d¡¡) (i = 1 , . . . , k·, j = 1 , . . . , η + 2 u ) eine Matrix, deren Einträge entweder aus einer abelschen Gruppe G der Ordnung η stammen oder „leer" sind; leere Einträge werden dabei üblicherweise mit - bezeichnet. Dann heißt D eine («, u; k)-Quasi-Differenzmatrix über G, wenn die beiden folgenden Bedingungen erfüllt sind: (a) Jede Zeile von D enthält genau u leere Einträge, und in jeder Spalte von D gibt es höchstens einen leeren Eintrag. (b) Wenn man Differenzen, bei denen ein leerer Eintrag vorkommt, nicht berücksichtigt, gilt {d¡h - djh I h = 1,...,
η + lu} = G
(i, j = 1,...,
k, i φ
j).
Satz 5.7. Falls es eine (n,u\k)-Quasi-Differenzmatrix D über einer abelschen Gruppe G und ein orthogonales (k, u)-Array gibt, gilt N(n + u) > k — 2.
III.5
Differenzmatrizen
77
Beweis. Zunächst ersetzen wir in jeder Zeile von D die u leeren Einträge so durch u Symbole ω\,... ,œu, die nicht aus G stammen, daß jedes dieser Symbole genau einmal auftritt. Dann gehen wir analog zum Beweis von Satz 5.2 vor: Wir listen die Elemente von G als g\ = 0, gi,..., gn auf und definieren die (k χ n(n + 2M))Matrix M wie folgt: M = (D
D + g2 ...
D +
gn),
wobei die Summe eines Symbols ω, mit einem Gruppenelement g stets wieder &>,- sei. Schließlich fügen wir an M noch die ir Spalten eines OA(k, u) auf der Symbolmenge Ω = {ωι,..., cou} an. Dann ist die so definierte (k χ (η + u)2)Matrix O ein orthogonales (k, η + Η )-Array über der Symbolmenge G U Ω, wie man analog zum Beweis von Satz 5.2 zeigen kann. Die Einzelheiten seien dem Leser als Übung überlassen. • Im Fall u = 1 ist Satz 5.7 natürlich keine rekursive, sondern eine weitere direkte Konstruktionsmethode. Die beiden folgenden Beispiele, die Bose, Shrikhande und Parker [19601 bzw. Todorov [1986] zu verdanken sind, widerlegen - zusammen mit Satz 5.7 - die Eulersche Vermutung in zwei Fällen. Genauer gesagt zeigen sie (5.4)
iV(10)>2,
Λ φ 4 ) > 3.
Beispiel 5.8. Die Matrix
/
0 1 6
\
1 6
0
—
—
6 1
6 1 0
—
0
-
2 5
0
—
0 2 5
—
5 2
5 2 0
—
0
-
—
0 3 4
0 —
4 3
4 3 0
3 4 —
0
-
0 \ 0 0 0 /
ist eine (7,3;4)-Quasi-Differenzmatrix über der Gruppe G = Ζγ; das folgt wieder durch einfaches Nachrechnen. Ebenso ist die Matrix
/
\
—
0 0 0 0
0 —
0 1 3
0 0 —
2 12
0 1 2 —
9
0 3 12 9 -
0 2 10 5 6
0 4 7 3 2
0 5 9 12 7
0 6 5 7 11
0 7 4 11 1
0 8 1 0 5
0 9 11 4 10
0 10 8 6 0
0 11 3 8 4
0 \ 12 6 10 8
)
eine (13,1 ;5)-Quasi-Differenzmatrix über Z13. Zahlreiche weitere Beispiele von (Quasi-)Differenzmatrizen sowie einige weitere Konstruktionen mit Differenzmethoden findet man bei Beth, Jungnickel und Lenz [1999J. Ausführliche Existenzresultate für Differenzmatrizen und orthogonale
78
III
Orthogonale lateinische Quadrate
lateinische Quadrate (bis zur Ordnung 10.000) stehen in den entsprechenden Abschnitten des CRC handbook of combinatorial designs, siehe Colbourn und Dinitz [1996J, einer extensiven und extrem nützlichen Sammlung von Existenzresultaten (meist in tabellarischer Form) in der Design-Theorie.
6
Widerlegung der Eulerschen Vermutung
Für die vollständige Widerlegung der Eulerschen Vermutung wird folgendes Lemma von Dijen Ray-Chaudhuri von entscheidender Bedeutung sein. L e m m a 6.1. Seien k,t,m,u
e Ν und u < t. Es gebe
(a) ein auflösbares orthogonales
(k,
t)-Array,
(b) ein orthogonales
(k,
m)-Array,
(c) ein orthogonales
(k, m + 1 )-Array,
(d) ein orthogonales
(k,
u)-Array.
Dann gibt es auch ein orthogonales
(k, mt +
u)-Array.
Beweis. Sei Κ eine ¿-Menge. Nach Voraussetzung existieren die folgenden orthogonalen Arrays: (a)
Seien |Si| = t, | G i | = t2, sowie 0\ : Κ χ G ì - > Si ein auflösbares OA(k, t). Ferner sei G i = G] U · · · U G\ eine disjunkte Zerlegung von G ì in t Parallelklassen mit IG} I = · · · = \G[ I = t. Wir setzen G\ = G ï + 1 U · · · U G ] , so daß | G j | = (t — u)t gilt.
(b)
Seien |S 2 | = m, | G 2 | = m2 und 02: Κ χ G 2 - > S 2 ein OA(k,
m).
2
(c)
S e i e n | S 3 | = m + \,\G3\ = (m + 1 ) und 03 : KxG3 S3dnOA(k,m+\). Dabei können wir o.B.d.A. S3 = S 2 U {0} mit einem θ g S 2 annehmen, ein Θ' e GS wählen und G'3 = G3 \ {Θ'} setzen sowie schließlich 0 3 ( j , θ') = θ für alle j e Κ annehmen. Als Matrix interpretiert, kann man 03 also so schreiben, daß in der letzten Spalte nur Einträge θ auftreten. Insbesondere gilt \G'3\ = m2 +2m.
(d)
Seien S4 = {θι,..., und O4: Κ χ G Ar
θη} mit paarweise verschiedenen θ\, ..., S4 ein OA(k, u).
9U, IG4I = u2
Bei alledem nehmen wir Si, S3, Si χ S 2 , S4, G ì , G 2 , G3, Gì χ G3, G4 als paarweise disjunkt an. Aus all diesen Daten konstruieren wir nun wie folgt ein OA(k, mt + u)
III.6
79
Widerlegung der Eulerschen Vermutung
mit der Symbolmenge S = (Sι χ S 2 ) U S4; es gilt dann jedenfalls |S| = mt + u. Wir setzen u
G
= ( G ì χ G 2 ) U G 4 U ( J ( G j χ G3). τ=1 2
Das liefert |G| = (t — u)tm
2
2
+ u + ut(m
+ 2m) = (mí + κ) 2 , wie benötigt.
Schließlich setzen wir für j e Κ (OiÜ,/),02(7,A))
für g = (f,h)sG\
O4U, g)
für g e G4
(f,h)e\Jur=l(G]xG'3)
fürg =
0(j, 8) = ΘΤ
xG2
und 03(j,h)
φ θ
für g =
(f,h)eG\xG>3
und 03{j,h)
=θ (τ = Ι , . , . , μ )
Somit ist O eine Abbildung Κ χ G - > S: Es gilt ( 0 i ( j \ g), 0 2 ( j , h)) e Si χ S2, 04(j,g) e 54, ( O , O ' , / ) , 0 3 0 \ A ) ) e Χ S 2 , solange 03(j,h) Φ θ bleibt; schließlich ist stets θτ e 54. Um zu zeigen, daß O ein OA(k, mt + u) ist, müssen wir nun i, j e Κ mit i φ j wählen und überprüfen, daß sämtliche Paare aus S χ S Zustandekommen, wenn man (0(i, g), 0 ( j , g)) für alle g € G bildet. Dazu zerlegen wir S χ S als
S χ S = [(Si χ S 2 ) χ (Si χ S 2 )] U [(Si χ S 2 ) χ S 4 ] U [S 4 χ (Si χ S 2 )] U [S 4 χ S 4 ] und unterscheiden entsprechend vier Fälle. Sei zunächst ( ( i i , 5 2 ), ( j j , ^ ) ) e (Si χ S 2 ) χ (Si χ S 2 ) gegeben. Wir bestimmen / e G ì und h e G 2 derart, daß Oi(i, f ) = s 1, 0\{j, f ) = s\, 0 2 ( ¿ , h) = í 2 und O2U, h) = s'2 gelten. Es ergeben sich zwei Möglichkeiten: • / e G\ ; dann wählen wir g = ( f , h ) e G\ χ G 2 und erhalten wie gewünscht
(0(i,g),0(j,g)) • /
=
((si,S2)As'vs'2)).
e G\ mit τ < u. Dann ersetzen wir h durch das eindeutig bestimmte
h e G'3 mit 03{i,h)
=
und 03(j,h)
= s'2, setzen g = ( f , h ) und
erhalten g e G\ χ G'3 (man beachte h φ θ' wegen 03(i, θ') = θ φ í 2 ) sowie (O(i, g), 0 ( j , g)) = ( ( s , , s 2 ) , (s¡, s'2)), wie gewünscht. Als nächstes sei ((si, ί 2 ) , θτ) e (Si χ S 2 ) χ S4 gegeben. Wir bestimmen f e G\ mit 01 (i, f ) = (das geht, weil G\ eine Parallelklasse für 0\ ist) und h e G3 mit 03(i, h) = S2, 0 3 ( j , h) = θ. Wegen 03(i, θ') = θ ist h φ θ', also h e G'3.
80
III
Orthogonale lateinische Quadrate
Wir setzen g = ( / , h) und haben dann g e G\ χ G'3 sowie (0(i, g), 0 ( j , g)) = ((ii, 52), θτ). Ganz analog argumentiert man auch im Fall (θτ, s!¡)) e S4 χ (5, χ S 2 ). Schließlich sei (θσ,θτ) e S4 χ S4 gegeben. Hier wählt man g e G4 mit 04(1, g) = θσ, o4(j,g)=eT. Wir haben nun insgesamt {(0(i,g),0(j,g))\g
€G)
^ SX S
nachgewiesen; aus Anzahlgründen muß dabei Gleichheit gelten, womit O in der Tat ein orthogonales Array ist. • Korollar 6.2. Für m,t,u
e Ν mit u < t gilt
N(mt + u) > mm{N(m),N{m
+ 1 ),N(t)
- 1 ,N(u)}.
Beweis. Wir nennen die rechte Seite dieser Ungleichung a. Wegen N(t) > a + 1 gibt es nach Satz 2.8 ein auflösbares OA(a + 2, t). Ferner existieren orthogonale (a + 2, m)-, (a + 2,m + 1)- und (a + 2, M ) - A r r a y s . Nach Lemma 6.1 gibt es daher auch ein OA(a + 2, mt + u). • Es gibt inzwischen etliche Verallgemeinerungen und Verstärkungen von Lemma 6.1 (und entprechende Korollare, die stärker als 6.2 sind), von denen die Konstruktionen von Wilson [1974al undBrouwerund van Rees [1982] besonders wichtig sind; das ziemlich komplizierte Resultat von Wilson findet man auch bei Beth, Jungnickel und Lenz [1999, Theorem X.3.1J. Für die Widerlegung der Eulerschen Vermutung reicht jedoch das von uns angegebene, einfachere Lemma von RayChaudhuri bzw. sein Korollar 6.2 aus. Satz 6.3. Ist η e Ν \ {2, 6}, so gilt N{n) > 2, d. h., es gibt mindestens ein Paar von orthogonalen lateinischen Quadraten der Ordnung n. Beweis. Aufgrund von Korollar 4.4 und (5.4) sind nur noch die Fälle η = 2 + 4m > 18 zu erledigen. Für« < 30, also« e {18,22,26, 30}, verwenden wir Korollar 6.2 gemäß der folgenden Tabelle; der Leser möge sich dabei davon überzeugen, daß die benötigten Ingredienzen in der Tat existieren. m t u η = mt + u
3 5 3 18
3 7 1 22
3 7 5 26
3 9 3 30
III.6
81
Widerlegung der Eulerschen Vermutung
Ab jetzt sei also η = Am + 2 > 34. Unter sechs aufeinanderfolgenden ungeraden Zahlen gibt es stets mindestens eine, die durch 3, aber nicht durch 9 teilbar ist, wie sich der Leser als Übung klarmachen möge. Unter den sechs ungeraden Zahlen η — 1, η — 3 , . . . , « — 11 sei nun etwa n — u durch 3, aber nicht durch 9 teilbar. Man kann also η = 3t + u mit einem nicht durch 3 teilbaren t und u e {1, 3, 5, 7, 9, 11} schreiben. Da η gerade ist, muß dabei t ungerade sein. Modulo 6 gibt es somit nur die Möglichkeiten t = 1 mod 6
und
t = 5 mod 6.
Der kleinste Primteiler von t ist also > 5, womit N{t) > 4, also N{t) — 1 > 3 gilt. Wegen η > 34 folgt noch t > 7. Hier fallen aber die Möglichkeiten t = 8, 9, 10 aus, also ist t > 11 > u. Nun können wir wieder Korollar 6.2 anwenden und sind fertig. • Chowla, Erdôs und Straus [I960] haben gezeigt, daß N(n) oo für η oo gilt; einen Beweis hierfür findet man auch bei Beth, Jungnickel und Lenz [1999, § X.5J. Die beste derzeit bekannte explizite Abschätzung garantiert N(n) > na
(6.1);
mit a = —!— 14,8
für alle hinreichend großen Werte von n\ sie stammt von Beth [1983J. Aufgrund dieser Ergebnisse kann man nr als die größte natürliche Zahl mit N(nr) < r definieren, für die N(n) > r für alle η > η,- gilt. Derzeit kennt man die folgenden oberen Schranken für die nr, die wir Colbourn und Dinitz [1996] entnommen haben; für r < 6 sind diese Resultate auch bei Beth, Jungnickel und Lenz [19991 bewiesen.
r
nr
r
nr
r
nr
r
nr
r
nr
2 7 12
6 780 7286
3 8 13
10 2774 7288
4 9 14
22 3678 7874
5 10 15
62 5804 8360
6 11 30
75 7222 52502
Abschließend erwähnen wir noch ein Resultat von Chang [1996], der die folgende allgemeine obere Schranke für die Werte nr bewiesen hat:
(6.2)
nr
< 24r+3(r
+ 1)
für aller > 2.
82
7
III
Orthogonale lateinische Quadrate
Eine Anwendung: Authentikationscodes
Zum Abschluß dieses Kapitels wollen wir eine Anwendung in der Kryptographie betrachten, nämlich „Authentikationscodes". Die Kryptographie ist diejenige mathematische Disziplin, die sich - im weitesten Sinne - mit Fragen der Datensicherheit beschäftigt; Uber Jahrhunderte bedeutete dies nichts anderes als die geheime Übertragung von Nachrichten. Populäre Einführungen in die Kryptographie, die auch im Alltag immer wichtiger wird (Schlagworte: Electronic Banking und e-Commerce!), und ihre faszinierende Geschichte findet man beispielsweise bei Bauer L1995J, Beutelspacher [1987J und Singh [1999J; unter den mathematischen Darstellungen seien besonders van Tilborg [20001 und Stinson [2001] empfohlen. Eine sehr empfehlenswerte Sammlung von Übersichtsartikeln wurde von Simmons [1992aJ herausgegeben; schließlich sei noch Menezes, van Oorschot und Vanstone [1997] erwähnt, eine anwendungsorientierte, enzyklopädische Übersicht. Heutzutage stehen für viele Anwendungen - insbesondere in der Wirtschaft - andere Aspekte als in der klassischen, militärisch orientierten Kryptographie im Vordergrund: Häufig geht es nicht darum, Daten geheimzuhalten, sondern ihre Authentizität zu garantieren. Der Empfänger einer Nachricht möchte sicher sein können, daß die übertragenen Daten nicht auf dem Wege vom Absender zu ihm manipuliert wurden (Datenintegrität) und daß der vorgebliche Absender tatsächlich der Urheber der Nachricht ist (Datenauthentizität). Daher hat man zwei mögliche Angriffe abzuwehren: Ein Angreifer soll weder eigene Daten unter fremdem Namen senden können (Impersonation) noch von einem anderen Absender geschickte Daten unbemerkt manipulieren können (Substitution). Zu diesem Zweck hängt der Absender üblicherweise einen ,Authentikatoi" an die eigentliche Nachricht an, der von einem nur ihm und dem Empfänger bekannten gemeinsamen „Schlüssel" sowie den zu übermittelnden Daten abhängt; die Integrität der Nachricht und die Authentizität des Urhebers werden genau dann vom Empfänger akzeptiert, wenn der Authentikator korrekt ist. Diese Idee läßt sich wie folgt formalisieren: Definition 7.1. Ein Authentikationscode (auch kurz MAC - für „message authentication code") ist ein Quadrupel (S, A, JC, 8), wobei • S eine endliche Menge möglicher Datensätze („source states") • A eine endliche Menge möglicher Authentikatoren („authentication tags") • X eine endliche Menge möglicher Schlüssel („keys") • e κ e 8 für jedes Κ e Κ eine Authentikationsfunktion rule") e κ • Ά Α
(„authentication
ist. Übermittelt werden dann Nachrichten m = (s, a) e M = S χ A, also Datensätze mit einem angehängten Authentikator. Sender und Empfänger müssen
III.7
83
Eine Anwendung: Authentikationscodes
sich im Voraus auf einen der Empfänger akzeptiert und die Authentizität des Schlüssel sollte dabei nur
gemeinsamen (geheimen) Schlüssel Κ e X einigen; dann die Integrität der erhaltenen Nachricht m = (s,a) Absenders, wenn und nur wenn a = e κ (s) gilt. Jeder einmal verwendet werden. 2
Zur Analyse der Qualität eines Authentikationscodes führen wir noch zwei Notationen ein: p¡ bezeichne die Wahrscheinlichkeit für einen erfolgreichen Impersonationsangriff und p s die Wahrscheinlichkeit für eine erfolgreiche Substitutionsattacke. Wir setzen dabei voraus, daß alle Schlüssel mit konstanter Wahrscheinlichkeit 1 /k gewählt werden, wobei k = \X\ sei; dagegen werden keine Annahmen über die Wahrscheinlichkeitsverteilung der Datensätze gemacht. Im übrigen geht man wie stets in der Kryptographie - davon aus, daß der Gegner das benutzte System kennt, inklusive der Wahrscheinlichkeitsverteilungen (Kerkhojfsches Prinzip)', nur der verwendete Schlüssel (der ja geheimgehalten wird) sei ihm unbekannt. Es ist nun klar, daß ein Angreifer mit einer gewissen Wahrscheinlichkeit erfolgreich sein wird. So kann er beispielsweise den verwendeten Schlüssel Κ e Χ erraten und dann (mit seiner Kenntnis des Systems) zu einem beliebigen Datensatz s ζ S den Authentikator a = e κ (s) berechnen. Der Gegner kann also sicherlich mindestens mit Wahrscheinlichkeit 1 / k betrügen, da wir ja alle Schlüssel als gleich wahrscheinlich voraussetzen. Wie der folgende fundamentale Satz von Gilbert, MacWilliams und Sloane [1974J zeigt, gibt es allerdings bei vollständiger Kenntnis des Systems noch wesentlich vielversprechendere Angriffsstrategien:
Satz 7.2. Für jeden Authentikationscode (S, Λ, X , 8) mit k gleich wahrscheinlichen Schlüsseln kann ein Angreifer mindestens mit Wahrscheinlichkeit 1 /*Jk betrügen; es gilt also (7.1)
max (pi, ps) >
\/sfk.
Beweis. Angenommen, die Erfolgswahrscheinlichkeit max {p¡, ps) für einen optimal agierenden Angreifer ist < Es genügt nachzuweisen, daß unter dieser Voraussetzung Gleichheit gelten muß. Sei nun m = (s, α) e M; wir bezeichnen mit km die Anzahl aller Schlüssel k e X , unter denen m gültig ist, für die also α = e κ (s ) gilt. Dann ist die Wahrscheinlichkeit, daß m bei einem Impersonationsangriff (also beim Einspielen durch den Angreifer) akzeptiert wird, offenbar km/k. Nach unserer Annahme gilt — < pi < —=,
k
Λ/k
a l s o k m < «Jk.
2 Wir können hier nicht auf die Frage eingehen, wie m a n gemeinsame Schlüssel erzeugt und austauscht. Dies ist eines der Kernprobleme der Kryptographie; wir verweisen dafür auf die bereits zitierte Literatur, insbesondere Stinson [20011.
84
III
Orthogonale lateinische Quadrate
Wir zeigen nun, daß die Wahrscheinlichkeit ρ s für eine erfolgreiche Substitutionsattacke > 1 / v T ist, womit wir dann fertig sind. Der Angreifer beobachtet also eine Nachricht m = (s, a) und will sie durch eine eigene Nachricht (zu einem anderen Datensatz s') ersetzen. Nach Voraussetzung ist jeder der km Schlüssel, unter denen m gültig ist, gleich wahrscheinlich; der Angreifer wählt nun (er hat ja komplette Kenntnis Uber das System) 3 einen dieser Schlüssel, etwa K, und ersetzt m durch m' = (s', exis')). Dann ist m' eine gültige Nachricht, die vom Empfänger mit Wahrscheinlichkeit km.m>/km akzeptiert wird, wobei km^m> die Anzahl aller Schlüssel bezeichnet, unter denen sowohl m als auch m' gültig ist. Nach Wahl von Κ ist jedenfalls Κ ein derartiger Schlüssel, es gilt also km_m' > 1. Damit erhalten wir die gewünschte Schranke:
km
km
«Jk
•
Der Beweis von Satz 7.2 zeigt, daß max(/?/, ps) = 1 /"Jk genau dann gilt, wenn man stets km = \/k und km.m< = 1 hat. Damit erhalten wir für deartige Authentikationscodes (die man perfekt nennt) das folgende Ergebnis; die Einzelheiten seien dem Leser als Übung überlassen. Korollar 7.3. Für jeden perfekten Authentikationscode wahrscheinlichen Schlüsseln gilt:
(S, Λ, JC, 8) mit k gleich
(a) k = n2 für eine natürliche Zahl n. (b) Jede Nachricht (s, a) ist unter genau η Schlüsseln
gültig.
(c) Es gilt | Λ | = η. (d) Zu je zwei Nachrichten zu verschiedenen Datensätzen Schlüssel, unter dem beide Nachrichten gültig sind.
gibt es genau
einen •
Gibt es überhaupt perfekte Authenticationscodes? Wenn ja, wie findet man sie? Die eher verblüffende Antwort lautet: Mit orthogonalen Arrays! Das ist der Inhalt des folgenden Satzes von Stinson [19901, der in äquivalenter (geometrischer) Form auch von de Soete, Vedder und Walker [1990] bewiesen wurde. Satz 7.4. Ein perfekter Authentikationscode ($, Α, -Κ, 8) mitn2 Schlüsseln und r Datensätzen existiert genau dann, wenn es ein orthogonales Array OA(r, n) gibt. 3
Man beachte, daß wir damit dem Angreifer unbegrenzte Rechenleistung zugestehen, womit der Satz besonders aussagekräftig ist. Sehr häufig m u ß man sich in der Kryptographie leider damit abfinden, Systeme einzusetzen, die nach dem Stand der Technik zwar nicht in akzeptabler Rechenzeit gebrochen werden können, wo man aber keine theoretischen Aussagen Uber ihre Sicherheit beweisen kann („computational security").
III.7
85
Eine Anwendung: Authentikationscodes
Beweis. Sei zunächst ein perfekter Authentikationscode (4, Λ. X , 8) mit n1 Schlüsseln und r Datensätzen gegeben. Wir definieren nun die Authentications-
matrix Λ = (AO, K))ses,
KeX = (eK(s))se4, KeX
und zeigen, daß A : S χ Χ A ci η OA (r. η) ist; dabei sind die Parameter klar. Die definierende Eigenschaft eines orthogonalen Arrays folgt direkt aus Eigenschaft (d) in Korollar 7.3: Zwei verschiedene Zeilen von A entsprechen zwei verschiedenen Datensätzen s und s'; sind nun (s, a) und (V, a') zwei beliebige zugehörige Nachrichten, so gibt es genau einen Schlüssel Κ mit a = eic(s) und a ' = e ^ i s ' ) , also genau eine Spalte Κ e X mit A(s, Κ) = a und A(s', K) = a'. Umgekehrt sei A: S χ Χ A ein OA(r, η). Man definiert dann einen Authentikationscode (S, Α, X , 8) durch ejc(s) = A(s, Κ) f ü r Λ e X und s € S. Die definierende Eigenschaft eines orthogonalen Arrays Ubersetzt sich dann - in der Notation des Beweises von Satz 7.2 - in kmM> = 1 f ü r j e zwei Nachrichten m, m' zu verschiedenen Datensätzen. Da in jeder Zeile des OA(r, n) jedes Symbol a e Λ genau w-mal vorkommt, gilt auch km = η = \/k für jede Nachricht m, womit wir Pi = Ps = Vk im Beweis von Satz 7.2 erhalten und unseren Authentikationscode als perfekt erkannt haben. • Aufgrund der Sätze 2.5 und 2.8 kann man mit einem perfekten Authentikationscode mit n 2 Schlüsseln und η Authentikatoren maximal r = η + 1 Datensätze authentifizieren; f ü r Primzahlpotenzen η wird diese Schranke nach Satz 5.4 auch angenommen. Trotzdem stellt sich natürlich die Frage, was man f ü r den Fall r > η +1 erreichen kann. Dazu werden wir η = \ A\ fixieren, r = \S\ beliebig zulassen und versuchen, die Erfolgswahrscheinlichkeit f ü r einen Angriff zu minimieren. Man erhält dann einen Zusammenhang zu den am Ende von § 2 erwähnten orthogonalen Arrays mit Index λ, wie der folgende Satz von Stinson [1992al zeigt; für den recht komplizierten Beweis verweisen wir auf die Originalarbeit oder auf Stinson [20011.
Satz 7.5. Sei ($, A, X , 8) ein Authentikationscode Dann gilt: (7.2)
pi > 1/n
und
mit |Λ| = η und \S\ = r.
ps > 1/w;
falls in (7.2) Gleichheit vorliegt, hat man (7.3)
k = \X\ > r(n - 1) + 1.
Ein Authentikationscode mit Gleichheit in (7.2) und (7.3) existiert genau dann, wenn es ein OAx(r, n) mit λ = [r(n — 1) + l]/w 2 gibt; in diesem Fall sind die
86
III
Schlüssel notwendigerweise (7.4)
P( K)
-
gleichverteilt
k
mit
r(n-
weswegen dann insbesondere k = η2λ
gilt.
Orthogonale lateinische Quadrate
Wahrscheinlichkeit
1) + 1
η2λ'
•
Ein Satz von Plackett und Burman [1945] besagt, daß ein OAx(r, n) nur für r < ( i r k — 1 )/{n — 1) existieren kann; „optimale" Authentikationscodes gibt es also genau dann, wenn diese Schranke angenommen wird. Wie im Fall λ = 1 ist dies jedenfalls immer dann der Fall, wenn η eine Primzahlpotenz und λ eine Potenz von η ist. Beweise für diese Aussagen findet man in geometrischer Sprache (für die zu orthogonalen Arrays äquivalenten „Netze" bzw. „affinen 1-Designs") auch bei Beth, Jungnickel und Lenz [19991, siehe Theorem II.8.8 und Examples II.8.9.
IV Der Satz vom Diktator
Der Satz vom Diktator, auch Arrowsches Paradoxon genannt, stammt aus der Theorie der sozialen (z.B. ökonomischen) Entscheidungen. Diese Theorie ist kombinatorischer Natur und hat eine lange Tradition, die bis in die Zeit der Aufklärung zurückreicht (vgl. Black [1958J). Einen ersten Einblick in die typische Problematik dieser Untersuchungen vermittelt die Situation, die entsteht, wenn ein Komitee, das um einen runden Tisch arrangiert ist, einen Vorsitzenden wählen soll und jeder für seinen linken Nebenmann stimmt. Kenneth Joseph Arrow (geboren 1921, Nobelpreis für Ökonomie 1972) publizierte sein Paradoxon zuerst 1950. Seither ist eine umfangreiche Literatur zu diesem Thema entstanden; vgl. die zusammenfassenden Darstellungen von Arrow [1951J, Kelly L1978J, Pattanaik L1978J, Peleg LI984], Sen L 1970,1986], Saari [1994,1995,20011. Der Satz vom Diktator befaßt sich mit Situationen, für die folgendes Beispiel typisch ist: In einem Omnibus sitzen η Personen; m Städte sollen nacheinander besucht werden; die Frage ist, in welcher Reihenfolge dies geschehen soll. Der Omnibusbesitzer hat eine Elektronik einbauen lassen, in die jeder Fahrgast seine liebste Reihenfolge einfüttern kann; der Apparat liefert dann die de facto einzuhaltende Reihenfolge, der sich alle zu fügen haben. Fahrgast Meier kennt das Arrowsche Paradoxon und sagt zum Besitzer: Wenn Ihr Computer - einerlei wie er im Detail gebaut ist - gewissen allgemeinen Bedingungen genügt, kann er auch nicht mehr liefern als die Reihenfolge, für die sich Fahrgast Nr. 21 (etwa) entschieden hat; Sie hätten sich die teure Anschaffung sparen können; machen Sie Fahrgast 21 zum Diktator, das ist das ganze Geheimnis.
1
Problemstellung
Abstrakt gesprochen hat man eine Menge Ρ von η > 1 Elementen („Personen") und eine Menge A von m > 1 Elementen („Alternativen"). Die Elemente der Menge perm(A) aller Totalordnungen in A oder Permutationen von A werden als geordnete m-Tupel über A aufgefaßt und in der Sprache der mathematischen Ökonomie als Präferenzordnungen (in A) bezeichnet. Eine Präferenzordnung legt
88
IV
Der Satz vom Diktator
fest, welche Alternative welchen anderen vorgezogen wird. Dabei gilt bekanntlich I perm(A)| = m \ (Korollar 2.4). Eine Abbildung Μ: Ρ
perm (Λ)
bedeutet, daß jede Person ihre Präferenzordnung in A kundgetan hat, und wird als ein Meinungsmuster bezeichnet. Die Menge perm (/Ι)'' aller Meinungsmuster hat dann (ml)" Elemente, siehe Satz 2.2. Im minimalen interessanten Fall η = 2, m = 2 („ein Ehepaar vor zwei Alternativen" ) sind das 4, im nächstkomplizierten Fall η = 2 ,m = 3 („einEhepaar vor drei Alternativen") gibt es bereits 36 Meinungsmuster. Es geht nun darum, aus jedem Meinungsmuster auf möglichst vernünftige Weise eine einzige Präferenzordnung herauszudestillieren, d. h. „vernünftige" Abbildungen d : permfA)'' permM) zu konstruieren. Die folgende Definition sagt, was in der Arrowschen Fheorie als vernünftig gilt; dazu werden zwei Forderungen aufgestellt, die in der Tat intuitiv als vernünftig erscheinen, die „Einstimmigkeitsreger und die „Unabhängigkeitsregel". Man kann sich den Inhalt dieser beiden Regeln anschaulich an den beiden angebenen Bildern klarmachen, in denen Meinungsmuster als Tafeln dargestellt sind, mit den Präferenzordnungen der Personen als Spalten.
Definition 1.1. Seien \P\ = η > 1, |A| = m > 1. Eine Abbildung d : perm ( A ) p heißt eine soziale Entscheidungsfimktion
perm (A) (SEF), wenn gilt:
(a) Ist M e perm(A) p , M = ( M p ) p e p , sind ferner o, b zwei verschiedene Alternativen, und wird Alternative a der Alternative b bei allen Präferenzordnungen Μρ (ρ e Ρ) vorgezogen, so gilt dies auch bei der Präferenzordnung cl(M) (Einstimmigkeitsregel).
M
=
h
b
b b
a d(M) = I b
(b) Sind M, M' e perm(A) p , a,b e A, a φ b und ist die Menge der Personen, die a Uber b stellen, bei M und M' dieselbe, so steht a genau dann bei d{M) Uber b, wenn dies bei d(M') der Fall ist {Unabhängigkeitsregel).
IV.2
89
Mächtige Familien
a CÌ (M) = I b
a d(M') = I b
Beispiel 1.2. Seien Ρ, A, p e r m ( A ) p wie vorhin. Sei po e P. Dann ist durch dpo : M = (Mp)pep
Mpo
(M e p e r m ( A ) p )
eine SEF gegeben; sie heißt „Person po ist Diktator". Daß dpo in der Tat eine SEF ist, ist offensichtlich: (a) Einstimmigkeitsregel: Wenn alle Personen über ci,b e A einer Meinung sind, sind sie insbesondere mit Person po einer Meinung. (b) Unabhängigkeitsregel: Wenn beim Übergang von M zu M ' keine Person ihre Meinung über a, b ändert, ändert auch der Diktator po seine Meinung nicht. Arrows Ergebnis besagt nun einfach, daß diese Beispiele im Falle η > 2, m > 3 erschöpfend sind. Andere Beispiele gibt es dann nicht, die einzige „vernünftige" Form der Entscheidungsfindung ist also die Einführung einer Diktatur! Satz 1.3 (Arrowsches Paradoxon, Diktator-Theorem). Sei \P\ = η > 2, |A| = m > 3 und d : perm( A)p —>· perm(A) eine SEF. Dann gibt es genau einen Diktator, d. h. eine Person po e Ρ derart, daß d = dpo gilt. Man sagt auch kurz: jede SEF ist diktatorisch. Wir werden aber später noch sehen, daß die Mathematik damit keineswegs das Todesurteil über die Demokratie gefällt hat.
2
Mächtige Familien
Unser Beweis des Diktator-Theorems benützt den Begriff der „mächtigen Familie". Dazu benötigen wir zunächst eine vorbereitende Definition.
90
IV
Der Satz vom Diktator
Definition 2.1. Seien | P | = η > 2, |A| = m > 3, (a,b) e Α χ A und d : perm (A) perm (A) eine SEF. Man sagt, die Teilmenge C ç ρ sci für d bei (ia, b) stark, wenn folgende Bedingung gilt: (*) Ziehen bei einem M e perm ( A ) p alle ρ g C das a dem b und alle ρ e das b dem a vor, so wird a dem b bei d{M) vorgezogen.
M
P\C
d(M) = C
C\P
Man beachte, daß diese Definition nur sinnvoll ist, weil d die Unabhängigkeitsregel erfüllt, und daß es auf die Reihenfolge von a und b ankommt. L e m m a 2 . 2 . Sei | P | = η > 2, |A| = m > 3 andd: perir^A) 73 ->· perm(A) eine SEF, sowie C c p. Wenn dann C bei einem Paar (a, b) e Α χ A für d stark ist, ist C sogar bei jedem Paar in Α χ A für d stark. Beweis. Seien a,b,c e A paarweise verschieden; das geht wegen m > 3. Wir behaupten zunächst, daß C dann auch für das Paar (a, c) e Α χ A stark ist. Dazu sei also ein M e perm (A) gegeben, bei dem alle ρ e C das a dem c und alle ρ e P\C das c dem a vorziehen; zu zeigen ist, daß a dem c bei d(M) vorgezogen wird. Da uns nur die relative Anordnung von a und c bei d interessiert, können wir aufgrund der Unabhängigkeitsregel o.B.d.A. annehmen, daß alle eventuellen weiteren Alternativen bei allen Personen in M unterhalb der Alternativen a, b, c stehen und daß die Alternative b für jede Person in C zwischen a und c und für jede andere Person über c und a steht. M hat also o.B.d.A. die folgende Bauart, wobei wir uns einer Veranschaulichung für Meinungsmuster M e p e r m ( A ) p bedienen, die sicher unmittelbar einleuchtet:
M
C
P\C
Was kann man nun Uber d{M) sagen? Die Einstimmigkeitsregel liefert „b Uber c". Weil C bei (a, b) stark ist, gilt auch „« über £>". Damit haben wir aber bereits „a Uber c" nachgewiesen.
IV.2
91
Mächtige Familien
Ganz analog zeigt man nun, daß C für d auch bei (c, b) stark ist. Wir haben damit folgende Austausch-Aussage bewiesen: Die Menge S = {(x, y) I χ, >· e A, C ist stark für d bei (x, >')} erfüllt (x, y) e S, χ Φ ζ φ y
=>·
(χ, ζ), (ζ, y) e S.
Da es in A mindestens drei verschiedene Elemente gibt, kann man nun durch Komponentenaustausch von jedem Paar in Α χ A zu jedem anderen gelangen (Beispiel: (x, y) (z, >0 (z, x) (>', x ) ) , so daß in der Tat S = Α χ A folgt. • Wegen Lemma 2.2 ist folgende Definition sinnvoll: Definition 2.3. Seien \P\ = η > 2, |A| = m > 3; d : p e r m ( A ) p perm(A) eine SEF. Eine Teilmenge C von Ρ heißt eine mächtige Familie für d, wenn C für alle Paare (a,b) e A χ A stark ist, also die Bedingung ( * ) stets erfüllt ist. Wir erinnern nun an einen aus der Topologie vertrauten Begriff: Definition 2.4. Seien Ρ Φ 0 und !F eine Menge von nichtleeren Teilmengen von Ρ . Es gelte (1) C e F , C ç D ç ρ (2 ) C, De
F
=>·
D e f ;
C n f l e í .
Dann heißt JF ein Filter in P. Gilt außerdem (3) C ç ρ
c e F oder P \ C e f ,
so heißt der Filter 3r ein
Ultrafilter.
Ebenfalls bekannt sollte folgender Satz sein: Satz 2.5. Ist Ρ eine nichtleere in Ρ genau ein ρ ο £ Ρ mit
endliche
Menge,
F = {C I po e C ç
so gibt es zu jedem
Ultrafilter
!F
ρ}.
Beweis. Sei !F ein Ultrafilter in P . Da i 5 endlich ist, ist auch !F endlich. Wendet man die obige Bedingung (2) wiederholt an, so folgt, daß die Menge C0 =
Π
c
92
IV
Der Satz vom Diktator
zu !F gehört und somit insbesondere nicht leer ist. Angenommen, Co enthält zwei verschiedene Elemente p,q e P. Dann bilde man C = {/;}. Nach (3) ist entweder C e f , woraus Co = {p} folgt, oder Ρ \C e !F, woraus ρ Co folgt; in jedem Falle ergibt sich ein Widerspruch. Die Menge Co besteht also aus genau einem Element von Ρ . • Man sieht nun unmittelbar ein, daß der folgende Satz den Beweis des DiktatorTheorems vollendet. Satz 2.6. Seien \P\ = η > 2, \ A\ = m > 3; d : perm(/1 )'' perm(A) eine SEF. Dann bildet das System !F aller für d mächtigen Familien einen Ultrafilter in P. Beweis. Wir zeigen zuerst, daß die leere Menge keine mächtige Familie bildet. Dazu wählen wir zwei verschiedene Alternativen a,b e A beliebig und bilden ein Meinungsmuster M, bei dem alle ρ e Ρ = Ρ \ 0 das b liber a stellen. Aufgrund der Einstimmigkeitsregel steht dann auch in d(M) das b über a, also kann 0 nicht stark bei (a, b) sein. Für den Nachweis der Bedingung (I ) für einen Ultrafilter sei C eine mächtige Familie sowie D ç Ρ eine Obermenge von C. Um auch D als mächtig zu erkennen, reicht es nach Lemma 2.2, ein beliebiges Paar (a, c) e Α χ A als stark für d nachzuweisen. Dazu müssen wir ein Meinungsmuster M e perm(A) betrachten, bei dem alle ρ e D das a dem c und alle ρ e Ρ \ D das c dem a vorziehen; zu zeigen ist, daß a dem c in d(M) vorgezogen wird. Wir wählen nun ein von a und c verschiedenes Element b. Aufgrund der Unabhängigkeitsregel kann man dann o.B.d.A. annehmen, daß M wie in der folgenden unmittelbar verständlichen Abbildung aussieht; dies folgt ähnlich wie im Beweis von Lemma 2.2.
Weil C mächtig ist, steht in d(M) das a über b. Nach der Einstimmigkeitsregel steht in d(M) das b über c. Also steht in d(M) auch a Uber c, wie zu zeigen war.
IV. 3
Auswege
93
Z u m Nachweis der Bedingung (2) seien nun C, D e !F. Ähnlich wie zuvor reduziert man die Behauptung auf die Betrachtung eines der folgenden Abbildung entsprechenden Meinungsmusters M :
Weil C bei (a, b) stark ist, steht in d(M) das a über b. Weil D bei (b, c) stark ist, steht in d(M) das b über c. A l s o steht in d(M) auch a Uber c. Dies zeigt wieder, daß C ΓΊ D bei (a. c) stark f ü r d und daher nach L e m m a 2.2 eine mächtige Familie ist. Somit gilt in der Tat C f i f l e f . Es bleibt noch zu zeigen, daß 3 r Bedingung (3) erfüllt. Sei dazu C ç p . Diesmal reduziert man die Behauptung auf die Betrachtung eines Meinungsmusters M der folgenden Art:
Steht in d(M) das a über b, so ist Ρ \ C stark bei ( a , b), also Ρ \ C e F. Steht in d{M) das b über a, so ist C stark bei (b, a), also C e f . •
3
Auswege
Das nunmehr voll bewiesene Diktator-Theorem scheint zunächst geeignet, jeden Demokraten zur Verzweiflung zu bringen. Selbst im Minimalfall η = 2, m = 3 („ein Ehepaar vor drei Alternativen") scheint die Diktatur unvermeidlich.
94
IV
Der Satz vom Diktator
Man sollte sich aber zunächst vor Augen führen, daß sämtliche Fälle mit m = 2 Alternativen („Ja-Nein-Situationen") nicht unter das Arrovvsche Paradoxon fallen. In der Tat hat man hier bewährte diktatorfreie Entscheidungsmechanismen: Mehrheitsentscheidung mit Stichentscheid durch einen Vorsitzenden. Ist η > 3, so ist der Vorsitzende überstimmbar, also kein Diktator. Die praktische Demokratie lebt in der Tat von Ja-Nein-Entscheidungen. Ü b u n g 3.1. M a n gebe eine f o r m a l e Beschreibung der oben skizzierten Mehrheitsentscheidung mit Stichentscheid und verifiziere, daß die Regeln aus Definition 1.1 in der Tat erfüllt sind. Woran liegt es, daß f ü r |A| = 2 nicht-diktatorische SEF's existieren? M a n beschreibe f ü r diesen Fall alle möglichen SEF's und bestimme ihre Anzahl in Abhängigkeit von | Ρ |. Die meisten dieser Funktionen sind allerdings intuitiv nicht „vernünftig"; man überlege sich eine Zusatzforderung, die man hier stellen sollte, und vergleiche mit dem Fall | A| > 3. M a n kann aber auch versuchen, den Diktator-Satz innerhalb seiner D o m ä n e η > 2, m > 3 anzugreifen. Natürlich bleibt der Satz richtig, denn wir haben ihn j a bewiesen. A b e r es könnte doch sein, daß es intuitiv vernünftige Abbildungen p e r m ( A ) p p e r m ( A ) gibt, die eben nicht den Arrowschen Voraussetzungen genügen und diktatorfrei sind. Bei der Suche nach solchen Abbildungen - man beschränkte sich bald auf den Fall p e r m ( A ) p A (nur die höchste soziale Präferenz wird ermittelt) - erlebte man zunächst eine Enttäuschung: Es kam nochmals ein Diktator-Satz heraus, das sogenannte Gibbard-Satterthwaite-Theorem (Gibbard [1972], Satterthwaite [Ί975]). 1978 publizierte jedoch der Jerusalemer Mathematiker Peleg ein Entscheidungsverfahren, dessen Quintessenz man etwa so beschreiben kann: Wenn alle Personen sich damit abfinden, zwar nicht ihre Wünsche erfüllt zu sehen, aber doch keine zu herben Enttäuschungen zu erleben, dann kann man diktatorfrei entscheiden; siehe Peleg [1978J. Ein besonders interessanter Ansatz f ü r einen Ausweg besteht in einer Abschwächung der Unabhängigkeitsregel, wobei die resultierende S E F nun nicht nur die relative A n o r d n u n g zweier Alternativen in den individuellen Präferenzordnungen aller beteiligten Personen, sondern auch jeweils die Zahl der Alternativen zwischen den beiden gegebenen Alternativen berücksichtigt („intensity of irrelevant alternatives"). Ein Verfahren, das dem Rechnung trägt, ist das Verfahren von Borda [1781 ] („Borda count"), bei dem der j-ten Alternative auf der Präferenzliste j e d e r Person jeweils η — j Punkte gutgeschrieben und dann die Alternativen gemäß ihrer Gesamtpunktzahl angeordnet werden. 1 M a n m a c h e sich klar, daß bei diesem 1 Interessantervveise ist das Β orda-Verfahren bereits viel früher eingeführt worden, nämlich von d e m berühmten Philosophen und Theologen Nikolaus von Kues (1401 - 1464). Fast zwei Jahrhunderte vorher wurden bereits in drei Schriften des katalanischen Philosophen Ramon Llull ( 1 2 3 2 - 1316) Wahlverfahren vorgeschlagen, die auf paarweisen Vergleichen der Kandidaten beruhen. Näheres zu diesem
IV. 3
Auswege
95
Vorgehen die Einstimmigkeitsregel weiterhin gilt. Darüberhinaus hat das BordaVerfahren weitere interessante Eigenschaften; wenn beispielsweise alle Personen ihre Präferenz hinsichtlich zweier gegebener Alternativen ändern, so dreht sich die Reihenfolge dieser Alternativen auch in der entstehenden S E F um. Wir verzichten hier auf weitere Details und verweisen auf die Aufsätze und Bücher von Saari L1994,1995,1998,1999,2000a,2000b], der die Theorie der sozialen Entscheidungsfunktionen und die Analyse von Paradoxien bei Wahl verfahren entscheidend vorangebracht hat. Z u s a m m e n f a s s e n d e Darstellungen des hier angerissenen Problemkreises geben Kelly [19781, Pattanaik [19781, Peleg [19841, Sen Γ1970,19861, Saari [1994,1995, 20011. Über die Vorgeschichte seit ca. 1800 informiert Black [19581. Der UltrafilterGesichtspunkt durchzieht einen Großteil der Literatur seit Arrow L1951J und wurde von Kirman und Sondermann [1971J besonders klar herausgearbeitet. In der neueren Literatur spielen vor allem auch geometrische Methoden eine wesentliche Rolle, insbesondere bei Saari. Eine S a m m l u n g interessanter Übersichtsartikel zu unserem und verwandten Problemen findet m a n im dem von Young [1985J herausgegebenen Band „Fair Allocation".
Themenkreis findet man in den Aufsätzen von Hagele und Pukelsheim |2001J sowie von Pukelsheim Γ2002,20031.
Υ Fastperiodische 0-1-Folgen
In diesem Kapitel betrachten wir eine Klasse von 0-1-Folgen, die in der Theorie der topologisehen Dynamik auftreten (siehe etwa Gottschalk und Hedlund [19551), nämlich die sogenannten fastperiodischen Folgen. Das Standardbeispiel hierfür ist die berühmte, wohl von Axel Thue(1863 -1922) zuerst gebildete Folge, siehe Thue [1906J, die später von Marston Morse (1892-1977) wiederentdeckt wurde, siehe Morse \ 1921], und heutzutage meist als Morse-Thue-Folge (manchmal auch nur als Morse-Folge) bezeichnet wird. Diese Folge wird denn auch im Mittelpunkt unserer Überlegungen stehen.
1
Die Morse-Thue-Folge
Die Morse-Thue-Folge ist eine Folge von Symbolen 0, 1, also eine Abbildung Ν -> {0, 1}, oder, wenn man will, eine Färbung von Ν mit den beiden Farben 0 und 1. In kommafreier Schreibweise lautet sie χ = 0110100110010110...
Das dabei befolgte Bildungsgesetz läßt sich folgendermaßen beschreiben: Als das Gegenteil von 0 sehe man 1 an, als das Gegenteil von 1 das Symbol 0; das Gegenteil Β einer endlichen 0-1-Folge Β (eines sogenannten 0-1 -Blocks) entsteht, wenn man in ihm jedes Symbol durch sein Gegenteil ersetzt. Man schreibe nun zunächst 0 hin, dann daneben das Gegenteil 1, dann daneben das Gegenteil 10 des Blocks 01, den man schon hat, dann daneben das Gegenteil des soeben entstandenen 0-1-Blocks 0110 usw. Damit ist die Morse-Thue-Folge rekursiv als unendliche 0-1-Folge definiert (vgl. auch Keane [1968J und Jacobs L1969J). Übung 1.1. Man weise nach, daß das «-te Glied xn einer Morse-Thue-Folge χ = (XQ,X\, . . . ) explizit auch wie folgt definiert werden kann. Es sei a„ die Anzahl der Ziffern 1 in der Binärdarstellung der natürlichen Zahl n: dann ist xn durch die Parität von a n gegeben: x„ = a„ mod 2.
V. 1
97
Die Morse-Thue-Folge
Die Morse-Thue-Folge besitzt bemerkenswerte innere Symmetrien. Als Beispiel geben wir die folgende Symmetrie-Eigenschaft an, die uns bald sehr nützen wird. Beispiel 1.2. Nach Definition läßt sich die Morse-Thue-Folge als Folge von Zweierblöcken Ol und 10 schreiben. Ersetzt man dann 01 durch 0 und 10 durch 1, so entsteht wieder die Morse-Thue-Folge, wie sich unmittelbar aus der rekursiven Definition der Folge ergibt. Man kann das so hinschreiben: χ =
01|10|10|01|10|01|01|10|...
0
1 1 0
1 0 0
1 ... =
Dagegen ist die Morse-Thue-Folge nicht periodisch, wie der folgende, stärkere Satz von Hedlund und Morse [1944] zeigt. Satz 1.3. Ist Β = b\...br ein 0-1 -Block, so kommt der Block BBb\ in der Morse-Thue-Folge χ = xox\ . • • nirgends vor; es gibt also keinen Index η mit x n = b\, . . . , Xn+r-1 = br, Xn+r = b 1, . . . , Xn+2r-l = br, Xn+2r = b\. Beweis. Wir führen den Beweis zunächst im Falle einer ungeraden Blocklänge r und beginnen mit r = 1. Ist b\ = 0, so ist BBb\ = b\bibi = 000. Da χ aus Blöcken 01 und 10 aufgebaut ist, kommt 000 in Λ; nicht vor. Analog erledigt man den Fall b\ = 1. S e i n u n r > 3 ungerade. Jet/t hat BBh\ eine Länge > 7. Kommt BBh\ in χ vor. so enthält BBb\ einen der Blöcke 0110, 1001, aus denen sich Λ; ja offensichtlich zusammensetzt. Im ersteren Fall enthält BBb\ den Zweierblock 11; kommt 11 bereits in Β vor, so muß 11 zweimal, mit ungerader Differenz der Anfangstellen, vorkommen. Dasselbe müßte dann bei χ der Fall sein. Dies geht nicht, weil Λ; sich aus Blöcken 01 und 10 aufbaut. Dasselbe Argument greift, wenn 11 zwar nicht in B, aber an der Nahtstelle von Β Β auftritt: br = 1 = b\. Analog führt man das Auftreten von 1001 in BBbι zum Widerspruch. Nun erledigen wir den Fall, daß r gerade ist, und zwar durch Induktion Uber r = 2,4, 6 , . . . r = 2. Die Fälle Β = 00 und Β = 11 kommen nicht in Frage, da Λ; weder 000 noch 111 enthält. Sei nun Β = 01, also BBb\ = 01010, d. h. irgendwo in χ kommt 01010 vor. Wird dieser Block bei seinem Auftreten in χ von der ZweierblockZerschneidung Λ; =
0 1 | 1 0 | 1 0 | 0 1 | | 1 0 | 0 1 | 0 1 | 1 0 | . . .
so getroffen: 0|10|10|, so hat man links 1 zu ergänzen, womit in χ der Block 110| 10110| und somit nach Beispiel 1.2 der Dreierblock 111 vorkommt, was nicht geht. Sieht die Zweierblock-Zerschneidung dagegen so aus: 10110110, so hat man
98
V
Fastperiodische 0-1 -Folgen
rechts mit 1 fortzufahren, k o m m t auf 000 in χ und erhält abermals einen Widerspruch. Der verbleibende Fall Β = 10 wird analog behandelt. r > 4. Wir nehmen an, daß alle Fälle mit Blocklängen > r — 2 von Β bereits erledigt seien, und unterscheiden zwei Fälle, j e nachdem, wie BBb\ bei seinem Auftreten in χ von der Zweierblock-Zerschneidung von Λ; getroffen wird. F a l l I . B B b \ wird in der Form b i b
2
\ . . .
\ b
r
- i b
r
\ b i b
2
\ . . .
\ b
r
- i b
r
\ b \
getroffen. D a n n hat man im Falle b\ = 0 rechts mit 1 in χ fortzufahren, womit sich ¿2 = 1 ergibt; also enthält χ das Teilstück 0 l \ . . . \ b
r
- l b r \ 0 \ \ . . . \ b r - l b r \ 0 l \ .
Nach Ersetzung von 01 durch 0 und von 10 durch 1 findet man in χ einen Block a\.. .asa\ .. ,asa\ mit a\ = 1 und s = j . Ist s ungerade, so ergibt sich ein Widerspruch zum ersten Teil des Beweises; und ist s gerade, so ergibt sich ein Widerspruch zur Induktionsannahme. Der Fall b\ = 1 wird entsprechend erledigt. F a l l I I . B B b \ wird in der Form b i \ b 2 b 3
\ . . .
\ b
r
b i \ b 2 b 3
\ . . .
\ b
r
b i \
getroffen. D a n n hat m a n im Falle b\ = 0 auf br = 1 zu schließen und links in χ mit 1 fortzufahren, womit χ den Block 10|¿2fc|...|10|¿2¿3|...|10| enthält. Durch die Ersetzung 01 0, 10 1 erhält man diesmal in χ einen Block a\ ... asa\ ... asa\ mit a\ = 1 und s = j . Wie vorhin erhält man einen Widerspruch, sei es zur Induktionsannahme, sei es zum Falle einer ungeraden Blocklänge. Der Fall b\ = 1 wird genauso behandelt. • Z u diesem Satz gibt es eine Art von Umkehrung, die von Gottschalk [1964] stammt. U m sie zu formulieren, müssen wir von der „einseitigen" Morse-ThueFolge 0110...(einer 0-1-Färbung von No) zu „zweiseitigen" 0-1-Folgen (also 0-1Färbungen von Z) übergehen und zwei weitere Begriffe einführen. Definition 1.4. Sei ζ = . . . z - i z o z i · · · eine doppelt unendliche 0-1-Folge, d. h. eine Färbung von Ζ mit den Farben 0 und 1. 1)
Man sagt, ζ habe die E i g e n s c h a f t M , wenn es keinen 0-1 -Block Β = b \ . . . b gibt, f ü r den der Block BBb\ in ζ vorkommt; es darf also kein s e Ζ mit ζ,y = b 1 , . . . , zs+r-1 = b r , z s + r = b \ , . . . , z s + i r - \ = b , zs+2r = b \ geben. r
2)
Man sagt, ζ sei eine M o r s e - T h u e - T o c h t e r , wenn j e d e r 0-1-Block, der in ζ vorkommt, auch in der Morse-Thue-Folge vorkommt.
r
V. 1 Die Morse-Thue-Folge
99
Ü b u n g 1.5. Man beweise, daß j e d e Morse-Thue-Tochter die Eigenschaft M hat. Ü b u n g 1.6. Man gebe eine Morse-Thue-Tochter an, die ab 0 mit der Morse-ThueFolge χ übereinstimmt: zo = zi = x\, zi = xi,...
Satz 1.7. Sei ζ = ... z-izozi • • • eine 0-1 -Färbung von Z. Genau dann hat ζ die Eigenschaft M, wenn ζ eine Morse-Thue-Tochter ist. Beweis. N a c h Übung 1.5 hat j e d e Morse-Thue-Tochter die Eigenschaft M. Umgekehrt habe nun ζ die Eigenschaft M . U m zu zeigen, daß M eine Morse-Thue-Tochter ist, gehen wir in mehreren Schritten vor. Schritt
1 : ζ enthält die Zweierblöcke 00 und 11.
A n g e n o m m e n , ζ enthält 00 nicht. Dann k o m m t in ζ irgendwo das Symbol 1 vor, wegen der Eigenschaft M aber auch 0, also irgendwo 101. Die nächsten zwei Symbole von ζ rechts hiervon können nicht 11 sein: nicht 00 sein: nicht 01 sein:
weil sonst 111 entstünde, was wegen M nicht geht; wegen unserer momentanen A n n a h m e ; weil sonst 10101 enstünde, im Widerspruch zu M .
Also geht es rechts von 101 mit 10 weiter und in ζ k o m m t der Block 10110 vor. Wie können nun die in ζ links von 10110 stehenden nächsten zwei Symbole aussehen? Sie können nicht 11 sein: nicht 00 sein: nicht 10 sein:
weil sonst 111 entstünde; nach unserer A n n a h m e ; weil sonst 10101 entstünde, im Widerspruch zu M .
Somit geht es links von 10110 mit 01 weiter und es entsteht der Block 0110110; auch dies widerspricht M . Also enthält ζ doch den Zweierblock 00. Genauso zeigt man, daß ζ den Zweierblock 11 enthält. Schritt 2: ζ läßt sich als doppelt unendliche Folge von Zvveierblöcken 01 und 10 schreiben. D a in ζ irgendwo 00 steckt, 000 aber wegen M nicht in ζ vorkommen kann, enthält ζ den Vierer-Block 1001. Analog enthält ζ auch den Vierer-Block 0110. Ein in ζ vorkommender Vierer-Block 1001 kann nun in ζ nach rechts weder mit 11 fortgesetzt werden (da 111 verboten ist) noch mit 00 (weil sonst 100100 und sodann, weil 000 verboten ist, notwendigerweise 1001001 entstünde, wieder im Widerspruch zu M ) . Also setzt sich ein in ζ vorkommender Block 1001 nach rechts in ζ mit 01 oder 10 fort; analog zeigt man, daß auch nach links nur wieder 01 oder 10 in Frage
100
V
Fastperiodische 0-1 -Folgen
kommen. Entsprechend behandelt man auch Fortsetzungen von 0110, 1010 und 0101. Offenbar ist Schritt 2 damit erledigt. Schritt 3: Schreibt man ζ als doppelt unendliche Folge von Blöcken 01 und 10 und ersetzt dann 01 durch 0 und 10 durch 1, so entsteht eine doppelt unendliche 0-1-Folge ζ!, die sich ebenfalls als doppelt unendliche Folge von Blöcken 01 und 10 schreiben läßt. Man beachte, daß eine Verletzung von M in τ! sofort eine Verletzung von M in ζ nach sich ziehen würde. Also hat z! die Eigenschaft M; damit ist aber das Ergebnis von Schritt 2 auf z! anwendbar. Nun können wir den Beweis abschließen. Der 0-1-Block An bestehe aus den ersten 2 n Symbolen der Morse-Thue-Folge χ, der Block Bn aus den darauf folgenden 2" Symbolen; Bn entsteht also aus An, indem man jede 0 durch eine 1 und jede 1 durch eine 0 ersetzt. Iteriert man Schritt 3 //-mal. so findet man: ζ läßt sich als Folge von Blöcken AnBn und BnAn schreiben. Ist Β ein in ζ vorkommender Block einer Länge m und sorgt man für 2m < 2n, so läßt sich Β als vorderer, hinterer oder innerer Abschnitt von AnBn oder BnAn schreiben. Da diese beiden Blöcke in χ vorkommen, kommt Β in χ vor. Also ist ζ in der Tat eine Morse-Thue-Tochter.
• Übung 1.8. Man fasse die Morse-Thue-Folge χ als Färbung von No auf und gebe in No monochrome arithmetische Progressionen beliebiger Längen explizit an, und zwar für beide Farben; man vergleiche dazu Definition VII. 1.1.
2
Fastperiodizität
Wir haben gesehen, daß weder die Morse-Thue-Folge 01101001... noch eine ihrer Töchter periodisch ist (Sätze 1.3 und 1.7). Trotzdem besitzt die Morse-Thue-Folge eine Wiederkehr-Eigenschaft, die der Periodizität sehr nahekommt; sie ist nämlich „fastperiodisch". Definition 2.1. Eine 0-1-Folge χ = χ^χ^χι · · · oder χ = . . . χ | .\"oA'i . . . heißt fastperiodisch, wenn jeder 0-1 -Block in ihr entweder gar nicht oder mit beschränkten Lücken vorkommt. Genauer: Sei χ eine Färbung von No oder Ζ mit den Farben 0 und 1 und Β = b\ ... br ein 0-1-Block. Wir bezeichnen mit TB die (leere, endliche oder unendliche) Menge aller derjenigen Zahlen ? e No bzw. t e Ζ, für die xt = b\,
xt+\
= ¿2, · · · , Xt+r-1
= br
gilt. Dann heißt χ fastperiodisch, wenn für jeden 0-1-Block Β entweder Tß = 0 gilt oder aber ein L > 0 mit {t, t + 1 , . . . , t + L} Π TB φ 0 für alle t e N 0 bzw. t e Ζ existiert.
V.2
101
Fastperiodizität
Satz 2.2. Die Morse-Thue-Folge
χ = 01101001 ...
ist
fastperiodisch.
Beweis. Sei Β ein in Λ; auftretender 0-1 -Block. Wir bestimmen einen Anfangsblock D von χ, in dem Β bereits komplett enthalten ist und der eine Länge der Form 2" besitzt. Dann läßt sich Λ; als eine Folge von Blöcken DD und DD schreiben, wobei D wie üblich das Gegenteil von D bezeichnet. Man sieht nun, daß man etwa L = 2"+ 2 wählen kann. • Übung 2.3. Man beweise allgemeiner, daß jede Morse-Thue-Tochter fastperiodisch ist. Definition 2.4. Wir verallgemeinern jetzt den Tochter-Begriff. Seien dazu χ und ζ zwei 0-1 -Färbungen von No oder Z. Man sagt, ζ sei eine Tochter von x, wenn jeder 0-1-Block, der in ζ vorkommt, auch in χ vorkommt. Übung 2.5. Man beweise: Töchter von fastperiodischen 0-1-Färbungen sind wieder fastperiodisch. Übung 2.6. Man beweise: Ist ζ eine Tochter von χ und u eine Tochter von z , so ist u auch eine Tochter von Λ;. Mittels eines Diagonal-Arguments beweisen wir nun das Lemma 2.7. Sei B(l\ B{2\ ... eine Folge von 0-1 -Blöcken mit gegen oo strebenden Längen. Dann gibt es (a) eine 0-1 -Färbung χ = x$x\x2 • • • von No, für die jeder in χ vorkommende Block in unendlich vielen der Blöcke Β . enthalten ist. (b) eine 0-1 -Färbung ζ von Z, für die jeder in ζ vorkommende vielen der Blöcke B(1\ B(2\ ... enthalten ist.
Block in unendlich
Beweis. Zum Beweis der Aussage (a) schreiben wir die gegebenen Blöcke in der Form B(n) =b(^...b^ (neN), wobei wir (nach Übergang zu einer passenden Teilfolge) noch ro < π < Γ2 < . . . annehmen können. Mindestens eines der beiden Symbole 0, 1 kommt unendlich oft als bq"-* vor. Seien etwa wo.i < wo.2 < · · · so bestimmt, daß ¿q"o i ) = bg"0,2^ = • • • = x 0 e {0, 1} gilt. Mindestens eines der beiden Symbole 0, 1 kommt nun unendlich oft als
vor. Seien etwa
«0,1, W0.2, . . . so bestimmt, daß ¿>j" u) =
< «1,2 < ··· als Teilfolge von = • • • = x\ e {0, 1} gilt usw. Wir
102
V
Fastperiodische 0-1 -Folgen
setzen nun Λ; = X0XiX2 · · · Sei Β ein in χ vorkommender 0-1-Block. Wir können o.B.d.A. Β = XQ ... xr annehmen. D a n n gilt offensichtlich nach Konstruktion f)
=xr
=XQ,...,b¡
für
t =
r, r +
1,
..
D a m i t ist (a) bewiesen. Behauptung (b) beweist man analog, indem man die Blöcke Bun anders indiziert: B(n)
=
brnbrn+i...
bSn
mit
-
rn
oo
qs. Von hier führt eine raffinierte Verallgemeinerung zu dem nach Frank Plumpton Ramsey ( 1 9 0 3 - 1 9 3 0 ) benannten Satz, den wir in diesem Kapitel kennenlernen wollen. Ramsey war ein höchst interessanter Mathematiker, dem man auch Beiträge zur mathematischen Ökonomie verdankt. Er bewies seinen Satz, um ein Problem der Logik zu lösen; vgl. auch Skolem [1933J. Eine systematische Darstellung der Ramsey-Theorie findet man bei Graham, Rothschild und Spencer [1990J; historische Anmerkungen stehen bei Spencer [19831. Heutzutage versteht man unter „Ramsey-Theorie" einen ganzen Zweig der Kombinatorik, der sich mit Aussagen ähnlichen Typs für eine Vielzahl von Strukturen beschäftigt; man vergleiche dazu auch das Buch von Erdös, Hajnal, Mate und Rado [Ί984], Als konkretes Beispiel erwähnen wir die „Nullsummen-RamseyTheorie" von Bialostocki und Dierker [1990]: In der klassischen Ramsey-Theorie sucht man, wie wir sehen werden, nach monochromen Konfigurationen; in der
VI. 1 Die finite Version des Satzes von Ramsey
105
Nullsummen-Ramsey-Theorie werden die Farben durch Elemente einer Gruppe ersetzt und man sucht nach Konfigurationen, deren Elemente sich zu Null summieren.
1
Die finite Version des Satzes von Ramsey
Wir betrachten zunächst die klassische, finite Version des Satzes von Ramsey [19301; im nächsten Abschnitt folgt dann eine unendliche Variante. Satz 1.1 (Satz von Ramsey). Zu beliebigen natürlichen Zahlen r,q\,... ,qt mit r < qi,... ,qt gibt es eine natürliche Zahl No mit folgender Eigenschaft: Ist Ν > Nq, M eine N-Menge, und ist eine Zerlegung von in t Teilmengen gegeben, etwa = Ρι U · · · U Pt, so existieren ein Index s e {1,... ,t} und eine Teilmenge M' von M mit
Wir schicken dem Beweis des Satzes von Ramsey einige Überlegungen voraus, die das Verständnis des Satzes fördern mögen. Insbesondere betrachten wir zwei Spezialfälle. (a) Für r = 1 kann man die 1-Teilmengen von M mit den entsprechenden Elementen identifizieren, also durch M ersetzen. Der Satz von Ramsey besagt dann, daß es zu beliebigen natürlichen Zahlen q\,..., qt ein No mit folgender Eigenschaft gibt: Ist \M\ > No und M = Mi U · · · U Mt, so gibt es mindestens ein s e { 1 , . . . , t} mit \MS\ > qs. Diese Aussage ist eine Form des verallgemeinerten Schubfachprinzips; der Satz von Ramsey ist also eine noch weitergehende Verallgemeinerung des Schubfachprinzips. (b) Für r = 2 kann man die 2-Teilmengen von M mit den Kanten des vollständigen Graphen Km auf der Punktemenge M identifizieren. Eine Zerlegung von in t Teile läßt sich dann anschaulich als eine Kantenfärbung des Km mit t Farben interpretieren. Der Satz von Ramsey besagt dann, daß es zu beliebigen natürlichen Zahlen ç i , . . . , qt ein A'o mit folgender Eigenschaft gibt: Ist \ M\ > No, so gibt es für jede Kantenfärbung des Km mit den t Farben 1, . . . , t eine Farbe .v sowie eine -Teilmenge M' von M, so daß sämtliche Kanten mit beiden Endpunkten in M' mit .v gefärbt sind. Der Satz von Ramsey stellt hier also die Existenz großer monochromer Teilgraphen sicher, vgl. Übung 1.2. Ganz analog kann man den Satz von Ramsey auch für r > 3 als eine Aussage Uber die Existenz großer monochromer Teil-Konfigurationen deuten.
106
VI
Der Satz von Ramsey
(c) Ist der Satz von Ramsey richtig, so gibt es zu beliebigen natürlichen Zahlen r,q\, ... ,qt mit r < q\,... ,qt natürlich auch ein minimales No mit der besagten Eigenschaft. Man schreibt dann No = R(q\,... ,qt; r) und nennt dies die Ramsey-Zahl zu r und q\,... ,qt. Das verallgemeinerte Schubfachprinzip liefert beispielsweise R(qi,...,qt;
1) = (91 - 1 ) + · · · + («, - 1) + 1.
Man kann sagen, daß Satz 1.1 die Existenz der Ramsey-Zahlen zum Inhalt hat. Man sieht leicht, daß stets R{q\,..., qt; r) > m a x { g i , . . . ,qt} gilt. (d) Seien beliebige natürliche Zahlen r, q\,..., qt mit r < q\,...,qt gegeben. Wir setzen q = m&x{q\,..., qt}\ dann besitzt R(q,..., q, t) die für r, qi, ..., qt geforderten Eigenschaften, es gilt also R(q\, ...,qt\r)
< R(q,
...,q\r).
Daher würde es genügen, Satz 1.1 im Falle q\ = · · · = qt zu beweisen. Übung 1.2. Man zeige, daß jede Kantenfärbung des vollständigen Graphen K(, auf 6 Punkten mit zwei Farben ein monochromes Dreieck enthält, und beweise R{3, 3; 2) = 6. Diese Tatsache wird gern wie folgt eingekleidet: Unter je sechs Personen auf einer Party finden sich drei, die sich gegenseitig kennen, oder drei, die sich gegenseitig nicht kennen. Beweis des Satzes von Ramsey. Für ί = 1 ist die Behauptung trivial: Es gilt offenbar R(qi\r) = q\. Als nächstes zeigen wir mit Induktion über t, daß es genügt, den Satz für t = 2 zu beweisen. Sei also t > 3, und der Satz sei für 2 , . . . , t — 1 bereits gezeigt. Für gegebene natürliche Zahlen r und q\, ... ,qt mit r < q\, ... ,qt betrachten wir den folgenden Fall mit t — 1 Zahlen: q[ = qi,...,
q't_2 = qt-2
sowie
q't_x = R{qt-1, qt\ r)\
wegen R(qt-i, qt\r) > max{qt-]_,qt} > r gilt dabei r < q[,..., q't_v Wir behaupten, daß wir No = R(q[,..., l't-1 ' r ) wählen können. Seien also \M\ > N0 und ( f ) = Pi U · · · U Pt_ι U Pt eine Zerlegung. Wir setzen nun p[ = Pi,..., und erhalten
p[_ 2 = Pt-2
= P[ U · · · U Pj
2
u
sowie
Ρ,'_ί = Ρ, , U P,
^V-i· Nach Induktionsannahme gibt es ein
M' ç M sowie einen Index s e { 1 , . . . , t - 1} mit \M'\ = q's und (Mr') ç P's. 1st
107
VI. 1 Die finite Version des Satzes von Ramsey
dabei s < t — 1, so ist \ M'\ = qs,(Mr) also \ M'\ = R(qt-i,
qt\r)
und wir sind fertig. Sei nun s = t — 1,
M
sowie ( r') ç Pt_l U Pt. Indem wirden zu Pt-1 Π (Mr)
und Ρ , π ( ^ ) gehörenden Zweier-Fall betrachten, finden wir ein M" ç M' ç M sowie einen Index s e {t — \ ,t} mit \M"\ = qs und diesem Falle fertig sind.
) ç pS! womit wir auch in
Es bleibt also nur noch die Existenz der Ramsey-Zahlen R(qi, qr. r) nachzuweisen, was mit Induktion liber r erfolgen wird. Der Induktionsanfang r = 1 folgt dabei - wie wir bereits gesehen haben - aus dem verallgemeinerten Schubfachprinzip: R(q\,qi\ 1) = q\ + q2 - l. Sei also r > 1, und die Behauptung gelte bereits für 1 , . . . , r — 1. Wir verwenden nun eine weitere Induktion, und zwar über q := q\ + q2. Der Induktionsanfang ist also der Fall q = 2r; wir zeigen gleich etwas allgemeiner: (1.1)
R(qí,r\r)
= qí
und
R(r, q2\ r) = q2.
Aus Symmetriegründen genügt es, die Behauptung für R(q 1, r; r) nachzuweisen; seien also \M\ > q\ und = P\ U P2 eine Zerlegung. Ist Ρ2 φ 0, so wählt man M' e P2, erhält \M'\ = r sowie (Mr) = {M'} ç p2 und ist fertig. Ist P2 = 0, so ist
= P\, und man kann M' als eine beliebige qy -Teilmenge von M wählen. Das eben Bewiesene erlaubt für den Induktionsschritt eine Beschränkung auf den Fall r < q\,q2. Die Induktionsannahme stellt dann die Existenz der RamseyZahlen R(q\ — 1, q2\ r) =: p\ und R{q\, q2 — 1; r) = : p2 sicher; zu zeigen ist, daß auch die Ramsey-Zahl R(q 1, qr. r) existiert. Wir beweisen sogar eine etwas stärkere Aussage, nämlich die Ungleichung (1.2)
R(q\,q2\r) R(p\, p2 \ r — 1) + 1 ; ferner sei eine Zerlegung = ρχ υ P2 gegeben. Wir wählen nun xq g M und setzen Mo = M \ {xo}. Hieraus leiten wir eine Zerlegung ( ^ j ) = Q \ U 02 vvie folgt ab: ß i = {A I Λ ç Mo, |A| = r - 1, Λ U {χ0} e Ρ,} GÌ = {A I A ç Mo, |A| = r - 1, A U {x0} e P 2 }. Da Mo mindestens R(p\, p2; r — 1) Elemente hat, gibt es ein Μ'ϋ ç Mo und ein k e {1,2} mit \M'Q\ = pk und
ç
QK. Sei etwa k = 1; der Fall k = 2
folgt analog. Es gilt also \M'0\ = p\ = R(q\ — 1, q2\ r) sowie Induktionsannahme tritt einer der beiden folgenden Fälle ein:
^ Q\• Nach
108
VI
Der Satz von Ramsey
Fall I. Es gibt ein M¡¡ ç M¿ mit \M'¿\ = q\ - 1 und ç Pì. Wir setzen nun M' = M{¡ U {jt0}. Dann ist \M'\ = q\. Ist Λ ç M', \A\ = r und sogar A ç M'¿, so ist A e Pi. Gilt dagegen xo e A, so ist Aç, = A \ {^o} eine (r — 1)-Untermenge von MQ, also in Q\, woraus ebenfalls A = AQ U {jco} e Pi folgt. Fall II. Es gibt ein M' ç m'q mit \M'\ = qi und fertig.
ç p2. Dann sind wir bereits
Damit ist der Satz von Ramsey vollständig bewiesen.
•
Bemerkung 1.3. Trotz intensiver Bemühungen konnten - abgesehen von den schon angegebenen trivialen Fällen r = \ ,t = 1 und (1.1)-bislang nur wenige RamseyZahlen bestimmt werden. Das einzige bekannte Resultat für r > 3 ist wohl immer noch R{4, 4; 3) = 13, siehe McKay und Radziszowski [1991J. Für r = 2 ist es üblich, statt R(qi, q2 \ 2) kurz R(qi, qi) zu schreiben; hier kennt man die folgenden Werte, vgl. West [19961: R(3, 3) = 6 R(3, 6) = 18 R(3, 9) = 36
R(3,4) = 9 R(3, 7) = 23 R(4,4)= 18
Ä(3,5) = 14 R(3, 8) = 28 Ä(4,5)=25
Für t > 3 ist noch R{3, 3, 3; 2) = 17 bekannt. Übung 1.4. Man verwende ( 1.2) und Induktion über η := ρ + q, um die folgende Abschätzung für die Ramsey-Zahlen mit r = 2 zu beweisen: (1.3)
R(p,q) 1 gibt es ein Ν > 1 mit folgender Eigenschaft: Unter j e Ν Punkten der Ebene in allgemeiner Lage gibt es stets η in konvexer Lage. Hinweis: Es genügt, η Punkte zu finden, von denen j e vier in konvexer Lage sind, wie die folgende Figur andeutet:
Übung 1.7 (nach Halder und Heise Γ19761). Ein Komponist, versehen mit einer endlichen Menge Κ von Klängen, teilt die daraus gebildeten Dreiklänge irgendwie in euphone ( = wohlklingende) und kakophone ( = übelklingende) ein. Man zeige, daß es zu jedem η e {1, 2 , . . . } ein Ν > 0 mit der folgenden Eigenschaft gibt: Falls \ K\ > Ν ist, kann der Komponist in einer passenden Klangmenge Ko ç Κ mit \K()\ > η entweder total euphon oder total kakophon komponieren.
2
Die unendliche Version des Satzes von Ramsey
Sowohl das klassische Schubfachprinzip als auch der Satz von Ramsey haben Varianten, die mit unendlichen Mengen arbeiten. Im Falle des Schubfachprinzips bedarf diese Variante keiner weiteren Erläuterung; mit ihrer Hilfe gewinnt man dann die unendliche Version des Satzes von Ramsey. Satz 2.1 (Unendliches Schubfachprinzip). Jede endliche Partition einer chen Menge enthält mindestens einen unendlichen Bestandteil.
unendli-
Satz 2.2 (Unendliche Version des Satzes von Ramsey). Es sei X eine unendliche Menge; ferner sei eine Zerlegung = P\ U · · · U P, von (Mr) gegeben. Dann gibt es einen Index s e {1,..., t} und eine unendliche Teilmenge XQ von X mit
110
VI
Der Satz von Ramsey
Beweis. Wir verwenden vollständige Induktion nach r ; dabei gilt der Induktionsanfang r = 1 nach Satz 2.1. Angenommen, der Fall r — 1 > 2 sei bereits erledigt. Wir betrachten nunmehr den Fall r und konstruieren eine geeignete Folge von Paaren ( S j , X j ) ( j = 1 , 2 , . . . ) . Dabei wählen wir Si als beliebige abzählbar unendliche Teilmenge von X sowie ein beliebiges x\ e S\. Wir setzen nun TU = {A\ A ç S , \{*i}, |A| = r — 1, ( ^ ( U A e P , }
(s =
\,...,t).
Offenbar gilt dann f 1 ^ 1 ) = Tu U · · · U Tu. Nach Induktionsannahme gibt es ein s e { 1 , . . . , t) und eine unendliche Menge 5*2 Ç Si \ {xi} mit ( ^ j ) ç T\s. Eine solche wählen wir als Si', in Si wählen wir ein beliebiges χι- Es ist klar, wie man jetzt sukzessive unendliche Teilmengen S\, S2, ... und paarweise verschiedene Elemente x\ e S\,x2 e S2, • • • mit S¡+1 ç S¡ \ {x¡} ( j = 1, 2 , . . . ) zu konstruieren hat. Es gibt dann zu jedem j e Ν einen Index í e {1, . . . , t] mit A Ç 5;+i, \A\ = r — \
{Xj} U A e Ps.
Nach dem unendlichen Schubfachprinzip gibt es ein 5 e { 1 , . . . , t] und eine Folge j 1 < h N(r, t) und ist M = {1,..., iV} mit r Farben geführt, so enthält M mindestens eine monochrome arithmetische Progression der Länge t. Wir werden Satz 2.4 als Spezialfall einer allgemeineren Aussage erhalten, die besser geeignet ist, um einen Induktionsbeweis anzusetzen. Dazu betrachten wir den m-dimensionalen Würfel W'tn+i Uber der Kante Wt+1 = {0, 1 , . . . , ?}: = {(x,,..., xm) I Xj e { 0 , . . . , t] für j = 1 , . . . , m};
VII.2
Beweis des Satzes von van der Waerden
1 15
es handelt sich also um die Gitterpunkte in einem normalen m-dimensionalen Würfel der Kantenlänge t. Weiter benötigen wir die folgenden Teilmengen: c™
, (0) = {(χ,,... ,xm) \ Xj
Cf+,(1) =
e { 0 , . . . , ? — 1} f ü r
{{x\,...,xm-\,t) I Xj e {0, ...,t -
j = 1,..., m};
1} f ü r
C™ ,(2) = {(xi,...,xm-2,t,t) \xj€{0,...,t-l}fürj C™+, (m -
1)
= {(jt, t,...,
i) I Jt = 0 , . . . ,
t-
j = 1, ...,m =
1};
l,...,m-2}·
1};
C™,(#n) = {(f, * , . . . , * ) } · Diese sogenannten Klassen in sind paarweise disjunkt, schöpfen aber W¡" { im allgemeinen nicht aus. Für j e d e Wahl von a, d\,..., dm e Ν definieren wir nun eine Abbildung μ : W'tn+X Ν wie folgt:
ß(x\, · • •, xm) = a + x\d\ + · · · + xmdm.
(2.1)
rn D a n n ist das Bild von C t +[(m — 1) unter einer der Abbildungen arithmetische Progression der Länge t, da
μ
gerade eine
μ(χ, t,... ,t) = a + xd\ + tdi + · · · + tdm = a + xdi m i t a ' = a + t(di + · • -+dm) gilt (für χ = 0, . . . , t — 1). Mit diesen Bezeichnungen können wir jetzt die folgende Aussage S(t, m) formulieren: Z u j e d e m re Ν gibt es ein N(t, m,r) e Ν mit folgender Eigenschaft: Ist Ν > N(t, m, r) und färbt man { 1 , . . . , N} mit r Farben, so gibt es n natürliche Zahlen α, d\,..., dm, f ü r d i e j e d e d e r Klassen C't +i{u) (u 0 , . . . , m) unter der gemäß (2.1 ) definierten Abbildung μ : ->· Ν ein monochromes, in M enthaltenes Bild hat.
=
M a n sieht unmittelbar, daß Satz 2.4 aus der Gültigkeit von S(t, 1 ) f ü r t = 1, 2 , . . . l folgt. In Wt +} gibt es nur die Klassen C / + 1 (0) und C / + 1 (1); Bilder von cj_|_j unter Abbildungen der Form (2.1 ) sind aber arithmetische Progressionen der Länge t, wie wir schon bemerkt haben. Daß es unter diesen Bildern m o n o c h r o m e gibt, bedeutet also gerade die Existenz monochromer arithmetischer Progressionen der L ä n g e t. Wir werden nun den folgenden, stärkeren Satz (und damit implizit alle Versionen des Satzes von van der Waerden) mit vollständiger Induktion beweisen:
Satz 2.5.
Für beliebige t, m e Ν gilt die Aussage S(t, m).
116
VII
Der Satz von van der Waerden
Beweis. Der Induktionsanfang 5(1, 1) ist trivial. Unser Induktionsplan sieht folgendermaßen aus: (2.2)
S(t, 1 ) , . . . , S(t, m)
(2.3)
S(t, 1), 5 ( i , 2 ) , . . .
S(t, m + 1); S(t + 1 , 1 ) .
Offensichtlich funktioniert die Induktion, wenn man (2.2) und (2.3) bewiesen hat: Mittels (2.2) gewinnt man aus 5(1, 1) nacheinander die Aussagen 5 ( 1 , 2 ) , 5(1, 3 ) , . . . N i m m t man diese alle zusammen, so ergibt sich 5(2, 1) mittels (2.3). Dann verwendet man wieder (2.2) und gewinnt die Aussagen 5(2, 2), 5(2, 3 ) , . . . , danach mittels (2.3) auch 5(3, 1) usw. Wir beweisen zunächst (2.2). Dazu setzen wir also die Gültigkeit der Aussagen S(t, 1),..., S(t, m) voraus und wählen r e Ν. Uns stehen dann insbesondere N(t, m, r) und N(t, 1, rp) zur Verfügung; wir setzen p = N(t,m,r)
sowie
q = N(t,
1, rp)
und leiten die Schlußfolgerung S(t, m + I ) für Ν = pq her. Offensichtlich haben wir dann S(t,m + 1 ) mit N(t, m + \,r)
= pq = N(t, m, r)-N{t,\,
rN(t'm'r))
gewonnen, da sich größere Ν stets auf kleinere, bei denen die Sache schon geklappt hat, zurückführen lassen (Übung!). Sei also Ν = pq. Wir färben { 1 , . . . , N] mit r Farben, wählen also χ : { 1 , . . . , A^} —> { 1 , . . . , r}. Nun teilen wir { 1 , . . . , N } = { 1 , . . . , pq] in q Blöcke B\,... ,Bq mit j e ρ Elementen auf: B\ = { 1 , . . . , p], B2 = {p + 1 , . . . , 2p}, ...,Bg
= {(q-l)p
+
l,...,qp}
und setzen X ( S l ) = ( χ ( 1 ) , . . . , χ(ρ)),
...,
x(Bq)
= (x({q-\)p+\),...,
X(qp)).
Schreibt man ~x(k) statt YiB^) und faßt { 1 , . . . , r}1' als neue Farbenmenge auf, so ist damit { 1 , . . . ,q} mit rp Farben gefärbt. Die neuen Farben sind also p-Tupel von alten Farben. Wegen q = N(t, 1, rp) g i b t e s i n { 1 , . . . , q} eine (in den neuen Farben) m o n o c h r o m e arithmetische Progression der Länge t. Sieht man sich die Entstehung von ~χ an, so heißt dies: In { 1 , . . . , pq] liegen t Blöcke mit j e ρ = N(t, m, r) Elementen; diese Blöcke liegen „in arithmetischer Progression" und tragen allesamt bei χ das nämliche Farbmuster. Wer über genügend Intuition verfügt, sieht hier schon das Ende des gegenwärtigen Beweisschrittes vor sich; jetzt muß man das Ergebnis nur noch anständig aufschreiben.
VII.2
Beweis des Satzes von van der Waerden
Es gibt also a', d' e Ν mit χ (α') = χ(α' + d') = ••• = χ(α' + (t - 1 Κ ) . Dies bedeutet χ((α'~
\)p + 1) = X((a'+d'~
\)p + 1) = ··· = χ((α' + (t - \)d' - \)p + 1)
X«a'p) = X(W + d')p) = ••• = χ((α' + (t - 1 )d')p) In diesem mit einigen Gleichheitszeichen durchsetzten Schema von pq alten Farben { 1 , . . . , r} steht als erste Spalte die Färbung eines Blocks der Länge p. Man kann dies als eine Färbung von { 1 , . . . , p] lesen. Wegen ρ = N(t,m,r) gibt es natürliche Zahlen α", d\, ..., dm, für die die Bilder der Klassen C™+] ( 0 ) , . . . , C"r+] (m) unter der zugehörigen μ,-Abbildung sämtlich monochrom sind. Die Monochromie des μ-Bilds von C"l+l(u) bedeutet dabei, daß die Farbwerte χ((α
— 1 )p+a
+ xidi + · · · + xm-udm-u
+ t (dm—u + 1 Η
h dm))
für alle x\,..., xm~u e {0, ..., t — 1} Ubereinstimmen. Somit dürfen wir im obigen Schema weitere Gleichheitszeichen eintragen: Die Farbwerte χ((α
+xd'
- l)p + a" + x\d\ H
h xm-udm-u
+ t(dm-u+\
H
h dm))
stimmen für alle x, x\,..., xm-u e { 0 , . . . , t — 1} Uberein. Setzt man nun a = (a'—l)p+a" und do = pd', so sieht man - abgesehen von einer Index-Numeri erung - daß sämtliche Klassen C ' ^ ( 0 ) , . . . , C ' ^ (m) für die zugehörige Abbildung der Form (2.1) monochrome Bilder haben. Die Monochromie des Bildes der einelementigen Klasse C'^ (m + 1) ist trivial. Man sieht außerdem leicht ein, daß die Abbildung μ nicht über {1, . . . , Ν} hinausschießt. Damit ist der Beweis von (2.2) geleistet. Wir beweisen nun (2.3). Wir setzen also sämtliche S(t,m) mit m e Ν als richtig voraus, wählen ein r e Ν und beweisen S(t + 1 , 1), d. h. die Existenz monochromer arithmetischer Progressionen der Länge t + 1. Wir zeigen, daß wir N(t + 1. 1, r) = N(t, r, r) setzen dürfen und wählen somit eine Zahl η > N(t, r, r). Dann färben wir { 1 , . . . , « } mit r Farben. Wegen η > N(t, r, r) gibt es α, d\, ... ,dr e Ν, derart, daß die r + 1 Klassen C[ + 1 (0), . . . , C[ + 1 (r) jeweils monochrome Bilder unter der Abbildung μ aus (2.1 ) bekommen. Da hier r + 1 Klassen, aber nur r Farben auftreten, bekommen die /U,-Bilder von zwei verschiedenen Klassen dieselbe Farbe. Es gibt also Indizes u und ν mit 0 < u < ν < r, für die die folgende Menge monochrom ist: {a + x\d\ + · · · + xudu + t(du+\ U {a + x\d\ + xvdv + t(dv+i
+ · · · + dr) \ + · · · + dr) \ x\,...
e {0 ,xv e {0,...,
ί - 1}} t — 1}}.
118
VII
Der Satz von van der Waerden
Diese m o n o c h r o m e M e n g e M enthält nun eine arithmetische Progression der Länge t + 1, nämlich {a + x(du+1
H
h dv) + t(dv+1
H
h dr) \ χ = Q,...
,t),
wobei die ersten t Glieder {x = 0 , . . . , t — 1) dem zweiten und das (t + l ) - t e Glied dem ersten Bestandteil von M entstammen. Damit ist auch der Schluß von S(t, 1), S(t, 2 ) , . . . a u f 5 ( i + l , 1) vollzogen und d e r B e w e i s von Satz 2.5 vollendet.
• Insbesondere haben wir somit den Satz von van der Waerden vollständig bewiesen. In den nächsten beiden Paragraphen - die man als historische Bemerkungen auffassen mag - diskutieren wir einige mit diesem Satz zusammenhängende Fragestellungen, ohne allerdings Beweise zu geben.
3
Der Satz von Szemerédi
Der Satz von van der Waerden gibt keine A u s k u n f t darüber, welche der Mengen M\,..., Mr in einer Zerlegung (3.1)
M = Mi U • · • U Mr
denn nun wirklich schön sind. Er sagt nur: Mindestens eine von ihnen ist schön. Erdös u n d T u r á n [19361 sprachen die folgende Vermutung aus: Ist M ç Ν und gilt 1 lim sup -\M oo η
C\ {1, ...,n}\
>
0
- man nennt diesen lim sup die obere Dichte d(M) von M - so ist M schön. Hieraus würde sich der Satz von van der Waerden sofort ergeben, denn aus (3.1) folgt unmittelbar, daß mindestens eine der oberen Dichten d(Mi),..., d(Mr) strikt positiv ist. Erdös und Turán gaben ihrer Vermutung eine genauere quantitative Form, f ü r deren Formulierung wir die folgende Schreibvveise einführen. Es sei rt(n) die maximale Mächtigkeit einer Teilmenge Β ç { 1 , . . . , « } , die keine arithmetische Progression der L ä n g e t enthält. M a n verifiziert sofort (3.2)
rt(m + n) < rt(m)
+
rt(n),
was sich der Leser klarmachen sollte. Somit genügt r, stets der Voraussetzung des folgenden bekannten L e m m a s , dessen Beweis dem Leser als Übung überlassen sei.
VII.3
119
Der Satz von Szemerédi
Lemma 3.1. Falls r : Ν -> M+fiir alle ra,»eN die Ungleichung r(m + n) < r(m) + r{n) erfüllt, so existiert I i m „ ^ ^
und hat einen endlichen Wert.
Die quantitative Version der Vermutung von Erdös und Turán (die inzwischen der Satz von Szemerédi ist) lautet nun: Satz 3.2 (Satz von Szemerédi). Es gilt (3.3)
rt •= lim -r,(n) η—too η
= 0 ßr alle t e Ν.
Übung 3.3. Man beweise: Falls rt = 0 gilt, enthält jede Menge M ç N mit strikt positiver oberer Dichte mindestens eine arithmetische Progression der Länge t. Insbesondere folgt aus (3.3), daß jede Menge M ç Ν mit strikt positiver oberer Dichte schön ist. Roth [ 19521 bewies 1952 r 3 = 0, vgl. auch Roth \ 1953,1954,19671. Erdös setzte für den Beweis von (3.3) einen Privat-Preis von 1000 $ aus. 1973 fand Szemerédi (publiziert in Szemerédi [1975J) einen Beweis für (3.3) und holte sich damit die 1000$; dieser Beweis ist eines der raffiniertesten und schwierigsten Probestücke mathematischen Denkens. Furstenberg [19771 gab einen Beweis von Satz 3.2 unter Ausnutzung tiefliegender, zum Teil von ihm neu entwickelter Methoden der Ergodentheorie, vgl. die Monographie Furstenberg [19811. Furstenberg und Weiss Γ19781 bewiesen den Satz von van derWaerden mitTechniken aus der topologischen Dynamik im sogenannten Shift-Raum; einen winzig kleinen Einblick in derartige Techniken gewährt Kap. V §2 dieses Buches. Erdös hat auch 3000 $ für den Beweis folgender Vermutung ausgesetzt: (3.4)
Jede Teilmenge M von Ν mit
— = oo ist schön. t—1 η neM
Da Pnmzahi ρ = ° ° S'' 1 · würde (3.4) insbesondere die Existenz beliebig langer arithmetischer Progressionen von Primzahlen implizieren, ein Resultat, das der Leser mit dem Dirischletschen Primzahlsatz 1.2 vergleichen sollte. Erdös soll gesagt haben, er könne für den Beweis von (3.4) ruhig auch 106 $ aussetzen, die er gar nicht besitze, denn er glaube nicht, daß er einen solchen Beweis erleben werde (womit er, der 1996 gestorben ist, recht behielt). Man sieht hier noch einmal, daß historisch gesehen das uralte Primzahl-Thema ständig im Hintergrund aller der von uns referierten Untersuchungen steht. In den gegenwärtigen Zusammenhang gehört auch Hindman [1974J.
•
120
4
VII
Der Satz von van der Waerden
Ergebnisse von Schur, Rado und Deuber
Wir beginnen mit einer chromatischen Formulierung des Satzes von van der Waerden im unendlichen Fall; man macht sich leicht klar, daß es sich in der Tat um eine äquivalente Umformulierung von Satz 1.4 handelt. Satz 4.1. Ist r e Ν und färbt man Ν mit r Farben, so gibt es monochrome metische Progressionen beliebiger Länge.
arith•
Dieser Satz hat eine Art Vorläufer, der von Schur [19161 stammt. Schur zeigte nämlich, daß es bei jeder Färbung von Ν mit r Farben monochrome Tripel {x, y, z] mit χ + >' = ζ gibt; man beachte, daß dies nicht aus dem Satz von van der Waerden folgt. Als Motiv stand hinter Schurs Untersuchung das Fermat-Problem. In der Tat bewies Schur mit Hilfe der soeben zitierten Aussage: Satz 4.2. Sei m e Ν. Dann gibt es ein po > 0, derart, daß für jede Primzahl Ρ > Po drei nicht durch ρ teilbare Zahlen x,y, ζ mit xm + ym = z.m mod ρ existieren. Der Satz von van der Waerden wurde in der Dissertation von Rado [1933a] weitergeführt, vgl. auch Rado Γ1933bl. Rado betrachtete ganzzahlige Matrizen A =
(üjk)/=l,...,m;
k=l,...,n
und fragte nach ganzzahligen Lösungen χ = { x \ , . . . , x„) e Ζ" des Gleichungssystems AxT = 0. Er nannte die Matrix A partitionsregulär, wenn dieses Gleichungssystem für jedes r und jede Färbung χ von Ν mit r Farben eine monochrome Lösung χ = ( x i , . . . , xn) e Ν" besitzt, also χ ( χ ο ) = · · · = χ(χη) gilt. Rado bewies dann die folgende Aussage: Satz 4.3. Die ganzzahlige Matrix A = (a/i)/=i,.... m ; k=l....,n ist genau dann partitionsregulär, wenn es eine Zerlegung { 1 , . . . , « } = D o U D i U · · - UZ), der Menge der Spaltenindizes gibt, so daß für die Spaltenvektoren a¡( = (a ;=i....,m folgendes gilt: £ « *
=
( 0,...,0)r
keD0
und für jedes σ = 1, ... ,s ist ^k&D mit i e Do U · · · U Da-\.
a
k e^ne rationale Linearkombination
der a,
VII.4
121
Ergebnisse von Schur, Rado und Deuber
Man sagt dann, daß die Matrix A die Spaltenbedingung erfüllt. Aus Satz 4.3 folgt der Satz von van der Waerden, indem man für die spezielle Matrix (~\
(4.1)
0 0 Vo
+1 0 -1 +1... 0 - 1 0
0
... ...
0 0 0
0 0 0
...
-1
+1
—1\ -1 -1 - \
/
die Spaltenbedingung nachweist, was wir dem Leserais Übungsaufgabe empfehlen. Danach schreibt man hin, was AxT = 0 bedeutet: X2
X\ — Xn
X3
X2 = Xn
Xn—1
Xfi—2 — Xfi?
womit {jci, . . . , x„-1} eine arithmetische Progression der Länge η — 1 und der Schrittweite xn ist. Jede monochrome Lösung von AxT = 0 liefert also eine monochrome arithmetische Progression der Länge n. Rados Ergebnis besagt also etwas mehr als der Satz von van der Waerden, da er die Existenz beliebig langer arithmetischer Progressionen liefert, die zusammen mit ihrer Schrittweite monochrome Mengen bilden. Insbesondere umfaßt Satz 4.3 im Gegensatz zu Satz 4.1 auch das oben zitierte Ergebnis von Schur [19161. Die Arbeiten von Deuber gehen von folgender Beobachtung aus, die leicht aus Satz 4.3 folgt: Korollar 4.4. Istre Ν und Ν = Μ γ U · · · U Mr eine Zerlegung von N, so gibt es mindestens ein ρ e {1,..., r},filr welches jede partitionsreguläre Matrix A über jim.n) eine u)sung χ = ,,, j χη) von AxT = 0 mit χι,..., xn e Μρ besitzt (für beliebige m,n). Beweis. Angenommen, es gibt zu jedem ρ e { 1 , . . . , r} ein A ^ e die Spaltenbedingung erfüllt, aber keine Lösung von A ( e ) x r = 0 mit χ e gestattet. Dann erfüllt ο \ A(2)
Λ = V o
AW/
das Μρβ
122
VII
Der Satz von van der Waerden
h1 ebenfalls die Spaltenbedingung und gestattet in keinem ' ' eine Lösung T von Ax = 0 (Übung!). Dies ist ein Widerspruch zu der durch Satz 4.3 gesicherten Partitionsregularitat von A. •
Aufgrund von Korollar 4.4 ist es sinnvoll, eine Menge M ç Z partitionsregulär 1 1 zu nennen, wenn für jede partitionsreguläre Matrix A e Ζ '"·" die Gleichung A x T = 0 eine Lösung χ e M n besitzt. Nach 4.4 ist also für jede Zerlegung Ν = M[ U · · · U M r mindestens eine der Mengen M i , . . . , M r partitionsregulär. Es gilt nun die folgende beachtliche Verstärkung dieses Ergebnisses: Satz 4.5. Ist M ç Ν partitionsregulär und M = M¡ U · · · U M's eine Zerlegung von M, so ist mindestens eine der Mengen M[,..., M's partitionsregulär. Satz 4.5 ist das Hauptresultat von Deuber \ 1973], der seine hierbei gefundenen Ansätze noch beträchtlich weiter verfolgt hat, siehe Deuber [1975a,b,cl. Weiterhin seien die Übersichtsartikel von Deuber [1989J und Leader [2003J erwähnt.
5
Der Satz von Haies und Jewett
In diesem Abschnitt formulieren und beweisen wir ein weiteres berühmtes Resultat vom van-der-Waerden-Typ, das von Haies und Jewett [1963J stammt und, wie wir sehen werden, ebenfalls den Satz von van der Waerden als Spezialfall enthält. Es sei bemerkt, daß man auch den Satz von Haies und Jewett - wie den von van der Waerden - mit Methoden der topologischen Dynamik beweisen kann, siehe Furstenberg und Weiss [1978], Wir werden dagegen rein kombinatorisch vorgehen und eine Erweiterung der beim Satz von van der Waerden angewendeten Beweismethode benutzen. Weiterführende Untersuchungen sind im Buch von Graham, Rothschild und Spencer [1990] dargestellt. Wie schon beim Beweis des Satzes von van der Waerden betrachten wir die Würfel { 0 , . . . , t}m = W™+x (m, t e Ν) und darin die Klassen C?+l ( 0 ) , . . . ,
c;«+1(m). Ist k < m, so kann man auf folgende Weise injektiv in W'\_l abbilden. Zunächst zerlegt man die Indexmenge { 1 , . . . , m) disjunkt in k + 1 Mengen BQ, B\,..., BK φ 0 und fixiert x¡ für j e BO jeweils beliebig; dann ordnet man jedem ( j i , . . . , y^) e sein Bild ( j q , . . . , xm) e zu, indem man für x¡ mit j e B{) die vorher fixierten Werte verwendet und auf B, mit i > 0 konstant Xj = y i setzt. Man benützt also die yi,... ,yu, um auf den B\,... ,Β^ entsprechende konstante Abbildungen vorzuschreiben. Teilmengen von W ^ , , die in dieser Weise als Bilder von Zustandekommen, nennt man k-dimensionale Unterräume U von W"?,. Die Bilder der Klassen
VII.5
Der Satz von Haies und Jewett
123
(0), . . . , C* +1 (k) bezeichnen wir mit Cf +X ( 0 ) , . . . , (k) und nennen sie die Klassen von U. 1-dimensionale Unterräume heißen auch Geraden. Geraden U in W¡" j entstehen also, indem man Komponenten in einem BQ fixiert und in B\ = { 1 , . . . , m} \ Bo ψ 0 nacheinander die Komponenten-Tupel 0 . . . 0; 1 . . . 1 ; ... ; t... t vorschreibt. Wir sehen uns dies einmal in einem Beispiel an. Sei t = 1, k = 2, m = 7, B0 = {1, 2, 7}, Bi = {3, 6}, B2 = {4, 5}, jq = χΊ = 0 und x2 = 1 · Dann erhalten wir U = {0100000, 0101100, 0110010, 0111110}, cjj+l(0) = {0100000}, 1) = {0101100},
cy+l(2) =
{0111110}.
Nach diesen Vorbereitungen können wir nun das Ergebnis von Haies und Jewett Γ19631 formulieren: Satz 5.1 (Satz von Haies und Jewett). Zu beliebigen r, t e Ν gibt es ein M{r, t) e Ν, derart, daß für m > M (r,t) stets folgendes gilt: Färbt man Wtm mit r Farben, so gibt es in Wtm eine monochrome Gerade. Vor dem Beweis von Satz 5.1 geben wir zunächst noch zwei Beispiele an, die zum Verständnis des Satzes beitragen sollten. Beispiel 5.2. Wir zeigen M(r, 2) < r. Der Würfel W™ besteht aus allen m-Tupeln von Nullen und Einsen; wir betrachten nun m + 1 von ihnen, und zwar ( 1 1 . . . 111), ( 1 1 . . . 110), ( 1 1 . . . 100), . . . , ( 1 0 . . . 0 0 0 ) ,
(00...000).
Für m > r gibt es unter diesen m-Tupeln - bei gegebener Färbung von TV™ mit r Farben - mindestens zwei gleichfarbige, etwa (1...1
1 ...1 0...0)
und
(1 . . . 1 0 . . . 0
0...0).
Offenbar bilden diese beiden m-Tupel zusammen eine monochrome Gerade in W™, wie verlangt. Beispiel 5.3. Wir leiten die chromatische Version des Satzes von der Waerden (Satz 2.4) aus Satz 5.1 ab. Hierzu wählen wir r,t,m e Ν mit m > M(r, t) und bilden M = { 0 , . . . , tm - 1} i-adisch bijektiv auf Wtm ab: η
(x\,...,xm)
η = x\ + X2t + X3Í2 + · · · +
xmtm~^.
Eine Färbung von M mit r Farben übersetzt sich dann in eine Färbung von W¡" mit r Farben; jede monochrome Gerade U ç W¡" liefert dabei eine arithmetische
124
VII
Der Satz von van der Waerden
Progression in Μ, wie wir uns jetzt überlegen. U wird ja durch eine Zerlegung { 1 , . . . , m) = Bq U B\ mit B\ ψ 0 und eine Auswahl von Elementen xj ( j e BQ) definiert. Wir setzen sowie ,/eßo
d =
t'
1
jeBl
und erhalten als i-adisches Bild von U in M die arithmetische Progression {a, a + d,..., a + td] der Länge t + 1 mit Anfangsglied a und Schrittweite d. Der Satz von Haies und Jewett impliziert also den Satz von van der Waerden, aber mit einer erheblichen Verschärfung, da nun die Schrittweite der sich ergebenden arithmetischen Progression eine Summe von lauter verschiedenen i-Potenzen ist. Beweis des Satzes von Haies und Jewett. Wir werden den Beweis durch vollständige Induktion führen und dabei die nachstehenden beiden Aussagen A(t) und B(t) (t = 1 , 2 , . . . ) verwenden. Aussage A(t). Zu beliebigem r e Ν gibt es ein M(r, t) e Ν, so daß für m > M{r, t) folgendes gilt: Färbt man W"1 mit r Farben, so gibt es in W}n eine monochrome Gerade. Aussage B(t). Zu beliebigen r, k e Ν gibt es ein L(r, t, k) e Ν , so daß für m > L(r, t, k) folgendes gilt: Färbt man Wr"+1 mit r Farben, so enthält W'" , einen ¿-dimensional en Unterraum U, dessen Klassen € ^ ( 0 ) , . . . , C^+l(m) monochrom (aber eventuell mit verschiedenen Farben) sind. Wir werden nun jür jedes t e Ν
beweisen. Da A(l) trivial ist (weil W[n immer nur aus einem Punkt besteht), folgt die Gültigkeit von A(l), A{2),..., also Satz 5.1. Man kann die dann ebenfalls bewiesene Gültigkeit von ß ( l ) , B(2),... als eine Variante des Satzes von Haies und Jewett ansehen. Wir setzen zunächst A(t) für t > 1 als richtig voraus und beweisen B{t) durch Induktion nach k. k = 1: Wir setzen, um es genau zu sagen, voraus, daß es zu beliebigem r e Ν ein M(r, t) e Ν gibt, derart, daß für m > M(r, t) und eine beliebige Färbung von W¡" mit r Farben eine monochrome Gerade U in W" existiert. Nunmehr wählen wir r e Ν beliebig und setzen L(r, t, 1) := M(r, t). Sei m > M(r, t). Wir färben W"^ mit r Farben. Wegen Wtm ç W"^ ist dann auch Wtm mit r Farben gefärbt, und wegen m > M(r, t) enthält W"1 eine monochrome Gerade. Diese Gerade bildet die Klasse C + j(0) einer Geraden in Wtm.l (Übung!). Da 1) nur aus einem
VII.5
Der Satz von Haies und Jewett
125
Punkt besteht und somit automatisch monochrom ist, enthält W"l+X eine Gerade U mit monochromen Klassen Ct+l {1, ...,
(0), C?+l (1).
k] -> k + 1 : Wir nehmen also an, daß es zu j e d e m r e Ν und zu j e d e m
k' e Ν mit k' < k ein L ( r , t, k') e Ν gibt, derart, daß f ü r jedes m' > L{r, t, k') und j e d e Färbung von Wtn+i mit r Farben ein A'-dimensionaler Unterraum U' von W"^
existiert, dessen Klassen Cf+X (u) (u = 0 , . . . , k f ) monochrom sind. N u n m e h r wählen wir ein r e Ñ und setzen m = L{r, t, k)
sowie
5 =
';
s ist also die Anzahl aller möglichen Färbungen von W^ m' = L(s, t, 1) und zeigen, daß wir
L(r,t,k+
+ m = L(r(i+1)L(''a),
1 )=m'
k, 1
setzen dürfen. Sei also χ eine Färbung von ψΐη+m
e¡nen
Qç
mit r Farben. Wir setzen
)+L(r,t,k)
mit r Farben; es genügt, in
i)-dimensionalen Unterraum mit monochromen Klassen zu
finden; denn würde man m' + m durch eine größere Zahl ersetzen, so hätte m a n lediglich m ' entsprechend zu vergrößern und die nun folgenden Schlüsse ablaufen zu lassen (Übung!). Wir identifizieren W " +"' mit dem cartesischen Produkt w ; ; ' , χ w ; ; , = [xy
\x
e
w™',,
y
e w;;,},
wobei wir statt (x, y) einfach xy schreiben. Wir färben W'tn+l mit í = Farben, indem wir
r{-t+^m
x'OO = (x(xy))yew™+l setzen; die Werte von χ' sind also Muster von „alten" (bei χ verwendeten) Farben auf Wt"[v Wegen m' — L(s, t, 1) gibt es in
eine Gerade U' mit bezüglich χ'
m o n o c h r o m e r Klasse C f + X { 0 ) (die andere Klasse C ( ' i , besteht nur aus einem Element und ist daher trivialerweise monochrom):
X'(x) = (x(xy))yeW?+l ist also f ü r alle jt e C ^
j
(0) dasselbe Muster von „alten" Farben auf Η7('" ¡ . Dieses
Muster, d. h. diese Färbung von W™+1 mit den r „alten" Farben, nennen wir ~χ. Wegen m = L(r,t,k)
gibt es in W'tn+X einen
bezüglich γ monochromen Klassen
U = U' xU
fc-dimensionalen . . . , C^+l(k).
Unterraum U mit
Wir bilden jetzt
ç w™', χ W"l, = W'n'+m
126
VII
und zeigen, daß die Klassen C ^ f O ) , . . . , sprüngliche Färbung χ sind. Hierzu bemerken wir c£,(0) =
+ 1) monochrom f ü r die ur-
c£',(0) X c £ , ( 0 )
C f + i ( l ) = C^'1(0)
C¡j+I(k+\)
Der Satz von van der Waerden
=
xCf+l(\)
C^1(1)XCY+I(k).
Nach der Definition von ~χ und U sind dabei die ersten k + 1 Klassen monochrom. Die (k + 2)-te besteht aber nur aus einem Element und ist deshalb automatisch monochrom. Wir betonen noch nachträglich, daß die Definition der Klassen in einem - etwa (k + l)-dimensionalen - Unterraum von der gewählten Numerierung der Bestandteile B\,..., Bic+1 der zugehörigen Zerlegung der Indexmenge abhängt (hier {1, 2 , . . . , m ' + m}); natürlich ist das obige Gleichungssystem nur bei einer ganz bestimmten Numerierung richtig, die zu erraten und exakt aufzuschreiben wir dem Leser anheimstellen. Schließlich setzen wir B(t) voraus und beweisen A(t + 1). Also geben wir r e Ν vor; wir wählen dann m = L ( r , t, r ) und färben Wtn+i mit r Farben. Wegen B(t) gibt es einen r-dimensionalen Unterraum U' von M7;'" j mit m o n o c h r o m e n Klassen C ^ ' , ( 0 ) , . . . , (r). Wir stellen U' als Bild von W[+i dar, übertragen die Färbung von U' nach Wf+l und betrachten die r +1 in diesem Würfel liegenden r-Tupel (0, 0 , . . . , 0, 0), ( 0 , 0
0, í)
(0, í
t, t), (t, t , . . . , t, t).
Dann haben zwei dieser r-Tupel dieselbe Farbe. Wir schreiben diese beiden r-Tupel kurz so: (0... (5.1)
0
(0...0
0...
0
t...t
t...t) t...t).
Die r-Tupel (0... 0
t
...t)
(5.2) (0...
0
t - 1...
t - 1
t...t)
VII.5
127
Der Satz von Haies und Jewett
haben ebenfalls diese Farbe, weil ihre Bilder mit dem Bild von (0...0
0...0
t...t)
in derselben Klasse von U' liegen und diese Klasse monochrom ist. Die Bilder der in (5.1) und (5.2) aufgelisteten r-Tupel bilden daher in W™+ ] eine m o n o c h r o m e Gerade, womit A(t + 1) nachgewiesen und der Beweis beendet ist. •
VIII Codes
Unter einem Code versteht man in der Umgangssprache eine Verschlüsselungsvorschrift. Man bildet beispielsweise Nachrichten, die in verständlicher Sprache formuliert sind, injektiv - man möchte schließlich keine Information verlieren - in Abracadabra-Folgen von Symbolen ab und hofft dann etwa, daß „der Gegner" die Abbildung nicht kennt und somit nicht imstande ist, den „Code zu knacken". Diese Art von „Codes" (die man besser und exakter als „Chiffren" bezeichnen sollte) sind aber nicht der Gegenstand der Codierungstheorie; sie gehören vielmehr in die bereits am A n f a n g von §111.7 diskutierte Kryptographie. Beispiele aus der Kryptographie täuschen leicht darüber hinweg, daß das Verschlüsseln („Codieren") von Informationen - etwa zum Z w e c k e fehlerfreier Übermittlung - ein alltäglicher Vorgang in Natur und Technik ist. Das Ziffernblatt unserer Uhren codiert Zustände unseres Sonnensystems, unsere Schrift codiert Gedanken. In j e d e m Computer werden Unmengen von Codierungen getätigt, in j e d e r lebenden Zelle ist der genetische Code am Werk. Bei einer digitalen T o n a u f n a h m e werden die Klänge in Symbolfolgen codiert, bei einer klassischen in Magnetisierungen eines Speichers. Danach folgt die erneute Codierung in die mechanische Well en struktur der Schallplatten-Rille bzw. das Muster von „pits" und „lands" auf einer CD. In der Tat stellt der CD-Spieler einen der großartigsten Anwendungserfolge der algebraischen Codierungstheorie dar; auch die Übertragung von gestochen scharfen Satellitenbildern wäre ohne diese Theorie nicht denkbar. Mit den Worten von Claude Shannon ( 1 9 1 6 - 2 0 0 1 ) , der die sogenannte Informationstheorie begründet hat (und, nebenbei gesagt, mit seiner Arbeit Shannon [1949] auch der Begründer der mathematischen Kryptographie ist und zweifellos eines der größten Genies des vorigen Jahrhunderts war): The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point. Die Informationstheorie hat seit dem Erscheinen der grundlegenden Arbeit von Shannon [19481 (siehe auch Shannon und Weaver [19491) eine große Entwicklung durchgemacht, die zu einer Aufteilung der Theorie in einen stochastisehen und einen algebraischen Teil führte, wenn es auch oft dieselben Forscher sind, denen
Vili. 1
Sofort bzw. eindeutig entzifferbare Codes
129
beide Teile wichtige Impulse verdanken. Die stochastische Informationstheorie hat sich, teilweise fern aller industriellen Praxis, zu außerordentlicher innerer Vollkommenheit entwickelt; zusammenfassende Darstellungen geben Chintschin et al. Γ1957], Wolfowitz [1964] und Feinstein [1978], Den algebraischen Aspekt behandeln beispielsweise Peterson [1973], Peterson und Weldon [1972], Ash Γ1965], Mac Williams und Sloane L1977], Blahut L1983], Jungnickel L1995], Betten et al. Γ19981 sowie van Lint \ 19991. Beide Aspekte der Informationstheorie finden bei Gallager [19681, Berlekamp [1984], McEliece Π 984], Heise und Quattrochi [1989] und Schulz [1991J Berücksichtigung. Besonderes Verdienst um den Brückenschlag zwischen stochastischer und algebraischer Informationstheorie hat sich die Monographie von Cziszár und Körner [1981] erworben. Im vorliegenden Kapitel geben wir vier typische Kostproben aus der kombinatorisch-algebraischen Informationstheorie: • Entzifferbarkeit von Codes • Prüfziffersysteme • Fehlerkorrigierende Codes • Algebraische Codierungs-Theorie. Beim letzteren Thema stoßen wir - unter Benützung einiger fundamentaler Hilfsmittel aus der Algebra der endlichen Körper, wie wir sie bereits in §111.3 zusammengestellt haben - über lineare und zyklische Codes bis zu den sogenannten BCH-Codes vor. Hinter dieser Grenze erwartet den tiefer Eindringenden eine Fülle faszinierenden Materials. Die algebraische Codierungstheorie ist heute mit zahlreichen anderen kombinatorischen Teildisziplinen eng verwoben; ein Juwel an solcher Verwobenheit stellen die sogenannten Golay-Codes dar, die wir immerhin definieren werden. In einer Einführung in die Kombinatorik ist für die ausführliche Behandlung dieser Materialfülle nicht genügend Platz. Interessierte seien insbesondere auf die Darstellungen der Codierungstheorie bei van Lint Γ19991 oder auch Jungnickel [1995] verwiesen sowie auf die Monographien von van der Geer und van Lint L1988J, Cameron und van Lint [1991] sowie Assmus und Key [1993J, die speziell den Verbindungen der Codierungstheorie zu Designs, Graphen, endlichen Geometrien und der algebraischen Geometrie (über endlichen Körpern) gewidmet sind. Von großem praktischen Interesse sind auch die sogenannten Faltungscodes, auf die wir hier gar nicht eingehen können; wir verweisen für dieses Thema auf die Bücher von Piret Γ19881 sowie Johannesson und Zigangirov Γ19991.
1
Sofort bzw. eindeutig entzifferbare Codes
In diesem Abschnitt wollen wir einen ersten, relativ einfachen Einblick in die kombinatorische Theorie der Codierungen gewinnen.
130
VIII
Codes
Definition 1.1. Seien A, Β endliche nichtleere Mengen. B* bezeichne die Menge {•} U B n der endlichen Folgen von Elementen von B; die Elemente von B* werden auch B-Wörter genannt, das Symbol • bezeichnet dabei das sogenannte leere Wort. Es ist klar, was man unter der Länge eines Wortes versteht. Eine injektive Abbildung c : Α Β* \ { • } wird auch als ein A-B-Code bezeichnet; die dabei auftretenden Bilder c(j) von Elementen von A werden auch als die Codewörter von c bezeichnet. Man hat damit einen A - 5 - C o d e als eine mit A numerierte Liste von nichtleeren Codewörtern aus B* definiert. Aus 5-Wörtern . . . , w ^ wird durch schlichtes Aneinanderhängen ein neues 5-Wort w ^ . . . w ( r \ Man kann c auf natürliche Weise zu einer Abbildung c* : A* B* erweitern: £·*(•) = C*{x\ . ..xn)
• = c(x l ) . . . c ( x n )
{x\, ...,xn
e A).
Definition 1.2. Ein A-5-Code c : Α Β* \ { • } heißt sofort entzifferbar, wenn bei ihm kein Codewort als Anfangsabschnitt eines anderen Codewortes auftritt. Dieser Begriff ist eine Antwort auf das Problem der Entzifferung: Iste* injektiv? Wenn ja, wie sieht man einem Wort aus B* an, ob es ein c*-Bild ist, und wie findet man gegebenenfalls das zugehörige Urbild in A*? Wurde ein sofort entzifferbarer Code verwendet, so liest man ein Wort w aus B* von links, bis ein Codewort vollendet ist und notiert dessen Urbild, ein Element von A; dann wiederholt man diesen Vorgang mit dem Rest von w. Die Eigenschaft, daß kein Codewort Anfang eines anderen ist, garantiert, daß man so das eindeutig bestimmte c*-Urbild von w bekommt oder aber feststellt, daß es ein solches nicht gibt - wenn das Verfahren nämlich nicht „aufgeht". Sind alle Codewörter gleich lang, so hat man natürlich einen sofort entzifferbaren Code vor sich. Ein Beispiel mit variablen Codewort-Längen ist für A = {1, 2, 3} und Β = {a, b} durch c(\) = aa,
c(2) = ab,
c(3) = b
gegeben. Hier das Beispiel einer Entzifferung: aa\ab\ab\aa\b\ab\aa
= c*(1221321).
Satz 1.3. Seien Α, Β endliche nichtleere Mengen, \A\ = a, \B\ = b und n¡ e Ν ( j e A). Dann sind folgende Aussagen äquivalent:
Vili. 1 (i)
Es
131
Sofort bzw. eindeutig entzifferbare Codes gibt einen
gerade
sofort
die Länge
entzifferbaren
η ¡
A-B-Code
c, bei dem das
Codewort
c(j)
besitzt.
(ii) Es gilt die Kraftsche Ungleichung (Kraft L1949J) ^ >
(1.1) v
1 —
2 ist, ist Ci offenbar ein (η — 1, M, d — 1, g)-Code, falls man für i eine Koordinate wählt, in der sich zwei Codewörter vom Abstand d unterscheiden. • Man sagt, daß der Code C,· im Beweis von Lemma 3.5 durch Punktieren aus C konstruiert ist. Indem man dieses Verfahren (d — l)-mal anwendet, ergibt sich ein (d — l)-fach punktierter Code, nämlich ein (n — d + 1, M, 1, ç)-C,ode, also eine Teilmenge der Mächtigkeit M von B n ~ d + i . Somit erhalten wir das folgende Resultat, vgl. Singleton L1964J: Satz 3.6 (Singleton-Schranke). Es gilt A(n,d,q)
< qn~d+{.
•
Definition 3.7. Ein Code, der die Singleton-Schranke mit Gleichheit erfüllt, heißt ein MDS-Code (für „maximum distance separable"). Beispiele hierfür werden wir in Satz 6.9 kennenlernen. MDS-Codes sind sowohl theoretisch wie auch praktisch besonders interessant, da sie eng mit endlichen projektiven Geometrien zusammenhängen (siehe dazu Satz IX.6.14) und beispielsweise bei der Fehlerkorrektur für den CD-Spieler eingesetzt werden; vgl. dazu Vanstone und van Oorschot \ 1989] oder Jungnickel [1995J.
144
VIII
Codes
Unsere zweite Schranke geht auf Hamming [19501 zurück. Satz 3.8 (Kugelpackungsschranke). Es gilt (3.2)
qn
A(n,2e+l,q)
(H') = m' sowie q der Schnittpunkt von H und H'. Dann gilt in der Tat 0(p, q) = m und 0{p', q) = m'. Umgekehrt sei jetzt N ( n ) = η — 1. Nach Satz III.2.8 gibt es ein orthogonales (n + 1, w)-Array O, etwa für K, G, 5" mit |ΑΓ| = η+_ 1, |G| = n2,\S\ = n. Wir dürfen Κ HG = 0 annehmen und bilden nun Ρ = KUG. Dann ist \P\ = n2+n + 1 , wie es sich für die Menge der Punkte einer projektiven Ebene der Ordnung η gehört. Sei Go = K\ für j e Κ, h e S bilden wir Gjh
= {j}U{l\lzG,
0(j,l)=h}.
Wir setzen % = {G 0 } U {Gjh | j £ K, h £ S] und erhalten = η2 + η + 1, wie es sich für die Menge aller Geraden einer projektiven Ebene der Ordnung η gehört. Als Inzidenzrelation verwenden wir natürlich die Elementbeziehung e. Nun ist nachzuweisen, daß wir tatsächlich eine projektive Ebene der Ordnung η konstruiert haben. Man sieht sofort, daß jeder Punkt auf genau η + 1 Geraden
178
IX
Endliche projektive Ebenen und Räume
liegt und jede Gerade genau η + 1 Punkte hat. Die Gerade Go = Κ schneidet jede andere Gerade G ¡h in genau einem Punkt, nämlich in j. Zwei verschiedene Geraden G¡/¡, G¡k schneiden sich im Falle i = j, h Φ k nur in i e Κ, im Falle i Φ j in dem einzigen Punkt l e G, für den 0(i, l) = h und 0(j, l) = k gilt. Als nächstes konstruieren wir ein Viereck. Wir wählen i, j e Go = K mit i φ j und zwei Geraden G¡1, und G 7 ¿, deren Schnittpunkt wir mit ρ bezeichnen; man beachte ρ φ Κ. Durch ρ gibt es nun noch mindestens eine weitere Gerade und auf dieser einen Punkt q φ K\ von den vier Punkten i, j, p, q liegen dann tatsächlich keine drei auf einer Geraden, wie man leicht nachprüft. Nun schließen wir endlich auf die Existenz und Eindeutigkeit der Verbindungsgeraden von zwei verschiedenen Punkten. Liegt einer der Punkte auf Go, so ist dies schon bekannt; handelt es sich um l, m e G, so sehe man sich die η + 1 Geraden durch l an. Auf jeder dieser Geraden liegen η Punkte Φ 1 : das liefert eine disjunkte Überdeckung von Ρ \ {/}, bei der also m genau einmal getroffen wird. • Korollar 2.2. Wenn es keine projektive N(n) < n - 1.
Ebene
der Ordnung
η gibt, so gilt •
Definition 2.3. Sei Π = (Ρ, I) eine endliche projektive Ebene der Ordnung n. Wir setzen ,/V = n 2 + n + 1 und definieren eine (Ν χ AO-Matrix A = (ajk)j,k=i,....N, indem wir Ρ und Ç) beliebig numerieren, etwa als Ρ = {Pì,...,PNÌ und
und
I
£ = {Gi,...,Gjv},
I
für p ¡ auf Gk
0
sonst
setzen. Dann heißt A eine Inzidenzmatrix von Π. L e m m a 2.4. Sei A eine Inzidenzmatrix einer endlichen projektive Ebene der Ordnung n. Dann gilt (2.1) wobei J die (Ν χ N)-Matrix = 1 sind.
AAT=nI
+ J,
(Ν = η2 + n +1 ) bezeichnet, deren Einträge
sämtlich
Beweis. Sei M = AAT. Wegen m¡¡ = aiküjk zählt m,·/, wie oft die Punkte Pi und pj auf einer Geraden G¿ liegen. Für i Φ j ist dies aber genau einmal und für i = j genau (n + l)-mal der Fall. •
IX.2
179
Existenzfragen
Im nächsten Abschnitt werden wir die Eigenwerte der Matrix in (2.1) benötigen, die man leicht explizit angeben kann: Übung 2.5. Man zeige: Die Matrix nl + J aus Lemma 2.4 hat den Eigenvektor 7 = ( l , l , . . . , l ) r zum Eigenwert (n + l ) 2 sowie die Ν — 1 linear unabhängigen Eigenvektoren
( v^
/ 0 \
1 \
=
v™
V0 /
/ 0 \ ν (N-1) _
=
0 1
Voy
zum Eigenwert n. Insbesondere sind die Matrizen M und daher auch A über Q invertierbar. Wir interpretieren nun die Bedeutung der Gleichung (2.1) in der Sprache der Linearen Algebra: AIAT = ni + J besagt gerade, daß die (Ν χ AO-Matrizen I und ni + J äquivalent sind, also bis auf die durch die Matrix A beschriebene Basistransformation dieselbe symmetrische Bilinearform darstellen. Man kann diese Tatsache verwenden, um den folgenden Nichtexistenzsatz von Bruck und Ryser [1949J zu beweisen: Satz 2.6 (Satz von Bruck und Ryser). Sei η e Ν mit η = 1 (mod 4) oder η = 2 (mod 4). Wenn der quadratfreie Teil von η einen Primteiler ρ = 3 (mod 4) hat, gibt es keine projektive Ebene der Ordnung n. Dabei ist der quadratfreie Teil einer natürlichen Zahl η als das Produkt derjenigen Primzahlen definiert, die in der Primzahlpotenzzerlegung von η zu einer ungeraden Potenz erscheinen. Wir werden Satz 2.6 zunächst unbewiesen lassen, da wir in § XI.2 eine Verallgemeinerung auf sogenannte symmetrische Blockpläne zeigen wollen. Ein bekannter Satz der Zahlentheorie besagt, daß eine natürliche Zahl η genau dann als Summe zweier Quadrate geschrieben werden kann, wenn der quadratfreie Teil von η nur Primteiler q = 1 (mod 4) hat; einen Beweis hierfür findet man beispielsweise bei Hardy und Wright [1938J oder bei Ireland und Rosen [1990J. Satz 2.6 kann daher auch wie folgt formuliert werden: Satz 2.7 (Satz von Bruck und Ryser). Sei ne Ν eine natürliche Zahl mit η = 1 (mod 4) oder η = 2 (mod 4). Wenn es eine projektive Ebene der Ordnung η gibt, ist η die Summe zweier Quadrate.
180
IX
Endliche projektive Ebenen und Räume
Übung 2.8. Man zeige: Ist η = 6 (mod 8), so gibt es keine projektive Ebene der Ordnung n. Aus Korollar 2.2 folgt insbesondere, daß für alle in Satz 2.6 beschriebenen Zahlen η die Ungleichung N(n) < w — 1 gilt. Nun besagt ein tiefliegendes Ergebnis von Bruck [1963J, das später von Metsch [1991J noch deutlich verstärkt werden konnte, daß N(n) = η — 1 gelten muß, falls der Wert von N(n) eine Schranke / ( « ) , die nahe genug bei η — 1 ist, überschreitet; dabei bedeutet „nahe genug" nach Metsch grob gesprochen, daß N(n) — f(n) nur in der Größenordnung von Zfñ liegt. Für eine genaue Formulierung und den sehr aufwendigen Beweis sei der Leser auf §X.7 von Beth, Jungnickel und Lenz [19991 verwiesen. Wir wollen hier lediglich zur Illustration einige konkrete Schranken angeben, die man auf diesem Wege erhalten kann: N(n)· Ρ \ {po} definiert, die fixpunktfrei ist (weil niemand sein eigener Freund ist) und / o / = id erfüllt, womit man die zu einer Sternfigur gehörige Zerlegung von P\{/?o} in zweielementigeTeilmengen hat. Wir verwenden also (*), um in einigen Schritten vier Punkte in Π zu konstruieren, von denen keine drei auf einer Geraden liegen; dabei bedienen wir uns der oben eingeführten Veranschaulichung. (1) Jeder Freundschafts-Strich kommt in genau einem Dreieck vor, wie direkt aus B G F folgt. (2) Für jedes ρ e Ρ ist \π(ρ)\ eine gerade Zahl v(p), und ρ kommt in genau v(p)/2 Dreiecken vor. Man sieht dies, indem man ähnlich wie oben gemäß f (q) \= F(p,q) eine Abbildung / : π(ρ) π (ρ) mit / o / = id konstruiert.
186
IX
Endliche projektive Ebenen und Räume
(3) Es ist | P | > 4. Dazu wähle man ρ e Ρ beliebig. Dann ist ρ £ π{ρ), aber π (ρ) enthält, weil es in Ρ noch einen zweiten Punkt q gibt, mindestens den einen Punkt F(p, q), also nach (2) mindestens zwei Punkte, die natürlich von ρ verschieden sind. Nach (*) ist {p} U π{ρ) φ Ρ, also gibt es in Ρ noch mindestens einen vierten Punkt. (4) Enthält jedes G e % genau zwei Punkte, sind wir nach (3) trivialerweise fertig. Wir dürfen also ab jetzt davon ausgehen, daß es mindestens ein G = π (ρ) e $ mit |G| > 3 gibt; wegen (2) gilt dann sogar |G| > 4 . (5) Wir wählen zunächst eine Gerade G = π {ρ), die mindestens drei Punkte enthält. Wegen (*) gibt es einen Punkt q, der nicht auf G liegt. Dann enthält G die voneinander verschiedenen Punkte r = F(p. q) und .v = F(p. r). Nach Wahl von G liegt aber auf G noch mindestens ein weiterer Punkt, den wir t nennen. Damit erhalten wir die untenstehende Figur. Es gilt also t ~ ρ ~ r ~ q. Keine drei von diesen vier Punkten haben einen gemeinsamen Freund außerhalb {/, p. r, q\ (wegen des Vierecksverbotes für (P, Es haben aber auch keine drei von ihnen den vierten zum gemeinsamen Freund: r t und ρ q, weil s der gemeinsame Freund von ρ und r ist. Somit haben wir in der Tat vier Punkte in Π gefunden, von denen keine drei auf einer Geraden liegen. Es bleibt nur noch zu bemerken, daß wegen (2) die Abbildung τι bijektiv, also wirklich eine Polarität ist. •
Ρ
G =f(p) r
5
Kollineationen und der Satz von Singer
In diesem Abschnitt betrachten wir Automorphismen endlicher projektiver Geometrien (die meist als „Kollineationen" bezeichnet werden) und beweisen die Existenz besonder „schöner" Symmetriegruppen.
IX.5
187
Kollineationen und der Satz von Singer
Definition 5.1. Sei Π eine endliche projektive Geometrie auf der Punktemenge Ρ mit Geradenmenge also entweder eine projektive Ebene ( P , / ) oder ein projektiver Raum wie in Definition 1.9. Eine bijektive Abbildung a : Ρ Ρ heißt eine Kollineation von Π, wenn (5.1)
a(G) := {a(p)
\ ρ e G} e g
für alle
gilt, wenn also a Geraden auf Geraden abbildet und somit - wegen der Endlichkeit von Π - die Geradenmenge permutiert. Übung 5.2. Man zeige, daß eine unter der Multiplikation mit Skalaren abgeschlossene Teilmenge W eines (η + l)-dimensionalen Vektorraums V über GF(q) genau dann ein Unterraum von V ist, wenn U mit zwei verschiedenen Punkten U\ und U2 von PG(n, q) (also mit zwei 1-dimensionalen Teilräumen von V) stets auch ihre Verbindungsgerade (also U\ + Ui ) enthält, und folgere daraus, daß jede Kollineation eines projektiven Raumes ¿-dimensionale Teilräume auf ¿-dimensionale Teilräume abbildet. Beispiel 5.3. Sei Π = PG(n,q), η > 2. Dann induziert jede bijektive lineare Abbildung a des Vektorraums GF(q)n+i in offensichtlicher Weise eine Kollineation von Π, die der Einfachheit halber schlampigerweise wieder mit a bezeichnet sei. Nach Übung 5.2 bildet a auch ¿-dimensionale Teilräume von Π auf ¿-dimensionale Teilräume ab, insbesondere also Hyperebenen auf Hyperebenen. In homogenen Koordinaten sieht das wie folgt aus. Zunächst identifizieren wir, in leichter Verallgemeinerung des in Beispiel 3.2 eingeführten Sachverhalts für PG(2, q), sowohl die Punkte wie die Hyperebenen mit lediglich bis auf einen Skalar bestimmten Vektoren χ Φ 0 bzw. [κ] Φ [0]; das ist sinnvoll, da jetzt der Kern einer nichttrivialen Linearform χ u T χ gerade eine Hyperebene ist. Wir geben nun eine invertierbare ((« + 1) χ {η + 1))-Matrix A über GF(q) vor; dann induziert α : χ ι->· Ax also eine Kollineation, die auf den Hyperebenen gemäß a : [M] H^ [ ( Λ _ 1 ) γ Μ ] operiert: xl[u]
uTx = 0
((A~h)Tu)TAx
= 0
Αχ I
[(A~V)Tu}.
Die bijektiven linearen Abbildungen von V, die bekanntlich die lineare Gruppe GL(n + 1, q) bilden, induzieren also eine Kollineationsgruppe von PG(n, q), die die projektive lineare Gruppe heißt und mit PGL(n, q) bezeichnet wird. (Man beachte den Übergang von η + 1 zu η in der projektiven Terminologie!) Übung 5.4. Man zeige, daß eine bijektive lineare Abbildung a des Vektorraums GF(q)n+l genau dann die Identität auf PG(n,q) induziert, wenn a die Form χ 1—y λ,χ für einen Skalar λ / 0 hat. Mit der Bezeichnung Hin + I. q) =
188
IX
Endliche projektive Ebenen und Räume
{λ id I λ e GF(q)*} istalsoPGL(«, q) zur Faktorgruppe GL(n + \ ,q)/H(n isomorph.
+ \,q)
Bemerkung 5.5. Man kann Beispiel 5.3 etwas verallgemeinern, indem man bijektive semilineare Abbildungen a von V = GF(q)n+l verwendet; eine solche Abbildung a ist durch die beiden Forderungen (a) a(x + >·) = a(x) + a(y) für alle x, y e V (b) α(λχ)
= τ(λ)α(χ)
für alle χ e V, λ e GF(q)
definiert, wobei r ein (von a abhängiger) Automorphismus von GF(q) zu sein hat, vergleiche Satz III.3.8. Man sieht sofort, daßjede bijektive semilineare Abbildung von V eine Kollineation von Π = PG(n, q) induziert. Die Bedeutung dieses Begriffes liegt nun darin, daß diese Konstruktion bereits alle Kollineationen von Π liefert (Zweiter Hauptsatz der Projektiven Geometrie)·, einen Beweis hierfür findet man beispielsweise bei Artin [1957] oder Lenz [19651. Sei G eine Permutationsgruppe, die transitiv auf einer Menge X operiert; zu beliebigen x, y € X gibt es also ein β e G mit ß(x) = j . Falls G abelsch ist, kann dann keine von der Identität verschiedene Permutation in G einen Fixpunkt auf X haben, wie man leicht nachprüft. Daher kann insbesondere kein a e G eine größere Ordnung als |X| haben, da sonst ja (für gegebenes χ e X) a-i (χ) = a k ( x ) für zwei verschiedene Potenzen von a gelten müsste, womit dann die Permutation a->~k φ id den Fixpunkt χ hätte. Falls also a die Ordnung |X| hat, muß G die von a erzeugte zyklische Gruppe sein und regulär (auch: scharf transitiv) auf X operieren: Zu beliebigen x, y e X gibt es genau ein β e G (also genau eine Potenz von a) mit ß(x) = y. Der folgende fundamentale Satz von Singer [1938J besagt nun, daß Π = PG(n,q) stets eine derartige Kollineationsgruppe G zuläßt; jede solche Gruppe heißt dann eine Singergruppe von Π. Zunächst jedoch noch ein konkretes Beispiel: Beispiel 5.6. Wir betrachten nochmals die Repräsentation der projektiven Ebene Π = PG(2, 2) der Ordnung 2, die wir in Beispiel 1.3 angegeben haben. Offenbar induiziert die Abbildung x ^ i + 1 (mod 7) eine Kollineation a der Ordnung 7 von Π, womit die von a erzeugte zyklische Gruppe G eine Singergruppe für Π ist. Satz 5.7 (Satz von Singer). Sei q eine Primzahlpotenz
und η e Ν. Dann enthält
PGL(n + 1, q) eine zyklische Untergruppe der Ordnung H q_,ι , die sowohl auf den Punkten als auch auf den Hyperebenen von PG(n, q) regulär operiert. Beweis. Nach Beispiel 5.3 induziert jedes a e GL(n + 1, q) eine Kollineation von Π = PG(n, q). Wir identifizieren nun den Vektorraum GF(q)n+i mit dem
IX.6
Bögen und MDS-Codes
189
Erweiterungskörper L = GF(qn+i) des Körpers Κ = GF(q), vergleiche Satz III.3.7; L wird also als (n + l)-dimensionaler Vektorraum über Κ betrachtet. Die Multiplikation λχ von Vektoren in L mit Skalaren aus Κ ist also einfach durch die Einschränkung der Multiplikation in L a u f w e r t e λ e Κ gegeben. Nach Satz III.3.5 ist die multiplikative Gruppe L* zyklisch von der Ordnung qn+l — 1. Jedes Element a e L* induziert nun eine bijektive lineare Abbildung aa des ÄT-Vektorraums L gemäß aa(x) = ax für alle χ e L und daher nach Beispiel 5.3 auch eine Kollineation ßa von Π; dabei gilt ßa = id nach Übung 5.4 genau für a e Κ*. Somit induziert die zyklische Untergruppe G = {aa I a e L*} von GL{n + I, q) eine zyklische Permutationsgruppe der Ordnung ν = (qn+] - l ) / ( q - l ) auf den Punkten von Π, nämlich die Faktorgruppe G/H(n + \ ,q). Da ν gerade die Anzahl aller 1-dimensionalen Unterräume von L (also die Mächtigkeit der Punktemenge Ρ von Π) ist, folgt der erste Teil der Behauptung. Der zweite Teil ergibt sich ganz analog unter Verwendung homogener Koordinaten für die Hyperebenen. • Abschließend noch eine Bemerkung zu den Beispielen 1.3 und 5.6: Hier sind die Punkte als die Elemente der zyklischen Gruppe ZL, der Ordnung ν gegeben, wobei ν wieder die Anzahl der Punkte von Π bezeichnet. Hat man eine zyklische Singergruppe G vorliegen, so kann man offenbar stets eine derartige Numerierung der Punktemenge vornehmen, indem man ausgehend von einem „Basispunkt" ρ die Bilder von ρ unter den Potenzen eines Erzeugers a von G durchläuft. Analog kann man auch die Geraden (bzw. im allgemeinen Fall die Hyperebenen) als die Bilder einer „Basisgeraden" D erhalten, die man dann - durch Identifikation ihrer Punkte mit den zugehörigen Elementen in ZL, - als eine Teilmenge von ZL, auffassen kann; allgemeine Geraden bzw. Hyperebenen nehmen dann die Form D + χ = {d+x
\χ
£Ζυ]
an, wobei χ über X, läuft. Aufgrund des Satzes von Singer erlaubt nun jede endliche projektive Geometrie PG(n, q) eine derartige Darstellung. Man nennt die Menge D c Z » eine „Differenzmenge", da die Differenzen, die man aus den Elementen in D bilden kann, gleichmäßig über Z„ verteilt sind. Wir werden uns mit diesem Ansatz in Kapitel XI in allgemeinerer Form näher beschäftigen.
6
Bögen und MDS-Codes
Wie (hoffentlich) aus der Schule bekannt ist, schneidet in der euklidischen Ebene eine Gerade einen Kegelschnitt in höchstens zwei Punkten. Wir wollen jetzt die entsprechende Bedingung in endlichen projektiven Ebenen untersuchen:
190
IX
Endliche projektive Ebenen und Räume
Definition 6.1. Sei Π = (Ρ, e) eine endliche projektive Ebene. Eine Teilmenge Β c Ρ wird ein Bogen genannt, wenn \B Π G\ < 2 für jede Gerade G gilt; für \B\ = k spricht man auch von einem k-Bogen. Ein &-Bogen Β heißt vollständig, wenn er in keinem (k+ l)-Bogen enthalten ist. Man nennt eine Gerade eine Sekante, Tangente oder Passante von B, je nachdem, ob sie Β in zwei Punkten, in einem Punkt oder Uberhaupt nicht schneidet. Nach Definition enthält jede projektive Ebene Vierecke, also 4-Bögen. Für die Fano-Ebene aus Beispiel 1.3 gibt es offenbar keine größeren Bögen. Im allgemeinen müssenjedoch größere Bögen existieren, was wir sogleich mit einem sehr einfachen Zähl argument beweisen werden. Satz 6.2. Sei Β ein vollständiger k-Bogen in einer endlichen projektiven Ebene der Ordnung n. Dann gilt k > Beweis. Würde es einen Punkt geben, der auf keiner Sekanten von Β liegt, so könnte man ihn offenbar zu Β hinzufügen und auf diese Weise einen größeren Bogen erhalten. Da Β vollständig ist, müssen also die (ί;) Sekanten von Β die η2 +n + 1 — k Punkte der Ebene außerhalb von Β überdecken. Da jede Sekante η — 1 solche Punkte abdeckt, erhalten wir die triviale Abschätzung k(k— 1 )(« — 1) > 2 (n2 + n+ 1 —k), woraus die Behauptung leicht folgt. • Bevor wir konkrete Beispiele konstruieren, wollen wir zunächst auch eine obere Schranke beweisen; danach überlegen wir uns, was man im Fall der Gleichheit sagen kann. Diese Ergebnisse stammen von Bose [Ί947] bzw. von Qvist [1952], Satz 6.3. Sei Β ein Bogen in einer endlichen projektiven Ebene der Ordnung n. Dann gilt:
I
n + 2 jfür η sgerade η + 1 für η ungerade.
Beweis. Sei ρ ein beliebiger Punkt von B. Da jede Gerade durch ρ höchstens einen weiteren Punkt q e Β enthalten kann und jeder solche Punkt q mit ρ verbunden sein muß, folgt unmittelbar | 5 | < n +2. Falls hierbei Gleichheit gilt, istjede Gerade durch ρ eine Sekante; es kann dann also keine Tangenten geben. Wir betrachten nun die Geraden, die einen beliebigen Punkt r £ Β mit den η + 2 Punkten von Β verbinden. Wie wir gesehen haben, sind diese Geraden sämtlich Sekanten, was offenbar nur dann geht, wenn η + 2 gerade ist. Für ungerade η folgt somit | Β \ < « + 1 .
•
IX.6 Bögen und MDS-Codes
191
Definition 6.4. Ein (η + l)-Bogen in einer endlichen projektiven Ebene der Ordnung η heißt ein Oval und ein (n + 2)-Bogen ein Hyperoval. Satz 6.5. Sei Β ein Oval in einer endlichen projektiven Ebene der Ordnung n, wobei η gerade sei. Dann gehen sämtliche Tangenten von Β durch einen gemeinsamen Punkt, den Nukleus von B, und man kann Β zu einem Hyperoval Η erweitern, indem man den Nukleus zu Β hinzufügt. Weiterhin ist Η das einzige Β umfassende Hyperoval. Beweis. Jeder Punkt von Β liegt offenbar auf genau einer Tangenten und« Sekanten, nämlich den Verbindungsgeraden zu den übrigen η Punkten von Β ; es gibt also insgesamt genau η + 1 Tangenten. Wir betrachten nun die Geraden, die einen beliebigen Punkt r φ Β mit den η + 1 Punkten von Β verbinden; da η + 1 ungerade ist, muß hierbei mindestens eine Tangente auftreten. Sei nun G eine Sekante von B. Da - wie wir eben gesehen haben - jeder der η + 1 Punkte von G auf mindestens einer Tangenten liegt und es nur η + 1 Tangenten gibt, muß jeder Punkt von G auf genau einer Tangenten liegen. Mit anderen Worten: Keine zwei Tangenten können sich in einem Punkt schneiden, der auf einer Sekanten liegt. Daraus folgt sofort, daß alle η + 1 Tangenten durch einen gemeinsamen Schnittpunkt ρ gehen müssen; dann ist Η = Β U {ρ} immer noch ein Bogen, also ein Hyperoval. Offensichtlich kann Β auf keine andere Weise zu einem Hyperoval erweitert werden, da jeder Punkt q φ ρ außerhalb von Β auf Sekanten von Β liegt. • Übung 6.6. Man verbessere die Abschätzung aus Satz 6.2 zu > η, indem man die η Punkte außerhalb von Β auf einer Tangenten von Β betrachtet. Übung 6.7 (Qvist). Sei Β ein Oval in einer endlichen projektiven Ebene der Ordnung n, wobei η ungerade sei. Man zeige, daß ein Punkt r ^ Β entweder auf genau zwei oder aber auf gar keiner Tangenten von Β liegt. Die Frage, ob eine beliebige projektive Ebene Ovale enthalten muß, ist ungeklärt und schwierig. Leider fehlt auch ein aktueller Übersichtsartikel Uber die Konstruktion von Bögen und Ovalen in beliebigen Ebenen; einiges zu diesem Thema findet man beispielsweise bei Korchmáros [1991J sowie bei de Resmini, Ghinelli und Jungnickel [2002J. Für die klassischen Ebenen kann man jedenfalls sehr leicht konkrete Beispiele angeben: Beispiel 6.8. Es sei Β die Menge aller Punkte in Π = PG(2, q) mit homogenen Koordinaten der Form (1, t, t2)T oder (0, 0, l ) r , also (6.2)
Β = {(1, t, t2)TK
I t e Κ) U {(0, 0, 1 )TK),
192
IX
Endliche projektive Ebenen und Räume
wobei wir Κ = GF{q) schreiben. Wir behaupten, daß Β ein Oval ist. Dazu genügt es nachzuprüfen, daß j e drei der in (6.2) angegebenen Koordinatenvektoren linear unabhängig sind. Aus der linearen Algebra wissen wir, daß j e drei verschiedene Vektoren des Typs {\,t,t2) linear unabhängig sind, da die Determinante einer Matrix der Form
mit paarweise verschiedenen t,u,v nicht 0 sein kann. Es handelt sich hier nämlich um eine sogenannte Vandermonde-Matrix, f ü r die dies bekanntlich gilt (was man auch leicht direkt nachrechnen kann); siehe etwa Koecher [1992, p p . l 2 6 - 1 2 7 J . Schließlich sind (0,0,1) und zwei verschiedene Vektoren der Form (1, t, t2) offenbar ebenfalls linear unabhängig. Falls q gerade ist, kann man auch den Nukleus von Β leicht explizit angeben, nämlich als ρ = (0, 1 , 0 ) Γ ί Τ . D a die Erweiterung von Β zu einem Hyperoval nach Satz 6.5 eindeutig bestimmt ist, genügt es zu zeigen, daß der Vektor (0,1,0) nicht von zwei der bisherigen Vektoren linear abhängig sein kann. Einerseits sind nun (0,1,0), (0,0,1) und ein Vektor der Form (1, t, t2) stets linear unabhängig; und andererseits sind f ü r gerades q auch (0,1,0) und j e zwei verschiedene Vektoren der Form (1, t, t2) linear unabhängig, da das Quadrieren dann eine Bijektion ist. Man beachte, daß f ü r ungerade q die Vektoren (0,1,0), (0, t, t2) und (0, —t, (—i) 2 ) linear abhängig sind, womit Β dann - wie es nach Satz 6.3 j a der Fall sein m u ß - nicht um den Punkt (0, 1, 0 ) τ Κ erweitert werden kann. Wir merken an, daß die homogenen Koordinaten der Punkte von Β die quadratische Gleichung xf = χ ο χ 2 erfüllen, womit Β also ein Kegelschnitt ist. Ein berühmtes Resultat von Segre [1955J besagt, daß jedes Oval i n P G ( 2 , q). q ungerade, ein Kegelschnitt sein muß; einen Beweis findet man etwa bei Hirschfeld [1998, §8.2J. Für gerade q werden Hyperovale, die aus einem Kegelschnitt durch Hinz u f ü g e n seines Nukleus hervorgehen, regulär genannt; es gibt aber daneben auch andere Beispiele. Die Klassifikation der Hyperovale ist eines der wesentlichen ungelösten Probleme der Galois-Geometrie; der interessierte Leser sei auf Hirschfeld [1998J oder den Übersichtsartikel von Cherowitzo [1996J verwiesen. In den Beispielen 6.8 and 3.2 tauchen jeweils Kegelschnittgleichungen auf. Das legt die Vermutung nahe, Ovale und Polaritäten könnten etwas miteinander zu tun haben. Wie die folgende Übung zeigt, ist dies tatsächlich der Fall; einen Beweis findet man beispielsweise bei Hughes und Piper [1982], Ü b u n g 6.9. Es sei π eine Polarität einer endlichen projektiven Ebene der Ordnung n, die genau 11 + 1 absolute Punkte hat (vgl. Satz 3.4); derartige Polaritäten heißen
IX.6
Bögen und MDS-Codes
193
orthogonal. Man zeige: Falls η ungerade ist, bilden die absoluten Punkte von Π ein Oval, und anderenfalls eine Gerade. Bemerkung 6.10. Die bisher erzielten Ergebnisse verdeutlichen, daß die geometrischen Eigenschaften von PG(2, q) entscheidend davon abhängen, ob q gerade oder ungerade ist: • Für gerade q sind Ovale nicht die größtmöglichen Bögen, sondern stets zu Hyperovalen ervveiterbar. • Für gerade q bilden die absoluten Punkte einer orthogonalen Polarität kein Oval, sondern eine Gerade. Da Ovale und Polaritäten aber beide - wie erwähnt - mit Kegelschnitten zusammenhängen, mag der Leser an dieser Stelle etwas verwirrt sein. Die Diskrepanz ist aber nur scheinbar: Der in Beispiel 6.8 eingeführte Kegelschnitt Β besteht nämlich genau dann aus den absoluten Punkten einer orthogonalen Polarität, wenn q ungerade ist. In diesem Fall kann man die Gleichung x \ = xo^2 in der Tat in der Form x T Ax = 0 schreiben, wobei A die invertierbare symmetrische Matrix
ist; für gerade q geht das dagegen nicht, da dann ja 2 kein Inverses hat. Wir erwähnen noch, daß es in PG{2, q) im wesentlichen nur einen Kegelschnitt gibt: Je zwei Kegelschnitte können durch ein Element der projektiven linearen Gruppe PGL{2, q) ineinander transformiert werden. Einen Beweis hierfür findet man beispielsweise bei Lenz [19651 oder bei Hughes und Piper [Ί982]. Wir wollen jetzt den Begriff des Bogens in einer projektiven Ebene auf projektive Räume verallgemeinern; dies ist insbesondere wegen einer recht überraschenden Verbindung zur Codierungstheorie von großem Interesse. Um die dort üblichen Parameter zu erhalten, werden wir jetzt η und k in einem anderen Sinne als bisher verwenden. Definition 6.11. Ein n-Bogen in einer projektiven Geometrie PG(k,q) ist eine Menge Β von η Punkten, von denen keine k + 1 in einer Hyperebene liegen. Man sagt dann auch, daß die Punkte von Β in allgemeiner Lage sind. Beispiel 6.12. Es sei Β die Menge aller Punkte in Π = PG(k, q) mit homogenen Koordinaten der Form (l,t,t2,... ,tk)T bzw. (0, 0 , , . . . , 0, l ) r . Man sieht dann ganz analog zum Vorgehen in Beispiel 6.8, daß Β ein (q + l)-Bogen ist. Β heißt eine rationale Normkurve; mehr zu diesem Thema findet man bei Hirschfeld und Thas [1991, § 27.5J.
194
IX
Endliche projektive Ebenen und Räume
Ü b u n g 6.13. Man f ü h r e den Nachweis dafür, daß die M e n g e Β aus Beispiel 6.12 ein B o g e n ist, in Einzelheiten durch. Ferner zeige man, daß j e k + 2 Punkte von PG(k, q) (q > k + 1) in allgemeiner Lage auf einem (q + l ) - B o g e n Β liegen. Hinweis: Man kann einen solchen Bogen als Bild der rationalen N o r m k u r v e Β aus Beispiel 6.12 unter einer geeigneten Kollineation erhalten. Wir können nun den Z u s a m m e n h a n g zwischen Bögen und linearen M D S - C o d e s erklären, der implizit in der Arbeit von Bose [1961J enthalten ist (wo allgemeiner der Z u s a m m e n h a n g zwischen linearen Codes und projektiven Geometrien untersucht wird), aber explizit wohl erstmals im Buch von M a c Williams und Sloane \ 1977] formuliert wurde.
Satz 6.14. Die Existenz eines linearen [n,k,n — k + 1, q]-MDS-Codes ist äquivalent zur Existenz eines n-Bogens in PG(k — 1 ,q). Beweis. Sei zunächst ein n - B o g e n Β = {p\, ..., pn] in PG(k — 1, q) gegeben; ferner sei v¡ ein Koordinatenvektor f ü r den Punkt /;, (für i = 1, . . . , η). Sei nun Η die (k χ «)-Matrix mit Spalten t > i , . . . , vn. D a keine k der η Punkte von Β in einer Hyperebene liegen, sind j e k Spalten von Η linear unabhängig. Nach Satz VIII.4.4 ist Η die Kontrollmatrix eines linearen [n,n—k,d, ç ] - C o d e s C mit d > k + 1 , und wegen der Singleton-Schranke (III.4.2) muß dabei sogar d = k+1 gelten. C istalso ein M D S - C o d e der Dimension η — k; nach Satz III.4.8 ist C1 dann der gewünschte M D S - C o d e . Diese Konstruktion läßt sich umkehren, womit die Behauptung folgt.
• Z u s a m m e n mit Beispiel 6.12 liefert Satz 6.14 die Existenz zahlreicher M D S Codes und verstärkt dabei sogar das Ergebnis aus Satz V1I1.6.9 etwas:
Korollar 6.15. Für jede Primzahlpotenz q und jede natürliche Zahl k mit 2 £ k S q — 1 gibt es einen linearen [q + \, k, q + 2 — k, q]-MDS-Code. • Wir wollen abschließend noch einige Bemerkungen zum Existenzproblem f ü r M D S - C o d e s machen, das als eines der fundamentalen offenen Probleme der Codierungstheorie gilt. Mit m(k, q) sei - f ü r gegebenes k und q - der Maximalwert von η bezeichnet, f ü r den em\n,k,n — k + l, q ]-MI)S-Code existiert; nach Satz 6.14 ist m(k, q) auch die maximale Mächtigkeit eines Bogens in PG(k — 1, q). Die Werte m(3, q) sind somit nach Satz 6.3 und Beispiel 6.8 vollständig bekannt. Für k φ 3 liefert die Griesmer-Schranke III.4.9 zusammen mit Korollar 6.15 die folgende nichttriviale, wenn auch im allgemeinen nicht sonderlich gute Abschätzung:
IX.7
Unterebenen und Blockademengen
195
Proposition 6.16. Für 2 < k < q — \ gilt: (6.3)
q + 1 < m(k,q)
Beweis.
< q +k
- 1.
Sei C ein [n, k, η — k + 1, g]-Code. Aus (III.4.3) erhält man η > N(k, d,q)>(n-k
+ 1) +
~n-k
+ 1
+ (k - 2).
Für η — k + 1 > q ergibt sich hieraus aber der Widerspruch η > η + 1, weswegen « — £ + 1 < q gelten muß. • Korollar 6.17. Für q > 3 gilt m(2, g ) = q + 1.
•
Ü b u n g 6.18. M a n zeige, daß ein [n, k, η - k + 1, g ] - M D S - C o d e mit k < η - 2 nur f ü r q > k + 1 existieren kann. Es wird vermutet, daß stets \q + 1 /t N myk, q) = { μ + 1
für 2 < k < q für
q η + -Jñ + 1
mit Gleichheit genau dann, wenn Β eine Baer-Unterebene
von Π bildet.
Ebene
IX.7
199
Unterebenen und Blockademengen
Beweis. Wir setzen χ = \B \ sowie xq = \B Π G \ für G e
Da jeder Punkt von Β
auf genau η + 1 Geraden liegt und durch j e zwei Punkte genau eine Gerade geht, erhalten wir sofort die beiden Gleichungen Y
Y
XG(XG
XG
- \ )
=
X{N
+
=
X{X
-
1)
1).
GE§,
Weiterhin gilt stets 1 < xq S x — n, da Β eine Blockademenge ist und somit j e d e der η Geraden Φ G durch einen Punkt ρ e G \ Β jeweils mindestens einen Punkt von Β enthalten muß. Damit erhalten wir die Gültigkeit der folgenden Abschätzung: 0
J
-
η
-
χG)(XG
- 1) =
(JC
-n)[(x(n
+ 1) - (n2 +n
+ 1)] - x(x - 1),
Ge§, also χ2 - 2x(n + 1) + (η2 + η + 1) > 0. Da das Polynom x2 — 2x(n + 1) + (η2 + η + 1) die Nullstellen η ± *Jn + 1 hat, folgt hieraus unmittelbar die Behauptung.
•
Es liegt nun nahe, allgemein nach den Blockademengen minimaler Mächtigkeit in PG{2, q) zu fragen. Falls q ein Quadrat ist, sind dies aufgrund der eben erzielten Resultate genau die Baer-Unterebenen; im allgemeinen ist dieses Problem jedoch ungelöst. Für Primzahlen q gilt \ B\ > 3 (q + 1 ) / 2 ; diese bereits von di Paola [1969J geäußerte Vermutung wurde schließlich von Blokhuis [1994J bewiesen. Wie das folgende Beispiel zeigt, ist diese Schranke scharf: Beispiel 7.8. Es sei q eine ungerade Primzahlpotenz. Wir betrachten das durch die Koordinatenvektoren ( 1 , 0 , 0 ) r , (0, l , 0 ) r und ( 0 , 0 , l ) r gegebene Dreieck {P\, Pi - P3Ì in Ρ G (2. q). Die von den drei Ecken verschiedenen Punkte auf den Seiten des Dreiecks haben dann Koordinatenvektoren der Form (0, \,a)T (Punkte auf P2P3), (1, 0, b)T
m\ia φ 0
mit b φ 0 (Punkte auf p\p^) bzw. (—c, 1, 0 ) r mit
c Φ 0 (Punkte auf p\ pi)· Dabei liefern drei derartige Vektoren genau dann kollineare Punkte, wenn sie linear abhängig sind, wenn also a = be gilt. Wir wählen nun Β als die Menge aller derjenigen Punkte des Dreiecks, die wir erhalten, wenn α, b, c die Quadrate in GF(q)*
durchlaufen, zuzüglich der drei Ecken; dann gilt in der Tat
\B\ = 3(q + l ) / 2 , siehe Übung ΠΙ.3.10. Eine beliebige Gerade G enthält entweder eine der Ecken des Dreiecks oder schneidet die drei Seiten des Dreiecks in drei Punkten mit Koordinatenvektoren der eben angegeben Form, für die a = bc gilt; da das Produkt zweier Nichtquadrate in GF(q)
nach Übung 1Π.3.10 ein Quadrat
200
IX
Endliche projektive Ebenen und Räume
ist, schneidet G die Menge Β auch in diesem Fall in in mindestens einem Punkt. Somit ist Β in der Tat eine Blockademenge. Die in Beispiel 7.8 konstruierten Blockademengen heißen projektive Dreiecke. Nach Ghinelli und Jungnickel [2003b] kann man die projektiven Dreiecke auch wie folgt synthetisch beschreiben: Man wähle einen Kegelschnitt C und drei Punkte o, p, q in C; dann bilden diese drei Punkte zusammen mit allen Schnittpunkten von Tangenten von C mit einer der drei Seiten des Dreiecks opq ein projektives Dreieck. Es ist bislang nicht gelungen, alle Blockademengen der (minimalen) Mächtigkeit 3(q + l ) / 2 in PG(2, q), q Primzahl, zu bestimmen. Das einzige weitere exakte Resultat betrifft den Fall q = ρ3, ρ Primzahl: Hier ist die minimale Mächtigkeit einer Blockademenge durch ρ 3 + ρ 2 + 1 gegeben, siehe Blokhuis [1996J. Zahlreiche weitere Resultate sind in den Artikeln von Hirschfeld und Storme \ 1998,2001] aufgelistet. Mehr über Blockademengen findet man auch bei Hirschfeld \ 19981.
8
Anwendungen in der Kryptographie
In diesem Abschnitt diskutieren wir zwei Anwendungen projektiver Ebenen in der Kryptographie. Zunächst wollen wir noch einmal kurz auf die in § III.7 behandelten Authentikationscodes eingehen. Wie wir in Satz III.7.4 gesehen haben, sind perfekte Authentikationscodes mit n 2 Schlüsseln und r Datensätzen zu orthogonalen Arrays OA(r, n) äquivalent, weswegen man mit einem perfekten Authentikationscode mit η2 Schlüsseln und η Authentikatoren maximal r = η + 1 Datensätze authentifizieren kann. Aufgrund der Sätze 2.1 und III.2.8 wird diese Schranke genau dann angenommen, wenn es eine projektive Ebene Π der Ordnung η gibt, insbesondere also für Primzahlpotenzen n. Wir verwenden jetzt projektive Ebenen für eine direkte geometrische Realisierung von perfekten Authentikationssystemen (ohne den Umweg über orthogonale Arrays); allerdings werden wir dabei eine etwas modifizierte Form erhalten, bei der die Nachrichten nicht Paare (.v. a) aus Datensatz s undAuthentikatora sind, sondern selbständige Objekte, aus denen man aber sofort den Datensatz berechnen kann. Auch wäre es kein Problem, die zuvor verwendete Form als Authentikationscode herzustellen. Satz 8.1. Es sei Π = (Ρ, e) eine projektive Ebene der Ordnung n. Wir wählen eine Gerade G o und definieren ein Authentikationssystem (S, JC, M) wie folgt: • Die Datensätze in S sind die Punkte von GQ. • Die Schlüssel in Κ sind die Punkte in Ρ \ GQ.
IX.8
A n w e n d u n g e n in der Kryptographie
201
• Die Nachricht zu einem Datensatz ist die Gerade Η = pq.
q ε Go und einem Schlüssel ρ e Ρ \ Go
Dann ist (S, -Κ. M) ein perfektes Authentikationssystem
mit \ JC\ = n2.
Beweis. Man beachte zunächst, daß aus jeder Nachricht Η der zugehörige Datensatz q trivial als Η Π Go berechenbar ist. 3 Wir betrachten zuerst einen Impersonationsangriff, wo also der Angreifer keine gültige Nachricht kennt. Zu jedem Datensatz q e Go existieren genau η mögliche Nachrichten, nämlich die η Geraden Η Φ Go durch q\ jede dieser Nachrichten gehört zu η Schlüsseln, nämlich den Punkten ρ e Η \ {q}. Also ist die Wahrscheinlichkeit dafür, eine gültige Nachricht zu dem gewünschten Datensatz q zu wählen, n/n2 = 1 / « , da die Schlüssel - wie üblich als gleich wahrscheinlich vorausgesetzt sind. Nun zu einer Substitutionsattacke, bei der der Angreifer also eine gültige Nachricht H und damit den Datensatz q = Η Π Go kennt; die denkbaren Schlüssel sind jetzt die Punkte ρ e H \ {q}. Für jeden Datensatz q' φ q und jeden der η möglichen Schlüssel ρ gibt es dann genau eine zugehörige Nachricht, nämlich die Gerade H' = pq'·, bei gegebenem q' φ q durchläuft H' aber alle η von Go verschiedenen Geraden durch q', womit die Wahrscheinlichkeit eines erfolgreichen Betruges wiederum nur 1 / n ist. • Unsere zweite Anwendung betrifft sogenannte Zugangsschemata (Englisch: „secret sharing schemes"). Ganz allgemein geht es dabei darum, ein Geheimnis (etwa den Zugangscode für den Tresorraum einer Bank oder den für das Atomwaffenarsenal eines Staates) in Teilgeheimnisse („shares") zu zerlegen, so daß keiner der beteiligten Geheimnisträger für sich alleine das gesamte Geheimnis kennt, aber spezifizierte Koalitionen von Personen das Geheimnis aus ihren Teilgeheimnissen rekonstruieren können. Die einfachsten Beispiele von Zugangsschemata erhält man, wenn man verlangt, daß j e t der beteiligten Personen (aber nicht weniger) das Geheimnis rekonstruieren können; man spricht dann von einem t-Schwellenschema („threshold scheme"). Wir verzichten auf eine formale Definition und geben stattdessen sogleich eine geometrische Konstruktion für derartige Systeme an: Satz 8.2. Es sei G eine Gerade in Π = PG(l, q), deren q + 1 Punkte die möglichen Geheimnisse sind. Ferner sei für jeden Punkt ρ e G eine Hyperebene Hp gegeben, die G nicht enthält und in ρ schneidet, sowie ein ρ enthaltender (q + 1)Bogen Cp in Hp = PG{t — 1 ,q), siehe Beispiel 6.12, dessen Punkte φ ρ dann die zu ρ gehörenden Teilgeheimnisse sind. Dies definiert ein t-Schwellenschema, 3 Wenn man formal einen Authentikationscode wie in § III.7 verwenden möchte, kann man für jeden Schlüssel ρ e P\Gq eine Bijektion σρ der Η + 1 möglichen Nachrichten, also der η + 1 Geraden durch p, auf eine (n + 1)-Menge Λ wählen und statt einer Nachricht Η = pq das Paar (q, σρ(Η)) senden.
202
IX
Endliche projektive Ebenen und Räume
bei dem auch die Kenntnis von t — 1 Teilgeheimnissen es lediglich Wahrscheinlichkeit 1 /{q + 1) das korrekte Geheimnis zu wählen.
gestattet,
mit
Beweis. D a Cp ein Bogen in Hp ist, erzeugen j e t Punkte von Cp diese Hyperebene. Gibt man also t der Teilgeheimnisse vor (über die Koordinatenvektoren der entsprechenden Punkte von Cp), so kann m a n aus ihnen zunächst Hp und dann das Geheimnis ρ als den Schnittpunkt von Hp mit der Geraden G berechnen. Sind dagegen nur t — 1 Punkte von Cp bekannt, so erzeugen die Koordinatenvektoren dieser Punkte lediglich einen (t — l)-dimensionalen Unterraum U des i-dimensionalen Vektorraums Hp. Dieser Unterraum U kann nun ρ nicht enthalten, da j a ρ auf dem B o g e n Cp liegt und j e t Punkte eines Bogens linear unabhängige Koordinatenvektoren haben. Ein Angreifer kennt also lediglich U und G , wobei U keinen Punkt von G enthält. Wir zeigen nun, daß dann alle Punkte λ e G als mögliches Geheimnis gleich wahrscheinlich sind: jt und U erzeugen einen Unterraum Wx der Dimension t, in dem also + · · · + q + 1) - ( q , _ 2 + · · · +