298 104 6MB
German Pages 245 [248] Year 2009
Robert Axelrod · Die Evolution der Kooperation
Scientia Nova Herausgegeben von Rainer Hegselmann, Gebhard Kirchgässner, Hans Lenk, Siegwart Lindenberg, Julian Nida-Rümelin, Werner Raub, Thomas Voss
Bisher erschienen u. a.: Robert Axelrod, Die Evolution der Kooperation Karl H. Borch, Wirtschaftliches Verhalten bei Unsicherheit Norman Braun, Rationalität und Drogenproblematik Churchman/Ackoff/Arnoff, Operations Research James S. Coleman, Grundlagen der Sozialtheorie Morton D. Davis, Spieltheorie für Nichtmathematiker Erklären und Verstehen in der Wissenschaft Evolution und Spieltheorie Bruno de Finetti, Wahrscheinlichkeitstheorie Robert Frank, Strategie der Emotionen Green/Shapiro, Rational Choice Bernd Lahno, Versprechen. Überlegungen zu einer künstlichen Tugend Hans Lenk, Das Denken und sein Gehalt Moralische Entscheidungen und rationale Wahl Moral und Interesse Nagel/Newman, Der Gödelsche Beweis John v. Neumann, Die Rechenmaschine und das Gehirn Julian Nida-Rümelin, Kritik des Konsequentialismus Ökonomie und Moral Howard Raiffa, Einführung in die Entscheidungstheorie Rational-Choice-Theorie in den Sozialwissenschaften Erwin Schrödinger, Was ist ein Naturgesetz? Rudolf Schüßler, Kooperation unter Egoisten Geo Siegwart, Vorfragen zur Wahrheit Volker Stocke, Framing und Rationalität Paul W. Thurner, Wählen als rationale Entscheidung Hermann Weyl, Philosophie der Mathematik und Naturwissenschaft
Die Evolution der Kooperation Von Robert Axelrod Übersetzt und mit einem Nachwort von Werner Raub und Thomas Voss Studienausgabe 7. Auflage
R. Oldenbourg Verlag München 2009
Bibliographische Information der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliographie; detaillierte bibliographische Daten sind im Internet über abrufbar.
Titel der Originalausgabe: Robert Axelrod, The Evolution of Cooperation New York: Basic Books, Inc., Publishers. © 1984 by Robert Axelrod © der deutschen Ausgabe 2009 Oldenbourg Wissenschaftsverlag GmbH, München Rosenheimer Str. 145, D-81671 München Internet: oldenbourg.de Das Werk einschließlich aller Abbildungen ist urheberrechtlich geschützt. Jede Verwertung außerhalb der Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Bearbeitung in elektronischen Systemen. Umschlaggestaltung: Dieter Vollendorf Gedruckt auf säurefreiem, alterungsbeständigen Papier Druck: MB Verlagsdruck, Schrobenhausen Bindung: Buchbinderei Kolibri, Schwabmünchen ISBN 978-3-486-59172-9
Inhalt Vorwort Teil I. Einführung 1. Das Problem der Kooperation
VII 1 3
Teil II. Die Entstehung der Kooperation 23 2. Der Erfolg von TIT FOR TAT in Computer-Turnieren .. 25 3. Die Chronologie der Kooperation 50 Teil III. Kooperation ohne Freundschaft oder Voraussicht.. 65 4. Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg 67 5. Die Evolution der Kooperation in biologischen Systemen (mit William D. Hamilton) 80 Teil IV Vorschläge für Beteiligte und für Reformer 6. Vorschläge für erfolgreiches Verhalten 7. Wie Kooperation gefordert werden kann
97 99 112
Teil V Schlußfolgerungen 8. Die Sozialstruktur der Kooperation 9. Die Robustheit der Reziprozität
129 131 153
Anhang A. Turnierergebnisse
173
Anhang B. Beweise der Theoreme
186
Nachwort (Werner Raub, Thomas Voss)
195
Literaturverzeichnis
213
Register
220
Vorwort Die Arbeit an diesem Buch begann mit einer einfachen Frage: Wann sollte eine Person bei einer fortlaufenden Interaktion mit einer anderen Person kooperieren, und wann sollte sie sich selbstsüchtig verhalten? Sollte ich einem Bekannten immer wieder gefällig sein, obwohl dieser mir seinerseits niemals einen Gefallen tut? Sollte ein Betrieb einen anderen Betrieb, der kurz vor dem Bankrott steht, auch weiterhin pünktlich beliefern? In welchem Ausmaß sollten die Vereinigten Staaten die Sowjetunion für einen feindlichen Akt bestrafen, und wie sollten sich die USA verhalten, um die Sowjetunion zu kooperativem Verhalten zu bewegen? Der Situationstyp, der zu diesen Problemen fuhrt, kann in einfacher Weise durch ein bestimmtes Spiel dargestellt werden, nämlich das sogenannte iterierte Gefangenendilemma. Dieses Spiel erlaubt es den Spielern, wechselseitige Vorteile aus der Kooperation zu ziehen, aber es ist auch möglich, daß der eine Spieler den anderen ausbeutet oder daß keiner der Spieler kooperiert. Wie in den meisten realen Situationen sind die Interessen der Spieler nicht strikt entgegengesetzt. Um für solche Situationen eine gute Strategie zu finden, lud ich Experten aus der Spieltheorie ein, Computerprogramme für ein Gefangenendilemma-Turnier einzusenden - ein Turnier ähnlich einem Computer-Schachturnier. Jedes Programm sollte die Geschichte der bisherigen Interaktion zur Verfügung haben und konnte ihre Kenntnis für die Entscheidung verwenden, beim nächsten Zug zu kooperieren oder zu defektieren. Die Beiträge wurden von Spieltheoretikern aus den Fächern Ökonomie, Psychologie, Soziologie, Politische Wissenschaft und Mathematik eingereicht. Ich ließ alle vierzehn eingegangenen Programme und eine Zufallsregel in einem Turnier gegeneinander antreten. Zu meiner großen Überraschung gewann das einfachste aller eingereichten Programme, nämlich Ή Τ FOR TAT. Bei Ή Τ FOR TAT handelt es sich lediglich um die simple Strategie, mit Kooperation zu beginnen und danach jeweils das zu tun, was der andere Spieler beim vorherigen Zug getan hat. Ich ließ die Ergebnisse zirkulieren und warb Beiträge für eine zweite Runde des Turniers an. Dieses Mal erhielt ich zweiundsech-
VIII
Vorwort
zig Programme aus sechs Ländern; in erster Linie von Computerliebhabern, aber auch von Professoren der Evolutionsbiologie, der Physik und der Computerwissenschaft, sowie von den fünf in der ersten Runde vertretenen Disziplinen. Wie in der ersten Runde wurden einige sehr ausgeklügelte Programme eingereicht, darunter auch einige Versuche, Ή Τ FOR TAT selbst zu verbessern. TIT FOR TAT wurde erneut eingesandt vom Gewinner der ersten Runde, Anatol Rapoport (Universität Toronto). Es gewann wiederum. Ich vermutete, daß TIT FOR TAT Eigenschaften hat, die diese Strategie nicht nur in Turnieren, sondern auch in der wirklichen Welt erfolgreich machen würden. Das würde bedeuten: Gegenseitigkeit ist eine ausreichende Basis für Kooperation. Aber ich wollte die genauen Bedingungen in Erfahrung bringen, die zur Förderung der Kooperation auf dieser Basis erforderlich sind. Das führte mich zu einer evolutionären Perspektive: nämlich zu einer Betrachtung der Frage, wie Kooperation unter Egoisten entstehen kann, ohne daß eine zentrale Herrschaftsgewalt eingreift. Die evolutionäre Perspektive legt drei unterschiedliche Problemstellungen nahe. Erstens: Wie kann eine kooperationsbereite Strategie überhaupt in einer Umgebung Fuß fassen, die vorherrschend unkooperativ ist? Zweitens: Welcher Typus von Strategie kann sich in einer komplexen Umgebung bewähren, die sich aus einem breiten Spektrum mehr oder weniger raffinierter, unterschiedlicher Strategien zusammensetzt? Drittens: Unter welchen Bedingungen kann eine solche Strategie, nachdem sie sich einmal in einer Gruppe durchgesetzt hat, der Invasion durch eine weniger kooperative Strategie Widerstand entgegensetzen? Die Turnierergebnisse wurden im Journal ofConflict Resolution (Axelrod 1980a und 1980b) veröffentlicht und sind hier in revidierter Form in Kapitel 2 wiedergegeben. Die theoretischen Ergebnisse über die anfängliche Lebensfähigkeit, Robustheit und Stabilität wurden in der American Political Science Review (Axelrod 1981) veröffentlicht. Diese Befunde bilden die Grundlage für Kapitel 3. Nachdem ich über die Evolution der Kooperation im sozialen Kontext nachgedacht hatte, wurde mir klar, daß die Ergebnisse auch Folgerungen für die biologische Evolution beinhalten. Daher erarbeitete ich mit einem Biologen - William Hamilton -
IX
Vorwort
die biologischen Konsequenzen dieser strategischen Ideen. Das führte zu einem in Science (Axelrod und Hamilton 1981) publizierten Aufsatz, der hier in veränderter Form als Kapitel 5 erscheint. Der Aufsatz wurde mit dem Newcomb Cleveland Preis der American Association for the Advancement of Science ausgezeichnet. Die erfreuliche Reaktion ermutigte mich, diese Ideen in einer verständlichen Form vorzustellen, nicht nur für Biologen und mathematisch orientierte Sozialwissenschaftler, sondern auch für einen breiteren Leserkreis, der sich für die Bedingungen interessiert, die Kooperation von Individuen, Organisationen und Staaten fördern können. Das wiederum führte zu Anwendungsmöglichkeiten dieser Ideen in einer Vielzahl konkreter Situationen und ließ mich erkennen, wie rasch die Ergebnisse zu Konsequenzen für das private Verhalten und für die Politik führen können. Ein Punkt sollte schon zu Beginn hervorgehoben werden: der Ansatz unterscheidet sich von dem der Soziobiologie. Die Soziobiologie beruht auf der Annahme, daß wichtige Aspekte menschlichen Verhaltens durch unsere genetische Ausstattung gesteuert sind (vgl. E. O. Wilson 1975). Das mag richtig sein. Aber der hier vertretene Ansatz ist strategisch und nicht genetisch. Er macht von einer evolutionären Perspektive Gebrauch, weil Menschen sich häufig in Situationen befinden, in denen erfolgreiche Strategien beibehalten und erfolglose fallen gelassen werden. Manchmal ist der Selektionsprozeß direkt: Ein Parlamentarier, der in der Interaktion mit Kollegen nichts erreicht, wird nicht lange Abgeordneter bleiben. Jonathan Bendor, Robert Boyd, John Brehm, John Chamberlin, Joel Cohen, Lou Erste, John Ferejohn, Patty French, Bernard Grofman, Kenji Hayao, Douglas Hofstadter, Judy Jackson, Peter Katzenstein, William Keech, Martin Kessler, James March, Donald Markham, Richard Mailand, John Meyer, Robert Mnookin, Larry Mohr, Lincoln Moses, Myra Oltsik, John Padgett, Jeff Pynnonen, Penelope Romlein, Amy Saldinger, Reinhard Selten, John David Sinclair, John T. Scholz, Serge Taylor, Robert Trivers, David Sloan Wilson und insbesondere Michael Cohen haben mich in verschiedenen Phasen dieses Projekts unterstützt. Ihnen allen möchte ich an dieser Stelle danken. Ich möchte auch all denen danken, deren Programme die Turniere ermöglicht haben. Die Namen dieser Personen werden in Anhang A genannt.
X
Vorwort
Dankbar möchte ich die Institutionen erwähnen, die diese Arbeit unterstützt haben: das Institute of Public Policy Studies der University of Michigan, das Center for Advanced Study in the Behavioral Sciences und die National Science Foundation.
Teil I Einführung
Kapitel 1
Das Problem der Kooperation Unter welchen Bedingungen entsteht Kooperation in einer Welt von Egoisten ohne zentralen Herrschaftsstab? Diese Frage hat die Menschen aus gutem Grund seit langer Zeit fasziniert. Wir wissen alle, daß Menschen keine Engel sind, und daß sie dazu neigen, in erster Linie für sich selbst und ihre eigenen Interessen zu sorgen. Wir wissen jedoch auch, daß Kooperation vorkommt und daß sie die Grundlage unserer Zivilisation bildet. Wie kann sich aber überhaupt Kooperation in Situationen entwickeln, in denen jedes Individuum einen Anreiz besitzt, sich eigennützig zu verhalten? Die Antwort auf diese Frage beeinflußt grundlegend unser Denken und Handeln in unseren sozialen, politischen und ökonomischen Beziehungen mit anderen. Genauso haben die Antworten, die andere geben, große Konsequenzen für deren Bereitschaft, mit uns zu kooperieren. Die berühmteste Antwort wurde vor mehr als dreihundert Jahren von Thomas Hobbes formuliert. Sie war pessimistisch. Hobbes argumentierte, im Naturzustand, vor der Existenz einer Regierunsgewalt, würde eine derart rücksichtslose Konkurrenz unter den egoistischen Individuen herrschen, daß das Leben „einsam, armselig, ekelhaft, tierisch und kurz" wäre (Hobbes 1984,96). Aus seiner Sicht konnte sich Kooperation nicht ohne einen zentralen Herrschaftsstab entwickeln, folglich schien ihm ein starker Regierungsapparat notwendig. Diskussionen über geeignete Grenzen staatlicher Autorität kreisen seitdem häufig um die Frage, ob Kooperation in einem bestimmten Bereich entstehen kann, wenn keine Herrschaft die Beteiligten zur Kooperation zwingt. Heute gehen Staaten ohne eine zentrale Kontrollinstanz miteinander um. Deshalb sind die Bedingungen für die Entstehung von Kooperation bedeutsam für viele zentrale Fragen internationaler Politik. Das wichtigste Problem ist das SicherheitsDilemma: Staaten verwenden für ihre eigene Sicherheit häufig solche Mittel, die die Sicherheit anderer bedrohen. Dieses Problem taucht bei eskalierenden lokalen Konflikten und beim
4
Einführung
Rüstungswettlauf auf. Verwandten Problemen begegnen wir im Bereich der internationalen Beziehungen beim Wettbewerb innerhalb von Bündnissen, bei Zollverhandlungen und bei örtlich begrenzten Konflikten wie etwa im Fall des Zypern-Konflikts.1 Die sowjetische Invasion in Afghanistan 1979 stellte die Vereinigten Staaten vor ein typisches Dilemma: Verhielten sich die Vereinigten Staaten so als wäre nichts geschehen, dann würde die Sowjetunion womöglich ermutigt, in Zukunft weitere Formen nichtkooperativen Verhaltens zu erproben. Auf der anderen Seite hätte jede nennenswerte Verminderung der Kooperation seitens der Vereinigten Staaten das Risiko irgendeiner Form von Vergeltung in sich getragen, die Gegenmaßnahmen und einen schwer zu beendenden Ablauf wechselseitiger Feindseligkeiten hätte hervorrufen können. Probleme dieser Art machen zu Recht einen wesentlichen Bestandteil unserer Debatten über Außenpolitik aus, denn es handelt sich dabei um schwerwiegende Entscheidungen. Im Alltag können wir uns fragen, wie oft wir Β ekannte noch zum Essen einladen sollen, wenn sie die Einladung niemals erwidern. Ein Angestellter unterstützt einen anderen Angestellten desselben Betriebs in der Erwartung, seinerseits unterstützt zu werden. Ein Journalist, zu dem eine Nachricht durchgesickert ist, gibt seine Quelle nicht preis, um auch weiterhin Informationen zu erhalten. Ein Unternehmen in einer Branche mit nur einem weiteren grossen Konkurrenten berechnet hohe Preise in der Erwartung, daß dieser ebenfalls die Preise hoch hält - zum gemeinsamen Vorteil und zum Schaden des Konsumenten. Ein typisches Beispiel für die Entstehung von Kooperation ist meines Erachtens die Entwicklung von Verhaltensmustern in einer gesetzgebenden Körperschaft wie etwa dem Senat der Vereinigten Staaten. Jeder Senator besitzt einen Anreiz, in den Augen seiner Wählerschaft erfolgreich zu erscheinen, auch wenn er hierbei einen Konflikt mit anderen Senatoren riskiert, die ebenfalls vor ihrer Wählerschaft einen erfolgreichen Eindruck machen wollen. Dabei handelt es sich aber wohl kaum um eine Situation vollständig entgegengesetzter Interessen, also um ein Nullsummen-Spiel. Es gibt vielmehr zahlreiche Gelegenheiten für zwei Senatoren, sich wechselseitig zu belohnen. Dieses gegenseitige Belohnen hat im Senat zu einem bis ins Einzelne ausgearbeiteten Muster von Normen und Gewohnheiten gefuhrt. Zu den wichtigsten Normen
Das Problem der Kooperation
5
gehört die Reziprozität - die Gewohnheit, einen Kollegen gegen entsprechende Gegenleistungen zu unterstützen. Hierzu gehört der Stimmentausch, jedoch erstreckt sich Reziprozität auf so viele Typen wechselseitig vorteilhaften Verhaltens, daß „es keine Übertreibung ist zu sagen, daß Gegenseitigkeit ein Lebensstil im Senat ist" (Matthews 1960,100; vgl. auch Mayhew 1975). Washington präsentierte sich nicht immer so. Frühere Beobachter sahen die Mitglieder der Washingtoner Gesellschaft als ziemlich skrupellos und unzuverlässig an, charakterisiert durch „Falschheit, Hinterlist, Verrat" (Smith 1906,190). In den achtziger Jahren unseres Jahrhunderts ist die Praxis von Reziprozität gut etabliert. Selbst die wesentlichen Änderungen während der letzten beiden Jahrzehnte im Senat, stärkere Dezentralisierung, größere Offenheit und stärkere Gleichverteilung der Macht, haben gewohnheitsmäßige Reziprozität nicht beeinträchtigen können (Ornstein, Peabody und Rhode 1977). Wie später gezeigt werden wird, ist es n/c/zmotwendig anzunehmen, daß Senatoren ehrlicher, hochherziger oder stärker am Gemeinwohl orientiert sind als in früheren Jahren, um erklären zu können, wie Kooperation auf der Basis von Reziprozität entstanden ist und warum sie sich als stabil erwiesen hat. Die Entstehung der Kooperation kann als eine Konsequenz der Verfolgung individueller Interessen durch die Senatoren erklärt werden. Der in diesem Buch verfolgte Ansatz besteht darin, zu untersuchen, wie Individuen aufgrund ihrer eigenen Interessen handeln, um anschließend die Folgen dieser Handlungen für das gesamte System zu analysieren. Mit anderen Worten, es geht darum, einige Annahmen über individuelle Motive zu machen und dann Konsequenzen für das Verhalten des gesamten Systems abzuleiten (Schelling 1978). Der amerikanische Senat ist ein gutes Beispiel, der zugrundeliegende Gedankengang kann jedoch auch auf andere Problembereiche übertragen werden. Ziel unseres Unternehmens ist die Entwicklung einer Theorie der Kooperation, mit deren Hilfe Faktoren aufgedeckt werden können, die für die Entstehung der Kooperation notwendig sind. Wenn man die Bedingungen ihrer Entstehung versteht, können in der Folge auch geeignete Maßnahmen ergriffen werden, um die Entwicklung der Kooperation in einer bestimmten Situation zu fördern.
6
Einführung
Die in diesem Buch vorgestellte Theorie der Kooperation beruht auf der Untersuchung von Individuen, die ihren eigenen Interessen ohne die Hilfe einer zentralen Herrschaftsinstanz nachgehen, die sie zur Kooperation zwingen könnte. Wir gehen von der Annahme des Selbstinteresses aus, weil wir den schwierigen Fall prüfen wollen, wo Kooperation gerade nicht vollständig auf einer Berücksichtigung der Interessen anderer oder der Wohlfahrt der Gruppe insgesamt beruht. Diese Annahme ist jedoch viel weniger restriktiv, als sie auf den ersten Blick erscheint. Wenn eine Schwester sich um das Wohlergehen ihres Bruders sorgt, dann kann man im Hinblick auf ihr Eigeninteresse annehmen, daß es (unter anderem) diese Sorge um das Wohlergehen ihres Bruders enthält. Dadurch wird aber nicht notwendig jeder potentielle Konflikt zwischen Bruder und Schwester beseitigt. In gleicher Weise mag ein Staat zwar teilweise die Interessen befreundeter Staaten berücksichtigen, aber diese Rücksicht bedeutet selbst für befreundete Länder nicht, daß sie immer zum wechselseitigen Vorteil kooperieren können. Die Annahme des Selbstinteresses ist daher tatsächlich nur eine Annahme, wonach Rücksichtnahme auf andere das Problem, wann man mit ihnen kooperieren soll und wann nicht, keineswegs vollständig löst. Ein gutes Beispiel für das Grundproblem der Kooperation ist der Fall zweier Industriestaaten, die für die Exporte der jeweils anderen Seite Handelsschranken errichtet haben. Wegen der wechselseitigen Vorteile freien Handels wäre es für beide Länder besser, diese Hemmnisse abzubauen. Beseitigte jedoch nur eines der beiden Länder einseitig seine Barrieren, dann schadet es der eigenen Wirtschaft. Tatsächlich ist es für jedes Land, unabhängig vom Verhalten des anderen Landes, günstiger, seine eigenen Handelsschranken aufrecht zu erhalten. Das Problem besteht also darin, daß jedes Land einen Anreiz zur Aufrechterhaltung seiner Handelsschranken besitzt, wodurch sich ein schlechteres Ergebnis einstellt als das, was dann möglich gewesen wäre, wenn die beiden Länder miteinander kooperiert (d. h. die Handelsschranken beseitigt) hätten. Dieses Grundproblem tritt dann auf, wenn die Verfolgung des Eigeninteresses durch jeden einzelnen zu einem schlechten Ergebnis für alle zusammen führt. Um bei der Untersuchung der enormen Menge spezifischer Situationen, die diese Eigenschaft
Das Problem der Kooperation
7
besitzen, voran zu kommen, ohne sich zu sehr in den Details einzelner Situationen zu verlieren, ist eine geeignete Darstellung der gemeinsamen Merkmale dieser Situationen erforderlich. Glücklicherweise existiert diese in Form des berühmten Gefangenendilemma-Spiels.2 Das Gefangenendilemma ist ein Spiel mit zwei Spielern, von denen jeder zwei Entscheidungsmöglichkeiten hat, nämlich zu kooperieren oder nicht zu kooperieren. Nichtkooperation nennen wir Defektion. Jeder muß seine Wahl treffen, ohne zu wissen, wie der andere sich verhalten wird. Unabhängig vom Verhalten des jeweils anderen fuhrt Defektion zu einer höheren Auszahlung als Kooperation. Das Dilemma liegt darin, daß es für jeden Spieler, unabhängig vom Verhalten des anderen, vorteilhafter ist, zu defeketieren, daß jedoch beiderseitige Defektion für jeden Spieler ungünstiger ist als wechselseitige Kooperation. Wie ist das möglich? Den Ablauf dieses einfachen Spiels - welches die Grundlage des vorliegenden Buches ist - zeigt Abbildung 1. Der Zeilenspieler wählt eine Zeile, entweder Kooperation oder Defektion. Gleichzeitig wählt der Spaltenspieler eine Spalte, ebenfalls entweder Kooperation oder Defektion. Beide Entscheidungen zusammen fuhren auf eines der vier möglichen Ergebnisse der Matrix. Wenn beide Spieler kooperieren, stehen sie recht gut da. Beide erhalten R (für engl.: Äeward), die Belohnung für wechselseitige Kooperation. In der Abbildung 1 beträgt sie 3 Punkte. Diese Zahl kann ζ. B. eine Auszahlung in Dollar sein, die jeder Spieler bei beiderseitiger Kooperation erhält. Wenn ein Spieler kooperiert und der andere defektiert, erhält der defektierende Γ (fur engl.: Temptation), die Versuchung zu defektieren, während der kooperierende Spieler die Auszahlung S (für engl.: Sucker's payoff) des gutgläubigen Opfers erhält. Im Beispiel sind T= 5 und 5 = 0 Punkte. Wenn beide defektieren, erhalten beide Ρ = 1 (für engl.: Punishment), die Strafefür wechselseitige Defektion. Was sollten Sie in einem solchen Spiel tun? Nehmen Sie an, Sie sind der Zeilenspieler und Sie denken, der Spaltenspieler werde kooperieren. Das bedeutet, daß Sie eines der beiden Ergebnisse in der ersten Spalte von Abbildung 1 erhalten werden. Sie haben die Wahl, entweder ebenfalls zu kooperieren und 3 Punkte zu erhalten, oder zu defektieren und 5 Punkte zu erhalten. Also lohnt es sich zu defektieren, wenn sie annehmen, der andere Spieler werde
8
Einführung
Abbildung 1: Das Gefangenendilemma Spaltenspieler Kooperation
Defektion
Kooperation
Λ = 3,Λ = 3
S = 0, T= 5
Defektion
r=5,S=0
P=\,P=\
ZeilenSpieler
kooperieren. Nehmen Sie demgegenüber an, der andere Spieler würde defektieren. Nun sind Sie in der zweiten Spalte von Abbildung 1 und Sie haben die Wahl zwischen Kooperation, wodurch Sie zum gutwilligen Opfer würden und 0 Punkte erhielten, und Defektion, woraus sich für Sie 1 Punkt als Ergebnis wechselseitiger Defektion ergäbe. Es lohnt sich also zu defektieren, wenn Sie denken, der andere Spieler werde defektieren. Das bedeutet, daß es besser ist zu defektieren, wenn Sie denken, der andere Spieler werde kooperieren, und daß es besser ist zu defektieren, wenn Sie denken, der andere Spieler werde defektieren. Also lohnt es sich fur Sie, zu defektieren, was immer der andere Spieler macht. Dieselbe Logik gilt natürlich auch für den anderen Spieler. Darum sollte der andere Spieler defektieren, unabhängig davon, was er von Ihnen erwartet. Dann aber erhalten Sie beide Ρ = 1, ein schlechteres Ergebnis als R = 3 bei beiderseitiger Kooperation. Individuelle Rationalität führt für beide zu einem schlechteren Ergebnis als nötig. Das ist das Grundproblem des Gefangenendilemmas. Das Gefangenendilemma ist einfach eine abstrakte Formulierung einiger sehr verbreiteter und sehr interessanter Situationen, in denen Defektion für jede Person individuell am vorteilhaftesten ist, während andererseits jeder durch wechselseitige Kooperation besser gestellt wäre. Die Definition des Gefangenendilemmas erfordert, daß zwischen den vier verschiedenen möglichen Ergebnissen bestimmte Beziehungen bestehen. Erstens gibt es eine Ordnung der vier Auszahlungen: Im besten Fall kann ein Spieler Τ erhalten, also die Versuchung, den kooperierenden anderen Spieler durch Defektion auszunutzen. Das schlechteste Ergebnis eines
Das Problem der Kooperation
9
Spielers ist S, die Auszahlung des gutgläubigen Opfers, während der andere Spieler defektiert. Für die Ordnung der beiden anderen Ergebnisse wird angenommen, daß die Belohnung für wechselseitige Kooperation größer ist als Ρ d i e Strafe fur wechselseitige Defektion. Das fuhrt zu einer Rangfolge T> R > P> S hinsichtlich der Präferenzen für die vier Auszahlungen. Zweitens können die Spieler nicht dadurch aus ihrem Dilemma entkommen, daß sie sich abwechselnd ausbeuten. Diese Annahme besagt, daß eine gleiche Chance, auszubeuten und ausgebeutet zu werden, kein so gutes Ergebnis für einen Spieler darstellt wie wechselseitige Kooperation. Es wird daher angenommen, daß die Belohnung R für wechselseitige Kooperation größer ist als der Durchschnitt aus der Versuchung 7und der Auszahlung £ des gutgläubigen Opfers. Gemeinsam mit der Rangordnung der Auszahlungen definiert diese Annahme das Gefangenendilemma. Zwei Egoisten, die das Spiel einmal spielen, werden also beide ihre dominante Strategie, nämlich Defektion wählen und jeder wird als Ergebnis weniger bekommen als das, was beide bei wechselseitiger Kooperation hätten erhalten können. Wenn das Spiel über eine bekannte endliche Anzahl von Durchgängen gespielt wird, haben die Spieler immer noch keinen Anreiz zu kooperieren. Das gilt sicherlich für den letzten Zug, weil es dann keine Zukunft gibt, die durch ihn beeinflußt wird. Beim vorletzten Zug wird keiner der Spieler einen Anreiz zur Kooperation besitzen, weil beide die Defektion des anderen Spielers im letzten Zug antizipieren können. Aus diesem Gedankengang ergibt sich für jede Folge von Spieldurchgängen, die von bekannter endlicher Länge ist, daß sich das Spiel über alle Züge zurück zu beiderseitiger Defektion ab dem ersten Schritt auflösen wird (Luce und Raiffa 1957, 94-102). Nicht anwendbar ist diese Überlegung, falls die Spieler über eine unbestimme Anzahl von Durchgängen interagieren werden. Unter realistischen Umständen können die Spieler aber tatsächlich meistens nicht sicher sein, wann die letzte Interaktion zwischen ihnen stattfinden wird. Wie später gezeigt wird, kann bei einer unbestimmten Anzahl von Interaktionen Kooperation entstehen. Die Aufgabe besteht dann darin, die notwendigen und hinreichenden Bedingungen für die Entstehung von Kooperation ausfindig zu machen.
10
Einführung
In diesem Buch werde ich Interaktionen zwischen lediglich zwei Spielern untersuchen. Ein einzelner Spieler mag mit vielen anderen interagieren, aber es wird angenommen, daß er zu jeder Zeit jeweils nur mit einem von ihnen interagiert.3 Ferner wird angenommen, daß der Spieler einen anderen Spieler erkennt und sich erinnert, wie sie beide bisher interagiert haben. Diese Fähigkeit des Erkennens und Erinnerns erlaubt es, die Geschichte der speziellen Interaktionsbeziehungen in einer Strategie des Spielers zu berücksichtigen. Zum Gefangenendilemma ist eine Vielzahl von Lösungswegen entwickelt worden. Jeder enthält irgendeine zusätzliche Aktivität, die die strategische Interaktion derart ändert, daß sich die Natur des Prob lems grundlegend wandelt. Dennoch bleibt das ursprüngliche Problem bestehen, weil es viele Situationen gibt, in denen solche Aktivitäten nicht verfügbar sind. Deshalb wird das Problem hier in seiner grundlegenden Form, ohne derartige Änderungen, betrachtet werden: 1. Den Spielern steht kein Mechanismus zur Verfugung, um sich auf Drohungen unwiderruflich festzulegen oder die Einhaltung eingegangener Verpflichtungen zu erzwingen (Schelling 1960). Weil die Spieler sich selbst nicht an eine bestimmte Strategie binden können, muß jeder jederzeit alle möglichen Strategien in Betracht ziehen, die von dem anderen Spieler benutzt werden könnten. Darüber hinaus stehen jedem Spieler selbst alle möglichen Strategien zur Verfugung. 2. Es gibt kein Mittel, um sicher zu gehen, was der andere Spieler in einem gegebenen Zug tun wird. Damit ist die Möglichkeit einer Metaspiel-Analyse (Howard 1971) ausgeschlossen, in der Entscheidungen von der Art „triff dieselbe Wahl wie der andere Spieler sie treffen wird" möglich sind. Außerdem wird die Möglichkeit zuverlässiger Reputationen ausgeschlossen, die auf Beobachtungen von Interaktionen des anderen Spielers mit dritten Parteien beruhen. Die einzige Information über den jeweiligen Partner, die den Spielern zur Verfügung steht, ist also die Geschichte ihrer bisherigen Interaktion. 3. Es gibt kein Mittel, den anderen Spieler zu beseitigen oder die Interaktion zu verlassen. Folglich behält jeder Spieler die Fähigkeit, bei jedem Zug zu kooperieren oder zu defektieren. 4. Es gibt keine Möglichkeit, die Auszahlungen des anderen Spie-
Das Problem der Kooperation
11
lers zu ändern. Die Auszahlungen enthalten bereits womöglich bestehende Rücksichten, die ein jeder Spieler für die Interessen des anderen hegt (Taylor 1976, 69-73). Unter diesen Bedingungen haben Worte, hinter denen keine Taten stehen, so wenig Wert, daß sie praktisch bedeutungslos sind. Die Spieler können nur durch die Sequenz ihres eigenen Verhaltens miteinander kommunizieren. Das ist das Problem des Gefangenendilemmas in seiner grundlegenden Form. Die Entwicklung der Kooperation wird dadurch ermöglicht, daß die Spieler immer wieder aufeinander treffen können. Dies bedeutet, daß gegenwärtige Entscheidungen nicht allein den Ausgang des gegenwärtigen Treffens bestimmen, sondern auch die späteren Entscheidungen der Spieler beeinflussen können. Die Zukunft kann folglich einen Schatten auf die Gegenwart zurückwerfen und dadurch die aktuelle strategische Situation beeinflussen. Aber die Zukunft ist aus zwei Gründen weniger wichtig als die Gegenwart: Erstens neigen Spieler dazu, Auszahlungen in dem Maße geringer zu bewerten wie der Zeitpunkt ihres Erwerbs in der Zukunft liegt. Zweitens besteht immer eine gewisse Chance, daß die Spieler einander nicht wieder treffen werden. Eine bestehende Beziehung kann enden, wenn einer der Spieler wegzieht, den Arbeitsplatz wechselt, stirbt oder bankrottgeht. Aus diesen Gründen fallt die Auszahlung des nächsten Zuges immer weniger ins Gewicht als die Auszahlung des gegenwärtigen Zuges. Dies kann man in naheliegender Weise berücksichtigen, wenn man die Auszahlungen so über die Zeit kumuliert, daß der nächste Zug einen Bruchteil des Werts des laufenden Zuges ausmacht (Shubik 1970). Das Gewicht (oder die Bedeutung) des nächsten Zuges relativ zum laufenden wird w genannt. Es repräsentiert das Ausmaß, in dem die Auszahlung eines jeden Zuges relativ zum vorhergehenden diskontiert wird und ist daher ein Diskontparameter. Der Diskontparameter kann zur Bestimmung des Werts einer Folge von Auszahlungen benutzt werden. Ein einfaches Beispiel: Jede Auszahlung sei nur halb so wichtig wie die im vorangegangenen Zug, so daß w = 1/2. Dann würde eine Kette wechselseitiger Defektionen mit der Auszahlung von einem Punkt je Zug einen Wert von 1 im ersten Zug haben, 1/2 im zweiten Zug, 1/4 im dritten
12
Einführung
Zug usw. Der kumulierte Wert der Folge wäre 1 +1/2 +1/4 + 1/8 + . . . und somit aufsummiert gleich 2. Für einen Punkt per Zug ergibt sich allgemein ein Wert von l + w + v? +W1 + . . . , wobei die Summe dieser unendlichen Reihe für jedes w, für das giltO< w< 1, angenehmerweise gleich 1/(1 -w) ist. Um einen anderen Fall zu nehmen: Wenn der Wert jedes Zuges 90 Prozent des vorangegangenen Zuges beträgt, dann würde eine unendliche Folge von Auszahlungen Ρ = 1 einen Wert von 10 Punkten haben, denn 1/(1 - w) = 1/(1-.9) = l/.l = 10. Ähnlich ergibt sich bei einem w von .9 für eine unendliche Folge von Auszahlungen von R = 3 das Dreifache, nämlich 3/(1-w) = 3/(1-.9) = 30 Punkte. Betrachten Sie nun zwei interagierende Spieler. Angenommen, ein Spieler defektiert immer (IMMER D), und der andere Spieler verfolgt die Taktik des Ή Τ FOR TAT. Ή Τ FOR TAT („Wie Du mir, so ich Dir") bedeutet, im ersten Zug zu kooperieren und dann zu tun, was der andere Spieler im vorangegangenen Zug gemacht hat. Ή Τ FOR TAT fuhrt dazu, daß jeder Spieler nach jeder Defektion des anderen Spielers einmal defektiert. Wenn der Gegenspieler Ή Τ FOR TAT spielt, erhält ein Spieler, der immer defektiert, im ersten Zug r u n d in allen nachfolgenden Zügen P. Der Wert (oder die Punktzahl), den jemand erhält, der IMMER D verwendet, wenn er mit einem TIT FOR TAT-Spieler spielt, ist folglich die Summe aus Τ für den ersten Zug, wP für den zweiten Zug, v/P für den dritten Zug usw.4 Sowohl IMMER D als auch Ή Τ FOR TAT sind Strategien. Allgemein ist eine Strategie (oder eine Entscheidungsregel) eine Spezifikation dessen, was in jeder Situation, die in einem Spiel überhaupt entstehen könnte, zu tun ist. Die Situation ihrerseits hängt von der bisherigen Geschichte des Spiels ab. Daher kann eine Strategie im Anschluß an bestimmte Muster von Interaktionen kooperieren und im Anschluß an andere defektieren. Darüber hinaus kann eine Strategie Wahrscheinlichkeiten verwenden, wie zum Beispiel eine vollständig zufallsbestimmte Regel, die inj edem Zug mit gleicher Wahrscheinlichkeit kooperiert oder defektiert. Eine Strategie kann ferner in recht ausgeklügelter Weise aus dem Muster der bisherigen Spielergebnisse das weitere Vorgehen herleiten. Ein Beispiel ist eine Strategie, die das Verhalten des anderen Spielers in jedem Zug unter Verwendung eines komplexen Verfahrens (etwa eines Markov-Prozesses) modelliert und dann eine aus-
Das Problem der Kooperation
13
gefallene Methode statistischen Schließens (etwa die Bayessche Analyse) zur Bestimmung der anscheinend auf lange Sicht besten Wahl benutzt. Auch mag eine Strategie aus einer verwickelten Kombination anderer Strategien bestehen. Man ist versucht, als erstes die Frage aufzuwerfen, welches die beste Strategie ist. Mit anderen Worten: Welche Strategie ermöglicht einem Spieler den höchsten Punktwert? Das ist zwar eine gute Frage, aber wie später gezeigt wird, existiert keine beste Regel unabhängig von der, die der andere Spieler verwendet. In dieser Hinsicht ist das iterierte Gefangenendilemma ein ganz anderes Spiel als Schach. Ein Schachmeister kann sich darauf verlassen, daß der Gegenspieler den am meisten gefürchteten Zug ausführen wird. Aufgrund dieser Annahme ist es in einem Spiel wie Schach, in dem die Interessen der Spieler vollständig antagonistisch sind, möglich, seine Züge im voraus zu planen. Die durch das Gefangenendilemma repräsentierten Situationen sind jedoch andere. Die Interessen der Spieler konfligieren nicht völlig. Beide Spieler können recht gut fahren und die Belohnung R für wechselseitige Kooperation erhalten. Oder sie können beide schlecht dastehen, wenn sie für wechselseitige Defektion die Strafe Ρ erhalten. Eine Verwendung der Annahme, daß der Gegenspieler immer den am meisten gefürchteten Zug wählen wird, führt zu der Erwartung, daß er niemals kooperieren wird. Diese Erwartung wiederum wird den Spieler zur Defektion veranlassen, woraus sich endlose Bestrafungen ergeben. Anders als beim Schach kann ein Spieler beim Gefangenendilemma nicht sicher annehmen, daß der andere ihn schlagen will. Tatsächlich hängt es im iterierten Gefangenendilemma von der Strategie des anderen Spielers ab, welche Strategie die beste ist. Insbesondere hängt die beste Strategie davon ab, ob die Strategie des Gegenspielers Gelegenheit für die Entwicklung wechselseitiger Kooperation gibt. Dieser Grundsatz gilt, wenn das Gewicht des jeweils nächsten Zuges relativ zum gegenwärtigen hinreichend groß ist und die Zukunft damit wichtig wird. Der Diskontparameter w muß mit anderen Worten groß genug sein, um der Zukunft große Bedeutung bei der Berechnung der gesamten Auszahlung zu geben. Ebenso gilt natürlich: Wenn es unwahrscheinlich ist, die andere Person wieder zu treffen, oder wenn zukünftige Auszahlungen geringen Wert haben, dann kann man genausogut defektie-
14
Einführung
ren und braucht sich um die Folgen in der Zukunft nicht zu kümmern. Dies führt zum ersten Theorem. Es enthält die betrübliche Mitteilung, daß es keine beste Strategie gibt, falls die Zukunft bedeutsam ist. Theorem 1: Wenn der Diskontparameter w hinreichend groß ist, existiert keine beste Strategie unabhängig von der Strategie des anderen Spielers. Der Beweis dieses Satzes ist nicht schwierig. Angenommen, der andere Spieler verwendet IMMER D, die Strategie permanenter Defektion. Wenn der andere Spieler niemals kooperieren wird, ist es am besten, selbst ebenfalls immer zu defektieren. Man nehme nun andererseits an, daß der Gegenspieler die Strategie „permanenter Vergeltung" verwendet. Dies ist die Strategie, solange zu kooperieren bis man selbst defektiert, um danach immer zu defektieren. In diesem Fall ist es am besten, niemals zu defektieren, vorausgesetzt, die Versuchung T, beim ersten Zug zu defektieren, wird schließlich mehr als kompensiert durch den langfristigen Nachteil, in der Zukunft anstatt der Β elohnung R nichts als die Β estrafung Ρ zu erhalten. Dies gilt immer dann, wenn der Diskontparameter w hinreichend groß ist.5 Folglich hängt es von der Strategie des Gegenspielers ab, ob ein Spieler kooperieren oder nicht kooperieren sollte, selbst beim ersten Zug. Wenn w hinreichend groß ist, gibt es also keine beste Strategie. Für das Beispiel eines Gesetzgebungsorgans wie dem Senat der Vereinigten Staaten besagt dieses Theorem, daß es unter der Bedingung, ein Mitglied werde mit einem anderen Mitglied wiederholt interagieren, keine beste Strategie gibt, die unabhängig von der Strategie der anderen Person benutzt werden sollte. Es wäre am besten, mit jemandem zu kooperieren, der diese Kooperation in der Zukunft erwidern wird, aber nicht mit jemandem zu kooperieren, dessen zukünftiges Verhalten durch diese Interaktion kaum beeinflußt wird (vgl. ζ. B. Hinckley 1972). Die Möglichkeit, überhaupt stabile wechselseitige Kooperation erreichen zu können, hängt ab von einer nicht zu geringen Chance fortgesetzter Interaktionen, wobei die Größenordnung von w ein Maß für diese Chance darstellt. Im Kongreß verhält es sich gerade so, daß die Chance fortgesetzter Interaktionen zwischen zwei Mitgliedern dramatisch zugenommen hat, was aus den zweijährlichen Fluktuationsraten
Das Problem der Kooperation
15
deutlich wird, die von ungefähr 40 Prozent in den ersten vierzig Jahren der Republik auf etwa 20 Prozent oder weniger in den letzten Jahren gefallen sind (Young 1966, 87-90; Polsby 1968; Jones 1977,154; Patterson 1978,143-144). Dennoch ist eine fortgesetzte Chance der Interaktion zwar notwendig für die Entwicklung der Kooperation, aber keineswegs hinreichend. Der Nachweis, daß keine einzige beste Strategie existiert, läßt die Frage unbeantwortet, welche Verhaltensmuster zu erwarten sind, wenn es tatsächlich eine hohe Wahrscheinlichkeit fortgesetzter Interaktionen zwischen zwei Individuen gibt. Bevor wir uns mit der Untersuchung des zu erwartenden Verhaltens weiter beschäftigen, ist es günstig, einen genaueren Blick auf die Frage zu werfen, welche Besonderheiten der Realität im Rahmen des Gefangenendilemmas erfaßt werden können und welche nicht. Zum Glück macht die große Einfachheit dieses Rahmens die Vermeidung vieler restriktiver Annahmen möglich, die sonst die Analyse einengen: 1. Die Auszahlungen der Spieler müssen keinesfalls vergleichbar sein. Zum Beispiel mag ein Journalist durch eine weitere vertrauliche Information belohnt werden, während der kooperierende Bürokrat dadurch belohnt werden könnte, daß er ein politisches Thema in ein günstiges Licht gestellt bekommt. 2. Die Auszahlungen müssen sicherlich nicht symmetrisch sein. Es ist zwar bequem, von einer aus der Perspektive der beiden Spieler genau äquivalenten Interaktion auszugehen, aber dies ist keineswegs notwendig. Man muß zum Beispiel nicht annehmen, daß die Belohnung für wechselseitige Kooperation oder einer der drei anderen Parameter die gleiche Größenordnung für beide Spieler besitzt. Wie bereits erwähnt, ist es nicht einmal erforderlich, dabei von Einheiten auszugehen, die vergleichbar gemessen werden. Man muß einzig und allein annehmen, daß die vier Auszahlungen für jeden Spieler so geordnet sind wie es die Definition des Gefangenendilemmas verlangt. 3. Die Auszahlungen eines Spielers müssen nicht auf einer absoluten Skala gemessen werden. Sie müssen lediglich relativ zueinander gemessen werden. 6 4. Kooperation muß aus dem Blickwinkel der übrigen Welt nicht als erwünscht angesehen werden. Es gibt Fälle, in denen man Kooperation zwischen Spielern eher verhindern als fördern möchte.
16
Einführung
Kartellmäßige Geschäftspraktiken sind gut für die beteiligten Unternehmen, aber nicht so gut fur den Rest der Gesellschaft. Tatsächlich sind die meisten Formen von Korruption für die Beteiligten hochwillkommene Fälle von Kooperation, aber unwillkommen für alle anderen. Die Theorie wird also gelegentlich umgekehrt verwendet werden, um zu zeigen, wie Kooperation verhindert anstatt gefördert werden kann. 5. Es ist keine Annahme von der Art erforderlich, daß die Spieler rational sind. Sie müssen nicht versuchen, ihre Belohnungen zu maximieren. Ihre Strategien können einfach auf standardmäßigen Verfahrensweisen, Daumenregeln, Instinkten, Gewohnheiten oder auf Imitation beruhen (Simon 1955; Cyert und March 1963). 6. Die Handlungen der Spieler müssen nicht einmal notwendig bewußte Entscheidungen reflektieren. Eine Person, die manchmal eine Gefälligkeit erwidert und manchmal nicht, muß nicht über die verwendete Strategie nachdenken. Es ist nicht erforderlich, überhaupt überlegte Entscheidungen anzunehmen. 7 Dieser Rahmen ist weit genug, um nicht nur Menschen, sondern auch Staaten und Bakterien zu umfassen. Staaten unternehmen sicherlich Handlungen, die als Entscheidungen in einem Gefangenendilemma interpretiert werden können, etwa bei der Erhöhung oder Verringerung von Zöllen. Man muß nicht annehmen, daß solche Handlungen rational sind oder auf einen überindividuellen Akteur mit einem eindeutigen Ziel zurückgehen. Sie können im Gegenteil Resultat eines überaus komplexen bürokratischen Verfahrens sein, das komplizierte Prozesse der Informationsverarbeitung und wechselnde politische Koalitionen einschließt (Allison 1971). Desgleichen benötigt ein Organismus, um das andere Extrem zu betrachten, kein Gehirn, damit er an einem Spiel teilnehmen kann. Bakterien zum Beispiel sind hoch reaktiv auf selektive Gesichtspunkte ihrer chemischen Umgebung. Sie können deshalb unterschiedlich auf das Verhalten anderer Organismen reagieren, und diese bedingten Verhaltensstrategien können vererbt werden. Außerdem kann das Verhalten einer Bakterie die Überlebensfahigkeit anderer Organismen der Umgebung beeinflussen, genau wie das Verhalten anderer Organismen die Überlebensfähigkeit einer Bakterie beeinflussen kann. Die biologischen Anwendungen werden wir jedoch für Kapitel 5 aufsparen.
Das Problem der Kooperation
17
Zunächst wird das Hauptinteresse Menschen und Organisationen gelten. Deshalb ist es im Hinblick auf die Allgemeingültigkeit gut zu wissen, daß keine starken Annahmen über die Überlegtheit des Verhaltens der Menschen oder ihre Einsichtsfähigkeit erforderlich sind. Ebensowenig muß man - wie etwa die Soziobiologen - annehmen, daß wichtige Aspekte menschlichen Verhaltens durch die Gene gesteuert sind. Der hier verfolgte Ansatz ist strategisch, nicht genetisch orientiert. Natürlich werden durch die abstrakte Formulierung des Kooperationsproblems als Gefangenendilemma viele wichtige Besonderheiten ausgeblendet, die jede tatsächliche Interaktion einzigartig machen. Beispiele für unberücksichtigte Aspekte sind die Möglichkeit verbaler Kommunikation, der direkte Einfluß dritter Parteien, die Probleme der Ausführung einer Entscheidung und die Unsicherheit über das tatsächliche Verhalten des anderen Spielers im vorangegangenen Zug. Einige dieser Faktoren, die die Analyse verkomplizieren, werden dem Grundmodell in Kapitel 8 hinzugefügt. Es ist offensichtlich, daß die Liste möglicherweise bedeutsamer Faktoren, die ausgelassen wurden, nahezu unbegrenzt erweitert werden könnte. Sicherlich sollte keine vernünftige Person eine wichtige Entscheidung fallen, ohne zu versuchen, diese komplizierenden Faktoren zu berücksichtigen. Der Wert einer Analyse, die auf diese Faktoren verzichtet, besteht in einer Klärung einiger der heiklen Gesichtspunkte der Interaktion - Punkte, die möglicherweise andernfalls im Labyrinth der besonderen, speziellen Umstände verloren gingen, unter denen die tatsächliche Wahl getroffen werden muß. Es ist gerade die Komplexität der Realität, die die Untersuchung einer abstrakten Interaktion zu einer Verständnishilfe macht. Durch eine Untersuchung der Frage, was eine gute Strategie im iterierten Gefangenendilemma ist, wird im nächsten Kapitel die Entstehung der Kooperation eingehender behandelt. Diese Untersuchung erfolgt mit neuartigen Methoden, in Form eines Computer-Turniers. Professionelle Spieltheoretiker waren eingeladen, ihre bevorzugte Strategie einzusenden, und jede dieser Entscheidungsregeln wurde mit jeder anderen gepaart, um zu sehen, welche Regel insgesamt am besten abschneiden würde. Erstaunlicherweise war die einfachste aller eingesandten Strategien der Gewinner. Es handelte sich um TIT FOR TAT, die Strategie, die
18
Einführung
beim ersten Zug kooperiert und dann das wählt, was der andere Spieler im vorangegangenen Zug gemacht hat. In der zweiten Runde des Turniers wurden viel mehr Beiträge verwendet, die von Amateuren und Fachleuten gleichermaßen eingesandt wurden, wobei allen Teilnehmern die Ergebnisse des ersten Durchgangs bekannt waren. Das Ergebnis war ein weiterer Sieg von Ή Τ FOR TAT! Die Analyse der Daten aus diesen Wettbewerben offenbart vier Eigenschaften, die zum Erfolg einer Entscheidungsregel beitragen: 1. Vermeidung unnötigen Konflikts durch eigene Kooperation solange der andere Spieler kooperiert, 2. Provozierbarkeit angesichts einer unnötigen Defektion durch den anderen, 3. Nachsichtigkeit nach der Antwort auf eine Provokation, 4. Verständlichkeit des Verhaltens, damit der andere Spieler sich an das Verhaltensmuster des Spielers anpassen kann. Diese Ergebnisse des Turniers zeigen, daß unter geeigneten Bedingungen tatsächlich Kooperation in einer Welt von Egoisten ohne zentralen Herrschaftsstab entstehen kann. Um zu sehen, wie breit das Anwendungsfeld dieser Ergebnisse ist, wird in Kapitel 3 ein theoretischer Ansatz gewählt. Eine Reihe von Theoremen wird bewiesen, die nicht nur die Erfordernisse für die Entstehung von Kooperation aufzeigen, sondern darüber hinaus eine chronologische Geschichte der Evolution von Kooperation liefern. Hier das Argument in Kürze: Die Evolution der Kooperation erfordert, daß die Individuen eine hinreichend große Chance haben, sich wieder zu treffen, damit sie ein ausreichendes Interesse für ihre zukünftige Interaktion besitzen. Wenn dies gilt, kann sich Kooperation in drei Etappen entwickeln. 1. Der Anfang der Geschichte ist, daß Koqperation selbst in einer Welt unbedingter Defektion in Gang gesetzt werden kann. Die Entwicklung kann nicht ablaufen, wenn sie lediglich von einzelnen, verstreuten Individuen versucht wird, die keine Chance haben, miteinander zu interagieren. Kooperation kann jedoch von kleinen Gruppen solcher Individuen ausgehen, die ihre Kooperation auf Gegenseitigkeit stützen und die wenigstens einen kleinen Anteil ihrer Interaktionen miteinander haben. 2. Die Geschichte geht damit weiter, daß eine auf Reziprozität gegründete Strategie in einer Welt Erfolg haben kann, in der viele verschiedene Arten von Strategien ausprobiert werden. 3. Der Schluß der Geschichte ist, daß einmal auf der Grundlage
Das Problem der Kooperation
19
von Gegenseitigkeit etablierte Kooperation sich selbst gegen das Eindringen weniger kooperativer Strategien schützen kann. Die Zahnräder der sozialen Evolution sind also mit einer Sperre ausgestattet. In den Kapiteln 4 und 5 werden konkrete Themen aufgegriffen, um zu zeigen, wie breit das Anwendungsgebiet dieser Ergebnisse ist. Kapitel 4 widmet sich dem faszinierenden Fall des Systems des Leben-und-leben-lassen, das sich während des Stellungskriegs im Ersten Weltkrieg entwickelte. Mitten in diesem erbitterten Konflikt haben Soldaten an der Front häufig auf gezieltes Feuer verzichtet, vorausgesetzt, ihre Zurückhaltung wurde von den Soldaten der anderen Seite erwidert. Möglich wurde das durch den statischen Charakter des Stellungskriegs, bei dem dieselben kleinen Einheiten sich über ausgedehnte Zeitperioden gegenüberlagen. Die Soldaten dieser einander gegenüberliegenden kleinen Einheiten haben tatsächlich Befehle ihres eigenen Oberkommandos verletzt, um eine stillschweigende Übereinkunft miteinander zu erreichen. Ein detailliertes Studium dieses Falls verdeutlicht, daß Kooperation auch in außergewöhnlich hoffnungslos erscheinenden Situationen aufgebaut und stabilisiert werden kann, sofern nur die Bedingungen fur die Entstehung von Kooperation gegeben sind. Insbesondere zeigt das System des Leben-und-leben-lassen, daß freundschaftliche Beziehungen für die Entwicklung der Kooperation in keiner Weise nötig sind. Unter geeigneten Bedingungen kann sich auf Gegenseitigkeit gestützte Kooperation selbst zwischen Feinden entwickeln. Das zusammen mit dem Evolutionsbiologen William D. Hamilton verfaßte Kapitel 5 dient dem Nachweis, daß Kooperation auch ohne Voraussicht entstehen kann. Es wird gezeigt, daß die Theorie der Kooperation Verhaltensmuster in einem großen Bereich biologischer Systeme erklären kann, angefangen bei Bakterien bis hin zu Vögeln. Kooperation kann sich in biologischen Systemen selbst dann entwickeln, wenn die Beteiligten nicht miteinander in Beziehung stehen, und selbst wenn sie unfähig sind, Konsequenzen ihres eigenen Verhaltens zu erkennen. Möglich gemacht wird dies durch die evolutionären Mechanismen der Genetik und durch das Überleben des Tüchtigsten. Ein Individuum, das eine günstige Antwort bei einem anderen erreicht, hat
20
Einführung
mit höherer Wahrscheinlichkeit Nachkommen, die überleben und das Verhaltensmuster fortsetzen, das die günstigen Reaktionen hervorrief. Also kann sich auch in der biologischen Welt unter geeigneten Bedingungen auf Gegenseitigkeit gegründete Kooperation stabilisieren. Potentielle Anwendungen auf spezifische Aspekte der Territorialität, der Paarung und von Krankheiten werden dargelegt. Die Schlußfolgerung besteht darin, daß Darwins Betonung individueller Überlegenheit in der Tat das Vorhandensein von Kooperation zwischen Individuen derselben Art oder gar verschiedener Arten erklären kann. Solange die erforderlichen Bedingungen realisiert sind, kann Kooperation beginnen, sich durchsetzen und als stabil erweisen. Obwohl Voraussicht nicht notwendig für die Evolution der Kooperation ist, kann sie sicherlich hilfreich sein. Deshalb widmen sich die Kapitel 6 und 7 Vorschlägen für Beteiligte und Reformer. Kapitel 6 entschlüsselt die Folgen der Theorie der Kooperation für den, der sich in einer Gefangenendilemma-Situation befindet. Aus der Sicht des Beteiligten ist es das Ziel, dabei so gut wie möglich abzuschneiden, ungeachtet dessen, wie der andere davonkommt. Auf der Basis der Turnier-Ergebnisse und der formalen Theoreme werden vier einfache Vorschläge für das individuelle Entscheidungsverhalten angeboten: Sei nicht neidisch auf den Erfolg des anderen Spielers; defektiere nicht als erster; erwidere sowohl Kooperation als auch Defektion; sei nicht zu raffiniert. Ein Verständnis für die Perspektive eines Beteiligten kann auch als Grundlage dienen, um besser zu sehen, was getan werden kann, damit sich Kooperation unter Egoisten leichter entwickelt. Daher wird in Kapitel 7 die höhere Warte eines Reformers eingenommen, der die Randbedingungen der Interaktion ändern will, um die Entstehung von Kooperation zu fordern. Ein großes Spektrum von Methoden wird berücksichtigt, etwa Versuche, die Interaktionen zwischen den Spielern dauerhafter und häufiger zu machen, die Belehrung der Beteiligten, sich um einander zu kümmern, und die Unterrichtung der Beteiligten über den Wert der Gegenseitigkeit. Diese reformerische Perspektive vermittelt Einsichten für eine Vielzahl von Themen, angefangen bei der MachtvonBürokratienbis zu den Schwierigkeiten von Zigeunern, und von der Moralität des Ή Τ FOR TAT bis zur Kunst des Verfassens von Verträgen.
Das Problem der Kooperation
21
Kapitel 8 erweitert die Konsequenzen der Theorie der Kooperation auf neue Gebiete. Es zeigt, wie verschiedene Merkmale der sozialen Struktur die Entwicklung der Kooperation beeinflussen können. Die Beziehungen von Menschen werden z.B. häufig beeinflußt durch beobachtbare Merkmale wie Geschlecht, Alter, Hautfarbe oder Kleidungsstil. Diese Merkmale können zu sozialen Strukturen fuhren, die auf Stereotypisierung und Statushierarchien beruhen. Als ein weiteres Beispiel sozialer Struktur wird die Rolle der Reputation betrachtet. Das Ringen um die Begründung und Erhaltung einer Reputation kann Anlaß intensiver Konflikte sein. Zum Beispiel war der Hauptgrund für die Eskalation des Vietnam-Krieges im Jahre 1965 der Wunsch der amerikanischen Regierung, anderen Herausforderungen ihrer Interessen durch die Aufrechterhaltung ihrer weltweiten Reputation zu begegnen. Dieses Kapitel betrachtet auch das Bemühen einer Regierung, ihre Reputation ihren Bürgern gegenüber aufrecht zu erhalten. Um wirkungsvoll zu sein, kann eine Regierung nicht alle beschlossenen Regeln und Maßnahmen erzwingen, sondern ist auf die Einwilligung der Majorität der Regierten angewiesen. Um das zu erreichen, ist es erforderlich, die Regeln so zu formulieren, daß die meisten der Regierten eine Befolgung für die meiste Zeit vorteilhaft finden. Die Konsequenzen dieses Ansatzes sind grundlegend für das Funktionieren der Ausübung von Herrschaft. Sie werden illustriert mit Vorschriften gegen industrielle Umweltverschmutzung und mit der Überwachung von Ehescheidungsvereinbarungen. Bis zum letzten Kapitel hat sich die Diskussion fortbewegt von der Untersuchung der Entstehung der Kooperation unter Egoisten ohne zentrale Herrschaft zu der Analyse des Geschehens unter der Bedingung, daß die Menschen tatsächlich aufeinander Rücksicht nehmen, und für den Fall, daß es eine zentrale Autorität gibt. Der Grundansatz ist jedoch stets der gleiche: Die Untersuchung, wie Individuen sich in Verfolgung ihrer eigenen Interessen verhalten, ermöglicht die Aufdeckung der Folgen für die Gruppe insgesamt. Dieser Ansatz leistet mehr als ein Verständnis der Perspektive eines einzelnen Spielers. Er liefert auch eine Einschätzung der erforderlichen Maßnahmen, die die Stabilität wechselseitiger Kooperation in einem gegebenen Bereich fordern. Das vielversprechendste Resultat ist, daß die Evolution der Koopera-
22
Einführung
tion beschleunigt werden kann, wenn vorausschauende Beteiligte die Fakten der Theorie der Kooperation kennen.
Anmerkungen zu Kapitel 1. Das Problem der Kooperation 1
Vgl. die folgenden Quellen für nützliche Illustrationen dieser Anwendungen auf die internationale Politik: Sicherheits- Dilemma (Jervis 1978), Rüstungswettlauf und Abrüstung (Rapoport 1960), Wettbewerb in Bündnissen (Snyder 1971), Zollverhandlungen (Evans 1971), Besteuerung multinationaler Unternehmungen (Laver 1977) und begrenzter Konflikt in Zypern (Lumsden 1973). 2 Das Gefangenendilemma wurde ungefähr 1950 von Merrill Flood und Melvin Dresher erfunden und kurz darauf von A. W Tucker formalisiert. 3 Situationen, die über paarweise Interaktionen hinausgehen, können mit dem komplexeren /V-Personen Gefangenendilemma modelliert werden (Olson 1968; G. Hardin 1968; Schelling 1973; Dawes 1980; R. Hardin 1982). Die Hauptanwendung betrifft die Bereitstellung kollektiver Güter. Es bleibt abzuwarten, ob die Ergebnisse fur paarweise Interaktionen vielleicht auch bei der Durchführung einer tieferen Untersuchung des ^-Personen Falls hilfreich sein können. Für eine parallele Behandlung des 2- und des N- Personen Falls vgl. Taylor (1976,29-62). 4
Der Wert, den man bei permanenter Defektion erhält, falls der andere TIT FOR TAT spielt, ist: V (IMMER D/TFT) = T+ wPWP+ v?P+... = T+wP(l + w+w2 + ...) = T+ wP/( 1 - w). 5 Wenn der andere eine Strategie permanenter Vergeltung benutzt, ist ein Spieler besser beraten, immer zu kooperieren als jemals zu defektieren, wenn gilt R/( 1 - w)>T+ wP/( 1 - w) oder w>(T-R)/(T-P). 6 Das heißt, daß die Nutzenwerte lediglich auf dem Niveau einer Intervallskala gemessen werden müssen. Die Verwendung einer Intervallskala bedeutet, daß die Repräsentation der Auszahlungen mittels einer beliebigen positiven linearen Transformation verändert werden kann, genau wie man Temperaturäquivalent in Fahrenheit oder in Celsius messen kann. 7 Vgl. Nelson und Winter (1982) für die Folgen eines Verzichts auf die Annahme bewußt kalkulierter Wahlhandlungen in einem evolutionären Modell wirtschaftlichen Wandels.
Teil II Die Entstehung der Kooperation
Kapitel 2
Der Erfolg von ΉΤ FOR TAT in Computer-Turnieren Ein Gefangenendilemma entsteht in vielen und ganz unterschiedlichen Situationen, von persönlichen bis hin zu internationalen Beziehungen. Daher wäre es nützlich zu wissen, wie man sich in einer solchen Lage am besten verhält. Das Theorem im vorangegangenen Kapitel zeigt aber, daß es keine Strategie gibt, die immer die beste ist. Was das beste ist, hängt teilweise davon ab, was der andere Spieler voraussichtlich tun wird. Ferner mag das, was der andere Spieler voraussichtlich tun wird, sehr wohl von seinen Erwartungen über das Verhalten des Partners abhängen. Um aus dieser verwirrenden Lage herauszukommen, kann man in den vorliegenden Untersuchungen zum Gefangenendilemma nach brauchbaren Vorschlägen suchen. Solche Untersuchungen gibt es zum Glück in großer Zahl. Psychologen haben bei ihren Versuchspersonen festgestellt, daß das Ausmaß der Kooperation im iterierten Gefangenendilemma und die Art seines Zustandekommens von zahlreichen Faktoren abhängen, die den Kontext des Spiels, die Eigenschaften der einzelnen Spieler und die Beziehungen zwischen den Spielern betreffen. Da das Verhalten in diesem Spiel so viele wichtige Informationen über die Menschen liefert, wurde das Gefangenendilemma zu einer Standardmethode bei der Untersuchung sozialpsychologischer Fragen, von den Effekten der Verwestlichung in Zentralafrika (Bethlehem 1975), über Aggressionen bei karriereorientierten Frauen (Baefsky und Berger 1974), bis hin zu den charakteristischen Folgen abstrakter im Gegensatz zu konkreten Denkstilen (Nydegger 1974). In den letzten fünfzehn Jahren wurden hunderte von Artikeln über das Gefangenendilemma in den Psychological Abstracts zitiert. Das iterierte Gefangenendilemma ist das E. coli der Sozialpsychologie. Ebenso bedeutend wie seine Verwendung als Grundlage für experimentelle Untersuchungen ist der Gebrauch des Gefangenendilemmas als begriffliches Fundament für Modelle wichtiger
26
Die Entstehung der Kooperation
sozialer Prozesse. Richardsons Modell des Rüstungswettlaufs beruht auf einer Interaktion, die im wesentlichen ein Gefangenendilemma ist, das einmal jährlich mit den Budgets der konkurrierenden Staaten gespielt wird (Richardson 1960; Zinnes 1976,33040). Oligopolistischer Wettbewerb kann ebenfalls als ein Gefangenendilemma modelliert werden (Samuelson 1975,172-175). Das allgegenwärtige Problem, durch kollektives Handeln kollektive Güter zu produzieren, ist als Gefangenendilemma mit vielen Spielern analysierbar (G. Hardin 1968). Sogar Stimmentausch wurde als Gefangenendilemma dargestellt (Riker und Brams 1973). Es ist tatsächlich so, daß viele der am besten entwickelten Modelle wesentlicher politischer, sozialer und ökonomischer Prozesse auf dem Gefangenendilemma aufbauen. Es gibt noch eine dritte Art von Literatur zum Gefangenendilemma. Sie geht über empirische Fragen des Labors oder der realen Welt hinaus und verwendet statt dessen die abstrakte Form des Spiels für die Analyse einiger grundlegender strategischer Probleme, wie etwa das der Bedeutung von Rationalität (Luce und RaifFa 1957), von Entscheidungen, die sich auf dritte Personen auswirken (Schelling 1973), und das der Erzielung von Kooperation ohne Zwang (Taylor 1976). Leider verrät keiner dieser drei Typen von Analysen des Gefangenendilemmas sehr viel darüber, wie man das Spiel gut spielt. Die experimentelle Literatur ist wenig hilfreich, weil sie praktisch vollständig auf der Analyse der Entscheidungen von Spielern beruht, die erstmals mit dem Spiel in seiner formalen Fassung konfrontiert werden. Sie können daher nur ein eingeschränktes Verständnis für die strategischen Feinheiten haben. Obwohl die Versuchspersonen möglicherweise über viel Erfahrung mit alltäglichen Vorkommnissen des Gefangenendilemmas verfügen, können ihre Fähigkeiten begrenzt sein, diese Erfahrungen in einem formalen Rahmen zu nutzen. Manchmal werden in der anwendungsorientierten Literatur die Entscheidungen erfahrener ökonomischer und politischer Eliten in ihrer natürlichen Umgebung untersucht, doch sind die Ergebnisse wenig hilfreich, weil die entsprechenden Interaktionen zumeist relativ langwierig sind und weil es schwierig ist, die Änderung von Begleitumständen zu kontrollieren. Insgesamt wurden auf diese Weise nicht mehr als wenige Dutzend Entscheidungen identifiziert und analysiert. Schließlich werden in der
Der Elfolg von TIT FOR TAT in Computer-Turnieren
27
abstrakten Literatur zur strategischen Interaktion meistens solche Varianten des iterierten Gefangenendilemmas untersucht, in denen das Dilemma selbst durch Änderungen des Spiels beseitigt wird, z.B. durch Zulassung interdependenter Entscheidungen (Howard 1966; Rapoport 1967) oder durch eine Besteuerung der Defektion (Tideman und Tullock 1976; Clarke 1980). Um mehr über das im iterierten Gefangenendilemma erfolgreiche Verhalten zu erfahren, ist ein neuer Ansatz erforderlich. Dieser müßte auf Personen zurückgreifen, die die strategischen Möglichkeiten eines Nichtnullsummenspiels genau durchschauen, in dem die Interessen der Teilnehmer zum Teil übereinstimmen und zum Teil konfligieren. Zwei wichtige Eigenschaften von Nichtnullsummenspielen müßten dabei berücksichtigt werden. Das Theorem im vorangegangenen Kapitel zeigt erstens, daß Erfolg nicht nur von den Eigenschaften einer einzelnen Strategie abhängt, sondern auch von der Art der anderen Strategien, mit denen sie interagiert. Der zweite Punkt ergibt sich unmittelbar aus dem ersten. Eine erfolgreiche Strategie muß in der Lage sein, jederzeit den bisherigen Verlauf der Interaktion zu berücksichtigen. Ein Computer-Turnier für die Untersuchung erfolgreichen Verhaltens im iterierten Gefangenendilemma wird diesen Anforderungen gerecht. Jeder Teilnehmer schreibt für das Turnier ein Programm, das eine Regel für die Wahl von Kooperation oder Nichtkooperation bei jedem Zug enthält. Das Programm verfügt über die bisherige Geschichte des Spiels und kann diese Geschichte bei seinen Entscheidungen berücksichtigen. Wenn die Teilnehmer in erster Linie unter Personen angeworben werden, die mit dem Gefangenendilemma vertraut sind, dann ist sichergestellt, daß ihre Entscheidungsregeln auf Regeln sachkundiger anderer Teilnehmer treffen. Ein solches Rekrutierungsverfahren würde außerdem gewährleisten, daß das Turnier dem Stand der Forschung entspricht. Um herauszufinden, was passieren würde, forderte ich professionelle Spieltheoretiker auf, sich an einem solchen ComputerTurnier zu beteiligen. Jeder Teilnehmer trat gegen jeden anderen an. Wie in den Regeln für das Turnier angekündigt, trafjeder Teilnehmer auch auf sein eigenes Gegenstück und aufRANDOM, ein Programm, das zufallig und mit jeweils gleicher Wahrscheinlich-
28
Die Entstehung der Kooperation
keit kooperiert und defektiert. Jedes Spiel bestand aus genau zweihundert Zügen.1 Für jeden Zug wurde die aus Kapitel 1 bekannte Auszahlungsmatrix verwendet. Sie belohnte beide Spieler mit drei Punkten für wechselseitige Kooperation und mit einem Punkt für wechselseitige Defektion. Wenn ein Spieler defektierte und der andere kooperierte, erhielt der defektierende Spieler fünf Punkte und der kooperierende Spieler null Punkte. Kein Teilnehmer wurde wegen Überschreitung von Zeitschranken disqualifiziert. Das gesamte Turnier wurde fünfmal durchgeführt, um eine stabilere Schätzung der Punktzahlen für jedes Paar von Spielern zu erhalten. Insgesamt gab es 120000 Züge, also 240000 einzelne Entscheidungen. Die vierzehn Teilnehmer kamen aus fünf verschiedenen Disziplinen: Psychologie, Ökonomie, Politische Wissenschaft, Mathematik und Soziologie. Anhang A enthält Namen und Herkunft der Teilnehmer, sowie die Punktzahl und den Tabellenplatz ihrer Programme. Ein bemerkenswerter Aspekt des Turniers bestand darin, daß Personen aus verschiedenen Disziplinen in einer gemeinsamen Sprache miteinander interagieren konnten. Die meisten Teilnehmer hatten über Spieltheorie im allgemeinen oder speziell über das Gefangenendilemma publiziert. Ή Τ FOR TAT, eingereicht von Professor Anatol Rapoport (Universität Toronto), gewann das Turnier. Es war das einfachste aller eingereichten Programme und es zeigte sich, daß es auch das beste war! ΉΤ FOR TAT beginnt bekanntlich mit einer kooperativen Wahl und tut danach das, was der andere Spieler im vorangegangenen Zug getan hat. Diese Entscheidungsregel ist wahrscheinlich die bekannteste und meistdiskutierte Regel für das Gefangenendilemma. Sie ist leicht verständlich und leicht zu programmieren. Man weiß, daß sie bei Versuchspersonen einen ziemlich hohen Grad von Kooperation auslöst (Oskamp 1971; W Wilson 1971). In einem Computer-Turnier hat sie die angenehmen Eigenschaften, kaum ausgebeutet werden zu können und gute Resultate zu erzielen, wenn sie auf ihr eigenes Gegenstück trifft. Sie hat den Nachteil, beim Zusammentreffen mit der Regel RANDOM, deren Beteiligung am Turnier den Teilnehmern angekündigt worden war, zu großzügig zu sein.
Der Erfolg von TIT FOR TAT in Computer-Turnieren
29
Ή Τ FOR TAT war als starker Konkurrent bekannt. In einem vorangegangenen, vorbereitenden Turnier war Ή Τ FOR TAT Zweiter geworden; in einer Variante dieses vorbereitenden Turniers hatte es den ersten Platz belegt. Über diese Umstände waren die meisten Personen informiert, die Programme für das Gefangenendilemma Computer-Turnier entwarfen, weil sie eine Beschreibung des vorbereitenden Turniers erhalten hatten. Es war also nicht überraschend, daß viele von ihnen das Prinzip benutzten und zu verbessern versuchten, auf dem Ή Τ FOR TAT beruht. Der verblüffende Tatbestand ist der, daß kein einziges der komplexeren Programme, die eingereicht wurden, in der Lage war, seine Aufgabe so gut zu erfüllen wie das einfache Original - Ή Τ FOR TAT Dieses Ergebnis steht im Gegensatz zu dem von ComputerSchachturnieren, in denen es offensichtlich auf Komplexität ankommt. Das am wenigsten komplexe Programm belegte z.B. den letzten Platz in der zweiten Schachcomputer Weltmeisterschaft (Jennings 1978). Es war von Johann Joss (ΕΤΗ Zürich) eingereicht worden, der sich auch am Gefangenendilemma Computer-Turnier beteiligte. Sein Beitrag zum Gefangenendilemma-Turnier beruhte auf einer kleinen Modifikation von Ή Τ FOR TAT, aber seine Modifikation führte wie die anderen nur zu einer Verschlechterung der Leistung der Entscheidungsregel. Die Analyse der Resultate zeigte, daß weder die Fachrichtung seines Autors, noch die Kürze - oder die Länge - eines Programms für den relativen Erfolg einer Regel verantwortlich sind. Wovon hängt er dann ab? Bevor diese Frage beantwortet wird, ist eine Bemerkung zur Interpretation der Punktzahlen angebracht. In einem Spiel mit 200 Zügen sind 600 Punkte ein brauchbarer Anhaltspunkt für sehr gute Leistung, denn das ist die Punktzahl, die erreicht wird, wenn beide Seiten immer miteinander kooperieren. Ein brauchbarer Anhaltspunkt für sehr schlechte Leistung sind 200 Punkte, die Punktzahl eines Spielers, wenn beide Seiten niemals miteinander kooperieren. Die meisten Punktzahlen liegen zwischen 200 und 600, obwohl Werte zwischen 0 und 1000 Punkten möglich sind. Der Gewinner Ή Τ FOR TAT erreichte im Durchschnitt 504 Punkte pro Spiel. Überraschenderweise gibt es eine einzige Eigenschaft, mit der
30
Die Entstehung der Kooperation
relativ erfolgreiche von erfolglosen Teilnehmern unterschieden werden können. Diese Eigenschaft besteht darin, freundlich zu sein, d. h. nicht als erster zu defektieren. (Für die Analyse dieses Turniers wollen wir die Definition der Freundlichkeit einer Strategie so auflockern, daß sie auch Regeln einschließt, die vor den letzten Zügen, ζ. B. vor Zug 199, nicht als erste defektieren.) Jede der ersten acht und keine der restlichen Regeln ist freundlich. Es gibt sogar eine beträchtliche Lücke zwischen den Punktzahlen der freundlichen Teilnehmer und den übrigen. Die freundlichen Teilnehmer erzielten Durchschnitte zwischen 472 und 504, während der beste Teilnehmer unter denen, die nicht freundlich waren, nur 401 Punkte erzielte. Nicht als erster zu defektieren, zumindest nicht, bevor das Spiel praktisch zu Ende ist, war also eine Eigenschaft, die allein bereits ausreichte, um in diesem Gefangenendilemma Computer-Turnier die erfolgreicheren von den weniger erfolgreichen Regeln zu trennen. Jede der freundlichen Regeln erzielte ungefähr 600 Punkte mit jeder der anderen sieben freundlichen Regeln und mit ihrem eigenen Gegenstück. Das liegt daran, daß zwei freundliche Regeln bis praktisch zum Ende des Spiels sicher miteinander kooperieren. Die kleineren Varianten im Hinblick auf die Taktik am Ende des Spiels sind im übrigen für die Schwankungen in den Punktzahlen kaum verantwortlich. Da die freundlichen Regeln miteinander jeweils ungefähr 600 Punkte erreichten, muß die Rangfolge unter den freundlichen Regeln von den Punktzahlen abhängen, die sie mit Regeln erzielten, die nicht freundlich sind. Das liegt auf der Hand. Weniger offensichtlich ist, daß die Rangfolge der ersten acht Regeln im wesentlichen durch nur zwei der übrigen sieben bestimmt wurde. Diese beiden Regeln sind in dem Sinn Königsmacher, daß sie selbst nicht sehr erfolgreich sind, aber die Rangfolge unter den besten Bewerbern stark beeinflussen. Der wichtigste Königsmacher beruht auf einem „Prinzip der Ergebnismaximierung", das ursprünglich als mögliche Interpretation des Verhaltens von Versuchspersonen in Laborexperimenten zum Gefangenendilemma entwickelt worden war (Downing 1975). Die fragliche Regel, wir wollen sie DOWNING nennen, ist besonders interessant, weil sie sich auf eine ziemlich anspruchsvolle Idee stützt. Anders als die meisten anderen ist sie nicht ein-
Der Erfolg von TIT FOR TAT in Computer-Turnieren
31
fach eine Variante von Ή Τ FOR TAT. Sie macht den Versuch, das Verhalten des anderen Spielers zu verstehen, um anschließend die Wahl zu treffen, die gegen das angenommene Verhalten des anderen Spielers langfristig zur höchsten Punktzahl fuhrt. Wenn der andere Spieler auf das Verhalten von DOWNING nicht zu reagieren scheint, dann versucht DOWNING durch Defektion so gut wie möglich davonzukommen. Wenn hingegen der andere Spieler entgegenkommend zu sein scheint, kooperiert DOWNING. Für die Beurteilung des anderen Spielers schätzt DOWNING die Wahrscheinlichkeit, mit der er kooperiert, nachdem DOWNING kooperiert hat, sowie die Wahrscheinlichkeit, daß der andere Spieler kooperiert, nachdem DOWNING defektiert hat. Bei jedem Zug werden die Schätzungen dieser bedingten Wahrscheinlichkeiten auf den neuesten Stand gebracht und es wird dann die Entscheidung getroffen, die die eigene langfristige Auszahlung unter der Annahme maximiert, daß das Verhalten des anderen Spielers korrekt modelliert wurde. Wenn die beiden bedingten Wahrscheinlichkeiten ähnliche Werte haben, beschließt DOWNING, daß es sich lohnt zu defektieren, da der andere Spieler dasselbe zu tun scheint, gleichgültig ob DOWNING kooperiert oder aber nicht kooperiert. Wenn der andere Spieler zwar nach einer eigenen Kooperation, aber nicht nach einer eigenen Defektion zur Kooperation neigt, dann scheint er entgegenkommend zu sein. DOWNING überlegt sich dann, daß es das beste ist, mit einem entgegenkommenden Spieler zu kooperieren. Unter bestimmten Umständen kommt DOWNING sogar zu dem Schluß, daß die beste Strategie darin besteht, abwechselnd zu kooperieren und zu defektieren. Am Anfang des Spiels verfügt DOWNING über keine Werte für die bedingten Wahrscheinlichkeiten des anderen Spielers. Sie werden als j eweils .5 geschätzt, aber diese Schätzung hat kein Gewicht, sobald sich während des Spiels Informationen ergeben. Dies ist eine ziemlich raffinierte Entscheidungsregel, ihre Anwendung fuhrt aber zu einem Problem. Da zunächst angenommen wird, daß der andere Spieler nicht entgegenkommend ist, ist DOWNING dazu verurteilt, bei den ersten beiden Zügen zu defektieren. Diese ersten beiden Defektionen veranlaßten viele andere Regeln, DOWNING zu bestrafen, so daß die Angelegenheit meistens einen schlechten Anfang nahm. Gerade aus diesem
32
Die Entstehung der Kooperation
Grund eignet sich DOWNING aber so gut als Königsmacher. Die erstplazierte Regel TIT FOR TAT und die zweitplazierte Regel TIDEMAN UND CHIERUZZI reagierten beide so, daß DOWNING zu erwarten lernte, daß sich Kooperation, nicht aber Defektion auszahlt. Alle anderen freundlichen Regeln kamen mit DOWNING nicht zurecht. Die freundlichen Regeln hatten im Turnier vor allem deshalb Erfolg, weil sie miteinander gut auskamen und weil es ausreichend viele gab, um die durchschnittliche Punktzahl jeder einzelnen beträchtlich zu vergrößern. Solange der andere Spieler nicht defektierte, kooperierte jede der freundlichen Regeln stets bis praktisch zum Ende des Spiels. Was passierte aber, wenn es eine Defektion gab? Verschiedene Regeln reagierten darauf verschieden, und ihre Reaktion war wichtig für ihren Gesamterfolg. Ein Schlüsselbegriff in dieser Hinsicht ist die Nachsicht einer Entscheidungsregel. Nachsicht kann man informell als die Neigung beschreiben, in den Zügen nach einer Defektion des anderen Spielers zu kooperieren.2 Unter allen freundlichen Regeln erreichte diejenige die niedrigste Punktzahl, die am wenigsten nachsichtig war. Dabei handelt es sich um FRIEDMAN, eine vollständig unnachsichtige Regel, die ewige Vergeltung übt. Sie defektiert niemals als erste, aber wenn der andere nur einmal defektiert, defektiert FRIEDMAN von dann an ständig. Anders der Sieger TIT FOR TAT, der einen Zug lang unnachsichtig ist, danach aber vollständige Nachsicht übt. Diese Regel läßt die Vergangenheit nach einer Strafe auf sich beruhen. Einer der hauptsächlichen Gründe dafür, daß Regeln, die nicht freundlich sind, im Turnier nicht erfolgreich waren, ist der, daß die meisten Regeln im Turnier nicht sehr nachsichtig waren. Ein Beispiel macht das deutlich. Betrachten wir JOSS, eine hinterlistige Regel, die es darauf anlegt, mit einer gelegentlichen Defektion ungestraft davon zu kommen. Diese Entscheidungsregel ist eine Variante von Ή Τ FOR TAT. Wie Ή Τ FOR TAT defektiert sie sofort nach einer Defektion des anderen Spielers. Aber anstatt immer zu kooperieren, nachdem der andere Spieler kooperiert hat, defektiert sie in 10 Prozent der Fälle nach einer Kooperation des anderen Spielers. Sie versucht also, gelegentliche Ausbeutungen des anderen Spielers einzuschmuggeln.
Der Erfolg von TIT FOR TAT in Computer-Turnieren
33
Diese Regel scheint eine ziemlich unbedeutende Abänderung von Ή Τ FOR TAT zu sein, doch ihre Gesamtleistung war viel schlechter, und es ist interessant, sich den Grund genau anzusehen. Tabelle 1 zeigt Zug fur Zug die Geschichte eines Spiels zwischen JOSS und Ή Τ FOR TAT. Zunächst kooperierten beide Spieler, aber im sechsten Zug wählte JOSS im Einklang mit dem beschriebenen Zufallsmechanismus eine Defektion. Beim nächsten Zug kooperierte JOSS wieder, doch Ή Τ FOR TAT defektierte in Reaktion auf die vorangegangene Defektion von JOSS. Dann defektierte JOSS in Reaktion auf die Defektion von Ή Τ FOR TAT. Praktisch verursachte also die einmalige Defektion von JOSS im sechsten Zug ein Echo, das zwischen JOSS und TIT FOR TAT hin und her wandert. Dieses Echo führte dazu, daß JOSS bei allen folgenden Zügen mit gerader Nummer und Ή Τ FOR TAT bei allen folgenden Zügen mit ungerader Nummer defektiert. Tabelle 1: Beispiel für ein Spiel zwischen TIT FOR TAT und JOSS Züge Züge Züge Züge Züge Züge Züge Züge Züge Züge
1- 2 0 21 - 4 0 41 - 6 0 61 - 8 0 81 -100 101 -120 121 -140 141 -160 161 -180 181 -200
11111 32324 44444 44444 44444 44444 44444 44444 44444 44444
23232
ΊΉΉ 44444 44444 44444 44444 44444 44444 44444 44444
32323 44444 44444 44444 44444 44444
23232 44444 ΊήΊήΊ
44444 44444 44444 44444
44444
44444 44444 44444
1ΊΉΊ 44444 44444
Punktzahlen in diesem Spiel: TIT FOR TAT 236; JOSS 241. Erläuterungen:
1 : Beide kooperieren 2: Nur TIT FOR TAT kooperiert 3: Nur JOSS kooperiert 4: Beide defektieren
Beim fünfundzwanzigsten Zug kam es durch den Zufallsmechanismus abermals zu einer Defektion von JOSS. TIT FOR TAT defektierte natürlich im folgenden Zug, und damit begann ein zweites Echo. Es veranlaßte JOSS, auch bei allen Zügen mit ungerader Nummer zu defektieren. Folge der beiden Echos war Defek-
34
Die Entstehung der Kooperation
tion durch beide Spieler bei jedem Zug nach dem funfundzwanzigsten. Wegen dieser Kette wechselseitiger Defektionen bekamen beide für den Rest des Spiels nur noch einen Punkt pro Runde. Die Gesamtpunktzahl am Ende dieses Spiels war 236 fur Ή Τ FOR TAT und 241 für JOSS. Beachten Sie, daß JOSS zwar ein wenig besser abschnitt als Ή Τ FOR TAT, daß aber beide ein schlechtes Ergebnis erzielten.3 Das Problem besteht in der Kombination einer gelegentlichen Defektion von JOSS nach einer Kooperation des anderen Spielers mit kurzfristiger Unnachsichtigkeit beider Seiten. Wir sehen daran, daß es sich nicht lohnt, so gierig wie JOSS zu sein, wenn beide Parteien in der Weise Vergeltung üben, wie dies JOSS und Ή Τ FOR TAT tun. Das Turnier zeigt, wie wichtig es ist, in einer Umgebung EchoEffekte zu minimieren, in der beide Seiten über Macht verfugen. Wenn eine einzelne Defektion eine lange Kette wechselseitiger Vorwürfe in Gang setzen kann, dann leiden darunter beide Seiten. Eine subtile Analyse muß mindestens drei Ebenen bei diesen Echo-Effekten berücksichtigen. Die erste Ebene ist die der direkten Folgen einer Entscheidung. Hier ist die Analyse einfach, denn eine Defektion bringt immer mehr ein als eine Kooperation. Die zweite Ebene betrifft die indirekten Effekte. Hier ist zu berücksichtigen, daß die andere Seite eine Defektion bestrafen oder hinnehmen kann. Diese beiden Analyseebenen wurden zweifellos von vielen Teilnehmern beachtet. Es gibt aber noch eine tieferliegende dritte Ebene. Auf ihr muß berücksichtigt werden, daß man bei der Beantwortung einer Defektion der anderen Seite eigene vorangegangene Ausbeutungsversuche womöglich wiederholt oder sogar verstärkt. Eine einzelne Defektion mag also erfolgreich sein, wenn man ihre direkten Effekte und vielleicht sogar dann, wenn man ihre Effekte zweiter Art in Betracht zieht. Die eigentlichen Kosten können sich aber aus Effekten dritter Art ergeben, falls vereinzelte Defektionen zu endloser gegenseitiger Vergeltung fuhren. Weil sie dies nicht erkannten, bestraften sich viele Regeln zu guter Letzt selbst. Da der andere Spieler wie ein Mechanismus wirkt, der die Selbstbestrafung um einige Züge hinausschiebt, wurde dieser Aspekt von vielen Entscheidungsregeln nicht verstanden. Obwohl keine der Bemühungen um mehr oder weniger raffinierte Entscheidungsregeln zu einer Verbesserung von Ή Τ FOR
Der Erfolg von TIT FOR TAT in Computer-Turnieren
35
TAT führte, war es leicht, etliche Regeln zu finden, die unter den Bedingungen des Turniers wesentlich besser abgeschnitten hätten als Ή Τ FOR TAT. Die Existenz solcher Regeln sollte vor der oberflächlichen Schlußfolgerung warnen, daß die Strategie „Auge um Auge" stets die beste ist. Es gibt mindestens drei Regeln, die das Turnier gewonnen hätten, wenn sie eingereicht worden wären. Bereits das Musterprogramm, das angehenden Mitspielern zugeschickt worden war, um ihnen zu zeigen, wie ein Programm aussehen konnte, hätte das Turnier gewonnen, wenn irgend jemand es einfach ausgeschnitten und eingesandt hätte! Aber das tat keiner. Das Musterprogramm defektiert nur, wenn der andere Spieler bei den vorangegangenen zwei Zügen defektiert hat. Es ist in dem Sinn eine nachsichtigere Version von TIT FOR TAT, daß isolierte Defektionen nicht bestraft werden. Die hervorragende Leistung dieser Regel Ή Τ FOR TWO TATS macht deutlich, daß ein Fehler der Teilnehmer in der Annahme bestand, man könne etwas gewinnen, wenn man weniger nachsichtig als TIT FOR TAT sei. Statt dessen hätte man sehr viel gewinnen können, wenn man noch nachsichtiger als TIT FOR TAT gewesen wäre. Die Folgerungen aus diesem Befund sind bemerkenswert, legt er doch die Vermutung nahe, daß auch erfahrene Strategen die Bedeutung der Nachsicht nicht ausreichend beachten. Eine andere Regel, die das Turnier gewonnen hätte, stand den meisten Teilnehmern ebenfalls zur Verfügung. Es war die Regel, die das vorbereitende Turnier gewonnen hatte. Ein Bericht über dieses Turnier war bei der Anwerbung der Teilnehmer verwendet worden. Die Regel, LOOK AHEAD genannt, war durch Techniken angeregt worden, die in der Künstlichen Intelligenz für das Schachspiel Verwendung finden. Es ist interessant, daß Methoden der Künstlichen Intelligenz zu einer Regel hätten führen können, die in der Tat besser gewesen wäre als alle Regeln, die von Spieltheoretikern speziell für das Gefangenendilemma entwickelt wurden. Eine dritte Regel, die das Turnier gewonnen hätte, war eine geringfügige Modifikation von DOWNING. Wenn DOWNING mit der Annahme begonnen hätte, die anderen Spieler seien entgegenkommend, dann hätte es gewonnen, und zwar mit großem Abstand. Der Königsmacher wäre zum König geworden. DOWNINGs Ausgangsannahmen über die anderen Spieler waren
36
Die Entstehung der Kooperation
pessimistisch. Es zeigte sich, daß Optimismus nicht nur zutreffender gewesen wäre, sondern auch mehr Erfolg eingebracht hätte. Er hätte zum ersten statt zum zehnten Platz geführt.4 Diese Ergebnisse zusätzlicher Regeln bestätigen einen Eindruck bei der Analyse der Turnierteilnehmer selbst: Die Teilnehmer waren im Hinblick auf ihren eigenen Vorteil zu sehr auf Wettbewerb eingestellt. Erstens defektierten viele von ihnen frühzeitig, ohne daß sie provoziert wurden. Diese Eigenschaft war auf lange Sicht sehr kostspielig. Zweitens war das optimale Ausmaß an Nachsicht beträchtlich größer als die Nachsicht, die die Teilnehmer tatsächlich übten (DOWNING war möglicherweise eine Ausnahme). Drittens schließlich kam DOWNING, der Teilnehmer, der sich von den anderen am stärksten unterschied, mit seinem unangebrachten Pessimismus im Hinblick auf das anfangliche Entgegenkommen der anderen in Schwierigkeiten. Die Analyse der Turnierergebnisse läßt erkennen, daß noch viel darüber zu lernen bleibt, wie man mit einer Situation fertig werden kann, in der alle Beteiligten Macht ausüben. Selbst ausgewiesene Strategen aus Politologie, Soziologie, Ökonomie, Psychologie und Mathematik machten systematisch die Fehler, im Hinblick auf ihren eigenen Vorteil zu sehr aufWettb ewerb eingestellt, nicht ausreichend nachsichtig und zu pessimistisch über das Entgegenkommen der anderen Seite zu sein. Die Wirksamkeit einer bestimmten Strategie hängt nicht nur von ihren eigenen Merkmalen ab, sondern auch von den Eigenschaften der anderen Strategien, mit denen sie interagieren muß. Aus diesem Grund kann man die Ergebnisse eines einzelnen Turniers nicht als endgültig betrachten. Daher wurde eine zweite Runde des Turniers durchgeführt. Die Ergebnisse der zweiten Runde bieten eine wesentlich bessere Grundlage für ein Verständnis der Eigenschaften erfolgreicher Entscheidungen im Gefangenendilemma. Der Grund dafür ist, daß alle Teilnehmer der zweiten Runde eine ausführliche Analyse der ersten Runde erhalten hatten, einschließlich einer Diskussion der zusätzlichen Regeln, die unter den Bedingungen der ersten Runde sehr erfolgreich gewesen wären. Sie waren also nicht nur über den Ausgang der ersten Runde unterrichtet, sondern auch über die Konzepte, mit denen der Erfolg von Regeln analysiert werden konnte, und über die strategischen Fallen, die ent-
Der Erfolg von TIT FOR TAT in Computer-Turnieren
37
deckt worden waren. Mehr noch, jeder wußte, daß die anderen über diese Informationen verfügten. Die zweite Runde begann also vermutlich unter viel anspruchsvolleren Voraussetzungen als die erste, und von ihren Ergebnissen konnte man sehr viel wertvollere Anhaltspunkte für erfolgreiche Wahlen im Gefangenendilemma erwarten. Die zweite Runde führte im Vergleich zur ersten allein schon im Hinblick auf die Größe des Turniers zu einer außerordentlichen Verbesserung. Der Widerhall war bei weitem größer als erwartet. Es gab insgesamt 62 Teilnehmer aus sechs Ländern. Die meisten Konkurrenten wurden durch Anzeigen in Zeitschriften für Benutzer von Microcomputern gewonnen. Die Spieltheoretiker, die an der ersten Runde des Turniers teilgenommen hatten, wurden ebenfalls zur erneuten Beteiligung aufgefordert. Zu den Konkurrenten gehörte ein computerbegeisterter Zehnjähriger ebenso wie Professoren der Informatik, Physik, Ökonomie, Psychologie, Mathematik, Soziologie, Politologie und Evolutionsbiologie. Vertreten waren die Vereinigten Staaten, Kanada, Großbritannien, Norwegen, die Schweiz und Neuseeland. Die zweite Runde bot Gelegenheit, die Stichhaltigkeit der Eindrücke aus der Analyse der ersten Runde zu überprüfen und neue Konzepte für die Erklärung von Erfolg und Mißerfolg zu entwikkeln. Die Teilnehmer zogen ebenfalls ihre Schlüsse aus den Erfahrungen der ersten Runde. Doch verschiedene Personen zogen verschiedene Schlüsse. In der zweiten Runde ist besonders auffallend, wie Teilnehmer interagieren, die von verschiedenen Schlußfolgerungen ausgehen. Ή Τ FOR TAT war das einfachste Programm in der ersten Runde, und es gewann die erste Runde. Es war die einfachste Einsendung in der zweiten Runde, und es gewann die zweite Runde. Obwohl alle Teilnehmer der zweiten Runde wußten, daß Ή Τ FOR TAT die erste Runde gewonnen hatte, war niemand in der Lage, einen besseren Konkurrenten zu entwickeln. Die Entscheidungsregel war allen Konkurrenten in der zweiten Runde bekannt, weil alle den Bericht über die frühere Runde besaßen, der zeigte, daß TIT FOR TAT bis dahin die erfolgreichste Regel war. Sie hatten die Argumente dafür gelesen, warum die Regel ein ziemlich hohes Maß von Kooperation auslöst, daß sie kaum ausgebeutet werden kann, daß sie im vorbereitenden Tur-
38
Die Entstehung der Kooperation
nier ziemlich erfolgreich gewesen war und warum sie die erste Runde gewonnen hatte. Der Bericht über die erste Runde erklärte auch einige der Gründe für ihren Erfolg, wobei besonders auf ihre Eigenschaft hingewiesen wurde, niemals als erste zu defektieren („Freundlichkeit"), und auf ihre Bereitschaft, nach einer Defektion des anderen Spielers erneut zu kooperieren („Nachsicht", abgesehen von einer einzigen Bestrafung). Obwohl die Regeln für das Turnier es jedem ausdrücklich erlaubten, ein beliebiges Programm einzureichen, auch ein von einem anderen verfaßtes, reichte nur einer Ή Τ FORTAT ein: Anatol Rapoport, der das Programm auch beim erstenmal eingereicht hatte. Die zweite Runde wurde in gleicher Weise durchgeführt wie die erste, abgesehen davon, daß geringfügige Effekte im Hinblick auf die Schlußphase des Spiels beseitigt wurden. Entsprechend einer Ankündigung in den Regeln wurde die Länge des Spiels durch einen Zufallsmechanismus bestimmt, der nach jedem Zug mit einer Wahrscheinlichkeit von .00346 zur Beendigung des Spiels führte.5 Dies entspricht einem w = .99654. Da niemand genau wußte, welcher Zug der letzte sein würde, wurden Effekte bezüglich der Schlußphase des Spiels in der zweiten Runde erfolgreich vermieden. Erneut korrelierte kein Persönlichkeitsmerkmal der Konkurrenten signifikant mit der Leistung der Regeln. Weder Professoren noch Amerikaner waren signifikant besser als andere. Diejenigen, die Programme in FORTRAN statt in BASIC geschrieben hatten, waren ebenfalls nicht signifikant besser, obwohl der Gebrauch von FORTRAN in der Regel den Zugang zu einem besseren Gerät als einem kleinen Microcomputer anzeigen dürfte. Die Namen der Konkurrenten sind, zusammen mit Informationen über sie und ihre Programme, in der Reihenfolge ihres Erfolges in Anhang A aufgeführt. Im Schnitt waren kurze Programme trotz des Erfolgs von ΉΤ FOR TAT nicht signifikant besser als lange. Andererseits waren jedoch auch lange Programme (mit ihrer größeren Komplexität) nicht erfolgreicher als kurze. Die Feststellung von Bestimmungsgründen für Erfolg in der zweiten Runde ist nicht einfach, denn im Turnier gab es 3969 Paarungen der 63 Regeln (einschließlich RANDOM). Eine sehr
Der Elfolg von TIT FOR TAT in Computer-Turnieren
39
umfangreiche Matrix mit den Punktzahlen für das Turnier enthält der Anhang A, zusammen mit den Informationen über die Teilnehmer und ihre Programme. Insgesamt wurden in der zweiten Runde mehr als eine Million Züge ausgeführt. Wie in der ersten Runde lohnte es sich, freundlich zu sein. Als erster zu defektieren, war meistens ziemlich kostspielig. Mehr als die Hälfte der Teilnehmer war freundlich, die meisten Konkurrenten hatten also offenbar die Nachricht aus der ersten Runde verstanden, daß es sich nicht auszahlt, als erster zu defektieren. In der zweiten Runde gab es erneut eine erhebliche Korrelation zwischen der Freundlichkeit einer Regel und ihrem Erfolg. Von den ersten 15 Regeln waren alle bis auf eine (sie erreichte den achten Platz) freundlich. Von den letzten 15 Regeln waren alle bis auf eine nicht freundlich. Über alle Teilnehmer erreichte die Korrelation zwischen Freundlichkeit und Punktzahl im Turnier den beträchtlichen Wert von .58. Ein Merkmal, das gut zwischen den freundlichen Regeln selbst unterscheidet, ist die Schnelligkeit und Zuverlässigkeit der Reaktion auf eine Herausforderung durch den anderen Spieler. Von einer Regel kann man sagen, daß sie zurückschlägt, wenn sie nach einer „unnötigen" Defektion der anderen Seite selbst sofort defektiert. Was genau mit „unnötig" gemeint ist, legen wir nicht präzise fest. Der springende Punkt ist jedenfalls der, daß eine leichtlebige Regel, die nicht sofort auf eine Herausforderung durch den anderen Spieler reagiert, auf einfache Weise und immer häufiger ausgenutzt werden kann. Es gab mehrere Regeln in der zweiten Runde des Turniers, die absichtlich eine begrenzte Anzahl von Defektionen einsetzten, um zu prüfen, was sie sich alles erlauben konnten. Die Rangfolge unter den freundlichen Regeln hing in großem Ausmaß davon ab, wie sie mit solchen Herausforderern zurechtkamen. Die beiden Herausforderer, die in dieser Hinsicht besonders wichtig waren, werde ich TESTER und TRANQUILIZER nennen. TESTER wurde von David Gladstein eingereicht und erreichte Platz 46. Die Regel ist für die Suche nach „Softies" eingerichtet, ist aber darauf vorbereitet, auszuweichen, wenn der andere Spieler zeigt, daß er sich nicht ausbeuten läßt. Sie ist ungewöhnlich, weil sie bereits beim ersten Zug defektiert, um die Reaktion des anderen zu testen. Sollte der andere Spieler defektieren, entschuldigt
40
Die Entstehung der Kooperation
sie sich, indem sie kooperiert, und spielt für den Rest des Spiels titfor-tat. Andernfalls kooperiert sie beim zweiten und dritten Zug, defektiert danach aber bei jedem zweiten Zug. TESTER machte seine Sache gut bei der Ausbeutung einiger ergänzender Regeln, die unter den Bedingungen der ersten Runde des Turniers ziemlich erfolgreich abgeschnitten hätten. Ή Τ FOR TWO TATS defektiert ζ. Β. nur, wenn der andere Spieler bei den beiden vorangegangenen Zügen defektiert hat. TESTER defektiert aber in keinem Fall zweimal hintereinander. TITFORTWO TATS kooperiert also stets mit TESTER, und diese Großzügigkeit wird übel ausgenutzt. Es ist zu beachten, daß TESTER selbst in dem Turnier nicht besonders gut abschneidet, aber für niedrige Punktzahlen bei einigen der leichtlebigeren Regeln sorgt. Als weiteres Beispiel dafür, wie TESTER einigen Regeln Probleme bereitet, die in der ersten Runde gut abschnitten, betrachten wir die drei Varianten von Leslie Downings Prinzip der Ergebnismaximierung. Das Programm REVISED DOWNING, das auf dem vielversprechenden DOWNING der ersten Runde beruhte, wurde zweimal eingereicht: von Stanley E Quayle und von Leslie Downing selbst. Eine leicht modifizierte weitere Version stammte von einem jugendlichen Mitbewerber, dem elfjährigen Steve Newman. Alle drei wurden von TESTER ausgebeutet, weil sie alle zu dem Schluß kamen, daß es das beste sei, mit einem Programm auch weiterhin zu kooperieren, das in etwas mehr als der Hälfte der Fälle nach der eigenen Kooperation seinerseits kooperiert. Tatsächlich hätten sie aber besser daran getan, sich wie Ή Τ FOR TAT und viele andere hoch piazierte Programme zu verhalten, die TESTERs Defektion im ersten Zug sofort mit Defektion im zweiten Zug beantworteten. Das hätte TESTER veranlaßt, sich zu entschuldigen, die Angelegenheit wäre danach günstiger verlaufen. TRANQUILIZER verdeutlicht eine tückischere Methode, viele Regeln auszunutzen, und ist daher ein Beispiel für einen gerisseneren Herausforderer. Die Regel trachtet zuerst danach, eine wechselseitig belohnende Beziehung herzustellen, und prüft erst später vorsichtig, ob sie sich etwas erlauben kann. TRANQUILIZER wurde von Craig Feathers eingereicht und erreichte im Turnier Platz 27. Die Regel kooperiert im Normalfall, ist aber bereit zur Defektion, wenn der andere Spieler zu oft defektiert. So neigt die Regel dazu, beim ersten Dutzend Züge oder bei den
Der Erfolg von TIT FOR TAT in Computer-Turnieren
41
ersten beiden Dutzend Zügen zu kooperieren, wenn der andere Spieler kooperiert. Erst dann streut sie eine unprovozierte Defektion ein. Dadurch, daß sie abwartet, bis sich ein Muster wechselseitiger Kooperation entwickelt hat, hofft sie, den anderen Spieler einzulullen und für gelegentliche Defektionen nachsichtig zu stimmen. Wenn der andere Spieler weiterhin kooperiert, werden Defektionen häufiger. Solange TRANQUILIZER aber eine durchschnittliche Auszahlung von mindestens 2.25 Punkten pro Zug erhält, defektiert sie nicht zweimal hintereinander und nicht häufiger als in einem Viertel aller Fälle. Sie versucht, ihr Glück nicht zu sehr auf die Probe zu stellen. Um mit Herausforderern wie TESTER und TRANQUILIZER gut zurechtzukommen, muß man bereit sein, bei „unnötigen" Defektionen zurückzuschlagen. Ebenso wie es sich auszahlt, freundlich zu sein, zahlt es sich aus, zurückzuschlagen. Ή Τ FOR TAT kombiniert diese wünschenswerten Eigenschaften. Es ist freundlich, nachsichtig und es schlägt zurück. Es defektiert nie als erster; es verzeiht eine isolierte Defektion, nachdem es sie einmal beantwortet hat; aber es übt auch für jede Defektion Vergeltung, unabhängig davon, wie gut die Interaktion bislang verlaufen ist. Die Schlußfolgerungen aus der ersten Runde des Turniers beeinflußten die Zusammensetzung der zweiten Runde, denn die Konkurrenten waren mit den Resultaten vertraut. Der Bericht über die erste Runde des Gefangenendilemma Computer-Turniers (Axelrod 1980a) kam zu dem Schluß, daß es sich lohnt, nicht nur freundlich, sondern auch nachsichtig zu sein. Die Konkurrenten in der zweiten Runde wußten, daß solche nachsichtigen Regeln wie Ή Τ FOR TWO TATS und REVISED DOWNING bei der Zusammensetzung der ersten Runde noch besser abgeschnitten hätten als Ή Τ FOR TAT. Viele Konkurrenten hofften in der zweiten Runde offenbar, daß diese Schlußfolgerungen ihre Gültigkeit behalten würden. Von den 62 Teilnehmern waren 39 freundlich und fast alle von ihnen waren jedenfalls in bestimmtem Umfang nachsichtig. Ή Τ FOR TWO TATS selbst wurde von John Maynard Smith eingereicht, einem britischen Evolutionsbiologen. Es erreichte aber nur Platz 24. Wie schon erwähnt, wurde REVISED DOWNING zweimal eingereicht. In der zweiten Runde landete es aber in der unteren Hälfte des Turniers. - Es hat den Anschein, daß es zu einer
42
Die Entstehung der Kooperation
interessanten Interaktion zwischen Personen kam, die zwei verschiedene Lehren aus der ersten Runde gezogen hatten. Die erste Lektion war: „Sei freundlich und nachsichtig." Die zweite Lektion zielte mehr auf einen Ausbeutungsversuch ab: „Wenn andere freundlich und nachsichtig sind, lohnt sich der Versuch, sie auszunutzen." Wer sich auf die erste Lehre stützte, wurde in der zweiten Runde von denen bestraft, die der zweiten Lehre vertrauten. Regeln wie TRANQUILIZER und TESTER konnten zu leichtlebige Regeln erfolgreich ausbeuten. Diejenigen, die sich auf die zweite Lehre stützten, machten ihre eigene Sache aber auch nicht sehr gut. Der Grund dafür ist, daß sie beim Versuch der Ausbeutung anderer Regeln oft schließlich so stark bestraft wurden, daß das ganze Spiel für beide Spieler niedrigere Belohnungen lieferte, als es einfache wechselseitige Kooperation getan hätte. TRANQUILIZER und TESTER selbst belegten z.B. nur die Plätze 27 und 46. Jeder übertraf die Punktzahl von TIT FOR TAT bei weniger als einem Drittel der Regeln. Auch keiner der anderen Teilnehmer, die den Versuch unternahmen, die Lektion zu nutzen, die es auf Ausbeutung anlegte, erreichte einen Spitzenplatz. Obwohl der Gebrauch der zweiten Lektion dazu beitragen kann, die erste Lektion außer Kraft zu setzen, war kein Teilnehmer in der Lage, mehr Nutzen als Schaden aus dem Versuch zu ziehen, leichtlebige Regeln auszubeuten. Die erfolgreichsten Teilnehmer waren zumeist relativ kleine Varianten von Ή Τ FOR TAT, die so konstruiert waren, daß sie Spieler, die offenkundig RANDOM verwenden oder sehr unkooperativ sind, erkennen und den Versuch der Kooperation mit ihnen als aussichtslos aufgeben. Die Durchführung dieser Ideen führte aber zu keinem größeren Erfolg als die reine Form von TIT FOR TAT. Es kam mit fast jedem zurecht und gewann daher die zweite Runde des Turniers ebenso wie die erste. Hätten sich die Ergebnisse der zweiten Runde bei einer wesentlich anderen Zusammensetzung der Teilnehmer stark geändert? Anders gefragt: ist Ή Τ FOR TAT in einer breiten Vielfalt von Umgebungen erfolgreich? Ist diese Regel also robust? Ein gutes Verfahren zur Untersuchung dieser Frage besteht in der Konstruktion einer Reihe von hypothetischen Turnieren mit jeweils ganz unterschiedlichen Zusammensetzungen der beteiligten Typen von Regeln. Die Methode für die Konstruktion dieser
Der Erfolg von TIT FOR TAT in Computer-Turnieren
43
durchgreifend modifizierten Turniere wird in Anhang A erklärt. Ergebnis war, daß Ή Τ FOR TAT fünfder sechs wichtigeren Varianten des Turniers gewann und in der sechsten den zweiten Platz belegte. Dies ist ein überzeugender Test fur die Robustheit des Erfolgs von Ή Τ FOR TAT. Ein weiteres Verfahren für die Prüfung der Robustheit der Ergebnisse ist die Entwicklung einer ganzen Folge hypothetischer zukünftiger Runden des Turniers. Einige der Regeln waren so erfolglos, daß sie in zukünftigen Turnieren voraussichtlich kaum noch einmal ausprobiert worden wären. Andere waren hingegen erfolgreich genug, so daß man annehmen kann, sie wären auch an späteren Turnieren beteiligt gewesen. Es wäre daher hilfreich zu untersuchen, was bei einer Folge von Turnieren passieren würde, wenn die erfolgreicheren Regeln einen immer größeren Teil der Umgebung für jede Regel bilden und wenn die weniger erfolgreichen Regeln immer seltener angetroffen werden. Eine derartige Analyse wäre ein strenger Test für die Leistungsfähigkeit einer Regel, denn fortgesetzter Erfolg würde verlangen, daß eine Regel gut mit anderen erfolgreichen Regeln zurechtkommt. Die Evolutionsbiologie bietet einen nützlichen Anhaltspunkt für die Behandlung dieses dynamischen Problems (Trivers 1971; Dawkins 1978,215-221; Maynard Smith 1978). Stellen wir uns vor, daß viele Tiere einer einzigen Art ziemlich oft miteinander interagieren. Wir wollen annehmen, daß die Interaktionen die Form eines Gefangenendilemmas haben. Wenn zwei Tiere aufeinander treffen, dann können sie entweder miteinander kooperieren oder nicht miteinander kooperieren oder das eine Tier kann das andere ausbeuten. Nehmen wir weiter an, daß jedes Tier diejenigen anderen wiedererkennt, mit denen es bereits interagiert hat, und daß es sich an die herausragenden Aspekte einer Interaktion erinnert, etwa daran, ob der Interaktionspartner in der Regel kooperiert hat. Eine Runde des Turniers kann man dann als eine Simulation einer einzelnen Generation dieser Tiere auffassen, wobei jede Entscheidungsregel von einer großen Zahl von Individuen angewendet wird. Eine praktische Folge dieser Interpretation ist, daß ein bestimmtes Tier mit einem anderen Tier unter Verwendung seiner eigenen Entscheidungsregel interagieren kann, ebenso wie es eine andere Regel benutzen könnte. Der Wert dieser Analogie beruht darauf, daß sie eine Simulation
44
Die Entstehung der Kooperation
zukünftiger Generationen dieses Turniers möglich macht. Der Grundgedanke ist, daß die erfolgreicheren Regeln in der nächsten Runde mit größerer und die weniger erfolgreichen mit geringerer Wahrscheinlichkeit erneut angewendet werden. Um das zu präzisieren, setzen wir voraus, daß die Anzahl der Kopien (oder Nachkommen) einer Regel ihrer Punktzahl im Turnier proportional ist. Wir interpretieren einfach die durchschnittliche Auszahlung für ein Individuum als proportional der erwarteten Anzahl seiner Nachkommen. Wenn ζ. B. eine Regel in der EröfFnungsrunde eine doppelt so große Punktzahl erreicht wie eine andere Regel, dann wird sie in der nächsten Runde im Vergleich zu dieser zweiten Regel doppelt so häufig anzutreffen sein.6 Daher wird ζ. B. RANDOM in der zweiten Runde weniger oft vertreten sein, während TIT FOR TAT und andere sehr gut piazierte Regeln häufiger auftreten. Betrachtet man menschliche Individuen, dann könnte eine Regel, die schlechte Ergebnisse erreicht, aus verschiedenen Gründen in der Zukunft mit geringerer Wahrscheinlichkeit auftreten. Eine Möglichkeit ist, daß ein Spieler im Laufe der Zeit verschiedene Strategien ausprobiert, um schließlich bei der zu bleiben, die ihm den besten Erfolg zu versprechen scheint. Eine zweite Möglichkeit liegt vor, wenn eine Person sieht, daß andere Strategien erfolgreicher sind als die von ihr verwendete Regel, und daher zu einer dieser anderen Strategien überwechselt. Noch eine weitere Möglichkeit besteht darin, daß eine Person, die eine Schlüsselrolle innehat, etwa ein Parlamentsmitglied oder ein Manager eines Unternehmens, seine Position aufgeben muß, wenn die von ihm angewendete Strategie sich als nicht hinreichend erfolgreich erweist. Sowohl Lernen als auch Imitation und Selektion können also zu einem Prozeß beitragen, in dem das Auftreten relativ erfolgloser Strategien immer weniger wahrscheinlich wird. Die Simulation dieses Prozesses für das GefangenendilemmaTurnier ist ziemlich einfach. Die Turniermatrix zeigt die Punktzahlen, diejede Strategie mitjeder der anderen Strategien erzielt. Ausgehend von den Anteilen eines jeden Typs in einer gegebenen Generation, sind lediglich die Anteile für die nächste Generation zu berechnen.7 Je besser eine Strategie ist, um so stärker wächst ihr Anteil.
Der Erfolg von TIT FOR TAT in Computer-Turnieren
45
Abbildung 2: Simulation des ökologischen Erfolgs der Regeln
Die Ergebnisse sind interessant. Zunächst halbiert sich bis zur fünften Generation die anfangliche Größe der 11 letztplazierten Teilnehmer, während die der meisten mittelmäßigen Teilnehmer etwa gleich bleibt und die der bestplazierten langsam wächst. Bis zur fünfzigsten Generation sind die Regeln aus dem letzten Drittel der Turnierteilnehmer fast verschwunden, während die meisten aus dem mittleren Drittel zu schrumpfen beginnen und die aus dem ersten Drittel weiterhin wachsen (vgl. Abbildung 2). Dieser Prozeß simuliert das Überleben des Tüchtigsten. Eine Regel, die bei einer gegebenen Verteilung von Regeln in der Population im Schnitt erfolgreich ist, bildet in der nächsten Generation einen größeren Teil der Umgebung für die anderen Regeln. Zunächst wird sich eine Regel vermehren, die mit allen Arten von Regeln erfolgreich umgeht, doch wenn späterhin erfolglose Regeln verschwinden, ist für Erfolg gute Leistung gegenüber anderen erfolgreichen Regeln erforderlich. Diese Simulation eröffnet eine ökologische Perspektive, denn es werden keine neuen Verhaltensregeln eingeführt. Sie unterscheidet sich von einer evolutionären Sichtweise, bei der Mutatio-
46
Die Entstehung der Kooperation
nen zugelassen werden, die zu neuen Strategien führen. Unter ökologischen Gesichtspunkten gibt es eine sich ändernde Zusammensetzung gegebener Typen von Regeln. Weniger erfolgreiche Regeln werden seltener, und die erfolgreicheren vermehren sich. Die statistische Verteilung ändert sich in jeder Generation, und dadurch ändert sich für jeden Teilnehmer die Umgebung, mit der er interagieren muß. Am Anfang sind gute und schlechte Programme in gleichen Anteilen vertreten, doch im Laufe der Zeit scheiden die schlechteren aus, und die guten florieren. Erfolg führt zu mehr Erfolg, vorausgesetzt, er beruht auf Interaktionen mit anderen erfolgreichen Regeln. Beruht aber der Erfolg einer Entscheidungsregel auf ihrer Fähigkeit zur Ausbeutung anderer Regeln, dann wird durch das Aussterben der ausgebeuteten Regeln das Fundament für den Ausbeuter selbst untergraben und er teilt deren Schicksal. Ein gutes Beispiel für ökologisches Aussterben bietet HARRINGTON, die einzige unfreundliche Regel unter den ersten 15 in der zweiten Runde. Während Ή Τ FOR TAT und die anderen erfolgreichen freundlichen Programme ihre Anteile an der Population im ökologischen Turnier vergrößerten, wuchs auch der Anteil von HARRINGTON bis etwa zur zweihundertsten Generation. Das lag an der Ausbeutungsstrategie von HARRINGTON. Dann nahmen die Dinge aber eine bemerkenswerte Wende. Weniger erfolgreiche Programme begannen auszusterben, und dadurch fand HARRINGTON immer weniger Opfer, die ausgebeutet werden konnten. Bald konnte HARRINGTON mit den erfolgreichen freundlichen Regeln nicht mehr Schritt halten, und bis zur tausendsten Generation war HARRINGTON ebenso ausgestorben wie seine Beute. Die ökologische Analyse zeigt, daß Erfolg im Umgang mit Regeln, die keine hohen Punktzahlen erzielen, leicht einen Prozeß der Selbstzerstörung einleiten kann. Nicht freundlich zu sein, mag am Anfang vielversprechend erscheinen, aber auf lange Sicht kann es gerade die Umgebung zerstören, die für den eigenen Erfolg benötigt wird. Die Ergebnisse liefern auch noch einen weiteren Sieg für Ή Τ FOR TAT. TIT FOR TAT hatte nur einen ganz leichten Vorsprung im ursprünglichen Turnier. In den simulierten Generationen verlor es diesen Vorsprung nie. Bis zur tausendsten Generation war es
Der Eifolg von TIT FOR TAT in Computer-Turnieren
47
die erfolgreichste Regel und wuchs immer noch schneller als jede andere Regel. Die Gesamtleistung von Ή Τ FOR TAT ist sehr eindrucksvoll. Um es noch einmal zusammenzufassen: Ή Τ FOR TAT erzielte die höchste durchschnittliche Punktzahl von allen 62 Teilnehmern des Turniers. Es erzielte weiter die höchste Punktzahl in fünf der sechs hypothetischen Turniere, die durch Vergrößerung der Effekte verschiedener Typen von Regeln aus der zweiten Runde konstruiert wurden. Im sechsten hypothetischen Turnier belegte es den zweiten Platz. Bei der Simulation zukünftiger Generationen für das Turnier verlor TIT FOR TAT schließlich niemals seine Spitzenposition. Berücksichtigt man den Sieg in der ersten Runde des Turniers und seine ziemlich gute Leistung in Laborexperimenten mit menschlichen Versuchspersonen, dann ist Ή Τ FOR TAT zweifellos eine sehr erfolgreiche Strategie. Theorem 1 besagt, daß es keine absolut beste Regel unabhängig von der Umgebung gibt. Im Hinblick auf die empirischen Erfolge von TIT FOR TAT läßt sich sagen, daß es eine sehr robuste Regel ist: es arbeitet gut in vielen verschiedenen Umgebungen. Ein Teil seines Erfolges mag darin liegen, daß andere Regeln seine Teilnahme antizipieren und so konstruiert sind, daß sie mit ihm gut auskommen. Mit Ή Τ FOR TAT gut auszukommen, erfordert Kooperation, und die wiederum hilft Ή Τ FOR TAT. Selbst Regeln wie TESTER, die darauf angelegt sind, zu prüfen, was man sich erlauben kann, leisten TIT FOR TAT schnell Abbitte. Jede Regel, die versucht, Ή Τ FOR TAT auszunutzen, schadet sich nur selbst. Ή Τ FOR TAT profitiert aus drei Gründen davon, daß es nicht ausgebeutet werden kann: 1. Es gibt eine beachtliche Wahrscheinlichkeit, auf TIT FOR TAT zu treffen. 2. Wenn man auf TIT FOR TAT trifft, ist es leicht zu erkennen. 3. Wenn man TIT FOR TAT erkannt hat, ist leicht einzusehen, daß man es nicht ausbeuten kann.
Ή Τ FOR TAT profitiert also von der eigenen Verständlichkeit. Auf der anderen Seite verzichtet Ή Τ FOR TAT auf die Möglichkeit, andere Regeln auszubeuten. Obwohl Ausbeutungen gelegentlich ertragreich sind, gibt es in ganz unterschiedlichen Umgebungen vielerlei Probleme bei dem Versuch, andere auszubeuten. Zunächst riskiert eine Regel, die defektiert, um zu prüfen, was sie sich erlauben kann, daß. provozierbare Regeln zurückschlagen.
48
Die Entstehung der Kooperation
Wenn dann, zweitens, gegenseitige Bestrafungen begonnen haben, kann es schwierig werden, den Kopfaus der Schlinge zu ziehen. Schließlich führte der Versuch, Regeln zu identifizieren, die auf das eigene Verhalten nicht reagieren (etwa RANDOM oder andere übermäßig unkooperative Regeln) und mit ihnen nicht zu kooperieren, häufig zu dem Fehler, auch mit solchen Regeln nicht zu kooperieren, die mit mehr Geduld, wie TIT FOR TAT sie hat, zur Kooperation veranlaßt werden können. Kein Teilnehmer in der zweiten Runde des Turniers konnte die Aufgabe erfolgreich lösen, diejenigen auszubeuten, die sich ausbeuten lassen, ohne dafür bei den anderen zu hohe Kosten tragen zu müssen. Was den robusten Erfolg von TIT FOR TAT erklärt, ist die Kombination, freundlich zu sein, zurückzuschlagen, Nachsicht zu üben und verständlich zu sein. Freundlichkeit schützt vor überflüssigen Scherereien. Zurückschlagen hält die andere Seite nach einer versuchten Defektion davon ab, diese unbeirrt fortzusetzen. Nachsicht ist hilfreich bei der Wiederherstellung wechselseitiger Kooperation. Schließlich erleichtert Verständlichkeit die Identifikation und löst dadurch langfristige Kooperation aus.
Anmerkungen zu Kapitel 2. Der Erfolg von ΉΤ FOR TAT in Computer-Turnieren 1
In der zweiten Runde des Turniers wurde, wie weiter unten im Text beschrieben, ein Spiel mit wechselnder Länge verwendet. 2 Dies ist eine allgemeinere Definition von Nachsicht als die von Rapoport und Chammah (1965,72-73). Bei ihnen ist die Nachsicht die Wahrscheinlichkeit der Kooperation im Zug nach dem Erhalt der ¿'-Auszahlung. 3 In den fünf Spielen zwischen ihnen betrugen die durchschnittlichen Punktzahlen 225 für TIT FOR TAT und 230 für JOSS. 4 Bei den 15 Regeln des Turniers erreicht REVISED DOWNING im Schnitt 542 Punkte. Man vergleiche damit die 504 Punkte, mit denen TIT FOR TAT gewann. TIT FOR TWO TATS hätte in der gleichen Umgebung durchschnittlich 532 Punkte erreicht, LOOK AHEAD 520 Punkte. 5 Die Wahrscheinlichkeit fur das Ende des Spiels nach jedem Zug wurde so gewählt, daß sich für die Länge des Spiels ein erwarteter Median von 200 Zügen ergab. Es wurde so verfahren, daß jeder fünfmal gegen jeden spielte und die Länge dieser fünf Spiele wurde durch ein Zufallsexperiment festgelegt. Für die fünf Spiele ergaben sich auf diese Weise Längen von 63, 77, 151, 156 und 308 Zügen. Die durchschnittliche Länge eines Spiels war daher mit 151 Zügen etwas kleiner als erwartet. 6 Dieser Reproduktionsprozeß erzeugt eine simulierte zweite Generation des
Der Erfolg von TIT FOR TATin Computer-Turnieren
49
Turniers, in der die von einer Regel erreichte durchschnittliche Punktzahl dem gewichteten Durchschnitt ihrer Punktzahl mit jeder Regel entspricht, wobei die Gewichte dem Erfolg der anderen Regeln in der Anfangsgeneration proportional sind. 7 Diese Simulation zukünftiger Runden des Turniers wird durchgeführt, indem der gewichtete Durchschnitt der Punktzahlen einer Regel mit allen anderen Regeln berechnet wird, wobei die Gewichte den Häufigkeiten der anderen Regeln in der jeweiligen Generation entsprechen. Die Häufigkeit einer Regel in der nächsten Generation ist dann proportional zum Produkt ihrer Häufigkeit und ihrer Punktzahl in der vorangegangenen Generation. Bei diesem Vorgehen werden kardinal gemessene Auszahlungen angenommen. Dies ist die einzige Stelle in diesem Buch, an der Auszahlungen nicht als lediglich intervallskaliert, sondern als kardinal gedeutet werden.
Kapitel 3
Die Chronologie der Kooperation Mit dem Turnier-Ansatz des vorangegangenen Kapitels wurde erforscht, was geschieht, wenn ein gegebenes Individuum mit hoher Wahrscheinlichkeit mit vielen anderen Spielern interagieren muß, die irgendeine aus einer großen Vielfalt verschiedener Strategien verwenden. Die Ergebnisse bestanden in einem sehr klaren Erfolg für TIT FOR TAT. Darüber hinaus legte die ökologische Analyse, die zukünftige Runden des Turniers simulierte, nahe, daß TIT FOR TAT seinen Erfolg fortsetzen und schließlich von beinahe jedem verwendet würde. Was würde danach geschehen? Angenommen, jeder verwendete die gleiche Strategie. Gäbe es dann für irgendjemanden einen Grund, eine andere Strategie zu verwenden oder bliebe die allgemein beliebte Strategie die Wahl aller? Ein sehr nützlicher Ansatz zur Beantwortung dieser Frage wurde von dem Evolutionsbiologen John Maynard Smith (1974 und 1978) entwickelt. Dieser Ansatz arbeitet mit der Vorstellung der Existenz einer ganzen Population von Individuen, die eine bestimmte Strategie verwenden, während ein einzelner Mutant eine andere Strategie einführt. Von der mutierenden Strategie wird gesagt, daß sie in die Population eindringt, wenn der Mutant eine höhere Auszahlung als ein typisches Populationsmitglied erhält. Anders ausgedrückt kann man sich vorstellen, die ganze Population verwendete eine einzige Strategie, während ein einzelnes Individuum mit einer neuen Strategie in der Population auftritt. Der Neuling wird dann nur mit Individuen interagieren, die die angestammte Strategie verwenden. Darüber hinaus wird ein Einheimischer nahezu sicher mit einem anderen Einheimischen interagieren, da der einzelne Neuling ein zu vernachlässigender Teil der Population ist. Deshalb sagt man von einer neuen Strategie, daß sie in eine alteingeführte Strategie eindringt, wenn der Neuling einen höheren Punktwert mit einem Einheimischen erhält als ein Einheimischer mit einem anderen Einheimischen. Weil die Einheimischen nahezu die gesamte Population aus-
Die Chronologie der Kooperation
51
machen, entspricht Invasion in diesem Sinn dem Sachverhalt, daß der einzelne Mutant in der Lage ist, ein besseres Ergebnis zu erzielen als der Populationsdurchschnitt. Dies führt direkt auf den Schlüsselbegriff des evolutionären Ansatzes. Eine Strategie ist kollektiv stabil, wenn keine Strategie in sie eindringen kann.1 Die biologische Motivation für diesen Ansatz liegt darin, daß die Auszahlungen in Begriffen der „Fitness" (Überleben und Anzahl der Nachkommen) interpretiert werden. Alle Mutationen sind möglich und wenn irgendeine von ihnen in eine gegebene Population prinzipiell eindringen könnte, hätte diese Mutation voraussichtlich auch eine Chance, dies tatsächlich zu erreichen. Aus diesem Grund kann erwartet werden, daß nur eine kollektiv stabile Strategie sich langfristig als eine von allen verwendete Strategie erhalten kann. Biologische Anwendungen werden in Kapitel 5 diskutiert. Hier bleibt als wichtiger Punkt festzuhalten, daß kollektiv stabile Strategien deshalb bedeutsam sind, weil sie die einzigen sind, die eine gesamte Population angesichts von beliebigen möglichen Mutanten langfristig aufrecht erhalten kann. Die Motivation für die Anwendung der kollektiven Stabilität auf die Analyse menschlichen Verhaltens liegt darin, die Arten von Strategien zu entdecken, die von einer Gruppe angesichts einer möglichen alternativen Strategie aufrecht erhalten werden können. Wenn eine erfolgreiche alternative Strategie existiert, kann das „mutierende" Individuum sie durch bewußte Überlegung, durch Versuch und Irrtum oder einfach durch einen glücklichen Zufall finden. Wenn jedermann eine gegebene Strategie verwendet und wenn es eine bessere Strategie innerhalb der von der gegenwärtigen Population gebildeten Umgebung gibt, dann wird jemand diese bessere Strategie sicherlich früher oder später herausfinden. Deshalb kann sich nur eine Strategie als von allen verwendete erhalten, in die nicht eingedrungen werden kann. Ein Hinweis in bezug auf diese Definition einer kollektiv stabilen Strategie ist wichtig. Es wird angenommen, daß die Individuen, die neuartige Strategien ausprobieren, nicht zu häufig miteinander interagieren. 2 Wie später gezeigt wird, können sich neue und sehr wichtige Entwicklungen ergeben, wenn diese Individuen in Gruppen interagieren. Eine Schwierigkeit der Anwendung des Begriffs der kollektiven Stabilität auf das iterierte Gefangenendilemma besteht darin, daß
52
Die Entstehung der Kooperation
es sehr mühsam sein kann, tatsächlich zu bestimmen, welche Strategien diese Eigenschaft besitzen und welche nicht. Andere Autoren haben dieses Problem behandelt, indem sie die Untersuchung auf Situationen beschränkt haben, in denen Strategien besonders einfach sind, oder indem sie nur eine willkürlich festgelegte, eingeschränkte Menge von Strategien betrachtet haben.3 Das Problem hat jedoch eine Lösung, die es möglich macht, alle kollektiv stabilen Strategien für das iterierte Gefangenendilemma auszuzeichnen. Diese Charakterisierung aller kollektiv stabilen Strategien erfolgt in Anhang B. Im Moment ist ein so allgemeiner Ansatz nicht erforderlich. Es ist hinreichend, eine bestimmte Strategie zu betrachten und zu untersuchen, unter welchen Bedingungen sie gegenüber einer Invasion durch eine andere Strategie bestehen kann. Eine iur die Untersuchung gut geeignete Strategie ist Ή Τ FOR TAT. Ή Τ FOR TAT kooperiert beim ersten Zug und verhält sich dann so wie der Gegenspieler im vorangegangenen Zug. Eine Population von TIT FORTAT-Spielern wird also untereinander kooperieren und jeder Spieler erhält pro Zug/?. Eine andere Strategie kann in diese Population nur eindringen, wenn sie einen höheren Erwartungswert als R erhält. Welche Art von Strategie könnte dazu in der Lage sein? Zunächst kann gesagt werden, daß eine solche Strategie an irgendeinem Punkt defektieren muß, weil sie sonst genau wie die anderen Strategien pro Zug R erhalten würde. Bei der ersten Defektion erhält sie dann die Versuchung T, also die höchste Auszahlung. Aber dann würde ΤΊΤ FOR TAT defektieren. Folglich kann Ή Τ FOR TAT eine Invasion durch eine solche Regel nur vermeiden, wenn das Spiel voraussichtlich lange genug dauert, um die Vergeltung für die Versuchung zur Defektion wirksam werden zu lassen. Tatsächlich kann keine Regel in Ή Τ FOR TAT eindringen, wenn der Diskontparameter w hinreichend groß ist. Um das zu zeigen, kann man den Sachverhalt verwenden, daß TIT FOR TAT ein Gedächtnis von lediglich einem Zug besitzt. Daher kann ein erfolgreicher Herausforderer einen maximalen Vorteil gegenüber Ή Τ FOR TAT erzielen, wenn er eine möglichst gut funktionierende Folge von Kooperationen und Defektionen ständig wiederholt. Aufgrund des kurzen Gedächtnisses muß die zu wiederholende Folge von Entscheidungen nicht länger als zwei Züge sein. Die wirksamsten Herausforderungen bestehen also in
Die Chronologie der Kooperation
53
wiederholten Folgen von DC oder DD (letzteres ergibt IMMER D). Wenn keine dieser Strategien in Ή Τ FOR TAT eindringen kann, dann kann es überhaupt keine, und TIT FOR TAT ist kollektiv stabil. Beide Herausforderer erzielen beim ersten Zug mehr und beim zweiten Zug weniger als R. Sie profitieren somit von Umständen, unter denen die Zukunft im Verhältnis zur Gegenwart nicht zu bedeutsam ist. Wenn aber w groß genug ist, dann kann weder IMMER D noch die Abwechslung zwischen D und C in Ή Τ FOR TAT eindringen. Wenn aber keine dieser beiden Strategien in Ή Τ FOR TAT eindringen kann, dann auch keine andere Strategie. Das ergibt das zweite Theorem. Der Beweis findet sich in Anhang B. Theorem 2: TIT FOR TAT ist genau dann kollektiv stabil, wenn w hinreichend groß ist. Der kritische Wert von w ist eine Funktion der vier Parameter T, R, Ρ und S.4 Die Bedeutung dieses Satzes liegt darin, daß in einer Population, in der jeder mit jedem kooperiert, weil jeder Ή Τ FOR TAT verwendet, niemand ein besseres Ergebnis erzielen kann, indem er eine andere Strategie einführt, vorausgesetzt die Zukunft wirft einen ausreichend großen Schatten auf die Gegenwart. Eine Invasion von Ή Τ FOR TAT wird mit anderen Worten dadurch unmöglich gemacht, daß der Diskontparameter w groß genug ist relativ zu der durch die vier Auszahlungsparameter bestimmten Bedingung. Es sei ζ. B. wie in der Auszahlungsmatrix der Abbildung 1 angenommen, daß T= 5, R = 3, P= 1 und S = 0. Dann ist Ή Τ FOR TAT kollektiv stabil, wenn der nächste Zug mindestens 2/3 des Wertes des gegenwärtigen Zuges hat. Falls unter diesen Bedingungen jeder Ή Τ FOR TAT verwendet, kann niemand ein besseres Resultat erzielen als dadurch, selbst ebenfalls zu kooperieren. Fällt auf der anderen Seite w unter diesen kritischen Wert und verwendet jeder andere Ή Τ FOR TAT, dann lohnt es sich, bei jedem zweiten Zug zu defektieren. Wenn w kleiner als 1/2 ist, zahlt sich sogar permanente Defektion aus. Eine wesentliche Folge davon ist, daß der wahrgenommene Wert von w sinkt und die Reziprozität von Ή Τ FOR TAT instabil wird, wenn ein Spieler sich aufgrund offensichtlicher Schwäche voraussichtlich nicht mehr lange in der Situation befinden wird. So ergibt sich die Erklärung Caesars dafür, daß die Verbündeten des Pompeius ihre Kooperation mit ihm beendeten. Sie hielten seine
54
Die Entstehung der Kooperation
Aussichten für hoffungslos und handelten nach dem Prinzip, daß „im Unglück aus Freunden Feinde werden" (Caesar 1971,165). Ein weiteres Beispiel ist der Fall eines Unternehmens an der Grenze zum Bankrott, das seine ausstehenden Rechnungen an einen Kommissionär verkauft. Dieser Verkauf erfolgt zu einem sehr kräftigen Rabatt, denn „sobald sich der Untergang eines Fabrikanten ankündigt, beginnen selbst seine besten Kunden damit, die Bezahlung für die Waren zu verweigern, indem sie Qualitätsmängel, nicht eingehaltene Spezifikationen oder unpünktliche Lieferungen reklamieren us w. Der großartigste Vollstrecker der Moral im Geschäftsleben ist die fortdauernde Beziehung, die Erwartung, daß man mit diesem Kunden oder Lieferanten geschäftlich erneut zusammentreffen wird. Wenn eine scheiternde Firma jedoch diesen Erzwingungsmechanismus verliert, kann voraussichtlich nicht einmal ein starker Kommissionär einen Ersatz finden." (Mayer 1974, 280).
In ähnlicher Weise wird es vermutlich einem Mitglied des Kongresses der Vereinigten Staaten, das als Verlierer der nächsten Wahl gilt, schwer fallen, parlamentarische Geschäfte mit Kollegen auf der Basis von Vertrauen und gutem Glauben durchzuführen. 5 Es gibt viele weitere Beispiele der Bedeutung langfristiger Beziehungen für die Stabiltät der Kooperation. Es ist leichter, Reziprozitätsnormen in einer stabilen kleinen Stadt oder Nachbarschaft aufrechtzuerhalten. Umgekehrt wird ein Gastprofessor wahrscheinlich von anderen Fakultätsmitgliedern schlecht behandelt im Vergleich zu der Art und Weise, in der dieselben Leute mit ihren planmäßigen Kollegen umgehen. Ein faszinierender Fall der Entwicklung von Kooperation auf der Basis von fortdauernder Interaktion fand im Stellungskrieg des Ersten Weltkriegs statt. Mitten in diesem äußerst brutalen Krieg entwickelte sich damals zwischen den Männern der feindlichen Mächte das später als System des Leben-und-leben-lassen bezeichnete Verhaltensmuster. Die Truppen griffen einander zwar auf Befehl an, aber zwischen den Schlachten vermied es jede Seite absichtlich, der anderen große Schäden zuzufügen, vorausgesetzt, die andere Seite erwiderte das Verhalten. Die Strategie war nicht notwendig TIT FOR TAT. Manchmal war es Vergeltung im Verhältnis zwei zu eins. Ein britischer Offizier beschrieb etwa in seinen Memoiren die Übernahme eines neuen Frontabschnitts von den Franzosen: „Es war die Gewohnheit der Franzosen,,schlafende Hunde nicht zu wecken',
Die Chronologie der Kooperation
55
w e n n es in einem Frontabschnitt ruhig war..., und dies durch energische Gegenschläge zu unterstreichen, aber nur im Falle einer Herausforderung. In einem Frontabschnitt, den wir ü b e r n o m m e n hatten, erklärten sie mir, daß sie praktisch einen Kodex verwendeten, den der Feind gut verstünde: Sie feuerten zwei Schüsse ab für jeden Schuß der Gegenseite, eröffneten aber niemals selbst das Feuer." (Kelly 1930,18)
Solche Praktiken stillschweigender Kooperation waren eigentlich illegal, aber sie waren gleichwohl endemisch. Viele Jahre lang wurde dieses System entwickelt und verfeinert, den Kriegsleidenschaften und den Bemühungen der Generäle zum Trotz, nach besten Kräften eine Strategie permanenter Zermürbung durchzusetzen. Diese Geschichte ist derart reich an aufschlußreichen Details, daß das ganze folgende Kapitel diesem Thema gewidmet ist. Selbst ohne sich weiter mit der Episode des Stellungskriegs zu befassen, zeigt das Auftreten einer Strategie wie „Vergeltung zwei zu eins", daß man vorsichtig sein muß, allein mit Blick auf eine reine Ή Τ FOR TAT-Strategie Folgerungen zu ziehen. Wie groß ist nun wirklich der Anwendungsbereich des Theorems über ΉΤ FOR TAT, wonach diese Strategie dann und nur dann kollektiv stabil ist, wenn die Zukunft der Interaktion hinreichend wichtig ist? Das nächste Theorem besagt, daß dieses Ergebnis in der Tat sehr allgemein ist und tatsächlich aufjede Strategie zutrifft, die zuerst kooperiert. Theorem 3: Jede Strategie, die mit einer positiven Wahrscheinlichkeit zuerst kooperiert, kann nur dann kollektiv stabil sein, wenn w hinreichend groß ist. Der Grund hierfür ist, daß eine kollektiv stabile Strategie sich selbst vor der Invasion durch jeden Herausforderer schützen muß, unter anderem auch gegen die Strategie permanter Defektion. Wenn die alteingeführte Strategie überhaupt kooperiert, erhält IMMER D bei dem fraglichen Zug T. Auf der anderen Seite kann der durchschnittliche Ertrag der Population alteingeführter Strategien nicht mehr als R pro Zug betragen. Damit also der durchschnittliche Ertrag der Population nicht geringer ist als der Punktwert des Herausforderers IMMER D, muß die Interaktion lang genug dauern, um den Gewinn aus der Versuchung durch die zukünftigen Züge zunichte zu machen. Das ist der Kern der Sache, für einen formalen Beweis vergleiche man Anhang B. Ή Τ FOR TAT und die Strategie „Vergeltung im Verhältnis zwei
56
Die Entstehung der Kooperation
zu eins" sind beide insofern freundliche Entscheidungsregeln, als sie niemals als erste defektieren. Der Vorteil einer freundlichen Regel liegt darin begründet, daß sie den höchstmöglichen Punktwert in einer Population erhält, die aus einem einzigen Typ von Strategie besteht. Sie erhält nämlich bei jedem Zug mit einem anderen Spieler, der dieselbe Strategie verwendet, die Belohnung für wechselseitige Kooperation. Ή Τ FOR TAT und die Strategie „Vergeltung im Verhältnis zwei zu eins" haben noch eine weitere Gemeinsamkeit. Beide üben nach einer Defektion des Gegenspielers Vergeltung. Diese Feststellung führt auf ein allgemeines Prinzip, weil jede kollektiv stabile Strategie, die kooperationsbereit ist, einen Ausbeutungsversuch für einen Herausforderer auf irgendeine Weise unvorteilhaft machen muß. Das allgemeine Prinzip lautet, daß eine freundliche Regel bereits durch die erste Defektion des anderen Spielers provoziert werden muß. Das bedeutet, die Strategie muß bei einem späteren Zug mit einer positiven Wahrscheinlichkeit ihrerseits mit einer Defektion antworten.6 Theorem 4: Eine freundliche Strategie ist nur dann kollektiv stabil, wenn sie durch die erste Defektion des anderen Spielers provoziert wird. Der Grund dafür ist einfach genug. Wenn eine freundliche Strategie nicht durch eine Defektion bei Zug η provoziert würde, dann wäre sie nicht kollektiv stabil, weil eine Regel eindringen könnte, die nur bei Zug η defektiert. Die letzten beiden Theoreme haben gezeigt, daß eine freundliche Strategie nur dann kollektiv stabil sein kann, wenn die Zukunft einen ausreichend großen Schatten wirft und die Regel selbst provozierbar ist. Es gibt aber eine Strategie, die immer kollektiv stabil ist, unabhängig vom Wert des Diskontparameters w oder den Auszahlungsparametern T, R, /"und S. Diese ist IMMER D, die Regel unbedingter und permanenter Defektion. Theorem 5: IMMER D ist immer kollektiv stabil. Wenn der andere mit Sicherheit defektiert, gibt es für einen Spieler keinen Grund, überhaupt zu kooperieren. Eine Population von IMMER D-Spielern erhält pro Zug die Auszahlung P. Es gibt keine Möglichkeit für einen Spieler, dieses Ergebnis zu verbessern, falls es niemand anderen gibt, der überhaupt kooperationsbereit ist. Jede kooperative Wahl würde letztlich nur die Auszah-
Die Chronologie der Kooperation
57
lung Vergeben, ohne daß die Chance einer zukünftigen Kompensation bestünde. Dieses Theorem hat wichtige Implikationen für die Evolution der Kooperation. Wenn man sich ein System vorstellt, das mit Individuen beginnt, die nicht zur Kooperation veranlaßt werden können, dann impliziert die kollektive Stabilität von IMMER D, daß kein einzelnes Individuum darauf hoffen kann, ein besseres Ergebnis zu erzielen, und somit jeder einzelne unkooperativ sein wird. Eine Welt „Böswilliger" kann einer Invasion durch jeden widerstehen, der irgendeine andere Strategie verwendet, vorausgesetzt, die Fremden kommen einzeln an. Das Problem besteht natürlich darin, daß ein einzelner Neuling in einer solchen bösen Welt niemand findet, der seine Kooperation erwidert. Wenn die Neulinge jedoch in kleinen Gruppen ankommen, haben sie durchaus eine Chance, Kooperation in Gang zu setzen. Um zu sehen, wie das möglich sein kann, betrachten wir ein einfaches numerisches Beispiel anhand der Auszahlungsmatrix in Abbildung 1 auf Seite 8. Dieses Beispiel enthält fur die Versuchung die Auszahlung T= 5, für die wechselseitige Kooperation./? = 3, für die Bestrafung wechselseitiger Defektion P = 1 und für das gutgläubige Opfer 5 = 0 . Die Wahrscheinlichkeit, daß zwei Spieler sich erneut treffen sei als w = .9 angenommen. Dann erhält in einer Population von Böswilligen, die jeweils IMMER D verwenden, jeder in jedem Durchgang eine Auszahlung von Ρ insgesamt also eine kumulierte Punktzahl von 10. Es sei nun angenommen, verschiedene Spieler verwendeten Ή Τ FOR TAT. Wenn Ή Τ FOR TAT mit einem IMMER D interagiert, wird Ή Τ FOR TAT beim ersten Zug ausgebeutet und wird danach mit dem Böswilligen nicht wieder kooperieren. Dies ergibt 0 Punkte beim ersten Zug und 1 für die folgenden, insgesamt einen kumulierten Punktwert von 9.7 Dieses Ergebnis ist etwas geringer als die 10 Punkte, die die Böswilligen untereinander erhalten. Wenn aber TIT FOR TAT-Spieler miteinander interagieren, erreichen Sie von Beginn an Kooperation und erhalten bei jedem Zug 3 Punkte, was kumuliert 30 Punkte ergibt. Dieses Ergebnis ist viel besser als die 10 Punkte, die die Böswilligen untereinander erhalten. Sind nun die TITFORTAT spielenden Fremden ein zu vernachlässigender Anteil der gesamten Population, dann interagieren die
58
Die Entstehung der Kooperation
Böswilligen fast immer mit anderen Böswilligen und erhalten nur 10 Punkte. Wenn also die Ή Τ FOR TAT-Spieler häufig genug untereinander interagieren können, können sie eine höhere durchschnittliche Punktzahl erreichen als diese 10 Punkte. Sie können das schaffen, wenn sie genügend Gelegenheit haben, mit jemandem, der ihre Kooperation erwidert, 30 Punkte zu sammeln, anstatt der 9 Punkte mit einem nichtkooperativen Spieler. Wieviele Gelegenheiten werden benötigt? Wenn Ή Τ FOR TAT einen Anteil ρ seiner Interaktionen mit anderen Ή Τ FOR TAT-Spielern hat, ergibt sich ein Anteil von 1 - p mit Böswilligen. Die durchschnittliche Punktzahl ist also 30p + 9(1 - ρ ) . Wenn diese Punktzahl mehr als 10 beträgt, dann lohnt sich TIT FOR TAT im Vergleich zur Böswilligkeit, die der Hauptteil der Population zeigt. Dies gilt selbst dann, wenn nur 5 Prozent der Interaktionen der TIT FOR TAT-Spieler mit anderen TIT FOR TAT-Spielern ablaufen. 8 Somit kann selbst eine kleine Gruppe von Ή Τ FOR TAT-Spielern einen höheren durchschnittlichen Punktwert erreichen als die große Population von Böswilligen, in die sie eintreten. Weil die TIT FOR TAT-Spieler ein so günstiges Ergebnis erreichen, wenn sie zusammentreffen, müssen sie sich nicht sehr oft treffen, um ihre Strategie überlegen zu machen. Auf diese Weise kann eine Gruppe von TIT FOR TAT-Spielern in eine Welt von Β öswilligen eindringen - und das sogar sehr leicht. Um diesen Punkt zu illustrieren, nehme man an, ein Betriebswirtschaftsprofessor hätte seine Studenten gelehrt, in den Betrieben, in die sie eintreten, kooperatives Verhalten zu initiieren, und die Kooperation anderer Firmen zu erwidern. Wenn die Studenten sich so verhielten, und wenn sie nicht zu stark gestreut sind (so daß eine hinreichende Proportion ihrer Handlungen mit den anderen Mitgliedern derselben Gruppe von Studenten stattfindet), dann würden die Studenten sehen, daß sich ihre Lektionen ausgezahlt haben. In dem gerade diskutierten Zahlenbeispiel würde eine auf Ή Τ FOR TAT wechselnde Firma lediglich 5 Prozent ihrer Interaktionen mit einer anderen solchen Firma haben müssen, damit die Studenten zufrieden darüber sind, der Kooperation eine Chance gegeben zu haben. Ein noch geringeres Ausmaß an Gruppenbildung reicht aus, wenn von den Interaktionen erwartet wird, daß sie länger andauern oder wenn der Faktor zeitlicher Diskontierung nicht so
Die Chronologie der Kooperation
59
groß ist. Es sei unter Verwendung der Interpretation von wals Maß für die Wahrscheinlichkeit einer weiteren Interaktion angenommen, daß der Median für die Länge des Spiels 200 Züge (w = .99654) beträgt. In diesem Fall ist bereits eine von tausend Interaktionen mit einem gleichgesinnten Anhänger von Ή Τ FOR TAT genug, damit die Strategie in eine Welt von I M M E R D-Spielern eindringt. Selbst bei einem Median von nur zwei Zügen (w = .5), genügt es den Ή Τ FOR TAT-Spielern, wenn ein Fünftel der Interaktionen mit Gleichgesinnten abläuft, damit die Invasion erfolgreich ist und Kooperation entsteht. Dieser Begriff der Invasion durch eine Gruppe kann präzise definiert werden und ist a u f j e d e Strategie anwendbar. Angenommen, eine alteingeführte Strategie wird von nahezu jedem verwendet und eine kleine Gruppe von Individuen mit einer neuartigen Strategie trifft ein und interagiert sowohl mit den anderen Neuankömmlingen wie auch mit den Einheimischen. Der Anteil von Interaktionen eines Benutzers der neuen Strategie mit einem anderen Individuum, das die neue Strategie verwendet, istp. Wenn angenommen wird, daß die Neulinge im Vergleich zu den Einheimischen wenige sind, werden fast alle Interaktionen der Einheimischen mit anderen Einheimischen ablaufen. Der durchschnittliche Punktwert eines Neulings ist dann das gewichtete Mittel von dem, was der Neuling mit einem anderen Neuling erhält und dem, was er mit einem Einheimischen erzielt. Die Gewichte sind die Häufigkeiten der beiden Ereignisse, nämlich ρ und 1 -p. Auf der anderen Seite ist der Durchschnittswert eines Einheimischen praktisch identisch mit dem Ertrag, den ein Einheimischer mit einem anderen Einheimischen erzielt, da die Neulinge so wenige sind. Diese Überlegung führt zu der Feststellung, daß die Gruppierung von Neulingen in die Einheimischen eindringen kann, wenn die Neulinge untereinander günstig abschneiden und wenn die Neulinge einander hinreichend oft treffen. 9 Man beachte, daß die Paarungen von Interaktionspartnern annahmegemäß nicht zufällig erfolgen. Mit einer zufallsgesteuerten Paarung würde ein Neuling nur selten einen anderen Neuling treffen. Stattdessen behandelt das Konzept der Gruppierung den Fall, in dem die Neulinge ein trivialer Teil der Umgebung der Einheimischen sind, aber ein nichttrivialer Teil der Umgebung der Neulinge selbst.
60
Die Entstehung der Kooperation
Das nächste Ergebnis verdeutlicht, welche Strategien in IMMER D auf besonders effiziente Weise, nämlich mit dem geringstmöglichen Ausmaß an Gruppierung eindringen. Es handelt sich um die Strategien, die am besten zwischen sich selbst und IMMERD diskriminieren. Eine Strategie heißt maximal diskriminierend, falls sie schließlich selbst dann kooperiert, wenn der Partner bisher nicht kooperiert hat und wenn sie mit IMMER D kein zweites Mal kooperiert, jedoch mit einem anderen Spieler, der die gleiche Strategie wie sie selbst verwendet, immer kooperiert. Theorem 6: Diejenigen Strategien, die in IMMER D als Gruppe mit dem kleinsten Wert für ρ eindringen können, sind maximal diskriminierend, wie ζ. Β. Ή Τ FOR TAT. Es ist leicht einzusehen, daß Ή Τ FORTAT eine maximal diskriminierende Strategie ist. Sie kooperiert im allerersten Zug, sobald sie aber einmal mit IMMERD kooperiert hat, wird sie nicht erneut kooperieren. Auf der anderen Seite wird sie eine ungebrochene Kette von Kooperationen mit einem anderen Ή Τ FOR TAT-Spieler unterhalten. Folglich istΊΊΤ FORTAT sehr gut inder Lage, zwischen seinem eigenen Gegenstück und IMMER D zu diskriminieren, und diese Eigenschaft erlaubt es, in eine Welt von Böswilligen mit der kleinstmöglichen Gruppe einzudringen. Gruppierungen sind ein Mechanismus für die Initiierung von Kooperation in einer Welt Böswilliger. Das wirft die Frage auf, ob das Umgekehrte ablaufen kann, sobald sich eine Strategie wie Ή Τ FOR TAT durchgesetzt hat. Tatsächlich gibt es hier eine überraschende und sehr erfreuliche Asymmetrie. Um dies zu sehen, erinnere man sich an die Definition einer freundlichen Strategie (wie etwa Ή Τ FOR TAT) als einer Strategie, die niemals als erste defektiert. Zwei freundliche Strategien, die miteinander interagieren, erhalten offensichtlich bei jedem Zug R, also den höchsten durchschnittlichen Punktwert, den ein Individuum erhalten kann, das mit einem anderen Β enutzer der gleichen Strategie interagiert. Das führt zu dem folgenden Theorem. Theorem 7: Wenn ein einzelnes Individuum nicht in eine freundliche Strategie eindringen kann, kann auch keine Gruppe eindringen. Die Punktzahl einer Strategie, die als Gruppe auftritt, ist ein gewichteter Durchschnitt zweier Komponenten: wie sie mit anderen Strategien ihres Typs abschneidet und wie sie gegen die vor-
Die Chronologie
der Kooperation
61
herrschende Strategie spielt. Beide dieser Komponenten sind kleiner oder gleich dem Punktwert, den eine vorherrschende freundliche Strategie erzielt. Wenn also ein einzelnes Individuum nicht in die vorherrschende freundliche Strategie eindringen kann, dann kann dies auch keine Gruppe. Diese Schlußfolgerung bedeutet, daß freundliche Regeln nicht die strukturelle Schwäche von IMMER D aufweisen. IMMER D kann einer Invasion durch eine beliebige Strategie so lange widerstehen, wie die Eindringlinge einzeln eintreffen. Kommen sie aber in Gruppen (selbst wenn diese recht klein sind), dann können sie in IMMER D eindringen. Bei freundlichen Strategien ergibt sich eine andere Situation: Wenn eine freundliche Regel der Invasion durch andere Regeln widerstehen kann, dann auch der Invasion durch Gruppen, unabhängig von deren Größe. Also können freundliche Regeln sich selbst in einer Weise schützen, die Böswilligen nicht möglich ist. Diese Ergebnisse erlauben es, ein chronologisches Bild der Evolution der Kooperation zusammenzusetzen. Für den illustrativen Fall des Senats hat Theorem 5 gezeigt, daß ohne Gruppierung (oder einen vergleichbaren Mechanismus), das ursprüngliche Muster wechselseitigen „Verrats" nicht hätte überwunden werden können. Die entscheidenden frühen Gruppen waren vielleichtaus kleinen Gruppen von Abgeordneten gebildet worden, die in Pensionen in der neuen Hauptstadt der Jefferson-Ära zusammenlebten (Young 1966). Vielleicht waren aber auch die Delegationen der Staaten oder die bundesstaatlichen Parteidelegationen eher entscheidend (Bogue und Mariaine 1975). Theorem 7 weist nach, daß einmal ausgebildete und auf Gegenseitigkeit gegründete Kooperation selbst dann stabil bleiben kann, wenn eine Gruppe von Neulingen diese Gewohnheit des Senats nicht respektiert. Wenn nun das Prinzip der Gegenseitigkeit etabliert ist, dann ist es gemäß den Theoremen 2 und 3 kollektiv stabil, solange die zweijährliche Fluktuationsrate nicht zu groß ist. Kooperation kann also auch in einer Welt unbedingter Defektion entstehen. Die Entwicklung kann nicht stattfinden, wenn sie nur von verstreuten Individuen vorangetrieben wird, die keine Chance haben, miteinander zu interagieren. Aber Kooperation kann aus kleinen Gruppen diskriminierender Individuen entstehen, solange diese Individuen wenigstens einen kleinen Anteil
62
Die Entstehung der Kooperation
ihrer Interaktionen miteinander unterhalten. Darüber hinaus gilt dann, wenn freundliche Strategien (also solche, die niemals zuerst defektieren) beinahe von jedem angenommen werden, daß es sich diese Individuen leisten können, jedem anderen gegenüber großzügig zu sein. Indem sie untereinander so gute Ergebnisse erzielen, kann eine Population freundlicher Strategien sich selbst gegen Gruppen von Benutzern anderer Strategien schützen wie auch gegen einzelne Individuen. Damit eine freundliche Strategie aber im kollektiven Sinn stabil sein kann, muß sie provozierbar sein. Also kann wechselseitige Kooperation in einer Welt von Egoisten ohne zentrale Kontrollinstanz entstehen, wenn sie mit einer Gruppierung von Individuen beginnt, die sich auf Gegenseitigkeit verlassen. Um zu sehen, wie breit diese Ergebnisse anwendbar sind, erforschen die beiden nächsten Kapitel Fälle, in denen tatsächlich eine Evolution der Kooperation stattgefunden hat. Der erste Fall ist derjenige, in dem Kooperation sich in Kriegszeiten trotz schärfster Gegensätze zwischen den Spielern entwickelt hat. Der zweite betrifft biologische Systeme, in denen niedere Tiere die Konsequenzen ihrer Entscheidungen nicht übersehen können. Diese Fälle zeigen, daß dann, wenn die Bedingungen realisiert sind, Kooperation auch ohne Freundschaft oder Voraussicht entstehen kann.
Anmerkungen zu Kapitel 3. Die Chronologie der Kooperation 1 Mit Begriffen der Spieltheorie vertraute Leserwerden erkennen, daß gemäß dieser Definition eine kollektiv stabile Strategie ein Nash-Gleichgewicht mit sich selbst bildet. Meine Definitionen von Invasion und kollektiver Stabilität sind etwas anders als die Definitionen der Invasion und der evolutionären Stabilität bei Maynard Smith (1974). Seine Definition der Invasion erlaubt es dem Neuling, der auf einen Einheimischen trifft, genau den gleichen Punktwert zu erhalten wie ein Einheimischer, der einen Einheimischen trifft, vorausgesetzt, daß ein Einheimischer, der einen Neuling trifft, besser abschneidet als ein Neuling mit einem anderen Neuling. Ich habe die neuen Definitionen benutzt, um die Beweise zu vereinfachen und um den Unterschied zwischen den Effekten, die ein einzelner Mutant und eine kleine Anzahl von Mutanten hervorrufen, hervorzuheben. Jede evolutionär stabile Regel ist auch kollektiv stabil. Für eine freundliche Regel (man defektiert niemals zuerst) sind die Definitionen äquivalent. Mit Ausnahme des Charakterisierungstheorems aus Anhang B, wo die Charakterisierung notwendig aber nicht länger hinreichend wäre, bleiben alle Theoreme im Text auch dann
Die Chronologie der Kooperation
63
wahr, wenn man „evolutionäre Stabilität" fur „kollektive Stabilität" einsetzt. 2
Kollektive Stabilität hat eine weitere Interpretation, die man mit der Selbstbindung eines Spielers und nicht mit der Stabilität einer ganzen Population erläutern kann. Es sei a n g e n o m m e n , ein Spieler sei auf die Verwendung einer bestimmten Strategie festgelegt. D a n n ist die Strategie kollektiv stabil genau dann, wenn ein anderer Spieler nichts besseres tun kann, als dieselbe Strategie zu verwenden. 3
D e r Ansatz einer Begrenzung der Situation wurde in einer Vielzahl von Spielen durch Hamilton (1967) verwendet. Der Ansatz einer Einschränkung der Strategien wurde bei Maynard Smith und Price (1973), Maynard Smith (1978) und Taylor (1976) eingesetzt. Für verwandte Ergebnisse zur potentiellen Stabilität kooperativen Verhaltens vgl. Luce und Raiffa (1957,102), Kurz (1977) und Hirshleifer (1978). 4
Der kritische Wert w, bei d e m TIT FOR TAT kollektiv stabil wird, ist genauer gesagt der größere der beiden Quotienten (T-R)/(TP) und (T-R)/(RS). Wie bereits in Kapitel 1 dargestellt, ist das Ergebnis von I M M E R D gegen TIT FOR TAT T+wP+wíP+ tv3 P+...=T+wP/ (\-w). Das ist nicht m e h r als der Populationsdurchschnitt von RI ( 1 - w ) , falls w^(T-R)/(T-P). Ähnlich ergibt die Abwechslung zwischen D und C d a n n , wenn m a n gegen TIT F O R TAT spielt, T+wS+w2T+ 2 4 iv 3 S+...= (r+w5)(l+iv +M' +...)=(r+ w S y a - w 2 ) . Das wird dann nicht besser sein als der Populationsdurchschnitt von /?/(l-tv), wenn wä,(T-R)/(R-S). Vgl. A n h a n g Β für den vollständigen Beweis. 5
Eine gegenläufige Überlegung wäre, daß ein Abgeordneter mit ungewissen Wahlaussichten Hilfe von b e f r e u n d e t e n Kollegen erfahren mag, die deshalb seine C h a n c e n einer Wiederwahl e r h ö h e n wollen, weil er sich in der Vergangenheit als kooperativ, vertrauenswürdig und erfolgreich erwiesen hat.
6
Bei der Analyse der Turnier-Ergebnisse hat sich ein mit der Provozierbarkeit verwandtes Konzept als nützlich erwiesen. Es handelt sich u m den BegrifFeiner Vergeltung ü b e n d e n Regel, nämlich einer Regel, die unmittelbar nach einer „unnötigen" Defektion des anderen Spielers defektiert. Der BegrifTder Provozierbarkeit verlangt weder eine sichere Reaktion, noch eine Antwort, die unmittelbar folgt. Das Konzept einer Vergeltung ü b e n d e n Regel verlangt beides. 7 TIT F O R TAT erhält beim Spiel mit I M M E R D S+ wP+ vi?P+..., also S+ wP/ (1 - w) = 0 + ( . 9 1 ) / . l = 9 Punkte. 8
Die TIT F O R TAT-Spieler in einer G r u p p e k o m m e n besser weg als die Böswilligen, wenn 3 0 p + 9(1-/7) > 1 0
oder 2 1 p + 9 > 1 0 oder 21p>l oder ρ >1/21 Diese Berechnung berücksichtigt nicht den vernachlässigbaren Anstieg der Punkte eines typischen Einheimischen, der sich aus der Anwesenheit einer winzig kleinen G r u p p e von Neulingen ergibt. 9
Für Einzelheiten vgl. A n h a n g B.
Teil III Kooperation ohne Freundschaft oder Voraussicht
Kapitel 4
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg Manchmal entsteht Kooperation dort, wo man sie am wenigsten erwartet. Im Ersten Weltkrieg war die Front im Westen Schauplatz grauenvoller Schlachten um wenige Meter Gelände. Andererseits übten die feindlichen Soldaten zwischen diesen Schlachten und selbst während ihres Verlaufs an anderen Stellen der Front quer durch Frankreich und Belgien oft ein erstaunliches Maß an Zurückhaltung. Ein britischer Stabsoffizier bemerkte während einer Inspektion der Front, er habe „mit Erschrecken festgestellt, daß deutsche Soldaten in Reichweite unserer Gewehre hinter ihren eigenen Linien umhergehen. Unsere Leute schienen davon keine Notiz zu nehmen. Ich beschloß, nach Übernahme der Stellung diese Dinge abzustellen; so etwas sollte nicht erlaubt werden. Diesen Leuten war offenbar nicht klar, daß sie sich im Krieg befanden. Beide Seiten glaubten anscheinend an die Politik des ,Leben und leben lassen'." (Dugdale 1932, 94)
Dies ist kein Sonderfall. Das System des Leben-und-leben-lassen trat im Stellungskrieg ständig auf. Es blühte trotz aller Versuche höherer Offiziere, ihm ein Ende zu setzen, trotz aller Wut, die in den Gefechten entstand, trotz der militärischen Logik des „Töten oder selbst getötet werden" und trotz der Mühelosigkeit, mit der das Oberkommando jeden lokalen Versuch unterdrücken konnte, eine direkte Waffenruhe zu arrangieren. Hier handelt es sich um einen Fall, in dem Kooperation trotz großer Feindschaft zwischen den Spielern entsteht. Er ist eine Herausforderung für die Anwendung der Theorie, die in den ersten drei Kapiteln entwickelt wurde. Unser Ziel ist es, mit Hilfe der Theorie vor allem folgende Fragen zu beantworten: 1. Wie konnte das System des Leben-und-leben-lassen entstehen? 2. Wie wurde es in Gang gehalten? 3. Warum brach es gegen Ende des Krieges zusammen? 4. Warum war es typisch für den Stellungskrieg im Ersten Weltkrieg, obwohl es nur in wenigen anderen Kriegen auftrat?
68
Kooperation ohne Freundschaft oder Voraussicht
Ein zweites Ziel besteht darin, mit einer historischen Fallstudie anzudeuten, wie unsere Theorie weiterentwickelt werden kann. Glücklicherweise verfugen wir über eine kürzlich erschienene Monographie zum System des Leben-und-leben-lassen. Die hervorragende Arbeit des britischen Soziologen Tony Ashworth (1980) stützt sich auf Tagebücher, Briefe und Erinnerungen von Frontsoldaten. Material fand sich bei fast allen der 75 britischen Divisionen, mit durchschnittlich mehr als drei Quellen pro Division. In geringerem Umfang wurde auch Material aus französischen und deutschen Quellen herangezogen. Das Resultat ist eine sehr ergiebige Sammlung von Beispielen, deren kenntnisreiche Analyse ein umfassendes Bild von der Entwicklung und vom Charakter des Stellungskriegs an der Westfront im Ersten Weltkrieg vermittelt. Dieses Kapitel stützt sich mit seinen erläuternden Zitaten und in seinen historischen Interpretationen aufdie ausgezeichnete Studie von Ashworth. Obwohl Ashworth es nicht so ausdrückt, läßt sich die historische Situation in den ruhigen Frontabschnitten als iteriertes Gefangenendilemma auffassen. Für eine gegebene örtliche Lage kann man die sich gegenüberliegenden kleinen Einheiten als die beiden Spieler betrachten. In jeder Zeiteinheit muß gewählt werden zwischen „gezielt schießen, um zu töten" und „vorsätzlich so schießen, daß Verletzungen vermieden werden". Für beide Seiten ist die Schwächung des Feindes von großem Wert, weil sie das eigene Überleben erleichtert, wenn es im betreffenden Abschnitt zu einer größeren Schlacht kommt. Es ist daher kurzfristig günstiger, Schaden anzurichten, unabhängig davon, ob der Feind zurückschießt oder nicht. Auf diese Weise läßt sich begründen, daß wechselseitige Defektion gegenüber eigener einseitiger Zurückhaltung vorgezogen wird (P>S) und daß einseitige Zurückhaltung der anderen Seite noch besser ist als wechselseitige Kooperation (T>R). Zusätzlich ziehen die örtlichen Einheiten die Belohnung für wechselseitige Zurückhaltung dem Ergebnis bei wechselseitiger Bestrafung vor (R>P), denn wechselseitige Bestrafung hat zur Folge, daß beide Einheiten Verluste erleiden und dafür nur geringe oder gar keine relativen Vorteile erlangen. Insgesamt ergeben sich daraus die wesentlichen Ungleichungen T> R > P> S. Darüber hinaus würden beide Seiten wechselseitige Zurückhaltung einer Zufallsfolge jeweils einseitiger ernster Feind-
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg
69
Seligkeiten vorziehen, so daß R> (T+S)/2. Die Situation erfüllt also die Bedingungen für ein Gefangenendilemma zwischen einander gegenüberliegenden kleinen Einheiten in einem ruhigen Frontabschnitt. Zwei kleine Verbände, die sich getrennt durch ein 100 bis 400 Meter breites Niemandsland gegenüberliegen, waren die Spieler in diesem unter Umständen tödlichen Gefangenendilemma. Als typische Analyseeinheit kann ein Bataillon verwendet werden, das aus etwa 1000 Mann bestand, von denen jeweils etwa die Hälfte an der Front war. Das Bataillon spielte im Leben des Infanteristen eine große Rolle. Bei ihm lag nicht nur die Gefechtsführung, es sorgte auch für Verpflegung, Sold, Bekleidung und Urlaub. Alle Offiziere und die meisten Soldaten eines Bataillons kannten sich von Ansehen. Für unsere Zwecke machen zwei Schlüsselfaktoren das Bataillon zum typischen Spieler. Erstens war es groß genug, einen hinreichend ausgedehnten Frontabschnitt zu besetzen, im Hinblick auf den ihm die „Verantwortung" für aggressive Aktionen zugeschrieben werden konnte. Zweitens war es klein genug, um das individuelle Verhalten seiner Mitglieder durch verschiedene Maßnahmen, formelle und informelle, kontrollieren zu können. Ein Bataillon auf der einen mag mit Teilen von einem, zwei oder drei Bataillonen auf der anderen Seite konfrontiert sein. Jeder Spieler konnte also gleichzeitig in mehrere Interaktionen verwikkelt sein. Entlang der gesamten Front gab es hunderte solcher Situationen. Nur die kleineren Einheiten befanden sich in diesen Gefangenendilemmas. Die Oberkommandos der beiden Seiten teilten die Meinung des einfachen Soldaten nicht, wenn er sagte: „Der eigentliche Grund für die Ruhe in einigen Frontabschnitten war der, daß keine Seite ein Interesse daran hatte, in dem jeweiligen Gebiet vorzurücken... Wenn die Briten die Deutschen beschossen, antworteten die Deutschen und die Verluste waren auf beiden Seiten gleich: wenn die Deutschen eine vorgeschobene Stellung bombardierten und fünf Engländer töteten, dann tötete eine Salve zur Antwort fünf Deutsche." (Bei ton Cobb 1916, 74)
Für die Stäbe war es wichtig, den Angriffsgeist der Truppe zu fördern. Vor allem die Allierten verfolgten eine Zermürbungsstrategie, die für sie durch gleiche Verluste auf beiden Seiten zu einem Nettogewinn fuhren sollte, weil früher oder später die deutschen Kräfte zuerst erschöpft sein würden. Auf der Ebene der beteiligten
70
Kooperation ohne Freundschaft oder Voraussicht
Staaten war der Erste Weltkrieg also näherungsweise ein Nullsummenspiel, in dem die Verluste der einen Seite Gewinne für die andere Seite darstellten. Aber auf der lokalen Ebene, an der Front, wurde wechselseitige Zurückhaltung sehr stark gegenüber wechelseitiger Bestrafung vorgezogen. Lokal hielt das Dilemma auch an: zu jedem Zeitpunkt war es klug, zu schießen, um zu töten, gleichgültig, ob die andere Seite dies auch tat oder nicht. Was den Stellungskrieg so stark von anderen Gefechten unterschied, war aber die Tatsache, daß sich die gleichen kleinen Verbände über längere Zeit hinweg gegenüberlagen. Dadurch wurde aus einem einmal gespielten Gefangenendilemma, in dem Defektion die dominante Wahl ist, ein iteriertes Gefangenendilemma, in dem bedingte Strategien angewendet werden können. Das Ergebnis entsprach den Vorhersagen der Theorie: bei länger andauernder Interaktion konnte sich als stabiles Resultat wechselseitige, auf Gegenseitigkeit beruhende Kooperation ergeben. Insbesondere verfolgten beide Seiten Strategien, die nicht als erste defektierten, aber durch Defektion der anderen Seite provoziert wurden. Bevor wir uns näher mit der Stabilität der Kooperation beschäftigen, ist es interessant, zu untersuchen, wie sie überhaupt in Gang kommen konnte. In seiner ersten Phase war der im August 1914 begonnene Krieg ein sehr verlustreicher Bewegungskrieg. Als sich aber der Frontverlauf stabilisierte, entstanden zwischen den Truppen an vielen Stellen entlang der Front spontan Situationen, in denen auf gegenseitige Angriffe verzichtet wurde. Die ersten Fälle könnten mit Mahlzeiten verbunden gewesen sein, die gleichzeitig auf beiden Seiten des Niemandslandes eingenommen wurden. Bereits im November 1914 beobachtete ein Unteroffizier, dessen Einheit seit einigen Tagen im Schützengraben lag: „Der Quartiermeister brachte die Verpflegung meistens... abends nach Einbruch der Dunkelheit. Sie wurde zubereitet und die Abteilungen kamen von der Front, um sie abzuholen. Ich nehme an, daß der Feind auf die gleiche Weise beschäftigt war. So war um diese Zeit die Lage während einiger Nächte ruhig und die Verpflegungseinheiten wurden leichtsinnig und lachten und unterhielten sich auf dem Rückweg zu ihren Kompanien." (The War the Infantry Knew 1938, 92)
Bis Weihnachten gab es ausgedehnte Fraternisierungen, ein Brauch, der in den Stäben Stirnrunzeln verursachte. In den folgenden Monaten wurden durch Schüsse oder Signale gelegentlich offene Waffenruhen arrangiert. Ein Augenzeuge berichtete:
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg
71
„In einem Abschnitt war die Zeit von acht bis neun Uhr morgens .Privatangelegenheiten' gewidmet und bestimmte durch einen Wimpel gekennzeichnete Stellen galten für die Scharfschützen beider Seiten als verboten." (Morgan 1916,27071)
Offene Waffenruhen konnten jedoch leicht unterdrückt werden. Es wurden Befehle erlassen, die klarstellten, daß die Soldaten „in Frankreich waren, um zu kämpfen, und nicht, um mit dem Feind zu fraternisieren" (Fifth Battalion the Camaronians 1936, 28). Mehr noch, einige Soldaten wurden vor ein Kriegsgericht gestellt und ganze Bataillone wurden bestraft. Es wurde schnell deutlich, daß mündlichen Vereinbarungen durch das Oberkommando mit Leichtigkeit ein Ende zu machen war und daher wurden solche Vereinbarungen selten. Ein anderer Weg, auf dem wechselseitige Zurückhaltung beginnen konnte, ergab sich durch Schlechtwetterperioden. Wenn es stark genug regnete, waren größere aggressive Aktionen fast unmöglich. Oft kam es auf diese Weise durch das Wetter zu Waffenruhen, in denen die Truppen nicht aufeinander schössen. Wenn das Wetter besser wurde, wurde das Verhaltensmuster wechselseitiger Zurückhaltung manchmal einfach fortgesetzt. Zu Beginn des Krieges waren also mündliche Vereinbarungen bei vielen Gelegenheiten ein geeignetes Mittel, um Kooperation in Gang zu setzen, doch ließ sich offene Fraternisierung einfach abstellen. Langfristig waren verschiedene Methoden wirkungsvoller, die den beiden Seiten eine Koordination ihrer Aktionen erlaubten, ohne zu Absprachen greifen zu müssen. Ein Schlüsselfaktor lag in der Erkenntnis, daß die andere Seite sich revanchieren kann, wenn eine Seite bei gegebener Gelegenheit besondere Zurückhaltung übt. Ähnlichkeiten in grundlegenden Bedürfnissen und Aktivitäten brachten die Soldaten zu der Einschätzung, daß die andere Seite vermutlich keine Strategie unbedingter Defektion verfolgen würde. Im Sommer 1915 erkannte ein Soldat ζ. B., daß sich der Feind aufgrund seines Wunsches nach frischer Verpflegung für Kooperation vermutlich erkenntlich zeigen würde. „Es wäre ein Kinderspiel, die mit Verpflegungswagen und Wasserkarren vollgestopfte Straße hinter den feindlichen Linien zu beschießen und in eine blutige Wüste zu verwandeln... aber im großen und ganzen ist es ruhig. Wenn D u D e i n e n Feind daran hinderst, seine Verpflegung zu fassen, verfugt er schließlich über ein einfaches Mittel: er wird Dich daran hindern, D e i n e zu bekommen." (Hay 1916, 224-25)
72
Kooperation ohne Freundschaft oder Voraussicht
Nachdem sie einmal entstanden waren, konnten Strategien, die auf Gegenseitigkeit beruhen, sich auf verschiedenen Wegen ausbreiten. Zurückhaltung, die während bestimmter Stunden geübt wurde, konnte auf weitere Stunden ausgedehnt werden. Eine bestimmte Art von Zurückhaltung konnte Anlaß sein, es mit anderen Arten der Zurückhaltung zu versuchen. Vor allem konnten die in einem kleinen Frontabschnitt erzielten Fortschritte von den benachbarten Einheiten nachgeahmt werden. Ebenso wichtig wie die Bedingungen fur die Entstehung von Kooperation waren die Bedingungen, die ihre Erhaltung ermöglichten. Strategien, die wechselseitige Kooperation in Gang hielten, waren solche, die provoziert werden konnten. Während Perioden wechselseitiger Zurückhaltung waren die feindlichen Soldaten darauf bedacht zu zeigen, daß sie nötigenfalls tatsächlich zurückschlagen konnten. Deutsche Scharfschützen bewiesen den Briten ζ. B. dadurch ihre Tüchtigkeit, daß sie solange auf den Flekken an der Mauer einer Hütte schössen, bis sie ein Loch durchgebrochen hatten (The War the Infantry Knew 1938, 98). Ähnlich führte die Artillerie oft mit einigen genau gezielten Schüssen vor, daß sie bei Bedarf mehr Schaden anrichten konnte. Diese Demonstrationen von Vergeltungsmöglichkeiten trugen dazu bei, das System unter Kontrolle zu halten, indem sie zeigten, daß Zurückhaltung nicht auf Schwäche beruhte und daß Defektion zur Selbstschädigung führen würde. Wenn eine Defektion tatsächlich auftrat, dann wurde oft stärker Vergeltung geübt als Ή Τ FOR TAT verlangen würde. Zwei-füreinen oder drei-für-einen war eine übliche Antwort für eine Tat, die über das akzeptierte Maß hinausging. „Nachts verlassen wir die Schützengräben... Die deutschen Arbeitskommandos sind ebenfalls draußen, es gilt daher nicht als die feine Art, zu schießen. Wirklich gefährlich sind Gewehrgranaten... Sie können bis zu acht oder neun Männer töten, wenn sie in einen Graben fallen... Aber wir benutzen unsere nie, es sei denn, die Deutschen werden besonders laut, denn bei ihrer Art, Vergeltung zu üben, kommen drei für jede von uns zurück." (Greenwell 1972,16-17)
Wahrscheinlich gab es eine eigene Dämpfungsvorrichtung, die im Normalfall verhinderte, daß diese Vergeltungen zu einem unkontrollierten Echo wechselseitiger Bestrafungen führten. Der Anstifter mag die eskalierte Antwort bemerken und auf den Versuch verzichten, sie seinerseits zu verdoppeln oder zu verdreifa-
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg
73
chen. War einmal der Punkt erreicht, an dem die Eskalation nicht weitergetrieben wurde, starb sie vermutlich aus. Da nicht jede gezielte Kugel oder Granate auch ihr Ziel traf, gab es schon an sich eine Tendenz zur De-Eskalation. Ein anderes Problem, das gelöst werden mußte, um die Stabilität der Kooperation zu sichern, ergab sich aus der Rotation der Truppen. Etwa alle acht Tage tauschte ein Bataillon seinen Platz mit einem hinter ihm einquartierten. Nach längerer Zeit wechselten größere Einheiten ihren Standort. Kooperation konnte dadurch stabil gehalten werden, daß die alte Einheit die neue mit den Verhältnissen vertraut machte. Die einzelnen Details der stillschweigenden Abmachungen mit dem Feind wurden erklärt. Doch manchmal reichte es bereits aus, wenn ein Veteran dem Neuling klarmachte: „Der Deutsche ist kein schlechter Kerl. Laß' ihn in Ruhe, dann läßt er Dich in Ruhe." (Gillon o. J., 77). Diese Art der Sozialisation ermöglichte es der einen Einheit, das Spiel genau an der Stelle aufzunehmen, wo es die andere verlassen hatte. Der Umstand, daß die Artillerie den Vergeltungsschlägen des Feindes in viel geringerem Umfang ausgesetzt war als die Infanterie, führte zu einem weiteren Problem für die Aufrechterhaltung stabiler Kooperation. Daraus ergab sich nämlich, daß die Artillerie in geringerem Umfang in das System des Leben-und-leben-lassen eingebunden war. Infolgedessen waren Infanteristen meist besonders besorgt um die vorgeschobenen Artilleriebeobachter. So bemerkte ein deutscher Artillerist über die Infanterie (Sulzbach 1973, 71): „Wenn sie irgendeinen Leckerbissen übrig haben, schenken sie ihn uns, zum Teil natürlich deshalb, weil sie merken, daß wir sie beschützen." So sollte die Artillerie dazu gebracht werden, den Wunsch der Infanterie zu respektieren, keine schlafenden Hunde aufzuwecken. Ein neuer vorgeschobener Artilleriebeobachter wurde von den Infanteristen häufig mit dem Wunsch begrüßt: „Ich hoffe, Du beginnst keinen Ärger". Die beste Antwort war: „Nicht, ohne daß Du es willst" (Ashworth 1980, 169). Dies zeigte die doppelte Rolle der Artillerie bei der Erhaltung wechselseitiger Kooperation mit dem Feind: Passivität, solange keine Provokation auftrat und sofortige Vergeltung, wenn der Feind den Frieden störte. Die Oberkommandos der britischen, französischen und deutschen Armeen versuchten, stillschweigende Waffenruhen zu
74
Kooperation ohne Freundschaft oder Voraussicht
unterbinden. Sie alle befürchteten, daß dadurch die Moral ihrer Truppen untergraben wurde, und alle glaubten während des gesamten Krieges, daß nur eine Taktik unaufhörlicher Angriffe zum Sieg fuhren konnte. Mit wenigen Ausnahmen waren für die Kommandostellen alle Befehle durchsetzbar, deren Ausführung sie direkt überwachen konnten. Die Stäbe waren in der Lage, große Schlachten zu schlagen, indem sie ihren Soldaten befahlen, die eigenen Gräben zu verlassen und unter Lebensgefahr die feindlichen Stellungen zu stürmen. Aber zwischen den großen Schlachten waren sie nicht im Stande, die Ausführung des Befehls zu kontrollieren, den Gegner unter ständigem Druck zu halten.1 Es war schließlich fur den vorgesetzten Offizier schwierig, zu entscheiden, wer gezielt schoß, um einen Feind zu töten, und wer beim Schießen darauf achtete, Vergeltungsschlägen aus dem Weg zu gehen. Die Soldaten wurden Experten für das Unterlaufen des Kontrollsystems. So behielt eine Einheit etwa eine feindliche Stacheldrahtrolle und schickte ein Stück davon zum Stab, wenn ein Beweis dafür verlangt wurde, daß sie eine Patrouille im Niemandsland durchgeführt hatte. Was das System des Leben-und-leben-lassen schließlich zerstörte, war die Einführung einer Art von ständiger Aggression, die von den Stäben kontrolliert werden konnte. Dabei handelte es sich um Stoßtruppunternehmen, sorgfaltig vorbereitete Angriffe auf feindliche Gräben mit zehn bis zu 200 Soldaten. Die Angreifer hatten Befehl, den Feind in seinen eigenen Stellungen zu töten oder gefangen zu nehmen. Wenn der Stoßtrupp Erfolg hatte, konnten Gefangene gemacht werden, war er ein Fehlschlag, dann waren Verluste der Beweis für den Versuch. Es gab kein wirksames Mittel, ein Stoßtruppunternehmen vorzutäuschen, wenn es gar nicht durchgeführt worden war. Und es gab kein wirksames Mittel, mit dem Feind während eines Stoßtruppunternehmens zu kooperieren, weil weder lebende Soldaten noch Leichen ausgetauscht werden konnten. Das System des Leben-und-leben-lassen konnte mit der Unruhe nicht fertig werden, die hunderte von kleinen Stoßtrupps verursachten. Nach einem Stoßtruppunternehmen wußte keine Seite, worauf sie sich einzustellen hatte. Der Angreifer konnte mit Vergeltung rechnen, aber er konnte nicht vorhersagen, wann, wo und wie sie geübt werden würde. Der Angegriffene war ebenfalls
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg
75
unsicher, denn er wußte nicht, ob der Stoßtrupp ein einzelner Angriff war oder nur der erste einer ganzen Reihe. Mehr noch, da Stoßtruppunternehmen von den Stäben befohlen und überwacht werden konnten, war auch das Ausmaß des Unternehmens kontrollierbar, mit dem man Vergeltung übte, so daß eine Dämpfung des Prozesses verhindert wurde. Die Bataillone waren gezwungen, den Feind tatsächlich anzugreifen, die Vergeltung wurde nicht gedämpft und der Prozeß geriet außer Kontrolle. Als das britische Oberkommando sich auf seine Taktik der Stoßtruppunternehmen einließ, tat es dies ironischerweise nicht mit der Absicht, dem System des Leben-und-leben-lassen ein Ende zu setzen. Sein ursprüngliches Ziel war vielmehr ein politisches. Dem französischen Verbündeten sollte bedeutet werden, daß man bereit war, den eigenen Anteil an der Zermürbung des Feindes zu tragen. Die Idee war, mit den Stoßtruppunternehmen die Moral der eigenen Truppe durch Wiederherstellung ihres Angriffsgeists zu heben und den Abnutzungskrieg dadurch voranzutreiben, daß dem Gegner bei den Stoßtruppunternehmen höhere Verluste zugefugt wurden als die eigenen Truppen hinnehmen mußten. Es blieb immer umstritten, ob diese Erfolge im Hinblick auf Kampfmoral und Verlustraten erreicht wurden. Im Rückblick zeigt sich aber, daß es die indirekte Folge der Stoßtruppunternehmen war, diejenigen Bedingungen zu zerstören, die für die Stabilität der weitverbreiteten stillschweigenden Kooperation an der Westfront notwendig waren. Ohne es genau zu bemerken, beendete das Oberkommando das System des Leben-und-leben-lassen dadurch erfolgreich, daß die eigenen Bataillone daran gehindert wurden, an ihren auf dem Prinzip der Gegenseitigkeit beruhenden kooperativen Strategien festzuhalten. Die Einführung von Stoßtruppunternehmen schloß den Zyklus der Evolution des Systems Leben-und-leben-lassen ab. Kooperation konnte durch tastende Maßnahmen auf lokaler Ebene Fuß fassen, ließ sich durch dauerhafte Kontakte zwischen einander gegenüberliegenden kleinen Einheiten aufrecht erhalten und wurde schließlich unterminiert, als diese kleinen Einheiten ihren Handlungsspielraum einbüßten. Kleine Einheiten wie ζ. B. Bataillone verwendeten ihre eigenen Strategien bei der Auseinandersetzung mit ihrem Gegenüber. Kooperation entstand zunächst spontan in unterschiedlichen Kontexten, etwa durch Zurückhaltung
76
Kooperation ohne Freundschaft oder Voraussicht
bei Angriffen während der Verteilung von Verpflegung beim Feind, durch eine Unterbrechung der Kampfhandlungen während des ersten Weihnachtsfestes und durch schleppende Wiederaufnahme von Gefechten nach Schlechtwetterperioden. Daraus entwickelten sich rasch deutliche Muster wechselseitig verständlichen Verhaltens wie ζ. B. Vergeltung nach dem Prinzip „zwei-füreinen" oder „drei-für-einen" als Antwort auf unakzeptable Maßnahmen. Die Mechanismen für die Evolution dieser Strategien waren Versuch und Irrtum sowie die Imitation des Verhaltens benachbarter Einheiten. Die evolutionären Mechanismen waren weder ziellose Mutation noch das Überleben des Tüchtigsten. Anders als im Fall zielloser Mutation durchschauten die Soldaten ihre Situation und versuchten aktiv, das Β este aus ihr zu machen. Sie verstanden die indirekten Folgen ihrer Handlungen, die in dem zum Ausdruck kamen, was ich das Echo-Prinzip nennen möchte: „Den anderen Unannehmlichkeiten zu machen, ist nur ein umständlicher Weg, sie sich selbst zu bereiten." (Sorley 1919, 283). Die Strategien beruhten sowohl auf Absicht als auch aufErfahrung. Die Soldaten lernten, daß die Aufrechterhaltung wechselseitiger Zurückhaltung zwischen ihnen und ihren Feinden es notwendig machte, diese Zurückhaltung auf die erwiesene Fähigkeit und Bereitschaft zu gründen, Provokationen zu beantworten. Sie lernten, daß Kooperation auf Gegenseitigkeit beruhen mußte. Die Evolution von Strategien ergab sich also eher aus bewußter als aus blinder Anpassung. Die Evolution war auch nicht mit dem Überleben des Tüchtigsten verbunden. Während eine erfolglose Strategie zu höheren Verlusten fur die Einheitgeführt hätte, führte das Auswechseln der Einheiten normalerweise zum Überleben der Einheiten selbst. Entstehung, Aufrechterhaltung und Niedergang des Systems des Leben-und-leben-lassen stimmen mit der Theorie der Evolution der Kooperation überein. Darüber hinaus enthält das System des Leben-und-leben-lassen zwei sehr interessante Entwicklungen, die für die Theorie neu sind. Diese zusätzlichen Entwicklungen sind die Entstehung einer Ethik und Rituale. Die Ethik, die entstand, wird durch eine Episode veranschaulicht, die ein britischer Offizier berichtet, als er sich an seine Erlebnisse mit einer gegenüberliegenden sächsischen Einheit der deutschen Armee erinnert:
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg
77
„Ich trank gerade Tee bei der Kompanie A, als wir lautes Geschrei hörten. Wirgingen nach draußen, um zu sehen, was vorgefallen war. Unsere Männer und die Deutschen standen auf der Brustwehr. Plötzlich schlug eine Salve ein, die jedoch keinen Schaden anrichtete. Beide Seiten gingen natürlich in Deckung und unsere Leute fluchten über die Deutschen. Auf einmal kletterte ein mutiger Deutscher auf seine Brustwehr und rief ,Wir bedauern das sehr. Hoffentlich wurde niemand verletzt. Es war nicht unsere Schuld. Es war die verfluchte preußische Artillerie.'" (Rutter 1934, 29)
Diese Entschuldigung eines sächsischen Soldaten geht über den bloßen Versuch der Abwendung von Vergeltung weit hinaus. Sie spiegelt moralisches Bedauern über einen Vertrauensbruch und Besorgnis darüber, jemand könnte verletzt worden sein. Der kooperative wechselseitige Austausch von Zurückhaltung änderte sogar den Charakter der Interaktion. Er führte dazu, daß beide Interesse für das Wohlergehen der jeweils anderen Seite entwickelten. Diese Veränderung kann man im Hinblick auf das Gefangenendilemma so interpretieren, daß gerade die Erfahrung anhaltender wechselseitiger Kooperation die Auszahlungen für die Spieler änderte, so daß wechselseitige Kooperation noch wertvoller als vorher wurde. Die Umkehrung traf ebenfalls zu. Als das Muster gegenseitiger Kooperation durch die Anordnung von Stoßtruppunternehmen verfiel, wurde eine durchschlagende Rache-Ethik heraufbeschworen. Die Ethik war nicht nur eine Frage der gelassenen Einhaltung einer auf Gegenseitigkeit beruhenden Strategie. Sie hing auch von der Frage ab, was moralisch geboten und angemessen war, um seine Verpflichtungen gegenüber einem gefallenen Kameraden zu erfüllen. So wurde Rachsucht durch Rachsucht erzeugt. Sowohl Kooperation als auch Defektion verstärkten sich auf diese Weise selbst. Die Selbstverstärkung dieser wechselseitigen Verhaltensmuster erfolgte nicht nur im Hinblick auf die interagierenden Strategien der Spieler, sondern auch im Hinblick auf ihre Wahrnehmung der Bedeutung der Ergebnisse. Abstrakt gesagt geht es darum, daß nicht allein Verhalten und Ergebnisse durch Präferenzen beeinflußt werden, sondern daß Verhalten und Ergebnisse sich ihrerseits auch auf Präferenzen auswirken. Eine weitere Ergänzung der Theorie, die das Beispiel des Stellungskriegs nahelegt, betrifft die Entwicklung von Ritualen. Die Rituale bestanden im nachlässigen Gebrauch kleiner Waffen und in bewußt unschädlichem Artilleriebeschuß. Von einer Stelle der
78
Kooperation ohne Freundschaft oder Voraussicht
Front wird ζ. B. berichtet, die Deutschen führten „ihre offensiven Operationen mit einer taktvollen Mischung aus gleichbleibendem und schlecht gezieltem Beschüß, der einerseits die Preußen zufrieden stellt und andererseits Thomas Atkins keine ernsthaften Schwierigkeiten macht" (Hay 1916, 206). Noch auffallender war das an vielen Stellen auftretende vorhersehbare Artilleriefeuer. „Bei der Wahl ihrer Ziele, der Zeit für den Beschüß und der Anzahl der Salven verhielten sie [die Deutschen] sich so regelmäßig, daß Oberst Jones nach einem oder zwei Tagen an der Front ihr System durchschaut hatte und auf den Augenblick genau wußte, wo die nächste Granate einschlagen würde. Seine Berechnungen waren sehr genau und er konnte ein Verhalten an den Tag legen, das uneingeweihten Stabsoffizieren als sehr riskant erscheinen mußte, denn er wußte, daß der Beschüß beendet sein würde, bevor er die gerade unter Feuer liegende Stelle erreichte." (Hills 1919,96)
Auf der anderen Seite war es genau so. Ein deutscher Soldat berichtet über den abendlichen Beschüß durch die Briten: „Er begann um sieben - so pünktlich, daß man seine Uhr danach stellen konnte... Er hatte immer das gleiche Ziel, sein Umfang war genau bemessen, er wich nie zur Seite aus oder schlug vor oder hinter d e m Z i e l e i n . . . E s gab sogar ein paar Vorwitzige, die (kurz vor sieben) herauskamen, um die Einschläge zu sehen." (Koppen 1931,135-137)
Diese Rituale aus nachlässigem und routinemäßigem Beschüß enthielten eine doppelte Botschaft. Dem Oberkommando zeigten sie Angriffslust und dem Feind Friedfertigkeit. Die Soldaten schützten aggressives Verhalten vor, aber sie taten nur so. Ashworth selbst erläutert, daß diese konventionellen Handlungen mehr darstellten als eine Maßnahme zur Vermeidung von Vergeltung. „Im Stellungskrieg war ritualisierte Aggression eine Zeremonie, bei der die Gegner regelmäßig und wechselseitig Geschosse abfeuerten, Bomben, Kugeln usw., die Zusammengehörigkeitsgefühle symbolisierten und stärkten und zugleich den Glauben, daß der Feind die gleiche Lage durchlitt." (Ashworth 1980, 144)
Diese Rituale trugen daher dazu bei, die moralischen Sanktionen zu kräftigen, welche die evolutionäre Grundlage des Systems des Leben-und-leben-lassen verstärkten. Das System des Lebenund-leben-lassen, das im erbittert geführten Stellungskrieg des Ersten Weltkriegs entstand, macht deutlich, daß für den Beginn einer auf Gegenseitigkeit beruhenden Kooperation Freundschaft kaum notwendig ist. Unter geeigneten Umständen kann sich Kooperation auch zwischen Feinden entwickeln.
Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg
79
Eine Sache, um die sich die Soldaten in den Schützengräben bemühten, war das klare Verständnis der Rolle der Gegenseitigkeit bei der Aufrechterhaltung der Kooperation. Das folgende Kapitel verwendet Beispiele aus der Biologie, um zu zeigen, daß auch ein solches Verständnis seitens der Teilnehmer für die Entstehung und Stabilisierung der Kooperation nicht unbedingt erforderlich ist.
Anmerkung zu Kapitel 4. Der Erste Weltkrieg: Leben und leben lassen im Stellungskrieg 1 Ashworth (1980,171-175) schätzt, daß das System des Leben- und-leben-lassen bei etwa einem Drittel aller Frontaufenthalte britischer Divisionen auftrat.
Kapitel 5
Die Evolution der Kooperation in biologischen Systemen (mit William D. Hamilton)
In früheren Kapiteln wurden verschiedene Begriffe aus der Evolutionsbiologie entliehen, um mit ihrer Hilfe die Entstehung der Kooperation zwischen Menschen zu analysieren. In diesem Kapitel wird die Blickrichtung umgekehrt. Die Erkenntnisse und die Theorie, die zum Verständnis des Menschen entwickelt worden sind, werden jetzt auf die Analyse der Kooperation in biologischen Systemen angewandt. Aus diesen Untersuchungen ergibt sich, daß Voraussicht für die Evolution der Kooperation nicht notwendig ist. Die Theorie der biologischen Evolution setzt den Kampf ums Dasein und das Überleben der am besten Angepaßten voraus. Dennoch ist Kooperation zwischen Mitgliedern derselben Art und sogar zwischen Mitgliedern verschiedener Arten verbreitet. Darstellungen des evolutionären Prozesses gingen bis ungefähr 1960 weitgehend über Phänomene der Kooperation hinweg. Diese Vernachlässigung war Folge eines falschen Verständnisses der Theorie, wonach Anpassung zum größten Teil der Selektion auf der Ebene von Populationen oder ganzen Spezies zugeschrieben wurde. Aufgrund dieser Fehldeutung wurde Kooperation immer als adaptiv angesehen. Untersuchungen zum Evolutionsprozeß aus jüngster Zeit haben jedoch keine vernünftige Grundlage für die Ansicht aufzeigen können, daß Selektion auf Vorteilen für ganze Gruppen beruht. Die Prozesse der Selektion auf der Ebene der Spezies oder Population sind ganz im Gegenteil schwach. Der ursprüngliche individualistische Akzent der Theorie Darwins ist stichhaltiger.1 Um der offenkundigen Existenz von Kooperation und gruppenorientiertem Verhalten, wie etwa Altruismus und eingeschränktem Wettbewerb Rechnung zu tragen, hat die evolutionäre Theorie in jüngster Zeit zwei Arten von Erweiterungen erfahren. Diese
Die Evolution der Kooperation in biologischen Systemen
81
Erweiterungen sind allgemein gesprochen die genetische Verwandschaftstheorie und die Reziprozitätstheorie. Der größte Teil der neueren Forschung bezog sich sowohl bei der Feldarbeit als auch bei der Weiterentwicklung der Theorie auf die Verwandtschaftstheorie. Die formalen Ansätze waren unterschiedlich, aber die Verwandschaftstheorie hat in zunehmendem Maße eine genetische Sicht der natürlichen Selektion verwendet (Dawkins 1978). Letztlich wirft ein Gen seinen Blick über seinen sterblichen Träger hinaus auf die potentiell unsterbliche Menge seiner Replikate in anderen verwandten Individuen. Wenn die Spieler hinreichend nah verwandt sind, kann Altruismus, trotz der Nachteile für den individuellen Altruisten, von Vorteil für die Reproduktion dieser Menge sein. In Übereinstimmung mit den Voraussagen dieser Theorie treten fast alle klaren Fälle von Altruismus und der größte Teil beobachteter Kooperation - abgesehen von ihrem Auftreten in der menschlichen Spezies - im Zusammenhang mit hohen Verwandschaftsgraden üblicherweise zwischen unmittelbaren Familienmitgliedern auf. Die Evolution des Stachels bei der Arbeiterin der Honigbiene, der zur Selbsttötung führt, könnte als paradigmatisches Beispiel für diese Forschungsrichtung angesehen werden (Hamilton 1972).2 Auffällige Beispiele von Kooperation (obwohl fast niemals in Form von Selbstopferung im eigentlichen Sinn) treten auch auf, wenn der Verwandtschaftsgrad gering ist oder fehlt. Wechselseitig vorteilhafte Symbiosen liefern schlagende Beispiele wie diese: Pilze und Algen, die eine Flechte bilden; Ameisen und AmeisenAkazien, bei denen die Bäume den Ameisen eine Behausung und Nahrung geben, während die Ameisen dafür die Bäume schützen (Janzen 1966); Feigen-Wespen und Feigenbäume, bei denen die Wespen, die Parasiten der Feigenblüten sind, als einzige Quelle der Bestäubung und Besamung für den Baum dienen (Wiebes 1976; Janzen 1979). Normalerweise ist der Ablauf der Kooperation bei solchen Symbiosen ungestört, aber gelegentlich zeigen die Partner Zeichen von Antagonismus, entweder spontan oder ausgelöst durch eine bestimmte Behandlung (Caullery 1952).3 Obwohl, wie später diskutiert wird, Verwandtschaft eine Rolle spielen kann, illustrieren Symbiosen vor allem die andere jüngste Erweiterung der Evolutionstheorie - die Reziprozitätstheorie. Seit der Pionierarbeit von Trivers (1971) hat Kooperation selbst
82
Kooperation ohne Freundschaft oder Voraussicht
vergleichsweise wenig Beachtung von seiten der Biologen erfahren, aber ein damit verbundenes Thema wurde theoretisch genauer untersucht, nämlich Zurückhaltung in Konfliktsituationen. In diesem Zusammenhang wurde ein neuer Begriff formal entwickelt: das Konzept einer evolutionär stabilen Strategie (Maynard Smith und Price 1973 ; Maynard Smith und Parker 1976 ; Dawkins 1978; Parker 1978). Kooperation im üblichen Sinn blieb aufgrund bestimmter Schwierigkeiten ein ungeklärtes Problem. Diese Schwierigkeiten betrafen v.a. die Initiierung der Kooperation (Elster 1979) und die stabile Aufrechterhaltung einmal etablierter Kooperation. Für eine formale Theorie der Kooperation besteht zunehmender Bedarf. Die erneute Betonung des Individualismus hat den Blick für häufige Gelegenheiten zum Betrug geschärft. Betrug läßt die Stabilität selbst wechselseitig vorteilhafter Symbiosen fragwürdiger erscheinen als sie es aus der alten Sichtweise der Anpassung für den Vorteil der Art waren. Gleichzeitig zeigen andere Fälle, die früher als gesicherte Gegenstände der Verwandschaftstheorie galten, daß die Spieler nicht eng genug verwandt sind, um einen starken, auf Verwandtschaft beruhenden Altruismus erwarten zu lassen. Dies gilt sowohl für kooperatives Brüten bei Vögeln (Emlen 1978; Stacey 1979) als auch allgemeiner für kooperatives Verhalten in Primatengruppen (Harcourt 1978; Parker 1978; Wrangham 1979). Entweder handelt es sich teils um Verwandtschafts-Altruismus, teils um Betrügen und der Anschein der Kooperation beruht auf einer Täuschung oder ein größerer Teil des Verhaltens kann stabiler Reziprozität zugeschrieben werden. Frühere Arbeiten, die bereits Reziprozität heranziehen, betonen jedoch die Schlüssigkeit der Bedingungen für Reziprozität nicht ausreichend (Ligon und Ligon 1978). Der Beitrag dieses Kapitels zu biologischen Fragen ist in dreifacher Hinsicht neu: 1. In einem biologischen Kontext ist das Modell aufgrund seiner probabilistischen Behandlung der Möglichkeit erneuter Interaktion zweier Individuen neuartig. Damit wird es möglich, bestimmte spezifisch biologische Prozesse wie Alterung und Territorialität zu beleuchten. 2. Die Analyse der Evolution von Kooperation behandelt nicht nur die schließlich erreichte Stabilität einer gegebenen Strategie, sondern auch die anfängliche Lebensfähigkeit einer Strategie in einer von nicht kooperierenden Individuen beherrschten Umgebung, sowie die Robustheit einer Strategie in einer vielgestaltigen Umgebung aus anderen Individuen mit einer Vielzahl verschiedener mehr oder weniger raffinierter Strategien. Dieser Ansatz erlaubt ein tieferes Verstand-
Die Evolution der Kooperation in biologischen Systemen
83
nis der gesamten Chronologie der Evolution von Kooperation als es bisher möglich war. 3. Die Anwendungen schließen interaktives Verhalten auf der Ebene von Mikroben ein. Dies fuhrt zu einigen spekulativen Vorschlägen im Hinblick auf Erklärungen für die Existenz chronischer und akuter Phasen bei vielen Krankheiten und für eine bestimmte Klasse genetischer Defekte, die durch das Down-Syndrom (Mongolismus) exemplifiziert wird.
Viele der von Lebewesen gesuchten Vorteile sind für kooperative Gruppen in überproportionalem Ausmaß verfügbar. Soweit diese Aussage zutrifft, bezieht sie sich auf eine Grundlage allen sozialen Lebens, obwohl es beträchtliche Unterschiede in der Verwendung der Begriffe „Vorteile" und „gesucht" gibt. Das Problem besteht darin, daß ein Individuum zwar von wechselseitiger Kooperation profitieren kann, jedes Individuum aber noch besser gestellt wird, wenn es die kooperativen Bemühungen der anderen ausbeutet. Wenn dieselben Individuen über längere Zeit hin erneut interagieren, sind komplexe Muster strategischer Interaktionen zu berücksichtigen. Wie die früheren Kapitel gezeigt haben, erlaubt das Gefangenendilemma eine Formalisierung der in solchen Situationen bestehenden strategischen Möglichkeiten. 4 Abgesehen davon, daß es die spieltheoretische Lösung ist, ergibt sich Defektion auch in der biologischen Evolution als Lösung für ein einmaliges Treffen von Interaktionspartnern. 5 Es ist das Ergebnis unvermeidbarer evolutionärer Tendenzen der Mutation und natürlichen Selektion: Wenn die Auszahlungen in Form von Graden an Fitness erfolgen und die Interaktionen zwischen Paaren von Individuen zufällig und nicht wiederholt sind, dann entwickelt sich jede Population mit einer Mischung erblicher Strategien zu einem Zustand, in dem alle Individuen defektieren. Darüber hinaus kann keine einzelne mutierende Strategie sich verbessern, wenn die Population diese Strategie verwendet. Wenn die Spieler sich niemals erneut treffen werden, ist die Strategie der Defektion die einzige stabile Strategie. In vielen biologischen Zusammenhängen treffen die gleichen Paare von Individuen sich mehr als einmal. Wenn ein Individuum einen früheren Interaktionspartner erkennen und sich an einige Aspekte der vorangegangenen Ergebnisse erinnern kann, dann wird die strategische Situation ein iteriertes Gefangenendilemma mit einer viel umfangreicheren Menge an Möglichkeiten. Eine Strategie könnte die bisherige Geschichte der Interaktion verwen-
84
Kooperation ohne Freundschaft oder Voraussicht
den, um die Wahrscheinlichkeit der eigenen Kooperation oder Defektion beim gegenwärtigen Zug zu bestimmen. Wenn es jedoch, wie bereits erläutert, eine bekannte Anzahl von Interaktionen zwischen einem Paar von Individuen gibt, ist Defektion immer noch evolutionär stabil und sogar immer noch die einzige evolutionär stabile Strategie. Der Grund dafür ist, daß Defektion bei der letzten Interaktion für beide Seiten optimal wäre, und daher auch in der vorletzten Interaktion usw. bis zurück zur ersten Interaktion. Das in Kapitel 1 entwickelte Modell beruht auf der realistischeren Annahme, daß die Anzahl der Interaktionen nicht im voraus festgelegt ist. Es gibt stattdessen eine gewisse Wahrscheinlichkeit w, daß dieselben Individuen sich nach der gegenwärtigen Interaktion erneut treffen werden.6 Biologische Faktoren, die die Größenordnung dieser Wahrscheinlichkeit einer weiteren Begegnung beeinflussen, sind etwa die durchschnittliche Lebensdauer, die relative Mobilität und die Gesundheit der Individuen. Für jeden Wert w ist die Strategie unbedingter Defektion (IMMER D) stets stabil; wenn jeder diese Strategie verwendet, kann keine mutierende Strategie in die Population erfolgreich eindringen. Formal ausgedrückt ist eine Strategie evolutionär stabil, wenn eine Population von Individuen, die diese Strategie verwenden, einer Invasion durch einen einzelnen Mutanten mit einer abweichenden Strategie widerstehen kann.7 Es kann viele Strategien geben, die evolutionär stabil sind. Tatsächlich hat Theorem 1 aus dem ersten Kapitel gezeigt, daß bei hinreichend großem w keine vom Verhalten der anderen in der Population unabhängige beste Strategie existiert. Daraus, daß keine einzelne beste Strategie existiert, folgt jedoch noch nicht, daß eine weitere Analyse hoffnungslos wäre. Die Kapitel 2 und 3 haben im Gegenteil gezeigt, daß nicht nur eine Analyse der Stabilität einer gegebenen Strategie, sondern auch ihrer Robustheit und anfanglichen Lebensfähigkeit möglich ist. Überraschenderweise fugt sich ein breites Spektrum biologischer Realität in diesen spieltheoretischen Ansatz ein. Zunächst braucht ein Organismus kein Gehirn, um eine Strategie anzuwenden. Bakterien z.B. besitzen eine grundsätzliche Fähigkeit, an Spielen teilzunehmen, weil sie ( 1 ) in starkem Maße auf ausgewählte Aspekte ihrer Umgebung, insbesondere ihrer chemischen Umgebung reagieren; daraus ergibt sich, daß sie (2) unterschied-
Die Evolution
der Kooperation
in biologischen
Systemen
85
lieh auf das Verhalten anderer Organismen in ihrer Umgebung reagieren können; diese bedingten Verhaltensstrategien können (3) sicherlich erblich sein; und das Verhalten einer Bakterie kann (4) die Fitness anderer Lebewesen seiner Umgebung beeinflussen, genauso wie das Verhalten anderer Organismen die Fitness des Bakteriums beeinflussen kann. Neue Ergebnisse zeigen, daß sogar ein Virus eine bedingte Strategie benutzen kann (Ptashne, Johnson und Pabo 1982). Während die Strategien ohne weiteres eine différentielle Reaktionsfähigkeit in bezug auf kurz zurückliegende Änderungen in der Umgebung oder auf kumulierte Mittelwerte über die Zeit zeigen können, ist die Spannbreite ihrer Reaktionsfähigkeit in anderer Hinsicht begrenzt. Bakterien können eine komplexe vergangene Folge von Veränderungen nicht „erinnern" oder „interpretieren" und sie können wahrscheinlich nicht zwischen alternativen Ursprüngen von für sie feindlichen oder günstigen Änderungen unterscheiden. Einige Bakterien produzieren z.B. ihre eigenen Antibiotika, Bakteriocine. Diese sind unschädlich für die sie produzierenden Bakterienstämme, wirken aber zerstörerisch auf andere Bakterien. Eine Bakterie mag ohne Schwierigkeit die Produktion ihres eigenen Bakteriocins aufnehmen, wenn sie in ihrer Umgebung ähnliche feindliche Produkte wahrnimmt, aber sie könnte das Toxin nicht zielgerichtet gegen einen Angreifer in der Umgebung produzieren. In dem Maße, wie man die evolutionäre Leiter neuraler Komplexität hinaufsteigt, wird das spieltheoretisch beschreibbare Verhalten umfangreicher. Die Intelligenz der Primaten, einschließlich des Menschen, erlaubt eine Anzahl wichtiger Verbesserungen: ein komplexeres Gedächtnis, komplexere Informationsverarbeitung zur Bestimmung der nächsten Handlung als Funktion der bisherigen Interaktion, eine bessere Abschätzung der Wahrscheinlichkeit zukünftiger Interaktionen mit dem gleichen Individuum und eine bessere Fähigkeit der Unterscheidung zwischen verschiedenen Individuen. Die Fähigkeit zur Diskrimination anderer ist dabei besonders wichtig, weil sie es erlaubt, Interaktionen mit vielen Individuen durchzuführen, ohne diese Individuen alle gleich zu behandeln, so daß also die Kooperation eines Individuums belohnt und die Defektion eines anderen Individuums bestraft werden kann.
86
Kooperation ohne Freundschaft oder Voraussicht
Das Modell des iterierten Gefangenendilemmas ist viel weniger restriktiv, als es zunächst erscheinen mag. Es kann nicht nur auf Interaktionen zweier Bakterien oder auf Interaktionen zweier Primaten angewendet werden, sondern es kann sich auch auf Interaktionen zwischen einer Bakterienkolonie und etwa einem Primaten als Wirtsorganismus beziehen. Es wird nicht angenommen, daß die Auszahlungen der beiden Seiten vergleichbar sind. Unter der Voraussetzung, daß die Auszahlungen jeder Seite die Ungleichungen erfüllen, die gemäß Kapitel 1 ein Gefangenendilemma definieren, sind die Ergebnisse anwendbar. Das Modell nimmt an, daß die Wahlen simultan und in diskreten Zeitintervallen erfolgen. Für die meisten analytischen Zwecke ist dies äquivalent mit einer über die Zeit kontinuierlichen Interaktion, wobei die Länge der Zeit zwischen zwei Zügen dem Zeitminimum zwischen dem Wechsel des Verhaltens der einen Seite und der Reaktion der anderen Seite entspricht. Obwohl das Modell die Entscheidungen als simultan betrachtet, würde es einen geringen Unterschied ausmachen, wenn sie als sequentiell behandelt würden.8 Wendet man sich der Theorie näher zu, so kann die Evolution der Kooperation mit Hilfe von drei zu unterscheidenden Fragestellungen konzeptualisiert werden: 1. Robustheit. Welcher Typ von Strategie kann sich in einer vielgestaltigen Umgebung aus anderen Individuen, die eine reiche Vielfalt mehr oder weniger raffinierter Strategien benutzen, erfolgreich entwickeln? 2. Stabilität. Unter welchen Bedingungen kann solch eine Strategie - einmal etabliert - der Invasion durch mutierende Strategien widerstehen? 3. Anfängliche Lebensfähigkeit. Selbst wenn eine Strategie robust und stabil ist, wie kann sie in einer überwiegend nichtkooperativen Umgebung überhaupt Fuß fassen?
Das in Kapitel 2 beschriebene Computerturnier hat gezeigt, daß Ή Τ FOR TAT, die auf Gegenseitigkeit gegründete Strategie der Kooperation, extrem robust war. Diese einfache Strategie gewann beide Runden des Turniers und fünf der sechs Hauptvarianten der zweiten Runde. Eine ökologische Analyse ergab, daß dann, wenn weniger erfolgreiche Strategien ausscheiden, Ή Τ FOR TAT weiterhin gegen die anfanglich günstig abschneidenden Regeln erfolgreich war. Also kann reziproke Koop eration sich in einer vielgestaltigen Umgebung erfolgreich entwickeln. Sobald eine Strategie von einer ganzen Population angenom-
Die Evolution der Kooperation in biologischen Systemen
87
men worden ist, stellt sich die Frage nach der evolutionären Stabilität, also der Fähigkeit, gegen die Invasion einer mutierenden Strategie zu bestehen. Die mathematischen Ergebnisse aus Kapitel 3 zeigten, daß TIT FOR TAT in der Tat genau dann evolutionär stabil ist, wenn die Interaktionen zwischen den Individuen mit hinreichend hoher Wahrscheinlichkeit fortdauern. TIT FOR TAT ist nicht die einzige Strategie, die evolutionär stabil sein kann. Tatsächlich ist IMMER D unabhängig von der Wahrscheinlichkeit der Fortdauer der Interaktion evolutionär stabil. Dadurch wird das Problem aufgeworfen, wie ein evolutionärer Trend zu kooperativem Verhalten überhaupt beginnen kann. Die genetische Verwandtschaftstheorie legt einen plausiblen Ausweg aus dem Gleichgewicht des IMMER D nahe. Nahe Verwandtschaft zwischen Spielern ermöglicht echten Altruismus, d. h. die Aufopferung von Anteilen eigener Fitness durch ein Individuum zum Vorteil für ein anderes. Echter Altruismus kann sich dann entwickeln, wenn entsprechende Kosten- und NutzenBedingungen sowie der Verwandtschaftsgrad für die den Altruismus verursachende Gene, deren Träger die verwandten Individuen sind, Netto-Vorteile ergeben (Fisher 1930; Haidane 1955; Hamilton 1963). In einem einmaligen Gefangenendilemma nicht zu defektieren, ist eine Art von Altruismus (das Individuum verzichtet auf prinzipiell erreichbare Erträge); Verhalten dieser Art kann sich daher bei hinreichend großem Verwandtschaftsgrad der Spieler entwickeln (Hamilton 1971; Wade und Breden 1980). Als Folge des Altruismus kann eine Umformung der Auszahlungen derart vorgenommen werden, daß ein Individuum teilweise ein Interesse an guten Ergebnissen des Partners besitzt (d. h. Umrechnung der Auszahlungen unter Berücksichtigung der sogenannten inklusiven Fitness). Diese Umrechnung kann häufig die Ungleichungen Τ > R und P> S eliminieren, so daß in diesen Fällen Kooperation unbedingt bevorzugt wird. Es ist also möglich sich vorzustellen, daß die Vorteile der Kooperation in Situationen ähnlich dem Gefangenendilemma durch Gruppen eng verwandter Individuen genutzt werden können. Dabei wären offensichtlich als Interaktionspartner ein Elternteil und sein Nachwuchs oder ein Geschwisterpaar besonders vielversprechend, was auch durch viele Beispiele für Kooperation oder eingeschränktes Selbstinteresse bei solchen Paaren belegt ist.
88
Kooperation ohne Freundschaft oder Voraussicht
Sobald Gene fur kooperatives Verhalten existieren, wird die Selektion Strategien fördern, die Kooperation auf Anhaltspunkte in der Umgebung stützen (Trivers 1971). Faktoren wie promiskuitive Vaterschaft (R. D. Alexander 1974) und Ereignisse an schlecht definierten Gruppengrenzen werden immer zu unsicherer Verwandtschaft zwischen potentiellen Spielern fuhren. Das Erkennen irgendwelcher verfeinerter Korrelate der Verwandtschaft und eine Verwendung dieser Anhaltspunkte bei der Bestimmung kooperativen Verhaltens werden immer zu einem Vorteil in bezug auf inklusive Fitness beitragen können. Sobald eine kooperative Wahl getroffen worden ist, ist ein solcher Hinweis auf Verwandtschaft einfach die Tatsache, daß Kooperation erwidert wurde. Daher erreichen diejenigen eine Überlegenheit, die nach einer negativen Antwort des anderen ihr Verhalten selbstinteressierter machen, wenn der Grad der Verwandtschaft gering oder zweifelhaft ist. Damit wird die Fähigkeit erworben, sein Verhalten vom Verhalten eines anderen Individuums abhängig zu machen, und Kooperation kann sich auch unter Bedingungen immer geringerer Verwandtschaft ausbreiten. Ist schließlich die Wahrscheinlichkeit, daß zwei Individuen sich erneut treffen, hinreichend hoch, kann sich reziproke Kooperation durchsetzen und evolutionär stabil sein, auch wenn die Population überhaupt keine Verwandtschaft aufweist. Ein Beispiel für Kooperation, das sich in dieses Szenarium zumindest beim gegenwärtigen Forschungsstand einfügt, wurde bei den Laich-Beziehungen des Seebarschs entdeckt (Fischer 1980; Leigh 1977). Diese Fische haben sowohl männliche als auch weibliche Geschlechtsorgane. Sie bilden Paare und sind, grob gesagt, abwechselnd der hoch investierende (Eier ablegende) und der niedrig investierende (Samen zur Befruchtung der Eier liefernde) Partner. Bis zu zehnmal am Tag wird Laich abgelegt, wobei jeweils nur wenige Eier bereitgestellt werden. Paare brechen auseinander, wenn die Geschlechtsrollen nicht gleichmäßig aufgeteilt werden. Das System hat anscheinend die Evolution von Testes mit ökonomischer Größe erlaubt. Fischer (1980) jedoch vermutet, daß diese Testes sich entwickelt haben, als die Spezies weniger zahlreich war und zur Inzucht neigte. Inzucht impliziert Verwandtschaft innerhalb der Paare und das mag anfänglich kooperationsfördernd gewesen sein, so daß keine weitere Verwandtschaft nötig war.
Die Evolution
der Kooperation
in biologischen
Systemen
89
Ein anderer Mechanismus für die Ingangsetzung von Kooperation in einem Zustand, in dem nahezu jeder IMMER D verwendet, wurde in Kapitel 3 aufgezeigt: Gruppierung. Angenommen, eine kleine Gruppe von Individuen benutzt eine Strategie wie TIT FOR TAT und ein bestimmter Anteil ρ der Interaktionen der Mitglieder dieser Gruppe erfolgt mit anderen Gruppenmitgliedern. Wenn die Mitglieder der Gruppe einen zu vernachlässigenden Anteil der Interaktionen der anderen Individuen ausmachen, dann ist das Ergebnis, das die Verwender von IMMER D erzielen, immer noch praktisch gleich der Bestrafung Ρ bei jedem Zug. Wie in Kapitel 3 gezeigt, kann eine Gruppe von Ή Τ FOR TAT-Individuen in einer überwiegend aus IMMER D gebildeten Umgebung von Strategien lebensfähig sein, wenn ρ und w groß genug sind. Gruppierung ist häufig mit Verwandtschaft verknüpft, so daß sich die beiden Mechanismen bei der Förderung der anfänglichen Lebensfähigkeit reziproker Kooperation wechselseitig verstärken können. Gruppierung kann aber auch ohne Verwandtschaft wirkungsvoll sein. Selbst ohne Verwandtschaft kann Ή Τ FOR TAT als Gruppe in eine Population von IMMER D eindringen, obwohl IMMER D evolutionär stabil ist. Das ist möglich, weil eine Gruppierung von Ή Τ FOR TAT-Spielern jedem Mitglied eine nichttriviale Wahrscheinlichkeit gibt, ein anderes Individuum zu treffen, das die Kooperation erwidern wird. Damit wird sowohl ein Mechanismus für die Ingangsetzung der Kooperation nahegelegt, als auch die Frage aufgeworfen, ob das Umgekehrte ablaufen könnte, wenn einmal eine Strategie wie Ή Τ FOR TAT etabliert ist. Tatsächlich enthält Theorem 7 aus Kapitel 3 den Nachweis, daß hier eine interessante Asymmetrie vorliegt: die Zahnräder der sozialen Evolution haben eine Sperre. Die chronologische Geschichte, die sich aus dieser Analyse ergibt, ist die folgende: IMMER D ist der ursprüngliche und evolutionär stabile Zustand. Kooperation aufgrund von Reziprozität kann aber durch zwei verschiedene Mechanismen Fuß fassen. Erstens kann zwischen den mutierenden Strategien Verwandtschaft bestehen. Dadurch werden die Gene sozusagen in gewissem Maße am Erfolg des jeweils anderen interessiert, weshalb die Auszahlung der Interaktion sich aus der Perspektive des Gens gegenüber der des Individuums ändert. Ein zweiter Mechanismus
90
Kooperation ohne Freundschaft oder Voraussicht
zur Überwindung allseitiger Defektion besteht für die mutierenden Strategien darin, als Gruppe aufzutreten und einen nichttrivialen Anteil der Interaktionen miteinander auszufuhren, selbst wenn die Mutanten so wenige sind, daß sie für die IMMER DSpieler nur einen zu vernachlässigenden Anteil ihrer Interaktionen bestreiten. Der Turnier-Ansatz aus Kapitel 2 hat nun gezeigt, daß sich Ή Τ FOR TAT als extrem robust erweist, wenn eine Vielzahl von Strategien verfügbar ist. Es bewährt sich unter einem breiten Spektrum von Umständen und verdrängt nach und nach alle anderen Strategien, die in einer ökologischen Simulation mit einer großen Vielzahl mehr oder weniger raffinierter Entscheidungsregeln enthalten sind. Falls die Wahrscheinlichkeit eines Fortdauerns der Interaktion zwischen zwei Individuen groß genug ist, dann ist Ή Τ FOR TAT evolutionär stabil. Darüber hinaus ist seine Stabilität besonders sicher, weil Ί Ί Τ FOR TAT dem Eindringen ganzer Gruppen mutierender Strategien Widerstand entgegensetzen kann. Also kann auf Reziprozität gegründete Kooperation in einer vorwiegend unkooperativen Welt in Gang gesetzt werden, sie kann sich in einer vielgestaltigen Umgebung erfolgreich verbreiten und sie kann sich, einmal etabliert, verteidigen. Aus zwei Anforderungen für die Evolution der Kooperation ergeben sich vielfältige spezifische biologische Anwendungen dieses Ansatzes. Die Grundidee ist, daß ein defektierendes Individuum nicht davonkommen darf, ohne daß die anderen Individuen zu wirksamer Vergeltung fähig sind. Das erfordert, daß das defektierende Individuum nicht in einem Meer der Anonymität verschwindet. Höhere Organismen vermeiden dieses Problem aufgrund ihrer gut entwickelten Fähigkeit, viele verschiedene Individuen ihrer Spezies zu erkennen, niedere Organismen müssen sich jedoch auf Mechanismen verlegen, die in drastischer Weise die Anzahl verschiedener Individuen oder Kolonien, mit denen sie effektiv interagieren können, begrenzen. Die andere wichtige Voraussetzung wirksamer Vergeltung besteht in einer hinreichend hohen Wahrscheinlichkeit w, daß die gleichen Paare von Individuen erneut zusammentreffen. Ist ein Organismus unfähig, das Individuum zu erkennen, mit dem er früher interagiert hat, muß ein Ersatz-Mechanismus sicherstellen, daß alle seine Interaktionen mit demselben Spieler ablaufen. Das kann geschehen, indem ein kontinuierlicher Kon-
Die Evolution der Kooperation in biologischen Systemen
91
takt mit demselben Spieler aufrechterhalten wird. Diese Methode wird in den meisten Mutualismen angewendet, also Situationen enger Verknüpfung der wechselseitigen Vorteile zwischen Mitgliedern verschiedener Spezies. Als Beispiele können der Einsiedlerkrebs und die Seeanemone als seine Partnerin angeführt werden, die Zikade und die verschiedenen Mikroorganismen-Kolonien in ihrem Körper oder die schwammartigen Wurzelpilze eines Baumes. Ein anderer Mechanismus, mit dem das Erfordernis des Wiedererkennens umgangen werden kann, ist, die Eindeutigkeit der Paarung von Spielern zu garantieren, indem ein festgelegter Treffpunkt verwendet wird. Betrachten wir ζ. B. Mutualismen wie die Säuberung, wenn ein kleiner Fisch oder ein Krustentier die Parasiten vom Körper (oder sogar aus der Innenseite des Mauls) eines größeren Fischs entfernt und auffrißt, wobei der größere Fisch ein potentieller Räuber des kleineren ist. Diese im Wasser betriebenen Säuberungs-Mutualismen treten in Küsten - und Riffgebieten auf, in denen Tiere festgelegte Heimatreviere oder Territorien bewohnen (Trivers 1971). Sie sind anscheinend unbekannt in den frei durchmischten Situationen in der offenen See. Andere Mutualismen sind ebenfalls für Situationen kennzeichnend, in denen eine kontinuierliche Verbindung wahrscheinlich ist. Sie enthalten normalerweise quasipermanente Paarungen von Individuen, von inzüchtigen oder ungeschlechtlichen Abkömmlingen oder von Individuen mit solchen Abkömmlingen (Hamilton 1972 und 1978). Umgekehrt führen Bedingungen freier Durchmischung und transitorischer Paarungen bei fehlendem Wiedererkennen viel eher zu Ausbeutung in Form von Parasitismus, Krankheit usw. So nehmen Ameisenkolonien an vielen Symbiosen teil und sind manchmal stark von ihnen abhängig, während Kolonien von Honigbienen mit ihrem viel weniger dauerhaften Aufenthaltsort keine bekannten Symbiosen aber viele Parasiten aufweisen (E. O. Wilson 1971; Treisman 1980). Der kleine Süßwasserpolyp Chlorohydra viridissima unterhält eine dauerhafte, stabile Verbindung mit grünen Algen, die in seinem Gewebe immer natürlicherweise gefunden werden und schwer zu entfernen sind. In dieser Spezies wird die Alge an neue Generationen durch Eier weitergegeben. Hydra vulagaris und H. attentuata gehen ebenfalls Beziehungen mit Algen ein, geben diese aber nicht über Eier weiter. Von
92
Kooperation ohne Freundschaft oder Voraussicht
diesen Arten wird gesagt, daß „der Infektion eine Schwächung der Tiere vorangeht und daß sie von pathologischen Symptomen begleitet wird, die einen definitiven Parasitismus durch die Pflanze anzeigen" (Yonge 1934,13).9 Wiederum zeigt sich, daß die fehlende Dauerhaftigkeit der Verbindung zur Destabilisierung der Symbiose beiträgt. Bei Spezies mit einer begrenzten Fähigkeit zur Unterscheidung zwischen anderen Mitgliedern derselben Spezies kann reziproke Kooperation stabil sein, wenn es einen Mechanismus gibt, der das Ausmaß erforderlicher Diskrimination reduziert. Der Ausdruck „stabile Territorien" weist auf zwei ganz unterschiedliche Arten von Interaktionen hin: solche mit Individuen in Nachbarterritorien, wobei die Wahrscheinlichkeit zukünftiger Interaktion hoch ist, und solche mit Fremden, bei denen diese Wahrscheinlichkeit gering ist. Bei männlichen territorialen Vögeln erlaubt der Gesang die Wiedererkennung von Nachbarn. In Übereinstimmung mit der Theorie zeigen solche männlichen territorialen Vögel viel mehr aggressive Reaktionen, wenn in der Nähe das Lied eines unbekannten Männchens reproduziert wird, als dann, wenn es sich um einen Nachbarn handelt (E. 0 . Wilson 1975, 273). Reziproke Kooperation kann bei einer größeren Anzahl von Individuen stabil sein, wenn innerhalb einer großen Vielfalt anderer mit geringerer Unterstützung durch zusätzliche Reize wie etwa den Standort diskriminiert werden kann. Β eim Menschen ist diese Fähigkeit gut entwickelt und beruht hauptsächlich auf der Erinnerung von Gesichtern. Das Ausmaß der Spezialisierung in bezug auf diese Funktion wird deutlich bei der Gehirnstörung Prosopagnosie. Normalerweise kann man jemanden allein aufgrund von Gesichtszügen wiedererkennen, selbst wenn sich Merkmale des Gesichts über die Jahre beträchtlich verändert haben. Menschen mit Prosopagnosie sind nicht in der Lage, diese Assoziationsleistung zu erbringen, zeigen jedoch außer dem Verlust eines bestimmten Teils des Gesichtsfelds wenige andere neurologische Symptome. Die für die Störung verantwortlichen Läsionen treten in einer identifizierbaren Region des Gehirns auf, an der Unterseite beider Hinterhauptslappen (lobi occipitales), fortschreitend bis zur inneren Oberfläche der Schläfenlappen (lobi temporales). Diese Lokalisation der Ursachen und der spezifische durch sie ausgelöste Effekt zeigen, daß die Wiedererkennung von Gesichtern
Die Evolution
der Kooperation
in biologischen
Systemen
93
eine hinreichend wichtige Aufgabe ist, um einen bedeutsamen Teil der Ressourcen des Gehirns dafür einzusetzen (Geschwind 1979). So unschätzbar wertvoll die Fähigkeit zur Erkennung des anderen Spielers für die Ausweitung des Bereichs stabiler Kooperation ist, so hilfreich ist die Fähigkeit zur Beobachtung von Anzeichen für die Wahrscheinlichkeit fortdauernder Interaktion, um zu erkennen, ob reziproke Kooperation stabil ist oder nicht. Insbesondere gilt, daß eine Erwiderung der Kooperation des Partners nicht länger lohnend ist, wenn die relative Bedeutung w von zukünftigen Interaktionen unter den Schwellenwert für die Stabilität absinkt.10 Krankheit eines Partners, die zu verminderter Lebensfähigkeit führt, wäre ein wahrnehmbares Zeichen für ein abnehmendes w. Beide Tiere innerhalb einer Partnerschaft würden dann erwartungsgemäß weniger kooperationsbereit werden. Das Altern eines Partners wäre in dieser Hinsicht einer Erkrankung ganz ähnlich und würde zu einem Anreiz zur Defektion führen, damit der kurzzeitige Ertrag realisiert werden kann, der sich ergibt, wenn die Wahrscheinlichkeit zukünftiger Interaktionen klein genug wird. Diese Mechanismen können selbst auf der Ebene von Mikroben wirksam sein. Von jedem Symbionten, der noch eine Chance besitzt, durch einen Infektionsprozeß auf andere Wirte überzugehen, wird ein Wechsel vom Mutualismus zum Parasitismus erwartet, wenn sich die Wahrscheinlichkeit zukünftiger Interaktion mit dem ursprünglichen Wirt vermindert. In der eher parasitären Phase könnte er den Wirt stärker ausbeuten, indem er mehr von den Formen produziert, die zur Ausstreuung und Infektion fähig sind. Diese Phase wäre zu erwarten, wenn der Wirt stark verwundet ist, sich eine andere vollständig parasitäre Infektion zugezogen hat, die lebensbedrohlich ist, oder wenn er Anzeichen von Alterung zeigt. Tatsächlich können normale und scheinbar unschädliche oder sogar nützliche Darmbakterien im Fall einer Perforation des Darms zu einer gefährlichen Sepsis im Körper beitragen (Savage 1977). Auch können normale Bewohner der Hautoberfläche (wie Candida albicans) bei kranken oder älteren Personen invasiv und gefährlich werden. Es ist denkbar, daß diese Überlegung eine gewisse Bedeutung im Hinblick auf Krebsursachen hat, sofern Krebs sich aus poten-
94
Kooperation ohne Freundschaft oder Voraussicht
tiell latenten Viren im Genom entwickelt (Manning 1975; Orlove 1977). Krebserkrankungen beginnen tendenziell in einem Alter, in dem die Wahrscheinlichkeit einer Weitergabe von einer Generation an die nächste rapide abnimmt (Hamilton 1966). Ein bestimmtes Tumoren verursachendes Virus, der Verursacher des Burkitt-Lymphoms, kann möglicherweise die infektiösen Stadien entweder langsam oder schnell hervorrufen. Die langsame Form tritt als eine chronische Mononukleose auf, die schnelle als akute Mononukleose oder als ein Lymphom (Henle, Henle und Lenette 1979). Der interessante Punkt ist, daß gemäß einigen Forschungsergebnissen Lymphome durch eine Malaria des Wirts zum Ausbruch gebracht werden können. Das Lymphom wächst dann extrem schnell und kann so wahrscheinlich mit der Malaria um die Weitergabe an andere Wirte (möglicherweise durch Moskitos) konkurrieren, bevor der Tod eintritt. Betrachtet man andere Ursachen der gleichzeitigen Infektion mit zwei oder mehr pathogenen Spezies oder durch zwei Stämme derselben Spezies, so mag die dargestellte Theorie ganz allgemein wichtig sein, um anzugeben, ob eine Erkrankung eher einen langsamen, gemeinsam optimalen Ausbeutungskurs verfolgt („chronisch" für den Wirt) oder als eine schnelle schwere Ausbeutung („akut" für den Krankheitsträger) verläuft. Bei einer einzelnen Infektion würde der langsame Verlauf erwartet werden können. Bei doppelter Infektion mag in Abhängigkeit von den Auszahlungsfunktionen eine enorme Ausbeutung unmittelbar beginnen oder erst später in einem geeigneten Altersstadium.11 Das Modell des iterierten Gefangenendilemmas könnte versuchsweise auch angewendet werden auf das Problem der Zunahme bestimmter Arten genetischer Defekte mit ansteigendem Alter der Mutter (Stern 1973). Dieser Effekt führt zu verschiedenen Arten stark geschädigter Nachkommen, für die das DownSyndrom (verursacht durch eine zusätzliche Kopie des Chromosoms 21) das bekannteste Beispiel ist. Es ist fast völlig durch die fehlerhafte Trennung der gepaarten Chromosomen bei der Mutter bedingt. Dies legt die mögliche Verbindung mit der Theorie nahe. Die Zellteilungen während der Ausbildung der Eizelle (aber gewöhnlich nicht der Spermien) sind charakteristischerweise asymmetrisch und beinhalten eine Zurückweisung von Chromosomen (als Polkörperchen), die zu dem „unglücklichen" Pol der
Die Evolution
der Kooperation
in biologischen
Systemen
95
Zelle wandern. Es scheint möglich, daß die Situation ein Gefangenendilemma darstellt, obwohl für homologe Chromosomen im allgemeinen stabile Kooperation in einem diploiden Organismus vorteilhaft ist. Ein Chromosom, das „als erstes defektieren" kann, hat die Möglichkeit, in den Kern der Eizelle zu gelangen anstatt in das Polkörperchen. Es kann vermutet werden, daß dadurch ähnliche Versuche des homologen Chromosoms bei den nachfolgenden Teilungen hervorgerufen werden und wenn beide Elemente eines homologen Paares gleichzeitig den Versuch machen, kann gelegentlich ein zusätzliches Chromosom bei den Nachkommen das Ergebnis sein. Die Fitness der Träger von Zusatz-Chromosomen ist im allgemeinen extrem gering, aber ein Chromosom, das sich selbst im Polkörperchen findet, macht gar keinen Beitrag zur Fitness. Also ist /"größer als S. Damit das Modell zutrifft, müßte das Auftreten von „Defektion" in einem sich entwickelnden Ei fur andere noch ruhende Chromosomen wahrnehmbar sein. Es ist reine Spekulation, daß es zu dieser auslösenden Aktion kommen könnte, wie auch die Annahme spekulativ ist, daß für Chromosomen während einer Zellteilung selbstbezogenes Verhalten zur Wahl steht. Dennoch scheinen die Effekte nicht undenkbar: Nach allem was man weiß, kann eine Bakterie mit ihrem einzelnen Chromosom komplexe bedingte Reaktionen ausführen. Nimmt man solche Effekte an, so würde das Modell das viel häufigere Auftreten abnormaler Chromosomen in Eizellen (und nicht in Spermien) mit zunehmendem elterlichen Alter erklären. In diesem Kapitel wurde Darwins Betonung individueller Überlegenheit in spieltheoretischen Begriffen formalisiert. Diese Formulierung weist die Bedingungen auf, unter denen auf Reziprozität gestützte Kooperation in biologischen Systemen sich auch ohne die Voraussicht der Beteiligten entwickeln kann.*
Anmerkungen zu Kapitel 5. Die Evolution der Kooperation in biologischen Systemen (mit William D. Hamilton) 1
Z u m individualistischen Charakter der Theorie Darwins vgl. genauer Williams (1966) und Hamilton (1975). Für die beste jüngere Darstellung effektiver Selek-
96
Kooperation ohne Freundschaft oder Voraussicht
tion auf der Gruppenebene und des Altruismus auf der Basis genetischer Korrelation nicht miteinander verwandter Spieler vgl. D. S. Wilson (1979). 2 Zur Verwandtschaftstheorie vgl. Hamilton (1964). Zur Reziprozitätstheorie vgl. Trivers (1971), Chase (1980), Fagen (1980) und Boorman und Levitt (1980). 3 Caullery (1952) berichtet über Beispiele für Antagonismus bei Orchideen-Pilzund Flechten-Symbiosen. Zum Beispiel einer Wespen-Ameisen-Symbiose vgl. Hamilton (1972). 4 Es gibt viele andere Interaktionsmuster neben dem Gefangenendilemma, die Kooperationsgewinne erlauben. Vgl. zum Beispiel das Modell eines Wettkampfs zwischen Angehörigen derselben Art bei Maynard Smith und Price (1973). 5 Vgl. Hamilton (1972) für Defektion in der Evolution. Fagen (1980) nennt einige Bedingungen, unter denen bei einmaligen Begegnungen Defektion nicht die Lösung ist. 6 Wie in Kapitel 1 ausgeführt wurde, kann der Parameter w auch die Diskontrate zwischen verschiedenen Interaktionen ausdrücken. 7 Diese Definition einer evolutionär stabilen Strategie (ESS) stammt von Maynard Smith und Price (1973). Vgl. Kapitel 3, besonders die erste Anmerkung, für das eng verwandte Konzept der kollektiven Stabilität. 8 Unabhängig davon, ob die Wahl simultan oder sequentiell ist, ist Kooperation auf einer TIT FOR TAT-Basis evolutionär stabil genau dann, wenn w hinreichend groß ist. Für den Fall sequentieller Züge unterstelle man eine feste Chance q, daß ein gegebener Spieler eines Paares der nächste sein wird, der Hilfe benötigt. Der kritische Wert von w ist, wie gezeigt werden kann, das Minimum des Wertes von A/q(A +B) fur beide Seiten, wobei Λ die Kosten der Unterstützung und Β der Nutzen der erhaltenen Unterstützung sind. Für Beispiele solcher Unterstützungen vgl. Thompson (1980). 9 Yonge(1934) nennt weitere Beispiele für Wirbellose (Invertebraten) mit einzelligen Algen. 10 Wie in Theorem 2 aus Kapitel 3 spezifiziert, ist der Schwellenwert für die Stabilität von TIT FOR TAT das Maximum aus ( T - R ) / ( T - P ) und (T-R)/(R~S). 11 Vgl. auch Eshel (1977) für eine ähnliche denkbare Folge multiklonaler Infektion. Vgl. Ptashne, Johnson und Pabo (1982) für jüngste Belege zur Fähigkeit von Viren, bedingte Strategien zu verwenden. *Anm. der Übersetzer: Für eine Durchsicht der Übersetzung dieses Kapitels und für einige Hinweise danken wir Ansgar Büschges und Beatrix Büschges.
Teil IV Vorschläge für Beteiligte und für Reformer
Kapitel 6
Vorschläge für erfolgreiches Verhalten Obwohl Voraussicht für die Evolution der Kooperation nicht notwendig ist, kann sie zweifellos nützlich sein. Die nächsten beiden Kapitel enthalten daher Vorschläge für Beteiligte und für Reformer. Dieses Kapitel gibt demjenigen Empfehlungen, der sich in einem Gefangenendilemma befindet. Ziel eines Beteiligten ist es, eine möglichst hohe Punktzahl in einer Reihe von Interaktionen mit einem anderen Spieler zu erreichen, der ebenfalls versucht, möglichst viele Punkte zu erhalten. Da es sich um ein Gefangenendilemma handelt, hat der Spieler auf kurze Sicht einen Anreiz zur Defektion, langfristig stellt er sich jedoch besser, wenn er mit seinem Gegenüber ein Muster wechselseitiger Kooperation entwikkelt. Die Analyse des Computer-Turniers und die Resultate unserer theoretischen Untersuchungen liefern einige nützliche Informationen, welche Strategien unter unterschiedlichen Bedingungen voraussichtlich erfolgreich sind und warum. Es ist der Zweck dieses Kapitels, Hinweise für einen Spieler aus unseren Befunden zu entwickeln. Es handelt sich um vier einfache Vorschläge, wie man in einem dauerhaften iterierten Gefangenendilemma gut abschneidet: 1. 2. 3. 4.
Sei nicht neidisch. Defektiere nicht als erster. Erwidere sowohl Kooperation als auch Defektion. Sei nicht zu raffiniert.
1. Sei nicht neidisch Man ist daran gewöhnt, in Nullsummen-Interaktionen zu denken, bei denen der eine das gewinnt, was der andere verliert. Ein gutes Beispiel ist ein Schachturnier. Um gut abzuschneiden, muß der eine Spieler mehr Spiele gewinnen als der andere. Ein Sieg für Weiß ist stets eine Niederlage für Schwarz. Das Leben ist meistens aber kein Nullsummenspiel. Im allgemeinen können beide Seiten gut abschneiden oder sie schneiden beide schlecht ab. Wechselseitige Kooperation ist oft möglich,
100
Vorschläge für Beteiligte und für Reformer
kommt aber nicht immer zustande. Aus diesem Grund ist das Gefangenendilemma ein so nützliches Modell für eine Vielzahl alltäglicher Situationen. In meinen Seminaren ließ ich oft Studenten paarweise einige Dutzend Mal ein Gefangenendilemma spielen. Ich erklärte Ihnen, das Ziel bestehe darin, für sich selbst möglichst viele Punkte zu erreichen, etwa so, als ob man einen Dollar pro Punkt bekommt. Ich erklärte ihnen auch, es sollte ihnen nicht daraufankommen, ob sie einige Punkte mehr oder weniger als der andere Spieler erhalten, solange sie für sich selber so viele „Dollars" wie möglich erzielen. Diese Anleitungen funktionieren einfach nicht. Die Studenten suchen nach einem Vergleichsmaßstab, um zu sehen, ob sie gut oder schlecht abschneiden. A m einfachsten ist für sie der Vergleich ihrer Punktzahl mit der Punktzahl des anderen Spielers. Früher oder später defektiert der eine Student, um den anderen zu überholen oder um einfach zu sehen, wie der andere reagiert. Dann defektiert gewöhnlich der Mitspieler, um nicht in Rückstand zu geraten. Danach wird es wahrscheinlich, daß sich die Situation durch gegenseitige Bestrafungen verschlechtert. Die Spieler merken bald, daß sich das Spiel schlechter als nötig entwickelt, und einer von ihnen versucht, wechselseitige Kooperation wiederherzustellen. Der andere ist jedoch unsicher, ob dies nicht nur ein Trick ist, der dazu betragen soll, ihn erneut auszubeuten, sobald die Kooperation noch einmal begonnen hat. Die Menschen neigen dazu, von dem Vergleichsmaßstab Gebrauch zu machen, der ihnen zur Verfügung steht - und das ist oft der Erfolg des anderen Spielers im Vergleich zum eigenen Erfolg. 1 Dieser Vergleich führt zu Neid, und Neid führt zu Versuchen, jeden Vorteil zu korrigieren, den der andere Spieler erreicht hat. Im Gefangenendilemma ist eine Korrektur der Vorteile der anderen Seite nur durch Defektion möglich. Defektion führt aber zu weiterer Defektion und zu gegenseitiger Bestrafung. Neid wirkt daher selbstzerstörerisch. Der Vergleich des eigenen Erfolgs mit dem des anderen Spielers liefert keinen guten Maßstab, solange Ihr Ziel nicht darin besteht, den anderen Spieler zu zerstören. In den meisten Situationen ist ein solches Ziel gar nicht zu erreichen oder es führt voraussichtlich zu einem so kostspieligen Konflikt, daß es sehr gefahrlich wird,
Vorschläge für erfolgreiches Verhalten
101
ihm nachzujagen. Wenn Sie nicht versuchen, den anderen Spieler zu zerstören, dann riskieren Sie durch den Vergleich Ihrer Punktzahl mit der des anderen Spielers nur die Entstehung von selbstzerstörerischem Neid. Einen besseren Maßstab liefert der Vergleich des eigenen Abschneidens mit dem Abschneiden eines anderen Spielers, der in Ihrer Haut steckt. Gegeben die Strategie des anderen Spielers, schneiden Sie so gut wie möglich ab? Könnte jemand anders an Ihrer Stelle mit diesem Spieler besser fertig werden? Dies ist der geeignete Test auf gute Leistung.2 Ή Τ FOR TAT gewann das Turnier, weil es in seinen Interaktionen mit einer großen Vielfalt anderer Strategien gut zurecht kam. Im Schnitt kam es mit den anderen Strategien im Turnier besser zurecht als irgendeine andere Regel. TIT FOR TAT erreichte jedoch in keinem einzigen Spiel eine höhere Punktzahl als der andere Spieler! In der Tat kann es auch nie eine höhere Punktzahl erreichen. Es läßt den anderen Spieler zuerst defektieren und defektiert niemals häufiger als er. TIT FOR TAT erreicht daher die gleiche Punktzahl wie der andere Spieler oder einige Punkte weniger. Ή Τ FOR TAT gewann das Turnier nicht dadurch, daß es den anderen Spieler besiegte, sondern dadurch, daß es ein Verhalten auslöste, welches es beiden ermöglichte, gut abzuschneiden. Ή Τ FOR TAT löst wechselseitig belohnende Ergebnisse mit einer solchen Konsequenz aus, daß es eine höhere Gesamtpunktzahl erreichte als jede andere Strategie. In einer Nichtnullsummen-Welt müssen Sie nicht besser sein als der andere Spieler, um selbst gut abzuschneiden. Dies ist vor allem dann der Fall, wenn Sie mit vielen verschiedenen Spielern interagieren. Es macht nichts, wenn jeder so gut wie Sie oder ein wenig besser ist, solange Sie selbst gut abschneiden. Es hat keinen Zweck, auf den Erfolg des anderen Spielers neidisch zu sein, denn in einem iterierten Gefangenendilemma von langer Dauer ist der Erfolg des anderen praktisch eine Voraussetzung dafür, daß Sie selbst gut abschneiden. Ein Parlament ist ein gutes Beispiel. Parlamentarier können miteinander kooperieren, ohne ihren Ruf im eigenen Wahlkreis gegenseitig zu gefährden. Die größte Gefahr für einen Parlamentarier ist nicht der relative Erfolg eines anderen Parlamentariers aus einem anderen Wahlkreis, sondern ein Herausforderer im eigenen Wahlkreis. Einem anderen Parlamentarier den Erfolg mißgönnen,
102
Vorschläge für Beteiligte und für Reformer
der aus wechselseitiger Kooperation entsteht, ist daher ziemlich sinnlos. Ähnlich ist die Situation bei geschäftlichen Beziehungen. Ein Unternehmen, das einen Lieferanten beauftragt, kann erwarten, daß erfolgreiche Geschäfte sowohl für den Lieferanten als auch für den Käufer Gewinn bringen. Es ist sinnlos, auf den Gewinn des Lieferanten neidisch zu sein. Jeder Versuch, ihn durch unkooperative Praktiken zu schmälern, etwa durch verspätete Begleichung von Rechnungen, würde den Verkäufer nur zu Vergeltungsmaßnahmen ermuntern. Vergeltungsmaßnahmen können verschiedene Formen annehmen. Oft müssen sie nicht ausdrücklich als Bestrafung gekennzeichnet sein. Es kann sich um unpünktliche Lieferungen handeln, geringere Mengenrabatte oder spätere Benachrichtigungen über absehbare Änderungen der Marktbedingungen (Macaulay 1963). Vergeltung kann Neid ziemlich teuer werden lassen. Anstatt sich über Gewinne des Verkäufers zu beunruhigen, sollte der Käufer prüfen, ob eine andere Einkaufspolitik zu besseren Ergebnissen führen würde. 2. Defektiere nicht als erster
Sowohl das Turnier als auch die theoretischen Resultate zeigen, daß es sich lohnt, zu kooperieren, solange der andere Spieler kooperiert. Die Turnierergebnisse im zweiten Kapitel sind eindrucksvoll. Die Freundlichkeit einer Regel, also die Eigenschaft, nicht als erste zu defektieren, ermöglichte die beste Vorhersage über ihren Erfolg. In der ersten Runde waren alle der ersten acht und keine der letzten sieben Regeln freundlich. In der zweiten Runde waren die ersten fünfzehn Regeln alle freundlich, bis auf eine, die den achten Platz belegte. Von den letzten fünfzehn Regeln waren alle bis auf eine nicht freundlich. Einige der Regeln, die nicht freundlich waren, verwendeten ziemlich raffinierte Methoden, um zu prüfen, was sie sich erlauben konnten. TESTER versuchte es ζ. Β. mit einer anfanglichen Defektion und zog sich sofort zurück, wenn der andere Spieler zurückschlug. TRANQUILIZER, ein anderes Beispiel, neigt dazu, ein oder zwei Dutzend Züge lang bis zur ersten Defektion zu warten, um zu sehen, ob sich der andere Spieler einlullen und gelegentlich ausbeuten lassen würde. In diesem Fall griff TRANQUILIZER in
Vorschläge für erfolgreiches Verhalten
103
kürzeren Intervallen zu weiteren Defektionen bis es durch die Antwort des anderen Spielers zum Rückzug gezwungen wurde. Keine der Strategien, die damit experimentierten, als erste zu defektieren, schnitt aber besonders gut ab. Es gab zu viele andere Spieler, die wegen ihrer Bereitschaft, Vergeltung zu üben, nicht ausgebeutet werden konnten. Die daraus entstehenden Konflikte waren manchmal recht kostspielig. Sogar viele der Experten schätzten den Wert der Vermeidung unnötiger Konflikte durch Freundlichkeit nicht richtig ein. In der ersten Runde war nahezu die Hälfte der von Spieltheoretikern eingereichten Nennungen nicht freundlich. Selbst in der zweiten Runde, bei der die ganz offensichtlichen Resultate der ersten Runde berücksichtigt werden konnten, versuchte sich ungefähr ein Drittel der Teilnehmer erfolglos mit Strategien, die nicht freundlich waren. Die theoretischen Resultate des dritten Kapitels liefern eine weitere Begründung für das gute Abschneiden freundlicher Regeln. Es ist am schwierigsten, in eine Population freundlicher Regeln einzudringen, weil freundliche Regeln miteinander so gut zurechtkommen. Eine Population freundlicher Regeln, die die Invasion eines einzelnen Mutanten verhindert, verhindert darüber hinaus auch das Eindringen beliebiger Gruppen anderer Regeln (vgl. S. 60). Die theoretischen Resultate enthalten eine wichtige Einschränkung im Hinblick auf die Vorteile der Verwendung freundlicher Strategien. Wenn die Zukunft der Interaktion im Vergleich zum unmittelbaren Vorteil der Defektion nicht schwer genug wiegt, dann ist es kein besonders guter Plan, auf die Defektion des anderen zu warten. Man muß daran denken, daß Ή Τ FOR TAT nur dann eine stabile Strategie ist, wenn der Diskontparameter w im Vergleich zu den Auszahlungen R, S, Tund Ρ hoch genug ist. Insbesondere zeigt das Theorem 2, daß sich ein Spieler durch abwechselnde Defektion und Kooperation oder sogar durch ständige Defektion besser stellt, wenn der Diskontparameter nicht hoch genug ist und der andere Spieler Ή Τ FOR TAT verwendet. Wenn man also den anderen Spieler voraussichtlich nicht wiedersieht, dann ist sofortige Defektion besser als Freundlichkeit. Diese Tatsache hat bedauerliche Konsequenzen für Gruppen, von denen bekannt ist, daß sie häufig ihren Wohnsitz wechseln.
104
Vorschläge für Beteiligte und für Reformer
Ein Anthropologe berichtet, daß sich ein Zigeuner anderen Personen in der Erwartung nähert, mit ihnen Schwierigkeiten zu bekommen, während diese ihm gegenüber mißtrauisch sind und mit Betrug rechnen: „Es wurde ζ. B. ein Arzt gerufen, um ein sehr krankes Kind der Zigeuner zu behandeln. Er war nicht der erste, der gerufen wurde, aber der erste, der bereit war, zu kommen. Wir begleiteten ihn zum hinteren Schlafzimmer, doch kurz vor der Tür blieb er stehen. 'Der Besuch kostet 15 Dollar und Ihr schuldet mir fünf Dollar vom letzten Mal. Zahlt mir 20 Dollar, bevor ich mir den Patienten ansehe', verlangte er. 'Ja, ja, Sie bekommen Ihr Geld - sehen Sie nur erst nach dem Kind', baten die Zigeuner. So ging es weiter, bis ich eingriff. Der Arzt bekam 10 Dollar und untersuchte den Patienten. Nach der Untersuchung bemerkte ich, daß die Zigeuner sich revanchieren wollten und nicht bereit waren, die anderen 10 Dollar zu bezahlen." (Gropper 1975,106-7)
In einer Gemeinde in Kalifornien wurde ebenfalls festgestellt, daß Zigeuner Arztrechnungen nicht vollständig beglichen, von der Kommune verhängte Geldstrafen jedoch sofort bezahlten (Sutherland 1975, 70). Die Geldstrafen waren zumeist wegen Übertretung von Vorschriften zur Müllbeseitigung verhängt worden. Dies geschah bei einer Gruppe von Zigeunern, die in jedem Winter in die gleiche Stadt zurückkehrten. Vermutlich war den Zigeunern klar, daß sie sich in einer dauerhaften Beziehung mit der Müllabfuhr der Stadt befanden und daß sie über keine Alternative für die Müllabfuhr verfügten. Umgekehrt gab es in der betreffenden Gegend genügend viele Ärzte, so daß eine Β eziehung abgebrochen und eine andere begonnen werden konnte, wenn dies notwendig wurde.3 Kurze Interaktionen sind nicht die einzige Bedingung, unter der es sich auszahlt, als erster zu defektieren. Die andere Möglichkeit ist, daß Kooperation einfach nicht erwidert wird. Wenn alle anderen eine Strategie ständiger Defektion verwenden, dann kann ein einzelnes Individuum nichts besseres tun als ebenfalls diese Strategie zu benutzen. Wie aber im dritten Kapitel gezeigt wurde, kann es bereits bei einem kleinen Anteil von Interaktionen mit entgegenkommenden Strategien wie Ή Τ FOR TAT lohnend sein, Ή Τ FOR TAT zu benutzen, anstatt wie die meisten Angehörigen der Population nur ständig zu defektieren. In unserem numerischen Beispiel mußten nur fünf Prozent der Interaktionen mit gleichgesinnten TIT FORTAT-Spielern erfolgen, damit die Mitglieder dieser kleinen Gruppen besser abschnitten als ein typisches defektierendes Mitglied der Population.4
Vorschläge für erfolgreiches
Verhalten
105
Wird es jemanden geben, der die eigene anfangliche Kooperation erwidert? Manchmal läßt sich das im voraus schwer sagen. Wenn aber genug Zeit vergangen ist, in der viele verschiedene Strategien erprobt wurden und die erfolgreicheren sich verbreiten konnten, dann kann man ziemlich sicher sein, daß es Individuen gibt, die Kooperation erwidern. Der Grund dafür ist, daß selbst eine relativ kleine Gruppe diskriminierender freundlicher Regeln in eine Population von Böswilligen eindringen und mit hohen Punktzahlen aus den Interaktionen untereinander Erfolg haben kann. Nachdem freundliche Regeln Fuß gefaßt haben, können sie sich außerdem ihrerseits gegen eine erneute Invasion von Böswilligen schützen. Sie könnten natürlich versuchen, „auf Nummer sicher zu gehen" und zu defektieren, bis der andere Spieler kooperiert, um erst danach mit der eigenen Kooperation zu beginnen. Die Turnierergebnisse zeigen aber, daß dies eigentlich eine sehr riskante Strategie ist. Dies liegt daran, daß Ihre eigene anfangliche Defektion wahrscheinlich zu einer Vergeltung durch den anderen Spieler führt. Dadurch geraten Sie beide in die schwierige Lage, versuchen zu müssen, sich aus einem Muster gegenseitiger Ausbeutung und Defektion zu befreien. Wenn Sie die Vergeltung des anderen bestrafen, kann sich das Problem in die Zukunft fortpflanzen. Wenn Sie dem anderen seine Schuld erlassen, riskieren Sie, daß man glaubt, Sie könnten ausgebeutet werden. Selbst wenn es Ihnen gelingt, diese langfristigen Probleme zu vermeiden, könnten Sie nach sofortiger Vergeltung Ihrer anfanglichen Defektion wünschen, Sie wären von Anfang an freundlich gewesen. Die ökologische Analyse des Turniers deckte einen anderen Grund auf, warum es riskant ist, als erster zu defektieren. Die einzige Regel, die nicht freundlich war und in der zweiten Runde einen Platz unter den ersten 15 erreichte, war die Regel auf Platz 8, HARRINGTON. Diese Regel schnitt ziemlich gut ab, weil sie hohe Punktzahlen gegen die Turnierteilnehmer auf den hinteren Rängen erreichte. In hypothetischen weiteren Runden des Turniers bildeten diese schlecht piazierten Teilnehmer einen immer kleineren Anteil an der Population. Schließlich fand die unfreundliche Regel, die zunächst hohe Punktzahlen erzielt hatte, immer weniger Strategien, mit denen sie gut zurechtkam. Dadurch wurde sie selbst in Mitleidenschaft gezogen und starb aus. Die ökolo-
106
Vorschläge für Beteiligte undfür
Reformer
gische Analyse zeigt somit, daß es ein schließlich zur Selbstzerstörung führender Prozeß sein kann, mit Regeln gut zurecht zu kommen, die selbst keine hohe Punktzahlen erzielen. Die Lehre daraus ist, daß es zunächst vielversprechend erscheinen mag, nicht freundlich zu sein, daß aber dadurch langfristig gerade die Umgebung zerstört werden kann, die man für den eigenen Erfolg benötigt. 3. Erwidere sowohl Kooperation als auch Defektion
Der außerordentliche Erfolg von TIT FOR TAT führt zu einem einfachen, aber wirksamen Rat: Folge dem Prinzip der Gegenseitigkeit. Nach der Kooperation im ersten Zug erwidert TIT FOR TAT einfach alles, was der andere Spieler im vorangegangenen Zug getan hat. Diese einfache Regel ist unglaublich robust. Sie gewann die erste Runde des Computer-Turniers für das Gefangenendilemma, denn sie erreichte eine höhere durchschnittliche Punktzahl als jede andere von Spieltheoretikern eingereichte Nennung. Nachdem dieses Resultat den Teilnehmern an der zweiten Runde bekannt gemacht worden war, gewann ΊΊΤ FOR TAT erneut. Der Sieg war offensichtlich eine Überraschung, denn jeder hätte die Regel zur zweiten Runde einreichen können, nachdem er ihren Erfolg in der ersten Runde gesehen hatte. Anscheinend hofften die Teilnehmer aber, sie könnten es besser machen - und sie irrten sich. Ή Τ FOR TAT gewann nicht nur das Turnier selbst, sondern war auch in hypothetischen weiteren Runden besser als jede andere Regel. Dies läßt erkennen, daß TIT FOR TAT nicht nur mit der ursprünglichen großen Vielfalt von Regeln gut zurechtkommt, sondern auch mit erfolgreichen Regeln, die in weiteren Runden wahrscheinlich in größerer Zahl auftreten würden. Ή Τ FOR TAT zerstört nicht die Grundlage des eigenen Erfolgs, sondern ist im Gegenteil erfolgreich bei Interaktionen mit anderen erfolgreichen Regeln. Für das durch TIT FOR TAT verkörperte Prinzip der Gegenseitigkeit sprechen auch theoretische Gründe. Wenn die Zukunft im Vergleich zur Gegenwart hinreichend wichtig ist, dann ist Ή Τ FOR TAT kollektiv stabil. Das bedeutet, daß man einem Spieler keinen besseren Rat geben kann als den, selbst Ή Τ FOR TAT zu gebrauchen, wenn jeder andere Spieler Ή Τ FOR TAT verwendet.
Vorschläge für erfolgreiches Verhalten
107
Anders gesagt: Wenn Sie sicher sind, daß der andere Spieler Ή Τ FOR TAT benutzt und wenn die Interaktion lang genug andauert, dann ist es für Sie das Beste, sich ebenso zu verhalten. Die Schönheit des Prinzips der Gegenseitigkeit bei Ή Τ FOR TAT liegt aber darin, daß es unter so vielen verschiedenen Umständen funktioniert. Ή Τ FOR TAT gelingt es in der Tat sehr gut, zwischen Regeln zu unterscheiden, die die eigene anfangliche Kooperation erwidern, und solchen, die das nicht tun. Ή Τ FOR TAT diskriminiert sogar maximal im Sinn des dritten Kapitels (vgl. S. 60). Wie Theorem 6 zeigt, kann es deshalb als kleinste Gruppe in eine Welt von Böswilligen eindringen. Mehr noch, es erwidert eine Defektion ebenso wie eine Kooperation, ist also provozierbar. Theorem 4 zeigt, daß eine freundliche Regel wie Ή Τ FOR TAT tatsächlich provozierbar sein muß, damit eine Invasion anderer Regeln verhindert wird. Β ei der Β eantwortung einer Defektion des anderen Spielers hält TIT FOR TAT die Waage zwischen Bestrafung und Nachsicht. TIT FOR TAT defektiert nach jeder Defektion des anderen genau einmal und war im Turnier sehr erfolgreich. Damit drängt sich die Frage auf, ob es gerade das Prinzip des strikten „Auge um Auge" ist, das stets den besten Ausgleich schafft. Das ist schwer zu sagen, weil Regeln, die Bestrafung und Nachsicht nur ein wenig anders saldieren, nicht eingereicht wurden. Es ist aber klar, daß man eine Eskalation riskiert, wenn man eine Defektion der anderen Seite mit mehr als einer eigenen Defektion beantwortet. Umgekehrt riskiert man, ausgebeutetzu werden, wenn man nichtjede Defektion mit einer eigenen Defektion beantwortet. Ή Τ FOR TWO TATS ist die Regel, die nur dann defektiert, wenn der andere Spieler in beiden vorangegangenen Zügen defektiert hat. Zwei Defektionen werden also nur mit einer einzigen eigenen Defektion beantwortet. Diese vergleichsweise nachsichtige Regel hätte die erste Runde des Gefangenendilemma Computer-Turniers gewonnen, wenn sie eingereicht worden wäre. Sie hätte so gut abgeschnitten, weil sie wechselseitige Bestrafungen bei der Interaktion mit einigen anderen Regeln vermieden hätte, die sogar Ή Τ FOR TAT in Schwierigkeiten brachte. In der zweiten Runde des Turniers, für die Ή Τ FOR TWO TATS eingereicht worden war, erreichte die Regel aber nicht einmal einen Platz im ersten Drittel. Der Grund dafür ist, daß an der zweiten Runde einige
108
Vorschläge für Beteiligte und für Reformer
Regeln beteiligt waren, die in der Lage waren, die Bereitschaft zur Nachsicht für vereinzelte Defektionen auszubeuten. Man erkennt daran, daß das optimale Ausmaß an Nachsicht von der Umgebung abhängt. Großzügigkeit ist insbesondere dann angebracht, wenn endlose wechselseitige Bestrafungen die zentrale Gefahr sind. Sind jedoch Strategien die hauptsächliche Gefahr, die leichtlebige Regeln gekonnt ausbeuten, dann ist ein Übermaß an Nachsicht kostspielig. Während es schwierig sein dürfte, für eine gegebene Umwelt das optimale Ausmaß genau zu bestimmen, legt das Ergebnis des Turniers doch die Vermutung nahe, daß die Beantwortung einer Defektion mit ungefähr einer eigenen Defektion in einem breiten Spielraum von Situationen voraussichtlich ziemlich erfolgreich ist. Ein Spieler ist daher gut beraten, sowohl Defektion als auch Kooperation zu erwidern. 4. Sei nicht zu raffiniert Die Turnierergebnisse zeigen, daß man in einem Gefangenendilemma leicht zu raffiniert sein kann. Die sehr komplizierten Regeln schnitten nicht besser ab als die einfachen. Die Regeln, die man als „maximierend" bezeichnen könnte, hatten oft sogar schlechte Ergebnisse, weil sie Ketten wechselseitiger Defektionen verursachten. Das übliche Problem bei diesen Regeln besteht darin, daß sie komplizierte Methoden für Schlußfolgerungen über das Verhalten des anderen Spielers verwendeten - und diese Schlußfolgerungen waren falsch. Ein Teil der Schwierigkeiten ergab sich daraus, daß aus einer versuchsweisen Defektion seitens des anderen Spielers der Schluß gezogen wurde, er könne nicht zur Kooperation veranlaßt werden. Der Kern des Problems war aber, daß diese maximierenden Regeln nicht berücksichtigten, daß ihr eigenes Verhalten den anderen Spieler zu Änderungen seines Verhaltens veranlassen würde. Wenn wir uns entscheiden, einen Regenschirm mitzunehmen oder nicht, müssen wir uns keine Gedanken darüber machen, ob die Wolken unser Verhalten berücksichtigen. Auf der Grundlage vergangener Erfahrungen können wir die Wahrscheinlichkeit für Regen berechnen. Ähnlich können wir in einem Nullsummenspiel, etwa beim Schach, sicher davon ausgehen, daß der andere Spieler den für uns gefahrlichsten Zug ausführen wird, den er finden kann, und können uns entsprechend verhalten. Daher zahlt
Vorschläge für erfolgreiches Verhalten
109
sich für uns eine möglichst anspruchsvolle und komplizierte Analyse aus. Nichtnullsummenspiele wie das Gefangenendilemma sind von anderer Art. Anders als die Wolken kann der andere Spieler auf Ihre eigenen Wahlen reagieren. Und anders als der Gegner beim Schach sollte der andere Spieler beim Gefangenendilemma nicht als jemand betrachtet werden, der es darauf anlegt, Sie zu schlagen. Der andere Spieler wird in Ihrem Verhalten Anzeichen dafür suchen, ob Sie bereit sind, Kooperation zu erwidern oder nicht. Es ist also anzunehmen, daß Ihr eigenes Verhalten auf Sie zurückfällt. Diesen Aspekt der Interaktion übersehen Regeln, die den Versuch machen, ihre eigene Punktzahl zu maximieren, und dabei den anderen Spieler als unbeeinflußbaren Teil ihrer Umgebung behandeln. Sie übersehen diesen Aspekt unabhängig davon, wie raffiniert sie ansonsten vorgehen. Es zahlt sich also nicht aus, das Verhalten des anderen Spielers raffiniert zu modellieren, wenn Sie dabei den Prozeß auslassen, in dem sich der andere Spieler an Sie anpaßt, Sie sich an den anderen anpassen, der andere sich dabei erneut anpaßt usw. Es dürfte wenig erfolgversprechend sein, dies berücksichtigen zu wollen. Jedenfalls war keine der mehr oder weniger komplizierten Regeln dazu besonders gut in der Lage, die für eine der Runden des Turniers eingereicht wurden. Die Verwendung einer Strategie „permanenter Vergeltung" ist in einer anderen Hinsicht zu raffiniert. Hier handelt es sich um die Strategie, solange zu kooperieren wie der andere Spieler, nach einer einzigen Defektion des anderen aber nie mehr zu kooperieren. Da diese Strategie freundlich ist, kommt sie mit den anderen freundlichen Strategien zurecht. Sie schneidet auch bei Regeln gut ab, die nicht sehr reaktiv sind, etwa bei der Regel, die sich völlig zufallig verhält. Mit vielen anderen kommt sie aber schlecht zurecht, weil sie ihre Bemühungen bei Regeln zu schnell aufgibt, die eine gelegentliche Defektion ausprobieren, bei Bestrafung aber zurückweichen. Permanente Vergeltung mag raffiniert erscheinen, weil dadurch der maximale Anreiz zur Vermeidung von Defektion entsteht, ist aber im Hinblick auf den eigenen Vorteil zu streng. Noch in einer dritten Hinsicht waren einige der am Turnier beteiligten Regeln zu raffiniert: sie verwendeten so komplizierte wahrscheinlichkeitstheoretische Verfahren, daß die anderen Stra-
110
Vorschlägefür Beteiligte undfür Reformer
tegien sie nicht von völlig zufalligem Verhalten unterscheiden konnten. Zu große Komplexität kann mit anderen Worten wie völliges Chaos wirken. Wenn Sie eine Strategie verwenden, deren Verhalten zufällig erscheint, dann erwecken sie bei dem anderen Spieler den Eindruck, auf sein Verhalten nicht zu reagieren. Wenn sie nicht reagieren, dann hat der andere Spieler keinen Anreiz, mit Ihnen zu kooperieren. Es ist also recht gefahrlich, sich so kompliziert zu verhalten, daß man unverständlich wird. In vielen Situationen kann natürlich jemand, der eine komplizierte Regel verwendet, dem anderen Spieler die Gründe für jede seiner Wahlen erklären. Dennoch ensteht das Problem erneut. Der andere Spieler mag an den angebotenen Gründen zweifeln, wenn sie so kompliziert sind, daß sie den Eindruck erwecken, fur die jeweilige Gelegenheit erfunden zu sein. Unter diesen Umständen könnte der andere Spieler sehr wohl bezweifeln, daß eine Reaktionsbereitschaft vorliegt, deren Pflege sich lohnt. Der andere Spieler könnte daher eine Regel, deren Verhalten für ihn unvorhersehbar ist, für unbeeinflußbar halten. Diese Schlußfolgerung führt natürlich zur Defektion. Für den großen Erfolg von Ή Τ FOR TAT im Turnier ist u. a. seine große Verständlichkeit verantwortlich: die Regel ist für den anderen Spieler außergewöhnlich leicht zu begreifen. Wenn Sie TIT FOR TAT verwenden, hat der andere Spieler ausgezeichnete Möglichkeiten, zu verstehen, was Sie tun. Ihr Prinzip des „Auge um Auge" für jede Defektion ist ein Muster, das sich leicht richtig einschätzen läßt. Ihr zukünftiges Verhalten wird dann vorhersehbar. Sobald dies geschieht, kann der andere Spieler leicht erkennen, daß die beste Art, mit Ή Τ FOR TAT zurecht zu kommen, Kooperation ist. Unter der Annahme, daß das Spiel mit genügend großer Wahrscheinlichkeit für mindestens eine weitere Interaktion andauert, ist Kooperation der beste Plan für die laufende Interaktion mit TIT FOR TAT, damit Sie beim nächsten Zug in den Genuß einer Kooperation kommen. Um es zu wiederholen, es gibt einen wichtigen Unterschied zwischen einem Nullsummenspiel wie Schach und einem Nichtnullsummenspiel wie dem iterierten Gefangenendilemma. Beim Schach ist es nützlich, den anderen Spieler hinsichtlich Ihrer Intentionen zu verunsichern. Je unsicherer der andere Spieler ist, desto unwirksamer wird seine Strategie sein. In einer Nullsum-
Vorschläge für erfolgreiches Verhalten
111
men-Situation, in der mangelnde Leistung des anderen Spielers Ihnen hilft, ist es nützlich, die eigenen Intentionen zu verbergen. In einer Nichtnullsummen-Situation zahlt es sich aber nicht immer aus, so raffiniert zu sein. Im iterierten Gefangenendilemma kommt Ihnen die Kooperation des anderen Spielers zugute. Der Trick besteht darin, ihn zu dieser Kooperation zu ermutigen. Es ist ein gutes Mittel, klar zu machen, daß Sie das Verhalten des anderen erwidern werden. Worte können hilfreich sein, doch wie jeder weiß, sprechen Handlungen eine deutlichere Sprache. Deshalb sind die leicht verständlichen Handlungen von Ή Τ FOR TAT so erfolgreich.
Anmerkungen zu Kapitel 6. Vorschläge für erfolgreiches Verhalten 1
Behr (1981) verwendet diesen Maßstab, um die Punktzahlen für die erste Runde des Gefangenendilemma Computer-Turniers neu zu berechnen. Er zeigt, daß Spieler unter einigen Bedingungen eher versuchen, ihre relativen Gewinne zu maximieren als ihre absoluten. Bei dieser Interpretation ist das Spiel aber nicht mehr ein Gefangenendilemma, sondern statt dessen ein Nullsummenspiel mit I M M E R D als einziger dominanter Strategie für beliebige Werte von w. 2 Diese beiden Vergleichsmaßstäbe kann man präzisieren, wenn man mit V( A/B) den erwarteten Nutzen der Strategie A notiert, die mit Strategie Β interagiert. Meistens wird der Fehler gemacht, V( A/B) mit V(B/A) zu vergleichen, um dann zu versuchen, besser zu sein als der andere Spieler. Wie die Struktur des Turniers zeigt, besteht das eigentliche Ziel des Spiels darin, die höchste mögliche Gesamtpunktzahl zu erreichen. Es m u ß also der Durchschnitt von V(A/B) über alle Β maximiert werden, auf die A trifft. Wenn Sie auf einen anderen Spieler treffen, der eine bestimmte Strategie Β verwendet, dann ist es ein guter Vergleichsmaßstab, zu prüfen, ob Sie gegen die Strategie Β des anderen Spielers so gut wie möglich abschneiden. Die Leistung Ihrer Strategie A sollten Sie mit der Leistung einer anderen Strategie A' vergleichen, wenn A' mit Β interagiert, d. h. Sie sollten V(A/ B) mit V(A'/B) vergleichen. Insgesamt benötigen Sie eine Strategie, die mit allen anderen Strategien B, auf die Sie treffen, im Schnitt am besten zurecht kommt. 3 Vgl. auch Kenrick und Puxon (1972), Quintana und Floyd (1972), Acton (1974) und Sway (1980) für weitere Berichte über Beziehungen zwischen Zigeunern und anderen Personen. 4 Dieses Beispiel für die Wirksamkeit der Gruppenbildung beruhte auf w= .9, 7= 5, R=3, P=1 und 5=0.
Kapitel 7
Wie Kooperation gefördert werden kann Aus der Perspektive des Reformers fragt dieses Kapitel danach, wie die strategischen Gegebenheiten selbst Verändert werden können, um die Kooperation der Spieler zu fördern. Im vorangegangenen Kapitel war die Perspektive eine andere. Dort bestand das Problem darin, ein Individuum zu beraten, das sich in einer gegebenen Umgebung befindet. Wenn die strategische Situation genügend lange dauernde Interaktionen zwischen den Spielern ermöglicht, so werden sich die Empfehlungen vor allem auf Gründe beziehen, die einen Egoisten veranlassen sollten, trotz eines kurzfristigen Anreizes zur Nichtkooperation zu kooperieren. Wenn die Interaktion jedoch nicht sehr dauerhaft ist, dann würde ein Egoist durch Orientierung an kurzzeitigen Vorteilen und durch Defektion bessergestellt. Im Unterschied dazu wird in diesem Kapitel die strategische Situation nicht als vorgegeben betrachtet. Statt dessen wird gefragt, wie man Kooperation durch Transformation der strategischen Gegebenheiten selbst fordern kann, z.B. durch Vergrößerung des Schattens der Zukunft. Gewöhnlich sieht man Kooperation als etwas erstrebenswertes an. Das ist der naheliegende Ansatz, wenn man sich in die Spieler selbst hineinversetzt. Jedenfalls ist wechselseitige Kooperation gut für beide Spieler in einem Gefangenendilemma. Daher ist der Gesichtspunkt dieses Kapitels die Förderung der Kooperation. Wie früher bemerkt, gibt es aber selbstverständlich Situationen, in denen man gerade das Gegenteil erreichen möchte. Will man Unternehmen von Preisabsprachen abhalten oder seine potentiellen Feinde davon, ihre Handlungen zu koordinieren, müßte man den Ansatz umdrehen und das Gegenteil von dem tun, was die Kooperation fordert. Das Gefangenendilemma selbst ist nach einer solchen Situation benannt. Die ursprüngliche Geschichte ist, daß zwei Komplizen nach einem Verbrechen eingesperrt sind und getrennt verhört werden. Jeder von beiden kann gegen den anderen defektieren, wenn er in der Hoffnung auf Strafmilderung gesteht. Wenn aber beide
Wie Kooperation gefördert werden kann
113
gestehen, sind ihre Geständnisse nicht so wertvoll. Wenn auf der anderen Seite beide miteinander kooperieren und das Geständnis verweigern, kann der Staatsanwalt sie nur mit einer kleineren Anklage überführen. Unter der Annahme, daß keiner der Spieler moralische Skrupel oder Angst hat, den anderen zu verpfeifen, können die Auszahlungen ein Gefangenendilemma bilden (Luce und Raiffa 1957, 9495). Aus der Sicht der Gesellschaft ist es günstig, daß die beiden Komplizen nur geringe Aussichten haben, sich bald in derselben Situation wiederzufinden, weil dies genau der Grund dafür ist, daß es für jeden individuell vorteilhaft ist, mit dem anderen ein falsches Spiel zu treiben. Solange eine Interaktion nicht iteriert wird, gestaltet sich Kooperation sehr schwierig. Darum ist es wichtig für die Förderung der Kooperation, Vorkehrungen zu treffen, daß dieselben Individuen sich erneut treffen, sich einander aus der Vergangenheit wiederkennen und sich erinnern können, wie der andere sich früher verhalten hat. Die andauernde Interaktion ermöglicht die Stabilität gegenseitiger Kooperation. Die Empfehlungen zur Förderung dieser wechselseitigen Kooperation werden in drei Gruppen aufgeteilt: (1) Vergrößerung der Bedeutung der Zukunft im Verhältnis zur Gegenwart; (2) Änderung der Auszahlungen der Spieler fur die vier möglichen Ausgänge bei einem Zug; (3) Belehrung der Spieler über Werte, Fakten und Fertigkeiten, die kooperationsfördernd sind. 1. Erweitere den Schatten der Zukunft
Wechselseitige Kooperation kann stabil sein relativ zur Gegenwart, wenn die Zukunft hinreichend wichtig ist. Das liegt daran, daß die Spieler die Defektion des anderen implizit mit Vergeltung bedrohen können, sofern die Interaktion lang genug dauert, um die Drohung wirksam zu machen. Verdeutlicht man sich diesen Mechanismus an einem numerischen Beispiel, so können verschiedene Methoden einer Erweiterung des Schattens der Zukunft angegeben werden. Wie oben sei angenommen, daß der Wert einer Auszahlung, die beim nächsten Zug erzielt wird, nur einen festgelegten Prozentsatz der Auszahlung des gegenwärtigen Zuges ausmacht. Es sei daran erinnert, daß dieser Diskontparameter wzwei Gründe wiederspie-
114
Vorschläge für Beteiligte und für Reformer
gelt, warum die Zukunft typischerweise weniger wichtig als die Vergangenheit ist. Zunächst kann es sein, daß die Interaktion nicht fortgesetzt wird. Der eine oder der andere Spieler könnte sterben, bankrottgehen, wegziehen oder die Beziehung könnte aus irgendeinem anderen Grund enden. Weil diese Faktoren nicht mit Sicherheit vorhergesagt werden können, ist der nächste Zug nicht so wichtig wie der gegenwärtige: es kann sein, daß es keinen nächsten Zug gibt. Der zweite Grund für die geringere Bedeutung der Zukunft besteht darin, daß Individuen typischerweise eine Belohnung lieber heute erhalten als auf dieselbe Belohnung bis morgen warten zu müssen. Beide Effekte führen zusammen dazu, daß der nächste Zug weniger wichtig ist als der gegenwärtige. Bei dem numerischen Beispiel handelt es sich um das vertraute iterierte Gefangenendilemma mit den folgenden Auszahlungen: Die Versuchung zur Defektion trotz der Kooperation des anderen ergibt Τ = 5. Die Belohnung für wechselseitige Kooperation beträgt R = 3. Die Strafe für wechselseitige Defektion ergibt Ρ = 1. Schließlich ist S = 0 die Auszahlung für den kooperierenden Spieler, wenn der andere defektiert. Es sei zunächst angenommen, daß der folgende Zug einen Wert von 90 Prozent im Verhältnis zum gegenwärtigen Zug hat, also w = .9. BenutztnunderandereSpieler ΊΠΤ FOR TAT, zahlt sich Defektion nicht aus. Das folgt unmittelbar aus Theorem 2, das angibt, wann Ή Τ FOR TAT kollektiv stabil ist. Man kann jedoch erneut nachrechnen, um zu sehen, wie es funktioniert. Niemals zu defektieren, wenn man auf eine TIT FOR TAT-Strategie trifft, ergibt einen Punktwert von R bei jedem Zug. Unter Berücksichtigung der Diskontrate summiert sich dieses Ergebnis auf einen insgesamt erwarteten Punktwert von/? + wR + w2R + ..., also R/(l-w). Für R = 3 und w = . 9 sind das 30 Punkte. Ein besseres Ergebnis ist nicht erreichbar. Wenn ein Spieler immer defektiert, erhält er die Auszahlung T= 5 beim ersten Zug, aber danach erhält er nur die Strafe Ρ = 1 für wechselseitige Defektion. Das summiert sich auf 14 Punkte.1 14 Punkte sind aber nicht so ein gutes Ergebnis wie die 30 Punkte, die durch Kooperation erzielbar gewesen wären. Der Spieler könnte auch versuchen, abwechselnd zu defektieren und zu kooperieren, TIT FOR TAT also wiederholt auszubeuten, allerdings zu dem Preis, selbst in jedem zweiten Zug ausgebeutet zu werden. Dies ergäbe 26.3 Punkte. 2 Das ist besser als die 14 Punkte bei permanenter Defek-
Wie Kooperation
gefördert werden kann
115
tion, aber nicht so gut, wie die 30 Punkte, die sich bei dauernder Kooperation mitTIT FOR TAT erreichen lassen. Eine Implikation von Theorem 2 ist nun aber, daß dann, wenn diese beiden Strategien mit TIT FOR TAT nicht besser abschneiden als die wechselseitige Kooperation, auch keine andere Strategie besser sein kann. Wenn die Zukunft einen großen Schatten wirft, wie er in dem hohen Diskontparameter von 90 Prozent zum Ausdruck kommt, lohnt es sich also, mit jemandem zu kooperieren, der Ή Τ FOR TAT verwendet. Weil das so ist, lohnt es sich TIT FOR TAT zu verwenden. Folglich ist also auf Gegenseitigkeit gestützte Kooperation bei einem großen Schatten stabil. Die Situation ändert sich, wenn der Schatten der Zukunft nicht so groß ist. Um das einzusehen, sei angenommen, der Diskontparameter wäre von 90 auf 30 Prozent verringert worden. Diese Verminderung könnte bedingt sein durch eine größere Wahrscheinlichkeit, daß die Interaktion frühzeitig beendet wird, oder durch eine größere Präferenz für sofortige Belohnungen im Vergleich zu aufgeschobenen Gratifikationen oder durch irgendeine Kombination dieser beiden Faktoren. Wiederum sei angenommen, der andere Spieler verwendete Ή Τ FOR TAT. Kooperation ergibt wie vorher pro Zug R. Die erwartete Punktzahl wird wie vorher RA 1 - w) sein, was aber jetzt wegen des niedrigeren Wertes von w nur 4.3 Punkte ergibt. Ist es möglich, ein besseres Resultat zu erzielen? Wenn ein Spieler immer defektiert, erhält er beim ersten Zug T= 5 und danach Ρ = 1. Das kumuliert sich auf 5.4 Punkte, was besser ist als das Ergebnis freundlichen Verhaltens. Die Abwechslung zwischen Defektion und Kooperation ist mit 6.2 Punkten noch günstiger. Wenn also der Schatten der Zukunft kleiner wird, zahlt es sich nicht länger aus, kooperativ mit einem anderen Spieler zu verfahren, selbst dann nicht, wenn der andere Spieler die Kooperation erwidert. Wenn es sich aber für einen Spieler nicht auszahlt, kooperativ zu sein, dann lohnt es sich für den anderen Spieler ebensowenig, sich kooperativ zu verhalten. Wenn also der Diskontparameter nicht hoch genug ist, wird Kooperation wahrscheinlich überhaupt fehlen oder sie wird recht schnell verschwinden. Diese Schlußfolgerung hängt nicht von der Verwendung von TIT FOR TAT ab, weil Theorem 3 in Kapitel 3 (S. 55) zeigte, daßjede Strategie, die als erste kooperiert, nur stabil ist, wenn der Diskontparameter hoch genug
116
Vorschläge für Beteiligte und für
Reformer
ist; das bedeutet aber, daß keine Form von Kooperation stabil ist, wenn die Zukunft relativ zur Gegenwart nicht wichtig genug ist. Diese Schlußfolgerung unterstreicht die Bedeutung der ersten kooperationsfördernden Methode: Ausdehnung des Schattens der Zukunft. Es gibt grundsätzlich zwei Möglichkeiten, das zu erreichen: man kann Interaktionen dauerhafter machen, und man kann sie häufiger stattfinden lassen. Der direkteste Weg, Kooperation zu ermutigen, besteht darin, Interaktionen dauerhafter zu machen. Eine Hochzeit ζ. B. ist ein öffentlicher Akt, der dazu dient, die Dauerhaftigkeit einer Beziehung zu feiern und zu fordern. Dauerhaftigkeit einer Interaktion kann nicht nur für Liebende hilfreich sein, sondern auch für Feinde. Die schlagendste Illustration dieses Punktes war die Entwicklung des Systems des Leben-und-leben-lassen während des Stellungskriegs im Ersten Weltkrieg. Wie im Kapitel 4 deutlich wurde, lag das Ungewöhnliche des Stellungskriegs darin, daß dieselben kleinen Truppeneinheiten untereinander über ausgedehnte Zeitperioden Kontakt hatten. Sie wußten, daß ihre Interaktionen fortdauern würden, weil niemand sich bewegen konnte. In einem Bewegungskrieg würde eine kleine Einheit bei jedem Gefecht auf eine andere Feindeinheit treffen; deshalb würde es sich nicht auszahlen, Kooperation in der Hoffnung zu initiieren, daß andere Individuum oder die kleine Einheit würden sich später entsprechend verhalten. In einem statischen Gefecht ist die Interaktion zwischen zwei kleinen Einheiten über eine beträchtliche Zeitspanne verlängert. Die ausgedehnte Interaktion läßt es lohnend erscheinen, Muster gegenseitiger Kooperation zu erproben, und ermöglicht ihre Durchsetzung. Eine andere Möglichkeit zur Ausdehnung des Schattens der Zukunft besteht darin, die Interaktionen häufiger zu machen. In diesem Fall tritt die nächste Interaktion früher auf und daher zählt der nächste Zug mehr als sonst. Diese erhöhte Interaktionsrate würde also in der Erhöhung von w reflektiert, der Bedeutsamkeit des nächsten Zuges relativ zum gegenwärtigen Zug. Es ist wichtig, einzusehen, daß der Diskontparameter w auf der relativen Bedeutung eines Zuges und des nächsten basiert, nicht auf der Bedeutung einer Zeitperiode und der nächsten. Deshalb gilt: Wenn die Spieler eine Auszahlung in von heute aus gesehen zwei Jahren als nur halb so wertvoll wie eine gleiche Auszahlung
Wie Kooperation gefördert werden kann
117
heute ansehen, dann könnte man die Kooperation fördern, wenn ihre Interaktionen häufiger stattfinden würden. Eine gute Möglichkeit, die Häufigkeit von Interaktionen zwischen zwei Spielern zu erhöhen, besteht im Fernhalten anderer. Wenn z.B. Vögel ein Territorium ausbilden, so werden sie nur wenige Nachbarn haben. Das wiederum bedeutet, daß sie relativ häufig Interaktionen mit diesen benachbarten Individuen unterhalten werden. Dasselbe könnte für einen Geschäftsbetrieb mit einer territorialen Grundlage gelten, der hauptsächlich Handelsbeziehungen mit einigen wenigen Unternehmungen in seinem eigenen Territorium unterhält. Desgleichen tendiert j ede Form der Spezialisierung, die Interaktionen auf nur wenige andere einschränkt, dazu, die Häufigkeit der Interaktionen mit diesen wenigen Partnern zu erhöhen. Dies ist einer der Gründe, warum Kooperation leichter in Kleinstädten als in Großstädten entsteht. Es ist auch ein guter Grund dafür, daß Unternehmen in einer gesunden Branche versuchen, neue Firmen draußen zu halten, weil diese die bequemen Wettbewerbsbeschränkungen gefährden könnten, die sich in dem Industriezweig mit der Zeit entwickelt haben. Schließlich wird es einem reisenden Händler oder Tagelöhner leichter fallen, kooperative Beziehungen mit Kunden oder Arbeitgebern zu entwickeln, wenn diese ihn regelmäßig sehen anstatt nur in langen und unvorhersehbaren Abständen. Das Prinzip ist immer gleich: häufige Interaktionen tragen zur Förderung stabiler Kooperation bei. Besonders wirkungsvoll können die Interaktionen spezifischer Individuen durch Hierarchien und Organisationen konzentriert werden. Eine Bürokratie ist so strukturiert, daß Personen sich spezialisieren, und daß diejenigen, die an verwandten Aufgaben arbeiten, in Gruppen zusammengefaßt sind. Dies erhöht die Häufigkeit von Interaktionen und erleichert es den Beschäftigten, stabile kooperative Beziehungen aufzubauen. Darüber hinaus erlaubt es die hierarchische Struktur, bei Problemen, die eine Koordination zwischen verschiedenen Zweigen der Organisation erfordern, die Entscheidungsträger auf höheren Ebenen einzubeziehen, die gerade bei solchen Problemen häufig miteinander zu tun haben. Indem sie Menschen in ein langfristiges Spiel auf mehreren Ebenen einbinden, erhöhen Organisationen die Anzahl und die Bedeutung zukünftiger Interaktionen und fördern dadurch die
118
Vorschlägeßir Beteiligte undfiir
Reformer
Entstehung von Kooperation unter Gruppen, die zu groß sind, um individuell interagieren zu können. Das wiederum führt zur Evolution von Organisationen als Mittel zur Handhabung umfangreicher und komplexer Problembereiche. Die Konzentration der Interaktionen derart, daß jedes Individuum sich häufig mit nur wenigen anderen trifft, hat neben der Stabilisierung der Kooperation einen weiteren Vorteil. Sie trägt dazu bei, Kooperation in Gang zu setzen. Wie in der Diskussion über Gruppierung in Kapitel 3 erwähnt wurde, kann selbst eine kleine Gruppe von Individuen in eine große Population Böswilliger eindringen. Die Gruppenmitglieder müssen dazu einen nichttrivialen Anteil ihrer Interaktionen untereinander haben, auch wenn die Mehrzahl ihrer Interaktionen mit der allgemeinen Population ablaufen mag. Das numerische Beispiel zeigte, wie einfach es für eine Gruppe von ΉΤ FOR TAT-Spielern war, in eine Population permanent defektierender Spieler einzudringen. Bei den standardmäßigen Auszahlungswerten (T= 5,R = 3,P = \,S = 0) und einem mäßigen Diskontparameter (w = .9) ist es für die Mitglieder der Gruppe erforderlich, daß lediglich 5 Prozent ihrer Interaktionen mit anderen Mitgliedern erfolgen, damit Kooperation in einer bösen Welt in Gang gesetzt werden kann. Die Konzentration der Interaktionen ist eine Methode zur Erhöhung der Häufigkeit der Treffen zweier Individuen. Im Kontext von Verhandlungen ist eine weitere Methode zur Erreichung dieses Ziels die Aufspaltung des Verhandlungsgegenstands in kleine Stücke. Ein Rüstungskontroll- oder Abrüstungsvertrag kann ζ. B. in viele Schritte unterteilt werden. Dies würde es beiden Parteien erlauben, viele relativ kleine Züge zu machen, anstatt ein oder zwei große. Auf diese Weise wird Gegenseitigkeit wirksamer. Wenn beide Seiten wissen können, daß ein unangemessener Zug der anderen Seite im nächsten Stadium erwidert werden kann, dann können beide eher daraufvertrauen, daß der Prozeß den antizipierten Verlauf nehmen wird. Eine Hauptfrage der Rüstungskontrolle ist natürlich, ob jede Seite tatsächlich wissen kann, was die andere Seite wirklich beim letzten Zug getan hat, ob sie ihre Verpflichtungen eingehalten und kooperiert oder betrogen und defektiert hat. Für jeden gegebenen Grad an Vertrauen in die Fähigkeit einer jeden Seite, Betrug zu entdecken, gilt jedoch, daß viele kleine Schritte im Vergleich zu einigen wenigen großen die
Wie Kooperation gefördert werden kann
119
Kooperationsbereitschaft fördern werden. Die Zerlegung der Interaktion wirkt dadurch förderlich aufdie Stabilität der Kooperation, daß die Erträge aus Betrügereien beim gegenwärtigen Zug im Verhältnis zu den Vorteilen der potentiellen Kooperation bei den späteren Zügen viel weniger wichtig erscheinen. Diese Art der Zerlegung ist ein vielpraktiziertes Prinzip. Henry Kissinger arrangierte den israelischen Abzug aus dem Sinai nach dem Krieg von 1973 so, daß er in Stadien vollzogen wurde, die mit ägyptischen Schritten in Richtung auf normale Beziehungen zu Israel koordiniert waren. Geschäfte ziehen es vor, die Bezahlung umfangreicher Aufträge in Phasen vornehmen zu lassen, und zwar immer dann, wenn einzelne Lieferungen erfolgen, anstatt auf eine Pauschalsumme am Ende zu warten. Sicherzustellen, daß Defektion beim gegenwärtigen Zug keine zu große Versuchung im Verhältnis zum gesamten zukünftigen Verlauf der Interaktion darstellt, ist eine gute Methode zur Förderung der Kooperation. Ein anderer Mechanismus ist jedoch die Änderung der Auszahlungen selbst. 2. Ändere die Auszahlungen
Eine verbreitete Reaktion desjenigen, der in einem Gefangenendilemma verstrickt ist, lautet: „Es sollte ein Gesetz gegen diese Dinge geben". In der Tat ist eine der Hauptfunktionen einer Regierung, Auswege aus Gefangenendilemmas zu ermöglichen: sicherzustellen, daß Individuen auch dann gezwungen sind, das sozial erwünschte Verhalten zu zeigen, wenn sie keine privaten Anreize zur Kooperation besitzen. Gesetze werden verabschiedet, um die Menschen zu veranlassen, ihre Steuern zu zahlen, nicht zu stehlen und Verträge mit Fremden einzuhalten. Jede dieser Aktivitäten könnte als ein gigantisches Gefangenendilemma mit vielen Spielern aufgefaßt werden. Niemand möchte Steuern zahlen, weil die Vorteile so diffus und die Kosten so direkt sind. Aber jeder könnte besser gestellt werden, wenn jede Person zahlen muß, so daß jeder die Vorteile von Schulen, Straßen und anderen kollektiven Gütern genießen kann (Schelling 1973). Das wollte Rousseau im wesentlichen ausdrücken, als er sagte, daß die Rolle der Regierung darin liegt, jeden Bürger zu zwingen, „frei zu sein" (Rousseau 1971,22). Regierungen verändern die effektiven Auszahlungen. Wenn man sich vor der Zahlung seiner Steuern drückt, muß man damit
120
Vorschläge für Beteiligte und für Reformer
rechnen, ins Gefängnis zu kommen. Diese Aussicht macht die Wahl der Defektion weniger attraktiv. Sogar Quasi-Regierungsapparate können ihre Gesetze durch Änderungen der Auszahlungen für die Spieler durchsetzen. In der ursprünglichen Geschichte vom Gefangenendilemma wurden z.B. zwei Komplizen einzeln in Arrest genommen und getrennt verhört. Wenn sie zu einer organisierten Bande gehört hätten, hätten sie eine Bestrafung für das Verpfeifen antizipieren können. Dies könnte die Auszahlungen für ein falsches Spiel mit ihrem Partner so stark verringern, daß keiner gestehen würde und beide die relativ kleine Strafe erhielten, die aus ihrem Schweigen und wechselseitiger Kooperation resultiert. Große Änderungen der Auszahlungsstruktur können die Interaktionen so transformieren, daß es gar nicht mehr ein Gefangenendilemma ist. Wenn die Bestrafung für Defektion so groß ist, daß Kooperation unabhängig vom Verhalten des anderen Spielers die beste Entscheidung auf kurze Sicht wird, dann gibt es kein Dilemma mehr. Die Transformation der Auszahlungen muß jedoch nicht ganz so drastisch ausfallen, um erfolgreich zu sein. Selbst eine relativ kleine Transformation der Auszahlungen kann zur Stabilisierung reziproker Kooperation beitragen, trotz der Tatsache, daß die Interaktion immer noch ein Gefangenendilemma ist. Der Grund ist, daß die Bedingungen für die Stabilität der Kooperation in der Beziehung zwischen dem Diskontparameter w und den vier Auszahlungen T, R, S und Ρ zum Ausdruck kommen.3 Erforderlich ist, daß w relativ zu diesen Auszahlungen groß genug wird. Wenn die Auszahlungen verändert werden, kann sich eine Situation, in der Kooperation nicht stabil ist, in eine andere verwandeln, in der sie stabil ist. Um also Kooperation durch eine Modifikation der Auszahlungen zu fördern, ist es nicht erforderlich, so weit zu gehen, daß die Spannung zwischen dem kurzfristigen Anreiz zur Defektion und dem längerfristigen Anreiz zu wechselseitiger Kooperation beseitigt wird. Es ist nur notwendig, den langfristigen Anreiz zur wechselseitigen Kooperation größer zu machen als den kurzfristigen zur Defektion. 3. Unterweise die Menschen, sich umeinander zu kümmern Eine vorzügliche Methode zur Förderung der Kooperation in einer Gesellschaft besteht darin, die Menschen dazu zu bewegen, sich um das Wohlergehen der anderen zu sorgen. Eltern und Schu-
Wie Kooperation gefördert werden kann
121
len verwenden ungeheuer viel Mühe auf die Unterweisung der Jugend, das Glück ihrer Mitmenschen zu beachten. In spieltheoretischen Begriffen ausgedrückt bedeutet das, daß die Erwachsenen versuchen, die Werte von Kindern so zu formen, daß die Präferenzen der jungen Bürger nicht nur ihre eigene individuelle Wohlfahrt berücksichtigen, sondern zumindest in gewissem Grade auch die Wohlfahrt anderer. Zweifellos wird es eine Gesellschaft fürsorglicher Menschen leichter haben, Kooperation unter ihren Mitgliedern zu erreichen, selbst wenn sie in ein iteriertes Gefangenendilemma verfangen sind. „Altruismus" ist eine gute Bezeichnung für das Phänomen, daß der Nutzen einer Person durch die Wohlfahrt einer anderen Person positiv beeinflußt wird.4 Altruismus ist also ein Handlungsmotiv. Es sollte in Erinnerung gerufen werden, daß bestimmte Verhaltensweisen, die als großzügig erscheinen, tatsächlich aus anderen als altruistischen Gründen erfolgen. Wohltätigkeit erfolgt ζ. B. oft weniger aus der Achtung von Benachteiligten, sondern für das soziale Ansehen, das man sich von ihr erwartet. In traditionellen wie modernen Gesellschaften sind Geschenke ebenfalls Teil eines Tauschprozesses. Das Motiv kann eher in der Erzeugung einer Verpflichtung liegen als in einer Verbesserung der Wohlfahrt des Empfangers (Blau 1968). Aus der Sicht der biologischen Evolution kann Altruismus unter Verwandten aufrechterhalten werden. Eine Mutter, die ihr Leben riskiert, damit verschiedene ihrer Nachkommen gerettet werden, kann die Aussicht erhöhen, daß Kopien ihrer Gene überleben. Wie in Kapitel 5 diskutiert wurde, ist dies die Grundlage der genetischen Verwandtschaftstheorie. Altruismus kann unter Menschen durch Sozialisation aufrechterhalten werden. Aber es gibt dabei ein ernstes Problem. Ein selbstsüchtiges Individuum kann die Vorteile des altruistischen Verhaltens eines anderen genießen, ohne die Kosten an Wohlfahrtsverlusten zu zahlen, die aus eigener Großzügigkeit entstehen. Wir haben alle schlechterzogene Leute kennengelernt, die von anderen Rücksicht und Großzügigkeit erwarten, aber nicht an andere als die eigenen Bedürfnisse denken. Solche Leute bedürfen einer anderen Behandlung als die Rücksichtsvollen, wollen wir nicht durch sie ausgebeutet werden. Diese Überlegung legt es nahe, daß die Kosten des Altruismus kontrolliert werden können,
122
Vorschläge für Beteiligte und für Reformer
wenn man sich zu jedem anfangs altruistisch verhält, und danach nur zu denen, die ähnliche Gefühle zeigen. Dies führt aber schnell zurück zur Gegenseitigkeit als Grundlage der Kooperation. 4. Unterweise in Sachen Reziprozität TIT FOR TAT kann für einen Egoisten eine gute Strategie sein, aber ist es für eine Person oder ein Land eine moralische Strategie? Die Antwort hängt selbstverständlich von dem verwendeten Standard für Moralität ab. Der vermutlich am weitesten akzeptierte moralische Standard ist die Goldene Regel: Behandle andere so wie du möchtest, daß sie dich behandeln. Im Kontext des Gefangenendilemmas scheint die Goldene Regel zu implizieren, daß man immer kooperieren soll, weil Kooperation dasjenige Verhalten ist, das man sich vom anderen Spieler wünscht. Diese Interpretation legt die Annahme nahe, daß vom Standpunkt der Moral aus betrachtet die Strategie der unbedingten Kooperation die beste Strategie ist und nicht ΊΊΤ FOR TAT. Das Problem dieser Sichtweise besteht darin, daß das Hinhalten der anderen Backe dem anderen Spieler einen Anreiz zur Ausbeutung gibt. Unbedingte Kooperation kann nicht nur dem Spieler Schaden zufügen, sie kann auch andere unschuldige Umstehende beeinträchtigen, mit denen die erfolgreichen Ausbeuter später interagieren werden. Unbedingte Kooperation tendiert dazu, den anderen Spieler zu verderben; sie beläßt die Bürde der Besserung schädigender Spieler bei dem übrigen Teil der Gemeinschaft, was es nahelegt, daß Reziprozität eine bessere Grundlage für Moralität ist als unbedingte Kooperation. Die Goldene Regel würde tatsächlich unbedingte Kooperation vorschreiben, denn das, was ein Spieler wirklich präferiert, ist, daß der andere Spieler über einige Defektionen hinwegsieht. Eine Strategie auf Gegenseitigkeit zu stützen, scheint aber auch nicht gerade der Gipfel der Moralität zu sein, zumindest nicht gemäß unseren Alltagsintuitionen. Reziprozität ist sicher keine gute Basis einer anspruchsvollen Moral. Jedoch ist sie mehr als nur die Moral des Egoismus. Es hilft in Wirklichkeit nicht nur uns selbst, sondern auch anderen, wenn es Ausbeutungsstrategien schwer gemacht wird, zu überleben. Es hilft nicht nur anderen, sondern verlangt auch nicht mehr von uns selbst als es anderen zugesteht. Eine Strategie auf der Basis von Gegenseitigkeit kann es
Wie Kooperation gefördert werden kann
123
dem anderen Spieler erlauben, die Belohnung für wechselseitige Kooperation zu erzielen, was die gleiche Auszahlung ist, die sie für sich selbst erreicht, wenn beide kooperieren. Eine grundlegende Eigenschaft vieler Regeln, die auf Gegenseitigkeit beruhen, ist es, nicht mehr zu verlangen, als ausgleichende Gerechtigkeit. Das kann am klarsten anhand der Leistungen von Ή Τ FOR TAT in den Gefangenendilemma-Turnieren gesehen werden. Ή Τ FOR TAT gewann beide Runden des Turniers, aber es erhielt niemals mehr Punkte in einem Spiel als der andere Spieler! Tatsächlich kann es unmöglich mehr Punkte in einem Spiel erhalten als der andere Spieler, weil es den anderen Spieler immer zuerst defektieren läßt und niemals öfter defektiert als der andere Spieler. Es gewann nicht durch ein besseres Abschneiden als der andere Spieler, sondern indem es Kooperation hervorlockte. TIT FOR TAT erzielt auf diese Weise ein gutes Ergebnis durch die Förderung wechselseitiger Interessen anstatt durch die Ausbeutung der Schwäche der anderen. Eine moralische Person könnte sich kaum besser verhalten. Was Ή Τ FOR TAT einen leicht anstößigen Beigeschmack verleiht, ist sein Beharren auf dem „Auge um Auge"-Prinzip. Das ist tatsächlich eine harte Form von Gerechtigkeit. Die wirkliche Frage ist jedoch, ob es bessere Alternativen gibt. In Situationen, in denen Menschen sich auf eine zentrale Autorität verlassen können, die die Vorschriften der Gemeinschaft durchsetzt, gibt es Alternativen. Die angemessene Bestrafung eines Vergehens muß nicht unbedingt so schmerzhaft sein wie das Vergehen selbst. Gibt es keine zentrale Autorität für die Erzwingung, so müssen die Spieler sich selbst Anreize geben, die Kooperation statt Defektion auslösen. Die wirkliche Frage in solch einem Fall ist jedoch gerade, welche Form dieser Anreiz zur Kooperation annehmen sollte. Beunruhigend an TIT FOR TAT ist, daß eine Fehde unbestimmt lange fortdauern kann, sobald sie einmal begonnen hat. In der Tat scheinen viele Fehden gerade diese Eigenschaft zu besitzen. In Albanien oder im Nahen Osten setzt sich eine Familienfehde manchmal über Jahrzehnte fort, bis eine Schädigung durch eine andere heimgezahlt ist, und jede Vergeltung ist der Anfang des nächsten Zyklus. Die Angriffe können wie ein Echo hin- und herhallen bis der ursprüngliche Anlaß in ferner Vergangenheit verloren gegangen ist (Black-Michaud 1975). Das ist ein ernstes
124
Vorschläge für Beteiligte und für Reformer
Problem im Zusammenhang mit Ή Τ FORTAT. Eine bessere Strategie wäre vielleicht, nur neun Zehntel einer Münze heimzuzahlen. Das würde helfen, das Echo von Konflikten zu dämpfen und dennoch einen Anreiz für den anderen Spieler bereithalten, nicht Gratis-Defektionen zu versuchen. Es wäre eine Strategie auf der Basis von Gegenseitigkeit, aber sie wäre etwas nachsichtiger als Ή Τ FOR TAT. Es wäre zwar immer noch eine harte Form von Gerechtigkeit, hätte aber den Vorzug, in einer Welt von Egoisten ohne zentrale Autorität nicht nur die eigene Wohlfahrt zu fördern, sondern auch die anderer. Eine Gemeinschaft, die Ή Τ FOR TAT verwendet, kann sich tatsächlich selbst überwachen. Die abweichende Strategie wird nämlich dadurch unvorteilhaft gemacht, daß jedes Individuum unter Garantie seine Strafe bekommt, das sich anders als kooperativ verhält. Deshalb hat der Abweichler keinen Erfolg und kann kein für andere attraktives Modell abgeben, dessen Imitation sich lohnen würde. Diese Besonderheit der Selbst-Überwachung vermittelt einen zusätzlichen privaten Anreiz, andere darin zu unterweisen, selbst diejenigen, mit denen man niemals interagieren wird. Natürlich will man Reziprozität vor allem denen beibringen, mit denen man interagieren wird, so daß sich eine wechselseitig belohnende Beziehung ausbilden kann. Man hat jedoch auch einen privaten Vorteil durch die Reziprozität einer anderen Person, selbst wenn man niemals mit dieser Person interagieren wird: Die Reziprozität des anderen trägt zur Überwachung der gesamten Gemeinschaft bei, indem diejenigen bestraft werden, die ausbeuterisch vorgehen. Dadurch wird die Anzahl unkooperativer Individuen vermindert, mit denen man selbst in der Zukunft zu tun haben wird. Es hilft also dem Schüler, der Gemeinschaft und indirekt auch dem Lehrer, wenn eine Unterweisung in der Verwendung freundlicher, auf Gegenseitigkeit beruhender Strategien erfolgt. Es verwundert nicht, daß ein pädagogischer Psychologe, als er von Ή Τ FOR TATs Tugenden hörte, einen Unterricht in Reziprozität an den Schulen empfohlen hat (Calfee 1981, 38). 5. Verbessere die
Erinnerungsfähigkeit
Die Fähigkeit, den anderen Spieler aus vergangenen Interaktionen wiederzuerkennen und sich an relevante Merkmale dieser Inter-
Wie Kooperation gefördert werden kann
125
aktionen zu erinnern, ist notwendig, um Kooperation aufrecht zu erhalten. Ohne diese Fähigkeiten könnte ein Spieler keine Form von Reziprozität anwenden und könnte den anderen daher nicht zur Kooperation ermutigen. In der Tat hängt das Spektrum erreichbarer Kooperation von diesen Fähigkeiten ab. Diese Abhängigkeit kann man am klarsten anhand des Spektrums der in Kapitel 5 aufgezeigten biologischen Illustration erkennen. Bakterien zum Beispiel befinden sich nahe am Boden der evolutionären Stufenleiter und besitzen eine begrenzte Fähigkeit zum Wiedererkennen anderer Organismen. Sie müssen also einen abgekürzten Weg zur Wiedererkennung gehen: eine exklusive Beziehung zu nur einem einzigen anderen Spieler (Wirt) zur gleichen Zeit. Auf diese Weise können beliebige Änderungen in der Umgebung einer Bakterie diesem einen Spieler zugeschrieben werden. 5 Vögel besitzen ein besseres Unterscheidungsvermögen. Sie können zwischen einer Anzahl individuell benachbarter Vögel aufgrund ihrer Gesänge unterscheiden. Diese Diskriminationsfähigkeit erlaubt es ihnen, mit verschiedenen anderen Vögeln kooperative Beziehungen aufzubauen oder zumindest konfliktträchtige zu vermeiden. Schließlich haben Menschen, wie in Kapitel 5 diskutiert wurde, ihre Fähigkeiten zur Wiedererkennung in dem Ausmaß entwickelt, daß sie einen auf die Erkennung von Gesichtern spezialisierten Gehirnteil besitzen. Die erweiterte Fähigkeit, Individuen wiederzuerkennen, mit denen bereits interagiert wurde, erlaubt es Menschen, eine viel umfangreichere Menge kooperativer Beziehungen aufzubauen, als das Vögeln möglich ist. Dennoch bestehen selbst in menschlichen Beziehungen häufig Grenzen der Reichweite von Kooperation aufgrund der Unfähigkeit, die Identität oder die Handlungen der anderen Spieler wiederzuerkennen. Dieses Problem ist insbesondere bei der Erreichung effektiver internationaler Kontrolle von Kernwaffen akut. Die Schwierigkeit liegt hier in der Verifikation: Wie kann man mit ausreichender Zuverlässigkeit wissen, was für einen Zug der andere Spieler wirklich ausgeführt hat? Zum Beispiel wurden Abkommen über einen Stop aller Atomwaffentests bis vor kurzem durch die technische Schwierigkeit verhindert, Explosionen von Erdbeben zu unterscheiden, eine Schwierigkeit, die inzwischen weitgehend überwunden ist (Sykes und Everden 1982). Die
126
Vorschläge für Beteiligte und für Reformer
Fähigkeit, eine auftretende Defektion wahrnehmen zu können, ist nicht das einzige Erfordernis für die Entstehung erfolgreicher Kooperation, aber sie ist sicher eine wichtige Voraussetzung. Deshalb läßt sich die Reichweite gesicherter Kooperation erweitern durch jede Verbesserung der Fähigkeiten der Spieler, einander aus der Vergangenheit wiederzuerkennen und verläßlich zu wissen, welche Handlungen wirklich vorher stattgefunden haben. Dieses Kapitel hat gezeigt, daß Kooperation zwischen Menschen durch eine Vielzahl anderer Techniken ebenfalls gefordert werden kann, unter ihnen Vergrößerung des Schattens der Zukunft, Änderung der Auszahlungen, Unterweisung der Menschen, sich umeinander zu kümmern, Unterweisung in Sachen Reziprozität. Die Förderung guter Ergebnisse ist nicht lediglich eine Sache der Belehrung der Spieler darüber, daß sie mehr durch wechselseitige Kooperation erreichen können als durch wechselseitige Defektion. Es ist auch eine Frage der Interaktionsmerkmale, so daß auf lange Sicht eine stabile Evolution von Kooperation ablaufen kann.
Anmerkungen zu Kapitel 7. Wie Kooperation gefördert werden kann 1
Das Ergebnis vom IM M ER D gegen TIT FOR TAT beträgt T+wP+wiP+. ,.=T+ wP(l+w+...) = T+wP/{\-w). Numerisch sind das (5+.9-l)/.l=14 Punkte.
2
Gegen einen TIT FOR TAT-Spieler abwechselnd zu defektieren und zu kooperieren ergibt einen Wert von T+wS+w1 7'+h>35'+ . . w a s sich vereinfachen läßt zu (7"+w5)(l+w 2 +iv 4 +tv 6 +...).Dasistgleich(7 , +H'S)/(l-w 2 )oder(5+.0)/(l-.9-.9)= 26.3. 3
Theorem 2 gibtan, welche Beziehung zwischen denParametern für die Stabilität erforderlich ist. Ein anderer Ansatz würde darin bestehen, den Interessenkonflikt in der Auszahlungsmatrix selbst zu minimieren. Um das zu erreichen, müßten Τ und Ρ vermindert und R und £ erhöht werden (Rapoport und Chammah 1965,3538; Axelrod 1970, 65-70). 4
Es gibt in den Sozialwissenschaften eine ausgedehnte Literatur zum Problem des Altruismus. Bei öffentlichen Angelegenheiten verhalten sich die Leute häufig in sozial verantwortlicher Weise z.B. beim Recycling benutzter Flaschen (Tucker 1978) oder beim Blutspenden (Titmuss 1971). Tatsächlich ist Altruismus in solchen öffentlichen Angelegenheiten derart schwierig zu erklären, daß ein Politologe (Margolis 1982) vorgeschlagen hat, daß die Akteure möglicherweise eine Nutzenfunktion für private und eine andere für öffentliche Angelegenheiten besitzen. Unter Ökonomen gibt es ein Interesse an der Erklärung anscheinend altruistischer Handlungen und an einer Modellierung der Effekte des Altruismus (ζ. B. Becker 1982; Kurz 1977; Hirshleifer 1977 und Wintrobe 1981). Psychologen
Wie Kooperation gefördert werden kann
127
haben die Wurzel des Altruismus experimentell untersucht (vgl. für eine Übersicht Schwartz 1977). Spieltheoretiker erforschten die theoretischen Implikationen von Nutzeninteraktionen (ζ. B. Valavanis 1958 und Fitzgerald 1975). Rechtswissenschaftler haben ebenfalls die Bedingungen untersucht, unter denen es tatsächlich eine rechtliche Verpflichtung g i b t j e m a n d e n zu retten, der Hilfe braucht (Landes und Posner 1978a und 1978b). 5
Ebenso dürften komplexe Informationsverarbeitungsprozesse hinsichtlich der bisherigen Geschichte des Spiels für Bakterien nicht möglich sein, aber sie können vermutlich auf einfache Merkmale der Vergangenheit reagieren, etwa darauf, daß die Umgebung in der letzten Zeit mehr oder weniger gutartig gewesen ist.
Teil V Schlußfolgerungen
Kapitel 8
Die Sozialstruktur der Kooperation Wenn man überlegt, wie die Evolution von Kooperation beginnen konnte, dann zeigt sich, daß bestimmte soziale Strukturen notwendig waren. Im dritten Kapitel wurde insbesondere gezeigt, daß ein einzelnes Individuum, welches eine freundliche Strategie wie TIT FOR TAT verwendet, nicht in eine Population von Böswilligen eindringen konnte, die stets defektieren. Bestand aber ein Minimum an sozialer Struktur unter den Eindringlingen, konnte sich eine andere Situation ergeben. Wenn sie sich in einer Gruppe befanden, so daß wenigstens ein kleiner Teil ihrer Interaktionen miteinander erfolgte, dann konnten sie in die Population Böswilliger eindringen. In diesem Kapitel untersuchen wir die Folgen weiterer Arten sozialer Strukturen. Es werden vier Bedingungen geprüft, die zu interessanten Typen sozialer Strukturen fuhren können: Etikettierungen, Reputation, Vorschriften und Territorialität. Eine Etikettierung ist ein unveränderliches Merkmal eines Spielers, ζ. B. sein Geschlecht oder seine Hautfarbe, das vom anderen Spieler beobachtet werden kann. Sie kann stabile Arten von Stereotypen und Statushierarchien hervorrufen. Die Reputation eines Spielers ist veränderbar und beruht darauf, daß der andere Spieler Informationen über die Strategie besitzt, die der erste gegenüber dritten Spielern verwendet hat. Reputation führt zu verschiedenen Phänomenen, etwa zu Anreizen, sich einen Namen als „harter Bursche" zu machen, und zu Anreizen, andere davon abzuschrecken, sich als „harter Bursche" zu verhalten. Vorschriften regeln die Beziehung zwischen einer Regierung und den Regierten. Regierungen können ihre Herrschaft nicht allein auf Abschreckung stützen, sondern müssen die freiwillige Einwilligung der Mehrheit der Regierten erlangen. Vorschriften werfen also das Problem auf, wie streng Regeln und Verfahren zu ihrer Durchsetzung sein sollten. Territorialität schließlich tritt auf, wenn Spieler mit ihren Nachbarn anstatt mit beliebigen anderen Spielern interagieren. Wenn Strategien sich unter der Bedingung der Territorialität in einer Popula-
132
Schlußfolgerungen
tion verbreiten, kann dies zu faszinierenden Verhaltensmustern fuhren. Etikettierungen, Stereotype und Statushierarchien Beziehungen werden häufig durch beobachtbare Merkmale wie Geschlecht, Alter, Hautfarbe oder durch die Art der Bekleidung beinflußt. Solche Signale ermöglichen es einem Spieler, eine Interaktion mit einem Fremden in der Erwartung zu beginnen, daß der Fremde sich wie andere verhalten wird, die die gleichen beobachtbaren Merkmale haben. Derartige Merkmale können also einen Spieler im Prinzip in die Lage versetzen, bereits vor Beginn der Interaktion einige nützliche Informationen über die Strategie des anderen Spielers zu besitzen. Dies geschieht, weil es die beobachtbaren Merkmale eines Individuums anderen erlauben, es als Mitglied einer Gruppe mit ähnlichen Merkmalen zu etikettieren. Diese Etikettierung ermöglicht ihrerseits Schlußfolgerungen über das Verhalten des Individuums. Die mit einer bestimmten Etikettierung verbundenen Erwartungen müssen keineswegs Ergebnis unmittelbarer persönlicher Erfahrung sein. Die Erwartungen können auch durch Erfahrungen aus zweiter Hand gebildet werden, etwa durch Geschichten oder Gerüchte. Die Interpretation der Signale könnte sogar durch genetische Prozesse und natürliche Selektion geformt sein, wie im Fall der Schildkröte, die das Geschlecht einer anderen Schildkröte erkennen und sich entsprechend verhalten kann. Man kann eine Etikettierung als ein unveränderliches Merkmal eines Spielers definieren, das von anderen Spielern bei Beginn der Interaktion beobachtet werden kann. 1 Wenn Etikettierungen möglich sind, dann kann die Festlegung einer Wahl mittels einer Strategie nicht nur auf der Grundlage der bisherigen Geschichte der Interaktion erfolgen, sondern auch auf Grund der Etikettierung des anderen Spielers. Eine der interessantesten aber auch beunruhigendsten Konsequenzen von Etikettierungen ist, daß sie zu sich selbst bestätigenden Stereotypen führen können. U m uns das klar zu machen, wollen wir annehmen, daß jeder entweder eine blaue oder eine gelbe Etikettierung hat. Wir wollen weiter annehmen, daß die Mitglieder beider Gruppen freundlich zu den Mitgliedern der eigenen und böswillig gegenüber den Mitgliedern der anderen Gruppe
Die Sozialstruktur
der Kooperation
133
sind. Der Einfachheit halber nehmen wir an, daß die Mitglieder beider Gruppen innerhalb ihrer Gruppe TIT FOR TAT verwenden und bei Interaktionen mit Mitgliedern der anderen Gruppe stets defektieren. Vorausgesetzt sei schließlich, daß der Diskontparameter w hinreichend hoch ist, so daß TIT FOR TAT eine kollektiv stabile Strategie entsprechend Theorem 2 aus dem dritten Kapitel ist. Ein einzelnes Individuum, sei es blau oder gelb, kann daher nichts besseres tun als das, was alle anderen tun, also freundlich zu gleichfarbigen und böswillig gegenüber andersfarbigen Individuen zu sein. Diese Anreizstruktur macht deutlich, daß Stereotype selbst dann stabil sein können, wenn sie nicht auf objektiven Unterschieden beruhen. Die Blauen glauben, daß die Gelben böswillig sind, und immer wenn sie auf einen Gelben treffen, wird ihre Annahme bestätigt. Die Gelben glauben, daß nur andere Gelbe Kooperation erwidern, und auch diese Annahme finden sie bestätigt. Wenn jemand versucht, aus diesem System auszubrechen, sinken seine Auszahlungen und seine Hoffnungen zerschlagen sich. Voraussichtlich werden also Abweichler früher oder später wieder die von ihnen erwartete Rolle spielen: ein Gelber wird von den anderen entsprechend seiner Etikettierung als Gelber behandelt, und da es sich für ihn auszahlt, sich wie ein Gelber zu verhalten, wird er die Erwartungen aller anderen bestätigen. Diese Art von Stereotypisierung hat zwei verhängnisvolle Konsequenzen, eine offensichtliche und eine subtilere. Offensichtlich ist, daß jeder schlechter als notwendig abschneidet, weil wechselseitige Kooperation zwischen den Gruppen die Punktzahl für jeden erhöhen könnte. Subtiler ist die Konsequenz, die sich aus unterschiedlichen Anzahlen von Blauen und Gelben ergibt, also daraus, daß es eine Mehrheit und eine Minderheit gibt. Während wiederum beide Gruppen für das Fehlen wechselseitiger Kooperation bezahlen müssen, erleiden in diesem Fall die Angehörigen der Minorität den größeren Schaden. Es verwundert daher nicht, daß sich Minoritäten häufig in schützende Isolation zurückziehen. Um einzusehen, warum das passieren kann, nehmen wir an, daß 80 Gelbe und 20 Blaue in einer Stadt wohnen und daß jeder einmal pro Woche mit jedem anderen interagiert. Für die Gelben finden dann die meisten Interaktionen innerhalb der eigenen Gruppe statt, führen also zu wechselseitiger Kooperation. Die mei-
134
Schlußfolgerungen
sten Interaktionen der Blauen erfolgen hingegen mit der anderen Gruppe (den Gelben) und führen daher zu wechselseitig bestrafender Defektion. Die durchschnittliche Punktzahl in der blauen Minorität ist also niedriger als die in der gelben Majorität. An diesem Effekt ändert sich sogar dann nichts, wenn es in jeder Gruppe eine Tendenz gibt, sich mit seinesgleichen zusammenzuschließen. Der Effekt tritt auch in diesem Fall ein, weil dann, wenn Angehörige einer blauen Minderheit mit einer bestimmten Häufigkeit auf Angehörige einer gelben Mehrheit treffen, diese Interaktionen einen größeren Anteil aller Interaktionen eines Angehörigen der Minderheit ausmachen als aller Interaktionen eines Angehörigen der Mehrheit (Rytina und Morgan 1982). Das Ergebnis ist, daß Etikettierungen Stereotype unterstützen können, die jedem schaden und die der Minorität stärker schaden als der Majorität. Etikettierungen können noch zu einem weiteren Effekt führen. Sie können Statushierarchien unterstützen. Nehmen wir z. B. an, daß j eder ein Merkmal wie Körpergröße, -kraft oder Hautfarbe hat, das leicht beobachtet werden kann und Vergleiche zwischen zwei Personen ermöglicht. Der Einfachheit halber stellen wir uns vor, daß keine zwei Personen gleiche Ausprägungen hinsichtlich dieses Merkmals besitzen, so daß dann, wenn zwei Personen aufeinander treffen, stets klar ist, wer von ihnen die höhere und wer die niedrigere Ausprägung in Bezug auf das Merkmal aufweist. Nun unterstellen wir, daß jeder sich als „harter Bursche" gegenüber jedem verhält, der eine niedrigere Ausprägung hat, und unterwürfig gegenüber jedem mit einer höheren Ausprägung. Kann das stabil sein? Ein Beispiel zeigt, daß dies in der Tat der Fall sein kann. Nehmen wir an, jeder verwendet die folgende Strategie, wenn er auf j emanden mit niedrigerer Merkmalsausprägung trifft: Abwechslung von Defektion und Kooperation bis der andere Spieler erstmals defektiert, um von dann an nie wieder zu kooperieren. So verhält sich ein „harter Bursche", der selbst oft defektiert, aber keine Defektion des anderen Spielers hinnimmt. Nehmen wir weiter an, daß jeder folgende Strategie verwendet, wenn er auf jemanden mit höherer Merkmalsausprägung trifft: Kooperation bis der andere Spieler zweimal in Folge defektiert, um von dann an nie wieder zu kooperieren. Dies ist eine unterwürfige Strategie, denn sie nimmt hin, in jedem zweiten Zug ausgebeutet zu werden, sie ist aber auch provo-
Die Sozialstruktur
der Kooperation
135
zierbar in dem Sinn, daß sie sich nicht mehr als einen bestimmten Umfang von Ausbeutungen gefallen läßt. Dieses Verhaltensmuster etabliert eine auf dem beobachtbaren Merkmal beruhende Statushierarchie. Die Leute an der Spitze kommen gut zurecht, weil sie sich gegenüber fast jedem als Herr aufspielen können. Umgekehrt schneiden die am unteren Ende schlecht ab, weil sie gegenüber fast jedem unterwürfig sind. Man sieht leicht, daß jemand an der Spitze mit der Sozialstruktur zufrieden ist, aber kann jemand von unten allein etwas gegen sie unternehmen? Das kann er nicht. Der Grund dafür ist, daß es bei genügend hohem Diskontparameter besser ist, bei jedem zweiten Zug die von dem „harten Burschen" verabreichte bittere Pille zu schlukken, als zu defektieren und ewige Bestrafung in Kauf zu nehmen. 2 Eine Person am Ende der Hierarchie befindet sich also in der Falle. Sie schneidet schlecht ab, würde aber durch Auflehnung gegen das System noch schlechter gestellt. Die Zwecklosigkeit einer isolierten Revolte ist eine Folge der Unveränderlichkeit der Strategien der anderen Spieler. Die Revolte eines Spielers mit niedrigem Status schadet tatsächlich beiden Seiten. Wenn die Spieler mit höherem Status in der Lage wären, ihr Verhalten unter Druck zu ändern, dann sollte diese Tatsache von einem Spieler mit niedrigem Status berücksichtigt werden, der einen Aufstand erwägt. Diese Überlegung veranlaßt aber die Spieler mit höherem Status, aufihre Reputation der Entschlossenheit zu achten. Um dieses Phänomen zu untersuchen, muß man die Dynamik von Reputationen betrachten. Reputation und Abschreckung Die Reputation eines Spielers schlägt sich in den Annahmen anderer über die Strategie nieder, die der Spieler benutzt. Reputation wird typischerweise durch Beobachtung der Handlungen des Spielers bei Interaktionen mit anderen Spielern begründet. Die Reputation Großbritanniens, provozierbar zu sein, stieg z.B. sicherlich durch seine Entscheidung, die Falkland Inseln nach der argentinischen Invasion zurückzuerobern. Andere Staaten konnten die Entscheidungen Großbritanniens beobachten und Schlüsse ziehen, wie es aufihre eigenen zukünftigen Handlungen reagieren könnte. Besonders bedeutsam wären Spaniens Schluß-
136
Schlußfolgerungen
folgerungen über die britischen Verpflichtungen gegenüber Gibraltar und Schlußfolgerungen Chinas bezüglich britischer Verpflichtungen gegenüber Hongkong. Ob solche Schlüsse sich als zutreffend erweisen würden, ist eine andere Frage. Der Punkt, um den es hier geht, ist vielmehr, daß dann, wenn dritte Parteien als Zuschauer auftreten, bei einer Interaktion auch die Folgen der Wahlen der Spieler fur ihre Reputation auf dem Spiel stehen. Kenntnis der Reputation von Spielern ermöglicht es Ihnen, etwas über die Strategien zu wissen, die diese verwenden, noch bevor Sie selbst Ihre erste Entscheidung treffen müssen. Das führt zu der Frage, wie wertvoll es wäre, sicher zu wissen, welche Strategie der andere Spieler bei der Interaktion mit Ihnen verwenden wird. Eine Möglichkeit für die Messung des Wertes einer Information besteht darin, zu berechnen, wie gut Sie mit und wie gut Sie ohne die Information abschneiden (Raiffa 1973). Je besser Sie also ohne die Information abschneiden, desto weniger benötigen Sie sie und desto weniger ist sie wert. In beiden Runden des Gefangenendilemma Computer-Turniers schnitt z.B. ΊΊΤ FOR TAT gut ab, ohne die Strategie zu kennen, die der andere Spieler benutzen würde. Kenntnis der Strategie des anderen hätte es einem Spieler nur in wenigen Fällen erlaubt, wesentlich besser abzuschneiden. Wüßte man ζ. B., daß der andere Spieler Ή Τ FOR TWO TATS verwendet, eine Strategie, die nurdefektiert, wenn der Partnerbei den beiden vorangegangenen Zügen defektiert hat, wäre es möglich, durch Abwechslung von Defektion und Kooperation besser abzuschneiden als Ή Τ FOR TAT. Es gibt aber in keiner der beiden Runden des Turniers viele Strategien, die sich ausbeuten lassen. Kenntnis der Strategie des anderen im voraus würde Ihnen also tatsächlich wenig nutzen, um viel besser abzuschneiden als die Allzweckstrategie Ή Τ FOR TAT. Der geringe Nutzen der Kenntnis der Strategie des anderen ist genaugenommen sogar ein weiteres Maß für die Robustheit von Ή Τ FOR TAT. Die Frage nach dem Wert von Information kann auch umgekehrt werden: wie groß ist der Wert bzw. wie groß sind die Kosten, wenn der andere Spieler Ihre Strategie kennt? Die Antwort hängt natürlich davon ab, welche Strategie Sie benutzen. Wenn Sie eine Strategie wie TITFORTWO TATS benutzen, die ausgebeutet werden kann, dann können die Kosten erheblich sein. Wenn Sie andererseits eine Strategie verwenden, der andere am besten mit voll-
Die Sozialstruktur
der Kooperation
137
ständiger Kooperation begegnen, können Sie sogar froh darüber sein, wenn der andere Ihre Strategie kennt. Wenn Sie ζ. Β. Ή Τ FOR TAT anwenden, dann wären Sie froh, wenn der andere Spieler diesen Tatbestand berücksichtigt und sich darauf einstellt, vorausgesetzt natürlich, der Schatten der Zukunft ist groß genug, so daß eine freundliche Strategie die beste Antwort ist. Wie bereits gesagt wurde, ist es in der Tat einer der Vorteile von Ή Τ FOR TAT, im Laufe eines Spiels selbst dann leicht erkannt werden zu können, wenn der Spieler, der es benutzt, noch nicht über eine Reputation verfugt. Eine stabile Reputation zu besitzen, daß man Ή Τ FOR TAT benutzt, ist für einen Spieler vorteilhaft, doch es ist nicht die wirklich beste Reputation. Die beste Reputation, die man besitzen kann, ist die des „harten Burschen". Der beste „harte Bursche" ist der, der die Reputation besitzt, so viel wie möglich aus dem anderen Spieler herauszupressen und zugleich keinerlei Defektionen des anderen hinzunehmen. Am meisten preßt man aus dem anderen heraus, wenn man so oft defektiert, daß der andere Spieler gerade noch ständige Kooperation der ständigen Defektion vorzieht. Das beste Mittel, den anderen zur Kooperation anzureizen, ist es schließlich, als jemand zu gelten, der nie wieder kooperiert, wenn der andere auch nur einmal defektiert. Glücklicherweise ist es nicht einfach, eine Reputation als „harter Bursche" zu erlangen. Um als „harter Bursche" bekannt zu werden, müssen Sie oft defektieren und das heißt, daß Sie den anderen Spieler voraussichtlich zur Vergeltung provozieren werden. Bis Ihre Reputation gut etabliert ist, werden Sie voraussichtlich eine Menge sehr wenig belohnender Kämpfe austragen müssen. Wenn der andere Spieler ζ. B. nur ein einziges Mal defektiert, werden Sie hin- und hergerissen sein zwischen einem so harten Verhalten, wie es die Reputation verlangt, die Sie erlangen wollen, und dem Versuch, in der laufenden Interaktion friedliche Beziehungen wiederherzustellen. Das Bild verfinstert sich noch weiter dadurch, daß der andere Spieler ebenfalls versuchen mag, eine Reputation zu etablieren, und aus diesem Grund unnachsichtig gegenüber Ihren Defektionen zur Erlangung Ihrer eigenen Reputation sein könnte. Man sieht leicht, daß die Interaktionen zweier Spieler, die beide eine Reputation für den Gebrauch in zukünftigen Spielen erlangen
138
Schlußfolgerungen
wollen, zu einer langen Reihe wechselseitiger Bestrafungen degenerieren können. Jede Seite hat einen Anreiz, so zu tun als ob sie nicht bemerkt, was der andere versucht. Beide Seiten wollen als unbeeinflußbar erscheinen, so daß der andere den Versuch der Einschüchterung aufgibt. Das Gefangenendilemma-Turnier legt die Annahme nahe, daß der Gebrauch von Ή Τ FOR TAT für einen Spieler ein gutes Mittel ist, als unbeeinflußbar zu erscheinen. Die ausgesprochene Einfachheit der Strategie macht es leicht, sie als festes Verhaltensmuster zu betrachten. Die Leichtigkeit der Wiedererkennung macht es schwierig für den anderen Spieler, sie beständig zu ignorieren. Die Verwendung von Ή Τ FOR TAT ist eine wirksame Methode, selbst stillzuhalten und dem anderen Spieler die Anpassung zu überlassen. Man läßt sich nicht schikanieren, ergreift aber auch selbst keine Schikanen. Wenn sich der andere Spieler anpaßt, ist wechselseitige Kooperation das Ergebnis. Abschreckung wird durch Etablierung einer Reputation erreicht. Ein Zweck der Reputation besteht darin, Sie in die Lage zu versetzen, Abschreckung durch glaubwürdige Drohungen zu erreichen. Sie versuchen, sich selbst auf eine Reaktion zu verpflichten, die sie nicht wirklich ausführen möchten, wenn die fragliche Situation tatsächlich vorliegt. Die Vereinigten Staaten schrecken die Sowjetunion von der Besetzung West-Berlins dadurch ab, daß sie mit dem Beginn eines größeren Krieges als Reaktion auf einen derartigen Übergriff drohen. Um eine solche Drohung glaubwürdig zu machen, trachten die Vereinigten Staaten danach, eine Reputation als ein Land zu etablieren, das entsprechende Garantien tatsächlich einhält, trotz der dadurch verursachten kurzfristigen Kosten. Genau dies war die Bedeutung von Vietnam für die amerikanische Regierung als 1965 die Entschéidung für die Entsendung größerer Truppenverbände getroffen wurde. Der beherrschende Einfluß des Wunsches, eine Reputation aufrechtzuerhalten, kam in dem Entwurf für ein Memorandum von JohnT. McNaughton, Staatssekretär für Internationale Sicherheitsfragen im Verteidigungsministerium, an Verteidigungsminister Robert S. McNamara zum Ausdruck, in dem die Ziele der USA in Süd-Vietnam definiert wurden:
Die Sozialstruktur
der Kooperation
139
„Ziele der USA: Zu 70% eine demütigende Niederlage der USA zu vermeiden (für unseren Rufais Garant) zu 20% südvietnamesisches (und angrenzendes) Territorium nicht in die Hände der Chinesen fallen zu lassen zu 10% der Bevölkerung von SV ein besseres, freieres Leben zu ermöglichen." (Zitiert nach Sheehan 1971, 431)
Die Aufrechterhaltung von Abschreckung durch eine Reputation der Stärke ist nicht nur in der Außenpolitik bedeutsam, sondern auch bei vielen innenpolitischen Aufgaben der Regierung. Zwar beschäftigt sich dieses Buch hauptsächlich mit Situationen, in denen eine Zentralgewalt fehlt, unser Ansatz läßt sich aber tatsächlich auch auf viele Situationen anwenden, in denen es eine solche Gewalt gibt. Das liegt daran, daß auch die erfolgreichsten Regierungen die Einwilligung der Bürger nicht ohne weiteres voraussetzen können. Eine Regierung befindet sich vielmehr in strategischen Interaktionen mit den Regierten und diese Interaktionen nehmen oft die Form eines iterierten Gefangenendilemmas an. Die Regierung und die Regierten Eine Regierung m u ß die Regierten von Übertretungen der Gesetze abhalten. Im Hinblick auf die Funktionsfähigkeit des Steuersystems ist es z.B. erforderlich, daß die Regierung eine Reputation besitzt, Steuerhinterziehungen zu verfolgen. Die Ausgaben der Regierung fur die Ermittlung und Verfolgung von Steuerbetrügern sind häufig viel höher als die Einnahmen, die sich aus den verhängten Strafen ergeben. Das Ziel der Regierung besteht dabei natürlich in der Aufrechterhaltung ihrer Reputation, Steuerbetrüger zu fassen und unter Anklage zu stellen, um diejenigen abzuschrecken, die Steuerhinterziehungen für die Zukunft erwägen. Was für das Steuersystem gilt, trifft auch für zahlreiche andere Überwachungs- und Kontrollmechanismen zu: der Schlüssel für die Aufrechterhaltung konformen Verhaltens liegt in der Fähigkeit und Bereitschaft der Regierung, Ressourcen für die Aufrechterhaltung einer Reputation der Härte in einem Umfang einzusetzen, der bei weitem in keinem Verhältnis steht zu den Größenordnungen des jeweils aktuellen Falles. Im Fall einer Regierung und ihrer Bürger liegt eine soziale Struktur mit einem einzigen zentralen und vielen peripheren Akteuren vor. Mit einer vergleichbaren Struktur haben wir es in
140
Schlußfolgerungen
der Situation zu tun, in der ein Monopolist versucht, andere Anbieter vom Markteintritt abzuhalten. Ein weiteres Beispiel ist ein Imperium, welches Aufstände in seinen Provinzen zu verhindern trachtet. Das Problem besteht in jedem dieser Fälle darin, Angriffen durch Aufrechterhaltung einer Reputation der Festigkeit vorzubeugen. Die Aufrechterhaltung dieser Reputation kann es notwendig machen, eine gegebene Herausforderung sehr viel massiver zu beantworten, als es fur die Herausforderung als solche erforderlich wäre. Selbst die stärkste Regierung ist nicht in der Lage, die Einhaltung einer jeden Regel zu erzwingen. Um erfolgreich zu sein, muß Konformität bei der Mehrheit der Regierten sichergestellt werden. Um das zu erreichen, müssen Regeln so gewählt und überwacht werden, daß es sich für die meisten auszahlt, die Regeln meistens zu befolgen. Ein Beispiel für dieses grundlegende Problem ergibt sich im Zusammenhang mit Vorschriften zum Umweltschutz. Wie ein Modell von Scholz (1983) zeigt, befinden sich eine staatliche Umweltschutzbehörde und ein von deren Vorschriften betroffenes Unternehmen in der Situation eines iterierten Gefangenendilemmas. Das Unternehmen steht bei jedem Zug vor der Wahl, die Vorschriften freiwillig einzuhalten oder sie zu umgehen. Hinsichtlich ihrer Überwachungsmaßnahmen steht die Behörde vor der Wahl, sich gegenüber dem betreffenden Unternehmen flexibel zu verhalten oder Zwangsmittel zu ergreifen. Wenn sich die Behörde flexibel und das Unternehmen konform verhalten, dann profitieren beide von wechselseitiger Kooperation. Die Behörde profitiert von der Konformität des Unternehmens und das Unternehmen von der Flexibilität der Behörde. Beide Seiten vermeiden teure Zwangsmaßnahmen und Prozeßkosten. Auch die Gesellschaftals solche profitiert von Konformität bei niedrigen Kosten für die Wirtschaft. Wenn umgekehrt das Unternehmen die Vorschriften umgeht und die Behörde Zwangsmittel einsetzt, müssen beide die Kosten einer Beziehung tragen, für die allein der Buchstabe des Gesetzes maßgebend ist. Darüber hinaus gibt es bei flexiblem Verhalten der Behörde, das die Bestrafung von Übertretungen unwahrscheinlich macht, für das Unternehmen einen Anreiz, die Vorschriften zu umgehen. Schließlich liegt für die Behörde ein Anreiz vor, gegenüber einem konformen Unternehmen strenge Maßnahmen zu ergreifen, um von der
Die Sozialstruktur
der Kooperation
141
Durchsetzung selbst unvernünftig kostspieliger Vorschriften zu profitieren. Die Behörde kann eine Strategie wie TIT FORTAT einschlagen, die für das Unternehmen einen Anreiz zu freiwilliger Konformität schafft, um dadurch die Vergeltungsmaßnahmen zu vermeiden, die sich aus der Anwendung von Zwangsmitteln ergeben. Bei geeigneten Werten für die Auszahlungs- und Diskontparameter kann eine sozial vorteilhafte Beziehung wiederholter freiwilliger Konformität und flexibler Überwachung durch die Behörde entstehen. Der neue Aspekt, den das Modell von Scholz für die Interaktion von Regierung und Regierten liefert, ist die zusätzliche Wahlmöglichkeit der Regierung hinsichtlich der Strenge ihrer Anforderungen. Strenge Umweltschutzbestimmungen erhöhen z.B. den Anreiz, diese zu umgehen. Sehr milde Anforderungen bedeuten andererseits, daß mehr Umweltverschmutzung erlaubt ist, so daß die Auszahlung für die Behörde bei wechselseitiger Kooperation aufgrund freiwilliger Konformität kleiner wird. Die Kunst besteht darin, die Anforderungen so festzulegen, daß sie genügend hoch sind, um möglichst viele soziale Vorteile aufgrund der Verordnung zu sichern, und daß sie nicht so hoch sind, daß die Evolution eines stabilen Musters freiwilliger Konformität bei fast allen Unternehmen verhindert wird. Regierungen erlassen nicht nur Normen und erzwingen ihre Einhaltung, sie müssen außerdem oft Streitfragen zwischen privaten Parteien regeln. Ein gutes Beispiel ist ein Ehescheidungsverfahren, in dem das Gericht einem Elternteil das Sorgerecht für das Kind zuspricht und dem anderen Elternteil Unterhaltspflichten auferlegt. Solche Regelungen führen notorisch zu Unzuverlässigkeiten bei der Erfüllung der Unterhaltspflichten. Aus diesem Grund wurde vorgeschlagen, für die weiteren Interaktionen der Eltern ein Prinzip der Gegenseitigkeit einzuführen, das es dem sorgeberechtigten Elternteil erlaubt, dem Partner Besuchsrechte zu entziehen, wenn er seinen Unterhaltspflichten nicht nachkommt (Mnookin und Kornhauser 1979). Dieser Vorschlag könnte darauf hinauslaufen, die Eltern in ein iteriertes Gefangenendilemma zu versetzen und es ihnen zu überlassen, auf Gegenseitigkeit beruhende Strategien zu entwickeln. Es ist zu hoffen, daß das Ergebnis dem Kind dadurch nutzt, daß ein stabiles Muster der
142
Schlußfolgerungen
Kooperation zwischen den Eltern in Gang gesetzt wird, welches darauf beruht, im Rahmen von Gegenseitigkeit zuverlässige Unterhaltszahlungen gegen regelmäßige Besuchsmöglichkeiten auszutauschen. Regierungen haben nicht nur Beziehungen zu den von ihnen regierten Bürgern, sondern auch zu den anderen Regierungen. In einigen Fällen kann jede Regierung in bilaterale Interaktion mit jeder anderen Regierung treten. Ein Beispiel ist die Kontrolle des internationalen Handels. Hier kann ein Land Handelsschranken für Importe aus einem anderen Land errichten, etwa als Vergeltungsmaßnahme für unlautere Handelspraktiken. Ein interessanter Umstand im Zusammenhang mit Regierungen ist jedoch der, daß sie jeweils über ein bestimmtes Hoheitsgebiet verfügen. In einem rein territorialen System hat jeder Spieler nur einige wenige Nachbarn und interagiert lediglich mit diesen Nachbarn. Die dynamischen Eigenschaften dieser Art von sozialer Struktur sind das Thema des folgenden Abschnitts. Territorialität
Staaten, Unternehmungen, Stämme und Vögel sind Beispiele für Spieler, die oft hauptsächlich in bestimmten Gebieten operieren. Sie interagieren viel häufiger mit ihren Nachbarn als mit denen, die weit entfernt sind. Ihr Erfolg hängt daher zum großen Teil davon ab, wie gut sie in ihren Interaktionen mit ihren Nachbarn abschneiden. Nachbarn können aber auch eine weitere Funktion haben. Ein Nachbar kann als Modell dienen. Wenn der Nachbar gut abschneidet, kann das Verhalten des Nachbarn imitiert werden. Auf diese Weise können sich erfolgreiche Strategien in einer Population von Nachbar zu Nachbar ausbreiten. Mit „Territorien" kann man zwei völlig verschiedene Vorstellungen verbinden. Man kann einmal an geographische und physikalische Räume denken. Das System des Leben-und-leben-lassen während des Stellungskriegs könnte sich ζ. B. von einem Frontabschnitt zu angrenzenden Teilen der Front verbreitet haben. Eine zweite Vorstellung von „Territorien" bezieht sich auf einen abstrakten Merkmalsraum. Ein Unternehmen mag ζ. B. ein alkoholfreies Getränk mit einer bestimmten Menge Zucker und Koffein verkaufen. Die „Nachbarn" dieses Getränks sind andere marktgängige Getränke mit etwas mehr oder weniger Zucker bzw.
Die Sozialstruktur
der Kooperation
143
etwas mehr oder weniger Koffein. Ähnlich könnte ein Politiker eine Position auf der Skala „liberal/konservativ" einnehmen und eine Position auf der Skala „internationale Zusammenarbeit/Isolationismus". Wenn es mehrere im Rahmen eines Wahlkampfs miteinander wetteifernde Politikergibt, dann sind die „Nachbarn" eines Kanditaten diejenigen mit ähnlichen Positionen. Territorien können also sowohl abstrakte als auch geographische Räume sein. Neben Imitation ist Kolonisation ein weiterer Mechanismus, durch den sich erfolgreiche Strategien ausbreiten können. Kolonisation tritt auf, wenn der Platz einer weniger erfolgreichen Strategie durch die Nachkommenschaft eines erfolgreicheren Nachbarn übernommen wird. Unabhängig davon, ob sich Strategien durch Imitation oder durch Kolonisation ausbreiten, liegt der gleiche Gedanke zugrunde: Nachbarn interagieren und die erfolgreichsten Strategien breiten sich in Richtung auf die Grenzen des Territoriums aus. Die Individuen bleiben an ihrem Platz, aber ihre Strategien verbreiten sich. Um diesen Prozeß der Analyse zugänglich zu machen, muß er formalisiert werden. Zur Veranschaulichung stellen wir uns eine einfache Struktur vor, in der das gesamte Territorium so aufgeteilt ist, daß jeder Spieler vier Nachbarn hat, einen im Norden, einen im Osten, einen im Süden und einen im Westen. In jeder „Generation" erreicht ein Spieler eine Punktzahl, die sich aus dem Durchschnitt seiner Leistungen in den Interaktionen mit seinen vier Nachbarn ergibt. Wenn nun ein Spieler einen oder mehrere Nachbarn hat, die erfolgreicher sind als er selbst, dann übernimmt er die Strategie des erfolgreichsten (oder er wählt zufallig eine der erfolgreichsten aus, wenn mehrere Nachbarn gleich gut abschneiden). Territoriale soziale Strukturen haben viele interessante Eigenschaften. Eine ist die, daß es für eine Strategie in einer territorialen Struktur mindestens so leicht ist wie in einer nicht territorialen Struktur, sich vor der Übernahme durch eine neue Strategie zu schützen. Um zu sehen, wie das kommt, muß die Definition der Stabilität erweitert werden, so daß sie territoriale Systeme einschließt. Erinnern Sie sich daran (vgl. Kapitel 3), daß eine Strategie in eine andere eindringen kann, wenn sie eine höhere Punktzahl erreicht als der Durchschnitt der Population in der betreffenden Umgebung. Ein einzelnes Individuum, das eine neue Strategie verwendet, kann mit anderen Worten in eine Population Einhei-
144
Schlußfolgerungen
mischer eindringen, wenn der Fremde gegen einen Einheimischen besser abschneidet als ein Einheimischer gegen einen anderen Einheimischen. Wenn keine Strategie in die Population der Einheimischen eindringen kann, dann wird die einheimische Strategie kollektiv stabil genannt. 3 Um diese Begriffe auch auf territoriale Systeme anzuwenden, wollen wir annehmen, daß ein einzelnes Individuum mit einer neuen Strategie in eine Nachbarschaft kommt, in der alle anderen eine einheimische Strategie verwenden. Man kann sagen, daß die neue Strategie in die einheimische Strategie territorial eindringt, wenn jede Stelle des Territoriums schließlich die neue Strategie übernimmt. Man kann dann weiter sagen, daß eine einheimische Strategie territorial stabil ist, wenn keine Strategie in sie territorial eindringen kann. Dies führt zu einem recht wichtigen Ergebnis: es ist für eine Strategie nicht schwerer, territorial stabil als kollektiv stabil zu sein. Die Bedingungen, die für eine Strategie erfüllt sein müssen, damit sie sich vor der Übernahme durch einen Eindringling schützen kann, sind mit anderen Worten in einem territorialen sozialen System nicht schärfer als in einem System, in dem jeder jeden anderen mit gleicher Wahrscheinlichkeit trifft. Theorem 8: Wenn eine Regel kollektiv stabil ist, dann ist sie territorial stabil. Der Beweis dieses Theorems verdeutlicht die Dynamik territorialer Systeme. Nehmen Sie an, daß in einem territorialen System jeder eine kollektiv stabile einheimische Strategie verwendet, abgesehen von einem Individuum, das eine neue Strategie gebraucht. Die Situation wird in Abbildung 3 veranschaulicht.
Abbildung 3: Ausschnitt aus einer territorialen sozialen Struktur mit einem einzelnen Mutanten
Β Β Β Β Β
Β Β Β Β Β
Β Β Α Β Β
Β Β Β Β Β
Β Β Β Β Β
Die Sozialstruktur
der Kooperation
145
Wir überlegen nun, ob ein Nachbar des Fremden einen Grund haben könnte, die Strategie des Fremden zu übernehmen. Da die einheimische Strategie kollektiv stabil ist, kann der von Einheimischen umgebene Fremde nicht so viele Punkte erreichen wie ein nur von Einheimischen umgebener Einheimischer. Jeder Nachbar des Fremden hat aber stets einen Nachbarn, der ebenfalls Einheimischer und allein von Einheimischen umgeben ist. Für keinen seiner Nachbarn ist also der Fremde der erfolgreichste Nachbar, der imitiert wird. Alle Nachbarn des Fremden werden daher an ihrer einheimischen Strategie festhalten bzw., was auf das gleiche hinausläuft, die Strategie eines ihrer einheimischen Nachbarn übernehmen. Die neue Strategie kann sich also in einer Population kollektiv stabiler Strategien nicht ausbreiten und folglich ist eine kollektiv stabile Strategie auch territorial stabil. Das Theorem, wonach eine kollektiv stabile Strategie territorial stabil ist, zeigt, daß Schutz vor Invasion in einem territorialen System mindestens so leicht ist wie in einem System mit zufalliger Durchmischung. Eine Folge davon ist, daß wechselseitige Kooperation durch eine freundliche Strategie in einem territorialen System aufrecht erhalten werden kann, ohne daß der Diskontparameter im Vergleich zu den Auszahlungsparametern größer sein müßte als im Fall der kollektiven Stabilität der betreffenden freundlichen Regel. Auch eine mit Unterstützung einer territorialen Struktur stabilisierte freundliche Regel ist nicht notwendigerweise aller Gefahren enthoben. Wenn der Schatten der Zukunft hinreichend schwach ist, kann keine freundliche Strategie mit Hilfe von Territorialität eine Invasion verhindern. In einem solchen Fall kann die Dynamik des Invasionsprozesses manchmal außerordentlich verwickelt sein und es ist recht faszinierend, sie näher zu betrachten. Abbildung 4 zeigt ein Beispiel für ein derartiges kompliziertes Muster. Sie zeigt die Situation eines einzelnen stets defektierenden Spielers, der in eine territorial organisierte Population von Individuen eindringt, die TIT FOR TAT verwenden. In diesem Fall ist der Schatten der Zukunft ziemlich schwach, was in einem niedrigen Diskontparameter H>=1/3 zum Ausdruck kommt. Die vier Auszahlungsparameter wurden so gewählt, daß sich eine Illustration für die möglichen Verwicklungen ergibt. In diesem Fall gilt 7"=56, R=29, P= 6 und ,S=0.4 Für diese Werte zeigt die Abbildung 4, was
146
Schlußfolgerungen
Abbildung 4: Ausbreitung von Böswilligen in einer TIT FOR TAT-Population IX X X X IX X χχχχχ χ X X X XX XXX X X XXX XXX XXX XXXXXXXXXXXXXXX XXX XXX XXX XXX X X X XX χX X X X X X X X XX X Anfangssituation
Generation 1
Generation 7
XXX X X X X X XXX Χ. XXX X XXXXXXXXXXX xxxxxxxxxxxxx Χ XXX X X X X XXX Χ XXX XXX xxxxx XXX XX XXXXXXX XX X XX XXXXXXXXX XX X XXXXXXX XXXXXXXXX XXXXXXX XXXXXXXXXXXXXXXXXXXXXXXXXXXXX XXXXXXX XXXXXXXXX XXXXXXX Χ XX XXXXXXXXX XX χ IX XXXXXXX XX XXX XXXXX XXX XXX Χ XXX X X X Χ XXX X XXXXXXXXXXXXX XXXXXXXXXXX Χ XXX X XXX xxxxx XXX Generation 14
nach einer, nach sieben, vierzehn und neunzehn Generationen geschieht. Die Böswilligen kolonisieren die ursprüngliche Ή Τ FOR TAT-Population und bilden ein faszinierendes Muster mit langen Grenzen und eingekreisten Inseln von Kooperierenden. Effekte der Territorialität können auch dadurch berücksichtigt werden, daß man untersucht, was passiert, wenn die Spieler eine Vielfalt mehr oder weniger raffinierter Strategien verwenden. Eine praktische Möglichkeit dafür liefern die 63 verschiedenen Regeln aus der zweiten Runde des Computer-Turniers. Wenn man jede Regel auf vier Felder verteilt, dann erhält man gerade die Anzahl
Die Sozialstruktur
der Kooperation
147
XXX χχχχ χ Χ Χ Χ Χ Χ Χ ) XXX XX Χ XX XX XXX XX XX XXX XX XX χχ χ χ χ XX χχχχχχχχχχχχχχ χχχχχχχχχχχχχχχ ΧΧΧΧΧΧΧΧΧΧΧΧΧΧ XX χχχχχχ χχχχχ XX XX XXX XXX χ XX XXX χχχχχ XXX XX ΧΧΧΧΧ Χ χ Χ χ XXX XX XXX χ χχχχχχχχχχχχχχχχχχ χχχχχχχ χχχχχχχχχχχχχχχχχχχ XXX Χ ΧΧΧΧΧΧΧΧΧΧΧΧΧΧΧΧΧΧ XXX XX χχχχχ χχχχχχχ χχ Χ XX XXX χχχχχ χχχχχ XXX χ χχχχχχ χχχχχ XX ΧΧΧΧΧΧΧΧΧΧΧΧΧΧΧΧ χχχχχχχχχχχχχχχ ΧΧΧΧΧΧΧΧΧΧΧΧΧΧ XX ΧΧΧΧΧ XX XX XXX XX XX XXX XX XX Χ XX XXX χχχχχ Erläuterung:
χ χ XXX Χ XX Χ XX χ XX XX XXX ΧΧΧΧ Χ XXX χχχχχχχχχχχχ ΧΧΧΧ Χ XXX XX XX XXX Χ XX χ Χ XX XXX χ χ
Generation 19
Χ: IMMER D Leerstelle: TIT FOR TAT
von Spielern, die ein Gebiet mit einer Höhe von 14 und einer Breite von 18 Feldern ausfüllen. Um zu gewährleisten, daß jeder genau vier Nachbarn hat, kann man sich vorstellen, daß die Grenzen des Gebietes aneinander anstoßen. Ein Nachbar eines Feldes ganz rechts ist also ζ. B. das entsprechende Feld ganz links. Um zu sehen, was passiert, wenn die Spieler viele unterschiedliche Entscheidungsregeln verwenden, muß man lediglich den Prozeß von Generation zu Generation simulieren. Die Turnierergebnisse liefern die notwendige Information über die Punktzahl, die jede Regel mit einem bestimmten ihrer Nachbarn erzielt. Die Punktzahl eines Feldes ist also der Durchschnitt der Punktzahlen mit den vier benachbarten Regeln. Wenn die Punktzahl für jedes Feld feststeht, beginnt der Umwandlungsprozeß. Jedes Feld, das einen erfolgreicheren Nachbarn hat, übernimmt einfach die Regel des erfolgreichsten Nachbarn. Damit sichergestellt ist, daß die Ergebnisse nicht zu stark von den jeweiligen Zufallsverteilungen abhängen, mit denen der Pro-
148
Schlußfolgerungen
zeß beginnt, wurde die ganze Simulation mitjeweils unterschiedlichen Verteilungen zehnmal wiederholt. Jede Simulation wurde Generation für Generation durchgeführt, bis es keine weiteren Konversionen mehr gab. Bis zum Erreichen dieses Punktes wurden 11 bis 24 Generationen benötigt. Der Prozeß war stets erst dann beendet, wenn alle nicht freundlichen Regeln eliminiert waren. Wenn nur noch freundliche Regeln übrig bleiben, dann kooperiert jeder mit jedem anderen und es kommt zu keinen weiteren Konversionen. Ein typisches Muster, mit dem der Prozeß endet, zeigt die Abbildung 5. Abbildung 5: Beispiel für die Population in einem territorialen System nach Abschluß aller Konversionen 6 6 6 6 6 6
6 1 6 1 9 31
6 31 31 31 31 31
1 1 31 31 31 31
44 1 1 31 31 31
44 44 1 31 31 31
44 44 1 31 31 31
44 44 1 31 31 31
44 44 1 31 31 31
6 3 1 31 31 31
6
31
31
6
9
6 6 6
31 31 31 6 6 6 6
31 31 6 9 7 7 7
6 9 9 7 7 7 7
6 6 9 9
9 9
31 9 9
9 9 6 6 6
6 6 6 6 44
31 9 9 6
6 6 6 6 6 9 6 6
9 41 41 41 41 41 41 6
6 6 6 6
9 7 7 6
6 6 6 6
6 6 3 31 31 31 41 41 41 41 41 41 6 6
7 3 3 3 31 31 31 31 41 41 41 7 7 7
7 6 3 3 3 31 31 4 41 17 41 7 7 7
6 6 52 6 6 6
7 6 52 6 6 6
6 6 6 6 6
6 31 31 31 31 7 7 7
6 31 31 31 31 7 7 7
6 6 6 6 6
6
6 6 6 6 6 6
31 31 31 31 31 7 7 6
31 31 31 31 31 7 7 6
6 6 31
6
31 7 6 6 6
Erläuterung: Die Zahlen geben den Tabellenplatz der jeweiligen Regel in der zweiten Runde des Turniers an (Beispiele: 1 - TIT FOR TAT, 31 - NYDEGGER).
Dieses stabile Muster hat eine Reihe bemerkenswerter Merkmale. Zunächst klumpen sich die überlebenden Strategien jeweils in Regionen unterschiedlicher Größe. Die anfängliche Zufallsstreuung ist weitgehend abgelöst worden von Gebieten mit identischen Regeln, die manchmal einen beträchtlichen Umfang einnehmen. Es gibt jedoch auch einige wenige sehr kleine Regionen und sogar einzelne Felder, die von zwei oder drei verschiedenen Gebieten umgeben sind.
Die Sozialstruktur
der Kooperation
149
Die überlebenden Regeln sind zumeist solche, die im Turnier hohe Punktzahlen erreichten. Ή Τ FOR TAT war ζ. B. in den Populationen, mit denen der Prozeß endete, durchschnittlich siebzehnmal vertreten, nachdem am Anfang jeweils vier Exemplare vorhanden waren. Es gab aber auch fünf andere Regeln, die in den schließlich erreichten Populationen häufiger auftraten. Die beste unter ihnen war eine von Rudy Nydegger eingereichte Regel, die im Turnier lediglich Platz 31 unter den 63 Regeln erreicht hatte. Im territorialen System schloß sie mit einem Durchschnitt von 40 Nachkommen ab. Eine Regel, die im Turnier genau im Mittelfeld landete, war also im zweidimensionalen territorialen System bei weitem die erfolgreichste. Wie konnte es dazu kommen? Das der Regel zugrunde liegende Verfahren läßt sich nur schwer analysieren, denn es beruht auf einem komplizierten Schema, bei dem man die drei letzten Ergebnisse verwendet, um zu entscheiden, was als nächstes getan wird. Die Leistung der Regel kann aber ausgewertet werden im Hinblick darauf, wie es ihr mit jeder anderen Regel erging, auf die sie traf. Wie die anderen überlebenden Regeln defektiertNYDEGGERniemals zuerst. Das besondere ist aber, daß NYDEGGER dann, wenn der andere Spieler zuerst defektiert, manchmal in der Lage ist, ihn zu einer so üppigen „Entschuldigung" zu veranlassen, daß NYDEGGER tatsächlich eine höhere Punktzahl erreicht als dann, wenn es lediglich zu ständiger wechselseitiger Kooperation gekommen wäre. Dies geschieht bei fünf der 24 Regeln, die nicht freundlich sind. Im Computer-Turnier war das nicht genug für ein gutes Abschneiden, weil NYDEGGER mit den anderen nicht freundlichen Regeln oft in Schwierigkeiten kam. Im territorialen System entwickeln sich die Dinge anders. Weil NYDEGGER fünf der nicht freundlichen Regeln zu Entschuldigungen veranlaßt, werden viele Nachbarn bekehrt. Wenn eine dieser fünf Regeln Nachbar von NYDEGGER ist und wenn die anderen drei Nachbarn freundliche Regeln sind, dann ist es wahrscheinlich, daß NYDEGGER besser abschneidet als jeder der vier Nachbarn oder sogar besser als jeder Nachbar der Nachbarn. Auf diese Weise kann NYDEGGER nicht nur die Regel bekehren, die sich entschuldigt hat, sondern auch einige oder alle weiteren Nachbarn. Selbst wenn der durchschnittliche Erfolg keineswegs hervorragend ist, ist es also in einem sozialen System, das auf Diffusion durch Imitation beruht, ein großer Vorteil, wenn
150
Schlußfolgerungen
man in der Lage ist, einige hervorragende Erfolge zu erzielen. Das liegt daran, daß herausragende Erfolge zu zahlreichen Bekehrungen führen. Da NYDEGGER freundlich ist, werden unnötige Konflikte vermieden und das eigene Überleben ist auch nach der Elimination der Regeln gesichert, die nicht freundlich sind. Der Vorteil von NYDEGGER ist, daß durch diese Regel fünf andere Regeln zu außerordentlichen Entschuldigungen veranlaßt werden und daß keine weitere freundliche Regel in der Lage ist, derartige Entschuldigungen bei mehr als zwei anderen Regeln hervorzurufen. Das territoriale System zeigt recht deutlich, wie die Art und Weise, in der die Spieler interagieren, den Verlauf des evolutionären Prozesses beeinflussen kann. Verschiedene Strukturen wurden unter evolutionären Gesichtspunkten untersucht, obwohl viele weitere interessante Möglichkeiten noch der Analyse bedürfen.5 Jede der fünf Strukturen, die in diesem Buch behandelt wurden, beleuchtet verschiedene Facetten der Evolution der Kooperation: 1. Zufällige Durchmischung wurde als grundlegender Strukturtyp verwendet. Die Turniere und die Theoreme zeigten, wie auf Gegenseitigkeit beruhende Kooperation sich selbst in einer solchen Situation minimaler Strukturierung entwickeln kann. 2. Gruppen von Spielern wurden untersucht, um festzustellen, wie die Evolution von Kooperation beginnen könnte. Gruppen bieten einem Fremden selbst dann eine wenigstens kleine Möglichkeit, einen anderen Fremden zu treffen, wenn die Fremden lediglich einen unbedeutenden Teil in der gesamten Umgebung von Einheimischen ausmachen. Selbst dann, wenn die meisten Interaktionen eines Fremden mit unkooperativen Einheimischen erfolgen, kann eine kleine Gruppe von Fremden, die nach dem Prinzip der Gegenseitigkeit handeln, in eine Population von Böswilligen eindringen. 3. Es wurde gezeigt, daß es in einer Population zu sozialer Differenzierung kommt, wenn die Spieler mehr Information übereinander besitzen, als sich allein aus der Geschichte ihrer eigenen Interaktion ergibt. Wenn Etikettierungen der Spieler Gruppenzugehörigkeiten oder Persönlichkeitsmerkmale anzeigen, können sich Stereotype oder Statushierarchien entwickeln. Wenn Spieler in der Lage sind, die Interaktionen anderer zu beobachten, können sich
Die Sozialstruktur
der Kooperation
151
Reputationen entwickeln. Reputation kann zu einer Situation führen, in der versucht wird, „harte Burschen" abzuschrecken. 4. Es stellte sich heraus, daß Regierungen vor besonderen strategischen Problemen stehen, wenn sie Konformität bei der Mehrzahl der Bürger sicherstellen wollen. Es kommt nicht nur darauf an, in einem speziellen Fall eine erfolgreiche Strategie zu wählen, sondern auch darauf, solche Normen zu setzen, bei denen Konformität sowohl attraktiv für den Einzelnen als auch gesellschaftlich vorteilhaft wird. 5. Bei der Untersuchung territorialer Systeme prüften wir, was passiert, wenn Spieler lediglich mit ihren Nachbarn interagieren und erfolgreichere Nachbarn imitieren. Es stellte sich heraus, daß Interaktionen mit Nachbarn komplizierte Muster der Ausbreitung bestimmter Strategien in Gang setzen, bei denen diejenigen Strategien bevorteilt sind, die in einigen Umgebungen ungewöhnlich hohe Punktzahlen erzielen, selbst wenn sie in anderen schlecht abschneiden.
Anmerkungen zu Kapitel 8. Die Sozialstruktur der Kooperation 1
In der Theorie der Marktsignale spricht man von einem Index (Spence 1974). Unterwürfigkeit führt zu S + wtf + w 2 S + H> 3 Ä...=(S+>vtf)/(l-iv 2 ). Wenn Sie revoltieren, können Sie genau so gut stets defektieren, was zu P+ wP+ v?P+ w3P...=(/'+H'P)/(1-W'2) führt. Es gibt also keinen Anreiz, zu revoltieren, wenn ( S + w / ? ) / ( l - w * P i P + w P ) / ( l - w 2 ) . Das ist der Fall, wenn S+wR> P+wP oder w>(P-S)/(R-P). Wenn also w groß genug ist, gibt es keinen Anreiz zur Revolte. Für die exemplarischen Werte 5"=0, i°=l und R=3 zahlt sich eine Revolte nicht aus, wenn w größer ist als 1/2. 3 Wie in der ersten Anmerkung zum dritten Kapitel erläutert wurde, ähnelt der Begriff der evolutionär stabilen Strategie dem der kollektiv stabilen Strategie und ist im Fall freundlicher Regeln mit ihm äquivalent. 4 Bei diesen Werten und mit w = 1/3 ergibt sich für das territoriale System D„ > T„_¡ > £>„./, abgesehen davon, daß D¡ > T4. Dabei ist Dn die Punktzahl von IMMER D mit η TIT FOR TAT-Nachbarn und T„ ist die Punktzahl von TIT FOR TAT mit η TIT FOR TAT-Nachbarn. Es gilt also ζ. B. D4 = K(IMMER D / TIT FOR TAT) = T+ wP/(l-w) = 56 + (1/3) (6) / (2/3) = 59. 5 Einige weitere interessante Möglichkeiten, die näherer Untersuchung bedürfen, sind die folgenden: 2
1. Die Beendigung der Interaktion kann von der Geschichte der Interaktion abhängen. Sie könnte ζ. B. davon abhängen, wie gut die Spieler abschneiden. Ein erfolgloser Spieler wird mit größerer Wahrscheinlichkeit sterben, Bankrott
152
Schlußfolgerungen
machen oder einen anderen Partner suchen. Daraus folgt, daß es sich möglicherweise nicht auszahlt, einen Spieler auszubeuten, der keine Vergeltung üben will oder kann. Der Grund dafür ist, daß Sie ein Huhn, das goldene Eier legt, nicht schlachten sollten. 2. Das Spiel muß kein iteriertes Gefangenendilemma sein. Es könnte sich ζ. B. um das iterierte Chicken-Spiel handeln, bei dem wechselseitige Defektion das schlechteste Ergebnis liefert. Anwendungsfälle sind Rrisenmanagement oder Arbeitskämpfe (Jervis 1978). Ergebnisse zur Evolution von Kooperation in diesem Spiel finden sich bei Maynard Smith (1982) und Lipman (1983). Eine andere Möglichkeit ist, daß sich die Auszahlungen von Zug zu Zug ändern (Axelrod 1979). Schließlich können die Spieler über mehr Wahlmöglichkeiten verfügen als lediglich über die zwischen Kooperation und Defektion. 3. Die Interaktion könnte mehr als zwei Spieler gleichzeitig betreffen. Die Versorgung mit kollektiven Gütern ist der paradigmatische Fall des TV-Personen Gefangenendilemmas (Olson 1968). Anwendungen betreffen eine Vielzahl von Problemen, bei denen jeder Teilnehmer einen Anreiz hat, sich als Trittbrettfahrerzu verhalten. Beispiele sind u. a. die Organisation von Interessenvertretungen und Beiträge zur nationalen Verteidigung. Wie Dawes (1980) gezeigt hat, unterscheidet sich der A'-Personen-Fall in drei Hinsichten qualitativ vom 2-Personen-Fall. Der durch Defektion verursachte Schaden verteilt sich erstens auf viele Spieler, anstatt sich auf einen zu konzentrieren. In iV-Personen Spielen kann Verhalten zweitens anonym bleiben. Drittens hat kein Spieler vollständige Kontrolle über die Belohnungen aller anderen Spieler, denn die Auszahlungen werden jeweils vom Verhalten vieler verschiedener Spieler beeinflußt. Die Literatur zu diesen Fragen ist umfangreich. Für den Anfang empfehlen sich Olson (1968), G. Hardin (1968), Schelling (1973), Taylor (1976), Dawes (1980) und R. Hardin (1982). 4. Die Fähigkeit eines Spielers, andere unterschiedlich zu behandeln und Vergeltung zu üben, könnte jeweils mit Kosten verbunden sein. Wenn daher fast jeder andere freundliche Strategien verwendet, mag es sich auszahlen, auf Unterscheidungs- und Vergeltungsmöglickeiten zu verzichten. Daraus könnte sich eine Erklärung für die gelegentlich zu beobachtende Rückbildung von Vergeltungsmöglichkeiten ergeben. Dies wiederum könnte zu einer Analyse von Rüstungskontrollen und Abrüstung beitragen, die mehr auf evolutionären Prinzipien als auf formalen Verträgen beruht. 5. Ein Spieler mag unsicher über die Wahl sein, die der andere Spieler im vorangegangenen Zug getroffen hat. Es könnte zu zufalligen Störungen oder zu systematischen Wahrnehmungsfehlern kommen (Jervis 1976). U m derartige Phänomene zu untersuchen, wurde die erste Runde des Turniers in der Weise wiederholt, daß jeder Spieler mit einer Wahrscheinlichkeit von einem Prozent den vorangegangenen Zug des anderen Spielers falsch wahrnahm. Dies führte zu einem weiteren Sieg von TIT FOR TAT. Das Ergebnis läßt vermuten, daß TIT FOR TAT unter der Bedingung mäßiger Irrtumswahrscheinlichkeiten relativ robust ist.
Kapitel 9
Die Robustheit der Reziprozität Der evolutionäre Ansatz beruht auf einem einfachen Prinzip: alles, was erfolgreich ist, tritt in der Zukunft höchstwahrscheinlich häufiger auf. Der Mechanismus kann unterschiedlich sein. In der klassischen Darwinschen Evolution ist er die natürliche Selektion auf der Grundlage differentieller Überlebens- und Reproduktionsraten. Im Kongreß der Vereinigten Staaten kann der Mechanismus eine erhöhte Chance der Wiederwahl für solche Mitglieder sein, die für ihre Wählerschaft wirkungsvoll Gesetzgebung betreiben oder Dienste bereitstellen. Im Geschäftsleben kann der Mechanismus sein, daß profitable Gesellschaften dem Bankrott entgehen. Aber der evolutionäre Mechanismus muß keine Frage von Leben und Tod sein. Unter intelligenten Spielern kann eine erfolgreiche Strategie in der Zukunft häufiger auftreten, weil andere Spieler auf sie überwechseln. Diese Umstellung kann auf mehr oder weniger blinder Imitation der erfolgreichen Spieler beruhen oder auf einem mehr oder weniger bewußten Lernprozeß. Für den evolutionären Prozeß ist mehr erforderlich als das différentielle Wachstum der Erfolgreichen. Damit er weit kommen kann, benötigt er eine Quelle der Variation, von neuen Dingen, die ausprobiert werden. In der biologischen Genetik wird diese Variation durch Mutation und Rekombination von Genen mit jeder Generation bereitgestellt. In sozialen Prozessen kann die Variation mittels Lernen durch „Versuch und Irrtum" eingeführt werden. Diese Art des Lernens mag einen hohen Grad an Intelligenz widerspiegeln oder auch nicht. Ein neues Verhaltensmuster könnte einfach Zufallsvariante eines alten Verhaltensmusters sein, oder die neue Strategie könnte auf der Basis früherer Erfahrung und einer Theorie über ein in der Zukunft wahrscheinlich erfolgreiches Vorgehen bewußt konstruiert worden sein. Um verschiedene Aspekte des Evolutionsprozesses zu untersuchen, sind unterschiedliche Methoden verwendet worden. Ein Typ von Fragestellungen bezog sich auf das Ziel des Evolutionsprozesses. Um dieses Problem zu klären, wurde der Begriff der kol-
154
Schlußfolgerungen
lektiven (oder evolutionären) Stabilität verwendet. Die Idee war, diejenigen Strategien zu bestimmen, in die, wenn sie von jedem benutzt werden, keine anderen Strategien eindringen können. Der Vorteil dieses Ansatzes besteht darin, daß er eine gute Spezifikation der Typen von Strategien erlaubt, die sich selbst schützen können, und darüber hinaus eine Angabe der Bedingungen, unter denen dieser Schutzmechanismus funktionieren kann. Es wurde ζ. B. gezeigt, daß TIT FOR TAT kollektiv stabil ist, wenn der Schatten der Zukunft groß genug ist, und daß die Strategie permanenter Defektion unter allen möglichen Bedingungen kollektiv stabil ist. Die Stärke der Konzeption der kollektiven Stabilität liegt darin, daß sie eine Berücksichtigung aller möglichen neuen Strategien erlaubt, seien sie leichte Varianten der üblichen Strategie oder vollständig neue Ideen. Die Begrenzung des Ansatzes ist, daß er zwar Auskunft über die dauerhaften unter den einmal etablierten Strategien gibt, aber nicht darüber, was überhaupt eingeführt werden wird. Weil viele verschiedene einmal in eine Population eingeführte Strategien kollektiv stabil sein können, ist es wichtig zu wissen, welche Strategien wahrscheinlich eingeführt werden. Dafür ist eine andere Methode erforderlich. Um zu sehen, was vermutlich als erstes eingeführt wird, muß vornehmlich die Vielfalt von Dingen, die in einer Population auf einmal passieren kann, untersucht werden. U m diese Vielfalt einzufangen wurde der Turnier-Ansatz verwendet. Das Turnier selbst wurde so durchgeführt, daß die Beteiligung ausgeklügelter Strategien gewährleistet war. In der ersten Runde wurde dies durch Anwendung von Beiträgen professioneller Spieltheoretiker erreicht. Die Vervollkommnung der Strategien wurde in der zweiten Runde fortgesetzt, weil sichergestellt war, daß den neuen Teilnehmern die Ergebnisse der ersten Runde bekannt waren. Neue Ideen konnten in das Turnier also entweder als Verfeinerungen der alten Ideen oder als völlig neue Konzeptionen über am besten geeignete Strategien Eingang finden. Die Analyse der Beiträge, die sich in dieser vielgestaltigen Umgebung tatsächlich am besten behaupteten, war sehr aufschlußreich für die Frage, welche Art von Strategie sich vermutlich mit Erfolg entwickeln kann. Weil der Prozeß einer vollständigen Durchsetzung einer Strategie vermutlich ein beträchtliches Maß an Zeit benötigt, wurde eine weitere Technik verwendet, um die Veränderung der Erfolgsaus-
Die Robustheit
der Reziprozität
155
sichten von Strategien in Abhängigkeit von Änderungen ihrer sozialen Umgebung zu untersuchen. Diese Technik war eine ökologische Analyse, die das Geschehen simulierte, das sich ergeben würde, wenn jede Generation über Strategien verfügt, deren Verbreitung proportional zu ihrem Erfolg in der vorangegangenen Generation anwächst. Dieser Ansatz war ökologisch, weil er nicht auf der Einführung neuer Strategien beruhte, sondern auf der Bestimmung der Konsequenzen, die aus der Vielfalt der bereits im Turnier vertretenen Strategien über hunderte von Generationen resultieren. Er ermöglichte daher eine Analyse der Frage, ob die am Anfang erfolgreichen Strategien nach dem Ausscheiden der schlecht abschneidenden Konkurrenten erfolgreich bleiben würden. Das Wachstum erfolgreicher Strategien in jeder Generation konnte entweder zurückgeführt werden auf besseres Überleben oder bessere Reproduktion der Benutzer der betreffenden Strategie oder auf die größere Chance, durch andere imitiert zu werden. Der ökologischen verwandt war die territoriale Analyse des Geschehens, das resultiert, wenn die 63 Strategien der zweiten Runde des Turniers in einer territorialen Struktur verstreut sind, wobei der Spieler an jeder Stelle mit vier Nachbarn interagiert. In einem territorialen System bestimmt sich der Erfolg danach, was lokal erfolgreich ist. Jede Stelle mit einem erfolgreicheren Nachbarn übernimmt die Strategie des erfolgreichsten ihrer Nachbarn. Wie in der ökologischen Analyse kann auch dieses Wachstum der Erfolgreicheren entweder besserem Überleben oder besserer Reproduktion zugeschrieben werden oder aber einer größeren Chance der Imitation durch andere. Um diese Werkzeuge evolutionärer Analyse verwenden zu können, bedarf es eines Verfahrens, mit dem die Leistung einer gegebenen Strategie bestimmt werden kann, wenn sie auf eine beliebige andere Strategie trifft. In einfachen Fällen kann diese Berechnung algebraisch erfolgen, wie etwa bei der Bestimmung des Abschneidens von Ή Τ FOR TAT angesichts eines Gegenspielers, der immer defektiert. In komplexeren Fällen kann die Berechnung durch die Simulation der Interaktionen und die Kumulation der erzielten Auszahlungen geschehen, wie bei der Durchführung des Computer-Turniers für das Gefangenendilemma. Die Ideen einer zeitlichen Diskontierung und eines unsicheren Endes der Interaktion wurden in das Turnier durch eine Variation der Dauer der
156
Schlußfolgerungen
Spiele eingeschlossen. Die Konsequenzen der probabilistischen Natur einiger Strategien wurden bewältigt, indem Durchschnittswerte über verschiedene Interaktionen zwischen dem gleichen Paar von Strategien gebildet wurden. Diese Werkzeuge evolutionärer Analyse könnten auf beliebige soziale Gegebenheiten angewendet werden. In diesem Buch wurden sie speziell auf Situationen angewendet, in denen das grundlegende Dilemma der Kooperation auftritt. Kooperation wird möglich, wenn jeder Spieler dem anderen helfen kann. Das Dilemma tritt auf, wenn diese Hilfeleistungen Kosten verursachen. Wechselseitige Vorteile aus der Kooperation werden dann möglich, wenn die Vorteile aus der Kooperation des anderen größer als die Kosten der eigenen Kooperation sind. In diesem Fall präferieren beide Spieler wechselseitige Kooperation gegenüber wechselseitiger Nichtkooperation (Defektion). Aus zwei Gründen ist es jedoch schwierig, das zu erhalten, was man präferiert. Zunächst muß ein Spieler den anderen zur Hilfeleistung veranlassen, obwohl der andere Spieler auf kurze Sicht besser dasteht, wenn er keinen Beitrag leistet. Zweitens ist ein Spieler versucht, soviel Unterstützung wie möglich zu erhalten, ohne dafür selbst Kosten zu tragen.1 Die Hauptergebnisse der Theorie der Kooperation sind ermutigend. Sie zeigen, daß Kooperation sogar durch eine kleine Gruppe von Individuen in Gang gebracht werden kann, die auf die Erwiderung von Kooperation eingestellt sind, und zwar in einer Welt, in der kein anderer kooperiert. Die Analyse zeigt zusätzlich die beiden Grundvorraussetzungen für den Erfolg der Kooperation: Kooperation muß auf Gegenseitigkeit beruhen, und der Schatten der Zukunft muß groß genug sein, um diese Gegenseitigkeit stabilisieren zu können. Wenn aber Kooperation auf der Grundlage von Gegenseitigkeit erst einmal in einer Population etabliert ist, dann kann sie sich selbst gegen die Invasion durch unkooperative Strategien schützen. Es ist ermutigend zu sehen, daß Kooperation in Gang gebracht werden kann, daß sie in einer vielgestaltigen Umgebung gedeihen und daß sie sich schützen kann, sobald sie etabliert ist. Was jedoch besonders interessant ist, das sind die schwachen Annahmen, die über die Individuen oder die sozialen Gegebenheiten gemacht werden müssen, damit man zu diesen Ergebnissen gelangt. Die Individuen müssen nicht rational sein: der Evolutionsprozeß erlaubt
Die Robustheit
der Reziprozität
157
es den erfolgreichen Strategien sich zu entwickeln, selbst wenn die Spieler nicht wissen, warum oder wie das geschieht. Die Spieler müssen auch keine Nachrichten oder verbindliche Verpflichtungen austauschen: sie benötigen keine Worte, weil ihre Taten für sie sprechen. Genausowenig ist es erforderlich, Vertrauen unter den Spielern anzunehmen: Gegenseitigkeit kann ausreichen, um Defektion unproduktiv zu machen. Altruismus ist unnötig: erfolgreiche Strategien können sogar bei einem Egoisten Kooperation auslösen. Schließlich wird auch keine zentrale Herrschaftsinstanz benötigt: gegenseitige Kooperation kann sich selbsttragend überwachen. Die Entstehung, das Wachstum und die Aufrechterhaltung von Kooperation erfordern dennoch einige Annahmen über die Individuen und die soziale Situation. Zunächst muß ein Individuum in der Lage sein, einen anderen Spieler, mit dem es vorher zu tun hatte, wiederzuerkennen. Außerdem ist erforderlich, daß die frühere Geschichte der Interaktionen mit diesem Spieler erinnert werden kann, damit der Spieler darauf reagieren kann. Diese Erfordernisse des Erkennens und Zurückrufenkönnens sind nicht so stark, wie sie erscheinen mögen. Sogar Bakterien können sie erfüllen, wenn sie mit nur einem anderen Organismus interagieren und eine Strategie (wie etwa Ή Τ FOR TAT) verwenden, die nur auf das kurz zurückliegende Verhalten des anderen Spielers reagiert. Wenn aber Bakterien an Spielen teilnehmen können, dann erst recht Menschen und Staaten. Soll sich Kooperation als stabil erweisen, dann muß der Schatten der Zukunft hinreichend groß sein. Das bedeutet, daß das Gewicht der nächsten Begegnung zweier Individuen groß genug sein muß, um Defektion für den Fall zu einer unprofitablen Strategie zu machen, daß der andere Spieler provozierbar ist. Es ist erforderlich, daß die Spieler sich mit einer ausreichend großen Chance wieder treffen werden und daß sie die Bedeutung ihres nächsten Treffens nicht zu stark diskontieren. Im Stellungskrieg des Ersten Weltkriegs z.B. wurde Kooperation möglich gemacht durch die Tatsache, daß dieselben kleinen Einheiten auf beiden Seiten des Niemandslandes über lange Zeitperioden in Kontakt blieben, so daß die eine Seite im Fall einer Verletzung der stillschweigenden Übereinkünfte durch die andere Seite gegen dieselbe Einheit Vergeltung üben konnte.
158
Schlußfolgerungen
Schließlich verlangt die Evolution der Kooperation, daß erfolgreiche Strategien sich ausbreiten können und daß es eine Quelle für Variationen in den verwendeten Strategien gibt. Diese Mechanismen können das klassische Darwinsche Überleben der am besten Angepaßten und die Mutation sein, aber sie können auch eher bewußte Prozesse wie die Imitation erfolgreicher Verhaltensmuster und intelligent gestaltete neue strategische Ideen enthalten. Damit Kooperation überhaupt in Gang gesetzt werden kann, ist eine weitere Bedingung erforderlich. Das Problem besteht darin, daß in einer Welt unbedingter Defektion kein vereinzeltes Individuum, das seine Kooperation anbietet, erfolgreich sein kann, solange nicht andere in seiner Umgebung sind, die Gegenseitigkeit zeigen. Andererseits kann Kooperation ausgehend von kleinen Gruppen diskriminierender Individuen entstehen, solange diese Individuen nur zumindest einen kleinen Anteil ihrer Interaktionen miteinander unterhalten. Es muß also ein bestimmtes Maß an Gruppierung von Individuen geben, die Strategien mit zwei Eigenschaften verwenden: die Strategien werden zuerst kooperieren, und sie werden diskriminieren zwischen denjenigen, die auf Kooperation reagieren und denen, die es nicht tun. Die Bedingungen für die Evolution der Kooperation geben die notwendigen Voraussetzungen an, sie sagen für sich allein jedoch nicht, welche Strategien die erfolgreichsten sein werden. Zu dieser Frage hat der Turnier-Ansatz schlagende Evidenz fur den robusten Erfolg der einfachsten aller diskriminierenden Strategien geliefert: TAT FOR TAT. Indem es beim ersten Zug kooperiert und sich dann so verhält wie der andere Spieler beim Zug davor, war TIT FOR TAT in der Lage, gegen eine große Vielzahl mehr oder weniger raffinierter Entscheidungsregeln gut abzuschneiden. Es hat nicht nur die erste Runde des Gefangenendilemma ComputerTurniers gewonnen, wobei ihm von professionellen Spieltheoretikern eingereichte Programme gegenüberstanden, sondern es siegte auch in der zweiten Runde, in der über sechzig Programme von Leuten vertreten waren, die die Ergebnisse der ersten Runde berücksichtigen konnten. Zusätzlich hat es in fünf der sechs Hauptvarianten der zweiten Runde gesiegt (und in der sechsten Variante den zweiten Platz belegt). Am eindrucksvollsten ist, daß sein Erfolg nicht allein auf seiner Fähigkeit beruhte, gegen solche
Die Robustheit der Reziprozität
159
Strategien gut abzuschneiden, die selbst nur wenige Punkte sammeln konnten. Das wurde anhand einer ökologischen Analyse hypothetischer zukünftiger Runden gezeigt. In dieser Simulation hunderter von Turnierrunden war TIT FOR TAT wiederum die erfolgreichste Regel, womit gezeigt ist, daß es sowohl mit guten als auch mit schlechten Regeln gleichermaßen gut spielt. Der robuste Erfolg von TIT FOR TAT ergibt sich daraus, daß es freundlich, provozierbar, nachsichtig und verständlich ist. Seine Freundlichkeit bedeutet, daß es niemals als erstes defektiert, eine Eigenschaft, die es vor unnötigen Schwierigkeiten bewahrt. Seine Bereitschaft zur Vergeltung entmutigt die andere Seite, bei einer Defektion zu verharren, wann immer sie ausprobiert wird. Seine Nachsicht trägt zur Wiederherstellung wechselseitiger Kooperation bei. Seine Verständlichkeit schließlich läßt sein Verhaltensmuster leicht erkennbar werden; und wenn es einmal erkannt worden ist, ist es leicht einzusehen, daß man mit Ή Τ FOR TAT am besten kooperiert. Trotz seines robusten Erfolges kann Ή Τ FOR TAT nicht als ideale Strategie im iterierten Gefangenendilemma bezeichnet werden. Zum einen ist es für den Erfolg von Ή Τ FOR TAT und anderer freundlicher Regeln erforderlich, daß der Schatten der Zukunft hinreichend groß ist. Aber selbst dann gibt es keine von den Strategien der anderen unabhängige ideale Strategien. In einigen extremen Umgebungen würde sogar Ή Τ FOR TAT scheitern, wie in dem Fall, daß es nicht genügend andere gibt, die j emals seine anfangliche kooperative Wahl erwidern. TIT FOR TAT besitzt zusätzlich auch seine strategischen Schwächen. Wenn zum Beispiel der andere Spieler einmal defektiert, wird Ή Τ FOR TAT immer mit einer Defektion antworten, und wenn dann der andere Spieler dieselbe Antwort gibt, wäre ein nicht endendes Echo abwechselnder Defektionen die Folge. In diesem Sinn ist Ή Τ FOR TAT nicht nachsichtig genug. Ein anderes Problem ist jedoch die zu große Nachsicht von Ή Τ FOR TAT solchen Regeln gegenüber, die völlig unfähig zur Reaktion sind, wie etwa eine vollständige Zufallsregel. Was für TIT FOR TAT spricht ist, daß es in der Tat in einer umfangreichen Menge verschiedenartiger Situationen erfolgreich abschneidet, in denen die anderen Spieler sämtlich mehr oder weniger ausgeklügelte Strategien verwenden, die ihrerseits mit dem Ziel gestaltet wurden, gut zu spielen.
160
Schlußfolgerungen
Wenn eine freundliche Strategie wie TIT FOR TAT schließlich von nahezu jedem angenommen worden ist, dann können Individuen, die diese Strategie verwenden, es sich leisten, im Umgang mit anderen großzügig zu sein. Tatsache ist, daß eine Population freundlicher Regeln sich auch gegenüber Gruppen von Individuen schützen kann, die irgendeine andere Strategie benutzen, genau wie sie sich gegen einzelne Individuen schützen kann. Diese Ergebnisse vermitteln ein chronologisches Bild der Evolution der Kooperation. Kooperation kann mit kleinen Gruppen beginnen. Sie kann sich ausbreiten mit Regeln, die freundlich, provozierbar und ein wenig nachsichtig sind. Sobald sie einmal in einer Population etabliert sind, können Individuen, die solche diskriminierenden Strategien verwenden, sich selbst vor Invasion schützen. Das Gesamtniveau der Kooperation nimmt tendenziell zu und nicht ab. Die Maschinerie für die Evolution der Kooperation enthält mit anderen Worten eine Rücklaufsperre. Das Funktionieren dieser Sperre konnte an der Entwicklung der Reziprozitätsnorm im Kongreß der Vereinigten Staaten verdeutlicht werden. Die Mitglieder des Kongresses in den frühen Tagen der Republik waren, wie im ersten Kapitel beschrieben, für ihre Betrügereien und Hinterlistigkeiten bekannt. Sie waren ziemlich skrupellos und belogen einander. Dennoch entwickelten sich über die Jahre kooperative Verhaltensmuster, die sich als stabil erwiesen. Diese beruhten auf der Norm der Gegenseitigkeit. Viele andere Institutionen haben stabile Muster kooperativen Verhaltens entwickelt, die auf ähnlichen Normen basieren. Diamanten-Märkte ζ. Β sind für die Art und Weise berühmt, in der ihre Mitglieder Werte in Millionenhöhe nur mit einer mündlichen Absprache und einem Handschlag austauschen. Der Schlüsselfaktor ist dabei das Wissen der Beteiligten, daß man wieder und wieder miteinander umgehen wird. Deshalb wird sich ein Versuch der Ausbeutung dieser Situation einfach nicht auszahlen. Eine schöne Illustration dieses Prinzips wird in den Memoiren von Ron Luciano gegeben, einem Baseball-Schiedsrichter, der gelegentlich seine „schlechten Tage" hatte. „Im Laufe der Zeit lernte ich, bestimmten Fängern so sehr zu vertrauen, daß ich sie tatsächlich an den schlechten Tagen für mich schiedsrichtern ließ. Die schlechten Tage folgten gewöhnlich auf die guten Nächte... An diesen Tagen konnte ich nicht viel mehr tun als zwei Aspirin zu nehmen und so wenig wie möglich zu rufen. Wenn jemand, dem ich vertraute, zu fangen hätte... würde ich ihm sagen:
Die Robustheit
der Reziprozität
161
,Schau her, es ist ein schlechter Tag. Besser, ihr macht es für mich. Wenn ein Schlagfehler passiert, haltet eure Handschuhe noch einen Augenblick fest. Wenn es ein Ball ist, werft ihn sofort zurück. U n d bitte kein Geschrei!'"
Dieses Vertrauen in den Fänger konnte funktionieren, weil Luciano genügend Gelegenheiten zur Vergeltung besitzen würde, falls er jemals Anlaß zu der Vermutung hätte, daß jener daraus seinen Vorteil ziehen würde. „Niemand, mit dem ich zusammengearbeitet habe, hat jemals die Situation ausgenutzt, und kein Schläger fand jemals heraus, was ich gemacht habe. U n d nur einmal, als Ed Herrman die Würfe rief, hat sich ein Werfer über eine Entscheidung beklagt. Ich lächelte; ich lachte; aber ich sagte kein Wort. Es reizte mich aber, es reizte mich wirklich." (Luciano und Fisher 1982,166).
Übliche geschäftliche Transaktionen sind ebenfalls auf die Idee gegründet, daß eine fortdauernde Beziehung die Entwicklung von Kooperation ohne die Unterstützung durch eine zentrale Autorität erlaubt. Obwohl die Gerichte eine zentrale Autorität für die Klärung geschäftlicher Streitigkeiten darstellen, wird diese Instanz gewöhnlich nicht bemüht. Eine verbreitete Einstellung im Geschäftsleben wird durch einen Einkäufer ausgedrückt, der folgendes sagte: „Wenn etwas passiert, holt man den anderen Mann ans Telefon und behandelt das Problem. Man ist kein Paragraphenreiter, wenn man im Geschäft bleiben will" (Macaulay 1963, 61). Diese Einstellung hat sich soweit durchgesetzt, daß ein großer Produzent für Verpackungsmaterial bei der Prüfung seiner Akten feststellte, daß er bei zwei Drittel der Kundenaufträge versäumt hatte, rechtlich verbindliche Verträge abzuschließen (Macaulay 1963). Die Fairness der Transaktion wird nicht durch Androhung eines Gerichtsprozesses garantiert, sondern viel eher durch die Antizipation wechselseitig vorteilhafter Transaktionen in der Zukunft. Genau in dem Moment, wo diese Antizipation zukünftiger Interaktionen zusammenbricht, wird eine externe Autorität eingeschaltet. Nach Macaulay ist der am weitesten verbreitete Typ von Geschäftsverträgen, die bis zu den Appellationsgerichten ausgefochten werden, die Klage eines Händlers gegen die unrechtmäßige Kündigung einer Franchisebeziehung durch die Muttergesellschaft. Dieses Konfliktmuster ist plausibel, weil dann, wenn ein Franchise erst einmal beendet ist, keine Aussicht mehr auf weitere vorteilhafte Transaktionen zwischen dem Franchiser und der
162
Schlußfolgerungen
Muttergesellschaft besteht. Kooperation endet, und kostspielige gerichtliche Auseinandersetzungen sind häufig die Folge. In anderen Zusammenhängen werden wechselseitig belohnende Beziehungen so alltäglich, daß die getrennten Identitäten der Beteiligten verwischt werden. Zum Beispiel hat Lloyd's of London als kleine Gruppe unabhängiger Versicherungsmakler angefangen. Weil die Versicherung eines Schiffes und einer Fracht einen einzelnen überfordert hätte, führten mehrere Makler häufiger gemeinsame Geschäfte durch, mit denen ihre Risiken gestreut werden konnten. Die Häufigkeit der Interaktionen war so groß, daß die Versicherungsagenten sich nach und nach zu einer vereinigten Organisation mit eigener formaler Struktur entwickelt haben. Das Gewicht zukünftiger Interaktionen kann Hilfestellung bei der Gestaltung von Institutionen leisten. Um zur Förderung der Kooperation unter Organisationsmitgliedern beizutragen, sollten Beziehungen so strukturiert werden, daß es häufige und dauerhafte Interaktionen zwischen spezifischen Individuen gibt. Betriebe und Bürokratien sind häufig gerade in dieser Weise strukturiert, wie im Kapitel 8 diskutiert wurde. Manchmal besteht das Problem eher in der Verhinderung der Kooperation als in der Förderung. Ein Beispiel ist die Verhinderung geheimer geschäftlicher Absprachen durch Beseitigung der Bedingungen, die kooperationsfördernd wirken würden. Bedauerlicherweise legt gerade die Mühelosigkeit, mit der die Evolution der Kooperation selbst unter Egoisten ablaufen kann, nahe, daß die Verhinderung von Absprachen keine leichte Aufgabe ist. Kooperation setzt sicherlich keine formalen Übereinkünfte oder auch nur direkte persönliche Verhandlungen voraus. Die Tatsache, daß sich Kooperation durch Gegenseitigkeit entwickeln und stabilisieren kann, deutet daraufhin, daß Maßnahmen gegen Wettbewerbsbeschränkungen sich stärker der Verhinderung solcher Bedingungen zuwenden sollten, die diesem stillschweigenden Einverständnis förderlich sind, als nach Geheimtreffen unter den Geschäftsführern konkurrierender Unternehmen zu forschen. Β etrachten wir etwa die Gewohnheit der amerikanischen Regierung, jeweils zwei Gesellschaften auszuwählen, die Entwicklungsverträge für den Wettbewerb um den Bau eines neuen Militärflug-
Die Robustheit
der Reziprozität
163
zeugs erhalten. Weil Luftfahrtunternehmen sich im gewissen Grad auf Flugzeuge spezialisieren, die entweder für die Luftwaffe oder aber für die Marine geeignet sind, stehen sich tendenziell Firmen mit gleicher Spezialisierung in der Endausscheidung gegenüber (Art 1968). Diese häufige Interaktion zwischen jeweils zwei Gesellschaften macht es relativ leicht, stillschweigende Übereinkünfte zu erreichen. Um sie zu erschweren, sollte die Regierung Methoden finden, mit denen sich Spezialisierung vermindern läßt oder ihre Folgen kompensiert werden. Paare von Firmen, die sich ähnlich spezialisiert haben, würden dann damit rechnen müssen, daß sie weniger häufig in den Endausscheidungen miteinander konkurrieren. Dadurch würde der Wert späterer Interaktionen zwischen ihnen relativ geringer sein, so daß der Schatten der Zukunft reduziert wäre. Wenn die nächste erwartete Interaktion hinreichend weit entfernt ist, ist gegenseitige Kooperation in Form stillschweigender Absprachen nicht länger eine stabile Politik. Die Möglichkeit einer Kooperation ohne formale Übereinkommen hat in anderen Kontexten ihre günstigen Seiten. Kooperation bei der Kontrolle des Rüstungswettlaufs muß ζ. B. nicht unbedingt allein mit Hilfe des formellen Mechanismus der Aushandlung von Verträgen angestrebt werden. Rüstungskontrolle könnte sich auch stillschweigend entwickeln. Sicherlich sollte die Tatsache, daß die Vereinigten Staaten und die Sowjetunion wissen, daß sie beide für eine sehr lange Zeit miteinander umgehen werden, dazu beitragen, die notwendigen Bedingungen zu schaffen. Die Führer mögen einander persönlich nicht schätzen, aber ebensowenig mochten sich die Soldaten im Ersten Weltkrieg als sie lernten, zu leben und leben zu lassen. Gelegentlich hat ein politischer Führer die Idee, daß Kooperation mit einer anderen Macht nicht angestrebt werden sollte, sondern daß es besser wäre, sie in den Bankrott zu treiben. Das ist ein ungewöhnlich riskantes Unterfangen, weil die Zielscheibe ihre Antwort keineswegs auf die Verweigerung üblicher Kooperation allein begrenzen müßte, sondern auch einen starken Anreiz hätte, den Konflikt zu eskalieren, bevor sie unwiderruflich geschwächt ist. Japans verzweifeltes Wagnis in Pearl Harbor war ζ. B. eine Antwort auf die harten amerikanischen Wirtschaftssanktionen, die die japanische Intervention in China beenden sollten (Ike 1967; Hosoya 1968). Anstatt aufzugeben, was es als eine lebenswichtige
164
Schlußfolgerungen
Einflußsphäre ansah, entschied Japan sich dafür, Amerika vor einer weiteren eigenen Schwächung anzugreifen. Japan wußte, daß Amerika sehr viel stärker war, kam jedoch zur Überzeugung, daß angesichts der kumulativen Wirkungen der Sanktionen ein Angriffgünstiger war, als in eine noch verzweifeltere Lage zu geraten. Der Versuch, jemanden Bankrott zu machen, ändert die Zeitperspektiven der Beteiligten dadurch, daß die Zukunft der Interaktionen sehr stark in Zweifel gezogen wird. Ohne den Schatten der Zukunft wird es unmöglich, Kooperation aufrecht zu erhalten. Die Rolle der Zeitperspektiven ist also entscheidend für die Erhaltung der Kooperation. Wenn die Interaktion vermutlich für die lange Zeit fortgesetzt wird und die Spieler sich genügend um die gemeinsame Zukunft sorgen, sind die Β edingungen für die Entstehung und Aufrechterhaltung der Kooperation herangereift. Die Grundlage der Kooperation ist in Wirklichkeit nicht Vertrauen, sondern Dauerhaftigkeit der Beziehung. Wenn die geeigneten Bedingungen gegeben sind, können die Spieler gegenseitige Kooperation erreichen, indem sie durch Versuch und Irrtum Möglichkeiten wechselseitiger Belohnungen kennenlernen, andere erfolgreiche Spieler imitieren oder sogar durch einen blinden Prozess der Selektion erfolgreicher Strategien und der Aussonderung der weniger erfolgreichen. Es ist langfristig weniger wichtig, daß die Spieler einander vertrauen, als daß die Bedingungen für sie günstig sind, ein stabiles Muster der Kooperation untereinander ausbilden zu können. So wichtig die Zukunft für die Schaffung der Bedingungen für Kooperation ist, so wichtig ist die Vergangenheit für die Überwachung des tatsächlichen Verhaltens. Es ist unbedingt erforderlich, daß die Spieler sich gegenseitig beobachten und auf die früheren Entscheidungen des jeweils anderen reagieren können. Ohne diese Fähigkeit zur Verwendung der Vergangenheit könnten Defektionen nicht bestraft werden und der Anreiz zur Kooperation würde verloren gehen. Zum Glück muß die Fähigkeit zur Überwachung des früheren Verhaltens des anderen Spielers nicht perfekt sein. Das ComputerTurnier für das Gefangenendilemma nahm eine vollkommene Kenntnis der vorangegangenen Wahlen des anderen Spielers an. Unter zahlreichen Umständen könnte ein Spieler jedoch durch-
Die Robustheit
der Reziprozität
165
aus die Wahl des anderen falsch wahrnehmen. Eine Defektion mag unendeckt bleiben, eine Kooperation mag als Defektion fehlinterpretiert werden. Um die Folgen falscher Wahrnehmungen zu erforschen, wurde die erste Runde des Turniers erneut durchgeführt. Die Modifikation war, daß jede Entscheidung mit einer Wahrscheinlichkeit von einem Prozent durch den anderen Spieler falsch wahrgenommen wurde. Wie erwartet, führten die Fehlwahrnehmungen zu einem beträchtlichen Zuwachs an Defektionen zwischen den Spielern. Überraschend stellte sich aber heraus, daß Ή Τ FOR TAT immernoch die beste Entscheidungsregel war. Obwohl es in große Schwierigkeiten geriet, wenn ein einzelnes Mißverständnis zu einem langen Echo von Vergeltungen führte, konnte es das Echo durch weitere Fehlwahrnehmungen beenden. Viele andere Regeln waren weniger nachsichtig, so daß sie dann, wenn sie einmal in Schwierigkeiten steckten, weniger häufig wieder herausgelangten. TIT FOR TAT schnitt angesichts von Fehlwahrnehmungen der Vergangenheit gut ab, weil es sogleich vergeben konnte und dadurch eine Chance zur Wiederherstellung wechselseitiger Kooperation besaß. Die Rolle der Zeitperspektive hat wichtige Folgen für die Gestaltung von Institutionen. In großen Organisationen wie Geschäftsbetrieben oder Regierungsbürokratien werden die Beschäftigten häufig ungefähr alle zwei Jahre von einer Position auf eine andere versetzt.2 Dies führt bei den Angestellten zu einem starken Anreiz, ein auf kurze Sicht günstiges Verhalten zu zeigen, unabhängig von den Konsequenzen für die Organisation auf lange Sicht. Sie wissen, daß sie frühzeitig in einer anderen Position sein werden, und die Konsequenzen ihrer Entscheidungen auf dem früheren Posten werden ihnen höchstwahrscheinlich nicht mehr zugeschrieben, nachdem sie die Position verlassen haben. Damit erhalten zwei Angestellte wechselseitig Anreize zur Defektion, falls die Beschäftigungsdauer des einen von beiden dem Ende zugeht. Das Ergebnis eines schnellen Stellenwechsels könnte daher eine Verminderung der Kooperation innerhalb der Organisation sein. Wie in Kapitel 3 ausgeführt, entsteht ein ähnliches Problem dann, wenn ein Politiker eine nur geringe Chance einer Wiederwahl zu haben scheint. Das Problem wird noch akuter, wenn es sich um einen Versager handelt. Aus der Sicht der Öffentlichkeit kann ein Politiker, der dem Ende seiner Karriere entgegensieht,
166
Schlußfolgerungen
gefahrlich sein, weil seine Versuchung, private Ziele zu verfolgen, stärker wird als seine Neigung, Kooperation mit der Wählerschaft zwecks Erreichung wechselseitig vorteilhafter Belohnungen aufrechtzuerhalten. Weil politischer Führungswechsel einen wesentlichen Teil demokratischer Kontrolle darstellt, muß das Problem anders gelöst werden. In diesem Zusammenhang sind politische Parteien nützlich, weil sie von der Öffentlichkeit für die Handlungen ihrer gewählten Mitglieder zur Rechenschaft gezogen werden können. Wähler und Parteien befinden sich in einer langfristigen Beziehung, und daraus entsteht für die Parteien ein Anreiz zur Auswahl von Kandidaten, die ihre Verantwortung nicht mißbrauchen. Wenn entdeckt wird, daß ein Politiker der Versuchung erlegen ist, dann können die Wähler dies bei der Bewertung der anderen Kandidaten derselben Partei in der nächsten Wahl berücksichtigen. Die Bestrafung der Republikanischen Partei durch die Wählerschaft nach Watergate zeigt, daß Parteien in der Tat für Defektionen ihrer Führer zur Verantwortung gezogen werden. Institutionelle Lösungen des Problems der Fluktuation müssen allgemein Verantwortlichkeit über die Amtszeit des Individuums in einer bestimmen Position hinaus sichern. In Unternehmen und Organisationen wäre der beste Weg zur Sicherung dieser Zurechenbarkeit, sich nicht nur über die Leistungen einer Person in einer Position auf dem Laufenden zu halten, sondern auch über den Zustand, in dem die Position ihrem nächsten Inhaber überlassen wurde. Wenn sich ζ. B. ein Angestellter einen schnellen Vorteil durch falsches Spiel mit einem Kollegen verschaffen würde, und zwar gerade vor seinem Wechsel in einen anderen Betrieb, so sollte dieser Sachverhalt bei der Bemessung der Leistungen dieses Angestellten berücksichtigt werden. Die Theorie der Kooperation hat Folgen sowohl auf der Ebene individueller Wahlhandlungen wie auch für die Gestaltung von Institutionen. Um von mir selbst zu sprechen: Eine der größten Überraschungen während der Arbeit an diesem Projekt war für mich der Wert der Provozierbarkeit. Als ich das Projekt begann, glaubte ich, man sollte sich mit dem Zorn Zeit lassen. Die Ergebnisse des Gefangenendilemma Computer-Turniers zeigen, daß es in Wirklichkeit besser ist, auf eine Provokation schnell zu antworten. Es stellt sich heraus, daß man durch Abwarten nach einer un-
Die Robustheit
der Reziprozität
167
nötigen Defektion riskiert, das falsche Signal zu senden. Je länger Defektionen ungestraft geduldet werden, um so wahrscheinlicher zieht der andere Spieler den Schluß, daß Defektion sich auszahlen kann. Je stärker sich dieses Muster ausgebildet hat, um so schwieriger ist es aufzubrechen. Daher ist es besser, eher früher als später provoziert zu werden. Der Erfolg von Ή Τ FOR TAT verdeutlicht sicherlich diesen Punkt. Indem Ή Τ FOR TAT sofort reagiert, gibt es die schnellstmögliche Rückmeldung, daß sich eine Defektion nicht auszahlt. Die Reaktion auf potentielle Verletzungen von Rüstungskontroll-Vereinbarungen illustriert diesen Punkt. Die Sowjetunion hat gelegentlich Schritte unternommen, die anscheinend die Grenzen ihrer Vereinbarungen mit den Vereinigten Staaten ausloten sollten. Je früher die Vereinigten Staaten diese Sondierungen entdekken und auf sie antworten, desto besser. Wenn man abwartet bis sie sich häufen, läuft man Gefahr, so stark reagieren zu müssen, daß noch größere Störungen hervorgerufen werden. Die Schnelligkeit einer Antwort hängt von der Zeit ab, die für die Aufdeckung einer durch den anderen Spieler getroffenen Wahl benötigt wird. Je kürzer diese Zeit ist, um so stabiler kann die Kooperation sein. Rasche Aufspürung bedeutet, daß der nächste Zug in der Interaktion schnell erfolgt, wodurch der durch den Parameter w repräsentierte Schatten der Zukunft vergrößert wird. Aus diesem Grund sind nur Rüstungskontroll-Vereinbarungen stabil, deren Verletzungen früh genug ermittelt werden können. Die entscheidende Bedingung ist, daß Übertretungen entdeckt werden können bevor sie so sehr Überhand nehmen, daß die Provozierbarkeit des Opfers nicht länger ausreicht, um beim Herausforderer den Anreiz zur Defektion zu unterdrücken. Die Turnier-Ergebnisse in bezug auf den Wert der Provozierbarkeit werden vervollständigt durch die theoretische Analyse der Bedingungen für die kollektive Stabilität einer freundlichen Regel. Damit eine freundliche Regel einer Invasion widerstehen kann, muß die Regel durch die allererste Defektion des anderen Spielers provoziert werden (Theorem 4 in Kapitel 3). Theoretisch betrachtet muß die Antwort nicht unmittelbar kommen, und sie muß auch nicht mit Sicherheit auftreten, aber es muß eine positive Wahrscheinlichkeit für sie geben. Wichtig ist, daß der andere Spieler nicht bei einem Anreiz zur Defektion landet.
168
Schlußfolgerungen
Provozierbarkeit ist freilich auch nicht ungefährlich. Die Gefahr liegt darin, daß die Vergeltung zu weiterer Vergeltung führt und der Konflikt zu einer endlosen Folge wechselseitiger Defektionen degeneriert, wenn der andere Spieler eine Defektion versucht. In vielen Kulturen können Blut-Fehden zwischen Sippen über Jahre oder sogar Generationen unvermindert fortdauern (BlackMichaud 1975). Diese Fortdauer des Konflikts wird durch den Echo-Effekt bewirkt: Jede Seite antwortet auf die letzte Defektion. Eine Lösung besteht darin, eine Zentralgewalt zur Überwachung beider Seiten heranzuziehen, die rechtliche Regelung erläßt. Leider ist diese Lösung häufig nicht verfugbar und selbst wenn es eine Rechtsregel gibt, können die Kosten der Einschaltung von Gerichten bei Routineangelegenheiten wie der Durchsetzung geschäftlicher Verträge prohibitiv hoch sein. Sofern die Inanspruchnahme einer Zentralgewalt unmöglich oder zu kostspielig ist, besteht die beste Vorgehensweise darin, sich auf eine selbsttragende Strategie zu verlassen. Eine solche selbsttragende Regel muß provozierbar sein, aber die Antwort darf nicht zu heftig sein, damit sie nicht zu einem endlosen Echo von Defektionen führt. Nehmen wir ζ. B. an, die Sowjetunion leitet gemeinsam mit den anderen Ländern des Warschauer Pakts eine Teilmobilmachung ihrer Streitkräfte in Osteuropa ein. Diese Mobilmachung würde der Sowjetunion eine zusätzliche Überlegenheit für den Fall verschaffen, daß ein konventioneller Krieg ausbricht. Eine sinnvolle Antwort der NATO bestünde in einer Erhöhung der eigenen Alarmbereitschaft. Wenn zusätzliche Truppen aus der Sowjetunion nach Osteuropa verlegt würden, sollte die NATO durch zusätzliche Verlegung von Truppen aus den Vereinigten Staaten reagieren. Betts (1982, 293-94) schlägt vor, daß dieser Typus einer Antwort automatisch erfolgen sollte, damit der Sowjetunion klar gemacht werden kann, daß eine solche Erhöhung der Kampfbereitschaft der NATO ein standardmäßiges Vorgehen darstellt, das ausschließlich nach einer sowjetischen Mobilmachung erfolgt. Er empfiehlt zusätzlich, daß die Antwort begrenzt sein sollte, etwa als Verlegung einer amerikanischen Division für jeweils drei mobilisierte sowjetische Divisionen. Das würde zu einer Begrenzung der Echo-Effekte beitragen. Begrenzte Provozierbarkeit ist ein hilfreiches Merkmal einer
Die Robustheit der Reziprozität
169
Strategie, die die Erreichung stabiler Kooperation bezwecken soll. Während Ή Τ FOR TAT mit einem Maß an Defektion antwortet, das exakt demjenigen der Defektion des anderen entspricht, würde in vielen Fällen die Stabilität der Kooperation verstärkt, wenn die Reaktion etwas geringer ausfiele als die Provokation. Andernfalls wäre es zu leicht möglich, in endlose Reaktionen auf die letzte Defektion des jeweils anderen zu verfallen. Es gibt verschiedene Möglichkeiten zur Kontrolle eines Echo-Effektes. Ein Verfahren für den Spieler, der als erster defektiert hat, liegt in der Einsicht, daß die Reaktion des anderen nicht noch eine weitere Defektion hervorrufen muß. Die Sowjetunion könnte ζ. B. erkennen, daß die Mobilmachung der NATO lediglich eine Antwort auf ihre eigene Mobilmachung war, und daß sie folglich nicht als bedrohlich angesehen werden muß. Die Sowjetunion könnte das natürlich immer anders deuten, selbst wenn die Antwort der NATO automatisch und vorhersehbar war. Auch deshalb ist es sinnvoll, wenn die Reaktion der NATO ein wenig geringer ausfällt als die sowjetische Mobilmachung. Wenn dann die Antwort der Sowjetunion ebenfalls ein wenig geringer als die Ν ATO-Mobilmachung ist, kann die Eskalation der Kriegsvorbereitungen im Gleichgewicht gehalten und danach möglicherweise die Rückkehr zur Normalität eingeleitet werden. Zum Glück ist für die Evolution der Kooperation keine Freundschaft erforderlich. Wie das Beispiel des Stellungskrieges verdeutlicht, können selbst Feinde lernen, auf Gegenseitigkeit gestützte Kooperation zu entwickeln. Erforderlich ist nicht Freundschaft innerhalb einer Beziehung, sondern deren Dauerhaftigkeit. Für die internationalen Beziehungen ist es eine gute Sache, daß die Großmächte recht sicher gehen können, miteinander Jahr für Jahr zu interagieren. Ihre Beziehung mag nicht immer wechselseitig vorteilhaft sein, aber sie ist nun einmal dauerhaft. Daher sollten die Interaktionen des nächsten Jahres einen großen Schatten auf die Entscheidungen in diesem Jahr werfen, und es besteht eine gute Chance, daß sich schließlich Kooperation entwickelt. Voraussicht ist ebensowenig erforderlich, wie die biologischen Beispiele zeigen. Aber ohne Voraussicht kann der Evolutionsprozeß eine sehr lange Zeit benötigen. Zum Glück verfügen Menschen über Voraussicht und setzen sie ein, um den sonst blinden Evolutionsprozeß zu beschleunigen. Das schlagendste Beispiel
170
Schlußfolgerungen
dafür waren die Unterschiede zwischen dem ersten und dem zweiten Durchgang des Gefangenendilemma Computer-Turniers. In der ersten Runde waren die Teilnehmer professionelle Spieltheoretiker, die in bezug auf das Verhältnis vernünftigen Verhaltens im iterierten Gefangendilemma den Stand der Forschung repräsentativ wiedergaben. Ihre Regeln erreichten miteinander eine durchschnittliche Punktzahl von 2.10 pro Zug als Ergebnis, also nur wenig mehr als den Durchschnitt von Ρ = 1 (der Strafe für wechselseitige Defektion) und R = 3 (der Belohnung für wechselseitige Kooperation). Die Spieler der zweiten Runde erzielten viel bessere Ergebnisse, nämlich durchschnittlich 2.60 Punkte, was ein wenig besser ist als drei Viertel des Weges von wechselseitiger Β estrafung zu wechselseitiger Belohnung.3 Die Spieler waren also in der Lage, die Ergebnisse der ersten Runde, zu denen der Wert der Gegenseitigkeit gehört, zur Antizipation eines erfolgreichen Ab schneidens in der zweiten Runde zu verwenden. Im ganzen gesehen hat sich ihre Voraussicht durch beträchtlich höhere Punktzahlen ausgezahlt. Das Ergebnis war eine im Vergleich zur ersten raffiniertere zweite Runde, in der sich Kooperation auf der Grundlage von Gegenseitigkeit festigte. Die verschiedenen Ausbeutungsversuche der naiven Beiträge zur ersten Runde schlugen in der Umgebung der zweiten Runde sämtlich fehl. Dies zeigt, daß die Reziprozität von Strategien wie Ή Τ FOR TAT außerordentlich robust ist. Die Hoffnung ist vielleicht nicht unberechtigt, daß die Surrogat-Erfahrung aus dem Computer-Turnier von den Leuten verwendet werden kann, um den Wert der Gegenseitigkeit für eigene Gefangenendilemma-Interaktionen zu erkennen. Sobald einmal erkannt ist, daß das Prinzip der Gegenseitigkeit funktioniert, wird es zu einer Verhaltensmaxime. Wenn Sie von anderen erwarten, daß sie Ihre Defektion ebenso wie Ihre Kooperation erwidern, dann sind Sie gut beraten, keinen Ärger zu beginnen. Darüber hinaus sind Sie gut beraten zu defektieren, nachdem jemand anderes defektiert hat, um zu zeigen, daß Sie sich nicht ausbeuten lassen. Folglich sollten Sie eine Strategie verwenden, die auf Gegenseitigkeit beruht. Da dies auch für jeden anderen zutrifft, bekommt die Wertschätzung von Gegenseitigkeit einen selbsttragenden Charakter. Sobald sie in Gang kommt wird sie stärker und stärker.
Die Robustheit
der Reziprozität
171
Das ist das Wesentliche in bezug auf den Sperr-Effekt aus Kapitel 3: Sobald auf Gegenseitigkeit gegründete Kooperation sich in einer Population durchgesetzt hat, kann sie nicht einmal durch eine Gruppe von Individuen überwunden werden, die andere auszubeuten versuchen. Die Durchsetzung stabiler Kooperation kann lange Zeit benötigen, wenn sie auf der Grundlage blinder Evolution verläuft, oder sie kann recht schnell erfolgen, wenn intelligente Spieler ihre Wirkung schätzen. Die empirischen und theoretischen Ergebnisse dieses Buches mögen dazu beitragen, die vielerorts latent vorhandenen Gelegenheiten für Gegenseitigkeit besser zu erkennen. Kenntnisse der Konzepte, mit denen die Resultate der beiden Runden des Gefangenendilemma Computer-Turniers erklärt werden konnten, und das Wissen um die Gründe und Bedingungen für den Erfolg der Gegenseitigkeit mögen einiges an zusätzlicher Voraussicht vermitteln. Wir könnten dann einfacher unsere Schlüsse daraus ziehen, daß Ή Τ FOR TAT Erfolg hat, ohne besser zu sein als jemand, mit dem es interagiert. Es ist erfolgreich, weil es bei anderen Kooperation hervorlockt, nicht dadurch, daß es sie besiegt. Wir sind daran gewöhnt, an Wettkämpfe zu denken, in denen es wie beim Fußball oder Schach nur einen Sieger gibt. Die Welt ist aber selten so wie in diesen Spielen. In einem ganzen Spektrum von Situationen kann wechselseitige Kooperation für beide Seiten besser als wechselseitige Defektion sein. Der Schlüssel zum Erfolg liegt nicht darin, andere zu bezwingen, sondern sie zur Kooperation zu ermuntern. Gegenwärtig liegen die wichtigsten Probleme der Menschheit auf dem Gebiet der internationalen Beziehungen. Unabhängige, egoistische Staaten stehen sich in einem Zustand gegenüber, der beinahe anarchisch ist. Viele dieser Probleme nehmen die Gestalt eines iterierten Gefangenendilemmas an. Beispiele dafür sind der Rüstungswettlauf, die Ausbreitung von Kernwaffen, Verhandlungen in Krisensituation und militärische Eskalationen. Selbstverständlich müßten für ein realistisches Verständnis dieser Probleme viele Faktoren berücksichtigt werden, die nicht in dem einfachen Modell des Gefangenendilemmas enthalten sind, z.B. Ideologie, bürokratische Politik, Selbst-Verpflichtungen und Führung. Dennoch können wir alle Einsichten berücksichtigen, die wir bekommen. Robert Gilpin (1981, 205) weist darauf hin, daß sich die poli-
172
Schlußfolgerungen
tische Theorie seit der Antike bis zur aktuellen Forschung immer auf eine grundsätzliche Frage bezieht: „Wie kann die Menschheit, sei es aus egoistischen oder eher kosmopolitischen Gründen, die anscheinend blinden Kräfte der Geschichte verstehen und kontrollieren?" In der heutigen Weltlage ist diese Frage wegen der Entwicklung der Kernwaffen besonders akut geworden. Der in Kapitel 6 an Spieler des Gefangenendilemmas gerichtete Rat könnte nationalen Führern genauso gut dienlich sein: Sei nicht neidisch, defektiere nicht als erster, erwidere sowohl Kooperation wie Defektion und sei nicht zu raffiniert. Ähnlich mögen die in Kapitel 7 diskutierten Techniken der Förderung von Kooperation im Gefangenendilemma für den Bereich internationaler Beziehungen nützlich sein. Der Kern des Problems der Erreichung vorteilhafter Kooperation liegt darin, daß ein Lernen über Versuch und Irrtum langsam und schmerzhaft abläuft. Auch wenn die Bedingungen sämtlich günstig für langfristige Entwicklungen sind, könnte es sein, daß blinde Prozesse uns zu langsam zu wechselseitig vorteilhaften Strategien auf der Grundlage von Gegenseitigkeit führen. Wenn wir den Prozeß besser verstehen, können wir vielleicht unsere Voraussicht einsetzen, um die Evolution zu beschleunigen.
Anmerkungen zu Kapitel 9. Die Robustheit der Reziprozität 1
Das Gefangenendilemma ist ein wenig allgemeiner als es diese Diskussion nahelegt. Das Modell nimmt nicht an, daß die Kosten der Hilfeleistung unabhängig von Kooperation oder Defektion des anderen Spielers die gleichen sind. Es verwendet daher die zusätzliche Annahme, daß beide Spieler wechselseitige Hilfe dem Fall vorziehen, mit gleicher Wahrscheinlichkeit selbst auszubeuten oder ausgebeutet zu werden. 2 Es ist nicht überraschend, daß erfolgreiche Beamte in Washington lernen, sich in dieser „Regierung von Fremden" auf Gegenseitigkeit zu verlassen (Heclo 1977, 154-234). 3 Die durchschnittliche Punktzahl der Teilnehmer schließt die Ergebnisse sämtlicher Regeln abgesehen von R A N D O M ein. Sie berücksichtigt, daß die erste Runde 200 Spielzüge beinhaltet, während in der zweiten Runde Spiele mit unterschiedlichen Längen, im Durchschnitt 151 Züge pro Spiel, enthalten waren.
Anhang A Turnierergebnisse Als Ergänzung zum zweiten Kapitel enthält dieser Anhang weitere Informationen über die beiden Runden des Gefangenendilemma Computer-Turniers. Er informiert über die Turnierteilnehmer, über die von ihnen eingereichten Programme und über die Ergebnisse aller Interaktionen von allen Programmen. Zusätzlich werden Resultate untersucht, die sich bei sechs wichtigen Varianten des Turniers ergeben hätten. Dies führt zu weiteren Belegen für die Robustheit des Erfolgs von TIT FOR TAT. In der ersten Runde des Turniers wurden 14 Programme eingereicht. Hinzu kam RANDOM. Tabelle 2 enthält die Namen der Teilnehmer und die Punktzahlen ihrer Entscheidungsregeln. Tabelle 2: T e i l n e h m e r an der e r s t e n R u n d e d e s Turniers Platz
1 2 3 4 5 6 7 8 9
Name
ggfDisziplin
Punktzahl
Anatol Rapoport
Psychologie
Nicholas Tideman & Paula Chieruzzi Rudy Nydegger
Ökonomie
4 41
504.5 500.4
Psychologie
23
485.5
Bernard Grofman Martin Shubik
Politologie Ökonomie
8 16
481.9 480.7
50
477.8
13
473.4
6 63
471.8 400.7
33
390.6
6
327.6 304.4
Mathematik William Stein & A m m o n Rapoport Psychologie Ökonomie James W. Friedman Morton Davis Mathematik James Graaskamp Leslie Downing
Psychologie
Scott Feld
Soziologie
12 13 14
J o h a n n Joss Gordon Tullock
Mathematik Ökonomie
15
RANDOM
10 11
Länge des Programms
Anonym
5 18 77 5
300.5 282.2 276.3
Jede Regel traf fünfmal für jeweils 200 Züge auf jede andere Regel. Tabelle 3 enthält die Turnierergebnisse jeder Regel mit jeder anderen Regel.
174
Anhang A
O
i ^
O w
S O
M t
S τ
NO
Ο
«5 S Ρ Tf ^r t
S t
ON ON ON
-ν 'S-
r-J ΓΛ
o o
—' O O O 'O Λ
h
>Û
o
Oí
ce τ
τ
r-
—
O O
ζ