La pensée scientifique: Quelques concepts, démarches et méthodes [Traduit de l'anglais. Reprint 2019 ed.] 9783111545486, 9783111177038


146 53 17MB

French Pages 286 [288] Year 1978

Report DMCA / Copyright

DOWNLOAD PDF FILE

Table of contents :
Préface
Sommaire
Notes sur les auteurs
1. Les ensembles
2. La notion de structure
3. La théorie des systèmes
4. Les concepts de symétrie et la théorie fondamentale de la matière
5. Les signes
6. Le langage
7. L'information
8. Les modèles
9. La gestion en termes de cybernétique
10. Sur les notions d'opération et d'optimation
11. La théorie des jeux
12. La métathéorie
Recommend Papers

La pensée scientifique: Quelques concepts, démarches et méthodes [Traduit de l'anglais. Reprint 2019 ed.]
 9783111545486, 9783111177038

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

LA PENSÉE SCIENTIFIQUE

La pensée scientifique Quelques concepts, démarches et méthodes

Mouton Editeur / Unesco Paris • La Haye • New York

Les traductions de l'anglais sont de: ELLIOTT COHEN pour les articles de MM. Mostowski, Mesarovic, Salam, Watanabe, Beer et Bunge; YVONNE NOIZET pour les articles de M M . Tondl et Bar-Hillel; SERGE POZNANSKI pour l'article de M . Stachowiak.

ISBN: 90-279-7683-X (Mouton-La Haye) 2-7193-0827-7 (Mouton-Paris) 92-3-201023-2 (Unesco) © 1978, Unesco, Place de Fontenoy, Paris Couverture par Helmut Salden Imprimé en Hollande

Préface

«Nous avons toujours trouvé que, chaque fois qu'un postulat de symétrie semblait ne pas se vérifier dans des phénomènes naturels, c'était parce qu'il existait une symétrie plus profonde encore avec laquelle il était en conflit. Il nous arrive parfois de ne pas saisir l'esthétique de la nature, mais quand l'image ultime apparaît tout entière, nous nous apercevons toujours que les symétries qu'elle nous présente sont encore plus profondes.» Ce passage de l'article du professeur Salam résume bien l'histoire de la science et définit en même temps l'un des buts de la science et de la philosophie. Au-delà du terme ultime, il y a toujours un autre terme. Peut-être l'homme touchera-t-il vraiment au terme final quand il aura atteint l'infini... En outre, la science est multiforme, et chacun l'envisage en fonction de son expérience personnelle et de ses intérêts propres. C'est à la technologie, évidemment, que l'Age du bronze et l'Age du fer doivent leur nom, et pourtant quand on demanda en 1886 au célèbre physicien Boltzmann s'il pensait qu'on appellerait le 19e siècle le siècle du fer, de la vapeur ou de l'électricité, il répondit sans hésiter que ce serait le siècle de Darwin. Les philosophes, de leur côté, ont toujours essayé de voir plus loin que la science et de construire un cadre pour aider l'esprit humain à réfléchir sur la science et, partant, sur lui-même. Aristote, avec ses catégories, a offert une première systématisation que Kant a transformée en s'appuyant sur les connaissances acquises entre-temps en mathématiques et dans d'autres disciplines. Hegel, à son tour, a tenté de réaliser une synthèse qui intégrerait et transcenderait toutes les philosophies partielles et contradictoires de ses prédécesseurs... Une chose est certaine : à mesure que se multiplient les découvertes des savants, des penseurs et des philosophes, le savoir de l'homme s'étend et il devient de plus en plus difficile pour le profane de ne pas se laisser dépasser.

vi

Préface

Non seulement la physique, la chimie, la biologie et les mathématiques ont fait des progrès considérables, mais des disciplines entièrement nouvelles, comme la cybernétique, ont vu le jour. Les techniques de communications de masse ont transformé les concepts de l'information; la plupart des pays pratiquent la planification économique. On explore la lune et les planètes... Et cependant, comme le dit un proverbe chinois, le plus long des voyages commence toujours par un premier p a s . . . Le présent ouvrage rassemble des études écrites par d'éminents spécialistes que l'Unesco a invités à élucider les idées, les méthodes et les démarches qui ont mené à quelques-unes des découvertes du 20e siècle. Les opinions exprimées n'engagent que ceux qui les avancent et ne sont pas nécessairement partagées par l'Unesco. Il va sans dire qu'aucun de ces essais n'épuise la matière, et que, dans la plupart des cas, leurs auteurs ne se préoccupent pas des opinions différentes que d'autres pourraient avoir sur le même sujet. Cependant le lecteur trouvera, à la fin de chaque texte, une bibliographie qui lui permettra, s'il le désire, d'approfondir la question.

Sommaire

v

Préface Notes sur les auteurs

IX

1. ANDRZEJ MOSTOWSKI

Les ensembles

1

2 . JEAN PIAGET

La notion de structure

37

3. MIHAJLO D . MESAROVIC

La théorie des systèmes

59

4 . ABDUS SALAM

Les concepts de symétrie et la théorie fondamentale de la matière

73

5. LADISLAV TONDL

Les signes

93

6 . YEHOSHUA BAR-HILLEL

Le langage

113

7. SATOSI WATANABE

L'information

137

8 . HERBERT STACHOWIAK

Les modèles

155

9 . STAFFORD BEER

La gestion en termes de cybernétique 179 Sur les notions d'opération et d'optimation

199

11. NICOLAI N . VOROBYEV

La théorie des jeux

223

12. MARIO BUNGE

La métathéorie

247

10. ARNOLD KAUFMANN

Notes sur les auteurs

YEHOSHUA BAR-HILLEL, né à Vienne en 1915, a obtenu son doctorat en 1949 à l'Université Hébraïque de Jérusalem. Il a enseigné et fait des recherches aux Etats-Unis (M.I.T., California, Ann Arbor), en Europe (Constance et Berlin) et en Israël (logique et philosophie des sciences à l'Université Hébraïque). Ancien Président de l'Union internationale d'Histoire et Philosophie des Sciences, membre de l'Académie Israélienne des Arts et des Sciences. Il a notamment publié : Language and information ; Aspects of language: essays in philosophy of language, linguistic philosophy and methodology of linguistics; Foundations of set theory (en collaboration avec A. A. Fraenkel et A. Levy). STAFFORD BEER. Professeur de cybernétique à l'Université de Manchester, il enseigne également les systèmes généraux à la Open University de Londres. Président de la Society for General Systems Research à Washington, il fait également partie du United Kingdom Automation Council. Conseiller auprès de l'administration et de l'industrie, il fait régulièrement des émissions à la radio et à la télévision. Parmi ses oeuvres, on peut citer: Cybernetics and management; Decision and control (qui a reçu le prix Wiley-Lanchester) ; Management science; Brain of the firm; Platform for change. MARIO BUNGE, né à Buenos Aires en 1919, est docteur en physique théorique et a fait des recherches de physique atomique et nucléaires. Il a enseigné la physique et la philosophie en Argentine et aux Etats-Unis. Actuellement, il est professeur de philosophie et Directeur de la Foundations and Philosophy of Science Unit à l'Université McGill (Montréal). Citons, parmi ses travaux: Causality; Metascientific queries; Cinemática del electrón relativista; Intuition and science; The myth of simplicity; Foundations of physics; Scientific research.

x

Notes sur les auteurs

ARNOLD KAUFMANN est professeur à l'Institut National Polytechnique de Grenoble, France. Il a enseigné à l'Ecole Nationale Supérieure des Mines, à Paris, et à l'Ecole de l'Air de Salon-de-Provence. Il est consultant auprès de l'Unesco pour divers projets. A. Kaufmann a notamment publié : Les cadres et la révolution informatique (Prix Centi, 1970); Des sous-hommes et des super-machines (en collaboration avec J. Pèze) ; Uinventique - nouvelles méthodes de créativité (en collaboration avec M. Fustier et A. Drevet); Mathématiques nouvelles pour le recyclage des parents (en collaboration avec G. Cullmann); Introduction à la combinatorique; L'homme d'action et la science; Introduction à la théorie des sous-ensembles flous. MIHAJLO D. MESAROVIC est professeur d'ingénierie et Directeur du Systems Research Center à la Case Western University, Cleveland (Ohio), EtatsUnis. Il poursuit des travaux sur la théorie mathématique des systèmes généraux et l'application du point de vue hiérarchique, à niveaux multiples, aux problèmes socio-économiques et aux problèmes de l'environnement (en particulier dans le cadre du projet «Dilemmes de ^Humanité» du Club de Rome - dont il est membre). On lui doit notamment: Theory of multilevel hierarchical systems (en collaboration avec D. Macko et Y. Takahara) ; Foundations for a mathematical général systems theory (en collaboration avec Y. Takahara); Systems approach and the city (publié avec le concours d'A. Reisman); Theory of non-numerical problem solving (publié avec le concours de R. Banerji) ; Systems theory and biology (directeur de publication). ANDRZEJ MOSTOWSKI enseigne depuis 1946 les mathématiques, la logique et les fondements des mathématiques à l'Université de Varsovie. Il poursuit actuellement des recherches sur les modèles de systèmes généralisés de la théorie des ensembles et de systèmes arithmétiques. Il a écrit notamment : Constructible sets, with applications. JEAN PIAGET est né à Neuchâtel en Suisse en 1896. Il a enseigné aux

Universités de Neuchâtel, Lausanne et Genève, ainsi qu'à la Sorbonne. Pionnier de la recherche en psychologie enfantine, il a été Directeur du Bureau International d'Education à Genève, ainsi que de divers organismes de recherche. Il est Docteur Honoris Causa de plusieurs universités européennes et américaines, dont Harvard, Yale et la Sorbonne, et a

Notes sur les auteurs

xi

reçu de nombreux prix, parmi lesquels celui de l'American Psychological Association (1969). Principales publications: Mémoire et intelligence (avec H. Sinclair-de Zwaart); Le structuralisme; L'épistémologie génétique; Psychologie et épistémologie ; Introduction et chapitres «Psychologie» et «Problèmes généraux de la recherche interdisciplinaire et mécanismes communs» de l'ouvrage Tendances principales de la recherche dans les sciences sociales et humaines (Partie 1: Les sciences sociales) (Unesco, 1970). ABDUS SALAM dirige le Centre International de Physique Théorique à Trieste, en Italie. Professeur de physique théorique à l'Impérial College of Science and Technology de Londres, il est spécialiste de la physique des particules et de la théorie de la gravitation. Il a écrit des ouvrages portant sur les sujets suivants: La théorie des groupes et le physicien de la symétrie (London Mathematical Society); Rôle de la physique de la symétrie; Interactions faibles et électromagnétiques (Symposium Nobel 8) ; Théorie fondamentale de la matière : résultats et méthodes; Identités de Ward pour le champ gravitationnel (en collaboration avec J. Strathdee); Calcul des constantes de renormalisation; Théories finies des champs (Rochester Conference). HERBERT STACHOWIAK est professeur de philosophie des sciences à l'Université Libre de Berlin. Parmi ses ouvrages, on peut notamment citer : Denken und Erkennen im kybernetischen Modell; Rationalismus im Ursprung. Die Genesis des axiomatischen Denkens. Il est directeur de publication de la collection «Cybernetics» et co-directeur de publication de Schriften zur wissenschaftlichen Weltorientierung (vol. I-VII); de Lexikon der kybernertischen Pädagogik; de Teorema (Université de Valence) et de Grundlagenstudien aus Kybernetik und Geisteswissenschaft. LADISLAV TONDL est né en 1924. Il est chercheur et professeur de métho-

dologie des sciences et de sémantique logique à l'Académie des Sciences de Tchécoslovaquie. On lui doit notamment Methodology of experimental sciences; Contemporary western philosophy; Problems of semantics; Man and science; Scientific procédures.

XII Notes sur les auteurs NICOLAI N . VOROBYEV, né en 1925, a o b t e n u en 1961 le d o c t o r a t de

physique et de mathématique. Professeur de cybernétique théorique, il dirige le Département des recherches opérationnelles de l'Institut central d'Economie et de Mathématiques (Section de Léningrad) de l'Académie des Sciences de l'U.R.S.S. Spécialiste de la théorie des jeux, il donne des cours à l'Université d'Etat de Léningrad. N. Vorobyev a écrit des ouvrages sur les jeux en coalition, l'algèbre extrémale des matrices positives et la théorie des jeux. On lui doit aussi Les nombres de Fibonacci; La théorie des séries; Le développement de la théorie des jeux (ces trois ouvrages sont rédigés en russe) ; Grundlagen der Spieltheorie und ihre praktische Bedeutung; Grundfragen der Spieltheorie und ihre praktische Bedeutung. SATOSI WATANABE, né en 1910, est Docteur de la Sorbonne et de l'Université de Tokyo. Il a enseigné la philosophie, l'électrotechnique, la physique et les sciences de l'information dans plusieurs universités (notamment Hawaii, Fordham, Yale, Columbia et Tokyo). Il est Président de la Société Internationale pour l'Etude du Temps et membre de l'Académie internationale de Philosophie des Sciences. Il a publié Knowing and guessing - a quantitative study; Méthodologies of pattern récognition (directeur de publication); Frontiers of pattern récognition (directeur de publication).

1 Les ensembles

ANDRZEJ MOSTOWSKI

Nous nous proposons ici d'étudier la notion d'ensemble, en nous intéressant principalement aux mathématiques, puisque c'est là que cette notion trouve le plus d'applications et là aussi que sont nées les premières controverses philosophiques modernes concernant la nature des ensembles. Bien que la notion d'ensemble soit à la base de plusieurs concepts scientifiques non mathématiques, c'est à la manière des mathématiques qu'elle intervient dans leur définition. Il n'est donc pas exagéré de dire que la notion d'ensemble utilisée dans les sciences ne diffère pas essentiellement de la notion mathématique. On verra plus loin que bien des discussions subtiles relatives à des problèmes mathématiques très abstraits proviennent de la manière dont nous faisons usage du mot ensemble dans le langage courant.

1. LES E N S E M B L E S D A N S LE L A N G A G E C O U R A N T

1.1

Les ensembles

Nous parlons souvent d'une collection d'objets dans le sens d'une entité formée de ces objets et nous donnons des noms divers à de telles entités (collection, groupe, ensemble, classe, agrégat). Alors que certains termes désignent des collections très particulières (une constellation, par exemple), d'autres termes s'emploient indifféremment dans des situations variées. C'est ainsi que l'on pourra parler d'un groupe de démonstrateurs ou d'un groupe d'immeubles. On ne peut pas considérer tous ces mots comme synonymes : l'expression «groupe de démonstrateurs» est correcte, mais l'expression «classe de démonstrateurs» n'est vraiment pas acceptable. Néanmoins, il est évident que tous ces termes ont un sens voisin. Nous éviterons les difficultés linguistiques en utilisant le mot neutre

2 Andrzej Mostowski «ensemble» pour désigner toute entité (collection, groupe, classe, équipe, etc.) formée d'objets individuels, objets que nous appellerons les éléments de l'ensemble. C'est ainsi que nous pouvons considérer un ensemble de joueurs de football (une équipe), un ensemble d'étoiles (une constellation), l'ensemble des habitants d'une ville âgés de moins de vingt ans (un groupe), etc.

1.2

Opérations sur les ensembles

Les mots que nous venons d'employer sont parfaitement consacrés par le langage courant et nous n'avons pas la moindre difficulté à les comprendre. Leur usage est très utile pour classer des objets ou pour résoudre des problèmes élémentaires de statistique. C'est ainsi par exemple que, dans la préparation de statistiques sur la population d'une ville, nous pouvons grouper les habitants en ensembles selon l'âge, la profession, le revenu annuel, etc. On peut, même à ce niveau tout à fait élémentaire, effectuer des opérations très utiles avec de tels ensembles. Ensemble Ensemble réunion de A et intersection de A et de différence de A et de différence de B et de

A B B B B A

= = = = = =

a, b, a, 4, a, b,

c, e, c, y c, e,

8, 4, z, y 9, 4, x, y 8, 4, z, y, b, e, 9, 4, x, y 8, z 9, x

O n peut par exemple former la réunion de deux ensembles (ensemble qui, par définition, est formé des éléments appartenant soit à l'un soit à l'autre des deux ensembles, soit aux deux), ou encore leur intersection (ensemble formé des éléments communs aux deux ensembles donnés). La différence de deux ensembles A et B est l'ensemble formé par les éléments de A qui ne sont pas dans B. Le système de lois générales régissant ces diverses opérations constitue ce qu'on appelle communément l'algèbre de Boole. Il est important ici d'avertir le lecteur que les ensembles ou les collections dont nous parlons dans le langage courant contiennent tous des éléments et, d'autre part, que nous ne considérons pas des ensembles ne contenant qu'un élément, l'idée fondamentale de la notion d'ensemble étant celle d'une entité composée de plusieurs éléments : si nous n'avons affaire qu'à élément, il est inutile d'en faire un ensemble. Il est clair toutefois que de telles restrictions sont très gênantes et les applications, même les plus

Les ensembles

3

plus simples, aux statistiques exigent une extension de la notion d'ensemble qui permette d'envisager des ensembles vides d'éléments ou encore des ensembles ne contenant qu'un seul élément. Ainsi, par exemple, si nous répartissons la population en groupes selon certaines propriétés, il se peut très bien qu'il n'y ait qu'une personne à avoir cette propriété, ou encore qu'il n'y en ait aucune. Les axiomes de l'algèbre booléenne affirment explicitement l'existence d'un «ensemble vide». 1.3

Le principe d'abstraction

Un moyen théoriquement important de construire des ensembles est donné par le principe d'abstraction. Soient un ensemble E et une relation binaire R défine dans £ et à laquelle un couple d'éléments de E peut ou peut ne pas appartenir. Nous supposerons que la relation R est réflexive (tout élément de £ est dans la relation R avec lui-même), symétrique (si x est dans la relation R avec y, alors y est dans la relation R avec x), et transitive (si x est dans la relation R avec y et y est dans la relation R avec z, alors x est dans la relation R avec z). Une telle relation s'appelle une relation d'équivalence. Le principe d'abstraction dit alors qu'une relation d'équivalence R sur un ensemble E permet de subdiviser E en sous-ensembles (ou parties) deux à deux disjoints, deux éléments de E étant dans la même partie si et seulement s'ils sont chacun dans la relation R avec l'autre. Les parties ainsi obtenues s'appellent les classes d'équivalence de la relation R. Illustrons ces idées par l'ensemble E de tous les bateaux, en convenant qu'un bateau est dans la relation R avec un autre si et seulement s'ils ont tous les deux le même mode de propulsion. Les classes d'équivalence sont alors l'ensemble des bateaux à moteur, l'ensemble des bateaux à voile, etc. 1.4

Caractère abstrait des ensembles

Nous étudierons maintenant le problème suivant: un ensemble dont les éléments sont des objets matériels doit-il être lui aussi considéré comme un objet matériel? C'est là un problème vague puisque le sens de l'expression «objet matériel» est loin d'être clair. Nous n'essayerons pas d'analyser ce concept ici et nous contenterons de l'utiliser dans son sens courant. Il est d'usage d'exiger d'un objet matériel qu'il occupe une partie bien déterminée de l'espace et qu'il soit connexe. En ce sens, la plupart des ensembles ne sont pas des objects matériels: une constellation, par exemple, ne forme pas une entité connexe unique. Mais, même en admettant

4

Andrzej

Mostowski

que des objets matériels ne soient pas nécessairement connexes, il n'est pas possible de considérer un ensemble comme un objet matériel. En effet, l'ensemble des particules élémentaires présentes dans les étoiles d'une constellation donnée serait identique à cette constellation, ce qui est faux, le premier ensemble étant un ensemble de particules élémentaires et le second un ensemble d'étoiles. Le problème a été traité par Frege (1884), qui a montré de manière concluante qu'un ensemble n'est jamais un objet matériel. Même un ensemble ne contenant qu'un seul élément n'est pas la même chose que cet élément : cela est particulièrement clair dans le cas où l'élément unique de l'ensemble n'est pas lui-même un ensemble. En affirmant que les ensembles sont des entités abstraites et non des objets matériels, nous ne prenons aucune position philosophique quant à l'existence «réelle» des quantités abstraites. Nous voulons simplement dire que tous les noms d'ensembles appartiennent à la famille de mots qui ne nomment pas des objets matériels. Cette famille contient, bien entendu, beaucoup de mots du langage courant (les adjectifs, par exemple). Le fait que les mots qui servent à désigner les ensembles soient des noms (tout comme les noms d'objets matériels) ne signifie pas que les ensembles existent dans le même sens que les objets matériels. Au contraire, les ensembles ne sont pas des objets matériels et n'existent que dans le même sens que les propriétés. 1.5

Ensembles et propriétés

Il existe des rapports étroits entre les ensembles et les propriétés. On peut toujours, dans le langage courant, définir les premiers à l'aide des secondes. Tout ensemble est entièrement déterminé par une propriété. Ainsi l'ensemble des Polonais âgés de 51 ans en 1969 est entièrement déterminé par la propriété d'être un Polonais né en 1918. Il faut toutefois remarquer que des propriétés différentes peuvent parfois définir le même ensemble : on pourra, dans l'exemple qu'on vient de donner, prendre pour propriété celle d'être un Polonais né l'année où la première guerre mondiale s'est terminée. Disons de deux propriétés qu'elles sont égales en extension si, chaque fois qu'un objet en possède une, il possède aussi l'autre. Deux propriétés définissent le même ensemble si et seulement si elles sont égales en extension. Grâce au principe d'abstraction, nous pouvons alors affirmer que les ensemble sont (ou, si l'on veut, sont en correspondance biunivoque avec) les classes d'équivalence de la relation d'égalité en extension.

Les ensembles

5

Cette identification des ensembles avec les classes d'équivalence de la relation d'égalité en extension nous permet aussi de mieux voir pourquoi les ensembles ne sont pas des entités physiques. On pourrait penser, par exemple, qu'un navire est identique à l'ensemble des poutres de bois qui le forment. Il est facile de voir que cette identification est incorrecte : en effet, si l'on remplace une poutre pourrie par une poutre neuve, alors, d'après l'identification faite plus haut, l'ensemble des planches n'est plus le même. L'identité du navire, en revanche, demeure la même. Le cuirassé Victory, que l'on peut encore voir aujourd'hui, est bien celui qui participa à la Bataille de Trafalgar, bien qu'il s'agisse là, sans aucun doute, d'un autre ensemble de poutres. De même, un immeuble ne doit pas être confondu avec l'ensemble des pierres et des briques avec lesquelles on l'a construit. Ces considérations, si elles ne démontrent pas de manière concluante qu'un ensemble n'est pas un objet matériel, écartent tout au moins la raison la plus évidente qu'on pourrait avoir de croire qu'il pourrait l'être (le lecteur pourra se reporter à D. Wiggins, 1967, pour une étude plus détaillée de cette question). 1.6

Ensembles

d'ensembles

Le caractère abstrait des ensembles se manifeste dans la possibilité de construire des ensembles dont les éléments sont eux-mêmes des ensembles. Cette possibilité est parfaitement acceptée par le langage courant. C'est ainsi que nous pouvons parler d'un ensemble d'équipes de football ou d'un ensemble de toutes les constellations, ou encore d'un ensemble de tous les services de table. Des objets qui ne sont pas des ensembles seront dits de type 0; on appellera ensembles de type 1 les ensembles dont les éléments sont tous de type 0, ensembles de type 2 les ensembles dont les éléments sont de type 1, etc. Il est rare de rencontrer dans le langage courant des mots se référant à des ensembles de type supérieur à 2. D'autre part, nous ne considérerons pas des ensembles de type mixte, c'est-à-dire des ensembles dont les éléments ont des types variés. Il n'y a cependant aucune raison d'exclure par principe de tels ensembles. Il se trouve tout simplement qu'on n'en a pas besoin dans les situations de la vie courante. 1.7

Remarque

La thèse que nous venons d'exposer concernant le caractère abstrait des

6

Andrzej

Mostowski

ensembles a été largement acceptée mais pas unanimement. L'un des plus chauds partisans de la thèse opposée fut Lesniewski, qui maintenait que les ensembles sont des corps physiques et que la relation liant un élément à un ensemble a les mêmes genres de propriétés que celle liant une partie d'un corps au corps entier. Le lecteur pourra se reporter à Luschei (1962) pour une étude détaillée de la théorie de Lesniewski ; voir aussi Goodman (1951).

2 . LE D É V E L O P P E M E N T DE LA NOTION D ' E N S E M B L E EN MATHÉMATIQUE MODERNE

Nous continuerons à employer le terme «ensemble». Il est devenu courant d'employer ce mot en mathématique et son usage ne peut conduire à aucune difficulté linguistique. De plus, des termes qui, dans le langage courant, se réfèrent à certains types d'ensembles, ont acquis en mathématique un sens technique très particulier, et parfois même ne se réfèrent pas à des ensembles. Cela est vrai par exemple de mots aussi courants que «groupe», «classe», etc. 2.1

Les fondements ensemblistes de la mathématique

Ainsi qu'en témoigne la notion de lieu géométrique, utilisée depuis des temps immémoriaux dans l'enseignement de la géométrie, il y a longtemps que les ensembles sont employés en mathématique, mais c'est seulement au 19e siècle qu'ils ont commencé à jouer un rôle essentiel, quand les mathématiciens en ont fait un usage répandu dans leurs travaux sur les fondements de l'analyse infinitésimale. Rappelons brièvement quelques faits historiques saillants. Les grandes découvertes mathématiques du 17e siècle furent suivies, au siècle suivant, par un développement bouillonnant des idées nouvelles et de leurs applications. Les nouvelles mathématiques ainsi créés étaient très différentes des anciennes, non seulement parce que leur contenu avait changé mais aussi parce qu'elles étaient incomparablement plus précises. Les mathématiciens du 18e siècle s'efforcèrent surtout d'enrichir la mathématique de résultats intéressants et d'en donner de nouvelles applications. Il est bien connu que les créateurs du calctil infinitésimal fondaient leurs théories sur des notions tout à fait vagues et, à relire certaines oeuvres des meilleurs

Les ensembles

7

mathématiciens du 18e siècle, on se demande souvent comment des méthodes si floues et si peu convaincantes (selon nos critères actuels) ont pu leur permettre de trouver des résultats corrects (voir Polya, 1954, p. 20-21). La merveilleuse rigueur des Grecs tomba dans l'oubli. Au cours du 19e siècle, une réaction s'instaura: plusieurs mathématiciens éminents s'efforcèrent de reformuler et de corriger les fondements de l'analyse. La difficulté essentielle consistait à donner des définitions exactes de notions aussi fondamentales que celles de fonction (ou application) de suite de nombres, de nombre réel, de nombre complexe, et d'en déduire ensuite les propriétés à partir des axiomes et des lois généralement acceptées du raisonnement logique. Nous ne pouvons pas retracer ici tous les détails du long et pénible travail, commencé par Gauchy et terminé par Frege et Cantor, que firent les mathématiciens du 19e siècle. Le résultat de leurs travaux est ce que l'on appelle maintenant les fondements ensemblistes des mathématiques: tous les concepts nécessaires à un développement rigoureux des mathématiques s'avérèrent définissables à partir d'un très petit nombre de concepts fondamentaux, pour autant qu'un usage suffisamment large des ensembles dans les définitions fût permis. Tous les théorèmes que l'on avait auparavant acceptés sur la seule foi de l'intuition ou que l'on avait établis de manière incomplète et souvent non satisfaisante purent alors être déduits strictement d'un petit nombre d'axiomes très naturels exprimant les propriétés fondamentales des notions de base. Plusieurs de ces axiomes faisaient intervenir le mot «ensemble», bien qu'à ce stade primitif cette notion ne fût pas encore axiomatisée. Si l'on pouvait demander à un mathématicien du 19e siècle pourquoi il en était ainsi, il répondrait sans doute que l'étude des ensembles était du ressort de la logique et ne présentait pas d'intérêt pour les mathématiciens. Illustrons cette réduction de concepts mathématiques à des notions élémentaires. La notion intuitive d'application (ou de fonction) d'un ensemble A à un ensemble B - qui peut ou peut ne pas être égal à A est celle d'une règle donnée qui associe à chaque élément x de A un et un seul élément^ de B. Ainsi la fonction notée + V * de l'ensemble des entiers naturels dans l'ensemble des nombres réels associe à chaque entier positif sa racine carrée positive. L'image d'un élément x de A par l'application / d e A dans B est l'élément y de B associé à x par la fonction/. Ainsi, dans l'exemple donné plus haut, 2 est l'image de 4 par la fonction + t/x. Mais les notions de «règle donnée» et d'«associé» sont elles-mêmes vagues. On

8 Andrzej Mostowski peut donner d'une application une définition précise grâce aux ensembles, en faisant usage de la notion de couple (paire ordonnée), c'est-à-dire d'un ensemble, noté (x, y) qui est construit à partir de deux éléments x et y, tels que le couple (x, y) égale le couple (w, z) si et seulement si x = w et y = z. Une application/de A dans B est définie alors comme l'ensemble de tous les couples (x, >>) dans lesquels x est dans A et y dans B est l'image de x p a r / . On peut de cette manière parler de certains ensembles de couples plutôt que de fonctions ou d'applications. On peut même ramener la notion de couple à celle d'ensemble, mais nous ne traiterons pas de cette réduction ici. De même, on définit la suite a0, aua2, ... de nombres réels comme étant la fonction de l'ensemble des entiers 0, 1, 2 , . . . dans l'ensemble des nombres réels qui associe le nombre réel a(n) à l'entier n. La notion de suite se ramène donc elle aussi à celle de couple. Il en est de même pour les nombres complexes, a + bi pouvant s'identifier au couple (a, b) de nombres réels. L'analyse des nombres réels s'avéra des plus difficiles. Cela était à prés voir puisque, comme l'indique l'histoire de la mathématique, ces nombres avaient déjà causé pas mal d'ennuis dans la période pré-euclidienne. La mathématique contemporaine offre deux manières de traiter de la théorie des nombres réels. La première, dite axiomatique, prend la notion de nombre réel comme une notion primitive et en donne une caractérisation axiomatique appropriée. La seconde méthode, dite génétique, consiste à définir les nombres réels à partir des nombres rationnels (c'est-à-dire des «fractions»). Quelle que soit la méthode adoptée, la notion d'ensemble y joue un rôle essentiel. C'est ainsi que, dans la méthode génétique, un nombre a est défini comme étant un couple formé de deux ensembles de nombres rationnels. Grosso modo, le premier ensemble contient les nombres rationnels inférieurs à a, tandis que l'autre contient les nombres rationnels supérieurs ou égaux à a. Dans la méthode axiomatique, on postule notamment que si A et B sont deux ensembles de nombres réels tels que chaque élément du premier est inférieur à chaque élément du second, il existe un nombre réel x qui sépare ces deux ensembles, c'est-àdire qui est supérieur ou égal à tout élément de B. Il est facile de définir les nombres rationnels à partir des entiers, mais l'analyse de cette dernière notion s'avéra elle aussi assez difficile. Il est d'usage de considérer cette notion comme primitive et d'en donner une caractérisation axiomatique. Ici encore, la notion d'ensemble est primordiale puisqu'elle intevient dans le principe fondamental d'induction (le plus

Les ensembles 9 simple axiome équivalent à ce principe énonce l'existence, dans tout ensemble non vide d'entiers positifs, d'un entier minimal). Frege (1884 ; 18931903) a essayé de définir les entiers par la méthode génétique, alors que Péano (1889) en donnait pour la première fois une caractérisation axiomatique. Trois dernières remarques avant de clore ce paragraphe : A) S'il est historiquement vrai que l'on a fait usage des ensembles pour établir des fondements solides de l'analyse, cet usage ne semble pas devoir être une nécessité : d'autres notions générales, telles que celle de fonction ou de relation, auraient tout aussi bien pu jouer ce rôle, et il n'est pas impossible que d'autres concepts encore puissent être inventés pour atteindre ce but. B) Dans l'énoncé des axiomes et dans la description des diverses définitions données plus haut, nous n'avons pas parlé d'ensembles particuliers mais des ensembles dans leur totalité, ainsi qu'on a pu le constater par la présence des quantificateurs «pour tout ensemble» dans l'axiome de continuité et le principe d'induction. Nous faisons donc comme si la totalité des ensembles (de nombres réels ou de nombres entiers) était une classe bien définie d'objets. C) Dans la construction génétique des nombres réels, les ensembles intervenant implicitement dans les théorèmes mathématiques sont de type beaucoup plus grand que les ensembles dont nous parlons dans le langage courant. Par exemple, une fonction de l'ensemble des réels dans lui-même est en fait un ensemble de couples dont chaque coordonnée est elle-même un couple formé de deux ensembles de rationnels. 2.2 Le rôle de la théorie des ensembles dans le développement ultérieur des mathématiques Nous venons de voir que la notion de partie arbitraire d'un ensemble est devenue un concept mathématique accepté. Les mathématiciens en ont très vite fait un vaste usage et ont développé avec elle de nouveaux chapitres des mathématiques qui devaient approfondir, d'une part, l'étude des domaines «classiques» et, d'autre part, l'étude des nouvelles notions per se. Nous ne pouvons évidemment pas présenter ici dans tous leurs détails les nouvelles théories ainsi créées puisqu'elles traitent de sujets «techniques». Nous essayerons toutefois d'indiquer quelques faits pertinents. Le principal problème des mathématiques classiques était l'étude de

10 Andrzej Mostowski fonctions particulières de l'ensemble des réels dans lui-même ou de l'ensemble des complexes dans lui-même et ayant soit des propriétés intéressantes, soit des applications à la mécanique ou à d'autres branches de la physique. La considération de parties quelconques d'un ensemble donné entraîna immédiatement un accroissement d'intérêt pour les fonctions complètement arbitraires de l'ensemble des réels dans lui-même, toute fonction,'ainsi que nous l'avons déjà dit, n'étant qu'un ensemble de couples. C'est ainsi que fut créée la théorie moderne des fonctions réelles. On s'aperçut que des propriétés qui, dans la théorie classique, avaient été jugées essentielles pour la notion de fonction (comme la continuité ou la différenciabilité) n'étaient qu'exceptionnellement partagées par les fonctions arbitraires: la plupart des fonctions réelles sont discontinues et la plupart des fonctions continues ne sont pas différenciâmes. Il fallut donc mettre au point de nouvelles méthodes pour étudier ces fonctions et, là encore, la théorie des ensembles arbitraires fut l'outil fondamental. Les théories modernes de la mesure et de l'intégration furent une conséquence naturelle de ce développement. Elles s'avérèrent bien supérieures aux théories anciennes créées au 19e siècle. Plusieurs domaines de l'analyse classique ne purent se développer que quand la nouvelle théorie de l'intégrale remplaça la théorie ancienne et, aujourd'hui, non seulement les mathématiciens mais aussi les physiciens étudient la théorie abstraite générale de la mesure. Un développement semblable se produisit en géométrie, où l'on se mit à étudier des ensembles très généraux de points au lieu d'analyser des courbes et des surfaces très régulières. Mais cette tendance à la généralité ne s'arrêta pas là. L'étude des fonctions réelles arbitraires ayant été couronnée de succès, les mathématiciens se tournèrent vers l'étude des fonctionnelles, c'est-à-dire des fonctions dont les arguments sont eux-mêmes des fonctions (ou ensembles) et dont les exemples les plus simples sont l'intégrale et les mesures. L'étude systématique des fonctionnelles aboutit à une nouvelle, théorie mathématique: l'analyse fonctionnelle. Ainsi, ce même pas qui nous a conduits de l'étude de certaines fonctions réelles particulières à la théorie générale des fonctions réelles se trouve ici répété, mais à un niveau plus élevé. Dans la terminologie des types, on peut donc dire que l'analyse fonctionnelle étudie des objets situés un échelon au-dessus des objets étudiés par l'analyse classique. De tels développements ne se produisirent pas seulement en théorie des

Les ensembles

11

fonctions mais aussi en géométrie et surtout en topologie. Les objets simples reçurent de moins en moins d'attention alors que croissait l'intérêt pour les objets de types plus élevés. Du point de vue qui nous intéresse ici, nous pouvons énoncer de la manière suivante le principe sous-jacent à ces processus : toutes les fois qu'un ensemble devient un objet mathématique accepté, il en advient de même de l'ensemble de ses parties. Nous allons maintenant décrire la dernière étape de cette évolution vers la généralité qui est caractéristique des mathématiques modernes. Au début, les théories modernes telles que l'analyse fonctionnelle, la topologie et quelques autres ne traitaient presque exclusivement que d'ensembles particuliers. En topologie, par exemple, on étudiait bien des ensembles très généraux mais l'espace sous-jacent qui contenait les ensembles étudiés était très particulier. Il en était de même de l'analyse fonctionnelle, où l'on étudiait des fonctionnelles très générales et abstraites mais qui n'opéraient que sur des espaces particuliers, tels que l'ensemble des fonctions réelles ou l'ensemble de toutes les suites réelles. Il ne restait plus alors qu'à faire le dernier pas: remplacer ces espaces sousjacents par des espaces arbitraires. Dans une théorie moderne, on commence donc par définir axiomatiquement certains «espaces», c'est-à-dire des ensembles que l'on peut munir de certaines structures, et l'on étudie les sous-ensembles de l'espace ou des applications d'un espace dans un autre. Cette méthode abstraite est d'une grande économie puisqu'elle permet habituellement de retrouver plusieurs résultats de la théorie classique comme cas particuliers de la théorie générale. Bien entendu, le fait que cette méthode abstraite soit possible est dû au développement de la théorie des ensembles abstraits. Nous allons retracer ce développement dans la section 3, mais nous voudrions conclure maintenant par quelques remarques supplémentaires relatives' à l'importance que présente la méthode ensembliste abstraite pour les mathématiques. 2.3 Remarques relatives à Vapplicabilité des théories abstraites Ces remarques seront assez brèves, l'auteur n'étant pas suffisamment compétent pour discuter en détail de ce problème. Contentons-nous donc de dire que l'analyse fonctionnelle abstraite est utilisée en théorie des quantas, où l'on a découvert qu'il y avait le plus grand avantage à décrire des quantités physiques telles que l'énergie, le moment, etc., par des opérateurs (fonctionnels) agissant sur un espace abstrait.

12 Andrzej Mostowsfci A un niveau logiquement plus élémentaire, l'étude des fonctions définies sur des ensembles abstraits a rendu possible par exemple la création de la théorie des jeux, théorie dont l'importance pratique est aujourd'hui généralement reconnue. Si on lit la description des jeux, dans von Neumann et Morgenstern (1947) par exemple, on voit qu'aucune description mathématique de ce concept ne serait possible sans les mathématiques abstraites, qui mettent l'accent sur l'étude des ensembles et des fonctions arbitraires. On peut en dire autant de la théorie moderne des probabilités et de ses nombreuses applications, ainsi que de l'informatique.

3. LE D É V E L O P P E M E N T DE LA THÉORIE ABSTRAITE DES ENSEMBLES AU 19 e SIÈCLE

La théorie des ensembles a été créée par Cantor, et cette section sera presque entièrement consacrée à son oeuvre. Toutefois, nous mentionnerons brièvement Bolzano, qui avait déjà découvert plusieurs faits essentiels avant Cantor, et Frege, dont les recherches sur les fondements logiques de l'arithmétique ont eu une influence profonde, quoique indirecte, sur la théorie des ensembles. 3.1 Bolzano

(1781-1848)

Les ensembles dont nous parlons tous les jours ne peuvent comporter nécessairement qu'un nombre fini d'éléments. Or nous avons vu plus haut que les ensembles vraiment importants en mathématiques sont tous infinis. C'est le philosophe tchèque B. Bolzano qui a été le premier à étudier systématiquement les ensembles infinis, bien que l'on puisse trouver quelques remarques à ce sujet dans des écrits antérieurs, et ce depuis l'Antiquité (voir Becker, 1964, p. 272). Bolzano découvrit que les propriétés des ensembles infinis étaient très différentes de celles des ensembles finis et fut si intrigué par cette différence qu'il intitula Les paradoxes de l'infini (1851) l'ouvrage dans lequel il rassembla ses découvertes. Ce titre est évidemment trompeur parce que la théorie des ensembles infinis n'a rien de paradoxal ; il se trouve tout simplement que ces ensembles ont un comportement différent de celui des ensembles finis et, à y bien penser, il faut admettre que le contraire eût été étonnant. Donnons un exemple de «paradoxe» découvert par Bolzano. Appelons

Les ensembles 13 équipollents deux ensembles A et B si l'on peut trouver une application injective de A sur tout B. L'adjectif «injective» signifie ici qu'à deux éléments distincts de A correspondent toujours deux éléments distincts de B. Ainsi, par exemple, si A est l'ensemble des cinq lettres formant le mot «renard» (il n'y a que cinq lettres car on ne compte qu'une fois la lettre «r») et si B est l'ensemble des lettres composant le mot «héron», on peut alors définir une correspondance injective de A sur B en associant «h» à «r», «é» à «e», «r» à «n», «o» à «a», «n» à «d». En d'autres termes, la fonction utilisée ici pour établir l'équipollence de A et B est l'ensemble des couples (r, h), (e, é), (n, r), (a, o), (d, n). Dans la théorie des ensembles finis, «équipollence» est synonyme de «même nombre d'éléments», d'où l'on voit qu'un ensemble fini ne saurait être équipollent à une de ses parties propres (l'adjectif «propre» signifiant que la partie n'égale pas l'ensemble entier). Dans le cas d'un ensemble infini, par contre, on peut facilement construire une fonction qui montre l'équipollence de cet ensemble avec une de ses parties propres. Ainsi, par exemple, si A est l'ensemble des entiers positifs 1, 2, 3,..., la fonction / définie par f(x) = 2x montre que A est équipollent avec l'ensemble des entiers pairs positifs, ensemble qui est une partie propre de A. 3.2 Cantor (1845-1918) Cantor a été le véritable créateur de la théorie abstraite des ensembles. Il retrouva très vite la plupart des «paradoxes» de Bolzano et, ce qui est plus important, il montra que les notions abstraites de la théorie des ensembles pouvaient servir à donner des démonstrations extrêmement simples de certains problèmes mathématiques (voir par exemple sa démonstration bien connue de l'existence des nombres transcendants). La notion fondamentale sur laquelle repose toute la théorie est la notion d'équipollence de deux ensembles. Au lieu de dire que A et B sont équipollents, Cantor disait que A et B ont la même cardinalité. Si A est équipollent à une partie de B sans que la réciproque soit vraie, alors nous disons que la cardinalité de A est inférieure à celle de B. La première découverte de Cantor, qui fut aussi la plus importante, est qu'il existe des ensembles infinis ayant des cardinalités différentes. C'est ainsi que la cardinalité de l'ensemble des entiers est inférieure à celle de l'ensemble des réels. Plus généralement, Cantor démontra que tout ensem-

14 Andrzej

Mostowski

ble A est de cardinalité strictement inférieure à celle de l'ensemble de toutes les parties de A. Un ensemble en tant que tel n'a pas de structure particulière. De chaque objet on peut dire soit qu'il appartient à l'ensemble, soit qu'il ne lui appartient pas, mais la seule définition d'un ensemble ne permet de tirer aucune conclusion quant à la manière dont les divers éléments de l'ensemble sont liés entre eux. Un ensemble dans lequel on a défini certaines relations entre ses éléments s'appelle une structure. Ainsi, par exemple, l'ensemble des entiers muni de la relation «inférieur à» est une structure, tout comme le même ensemble muni de la relation «x est multiple de y». Evidemment, ces deux structures sont différentes puisque les relations sont différentes. On dit qu'une relation R définie sur un ensemble A est connexe si, quels que soient les éléments a et b de A tels que a / b, a est dans la relation R avec b ou b est dans la relation R avec a. Ainsi, la relation «inférieur à» est connexe dans l'ensemble des entiers, alors que la relation «est multiple de» ne l'est pas. Une relation R sur A est dite bien ordonnée s'il n'existe pas de suite infinie a, b, c, ... d'éléments de A tels que b soit dans la relation R avec a, c soit dans la relation R avec b, etc. Une structure formée d'un ensemble A muni d'une relation connexe et bien ordonnée R est dite bien ordonnée par R. On peut, quand il n'y a pas d'ambiguïté, se dispenser de mentionner R et parler de l'ensemble bien ordonné A. L'ensemble des entiers naturels muni de la relation «est inférieur à» est un ensemble bien ordonné mais ce même ensemble muni de la relation «est supérieur à» ne l'est pas. La notion de bon ordre qui peut paraître étrange à première vue est, en fait, ainsi que l'a montré Cantor, très importante. Elle remplace dans la théorie des ensembles infinis le processus élémentaire de dénombrement tel qu'on le connaît dans la pratique courante : connaissant un bon ordre de A, nous pouvons nommer l'élément de A qui vient en premier (relativement à ce bon ordre), celui qui vient en second, celui qui suit tous les éléments d'une partie donnée de A, etc. L'emploi de la notion de bon ordre permit à Cantor de démontrer que deux ensembles qui peuvent être bien ordonnés sont comparables du point de vue de leurs cardinalités. En fait, les cardinalités de n'importe quelle famille d'ensembles bien ordonnés forment elles-mêmes un ensemble bien ordonné par la relation «inférieur à». D'où il s'ensuit, en particulier, qu'il existe pour tout ensemble bien ordonné A un autre ensemble bien ordonné

Les ensembles

15

dont la cardinalité suit immédiatement la cardinalité de A. D'autres résultats obtenus par Cantor grâce à la notion de bon ordre comprennent des définitions et des démonstrations obtenues par la méthode dite de récurrence transfinie, mais nous n'en dirons pas plus à ce sujet ici. La notion de bon ordre a tout de suite soulevé de nombreux problèmes, dont nous ne mentionnerons ici que quelques-uns: tous les ensembles peuvent-ils être bien ordonnés (problème du bon ordre)? La cardinalité de l'ensemble des réels suit-elle immédiatement celle des entiers (hypothèse du continu)? La cardinalité de l'ensemble de toutes les parties de A suitelle immédiatement la cardinalité de A (hypothèse du continu généralisé)? Si nous en savons beaucoup sur le premier problème, notre ignorance est presque totale sur les deux autres. Nous n'en dirons pas plus au sujet du travail de Cantor, bien que l'exposé que nous venons de faire ne porte évidemment que sur une partie des résultats obtenus au cours des nombreuses années qu'il a consacrées à la théorie des ensembles (on trouvera un exposé moderne de ces résultats dans tous les manuels de théorie des ensembles, par exemple Fraenkel, 1956). Quant à ses travaux originaux, ils sont facilement accessibles dans Cantor (1932). 3.3 Frege (1848-1925) L'apport de Frege à la théorie des ensembles infinis n'est qu'indirect. Frege était surtout intéressé par ce qu'on pourrait appeler aujourd'hui la théorie génétique des entiers (voir 2.1). Il voulait construire la théorie des entiers à partir des seules notions ensemblistes, mais il développa la théorie des ensembles dans le cadre de la logique. Frege énonça les principes logiques sur lesquels il basait ses constructions avec une précision et une clarté extraordinaires, ce qui lui permit de les étudier et de les discuter à fond. C'est ainsi qu'il devint possible, pour la première fois, de faire une analyse sérieuse des principes fondamentaux de ce qui était essentiellement la théorie des ensembles. Le résultat de cette analyse fut fatal : la théorie de Frege s'avéra contradictoire, et Frege dut abandonner son grandiose projet. L'idée directrice de Frege était très simple. Comme Cantor et Bolzano, il définit la relation d'équipollence, remarqua que c'est une relation d'équivalence et lui appliqua le principe d'abstraction, principe qu'il avait lui-

16

Andrzej

Mostowski

même découvert (voir paragraphe 1). Les classes d'équivalence s'appellent les cardinalités, et celles qui sont formées d'ensembles finis sont, selon Frege, les entiers ordinaires. Frege alla plus loin que Cantor en ce sens qu'il utilisa explicitement l'ensemble de tous les ensembles dans sa construction. La relation d'équipollence étant définie sur la totalité des ensembles, le principe d'abstraction fut appliqué par Frege à l'ensemble de tous les ensembles. Quoique Cantor ne se fût certainement pas opposé à la considération d'un tel ensemble, il n'en reste pas moins qu'il ne l'a jamais utilisé explicitement. Son excellente intuition mathématique avait dû le mettre en garde contre la nature plutôt douteuse de cet ensemble qui, du reste, n'était pas d'une grande importance pour la mathématique. Mais Frege, qui était un grand logicien, n'avait pas beaucoup d'intérêt pour les mathématiques pures, et il tomba plus facilement dans le piège. Les contradictions qui s'ensuivirent de ses axiomes furent à l'origine d'une longue crise pour les fondements de la théorie des ensembles.

4. LES PARADOXES DE LA THÉORIE DES E N S E M B L E S ; U N E RÉVISION DE SES FONDEMENTS

4.1. Quelques exemples de paradoxes La plus grande faiblesse de la théorie de Cantor résidait dans ses fondements. Pour Cantor, un ensemble était une collection d'objets qui, du fait qu'ils étaient ensemble, formaient une nouvelle entité. Citons Cantor lui-même : «Unter einer Menge verstehen wir jede Zusammenfassung M von bestimmten wohlunterschiedenen Objekten m unserer Anschauung oder unseres Denkens (welche die 'Elemente' von M genannt werden) zu einem Ganzen» (Mathematische Annalen, 1895).* * Citons encore, pour ceux qui aiment l'allemand compliqué du 19e siècle, la définition donnée par Cantor en 1879 (Über unendliche Lineare Punktmannigfaltigkeiten, § 3, Mathematische Annalen, 1879): «Eine Mannigfaltigkeit (ein Inbegriff, eine Menge) von Elementen, die irgendwelcher Begriffssphäre angehören, nenne ich wohldefiniert, wenn auf Grund ihrer Definition und infolge des logischen Prinzips vom ausgeschlossenen dritten es als intern bestimmt angesehen werden muss, sowohl ob irgendein derselben Begriffssphäre angehöriges Objekt zu der gedachten Mannigfaltigkeit als Element gehört oder nicht, wie auch ob zwei zur Menge gehörige Objekte, trotz formaler Unterschiede in der Art des Gegebenseins einander gleich sind oder nicht.»

Les ensembles

17

Il est évident, si l'on accepte cette définition vague, que l'ensemble de tous les ensembles existe. Mais cela entraîne aussitôt une contradiction. Soit en effet A l'ensemble de tous les ensembles. Le théorème de Cantor énoncé au paragraphe 3.2 montre que l'ensemble B de toutes les parties de A a une cardinalité supérieure à celle de A, ce qui n'est pas possible puisque B est une partie de A. Un paradoxe plus élémentaire et mieux connu a été découvert par Russell. Celui-ci considéra les ensembles qui ne sont pas membres d'euxmêmes et montra que, pour l'ensemble X de tous les ensembles, les propositions «X est membre de lui-même» et «X n'est pas membre de luimême» sont équivalentes. Le paradoxe de Russell a été publié dans l'appendice de l'ouvrage de Frege (1893-1903) (voir aussi Heijenoort, 1967, p. 126 et 127). Le premier paragraphe à avoir été publié est celui de Burali-Forti (voir Heijenoort, 1967, p. 104). Il fait appel toutefois à des concepts moins élémentaires et nous ne le reproduirons pas ici. La première réaction de Cantor aux paradoxes fut de dire qu'il fallait répartir les ensembles en deux classes, selon qu'ils étaient contradictoires ou pas. Tandis qu'un ensemble de la deuxième classe pouvait être considéré comme un objet, il n'en était pas de même d'un objet de la première (voir Cantor, 1932, p. 443, et aussi Heijenoort, 1967, p. 113). Ainsi, les lois usuelles de la théorie des ensembles ne seraient valables que pour les ensembles non contradictoires. Le paradoxe qui suit, découvert par Richard (voir Heijenoort, 1967, p. 142), montre que des contradictions peuvent apparaître même en se limitant à l'ensemble des entiers naturels. Nous en donnons ici une version légèrement modifiée. Considérons des ensembles infinis d'entiers naturels ayant des complémentaires également infinis. Nous appellerons un tel ensemble richardien, si tant est qu'il soit possible de le définir en un nombre fini de mots. Nous observons maintenant que toutes les phrases françaises formées d'un nombre fini de mots peuvent être énumérées dans l'ordre lexicographique, comme dans un dictionnaire. Éliminons de la suite infinie ainsi obtenue toutes les phrases qui ne définissent pas des ensembles infinis d'entiers ou qui définissent des ensembles ayant des complémentaires finis. Il nous reste un sous-ensemble de phrases définissant chacune un ensemble infini d'entiers naturels et dont le complémentaire contient également une infinité d'entiers naturels. Soient D(0), D ( l ) , . . . les phrases

18 Andrzej

Mostowski

de cette sous-suite. Associons à D(0) le couple (a 0 , b0), où a0 est le plus petit entier de l'ensemble défini par D(0) et où b0 est le plus petit entier positif hors de cet ensemble. A Z)(l) nous associons le couple ( a ^ è j où a 2 est le plus petit élément de l'ensemble défini par D(l) qui est différent de a0 et b0. De même, b1 sera le plus petit entier positif différent de a0 et b0. Le couple suivant, (a 2 , b2), a pour première coordonnée le plus petit entier de l'ensemble défini par D(2) qui est différent de a0, a{, b0, b, et pour seconde coordonnée le plus petit entier hors de D(2) qui est différent de a0, b0, aubi. Cet algorithme nous fournit un nombre infini de couples, et il est facile de voir que l'ensemble S des entiers naturels b0, bub2, ... est infini et qu'il existe une infinité d'entiers naturels qui ne lui appartiennent pas (par exemple a0, au a2,...). Or l'ensemble S est défini par une phrase française finie puisque tout ce paragraphe constitue une définition de S en un nombre fini de mots. Ainsi, S est un ensemble richardien et est défini par l'une des expressions D(0), d{\) ... Soit D(r) cette expression. Nous avons là une contradiction car br n'est pas un élément de l'ensemble défini par D(r). La seule explication possible de ces paradoxes est que l'ensemble S ainsi que les ensembles A et X définis au début de ce paragraphe n'existent pas. On voit mal toutefois comment découvrir l'endroit précis où les lois de formation des ensembles ont été violées. L'idée inquiétante qui a dû s'emparer de certains mathématiciens après qu'ils ont eu connaissance des paradoxes est que les ensembles utilisés en mathématiques et définis en termes purement mathématiques peuvent eux aussi être la source de paradoxes. De tels paradoxes n'ont pas été découverts jusqu'à présent, mais rien ne garantit qu'on n'en découvrira pas dans l'avenir. Il faut dire toutefois que la plupart des mathématiciens ne partagèrent pas ces doutes. Ils développèrent des théories mathématiques de nature ensembliste sans se soucier de ce qui était arrivé aux fondements de la théorie des ensembles eux-mêmes. Ils espéraient qu'aucune contradiction n'apparaîtrait si seulement on respectait certaines règles de définition des ensembles. Les règles acceptées par la majorité des mathématiciens furent finalement considérées et devinrent des axiomes de la théorie des ensembles, axiomes que nous examinerons plus bas. Cependant, un groupe de mathématiciens - petit mais important - ne fut pas convaincu que la simple formulation d'axiomes constituait la solution définitive au problème des paradoxes. Nous exposerons au paragraphe 6.2 quelques-uns de ces points de vue opposés.

Les ensembles 19 4.2 Le système de Zermelo-Fraenkel La première présentation axiomatique de la théorie des ensembles est celle de E. Zermelo (1908 - voir Heijenoort, 1967, p. 199). Fraenkel (en 1922) et Skolem (au début des années 20 - voir Heijenoort, 1967, p. 290) y apportèrent des rectifications essentielles. D'autres modifications furent proposées par la suite, et nous les mentionnerons plus loin; mais nous voulons tout d'abord décrire le système de Zermelo-Fraenkel (noté Z-F) lui-même, de loin le plus généralement adopté des systèmes axiomatiques de la théorie des ensembles. Les notions primitives de Z - F sont celles d'ensemble et d'appartenance à un ensemble. Ces notions ne sont pas définies mais plutôt caractérisées par des axiomes. Le premier axiome (axiome d'extensionnalité) dit qu'un ensemble est déterminé par ses éléments. Plus précisément, si A et B sont deux ensembles et si chaque élément de A est un élément de B et chaque élément de B est un élément de A, alors A = B. Viennent ensuite trois axiomes qui décrivent des opérations permettant d'obtenir de nouveaux ensembles à partir d'ensembles donnés : l'axiome des paires postule l'existence, pour deux ensembles quelconques donnés, d'un nouvel ensemble ayant ces deux ensembles pour seuls éléments ; l'axiome de l'ensemble des sous-ensembles affirme que pour tout ensemble A il existe un ensemble dont les éléments sont précisément tous les sous-ensembles (c'est-à-dire parties) de A ; l'axiome des réunions, enfin, affirme que pour tout ensemble A il existe un ensemble contenant comme sous-ensemble tout ensemble élément de A. Tous ces axiomes ne suffisent cependant pas à garantir l'existence des ensembles et, même en admettant cette existence, à démontrer qu'il existe des ensembles infinis. Pour éliminer ces difficultés, nous supposerons.qu'il existe au moins un ensemble infini. La formulation de cet axiome, dit de l'infini, en termes de concepts primitifs, est assez compliquée et nous l'omettrons ici. Il nous reste encore à parler de trois autres axiomes. Ils sont un peu plus compliqués que ceux que nous avons mentionnés jusqu'ici et nécessitent des explications plus détaillées. Le premier axiome, appelé axiome du choix, dit qu'à toute famille A d'ensembles deux à deux disjoints correspond un ensemble C (la partie choisie de A) contenant exactement un élément de chaque ensemble de A. L'axiome du choix a un caractère distinctement différent des axiomes

20 Andrzej Mostowski précédents. Contrairement aux axiomes constructifs que l'on a présentés plus haut, il ne décrit pas une opération qui fait correspondre à un ensemble donné un ensemble déterminé de manière unique; il ne fait que garantir l'existence d'une partie choisie et, en général, un ensemble A satisfaisant les hypothèses de cet axiome aura plusieurs parties choisies. C'est pourquoi l'axiome du choix fut accueilli avec une certaine méfiance, surtout par les mathématiciens qui ne voulaient considérer que les ensembles définis par des propriétés de leurs éléments. Nous savons maintenant qu'une telle définition n'est pas possible en général: soit par exemple A l'ensemble de toutes les paires (non ordonnées) {/, -/}, où / est une fonction réelle définie sur l'ensemble de tous les réels, et soit F une condition quelconque exprimable dans le langage du premier ordre de la théorie des ensembles et qui ne fait pas intervenir de paramètre. On montre alors qu'il n'existe pas de partie choisie de A définissable comme l'ensemble des x vérifiant la condition F (cet exemple nous a été communiqué par Dr W. Marek). Il y a pourtant beaucoup à dire en faveur de l'adoption de l'axiome du choix. On peut le démontrer dans plusieurs cas particuliers, quand l'ensemble A est fini par exemple. Il y a en outre plusieurs résultats importants que l'on ne sait démontrer que grâce à lui, par exemple le fait que tout ensemble peut être bien ordonné (voir paragraphe 3.2). Enfin, il est équivalent à plusieurs théorèmes qui paraissent intuitivement vrais. C'est pour cela que, bien qu'il ait des conséquences assez étranges, l'axiome du choix est presque universellement accepté. La plupart des mathématiciens aiment à se représenter un ensemble comme un groupe d'objets et justifient l'existence de la partie choisie en avançant que, plusieurs groupes d'objets étant donnés, on peut choisir un élément de chacun d'eux et rassembler ces éléments en un nouvel ensemble, C. Avant d'aborder le dernier axiome (de substitution), nous voulons décrire un axiome plus faible dit de compréhension (appelé aussi axiome de séparation). C'est celui que Zermelo avait tout d'abord accepté, et ce n'est que plus tard que Skolem et Fraenkel virent la nécessité d'introduire un axiome plus fort. Voici l'énoncé de l'axiome de compréhension tel qu'il a été donné par Zermelo: E(x) étant une fonction propositionnelle définie pour chaque élément d'un ensemble M, il lui correspond alors une partie ME de M formée précisément de tous les ensembles x de M pour lesquels E(x) est vraie (Heijenoort 1967, p. 262).

Les ensembles 21 La faiblesse évidente de cette formulation est qu'elle fait appel à la notion de «fonction propositionnelle définie», notion qui demande à être précisée si l'on veut éviter des paradoxes semblables à celui de Richard. L'explication que Zermelo lui-même en donna n'était pas très claire. Il y a, à l'heure actuelle, deux manières d'énoncer correctement l'axiome de compréhension. L'une d'elle, proposée par Skolem (Heijenoort 1967, p. 290), sera étudiée tout à l'heure; la seconde sera traitée au paragraphe suivant. L'idée de Skolem est de préciser le langage de la théorie des ensembles et d'identifier les fonctions propositionnelles définies à celles exprimables dans ce langage. Ainsi, au lieu d'un seul aximome de compréhension, c'est un schéma d'axiome que nous obtenons, dont chaque cas particulier correspond à une formule dans le langage. Les formules du langage sont définies par récurrence à partir d'une classe choisie de formules dites initiales (ou atomiques) ; les formules composées s'obtiennent par l'application, un nombre arbitraire de fois, des opérations suivantes: soit on joint bout à boit deux formules initiales par un opérateur logique, soit on fait précéder une formule par un quantificateur défini sur des objets qui sont ou bien des ensembles ou bien des éléments d'un ensemble. Les formules «A: est un ensemble» et «x appartient à y» (où x et y peuvent chacune être remplacée par n'importe quelle autre lettre) suffisent comme formules atomiques aux besoins de la théorie générale des ensembles. Le schéma d'axiome de compréhension s'exprime maintenant de la manière suivante: «pour tout ensemble A, il existe un ensemble B tel que x appartient à B si et seulement si x appartient à. A et vérifie F(x)». Des cas particuliers de l'axiome de compréhension s'obtiennent alors en remplaçant, dans ce schéma, «F(x)» par une formule quelconque ne contenant pas la variable «B». Venons-en maintenant au dernier axiome de Z-F, l'axiome de substitution. En gros, cet axiome dit que les images de tous les éléments d'un ensemble par une opération arbitraire définie sur cet ensemble forment elles aussi un ensemble. Là encore la notion d'opération appelle des précisions, que nous obtenons en nous limitant aux opérations définies dans le langage. Nous postulons ainsi le schéme suivant: «si A est un ensemble et si à chaque élément x de A correspond un objet unique y pour lequel F{x,y) est vraie, il existe alors un ensemble B tel qu'un y appartient à B si et seulement s'il

22

Andrzej

Mostowski

existe un élément x de A pour lequel F(x,y) est vraie». Comme précédemment, le remplacement de «F(x,y)» dans ce schéma par une formule quelconque ne faisant pas intervenir la variable «B» donnera des cas particuliers de l'axiome de substitution. Explicitons ce schéma afin d'en rendre le sens plus accessible au lecteur. Remarquons que l'hypothèse affirme l'existence d'une opération définie par la formule F{x,y) en chaque point de A : à tout x de A correspond un y unique tel que F{x,y) soit vraie. La conclusion dit alors qu'il existe un ensemble B dont les éléments sont les images des éléments de A sous cette opération. La description du système Z - F est maintenant achevée et les axiomes de compréhension et de substitution sont formulés de manière précise. Ce ne sont toutefois pas des axiomes à proprement parler, mais plutôt deux familles d'axiomes déterminés par des schémas. Remarquons encore que tout cas particulier de l'axiome de compréhension peut se déduire d'un cas particulier approprié de l'axiome de substitution, de sorte que l'on pourrait se passer du premier schéma. Nous avons préféré le garder parce qu'il est beaucoup plus simple que l'axiome de substitution et qu'on l'utilise très souvent dans les démonstrations ensemblistes. L'idée que se fait Skolem d'une formulation correcte du système F - Z est très fine car elle nous rappelle que la plupart des ensembles que nous utilisons sont définis par des propriétés de leurs éléments, et une propriété s'exprime dans le cadre d'un langage. L'inconvénient de sa méthode est que nous n'obtenons pas un nombre fini d'axiomes, mais une famille infinie d'axiomes définis à partir de deux schémas. De toutes les tentatives faites pour asseoir la théorie abstraite des ensembles sur une base solide, le système Z - F est le plus couramment utilisé et c'est celui qui semble se rapprocher le plus de l'idée mathématique intuitive d'ensemble. Aussi, l'école Bourbaki (nom qu'avait pris un groupe de mathématiciens français) a-t-elle eu raison de dire d'une légère variante de Z - F qu'elle était un «fondement de la mathématique à l'usage des mathématiciens» (Bourbaki, 1949). On trouvera dans Fraenkel (1956) de plus amples références relatives aux sources que nous avons citées. Ce livre contient en outre un exposé détaillé des sujets traités dans ce paragraphe, ainsi que dans les paragraphes suivants.

Les ensembles

23

4.3 Le système de von Neumann, Bernays et Gôdel Dans ce paragraphe, nous voudrions décrire brièvement une autre manière de formuler correctement les axiomes de compréhension et de substitution. C'est à von Neumann (voir Heijenoort, 1967, p. 393) que l'on en doit l'idée directrice. Il introduisit une nouvelle notion primitive, celle d'opération arbitraire, et en donna une caractérisation axiomatique. Son idée fut reprise par Bernays et Gôdel en 1939. Ils employèrent, au lieu des opérations, des fonctions propositionnelles (c'est-à-dire des fonctions à deux valeurs: «le vrai» et «le faux») qu'il est d'usage d'appeler plutôt «classes». Ainsi, la théorie ensembliste de von Neumann, Bernays et Gôdel a maintenant trois notions primitives : celles d'ensemble, de classe, et d'appartenance. Les' objets étudiés dans cette théorie sont répartis en deux groupes: ceux appartenant au moins à une classe (les éléments) et ceux n'appartenant à aucune classe (les non-éléments, appelés aussi les classes propres). On postule que tout ensemble est une classe ; plus précisément, un ensemble est une classe qui est un élément. Les classes propres ne sont donc pas des ensembles. Une classe / e s t une opération si elle ne contient que des couples (paires ordonnées) et si deux couples ayant une même première coordonnée ont aussi des secondes coordonnées égales: si (x,y) et (x,y') sont des éléments d e / , y = y'. On définit le domaine d e / comme la classe de tous les éléments x pour lesquels il existe un élément y tel que (x,y) appartienne à / , et l'image de / comme la classe de tous les éléments y pour lesquels un x tel que (x,y) appartienne à / . Ces définitions étant posées, les axiomes de compréhension et de substitution admettent des formulations très simples. Le premier axiome dit que l'intersection d'un ensemble avec une classe est encore un ensemble, le second que si le domaine d'une opération est un ensemble, il en est de même de son image. Il nous reste cependant à introduire plusieurs autres axiomes, dits de formation de classe, afin de pouvoir établir l'existence de diverses classes. Nous nous contenterons de les décrire brièvement sans même les énoncer tous. Nous postulons tout d'abord l'existence de deux classes: V, qui a pour éléments la totalité des ensembles, et E, qui a pour éléments tous les couples (x,y) où y est un ensemble- et x appartient à y. Ces classes correspondent aux formules atomiques de la théorie de Skolem. Les autres axiomes nous garantissent que certaines opérations effectuées sur des classes et correspondant aux quantificateurs et aux opérateurs logiques

24

Andrzej

Mostowski

nous donnent encore des classes. Nous supposons aussi que deux classes ayant les mêmes éléments sont égales. Le lecteur trouvera dans Fraenkel (1956) une étude détaillée de ces axiomes. Dans la plupart des exposés modernes, on postule que tous les éléments sont des ensembles, mais cette hypothèse n'est pas vraiment nécessaire et n'est faite que pour simplifier certains raisonnements. La théorie axiomatique B - G présente plusieurs avantages. Contrairement à la théorie Z - F , elle ne comporte qu'un nombre fini d'axiomes. L'usage des classes simplifie en outre le langage. Nous pouvons par exemple énoncer et démontrer le théorème selon lequel la classe de tous les ensembles n'est pas un ensemble, ce qui nous donne une formulation rationnelle d'un théorème qui se trouve au coeur de plusieurs paradoxes. La théorie B - G permet donc d'étudier quelques-uns de ces ensembles qui, dans la théorie de Cantor, seraient considérés comme contradictoires (voir le paragraphe 4.1). Malgré ces avantages, nous pensons que c'est la théorie Z - F , et non la théorie B-G, qui occupe la place centrale dans les fondements de la théorie des ensembles. Les nouvelles notions primitives (celles de classe ou d'opération) ne jouent, dans la théorie B - G ou dans la théorie originale de von Neumann, qu'un rôle secondaire. Leur seule raison d'être était une simplification des axiomes de substitution et de compréhension dans Z - F , comme en témoigne la formulation plutôt artificielle et compliquée qu'ont reçue les axiomes de formation des classes (et c'est pourquoi nous les avons omis). Remarquons pour terminer que la non-contradiction de la théorie Z - F entraîne celle de B - G et vice versa (Fraenkel, 1956). 4.4 La théorie des types Presque en même temps que Zermelo, B. Russel créait une autre théorie qui lui permettait de reconstruire dans ses parties essentielles la théorie cantorienne des ensembles. Cette théorie, dite théorie simple des types, est intéressante par ses rapports étroits avec l'idée ordinaire que l'on associe au mot «ensemble». Ainsi que l'adjectif «simple» l'indique, Russell a étudié une autre théorie des types, appelée la théorie ramifiée (des types) et il hésita longtemps entre les deux, comme on peut s'en rendre compte en lisant l'introduction de la deuxième édition (1910) de Principia Mathematica, écrite en collaboration avec A. N. Whitehead.

Les ensembles

25

Dans la théorie simple, les objets sont tous répartis selon leurs types. Les objets qui ne sont pas des ensembles de type 0, les ensembles formés de ces objets sont de type 1, ceux formés d'objets de type 1 sont de type 2, etc. Cette classification des ensembles coïncide parfaitement avec l'idée intuitive que nous nous en faisons: nous avons déjà remarqué au paragraphe 1.6 que nous distinguons toujours entre les collections ayant pour éléments des objets et celles dont les éléments sont eux-mêmes des collections. Russell formula sa théorie des types dans un langage très compliqué. Les variables étaient réparties selon leurs types et ne pouvaient apparaître que dans certaines combinaisons. Les paradoxes étaient évités parce qu'ils ne pouvaient tout simplement pas être formulés dans ce langage. La théorie était basée sur des axiomes dont le plus important est en relation étroite avec l'axiome de compréhension. Elle permet déjà d'exprimer la plus grande partie de notre mathématique, non sans une certaine maladresse toutefois. Examinons maintenant les rapports entre la théorie des types et le système Z-F. Il est facile de voir que la théorie des types admet un modèle dans Z-F. Prenons pour cela un ensemble arbitraire R0 d'objets qui ne sont pas des ensembles, et considérons dans Z - F l a suite infinie R0, Ri, R2,... où R„ +1 est l'ensemble de toutes les parties de R„. La théorie des types s'interprète alors dans Z - F de la manière suivante: les objets de type 0 sont les éléments de R0, les éléments de type 1 sont les éléments de Rlt les ensembles de type 2 sont les éléments de R2, dont les éléments sont de type 1, etc. Les ensembles ainsi obtenus peuvent être définis dans Z - F à partir de R0. Les axiomes de la théorie des types deviennent tous des théorèmes de Z-F, sauf peut-être pour l'axiome de l'infini, qui n'est vérifié que si et seulement si R0 est infini. Cette interprétation montre que le système Z - F est beaucoup plus riche que la théorie des types : alors que, dans cette dernière, chaque Ensemble doit avoir un type bien déterminé, la théorie Z - F n'exclut pas les ensembles ayant des types différents. R3 par exemple contient des éléments de type 0 et des éléments de type 0 et des éléments de type 1. De tels ensembles sont dits de type mixte. La suite Rn peut encore être prolongée : notons Ra la réunion de tous les Rn et formons la suite Ra+1, Rm+2> ••• Ra+n+i étant l'ensemble des parties de Ra+„. Ce processus peut être généralisé encore: à chaque bon ordre a correspond un ensemble Ra. La suite R0, Ru ... correspond aux

26

Andrzej

Mostowski

bons ordres d'un ensemble fini. Quand a est le bon ordre d'un ensemble infini, nous obtenons de nouveaux ensembles dont les types sont dits transfinis. Les éléments de R a sont en général de type mixte. En ajoutant au système Z - F des axiomes supplémentaires - que nous ne préciserons pas ici - on peut démontrer que chaque ensemble appartient à l'un des ensembles Rx. Dans cette théorie généralisée chaque ensemble a un type (qui est en général mixte et transfini). Cela montré que la théorie Z - F , tout en étant différente de la théorie des types, n'en est pas aussi éloignée qu'on pourrait le croire de prime abord. En fait, elle représente plutôt une extension considérable de la théorie des types, obtenue en admettant les ensembles de type mixte et en prolongeant la hiérarchie des types bien au-delà des types finis. 4.5 Quelques autres manières d'éviter les paradoxes Nous mentionnerons dans ce paragraphe deux autres théories qui, comme les systèmes Z - F et B - G et la théorie des types, tentent de préserver la théorie des ensembles de paradoxes tout en conservant autant de résultats classiques que possible. A. P. Morse (1965) et J. L. Kelley (1955) ont généralisé le système B - G en postulant que toute formule définit une classe comprenant la totalité des ensembles la vérifiant. Dans le système de Bernays et Gôdel, cette classe n'existe que pour les formules dont les variables liées sont des ensembles (voir paragraphe 4.3). W.V. Quine (1969) a créé une théorie entièrement différente dont il a donné plusieurs versons (voir en particulier son chapitre XIII). Ses conceptions sont radicalement différentes de celles sur lesquelles est basé le système Z - F : c'est ainsi qu'il démontre, par exemple, qu'à tout ensemble A correspond un ensemble ayant pour éléments les ensembles n'appartenant pas à A (!). Néanmoins, grâce à des restrictions imposées aux formules qu'on peut utiliser pour construire un ensemble, aucun paradoxe n'est apparu dans son système. Bien qu'elles soient efficaces, ces restrictions ne semblent pas suffisamment justifiées du point de vue intuitif, et il nous semble peu probable qu'une partie quelconque de ce système devienne jamais populaire parmi les mathématiciens.

Les ensembles

27

5 . LA N O N - C A T É G O R I C I T É DE LA THEORIE DES ENSEMBLES

5.1 Théorie et métathéorie Une théorie mathématique s'exprime en un langage que l'on ne doit pas confondre avec le langage utilisé quand on parle de la théorie. Pour voir pourquoi cette distinction est si importante, nous reprendrons les paradoxes et étudierons à nouveau le paradoxe de Richard (voir le paragraphe 4.1). La notion de définissabilité utilisée dans la définition d'un ensemble richardien est évidemment une notion métathéorique et nous avons déjà vu que, dans la théorie des ensembles, elle mène à une contradiction. Seules les restrictions imposées aux langages de la théorie Z - F ou de la théorie des types sont de nature à en éliminer les paradoxes. Une fois q'une théorie mathématique est formulée avec un degré de précision adéquat, on peut (dans le cadre de la métathéorie) poser diverses questions à son sujet. Nous pouvons nous demander par exemple si la théorie est non contradictoire, si elle est non contradictoire relativement à une autre théorie (qui nous est plus familière et mieux connue), si elle est catégorique ou, finalement, si ses axiomes sont mutuellement indépendants. 5.2 Le problème de la non-contradiction On ne peut pas dire grand-chose sur cet important problème. Il est bien connu que la réaction de Hilbert aux paradoxes fut d'entreprendre des recherches métamathématiques approfondies afin de démontrer la noncontradiction de tout l'édifice mathématique (pourvu que cet édifice soit développé correctement - axiomatiquement, par exemple). Mais Gôdel devait montrer (1931- voir aussi Heijenoort 1967, p. 592) qu'une telle démonstration doit nécessairement faire appel à des moyens plus puissants que l'axiomatique dont on veut démontrer la non-contradiction. Il en découle qu'on ne peut pas démontrer la non-contradiction de la théorie des ensembles en n'utilisant que des méthodes formalisables dans cette théorie. Or la théorie des ensembles est si riche qu'elle permet une interprétation de pratiquement tout l'ensemble de la mathématique contemporaine (voir le paragraphe 3.2). Ces remarques expliquent pourquoi l'on n'a pas pu démontrer de manière strictement mathématique la noncontradiction de la théorie des ensembles. C'est pour cette même raison

28

Andrzej

Mostowski

qu'on ne saurait démontrer la non-contradiction de théories qui, comme l'arithmétrique des entiers ou des réels, sont exprimables dans le langage de la théorie des ensembles. Malgré cela, la plupart des mathématiciens sont convaincus de la noncontradiction du système Z - F et pensent, non sans raison d'ailleurs, qu'autrement on aurait déjà rencontré des paradoxes. Après tout, la théorie Z - F existe depuis soixante ans et elle a été étudiée dans tous ses détails par les meilleurs mathématiciens du siècle. 5.3 Incomplétude Les résultats généraux de Godel (1931) montrent que si le système Z - F est non contradictoire, il n'est pas complet, et qu'il en est de même des autres axiomatisations de la théorie des ensembles. Mais ce qui est inquiétant, c'est qu'il est relativement facile, tant dans le système Z - F que dans les autres axiomatisations, de formuler des problèmes qui ne peuvent pas être résolus à l'aide des axiomes. En général, tous les problèmes qui n'ont pas été résolus peu après avoir été posés se sont avérés indécidables. Nous allons en examiner quelques-uns plus loin. 5.4 Les grands nombres cardinaux L'axiome de l'infini garantit l'existence d'au moins un ensemble infini. A partir d'un tel ensemble on peut, en utilisant l'axiome de l'ensemble des parties d'un ensemble et l'axiome des réunions, obtenir d'autres ensembles infinis, d'une cardinalité étonnamment grande. Examinons à présent les propriétés de ces nombres cardinaux. Appelons un cardinal accessible s'il est le cardinal d'un ensemble Ra qui est soit l'ensemble des parties d'un ensemble R p de cardinalité inférieure, soit la réunion d'une famille A d'ensembles de cardinalité inférieure et dont les éléments sont aussi de cardinalité inférieure à celle de Rx. L'idée de cette définition est qu'un ensemble Rp de cardinalité accessible peut s'obtenir à partir d'un ensemble de cardinalité inférieure à l'aide de deux opérations consistant à former des réunions et à prendre l'ensemble des parties d'un ensemble. La question de savoir s'il existe des cardinaux inaccessibles s'est avérée indécidable dans le système Z - F . Plus précisément, si le système Z - F est non contradictoire, alors il le demeure même si l'on postule que tous les cardinaux sont accessibles. On ne peut pas démontrer la non-

Les ensembles

29

contradiction d'un axiome postulant l'existence de cardinaux inaccessibles, mais il paraît très peu probable que cet axiome soit contradictoire avec le système Z - F . L'étude des cardinaux inaccessibles avait été entreprise dès 1912 par Mahlo (1912-1913). L'état actuel de la théorie est dû principalement à Tarski (1963-1964, passim). Ne pouvant nous attarder ici sur ce sujet extrêmement technique, nous remarquerons seulement qu'au cours de ces travaux un grand nombre d'axiomes furent proposés, tous appelés axiomes de l'infini puisqu'ils postulaient l'existence de cardinalités très élevées. Ces axiomes sont tous indépendants du système Z - F , et vraisemblablement non contradictoires avec lui. Ils sont liés l'un à l'autre, de manière parfois très compliquée, et l'on a déployé beaucoup d'efforts pour retrouver ces relations et étudier les conséquences qu'auraient certains axiomes de l'infini pour la théorie des cardinaux plus petits. Les mathématiciens spécialistes de la théorie des ensembles ne savent toujours pas s'ils doivent ou non accepter ces axiomes. 5.5 L'hypothèse du continu Cette hypothèse dit que le problème du continu, que nous avons énoncé au paragraphe 3.2., a une réponse affirmative. De même, l'hypothèse généralisée du continu dit que la réponse au problème généralisé du continu est affirmative. Ces deux hypothèses appartiennent à une grande classe d'énoncés dont on ne peut démontrer ni la vérité ni la fausseté dans Z - F . En outre, on a montré que, même en adjoignant à Z - F des axiomes de l'infini garantissant l'existence de cardinaux inaccessibles, on ne changeait rien à la situation. Godel (voir aussi le paragraphe 6.2) a montré en 1939 que l'hypothèse généralisée du continu est non contradictoire avec Z - F . Cette découverte fut le premier résultat important obtenu dans l'étude métamathématique de la théorie des ensembles. Un autre progrès important a été la démonstration, due à Cohen (1966), de l'indépendance de l'hypothèse du continu du système Z - F . Cohen arriva à ce résultat remarquable en montrant que si le système Z - F est non contradictoire, il admet alors un modèle ayant des ensembles dont les cardinalités (calculées dans le modèle) se situent entre la cardinalité des entiers et celle des réels, c'est-à-dire sont plus grandes que la première et plus petites que la dernière. Ce qui est encore plus frappant, c'est que Cohen démontra l'existence de plusieurs de ces modèles. Pour certains d'entre eux, il n'y a

30

Andrzej

Mostowski

qu'une cardinalité intermédiaire, pour d'autres il y en a deux, trois, quatre, etc. ; pour d'autres enfin, il y en a une infinité. Cohen montra ainsi que les axiomes de Z - F ne nous fournissent presque aucun renseignement relatif à la cardinalité de l'ensemble des réels. Nous savons que cette cardinalité diffère de celle des entiers, et aussi que l'ensemble des réels n'est pas une réunion d'ensembles de cardinalités croissantes. Mais aucune hypothèse non contradictoire avec ces deux résultats ne contredit ces axiomes (Solovay, 1965). On retrouve le même genre de situation avec l'hypothèse généralisée du continu (voir Rosser, 1969 et Easton, 1970). Toutes ces considérations montrent que, contrairement à ce que l'on avait d'abord pu croire, le système Z - F est tout à fait incomplet. La façon de renforcer ces axiomes de manière à pouvoir résoudre le problème du continu demeure encore un problème ouvert. 5.6 Autres problèmes indécidables; indépendance des axiomes Beacucoup d'autres problèmes de la théorie des ensembles se sont avérés indécidables dans Z - F . Ils sont de nature très technique, et il ne serait pas possible de les présenter ici. Les méthodes employées pour démontrer l'indécidabilité de certaines propositions peuvent servir aussi à établir l'indépendance mutuelle de divers axiomes. C'est ainsi que Cohen (1966) réussit à résoudre complètement l'épineux problème de l'indépendance de l'axiome du choix, et que plusieurs problèmes subtils, relatifs à la dépendance mutuelle de diverses conséquences de cet axiome, furent plus tard résolus par lui et ses collaborateurs.

6 . Q U E L Q U E S A U T R E S T E N D A N C E S DE L ' É T U D E DES F O N D E M E N T S DE LA T H É O R I E DES E N S E M B L E S

6.1 Importance philosophique des résultats

d'indépendance

Les résultats d'indécidabilité décrits au paragraphe précédent sont-ils l'indice d'une faille dans la théorie des ensembles? C'est un problème ancien et qui a été étudié bien avant que les récents résultats d'indécidabilité aient été proprement établis. Depuis les années 20, personne n'a jamais vraiment cru que le problème du continu pouvait être résolu dans le cadre du système Z - F , et il y eut des mathématiciens éminents, Lusin par exemple

Les ensembles 31 (1927), pour croire dès le début que même des hypothèses très bizarres sur la cardinalité du continu n'étaient pas contradictoires avec ce système. Les résultats généraux de Gôdel (1931) ont montré qu'aucune théorie axiomatique comprenant l'arithmétique ne pouvait être complète. La non-complétitude du système Z - F n'est donc pas inquiétante en ellemême. Ce qui est ennuyeux, c'est que nous ne savons pas dans quelle direction chercher les données supplémentaires qui nous permettraient de résoudre des problèmes qui paraissent très simples et naturels mais demeurent néanmoins sans réponse dans le système Z - F . Nous touchons là des problèmes fondamentaux de la philosophie des mathématiques, dont la question principale est la suivante : quel est l'objet de la mathématique? Un formaliste dirait que la mathématique n'a pas d'objet, que c'est uniquement un jeu que l'on joue avec des axiomes et des règles de démonstration arbitrairement choisies. La non-complétitude de Z - F ne présente donc aucun intérêt pour un formaliste. Les platoniciens par contre croient en «l'existence objective» des objets mathématiques. Un platonicien qui étudie la théorie des ensembles pense donc que nous devons poursuivre notre expérimentation avec les ensembles et notre réflexion sur eux, jusqu'à découvrir de nouveaux axiomes qui, ajoutés à ceux de Z-F, nous permettraient de résoudre tous les problèmes ouverts (Gôdel, 1947). Quel que soit le dénouement de cette lutte entre ces deux tendances contraires, il est clair que nous devons faire porter tous nos efforts sur l'étude de concepts qui nous semblent parfaitement clairs et évidents. Du temps de Cantor, la notion d'ensemble arbitraire paraissait très claire, mais les paradoxes ont montré qu'elle ne l'était pas en fait. Aujourd'hui, cette notion a été remplacée par la notion de sous-ensemble arbitraire d'un ensemble. De plus, il est presque universellement admis que les sousensembles d'un ensemble donné forment un ensemble. Cependant, il serait certainement faux de croire que ces opinions sont partagées par l'unanimité des mathématiciens, et Gôdel lui-même, dont la citation ci-dessus indique qu'il devrait être classé parmi les platoniciens, a avancé l'opinion que la notion arbitraire de sous-ensemble d'un ensemble a besoin d'être clarifiée (Gôdel, 1951). Nous croyons, sans être en mesure d'en fournir les preuves concluantes, que c'est dans cette direction que se trouve l'avenir de la théorie des ensembles.

32

Andrzej

Mostowski

6.2 Les tendances finitistes et nominalistes L'une des notions mathématiques générales qui est acceptée sans hésitation par tous les mathématiciens est celle de répétition d'une seule et même opération un nombre arbitraire de fois. C'est cette notion qui est au coeur de l'arithmétique des entiers et aussi de la théorie des calculs. La tendance la plus radicale dans l'étude des fondements des mathématiques est représentée par une école russe dirigée par Markov et Shanin (cf. Shanin, 1958). Elle ne veut retenir en mathématiques que les suites calculables d'entiers et tels autres concepts qui peuvent immédiatement s'y ramener. Pour elle, tout autre notion devrait simplement être rejetée. Rappelons brièvement ce qu'est une suite calculable, pour voir combien nous perdons en adoptant ce point de vue. Une suite a(0), a ( l ) , . . . d'entiers est dite calculable si, pour chaque entier n, le terme a(n) peut se calculer à l'aide d'un nombre fini d'indications absolument explicites et automatiques, ne demandant dans leur exécution aucune ingéniosité mathématique. On peut dire encore qu'une suite est calculable si l'on peut calculer ses termes sur un ordinateur programmé par un nombre fini d'indications spécifiques et capable d'exécuter certaines opérations simples telles qu'inscrire ou effacer des symboles sur une bande arbitrairement longue, ou déplacer la bande selon des indications données. Une telle machine s'appelle «machine de Turing» (Davis, 1958). Comparée à la famille des ensembles, des suites et des fonctions que l'on rencontre dans la théorie classique, la famille des suites calculables est donc très petite. Evidemment, on perdrait à tout jamais la plupart des résultats de la théorie abstraite des ensembles si le point de vue de cette école radicale était généralement adopté. Des idées moins radicales ont été émises par des mathématiciens et des philosophes qui maintiennent que les ensembles considérés en mathématique doivent correspondre à des propriétés exprimables dans un langage. C'est un point de vue qui n'est pas déraisonnable : presque tous les premiers ensembles que l'on avait d'abord considérés en mathématique et tous les ensembles admis dans la langue courante sont définis soit par des propriétés de leurs éléments soit par le principie d'abstraction appliqué à une certaine relation d'équivalence. On a proposé autrefois plusieurs façons de restreindre la notion d'ensemble pour n'avoir à étudier que les ensembles définis dans l'un ou l'autre

Les ensembles

33

de ces deux sens. Nous pouvons les classer toutes sous le nom commun de «tendances nominalistes». La théorie ramifiée des types, de Russell (1910), représente la première tentative en ce sens. Dans cette théorie, non seulement les ensembles sont répartis en types mais chaque type est réparti en ordres. L'ordre d'un ensemble est déterminé par la forme de sa définition. Les variables du langage de la théorie ramifiée sont classifiées elles aussi par types et par ordres. Un ensemble de type t est pris à l'ordre n si et seulement s'il peut être défini par une formule vérifiant les deux conditions suivantes : 1) ne pas contenir dé variable qui soit de type supérieur à t ou de type t et d'ordre supérieur à « ; 2) ne pas contenir de variable liée de type t et d'ordre n. Ces conditions formelles correspondent au célèbre «principe du cercle vicieux», par lequel Russell voulait éliminer tous les paradoxes. Ce principle dit «qu'aucune totalité ne peut être définie en termes de totalités auxquelles elle appartient». On remarquera que, selon Russell, chaque ensemble de type t et d'ordre n intervient dans la construction de chaque ensemble de type supérieur à t et de chaque ensemble de type égal à t et d'ordre supérieur à n. Cet ensemble appartient aussi au domaine parcouru par les variables liées de type t et d'ordre n. On voit donc que les limitations imposées aux formules définissant des ensembles de type t et d'ordre n furent choisies de manière à ne pas mettre en défaut le principe du cercle vicieux dans la théorie ramifiée des types. Wang proposa quelques généralisations de la théorie des types, afin d'y inclure certains types transfinis (cf. Fraenkel, 1956, pour une description détaillée de sa théorie). D'autre part, la notion d'ensemble constructible, introduite par Gôdel (1939 et 1951) pour démontrer la non-contradiction de l'hypothèse du continu, fut obtenue en généralisant la notion d'ensemble telle qu'elle se trouve dans la théorie ramifiée des types. Gôdel, cependant, inclut les bons ordres arbitraires parmi ses types et ordres. Ses ensembles constructibles ne satisfont donc pas les fortes exigences du nominalisme, d'après lequel tous les ensembles doivent être définis par des formules. C'est ce «mélange» non nominaliste qui fait que les axiomes du système Z - F sont tous vrais des ensembles constructifs. D'un autre côté, le fait que divers problèmes de la théorie des ensembles (l'hypothèse générale du continu ou le problème de Souslin par exemple) admettent une solution dans la théorie des ensembles constructibles est dû au fait que les ensembles constructibles, bien que n'étant pas définis au sens

34

Andrzej

Mostowski

propre du terme, sont définis par récurrence à l'aide de bons ordres, sur lesquels on en sait bien plus que sur les ensembles arbitraires. L'axiome d'après lequel tous les ensembles seraient constructibles a été proposé une fois par Gôdel (1939), quoique pas très sérieusement peutêtre; mais Gôdel le rejeta par la suite, le qualifiant de «faux» (1947). Cet axiome n'est cependant pas contradictoire avec Z - F (cf. 1939 et 1951). Il nous faut mentionner également les calculs créés par Lorenzen (et dont on trouvera une descritpion dans Fraenkel, 1956), qui représentent eux aussi une hiérarchie croissante de systèmes s'inscrivant dans l'optique nominaliste. A l'autre bout de la gamme nous trouvons diverses propositions pour remplacer la hiérarchie ramifiée par une famille plus restreinte d'ensembles. C'est ainsi par exemple que, dans son important ouvrage (1921), Weyl pouvait penser que seuls les ensembles d'ordre 0 devaient être acceptés. Son idée d'analyse «prédicative» basée sur la notion d'ensemble d'ordre 0 fut reprise par Grzegorczyk (1954), Kreisel (1960) et d'autres. Les restrictions imposées à la notion d'ensemble par tous ces programmes vont en fait très très loin. Elles excluent automatiquement les ensembles définis par un événement de hasard (des lancements répétés d'une pièce de monnaie, par exemple), bien que la notion d'un tel ensemble soit très claire et ne doive pas être abandonnée sans raison sérieuse. A part les mathématiques classiques, seule la mathématique intuitionniste de Brouwer est suffisamment riche pour admettre ce concept. Mais, d'autre part, les idées de Brouwer sur la logique et la théorie des ensembles diffèrent si radicalement des idées courantes que l'on peut se demander s'il est possible de reconstruire dans ce contexte même une partie modeste de la théorie des ensembles cantorienne (le lecteur pourra consulter Fraenkel, 1956, pour une analyse des idées de Brouwer).

CONCLUSION

Résumons notre description des ensembles et de leur théorie. La notion d'ensemble est d'une grande utilité dans la description de diverses situations de la vie. Nous utilisons les ensembles parce que nous avons la capacité de considérer des entités séparées comme si, ensemble, elles formaient une entité nouvelle de type supérieur. La notion d'ensemble a été reprise par les mathématiciens, qui l'ont

Les ensembles

35

utilisée pour réorganiser et ordonner les concepts fondamentaux de leur science. Ils ont, au cours de ce travail, considérablement élargi la notion d'ensemble de manière à inclure les ensembles infinis et utilisé, d'abord inconsciemment puis consciemment, certains principes de construction de nouveaux ensembles à partir d'autres ensembles donnés. Le libre usage des ensembles dans les constructions mathématiques a entraîné la création de théories mathématiques nouvelles qui étaient plus abstraites et plus générales que les théories étudiées jusqu'alors. Ces nouvelles théories ont permis aux mathématiciens d'introduire de nouveaux concepts qui se sont avérés utiles non seulement pour les mathématiques pures mais aussi pour les mathématiques appliquées. De plus, l'étude des fondements de la théorie des ensembles s'est avérée très fructueuse: elle a intensifié le développement de la logique et montré la nécessité de bien utiliser un langage et de distinguer entre langage et métalangage. Les paradoxes de la théorie des ensembles, l'impossibilité apparente de résoudre diverses questions simples sur les ensembles à l'aide des axiomes de la théorie peuvent nous faire douter, en dépit des succès considérables obtenus par le développement ensembliste de la mathématique, de la clarté et de l'évidence de la notion même d'ensemble. Néanmoins, la théorie abstraite des ensembles ne cesse de se développer et les objets des recherches ensemblistes deviennent de plus en plus abstraits. C'est très à propos que la phrase de A.N.Whitehead (1933) s'applique à la théorie des ensembles : elle est comme Ophélie - très belle mais un peu folle.

RÉFÉRENCES

BECKER, O. (1964), Grundlagen der Mathematik in geschichtlicher Entwicklung, 2e éd., Freiburg-Munich. BOLZANO, B. (1851), Paradoxien des Unendlichen, Prague. BOURBAKI, N. (1949), «Foundations of mathematics for the working mathematician», The Journal of Symbolic Logic, 14, p. 1-8. CANTOR, G. (1932), Gesammelte Abhandlungen mathematischen und philosophischen Inhalts (édit. par E. Zermelo), Berlin. COHEN, P. (1966), Set Theory and the Continuum Hypothesis, New York-Amsterdam. DAVIS, M. (1958), Computability and Unsolvability, New York. FRAENKEL, A. (1922), «Zu den Grundlagen der Cantor-Zermeloschen Mengenlehre», Mathematische Annalen, 86, p. 230-237. FRAENKEL, A. (1953), Abstract Set Theory, Amsterdam. FRAENKEL, A . et BAR-HILLEL, Y . ( 1 9 5 6 ) , Foundations

of Set Theory,

Amsterdam.

36

Andrzej Mostowski

FREGE, G. (1884), Die Grundlagen der Arithmetik. Eine logischmathematische Untersuchung über den Begriff der Zahl, Breslau (trad, anglaise par L. Austin : The Foundation of Arithmetic, 2e éd., New York, 1960). FREGE, G. (1893-1903), Grundgesetze der Arithmetik, begriffschriftlich abgeleitet, vol. I et II, Jéna. GÖDEL, K. (1931), «Über formal unentscheidbare Sätze der Principia Mathematica und verwandter System I», Monatshefte für Mathematik und Physik, 37, p. 173-198. GÖDEL, K. (1939), «Consistency proof for the generalized continuum hypothesis», Proceedings of the National Academy of Sciences of the U.S.A., 25, p. 220-224. GÖDEL, K. (1947), «What is Cantor continuum problem?», Amer. Math. Monthly, 54, p. 515-525. GÖDEL, K. (1951), The Consistency of the Axiom of Choice and of the Generalized Continuum Hypothesis with the Axioms of Set Theory, 2' éd., Princeton. GOODMAN, N. (1951), The Structure of Appearance, Cambridge (Mass.). GRZEGORCZYK, A. (1954), «Elementarily definable analysis», Fundamenta Mathematicae, 41, p. 311-338. HEIJENOORT, J. VAN (1967), From Frege to Gödel. A Source Book in Mathematical Logic 1879-1931, Cambridge (Mass.). KELLEY, J. L. (1955), General topology, New York. KREISEL, G. (1960), «La prédicativité», Bulletin de la Société Mathématique de France, 88, p. 371-391. LUSCHEI, E. C. (1962), The Logical System of Lesniewski, Amsterdam. LUSIN, N. (1927), «Sur les ensembles analytiques», Fundamenta Mathematicae, 10, p. 1-95. MAHLO, P. (1912-1913), «Zur Theorie und Anwendung der g-Zahlen», Berichte über die Verhandlungen der Sächsischen Akademie der Wissenschaften zu Leipzig (mathphys. Kl.), 64 (1912), p. 108-112, et 65 (1912-1913), p. 268-282. MORSE, A. P. (1965), A Theory of Sets, New York-Londres. NEUMANN, J . VON a n d MORGENSTERN, O . (1947), Theory

of Games

and

Economic

Behavior, 2' éd., Princeton (N.J.), Princeton Univ. Press. PEANO, G. (1889), Arithmetices principia, novo methodo expósita, Turin (cf. G. Peano, Opere scelte, Rome, 1958, et trad, anglaise in Heijenoort, 1967). POLYA, G. (1954), Induction and Analogy in Mathematics, vol. 1, Oxford. QUINE, W.V. (1969), Set Theory and its Logic, 2e éd., Cambridge (Mass.). ROSSER, J. B. (1969), Independence Proofs, New York. RUSSELL, B. (1910), cf. Whitehead et Russell (1910). SHANIN, N. A. (ed.) (1958), «Problemy konstruktivnogo napravlenya v mathematike Sbornik rabot», Trudy Matematiceskogo Instituía im. V. Steklova, 52, Izd. Ak. Nauk SSSR, Moscow-Leningrad. SOLOVAY, R. (1965), 2 ^ can be anything it ought to be. The theory of models (édit. par J. W. Addison), Amsterdam, p. 435. TARSKI, A. et KEISLER, J. H. (1963-1964), «From accessible to inaccessible numbers», Fundamenta Mathematicae, 53, 268-282. WEYL, H. (1921), Das Kontinuum, Leipzig. WHITEHEAD, A. N. (1933), Adventure of Ideas, New York, Macmillan. WHITEHEAD, A. N . et RUSSELL, B. (1910), Principia Mathematica

/, Cambridge; 2' éd.

Cambridge, 1925. WIGGINS, D. (1967), Identity and Spatio-temporal Continuity, Oxford.

2 La notion de structure

JEAN PIAGET

INTRODUCTION

L'une des tendances les plus spontanées de la connaissance consiste à aller du simple au complexe; en principe, cette démarche est légitime, mais à condition que l'on s'entende sur le sens de la notion très relative de simplicité. La difficulté commence lorsqu'il s'agit de distinguer ce que l'on pourrait appeler la simplicité objective et la simplicité subjective. Un exemple de simplicité objective serait, par exemple, l'addition artihmétique la plus élémentaire, ( + 1 ) permettant de passer de 1 à 1 + 1 = 2, de 2 à 2 + 1 = 3, etc. On peut parler au contraire de simplicité subjective lorsque le sujet, habitué à fabriquer un tout par l'assemblage de parties, suit la même démarche pour interpréter une totalité organisée : en ce cas c'est par une sorte d'à priori ou d'idée préconçue qu'il considère la totalité à expliquer comme une simple réunion d'éléments et commence par rechercher ceux-ci. Or, on s'aperçoit immédiatement que si l'opération + 1 est élémentaire, c'est qu'elle exprime une loi de formation : celle que H. Poincaré exprimait par le symbole n + 1 et qui est constitutive de la série entière des nombres naturels : ici le passage du simple au complexe ne détruit pas les propriétés de ce dernier et l'opération élémentaire n'a rien de contradictoire avec la construction d'une «structure» au sens que nous préciserons bientôt. Au contraire, quand les psychologues du siècle dernier et du début du nôtre considéraient d'emblée une «perception» telle que l'appréhension immédiate d'un objet, d'une figure géométrique, d'une physionomie, etc., comme devant être le produit d'un ensemble de «sensations» de départ simplement associées entre elles, ou quand les linguistes avant Ferdinand de Saussure voyaient dans la langue un assemblage de mots et croyaient avoir épuisé la tâches de la linguistique en retraçant l'histoire de chacun d'eux, ils allaient sans critique du simple au complexe en vertu d'une

38

Jean Piaget

tendance, plus subjective qu'objectivement fondée, qui les poussait à découper dès l'abord les totalités considérées comme des éléments individuels plus ou moins réels (les mots) ou même en partie artificiels (les «sensations» comme unités psychologiques et non pas essentiellement physiologiques). Il a donc fallu une sorte d'inversion de cette tendance naturelle de l'esprit humain pour en arriver à supposer qu'un tout peut avoir ses lois propres en tant que totalité, et que la méthode qui paraissait d'abord indispensable, parce qu'elle consistait à partir d'éléments préalables, risquait en fait de voiler ces lois ou même de les dénaturer. C'est pourquoi le structuralisme, qui vise précisément à atteindre ces lois de systèmes, n'est apparu que tard dans le développement des sciences. Par exemple la géométrie qui, à partir de la fin du 19e siècle, a donné de si beaux exemples d'analyse structuraliste, est restée dans la Grèce antique étonnamment étrangère à ce genre de préoccupations: Euclide avec ses Éléments n'est même pas parvenu à établir des relations interfigurales (l'«espace» et ses coordonnées par opposition aux propriétés internes des figures), et il n'a pas abordé la question du groupe des déplacements sur lesquels se fondaient implicitement ses théorèmes. En fait, si l'on prend le terme de structuralisme dans son sens strict, sans y incorporer toutes les considérations sur des «formes» au sens statique (depuis celles d'Aristote) ou sur l'organisme en tant qu'unité supérieure animée par une «force vitale», etc., on constate qu'il n'est apparu dans la science qu'avec la découverte par Galois de la structure de «groupe» dans les transformations algébriques. Ce modèle initial comportait déjà les caractères essentiels que l'on retrouve dans les variétés méthodiques de structuralisme propres aux diiférentes disciplines scientifiques (en négligeant naturellement les abus de langage auxquels ce terme a donné lieu). C'est donc de lui que nous pouvons partir pour en venir à la définition des structures.

1. CARACTÈRES G É N É R A U X DES S T R U C T U R E S

1.1 La première propriété d'une structure est de constituer une totalité comportant des lois» en tant que totalité, donc en tant que système, indépendamment des particularités propres aux éléments. Dans le cas d'un groupe, ces propriétés sont les suivantes :

La notion de structure

39

a) L'introduction d'une opération composable avec elle-même, que nous désignerons par T. Pour reprendre l'exemple de simplicité objective donné plus haut, ce sera ainsi l'opération + n qui intervient dans le groupe additif des nombres entiers et permet d'additionner n'importe quel entier à n'importe quel autre. b) A chaque opération T correspond symétriquement une opération inverse T~1 qui, dans ce cas particulier, sera la soustraction — n. c) Le produit d'une opération T et de son inverse T~1 est un élément neutre 0, dont la composition avec d'autres ne les modifie pas: n+0 = n (opération identique). d) Les compositions sont associatives : (1 + m) + n = 1 + (m + n). Ces quatre propriétés caractérisent donc l'ensemble du système en tant que totalité, par opposition aux propriétés particulières des éléments. Pour d'autres structures qu'un groupe, les propriétés de la totalité seront, bien entendu, différentes, mais elles existeront toujours, distinctes des propriétés des éléments. 1.2 Le second caractère général d'une structure est que les lois de totalité portent sur des transformations, au sens le plus large, et non pas sur des caractères statiques. Cela revient à dire que la structure consiste en un système d'opérations dont les compositions transforment un terme en un autre: dans l'exemple du groupe additif précédent, le rait d'ajouter ou de soustraire un numbre à un autre conduit de celui-ci à un troisième (sauf en ce qui concerne+0), etc. Ce caractère de transformation est particulièrement frappant en ce qui concerne les «groupes fondamentaux» des diverses géométries, lesquelles passaient jadis pour le modèle des sciences purement descriptives ne portant que sur des «formes» ou figures statiques. Tout d'abord, le groupe constitutif de la géométrie euclidienne est celui des déplacements qui permet de changer la position d'un élément sans en modifier la forme ni la grandeur. Si l'on renonce à conserver les distances pour ne laisser invariants que les angles, les parallèles et les droites, on obtient le groupe des similitudes. En faisant en outre varier les angles, on obtient le groupe des transformations affines. En modifiant en plus les parallèles, on obtient les groupes projectifs et, en abandonnant les droites elles-mêmes, on obtient les homéomorphies ou correspondances topologiques. Chacun de ces groupes étant un sous-groupe du suivant, avec possibilité de passage des uns aux autres, on aboutit ainsi à un système général de transformations qui a profondément renouvelé les études géométriques.

40

Jean Piaget

1.3 Un troisième caractère des structures est moins souvent signalé, du moins si l'on emploie le vocabulaire que nous allons adopter: c'est leur autoréglage, qui est tel que les compositions internes de la structure ne conduisent jamais en dehors de ses frontières (un nombre entier ajouté à un autre donne toujours un nombre entier), tout en l'enrichissant sans cesse, et ne font appel à aucun élément extérieur. Dans le cas des structures opératoires, cet autoréglage va de soi et ne fait qu'un avec les lois de la composition. Lorsqu'il s'agit de structures biologiques, psychologiques ou sociales, on se trouve en présence d'autorégulations, selon des mécanismes homéostatiques variés. Mais on peut concevoir toutes les transitions entre les structures cybernétiques à boucles, avec régulations procédant à partir du résultat des actions, et les systèmes opératoires dont les précorrections et la combinaison des anticipations et des rétroactions constituent des «régulations parfaites». Le développement psychogénétique des fonctions cognitives permet d'assister Y, (x, y) appartenant à S si et seulement si y est obtenu par les équations restrictives à partir d'une solution de A(x). On peut alors classifier les systèmes à décision en fonction du type de problème de décision auquel on a affaire (système d'optimisation, de décision statistique, etc.). Si X et Y sont des fonctions du temps définies sur T, et si, pour tout t e T, la valeur de la variable m(t) de décision (c'est-à-dire la valeur de la solution à l'instant t) est donnée par une application F définie sur les entrées et les sorties, on parle alors d'un système de contrôle à feedback décrit par deux applications Fi'.Xx F2 :

Y-*M Y

(7)

dont la composition donne l'ensemble du système S c X x Y. Des caractéristiques constructives de Fi et de F2 décriront l'évolution concrète du système avec le temps. Il existe, en rapport avec le problème de la décision, d'autres types de systèmes à but. L'adaptation et l'apprentissage par exemple sont définis par rapport à l'incertitude inhérente au processus de la décision. Vadaptation représente l'effort fourni par un système à but pour réduire le degré d'incertitude. Dans des situations plus complexes, les éléments de À(x) eux-mêmes pourront varier. C'est ainsi que la structure des relations et

La théorie des systèmes

65

des fonctions qui entrent en jeu peut se modifier afin de permettre au système de donner un meilleur rendement. C'est ce qu'on appelle /'autoorganisation. On peut de même définir dans ce cadre beaucoup d'autres propriétés des systèmes relatives à la poursuite de buts (l'apprentissage par exemple).

4 . GRANDS SYSTÈMES COMPLEXES

La question de savoir ce qui devrait être considéré comme un grand système est, dans une certaine mesure, une question relative. En général, c'est la manière de représenter le système plutôt que le système lui-même qui détermine la réponse à cette question. Ainsi, ce qui est un grand système pour un psychologue n'est qu'une composante pour le sociologue. Il est essentiel, quand on travaille dans cette optique, de représenter fidèlement la complexité - ou «grandeur» - d'un système dans son modèle, c'est-à-dire dans sa description. Pour cela, il faut tout d'abord que le système soit formé de sous-systèmes et que cette subdivision soit explicitement reconnue, ce qui nous donne du système une description stratifiée - ou à niveaux multiples. A un niveau donné, une famille de sous-systèmes est considérée à part, de manière complètement isolée ; mais à l'échelon supérieur, ces sous-systèmes se trouvent englobés dans de plus grands sous-systèmes. La question essentielle est de savoir comment les soussystèmes tels que définis au niveau inférieur agissent l'un sur l'autre. On a de bonnes raisons de croire que tout grand système nécessite une description stratifiée et hiérarchique. Un autre type important de grand système fait appel et à la notion de poursuite d'un but et à l'idée de hiérarchie. Les systèmes décrits au paragraphe précédent, même quand ils étaient à plusieurs variables, n'avaient tous qu'un seul but. Evidemment, un système quelconque pourra en général contenir des sous-sytèmes poursuivant des but différents et qui peuvent être partiellement ou totalement opposés. Il est intéressant, sous ce rapport, de classifier les systèmes de la manière suivante : 4.1 Systèmes à un seul niveau et à but unique. Ce sont les systèmes que nous avons décrits au paragraphe précédent. Leur comportement peut être bien entendu très compliqué, faisant intervenir prédiction, décision non numérique, apprentissage, etc., mais ils présentent du moins un

66

Mihajlo D. Mesarovic

aspect simplificateur: il n'existe pas de conflit à l'intérieur du système. C'est ce type de système qu'étudient la théorie du contrôle et la théorie de la décision, dans le degré considérable de finesse qu'elles ont atteint au cours de ces vingt dernières années. 4.2 Systèmes à un seul niveau et à buts multiples. Ce sont les systèmes qui contiennent une famille de sous-systèmes à but, agissant mutuellement les uns sur les autres, poursuivant chacun un but propre, mais sans toutefois que l'un d'entre eux ait un rôle prédominant. De par sa conception, un tel système a un comportement considérablement plus complexe que le comportement des systèmes précédents. On a développé deux théories pour cette classe de systèmes: 1) la théorie des jeux, qui traite des situations où les sous-systèmes sont en compétition, 2) la théorie des équipes, qui traite des cas où les sous-systèmes travaillent tous à un objectif commun. Bien que ces deux méthodes constituent une base théorique pour l'étude de ce genre de système, on a beaucoup à en apprendre sur la résolution des conflits à l'intérieur de systèmes à un seul niveau et à plusieurs buts. 4.3 Systèmes à plusieurs niveaux et à plusieurs buts. Ces systèmes contiennent, comme précédemment, une famille de sous-systèmes agissant mutuellement les uns sur les autres, poursuivant chacun un but propre, en conflit peut-être avec les autres. Toutefois, il existe aussi entre les sous-systèmes une relation de suprématie, de hiérarchie, qui fait que certains sous-systèmes peuvent influencer - contraindre, conditionner, ou même contrôler - les recherches des autres. Ceci est évidemment un type de système d'organisation que l'on retrouve en biologie, en sociologie, ainsi que dans de complexes situations technologiques (automatisme). Bien qu'on ait reconnu depuis longtemps déjà l'importance de la notion de hiérarchie, ce n'est que récemment que l'on a développé une théorie mathématique des systèmes à niveaux multiples et, dans ce contexte, une théorie générale de la coordination, c'est-à-dire des relations de contrôle entre des unités de niveaux différents (Mesarovic, 1970). Ce genre de système a une importance capitale pour plusieurs domaines scientifiques et pour l'ingénierie et la gestion. On a pu dire que l'avenir de la biologie dépendrait de notre compréhension du croisement de niveaux biologiques différents, c'est-à-dire de la manière dont les propriétés, à un niveau donné, se reflètent en un niveau adjacent. De même en théorie de l'organisation, où l'on étudie explicitement la structure interne d'une organisation, une

La théorie des systèmes

67

théorie des systèmes à niveaux multiples s'avère indispensable. Il est difficile d'exagérer l'importance des systèmes à niveaux multiples et à plusieurs buts. On a de bonnes raisons de croire que la notion de hiérarchie est intimement liée au concept même de grand système et que, inversement, un tel système présente des aspects de hiérarchisation.

5. APPLICATIONS

La notion de système a envahi plus d'un domaine. Comme les mathématiques appliquées, la théorie des systèmes est utilisée presque chaque fois que l'on désire développer une théorie formelle pour résoudre des problèmes de structure. Grosso modo, les applications de la théorie des systèmes peuvent être groupées en trois catégories, selon le rôle qu'elles jouent dans la méthodologie des domaines respectifs, à savoir les sciences, l'ingénierie et la gestion. 5.1 Applications aux sciences. Dans les sciences autres que les sciences physiques (sciences sociales et politiques, psychologie, économie, etc.), la théorie des systèmes fournit l'ossature de toute étude formelle, qu'elle soit purement mathématique ou basée sur une situation simulée par des ordinateurs. Elle tend de plus en plus à s'identifier à l'application de méthodes quantitatives en général, et fournit en outre un nouvel ensemble d'images et de paradigmes permettant une meilleure conceptualisation et la création de modèles. Traditionnellement, concepts et notions provenaient surtout des sciences physiques. C'est ainsi que l'on pouvait parler de pressions, de forces, d'énergie, etc., dans le contexte de situations sociales, politiques et économiques. Aujourd'hui, la théorie des systèmes fournit de nouvelles images s'exprimant en termes de feedbatk, flux d'information, relations de jeux, hiérarchies, etc. Ces images nous découvrent des horizons totalement nouveaux, susceptibles d'améliorer considérablement notre compréhension des systèmes économiques et sociaux, surtout si l'on utilise conjointement des ordinateurs. La théorie des systèmes a ajouté également une dimension nouvelle aux sciences physiques et biologiques. Cela est particulièrement frappant en biologie, où, traditionnellement, les lois physiques et les principes chimiques fournissaient l'essentiel des explications scientifiques. La théorie des systèmes constitue un cadre nouveau dans lequel peuvent s'expliquer_

68

Mihajlo D. Mesarovic

scientifiquement des problèmes biologiques. Plus précisément, on peut maintenant décrire les phénomènes biologiques en termes du traitement de l'information et de la décision, comme des canaux d'information par exemple, des systèmes de contrôle à feedback, des systèmes à niveaux multiples, etc. Les résultats ont été plus que satisfaisants, surtout en physiologie; mais il faut toutefois avouer que plusieurs questions méthodologiques et plusieurs problèmes conceptuels attendent encore leur solution. C'est ainsi qu'on reproche encore occasionnellement à telle explication biologique fournie par la théorie des systèmes de ne pas être aussi fondamentale que les explications biophysiques ou biochimiques, de n'être que temporaire, de constituer en quelque sorte un expédient, en attendant une explication «finale», laquelle, il est implicitement entendu, devrait être donnée par des lois physiques ou des principes chimiques. Cette position n'est pas défendable. On peut alléguer des raisons sérieuses tendant à montrer qu'une explication biologique fournie par la théorie des systèmes se situe à un niveau biologique fondamental et qu'elle n'est pas réductible à des niveaux inférieurs, de même que la chimie n'est en aucun sens pratique réductible à la physique. 5.2 Ingénierie. La théorie des systèmes a des applications multiples et variées dans ce domaine, premièrement à la synthèse et à l'élaboration de systèmes créés par l'homme en vue du traitement de l'information et des fonctions de décision (en particulier pour la fabrication des ordinateurs et leurs applications), deuxièmement à l'analyse de gros complexes technologiques comportant des sous-systèmes variés (électriques, mécaniques, etc.), troisièmement à l'évaluation de l'impact social exercé par de tels systèmes et leur économie ; enfin, et ce n'est certainement pas l'application la moins importante, à des domaines socio-technologiques tels que le transport, la planification urbaine, la pollution, etc. Bien qu'ils soient de nature technologique, ces systèmes créés par l'homme ont des conséquences sociales considérables. Le fonctionnement d'un tel système ne peut pas être décrit au niveau de ses composantes physiques ; il faut l'étudier dans le cadre des systèmes. C'est cette étude qui est au coeur de ce qu'on appelle les systèmes d'ingénierie. 5.3 Gestion. Il y a diverses façons d'appliquer la théorie des systèmes à la gestion. Tout d'abord, c'est dans le cadre de cette théorie que se font les applications des techniques dites modernes de gestion (programmation,

La théorie des systèmes

69

recherche opérationnelle, etc.). Ensuite, c'est en considérant les fonctions de la gestion et l'ensemble de l'entreprise du point de vue de la théorie des systèmes que l'on développe et utilise l'automatisation des fonctions de gestion, telles que, par exemple, les systèmes d'information de gestion (par ordinateur). Enfin, l'analyse et les modèles fournis par la théorie des systèmes dans le monde des affaires (par exemple de l'organisation, du marketing, de l'économie, etc.) permet une amélioration substantielle du processus de décision en management. Il faut faire ici certaines remarques sur «le point de vue des systèmes» en gestion et en ingénierie. Beaucoup de problèmes complexes dans ces domaines n'étaient autrefois pas soumis à une analyse déductive ou quantitative, aucune base et aucun outil d'analyse n'étant disponibles. Ces derniers ont été fournis par la théorie des systèmes et la simulation par ordinateurs. Autrefois, seuls quelques systèmes (ceux que les mathématiques classiques permettaient d'étudier) étaient considérés, et cela séparément les uns des autres. Le système entier, quant à lui, était désespérément trop compliqué pour permettre une analyse quantitive. Le nouveau «point de vue des systèmes» consiste à considérer d'abord le système tout entier et à en décrire le fonctionnement de manière aussi réaliste que possible, en évitant le danger d'utiliser des modèles mathématiques trop précis (tels que, par exemple, des systèmes d'équations différentielles). La théorie des systèmes et les ordinateurs permettent l'analyse de systèmes pauvrement structurés et faiblement explicités. L'accent est porté sur une représentation réaliste du système dans sa totalité. Il est à peine nécessaire d'insister sur l'utilité d'un tel point de vue. 5.4 Les implications qu'entraîne la théorie des systèmes dans d'autres domaines sont également intéressantes. Du point de vue philosophique, l'approche qu'elle offre s'inscrit dans la tradition du positivisme logique. Elle représente toutefois une déviation majeure du point de vue traditionnel en ce qu'elle a un caractère relativiste beaucoup plus marqué. Plutôt que de s'engager sur une idée réductionniste on adopte seulement comme méthodologie l'utilisation de constructions mathématiques afin d'étudier quelques relations structurelles de phénomènes réels. De plus, cette approche ouvre une voie d'attaque nouvelle de plusieurs problèmes (apprentissage, information, etc.) dont l'intérêt, pour diverses branches de la philosophie, l'epistémologie en particulier, est capital. Enfin, en cette période de spécialisation croissante, de débordement de l'information et

70

Mihajlo D. Mesarovic

d'augmentation extraordinaire de la connaissance détaillée des faits, la théorie des systèmes offre l'un des rares moyens de rassembler toutes les pièces, de voir et de comprendre le monde qui nous entoure «tel qu'il apparaît», de reconnaître les rapports qui lient ce que l'on considérait habituellement comme des détails isolés. La théorie des systèmes promet d'être de la plus haute importance pour l'organisation de la connaissance. Les aspects structuraux de n'importe quel phénomène peuvent être décrits en termes du genre de systèmes utilisés dans le modèle. Le point de vue des systèmes peut donc fournir le cadre de l'organisation et de la classification des faits dans les domaines les plus divers. Cela est particulièrement important pour les sciences de l'éducation.

6. ARRIÈRE-PLAN THÉORIQUE

Il n'est pas facile de faire l'historique de la notion de système et de la méthode des systèmes en général parce que ce domaine s'est développé de manière assez large; on n'y trouve pas de progrès spectaculaire attribuable à un seul nom ou un seul groupe. Il était naturel pour les ingénieurs de considérer des systèmes de plus en plus grands, comportant des soussystèmes de natures variées et économiquement et socialement de plus en plus importants. Prenons le cas du génie électrique. Une première généralisation fut d'étudier une «machine électrique rotative générale», qui peut représenter soit des générateurs soit des moteurs de types différents. On inclut ensuite les transformateurs et on travailla avec un transformateur général d'énergie électrique ou électromécanique. La venue des circuits électroniques permit ensuite de développer la notion de réseau électrique. Cette notion fut suivie de la notion de réseau généralisé, basé uniquement sur l'échange d'énergie, indépendamment de la forme (électrique, mécanique, chimique) que prend l'échange. Vint enfin la notion de système ne traitant que de l'échange avec l'environnement, basé sur l'information et défini de manière abstraite plutôt qu'en terme d'échange d'énergie ou d'échange matériel. Ces mêmes tendances se retrouvent dans d'autres domaines, une complexité croissante nécessitant une plus grande généralité dans la description et l'analyse. D'autre part, c'est la naissance de l'automatisme et des ordinateurs qui permit à certaines idées de la théorie des systèmes d'acquérir leur valeur normative et descriptive, puisqu'on pouvait alors rendre

La théorie des systèmes

71

tangibles divers traitements de l'information et divers processus de décision. Tous ces progrès furent encore accélérés par des développements socio-technologiques d'importance et de complexité inconnues jusqu'alors (exploration de l'espace, urbanisation sans cesse croissante, explosion démographique, etc.). Un travail un peu plus précis consisterait à retracer les efforts déployés en vue de développer une théorie générale des systèmes. Mentionnons, sous ce rapport, les principales tendances suivantes : A) Recherches de lois générales valables dans des domaines biologiques et sociaux (Von Bertalanffy, 1968; Boulding, 1956), cette étude, non mathématique, se voulant une philosophie scientifique. B) Développement d'une théorie de la cybernétique, ou contrôle de «direction» (Wiener, 1948). C) Développement d'une théorie générale des systèmes qui serait d'une part essentiellement relativiste (c'est-à-dire qui ne ferait aucune assertion quant à l'existence de lois générales - voir A) tout en combinant d'autre part les phénomènes de contrôle (décision) et ceux d'information (par traitement des signaux) (Mesarovic, 1964; 1968). Il est à peine besoin de dire lequel de ces points de vue nous est ici préféré. Toutefois, le domaine n'est pas entièrement développé, et seul l'avenir dira laquelle de ces tendances est la plus utile. Quant à l'importance considérable de la notion de système, elle a déjà été établie.

RÉFÉRENCES

BERTALANFFY, L. VON (1950), «An outline of general systems theory», The British Journal of the Philosophy of Science. BERTALANFFY, L. VON (1968), General System Theory, G. Braziller. BOULDING, K. E. (1956), «General systems theory-skeleton of science», General Systems Yearbook, Ann Arbor (Mich.), University of Michigan. MESAROVIC, M. D. (1964), «Foundations for a general systems theory», in Views on General Systems Theory, New York, John Wiley. MESAROVIC, M. D. (1968), «Auxiliary functions and constructive specification of general systems», Journal of Mathematical Systems Theory, Springer Verlag. MESAROVIC, M . D . , MACKO, D . , TAKAHARA, Y . ( 1 9 7 0 ) , Theory

New York, Academic Press. WIENER, N . (1948), Cybernetics, New York, John Wiley.

of Multilevel

Systems,

4 Les concepts de symétrie et la théorie fondamentale de la matière

A B D U S SALAM «La symétrie, quelle que soit l'étendue du sens qu'on s'accorde à donner à ce terme, est une des idées par lesquelles l'homme a essayé, à travers les âges, de comprendre et d'établir l'ordre, la beauté et la perfection.» Herman Weyl 1. I N T R O D U C T I O N

Dès l'aube de la civilisation, l'homme s'est émerveillé et s'est posé des questions. 11 s'est interrogé sur la couleur du soleil couchant, sur le scintillement des étoiles, sur le tonnerre et la pluie, sur la trajectoire d'un projectile ou d'un satellite et, en fin de compte, sur la vie elle-même. Mais un même thème réapparaît dans toutes ces recherches. L'homme a toujours été convaincu que les réponses à ces questions devaient découler d'un très petit nombre de principes généraux. Il a toujours gardé une foi aveugle en la symétrie finale et l'ultime simplicité inhérentes à toute loi fondamentale régissant l'univers. L'histoire des sciences n'est que l'histoire de la recherche de concepts unificateurs qui englobent tout. Et presque toujours ce sont les concepts exerçant le plus grand attrait esthétique qui se sont imposés. Le façon la plus simple d'illustrer ce que je veux dire et d'indiquer l'esprit dans lequel j'aimerais développer mon thème est de considérer une symétrie fondamentale que nous croyons tous être une propriété de notre univers: la symétrie de l'espace par translation. C'est l'une des formes les plus familières de la symétrie ornementale, et on la retrouve couramment en art et en architecture. On dit qu'une structure est symétrique par translation si, comme c'est le cas des voûtes délicates du Palais des Doges à Venise, elle a un motif qui se répète quand on le translate d'une distance finie. Admettons maintenant que l'espace dans lequel nous vivons possède la symétrie d'une «répétition» parfaite de ce genre; plus précisément, que les résultats d'une expérience effectuée sur la Terre par exemple soient identiques à ceux de la même expérience faite sur Mars, que la transposition d'une expérience de la Terre à Mars n'en modifie pas les

74

Abdus Salam

résultats et qu'en général les lois de la physique soient symétriques par translation. Il est clair que, s'il n'en était ainsi, les phénomènes naturels ne pourraient pas se reproduire. Si les lois de la physique variaient d'un endroit à l'autre, de la Terre à Mars par exemple, elles seraient infiniment plus difficiles à déterminer et la science n'existerait pas sous la forme que nous lui connaissons. Or ce qui est remarquable, c'est que cette symétrie de l'espace par translation est une hypothèse vérifiable dans nos laboratoires terrestres,' sans que nous devions nous rendre ailleurs dans l'univers. Il est possible de démontrer - j'y reviendrai un peu plus loin - que la loi bien connue de la conservation du moment est une conséquence directe de ce postulat. On peut donc dire que, dans la mesure où il y a conservation du moment dans une collision, l'espace est symétrique par translation et vice versa. Assimilons l'espace entier au Palais des Doges, chaque voûte représentant les résultats d'une expérience locale. La suite des voûtes porte en elle une symétrie qui non seulement est un élément de la beauté de la structure, mais a une conséquence encore plus profonde. Elle explique un phénomène fondamental - la conservation du moment - que l'on retrouve un certain nombre de fois sous chaque voûte. On voit donc que, dans les sciences physiques, les concepts de symétrie n'offrent pas seulement un intérêt d'ordre esthétique mais fournissent aussi des corrélations profondes entre l'expérience et l'hypothèse. Ayant préparé l'étude des principes de symétrie, je vais maintenant indiquer rapidement les points particuliers sur lesquels je porterai mon attention. Je traiterai spécifiquement des concepts suivants : 1. Symétrie spatiale et temporelle; postulat de la symétrie de l'espace et du temps par translation et rotation. 2. Symétrie de l'espace et inversion du temps. 3. Symétries associées aux propriétés intrinsèques de la matière - propriétés telles que porter une charge électrique, une hypercharge ou une charge unitaire. 4. Rôle des symétries approximatives, combinant les symétries spatiales et temporelles et les symétries intrinsèques déjà mentionnées. Je ne m'occuperai pas des symétries que l'on rencontre dans le monde macroscopique (par exemple les symétries des cristaux, les symétries ornementales en architecture, en sculpture et en art, surtout dans l'art oriental). Bien que ces symétries soient importantes du point de vue de l'esthétique, elles n'ont pas un rapport aussi profond avec les lois fondamentales de la physique que les autres symétries que j'ai mentionnées.

Les concepts de symétrie et la théorie fondamentale de la matière

75

2 . RÔLE DE LA THÉORIE DES G R O U P E S

Précisons tout de suite, avant d'aborder l'étude des symétries spatiales et temporelles et des symétries internes de la matière, que la théorie des groupes est l'outil mathématique par excellence pour décrire une symétrie. On dit qu'un groupe de symétries (opérations pareilles à celle qui, à chaque voûte du Palais des Doges, associe la voûte suivante) agit sur un ensemble (l'ensemble des voûtes) si chaque symétrie, effectuée sur un membre donné de l'ensemble, lui associe un autre membre de l'ensemble. On distingue, selon la nature de leurs éléments, deux types de groupes. Un groupe de transformations est soit discret (quand les transformations sont en nombre fini - c'est le cas d'un groupe cristallographique), soit continu (c'est le cas du groupe des rotations du cercle, une rotation associant à chaque point du cercle un point voisin). La théorie des groupes est l'une des théories mathématiques les plus perfectionnées. Bien qu'elle ait été florissante vers la fin du 19e siècle (surtout en ce qui concerne la théorie des groupes continus, développée par S. Lie), son emploi systématique en physique remonte à une date plus récente et ne précède pas les débuts de la théorie des quantas. Pour comprendre pourquoi, reprenons le postulat dé la symétrie de l'espace mentionné plus haut. J'ai déjà dit que le postulat de la symétrie de l'espace par rapport aux translations entraînait le principe de la conservation du moment. La démonstration de ce fait est classique; elle dépend essentiellement de notre façon de définir la notion de moment. Considérons maintenant les précisions apportées à ce résultat par la théorie des quantas. Cette théorie a fait usage de la théorie des groupes (donc d'un outil mathématique puissant) dans la description des phénomènes physiques. Yang et Wigner ont montré que les raisons de cette évolution résident essentiellement en une circonstance fondamentale, à savoir le postulat fondamental de la théorie des quantas selon lequel les états quantifiés d'un système physique forment une variété linéaire. Pour illustrer ces idées, considérons les rotations de l'espace à trois dimensions, rotations représentées mathématiquement par le groupe 0(3). L'histoire de la physique montre qu'on est toujours parti du principe que les lois physiques sont invariantes sous l'action de ces rotations. En dernière analyse, c'est là une hypothèse empirique, et que l'on doit vérifier par les conséquences qu'elle entraîne. Nous incorporons cette hypothèse en physique en exigeant que la forme des équations de mouvement qui

76

Abdus Salam

traduisent des lois physiques fondamentales demeure inchangée quand on remplace les coordonnées par celles obtenues après une rotation. Du point de vue matériel, cela revient à affirmer que les résultats d'une expérience ne sont pas modifiés si l'on fait subir une rotation d'angle donné à l'appareillage et aux instruments de mesure. Une application de cette symétrie rotationnelle aux trajectoires classiques (orbites planétaires par exemple) nous permet également de déduire par rotation diverses orbites à partir d'une orbite donnée. Or, bien qu'important, ce résultat de la physique classique n'est certainement pas très profond. Il ne nous donne pas une nouvelle compréhension des choses. Comparons-le à la situation analogue en mécanique quantique. On peut faire la même remarque au sujet des orbites quantiques. Or, en théorie quantique, nous disposons d'un postulat supplémentaire d'après lequel toutes les orbites possibles forment une variété linéaire et il est possible, dans cette variété, de choisir une base d'orbites (c'est-à-dire un ensemble d'orbites linéairement indépendantes et génératrices) en fonction de laquelle toute orbite arbitraire peut s'exprimer linéairement : j Appelons U(g) l'opérateur associé à la rotation g. L'invariance par rotation montre que si | > est une orbite, | > = U(g) | ¥ > est aussi une orbite possible. Dans le cas particulier = on a, compte tenu du choix des Vj, j Il est clair que les au nous donnent immédiatement une représentation du groupe de nos rotations (au sens technique de matrices représentant des rotations). Compte tenu de l'hypothèse que les orbites forment une variété linéaire, nous nous trouvons tout de suite (grâce à la théorie mathématique de la représentation des groupes) à un niveau d'une richesse insoupçonnée et inimaginable en dynamique classique. Poursuivons encore ces idées. Pour des raisons qui ont trait à la théorie de la mesure en mécanique quantique, on ne considère en théorie quantique que les représentations unitaires. Je n'en dirai pas plus ici ; nous conviendrons simplement de ne considérer que ce genre de représentation. Écrivons un opérateur de rotation unitaire infinitésimal sous la forme

Les concepts de symétrie et la théorie fondamentale de la matière

(Photo Alexis N.

77

Vorontzoff)

Les délicates arcades du Palais des Doges, à Venise, illustrent la notion de «symétrie par translation».

78

Abdus Salam U(g) xl + isj Jj 0' = 1, 2, 3)

Les relations classiques de commutativité des opérateurs réels J¡ représentant les trois composantes du vecteur moment angulaire sont : où

1Ji>Jj] = ï eijk Jk e

ijk = H - O

si i, j, k = 1, 2, 3 ou une permutation cyclique ou anticyclique de ces nombres, et où eUk = 0 dans les autres cas. Ces relations de commutativité expriment le fait bien connu que la composition d'une rotation d'angle 0 et d'axe A suivie d'une rotation d'angle (p et d'axe B ne produit pas la même configuration finale du système que les deux rotations effectuées dans l'ordre inverse. Or il est bien connu que l'opérateur associé au moment angulaire total J2 = J2 +J22 + J32 commute avec chacun des Jl.[J2,Ji] = 0. D'autre part, le groupe 0(3) admet des représentations matricielles notées symboliquement par deux nombres discrets j et j3 : J 2 |À/3> =70'+1) \ j , h > J3 \j,Ï3> =j,h> où j prend des valeurs intégrales ou demi-intégrales comme 0, \ ... et j3 est compris entre +j et —j. Le postulat de symétrie pour les rotations spatiales joint à la complétude des états élémentaires d'un système en mécanique quantique nous permet donc de dire que tous les systèmes rencontrés dans la nature sont une superposition d'états discrets ayant des moments angulaires de valeurs bien déterminées. Le nombre quantique des demi-entiers j, qui représente le moment angulaire total (appelé aussi spin intrinsèque) d'un état élémentaire, et j3, la composante du spin le long de l'axe des z, sont tous deux quantifiés; ces quantités sont toutes deux des entiers ou la moitié d'un nombre entier (l'unité étant la constante de Planck). Or on sait que la quantification, l'essence discrète d'une quantité physique, est le fondement même de la mécanique quantique. C'est l'application de la théorie de la représentation des groupes au groupe des symétries des rotations tri-dimensionnelles qui nous a tout de suite permis de conclure que le moment angulaire est toujours quantifié. On ne saurait concevoir de plus belle synthèse entre les symétries, la théorie des groupes, la mécanique quantique et l'expérimentation. Résumons-nous : la symétrie par rotation était l'hypothèse de départ, la conservation du moment angulaire en était la conséquence classique, la

Les concepts de symétrie et la théorie fondamentale de la matière

79

quantification et la nature discrète de ce moment en étaient la conséquence quantique. Le tout forme un miraculeux mélange.

3. SYMÉTRIES R O T A T I O N N E L L E S DE L'ESPACE ET DU T E M P S

Nous n'avons considéré jusqu'ici que les symétries par translation et par rotation de l'espace tri-dimensionnel dans lequel nous vivons. La révolution causée par les idées d'Einstein en 1905 était due au postulat de la théorie de la relativité restreinte, selon lequel il existe dans la nature une symétrie totale entre l'espace et le temps - du moins en ce qui concerne les rotations et les translations. Plus précisément, ce principe dit que les résultats d'un expérience ne sont pas seulement invariants par les translations et les rotations spatiales, mais qu'ils demeurent également inchangés par les translations temporelles et les rotations spatio-temporelles (Lorentz), que les lois de la physique ne varient pas d'un jour à l'autre, qu'elles ne varient pas non plus si le système de référence dans lequel on les étudie est soumis à une rotation spatio-temporelle (ou, plus simplement, est animé d'un mouvement uniforme) relativement à un repère fixe. Les conséquences classiques directes de la symétrie des rotations spatiotemporelles sont légion ; elles comprennent, on le sait, l'équivalence de la masse et de l'énergie (c'est-à-dire la relation E = me2), ainsi que la dilatation du temps pour les objets animés d'un mouvement uniforme (la vie d'un astronaute, si on la mesure à l'aide d'une horloge stationnaire, augmente avec la vitesse à laquelle il voyage). Nous ne considérerons pas ici ces symétries sous leurs aspects classiques mais plutôt sous leurs aspects quantiques. Découverts tout d'abord par Dirac, ces aspects furent ensuite élaborés dans le langage de la théorie des groupes par Wigner, dans un mémoire resté classique (1939). Voici plus exactement ce que Dirac et Wigner ont montré : 3.1 Une des conséquences de la symétrie des rotations spatio-temporelles est que toutes les molécules, tous les atomes et, plus généralement, toutes les particules nucléaires et sous-nucléaires possèdent un moment angulaire propre. Ces particules ne sont pas seulement des morceaux de matière. Elles sont semblables à des toupies, tournant, relativement à leur sens de déplacement, dans le sens des aiguilles d'une montre ou en sens inverse.

80

Abdus Salam

3.2 Ce spin se mesure en multiples entiers de la moitié de la constante de Planck. Une particule de masse non nulle et de spin J peut exister sous (2/ + 1 ) formes, correspondant aux ( 2 J + 1) différentes polarisations de ce spin. Soit par exemple un faisceau d'électrons (ou de protons, ou de neutrons) ayant tous pour spin / = La moitié des électrons de ce faisceau tournera dans le sens contraire des aiguilles d'une montre (ce qui s'exprime mathématiquement en écrivant que J3, la composante du spin dans le sens du mouvement, égale + alors que l'autre moitié, tournant dans le sens des aiguilles d'une montre, aura une composante J3 égale à Une particule de masse non nulle et de spin J = \ aura 3 (2 x 1 + 1 ) directions de polarisation : J3 = + 1 , J3 = 0, J3 = — 1, etc. 3.3 Les particules qui ont une masse nulle au repos (et qui, pour cette raison, voyagent toujours à la vitesse de la lumière) n'ont que deux polarisations, indépendamment de la valeur totale de leur spin : pour une particule de spin J et de masse nulle (au repos), le spin gauche a pour valeur J3 = +J et le spin droit a pour valeur J3= — J, aucune autre polarisation n'étant possible. Dans le cas des particules de masse non nulle, les (2J +1) polarisations différentes mentionnées plus haut sont mutuellement équivalentes, dans le sens qu'on peut toujours passer de l'une à l'autre par une rotation spatiale. Il n'en est pas de même des particules de masse non nulle: les deux états de polarisation + / e t — J ne sont nullement équivalents. 3.4 On peut aussi postuler d'autres symétries que celles par rotation et par translation. Celles qui retiendront plus particulièrement mon attention sont les symétries discrètes de la réflexion spatiale et de l'inversion du temps. Les symétries de l'espace nous sont très familières. Nous pouvons, en regardant dans une glace, y voir s'y réfléchir notre monde, réflexion qui, comme nous le savons tous, n'est pas identique au monde lui-même. Dans un miroir, une main droite devient une main gauche, et un mouvement suivant le sens des aiguilles d'une montre devient un mouvement de sens contraire à celui des aiguilles d'une montre. Dire que les lois de la physique sont symétriques par rapport aux symétries spatiales est avancer une affirmation considérable. C'est dire par exemple que s'il existe des mains droites quelque part dans l'univers, il existe alors aussi des mains gauches. C'est dire aussi, pour les particules élémentaires, que s'il existe des élec-

Les concepts de symétrie et la théorie fondamentale de la matière

81

irons polarisés à droite et de spin droit, il existe alors aussi des électrons polarisés à gauche et de spin gauche. L'inversion du temps nous est moins familière. Nous inversons le temps en projetant un film à l'envers. On pourra alors voir un plongeur surgir de l'eau et se reposer sur le pongeoir - phénomène plutôt rare dans la vie courante. Postuler la symétrie de l'inversion du temps reviendrait à affirmer que plonger et «contre-plonger» sont deux phénomènes physiques possibles. Or, en 1928, Dirac postula (en des termes légèrement différents des miens) que les lois de la physique sont symétriques si l'on effectue simultanément une symétrie spatiale et une inversion du temps, c'est-à-dire par exemple si l'on regarde dans une glace et que l'on effectue en même temps une inversion du temps. Cette hypothèse, qui n'est sans doute pas des plus évidentes, jointe à la symétrie des rotations spatio-temporelles déjà mentionnée, eut une conséquence stupéfiante. Dirac put en effet en conclure que toutes les particules dans la nature - tous les atomes, toutes les molécules, toutes les particules nucléaires, ainsi que tous les objets qui en sont formés - existent en double. A chaque particule correspond une antiparticule. Une antiparticule a le même spin et la même masse que la particule, mais en diffère par sa charge électrique ou nucléaire, qui est de signe contraire. Si les conclusions de Dirac étaient correctes, l'existence d'un électron de charge négative entraînerait celle d'un antiproton. De même, l'existence de l'atome d'hydrogène entraînerait l'existence d'un antiatome d'antihydrogène ayant les mêmes niveaux d'énergie que l'atome d'hydrogène. Ces travaux de Dirac sont parmi les plus importants et les plus féconds de toute l'histoire de la physique. Ils ont été brillamment confirmés par la découverte exprérimentale des antiélectrons et des antiprotons. Dirac doublait ainsi d'un seul coup le nombre des structures possibles de l'univers, et ce grâce à un raisonnement purement mathématique basé sur certaines symétries qu'on avait postulées. 3.5 Étudions maintenant la symétrie de réflexion spatiale séparément. Le corps humain est symétrique pour ce qui est de son apparence extérieure : nous avons par exemple une main droite et une main gauche. Mais il n'en est pas de même pour les organes internes. La plupart des hommes n'ont un coeur qu'à gauche. Toutefois, la forme faible du principe de symétrie de la réflexion spatiale affirme seulement qu'on ne doit pas exclure l'existence possible d'individus ayant le coeur à droite. Le fait que de tels

82

Abdus Salam

individus soient rares est peut-être simplement une conséquence de facteurs génétiques accidentels - le résultat de conditions aux limites non symétriques qui se sont perpétuées. C'est en effet ce qui se passe : bien que rares, il existe des individus ayant le coeur à droite. La symétrie de l'espace par réflexion semble donc être vraie dans la nature. Telle était du moins l'opinion généralement partagée depuis Leibnitz (qui fut le premier à étudier cette symétrie) jusqu'en 1957. On croyait qu'en ce qui concernait les lois de la physique fondamentale, il n'y avait aucune différence interne entre la droite et la gauche. On peut exprimer cela mathématiquement en écrivant que les équations du mouvement qui décrivent l'univers sont invariantes quand on y remplace la coordonnée x par —x. Or, pendant l'été de 1956, deux physiciens chinois travaillant aux États-Unis, T.D. Lee et C.N.Yang, examinèrent soigneusement les données expérimentales existant alors et aboutirent à la conclusion que si cette symétrie avait été vérifiée pour les interactions des protons, neutrons et électrons, elle n'avait jamais été vérifiée dans les cas faisant intervenir les neutrinos. Ils proposèrent que l'on vérifie directement si ce principe était aussi universel qu'on le croyait. J'ai eu l'occasion d'entendre le professur C.N.Yang remettre en question, au cours d'une conférence faite à Seattle en septembre 1956, le postulat de la symétrie de la réflexion spatiale. Que la nature doive sacrifier si légèrement un principe de symétrie me paraissait sacrilège, comme d'ailiers à la plupart des autres physiciens présents. Cette même nuit, les forces de l'air américaines mirent à notre disposition un avion de transport militaire pour nous ramener de Seattle à Londres. L'avion était trop bruyant et trop inconfortable pour nous permettre de dormir et, pendant qu'il survolait le sombre océan Atlantique, je ne pus empêcher les idées du professeur Yang de me travailler. J'estimais que si la nature devait à tout prix sacrifier le principe de la symétrie par réflexion spatiale, ce ne pourrait être que parce que ce principe était en contradiction avec un principe de symétrie esthétiquement plus attrayant encore. Or on savait à l'époque que la masse d'un neutrino au repos est très petite. Je compris subitement que, en supposant que cette masse était exactement nulle, c'est-à-dire que le neutrino se déplaçait toujours exactement à la vitesse de la lumière, il serait facile de montrer immédiatement, sans avoir à faire de calculs fastidieux, que cet état de chose contredirait la symétrie par réflexion pour les neutrinos. Il existerait ainsi des neutrinos de spin droit

Les concepts de symétrie et la théorie fondamentale de la matière

83

mais pas de neutrinos de spin gauche. Tel l'Hoffman d'Offenbach, un neutrino de spin droit se regardant dans une glace ne verrait rien. La nature pouvait-elle sacrifier la symétrie par réflexion au profit d'une autre symétrie (appelée maintenant la symétrie y5) régissant le comportement de toutes les particules de spin \ ayant une masse nulle au repos et se déplaçant à la vitesse de la lumière? Ces idées devaient être entièrement vérifiées au début de 1957 par les expériences de Wu et de Lederman, aux Etats-Unis. Il n'esiste pas de symétrie par réflexion pour les neutrinos; il existe des neutrinos de spin droit, mais pas de neutrinos de spin gauche. En 1957, cette symétrie semblait mal remplacer l'absence de symétrie par réflexion. En 1969, après que la symétrie y5 eut envahi toutes les branches de la physique, tant nucléaires qu'électromagnétiques, on devint conscient que la perte avait été largement compensée par le gain. C'est là toutefois un développement que je ne peux pas décrire en détail car il est difficile d'expliquer la symétrie y5 en termes non mathématiques. Si j'ai rapporté cet épisode de l'histoire de la physique, c'est qu'il illustre très bien l'idée fixe que nous avons presque tous et par laquelle j'ai commencé cet essai. Nous avons toujours trouvé que, chaque fois qu'un postulat de symétrie semblait ne pas se vérifier dans des phénomènes naturels, c'était parce qu'il existait une symétrie plus profonde encore avec laquelle il était en conflit. Il nous arrive parfois de ne pas saisir l'esthétique de la nature, mais quand l'image ultime apparaît tout entière, nous nous apercevons toujours que les symétries qu'elle nous présente sont encore plus profondes.

4 . SYMÉTRIES DE LA S T R U C T U R E I N T E R N E DES P A R T I C U L E S

Nous avons examiné jusqu'ici les symétries spatio-temporelles, la quantisation du spin par les représentations du groupe 0(3) et l'antisymétrie des particules quand on prend pour axiome fondamental la symétrie des réflexions spatio-temporelles. Dans cette section, nous étudierons les symétries internes des particules et la classification que ces symétries entraînent. Là encore c'est la théorie des groupes qui sera notre principe directeur et, pour l'illustrer, je retracerai rapidement le développement de la physique expérimentale des particules, de 1926 à nos jours. Vers le milieu des années 20 on ne connaissait que deux particules fon-

84

Abdus Salam

damentales : le proton et l'électron. Ce sont deux petits grains de matière, le proton ayant une masse d'environ 1 0 - 2 4 grammes et l'électron étant environ 2 000 fois plus léger. Tous deux sont porteurs de charges électriques, le proton ayant une charge positive et l'électron une charge négative. Ces particules étaient dites élémentaires et fondamentales car on pensait alors (à tort) que toute la matière (les 92 atomes alors connus) en était uniquement composée. Or, ainsi que nous l'avons vu plus haut, les protons et les électrons ne sont pas que de simples grains de matière. Ces deux particules possèdent un spin intrinsèque; du point de vue de la théorie des groupes, elles correspondent à la représentation spinorielle de groupe 0(3) avec j = j, j 3 = i , — i- Dans la terminologie introduite plus haut, le proton et l'électron forment chacun un double multiplet (2\j + 1 = 2). Ce qui était - et est encore - surprenant, c'est que ces deux particules portent des charges électriques numériquement égales. Bien que la masse de l'électron diffère considérablement de celle du proton (le rapport est de 1 à 2 000), leurs charges électriques sont égales. De plus, tout comme dans le cas du moment angulaire, les charges électriques existant dans la nature sont toutes exprimables en quantas, comme multiples entiers de la charge portée par l'électron. Nous devons intégrer ces faits à notre description de la nature, que ce soit en postulant que tout système naturel est fait de protons et d'électrons ou en adoptant une théorie plus vaste et qui demeure valable même si les protons et les électrons n'y sont plus élémentaires. La notion de symétrie et la théorie des groupes ayant éclairci la quantisation du spin, le chemin à suivre pour élaborer cette théorie plus vaste était tout tracé en termes de la théorie des groupes. Les représentations d'un groupe de rotations en dimension deux sont paramétrées par des entiers positifs ou négatifs. Admettons qu'il existe un espace «interne» de dimension deux - appelé «l'espace des charges» - représentant les degrés de liberté «internes» de la structure de la matière. Supposons encore que les équations de mouvement de la physique soient invariantes par rapport aux rotations de cet espace. Le raisonnement esquissé plus haut pour la mécanique quantique montre alors que cette symétrie par rotation entraîne et la conservation et la quantisation de la charge. La démarche et le raisonnement logiques demeurent les mêmes que pour le groupe tridimensionnel des rotations. La différence toutefois est que, contrairement aux dimensions de l'espace physique ordinaire, les nouvelles dimensions de «l'espace des états» ne peuvent apparemment pas être perçues directement

Les concepts de symétrie et la théorie fondamentale de la matière

85

mais le sont plutôt par leur manifestation - charge électrique exprimable en quantas. Jusqu'en 1930, la charge électrique, cette entité exprimable en quantas, était la seule caractéristique «interne» connue d'une particule élémentaire. La découverte du neutron par Chadwick en 1930 vint tout bouleverser. Le neutron était la troisième «particule élémentaire». De masse presque égale à celle du proton, il était cependant électriquement neutre. Un proton et un électron s'attiraient mutuellement par la force électrostatique ordinaire quand on les rapprochait, mais cette force n'avait évidemment aucun rapport avec les neutrons puisque ceux-ci étaient électriquement neutres. On remarqua toutefois l'existence d'une grande force d'attraction entre deux protons ou entre un proton et un neutron, quand ces deux particules étaient mises en présence l'une de l'autre. C'était là une nouvelle force dans la nature. L'expérience montra que, toutes proportions gardées, elle était cent fois plus grande que la force électrique. Aussi pouvait-on considérer, à une excellente approximation près (celle négligeant les forces électriques), que protons et neutrons n'étaient que deux états d'une même entité : le nucléon. 4.1 Symétrie

isotopique

Ce n'était pas la première fois que l'on se trouvait en présence d'une situation où une seule entité (le nucléon) existait sous deux états distincts (proton et neutron). Nous avons déjà vu qu'une particule de spin \ admet deux états de polarisation : | J = j3 = + \ > , et \j = i,j3 = — \ > . Pouvait-on ici encore postuler l'existence d'un espace «interne» tridimensionnel engendré par trois rotations infinitésimales I u I 2 , h , vérifiant les relations de commutativité suivantes : [/„ Ij] = i eiJk Ik La représentation / = ^ de ce nouveau groupe pourrait alors s'identifier au nucléon, / 3 = \ représentant l'état proton et / 3 = > i représentant l'état neutron. Cette hypothèse fut d'abord proposée par Kemmer, Heisenberg et Breit aux environs des années 1934-1938. Le nouvel espace «interne» fut appelé «espace isotopique», les noyaux, composés de nucléons, formaient des multiplets correspondant aux représentations irréductibles de ce groupe isotopique des rotations. Tous les noyaux étaient porteurs d'un spin isotopique en plus, évidemment, du spin ordinaire que j'appellerai désormais spin de Poincaré.

86

Abdus Salam

La phase suivante dans l'histoire de la physique des particules commença en 1935 quand Yukawa formula certaines conjectures. Remarquant d'abord que, conformément aux lois de Maxwell, toutes les charges électriques émettaient des radiations électromagnétiques quand elles étaient accélérées, et que l'aspect quantique des forces électromagnétiques est le photon, Yukawa se demanda quel était l'analogue des photons pour la force nucléaire, quel type de radiation les nucléons émettaient quand ils étaient accélérés. Yukawa conjectura l'existence dans la nature de particules dites mésons et semblables aux photons. Ces particules ont une masse comprise entre celle des électrons et celle des nucléons et sont émises par les nucléons accélérés. Du point de vue de la théorie des groupes, si de telles particules existaient, elles correspondraient dans ce cas également aux représentations du groupe isotopique. Si, de plus, ces particules étaient émises une à une (comme c'est le cas pour les photons) par les nucléons, la conservation du spin isotopique entraînerait alors que le spin 7 est un entier et non plus un demi-entier. Ces idées, exprimées par Yukawa en 1935, étaient convaincantes. La recherche de ces particules fut interrompue pendant la guerre, mais peu après, en 1947, le professeur E. C. Powell annonça la découverte de particules de Yukawa dans les rayons cosmiques, particules appelées «pions». Il y a trois pions correspondant au spin isotopique 7 = 1 : nJ- -> | 7 = 1 , 73 = 1> n° | 7 = 1, 73 = 0 > n~ -> | 7 = 1,1 3 = 1 > Le spin de Poincaré J de ces particules s'avéra nul. En résumé, la classification de particules assujetties à la force nucléaire se fait en fonction de trois types de symétries : (1) La symétrie «externe» spatio-temporelle, à laquelle correspond le spin J de Poincaré. (2) Deux symétries rotationnelles «internes» auxquelles correspondent respectivement : (a) le spin isotopique, (b) la charge électrique Q. 4.2 La symétrie

SU(3)

De nouvelles découvertes expérimentales eurent lieu après 1947. On

Les concepts de symétrie et la théorie fondamentale

de la matière

87

découvrit une foule de nouveaux objets : particules de masses différentes, de charges différentes, de spin de Poincaré différent, et de spins isotopiques différents. Il n'était plus possible, même avec beaucoup d'imagination, de qualifier ces particules d'élémentaires. Mais, qu'elles le fussent ou non, il fallait en tous cas en trouver une description quantique. Voici la situation telle qu'elle se présentait en janvier 1964. Des expériences longues et méticuleuses entreprises et avec les rayons cosmiques et avec les accélérateurs géants du C.E.R.N., de Brookhaven, de Dubna, de Berkeley et d'ailleurs, avaient permis de classifier les particules nouvellement découvertes selon les multiplets suivants : ( 1 ) 8 particules de spin de Poincaré \ (la famille des nucléons) (2) 9 particules de spin de Poincaré \ (nucléons excités) (3) 8 mésons de spin de Poincaré nul (4) 9 mésons excités de spin de Poincaré 1. Je n'ai pas besoin, pour les buts de cette étude, de donner davantage de détails sur ces multiplets. En particulier, la nomenclature qui se rattache à chaque multiplet n'a ici aucune importance. Ces multiplets ont toutefois un point commun que j'aimerais illustrer, et je considérerai pour cela le multiplet du nucléon formé des 8 composantes suivantes : Tableau 1 / p

1

n A0

J

i 0

Ì I-

j



)

1

i

h i

Q 1

Y=2(Q-h) 1

-i 0 1 0 -1

0

1

0

0

1 0 -1

0 0 0

i

0

-1

-i

-1

-1

Cet ensemble de huit particules - qui ont des masses à peu près égales et qui ont toutes le même spin - est formé de quatre multiplets isotopiques distincts (p,n), (A), ( I + E 0 I ~ ) et de (S 0 , S ~ ) dont les valeurs de I et de I3 sont données dans le tableau. Pour chacun des multiplets isotopiques, le nombre quantique (l'hypercharge) Y ( = 2 A Q —13) s'avère avoir la même valeur propre (qui est un nombre entier). Ce nombre est inscrit dans la

88

Abdus Salam

dernière colonne du tableau. Le nombre quantique Y prend les valeurs 1, 0, 0, — 1. Or si nous regardons les colonnes / 3 et Y, nous sommes tout de suite amenés à conjecturer l'existence d'un groupe de symétrie supérieure, peut-être un groupe de rang 2 puisque nous avons affaire ici à au moins deux opérateurs I3 et Y simultanément diagonalisables et grâce aux représentations desquels il pourrait être possible de classifier ces particules. Qu'une telle symétrie d'ordre supérieur entrât en jeu dans la physique des interactions nucléaires était très clair dans les années 1956-1957, mais ce n'est qu'en 1961 que l'on se rendit compte que le seul moyen de progresser était de rechercher systématiquement un groupe de Lie de rang 2. La principale incertitude de cette méthode était, comme toujours, de nature expérimentale. J'ai tranquillement affirmé que le multiplet du nucléon comportait 8 éléments ayant tous un spin de Poincaré égal à \ et j'ai donné, pour chacune de ces particules, les valeurs des spins I et des hypercharges Y comme si chaque objet découvert expérimentalement portait sur lui une étiquette indiquant ses caractéristiques. En fait, les choses ne se passent jamais ainsi et, jusqu'à nos jours par exemple, ce n'est qu'avec une certitude expérimentale ne dépassant pas statistiquement 95 % que l'on sait que le spin de Poincaré des particules S 0 et S " est effectivement égal à Mon collègue, le professeur P. T. Matthews, a expliqué les difficultés auxquelles il faut faire face en physique expérimentale. Il n'y a qu'un genre d'expérience que l'on puisse effectuer en physique des particules : elle consiste à diffracter un groupe de particules par un autre et, en déterminant le nombre de particules qui, après la collision, empruntent une direction donnée, à essayer de calculer les spins, spins isotopiques, etc., des différents éléments obtenus. C'est comme si l'on agitait un tuyau d'arrosage sur une statue dans une chambre noire et que l'on veuille déterminer les traits de cette statue en recueillant et en mesurant la quantité d'eau éclaboussée par cm 2 de sa surface. On peut facilement imaginer les difficultés d'une telle entreprise. Pour en revenir au problème de la classification des groupes, Sophus Lie avait déjà déterminé tous les groupes de rang 2: il n'y en a que 4, désignés par les lettres A2, B2, C 2 , et G2.I1 restait à trouver lequel de ces groupes représentait la symétrie. On peut formuler ce problème de la manière suivante: associant le groupe U 2 au spin / et le groupe L/1 à l'hypercharge Y, trouver un groupe de rang 2 ayant l / j et U2 pour sous-groupes et ayant une représentation de dimension 8 avec les composantes indiquées dans le tableau 1.

Les concepts de symétrie et la théorie fondamentale de la matière

89

Qu'on me permette d'insister une fois de plus sur le fait qu'aucun physicien ne saurait énoncer un problème de cette manière avant d'en connaître le résultat. Il y a tant de réserves à faire, tant de choses à accepter de confiance et, ce qui est encore plus difficile, tant de choses dont il ne faut pas tenir compte. Tel que je l'ai formulé plus haut, le problème admettait une solution : en 1959, les physiciens japonais Ohnuki, Ogawa et Sawada émirent l'hypothèse que le groupe de cette symétrie devait être A2, groupe appelé encore St/(3). La symétrie 5(7(3) fut appelée «symétrie unitaire». Malheureusement, les physiciens japonais firent une identification physique erronée des particules, et les représentations du groupe qu'ils avaient choisi ne se décomposèrent pas conformément au tableau 1. En 1961, Murray Gell-Mann et Yuval Neeman proposèrent une version qui cadrait mieux avec les faits. Ce résultat, pour encourageant qu'il fût, restait insuffisant. En effet, en plus du multiplet de 8 nucléons, il y avait aussi un multiplet formé de 9 nucléons excités ayant les spins et les hypercharges suivants : Tableau 2

N* + N*° -N*~ Y* + y*0

I

Y

1

1

1

0

Y*~

c*o

-1

Or le groupe 1/(3) n'admettait aucune représentation irréductible de 9 composantes. Le plus petit groupe dont la décomposition selon (U 2 x l/i) donnait, pour les générateurs I3 et Y, les valeurs propres indiquées dans le tableau 2, avait dix éléments. Il manquait donc une particule essentielle, une particule qui, par la structure de la représentation en question, devait avoir une charge isotopique I égale à 0 et une hypercharge Y égale à — 2. D'après la formule empirique Q = I3 + Y/2, sa charge électrique devait être égale à — 1. On appela la particule Î2~ avant même de la découvrir. Le sort de la symétrie 51/(3) en dépendait.

90 Abdus Salam Tel était l'état des choses en janvier 1964. En février de la même année, l'examen de millions de photographies prises dans la chambre à bulles, à Brookhaven, révéla l'existence de deux particules Q~. La formation et la désintégration de ces particules sont spectaculaires. Même aujourd'hui l'on n'en possède qu'une douzaine, ce qui les rend très précieuses. La symétrie supérieure 517(3) était établie. Le groupe du spin isotopique 0(3) « 5(7(2) avait été généralisé, le groupe du spin unitaire S(7(3) étant celui d'une symétrie encore plus élevée, encore plus générale de la famille des particules nucléaires. A présent une question se pose. Le groupe SU(3) a une représentation formée de trois éléments et qu'on appelle la représentation fondamentale parce qu'elle engendre toutes les autres représentations. Les physiciens l'appellent la représentation Quark. Ses trois composantes, les trois quarks individuels, ont les spins isotopiques / et les hypercharges Y suivants : h