265 56 7MB
French Pages 548 [539] Year 2010
MATHÉMATIQUES ET STATISTIQUE POUR LES SCIENCES DE LA NATURE Modéliser, comprendre et appliquer
Gérard Biau, Jérôme Droniou et Marc Herzlich Collection dirigée par Daniel Guin
17, avenue du Hoggar Parc d’activités de Courtabœuf, BP 112 91944 Les Ulis Cedex A, France
Illustration de couverture : Antoine Fournier ([email protected])
Imprimé en France
ISBN : 978-2-7598-0481-8 Tous droits de traduction, d’adaptation et de reproduction par tous procédés réservés pour tous pays. Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages publiées dans le présent ouvrage, faite sans l’autorisation de l’éditeur est illicite et constitue une contrefaçon. Seules sont autorisées, d’une part, les reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective, et d’autre part, les courtes citations justifiées par le caractère scientifique ou d’information de l’œuvre dans laquelle elles sont incorporées (art. L. 122-4, L. 122-5 et L. 335-2 du Code de la propriété intellectuelle). Des photocopies payantes peuvent être réalisées avec l’accord de l’éditeur. S’adresser au : Centre français d’exploitation du droit de copie, 3, rue Hautefeuille, 75006 Paris. Tél. : 01 43 26 95 35. c 2010, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc d’activités de Courtabœuf, 91944 Les Ulis Cedex A
TABLE DES MATIÈRES
Avant-Propos
I 1
xi
Bases Fonctions d’une variable 1.1 Problème : évolution d’un pathogène 1.2 Généralités . . . . . . . . . . . . . . . 1.2.1 Fonctions . . . . . . . . . . . 1.2.2 Représentations graphiques . 1.2.3 Variations . . . . . . . . . . . 1.3 Quelques fonctions usuelles . . . . . . 1.3.1 Fonctions puissances . . . . . 1.3.2 Logarithme . . . . . . . . . . 1.3.3 Exponentielle . . . . . . . . . 1.4 Limites . . . . . . . . . . . . . . . . . 1.4.1 Notion de limite . . . . . . . 1.4.2 Règles de calcul de limites . 1.5 Fonctions continues . . . . . . . . . . 1.5.1 Définition et propriétés . . . 1.5.2 Valeurs intermédiaires . . . . 1.5.3 Extrema . . . . . . . . . . . 1.5.4 Bijection réciproque . . . . . 1.6 Dérivabilité . . . . . . . . . . . . . . . 1.6.1 Définition et règles de calcul 1.6.2 Dérivée et sens de variation . 1.6.3 Dérivée et extrema . . . . . .
1 . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
3 3 4 4 6 6 8 9 9 11 14 14 16 19 19 20 21 23 25 25 27 28
Mathématiques et statistique pour les sciences de la nature
1.7 1.8
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
30 34 34 36 38 39 39 40 41 43
Fonctions de plusieurs variables 2.1 Problème : étude thermodynamique d’un gaz . . . . . 2.2 Définitions générales . . . . . . . . . . . . . . . . . . . 2.2.1 Préliminaire : l’espace à n dimensions . . . . 2.2.2 Fonctions de plusieurs variables . . . . . . . 2.2.3 Représentations graphiques, surfaces-graphe 2.2.4 Fonctions partielles . . . . . . . . . . . . . . 2.3 Dérivées partielles . . . . . . . . . . . . . . . . . . . . 2.3.1 Définition . . . . . . . . . . . . . . . . . . . . 2.3.2 Variations et extrema . . . . . . . . . . . . . 2.3.3 Notation différentielle et formes différentielles 2.3.4 Dérivée directionnelle et fonctions composées 2.3.5 Dérivées d’ordre supérieur . . . . . . . . . . . 2.4 Intégration le long d’un chemin . . . . . . . . . . . . 2.4.1 Intégrale d’une forme différentielle . . . . . . 2.4.2 Formule fondamentale du calcul différentiel . 2.5 Formes exactes et fermées . . . . . . . . . . . . . . . . 2.6 Étude thermodynamique d’un gaz : une solution . . . 2.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
49 49 50 50 52 54 55 57 57 59 62 64 66 67 68 70 72 74 75
. . . . . .
79 79 80 80 81 82 85
1.9
1.10 2
3
iv
Étude de fonctions . . . . . . . . . . . . . Évolution d’un pathogène : une solution . 1.8.1 Vous avez dit modélisation ? . . 1.8.2 Premier exemple : β sur-linéaire 1.8.3 Second exemple : β sous-linéaire Annexe . . . . . . . . . . . . . . . . . . . 1.9.1 Notations usuelles . . . . . . . . 1.9.2 Manipulations d’inégalités . . . 1.9.3 Intégrales et primitives . . . . . Exercices . . . . . . . . . . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
Probabilités 3.1 Problème : évaluation d’un risque de trisomie 21 . . 3.2 Modélisation des phénomènes aléatoires . . . . . . . 3.2.1 L’univers (des possibles) . . . . . . . . . . . 3.2.2 Événements . . . . . . . . . . . . . . . . . . 3.2.3 Probabilité . . . . . . . . . . . . . . . . . . 3.2.4 Analyse combinatoire . . . . . . . . . . . . 3.2.5 Probabilités conditionnelles, indépendance d’événements . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . . 87
Table des matières
3.3 3.4
3.5
3.6
3.7 4
3.2.6 Formule de Bayes . . . . . . . . . . . . . . 3.2.7 Indépendance . . . . . . . . . . . . . . . . . Évaluation d’un risque de trisomie 21 : une solution Variables aléatoires . . . . . . . . . . . . . . . . . . 3.4.1 Variables discrètes . . . . . . . . . . . . . . 3.4.2 Variables continues . . . . . . . . . . . . . Caractéristiques des variables aléatoires . . . . . . . 3.5.1 Fonction de répartition . . . . . . . . . . . 3.5.2 Espérance . . . . . . . . . . . . . . . . . . . 3.5.3 Variance . . . . . . . . . . . . . . . . . . . 3.5.4 Indépendance entre variables aléatoires . . Quelques exemples de lois classiques . . . . . . . . . 3.6.1 Loi de Bernoulli . . . . . . . . . . . . . . . 3.6.2 Loi binomiale . . . . . . . . . . . . . . . . . 3.6.3 Loi de Poisson . . . . . . . . . . . . . . . . 3.6.4 Loi exponentielle . . . . . . . . . . . . . . . 3.6.5 Loi normale . . . . . . . . . . . . . . . . . 3.6.6 Trois lois utiles en statistique . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . .
Des probabilités aux statistiques 4.1 Problème : obésité chez les enfants . . . . . . 4.2 L’échantillonnage . . . . . . . . . . . . . . . 4.2.1 Individus et population . . . . . . . 4.2.2 L’échantillon aléatoire . . . . . . . . 4.3 Moyenne et variance empiriques . . . . . . . 4.3.1 Moyenne empirique . . . . . . . . . 4.3.2 Variance empirique . . . . . . . . . 4.4 Distributions théorique et empirique . . . . . 4.5 Fonction de répartition empirique . . . . . . 4.5.1 Définition . . . . . . . . . . . . . . . 4.5.2 Quantiles et quantiles empiriques . . 4.6 Obésité chez les enfants : une solution . . . 4.7 Annexe : loi des grands nombres et théorème 4.7.1 Loi des grands nombres . . . . . . . 4.7.2 Théorème central limite . . . . . . . 4.8 Exercices . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . central . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
90 91 93 94 97 99 103 103 105 109 111 112 112 113 114 115 116 118 122
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . limite . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
127 127 129 129 130 132 132 133 135 141 141 144 149 152 152 155 157 v
Mathématiques et statistique pour les sciences de la nature
II
Statistique
5
Estimation ponctuelle et par intervalle 5.1 Problème : estimation d’un taux de germination . . 5.2 Estimation ponctuelle . . . . . . . . . . . . . . . . . 5.2.1 Principes généraux . . . . . . . . . . . . . . 5.2.2 Moyenne et variance empiriques . . . . . . 5.3 Intervalles de confiance . . . . . . . . . . . . . . . . 5.3.1 Définition et principe de construction . . . 5.3.2 Estimation par intervalle de la moyenne à connue . . . . . . . . . . . . . . . . . . . . 5.3.3 Estimation par intervalle de la moyenne à inconnue . . . . . . . . . . . . . . . . . . . 5.3.4 Estimation par intervalle de la variance : le cas gaussien . . . . . . . . . . . . . . . . 5.4 Estimation d’un taux de germination : une solution 5.4.1 Estimation d’une proportion . . . . . . . . 5.4.2 Application au problème du pépiniériste . . 5.5 Estimation de la différence de deux moyennes . . . 5.5.1 Échantillons indépendants . . . . . . . . . . 5.5.2 Échantillons appariés . . . . . . . . . . . . 5.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . .
6
Tests 6.1 6.2 6.3 6.4 6.5 6.6
6.7
6.8 vi
d’hypothèses Problème : croisement génétique . . . . . . . . . Notions générales sur les tests statistiques . . . . Test de la moyenne dans un échantillon gaussien Étude de la puissance d’un test de moyenne . . Croisement génétique : une solution . . . . . . . Comparaison de deux moyennes . . . . . . . . . 6.6.1 Échantillons indépendants . . . . . . . . 6.6.2 Échantillons appariés . . . . . . . . . . Tests du χ2 . . . . . . . . . . . . . . . . . . . . . 6.7.1 Test du χ2 d’ajustement . . . . . . . . 6.7.2 Test du χ2 d’indépendance . . . . . . . 6.7.3 Test du χ2 d’homogénéité . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . .
161
. . . . . . . . . . . . .
. . . . . . . . . . . . .
163 . 163 . 164 . 164 . 165 . 169 . 169
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variance . . . . . . 171 variance . . . . . . 175 . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . . . . . . . . . .
. . . . . . . .
. . . . . . . .
178 181 181 184 184 185 190 192
. . . . . . . . . . . . .
197 . 197 . 199 . 203 . 213 . 216 . 218 . 219 . 224 . 225 . 226 . 230 . 233 . 236
Table des matières
7
Régression 7.1 Problème : taux de croissance d’une population . . . . . . 7.2 Régression linéaire simple . . . . . . . . . . . . . . . . . . . 7.2.1 Le modèle linéaire . . . . . . . . . . . . . . . . . . 7.2.2 Ajustement . . . . . . . . . . . . . . . . . . . . . . 7.2.3 Généralisations . . . . . . . . . . . . . . . . . . . . 7.3 Qualité de l’ajustement linéaire . . . . . . . . . . . . . . . 7.3.1 Coefficient de détermination . . . . . . . . . . . . 7.3.2 Corrélation . . . . . . . . . . . . . . . . . . . . . . 7.3.3 Corrélation et covariance . . . . . . . . . . . . . . 7.4 Intervalles de confiance, tests et prévision . . . . . . . . . . 7.4.1 Intervalles de confiance . . . . . . . . . . . . . . . 7.4.2 Tests de signification des coefficients de régression 7.4.3 Prévision . . . . . . . . . . . . . . . . . . . . . . . 7.5 Taux de croissance d’une population : une solution . . . . . 7.6 Analyse de variance à un facteur . . . . . . . . . . . . . . . 7.6.1 Données et modèle . . . . . . . . . . . . . . . . . . 7.6.2 Test de Fisher . . . . . . . . . . . . . . . . . . . . 7.6.3 Estimation des effets . . . . . . . . . . . . . . . . . 7.6.4 Comparaisons multiples de moyennes . . . . . . . 7.6.5 Quelques remarques terminales . . . . . . . . . . . 7.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . .
III
Systèmes dynamiques
8
Équations différentielles 8.1 Problème : modélisation d’une population de parasites . 8.1.1 Motivation . . . . . . . . . . . . . . . . . . . . 8.1.2 Bilans . . . . . . . . . . . . . . . . . . . . . . . 8.1.3 Qu’est-ce qu’une équation différentielle ? . . . . 8.2 Équations différentielles linéaires . . . . . . . . . . . . . 8.2.1 Forme des équations différentielles linéaires . . 8.2.2 Résolution des équations différentielles linéaires 8.2.3 Comment trouver une solution particulière ? . 8.3 Équations à variables séparées . . . . . . . . . . . . . . 8.3.1 Forme des équations différentielles à variables séparées . . . . . . . . . . . . . . . . . . . . . . 8.3.2 Résolution des équations à variables séparées . 8.4 Un mot sur la condition initiale . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . .
243 243 245 245 247 252 254 254 256 259 261 261 265 266 269 275 275 276 281 285 287 287
291 . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
293 . 293 . 293 . 294 . 297 . 298 . 298 . 299 . 301 . 303
. . . . 304 . . . . 304 . . . . 307 vii
Mathématiques et statistique pour les sciences de la nature
8.5 8.6
8.7 9
10
viii
Commentaire sur la résolution des équations différentielles en général . . . . . . . . . . . . . . . . . . . . . . . . . . . Modélisation d’une population de parasites : une solution . 8.6.1 Les œufs . . . . . . . . . . . . . . . . . . . . . . . 8.6.2 Les larves . . . . . . . . . . . . . . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Calcul matriciel et applications 9.1 Problème : croissance d’une population . . . . . . . . . . 9.2 Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Addition de matrices . . . . . . . . . . . . . . . 9.2.2 Multiplication de matrices . . . . . . . . . . . . 9.3 Systèmes linéaires . . . . . . . . . . . . . . . . . . . . . . 9.3.1 Deux équations et deux inconnues . . . . . . . . 9.3.2 Cas général . . . . . . . . . . . . . . . . . . . . . 9.3.3 Matrice inverse . . . . . . . . . . . . . . . . . . . 9.4 Applications linéaires . . . . . . . . . . . . . . . . . . . . 9.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . 9.4.2 Changement de repère . . . . . . . . . . . . . . . 9.4.3 Changements de repère et applications linéaires 9.5 Diagonalisation . . . . . . . . . . . . . . . . . . . . . . . 9.5.1 Valeurs propres, vecteurs propres . . . . . . . . . 9.5.2 Diagonalisation en pratique . . . . . . . . . . . . 9.6 Croissance d’une population : une solution . . . . . . . . 9.7 Annexe : la méthode du pivot . . . . . . . . . . . . . . . 9.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . .
. . . . .
309 309 310 311 313
. . . . . . . . . . . . . . . . . .
317 . 317 . 319 . 321 . 322 . 325 . 325 . 328 . 329 . 331 . 331 . 332 . 336 . 337 . 338 . 340 . 344 . 348 . 357
Équations différentielles couplées et systèmes dynamiques 361 10.1 Problème : concentration d’un composé injecté dans le sang . . 361 10.1.1 Phénomène à temps discret ou à temps continu ? . . . 361 10.1.2 Systèmes couplés d’équations différentielles . . . . . . 362 10.2 Systèmes d’équations différentielles linéaires du premier ordre 363 10.2.1 Existence et unicité des solutions . . . . . . . . . . . . 366 10.2.2 Résolution pratique . . . . . . . . . . . . . . . . . . . 367 10.3 Concentration d’un composé injecté dans le sang : une solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 10.4 Sur l’allure des solutions lorsque n = 2 . . . . . . . . . . . . . 378 10.4.1 Informations qualitatives . . . . . . . . . . . . . . . . 380 10.4.2 Interprétation géométrique . . . . . . . . . . . . . . . 380
Table des matières
10.5
10.6
Quelques exemples de dynamiques non linéaires en dimension 2 . . . . . . . . . . . . . . . . . . . 10.5.1 Problème : proies et prédateurs . . . . . 10.5.2 Systèmes dynamiques . . . . . . . . . . 10.5.3 Portraits de phase . . . . . . . . . . . . 10.5.4 Courbes isoclines et points d’équilibre . 10.5.5 Proies et prédateurs : une solution . . 10.5.6 Stabilité des équilibres . . . . . . . . . . Exercices . . . . . . . . . . . . . . . . . . . . . .
IV
Solutions des exercices
11
Solutions de la partie I : Bases 11.1 Solutions des exercices du chapitre 11.2 Solutions des exercices du chapitre 11.3 Solutions des exercices du chapitre 11.4 Solutions des exercices du chapitre
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
384 384 386 387 390 394 398 401
407 1. 2. 3. 4.
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
409 . 409 . 419 . 422 . 432
12
Solutions de la partie II : Statistique 445 12.1 Solutions des exercices du chapitre 5 . . . . . . . . . . . . . . . 445 12.2 Solutions des exercices du chapitre 6 . . . . . . . . . . . . . . . 457 12.3 Solutions des exercices du chapitre 7 . . . . . . . . . . . . . . . 479
13
Solutions de la partie III : 13.1 Solutions des exercices 13.2 Solutions des exercices 13.3 Solutions des exercices
Systèmes dynamiques 491 du chapitre 8 . . . . . . . . . . . . . . . 491 du chapitre 9 . . . . . . . . . . . . . . . 499 du chapitre 10 . . . . . . . . . . . . . . 510
Bibliographie
525
Index
527
ix
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
AVANT-PROPOS
Pourquoi ce livre ? Ce livre présente, en un seul volume, un choix de concepts et d’outils pouvant constituer le programme de mathématiques des trois premières années d’études universitaires en sciences de la nature ou de la vie. Il est né de l’expérience que nous avons acquise dans l’enseignement des mathématiques à l’Université Montpellier 2 devant des étudiants de licences de biologie, chimie et sciences de la Terre. Dans le droit fil de cette expérience, nous avons souhaité écrire un ouvrage de mathématiques destiné en priorité à des étudiants en sciences de la nature et de la vie et, plus généralement, à tout lecteur curieux de découvrir une présentation moins abstraite, mais pas pour autant imprécise, des concepts mathématiques indispensables à la modélisation des phénomènes naturels. L’ambition que nous nous sommes fixée est donc double : – Que cet ouvrage ne soit pas un traité abstrait de mathématiques. – Qu’il ne se résume pas à un recueil de techniques, où tout souci de compréhension profonde serait évacué au profit de la seule pratique. Nous ne voulions pas non plus d’un intermédiaire maladroit qui sacrifierait tour à tour, selon les chapitres et les notions abordés, l’exigence de rigueur ou les objectifs pédagogiques. Nous avons donc fait le pari qu’il était possible d’écrire un livre d’un niveau mathématique homogène, nourri des applications et destiné à l’utilisateur (plutôt qu’au concepteur) des mathématiques. Les trois maîtres mots de cet ouvrage sont : modéliser, comprendre et appliquer. La modélisation est un élément essentiel de la démarche scientifique, qui permet de passer des résultats d’expériences ou d’un recueil d’observations à une
Mathématiques et statistique pour les sciences de la nature
description organisée du monde. La nature est complexe et parvenir à un bon modèle est un travail délicat. Ce travail impose une réflexion profonde sur les phénomènes étudiés, sur les résultats souhaités et sur les hypothèses simplificatrices que le scientifique sera prêt à accepter. Même dans un ouvrage comme celui-ci, que nous avons voulu accessible aux non spécialistes, il nous a semblé essentiel de ne pas masquer ces difficultés. En tant que mathématiciens, nous considérons en effet que la démarche de modélisation fait partie intégrante de l’enseignement scientifique universitaire, y compris et surtout dans un cours de mathématiques ayant les ambitions décrites plus haut. Le deuxième objectif de ce livre consiste à faire comprendre les concepts et les outils mathématiques introduits dans la première étape de modélisation. Il n’était pas question de produire un traité de mathématiques abstraites, mais nous pensons néanmoins qu’un usage efficace des mathématiques n’est possible que s’il s’accompagne d’une compréhension suffisamment profonde des concepts qui les sous-tendent. Sans cette dernière, l’esprit reste prisonnier de la technique et est incapable de s’en libérer lorsque le domaine d’application ou les circonstances l’exigent. L’objectif final de l’ouvrage, enfin, réside dans l’application des concepts et des outils ou, en d’autres termes, dans la mise en action du modèle mathématique. Ce retour à l’origine des problèmes est évidemment indispensable. Il permet d’abord de tester la précision du modèle, d’en déterminer le domaine de validité et, une fois ces points établis, d’agir, de prévoir ou de prendre des décisions, justifiant ainsi tout le travail accompli.
Quel est son contenu ? Les thèmes abordés dans le livre recouvrent l’essentiel des mathématiques enseignées aux étudiants de sciences de la nature et de la vie lors des trois premières années des études universitaires : bases de l’analyse des fonctions de une et plusieurs variables, probabilités élémentaires, concepts et outils statistiques, et introduction aux systèmes dynamiques. Ce contenu n’a évidemment rien de nouveau, l’originalité que nous réclamons résidant dans la volonté de rassembler en un seul ouvrage l’ensemble de ces notions mathématiques. Lorsqu’il était dispensé à Montpellier, cet enseignement était divisé en quatre cours répartis sur les cinq premiers semestres de la licence, chaque cours comptant une cinquantaine d’heures composées d’enseignement magistraux et de travaux dirigés. xii
Avant-Propos
La première partie du livre(1) , intitulée « Bases », peut être pensée comme le bagage mathématique minimal que devraient posséder les étudiants à l’issue d’une première année d’études universitaires. Elle s’ouvre par un chapitre consacré à l’étude des fonctions d’une variable réelle, où l’on revient sur des connaissances déjà bien balisées au lycée. Lui succède un chapitre plus court dévolu aux fonctions de plusieurs variables, qui débute sur des considérations élémentaires (surfacesgraphe, lignes de niveau, dérivées partielles...) et se conclut par une introduction à des notions mathématiques plus élaborées utilisées en modélisation thermodynamique. Le calcul des probabilités et ses applications constituent le corps du troisième chapitre. Cette première partie se referme par un chapitre d’une nature plus descriptive, dédié aux relations délicates – et malheureusement pas toujours bien comprises – entre probabilités et statistique. La « Statistique » est au cœur de la deuxième partie de l’ouvrage, qui porte d’ailleurs ce titre. Cette partie expose la démarche, les principaux concepts et les outils essentiels de l’approche inférentielle : estimation ponctuelle et par intervalle, tests paramétriques et non paramétriques, et enfin corrélation, régression et introduction à l’analyse de variance. La statistique inférentielle n’a d’autre objectif que de transporter des résultats numériques obtenus sur un échantillon à la population entière dont ce dernier est issu. Il s’agit d’un domaine essentiel des mathématiques appliquées, et nous avons souhaité en faire une présentation rigoureuse mais sans formalisme excessif, s’appuyant sur de nombreuses applications. La troisième partie est consacrée aux « Systèmes Dynamiques », appellation que nous avons préférée à celle, plus réductrice, d’équations différentielles. Le fil directeur consiste ici à modéliser des phénomènes dépendant du temps de manière déterministe, c’est-à-dire ne laissant pas de place à l’aléatoire. Un premier chapitre présente quelques éléments d’étude des équations différentielles, pour la plupart déjà abordés dans le secondaire mais qu’il est bon de se remémorer (avec peut-être un éclairage nouveau), tant ces équations sont indispensables pour modéliser de nombreux phénomènes naturels. Le chapitre suivant introduit les bases du calcul matriciel, partant de considérations assez simples sur les systèmes linéaires pour aboutir au concept de diagonalisation, indispensable à l’analyse de systèmes dynamiques en temps discret (décrivant par exemple des phénomènes dont l’évolution est annuelle ou saisonnière). Le dernier chapitre de cette partie est un mariage entre équations différentielles et calcul matriciel, thèmes des deux développements précédents ; il a pour objet les systèmes d’équations différentielles, qui jouent eux aussi un rôle important dans la modélisation de nombreux phénomènes dynamiques complexes. (1)
À l’exception des paragraphes 2.4 à 2.6 du chapitre consacré aux fonctions de plusieurs variables.
xiii
Mathématiques et statistique pour les sciences de la nature
Enfin, la quatrième et dernière partie de l’ouvrage regroupe les solutions aux exercices proposés à la fin de chaque chapitre.
Comment le lire ? La démarche pédagogique que nous avons choisie consiste à ouvrir chaque chapitre par la présentation d’une ou plusieurs situations concrètes se prêtant à une modélisation. Les concepts mathématiques pertinents se trouvant ainsi naturellement motivés, le reste du texte est alors consacré à leur étude. Le chapitre se referme enfin par un retour à la problématique ayant servi de motivation initiale. De nombreux exercices permettent de compléter l’exposé et d’ouvrir vers davantage d’applications(2) . Nous nous sommes efforcés d’adopter un mode de présentation adapté à notre public, remplaçant autant que possible la litanie classique « Définition – Proposition – Théorème » bien connue des mathématiciens par un style plus discursif. En particulier, Lorsqu’un concept ou outil nouveau est introduit pour la première fois, sa définition apparaît dans un cadre bleu, le mot nouveau étant mis en gras et bleu. Lorsque son importance ne justifie pas une telle mise en exergue, le concept est placé dans une phrase imprimée en bleu, mais il est toujours mis en gras lors de sa première apparition. Les propriétés les plus importantes, énoncés de théorèmes ou de techniques à retenir, sont mises en valeur par un cadre gris. Enfin, un index terminal reprend les termes les plus significatifs. Profitons de l’occasion pour rappeler qu’un texte mathématique doit toujours être lu plusieurs fois, et crayon en main ! À ce titre, les exercices font partie intégrante du texte, étant entendu que l’on n’apprend les mathématiques qu’en les pratiquant. (2)
Soulignons néanmoins un point important : cet ouvrage ne prétend aucunement présenter des descriptions réalistes de phénomènes naturels. Les modèles utilisés doivent être envisagés comme autant d’exemples fictifs, mais néanmoins bien souvent classiques et similaires dans leur esprit à ceux utilisés par les véritables spécialistes.
xiv
Remerciements
Remerciements C’est Daniel Guin qui nous a poussés (non sans mal !) à écrire ce livre. Il aura finalement eu gain de cause, et qu’il soit donc remercié pour avoir su nous encourager sans nous décourager. Nos collègues Philippe Castillon, Thomas Hausberger, Pierre-Louis Montagard et Nicolas Saby (du côté mathématique), Jean-Baptiste Ferdy, Bernard Godelle et Agnès Mignot (du côté biologie) ont participé à Montpellier à la réflexion sur les contenus et à la mise en place des enseignements qui ont donné naissance à ce livre. Même s’ils n’ont pas contribué à son écriture, les nombreuses discussions que nous avons eues avec eux ont été très utiles dans la réalisation du projet. Pierre Jacob, qui a gentiment accepté de nous communiquer l’ensemble des notes qu’il avait patiemment écrites à l’occasion d’enseignements de même nature, fait l’objet de toute notre gratitude. De nombreux autres collègues ont bien voulu prendre sur leur temps afin de nous faire partager leurs avis, remarques ou commentaires sur tout ou partie de l’ouvrage. Citons ainsi Olivier Bouaziz, Claire Coiffard, Robert Eymard, Aurélie Fischer, Alain Prignet, Philippe Saint Pierre et Clara Zelli. À nouveau, une mention spéciale doit être accordée à Jean-Baptiste Ferdy, avec qui nous avons eu de multiples occasions de discuter du contenu du livre, des meilleures manières de l’aborder, et qui nous a entretenu nombre de fois de son expérience d’enseignant et de chercheur en biologie intéressé par les méthodes mathématiques. Les étudiants montpelliérains de licences de biologie, de sciences de la Terre et de chimie biomoléculaire des années 2005 à 2009 ont vécu avec nous l’enseignement de la plus grande partie de ce manuel, nous permettant de corriger de nombreux défauts. Un grand merci en particulier à Sylvain Desruelles pour sa relecture des chapitres 8 à 10. Enfin, le relecteur nous a fait nombre de critiques constructives, pour lesquelles nous lui sommes infiniment redevables.
xv
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
1 FONCTIONS D’UNE VARIABLE
1.1. Problème : évolution d’un pathogène On connaît, dans le monde des micro-pathogènes, quelques virus et bactéries extrêmement virulents, qui conduisent généralement à la mort de leur hôte. C’est le cas, par exemple, de la fièvre hémorragique Ebola, du virus de la variole ou encore de certaines formes d’anthrax. Ces pathologies, quoique fortement médiatisées, n’en demeurent pas moins exceptionnelles, et la grande majorité des agents infectieux induisent fort heureusement des maladies aux conséquences moins dramatiques. La théorie de la sélection naturelle, énoncée par Darwin au xixe siècle, prédit que l’évolution d’une espèce se fait dans le sens d’une plus grande compétitivité. En d’autres termes, un individu sera d’autant plus favorisé qu’il engendrera davantage de descendants que ses compétiteurs. Transposée au cas des micropathogènes, cette « règle » affirme que si plusieurs souches d’une même bactérie ou d’un même virus sont en compétition, la souche favorisée par la sélection naturelle sera la plus apte à se développer et à diffuser au sein de la population. Mais dès lors, comment expliquer que la plupart des microbes soient aussi peu agressifs et virulents ? Interrogé, le biologiste peut fournir un modèle exprimant (avec une formule mathématique) l’efficacité de transmission d’un agent pathogène en fonction de sa virulence intrinsèque. La sélection naturelle tend alors à maximiser cette efficacité, et là réside l’explication de la grande diversité du monde des micro-pathogènes. L’étude de fonctions consiste précisément à mettre en place des techniques permettant d’étudier efficacement le comportement d’une quantité (ici, l’efficacité de transmission) en fonction d’une autre quantité (ici, la virulence du pathogène),
Chapitre 1. Fonctions d’une variable
et d’en tirer des conclusions qui ne sont pas évidentes à première vue. Nous présentons dans ce chapitre les outils permettant d’effectuer l’étude des fonctions d’une seule variable (l’étude des fonctions de plusieurs variables fera l’objet d’un chapitre ultérieur). Nombre des concepts détaillés ci-après figurent au programme de la plupart des cursus scientifiques de l’enseignement secondaire(1) .
1.2. Généralités 1.2.1. Fonctions Les phrases suivantes définissent ce que l’on appelle une fonction : • « Pour chaque temps t, le nombre de larves d’un parasite dans une plantation ». • « Pour chaque nombre d, la concentration en sel de la mer à la profondeur d (à la verticale d’un point fixé) ». • « Une tige étant chauffée à l’une de ses extrémités, la température au point situé à distance x de l’extrémité chauffée ». • « Le nombre d’individus d’un âge donné en France en 2008 ». • « L’efficacité de transmission d’un agent pathogène ayant une virulence donnée ». Une fonction f est un objet mathématique qui, à chaque nombre réel x situé dans un ensemble Df , associe un nombre réel noté f (x). L’ensemble Df s’appelle le domaine (de définition) de la fonction, x la variable et le nombre réel f (x) la valeur ou l’image de f en x.
Exemple 1. Le nombre de larves d’un parasite détermine bien une fonction : à chaque réel t on associe ce nombre, que l’on notera par exemple L(t) (« L » pour « Larve »). La fonction ainsi définie est alors naturellement désignée par L, son domaine de définition est R et elle donne donc le nombre de larves en fonction du temps. Exemple 2. Sur une tige de longueur chauffée à l’une de ses extrémités, la température à distance x de cette extrémité est un nombre réel que l’on note T (x). Cela définit une fonction T sur [0 ; ]. (1)
4
Une annexe en fin de chapitre précise les principales notations utilisées.
1.2. Généralités
Une fonction f sera souvent connue au travers d’une formule qui indique, à partir d’un réel x dans Df , comment calculer le résultat f (x) (en utilisant par exemple des sommes, différences, multiplications, divisions, ou d’autres fonctions déjà connues). Il ne faut cependant pas confondre une fonction et une éventuelle formule qui permet de calculer les valeurs de cette fonction : nous avons par exemple déjà donné plusieurs exemples de fonctions (nombre de larves, température, salinité de la mer...) ne faisant référence à aucune formule particulière. Il est bien entendu appréciable de pouvoir disposer d’une formule pour une fonction dont on souhaite comprendre le comportement, et il faut parfois beaucoup de travail pour en trouver une. Cela étant, une formule explicite n’est en rien un prérequis obligatoire, et il existe en fait de nombreuses situations concrètes ou l’on ne sait pas obtenir de formule pour les fonctions qui nous intéressent (voir les exemples du chapitre 10).
Exemple 3. Pour se rassurer après cette mise en garde, voici quelques exemples de fonctions données par des formules : f (x) = x + 1, g(x) = x2 , h(x) = x1 , 2 . i(t) = t − t−1 Le domaine Df d’une fonction f est formé des nombres réels x pour lesquels, d’une part, la valeur f (x) a un sens et, d’autre part, un intérêt dans la situation considérée. La détermination précise de Df dépend donc du contexte dans lequel la fonction f apparaît, et il est ainsi essentiel de toujours spécifier le domaine que l’on a choisi ; on dira alors que l’on étudie f sur Df .
Exemple 4. Le chapitre 8 propose une formule pour la fonction L de l’exemple 1, qui permet de calculer la valeur L(t) pour n’importe quel nombre réel t. Cependant, pour certains t (négatifs) et certains choix de paramètres (nombre de larves initiales, taux de croissance, etc.), le nombre de larves L(t) est négatif, ce qui est bien sûr absurde et montre que le choix du domaine sur lequel on souhaite étudier L n’est pas anodin pour la modélisation. De fait, la formule du chapitre 8 provient de considérations de modélisation (présence ou non de larves à l’instant initial, etc.) qui n’ont de sens que lorsque l’on considère des temps positifs ou nuls, le temps t = 0 correspondant à l’instant initial. En conséquence, le domaine DL de la fonction L que nous choisissons est formé des nombres réels positifs ou nuls, c’est-à dire que DL = [0 ; +∞[. En l’absence d’un contexte clair de modélisation (ou de toute autre indication), lorsqu’une fonction est donnée au travers d’une formule, on considérera que le domaine de définition de cette dernière est formé de toutes les valeurs de la variable pour lesquelles la formule a un sens. 5
Chapitre 1. Fonctions d’une variable
Exemple 5. Pour les fonctions de l’exemple 3, Df = R (on peut toujours ajouter un réel x et 1), Dg = R (on peut toujours multiplier un réel x avec lui-même, ce qui revient à calculer x2 ), Dh = R\{0} (on ne peut diviser par un réel x que s’il est différent de 0), Di = R\{1} (on ne peut diviser par t − 1 que lorsque t = 1).
1.2.2. Représentations graphiques Une approche naïve pour appréhender une fonction consiste à calculer ses valeurs en un nombre éventuellement très grand de points de l’ensemble de définition, et tenter par là même d’en déduire son comportement. Mais ces informations restent forcément parcellaires : qui nous dit en effet que nos choix de points sont adaptés à la nature de la fonction ? L’usage a privilégié une vision plus globale et géométrique : La représentation graphique, ou graphe, d’une fonction f est la courbe obtenue, dans un repère formé de deux axes orthogonaux, en positionnant, pour chaque x dans le domaine Df , un point d’abscisse x sur l’axe horizontal et d’ordonnée f (x) sur l’axe vertical (voir la figure 1.1 pour un exemple). Le domaine Df apparaît ainsi comme la zone de l’axe des abscisses au dessus de laquelle la représentation graphique de la fonction est tracée. La représentation graphique permet d’embrasser, en un coup d’œil, toutes les valeurs d’une fonction f (x) (plutôt que de les calculer une à une) et, surtout, de se rendre compte de l’influence de la variable x sur ces valeurs. Il s’agit d’un outil très important, et le paragraphe 1.7 plus loin sera consacré dans son intégralité au tracé d’une représentation graphique la plus fidèle possible d’une fonction donnée par une formule.
1.2.3. Variations Une fonction f est dite croissante sur un intervalle I si, pour tous x et y dans I vérifiant x ≤ y, on a f (x) ≤ f (y). De manière similaire, une fonction est décroissante sur un intervalle I si, pour tous x et y dans I vérifiant x ≤ y, on a f (x) ≥ f (y). Intuitivement, une fonction est donc croissante sur un intervalle lorsqu’une augmentation de la variable x provoque une augmentation (ou, au pire, une stagnation) des valeurs de f (x) ; elle est au contraire décroissante lorsqu’une augmentation de la variable provoque une diminution (ou une stagnation) des valeurs de 6
1.2. Généralités
f (x) 35.5
35
34.5
34
Df 0
0.5 0.1 0.27
1 0.84
1.5
2.5 2
x
Figure 1.1. Un exemple de représentation graphique de fonction, avec son domaine Df . Cette fonction, définie sur [0,1 ; 2], est décroissante sur [0,1 ; 0,27], croissante sur [0,27 ; 0,84] et décroissante sur [0,84 ; 2].
la fonction. Étudier le sens de variation d’une fonction consiste alors à chercher si cette dernière est croissante ou décroissante. Attention ! Une même fonction peut être croissante sur un intervalle et décroissante sur un autre. C’est d’ailleurs le cas le plus fréquent.
Exemple 6. La fonction f (x) = 2x + 3 est croissante sur R ; la fonction f (x) = x1 est décroissante sur ]0 ; +∞[ ; la fonction f (x) = x2 est décroissante sur ]−∞ ; 0] et croissante sur [0 ; +∞[ (voir le paragraphe 1.9.2 pour quelques rappels sur les règles de manipulation d’inégalités qui permettent de prouver ces résultats). Croissance et décroissance sont facilement lisibles sur la représentation graphique de la fonction : lorsque le graphe « monte » au-dessus d’un certain intervalle, cela signifie qu’une augmentation de la variable provoque une augmentation 7
Chapitre 1. Fonctions d’une variable
de la valeur de la fonction, et donc que la fonction est croissante sur l’intervalle considéré ; à l’inverse, une courbe qui « descend » indique que la fonction est décroissante sur cet intervalle (voir la figure 1.1 pour un exemple). Une fonction f est strictement croissante (respectivement strictement décroissante) sur un intervalle I si, pour tous x et y dans I vérifiant x < y, on a f (x) < f (y) (respectivement f (x) > f (y)). Nous invitons le lecteur à bien méditer l’emploi des inégalités strictes là où des inégalités larges étaient utilisées dans la définition générale de croissance et décroissance. Graphiquement, une fonction est strictement croissante lorsqu’elle est croissante et sans « plage horizontale » dans sa représentation graphique : en d’autres termes, une augmentation de la variable provoque une véritable augmentation de la valeur de la fonction (voir la figure 1.2).
Figure 1.2. Exemples de représentations graphiques d’une fonction croissante mais non strictement croissante (à gauche) et d’une fonction strictement croissante (à droite).
1.3. Quelques fonctions usuelles Un très grand nombre de phénomènes naturels sont modélisés par des fonctions obtenues par combinaison (sommes, produits ou compositions) de quelques fonctions de référence. Bien les connaître, être capable de dessiner rapidement l’allure de leurs représentations graphiques et de retrouver leurs principales propriétés est donc un ingrédient essentiel de l’étape de modélisation. Dans les paragraphes qui suivent, nous rappelons rapidement les caractéristiques principales de trois « grandes » familles de fonctions. 8
1.3. Quelques fonctions usuelles
1.3.1. Fonctions puissances Ce sont les fonctions données par la formule f (x) = xn avec n entier positif ou négatif.
n=2 n=3 n=4
1
n=5 0 0
1
Figure 1.3. Représentations graphiques de quelques fonctions puissances, pour différents n positifs.
• Lorsque n est positif, le domaine de f est l’ensemble R de tous les nombres réels (on peut toujours multiplier un réel par lui-même n fois !). L’allure de la courbe représentative de f dépend fortement de la parité de n : lorsque n est pair, on sait en effet que xn est toujours positif, même lorsque x est négatif ; lorsque n est impair, xn est en revanche négatif dès que x est négatif. • Lorsque n est strictement négatif, on peut écrire n = −m, où m est cette fois positif. Dès lors, f (x) = xn = x1m . Le domaine de f est R\{0} : pour pouvoir diviser par xm , il faut que x = 0. Ici encore, l’allure de f dépend de la parité de n, pour les mêmes raisons de signe (voir la figure 1.4).
1.3.2. Logarithme C’est l’une des fonctions les plus importantes des sciences de la nature. 9
Chapitre 1. Fonctions d’une variable
0 0
n = −4 n = −3 n = −2 n = −1 Figure 1.4. Représentations graphiques de quelques fonctions puissances, pour différents n négatifs.
La fonction logarithme naturel, ou logarithme neperien, ln est définie comme suit : pour tout x > 0, ln(x) est l’aire située sous la courbe de la fonction y −→ y1 entre les points 1 et x, cette aire étant comptée en positif si x ≥ 1 et en négatif sinon (voir la figure 1.5). En termes plus mathématiques, le logarithme est la primitive de la fonction y −→ y1 sur ]0 ; +∞[ qui s’annule en 1 (voir le paragraphe 1.9.3 pour quelques rappels sur les primitives et leur lien avec l’intégrale). Par construction, le domaine de définition Dln du logarithme est donc ]0 ; +∞[, et ln est une fonction strictement croissante sur cet intervalle. Ce dernier résultat est intuitivement clair, mais il peut être rigoureusement établi si l’on sait que la dérivée de ln(x) est x −→ x1 , fonction strictement positive pour tout x dans ]0 ; +∞[ (cf. le paragraphe 1.6). La propriété essentielle du logarithme est la suivante (voir l’exercice 6 pour une preuve) : Pour tous x et y dans ]0 ; +∞[, ln(xy) = ln(x) + ln(y). Par définition, ln(1) = 0. En appliquant la formule précédente à y = x1 , on en déduit que 0 = ln(x) + ln( x1 ), soit : 10
1.3. Quelques fonctions usuelles
ln(x)
6 5
Graphe de f (y) = 4
1
1 y
0
3
-1
2
-2
1
-3
0
0
0.5
1
1.5
2
2.5
e
3
3.5
x
-4 0
0.5
1
1.5
x
2
2.5
3
3.5 -5
Le logarithme de x est l’aire représentée sur ce dessin.
Représentation graphique du logarithme (ln).
Figure 1.5. Définition du logarithme à partir de la fonction f (y) = graphique du logarithme.
Pour tout x dans ]0 ; +∞[, ln
1 x
1 y
et représentation
= − ln(x).
Exemple 7. Le logarithme est à la base de l’échelle des décibels utilisée pour mesurer des rapports de puissances de sons. Cette échelle est conçue de telle sorte que, si P0 et P1 sont les puissances de deux sons alors l’écart en décibels entre ces deux sons est ln PP10 , 10 ln(10) ce qui s’écrit encore, comme on le verra plus bas, 10 log 10 ( PP10 ). Ainsi, 20 décibels d’écart entre deux sons signifient que l’un est 100 fois plus puissant que l’autre : P
ln( P1 )
0 = 20, alors ln( PP10 ) = 2 ln(10) = ln(102 ) = ln(100). Comme ln en effet, si 10 ln(10)
est bijective (voir le paragraphe 1.5.4), on en déduit que PP10 = 100. De manière générale, un ajout de 10 décibels multiplie la puissance du son par 10 : c’est ce que l’on appelle communément le caractère « logarithmique » de l’échelle des décibels.
1.3.3. Exponentielle L’exponentielle est la deuxième fonction fondamentale des sciences expérimentales, et son importance dépasse peut-être celle du logarithme. 11
Chapitre 1. Fonctions d’une variable
L’exponentielle d’un nombre réel x est le nombre réel strictement positif z tel que l’aire sous la représentation graphique de y −→ y1 entre 1 et z soit égale à x, autrement dit le nombre z tel que ln(z) = x. Nous noterons provisoirement exp(x) l’exponentielle de x. Cette opération définit une fonction, l’exponentielle, qui vérifie donc : pour tout réel x, ln(exp(x)) = x. Il est également vrai que exp(ln(x)) = x pour tout réel x dans le domaine de ln (c’est-à-dire pour tout x > 0), mais ce fait demande une petite preuve : en effet, w = ln(x) est l’aire sous la représentation graphique de f (y) = y1 entre 1 et x, ce qui signifie précisément, compte tenu de la définition précédente de l’exponentielle, que x = exp(w) = exp(ln(x)). En termes mathématiques, nous venons d’exprimer le fait que la fonction exponentielle est la bijection réciproque de la fonction logarithme – nous aurons l’occasion de revenir sur ce concept important au paragraphe 1.5.4. Nous en profiterons alors pour montrer que la fonction exponentielle existe bien et qu’elle est définie sur R, ce qui n’est pas évident a priori : est-on sûr, pour un réel x fixé, qu’il existe effectivement un réel z tel que l’aire sous la représentation graphique de f (y) = y1 entre 1 et z soit égale à x ? L’exponentielle hérite du logarithme ses propriétés vis-à-vis de la somme et du produit, les rôles de ces opérations étant cependant inversés (voir l’exercice 6 pour une preuve) : Pour tous x et y dans R, exp(x + y) = exp(x) exp(y). Comme ln(1) = 0, on a exp(0) = exp(ln(1)) = 1, et donc, en appliquant la formule précédente avec y = −x, on en déduit 1 = exp(x) exp(−x). Ainsi, Pour tout x dans R, exp(−x) =
1 exp(x) .
Lorsque n est un entier positif et a un réel strictement positif, on obtient donc ln(an ) = ln(a × . . . × a) = ln(a) + . . . + ln(a) = n ln(a). Appliquer l’exponentielle de part et d’autre de cette égalité fournit an = exp(n ln(a)), et par extension : 12
1.3. Quelques fonctions usuelles
exp(x) 7 6 5 4
e
3 2 1
-2
-1.5
-1
-0.5
0 0
0.5
1
1.5
x
Figure 1.6. Représentation graphique de l’exponentielle (exp).
Lorsque a > 0 et x est un nombre réel quelconque, on définit ax par ax = exp(x ln(a)). Les propriétés essentielles de l’exponentielle impliquent que, pour tout a > 0 et tous réels x et y, ax+y = ax ay . Nous verrons (cf. le paragraphe 1.5.2) qu’il existe un nombre réel, noté e, tel que ln(e) = 1. On a donc, pour tout réel x, exp(x) = ex , notation que nous utiliserons désormais. Calculons maintenant ln(ax ) = ln(ex ln(a) ) = x ln(a), soit encore x =
ln(ax ) ln(a)
lorsque a = 1 (de sorte que ln(a) = 0).
Le logarithme en base a (a > 0 et a = 1) est défini pour tout x > 0 par loga (x) = ln(x) ln(a) . Nous avons établi ci-dessus que loga (ax ) = x, et il est tout aussi simple de voir que aloga (x) = x : le logarithme en base a apparaît donc comme la bijection réciproque de la fonction f (x) = ax . 13
Chapitre 1. Fonctions d’une variable
Exemple 8. Les fonctions exponentielle et logarithme en base 10 interviennent en chimie des acides et des bases dans la relation entre concentration en ions H+ et potentiel d’acidité pH : si [H+ ] désigne la concentration en ions H+ , le potentiel d’acidité est pH = − log10 ([H+ ]) et, réciproquement, la concentration en ions est [H+ ] = 10−pH .
1.4. Limites Lorsque l’on mélange un alcool et un acide carboxylique pour produire un ester, qu’advient-il de chacun de ces produits si on laisse suffisamment de temps s’écouler ? À pression constante et lorsque la température se rapproche du zéro absolu, comment se comporte un gaz de Van der Waals ? Si on laisse évoluer naturellement la population d’éléphants d’Afrique, celle-ci finira-t-elle par disparaître ? Le nombre de criquets sera-t-il suffisant à long terme pour dévaster les cultures ? Toutes ces interrogations peuvent être réinterprétées comme des questions sur la limite d’une fonction : que se passe-t-il pour les valeurs d’une fonction lorsque la variable se rapproche d’un nombre donné ou devient, au contraire, infiniment grande ?
1.4.1. Notion de limite Donner une définition mathématique précise de la limite d’une fonction nous entraînerait bien au-delà des objectifs de cet ouvrage. Nous nous contenterons donc d’une définition intuitive. Lorsque a et sont des nombres réels fixés, on dit qu’une fonction f a pour limite lorsque x tend vers a si, lorsque x se rapproche de a (en restant dans Df ), la valeur f (x) de f en x se rapproche de . On notera lim f (x) = ,
x→a
et l’on dira aussi que f tend vers lorsque x tend vers a. Un exemple de représentation graphique de fonction ayant une limite en deux nombres réels a et b est donné dans la figure 1.7. La non existence d’une limite se comprend peut-être plus facilement : dans ce cas, pour tout nombre réel , il existe des points x, aussi proches de a que l’on souhaite, tels que f (x) ne soit pas proche de . En pratique, deux phénomènes peuvent se produire : ou bien la fonction oscille trop lorsque x se rapproche de a, et elle ne peut donc se fixer autour d’un nombre réel , ou bien elle subit un 14
1.4. Limites
f (x)
a
b
x
Figure 1.7. La fonction f a pour limite en a et en b.
saut lorsque x passe d’un côté à l’autre de a (les valeurs de la fonction alternent donc entre deux réels différents selon que x < a ou x > a). Ces phénomènes sont illustrés par la figure 1.8.
f (x)
f (x)
a
x
a
x
Figure 1.8. Deux fonctions n’ayant pas de limite en a.
On peut aussi s’intéresser au cas où, lorsque x tend vers un réel a, les valeurs de la fonction ne se rapprochent pas d’un nombre réel mais deviennent de plus en plus grandes (positives) ou de plus en plus petites (négatives). On dira alors respectivement que f tend vers +∞ ou vers −∞ lorsque x tend vers a, et l’on notera limx→a f (x) = +∞ ou limx→a f (x) = −∞. 15
Chapitre 1. Fonctions d’une variable
Exemple 9. La fonction f (x) = x12 , dont la représentation graphique est donnée en figure 1.4, est un exemple de fonction tendant vers +∞ en 0. Notons que la fonction f (x) = x1 (représentée sur la même figure) ne tend pas vers +∞ en 0, ni même vers −∞ : en effet, lorsque x est proche de 0, selon son signe les valeurs de f (x) = x1 sont soit très grandes (proches de +∞) soit très petites (proches de −∞), sans se fixer d’un côté ou de l’autre. Enfin, une troisième notion de limite (qui généralise les précédentes) se rencontre lorsque la variable x ne se rapproche pas d’un nombre réel a, mais devient elle-même de plus en plus grande ou de plus en plus petite. Si, lorsque x devient de plus en plus grand, la valeur f (x) de f en x se rapproche d’un réel fixé , on dira que f tend vers en +∞ et on notera limx→+∞ f (x) = . Des notions en tous points similaires existent lorsque est remplacé par +∞ ou −∞, ou lorsque x tend vers −∞.
1.4.2. Règles de calcul de limites Dans cet ouvrage, le calcul des limites se réduira à l’utilisation de quelques règles élémentaires. Elles énoncent que, hormis quatre cas particuliers, les limites se comportent naturellement vis-a-vis des quatre opérations (somme, différence, produit et division). Dans ce qui suit, a désignera indifféremment soit un nombre réel, soit +∞, soit −∞. Si f et g sont deux fonctions telles que limx→a f (x) = et limx→a g(x) = (avec et nombres réels, ou +∞ ou −∞), alors • limx→a (f (x) + g(x)) = + ; • limx→a (f (x) − g(x)) = − ; • limx→a f (x)g(x) = ; (x) = (noter que le quotient n’a un sens que si g(x) ne s’annule • limx→a fg(x) pas quand x se rapproche de a),
pourvu que le calcul de + , − , ou n’aboutisse pas à l’une des quatre situations suivantes, appelées formes indéterminées : ∞ − ∞,
16
0 ×∞,
, 0
∞ · ∞
1.4. Limites
Exemple 10. Un modèle de dynamique des populations en ressources limitées prédit que l’effectif d’une population se comporte au cours du temps comme N (t) =
K 1+
(KN0−1
− 1)e−rt
,
où N0 est la population initiale et K une mesure de la capacité maximale du milieu (dite capacité biotique). Lorsque le temps t tend vers +∞, la population totale tend vers la capacité biotique (pour une étude de ce modèle, nous renvoyons le lecteur à l’exercice 5 du chapitre 8). En dehors des quatre cas exceptionnels, les calculs de + , − , et ne posent donc aucun problème particulier : si et sont réels, il s’agit des opérations usuelles, et le résultat est conforme à l’intuition s’ils sont infinis. Par exemple, +∞ + ∞ = +∞ (additionner deux quantités infiniment grandes donne une quantité infiniment grande !), × (−∞) = −∞ si > 0, et × (−∞) = +∞ si < 0 (multiplier une quantité non nulle par l’infini donne une quantité infinie, dont le signe dépend de celui de et de l’infini). Les cas exceptionnels sont ceux où l’on ne peut naturellement décider du résultat : si l’on additionne une quantité extrêmement grande à une quantité extrêmement négative, par exemple, que se passe-t-il ? Dans la compétition entre les deux limites, il n’est pas possible a priori de savoir laquelle va l’emporter (ni même si l’une l’emporte, d’ailleurs...). Il en va de même pour 0 × ∞ et ∞ ∞. La situation de 0 est un peu différente, mais tout aussi impossible à trancher en général. Nous avons vu, par exemple, que h(x) = x12 a pour limite +∞ en 0, mais que i(x) = x1 n’a pas de limite en ce même réel 0. Ces deux situations illustrent le cas 10 : le principal problème ici est le risque que le dénominateur (x) g(x) alterne entre deux signes tout en se rapprochant de 0, ce qui fait que fg(x) peut alterner entre des valeurs très grandes positives et des valeurs très petites négatives. On peut néanmoins trancher si g garde un signe constant :
Soient f et g deux fonctions telles que limx→a f (x) = avec = 0, limx→a g(x) = 0 et g(x) > 0 pour tout x proche mais différent de a. Alors,
• Si > 0, limx→a
f (x) g(x)
= +∞ ;
• Si < 0, limx→a
f (x) g(x)
= −∞.
17
Chapitre 1. Fonctions d’une variable
Si au contraire g(x) < 0 pour tout x proche de a, on a • Si > 0, limx→a
f (x) g(x)
= −∞ ;
• Si < 0, limx→a
f (x) g(x)
= +∞.
Calculer la limite d’une forme indéterminée ∞−∞, 0×∞, 0 ou ∞ ∞ s’appelle lever l’indétermination. Les limites des fonctions usuelles offrent souvent la clé pour lever des indéterminations. On retiendra en particulier les formules suivantes : • limx→+∞ xα = +∞ si α > 0 et • limx→+∞ ex = +∞ et
limx→−∞ ex = 0 ;
• limx→+∞ ln(x) = +∞ et • limx→+∞
ex xα
• limx→+∞
ln(x) xα
= +∞ et = 0 et
limx→+∞ xα = 0 si α < 0 ;
limx→0 , x>0 ln(x) = −∞ (2) ; limx→−∞ |x|α ex = 0 ;
limx→0 , x>0 xα ln(x) = 0.
On résume parfois les quatre derniers résultats en disant que « l’exponentielle l’emporte sur les puissances en +∞ et −∞, et les puissances l’emportent sur le logarithme en +∞ et en 0 ». Cette affirmation est cependant imprécise, donc dangereuse : il est bon de s’en souvenir lorsque l’on cherche à lever des indéterminations, mais il est tout aussi important, pour éviter bien des erreurs, de se ramener ensuite à l’une ou l’autre des formes précises énoncées ci-dessus. Le comportement des limites vis-à-vis de la composition des fonctions permet de préciser bon nombre de limites : Si limx→a f (x) = b et limy→b g(y) = , alors limx→a g(f (x)) = (a, b et peuvent être soit des nombres réels, soit +∞, soit −∞). Cette propriété est aussi intuitivement claire : si g(y) est proche de lorsque y est proche de b et si, lorsque x est proche de a, f (x) est proche de b, alors g(f (x)) est proche de lorsque x est proche de a. (2)
La notation « limx→0, x>0 ln(x) » rappelle que l’on considère, lorsque l’on étudie la limite, des x proches de 0 mais toujours strictement positifs, une obligation puisque ln(x) n’est défini que pour les x > 0.
18
1.5. Fonctions continues
Exemple 11. Pour obtenir la limite en 0 de exp( x12 ), on peut par exemple poser g(x) = x12 : on a alors limx→0 g(x) = +∞ car limx→0 x2 = 0 et x2 reste toujours strictement positif en dehors de 0 et, comme limy→+∞ exp(y) = +∞, on en déduit que limx→0 exp( x12 ) = +∞.
1.5. Fonctions continues 1.5.1. Définition et propriétés On dit souvent, de façon imagée, qu’une fonction est continue « lorsque l’on peut la tracer sans lever le stylo », ou encore « lorsque sa représentation graphique ne présente pas de « saut » ». Ces caractérisations visuelles peuvent apparaître agréables au premier abord, mais elles restent floues et peu efficaces lorsqu’il s’agit ensuite de manipuler le concept de continuité (par exemple, comment prouver ainsi que la somme de deux fonctions continues est continue ?). La définition précise de la continuité est en fait liée à la notion de limite : Une fonction f est continue sur une partie E de R si, pour tout a dans E, on a limx→a f (x) = f (a). La majorité des fonctions que nous rencontrerons sont continues. Nous admettrons tout d’abord que c’est le cas des fonctions usuelles. Les fonctions puissances, le logarithme et l’exponentielle sont continues sur leur domaine de définition. Les règles de calcul des limites impliquent que la continuité est respectée par les quatre opérations et la composition, pourvu que celles-ci soient loisibles : • Si f et g sont continues sur une partie E de R, alors les fonctions f + g, f − g et f g sont continues sur E. • Si f et g sont continues sur une partie E de R et si g ne s’annule en aucun point de E, alors la fonction fg est continue sur E. • Si f est continue sur une partie E de R et si λ est un nombre réel fixé, alors λf est continue sur E. • Si g est une fonction continue sur une partie E de R et f une fonction continue sur une partie F , telle que, pour tout x dans F , f (x) appartienne à E, alors la fonction h(x) = g(f (x)) est continue sur F . 19
Chapitre 1. Fonctions d’une variable
Ainsi, dès qu’une fonction est construite à partir de sommes, produits, compositions et autres opérations élémentaires sur les fonctions usuelles, elle hérite de leur continuité. Il s’agit donc d’une propriété très répandue... mais pas universelle : les fonctions données dans la figure 1.8, par exemple, ne sont pas continues. Plus généralement, la nature regorge de fonctions qui ne sont pas continues (un signal carré sur un oscilloscope, la porosité du sol en fonction de la profondeur d’une couche géologique stratifiée, etc.). Notre premier travail, lorsque nous rencontrerons une fonction donnée par une formule, sera donc de comprendre comment cette fonction a été construite à partir des fonctions usuelles, des quatre opérations et de la composition, afin de s’assurer (ou non...) de sa continuité.
1.5.2. Valeurs intermédiaires Il existe un résultat mathématique précis qui traduit l’affirmation intuitive qu’« une fonction continue peut être tracée sans lever le stylo ». Considérons pour cela la situation illustrée par la figure 1.9 : une fonction f continue sur un intervalle [a ; b] et un nombre réel r compris entre f (a) et f (b). Lorsque l’on trace la représentation graphique de f entre a et b, on n’a pas d’autre choix que de couper, à un moment donné, la droite horizontale située à la hauteur r : l’abscisse du point d’intersection est alors un nombre réel c situé entre a et b, et tel que f (c) = r. Le raisonnement que nous venons de faire illustre un résultat mathématique important mais il n’en constitue cependant pas une preuve formelle
f (a) r
f (b)
a
c
b
Figure 1.9. Illustration du théorème des valeurs intermédiaires.
20
1.5. Fonctions continues
(puisqu’il se fonde sur « on ne lève pas le stylo... »). Une véritable preuve nous entraînerait bien au-delà des objectifs du présent ouvrage. Nous nous contentons de retenir : ( Théorème des valeurs intermédiaires) Si f est une fonction continue sur un intervalle [a ; b] et r est un nombre réel compris entre f (a) et f (b) (f (a) ≤ r ≤ f (b) ou bien f (b) ≤ r ≤ f (a)), alors il existe au moins un réel c dans [a ; b] tel que f (c) = r. Un nombre réel c tel que f (c) = r est appelé antécédent de r par f . Le théorème des valeurs intermédiaires assure l’existence d’antécédents, mais il peut en exister plusieurs (c’est le cas sur la figure 1.9). Par ailleurs, ce résultat est en général faux pour les fonctions qui ne sont pas continues, comme on pourra le constater dans l’exercice 7.
Exemple 12. Si l’on verse une quantité Q d’acide dans une solution basique de pH = 10, on peut voir que le pH résultant est une fonction continue de Q qui, pour Q = 0, vaut 10 (le pH de la solution basique initiale) et, pour Q = Q0 assez grand, est inférieure à 2. Comme la valeur 7 est comprise entre les valeurs du pH lorsque Q = 0 et lorsque Q = Q0 , le théorème des valeurs intermédiaires garantit qu’il existe une quantité particulière Q∗ d’acide versé qui produira un pH exactement égal à 7. Qu’en est-il précisément de la valeur de Q∗ ? Un calcul exact peut parfois être fait si l’on sait exprimer le pH en fonction de Q. En revanche, nombreuses sont les situations où l’on ne peut pas calculer explicitement Q∗ . Dans ce contexte, il faut alors recourir à des méthodes d’analyse numérique pour obtenir une valeur approchée de Q∗ : parmi ces méthodes, les plus simples sont le balayage à la calculatrice et la dichotomie, toutes deux enseignées dans le secondaire.
1.5.3. Extrema
Un point c d’un intervalle I où une fonction f atteint sa plus grande ou sa plus petite valeur possible sur I est appelé extremum de la fonction. Lorsque f atteint sa plus grande valeur possible en c, c’est-à-dire que f (c) ≥ f (x) pour tout x dans I, alors c est appelé maximum de f ; inversement, si f atteint sa plus petite valeur possible en c, c’est-à-dire que f (c) ≤ f (x) pour tout x dans I, c est alors appelé minimum de f .
21
Chapitre 1. Fonctions d’une variable
f (x)
a
c
d
b
x
Figure 1.10. Les points a et d sont des maxima et c est un minimum de f sur [a ; b].
La figure 1.10 illustre ces notions. L’existence d’un extremum n’est absolument pas assurée en général : par exemple, la fonction f (x) = x n’a ni minimum ni maximum sur l’intervalle ]0 ; 1[. Lorsque l’on trace la représentation graphique de cette fonction, l’envie est pourtant forte de prétendre que le minimum de f est 0 ; malheureusement 0 n’appartient pas à ]0 ; 1[ et aucun point c de ]0 ; 1[ ne peut vérifier « f (c) ≤ f (x) pour tout x dans ]0 ; 1[ ». Dans cet exemple, le problème provient du fait que ]0 ; 1[ ne contient pas ses bornes. Un autre problème peut survenir lorsque f n’est pas continue : par exemple, la fonction f définie sur [−1 ; 1] par f (x) = x si x est dans [−1 ; 0[ et f (x) = −1 si x est dans [0 ; 1] n’a pas de maximum sur [−1 ; 1] (tracez-la... 0 a l’air d’un maximum de f , mais f (0) = −1 n’est pas la plus grande valeur de f sur [−1 ; 1]). Lorsque la fonction est continue et l’intervalle contient ses bornes, l’existence d’au moins un maximum et d’au moins un minimum est cependant assurée : Soient a et b deux nombres réels et f une fonction continue sur [a ; b]. Alors il existe au moins un maximum de f sur [a ; b], c’est-à-dire un nombre réel c dans [a ; b] tel que f (c) ≥ f (x) pour tout x dans [a ; b]. De même, il existe au moins un minimum de f sur [a ; b], c’est-à-dire un nombre réel d dans [a ; b] tel que f (d) ≤ f (x) pour tout x dans [a ; b].
22
1.5. Fonctions continues
Exemple 13. On taille un rondin de bois de section circulaire pour en faire une poutre de section rectangulaire. La résistance de la poutre obtenue est une fonction continue de sa largeur, cette dernière pouvant être librement choisie lors de la taille entre 0 (la poutre se réduisant alors à une feuille de bois d’épaisseur nulle !) et le diamètre du rondin initial. Le résultat ci-dessus nous assure qu’il existe une largeur qui donne à la poutre sa résistance maximale... largeur qu’il reste à déterminer (cf. l’exercice 5).
1.5.4. Bijection réciproque Le théorème des valeurs intermédiaires du paragraphe 1.5.2 permet souvent d’assurer l’existence d’au moins un antécédent d’un réel y par une fonction f , sans pour autant affirmer que cet antécédent est unique. Les fonctions qui vérifient la propriété d’avoir un, et uniquement un, antécédent pour toute valeur r dans un intervalle donné méritent un nom particulier. Soient I et J deux intervalles. Une fonction f est dite bijective de I dans J si, pour tout x dans I, f (x) est dans J et si tout nombre réel y dans J admet un et un seul antécédent par f dans I. Cette définition impose en particulier que I soit inclus dans Df , puisque l’on souhaite que f (x) soit défini pour tout x dans I. Lorsqu’une fonction f est bijective de I dans J, on définit une fonction de J dans I, notée f −1 et appelée bijection réciproque de f , de la manière suivante : pour tout y dans J, f −1 (y) est l’unique antécédent de y par f dans I. Autrement dit, f −1 (y) est l’unique nombre réel x dans I tel que f (x) = y. Une mise en garde importante s’impose ici : la notation f −1 n’a rien à voir avec un réel pris à l’exposant −1 (autrement dit avec l’inverse d’un réel) : il s’agit juste d’une notation, qui peut être considérée comme malheureuse, mais qui est tellement classique qu’il est impossible de la passer sous silence.
Exemple 14. La fonction f (x) = −2x + 1 est bijective de I = ]0 ; 2] dans J = [−3 ; 1[. En effet, f est bien définie sur I et, en outre, si x est dans I, alors 0 < x ≤ 2, donc 0 > −2x ≥ −4 et 1 > −2x + 1 ≥ −3, ce qui montre que f (x) est dans J. Enfin, si r est dans J, le seul antécédent possible de r par f est x = − 12 (r − 1), qui est bien dans I. La réciproque de f est donc la fonction g définie sur J par g(y) = − 12 (y − 1). 23
Chapitre 1. Fonctions d’une variable
L’existence d’une bijection réciproque impose donc, pour tout point de J, d’une part l’existence d’un antécédent par f dans I et, d’autre part, l’unicité de cet antécédent(3) . Il s’agit de deux propriétés différentes, qui n’entretiennent pas nécessairement de rapport étroit entre elles. Dans le cas où I est de la forme [a ; b] avec, par exemple, f (a) ≤ f (b), posons J = [f (a) ; f (b)]. Si f est continue sur I, le paragraphe 1.5.2 assure l’existence d’au moins un antécédent c dans [a ; b] de tout y dans J. Si l’on suppose maintenant que f est strictement croissante sur I, alors on peut voir que cet antécédent est unique : en effet, si l’on avait un autre antécédent d différent de c, par exemple c < d, on aurait f (c) < f (d) par stricte croissance de f , ce qui est impossible puisque y = f (d) = f (c). On aboutit aussi à une contradiction si d < c, et le raisonnement est aussi valable si f est strictement décroissante. En conclusion, nous retiendrons donc que la conjonction de la continuité d’une fonction et de sa stricte croissance ou décroissance permet de s’assurer de son caractère bijectif, ce que l’on résume dans l’énoncé suivant : Soient I un intervalle de R, dont on note les bornes a et b, et f une fonction continue strictement croissante sur I (ou strictement décroissante sur I). Alors, en définissant J comme l’intervalle dont les bornes sont limx→a f (x) et limx→b f (x), la fonction f est bijective de I dans J. La bijection réciproque f −1 est continue sur J et a le même sens de variation que f : elle est strictement croissante si f est strictement croissante, et strictement décroissante si f est strictement décroissante. Cet énoncé appelle une série de remarques. Tout d’abord, on ne suppose pas forcément que I contient ses bornes, ni que les bornes en question sont des nombres réels : le résultat peut donc tout aussi bien s’appliquer avec I = [0 ; 2] qu’avec I =]−∞ ; 4] ou avec I = R. Ensuite, les bornes limx→a f (x) et limx→b f (x) de J peuvent être finies ou pas, et leur ordre dépend du sens de variation de f : si f est croissante, cet ordre est le même que celui des bornes de I, mais il est inversé si f est décroissante. Enfin, l’appartenance ou non de ces bornes à J dépend de l’appartenance ou non de la borne correspondante pour I : par exemple, si a est dans I, alors la borne limx→a f (x) de J sera aussi dans J, et sera en fait simplement égale à f (a). Si a n’appartient pas à I (si I est de la forme ]a ; b], par exemple), alors limx→a f (x) ne sera pas non plus dans J.
Exemple 15. La fonction ln est continue sur ]0 ; + ∞[ et strictement croissante sur cet intervalle puisque sa dérivée (ln) (x) = x1 est strictement positive (voir le (3)
24
Dans cette phrase, tous les termes en italique sont importants.
1.6. Dérivabilité
paragraphe 1.6.2 plus loin). Comme limx→0 ln(x) = −∞ et limx→+∞ ln(x) = +∞, on en déduit que le logarithme est bijectif de ]0 ; +∞[ dans ]−∞ ; +∞[= R. Sa bijection réciproque ln−1 n’est (bien sûr) autre que l’exponentielle, définie de R dans ]0 ; +∞[, continue et strictement croissante.
Exemple 16. La fonction f (x) = x2 est continue et strictement croissante sur [0 ; +∞[ : elle est donc bijective de [0 ; +∞[ dans [f (0) ; limx→+∞ f (x)[ = [0 ; +∞[, et sa bijection réciproque, qui va de [0 ; +∞[ dans [0 ; +∞[, est la fonction racine √ . En revanche, elle n’est pas bijective de R dans [0 ; +∞[ – certains r carrée positifs ont plusieurs antécédents – ni de R dans R – les r strictement négatifs n’ont pas d’antécédent ! Le caractère bijectif d’une fonction dépend donc fortement des intervalles que l’on considère.
1.6. Dérivabilité 1.6.1. Définition et règles de calcul La dérivée d’une fonction est une notion avant tout géométrique : si l’on peut tracer une droite « tangente » en un point au graphe d’une fonction f , alors la pente de cette droite est la dérivée de f à l’abscisse du point considéré. Mais qu’est-ce qu’une tangente ? Fixons un nombre réel x0 dans le domaine de f et, pour x appartenant également à Df , traçons le segment de droite qui relie les points (x0 , f (x0 )) et (x, f (x)). Lorsque x se rapproche de x0 , ce segment, appelé sécante au graphe de f entre x0 et x, a en général tendance à « coller » de plus en plus à la représentation graphique de f autour de x0 (voir la figure 1.11). On dit alors qu’il devient « tangent » à la courbe. Il est donc naturel de considérer que la pente de la tangente (si elle existe) est égale à la limite des pentes des sécantes entre x0 et x, ces dernières étant données par le quotient de l’accroissement des ordonnées par l’accroissement des abscisses, c’est-à-dire le taux d’accroissement f (x)−f (x0 ) de f entre x0 et x. C’est cette idée qui prévaut pour la définition de la x−x0 dérivée : Si f est une fonction définie sur un intervalle I et x0 un nombre réel dans I, on dit que f est dérivable en x0 si la limite lim
x→x0
f (x) − f (x0 ) x − x0
existe. Lorsque c’est le cas, cette limite s’appelle la dérivée de f en x0 et on la note f (x0 ). 25
Chapitre 1. Fonctions d’une variable
Sécante (pente =
f (x)−f (x0 ) ) x−x0
f (x)
f (x0 )
Tangente (pente = f (x0 ))
x0
x
Figure 1.11. Sécantes, tangentes et dérivée en x0 .
La limite intervenant dans la dérivée de f en x0 est une forme indéterminée Ainsi, son existence est loin d’être acquise et, de fait, bon nombre de fonctions ne sont pas dérivables, au moins en certains points (voir l’exercice 8 pour un exemple). 0 0.
Lorsqu’une fonction est dérivable en tout nombre réel d’un intervalle I, on dispose donc pour chaque point x d’un réel f (x). Cela détermine une nouvelle fonction f , que l’on appelle fonction dérivée de f ou, plus simplement, dérivée de f . Les fonctions puissances, logarithme et exponentielle sont dérivables sur leurs domaines de définition respectifs. De plus : • Pour tout entier n, la dérivée de f (x) = xn est f (x) = nxn−1 . • La dérivée du logarithme ln est (ln) (x) = x1 . • La dérivée de l’exponentielle exp est (exp) (x) = exp(x).
26
1.6. Dérivabilité
L’existence et le calcul des dérivées des fonctions puissances sont traités dans l’exercice 9. Le cas du logarithme se déduit de la formule fondamentale du calcul différentiel et intégral esquissée dans l’annexe à ce chapitre. La dérivée de l’exponentielle est égale à elle-même : ce caractère très particulier explique l’omniprésence de cette fonction dans la théorie des équations différentielles (et donc dans bon nombre de modèles du monde réel), que nous aborderons dans le chapitre 8. Suivant le même chemin que pour limites et continuité, nous passons maintenant à l’effet des quatre opérations et de la composition : • Si f et g sont dérivables sur un intervalle I, alors f + g et f − g sont dérivables sur I et (f + g) = f + g , (f − g) = f − g . • Si f et g sont dérivables sur un intervalle I, alors f g est dérivable sur I et (f g) = f g + f g . • Si f et g sont dérivables sur un intervalle si g ne s’annule jamais I et f f f g−f g sur I, alors g est dérivable sur I et g = g2 . • Si f est dérivable sur un intervalle I et λ est un nombre réel fixé, alors λf est dérivable sur I et (λf ) = λf . • Soient g une fonction continue sur un intervalle I et f une fonction continue sur un intervalle J, prenant toutes ses valeurs dans I. Si f est dérivable en un nombre réel x de J et g est dérivable en f (x) (ce réel appartient à I), alors la fonction composée h(z) = g(f (z)) est dérivable en x et on a h (x) = g (f (x))f (x). Tous ces points sont des conséquences du comportement des limites, parfois immédiates, parfois au prix de quelques calculs (cf. l’exercice 10). Dans ce livre, le traitement des dérivées sera toujours accompli grâce à ces quelques règles. Comme pour la continuité, il est donc important, lorsque l’on manipule une fonction donnée par une formule, de comprendre précisément comment cette dernière a été obtenue à partir de sommes, produits, compositions et autres opérations élémentaires sur les fonctions usuelles.
1.6.2. Dérivée et sens de variation Soient I un intervalle et f une fonction dérivable sur I. • Si f (x) ≥ 0 pour tout x dans I, alors f est croissante sur I. • Si f (x) ≤ 0 pour tout x dans I, alors f est décroissante sur I. 27
Chapitre 1. Fonctions d’une variable
Autrement dit, pour déterminer le sens de variation d’une fonction, il suffit d’étudier le signe de sa dérivée (ce qui est souvent beaucoup plus simple que de comparer les valeurs de la fonction deux à deux). On peut même préciser : Soient I un intervalle de R et f une fonction dérivable sur I. • Si f (x) > 0 pour tout x dans I, alors f est strictement croissante sur I. • Si f (x) < 0 pour tout x dans I, alors f est strictement décroissante sur I. Ces propriétés sont en fait encore vraies si f s’annule en un nombre fini de points, c’est-à-dire si les inégalités f (x) > 0 où f (x) < 0 sont valables sauf pour éventuellement un nombre fini de points de I. Les résultats ci-dessus ont comme importante conséquence que les fonctions logarithme et exponentielle sont toutes deux strictement croissantes sur leurs domaines de définition respectifs ]0 ; +∞[ et R. Pour les puissances, la situation est un peu plus délicate, comme le montre l’exemple suivant, que le lecteur est invité à méditer.
Exemple 17. La fonction f (x) = x3 est strictement croissante sur R, car elle est dérivable sur cet intervalle et sa dérivée f (x) = 3x2 est strictement positive pour tout réel x sauf un (en l’occurrence x = 0). La fonction g(x) = x1 a pour dérivée g (x) = − x12 , strictement négative en tout point différent de 0. On ne peut cependant pas conclure qu’il s’agit d’une fonction strictement décroissante – c’est bien sûr faux puisque, par exemple, g(−1) < g(1)... Le problème provient du fait que ]−∞ ; 0[ ∪ ]0 ; +∞[ n’est pas un intervalle ! En revanche, la fonction est strictement décroissante sur chacun des deux intervalles ]−∞ ; 0[ et ]0 ; +∞[. Les preuves de ces résultats, qui unissent intimement sens de variation et signe de la dérivée, font appel au théorème dit des accroissements finis, dont l’énoncé dépasse le cadre de cet ouvrage (voir par exemple [10]).
1.6.3. Dérivée et extrema Supposons qu’une fonction f soit dérivable sur un intervalle ]a ; b[ et qu’elle y admette un maximum c. Ainsi, pour tout x dans ]a ; b[, on a f (x) ≤ f (c), ou encore f (x) − f (c) ≤ 0. Prenons d’abord x > c : en divisant par x − c (qui est positif), on voit immé(c) (c) ≤ 0. Lorsque x tend vers c, f (x)−f tend vers f (c), et diatement que f (x)−f x−c x−c l’on en déduit donc que f (c) ≤ 0. 28
1.6. Dérivabilité
Prenons ensuite x < c : la division par x − c < 0 inverse le sens de l’inégalité (c) ≥ 0, puis, en faisant ensuite tendre x vers f (x) − f (c) ≤ 0, ce qui fournit f (x)−f x−c c, f (c) ≥ 0. La dérivée de f en c, qui est à la fois positive et négative, est donc ainsi forcément nulle. Un raisonnement similaire peut aussi être conduit lorsque c est un minimum de f . Nous avons donc montré le résultat suivant :
Soit f une fonction dérivable sur l’intervalle ]a ; b[. Si c est un extremum de f dans ]a ; b[, alors f (c) = 0.
Cette propriété est une aide précieuse dans la recherche d’extrema d’une fonction. Nous savons en effet qu’une fonction f continue sur un intervalle [a ; b] a au moins un maximum dans [a ; b]. Ce maximum peut être soit a, soit b, soit un nombre réel c de ]a ; b[. Dans ce dernier cas, et si la fonction f est dérivable, on doit avoir f (c) = 0. Rechercher les extrema d’une fonction dérivable consiste donc à : 1. Trouver les zéros de f dans ]a ; b[, en général en nombre fini ; 2. Comparer les valeurs de f en ces points ainsi qu’en a et b, et sélectionner la plus grande de ces valeurs.
Exemple 18. Cherchons les maxima de la fonction f (x) = 10 ln(x) − x2 sur [1 ; 3]. Cette fonction est continue sur [1 ; 3], et elle admet donc au moins un maximum : les zéros de f sont les réels x c sur ce même intervalle. On a f (x) = 10 x − 2x √ 10 2 tels que x = 2x, c’est-à-dire x = 5, soit x = 5 (on ne considère pas l’autre √ solution √ x = − 5 car elle n’est pas dans [1 ; 3]). Le maximum de f est donc soit les valeurs 1, soit 5, soit 3. Calculons maintenant √ de f en ces points : f (1) = −1, √ f (3) = 10 ln(3) − 9 ≈ 1,99 et f ( √5) = 10 ln( 5) − 5 = 5 ln(5) − 5 ≈ 3,04. Le maximum de f sur [1 ; 3] est donc 5. Attention : ce n’est pas parce que l’on trouve un seul réel x tel que f (x) = 0 que celui-ci est un extremum. Par exemple, la dérivée de f (x) = x3 s’annule en x = 0, mais 0 n’est ni un maximum ni un minimum de f sur [−1 ; 1]. Les extrema sont à chercher soit aux bornes de l’intervalle soit parmi les zéros de la dérivée, mais les zéros de la dérivée ne sont pas forcément des extrema ! 29
Chapitre 1. Fonctions d’une variable
1.7. Étude de fonctions Comment donner une représentation graphique la plus fidèle possible d’une fonction ? C’est l’objet de l’étude des fonctions, qui synthétise l’ensemble des techniques que nous avons décrites dans les paragraphes précédents. Le premier acte, lorsque l’on doit étudier une fonction, consiste à comprendre comment cette dernière est construite à partir des fonctions usuelles. Une fois cette étape préliminaire effectuée, on détermine ensuite le domaine maximal de définition de la fonction, que l’on restreint éventuellement si la situation concrète l’exige, et l’on finit en étudiant sa continuité et sa dérivabilité.
Exemple 19. Nous allons suivre pas à pas les étapes de l’étude de la fonction 1 x +1+ · f (x) = ln x+1 2x x Il s’agit d’une somme de trois fonctions : x −→ ln( x+1 ), la fonction constante 1 égale à 1, et la fonction x −→ 2x . La première est la composition du logarithme x 1 = x+1−1 avec x −→ x+1 x+1 = 1 − x+1 , et la troisième est l’inverse d’une fonction x affine. Pour que la première soit définie, il faut d’une part x = −1 (afin que x+1 x 1 existe) et, d’autre part, que x+1 = 1 − x+1 soit strictement positive pour pouvoir 1 . On doit alors la composer avec ln. Cette dernière condition impose 1 > x+1 1 séparer deux cas selon le signe de x + 1 : si x + 1 < 0, on a toujours 1 > x+1 1 1 puisque x+1 < 0 ; si x + 1 > 0, on ne peut avoir 1 > x+1 que lorsque 1 < x + 1, c’est-à-dire x > 0. La première fonction qui intervient dans f est donc définie sur ]−∞ ; − 1[ ∪ ]0 ; +∞[. La fonction constante 1 a toujours un sens et la troisième est définie pourvu que x = 0. En résumé, Df est la réunion des deux intervalles ]−∞ ; − 1[ ∪ ]0 ; +∞[. Dans la suite, nous supposerons que f ne nous intéresse que sur ]0 ; +∞[ (la variable x peut par exemple représenter une quantité physique qui n’a de sens que lorsqu’elle est positive) et nous n’étudierons donc f que sur cet intervalle. x La fonction x −→ x+1 est continue et dérivable sur ]0 ; +∞[, en tant que quotient (avec un dénominateur qui ne s’annule pas) de deux fonctions continues x ) est continue et dérivable sur ]0 ; +∞[ en et dérivables. La fonction x −→ ln( x+1 vertu des règles de dérivation des fonctions composées et des quotients. La fonction 1 elle constante 1 est clairement continue et dérivable, quant à la fonction x −→ 2x est aussi continue et dérivable sur ]0 ; +∞[. Ainsi, f est continue et dérivable sur 1 − 2x1 2 . ]0 ; +∞[ et les règles de calcul des dérivées fournissent f (x) = x(x+1)
Nous pouvons alors étudier le signe de f et en déduire les variations de f et la position de ses éventuels extrema. Il est en général utile, à ce stade, de déterminer 30
1.7. Étude de fonctions
les valeurs ou les limites éventuelles de la fonction aux bornes du domaine d’étude et aux points où la dérivée s’annule. On résume alors les éléments obtenus dans un tableau de variation, que l’on utilise par la suite pour tracer l’allure de la représentation graphique. 1 Exemple 20. Pour quels x dans ]0 ; +∞[ la dérivée f (x) = x(x+1) − 2x1 2 de f est1 > 2x1 2 , soit, puisque x > 0, elle strictement positive ? Pour cela, il faut que x(x+1) 1 1 x+1 > 2x , ou encore 2x > x + 1, ce qui est équivalent à x > 1. Ainsi, f (x) > 0 pour tout x > 1, f (x) = 0 uniquement pour x = 1, et f (x) < 0 lorsque x < 1. On en conclut que f est strictement décroissante sur ]0 ; 1[ et strictement croissante sur ]1 ; +∞[. x Lorsque x tend vers 0 en restant strictement positif, la quantité x+1 tend x vers 0 en restant aussi strictement positive, donc ln( x+1 ) tend vers −∞. Dans 1 tend vers +∞ : la limite de f (x) lorsque x tend vers 0 en le même temps, 2x restant strictement positif est donc une forme indéterminée +∞ − ∞. Afin de lever l’indétermination, on factorise le terme qui semble prédominant, à savoir 1 1 2x (cf. les règles du paragraphe 1.4.2), laissant penser que 2x l’emporte ici sur x ln( x+1 ). On écrit donc
f (x) =
1 2x
2x ln
x x+1
1 + 2x + 1 = (2x ln(x) − 2x ln(x + 1) + 2x + 1) 2x
(se souvenir que x > 0 et x+1 > 0). Le premier terme dans la parenthèse tend vers 0 quand x tend vers 0 en restant strictement positif (limite classique référencée au paragraphe 1.4.2) et le second aussi (ce n’est pasune forme indéterminée !). x 1 x Ainsi, 2x ln( x+1 ) + 2x + 1 tend vers 1 et f (x) = 2x 2x ln( x+1 ) + 2x + 1 tend donc vers +∞ quand x tend vers 0. x x tend vers 1, donc ln( x+1 ) tend vers La limite de f en +∞ est immédiate : x+1 1 ln(1) = 0, et 2x tend vers 0, de sorte que limx→+∞ f (x) = 1. Enfin, la valeur de f en 1 est f (1) = ln( 12 ) + 1 + 12 = − ln(2) + 32 ≈ 0,807. On résume l’ensemble de ces informations dans le tableau de variation cidessous et dans la représentation graphique donnée dans la figure 1.12. 0 f
−
1 0
+∞ +
+∞ f
1 − ln(2) +
3 2
31
Chapitre 1. Fonctions d’une variable
1.5
1 0.807
0.5
0
0.5
1
1.5
2
2.5
3
3.5
x Figure 1.12. Représentation graphique de la fonction f (x) = ln( x+1 )+1+ ]0 ; +∞[.
1 2x
sur
L’étude d’une fonction permet de justifier des propriétés dont la représentation graphique donne l’intuition. x 1 Exemple 21. Notre fonction f (x) = ln( x+1 ) + 1 + 2x est continue sur ]0 ; 1], strictement décroissante sur ce même intervalle, tend vers +∞ en 0 et a pour valeur − ln(2) + 32 en 1 : on peut donc en déduire, en vertu du paragraphe 1.5.4, qu’elle est bijective de ]0 ; 1] dans [− ln(2) + 32 ; +∞[. Le minimum de f sur ]0 ; +∞[ est atteint en 1, et il n’y a pas de maximum.
Exemple 22. Étudions rapidement un deuxième exemple. La fonction g(x) = √
1 2πσ 2
e−
(x−m)2 2σ 2
,
où σ est un nombre réel strictement positif, est définie sur R, intervalle sur lequel elle est continue et dérivable comme composée de fonctions usuelles. En outre, en tout x, la dérivée de g vaut g (x) = −
2 x − m − (x−m) √ e 2σ2 , σ 2 2πσ 2
qui est strictement positive si x < m, nulle en x = m et strictement négative si x > m. De plus les limites en ±∞ sont nulles toutes les deux. Le tableau de 32
1.7. Étude de fonctions
variation de g est donc facile à construire : g
g
−∞
m 0
−
+∞ +
0
0
On constate que cette fonction présente un unique maximum en x = m (voir la figure 1.13). Il s’agit de la célèbre gaussienne, qui jouera un rôle crucial dans le calcul des probabilités et en statistique (cf. les chapitres 3 à 7).
0.4
m = 0, σ = 1 m = −2, σ = 1.5 0.3
0.2
m = 0, σ = 3
0.1
-4
-2
0
2
4
Figure 1.13. Représentations de la gaussienne, pour différentes valeurs de m et σ.
Il existe de nombreux outils informatiques qui permettent de tracer la représentation graphique d’une fonction donnée... Le lecteur attentif aura d’ailleurs remarqué que nous utilisons nous-mêmes certains de ces outils pour illustrer notre propos. Il ne faut pas se priver de faire appel à ces logiciels, qui simplifient grandement la vie. Mais alors, à quoi bon apprendre à étudier une fonction « à la main », 33
Chapitre 1. Fonctions d’une variable
si un ordinateur peut le faire à notre place ? Il y a au moins deux réponses à cela. Tout d’abord, comme nous l’avons signalé à plusieurs reprises, une représentation graphique ne donne que des renseignements imprécis sur une fonction. Il est assez facile de se retrouver « piégé » par un tracé informatique et d’en tirer ainsi des conclusions erronées, tout simplement parce que l’ordinateur n’aura pas correctement représenté une caractéristique un peu fine de la fonction (il peut par exemple s’agir du domaine correct de définition, d’une limite un peu particulière, etc.). Mais surtout, bon nombre de modèles mènent à des fonctions contenant des paramètres. Il est alors important de pouvoir faire une étude sans pour autant fixer a priori la valeur exacte de ces paramètres. Mieux : le comportement de la fonction peut varier sensiblement lorsque les valeurs des paramètres changent, et il faut alors savoir associer valeurs des paramètres et comportements caractéristiques de la fonction. Cette remarque importante sera illustrée dans le prochain paragraphe, qui revient sur le problème utilisé comme motivation à ce chapitre.
1.8. Évolution d’un pathogène : une solution Comment relier l’efficacité de la transmission d’un agent pathogène et sa virulence intrinsèque ? Cette question recouvre en réalité deux volets très différents. Le premier volet consiste à montrer comment des hypothèses de nature biologique (sur la nature du pathogène, la façon dont il se propage, etc.) peuvent conduire à un modèle mathématique (c’est-à-dire, concrètement, à une formule, donc une fonction) décrivant la transmission du pathogène. Le second volet de la question réside dans l’étude mathématique de ce modèle. À cette occasion, nous tenterons d’apporter quelques réponses aux interrogations de l’introduction.
1.8.1. Vous avez dit modélisation ? Le premier travail d’une bonne modélisation consiste à bien définir les quantités que l’on souhaite calculer et les informations dont on dispose. Pour cela, il importe de faire le tri, au sein des modèles biologiques (qui peuvent être extrêmement complexes), entre les phénomènes pertinents et ceux qui ne joueront pas (ou peu) de rôle dans l’étude. Dans notre contexte, l’objet d’intérêt est l’efficacité de la transmission d’un pathogène. Nous pouvons mesurer cette efficacité par le nombre moyen d’individus infectés par un porteur du pathogène au cours de sa vie. Il s’agit donc d’un nombre, que nous noterons R0 . L’étude de R0 , ou plus exactement celle de son comportement en fonction des autres paramètres biologiques pertinents (en bref, l’étude de la fonction R0 ) devient donc, à partir de maintenant, notre objectif principal. 34
1.8. Évolution d’un pathogène : une solution
Établissons la liste des différents paramètres qui peuvent influer sur la valeur de R0 . Un pathogène se transmet d’autant plus efficacement qu’il réussit, à partir d’un individu, à en infecter le plus grand nombre possible. Il est de plus raisonnable de conjecturer que les infections seront d’autant plus nombreuses qu’il y a beaucoup d’individus sains dans le milieu concerné : dans un modèle simple, on considère que, chaque jour(4) , le nombre d’infections provoquées par le porteur du pathogène est proportionnel au nombre d’individus sains disponibles dans le milieu (nous noterons ce nombre S). La constante de proportionnalité, que nous noterons β, dépend directement des caractéristiques du pathogène, autrement dit de sa contagiosité intrinsèque (la probabilité que l’infection soir réussie). En une journée, l’efficacité de la transmission s’écrit donc comme le produit de S par ce nombre β, qu’il faut ensuite multiplier par la durée de vie en jours d’un individu infecté. Nous admettrons que la durée de vie moyenne d’un individu infecté est l’inverse du taux de mortalité de la population à laquelle il appartient, sous l’hypothèse que cette dernière suive un modèle dit malthusien : elle vaut donc 1/(μ + α), où μ est le taux de mortalité moyen de la population totale (individus infectés et non infectés) et α est une sur-mortalité provoquée par la maladie. C’est cette sur-mortalité que nous appellerons virulence du parasite. Le nombre moyen d’individus infectés par un porteur du pathogène au cours de sa vie est donc donné par l’expression R0 =
βS , μ+α
en fonction du nombre d’individus sains S, de la contagiosité β de la maladie, de la mortalité intrinsèque μ de la population et de la virulence α. Les caractéristiques du pathogène sont α et β. Elles ne sont pas indépendantes : un pathogène très virulent (α grand) a souvent une contagiosité β élevée (dans le cas d’une infection virale, par exemple, le nombre de virus présents dans l’organisme, ou charge virale, d’un individu malade détermine dans le même temps la sévérité des symptômes et la probabilité de transmission en cas de contact avec un individu sain). Les modèles les plus courants font l’hypothèse que β est une fonction croissante de α. En conclusion, R0 est une fonction de α donnée par la formule : R0 (α) =
Sβ(α) · μ+α
Pourquoi la virulence α de la plupart des pathogènes tend-elle à se stabiliser autour d’une valeur peu élevée, et pourquoi certains conservent-ils une virulence extrêmement forte ? Pour répondre à cette question, il faut se rappeler que les (4)
Si l’unité de temps choisie est la journée...
35
Chapitre 1. Fonctions d’une variable
lois de l’évolution indiquent que la fonction R0 a tendance à prendre la valeur la plus grande possible. En termes mathématiques, cela signifie qu’il faut étudier les maxima de R0 et trouver les valeurs de α pour lesquelles ces maxima sont atteints. Selon l’expression précise de la fonction β(α), nous allons voir que des phénomènes très différents peuvent se produire. Les raisonnements que nous venons de conduire constituent un exemple (simple, mais néanmoins instructif) du travail dévolu au modélisateur : dégager des observations et des lois de la nature (physique, chimique, biologique...) les phénomènes pertinents pour l’étude envisagée, définir les objets mathématiques sur lesquels l’attention doit se porter, traduire en des lois, des formules ou des concepts mathématiques les relations entre ces différentes quantités, et finalement définir avec précision les objectifs de l’étude à effectuer. Ce n’est qu’une fois ce travail préliminaire très important réalisé que l’étude mathématique à proprement parler peut commencer. En guise d’illustration, nous développons ci-dessous deux exemples, correspondant à deux types de pathogènes très différents.
1.8.2. Premier exemple : β sur-linéaire Nous supposerons ici que β(α) = rαc avec r et c des constantes, r > 0 et c > 1. Le nombre α est toujours strictement positif, le domaine de R0 est donc DR0 = ]0 ; +∞[ (on rappelle que αc est alors défini comme étant égal à exp(c ln(α))). L’allure de la représentation graphique de β est donnée pour c = 1, 4 dans la figure 1.14 (pour c = 2, ou c = 3, etc., voir aussi la figure 1.3). On constate que β croît vite lorsque α augmente : de fait, pour toute constante C > 0, le graphe de β(α) est au-dessus de celui de la fonction linéaire α −→ Cα lorsque α est grand. C’est ce que l’on appelle un comportement sur-linéaire de la fonction β. Nous fixons donc maintenant αc β(α) = rS , R0 (α) = S μ+α μ+α avec c > 1. La fonction R0 est continue et dérivable sur ]0 ; +∞[, comme quotient de deux fonctions continues et dérivables sur cet intervalle, le dénominateur μ + α ne s’y annulant pas. La formule de dérivation des fonctions composées fournit β (α) = r exp (c ln(α))(c ln(α)) = r exp(c ln(α))
αc c = rc = rcαc−1 , α α
et l’on en déduit ainsi, par dérivation d’un quotient, (μ + α)β (α)S − β(α)S(μ + α) (μ + α)rcαc−1 S − rαc S = (μ + α)2 (μ + α)2 c−1 c(μ + α) − α c−1 cμ + (c − 1)α = rSα = rSα · (μ + α)2 (μ + α)2
R0 (α) =
36
1.8. Évolution d’un pathogène : une solution
β(α) = rα1.4 Fonctions α → Cα pour diverses valeurs de C
β(α) = rα0.4 0
0
α
Figure 1.14. Exemples de taux de contagion β en fonction de α, dans les cas sur-linéaire (ici, β(α) = rα1,4 ) et sous-linéaire (ici, β(α) = rα0,4 ) ; des exemples de fonctions linéaires α → Cα sont donnés à titre de comparaison.
Le signe de R0 est donc celui de cμ + (c − 1)α. Or cμ + (c − 1)α > 0 lorsque cμ cμ < α puisque 1 − c < 0. Mais 1−c est négatif et α cμ > (1 − c)α, soit 1−c est strictement positif, donc cette inégalité est toujours vérifiée. Il s’ensuit que R0 est toujours strictement positif et, par conséquent, que R0 est une fonction strictement croissante sur son domaine. Par ailleurs, R0 (0) = 0, et la limite en +∞ de R0 est une forme indéterminée ∞ ∞ : les termes dominants du numérateur et du dénominateur sont des puissances de α, qu’il suffit de factoriser pour lever l’indétermination. On calcule c = αc−1 μrS , d’où limα→+∞ R0 (α) = +∞ car c − 1 > 0. On R0 (α) = αα μrS +1 +1 α α résume tout ceci dans le tableau de variation suivant et dans la représentation graphique donnée dans la figure 1.15. +∞
0 R0
+ +∞
R0 0 37
Chapitre 1. Fonctions d’une variable
R0
0 0
α
Figure 1.15. Représentation graphique de R0 dans le cas où β(α) est sur-linéaire.
On constate donc ici que R0 n’a pas de maximum : ses valeurs sont donc d’autant plus grandes que le taux de virulence α est lui-même élevé. Ce modèle correspond aux quelques rares maladies (Ebola, etc.) qui ont évolué vers une virulence extrême. Ces pathologies ont une contagiosité naturelle β(α) tellement élevée qu’il ne leur importe pas de préserver la vie de leur hôte, ce dernier pouvant spontanément infecter beaucoup d’individus, même en un temps très court.
1.8.3. Second exemple : β sous-linéaire Dans ce second exemple, nous supposons toujours que β(α) = rαc , mais avec cette fois-ci 0 < c < 1. La représentation graphique de β lorsque c = 0, 4 est toujours donnée dans la figure 1.14, où l’on peut observer que, pour toute constante C > 0, β(α) est en dessous de la fonction α −→ Cα lorsque α est grand : ce caractère est dit sous-linéaire. L’expression de R0 est la même que précédemment, et cette dérivée a toujours le signe de cμ+(c−1)α. Comme 1−c est désormais positif, on trouve que R0 (α) ≥ 0 cμ cμ où, cette fois, 1−c est strictement positif. Contrairement au cas lorsque α ≤ 1−c sur-linéaire, le signe de R0 change sur DR0 : cμ [; • R0 est strictement positive sur ]0 ; 1−c cμ ; +∞[ ; • R0 est strictement négative sur [ 1−c
• R0 s’annule en 38
cμ 1−c .
1.9. Annexe
Par ailleurs, comme c − 1 < 0, on a cette fois limα→+∞ R0 (α) = 0, d’où le tableau de variation suivant et la représentation graphique de la figure 1.16. 0 R0
−
R0 0
cμ 1−c
0
+∞ +
0
R0
0
0
cμ 1−c
α
Figure 1.16. Représentation graphique de R0 dans le cas où β(α) est sous-linéaire. cμ La fonction R0 admet donc ici un maximum en 1−c . Les pathogènes les plus favorisés par l’évolution ne sont pas ceux d’une virulence trop grande, mais plutôt ceux dont la virulence est très proche du maximum, qui laissent du temps à leurs hôtes pour infecter le plus grand nombre possible d’individus sains. C’est le cas de la majeure partie des maladies virales connues (grippes, gastro-entérites, méningites, légionellose, varicelle, rougeole, etc.).
1.9. Annexe 1.9.1. Notations usuelles • L’ensemble des nombres réels est noté R. • Lorsque a et b sont des nombres réels et a ≤ b, [a ; b] est l’ensemble des réels compris (au sens large) entre a et b. 39
Chapitre 1. Fonctions d’une variable
• Lorsque a et b sont des réels et a < b, ]a ; b[ est l’ensemble des réels qui sont strictement compris entre a et b (mais qui ne sont égaux ni à a ni à b) ; [a ; b[ est l’ensemble des nombres qui sont supérieurs ou égaux à a et strictement inférieurs à b ; ]a ; b] est l’ensemble des réels strictement supérieurs à a et inférieurs ou égaux à b. • Lorsque a est un réel, [a ; +∞[ est l’ensemble des nombres supérieurs ou égaux à a, et ]a ; +∞[ l’ensemble des nombres strictement supérieurs à a. Pareillement, ]−∞ ; a] (respectivement ]−∞ ; a[) désigne l’ensemble des nombres inférieurs ou égaux (respectivement strictement inférieurs) à a. • Tous ces ensembles sont ce que l’on appelle des intervalles. • Lorsque a est un nombre réel, R\{a} désigne l’ensemble de tous les réels sauf a. Ce n’est pas un intervalle. • x ∈ A indique que le nombre réel x appartient à l’ensemble A. • A ∪ B désigne l’union de deux ensembles A et B : A ∪ B contient tous les éléments de A et tous les éléments de B ; A ∩ B désigne l’intersection de deux ensembles A et B : A ∩ B contient tous les éléments qui sont à la fois dans A et B. • Ac désigne le complémentaire d’un ensemble A : les éléments qui sont dans Ac sont exactement ceux qui ne sont pas dans A. • Enfin, il est souvent agréable d’utiliser la notation « x −→ f (x) » pour représenter une fonction f , qui indique clairement que la fonction f associe à chaque x un nombre réel f (x).
1.9.2. Manipulations d’inégalités 1. On peut additionner deux inégalités de même sens : si a ≤ b et c ≤ d, alors a + c ≤ b + d. 2. Lorsque l’on multiplie une inégalité par un nombre réel positif, le sens de cette inégalité n’est pas changé : si a ≤ b et c est positif, alors ac ≤ bc. 3. Lorsque l’on multiplie une inégalité par un nombre réel négatif, le sens de cette inégalité est changé : si a ≤ b et c est négatif, alors ac ≥ bc. 4. Lorsque l’on prend l’inverse d’une inégalité entre deux nombres ayant le même signe, alors on en change le sens : si a ≤ b et a et b sont non 40
1.9. Annexe
nuls et ont le même signe (sont tous les deux positifs ou tous les deux négatifs), alors a1 ≥ 1b . Ces propriétés sont aussi vraies avec des inégalités strictes, pourvu, dans 2. et 3., que c ne soit pas nul. Nous mettons en garde le lecteur contre toute autre tentative de manipulation d’inégalités, qui pourrait se révéler hasardeuse (comme par exemple diviser deux inégalités, les multiplier, etc.). En la matière, la règle d’or est la suivante : toute manipulation d’inégalités ne doit utiliser que les quatre règles précédentes. Les croissance et décroissance d’une fonction fournissent également des inégalités : si a ≤ b et si f est une fonction croissante, alors f (a) ≤ f (b). On peut résumer cela en disant que « si une fonction est croissante, on peut l’appliquer de part et d’autre d’une inégalité sans en changer le sens ». Inversement, si une fonction est décroissante, on peut l’appliquer de part et d’autre d’une inégalité en en changeant le sens.
1.9.3. Intégrales et primitives Une primitive d’une fonction continue f sur un intervalle I est une fonction F dérivable sur I telle que F (x) = f (x) pour tout x dans I. Dès qu’il existe une primitive F d’une fonction f , il en existe en réalité une infinité : si C est une constante, alors F + C est encore une primitive de f . Toutes les primitives d’une fonction f diffèrent les unes des autres par une constante : si F et G sont deux primitives de f , alors il existe une constante C telle que F = G + C. Des chapitres entiers de livres sont consacrés aux techniques de calcul de primitives. En ce qui nous concerne, nous n’aurons besoin que des quelques règles suivantes : • Si F (x) et G(x) sont des primitives de f (x) et g(x), et si α et β sont des nombres réels, alors αF (x) + βG(x) est une primitive de αf (x) + βg(x). • Si F (x) est une primitive de f (x) et r est un nombre réel non nul, alors 1 r F (rx) est une primitive de f (rx). • Une primitive de f (x) = exp(x) est F (x) = exp(x). • Une primitive de f (x) =
1 x
est F (x) = ln(|x|).
• Si α = −1, une primitive de f (x) = xα est F (x) =
1 α+1 . α+1 x
41
Chapitre 1. Fonctions d’une variable
Notons pour terminer qu’il n’existe pas de formule générale pour calculer la primitive d’un produit de fonctions(5) . L’intégrale entre deux nombres réels a ≤ b d’une fonction f continue sur b l’intervalle [a ; b], notée a f (x) dx, est l’aire située entre les droites verticales aux abscisses a et b, la représentation graphique de f et l’axe des abscisses, en comptant cette aire positivement dans les parties où f est positive et négativement dans les parties ou f est négative (voir la figure 1.17).
f (x)
A C B
0 a
b
Figure 1.17. L’intégrale de f entre a et b est
b a
x
f (x) dx = A − B + C.
Lorsque a > b, on définit a et b comme étant l’opposée de a b l’intégrale entre l’intégrale entre b et a : a f (x) dx = − b f (x) dx. Lorsque I est un intervalle b de bornes a et b avec a < b, on notera parfois I f (x) dx au lieu de a f (x) dx l’intégrale de f sur I. Il est important de noter que la variable x joue un rôle « mub et » dans la notation a f (x) dx : on peut librement la remplacer par une autre variable (par exemple si la variable x joue déjà un rôle par ailleurs !). Rappelons enfin la relation de Chasles : si a < b < c, alors c c b f (x) dx + f (x) dx = f (x) dx. a (5)
b
a
La technique dite d’intégration par parties peut parfois aider pour l’obtention d’une telle primitive, mais nous n’en n’aurons pas besoin dans le cadre de cet ouvrage.
42
1.10. Exercices
La relation essentielle entre intégrale et primitive porte le nom de formule fondamentale du calcul différentiel x et intégral : si f est continue sur un intervalle I et a est dans I, alors F (x) = a f (t) dt est une primitive de f sur I. Autrement dit, x
f (x) = f (a) +
f (t) dt.
a
1.10. Exercices Exercice 1 (Quelques limites simples) Étudier les limites suivantes : x − 1 ; (2) limite en +∞ de f (x) = x3 + 1 − ex ; (1) limite en −3 de f (x) = x+2 (3) limite en 0 de f (x) = x4 exp( x12 ).
Exercice 2 (Une fonction intervenant en cinétique chimique) Nous verrons dans l’exercice 3 du chapitre 8 que, sous certaines hypothèses, la quantité d’un produit intervenant dans une réaction chimique d’ordre 1 est donnée en fonction du temps par P (t) = A + Be−kt , où A, B et k sont des paramètres (dépendant de la réaction et du produit considérés), avec A et k strictement positifs. Étudier cette fonction P (t) sur R, en fonction du signe de B (sens de variation, limites, graphe). Exercice 3 (Étude d’un nombre de larves) Soient A, B, a et b des nombres réels strictement positifs. 1. Étudier la fonction f (t) = Ae−at − Be−bt sur R. 2. Application. Nous verrons au chapitre 8 que, lors d’une invasion, le nombre de larves d’un insecte parasite des cultures, appelé aleurode des serres, s’écrit, en fonction du temps, comme k2 N0 k2 N0 −Kt L(t) = L0 − e−Rt + e , R−K R−K où L0 et N0 désignent le nombre de larves et d’œufs au début de l’invasion (en t = 0), et où k2 , R et K sont des nombres réels positifs dépendant des caractéristiques de l’aleurode (temps de maturation, taux de mortalité, etc.). Étudier la fonction L.
Exercice 4 (Recherche d’un chemin le plus rapide) Une course est organisée pour rallier deux points situés de part et d’autre d’une rivière (voir la figure 1.18). Sachant que je cours à 6 m/s et que je nage à 1 m/s, en quel point A dois-je rentrer dans l’eau pour faire le trajet départ-arrivée le plus rapidement possible ? Dans cet exercice, comme dans tous ceux qui suivent, on prendra soin 43
Chapitre 1. Fonctions d’une variable
de modéliser soigneusement la situation en explicitant la quantité à étudier, les différents paramètres influant sur sa valeur ainsi que leurs relations, pour finalement traduire en termes mathématiques la question posée.
d Arrivée L
Rivière
A
Départ
Figure 1.18. Schéma de la course de l’exercice 4.
Exercice 5 (Recherche du maximum de résistance d’une poutre) On considère un rondin de bois de section circulaire (dont on note le diamètre D) que l’on souhaite tailler pour en faire une poutre de section rectangulaire ayant la plus grande résistance possible (voir la figure 1.19). Les règles de la mécanique affirment que la résistance de la poutre ainsi obtenue est proportionnelle au produit de la largeur et de la superficie de sa section. Déterminer la poutre de résistance maximale que l’on peut tailler dans le rondin.
D
Rondin
Poutre 2
Poutre 1 Figure 1.19. Sections du rondin et deux exemples de poutres de l’exercice 5.
44
Exercices
Les exercices qui suivent ont pour objectif de justifier certains résultats théoriques énoncés sans démonstration dans le chapitre. Il ne s’agit donc pas d’« applications », mais plutôt de « compléments ». Bien que ces exercices permettent de mieux saisir les notions du cours, ils peuvent être omis lors d’une première lecture.
Exercice 6 (Propriétés essentielles de ln et exp) On note G la représentation graphique de la fonction f (x) = x1 sur ]0 ; +∞[. 1. Soit b un nombre réel strictement positif. Montrer que si l’on fait subir à G une dilatation selon l’axe des abscisses d’un facteur b, suivie d’une dilatation selon l’axe des ordonnées d’un facteur 1b , alors G est inchangée. 2. Soit R un rectangle dans le plan. Comment l’aire de R est-elle changée si on lui fait subir l’une ou l’autre des dilatations précédentes ? On admettra par la suite que l’aire de toute partie du plan est modifiée de la même façon sous l’effet de l’une ou l’autre de ces dilatations. 3. Soient a ≥ 1 et b ≥ 1. En considérant ce qu’il advient, lors de ces dilatations, de la partie du plan située sous G entre x = 1 et x = a, déduire de ce qui précède que ln(ab) = ln(a) + ln(b). 4. Soit a ≥ 1. Montrer de manière similaire que ln( a1 ) = − ln(a). 5. Déduire de ce qui précède que la formule ln(ab) = ln(a)+ln(b) est valable pour tous a et b strictement positifs. 6. En déduire que ea+b = ea eb pour tous a et b réels.
Exercice 7 (Fonction ne vérifiant pas le théorème des valeurs intermédiaires) Montrer que la fonction f définie par f (x) = 0 si x < 0 et f (x) = 1 si x ≥ 0 ne vérifie pas le théorème des valeurs intermédiaires sur l’intervalle [−1 ; 1] (on pourra tracer le graphe de f ). Exercice 8 (Exemple de fonction non dérivable en un point) Montrer que la fonction « valeur absolue » f (x) = |x| (définie comme étant égale à −x si x < 0 et à x sinon) n’est pas dérivable en 0. Exercice 9 (Dérivée de l’exponentielle et des fonctions xn ) En utilisant le fait que (ln) (x) = x1 et la règle de dérivation des fonctions composées, montrer que, si la fonction exponentielle est dérivable, alors elle est égale à sa propre dérivée. En déduire les dérivées des fonctions puissances xn , que l’on pourra aussi retrouver directement en utilisant la règle de dérivation des produits. Exercice 10 (Règles de dérivation) Soient f et g des fonctions dérivables sur un intervalle I et x0 dans I. 45
Chapitre 1. Fonctions d’une variable
1. En remarquant que f (x)g(x) − f (x0 )g(x0 ) = (f (x) − f (x0 ))g(x) + f (x0 )(g(x) − g(x0 )), retrouver la formule (f g) (x0 ) = f (x0 )g(x0 ) + f (x0 )g (x0 ). 2. En supposant que g ne s’annule pas sur I et en écrivant g(x0 )−g(x) g(x0 )g(x) ,
1 g(x)
démontrer les expressions connues pour ( 1g ) et pour
1 g(x0 ) ( fg ) .
−
=
Exercice 11 (Graphe d’une bijection réciproque) La figure 1.20 montre que la représentation graphique de la bijection réciproque (quand elle existe) d’une fonction f s’obtient en effectuant une symétrie, par rapport à la droite y = x, de la représentation graphique de f . Expliquer pourquoi.
Graphe de f −1 Droite y = x
f −1 (y) (= x) Graphe de f
f (x) (= y)
y
x
Figure 1.20. Un exemple de représentation graphique d’une fonction et de sa bijection réciproque.
Exercice 12 (Quelques primitives) 1. Quelles sont les primitives de x −→
1 x
et de x −→
2. On considère la fonction f (x) = 46
1 · (x − a)(x − b)
1 x−a
(a réel) ?
Exercices
Écrire cette fonction sous la forme f (x) =
C D + x−a x−b
(avec C et D deux constantes que l’on déterminera), et en déduire une primitive de f . 3. Soit u(x) une fonction strictement positive. Montrer que la fonction (x) . En déduire une primitive de la foncln(u(x)) est une primitive de uu(x) tion 1 · g(x) = x ln x
47
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
2 FONCTIONS DE PLUSIEURS VARIABLES
2.1. Problème : étude thermodynamique d’un gaz Les phénomènes naturels dépendent en général de plusieurs, voire de très nombreux paramètres. Ainsi, la pression de l’atmosphère dépend de l’altitude et de la température, la vitesse d’une réaction chimique est aussi bien fonction de la température que de la quantité des substrats en présence, la population d’une espèce animale fluctue lorsque les différents paramètres qui la contrôlent (mortalité, fécondité...) varient, etc. Il est donc essentiel de savoir étudier des fonctions dont les valeurs dépendent de plusieurs variables. Prenons un exemple. En thermodynamique, il est d’usage de considérer un « système » (qui peut être un solide, un gaz, un ensemble de gaz ou de solides, ou toute autre collection de substances ou d’objets auxquels s’appliquent les lois de la chimie et de la physique) et de lui faire subir des « transformations » (par exemple, des modifications mécaniques, des réactions chimiques, des variations de la température et de la pression, etc.). L’objectif consiste alors à décrire le système une fois la transformation effectuée. Les quantités que l’on souhaite connaître sont l’énergie totale du système ou d’autres quantités similaires décrivant l’état de ce dernier à l’instant final. Ces quantités sont des fonctions des caractéristiques (physiques, chimiques, ...) du système. Par exemple, l’énergie interne U d’une mole(1) d’un gaz dit de Van der Waals (un modèle de gaz souvent utilisé en thermodynamique) est une fonction de la pression P et du volume V du gaz, via la formule : 3 V −b a P (V − b) + a , U (P, V ) = − + V 2 V2 (1)
Rappelons qu’une mole de gaz est un ensemble de 6,02 × 1023 molécules du gaz.
Chapitre 2. Fonctions de plusieurs variables
où a et b sont des constantes positives caractéristiques du gaz. Plusieurs questions se posent alors : quelles sont les variations de l’énergie lors de « petites » transformations du système ? Cette énergie tend-elle à augmenter ou à diminuer ? Pour quelles valeurs de la pression et du volume est-elle minimale ? Et enfin, si le gaz subit une transformation, les lois de la physique prédisent une modification de son énergie, mais comment calculer ses variations au cours de la transformation ? Ce chapitre a pour objectif de présenter l’outillage nécessaire pour répondre à ces questions. Les deux paragraphes suivants (intitulés, respectivement, « Définitions générales » et « Dérivées partielles ») doivent être considérés comme faisant partie d’un programme de première année universitaire, et peuvent donc être abordés lors d’une première lecture. En revanche, la seconde partie du chapitre, qui s’ouvre avec le paragraphe « Intégration le long d’un chemin », décrit des outils mathématiques d’un niveau un peu plus élevé et peut éventuellement être laissée de côté dans un premier temps.
2.2. Définitions générales 2.2.1. Préliminaire : l’espace à n dimensions Les fonctions que nous allons rencontrer dans ce chapitre dépendent de plusieurs variables, c’est-à-dire de plusieurs nombres réels, notés par exemple x1 , x2 , . . . , xn . Une première question se pose alors immédiatement à nous : comment représenter graphiquement de telles fonctions ? Nous savons bien qu’une façon efficace de visualiser deux nombres réels consiste à les considérer comme l’abscisse et l’ordonnée d’un point du plan. De manière strictement analogue, trois nombres réels (x, y, z) peuvent être appréhendés comme les coordonnées d’un point dans l’espace. Et n nombres réels ne sont rien d’autre que les coordonnées d’un point dans un espace à n dimensions ! Parler (et a fortiori étudier) des fonctions de plusieurs variables nécessite donc de s’arrêter quelques instants sur de tels espaces. Afin de les manipuler facilement, accordons-nous tout d’abord sur la définition suivante : L’espace Rn est l’ensemble des points décrits par n coordonnées (x1 , . . . , xn ), chacune de ces coordonnées étant un nombre réel. Nous encourageons le lecteur à se faire une image dans les cas particuliers n = 2 (plan) ou n = 3 (espace) des situations plus générales que nous décrirons à l’aide de Rn . On peut voir par exemple dans la figure 2.1 la manière dont on relie un point de l’espace à ses trois coordonnées. Lorsque l’on étudie des fonctions d’une seule variable, il est fréquent de s’intéresser aux valeurs de cette fonction sur un intervalle [a ; b], ce qui signifie que l’on 50
2.2. Définitions générales
z
O
A = (x, y, z)
y
x
Figure 2.1. Un point dans R3 .
étudie f entre a et b. Dans le cas de plusieurs variables, les points se situent dans Rn , et « aller de a à b » n’admet plus une interprétation aussi évidente. Y va-t-on en ligne droite ? Mais qu’est-ce qu’une ligne droite ? Et pourquoi ne pas passer ailleurs ? Une étude efficace de l’espace à n dimensions impose donc de disposer d’une notion de chemin dans l’espace. Une courbe continue, ou un chemin continu, dans Rn est une collection de n fonctions continues γ1 (t), γ2 (t), . . . , γn (t) à valeurs dans R, dont les ensembles de définition sont un même intervalle I de R. On notera γ(t) = (γ1 (t), γ2 (t), . . . , γn (t)). Une bonne façon d’appréhender une courbe est la suivante : la variable t figure le temps et les valeurs (γ1 (t), . . . , γn (t)) fournissent, à chaque instant t, les coordonnées d’un point γ(t) de Rn . Lorsque le temps s’écoule, on peut imaginer ce point comme une particule en mouvement dans l’espace et qui parcourt la courbe. Cette interprétation (qu’un physicien qualifierait de « cinématique ») est très utile en pratique car elle permet de décrire de manière imagée bon nombre d’objets mathématiques. Le graphe d’une fonction f d’une seule variable, vu comme γ(t) = (t, f (t)), est un exemple de courbe dans le plan. Nous avons souligné au paragraphe 1.6 le 51
Chapitre 2. Fonctions de plusieurs variables
lien entre pente de la tangente et dérivée : le vecteur de coordonnées (1, f (t)) est un vecteur directeur de la tangente. En outre, ses coordonnées sont exactement les dérivées des coordonnées de la courbe γ(t) = (t, f (t)). L’interprétation cinématique ci-dessus permet assez naturellement de généraliser cette notion au cas des courbes qui ne sont pas forcément des représentations graphiques de fonctions d’une variable, ou même à des courbes qui ne sont pas nécessairement dessinées dans un plan : le vecteur tangent en un point de la courbe est le vecteur vitesse de la particule à l’instant où elle passe en ce point. Autrement dit : Soit une courbe continue γ définie par γ1 (t), . . . , γn (t). Si toutes les fonctions γ1 (t), . . . , γn (t) sont dérivables en t = t0 , le vecteur tangent à la courbe au point γ(t0 ) est, par définition, le vecteur de coordonnées (γ1 (t0 ), . . . , γn (t0 )). On dit alors que la courbe est dérivable en t = t0 . Pour plus de lisibilité, on représente souvent graphiquement le vecteur tangent γ (t0 ) comme un vecteur issu du point γ(t0 ) et non pas comme un vecteur issu de l’origine des coordonnées. Autrement dit, on translate le vecteur dont les coordonnées sont (γ1 (t0 ), . . . , γn (t0 )) de telle sorte qu’il ait pour origine le point γ(t0 ) sur la courbe (voir la figure 2.2).
2.2.2. Fonctions de plusieurs variables Une fonction de n variables est une fonction f qui associe à n nombres réels (x1 , . . . , xn ), situés dans son ensemble de définition Df , un nombre réel f (x1 , . . . , xn ). Autrement dit : une fonction de n variables est une fonction f qui associe à un point x = (x1 , . . . , xn ) de Rn situé dans son ensemble de définition, le nombre réel f (x) = f (x1 , . . . , xn ). Rappelons que nous utilisons la notation x = (x1 , . . . , xn ) −→ f (x1 , . . . , xn ) pour représenter une fonction f , qui indique clairement que la fonction f associe à chaque point x = (x1 , . . . , xn ) de Rn un réel f (x) = f (x1 , . . . , xn ). Cette définition des fonctions de plusieurs variables est donc entièrement analogue à celle donnée 52
2.2. Définitions générales
γ(t0 ) = (γ1 (t0 ), γ2 (t0 ), γ3 (t0 ))
O γ (t0 ) = (γ1 (t0 ), γ2 (t0 ), γ3 (t0 ))
Figure 2.2. Une courbe dans l’espace et un vecteur tangent (représenté deux fois : à partir de l’origine du repère, et à partir du point γ(t0 ) où il est tangent à la courbe).
pour les fonctions d’une seule variable. La seule différence notable réside dans l’ensemble de définition, qui est maintenant une partie de Rn , et dans la manière d’associer une valeur à chaque point de cet ensemble : au lieu de formules faisant intervenir un réel x (ou t, ou N , ...), nous rencontrerons désormais, le cas échéant, des fonctions définies par des formules faisant intervenir P , V et T , ou x1 , . . . , xn , ou tout autre ensemble de réels du même type.
Exemple 1. La fonction (x, y, z) −→ log(x2 + y 2 + z 2 ) est une fonction de trois variables dont le domaine de définition naturel est l’espace privé de l’origine (pourquoi ?). Un autre exemple est l’énergie interne d’un gaz de Van der Waals 3 V −b a P (V − b) + a U (P, V ) = − + V 2 V2 qui est une fonction des deux variables (P, V ). Un domaine de définition possible pour la fonction U est le plan privé de l’axe des abscisses (où V = 0), mais un physicien préférera souvent travailler avec le quart de plan DU = {P > 0, V > 0}(2) car les points où la pression ou le volume sont négatifs n’ont aucune signification physique. (2)
... voire avec {P > 0, V > b} quand on interprète b comme le volume libre.
53
Chapitre 2. Fonctions de plusieurs variables
2.2.3. Représentations graphiques, surfaces-graphe Comment représenter une fonction de plusieurs variables ? Pour une fonction f d’une seule variable, nous disposions de la très utile représentation graphique, définie, rappelons-le, comme l’ensemble des points du plan dont les coordonnées sont de la forme (x, y) avec y = f (x) et x dans Df . Autrement dit, la représentation graphique d’une fonction d’une variable est une partie du plan. Si nous essayons maintenant de mimer cette définition dans le but de définir une « représentation graphique » d’une fonction de n variables, nous constatons qu’il est nécessaire de considérer un espace défini par n + 1 coordonnées : La représentation graphique d’une fonction de n variables est la partie de Rn+1 formée des points (x1 , . . . , xn , xn+1 ) tels que xn+1 = f (x1 , . . . , xn ) et (x1 , . . . , xn ) parcourt Df . On l’aura compris, la nécessité de passer à des espaces de grande dimension complique singulièrement l’étude des fonctions de plusieurs variables, et dessiner une représentation graphique n’est possible que dans le cas d’une fonction f (x, y) de deux variables. Dans ce dernier cas, on obtient alors ce que nous appellerons une surface-graphe : il s’agit de la partie de l’espace R3 formée des points (x, y, z) tels que z = f (x, y). Pour tracer une surface-graphe, il convient d’abord de représenter dans le plan horizontal {z = 0} le domaine de définition de la fonction f . On place ensuite au-dessus de chaque point (x, y) de ce domaine de définition (vu dans le plan horizontal) le point à l’altitude f (x, y), c’est-à-dire le point de coordonnées (x, y, f (x, y)). La surface-graphe de f est alors formée par la réunion de tous ces points (voir par exemple la figure 2.3).
Exemple 2. La figure 2.4 représente la surface-graphe de la fonction de deux variables donnant l’énergie interne d’une mole d’hélium lorsque l’on applique la loi de Van der Waals a 3 V −b U (P, V ) = − + P (V − b) + a V 2 V2 (a = 3,45 kPa.dm6 et b = 0,0237 dm3 pour une mole d’hélium). Cette surface donne déjà un certain nombre d’idées sur les propriétés de la fonction U . Nous aurons l’occasion d’en voir d’autres plus loin. Il n’est pas difficile de constater que, même dans le cas plus simple de deux variables, une surface-graphe n’est jamais réellement facile à représenter. Il existe toutefois plusieurs moyens permettant de simplifier une telle opération (lignes de niveau, coupes, etc.) qui sont étudiés en détail dans les exercices. 54
2.2. Définitions générales
z = f (x, y)
0
x
0.2
y 1 1.2
Df Figure 2.3. Surface-graphe de la fonction ayant pour domaine Df , l’ensemble des points (x, y) tels que 0 ≤ x ≤ 1 et 0, 2 ≤ y ≤ 1, 2, et pour expression f (x, y) = 2(0, 7 − y)(1 − x)2 + 2.
2.2.4. Fonctions partielles Compte tenu de la difficulté à représenter un graphe multidimensionnel, l’étude d’une fonction de n variables repose en fait le plus souvent sur des outils alternatifs. Afin d’illustrer notre propos, considérons une fonction de n variables f (x1 , . . . , xn ) définie sur une partie U de Rn . Une bonne façon de ramener l’étude de f à celle d’une fonction d’une seule variable consiste à geler la valeur de n − 1 variables et à ne s’autoriser à n’en faire varier qu’une seule. Cela conduit à la définition suivante : Une fonction partielle de f (x1 , . . . , xn ) est une fonction du type t −→ f (p1 , . . . , pi−1 , t, pi+1 , . . . , pn ), où les nombres réels p1 , p2 , . . . , pi−1 , pi+1 , . . . , pn ont des valeurs fixées. 55
Chapitre 2. Fonctions de plusieurs variables
U
35 30 25 20 15 10 5
P 10 8
2 6
V
1.5 4
1 2
0.5 0
0
Figure 2.4. Surface-graphe de la fonction énergie interne d’un gaz de Van der Waals.
Ainsi, partant d’une fonction f de n variables, si l’on se donne n réels p1 , . . . , p2 , . . . , pn , on peut former n fonctions partielles différentes, suivant la position de la variable laissée libre. Par exemple, pour une fonction de trois variables f (x, y, z), en choisissant trois nombres a, b et c, on peut fixer à chaque fois la valeur de deux des trois variables et obtenir s −→ f (s, b, c),
t −→ f (a, t, c)
et u −→ f (a, b, u).
Bien évidemment, changer les valeurs de a, de b ou de c conduit à des fonctions partielles différentes. Quel est le domaine de définition d’une fonction partielle ? Dans l’espace Rn , l’ensemble des points de la forme (p1 , . . . , pi−1 , t, pi+1 , . . . , pn ) (où seule la valeur de t a le droit de varier) est une droite, qui est de plus parallèle à l’un des axes de coordonnées (en l’occurrence le i-ème). L’ensemble de définition de la fonction partielle t −→ f (p1 , . . . , pi−1 , t, pi+1 , . . . , pn ) 56
2.3. Dérivées partielles
apparaît donc ainsi comme l’intersection de cette droite avec le domaine de définition de f . Il est donc clair qu’il faut utiliser un très grand nombre de valeurs pour les pi (autrement dit, l’intersection du domaine de définition de f avec un grand nombre de droites) afin d’obtenir une idée fiable de ce qu’est réellement la fonction de n variables f . Il n’en demeure pas moins que l’étude des fonctions partielles est un outil essentiel de la théorie des fonctions de plusieurs variables. En particulier, les représentations graphiques des fonctions partielles sont intimement reliées à la représentation graphique de la fonction de n variables d’origine – ce point est abondamment commenté dans les exercices.
Exemple 3. Considérons à nouveau la fonction de deux variables f (x, y) = −yx2 − y, dont l’ensemble de définition est le plan. Dans un premier temps, on peut geler la valeur de x et ne faire varier que y. Par exemple, si l’on fixe x = 2, on obtient la fonction partielle y −→ f (2, y) = −5y. Si l’on fixe x = 0, la fonction partielle devient y −→ f (0, y) = −y, et si x = −2, on obtient encore une fois y −→ −5y. Fixons maintenant une valeur pour y et laissons x varier. Commençons par y = 2. La fonction partielle s’écrit alors x −→ f (x, 2) = 2x2 + 2. Pour y = 0, il s’agit de la fonction nulle, tandis que pour y = −2 on trouve x −→ f (x, −2) = −2x2 − 2. Ces quelques remarques donnent une idée un peu plus précise de la fonction. Elles permettent en fait de construire ou retrouver assez facilement le graphe de f , comme on peut le voir dans l’exercice 1 de ce chapitre.
2.3. Dérivées partielles 2.3.1. Définition La dérivée d’une fonction d’une seule variable est un outil essentiel dans l’étude des variations de la fonction (voir à ce sujet le chapitre 1). Qu’en est-il pour les fonctions de plusieurs variables ? Nous avons vu comment ramener (une partie de) l’étude d’une fonction de n variables f (x1 , . . . , xn ) à l’étude de plusieurs fonctions d’une seule variable. Rappelons que ces fonctions d’une seule variable, dites fonctions partielles, sont obtenues en figeant la valeur de (n − 1) variables et en 57
Chapitre 2. Fonctions de plusieurs variables
laissant la dernière libre. Il devient alors tentant d’étudier chacune de ces fonctions partielles avec les outils habituels pour les fonctions d’une seule variable. Cela nous amène à la définition suivante : On appelle i-ème dérivée partielle de f en p = (p1 , . . . , pn ) la dérivée en t = pi de la i-ème fonction partielle t −→ f (p1 , . . . , pi−1 , t, pi+1 , . . . , pn ) lorsque cette dérivée existe, c’est-à-dire si cette fonction partielle est dérivable. Sa valeur est notée ∂f ∂f (p) ou (p1 , . . . , pn ). ∂xi ∂xi
Exemple 4. Considérons à nouveau la fonction f (x, y) = −yx2 − y et choisissons un point (x0 , y0 ) dans le plan. Pour calculer les dérivées partielles de f en ce point, il faut considérer les deux fonctions partielles x −→ f (x, y0 ) = −y0 (x2 + 1) et y −→ f (x0 , y) = −(x20 + 1)y, qui sont toutes les deux dérivables en tout point de R. Leurs dérivées respectives sont x −→ −2y0 x et y −→ −(x20 + 1) (insistons bien sur le fait que, dans le premier cas, y0 doit être traité comme une constante, tandis que c’est x0 qui est une constante dans le second), de sorte que ∂f (x0 , y0 ) = −2x0 y0 ∂x
et
∂f (x0 , y0 ) = −x20 − 1. ∂y
Les dérivées partielles d’une fonction f de n variables forment donc une nouvelle collection de n fonctions de n variables. Dans les cas particuliers n = 2 ou 3, et lorsque les coordonnées sont notées x, y, z, etc., on notera plutôt ces dérivées ∂f ∂f partielles ∂f ∂x , ∂y , ∂z , etc.
Exemple 5. En poursuivant l’exemple précédent, nous obtenons deux nouvelles fonctions de deux variables : ∂f (x, y) = 2xy ∂x
58
et
∂f (x, y) = x2 + 1. ∂y
2.3. Dérivées partielles
2.3.2. Variations et extrema Les dérivées partielles, qui sont les dérivées des fonctions partielles, donnent des indications sur les variations de ces dernières. En outre, comme nous l’avons déjà souligné, les fonctions partielles donnent elles-mêmes des informations sur la fonction de plusieurs variables que l’on considère. Il est donc naturel d’espérer que les dérivées partielles fournissent des renseignements sur la fonction de plusieurs variables en question, lorsque l’on gèle (n − 1) de ses variables. Ainsi, par exemple, pour une fonction de deux variables, l’information ∂f (x0 , y0 ) > 0 ∂x permet de savoir que la valeur de la fonction f va augmenter si l’on passe du point (x0 , y0 ) à un point voisin (x0 + h, y0 ) (bien remarquer que la seconde coordonnée ne change pas !). Malheureusement, ce ne sont là que des indications partielles (comme leur nom l’indique) sur le comportement de la fonction f . En particulier, ces indications ne sont pas reliées à une croissance ou décroissance globale de f , car parler de croissance n’a aucun sens pour une fonction de plusieurs variables. De fait, la liberté de mouvement dans Rn (par exemple dans R2 ) est bien plus grande que dans R. Dans R, si l’on s’intéresse au comportement d’une fonction x −→ f (x) au voisinage d’un point x0 , cela a un sens de dire que les valeurs de f augmentent quand x lui-même augmente. En revanche, dans R2 , on peut s’éloigner de (x0 , y0 ) de bien des façons : en augmentant à la fois x et y, en augmentant l’un mais pas l’autre, en augmentant les deux mais éventuellement à des vitesses différentes... et le comportement de f peut être très différent dans chacun de ces cas (voir l’exemple ci-dessous). Il est donc important de retenir que les dérivées partielles ne donnent des informations que sur les variations des fonctions partielles associées à f .
Exemple 6. Les dérivées partielles de l’énergie du gaz de Van der Waals U (P, V ) = − Va + 32 P (V − b) + a VV−b sont 2 ∂U (P0 , V0 ) = ∂P ∂U (P0 , V0 ) = ∂V
3 (V0 − b), et 2 a 3 a V0 − b a 3 1 P0 + 2 − 2a + = P0 + 3 3b − V0 . 2 2 V02 2 V0 V03 V0
Ainsi, si V0 est strictement plus grand que b, on voit que ∂U ∂P (P0 , V0 ) est strictement positif, ce qui signifie que l’énergie augmente lorsque la pression, initialement égale à P0 , augmente tandis que le volume reste constant. Si b < V0 < 6b, la dérivée 59
Chapitre 2. Fonctions de plusieurs variables ∂U partielle ∂V (P0 , V0 ) est également strictement positive et l’énergie augmente donc aussi lorsque le volume, initialement égal à V0 , augmente tandis que la pression ∂U (P0 , V0 ) est un peu plus reste constante. Lorsque V0 ≥ 6b, l’étude du signe de ∂V délicate, mais cependant possible (elle se ramène en fait à l’étude d’un polynôme de degré 3 en V0 , dont on peut étudier le signe à l’aide de son tableau de variation), et dépend assez sensiblement des valeurs exactes de a, b et P0 : pour certaines ∂U (P0 , V0 ) est négatif, ce qui indique que de ces valeurs et certains choix de V0 , ∂V l’énergie interne diminue lorsque le volume, initialement égal à V0 , augmente tandis que la pression reste constante. À ce stade, il nous est impossible de conclure quoi que ce soit quant au comportement de l’énergie lorsque pression et volume varient simultanément.
Si elles ne permettent pas d’appréhender de façon globale les variations d’une fonction de plusieurs variables, les dérivées partielles permettent en revanche de localiser leurs extrema, d’une manière similaire à ce que nous avons vu pour les fonctions d’une variable. Si f atteint sa plus grande (ou plus petite) valeur en un point p = (p1 , . . . , pn ) intérieur à Df , et si f admet des dérivées partielles en ce point, alors toutes les dérivées partielles de f s’annulent en ce point : ∂f ∂f ∂f (p) = (p) = . . . = (p) = 0. ∂x1 ∂x2 ∂xn L’intérieur est l’ensemble des points du domaine de définition qui sont entourés par ce dernier de tous les côtés : quelle que soit la direction dans laquelle on s’échappe en partant d’un point de l’intérieur, on reste toujours un moment dans le domaine de définition. Dans la plupart des cas, cette définition correspond à la notion intuitive d’intérieur que tout un chacun possède. Le résultat ci-dessus est une conséquence immédiate de ce que nous connaissons pour les fonctions d’une variable. En effet, si p = (p1 , . . . , pn ) est un maximum ou un minimum d’une fonction de n variables f (x1 , . . . , xn ), alors pi est un maximum (ou un minimum) sur un intervalle autour de pi de la fonction partielle t −→ f (p1 , . . . , pi−1 , t, pi+1 , . . . , pn ). La dérivée de cette dernière fonction, si elle existe, doit donc être nulle en t = pi ... mais cette dérivée n’est autre que la i-ème dérivée partielle de f en p = (p1 , . . . , pn ). Un point p tel que de f . 60
∂f ∂x1 (p)
=
∂f ∂x2 (p)
= ... =
∂f ∂xn (p)
= 0 s’appelle point critique
2.3. Dérivées partielles
Les extrema d’une fonction de plusieurs variables sont donc toujours à rechercher parmi 1) les points critiques à l’intérieur du domaine de définition, 2) les points où la fonction n’admet pas de dérivées partielles, et 3) bien entendu, les points du bord du domaine de définition. Comme dans le cas à une variable, on n’oubliera pas qu’un point critique p peut de plus correspondre à un minimum, à un maximum, mais aussi à un point où les dérivées partielles s’annulent sans qu’il ne s’agisse pour autant d’un minimum ou d’un maximum (penser à la fonction f (x, y) = x2 − y 2 ...).
Exemple 7. L’état d’un système est stable si son énergie est minimale. Il est donc intéressant de mettre en évidence les combinaisons de volume et de pression qui donnent à l’énergie du gaz de Van der Waals une valeur minimale. Cherchons, dans un premier temps, les points critiques intérieurs de la fonction a 3 V −b , U (P, V ) = − + P (V − b) + a V 2 V2 dont le domaine de définition naturel (pour la physique !) est le quart de plan {P > 0, V > 0}. Les points (P0 , V0 ) où les dérivées partielles de l’énergie s’annulent simultanément sont les points tels que ∂U (P0 , V0 ) = ∂P ∂U (P0 , V0 ) = 0= ∂V 0=
3 (V0 − b), et 2 a 3 a V0 − b P0 + 2 − 2a + . V02 2 V0 V03
La première dérivée partielle peut s’annuler (en V0 = b), mais si l’on injecte V0 = b dans l’expression de la seconde, on trouve ∂U a 3 a (P0 , b) = 2 + P0 + 2 , ∂V b 2 b qui est toujours strictement positif. Il n’y a donc pas de point critique intérieur. Cette observation n’a rien de surprenant si l’on réfléchit au contexte physique : l’énergie est en effet d’autant plus faible que la pression est faible et que le volume est grand (de fait, on constate que, dans l’expression de U , les termes ayant le volume V au dénominateur tendent vers 0 si V tend vers l’infini). On ne peut donc atteindre un minimum de l’énergie qu’en contraignant, par exemple, le gaz à demeurer dans une région fixée de l’espace (concrètement, un récipient). Mathématiquement, cela correspond à prendre un domaine de définition plus petit que le quart de plan (par exemple en imposant que 0 < V < Vmax ). Dans ce cas, notre étude montre que le minimum sera forcément atteint au bord de ce nouveau domaine de définition. 61
Chapitre 2. Fonctions de plusieurs variables
Pour être exhaustif, signalons enfin que tous ces calculs ne rendent pas vraiment compte de la réalité, car pression et volume sont en fait liés par une relation supplémentaire, dite équation d’état, qui fait également intervenir la température, et dont il faudrait aussi tenir compte si l’on souhaite déterminer les points où l’énergie est minimale.
2.3.3. Notation différentielle et formes différentielles Il est souvent commode de regrouper toutes les dérivées partielles dans l’écriture suivante : La différentielle de f en un point p = (p1 , . . . , pn ) où f admet des dérivées partielles est l’expression : dfp = df(p1,...,pn) =
∂f ∂f (p1 , . . . , pn )dx1 + . . . + (p1 , . . . , pn )dxn . ∂x1 ∂xn
Nous envisagerons dans cet ouvrage les dx1 , . . . , dxn comme de simples notations (3) , en retenant donc simplement que la fonction qui précède dxi dans cette expression est la i-ème dérivée partielle de f . La notation différentielle permet donc simplement de rassembler toutes les dérivées partielles en une expression compacte.
Exemple 8. La différentielle de f (x, y) = x(x2 +y) est df(x,y) = (3x2 +y) dx+x dy. Comme le montre cet exemple, il est important de ne pas confondre le point de calcul, souvent noté (x, y) – c’est-à-dire l’endroit où l’on dérive – avec les notations dx et dy, ou avec les notations ∂x, ∂y apparaissant dans les dérivées partielles.
Exemple 9. La différentielle de l’énergie du gaz de Van der Waals est dU(P,V )
3 = (V − b) dP + 2
3 a P+ 3 2 V
1 3b − V 2
dV.
La notation différentielle est un outil utile et puissant pour l’étude des fonctions de plusieurs variables. Nous aurons par la suite besoin d’une notion un peu plus générale : (3)
Ces notations sont en fait plus profondes, mais une interprétation plus précise dépasserait largement le cadre de ce manuel.
62
2.3. Dérivées partielles
Une forme différentielle est une expression de la forme α = a1 dx1 + . . . + an dxn , où les a1 , . . . , an sont des fonctions de n variables. La valeur de α en (x1 , . . . , xn ) est α(x1 ,...,xn ) = a1 (x1 , . . . , xn ) dx1 + . . . + an (x1 , . . . , xn ) dxn . Ici encore, nous n’envisagerons les dx1 , . . . , dxn que comme de simples notations. Le vocabulaire est donc à manier avec précaution, car il est trompeur : une différentielle est la différentielle d’une fonction, alors qu’une forme différentielle est simplement une expression du type a1 dx1 + . . . + an dxn . L’intérêt des formes différentielles (et de la notation différentielle) résidera, pour nous, dans leur facilité de manipulation, qui s’effectue exactement comme pour les fonctions (en utilisant des factorisations, des développements, etc.). On peut ainsi additionner deux formes différentielles : si α = a1 dx1 +. . .+an dxn et β = b1 dx1 +. . .+bn dxn , alors α + β = (a1 + b1 )dx1 + . . . + (an + bn )dxn . De même, on peut multiplier une forme différentielle α par une fonction f de n variables : f α = (f a1 )dx1 + . . . + (f an )dxn . Ces règles permettent de facilement calculer des différentielles de fonctions, comme illustré dans l’encadré ci-dessous : Si f et g sont des fonctions de plusieurs variables dont les dérivées partielles existent et si c est une constante, alors d(f + g) = df + dg, d(f g) = f dg + g df,
d(cf ) = c df, 1 f f = df − 2 dg. d g g g
Ces résultats s’obtiennent directement à partir des règles de dérivation d’une somme, d’un produit, etc.
Exemple 10. Supposons que l’on ait à calculer les dérivées partielles de la fonction 2
f (x, y) = e−x ln(2x + y). 2
Cette fonction est le produit de g(x, y) = e−x et de h(x, y) = ln(2x + y). On calcule facilement
2 2 dg = −2xe−x dx + 0 dy = −2xe−x dx, 1 (dx + dy). dh = 2x+y 63
Chapitre 2. Fonctions de plusieurs variables
On en déduit ainsi, en utilisant df = h dg + g dh et l’addition des formes différentielles, 2
df = −2xe−x ln(2x + y) dx + e−x soit finalement −x2
df = e
2
1 (dx + dy), 2x + y
1 1 − 2x ln(2x + y) dx + dy . 2x + y 2x + y
Terminons par une mise en garde supplémentaire concernant la terminologie : nous verrons au paragraphe 2.5 que certaines formes différentielles ne sont pas des différentielles de fonctions. En particulier, le produit f dh d’une différentielle dh par une fonction f n’est pas forcément une différentielle de fonction (voir l’exemple 14).
2.3.4. Dérivée directionnelle et fonctions composées La i-ème dérivée partielle d’une fonction de n variables donne des indications sur les variations de la i-ème fonction partielle, c’est-à-dire sur les variations de la fonction lorsque l’on s’éloigne d’un point dans la direction du i-ème vecteur du repère usuel de Rn . Lorsque l’on s’éloigne le long d’un vecteur arbitraire (pas nécessairement parallèle à l’un des axes des coordonnées), les dérivées partielles doivent être remplacées par la notion qui suit : La dérivée directionnelle d’une fonction f en un point p suivant un vecteur v = (v1 , . . . , vn ) est la dérivée en t = 0 (si elle existe) de la fonction d’une variable t −→ f (p + tv ) = f (p1 + tv1 , . . . , pn + tvn ). Bien entendu, la i-ème dérivée partielle de f en un point coïncide avec la dérivée directionnelle de f dans la direction du i-ème vecteur du repère. Les dérivées partielles permettent (la plupart du temps) de calculer toutes les dérivées directionnelles. Considérons par exemple le cas d’une fonction de deux variables dont on souhaite calculer la dérivée directionnelle suivant un vecteur v = (v1 , v2 ). En revenant à la définition de la dérivée, on cherche donc à calculer la limite lorsque t → 0 de f (p1 + tv1 , p2 + tv2 ) − f (p1 , p2 ) , t que l’on peut écrire comme v1 64
f (p1 + tv1 , p2 + tv2 ) − f (p1 , p2 + tv2 ) f (p1 , p2 + tv2 ) − f (p1 , p2 ) + v2 . tv1 tv2
2.3. Dérivées partielles ∂f ∂x2 (p1 , p2 ) lorsque t tend vers 0. Quant au premier, que (p1 ,p2 +tv2 ) l’on peut aussi écrire f (p1 +t ,p2+tv2t)−f (changement de variable t = tv2 ), ∂f (p1 , p2 ) si ce n’est il ressemble beaucoup, lorsque t → 0, à la dérivée partielle ∂x 1 que... la seconde variable vaut p2 + tv2 et n’est donc pas figée lorsque t → 0, c’est-à-dire lorsque t → 0. Cependant cette variable se rapproche de p2 , et il ne
Le second terme tend vers
paraît donc pas déraisonnable d’admettre (ce que nous ferons ici) que le premier ∂f (p1 , p2 ), ce qui conduit au final à la valeur suivante pour terme tend bien vers ∂x 1 la dérivée directionnelle cherchée : ∂f ∂f (v1 , v2 )v1 + (v1 , v2 )v2 . ∂x1 ∂x2 De fait, ce raisonnement est correct si les dérivées partielles de f sont continues. Nous ne préciserons pas plus avant la continuité des fonctions de plusieurs variables(4) . En pratique, toutes les fonctions que nous manipulerons seront obtenues à partir des fonctions usuelles à l’aide des quatre opérations et de la composition, et les théorèmes énoncés dans le paragraphe 1.5 du chapitre 1 restent valables, mutatis mutandis. En conclusion, on retiendra que : Si les dérivées partielles de f existent en p = (p1 , . . . , pn ) et si elles sont continues, la dérivée de f en p dans la direction de v = (v1 , . . . , vn ) vaut dfp (v ) =
∂f ∂f (p1 , . . . , pn )v1 + . . . + (p1 , . . . , pn )vn . ∂x1 ∂xn
Le lecteur sera bien attentif à la notation de la dérivée de f en p dans la direction de v : dfp (v ). On place en indice le point p où l’on dérive (c’est-à-dire le point où l’on calcule les dérivées partielles), tandis que le vecteur dans la direction duquel on dérive est indiqué entre parenthèses. En regardant attentivement l’expression de dfp (v ) en fonction des coordonnées (v1 , . . . , vn ) du vecteur v , un sens possible se dégage pour les dxi qui apparaissaient dans l’expression de df : ils peuvent en effet être compris comme des conventions d’écriture commodes pour le calcul des dérivées directionnelles(5) , qui indiquent juste l’endroit où placer les différentes composantes du vecteur directionnel. La notation peut d’ailleurs être généralisée. Ainsi, pour une forme différentielle ω = a1 dx1 + . . . + an dxn , un point p = (p1 , . . . , pn ) et un vecteur v = (v1 , . . . , vn ), on peut définir ωp (v ) = a1 (p1 , . . . , pn )v1 + . . . + an (p1 , . . . , pn )vn . (4) (5)
Ce sujet peut assez vite devenir délicat. En fait, c’est beaucoup plus profond...
65
Chapitre 2. Fonctions de plusieurs variables
Ce type d’écriture sera abondamment utilisé au paragraphe suivant. La notion de dérivée directionnelle est utile pour le calcul de la dérivée d’une fonction composée : (Formule de dérivation des fonctions composées) Si les dérivées partielles de f existent et sont continues, et si γ est une courbe dérivable et tracée dans le domaine de définition de f , alors la fonction d’une variable h(t) = f (γ(t)) = f (γ1 (t), . . . , γn (t)) est dérivable et sa dérivée a pour expression h (t) = dfγ(t) (γ (t)). Cette formule, dont la preuve est similaire à celle de la formule de calcul des dérivées directionnelles, souligne l’intérêt qu’il y a à interpréter la dérivée γ (t) de γ comme un vecteur (le vecteur tangent à la courbe) dont les coordonnées sont les dérivées au point t des coordonnées de γ.
2.3.5. Dérivées d’ordre supérieur Les dérivées partielles d’une fonction de plusieurs variables sont elles-mêmes des fonctions de plusieurs variables, qui peuvent donc aussi admettre des dérivées partielles. Considérons, par exemple, une fonction f de deux variables. Les dérivées ∂f partielles de f définissent deux fonctions (x, y) −→ ∂f ∂x (x, y) et (x, y) −→ ∂y (x, y), que nous pouvons re-dériver pour obtenir ∂f ∂f ∂f ∂ ∂ ∂ ∂ ∂f ∂x ∂x ∂y ∂y (x, y) , (x, y) , (x, y) , et (x, y). ∂x ∂y ∂x ∂y On emploie respectivement les notations suivantes pour ces quatre nouvelles fonctions, que l’on appelle dérivées d’ordre 2 de f : ∂2f (x, y) , ∂x2
∂2f (x, y) , ∂x∂y
∂2f (x, y) , ∂y∂x
et
∂2f (x, y) ∂y 2
(noter le ∂ 2 qui indique que l’on dérive deux fois f , et les ∂x2 et ∂y 2 utilisés là où l’on attendrait plutôt ∂x∂x et ∂y∂y : ces « 2 » ne sont que des notations et n’ont rien à voir avec une quantité élevée au carré). Le théorème dit des dérivées croisées ou « théorème de Schwarz », dont la preuve dépasse les objectifs de cet ouvrage, montre que, lorsque toutes les dérivées concernées sont continues, on a ∂2f ∂2f (x, y) = (x, y). ∂y∂x ∂x∂y 66
2.4. Intégration le long d’un chemin
Autrement dit, peu importe l’ordre dans lequel on dérive (x avant y ou l’inverse), on aboutit toujours au même résultat.
Exemple 11. Calculons les dérivées d’ordre 2 de f (x, y) = x + xy + yex . On doit x d’abord calculer les dérivées partielles d’ordre 1, à savoir ∂f ∂x (x, y) = 1 + y + ye ∂f x et ∂y (x, y) = x + e . Il suffit ensuite de calculer les dérivées partielles de ces fonctions, et l’on trouve : ∂2f ∂(1 + y + yex ) (x, y) = yex , (x, y) = ∂x2 ∂x ∂(1 + y + yex ) ∂2f (x, y) = (x, y) = 1 + ex , ∂x∂y ∂y ∂(x + ex ) ∂2f (x, y) = (x, y) = 1 + ex , ∂y∂x ∂x ∂(x + ex ) ∂2f (x, y) = 0. (x, y) = ∂y 2 ∂x On constate sur cet exemple que l’on a bien
∂2f ∂y∂x (x, y)
=
∂2f ∂x∂y (x, y).
Cette belle mécanique se généralise sans problème au cas des fonctions de plus de deux variables : on définit alors, pour chaque indice i et j entre 1 et n, la dérivée d’ordre 2 ∂2f (x1 , . . . , xn ), ∂xi ∂xj c’est-à-dire la dérivée par rapport à xj de la fonction
∂f ∂xi ,
qui est aussi égale
d’après le théorème des dérivées croisées à la dérivée par rapport à xi de ∂2f
∂f ∂xj .
Lorsque i = j, on note bien sûr ∂x2 . i Rien n’empêche de continuer à dériver ces nouvelles fonctions de plusieurs variables et d’obtenir ainsi les dérivées d’ordre trois, quatre, etc. de f .
2.4. Intégration le long d’un chemin Si nous connaissons la valeur de f en un point a ainsi que ses dérivées partielles en tout point du domaine de définition, pouvons-nous en déduire la valeur de f en un autre point b ? Lorsque f est fonction d’une seule variable, la réponse est 67
Chapitre 2. Fonctions de plusieurs variables
bien connue (si cela a un sens, en supposant par exemple que la fonction f a une dérivée continue) : b f (s) ds. f (b) = f (a) + a
Pour généraliser cette formule au cas de plusieurs variables, la première difficulté réside dans la géométrie de l’espace : puisque dans Rn il y a plusieurs façons d’aller d’un point à un autre, il nous faudra nécessairement recourir à la notion de courbe introduite au début de ce chapitre. De fait, nous aurons besoin de considérer des courbes un peu plus générales : Un chemin régulier par morceaux joignant deux points a et b de Rn est une fonction continue γ : [0 ; L] −→ Rn avec γ(0) = a et γ(L) = b, telle que l’intervalle [0 ; L] est réunion d’un nombre fini de sous-intervalles : [0 ; L] = [0 ; 1 ] ∪ . . . ∪ [i ; i+1 ] ∪ . . . ∪ [k−1 ; k ] (avec 0 = 0 et k = L) sur chacun desquels γ est dérivable et sa dérivée est continue. Autrement dit, un chemin régulier par morceaux n’est autre qu’une réunion de courbes régulières, c’est-à-dire dérivables et de dérivées continues, mises bout à bout, avec éventuellement des angles à chaque point de raccordement γ(i ) : ce sont des « courbes brisées » (voir la figure 2.5 pour un exemple). Pour des raisons pratiques, il sera souvent utile d’utiliser des paramétrages différents pour chacun des morceaux réguliers de la courbe. Qu’est-ce qu’un paramétrage ? Considérons une courbe γ dans Rn dont le domaine de définition est [0 ; L] et choisissons une fonction d’une variable ϕ continue bijective de [α ; β] dans [0 ; L]. Alors γ
(s) = γ(ϕ(s)) = (γ1 (ϕ(s)), . . . , γn (ϕ(s)) définit une courbe dans Rn dont le dessin est strictement identique à celui de la courbe γ. La différence entre γ et γ tient dans la manière de les parcourir : le point γ(t) atteint à l’instant t lorsque l’on parcourt la courbe à l’aide de γ est obtenu à l’instant s (avec ϕ(s) = t) lorsqu’on la parcourt à l’aide de γ
. On dit alors que γ
est un autre paramétrage de la courbe γ. Les changements de paramétrage sont des outils utiles pour choisir des domaines de définition naturels des courbes que nous serons amenés à considérer (voir l’exemple 13).
2.4.1. Intégrale d’une forme différentielle Nous sommes maintenant en mesure d’énoncer la définition majeure de ce paragraphe. 68
2.4. Intégration le long d’un chemin
γ(l1 ) γ(l2 )
Figure 2.5. Une courbe régulière par morceaux dans l’espace.
Si ω est une forme différentielle définie sur U dont toutes les composantes sont continues, et si γ est un chemin régulier par morceaux contenu dans U , alors l’intégrale de ω le long de γ est définie par : L ω= ωγ(t) (γ (t)) dt. 0
γ
Si γ présente effectivement des points singuliers, il faut comprendre cette formule comme la somme des intégrales sur chacune des parties régulières γ (i) = γ[i ; i+1 ] :
1
ω= γ
k
ωγ(t) (γ (t)) dt + . . . + 0
ωγ(t) (γ (t)) dt.
k−1
Cette définition ne dépend pas du paramétrage de la courbe γ : en effet, si γ
est un autre paramétrage de γ, alors ω = ω. γ
γ
Nous laissons au lecteur intéressé le soin de vérifier ce résultat à l’aide de changements de variables dans les intégrales des fonctions d’une variable. 69
Chapitre 2. Fonctions de plusieurs variables
Regardons, en guise de cas particulier, ce que donne l’intégrale d’une forme différentielle dans le cas de deux variables. La forme différentielle s’écrit alors ω = a(x, y) dx + b(x, y) dy. Si les fonctions a et b sont continues, on peut intégrer ω le long du chemin γ(t) = (x(t), y(t)) via la formule :
L
ω= γ
0
a(x(t), y(t))x (t) + b(x(t), y(t))y (t) dt ,
à découper éventuellement en plusieurs morceaux si la courbe γ est brisée.
Exemple 12. Considérons la forme différentielle ω = y dx + xy dy et le chemin γ : [0 ; 2] → R2 défini par γ(t) = (t2 , −t+1). On a γ (t) = (2t, −1) et ωγ(t) (γ (t)) = (−t + 1) × 2t + t2 (−t + 1) × (−1) = 2t − 3t2 + t3 , et donc 2 1 2 ω= (2t − 3t2 + t3 ) dt = t2 − t3 + t4 = 0. 4 0 0 γ
2.4.2. Formule fondamentale du calcul différentiel La définition de l’intégrale d’une forme différentielle conduit naturellement à une formule pour l’intégrale de la différentielle df d’une fonction : L df = dfγ(t) (γ (t)) dt. 0
γ
Observons maintenant cette expression : le second membre n’est autre que l’intégrale entre 0 et L de la dérivée h (s) de la fonction composée h(s) = f (γ(s)) (voir la formule de dérivation des fonctions composées au paragraphe 2.3.4 de ce chapitre). En mettant alors bout à bout la règle de dérivation des fonctions composées et le théorème fondamental du calcul différentiel et intégral à une seule variable (paragraphe 1.9.3 du chapitre 1), nous pouvons finalement énoncer le résultat suivant : (Théorème fondamental du calcul différentiel et intégral à plusieurs variables) Soient f : U ⊂ Rn → R une fonction admettant des dérivées partielles continues et γ un chemin régulier par morceaux joignant deux points a et b. Si γ est contenu dans U , on a alors df = f (b) − f (a). γ
70
2.4. Intégration le long d’un chemin
L’intégrale de df le long d’un chemin joignant a à b ne dépend donc que des valeurs de f en a et en b et pas du chemin choisi.
Exemple 13. Un gaz, dont l’état est décrit par sa pression P (égale initialement à P0 ) et son volume V (égal initialement à V0 ), subit une transformation qui amène d’abord sa pression à la valeur P1 , à volume constant, puis modifie son volume pour le rendre égal à V1 , à pression constante. Une autre transformation (différente !) amenant le gaz dans le même état consiste à d’abord le dilater en gardant sa pression constante, puis à augmenter la pression en conservant le volume dans un second temps. Ces deux transformations peuvent être décrites par les deux courbes régulières par morceaux γ et σ de la figure 2.6, qui relient toutes les deux le point A = (P0 , V0 ) au point B = (P1 , V1 ). V
σ B
V1
A γ
V0 P0
P1
P
Figure 2.6. Deux transformations différentes ayant mêmes extrémités.
Chacun des deux chemins est donc une ligne brisée formée de deux segments, choisis ici parallèles aux axes de coordonnées. Nous pouvons écrire explicitement un paramétrage du premier chemin (celui en traits pleins) en choisissant de le parcourir à vitesse constante, autrement dit en l’envisageant comme la réunion de deux chemins γ1 (s) = (s, V0 )
pour P0 ≤ s ≤ P1 ,
γ2 (t) = (P1 , t)
pour V0 ≤ t ≤ V1 .
L’énergie totale U du gaz ne dépend que des valeurs de P et de V . Elle évolue pendant la transformation, et le résultat de l’encadré précédent montre que P1 V1 ∂U ∂U (s, V0 ) ds + (P1 , t) dt. U (P1 , V1 ) = U (P0 , V0 ) + P0 ∂P V0 ∂V 71
Chapitre 2. Fonctions de plusieurs variables
En prenant l’expression de U pour un gaz de Van der Waals et les formules données page 62 pour la différentielle de la fonction U , on peut alors facilement vérifier que le terme de droite est bien égal au terme de gauche. Le calcul analogue en choisissant le second chemin conduit bien entendu au même résultat.
2.5. Formes exactes et fermées Nous avons vu que les dérivées partielles (lorsqu’elles existent) permettaient d’associer à toute fonction de n variables n nouvelles fonctions de n variables. Il est alors naturel de se demander, étant données n fonctions de n variables, s’il existe une fonction dont ces n fonctions sont les dérivées partielles. Plus précisément, donnons-nous n fonctions g1 , g2 , . . . , gn définies sur une partie U de Rn . Nous nous demandons s’il existe f définie sur tout ou partie de U telle que g1 =
∂f ∂f , . . . , gn = , ∂x1 ∂xn
soit encore g1 dx1 + . . . + gn dxn = df . Cette question, qui pourrait sembler d’un intérêt purement mathématique, se révèle en fait extrêmement importante dans de nombreuses applications, et plus particulièrement, comme nous le verrons, en thermodynamique. Nous commençons par un peu de vocabulaire : Une forme différentielle ω sur une partie U de Rn est une forme exacte s’il existe une fonction f définie sur U telle que ω = df . En physique ou en chimie, on parle plutôt de différentielle totale exacte. Nous utiliserons indifféremment les deux expressions. La question que nous nous posons (et qui s’énonce désormais « une forme différentielle est-elle toujours exacte ? ») pourrait sembler, de prime abord, facile à résoudre. Il s’agit en fait d’un problème très riche, qui a donné naissance à des développements mathématiques importants. Nous ne l’aborderons ici que de manière très partielle, en nous restreignant au cas de deux variables. Prenons donc une forme différentielle ω = g(x, y)dx + h(x, y)dy. La forme ω est la différentielle d’une fonction f de deux variables si ω = df , ou ∂f encore si g = ∂f ∂x et h = ∂y . Si les fonctions g et h admettent des dérivées partielles et que ces dérivées partielles sont continues, on peut alors calculer : ∂2f ∂2f ∂h ∂g − = − =0 ∂x ∂y ∂x∂y ∂y∂x 72
2.5. Formes exactes et fermées
(théorème des dérivées croisées du paragraphe 2.3.5). D’où la définition : Une forme différentielle ω = gdx + hdy est une forme fermée si ∂h ∂g − = 0, ∂x ∂y lorsque ces dérivées partielles existent et sont continues. Une forme exacte est toujours fermée. Autrement dit, une forme qui n’est pas fermée ne peut pas être exacte. Cette constatation fournit donc un critère permettant de savoir si une forme différentielle ω = g(x, y)dx + h(x, y)dy a ou non une chance d’être la différentielle d’une fonction : si les fonctions g et h admettent des dérivées partielles continues, on ∂g peut calculer la fonction ∂h ∂x − ∂y . Si cette dernière est non nulle, la forme ω n’est pas fermée et n’a donc aucune chance d’être exacte.
Exemple 14. La forme différentielle ω = P dV joue un rôle important en thermodynamique. Cette forme n’est pas fermée, puisqu’elle s’écrit ω = g(P, V )dP + h(P, V )dV avec g(P, V ) = 0 et h(P, V ) = P . Dès lors, ∂g ∂h − = 1 − 0 = 0. ∂P ∂V Il est donc impossible de trouver une fonction f (P, V ) telle que df = P dV . Nous avons vu à la fin du paragraphe précédent que l’intégrale d’une différentielle d’une fonction ne dépendait que des valeurs de la fonction aux extrémités du chemin. Ce résultat est en général faux pour une forme différentielle qui n’est pas fermée, comme le montre l’exemple suivant.
Exemple 15. Prenons ω = P dV , dont nous venons de voir qu’elle n’est pas fermée (donc pas exacte). Si on intègre cette forme différentielle sur les deux chemins γ et σ définis sur la figure 2.6 de la page 71, on trouve en effet que ω = P1 (V1 − V0 ) et ω = P0 (V1 − V0 ), γ
σ
donc deux résultats différents ! Pour conclure, mentionnons qu’il existe des formes fermées qui ne sont pas exactes (voir à ce sujet l’exercice 5). 73
Chapitre 2. Fonctions de plusieurs variables
2.6. Étude thermodynamique d’un gaz : une solution Le cadre thermodynamique global pour étudier un système est en général le suivant : le système est décrit par un certain nombre de variables d’état (par exemple, pour un gaz, pression, volume, température ; pour des substances à l’état liquide, pression, pressions partielles, concentrations ; pour un solide, masse, étirement, etc.). La valeur de ces variables permet donc de représenter l’état d’un système comme un point d’un espace Rn dont la dimension n est égale au nombre de variables nécessaires pour le décrire(6) . En outre, la nature physique ou chimique du système et les interactions en présence impliquent souvent l’existence d’une équation d’état qui lie ces variables. Traduit en termes mathématiques, cela signifie que les variables d’état d’un système sont astreintes à être solutions d’une équation du type f (x1 , . . . , xn ) = 0, où f est une fonction de n variables (par exemple, la célèbre équation f (P, V, T ) = P V − N RT = 0 des gaz parfaits). La connaissance de l’état du système permet de calculer la valeur des fonctions d’état, dont les plus connues sont l’énergie interne U que nous avons déjà rencontrée, mais aussi l’entropie, l’énergie cinétique, diverses énergies potentielles, l’énergie libre, l’enthalpie, les potentiels chimiques... qui sont toutes des fonctions des n variables d’état. En guise d’exemple, l’état d’une mole de gaz de Van der Waals est décrit par les trois paramètres P (pression), V (volume) et T (température). L’équation d’état s’écrit a RT − 2, P = V −b V ce qui permet de voir que la valeur de la température d’un tel gaz est déterminée par sa pression et son volume, et que ces deux variables sont donc suffisantes pour en donner une description complète. L’énergie interne a 3 V −b U (P, V ) = − + P (V − b) + a V 2 V2 est alors un exemple important de fonction d’état, dont nous avons déjà calculé les dérivées partielles (la différentielle), étudié les variations au voisinage d’un point, et recherché les extrema. Les outils que nous avons introduits dans la dernière partie de ce chapitre nous permettent d’aller plus loin, et de répondre à un autre problème mentionné en introduction : l’étude des variations de l’énergie interne du gaz lors d’une transformation. En effet, si l’état d’un système thermodynamique est représenté par un point dans l’espace Rn des variables d’état, une transformation de ce (6)
74
C’est la célèbre relation (expérimentale) de Gibbs qui détermine cette dimension.
2.7. Exercices
système n’est autre qu’une courbe dans ce même espace, et nous avons vu que la variation des fonctions d’état le long d’une telle courbe pouvait être calculée à l’aide des formes différentielles. Le premier principe de la thermodynamique, qui affirme que la variation d’énergie interne d’un système lors d’une transformation est la somme du travail reçu (ou cédé...) du fait des différentes forces en présence (pression, forces mécaniques, électriques...) et de la quantité de chaleur acquise pendant la transformation, s’écrit (mathématiquement) comme une égalité entre formes différentielles : dU = ωF + ωQ , où ωQ est une forme différentielle représentant la quantité de chaleur et ωF , somme de toutes les forces en présence, est également une forme différentielle. Pour une transformation joignant un point A à un point B selon un chemin γ dans l’espace des variables d’état, on a alors U (B) − U (A) = ωF + ωQ . γ
Il est important de souligner que les formes différentielles ωF et ωQ ne sont pas fermées (donc pas exactes), et qu’il n’y a donc aucune raison pour que les quantités ωF et ωQ γ
γ
soient indépendantes du chemin choisi, c’est-à-dire de la transformation effectuée. En revanche, leur somme l’est puisqu’il s’agit de l’intégrale de la différentielle de U le long de γ, qui ne dépend que des valeurs de U en A et en B. Par exemple, le travail dû aux forces de pression sur un gaz s’écrit ωF = −P dV, et nous avons déjà constaté que le travail fourni lors de certaines transformations dépendait du chemin choisi, c’est-à-dire du déroulement exact de la transformation (voir l’exemple de la page 73).
2.7. Exercices Exercice 1 (Surfaces-graphe de fonctions) Apparier les surfaces-graphe de la figure 2.7 et les fonctions suivantes : f (x, y) = x2 − y 2 , g(x, y) = x2 y et h(x, y) = x arctan(y). 75
Chapitre 2. Fonctions de plusieurs variables
0
x
0
0
0
y
x
y
Graphe B
Graphe A
0 0
y
x
Graphe C Figure 2.7. Graphes à apparier avec les fonctions de l’exercice 1.
Exercice 2 (Étude de la pression) La pression P de l’atmosphère au voisinage du sol de la Terre (une zone où la température peut être considérée comme inM gz dépendante de l’altitude z) s’écrit P = p0 e− RT . Calculer les dérivées partielles ∂P ∂P ∂z et ∂T , puis la différentielle de P . Commenter les variations de P en fonction de z et T . Exercice 3 (Gaz de Dieterici) La pression d’un gaz de Dieterici est donnée par la formule a
nRT e− V kT , p= V − Nb en fonction de la température T et du volume occupé V . Calculer les dérivées partielles de la fonction p(V, T ). 76
Exercices
Exercice 4 (Dérivées partielles nulles) Soit f une fonction de plusieurs variables admettant des dérivées partielles continues. On suppose que toutes les dérivées partielles de f sont nulles partout sur le domaine de définition U de f , et que deux points de ce domaine peuvent toujours être joints par un chemin régulier par morceaux entièrement contenu dans U . Montrer alors que la fonction f est constante. Exercice 5 (Formes exactes et fermées) Les formes différentielles suivantes sont-elles fermées ou non ? Dans l’affirmative, essayer de voir si elles sont exactes (pour la troisième, on pourra calculer l’intégrale le long d’un cercle de rayon 1) : α = ydx − xdy, β = xdy + ydx et δ =
ydx − xdy · x2 + y 2
77
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
3 PROBABILITÉS
3.1. Problème : évaluation d’un risque de trisomie 21 La nature fourmille d’expériences et phénomènes complexes, soumis à des causes innombrables et accidentelles dont l’enchevêtrement nous échappe : cours de la bourse, résultat d’une réaction chimique, temps qu’il fait, trajectoire d’une particule soumise aux chocs des molécules du milieu ambiant, sexe d’un nouveauné, couleur de ses cheveux, ou encore risque qu’un fœtus développe le syndrome dit de Down (trisomie 21). Dans ce dernier exemple, il existe des tests prénataux permettant de déceler si le fœtus est effectivement atteint par la maladie. Ces tests sont cependant effectués sur la base de prélèvements invasifs (analyses de cellules du trophoblaste, ponction de liquide amniotique) et peuvent, en cas d’utilisation massive, provoquer davantage d’avortements qu’ils ne détectent de victimes du syndrome. Dans un tel contexte, il est donc essentiel d’être en mesure d’évaluer les risques de développement de la trisomie 21, la stratégie médicale consistant alors à n’effectuer un test plus poussé que pour les grossesses à risque et non pas systématiquement. Il est assez facile de connaître le nombre moyen d’individus atteints par le syndrome de Down : en moyenne une naissance sur 700 si l’on choisit de ne pas tenir compte de l’âge de la future mère. La méthode la plus courante pour évaluer si une grossesse est à risque consiste alors à effectuer des dosages de certaines substances, comme par exemple l’hormone H.C.G. ou l’alpha-fœtoprotéine, via de simples prises de sang. En effet, la présence d’un syndrome de Down peut parfois se traduire par des taux anormalement élevés de ces substances dans le sang. Néanmoins, ce mécanisme n’est pas systématique, et bien d’autres facteurs incontrôlables (liés au métabolisme de la mère ou du fœtus, par exemple) peuvent
Chapitre 3. Probabilités
aussi engendrer des taux s’écartant fortement de la moyenne attendue. Des études médicales ont montré qu’une trisomie sur quatre engendre des taux anormaux, tandis qu’un taux hors norme se rencontre dans une grossesse exempte du syndrome sur cent. Dans de telles circonstances, quelles conclusions faut-il alors tirer d’un test sanguin indiquant un dosage anormalement élevé ? Le développement d’une maladie génétique comme la trisomie 21 semble relever du pur hasard, ou tout au moins d’un processus extrêmement complexe, impliquant une série d’événements qu’il est impossible de contrôler ou de prédire. Une évaluation des risques dans ce cadre nécessite donc de faire appel à des modèles fiables, capables de prendre en compte la nature a priori incontrôlable des phénomènes et des expériences que l’on étudie. C’est précisément l’objet de la théorie des probabilités, que nous allons introduire dans ce chapitre.
3.2. Modélisation des phénomènes aléatoires La complexité des mécanismes impliqués dans les phénomènes que nous venons d’évoquer est telle qu’il est en général impossible de prédire avec certitude leur évolution ou les conséquences qu’ils peuvent engendrer. De tels phénomènes sont alors dits aléatoires ou stochastiques (1) . Face à cette difficulté, et faute de mieux, la réponse du mathématicien s’appuie sur une théorie permettant non pas d’expliquer les causes ou les raisons, mais plutôt capable de prédire avec un degré de fiabilité raisonnable les conséquences éventuelles des phénomènes ainsi que les observations que nous pouvons en faire. Le résultat de cette démarche intellectuelle conduit à la théorie des probabilités, qui amène à exprimer les résultats sous la forme « tel événement a telle probabilité de se produire ». Le calcul des probabilités joue aujourd’hui un rôle incontournable dans de très nombreuses disciplines scientifiques. C’est en particulier le cas pour les sciences de la nature, au sein desquelles variabilité, complexité et hasard interviennent de manière fondamentale.
3.2.1. L’univers (des possibles) Une expérience aléatoire, par exemple le jet d’un dé à six faces sur une table, peut fournir des résultats extrêmement variés : le dé marque deux points, le dé se coince, se brise, voire s’incruste dans le bois de la table de jeu. Afin de construire une théorie mathématique raisonnable, la première étape, fondamentale dans la modélisation des expériences et phénomènes aléatoires, consiste à définir avec précision quel est l’ensemble des observations possibles : (1)
80
Du grec stochastikos, qui signifie habile à viser.
3.2. Modélisation des phénomènes aléatoires
On suppose l’existence d’un ensemble Ω dont les éléments sont tous les résultats ou toutes les observations possibles du phénomène aléatoire. Cet ensemble est appelé ensemble fondamental ou univers (des possibles) et ses éléments sont notés ω. Ainsi, à l’expérience aléatoire qui consiste à lancer deux dés, on peut associer l’ensemble des résultats possibles Ω = {(1, 1), (2, 1), (3, 6), . . .} à 36 éléments, au sein duquel l’élément ω = (3, 5) (par exemple) signifie que le premier dé marque 3 et le second 5. De la même manière, on peut envisager l’univers Ω = {F, G} pour modéliser l’aspect aléatoire du sexe d’un enfant à naître. Il convient cependant d’être prudent et de remarquer que, dans bon nombre d’exemples, il n’est pas toujours possible de définir l’ensemble Ω de façon rigoureuse – le lecteur curieux pourra par exemple se demander quel univers attacher au problème aléatoire « du temps qu’il fait ». Nous reviendrons sur cette remarque importante plus loin dans le texte.
3.2.2. Événements Une fois l’univers Ω identifié, la deuxième étape de la modélisation aléatoire consiste à définir la notion d’événement. Dans le langage courant, dire qu’un événement s’est (ou est) réalisé revient à énoncer une propriété du genre : « le dé marque un chiffre impair », « l’enfant est de sexe masculin », « la réaction chimique a été amorcée », « il pleut », etc. Autrement dit, un événement est une assertion ou une proposition logique relative à l’observation du résultat de l’expérience ou du phénomène aléatoire que l’on étudie. En termes mathématiques, cette notion se traduit de la manière suivante : Un événement est une partie A de l’univers Ω des possibles. Dire que l’événement s’est réalisé signifie que le résultat ω de l’expérience aléatoire appartient à A. Dans ce contexte, un élément de Ω est appelé événement élémentaire. Ainsi, par exemple, lorsque l’on jette deux dés, l’événement « la somme des valeurs des deux dés est supérieure ou égale à 10 » n’est autre que l’ensemble des résultats suivants : A = {(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)} . Dire que A s’est réalisé signifie simplement que le résultat ω que l’on observe appartient effectivement à A. 81
Chapitre 3. Probabilités
3.2.3. Probabilité La troisième et dernière étape de la modélisation est alors achevée en donnant un sens à la notion de probabilité : On appelle probabilité sur Ω une fonction P définie sur l’ensemble P(Ω) des parties de Ω à valeurs dans [0 ; 1], telle que : 1. P(Ω) = 1 ; 2. Si A et B vérifient A ∩ B = ∅, alors P(A ∪ B) = P(A) + P(B). À tout événement A correspond donc désormais un nombre P(A) compris entre 0 et 1, que l’on nomme probabilité de A. Les propriétés de P formalisent notre intuition naturelle du calcul des probabilités. La première signifie que l’événement Ω est certain, au sens où sa probabilité est la plus grande qu’un événement puisse obtenir (la probabilité que le dé tombe sur 1, 2, 3, 4, 5 ou 6 est bien égale à 1). La seconde exprime le fait que la probabilité d’événements A et B disjoints (c’est à dire tels que A∩B = ∅, auquel cas on dit parfois, en termes plus probabilistes, que A et B sont incompatibles) est égale à la somme de leurs probabilités respectives (la probabilité que le dé tombe sur 1 ou 5 est bien égale à la probabilité que le dé tombe sur 1 plus la probabilité que le dé tombe sur 5). À partir de ces deux règles de calcul, il devient alors possible d’exprimer la probabilité d’une combinaison quelconque d’événements. En particulier, il est utile de bien connaître les propriétés suivantes, qui complètent les deux axiomes fondamentaux donnés plus haut : 3. P(∅) = 0 ; 4. P(Ac ) = 1 − P(A) ; 5. Si A ⊂ B, alors P(A) ≤ P(B) ; 6. P(A ∪ B) = P(A) + P(B) − P(A ∩ B). En particulier, P(A ∪ B) ≤ P(A) + P(B). La propriété 3. signifie que l’événement impossible est de probabilité nulle. La suivante implique que la somme des probabilités d’un événement et de son contraire est égale à 1 (si la probabilité que le tirage d’un dé truqué donne un résultat pair est égale à 0,4 (ou 40 %), alors la probabilité d’un tirage impair 82
3.2. Modélisation des phénomènes aléatoires
est de 0,6 (ou 60 %)). La propriété 5. exprime le fait, intuitivement clair, que la probabilité est une opération croissante vis-à-vis de l’inclusion. Enfin, on notera bien la différence entre la propriété 6. et le second axiome élémentaire du calcul des probabilités : l’égalité n’a lieu que dans le cas où A et B sont disjoints (puisque, dans ce cas, P(A ∩ B) = P(∅) = 0, et l’on retrouve ainsi P(A ∪ B) = P(A) + P(B)).
Exemple 1. On tire au hasard une bille dans un sac en contenant n, le terme « au hasard » signifiant simplement que chaque bille a autant de chance d’être tirée qu’une autre. Ici, Ω est donc l’ensemble des billes. Soit alors A un sous-ensemble de r billes. Chacun s’accorde à dire que la probabilité que la bille tirée soit une bille de A est r/n. Autrement dit, si par exemple A est l’ensemble des billes rouges, une bille rouge a r chances sur n d’être tirée. D’une façon générale, on pose(2) P(A) =
card (A) , card (Ω)
et nous invitons le lecteur à constater par lui-même que P ainsi définie constitue bien une probabilité sur Ω. On note au passage que la probabilité d’un événement élémentaire A = {ω} (en d’autres termes, la probabilité de « tirer » la bille particulière ω) est égale à 1/card Ω. On écrit ainsi P (ω) =
1 · card Ω
L’exemple précédent est un cas très particulier, dans la mesure où l’ensemble Ω est fini et où tous les événements élémentaires ont la même probabilité de survenir (on dit alors qu’ils sont équiprobables). Il s’agit néanmoins d’un premier modèle important, que l’on rencontre dans bon nombre de situations concrètes. On retiendra donc le principe suivant : Lorsque l’univers Ω est fini et si tous les événements élémentaires sont équiprobables, on pose, pour toute partie A de Ω, P(A) =
card (A) · card (Ω)
Autrement dit, P(A) =
Nombre de cas favorables , Nombre de cas possibles
et le calcul de cette probabilité relève de l’analyse combinatoire. (2)
La notation card A désigne le cardinal de l’ensemble fini A, c’est-à-dire son nombre d’éléments.
83
Chapitre 3. Probabilités
Exemple 2. Supposons que, dans un groupe de 200 individus, on en dénombre 90 qui sont blonds, 80 dont les yeux sont bleus et 50 qui sont blonds aux yeux bleus. On choisit un individu au hasard dans ce groupe et on se demande quelle est la probabilité que la personne ainsi désignée possède au moins un des deux caractères cheveux blonds ou yeux bleus. Dans cet exemple, l’univers Ω est constitué des 200 paires (couleur des cheveux, couleur des yeux) que l’on observe sur les personnes du groupe. Désignons alors par A l’événement « la personne choisie est blonde » et par B l’événement « la personne choisie a les yeux bleus ». Le tirage ayant lieu au hasard, on trouve 80 90 = 0,45 ; P(B) = = 0,4 ; P(A) = 200 200 et 50 = 0,25. P(A ∩ B) = 200 L’événement « la personne désignée possède au moins un des deux caractères cheveux blonds ou yeux bleus » n’est autre que A ∪ B. Il vient alors P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0,45 + 0,4 − 0,25 = 0,6. Lorsque l’univers Ω n’est pas fini, des raisons mathématiques profondes (qui dépassent très largement le cadre de ce livre) conduisent à restreindre la famille des événements envisageables à ceux que l’on pourrait qualifier d’événements raisonnables, c’est-à-dire des événements que l’on peut observer, quantifier ou mesurer. Prenons l’exemple du pH d’une solution aqueuse. Avant mesure, le pH peut être considéré comme aléatoire, et les événements « le pH vaut 7 », « le pH est compris entre 6 et 7,3 » ou encore « le pH est inférieur à 8 » sont des événements raisonnables. En revanche, certains événements (c’est-à-dire certaines parties de Ω, qui est ici l’intervalle formé de tous les nombres réels compris entre 0 et 14) peuvent être extrêmement compliqués, à tel point qu’il est impensable de les faire figurer dans la famille des événements sur lesquels on peut tenir un quelconque discours, et donc leur attribuer une probabilité. C’est la raison pour laquelle on choisit un ensemble A de parties de Ω qui représente la collection de tous les événements raisonnables, pour lesquels il est licite de tenir un discours probabiliste. Une fois A fixé, on construit une fonction P : A → [0 ; 1] qui, à chaque événement raisonnable (c’est-à-dire à chaque partie A de Ω figurant dans la liste A), associe sa probabilité P(A), et qui vérifie les propriétés 1. à 6. énoncées dans les encadrés précédents (plus d’autres que nous passerons sous silence). La fonction P sera souvent appelée, dans ce contexte, mesure de probabilité plutôt que probabilité. 84
3.2. Modélisation des phénomènes aléatoires
3.2.4. Analyse combinatoire Comme expliqué plus haut, le calcul des probabilités se ramène dans bien des cas à un dénombrement (calcul du nombre d’éléments) de certains ensembles. Il est utile de bien connaître (et comprendre) les mécanismes classiques suivants, dits de dénombrement. 1. Le nombre d’arrangements sans répétitions de p éléments parmi n : il s’agit du nombre de façons différentes de choisir p éléments distincts parmi n, en tenant compte de l’ordre dans lequel on les choisit(3) . Il vaut Apn = n(n − 1) . . . (n − p + 1) =
n! · (n − p)!
On rappelle que la factorielle de n est le nombre n! = 1×2×3×. . .×(n−1)×n, avec la convention 0! = 1.
Exemple 3. S’il y a n = 18 chevaux au départ d’une course, alors le nombre de tiercés possibles (p = 3) dans l’ordre est égal à A318 =
18! = 18 × 17 × 16 = 4896. 15!
2. Le nombre d’arrangements avec répétitions de p éléments parmi n : il s’agit du nombre de façons différentes de choisir p éléments parmi n, en autorisant cette fois-ci les répétitions. Il vaut np .
Exemple 4. Si les n = 18 chevaux participent à p = 3 courses dans une même journée et qu’un parieur s’intéresse uniquement au cheval qui arrive premier, il a 183 = 5832 possibilités pour répartir sa mise. 3. Le nombre de permutations de n éléments : il s’agit du nombre d’arrangements sans répétitions de n éléments parmi n, c’est-à-dire du nombre de façons différentes de ranger n éléments. Ce nombre de permutations vaut n!.
Exemple 5. Toujours avec n = 18 chevaux, il y a exactement 18! = 6 402 373 705 728 000 arrivées possibles à l’issue d’une course. 4. Le nombre de combinaisons de p éléments parmi n : il s’agit du nombre de façons différentes de choisir p éléments distincts parmi n, mais cette fois-ci sans tenir compte de l’ordre (deux choix qui diffèrent simplement du point (3)
Ainsi, si l’on tire deux nombres entiers entre 0 et 9, le tirage (0,1) est considéré comme différent du tirage (1,0).
85
Chapitre 3. Probabilités
de vue de l’ordre dans lequel sont rangés les p éléments sont donc considérés comme identiques). Ce nombre de combinaisons vaut Cnp =
n(n − 1)(n − 2) . . . (n − p + 1) n! = , p!(n − p)! p!
n et il est parfois noté . On l’appelle coefficient binomial et on le lit p souvent « C n p ».
Exemple 6. Un vétérinaire qui souhaite effectuer p = 5 contrôles antidopages parmi les n = 18 chevaux au départ d’une course aura 5 = C18
18 × 17 × 16 × 15 × 14 18! = = 8 568 5! × 13! 5×4×3×2×1
choix possibles de 5 chevaux.
Exemple 7. On teste le groupe sanguin de 12 individus : 7 sont du groupe O, 3 du groupe A et 2 du groupe B. Le sang de chacun est conservé dans un flacon individuel. Quelle est la probabilité que trois flacons pris au hasard soient du même groupe ? Ici, l’univers des possibles Ω est l’ensemble des triplets de flacons, c’està-dire l’ensemble des parties (sans répétitions) à trois éléments de l’ensemble {1, 2, 3, . . . , 12}, où l’on a supposé que les flacons sont numérotés de telle sorte que ceux du groupe O portent les numéros de 1 à 7, ceux du groupe A les numéros de 8 à 11, et ceux du groupe B les numéros 11 et 12. L’ensemble contient 3 = 220 éléments (ce qui signifie qu’il y a 220 tirages de trois flacons possibles). C12 Si les trois flacons tirés du lot sont du même groupe, ils ne peuvent être que du groupe O ou A. Le nombre de tirages possibles de trois flacons du groupe O est C73 = 35 et il n’y a qu’un seul tirage possible de trois flacons du groupe A. La probabilité d’avoir trois flacons du même groupe est donc P(3 flacons du même groupe) =
1 9 35 + = ≈ 0,16 = 16 %. 220 220 55
En guise de conclusion à ce paragraphe, insistons bien sur le fait que l’analyse combinatoire décrite plus haut ne s’applique de façon directe qu’au cas où les événements élémentaires sont équiprobables ! 86
3.2. Modélisation des phénomènes aléatoires
3.2.5. Probabilités conditionnelles, indépendance d’événements Considérons, sur un univers Ω muni d’une mesure de probabilité P, un événement B de probabilité strictement positive : P(B) > 0. La probabilité d’un événement quelconque A se trouve en général modifiée si l’on suppose que l’événement B est réalisé. Par exemple, si A est un événement disjoint de B, sa probabilité de réalisation devient identiquement nulle, puisque l’événement certain est maintenant B. Inversement, et de façon tout aussi intuitive, si A est inclus dans B, sa probabilité doit augmenter. Le cas d’un événement A quelconque est moins accessible à l’intuition, mais on peut quand même imaginer que sa nouvelle probabilité va dépendre de ce qu’il a de commun avec B, c’est-à-dire A ∩ B.
Exemple 8. Un amateur de vin possède 40 bouteilles de vin rouge dans sa cave, parmi lesquelles 10 Bordeaux (étiquetés « BOR »), 10 Bourgogne (« BOU »), 10 Côtes du Rhône (« CDR ») et 10 Languedoc (« LAN »). Lors d’une séance de dégustation à l’aveugle, notre connaisseur prélève au hasard 1 bouteille parmi les 40. Cette expérience aléatoire peut être modélisée par le couple (Ω, P), où Ω est l’ensemble des 40 bouteilles et P est la probabilité définie par P(G) = card (G)/card (Ω) = card (G)/40. Pour un convive tricheur qui aurait rapidement vu que la bouteille tirée portait l’inscription « BO » (ce qui lui laisse donc un doute entre un vin de Bordeaux et
différente, et il un vin de Bourgogne), l’espace Ω serait muni d’une probabilité P
est définie par la formule : est facile de voir que P card (G ∩ B) card (G ∩ B)
= , P(G) = card (B) 20 où B désigne le sous-ensemble de toutes les bouteilles sur lesquelles figure l’inscription « BO ». Pour ce tricheur, l’expérience revient en effet à tirer une bouteille dans l’ensemble B : la probabilité de tirer un « CDR » ou un « LAN » est donc nulle, et la probabilité de tirer une bouteille de Bordeaux « BOR » n’est plus 1/4 mais 1/2. En revanche, les probabilités de certains autres événements ne sont pas modifiées : par exemple, en supposant que chaque groupe de bouteilles comporte autant de vins de pays que de vins d’appellation contrôlée, la probabilité de l’événement T = « tirer un vin d’appellation contrôlée » vaut P(T ) = 20/40 = 1/2 et
) = 10/20 = 1/2 dans les deux cas. P(T
87
Chapitre 3. Probabilités
Les considérations qui précèdent conduisent donc à la définition suivante : Soit B un événement de probabilité strictement positive. On appelle probabilité conditionnelle de A sachant B (ou sachant que B s’est réalisé) le nombre réel P(A ∩ B) . PB (A) = P(B) On peut également utiliser la notation P(A|B) en lieu et place de PB (A), et on dit que cette probabilité P(A|B) est la « probabilité de l’événement A sachant que l’événement B s’est réalisé ». Cette définition fait clairement jouer un rôle particulier au sous-ensemble B au sein de l’univers des possibles, en le faisant apparaître comme un ensemble de résultats réalisés. La probabilité que A et B soient réalisés est égale à P(A ∩ B). Quel que soit l’événement A, cette probabilité est toujours inférieure à P(B) (d’après les propriétés élémentaires d’une probabilité). La probabilité que A soit réalisé sachant que B l’est est donc obtenue en divisant par P(B), de telle sorte que PB (A) = 1 si A = B (ce qui signifie que la probabilité que B soit réalisé sachant qu’il est effectivement réalisé est égale à 1 – c’est plutôt rassurant !) Les formules suivantes sont incontournables lors du calcul des probabilités conditionnelles : 1. P(A ∩ B) = PB (A)P(B) ; 2. PB (A) + PB (Ac ) = 1 ; 3. P(A) = PB (A)P(B) + PB c (A)P(B c ). Attention cependant : même si c’est parfois tentant, il n’est pas correct d’écrire que PB (A) + PB c (A) = 1. Une autre source d’erreur consiste à confondre P(A ∩ B) et PB (A), et nous conseillons au lecteur un examen attentif des énoncés des problèmes : il ne faut pas confondre la probabilité d’être fumeur et malade d’un cancer du poumon avec la probabilité qu’un fumeur soit atteint d’un cancer du poumon... Les probabilités conditionnelles sont souvent utilisées pour représenter un modèle probabiliste simple sous la forme d’un arbre de probabilités. L’exemple suivant détaille et explique cette façon de procéder.
88
3.2. Modélisation des phénomènes aléatoires A 0.98
C 0.97
0.02
R A
0.01 0.03 D 0.99
R
Figure 3.1. Un exemple d’arbre de probabilités.
Exemple 9. Une scierie produit des planches en chêne pour du parquet. Une proportion de 3 % de ces planches ont des défauts esthétiques trop importants (nœuds, taches, etc.) et ne sont pas conformes. Le directeur décide d’installer une nouvelle machine qui détecte et rejette automatiquement les planches non conformes, mais cette machine n’est pas parfaite : elle rejette 2 fois sur 100 des planches conformes, et accepte une fois sur 100 les planches non conformes. Si l’on désigne par C l’événement « la planche est conforme », par D l’événement « la planche a un défaut » et par A et R les événements « planche acceptée » et « planche rejetée », nous pouvons représenter la situation comme dans la figure 3.1. Les lignes obliques de la colonne de gauche symbolisent la répartition de l’ensemble des planches (c’est-à-dire Ω) en planches conformes ou avec défauts, et les nombres qui les surmontent indiquent la probabilité que l’un (ou l’autre) de ces événements soit réalisé. De même, les lignes obliques de la colonne de droite et les nombres qui les surmontent indiquent la probabilité d’acceptation ou de rejet par la machine des planches issues des deux sous-catégories « conformes » et « avec défaut », c’est-à-dire les probabilités conditionnelles ! On peut donc ainsi écrire PC (A) = 0,98,
PC (R) = 0,02,
PD (A) = 0,01
et PD (R) = 0,99,
tandis que P(C) = 0,97 et P(D) = 0,03.
89
Chapitre 3. Probabilités
3.2.6. Formule de Bayes En reprenant l’exemple 9 du paragraphe précédent, la question que se pose le directeur de la scierie est évidemment : « quelle est la fiabilité de la machine ? » En d’autres termes, si la machine rejette une planche, quelle est la probabilité que la planche en question soit néanmoins conforme (estimation des faux positifs) et, si la machine l’accepte, quelle est la probabilité que la planche ait un défaut (faux négatifs). Les éléments chiffrés donnés plus haut ne fournissent pas une réponse immédiate, mais nous allons voir qu’elle est néanmoins facile à obtenir. À cette fin, généralisons un peu notre propos et considérons deux événements A et B appartenant à un univers Ω. Nous connaissons P(B), PB (A) et PB c (A), et nous calculons ainsi PA (B) =
PB (A)P(B) P(A ∩ B) = P(A) PB (A)P(B) + PB c (A)P(B c )
à l’aide des formules indiquées page 88. Cette égalité s’appelle la formule de Bayes : (Formule de Bayes) Pour deux événements A et B, on a PA (B) =
PB (A)P(B) · PB (A)P(B) + PB c (A)P(B c )
La formule de Bayes, simple conséquence des axiomes et de la définition de la probabilité conditionnelle, tient une place à part dans le calcul des probabilités en raison de son importance pratique considérable. Elle est en particulier à la base de toute une branche de la statistique contemporaine, appelée statistique bayésienne.
Exemple 10. (suite de l’exemple 9) Le directeur a besoin de connaître la probabilité d’un faux positif, c’est-à-dire la probabilité qu’une planche soit conforme alors qu’elle est rejetée par la machine. Il s’agit donc de calculer PR (C), ce que nous sommes maintenant en mesure de faire grâce à la formule de Bayes : PR (C) =
0,02 × 0,97 PC (R)P(C) = ≈ 39,5 %. PC (R)P(C) + PD (R)P(D) 0,02 × 0,97 + 0,99 × 0,03
De la même manière, la probabilité d’un faux négatif (c’est-à-dire la probabilité qu’une planche déclarée conforme par la machine ait en fait des défauts) s’évalue en calculant PA (D) = 90
0,01 × 0,03 PD (A)P(D) = ≈ 0,03 %. PD (A)P(D) + PC (A)P(C) 0,01 × 0,03 + 0,98 × 0,97
3.2. Modélisation des phénomènes aléatoires
On conclut que la machine laisse passer très peu de planches avec défauts (uniquement 0,03 % des planches acceptées par la machine ont des défauts), mais qu’en contrepartie elle écarte un nombre conséquent de planches conformes : 39,5 % des planches rejetées par la machine sont conformes. Ce dernier chiffre doit cependant être pondéré par le fait qu’il n’y a au total que P(R) = 0,02 × 0,97 + 0,99 × 0,03 ≈ 4,9 % des planches de l’usine qui sont rejetées par la machine.
3.2.7. Indépendance Il est possible que la réalisation d’un événement B ne modifie pas la probabilité d’un autre événement A. Plus précisément, cela signifie que PB (A) = P(A) et, par conséquent, P(A ∩ B) = PB (A)P(B) = P(A)P(B). Réciproquement, en supposant que A et B ont des probabilités strictement positives, si P(A ∩ B) = P(A)P(B), on obtient PB (A) = P(A) et PA (B) = P(B). Cette observation motive la définition suivante : Deux événements sont dits indépendants si P(A ∩ B) = P(A)P(B). Attention ! L’indépendance n’a que peu de rapports avec la notion d’événements incompatibles évoquée au début de ce chapitre. Deux événements sont indépendants si la réalisation de l’un n’influe pas sur la probabilité de réalisation de l’autre. Ils sont incompatibles s’ils ne peuvent pas se produire simultanément. Dans ce dernier cas, ils ne peuvent donc pas être indépendants puisque la réalisation de l’un empêche la réalisation de l’autre ! Même si l’indépendance entre deux événements est souvent intuitivement évidente, il n’en demeure pas moins qu’il faut toujours essayer de la démontrer rigoureusement à partir de la définition P(A ∩ B) = P(A)P(B). Remarquons enfin que l’on ne suppose pas, dans cette définition, que A et B ont une probabilité strictement positive : si P(A) = 0, ou si P(B) = 0, l’indépendance est trivialement vérifiée, puisque 0 ≤ P(A ∩ B) ≤ P(A) et 0 ≤ P(A ∩ B) ≤ P(B).
Exemple 11. En supposant que, à chaque naissance, la probabilité d’avoir une fille ou un garçon est 1/2, on souhaite étudier, dans l’ensemble des familles à deux 91
Chapitre 3. Probabilités
enfants, l’indépendance éventuelle des événements A = « la famille a un enfant de chaque sexe » et B = « il y a au plus une fille ». En tenant compte de l’ordre des naissances, l’univers s’écrit ici Ω = {(f, f ), (f, g), (g, f ), (g, g)} . Avec l’hypothèse d’équiprobabilité, on obtient P(A) = P ({(f, g), (g, f )}) = 1/2 et P(B) = P ({(f, g), (g, f ), (g, g)}) = 3/4. Ainsi P(A ∩ B) = P ({(f, g), (g, f )}) = 1/2. Comme P(A ∩ B) = P(A)P(B), les événements A et B ne sont pas indépendants. Si l’on considère maintenant le même problème sur les familles non plus de deux mais de trois enfants, l’univers a pour expression Ω = (f, f, f ), (f, f, g), (f, g, f ), (f, g, g), (g, f, f ), (g, f, g), (g, g, f ), (g, g, g) , et, avec l’hypothèse d’équiprobabilité, on obtient P(A) = 6/8 = 3/4
et P(B) = 4/8 = 1/2.
On constate donc cette fois-ci que P(A ∩ B) = P(A)P(B), ce qui signifie que, dans le contexte des familles de trois enfants, les événements A et B sont indépendants. Cet exemple montre que la notion d’indépendance n’est pas une propriété intrinsèque des événements, mais qu’elle dépend de l’univers considéré. Terminons ce paragraphe en signalant que la notion d’indépendance s’étend à un nombre quelconque d’événements de la façon suivante : on dit que les événements A1 , . . . , An sont (mutuellement) indépendants si, pour tout sousensemble de ces événements, la probabilité de leur intersection est égale au produit de leurs probabilités. On prendra bien garde au fait que, par définition, la relation doit être vérifiée pour les événements pris deux à deux, trois à trois, etc. En particulier, pour n ≥ 3, le fait que P(Ai ∩ Aj ) = P(Ai )P(Aj ) pour toute paire d’événements, ou encore le fait que P(A1 ∩ A2 ∩ . . . ∩ An ) = P(A1 )P(A2 ) . . . P(An ) ne suffit pas à garantir l’indépendance (mutuelle) des événements. 92
3.3. Évaluation d’un risque de trisomie 21 : une solution
Exemple 12. Envisageons l’univers très simple Ω = {a, b, c, d} muni de la probabilité uniforme (c’est-à-dire P(a) = P(b) = P(c) = P(d) = 1/4), et les trois événements A1 = {a, b}, A2 = {a, c} et A3 = {a, d}. Alors P(A1 ∩ A2 ) = 1/4 = P(A1 )P(A2 ), P(A1 ∩ A3 ) = 1/4 = P(A1 )P(A3 ), et ainsi de suite, ce qui montre que les événements A1 , A2 et A3 sont deux à deux indépendants. En revanche, P(A1 ∩ A2 ∩ A3 ) = 1/4 = P(A1 )P(A2 )P(A3 ) = 1/8, ce qui montre que les trois événements ne sont pas (mutuellement) indépendants.
3.3. Évaluation d’un risque de trisomie 21 : une solution Traduisons ici les données recensées dans l’introduction du chapitre à l’aide des outils probabilistes introduits dans les paragraphes précédents. L’univers Ω est celui de toutes les grossesses(4) et, si l’on note T l’événement « le fœtus est atteint du syndrome de Down » et A l’événement « le taux repéré lors du test sanguin de la mère est anormal », on sait que P (T ) =
1 , 700
PT (A) =
1 4
et
PT c (A) =
1 · 100
On souhaite déterminer, lorsque le test sanguin a révélé un taux anormal, le risque que le fœtus soit effectivement atteint de trisomie 21, autrement dit PA (T ). Ce calcul peut se faire à l’aide de la formule de Bayes : PT (A)P (T ) PT (A)P (T ) + PT c (A)P (T c ) 1 1 4 × 700 = 1 1 1 1 4 × 700 + 100 × 1 − 700
PA (T ) =
≈ 3,5 %. En cas de taux anormal, le risque que le syndrome de Down soit présent n’est que de 3,5 %. Si l’on effectue un test invasif sur 1000 patientes révélant de tels taux (4)
Au passage, une remarque importante pour la suite : plutôt que l’univers des possibles, qui est souvent flou et inaccessible (comment donner un sens mathématique précis à l’ensemble des grossesses passées et à venir ?), c’est bien l’ensemble des probabilités des divers événements d’intérêt qui va être amené à jouer un rôle primordial. Comme nous le verrons, cet ensemble porte le nom de loi ou distribution de probabilité.
93
Chapitre 3. Probabilités
sanguins, on ne détectera donc (en moyenne !) que 35 syndromes de Down. Cette conclusion mitigée est cependant à mettre en rapport avec la stratégie consistant à ne pas présélectionner les grossesses et à pratiquer systématiquement un test invasif : en effectuant un tel test sur 1000 patientes, on ne trouverait qu’entre un ou deux cas de trisomie 21, puisque 1000/700 ≈ 1,4. En pratique, on ne se restreint pas à un seul test préliminaire, mais on effectue un triple test (en dosant dans le sang maternel non pas une mais trois substances dont on sait qu’elles peuvent indiquer des grossesses à risque), afin d’affiner un peu plus la population de femmes enceintes sur laquelle on choisira d’utiliser un protocole aux conséquences plus risquées.
3.4. Variables aléatoires Un événement s’énonce souvent de façon numérique : par exemple, « le chiffre marqué par le dé est pair », ou « le niveau sonore a dépassé 100 décibels ». Mais c’est aussi le cas pour l’événement « le temps d’hier était à la pluie » : si N désigne le niveau des précipitations de la veille, on peut écrire cet événement sous la forme « N > 0 ». Dans ce contexte, nous ne connaissons le résultat d’une expérience ou d’un phénomène aléatoire qu’à travers les résultats d’une ou plusieurs mesures (c’est-à-dire à travers les valeurs d’un ou plusieurs nombres réels) et un événement est alors déclaré réalisé si ces nombres vérifient une certaine propriété. Dans de telles situations, où les mécanismes du hasard sont en général complexes et enchevêtrés, la description exhaustive de l’univers Ω est bien souvent impossible. Afin de lever cette difficulté, la parade mathématique consiste à légèrement changer de point de vue, en associant à un résultat d’expérience ω (que nous ne connaissons pas) un nombre X(ω), qui peut être quantifié et observé. On définit ainsi une fonction X : Ω → R, en remarquant que les événements qui lui sont attachés sont de la forme {X ∈ I}, où I désigne un intervalle de R. La notation {X ∈ I} est une manière abrégée de définir l’ensemble {ω ∈ Ω : X(ω) ∈ I}. Cet ensemble {X ∈ I} est un événement, en d’autres termes un sous-ensemble de Ω.
Exemple 13. Le niveau des précipitations de la veille se représente, en termes mathématiques, sous la forme d’une fonction N : Ω → R, où l’univers Ω est largement inconnu, voire inaccessible. Malgré ce manque d’information sur Ω, les ensembles du genre {N > 2} ou {1 ≤ N ≤ 7} sont bien des événements de Ω, qui ont une signification physique (et mathématique) claire. Bien entendu, par souci de cohérence, les événements associés à X devront toujours être « raisonnables », de sorte qu’une probabilité puisse leur être attribuée sans problème. Cela nous conduit à la définition suivante : 94
3.4. Variables aléatoires
Une variable aléatoire est une fonction X définie sur Ω et à valeurs dans R telle que, pour tout intervalle I, l’ensemble {X ∈ I} est un événement « raisonnable », c’est-à-dire un ensemble dont on peut définir la probabilité.
Exemple 14. Un exemple très simple mais néanmoins instructif de variable aléatoire est donné par la couleur des yeux d’un enfant. Il est bien connu que cette caractéristique est déterminée par un gène : si les deux allèles de ce gène sont ceux de la couleur bleue, les yeux seront de cette couleur, alors que la présence d’un seul allèle « marron » suffit à imposer cette couleur aux yeux. Dans ce cas, l’univers est l’ensemble Ω = {bb, bm, mb, mm}, et il représente les résultats possibles pour chaque couple d’allèles du même gène porté par l’enfant. Le phénomène « couleur des yeux » peut alors être modélisé par une variable aléatoire qui, à chacune des configurations possibles des allèles, associe la couleur des yeux obtenue. En d’autres termes, il s’agit de la fonction C : Ω → {bleu, marron} dont les valeurs sont données par C(bb) = bleu,
C(bm) = C(mb) = C(mm) = marron.
Notons que les valeurs de la variable aléatoire C ne sont pas numériques, mais qu’il est néanmoins facile de les faire rentrer dans le cadre précédent en décidant que les yeux bleus correspondent à la valeur 0 et les yeux marron à la valeur 1. Même si, dans le cas présent, l’ensemble Ω est accessible (au prix d’une analyse génétique coûteuse !), l’exemple n’en demeure pas moins instructif car il montre que l’important n’est pas tant la probabilité du génotype ω (c’est-à-dire la nature des deux allèles d’un enfant donné) mais bien la probabilité que les yeux soient bleus ou marron (c’est-à-dire la probabilité que ω soit dans l’un des deux ensembles {C = bleu} ou {C = marron}). Soulignons d’ailleurs que, sans connaissance biologique particulière(5) , nous aurions pu tout aussi bien choisir pour Ω n’importe quel univers « abstrait » muni d’une probabilité et définir exactement de la même manière la variable aléatoire C : Ω −→ {bleu, marron}, (5)
Comme c’était le cas, par exemple, avant les découvertes du XXe siècle sur le support de l’hérédité.
95
Chapitre 3. Probabilités
l’essentiel étant bien entendu que les probabilités P(C = bleu) et P(C = marron) restent les mêmes. Le concept de variable aléatoire, qui est au cœur du calcul des probabilités, intervient pratiquement dans tous les modèles faisant intervenir le hasard. Au final, le modèle probabiliste complet se présente donc sous la forme d’un univers Ω (la plupart du temps inconnu de l’observateur) muni d’une mesure de probabilité P, et de variables aléatoires X : Ω → R, qui modélisent les observations ou les mesures effectuées à la suite du phénomène aléatoire. Les événements que l’observateur peut concevoir sont donc ceux qui s’expriment à l’aide de la (ou des) variable(s) aléatoire(s) X. Par convention, on désigne toujours une variable aléatoire par une lettre majuscule (X, Y , Z, etc.) et on appelle réalisation (de X) toute valeur observée X(ω). Pour bien distinguer la variable aléatoire X (qui est une fonction) de sa réalisation X(ω) (qui est un nombre réel), on désigne en général cette dernière par la lettre minuscule x ; cela sous-entend donc l’existence d’un ω dans Ω tel que x = X(ω). Nous n’envisagerons dans cet ouvrage que des variables aléatoires dites quantitatives (également appelées numériques ou réelles) : il s’agit par exemple du poids, de la taille ou du volume, qui s’expriment par des nombres réels sur lesquels les opérations arithmétiques courantes (addition, soustraction, etc.) sont licites. Ces variables sont à distinguer des variables qualitatives, qui expriment l’appartenance à une catégorie ou modalité d’un ensemble fini. Parmi les variables qualitatives, certaines sont purement nominales (par exemple, le type d’essence utilisé par un véhicule, la catégorie socioprofessionnelle ou la couleur des yeux), alors que d’autres sont ordinales (mention assez bien, bien ou très bien, par exemple). Les variables qualitatives nécessitent un traitement particulier, que nous n’aborderons pas dans le livre. Nous les rencontrerons cependant brièvement au chapitre 7 en analyse de variance.
Exemple 15. Sans information supplémentaire, le nombre d’enfants qu’une femme pourra avoir au cours de sa vie peut être considéré comme de nature aléatoire. On peut donc modéliser ce nombre par une variable aléatoire (quantitative) notée N , à valeurs dans {0, 1, 2, . . .} (qui est bien un sous-ensemble de R), et qui prendra donc la valeur 0 si la femme n’a pas d’enfant, 1 si elle en a un seul, et ainsi de suite. On désignera ainsi, par exemple, par P(N = 3) la probabilité que la femme ait trois enfants au cours de sa vie, sans aucune référence à un univers particulier, mais en gardant bien à l’esprit que {N = 3} = {ω ∈ Ω : N (ω) = 3}. 96
3.4. Variables aléatoires
Exemple 16. Si l’on s’intéresse maintenant au poids d’un enfant à naître (qui, en l’absence d’information, peut aussi être considéré comme de nature aléatoire), il faut utiliser une variable aléatoire (quantitative) M à valeurs dans [0 ; +∞[. Ainsi, l’écriture {M < 3} représentera l’événement « le bébé a un poids inférieur à trois kilogrammes », et la probabilité associée s’écrira simplement P(M < 3). Dans les deux exemples qui précèdent, il est intuitivement clair que les deux variables aléatoires N et M , bien que toutes deux quantitatives, sont de natures très différentes. En effet, si la première ne peut prendre qu’un nombre de valeurs que l’on peut énumérer (à savoir 0, 1, 2, . . .), la seconde peut en revanche prendre toutes les valeurs possibles d’un ensemble [0 ; A] (où le nombre A désigne le poids maximum d’un nouveau-né), comme par exemple 3 ; 5,1 ; 4 ; 19/3 ou (pourquoi pas) π. On dit alors de la variable aléatoire N qu’elle est discrète, alors que M est dite continue. La distinction entre variables aléatoires discrètes et variables aléatoires continues est fondamentale. Nous allons donc l’examiner plus avant dans les paragraphes qui suivent.
3.4.1. Variables discrètes Commençons ce paragraphe par une définition : Une variable aléatoire est dite discrète si elle ne peut prendre qu’un nombre fini de valeurs, ou si l’ensemble des valeurs possibles peut être énuméré sous la forme x1 , x2 , . . . , xn , . . . Les variables aléatoires discrètes que nous étudierons dans la suite ne prendront qu’un nombre fini x1 , . . . , xn de valeurs. Le plus souvent, ces valeurs sont des entiers naturels (c’est-à-dire 0, 1, 2, . . .) mais cela n’est pas obligatoire. Ces variables aléatoires permettent de modéliser une gamme déjà très étendue de phénomènes et expériences aléatoires. En voici quelques exemples, en vrac : le résultat d’un dé équilibré, qui ne peut prendre que les six valeurs 1, 2, 3, 4, 5 et 6, l’étage que peut atteindre un ascenseur hors de contrôle dans la tour Montparnasse, qui peut varier entre −4 et +59, ou le nombre d’enfants que peut avoir une femme dans sa vie (il s’agit a priori d’un exemple où l’ensemble des valeurs possibles forme un ensemble infini, mais qui peut être ramené au cas fini en notant que 69 enfants est le plus important nombre de descendants d’une même femme connu à ce jour). Cependant, dans la pratique, le modèle « nombre de valeurs fini » se révèle rapidement mathématiquement trop fruste pour modéliser 97
Chapitre 3. Probabilités
des phénomènes plus complexes. C’est la raison pour laquelle on étend souvent la théorie exposée ci-dessous au cas de variables discrètes prenant un nombre infini de valeurs dont on peut établir la liste. Cette extension demande cependant d’introduire quelques outils mathématiques supplémentaires(6) qui nous éloigneraient un peu trop de notre propos (nous en examinerons néanmoins un exemple particulier au paragraphe 3.6.3). D’un point de vue probabiliste, le comportement d’une variable aléatoire discrète X à valeurs dans {x1 , x2 , . . . , xn } est entièrement décrit par les nombres P(X = x1 ), P(X = x2 ), . . . , P(X = xn ). En effet, si l’on souhaite connaître P(X ∈ A) pour toute partie A de l’ensemble {x1 , . . . , xn }, il suffit de prendre tous les xk qui sont dans A – supposons, pour fixer les idées, qu’il s’agisse par exemple de {x2 , x52 , x101 } – et de constater que l’événement {X ∈ A} est simplement la réunion des événements disjoints {X = x2 }, {X = x52 } et {X = x101 }. Dès lors, P(X ∈ A) = P(X = x2 ) + P(X = x52 ) + P(X = x101 ) et la connaissance de P(X = xk ) pour tous les k permet ainsi de calculer P(X ∈ A) pour toute partie A de {x1 , . . . , xn }. Cela nous conduit donc à la définition suivante : Soit X une variable aléatoire discrète à valeurs dans {x1 , x2 , . . . , xn }. On appelle loi ou distribution (de probabilité) de X la fonction qui associe à chaque xk la probabilité P(X = xk ).
Exemple 17. Un petit arbre fruitier produit au printemps entre 0 et 4 fruits, avec les probabilités suivantes : Nombre de fruits Probabilité
0 1/4
1 3/8
2 1/8
3 1/8
4 1/8
Le nombre de fruits est donc une variable aléatoire discrète qui prend la valeur 0 avec la probabilité 1/4, la valeur 1 avec la probabilité 3/8, etc. Notons qu’ici la variable aléatoire est à valeurs dans l’ensemble fini {0, 1, 2, 3, 4}. Un modèle plus élaboré aurait pu considérer la possibilité d’avoir un nombre quelconque de fruits (avec, par exemple, une probabilité très faible d’obtenir plus de (6)
98
Que l’on appelle séries numériques...
3.4. Variables aléatoires
4 fruits). Si nous avions adopté ce dernier modèle, la variable aléatoire « nombre de fruits » aurait alors été à valeurs dans l’ensemble infini formé de tous les nombres entiers {0, 1, 2, 3, 4, 5, 6, . . .}, mais elle n’en serait pas moins restée une variable aléatoire discrète. On a bien sûr P(X = 0) + . . . + P(X = 4) = 1. Ce résultat est très naturel. En effet, si A = {x1 , . . . , xn } représente les valeurs possibles d’une variable aléatoire discrète X, alors l’événement {X ∈ A} est certain (il a la probabilité 1) et s’écrit comme la réunion disjointe des événements {X = x1 }, . . . , {X = xn }, de sorte que la somme des probabilités de ces événements élémentaires doit être égale à P(X ∈ A) = 1.
3.4.2. Variables continues À la différence d’une variable discrète, une variable aléatoire continue prend ses valeurs dans un ensemble tellement gros qu’il est impossible d’établir la liste de ses éléments en les énumérant un à un. Un exemple typique est donné par R, l’ensemble de tous les nombres réels. Une variable aléatoire est dite continue si elle peut, a priori, prendre toutes les valeurs d’un intervalle I de R. Beaucoup de mesures de quantités physiques ou de résultats d’expériences aléatoires s’expriment en termes de variables continues. En voici quelques exemples : le poids d’un nouveau-né qui, exprimé en kilogrammes, prend ses valeurs dans l’intervalle [1 ; 5], la direction du vent, qui peut être n’importe quel angle entre 0 et 360 degrés, l’énergie dégagée par une réaction chimique, à valeurs dans [0 ; +∞[, la température d’un corps de l’univers, qui peut être positive ou négative, et qui prend ses valeurs (exprimées en degrés Celsius) dans l’intervalle ]−273, 15 ; +∞[, etc. La définition de la « loi de probabilité » d’une variable aléatoire continue pose un problème. En effet, la détermination de la loi d’une variable discrète utilisait de façon essentielle le fait que cette variable ne pouvait prendre qu’un nombre fini de valeurs. Mais que faire lorsque l’on ne peut plus énumérer ces valeurs ? En reprenant l’exemple de la direction du vent cité plus haut, on voit qu’il y a une « très grande infinité » de positions possibles entre 0 et 360 degrés et qu’il est donc impossible d’en établir la liste exhaustive (car il faudrait aussi considérer les angles fractionnaires comme 108,7548 degrés, par exemple). Dans un tel contexte, il est donc vain de vouloir énumérer une par une les probabilités. De plus, en supposant qu’une telle énumération soit possible, elle ne saurait en aucun cas 99
Chapitre 3. Probabilités
suffire à déterminer la probabilité que le vent souffle dans une direction comprise entre 20 et 30 degrés, car cette probabilité doit être la somme (infinie !) de toutes les probabilités des angles compris entre 20 et 30 degrés, quantité que nous sommes bien incapables de calculer (et, même, de définir !) Au lieu de désespérément chercher à calculer des probabilités individuelles, l’idée consiste à attribuer une probabilité à chaque intervalle de valeurs.
Exemple 18. En admettant, en première approximation, que le vent puisse indifféremment souffler dans une direction comme dans l’autre, on peut par exemple attribuer à chaque intervalle de bornes comprises entre 0 et 360 degrés une probabilité proportionnelle à la taille de cet intervalle, à la manière des probabilités que l’on a calculées plus haut lors de tirages de billes dans un sac. En désignant par X la variable aléatoire « direction du vent », on aboutit donc naturellement à des calculs du type : P(0 ≤ X ≤ 45) =
1 45 − 0 = , 360 8
ou encore
P(X < 120) =
120 1 = · 360 3
Le modèle présenté dans cet exemple est cependant simpliste, car il ne suppose aucune direction privilégiée pour le vent. En réalité, certaines régions sont plus souvent soumises à des vents du nord ou de l’ouest que du sud ou de l’est. Il est donc essentiel de construire un modèle probabiliste qui permette de privilégier à loisir certaines valeurs plutôt que d’autres. Le concept central pour les variables aléatoires continues est donc le suivant : Soit X une variable aléatoire continue à valeurs dans un intervalle I de R. On appelle densité (de probabilité) de X une fonction f positive ou nulle telle que, pour tout intervalle J inclus dans I, on a f (x) dx. P(X ∈ J) = J
En particulier,
P(X ∈ I) =
f (x) dx = 1. I
Comme la définition le précise, une densité de probabilité est toujours positive ou nulle (on ne veut pas risquer, en l’intégrant sur un intervalle, d’obtenir des probabilités négatives) et son intégrale sur I (l’ensemble de toutes les valeurs possibles de X) vaut toujours 1 ({X ∈ I} est un événement de probabilité 1 puisque X prend toutes ses valeurs dans I). La figure 3.2 présente un exemple de 100
3.4. Variables aléatoires
f (x)
a
b
x
Figure 3.2. Un exemple de densité de probabilité d’une variable aléatoire continue.
représentation graphique de la densité f d’une variable aléatoire continue X, à valeurs dans R. L’aire de la zone hachurée correspond donc à la probabilité que X prenne une valeur entre a et b. Lorsque l’on prend a = b, on constate que a f (x) dx = 0. P(a ≤ X ≤ a) = P(X = a) = a
En d’autres termes, la probabilité qu’une variable aléatoire continue pour laquelle il existe une densité prenne une valeur a donnée est toujours égale à 0. En conjonction avec la propriété fondamentale des probabilités (paragraphe 3.2.3) et le fait que {a ≤ X ≤ b} est la réunion disjointe de {a < X < b}, {X = a} et {X = b}, cela permet par exemple de voir que P(a ≤ X ≤ b) = P(a < X < b) + P(X = a) + P(X = b) = P(a < X < b). Ainsi, lorsque X est une variable aléatoire continue possédant une densité, il est indifférent d’inclure ou d’exclure les bornes lorsque l’on calcule la probabilité que la variable aléatoire prenne ses valeurs dans un intervalle considéré.
Exemple 19. Reprenons le cas de la direction du vent (exemple 18), et considérons la fonction f donnée par f (x) = 0,001 si 0 ≤ x < 100, f (x) = 0,01 si 101
Chapitre 3. Probabilités
100 ≤ x < 160 et f (x) = 0,0015 si 160 ≤ x ≤ 360. Définissons alors la probabilité que la direction X du vent soit comprise entre deux nombres réels a et b par
b
P(a ≤ X ≤ b) =
f (x) dx, a
c’est-à-dire l’aire sous f entre a et b. On constate alors que, bien que les intervalles [0 ; 45] et [90 ; 135] aient la même taille, leurs probabilités P(0 ≤ X ≤ 45) = 0,045 et P(90 ≤ X ≤ 135) = 0,36 ne sont pas identiques (elles l’étaient dans le premier modèle à directions indifférentes), ce qui traduit simplement le fait que le vent a plus de chances de souffler entre 90 et 135 degrés qu’entre 0 et 45 degrés.
Exemple 20. La durée de vie d’un atome d’un élément radioactif peut être modélisée par une variable aléatoire continue X qui admet pour densité la fonction f définie sur R par −λx λe si x ≥ 0 f (x) = 0 sinon, où λ est une constante strictement positive. On dit que X suit une loi exponentielle de paramètre λ (le paragraphe 3.6.4 présente le graphe de f pour diverses valeurs de λ). On vérifie bien que, quel que soit λ > 0, on a
+∞
f (x) dx =
−λx
λe 0
R
+∞
dx =
(−e−λx ) dx = 1
0
+∞ en (car e−λx tend vers 0 à l’infini et vaut 1 en 0 – on peut calculer l’intégrale 0 A calculant 0 et en faisant tendre A vers l’infini). Choisissons par exemple λ = 0,2. Nous pouvons alors, en guise d’illustration, évaluer la probabilité qu’un atome ait une durée de vie supérieure à 4 secondes : P(X ≥ 4) = λ
+∞
e−λx dx =
4
4
+∞
(−e−λx ) dx = (−0) − (−e−4λ ) = e−0,8 = 0,449.
De la même façon, la probabilité pour qu’un atome ait une durée de vie comprise entre 1 et 3 secondes s’écrit 3 λe−λx dx = (−e−λ×3 ) − (−e−λ×1 ) = e−0,2 − e−0,6 P(1 ≤ X ≤ 3) = 1
= 0,270. 102
3.5. Caractéristiques des variables aléatoires
Nous admettrons que le comportement d’une variable aléatoire continue X est entièrement déterminé lorsque l’on connaît les probabilités P(X ∈ J) pour tout intervalle J. On appelle alors cet ensemble de nombres réels la loi ou la distribution (de probabilité) de X. Comme chaque probabilité P(X ∈ J) peut être calculée à l’aide de la densité de probabilité de X, cette dernière caractérise donc entièrement la loi de la variable aléatoire continue. Il existe certaines variables aléatoires continues (que l’on appelle singulières) qui n’admettent pas de densité de probabilité, mais elles n’apparaîtront jamais dans le cadre du présent ouvrage. À partir de maintenant, chacune des variables aléatoires continues que nous considérerons aura une densité de probabilité.
3.5. Caractéristiques des variables aléatoires 3.5.1. Fonction de répartition En termes imagés, les probabilités individuelles (pour une variable aléatoire discrète) et la densité de probabilité (pour une variable continue) peuvent s’interpréter comme les « signatures » respectives du phénomène ou de l’expérience aléatoire représentés par X. Il s’agit de deux outils puissants et quasiment incontournables dans la modélisation des phénomènes naturels. On ne peut toutefois s’empêcher de regretter le manque d’unité entre ces deux notions et de rêver à l’existence d’un concept unique qui permette encore de décrire le phénomène aléatoire représenté par X. Ce concept existe, c’est celui de fonction de répartition, qui se définit donc de manière identique pour les variables aléatoires discrètes ou continues. On appelle fonction de répartition d’une variable aléatoire X (discrète ou continue) la fonction F définie, pour tout x dans R, par F (x) = P(X ≤ x). La fonction de répartition de X calculée en x correspond donc à la probabilité pour que X prenne une valeur inférieure ou égale à x. En anglais, on l’appelle « cumulative distribution function », pour bien souligner le fait que F renvoie des probabilités « cumulées » (jusqu’à x). On peut montrer, à l’aide d’outils mathématiques adaptés, qu’il est équivalent de connaître F ou la loi de X : on dit alors que F caractérise la loi de X. 103
Chapitre 3. Probabilités
Les fonctions de répartition vérifient les propriétés suivantes : Soit F la fonction de répartition associée à la variable aléatoire X (discrète ou continue). Alors 1. F prend ses valeurs dans l’intervalle [0 ; 1] ; 2. F est une fonction croissante ; 3. F tend vers 0 lorsque x tend vers −∞ ; 4. F tend vers 1 lorsque x tend vers +∞. La première propriété est évidente puisqu’une probabilité est toujours comprise entre 0 et 1. La deuxième découle de la propriété de base des probabilités et du fait suivant : si x ≤ y, alors P(X ≤ x) ≤ P(X ≤ x) + P(x < X ≤ y) = P(X ≤ y), puisque P(x < X ≤ y) ≥ 0. Les deux dernières propriétés sont un peu plus délicates à prouver rigoureusement, mais se comprennent intuitivement assez bien : si x tend vers −∞, alors il est de moins en moins probable que le phénomène aléatoire X prenne des valeurs inférieures à x, de sorte que P(X ≤ x) se rapproche de 0 ; inversement, si x tend vers +∞, il est de plus en plus probable que X prenne des valeurs plus petites que x et donc P(X ≤ x) aura tendance à se rapprocher de 1 (qui mesure la probabilité d’un événement certain). Lorsque la variable aléatoire X est discrète et prend ses valeurs dans l’ensemble {x1 , x2 , . . . , xn }, la fonction de répartition reste constante entre deux valeurs possibles et présente un saut de discontinuité dès lors que l’on arrive sur une des valeurs xi . En xi , la hauteur du saut est égale à la probabilité associée à ce point.
Exemple 21. La variable aléatoire « nombre de fruits par arbre » (exemple 17) est résumée par le tableau suivant : x F (x)
0 1/4
1 5/8
2 6/8
3 7/8
4 1
La représentation graphique de la fonction de répartition F est donnée par la figure 3.3. Dans le cas d’une variable aléatoire continue admettant une densité f , on peut écrire (pourquoi ?) x
f (t) dt,
F (x) = −∞
104
3.5. Caractéristiques des variables aléatoires
F (x) 1 7/8 6/8 5/8
1/4
0
1
2
3
4
x
Figure 3.3. Fonction de répartition de la variable aléatoire « nombre de fruits par arbre ».
ce qui montre que la fonction de répartition F est elle-même continue (comme l’illustre la figure 3.4) et même, mieux, dérivable avec F = f . On montre par exemple que la fonction de répartition associée à une variable aléatoire de loi exponentielle de paramètre λ > 0 (définie dans l’exemple 20) a pour expression F (x) = 1 − e−λx pour x ≥ 0 et F (x) = 0 pour x < 0, et l’on vérifie ainsi sans difficulté que, pour tout x de R, F (x) = f (x). Le lecteur pourra consulter l’exercice 3 du chapitre 4 à ce sujet.
3.5.2. Espérance Un phénomène modélisé par une variable aléatoire X peut donc prendre a priori toute une série de valeurs, et la loi (ou la densité) de X fournit alors les probabilités de tel ou tel autre jeu de valeurs. Cependant, même pour les phénomènes aléatoires, on a l’habitude de considérer une « tendance générale », c’est-à-dire une quantité particulière permettant de décrire, même grossièrement, le comportement du phénomène.
Exemple 22. Le nombre d’enfants qu’une femme peut avoir au cours de sa vie est une variable aléatoire discrète X, mais on dit bien couramment que le « nombre moyen » d’enfants par femme dans les pays développés doit être de 2,1 pour que la population se maintienne au même niveau. 105
Chapitre 3. Probabilités
F (x) 1
x Figure 3.4. Un exemple de fonction de répartition d’une variable aléatoire continue.
De même, si la température à Montpellier un jour d’été est modélisée par une variable aléatoire Y , cela ne trouble personne de dire que « la température moyenne » en été à Montpellier est de 22,6 degrés Celsius. Le cas le plus élémentaire est celui d’une variable aléatoire discrète X prenant un nombre fini de valeurs {x1 , x2 , . . . , xn }. La valeur moyenne, ou espérance, de X est alors facile à définir : Soit X une variable aléatoire discrète, prenant ses valeurs dans l’ensemble {x1 , . . . , xn }. L’espérance de X, notée E(X), est la moyenne de ces valeurs pondérées par leurs probabilités respectives. En d’autres termes, E(X) = x1 P(X = x1 ) + x2 P(X = x2 ) + . . . + xn P(X = xn ). L’espérance intègre dans son calcul la fréquence avec laquelle X prend ses différentes valeurs. Ainsi, une valeur associée à une forte probabilité jouera un rôle prépondérant dans la moyenne, contrairement aux valeurs moins souvent prises par X.
Exemple 23. En reprenant l’exemple 17 du nombre de fruits par arbre, l’espérance de la variable aléatoire en question s’écrit 3 1 1 1 12 1 = 1,5. E(X) = 0 × + 1 × + 2 × + 3 × + 4 × = 4 8 8 8 8 8 106
3.5. Caractéristiques des variables aléatoires
On peut donc dire que, en moyenne, les arbres portent 1,5 fruits. Remarquons au passage que cette moyenne ne correspond pas à une quantité physiquement observable puisqu’un arbre ne saurait porter des morceaux de fruits ! L’expression de la moyenne pour une variable aléatoire continue est moins évidente : comment calculer la moyenne d’une infinité de nombres réels, qui représentent toutes les valeurs prises par X ? Pour justifier (de manière imprécise) la définition qui va suivre, supposons, pour simplifier, que X prenne ses valeurs dans l’intervalle [a ; b]. Coupons alors cet intervalle en petits sous-intervalles de longueur δ, de la façon suivante : [a ; b] = [a ; a + δ[ ∪ [a + δ ; a + 2δ[ ∪ . . . ∪ [b − δ ; b]. Considérons maintenant une variable aléatoire Y qui prend les valeurs a, a + δ, . . . , b − δ, avec les probabilités respectives P (X ∈ [a ; a + δ[) , P (X ∈ [a + δ ; a + 2δ[) , . . . , P (X ∈ [b − δ ; b]) . La variable Y ainsi définie est discrète et son espérance s’écrit donc E(Y ) = aP (X ∈ [a ; a + δ[) + . . . + (b − δ)P (X ∈ [b − δ ; b]) b a+δ f (x) dx + . . . + (b − δ) f (x) dx. =a a
b−δ
Lorsque δ est petit, il est intuitivement clair que Y a un comportement aléatoire proche de celui de X. Il est donc raisonnable de considérer que l’espérance de Y est une approximation de l’espérance de X, et qu’elle est d’autant meilleure que δ est petit. Or, lorsque δ est petit, et pour tout k, x ≈ a + kδ pour tout x dans [a + kδ ; a + (k + 1)δ], de sorte que
a+(k+1)δ
(a + kδ)
a+(k+1)δ
f (x) dx = a+kδ
(a + kδ)f (x) dx ≈
a+(k+1)δ
xf (x) dx.
a+kδ
a+kδ
Ainsi (si δ est petit),
a+δ
E(Y ) ≈
xf (x) dx + . . . + a
b
b
xf (x) dx = b−δ
xf (x) dx a
107
Chapitre 3. Probabilités
(relation de Chasles, cf. le paragraphe 1.9.3). Ce procédé conduit naturellement à la définition suivante : Soit X une variable aléatoire continue, prenant ses valeurs dans un intervalle I de R et de densité de probabilité f . Alors l’espérance de X est définie par E(X) = xf (x) dx. I
Exemple 24. Reprenons l’exemple 19 concernant la direction du vent. Dans ce cas I = [0 ; 360] et, en utilisant simplement la définition de la densité f de X, nous pouvons écrire 360 xf (x) dx E(X) = 0 160 360 100 x × 0,001 dx + x × 0,01 dx + x × 0,0015 dx = 0 100 160 1 1 1 2 2 2 = 0,001 × × 100 + 0,01 × × 160 − × 100 2 2 2 1 1 + 0,0015 × × 3602 − × 1602 = 161. 2 2 La direction moyenne du vent, dans ce modèle, est donc de 161 degrés. Les deux propriétés qui suivent sont appelées linéarité de l’espérance. Si X et Y sont des variables aléatoires (discrètes ou continues) et α est un nombre réel fixé, on a 1. E(αX) = αE(X) ; 2. E(X + Y ) = E(X) + E(Y ). La première propriété est assez facile à prouver dans le cas d’une variable aléatoire discrète X (si {x1 , . . . , xn } sont les valeurs de X, il suffit de constater que αX est une variable aléatoire discrète prenant les valeurs {αx1 , . . . , αxn } avec les probabilités P(X = x1 ), . . . , P(X = xn ), et appliquer la définition de l’espérance). On peut alors se convaincre, en examinant la manière dont on a construit l’espérance d’une variable aléatoire continue, que cette propriété reste vraie dans le cas continu. La seconde propriété est sensiblement plus compliquée à démontrer. 108
3.5. Caractéristiques des variables aléatoires
3.5.3. Variance Si l’espérance d’une variable aléatoire représente la tendance centrale du phénomène aléatoire représenté par X, elle ne donne en revanche aucune information sur la dispersion de X autour de cette valeur moyenne.
Exemple 25. Considérons une variable aléatoire X discrète, prenant la valeur 0 avec probabilité 1/3 et la valeur 3 avec probabilité 2/3. Considérons aussi une variable aléatoire discrète Y prenant les deux valeurs −100 et 104 avec les probabilités respectives 1/2 et 1/2. Les deux variables X et Y ont alors la même espérance 2 (pourquoi ?), mais leurs valeurs ne se répartissent pas du tout de la même manière autour de 2 : celles de X en restent relativement proches, tandis que celles de Y peuvent s’en éloigner considérablement. Afin de remédier à ce problème, il semble utile d’introduire une autre quantité qui nous permette de mesurer l’étendue de X autour de son espérance. Le cas d’une variable aléatoire discrète est, ici encore, le plus simple à considérer. Soit X une variable aléatoire discrète, prenant ses valeurs dans l’ensemble {x1 , . . . , xn }. La variance de X, notée V(X), est la moyenne des carrés des écarts à l’espérance pondérés par leurs probabilités respectives. En d’autres termes, V(X) = (x1 − E(X))2 P(X = x1 ) + . . . + (xn − E(X))2 P(X = xn ). On constate que V(X) représente bien une mesure de l’écart des valeurs de X par rapport à son espérance : si une valeur xk est assez éloignée de l’espérance, (xk −E(X))2 sera plutôt grand (et positif) et contribuera donc à l’augmentation de la variance, et ceci d’autant plus que la probabilité associée à xk est élevée. Notons qu’il aurait été possible de choisir un autre exposant que 2 dans (xk − E(X))2 , mais le choix de cet exposant, très pratique pour les calculs, s’est naturellement imposé.
Exemple 26. Reprenons une dernière fois l’exemple 17 de l’arbre fruitier. L’espérance de X a été calculée page 106 et vaut 1,5. La variance vaut 1 3 1 + (1 − 1,5)2 × + (2 − 1,5)2 × 4 8 8 1 1 2 2 + (3 − 1,5) × + (4 − 1,5) × 8 8 7 = = 1,75. 4
V(X) = (0 − 1,5)2 ×
109
Chapitre 3. Probabilités
Le cas d’une variable aléatoire X continue pose le même problème que précédemment. Le lecteur pourra vérifier qu’en adaptant la démarche ayant conduit à la définition de l’espérance dans le cas continu, on aboutit à la définition suivante : Soit X une variable aléatoire continue, prenant ses valeurs dans un intervalle I de R et de densité de probabilité f . Alors la variance de X est définie par V(X) = (x − E(X))2 f (x) dx. I
Exemple 27. Calculons la variance de la variable aléatoire « direction du vent » de l’exemple 19. L’espérance, que nous avons déjà évaluée page 108, est égale à 161. On trouve 360 (x − 161)2 f (x) dx V(X) = 0 160 100 2 (x − 161) dx + 0,01 (x − 161)2 dx = 0,001 0 100 360 (x − 161)2 dx. + 0,0015 160
b Une primitive de (x − 161)2 est 13 (x − 161)3 , de sorte que a (x − 161)2 dx = 13 ((b − 161)3 − (a − 161)3 ), ce qui permet de trouver, tous calculs faits, V(X) = 6012,33. On constate sur cet exemple que la variance peut avoir une taille incomparable avec l’espérance ou les valeurs de X : dans le cas de la direction du vent, X, qui prend ses valeurs entre 0 et 360, admet une espérance de 161, alors que sa variance dépasse 6000 ! Ce phénomène trouve son explication dans les unités : l’espérance a la même unité que les valeurs de X alors que la variance est homogène au carré de ces valeurs. On ne peut donc raisonnablement songer à comparer l’ordre de grandeur d’une espérance et d’une variance. Pour remédier à ce défaut, on définit l’écart-type : L’écart-type d’une variable aléatoire X (discrète ou continue) est la racine carrée de la variance de X. On le note σ(X) = V(X). Il se mesure dans les mêmes unités que X.
110
3.5. Caractéristiques des variables aléatoires
Exemple 28. Dans le cas de la direction du vent, on a donc σ(X) = 6012,33 = 77,54 degrés, qui est bien du même ordre de grandeur que les valeurs (ou l’espérance) de X. Pour conclure, mettons le lecteur en garde contre d’éventuelles tentations consistant à étendre à la variance les propriétés de linéarité de l’espérance : il n’est pas vrai, en général, que V(X + Y ) = V(X) + V(Y ) ou que V(αX) = αV(X). On vérifie néanmoins facilement que V(αX) = α2 V(X) (voir l’exercice 11). Malheureusement, aucune formule aussi sympathique n’existe en général pour V(X + Y ) (voir en particulier la correction de l’exercice 12)...
3.5.4. Indépendance entre variables aléatoires La notion d’indépendance, que nous avons introduite au paragraphe 3.2.7 pour les événements, se transpose sans difficulté aux variables aléatoires. Deux variables aléatoires X et Y (discrètes ou continues) sont dites indépendantes si, quels que soient les intervalles I et J de R, les événements {X ∈ I} et {Y ∈ J} sont indépendants. En d’autres termes, P(X ∈ I, Y ∈ J) = P(X ∈ I)P(Y ∈ J). Dire que les deux variables aléatoires X et Y sont indépendantes signifie donc que les réalisations de l’une n’affectent pas les réalisations de l’autre. Les variables aléatoires indépendantes possèdent de nombreuses propriétés agréables. Par exemple (cf. exercice 12) : Si les variables aléatoires X et Y sont indépendantes, alors E(XY ) = E(X)E(Y ) et V(X + Y ) = V(X) + V(Y ). La notion d’indépendance se généralise à n variables aléatoires : on dira que les variables aléatoires X1 , . . . , Xn sont (mutuellement) indépendantes si, pour tous intervalles I1 , . . . , In de R, P(X1 ∈ I1 , X2 ∈ I2 , . . . , Xn ∈ In ) = P(X1 ∈ I1 )P(X2 ∈ I2 ) . . . P(Xn ∈ In ). 111
Chapitre 3. Probabilités
Les collections de n variables aléatoires indépendantes jouent un rôle fondamental dans la modélisation statistique, au sein de laquelle elles sont appelées échantillons. Nous reviendrons beaucoup plus en détail sur cette notion très importante dans le chapitre 4.
3.6. Quelques exemples de lois classiques Certaines lois ou densités de probabilité interviennent de manière récurrente dans bon nombre de modèles, et il est donc important de bien les connaître. Nous en avons déjà rencontré quelques-unes dans les exemples, et nous en rencontrerons encore dans les chapitres suivants. Le présent paragraphe propose un petit catalogue de ces lois ou densités de probabilité, en précisant à chaque fois leurs caractéristiques principales. Au préalable, il est essentiel de bien comprendre que, dans la théorie des probabilités, la loi de la variable aléatoire contient toute l’information susceptible de nous intéresser (espérance, variance, probabilités...). De manière un peu caricaturale, on dit souvent que la variable aléatoire elle-même (c’est-à-dire le phénomène naturel que l’on étudie) n’a que très peu d’intérêt, seule sa loi en a un. Ce point de vue peut choquer lorsqu’on le rencontre pour la première fois, et nous invitons donc le lecteur à se convaincre de son bien-fondé. Familiarisons-nous d’emblée avec une notation commode, dont nous ferons un usage constant dans les chapitres à venir : si L désigne une loi de probabilité (représentée, donc, par la suite des valeurs P(X = xk ) dans le cas discret ou par une densité f dans le cas continu), la notation X∼L signifie que la loi de la variable aléatoire X est L (on dit encore que X suit la loi L). La notation P(L ≥ a) est alors un raccourci pour désigner le nombre réel P(X ≥ a) lorsque X suit la loi L. On utilisera de même les écritures P(a ≤ L ≤ b), etc.
3.6.1. Loi de Bernoulli La loi de Bernoulli est la loi d’une variable aléatoire discrète ne prenant que les deux valeurs 1 et 0, la première avec une probabilité p, la seconde avec une probabilité 1−p. On note cette loi B(p) et le nombre réel p est appelé paramètre de la loi. 112
3.6. Quelques exemples de lois classiques
On remarquera que p appartient toujours à l’intervalle [0 ; 1]. Espérance et variance d’une loi de Bernoulli se calculent aisément : Si X ∼ B(p), alors E(X) = p et V(X) = p(1 − p). Les variables aléatoires (on dit aussi parfois épreuves) de Bernoulli servent de modèle mathématique à beaucoup de phénomènes réels : sexe d’un bébé à la naissance (une épreuve de Bernoulli qui vaut 1 si le bébé est une fille et 0 si c’est un garçon, et dont le paramètre p peut être choisi, en première approximation, égal à 1/2), tirage à pile ou face d’une pièce de monnaie, vérification de la qualité d’un produit dans une chaîne de production (un prélèvement aléatoire est une épreuve de Bernoulli qui renvoie 1 si la marchandise est correcte et 0 si elle est défectueuse, avec un paramètre p en général proche de 1), etc. Le lecteur imaginera sans difficulté d’autres exemples pour se convaincre de l’utilité et de l’importance de cette loi de probabilité.
3.6.2. Loi binomiale La loi binomiale de paramètres n (entier) et p (nombre réel dans [0 ; 1]) est la loi de la somme de n variables aléatoires mutuellement indépendantes suivant chacune une loi B(p). On note cette loi B(n, p). En d’autres termes, une variable aléatoire X suit une loi binomiale de paramètres n et p si X a la même loi que X1 + . . . + Xn où les Xi sont indépendantes et suivent chacune une loi B(p). Chaque Xi ne peut prendre que les valeurs 1 ou 0 (avec les probabilités respectives p et 1 − p), donc X prend ses valeurs dans l’ensemble {0, . . . , n}. En outre, un raisonnement facile montre que P(X = k) = Cnk pk (1 − p)n−k
pour tout k = 0, . . . , n,
où Cnk est le coefficient binomial usuel, qui donne son nom à la loi. Les propriétés de linéarité de l’espérance et le fait que les Xi sont indépendantes conduisent au résultat suivant : Si X ∼ B(n, p), alors E(X) = np et V(X) = np(1 − p). On parle souvent, en lieu et place de la loi binomiale, de suite d’épreuves de Bernoulli. 113
Chapitre 3. Probabilités
Exemple 29. Intéressons-nous par exemple à la loi de probabilité du nombre de garçons dans une famille de quatre enfants, en admettant que la probabilité pour qu’un enfant soit un garçon est 1/2 et que le sexe d’un enfant est indépendant de celui du précédent. La variable aléatoire « nombre de garçons » suit alors une loi B(4,1/2), dont les probabilités sont explicitées dans le tableau suivant : X ∼ B(4,1/2) Probabilité
0
1
2
3
4
C40 (1/2)4
C41 (1/2)4
C42 (1/2)4
C43 (1/2)4
C43 (1/2)4
= 1/16
= 4/16
= 6/16
= 4/16
= 1/16
Comme on s’y attend, une famille de quatre enfants comprend donc en moyenne 4 × 1/2 = 2 garçons. La probabilité d’avoir au moins un garçon est quant à elle égale à 4/16 + 6/16 + 4/16 + 1/16 = 15/16.
3.6.3. Loi de Poisson La loi de Poisson de paramètre λ > 0 est la loi d’une variable aléatoire discrète X prenant les valeurs entières positives 0, 1, . . . , k, . . . avec les probabilités respectives λk P(X = k) = e−λ · k! On note cette loi P(λ). Une variable aléatoire qui suit une loi de Poisson peut, a priori, prendre un nombre infini de valeurs. Il est néanmoins possible d’établir la liste de ces valeurs, ce qui assure que la variable aléatoire est bien discrète. Nous admettrons le résultat suivant : Si X ∼ P(λ), alors E(X) = λ et V(X) = λ. La loi de Poisson convient particulièrement bien au comptage d’événements situés dans le temps ou dans l’espace. On peut par exemple citer le nombre de particules émises par une substance radioactive, le nombre d’appels téléphoniques émis pendant un certain intervalle de temps, le nombre de bactéries contenues dans une préparation microscopique ou le nombre d’hippopotames dans une rivière.
Exemple 30. La loi de Poisson peut aussi être définie comme limite (en un certain sens) d’une loi binomiale où p est petit (on parle d’événements rares) et n grand 114
3.6. Quelques exemples de lois classiques
(suite d’observations nombreuses). Le paramètre de la loi est alors λ ≈ np. Pour illustrer ce mécanisme important, considérons par exemple un litre de liquide qui contient 105 bactéries, et dont on prélève 1 mm3 = 10−6 . La probabilité pour qu’une bactérie donnée soit dans le volume prélevé est (à condition que les bactéries soient réparties au hasard dans le liquide) 1/106 . Comme nous avons donc 105 bactéries au total, le nombre de bactéries contenues dans le prélèvement est régi par une loi binomiale X de paramètres n = 105 et p = 10−6 . Un calcul montre alors que P(X = 0) = 0,90, P(X = 1) = 0,09, P(X = 2) = 0,0045, P(X = 3) = 0,00015... On voit que la probabilité P(X = k) décroît très vite lorsque k augmente. La loi binomiale se confond alors, dans ce cas, avec la loi de Poisson de paramètre λ = np = 0,1. Pour s’en convaincre, il suffit de calculer P(P(λ) = 0) = e−λ
λ0 ≈ 0,905 0!
P(P(λ) = 1) = e−λ
λ1 ≈ 0,090 1!
P(P(λ) = 2) = e−λ
λ2 ≈ 0,0045 2!
P(P(λ) = 3) = e−λ
λ3 ≈ 0,00015. 3!
On constate que les probabilités de X et celles de P(0, 1) se confondent avec une précision remarquable.
3.6.4. Loi exponentielle
Une variable aléatoire continue X à valeurs dans R suit une loi exponentielle de paramètre λ > 0 si sa densité de probabilité s’écrit −λx si x ≥ 0, λe f (x) = 0 sinon. On note cette loi E(λ). Observons que la probabilité qu’une telle variable prenne des valeurs négatives est égale à 0 (sa densité est identiquement nulle sur ]−∞ ; 0]), de sorte que l’on peut considérer que X ne prend ses valeurs que dans l’intervalle [0 ; +∞[. L’exercice 3 du chapitre 4 propose une technique pour calculer l’espérance et la 115
Chapitre 3. Probabilités
5
λ=5
4
λ=2
3
λ=1
2
1
0
1
2
3
4
Figure 3.5. Densité de probabilité d’une loi exponentielle, pour différentes valeurs du paramètre λ.
variance d’une variable aléatoire suivant une loi exponentielle. Le résultat est le suivant : Si X ∼ E(λ), alors E(X) =
1 λ
et V(X) =
1 λ2 ·
La loi exponentielle est souvent employée pour modéliser des durées, comme par exemple la durée de vie de composants électroniques ou le temps de survie de malades atteints d’une pathologie grave. La radioactivité constitue un autre domaine privilégié important de la loi exponentielle (cf. l’exemple 20). Le paramètre λ s’appelle alors la constante de désintégration et la durée de vie moyenne 1/λ est le temps caractéristique.
3.6.5. Loi normale Une variable aléatoire continue X à valeurs dans R suit une loi normale de paramètres m (nombre réel) et σ 2 (nombre réel strictement positif ) si sa 116
3.6. Quelques exemples de lois classiques
0.4
m = 0, σ = 1 m = −2, σ = 1.5 0.3
0.2
m = 0, σ = 3
0.1
-4
-2
0
2
4
Figure 3.6. Densité de probabilité d’une loi normale, pour différentes valeurs des paramètres m et σ.
densité de probabilité s’écrit f (x) = √
1 2πσ 2
e−
(x−m)2 2σ 2
.
On note cette loi N (m, σ 2 ), et on l’appelle également loi gaussienne, loi de Laplace-Gauss, ou encore loi de Gauss. L’étude de la fonction f a été faite en détail dans l’exemple 22 du chapitre 1. Les calculs permettant d’obtenir l’espérance et la variance d’une loi normale sont un peu délicats (voir [11]), et nous ne citons donc que les résultats : Si X ∼ N (m, σ 2 ), alors E(X) = m et V(X) = σ 2 . Les deux paramètres de la densité normale ne sont donc autres que son espérance et sa variance. L’usage veut, lorsque l’on introduit une telle densité de 117
Chapitre 3. Probabilités
probabilité, de le faire en disant « soit une densité de probabilité normale d’espérance (ou de moyenne) m et de variance σ 2 », ce qui a le double avantage de préciser√ses paramètres tout en rappelant leur signification.2 L’écart-type est V(X) = σ 2 = σ, ce qui explique la notation (naturelle) « σ » pour le second paramètre. Lorsque m = 0 et σ = 1, on dit que la loi normale est centrée réduite, et on la note bien entendu N (0, 1). Nous utiliserons par la suite, à de nombreuses reprises, deux propriétés importantes des lois normales : 1. Si X suit une loi N (m, σ 2 ), alors N (0, 1).
X−m σ
suit une loi normale centrée réduite
2. Si X1 , . . ., Xn sont des variables aléatoires indépendantes suivant chacune une loi normale N (m, σ 2 ), alors la variable aléatoire 1 Z = (X1 + . . . + Xn ) n 2 suit une loi normale N m, σn . La première propriété est traitée dans l’exercice 11 ; la seconde se démontre par la même technique que dans cet exercice (changement de variables) mais impose de savoir calculer des intégrales à plusieurs variables, sujet que nous n’aborderons pas dans ce livre (voir par exemple [11]). Un très grand nombre de distributions « naturelles » (taille, poids, température, dosages sanguins divers, etc.) sont proches de la loi normale. Le théorème central limite (voir le paragraphe 4.7 du chapitre 4 pour plus de précisions mathématiques) est parfois invoqué pour justifier cette constatation : en effet, si un phénomène peut être considéré comme la résultante d’un grand nombre de micro-phénomènes aléatoires, indépendants et additifs, la somme de toutes ces impulsions doit être distribuée selon une loi proche de la loi normale. Des circonstances semblables se rencontrent dans la pratique dans beaucoup de domaines. Si les micro-phénomènes sont multiplicatifs, c’est le logarithme de la variable observée qui doit être distribué normalement (d’où l’utilisation de la loi log-normale, très fréquente en biologie et en médecine).
3.6.6. Trois lois utiles en statistique Nous terminons ce petit catalogue en donnant les propriétés élémentaires de trois lois qui jouent un rôle important en statistique. Nous aurons l’occasion de rencontrer les deux premières dès le chapitre 5 et la dernière dans le chapitre 7. 118
3.6. Quelques exemples de lois classiques
Loi du χ2 (khi-deux)
Soient p variables aléatoires X1 , . . . , Xp indépendantes et suivant la même loi N (0, 1). Par définition, la variable aléatoire Z=
p
Xi2
i=1
suit une loi du χ2 (khi-deux) à p degrés de liberté. On note cette loi χ2 (p). On déduit immédiatement de cette définition que la somme de deux variables aléatoires indépendantes de lois respectives χ2 (p1 ) et χ2 (p2 ) suit encore une loi χ2 (p1 + p2 ). On peut aussi montrer que la densité de probabilité d’une variable aléatoire de loi χ2 (p) a pour expression
p 1 −1 − x2 2 e si x ≥ 0, p/2 Γ(p/2) x 2 f (x) = 0 sinon, où, pour tout t > 0,
Γ(t) =
+∞
xt−1 e−x dx.
0
Cette densité, nulle sur ]−∞ ; 0], est dissymétrique et tend à devenir symétrique lorsque p augmente (voir la figure 3.7). Enfin, nous admettrons que Si X ∼ χ2 (p), alors E(X) = p et V(X) = 2p.
Loi de Student
Soient U et Z deux variables aléatoires indépendantes telles que U ∼ N (0, 1) et Z ∼ χ2 (p). Par définition, la variable aléatoire U T =
Z p
suit une loi de Student à p degrés de liberté. On note cette loi T (p). 119
Chapitre 3. Probabilités
p=2
0.4
p=3 p = 10 0.2
p = 30
-10
0
20
40
Figure 3.7. Densité de probabilité d’une loi du χ2 , pour différentes valeurs du nombre de degrés de liberté p.
La densité de probabilité d’une variable aléatoire de loi T (p) a pour expression Γ p+1 2 f (x) = (p+1)/2 · √ p x2 pπ Γ 2 1 + p L’allure de cette densité est similaire à celle de la densité de la loi normale N (0, 1), avec un étalement plus important (voir la figure 3.8). Cette différence s’estompe rapidement lorsque le nombre de degrés de liberté s’accroît, et devient négligeable pour p > 200. On retiendra que Si X ∼ T (p), alors E(X) = 0 pour p ≥ 2 et V(X) =
120
p p−2
pour p ≥ 3.
3.6. Quelques exemples de lois classiques
0.4
Loi normale N (0, 1)
0.2
p=2
p = 10 p = 50
-4
-2
0
2
4
Figure 3.8. Densité de probabilité d’une loi de Student, pour différentes valeurs du paramètre p. (La densité de la loi normale N (0, 1) est représentée en pointillés.)
Loi de Fisher-Snedecor Soient Y et Z deux variables aléatoires indépendantes telles que Y ∼ χ2 (p1 ) et Z ∼ χ2 (p2 ). Par définition, la variable aléatoire F =
Y /p1 Z/p2
suit une loi de Fisher-Snedecor (ou loi de Fisher) à p1 et p2 degrés de liberté. On note cette loi F(p1 , p2 ). La densité de probabilité, l’espérance et la variance d’une variable aléatoire de loi F(p1 , p2 ) ont une expression compliquée qu’il n’est pas utile de connaître. 121
Chapitre 3. Probabilités
On retiendra en revanche les propriétés élémentaire suivantes, qui seront utiles dans les chapitres consacrés à la statistique : 1. Si X ∼ F(p1 , p2 ), alors 1/X suit une loi F(p2 , p1 ). 2. Si X ∼ T (p), alors X 2 ∼ F(1, p). Les applications de la loi de Fisher sont nombreuses en statistique dès lors que l’on veut étudier le rapport de deux sommes de carrés de termes gaussiens indépendants. Ce sera typiquement le cas en régression et en analyse de variance, comme nous le verrons au chapitre 7.
3.7. Exercices Exercice 1 (Carré d’as) On tire 8 cartes dans un jeu de 52 cartes, que l’on a pris soin de bien battre au préalable. Quelle est la probabilité que, parmi ces 8 cartes, figurent les 4 as ? Exercice 2 (Anniversaires le même jour) Quelle est la probabilité pour que, dans un groupe de n personnes, deux personnes au moins aient la même date d’anniversaire ? (On considère que l’année a 365 jours, tous équiprobables.) On vérifiera que pour n ≥ 23 cette probabilité est supérieure à 12 . Exercice 3 (Malades fumeurs) Un service hospitalier accueille des malades, parmi lesquels 40 % sont atteints d’une maladie A, 30 % d’une maladie B et 30 % d’une maladie C (chaque patient n’est atteint que d’une seule maladie). Parmi les malades de A, la moitié sont des fumeurs, alors qu’il y en a 60 % parmi les malades de B et 40 % parmi les malades de C. Quelle est la proportion de fumeurs dans l’ensemble des malades ? Et quelle est la probabilité qu’un fumeur soit atteint de la maladie C ? Exercice 4 (Famille de deux enfants) 1. Une famille comporte deux enfants, dont un est un garçon. Quelle est la probabilité pour que l’autre enfant soit aussi un garçon ? 2. Un garçon prénommé Raphaël appartient à une famille qui comporte deux enfants. Quelle est la probabilité pour que Raphaël ait un frère ?
Exercice 5 (Filtre anti-spam) On étudie dans cet exercice un modèle très simple de filtre anti-spam pour le courrier électronique. On suppose pour cela que 30 % du courrier reçu s’apparente à du spam, et que 80 % du spam contient le mot « viagra ». À l’inverse, seul 1 % du courrier non spam contient ce mot. 122
Exercices
Le filtre est basique : dès qu’il repère le mot « viagra » dans un courrier électronique entrant, il considère ce dernier comme du spam et le range donc dans un répertoire ad hoc. Quelle est la probabilité qu’un courrier contenant le mot « viagra » soit bien du spam (et que le filtre ne se trompe donc pas en le traitant comme tel) ? Quelle est au contraire la probabilité qu’il n’en soit pas (et que le filtre le considère donc à tort comme du spam) ? Exercice 6 (Loi uniforme discrète) Lorsque l’on tire un chiffre au hasard entre 0 et 9, quels sont l’espérance, la variance et l’écart-type de la variable aléatoire X ainsi définie ? On dit que X suit une loi uniforme discrète sur {0, . . . , 9}.
Exercice 7 (Loi uniforme continue) On dit qu’une variable aléatoire continue X suit une loi uniforme sur [a ; b] si sa densité de probabilité s’écrit f (x) =
1 b−a
0
si a ≤ x ≤ b, sinon.
On note cette loi U([a ; b]). Donner une interprétation de la loi uniforme sur [a ; b], calculer E(X) et V(X) lorsque a = 0 et b = 1, puis expliciter et tracer la fonction de répartition F de X. Exercice 8 (Maturité des œufs d’un insecte) On suppose que la probabilité pour qu’un insecte ponde n œufs au cours de sa vie suit une loi de Poisson de paramètre λ > 0. On suppose aussi que les œufs pondus se développent indépendamment les uns des autres et qu’un œuf a une probabilité p ∈ [0 ; 1] d’arriver à maturité. Quelle est la probabilité pour que l’insecte ponde n œufs et qu’il y ait exactement k survivants ?
Exercice 9 (Qualité des diamants) Les diamants, qui peuvent contenir une grande variété d’impuretés, sont classés en cinq grandes catégories, du moins pur au plus pur, par un organisme spécialisé situé à Anvers. Chaque diamant ainsi classé reçoit un certificat d’authenticité qui constitue, en quelque sorte, sa carte d’identité pour tous les échanges mondiaux qui suivront. Nous supposerons dans cet exercice qu’un diamant est classé en catégorie 1 (la plus pure) si son degré de pureté est supérieur à 90 %. Le directeur d’une mine de diamants sait, par expérience, que la pureté d’un diamant sorti de sa mine suit une loi normale d’espérance 60 et d’écart-type 20. Il sait aussi qu’un diamant de catégorie 1 se vend, en moyenne, 10 000 dollars l’unité, alors que les diamants de catégorie inférieure se négocient à 40 000 dollars les dix. 1. Quelle est la probabilité pour qu’un diamant sorti de la mine soit classé en catégorie 1 ? (On donne P(N (0, 1) ≥ 1, 5) ≈ 0,0668.) 123
Chapitre 3. Probabilités
2. En supposant que la mine produit 3000 diamants par an, quelles sont l’espérance et la variance de la variable aléatoire « nombre de diamants classés en catégorie 1 pendant un an » ? (On supposera la pureté indépendante d’un diamant à l’autre.) 3. Quel est le gain moyen annuel de la mine ? Les exercices qui suivent ont pour objectif de justifier certains résultats théoriques énoncés sans démonstration dans le chapitre. Il ne s’agit donc pas d’« applications », mais plutôt de « compléments ». Bien que ces exercices permettent de mieux saisir les notions du cours, ils peuvent être omis lors d’une première lecture. Exercice 10 (Formule de décentrage de la variance) La variance d’une variable aléatoire de loi uniforme discrète sur l’ensemble {x1 , . . . , xn } a pour expression n 1 (xi − E(X))2 . σ2 = n i=1
Montrer que
1 2 xi − (E(X))2 , n n
σ2 =
i=1
et que σ2 =
n n 1 (xi − xj )2 . 2n2 i=1 j=1
La première des deux formules ci-dessus est appelée formule de décentrage de la variance. Elle s’écrit donc σ 2 = E(X 2 ) − (E(X))2 , et l’on montre sans difficulté qu’elle se généralise à une variable aléatoire de loi quelconque. Cet exercice sera poursuivi au chapitre 4, cf. l’exercice 7. Exercice 11 (Translation et dilatation d’une variable aléatoire) Soit X une variable aléatoire continue de densité f , et α et β deux nombres réels avec α = 0. On rappelle la formule de changement de variable dans une intégrale : si φ est une bijection dérivable de [α ; β] vers [a ; b] (a = φ(α) et b = φ(β)) et f une fonction définie sur [a ; b], alors
b
β
f (x) dx = a
124
α
f (φ(z)) φ (z) dz.
Exercices
1. Montrer que la variable aléatoire αX + β admet pour densité
x−β 1 |α| f ( α ).
2. Montrer que V(αX + β) = α2 V(X)(7) . 3. Déduire de 1. que si X ∼ N (m, σ 2 ), alors centrée réduite N (0, 1).
X−m σ
suit une loi normale
Exercice 12 (Espérance d’un produit) Montrer que si X et Y sont des variables aléatoires indépendantes et discrètes, prenant un nombre fini de valeurs, alors E(XY ) = E(X)E(Y ). (On pourra noter {x1 , . . . , xn } l’ensemble des valeurs de X et {y1 , . . . , yk } l’ensemble des valeurs de Y , constater que le produit XY prend les valeurs {x1 y1 , . . . , x1 yk , x2 y1 , . . . , x2 yk , . . . , xn y1 , . . . , xn yk } et supposer dans un premier temps que toutes ces valeurs sont deux à deux distinctes.) Le lecteur vérifiera que cette propriété implique que V(X + Y ) = V(X) + V(Y ) lorsque les variables aléatoires X et Y sont indépendantes. Le résultat est encore vrai si X et Y sont des variables indépendantes quelconques (discrètes ou continues), mais sa preuve dépasse le cadre de notre ouvrage. On vérifiera cependant, en donnant un contre-exemple, que si X et Y ne sont pas indépendantes alors l’égalité E(XY ) = E(X)E(Y ) n’est pas correcte en général (prendre X de loi B(1/2) et Y = X).
(7)
Ce dernier résultat est encore vrai, et plus simple à prouver, pour une variable aléatoire discrète.
125
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
4 DES PROBABILITÉS AUX STATISTIQUES
4.1. Problème : obésité chez les enfants L’obésité peut avoir de graves répercussions sur la santé des individus et sa prévention est aujourd’hui devenue un problème d’importance nationale. Le principal indicateur de mesure de l’obésité est l’indice de masse corporelle (IMC). Cet indice, qui tient compte de la morphologie du sujet, est égal à la masse (exprimée en kilogrammes) divisée par le carré de la taille de la personne (en mètres). Ainsi, par exemple, un individu qui pèse 75 kg et mesure 1,75 m a un IMC égal à 75/(1,752 ) = 24,29. Un IMC compris entre 18,5 et 25 est considéré comme normal. Entre 25 et 30, on parle de surpoids (surcharge pondérale) et, au-delà de 30, on parle d’obésité. Les enfants et les jeunes adolescents, naturellement attirés par les goûts sucrés et plus sensibles aux sollicitations publicitaires pour les aliments, sont une des cibles privilégiées de la maladie. Le tableau qui suit présente les résultats, en termes d’IMC, d’une enquête menée en région parisienne auprès d’enfants scolarisés de 4 à 12 ans. La première série de chiffres porte sur des élèves issus de zones d’éducation classiques, alors que la seconde est relative à des enfants scolarisés en zones d’éducation prioritaires (ZEP ; dans un souci de clarté, nous utiliserons aussi l’acronyme ZEN pour « zone d’éducation normale »). Quelle signification accorder à tous ces chiffres ? Qu’en déduire de concret ? Y a-t-il une différence entre ZEN et ZEP ? La variabilité et le volume important des données auxquelles nous sommes confrontés dans cette étude conduisent naturellement à adopter un raisonnement de nature statistique, discipline scientifique qui n’a pas pour objet la connaissance des éléments des ensembles dans ce qui
Chapitre 4. Des probabilités aux statistiques
22,5059 19,3361 22,0099 23,0962 15,9354 16,3472 27,8331 21,8920 18,1917 15,1985 17,4261
25,5953 18,9440 21,1223 22,0386 16,1156 21,3073 19,4415 16,4685 24,2973 15,5632 13,7720
12,7734 31,1278 19,4702 14,3501 21,0174 23,1554 17,5385 23,1782 25,5436 16,8677 21,5681
17,3973 18,1332 21,1052 14,7372 13,3142 24,4749 21,9722 31,2103 12,6887 22,0618 22,0342
20,6166 16,8462 24,7030 22,0076 24,6017 19,5504 19,8240 16,5732 30,3234 26,4492 22,9981 20,7615
21,8474 16,8761 12,1676 16,8131 22,3286 22,1449 33,1239 23,5277 24,7464 24,7179 19,0681
18,0640 20,9755 24,5252 14,2905 19,0371 26,8478 22,3058 20,5547 23,6752 18,2806 18,5389
21,0440 17,3897 18,6754 18,7430 19,9194 27,9321 14,5747 17,9458 17,3149 12,3785 19,2797
15,7069 25,6121 20,0088 18,6083 16,8221 18,6911 32,1254 25,5093 19,0982 20,8295 19,3899
20,5889 22,9924 24,8900 20,0229 23,5382 25,2282 18,1079 22,8754 31,5726 26,9161 23,3892
19,0264 21,2694 14,6799 24,4851 32,6325 22,2791 12,0562 18,9879 20,0158 24,9703 22,0950
27,7558 22,2207 19,7900 28,7491 26,6068 22,8573 20,8599 18,8478 16,8740 28,0314 32,1209
32,5520 34,1903 21,1728 24,8397 23,3047 30,7376 31,8360 25,5143 22,1471 25,3764 25,5361
32,0621 24,8744 23,7754 25,6430 24,4470 28,2223 20,5771 26,4712 38,1234 24,8180 23,1558 22,8087
32,2043 17,5404 26,5581 27,4975 14,7653 21,5769 34,1287 31,2870 21,7069 17,3286 22,9343
21,9197 24,0948 16,6333 26,9176 13,6719 21,6893 27,7792 20,6224 26,2889 19,3204 24,7981
25,0113 33,5867 21,7121 17,7343 21,5164 23,3323 30,1029 25,3451 17,3428 17,2074 20,9107
22,5232 22,7850 20,1848 22,9072 28,1427 24,7335 22,5144 29,1024 27,5748 17,0750 18,7796
Tableau 1. Indices de masse corporelle (IMC) d’enfants scolarisés en ZEN (en haut) et en ZEP (en bas).
fait leur individualité, mais au contraire dans ce qu’ils ont de commun. Elle repose sur la théorie des probabilités, indispensable pour modéliser la variabilité des observations. C’est la raison pour laquelle, dans ce chapitre, nous présentons quelques outils fondamentaux de la statistique en insistant plus particulièrement sur leur connexion étroite avec le calcul des probabilités. Par ce choix, nous espérons que les futurs utilisateurs de la statistique ne considéreront pas cette dernière comme une simple technique de recueil et de présentation des données, mais qu’au contraire ils prendront conscience de la richesse et de la profondeur mathématique de cette science. 128
4.2. L’échantillonnage
4.2. L’échantillonnage 4.2.1. Individus et population La statistique, au sens large, peut se définir comme l’étude d’observations (ou mesures) répétées d’un phénomène aléatoire. Chaque observation est associée à une variable mesurée sur un individu statistique, lui-même membre d’un ensemble plus vaste appelé population, ou univers. On s’intéresse par exemple au poids à la naissance (la variable) de tous les bébés nés en France en 1973 (les individus). La plupart des termes (variable, univers...) ont déjà été utilisés dans le chapitre 3 et revêtent donc, à ce titre, un sens probabiliste bien précis. Le choix de ces mêmes mots dans le contexte statistique n’est pas anodin et s’éclairera dans les pages qui vont suivre. Malgré la connotation démographique, les concepts d’individu et de population sont très généraux et ne s’appliquent pas seulement aux êtres humains : les « individus » peuvent tout aussi bien être des habitants d’une région de France que des arbres d’une forêt ou des acides aminés composant une protéine. Bien souvent, un dénombrement complet de la population que l’on souhaite étudier est concrètement impossible : en effet, la population totale peut comprendre beaucoup trop d’individus pour qu’une étude exhaustive soit réalisable (par exemple, une enquête sur les habitudes alimentaires des Européens n’envisage pas d’interroger tous les citoyens de l’Europe un par un) ; l’observation peut, dans certains cas, détruire l’objet mesuré, et il est alors exclu d’effectuer des mesures sur tous les individus (pour tester les gâteaux que l’on souhaite offrir à ses invités, il faut les manger...) ; enfin, la population considérée peut contenir une infinité d’individus ou être tout simplement inconnue : quelle serait par exemple la population exacte associée au temps qu’il fait aujourd’hui ? Fondée sur ce constat, la démarche statistique consiste alors à procéder à un échantillonnage de la population, c’est-à-dire à observer, sur un nombre limité d’individus prélevés « au hasard » au sein de la population, la valeur de la variable étudiée. Le cas de référence est le sondage politique : les intentions de vote des 1000 personnes interrogées (l’échantillon) ne nous intéressent que parce qu’elles donnent une idée des intentions de vote de l’ensemble de la population. Les observations répétées effectuées sur un échantillon correctement choisi permettront alors d’acquérir des informations sur la population globale, avec un degré spécifié d’exactitude. Les termes clés employés dans ce paragraphe (variable, individus, population, échantillon, « aléatoire », etc.) sont commodes car ils permettent à tout un chacun 129
Chapitre 4. Des probabilités aux statistiques
d’appréhender sans grande difficulté les objectifs de la démarche statistique. Cela étant, il n’en demeure pas moins que, sans plus de précisions, ces termes sont beaucoup trop approximatifs pour permettre de développer sereinement une étude plus abstraite et systématique. Pour atteindre ce dernier objectif, il est obligatoire de faire un détour par la théorie des probabilités.
4.2.2. L’échantillon aléatoire Nous avons vu au chapitre 3 qu’un phénomène dont les valeurs dépendent du hasard pouvait être modélisé par une variable aléatoire X : Ω → R, fonction ayant pour domaine de définition l’univers « abstrait » Ω et prenant ses valeurs dans R, espace dit des réalisations. D’un point de vue concret, deux, et seulement deux situations peuvent se produire : 1. La loi de la variable aléatoire X est connue de l’expérimentateur. Dans un tel cas de figure, ce dernier possède une connaissance aussi précise que possible du phénomène aléatoire représenté par X, et toutes les questions qu’il peut se poser à son sujet relèvent alors du calcul des probabilités et non pas de la statistique. Tout un chacun peut par exemple s’amuser à calculer la probabilité qu’un dé bien équilibré tombe sur une face impaire, et il ne viendrait donc à l’idée de (presque) personne d’effectuer une étude statistique pour contrôler cette probabilité. 2. La loi de la variable aléatoire X n’est pas (entièrement) connue de l’expérimentateur, qui dispose simplement d’une suite d’observations à partir desquelles il souhaite estimer des caractéristiques de la loi inconnue : c’est ici que commence le domaine de la statistique. Supposons, pour illustrer notre propos, que l’on prélève au hasard n fromages de chèvre dans une production et que l’on mesure leurs teneurs respectives en calcium, notées x1 , . . . , xn . Si les caractéristiques de fabrication n’ont pas varié d’un fromage à l’autre, les différences entre les xi peuvent être considérées comme des fluctuations de nature aléatoire. Cette dernière remarque justifie alors l’hypothèse fondamentale de la théorie de l’échantillonnage : Les valeurs observées x1 , . . . , xn sur les individus prélevés sont des réalisations de variables aléatoires mutuellement indépendantes X1 , . . . , Xn ayant toutes la même loi qu’une variable aléatoire « abstraite » X, appelée variable mère. La suite X1 , . . . , Xn est appelée échantillon aléatoire de taille n (en bref néchantillon, ou tout simplement échantillon) et leur loi commune est la loi mère (ou parente) de l’échantillon. 130
4.2. L’échantillonnage
Prenons encore un exemple : la figure 4.1 montre les résultats obtenus à l’issue de 9 séries de 100 jets indépendants d’un dé à six faces, équilibré et non truqué (simulations effectuées par ordinateur). 6
6
6
4
4
4
2
2
2
1
50
100
1
50
100
1
6
6
6
4
4
4
2
2
2
1
50
100
1
50
100
1
6
6
6
4
4
4
2
2
2
1
50
100
1
50
100
1
50
100
50
100
50
100
Figure 4.1. Résultats de neuf tirages de 100 jets indépendants d’un dé à six faces.
Dans chacune des séries, les 100 valeurs observées x1 , . . . , x100 sont envisagées comme autant de réalisations de 100 variables aléatoires indépendantes X1 , . . . , X100 admettant toutes la même distribution qu’une variable mère X de loi uniforme (probabilité 1/6 pour chacune des faces du dé). Chaque série de réalisations est sans rapport avec les autres sinon par la loi qui les a générées, et l’aspect « aléatoire » de ces résultats, déconnectés les uns des autres, est bien conforme à notre intuition du hasard et nous satisfait. Le concept d’échantillon aléatoire n’est pas facile à appréhender et nous invitons le lecteur à bien y réfléchir. Il s’agit d’un outil incontournable, bien adapté à la modélisation, et en tout état de cause indissociable de la statistique moderne. Il faudra veiller à bien distinguer la notion d’échantillon aléatoire X1 , . . . , Xn , dont on peut dire qu’elle se réfère à des résultats potentiels avant expérience (ou « a priori »), de celle d’échantillon réalisé x1 , . . . , xn correspondant aux valeurs observées après expérience (ou « a posteriori »). Dans le premier cas, il s’agit 131
Chapitre 4. Des probabilités aux statistiques
d’objets mathématiques abstraits (en l’occurrence des fonctions, notées en lettres majuscules), alors que dans le second cas, comme nous l’avons vu, il s’agit de nombres (notés en lettres minuscules). Choisir comme modèle des variables aléatoires indépendantes et de même loi exige que le phénomène soit bien défini, invariant au cours des observations successives, et que ces observations n’exercent aucune influence entre elles. Dans la pratique, il s’agit bien souvent d’un acte de foi (que nous ferons systématiquement), ces conditions n’étant généralement pas rigoureusement vérifiables, ni rigoureusement vérifiées. Les paragraphes qui suivent sont consacrés à la présentation des rudiments de la théorie de l’échantillonnage, qui se propose d’étudier les propriétés de la collection X1 , . . . , Xn et des caractéristiques le résumant, en relation avec la loi de la variable aléatoire mère X.
4.3. Moyenne et variance empiriques 4.3.1. Moyenne empirique La moyenne est un indicateur (ou caractéristique) dit de tendance centrale, destiné à résumer numériquement un ensemble de valeurs de façon objective et impersonnelle. Plus formellement : Étant donné un échantillon aléatoire X1 , . . . , Xn et X la variable aléatoire mère associée, on appelle moyenne de l’échantillon, ou moyenne empirique, la variable aléatoire n ¯= 1 X Xi . n i=1
Le symbole horizontal surmontant le X est fréquemment utilisé en statistique ¯ se lit « X barre ». Attention : pour désigner une quantité moyenne et la notation X la moyenne empirique est une variable aléatoire (c’est une somme de variables aléatoires). À partir des observations effectives (des réalisations) x1 , . . . , xn de ¯ : ¯ de X l’échantillon X1 , . . . , Xn , on calcule la réalisation x 1 x ¯= xi . n n
i=1
¯ est supérieure à Ainsi, toute affirmation du genre « la moyenne empirique X 3 », qui n’a pas vraiment de sens mathématique, devra(it) être corrigée en « la moyenne empirique x ¯ (sous-entendu « évaluée sur l’échantillon ») est supérieure à 3 ». 132
4.3. Moyenne et variance empiriques
Le terme empirique signifie « qui ne s’appuie que sur l’expérience ou l’observation ». Il s’oppose à théorique, qui signifie « qui relève de la loi mère, donc de la spéculation puisque celle-ci n’est pas directement accessible ». La moyenne ¯ doit donc être envisagée comme une approximation « concrète » de empirique X l’espérance E(X), moyenne théorique inconnue de la variable aléatoire mère X. ¯ Lorsque la taille de l’échantillon s’accroît, on s’attend intuitivement à ce que X ¯ se « rapproche » de E(X), en un sens qui reste à préciser puisque X est une variable aléatoire (et donc, en particulier, une fonction) et E(X) est un nombre réel. ¯ vers E(X) nécessite l’introduction d’ouL’analyse de la « convergence » de X tils dont l’étude nous entraînerait au-delà des limites du présent ouvrage. Cette convergence porte le nom de loi des grands nombres ; elle signifie que si l’on effectue une série de mesures répétées, indépendantes et de plus en plus nombreuses, ¯ s’approche effectivement de l’espérance mathématique la moyenne empirique X E(X). L’annexe en fin de chapitre permettra au lecteur intéressé d’aller un peu plus loin sur ce résultat fondamental de la théorie des probabilités. Au-delà des considérations techniques, il nous semble surtout important de souligner que la démarche statistique consiste à établir des ponts entre l’empirique (l’observable) d’un côté et le théorique (l’inobservable) de l’autre, la jonction s’effectuant alors par le calcul des probabilités.
4.3.2. Variance empirique Les deux séries de données suivantes représentent la taille (en cm) de dix poissons pêchés dans deux rivières différentes :
Taille des poissons de la rivière 1 Taille des poissons de la rivière 2
10 5,0
9,6 7,4
10,3 10
9,5 12,5
10,5 15,0
Nous observons que les deux suites de nombres ont une moyenne identique, égale à 9,98 cm. Cependant, elles diffèrent profondément, dans la mesure où la seconde semble beaucoup plus dispersée autour de la moyenne que la première (il suffit par exemple d’observer les valeurs minimales et maximales de chaque série). Il apparaît donc opportun de résumer une série statistique non seulement par sa tendance centrale, mais également par un indice de dispersion empirique. La caractéristique de dispersion la plus usuelle est sans aucun doute la variance empirique : 133
Chapitre 4. Des probabilités aux statistiques
Étant donné un échantillon aléatoire X1 , . . . , Xn et X la variable aléatoire mère associée, on appelle variance de l’échantillon, ou variance empirique, la variable aléatoire n 1 ¯ 2. S2 = (Xi − X) n i=1
¯ la variance empirique S 2 est une variable Comme la moyenne empirique X, aléatoire. Bien entendu, en pratique, ce sont toujours des réalisations s2 de S 2 que l’on calcule.
Exemple 1. Par exemple, pour la première série de poissons, on trouve 1 s2 = (10 − 9,98)2 + (9,6 − 9,98)2 + . . . + (10,5 − 9,98)2 = 0,1496 cm2 5 et pour la seconde 1 s2 = (5 − 9,98)2 + (7,4 − 9,98)2 + . . . + (15 − 9,98)2 = 12,6016 cm2 5 (noter l’unité de la variance, exprimée ici en « cm2 »). Comme prévu, la variance du second échantillon est supérieure à celle du premier, ce qui traduit bien le fait que les valeurs de la seconde série sont plus dispersées autour de la moyenne commune égale à 9,98. En développant le carré (cf. l’exercice 7), on obtient facilement 1 2 ¯ 2. Xi − (X) n n
S2 =
i=1
Cette formule, parfois appelée formule de décentrage de la variance, peut se révéler très efficace pour éviter des erreurs de calcul. Notons qu’il en découle en particulier que n n ¯ 2= ¯ 2. (Xi − X) Xi2 − n(X) i=1
i=1
¯ 2 , appelée somme des carrés des écarts à la moyenne, La quantité ni=1 (Xi − X) joue un rôle récurrent en statistique. Nous la rencontrerons à de très nombreuses reprises dans cet ouvrage. Signalons également que moyenne et variance empiriques peuvent être interprétées comme, respectivement, l’espérance et la variance d’une variable aléatoire de loi discrète uniforme sur l’ensemble {X1 , . . . , Xn } (nous invitons le lecteur à reprendre l’exercice 10 du chapitre 3 et à établir un parallèle avec les résultats de ce paragraphe). 134
4.4. Distributions théorique et empirique
Il nous reste enfin, pour être complet, à définir l’écart-type empirique : La racine carrée S de la variance empirique est l’écart-type empirique : n √ 1 2 ¯ 2. (Xi − X) S= S = n i=1
Il s’exprime dans la même unité que la variable mère X.
Exemple 2. Pour les deux séries de tailles de poissons, nous trouvons respec√ √ tivement s = 0,1496 = 0,387 cm et s = 12,6016 = 3,550 cm. Nous avons brièvement expliqué au paragraphe précédent pourquoi la moyenne ¯ constituait une « bonne approximation » de l’espérance E(X). Il en empirique X va de même pour la variance empirique S 2 , qui doit être interprétée comme une « approximation » de V(X), la variance vraie (mais inconnue) de X. Ici encore, la loi des grands nombres nous assure de la convergence (en un sens qui ne peut être précisé ici, voir l’annexe en fin de chapitre pour plus d’informations) de S 2 vers V(X) lorsque la taille n de l’échantillon tend vers l’infini. Il existe en fait bien d’autres caractéristiques de tendance centrale et de dispersion fréquemment utilisées par les statisticiens – nous aurons d’ailleurs l’occasion d’en rencontrer quelques-unes dans ce chapitre et dans les exercices. Citons, pêlemêle, la médiane, le mode, l’étendue, le coefficient de dissymétrie (skewness) ou le coefficient d’aplatissement (kurtosis), dont l’étude exhaustive nécessiterait, à elleseule, un chapitre à part entière. Mais, au-delà des définitions, c’est encore une fois la philosophie statistique sous-jacente qu’il faut comprendre : tous ces indicateurs sont des variables aléatoires, que l’on peut évaluer numériquement sur les réalisations de l’échantillon, et qui ont vocation à approcher des caractéristiques inconnues de la variable aléatoire mère X.
4.4. Distributions théorique et empirique Le statisticien se trouve bien souvent confronté à une quantité importante de données dont il est difficile de tirer des conclusions probantes à l’aide de seuls indicateurs numériques, aussi sophistiqués soient-ils. Pour une meilleure interprétation, il est alors primordial que les observations recueillies soient triées, classées et pertinemment représentées. Afin que l’organisation de telles données soit efficace, elle doit être simple et parlante, retenant l’information essentielle sans pour 135
Chapitre 4. Des probabilités aux statistiques
autant en négliger des aspects particuliers. L’ensemble des outils statistiques, indicateurs, tableaux, diagrammes et autres représentations graphiques permettant de résumer visuellement les observations de l’échantillon est connu sous le nom de statistique descriptive. La statistique descriptive est une science en elle-même, qui fait l’objet de nombreux ouvrages spécialisés (voir par exemple [4]). Faute de place, nous avons choisi, dans ce paragraphe et le suivant, de présenter deux concepts essentiels de statistique descriptive, la distribution empirique et la fonction de répartition empirique, en tâchant de bien mettre en relief leurs propriétés au sein de la théorie de l’échantillonnage. Cas des variables discrètes Nous savons qu’une variable aléatoire discrète X ne peut prendre, par nature, que des valeurs que l’on peut énumérer. Par exemple, le nombre de souriceaux d’une portée ne peut prendre que les valeurs 1, 2, . . . Nous avons également souligné au chapitre 3 que, d’un point de vue probabiliste, le phénomène aléatoire représenté par X était entièrement décrit par la loi de probabilité de X, que l’on appelle également la distribution théorique. Par exemple, la distribution théorique du nombre de souriceaux est résumée par le tableau suivant : Nombre de souriceaux Probabilité
1 p1
2 p2
3 p3
... ...
Les valeurs p1 , p2 , . . ., qui appartiennent toutes à l’intervalle [0 ; 1] et représentent des probabilités théoriques, sont, dans presque tous les cas concrets, inconnues. En pratique, on aura plutôt à disposition un ensemble de n souris d’un type déterminé, provenant si possible de souches différentes et fécondées de façon bien définie. On observe alors, pour i = 1, . . . , n, le nombre xi de souriceaux de la i-ème souris (un nombre entier appartenant à l’ensemble {1, 2, . . .}) et on range finalement les portées selon le nombre de souriceaux qu’elles comportent. En notant nk le nombre de portées de k souriceaux, on obtient ainsi le tableau suivant : Nombre de souriceaux Nombre de portées
1 n1
2 n2
3 n3
... ...
En divisant chaque nk par le nombre total de portées n et en posant pn (k) = nk /n, on en déduit alors le tableau des proportions (ou fréquences) réellement observées, que l’on appelle distribution empirique : Nombre de souriceaux Proportion empirique 136
1 pn (1)
2 pn (2)
3 pn (3)
... ...
4.4. Distributions théorique et empirique
On a coutume de représenter la distribution empirique par un diagramme en bâtons, au sein duquel les valeurs possibles du phénomène aléatoire (1, 2, . . . dans le cas des souriceaux) figurent en abscisses et la hauteur d’un bâton est égale à l’effectif ou à la proportion empirique (cf. figure 4.2).
pn (3)
pn (4) pn (2)
pn (5) = pn (6)
pn (1)
pn (7)
1
2
3
4
5
6
7
Figure 4.2. Diagramme en bâtons associé à la distribution empirique du nombre de souriceaux d’une portée.
Une autre représentation d’une distribution empirique, parfois plus expressive sur le plan visuel, est le diagramme circulaire (également appelé camembert ). Dans un tel contexte, la population totale est matérialisée par un cercle divisé en tranches, de façon proportionnelle aux effectifs observés de chaque valeur de la variable considérée. Il est tentant d’affirmer, en adoptant un point de vue plus mathématique, que la distribution empirique (c’est-à-dire les pn (k) dans le cas des souriceaux) « approche », en un sens à préciser, la distribution théorique (les pk du tout premier tableau), et ceci avec une précision d’autant plus grande que le nombre n d’observations est élevé. Cette intuition peut être éclairée par le modèle de l’échantillonnage, qui nous permet d’appréhender le nombre xi de souriceaux de la i-ème portée comme la réalisation d’une variable aléatoire discrète Xi , clone de la variable mère X dont la distribution est décrite par le tableau des pk . Dans un tel contexte, chaque pn (k) s’interprète comme la réalisation d’une variable aléatoire Pn (k), qui compte simplement le nombre de Xi de l’échantillon égaux à k et divise le résultat par n. La loi des grands nombres assure alors de la convergence, pour 137
Chapitre 4. Des probabilités aux statistiques
tout k, de Pn (k) vers pk lorsque n tend vers l’infini, ce que l’on traduit par « la distribution empirique tend vers la distribution théorique ». Cas des variables continues À la différence d’une variable discrète, une variable aléatoire continue peut prendre a priori toutes les valeurs d’un certain intervalle, éventuellement de taille infinie. Si l’on considère, par exemple, le poids à la naissance du premier souriceau d’une portée, cette variable prend ses valeurs dans l’intervalle [0 ; + ∞[. Nous savons alors que sa loi est décrite par une densité de probabilité f , fonction positive ou nulle telle que, pour tout intervalle [a ; b],
b
P (X ∈ [a ; b]) =
f (x) dx. a
Tout comme l’étaient les probabilités individuelles dans le cas discret, la densité f est un objet théorique, en général inconnu de l’expérimentateur. Ce dernier, s’il souhaite se faire une idée de la loi mère du phénomène, aura simplement à sa disposition les réalisations x1 , . . . , xn d’un échantillon de poids de souriceaux. Que faire avec tous ces nombres ? Un diagramme en bâtons ne peut convenir : en effet, comme il est probable que l’on n’observe jamais exactement deux fois le même poids, il y aurait dans un tel diagramme autant de bâtons que d’observations, tous de même hauteur ; cela donnerait donc un résultat visuellement illisible, en particulier dans le cas d’un nombre d’observations élevé. Afin de pallier cette difficulté, on choisit souvent de perdre un peu d’information en subdivisant la plage des valeurs de X en intervalles, appelés classes, et en rangeant les souriceaux, selon leur poids, dans les classes afférentes : Classe de poids Nombre de souriceaux
C0 = [0 ; 5[ n0
C1 = [5 ; 10[ n1
C2 = [10 ; 15[ n2
... ...
Pour chaque k, l’entier nk correspond au nombre d’individus de l’échantillon dont la caractéristique observée est dans la classe Ck , et on l’appelle l’effectif de la classe. En divisant les nk par n, on obtient alors une distribution empirique, qui peut se représenter par un histogramme, outil qui ressemble au diagramme en bâtons mais doit en être distingué. Dans un histogramme, les classes sont représentées sur l’axe des abscisses et, au-dessus de chaque intervalle, on dessine un rectangle dont la surface est égale à la fréquence empirique pn (Ck ) = nk /n. Si k désigne la largeur de la classe Ck , la hauteur du rectangle correspondant est donc égale à nk /(n × k ). Si tous les k sont égaux (ce qui est le cas dans notre exemple du poids des souriceaux), on peut bien entendu prendre des rectangles 138
4.4. Distributions théorique et empirique
de hauteurs égales à n0 , n1 , etc. (histogramme des effectifs) ou pn (C0 ), pn (C1 ), etc. (histogramme des fréquences). La figure 4.3 donne un exemple d’histogramme des fréquences. pn (C3 ) = pn (C4 )
pn (C2 )
pn (C5 ) pn (C0 ) pn (C1 ) pn (C6 ) C0
C1
C2
C3
C4
C5
C6
Figure 4.3. Histogramme des fréquences associé à la distribution empirique du poids à la naissance du premier souriceau d’une portée.
La « qualité » visuelle d’un histogramme dépend fortement du nombre de classes. Un trop faible nombre de classes conduit à une représentation graphique « lissée », alors qu’un nombre trop important de classes conduit à un histogramme « disséminé ».
Exemple 3. Le tableau suivant donne la répartition des tailles en cm des 75 enfants fréquentant une école maternelle :
80 90 95 100 105 110
Taille à moins de " " " " "
90 cm 95 cm 100 cm 105 cm 110 cm 120 cm
Effectif nk 3 15 22 18 12 5 139
Chapitre 4. Des probabilités aux statistiques
Dans cet exemple, toutes les classes ne sont pas de même largeur. Les hauteurs des rectangles de l’histogramme représentant la distribution empirique sont indiquées dans le tableau qui suit. Effectif nk
Taille 80
à moins de
90 cm
3
90
"
95 cm
15
95
"
100 cm
22
100
"
105 cm
18
105
"
110 cm
12
110
"
120 cm
5
Hauteur du rectangle 3 75×10 = 0,004 15 75×5 = 0,04 22 75×5 = 0,058 18 75×5 = 0,048 12 75×5 = 0,032 5 75×10 = 0,007
On obtient alors l’histogramme de la figure 4.4. Il est instructif de remarquer que, par construction, l’aire sous l’histogramme est égale à 1, ce qui correspond bien au fait qu’un histogramme s’interprète comme une densité de probabilité empirique.
0.05
0.05
0.04
0.04
0.03
0.03
0.02
0.02
0.01
0.01 0
0 75 80 85 90 95 100 105 110 115 120 Taille
Histogramme
75 80 85 90 95 100 105 110 115 120 Taille
Polygone des fréquences
Figure 4.4. Histogramme et polygone des fréquences associés à la distribution empirique de la taille des élèves.
D’un point de vue plus formel, un histogramme est une fonction constante sur des intervalles, que l’on a coutume de noter fn , et dont la forme dépend des réalisations de l’échantillon X1 , . . . , Xn . Il s’agit une nouvelle fois d’un objet de nature aléatoire, qui s’interprète comme une densité de probabilité empirique ayant pour vocation d’approcher la densité inconnue f . Contrairement au cas des distributions discrètes examiné plus haut, où nous manipulions un ensemble fini de nombres, il existe dans le contexte continu de nombreuses façons d’appréhender la 140
4.5. Fonction de répartition empirique
proximité entre la fonction (aléatoire) fn (x) et la « cible » f (x). Il est par exemple possible de montrer que lorsque la taille des classes tend vers 0 (mais « pas trop vite ») alors que la taille de l’échantillon s’accroît, l’aire moyenne entre les deux courbes fn (x) et f (x) s’approche de 0 (1) . Observons, pour terminer ce paragraphe, que l’histogramme fn est discontinu, alors même que f peut être continue, voire dérivable. On peut donc songer à « lisser » un histogramme pour accroître sa proximité avec la distribution théorique. C’est l’idée qui prévaut dans la construction du polygone des fréquences, qui est une ligne brisée reliant les milieux des « plateaux » de l’histogramme. La figure 4.4 présente le polygone des fréquences (à droite) construit à partir de l’histogramme de la taille des enfants (à gauche).
4.5. Fonction de répartition empirique 4.5.1. Définition Dans ce paragraphe, nous illustrons une nouvelle fois le mécanisme de va-etvient entre l’empirique et le théorique en présentant les principales propriétés de la fonction de répartition empirique, outil privilégié de nombreux statisticiens. Rappelons tout d’abord (cf. le chapitre 3) que la fonction de répartition (théorique) F (x) d’une variable aléatoire X est définie par F (x) = P(X ≤ x), c’est-à-dire la probabilité que X soit inférieure ou égale à x. La fonction F est croissante, prend ses valeurs dans l’intervalle [0 ; 1], et vérifie limx→−∞ F (x) = 0 et limx→+∞ F (x) = 1. Il est important de garder à l’esprit que la définition de F s’applique aussi bien à une variable aléatoire discrète qu’à une variable aléatoire continue. La fonction est constante sur des intervalles dans le premier cas et continue dans le second. L’équivalent empirique de F , construit sur un échantillon X1 , . . . , Xn de variable mère X, est alors le suivant : Étant donné un échantillon aléatoire X1 , . . . , Xn , on appelle fonction de répartition empirique la fonction, notée Fn , définie pour tout nombre réel x par 1 1]−∞ ; x] (Xi ), Fn (x) = n n
i=1
(1)
En termes mathématiques, cela s’écrit E
|fn (x) − f (x)| dx → 0 lorsque n → +∞.
141
Chapitre 4. Des probabilités aux statistiques
où 1]−∞ ; x] est la fonction indicatrice de l’intervalle ]−∞ ; x], définie par : 1]−∞ ; x] (u) = 1 si u est dans ]−∞ ; x] et 0 sinon. Examinons un peu cette définition, en fixant un nombre réel x et en considérant des réalisations x1 , . . . , xn des variables aléatoires X1 , . . . , Xn . Dès qu’une observation xi est inférieure à x, on a 1]−∞ ; x] (xi ) = 1 et, inversement, cette quantité est nulle si xi est strictement supérieure à x. Autrement dit, la somme intervenant dans (la réalisation de) Fn (x) est formée de 1 et de 0, avec autant de 1 qu’il y a d’observations inférieures à x, et cette somme est donc simplement égale au nombre de telles observations. Lorsque l’on divise par n, on constate que Fn (x) associe à chaque nombre réel x la proportion des n observations x1 , . . . , xn prenant une valeur inférieure ou égale à x. La fonction de répartition empirique dépend de l’échantillon X1 , . . . , Xn (et est donc, à ce titre, elle-même aléatoire) mais, après observation des réalisations x1 , . . . , xn de cet échantillon, Fn devient une simple fonction croissante de 0 à 1 par paliers, avec un saut de « hauteur » 1/n à chaque fois qu’une valeur observée xi est atteinte. Ici encore, il n’y a pas de différence de nature entre la fonction de répartition empirique associée à un phénomène aléatoire discret ou continu. Cas discret Examinons d’abord le cas des variables aléatoires discrètes, par exemple le nombre de souriceaux de n portées dont les répartitions théoriques et empiriques ont été décrites plus haut. La figure 4.5 donne l’allure de la fonction de répartition théorique F correspondante, qui prend successivement les valeurs 0, p(0), p(0) + p(1), etc. La fonction de répartition empirique Fn , à savoir 1 nb. de portées de moins de x souriceaux , 1]−∞ ; x] (xi ) = Fn (x) = n nb. total de portées n
i=1
a pour valeurs 0, pn (0), pn (0) + pn (1), etc. (figure 4.5, à droite). Dans la mesure où chacun des Pn (k) tend vers le p(k) correspondant (cf. le paragraphe 4.4), nous pouvons affirmer que Fn (x) tend vers F (x) lorsque la taille de l’échantillon s’accroît. En d’autres termes, la fonction de répartition empirique tend vers la fonction de répartition théorique lorsque n tend vers l’infini. Cas continu Cette belle mécanique se transpose au cas continu, à condition de prendre quelques précautions. La figure 4.6 donne l’allure possible de la fonction de 142
4.5. Fonction de répartition empirique Fn (x)
F (x)
1
1
pn (0) + pn (1)
p(0) + p(1) p(0) 00
1
2
3
4
5
6
7
pn (0) 0 0
x
Fonction de répartition théorique
1
2
3
4
5
6
7
x
Fonction de répartition empirique
Figure 4.5. Fonctions de répartition théorique et empirique d’une variable aléatoire discrète (par exemple, le nombre de souriceaux d’une portée). F (x)
Fn (x)
1
1
0
0
5
10
15
20
25
30
0
x
Fonction de répartition théorique
0
5
10
15
20
25
30
35
x
Fonction de répartition empirique
Figure 4.6. Fonctions de répartition théorique et empirique d’une variable aléatoire continue (par exemple, le poids à la naissance du premier souriceau d’une portée).
répartition théorique F associée à la variable aléatoire continue X représentant le poids à la naissance du premier souriceau d’une portée. La fonction de répartition empirique correspondante (figure 4.6, à droite) a pour expression 1 nb. de premiers souriceaux de poids ≤ x · 1]−∞ ; x] (xi ) = n nb. total de portées n
Fn (x) =
i=1
143
Chapitre 4. Des probabilités aux statistiques
On peut montrer, en utilisant la loi des grands nombres, que Fn (x) tend vers F (x) lorsque n tend vers l’infini. Graphiquement, cela signifie que la courbe de droite de la figure 4.6 se « rapproche » de celle de gauche à mesure que la taille de l’échantillon augmente(2) . On prendra néanmoins garde au fait que Fn est une fonction en escalier, contrairement à F qui, elle, est une fonction continue (et même dérivable !). Comme chaque saut de Fn est de hauteur 1/n, son graphe peut être assez pénible à visualiser. Une manière classique de remédier à cet inconvénient consiste à regrouper les données en classes et à construire l’histogramme associé. On considère alors cet histogramme comme une densité de probabilité, dont on prend la fonction de répartition. Cette fonction de répartition particulière, que nous notons F˜n , s’appelle la courbe des fréquences (empiriques) cumulées. Il s’agit d’une fonction linéaire sur chaque intervalle correspondant à une classe (voir la figure 4.7).
F˜n (x) 1
0.8
0.6
0.4
0.2
0
0
5
10
15
20
25
30
35
x
Figure 4.7. Courbe des fréquences cumulées associée à la distribution empirique du poids à la naissance du premier souriceau d’une portée.
4.5.2. Quantiles et quantiles empiriques La notion de quantile (appelée aussi percentile si on l’exprime en pourcentage) est directement liée à la fonction de répartition. Prenons pour commencer (2)
144
Ce résultat porte le nom de Théorème de Glivenko-Cantelli (voir par exemple [7]).
4.5. Fonction de répartition empirique
l’exemple d’une variable aléatoire X de loi N (0,1), dont la densité est 1 2 f (x) = √ e−x /2 . 2π On s’intéresse au nombre réel q tel que la probabilité que X prenne une valeur inférieure ou égale à ce nombre soit exactement 0,975. En termes plus mathématiques, quel est le nombre q tel que P(X ≤ q) = 0,975 ? La fonction de répartition associée à X est x 1 2 e−t /2 dt F (x) = √ 2π −∞ et le nombre q est donc solution de l’équation F (q) = 0,975. Cette équation est difficile à résoudre. Fort heureusement, une table ou un logiciel de statistique nous donne le résultat bien connu q ≈ 1,96 : on dit alors que 1,96 est le quantile d’ordre 0,975 de la loi normale N (0,1). Ce mécanisme « d’inversion de la fonction de répartition », qui se généralise à des ordres et à des lois quelconques, conduit à la définition suivante : Étant donné α ∈ ]0 ; 1[, on appelle quantile d’ordre α de la variable aléatoire X (ou de sa loi) toute valeur qα telle que P(X ≤ qα ) = α ou, ce qui revient au même, F (qα ) = α. Le quantile q0,5 d’ordre 0,5 (noté m et aussi appelé médiane) joue un rôle de « point milieu » de la distribution, puisqu’une observation a autant de chance de se trouver en dessous qu’en dessus de m. D’autres quantiles ont une vertu descriptive intéressante, comme les premier et troisième quartiles q1/4 et q3/4 , ou encore les déciles q1/10 , q2/10 , . . . , q9/10 (voir la figure 4.8). Dans le cas d’une variable aléatoire continue, la fonction de répartition F est continue, tend vers 0 lorsque x → −∞ et vers 1 lorsque x → +∞. Le théorème des valeurs intermédiaires (cf. paragraphe 1.5.2) permet alors d’affirmer qu’à tout ordre α ∈ ]0 ; 1[ correspond bien une valeur qα telle que F (qα ) = α, c’est-à-dire un quantile d’ordre α. Bien souvent, la fonction F est strictement croissante, de sorte qu’elle est bijective de R dans ]0 ; 1[ (voir le paragraphe 1.5.4) : qα est alors unique, et on peut écrire qα = F −1 (α). Lorsque la variable aléatoire est discrète, nous avons vu que F est une fonction en escalier, et il peut donc y avoir tout un intervalle de valeurs possibles si α 145
Chapitre 4. Des probabilités aux statistiques
F (x) 1
3 4
1 2
1 4
0
0
q1/4
m
q3/4
30
x
Figure 4.8. Premier, deuxième et troisième quartiles associés à la distribution du poids à la naissance du premier souriceau d’une portée.
correspond au niveau d’une marche de F , ou aucune valeur possible si α est entre deux marches. Par convention, on prend alors toujours comme quantile qα la plus petite valeur x telle que F (x) ≥ α (voir la figure 4.9). Les quantiles des principales lois de probabilité peuvent être obtenus à l’aide d’une table ou d’un ordinateur. Dans tout l’ouvrage, les quantiles ont été évalués à l’aide du logiciel gratuit R, qui peut être téléchargé à l’adresse http://cran.rproject.org/. En pratique, la fonction de répartition F associée à X est inconnue, et il en va donc de même pour les quantiles de tous ordres. La connaissance d’un échantillon aléatoire X1 , . . . , Xn issu de X permet cependant de définir des quantiles empiriques, qui ont pour vocation d’approcher les véritables quantiles. Même s’il n’existe pas de définition admise par tous d’un quantile empirique – cette dernière pouvant varier selon les auteurs ou les logiciels –, l’approche la plus naturelle consiste à remplacer, dans la définition initiale, la fonction de répartition F par la fonction de répartition empirique Fn . Avant de préciser cette idée plus en avant, il convient d’introduire une notation : la partie supérieure d’un nombre réel x est le plus petit entier, noté x, tel que x ≤ x. Par exemple, 2,9 = 3. On peut 146
4.5. Fonction de répartition empirique
F (x) 1
β
α 0
qα
qβ
x
Figure 4.9. Exemples de quantiles dans le cas d’une variable aléatoire discrète.
alors montrer que la stratégie consistant à « remplacer » F par Fn conduit à la définition suivante : Soient x1 , . . . , xn des réalisations d’un échantillon aléatoire X1 , . . . , Xn . Ces observations étant classées par ordre croissant x(1) ≤ x(2) ≤ . . . ≤ x(n) , on appelle quantile empirique d’ordre α la nα-ème observation, c’est-àdire x(k) avec k = nα. Malgré son aspect un peu abscons, cette définition est en fait très naturelle et possède l’avantage de s’appliquer sans ambiguïté aussi bien à des observations provenant d’une loi discrète que d’une loi continue.
Exemple 4. Illustrons cette notion à l’aide de la série de données représentant la taille des poissons pêchés dans la première rivière de l’exemple du paragraphe 4.3.2. Dans cet exemple, nous avions x1 = 10 ;
x2 = 9,6 ;
x3 = 10,3 ;
x4 = 9,5 et x5 = 10,5. 147
Chapitre 4. Des probabilités aux statistiques
En ordonnant la série des valeurs par ordre croissant, on trouve x(1) = 9,5 ;
x(2) = 9,6 ;
x(3) = 10 ;
x(4) = 10,3 et x(5) = 10,5.
Si l’on s’intéresse par exemple à la médiane empirique m ˆ (α = 0,5), alors nα = 5 × 0,5 = 3, et on trouve donc m ˆ = x(3) = 10. De la même façon, le premier quartile empirique a pour valeur x(5×0,25) = x(2) = 9,6. La médiane empirique peut différer sensiblement de la moyenne en présence d’une distribution fortement dissymétrique. Reprenant l’exemple ci-dessus des poissons, x ¯ = 9,98, et l’on constate donc que moyenne et médiane empiriques sont du même ordre de grandeur. En supposant maintenant qu’un sixième poisson de taille x6 = 200 cm ait été pêché dans la rivière, on trouverait x ¯ = 41,65 et m ˆ = x(3) = 10 ! La moyenne est très influencée par le point extrême 200, alors que la médiane est insensible à l’ajout de cette donnée visiblement aberrante. On dit parfois que la médiane est un indicateur robuste vis-à-vis de la dispersion. Nous invitons le lecteur à s’entraîner à calculer d’autres quantiles empiriques et à constater par lui-même qu’il n’y a jamais d’ambiguïté dans la définition, même dans le cas où plusieurs observations peuvent être identiques. On vérifiera par exemple que la médiane empirique de l’échantillon artificiel 0, 0, 0, 1, 1, 1 est égale à 0. Signalons enfin que l’on peut montrer, à l’aide d’outils mathématiques adaptés, que les quantiles empiriques se « rapprochent » des véritables quantiles lorsque la taille de l’échantillon augmente. Il s’agit, une fois encore, d’une belle illustration de la dualité entre l’empirique et le théorique, mécanisme essentiel que nous avons choisi de souligner tout au long de ce chapitre. Les quantiles empiriques sont à la base du graphique appelé box plot (ou encore boîte de dispersion ou boîte à moustaches) introduit par John Wilder Tukey en 1977. Ce graphique se présente en général sous la forme d’un rectangle délimité par les premier et troisième quartiles empiriques, et dont la longueur porte le nom d’écart interquartile. Dans ce rectangle, une barre centrale représente la médiane. De part et d’autre du rectangle, on fait figurer deux segments dont la longueur est environ 1,5 fois l’écart interquartile : « environ » car chaque segment est en fait délimité par une observation réelle incluse dans cet intervalle, en l’occurrence celle qui est la plus proche des bornes (figure 4.10). Enfin, les observations au-delà de ces limites, dites valeurs aberrantes, sont représentées individuellement. Nous renvoyons le lecteur à l’exercice 6 pour un exemple concret d’utilisation d’un box plot. 148
4.6. Obésité chez les enfants : une solution 4 3 2 1 0 -1 -2 -3 -4 Figure 4.10. Un exemple de boxplot.
4.6. Obésité chez les enfants : une solution Nous sommes désormais suffisamment équipés pour aller plus avant dans l’étude de l’obésité entamée au paragraphe introductif à ce chapitre. Rappelons brièvement que nous disposons de n = 200 observations représentant l’indice de masse corporelle (IMC) mesuré sur des enfants de 4 à 12 ans, dont la moitié sont scolarisés en zone d’éducation normale (ZEN) et l’autre moitié en zone d’éducation prioritaire (ZEP). Le tableau ci-dessous rapporte quelques statistiques élémentaires relatives aux 200 observations, ainsi qu’aux deux sous-populations des élèves de ZEN et de ZEP. Moyenne Variance Écart-type Minimum Maximum Médiane Premier quartile Troisième quartile
Population totale 22,1919 24,9435 4,9943 12,0563 38,1234 21,9722 18,6911 24,8900
ZEN 20,4747 19,4241 4,4073 12,1676 33,1239 19,9194 17,3897 22,9981
ZEP 23,9091 24,5654 4,9563 12,0563 38,1234 23,3047 20,6224 26,6068
149
Chapitre 4. Des probabilités aux statistiques
Il montre clairement que les élèves des ZEP, qui présentent un IMC moyen de 23,9091, sont, en moyenne, plus enclins à des problèmes de surpoids que les élèves des ZEN, dont l’IMC moyen s’élève à 20,4747. Il est important de souligner que cette différence est bien structurelle, et qu’elle n’est pas due à la seule contribution de quelques individus isolés : en effet, les deux distributions empiriques (représentées dans la figure 4.11) ont des allures générales relativement proches, centrées autour de leur valeur moyenne, symétriques par rapport à cette dernière et avec des variances comparables. 25
30
20
25 20
15 15 10
10
5 0 10
5 15
20
25
35
30
0 10
15
20
30
35
40
25
30
35
40
25 20 15 10 5 0
10
15
20
25
Figure 4.11. Histogrammes relatifs aux populations ZEN (en haut, à gauche), ZEP (en haut, à droite) et totale (en bas).
L’ensemble de ces informations est confirmée par les boxplots de la figure 4.12. La distribution totale, « fusion » des deux sous-distributions ZEN et ZEP (figure 4.11) présente quant à elle deux maxima, le premier correspondant à peu près à la moyenne de la population totale et le second centré autour des élèves en situation de surcharge pondérale (on dit qu’il s’agit d’une distribution bimodale, contrairement aux deux distributions ZEN et ZEP qui sont dites unimodales). 150
4.6. Obésité chez les enfants : une solution
35 30 25 20 15
ZEN
ZEP
Total
Figure 4.12. Boxplots des populations ZEN, ZEP et totale.
La valeur élevée du troisième quartile des données de ZEP souligne le fait qu’un nombre important d’élèves de ZEP sont en situation de surpoids. On dénombre en fait exactement 19 enfants obèses dans la population totale (au sens médical du terme, il s’agit d’enfants dont l’IMC est supérieur à 30), dont 5 sont scolarisés en ZEN et 14 en ZEP. On notera sur le deuxième et le troisième boxplot de la figure 4.12 la présence d’une donnée aberrante, correspondant à un enfant (scolarisé en ZEP) atteint d’obésité grave. La figure 4.13, enfin, présente les fonctions de répartition empiriques associées aux trois types de population. Une lecture directe de ces courbes montre que, dans la population totale, la probabilité (estimée) d’être en situation de surpoids (IMC compris entre 25 et 30) est égale à 15 % (lire Fn (30) − Fn (25) sur la fonction de répartition), alors qu’elle n’est que de 7 % pour les élèves de ZEN contre 23 % pour les élèves de ZEP. L’inégalité entre ZEN et ZEP est confirmée en analysant la probabilité empirique d’être atteint d’obésité (IMC supérieur à 30, 5 % pour ZEN, 14 % pour ZEP). Bien entendu, toutes ces conclusions n’ont qu’une valeur relative. Les mathématiques assurent que les caractéristiques empiriques que nous venons de calculer ou de décrire convergent vers les valeurs théoriques lorsque la taille de l’échantillon tend vers l’infini. Mais, sans plus d’informations, rien ne nous garantit que le choix n = 200 soit suffisamment élevé pour avoir une réelle proximité entre valeurs empiriques réalisées d’une part et valeurs théoriques d’autre part. 151
Chapitre 4. Des probabilités aux statistiques F (x)
F (x)
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 10
15
20
25
30
35
10
x
15
20
25
30
35
40
x
F (x) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
10
15
20
25
30
35
40
x
Figure 4.13. Fonctions de répartition empiriques relatives aux populations ZEN (en haut, à gauche), ZEP (en haut, à droite) et totale (en bas).
4.7. Annexe : loi des grands nombres et théorème central limite 4.7.1. Loi des grands nombres C’est au mathématicien bâlois Jakob Bernoulli (1654–1705) que l’on doit le premier énoncé de la loi des grands nombres, paru dans l’ouvrage Ars Conjectandi. Ce livre en latin sur le calcul des probabilités fut complété par le neveu de l’auteur, Niklaus, et publié huit ans après sa mort en 1713. Les travaux de Bernoulli, qui avaient pour cadre le jeu de pile ou face, ont été grandement généralisés depuis, notamment par Pafnouti Lvovitch Tchebychev (1821–1894), Francesco Paolo Cantelli (1875–1966) et Andreï Nikolaïevitch Kolmogorov (1903–1987). La loi des grands nombres stipule que lors d’une série de tirages aléatoires indépendants et 152
4.7. Annexe : loi des grands nombres et théorème central limite
de même loi, la moyenne empirique des observations s’approchera invariablement de l’espérance mathématique de la loi de probabilité sous-jacente. Lors d’un tirage de 100 jets indépendants d’un dé à six faces, équilibré et non truqué (cf. la figure 4.1 page 131), l’observation du comportement de la moyenne empirique des observations 1 x1 + . . . + xn xi = n n n
x ¯n =
i=1
(nous avons rajouté un n dans l’écriture x ¯n , pour bien rappeler que cette moyenne dépend de n) révèle une stabilisation, lorsque n grandit, autour d’une valeur limite comprise entre 3 et 4 (voir la figure 4.14).
x¯n 3.8 3.6 3.4 3.2 3 2.8 2.6 2.4 2.2 2
1
10
20
30
40
50
60
70
80
90
100
n
Figure 4.14. Trajectoires des moyennes empiriques associées aux observations du premier tirage (en haut, à gauche) de la figure 4.1.
Ainsi, et contrairement à la suite des valeurs individuelles x1 , . . . , xn qui ne présente pas de comportement particulier, la moyenne empirique x ¯n semble en revanche être animée d’un comportement asymptotique remarquable. Ce résultat est d’autant plus frappant qu’il est, a priori, indépendant de la suite des réalisations de X1 , . . . , Xn – comme le suggère la figure 4.15, sur laquelle nous avons 153
Chapitre 4. Des probabilités aux statistiques 4
6
3.5
5
3
4
2.5
3
2
1
50
100
2
5 4.5 4 1
50
100
3.5 1
4
6
6
3
5
5
2
4
4
1
1
50
100
3
1
50
100
3
6
4
6
5
3.5
5
50
100
1
50
100
1
50
100
3 4 3
4
2.5 1
50
100
2
1
50
100
3
Figure 4.15. Trajectoire de la moyenne empirique associée aux observations de la figure 4.1.
porté les trajectoires des moyennes empiriques pour chacun des 9 tirages de la figure 4.1. Si l’on raisonne en termes de variables aléatoires, l’expérience que nousvenons ¯ n = 1 n Xi de décrire suggère donc que la moyenne empirique (aléatoire) X i=1 n associée à l’échantillon X1 , . . . , Xn se « stabilise » autour d’une valeur limite lorsque n croît, et ceci indépendamment de la suite des réalisations x1 , . . . , xn . En fait, la limite n’est autre que l’espérance de la variable aléatoire mère X, soit donc, pour un dé à 6 faces, = E(X) = 1+2+3+4+5+6 = 3,5. C’est ce résultat, 6 qui se généralise à une loi mère quelconque X, qui porte le nom de loi des grands nombres. Il s’énonce de la façon suivante : Soit X1 , . . . , Xn un échantillon de variables aléatoires indépendantes, de même loi qu’une variable mère X, d’espérance μ. Alors, la moyenne empirique ¯ n = X1 + · · · + Xn X n 154
4.7. Annexe : loi des grands nombres et théorème central limite
converge « presque sûrement » vers μ lorsque n tend vers l’infini. Cela signifie que, hormis quelques rares suites pathologiques, toutes les suites de réalisations ¯n converge x1 , . . . , xn de l’échantillon sont telles que la moyenne empirique x vers μ quand n → +∞. On peut en fait donner un sens mathématique bien précis et surtout plus rigoureux à la notion de convergence « presque sûre », mais il faudrait pour cela introduire des outils de calcul des probabilités qui dépassent de très loin le cadre de cet ouvrage. On retiendra simplement que le terme « presque sûr » signifie que la convergence n’est mise en défaut que pour quelques suites de réalisations qui n’apparaissent fort heureusement qu’avec une probabilité nulle. Les applications de la loi des grands nombres sont innombrables et une grande partie de la statistique moderne repose sur cet énoncé fascinant.
4.7.2. Théorème central limite La loi des grands nombres, qui établit la convergence des moyennes empiriques vers la véritable espérance, ne donne en revanche aucune information sur la vitesse ¯ n − μ| s’approchent de 0. Imaginons un lecteur qui avec laquelle les différences |X promène une loupe sur les courbes de la figure 4.15. Si le coefficient de la loupe est un nombre réel positif fixe α, le lecteur observera à travers son ustensile les petites différences |¯ xn − μ| multipliées par le coefficient grossissant α, soit donc α|¯ xn − μ|. Il visualise ainsi les différences pendant un certain temps, mais elles finissent par s’estomper puisque, de toute façon, α|¯ xn − μ| → 0 lorsque n grandit. Notre lecteur, s’il est un peu bricoleur, comprend alors rapidement qu’il doit se procurer une loupe dont le coefficient de grossissement s’accroît avec n, de sorte à pouvoir maintenir les nombres α(n)|¯ xn − μ| à une échelle « macroscopique », c’est-à-dire visible en permanence à l’œil nu. Mais quel coefficient grossissant α(n) choisir ? C’est à cette question que répond le théorème central limite. Les premières versions de ce théorème fondamental du calcul des probabilités remontent à Abraham de Moivre (The Doctrine of Chances, 1733) et Pierre-Simon de Laplace (Théorie Analytique des Probabilités, 1812). Il s’énonce comme suit : Soit X1 , . . . , Xn un échantillon de variables aléatoires indépendantes, de même loi qu’une variable mère X, d’espérance μ et de variance σ 2 . Alors, la variable aléatoire ¯n − μ √ X n σ 155
Chapitre 4. Des probabilités aux statistiques
« converge en loi » lorsque n tend vers l’infini vers une variable aléatoire de loi normale N (0,1). Cela signifie que, pour tous les nombres réels a et b, on a ¯n − μ √ X lim P a ≤ n ≤ b = P(a ≤ N (0,1) ≤ b). n→+∞ σ Autrement dit, la loi de n → +∞.
√
¯
n Xnσ−μ « s’approche » de la loi N (0,1) quand
Ainsi, notre lecteur doit se munir d’une loupe à grossissement variable α(n) = n pour observer des différences α(n)|¯ xn − μ| à la bonne échelle pour l’œil. Mieux encore, lorsque n grandit, ces différences se répartissent autour de 0 selon une loi normale de variance σ 2 . La puissance de ce théorème provient de sa validité quelle que soit la loi de la variable mère X, qui peut donc être discrète ou continue. Ce résultat spectaculaire est illustré dans le cas du dé par la figure 4.16, qui √ ¯ présente les histogrammes de 1000 réalisations de la variable aléatoire n Xnσ−μ pour n = 10 et n = 100. Ici, μ = 3,5 et σ 2 = (12 + 22 + . . . + 62 )/6 − (3,5)2 ≈ 2,92. √
0.24 0.23 0.18 0.15
0.12
0.08
0
-4
0.06 0 -3
-2
-1
0
1
2
3
4
-5
-4
-3
-2
-1
0
1
2
3
4
5
√ ¯ Figure 4.16. Histogrammes de 1000 réalisations de n Xnσ−μ pour n = 10 (à gauche) et n = 100 (à droite) (μ = 3,5 et σ 2 ≈ 2,92). La densité de la loi N (0,1) est en tirets.
En fait, lorsque chaque Xi suit déjà une loi normale N (m, σ 2 ), on peut montrer que, pour tout n, ¯n − μ √ X σ2 ¯ ∼ N (0,1), ou encore Xn ∼ N μ, . n σ n Lorsque les Xi suivent une loi a priori quelconque, cette égalité en loi n’est plus correcte, et le théorème central limite permet alors d’affirmer que, « pour n as√ ¯ sez grand », le quotient n Xnσ−μ sera approximativement distribué selon une loi 156
4.8. Exercices
N (0,1). On écrit ¯n − μ √ X ≈ N (0,1), n σ
¯n ≈ N X
ou encore
σ2 μ, n
.
Comme nous le verrons dans les chapitres qui suivent, ce paradigme loi normale/approximation normale est au cœur des méthodes fondamentales de la statistique. Il faut néanmoins se garder contre une utilisation abusive du théorème central limite, en ne perdant jamais de vue qu’il s’agit d’un résultat asymptotique, qui n’est donc théoriquement valable que lorsque n est « infini ».
4.8. Exercices Exercice 1 (Répartition de vers) Des biologistes marins s’intéressent à une famille de vers présents dans les sables des côtes de la Manche. Afin de mieux connaître les habitudes de cette espèce, ils décident de prélever une même quantité de sable en différents endroits et comptent le nombre de vers dans chaque prélèvement. La répartition des prélèvements selon le nombre de vers observés est donnée dans le tableau ci-dessous. Vers Prélèvements
0 13
1 27
2 28
3 19
4 8
5 3
6 1
7 1
Calculer la moyenne, la variance et l’écart-type empiriques du nombre de vers par prélèvement.
Exercice 2 (Analyse chimique de massifs granitiques) Des analyses chimiques de plusieurs massifs granitiques de la chaîne des Pyrénées ont donné les teneurs en silice suivantes (pourcentage pondéral arrondi) : Teneur
67
65
70
72
72
71
72
75
71
74
Teneur
76
76
76
78
75
76
74
72
76
75
1. Calculer la moyenne et l’écart-type de cette série de n = 20 observations. Après avoir rangé les données par ordre croissant, préciser les valeurs de ˆ et qˆ0,975 . trois quartiles empiriques qˆ0,25 , m 2. La variable statistique étudiée (la teneur en silice) étant considérée comme discrète, tracer le diagramme en bâtons de la distribution correspondante. 3. En quoi la valeur 76 est-elle remarquable ? 157
Chapitre 4. Des probabilités aux statistiques
4. La variable statistique est maintenant considérée comme continue (l’égalité entre certaines valeurs s’interprétant alors comme une conséquence des arrondis). On range les réalisations en 7 classes de largeur 2 entre 64,5 et 78,5. (a) Donner sous forme d’un tableau le centre, l’effectif et la fréquence de chaque classe, ainsi que les effectifs et les fréquences cumulées. (b) Construire l’histogramme et le polygone des fréquences. (c) Tracer la courbe des fréquences empiriques cumulées. (d) À l’aide de la courbe précédente, déterminer graphiquement les trois quartiles et proposer un calcul numérique pour la médiane.
Exercice 3 (Analyse de durées de survie) 1. Partie théorique. On rappelle qu’une variable aléatoire X suit une loi exponentielle de paramètre λ (λ > 0) lorsqu’elle admet la densité −λx si x ≥ 0, λe f (x) = 0 sinon. (a) Expliciter et tracer la fonction de répartition F de X. (b) En constatant que (xe−λx ) = e−λx − λxe−λx et que (x2 e−λx ) = xe−λx + x(xe−λx ) , calculer l’espérance et la variance de X. (c) Calculer, pour tout α ∈ ]0 ; 1[, le quantile d’ordre α de la variable aléatoire X. En déduire la médiane (théorique) de X. 2. Partie appliquée. Vingt patients atteints d’une maladie grave ont été traités chirurgicalement dans un même service de chirurgie et suivis jusqu’à leur décès. La série des durées de survie, mesurées en semaines à partir de la date de l’intervention chirurgicale jusqu’à celle du décès, est la suivante : Durée
25
143
238
16
54
Durée
112
29
149
78
325
41 38
172
410
71
91
14
92
114
53
(a) Tracer la fonction de répartition empirique associée aux observations du tableau précédent. Que penser de l’hypothèse : La durée de survie des malades opérés suit une loi exponentielle ? (b) Calculer la moyenne, la variance et la médiane empiriques de la série. Commenter. (c) En admettant que les données proviennent effectivement d’une loi exponentielle, quelle valeur du paramètre λ peut-on raisonnablement proposer ? 158
Exercices
Exercice 4 (Nombre d’enfants par famille) On a répertorié le nombre d’enfants de n = 250 familles vivant en région parisienne : Nombre d’enfants Familles
0 31
1 94
2 74
3 43
4 8
1. Calculer la moyenne et la médiane de cette distribution empirique. 2. Une famille absente lors du recueil des données annonce qu’elle a 2 enfants. Calculer la moyenne et la médiane de la nouvelle série et comparer avec les valeurs précédemment trouvées.
Exercice 5 (Comparaison de deux séries statistiques) On considère une série statistique de 50 mesures d’envergure ailes déployées (en cm) mesurées chez des vautours adultes de la région de l’Adour. La série est rangée par valeurs croissantes, et un chiffre en gras indique que la longueur a été mesurée chez une femelle. 103 128 146 155 170
110 130 148 156 171
111 132 148 156 172
112 139 150 160 175
118 139 150 161 175
120 139 151 163 176
125 141 151 163 177
125 142 153 165 177
126 144 153 168 178
127 145 154 169 179
1. Quelles informations peut-on obtenir, sans calcul, en examinant les données de l’énoncé ? 2. Calculer la moyenne et la variance des distributions des femelles et des mâles. Faire de même pour la moyenne et la variance empiriques de la série totale. 3. Déterminer l’écart interquartile de la série des femelles et de la série des mâles. 4. Afin de simplifier les données, on procède à un regroupement en classes de largeur 10 entre 104 et 184. Donner, pour les séries des femelles et des mâles, le tableau des largeurs, centres, effectifs et fréquences de chaque classe. 5. En assimilant chaque classe à son centre, calculer la moyenne, la variance et l’écart interquartile des données regroupées en classes pour les distributions des femelles et des mâles. Commenter.
Exercice 6 (Présentation synthétique de résultats) Le responsable statistique d’un laboratoire pharmaceutique souhaite analyser les effets d’un nouvel hypnotique. À cette fin, il décide d’administrer le produit à 180 volontaires 159
Chapitre 4. Des probabilités aux statistiques
hommes et 100 volontaires femmes et observe leurs temps d’endormissement (en minutes). Afin de présenter de façon synthétique les distributions des temps d’endormissement des deux sous-populations (hommes et femmes), notre statisticien réalise les boîtes de dispersion, qui sont présentées dans la figure 4.17. Commenter les résultats. 14 13 12 11 10 9 8 7 6 5 4 Hommes
Femmes
Figure 4.17. Boxplots des temps d’endormissement des 180 volontaires hommes et 100 volontaires femmes.
Exercice 7 (Formule de décentrage de la variance empirique) On rappelle que la variance empirique basée sur n observations X1 , . . . , Xn a pour expression 1 ¯ 2. (Xi − X) S = n n
2
i=1
Montrer que
1 2 ¯ 2 Xi − (X) S = n n
2
i=1
et que S2 =
n n 1 (Xi − Xj )2 2n2 i=1 j=1
(voir aussi, à ce sujet, l’exercice 10 du chapitre 3).
160
5 ESTIMATION PONCTUELLE ET PAR INTERVALLE
5.1. Problème : estimation d’un taux de germination Un pépiniériste en vue, qui a mis au point une nouvelle variété de roses rouges, souhaite connaître à l’avance la faculté germinative de ses graines (c’est-à-dire la probabilité pour qu’une graine prise au hasard dans la production germe et se transforme en rose). Ce botaniste créateur, reconnu pour son sérieux, considère en effet que les semences peuvent être proposées à la vente sans tromper les clients si le taux de germination est supérieur à 85 %. S’il voulait être absolument certain de la qualité de son produit, il serait obligé de semer toutes les graines de la production (en pratique, plusieurs milliers) afin de compter le nombre de fleurs écloses et, en procédant de cette manière, il n’aurait évidemment plus aucune graine à vendre. La seule possibilité pour notre jardinier professionnel consiste alors à prélever un échantillon bien choisi d’une centaine de graines, à les semer et à compter le nombre de roses rouges effectivement arrivées à maturité. Sur la base de ces observations, il pourra alors effectuer une estimation du taux de germination réel de son lot de semences. Bien entendu, l’information obtenue sur la production ne sera pas totale (puisque le pépiniériste ne connaît qu’une toute petite partie de la population considérée) et sera entachée d’une erreur. Que peut-on dire sur la population à partir d’un simple échantillon ? Quelle erreur commet-on ? Peut-on quantifier cette erreur, l’encadrer ou même essayer de la réduire ? C’est à ces questions que répond la statistique inférentielle, qui utilise les informations obtenues sur un échantillon pour en déduire des résultats concernant l’ensemble de la population. Son volet le plus immédiat est l’estimation,
Chapitre 5. Estimation ponctuelle et par intervalle
qui s’attache à retrouver un ou plusieurs paramètres inconnus d’une population à partir des valeurs observées sur un échantillon. C’est le sujet traité dans ce chapitre.
5.2. Estimation ponctuelle 5.2.1. Principes généraux Conformément au modèle introduit au chapitre 4, nous représentons désormais l’expérience statistique par un échantillon aléatoire X1 , . . . , Xn , composé de n variables aléatoires mutuellement indépendantes et admettant toutes la même loi de probabilité qu’une variable X nommée variable mère, dont la loi est appelée loi mère. La clé de voûte de la statistique inférentielle consiste à supposer que la loi mère dépend d’un paramètre noté θ, dont la valeur est inconnue. Il peut par exemple s’agir de l’espérance θ = E(X), ou bien de sa variance θ = V(X), mais d’autres exemples seront envisagés par la suite. Ce paramètre θ, qui est en général une caractéristique importante de la loi de X, intéresse pour diverses raisons le statisticien qui va alors chercher, à partir des réalisations de l’échantillon x1 , . . . , xn , à en donner une valeur approchée. L’outil fondamental de statistique inférentielle, permettant d’effectuer le lien entre les mesures x1 , . . . , xn d’une part et la vraie valeur du paramètre θ d’autre part, est connu sous le nom d’estimateur. Un estimateur de θ est une fonction Θn des variables aléatoires de l’expérience, Θn = Θn (X1 , . . . , Xn ), destinée à fournir une bonne approximation de θ. Avant observation, l’estimateur est une variable aléatoire. On dit que cette variable aléatoire est une « statistique », c’est-à-dire une fonction de l’échantillon X1 , . . . , Xn . Ce sont les réalisations de cette variable aléatoire « estimateur » que l’on a coutume d’appeler estimations (ponctuelles) du paramètre θ. Comme dans les chapitres précédents, on prendra donc bien garde de distinguer la variable aléatoire Θn (notation majuscule), qui est une quantité mathématique abstraite, de ses réalisations θn (notation minuscule), qui sont des quantités numériques. La définition d’un estimateur ne précise pas davantage ce que doit être une « bonne approximation de θ ». Afin de clarifier le contexte, il semble naturel de définir un critère de qualité fondé sur l’écart Θn − θ entre l’estimateur Θn et la vraie valeur du paramètre θ. Il existe en fait de nombreux critères permettant de répondre à la question. Nous envisagerons dans cet ouvrage le risque quadratique, 164
5.2. Estimation ponctuelle
défini par
R(Θn , θ) = E (Θn − θ)2 ,
dont les bonnes propriétés expliquent qu’il soit l’un des critères privilégiés des statisticiens. En écrivant Θn − θ = [Θn − E(Θn )] + [E(Θn ) − θ] , et en posant B(Θn ) = E(Θn ) − θ, on voit (cf. l’exercice 8) que R(Θn , θ) = V(Θn ) + [B(Θn )]2 . Le terme B(Θn ), que l’on appelle biais de l’estimateur, mesure la proximité entre la valeur moyenne de Θn et la cible θ. La relation ci-dessus s’énonce donc traditionnellement de la manière suivante : le risque quadratique d’un estimateur est égal à la somme de sa variance plus le carré du biais. Pour une réalisation donnée x1 , . . . , xn de l’échantillon aléatoire, la réalisation θn de Θn fournit une estimation du paramètre inconnu θ, qui n’a aucune raison d’être égale à la valeur exacte. En particulier, pour une nouvelle réalisation de l’échantillon, θn fournira une autre valeur. Lorsque, en moyenne, toutes ces estimations sont égales à θ, cela signifie que E(Θn ) = θ ou encore que B(Θn ) = 0 : on dit alors que l’estimateur Θn est sans biais et l’on voit que, dans ce cas, son risque quadratique se réduit au seul terme de variance V(Θn ). En guise de philosophie générale, on essaiera toujours de rechercher des estimateurs dont le risque quadratique est petit et, à risque quadratique comparable, on préférera travailler avec un estimateur sans biais. On dira enfin d’un estimateur dont le risque quadratique tend vers 0 lorsque n tend vers l’infini qu’il est convergent. Intuitivement, cela signifie que lorsque la taille de l’échantillon augmente, les valeurs fournies par l’estimateur se rapprochent de la vraie valeur du paramètre. Tous les estimateurs envisagés dans la suite de ce cours seront convergents. Passons à la pratique.
5.2.2. Moyenne et variance empiriques Afin de fixer les idées, nous approfondissons dans ce paragraphe le problème de l’estimation de l’espérance(1) μ et de la variance σ 2 de la variable aléatoire mère X. (1)
Comme le veut l’usage, nous utiliserons indifféremment les termes espérance ou moyenne pour désigner le paramètre théorique μ, qu’on veillera à ne pas confondre avec la moyenne ¯ empirique X...
165
Chapitre 5. Estimation ponctuelle et par intervalle
Il s’agit de deux exemples fondamentaux, dans la mesure où les principes dégagés demeureront valables pour d’autres paramètres. Commençons par remarquer que la moyenne empirique (cf. le chapitre 4) ¯ = 1 Xi X n n
i=1
est un estimateur sans biais du paramètre μ et qu’il est convergent. En effet, puisque chaque Xi a la même loi que X (et donc, en particulier, la même espérance), en utilisant la linéarité de l’espérance, nous avons 1 nμ ¯ = 1 = μ. E(X) E(Xi ) = μ= n n n n
n
i=1
i=1
¯ est sans biais. Nous pouvons donc Cela signifie exactement que l’estimateur X écrire ¯ μ) = V(X). ¯ R(X, Par ailleurs, l’estimateur est bien convergent car n n 1 1 ¯ =V Xi = 2 V(Xi ) V(X) n n i=1
i=1
puisque X1 , . . . , Xn sont indépendantes, et donc ¯ = V(X)
σ2 nσ 2 , = n2 n
puisque chaque Xi a la même loi que X (et donc, en particulier, la même variance). ¯ tend donc vers 0 lorsque n tend vers l’infini. Le risque quadratique de X L’estimation de la variance σ 2 est un peu plus délicate. Lorsque l’espérance μ est connue, il est facile de voir qu’un estimateur sans biais et convergent de σ 2 est fourni par n 1 (Xi − μ)2 . S¯2 = n i=1
En effet, en se rappelant que chaque Xi a pour variance σ 2 , on a d’une part E(S¯2 ) = 166
1 2 nσ 2 1 = σ2 . E (Xi − μ)2 = σ = n n n n
n
i=1
i=1
5.2. Estimation ponctuelle
En posant v 2 = V[(X − μ)2 ], on trouve d’autre part, en utilisant l’indépendance des Xi , que V(S¯2 ) =
n n 1 v2 1 2 nv 2 2 V (X − μ) v = 2 = = i 2 2 n n n n i=1
i=1
qui tend bien vers 0 lorsque n tend vers l’infini. Cela étant, en général, on ne connaît pas μ, et il faut alors utiliser l’estimateur variance empirique, que nous avons déjà rencontré au paragraphe 4.3.2 du chapitre 4 : La variance empirique de X1 , . . . , Xn est 1 ¯ 2. (Xi − X) n n
S2 =
i=1
Autrement dit, pour passer de S¯2 à S 2 , on remplace μ par son estimateur ¯ (bien observer la différence de notation entre S¯2 (sans biais et convergent !) X 2 et S ). On peut montrer (voir l’exercice 8) que E(S 2 ) =
n−1 2 σ , n
ce qui signifie que S 2 est un estimateur biaisé de la variance σ 2 . En revanche, tout s’arrange asymptotiquement, puisque E(S 2 ) → σ 2 lorsque n tend vers l’infini : on dit alors que S 2 est asymptotiquement sans biais. Un calcul plus long que difficile montre que l’estimateur S 2 est également convergent. Pour corriger le biais, on préfèrera souvent utiliser l’estimateur sans biais et convergent suivant, que l’on appelle variance empirique corrigée : La variance empirique corrigée de X1 , . . . , Xn est 1 ¯ 2. = (Xi − X) n−1 n
S
2
i=1
Nous avons vu au chapitre 4 que la variance empirique S 2 pouvait s’écrire 1 2 ¯ 2. Xi − (X) n n
S2 =
i=1
167
Chapitre 5. Estimation ponctuelle et par intervalle
Hélas, une formule aussi élégante n’existe pas pour S 2 . En général, on calcule d’abord S 2 puis on en déduit ensuite la valeur de S 2 à l’aide de la relation évidente n S 2 = S2. n−1 ¯ 2 à l’aide du développement On peut aussi, alternativement, calculer n (Xi − X) i=1
n
¯ 2= (Xi − X)
i=1
n
¯ 2 Xi2 − n(X)
i=1
et diviser le résultat par n − 1.
Exemple 1. L’étude du parasitisme d’une production de pommes par un ver jusqu’alors inconnu a conduit à dénombrer les larves de ce parasite trouvées dans un lot de 200 fruits : Nombre y de larves Nombre de fruits présentant y larves
0 82
1 55
2 30
3 16
4 9
5 5
6 2
7 1
On cherche à estimer le nombre moyen d’insectes par fruit et la variance de ce caractère. Introduisons, pour simplifier, les notations y0 = 0, . . . , y7 = 7 et n0 = 82, . . . , n7 = 1. Dans la mesure où les données sont présentées sous forme regroupée (y0 a été observé n0 fois, ..., y7 a été observé n7 fois), la moyenne empirique du nombre de vers par fruit est donnée par la formule 7
y¯ =
1 ni yi , n i=0
avec n =
7
ni = 200.
i=0
Ainsi, y¯ = 243 200 = 1,215. La variance se calcule facilement grâce à l’expression 7
s2 =
1 709 − 1,2152 = 2,069. ni yi2 − (¯ y )2 = n 200 i=0
On en déduit finalement que s 2 = 168
n 200 s2 = × 2,069 = 2,079. n−1 199
5.3. Intervalles de confiance
Signalons, pour terminer ce paragraphe, qu’il existe plusieurs méthodes générales permettant de construire des estimateurs possédant de bonnes propriétés. Les plus courantes sont la méthode des moments et celle dite du maximum de vraisemblance. Une étude approfondie de ces techniques nous entraînerait bien au-delà des limites du présent manuel et nous renvoyons le lecteur intéressé à des ouvrages plus spécialisés (voir par exemple [3, 7] ou [11]).
5.3. Intervalles de confiance 5.3.1. Définition et principe de construction Dans le paragraphe précédent, nous avons mis en évidence le rôle d’un estimateur en tant que pourvoyeur d’une « approximation » de la valeur inconnue du paramètre θ. Cela étant, une estimation sans degré de précision est douteuse, dans la mesure où elle est variable (il suffit d’ajouter ou de retrancher une observation pour changer sa valeur) et où elle ne peut être distinguée d’une valeur quelconque, qui aurait été avancée sur la base de l’intuition ou d’une simple connaissance du sujet. Ainsi, lorsqu’un statisticien propose, au vu des observations x1 , . . . , xn , une estimation θn de θ, quelle confiance peut-il avoir en son résultat ? D’après ce qui précède, tout ce qu’il sait, c’est que plus n est grand, plus θn a des chances d’être voisin de θ. S’il connaît la loi de l’estimateur Θn , il peut faire beaucoup mieux dans de nombreux cas en fabriquant, à partir de l’échantillon X1 , . . . , Xn , deux nouvelles variables aléatoires An (X1 , ..., Xn ) et Bn (X1 , ..., Xn )(2) telles que la probabilité P(An ≤ θ ≤ Bn ) ait une valeur fixée à l’avance, appelée niveau de confiance et notée 1 − α, avec 0 < α < 1. L’intervalle [An ; Bn ] s’appelle intervalle de confiance de niveau 1 − α pour θ. On le note IC1−α (θ). En pratique, on choisit une valeur faible pour α, typiquement de l’ordre de 0, 1 ou 0, 05, et on parle alors d’intervalle de confiance de niveau 90 % ou 95 %. Dans certaines situations, on peut n’être intéressé qu’à établir une borne inférieure ou une borne supérieure pour θ, An ou Bn étant rejeté à l’infini. On parle (2)
Cette notation souligne que, comme auparavant Θn , les variables An et Bn sont des fonctions de X1 , ..., Xn .
169
Chapitre 5. Estimation ponctuelle et par intervalle
alors d’intervalle de confiance unilatéral (par opposition à bilatéral). Afin de ne pas compliquer les choses, nous n’envisagerons dans ce cours que des intervalles de confiance bilatéraux. Des exemples d’intervalles unilatéraux sont donnés dans l’exercice 7. On prendra bien garde au fait que les deux bornes An et Bn sont des quantités aléatoires, qui ne peuvent ni ne doivent en aucun cas être fonctions du paramètre inconnu θ. Dans la pratique, le statisticien calcule les réalisations numériques an et bn de An et Bn à partir d’observations x1 , . . . , xn , et cela lui fournit une réalisation de l’intervalle de confiance, que nous noterons avec des lettres plus petites(3) ic1−α (θ). Supposons par exemple que α = 0, 05 et que l’on ait trouvé an = 2 et bn = 7, 3. On écrit alors ic0,95 (θ) = [2 ; 7, 3]. Même si la tentation est forte, on ne peut pas dire à proprement parler que cet intervalle contient θ avec probabilité 0, 95 du fait qu’il s’agit d’une réalisation. Soit il contient θ, soit il ne le contient pas ; en particulier, on a toujours P(2 ≤ θ ≤ 7, 3) = 0 ou 1 et toute écriture du genre P(2 ≤ θ ≤ 7, 3) = 0, 95 est fausse, donc à proscrire. Tout ce que l’on peut dire, c’est que la probabilité qu’un intervalle construit de cette manière contienne θ est de 95 %. Ou encore : si l’on construit 100 intervalles de confiance de niveau 0, 95, il est probable que 5 d’entre eux ne contiennent pas la vraie valeur de θ (mais on ne sait évidemment pas desquels il s’agit... !). Il y a, bien entendu, un lien entre l’approche ponctuelle et l’approche par intervalle, la seconde s’appuyant pour beaucoup sur les résultats de la première. On imagine en effet assez facilement qu’un estimateur convergent de θ sera un bon point de départ pour fournir un encadrement. Pour construire un intervalle de confiance de niveau (toujours donné) 1−α, on procède en général de la manière suivante : 1. On détermine un estimateur Θn de θ dont on connaît la loi. 2. On cherche une statistique, c’est-à-dire une fonction ϕ(Θn , θ) de Θn et de θ dont la loi est connue et ne dépend pas de θ. (3)
C’est cette réalisation que certains auteurs appellent effectivement intervalle de confiance, par opposition à intervalle de probabilité ou procédure d’intervalle de confiance pour l’intervalle aléatoire. Nous n’effectuerons pas une telle distinction.
170
5.3. Intervalles de confiance
3. À partir de la loi de ϕ(Θn , θ), on utilise une table statistique ou un ordinateur pour lire les deux quantiles qα/2 et q1−α/2 (4) tels que P ϕ(Θn , θ) ≤ qα/2 = α/2 d’une part, et
P ϕ(Θn , θ) ≤ q1−α/2 = 1 − α/2
d’autre part. On en déduit ainsi que P qα/2 ≤ ϕ(Θn , θ) ≤ q1−α/2 = 1 − α. 4. En « inversant » ϕ (lorsque c’est possible...), on encadre alors θ par deux quantités aléatoires An et Bn , fonctions uniquement de Θn , qα/2 , q1−α/2 et de paramètres connus, telles que P(An ≤ θ ≤ Bn ) = 1 − α.
5.3.2. Estimation par intervalle de la moyenne à variance connue ¯ constituait un « bon » estimateur Nous avons vu que la moyenne empirique X ponctuel de l’espérance (ou moyenne) μ de la variable aléatoire mère X. Dans ce paragraphe, nous poussons le raisonnement un cran plus loin, en essayant d’obtenir des intervalles de confiance pour μ. Afin de ne pas introduire toutes les difficultés simultanément, nous supposerons pour l’instant que la variance σ 2 de la variable aléatoire X est connue. Indépendamment de la commodité pour l’exposé, cette hypothèse correspond à des situations où l’on a déjà réalisé plusieurs expériences analogues, lesquelles ont permis de connaître σ 2 . C’est par exemple le cas pour l’ITCF (Institut Technique des Céréales et Fourrages) qui réalise chaque année un grand nombre d’essais de variétés. La longue expérience des chercheurs de cet institut leur a montré que, pour du blé, et dans de bonnes conditions d’expérimentation, l’écart-type associé au rendement est de 1 q/ha (source : [8]). Le cas gaussien Supposons tout d’abord que la variable aléatoire mère X (et, par conséquent, chacune des observations X1 , . . . , Xn ) suive une loi normale de moyenne μ et de variance (connue, donc) σ 2 : X ∼ N (μ, σ 2 ). (4)
Attention, pour avoir un intervalle de confiance de niveau 1 − α, ce sont les quantiles d’ordre α/2 et 1 − α/2 qui interviennent !
171
Chapitre 5. Estimation ponctuelle et par intervalle
Dans ce contexte, et comme nous avons déjà eu l’occasion de le souligner à la fin ¯ de l’annexe du chapitre 4, on peut alors démontrer que la moyenne empirique X 2 suit aussi une loi normale de moyenne μ et de variance σ /n : σ2 ¯ . X ∼ N μ, n Il en résulte, en centrant et en réduisant l’expression précédente, que ¯ −μ √ X ∼ N (0, 1). n σ Nous venons de franchir, sans presque nous en apercevoir, les étapes 1 et 2 de la construction générale des intervalles de confiance décrite au paragraphe précé¯ et ϕ(X, ¯ θ) = √n(X ¯ − μ)/σ. dent : ici, θ = μ, Θn = X Désignons alors par zα/2 (respectivement z1−α/2 ) le quantile d’ordre α/2 (respectivement 1−α/2) de la loi N (0, 1). Comme la densité de cette loi est symétrique par rapport à 0 (cf. figure 5.1, voir aussi l’exemple 22 du chapitre 1 pour l’étude de la gaussienne), on constate que zα/2 = −z1−α/2 . Par suite, cela nous permet
1−α
α/2
−z1−α/2
α/2
z1−α/2
Figure 5.1. Densité de probabilité d’une loi normale N (0, 1) et quantiles associés.
d’écrire (étape 3) ¯ −μ √ X ≤ z1−α/2 = 1 − α, P −z1−α/2 ≤ n σ 172
5.3. Intervalles de confiance
ou encore, en isolant μ dans l’expression ci-dessus (étape 4) : ¯ − z1−α/2 √σ ≤ μ ≤ X ¯ + z1−α/2 √σ P X = 1 − α. n n On pose donc : ¯ − z1−α/2 √σ An = X n
¯ + z1−α/2 √σ , et Bn = X n
et l’on en déduit finalement le résultat souhaité : Dans le cas gaussien, et lorsque la variance σ 2 est connue, l’intervalle σ ¯ σ ¯ √ √ IC1−α (μ) = X − z1−α/2 ; X + z1−α/2 n n est un intervalle de confiance de niveau 1 − α pour μ. Afin d’alléger un peu l’écriture des formules, nous utiliserons souvent l’écriture plus compacte σ ¯ IC1−α (μ) = X ± z1−α/2 √ . n On remarque que la largeur Bn − An de cet intervalle (que l’on appelle également longueur, taille ou amplitude) s’écrit σ n = 2 z1−α/2 √ · n Il s’agit d’une fonction décroissante de α et de n (pourquoi ?). En diminuant α, c’est-à-dire en augmentant le niveau de confiance, on agrandit l’intervalle qui, de ce fait, perd progressivement de son intérêt. À la limite, l’intervalle ]−∞ ; +∞[ est associé à α = 0, mais cela n’a évidemment aucune utilité pratique(5) . Inversement, si l’on souhaite un intervalle plus réduit, il faut accepter une augmentation du risque de ne pas recouvrir la vraie valeur du paramètre : on ne peut pas gagner sur tous les tableaux ! Pour réduire l’amplitude de l’intervalle, une autre solution consiste à faire croître la taille n de l’échantillon. On notera cependant que la √ largeur de l’intervalle se réduit proportionnellement à 1/ n, alors que le coût de la collecte et de l’analyse d’un échantillon est en général proportionnel à n. (5)
Le lecteur prendra garde à ne pas se laisser piéger par un vocabulaire trompeur : augmenter le niveau de confiance signifie rechercher des intervalles dont la probabilité de contenir μ est élevée, et qui donnent donc, forcément, des approximations peu précises de μ.
173
Chapitre 5. Estimation ponctuelle et par intervalle
Exemple 2. On a mesuré la tension artérielle systolique, au repos, sur 12 sujets montpelliérains. Les résultats obtenus, exprimés en cm de mercure, ont été consignés dans le tableau suivant : xi
12,9
13,2
15,1
11,4
10,3
14,1
16
9,3
12,1
14,2
8,6
12
Il s’agit de trouver un intervalle de confiance de niveau 95 % pour μ, la moyenne (théorique) de la tension artérielle systolique à Montpellier. On suppose pour cela que les observations proviennent d’une loi normale de variance connue σ 2 = 4. On calcule n 149,2 1 = 12,43, xi = x ¯= n 12 i=1
et l’on trouve à l’aide d’un logiciel (R par exemple) que, avec α = 0,05, le quantile d’ordre 1 − α/2 = 0,975 d’une loi N (0, 1) a pour valeur z1−α/2 = z0,975 = 1,96. Il s’ensuit
2 σ z1−α/2 √ = 1,96 × √ = 1,132, n 12
et l’on en déduit finalement (la réalisation d’) un intervalle de confiance de niveau 95 % pour μ : ic0,95 (μ) = [12, 43 − 1, 132 ; 12, 43 + 1, 132] = [11, 30 ; 13, 56]. Le cas général Les résultats précédents s’appliquent lorsque la loi de X est normale. Lorsque la loi de X n’est pas connue, ou lorsqu’elle est connue mais ne correspond visiblement pas à une loi normale, ces résultats ne sont plus applicables directement. En ¯ suit une loi normale effet, dans ce contexte plus général, il n’est plus vrai que X 2 d’espérance μ et de variance σ /n. Dès lors, comment faire ? Le théorème central limite (voir l’annexe au chapitre 4) affirme que, lorsque n tend vers l’infini, le √ ¯ suit à peu près une loi N (0, 1), ce que nous avons déjà résumé par ratio n X−μ σ l’écriture ¯ −μ √ X ≈ N (0, 1). n σ Ce résultat nous permet alors d’obtenir un intervalle de confiance approché (ou asymptotique) pour μ en utilisant mot pour mot la procédure développée dans le paragraphe précédent. Cet intervalle est approximatif dans le sens où la méthode 174
5.3. Intervalles de confiance
correspondante ne garantit pas exactement le niveau 1 − α pour n fini. Dans la mesure où l’approximation a une qualité qui dépend de la loi de X, il est difficile de fournir un n « universel » à partir duquel nous serions suffisamment proches du niveau souhaité. En particulier, les formules magiques du genre « l’approximation est valable au-delà de n = 32 » sont à manipuler avec beaucoup de précaution...
5.3.3. Estimation par intervalle de la moyenne à variance inconnue Le cas gaussien Même si la variance σ 2 est inconnue du statisticien, et en supposant toujours que X suit une loi normale, nous avons encore le droit d’écrire que ¯ −μ √ X ∼ N (0, 1) . n σ Cela étant, en utilisant cette formule telle quelle, nous retomberons invariablement sur l’intervalle σ ¯ σ ¯ X − z1−α/2 √ ; X + z1−α/2 √ n n qui ne pourra alors jamais être évalué puisque la variance, et donc aussi l’écarttype σ, sont précisément inconnus. Le principe pour sortir de ce piège consiste, comme bien souvent en statistique, à « remplacer » le terme inconnu (ici, σ 2 ) par un estimateur pertinent, par exemple par 1 ¯ 2. (Xi − X) n−1 n
S 2 =
i=1
On peut de plus montrer que (n − 1)S 2 ∼ χ2 (n − 1), σ2
√ ¯ et que cette dernière variable aléatoire est indépendante de n (X −μ)/σ (cf. [7]). Il s’ensuit alors, par définition de la loi de Student (cf. le paragraphe 3.6.6 du chapitre 3), que la variable aléatoire ¯ −μ √ X = Tn = n S
¯ −μ √ X n σ (n − 1)S 2 (n − 1)σ 2 175
Chapitre 5. Estimation ponctuelle et par intervalle
suit une loi de Student T (n − 1) à n − 1 degrés de liberté. La démarche finale pour obtenir un intervalle de confiance pour μ est alors strictement identique au (n−1) cas précédent : en notant t1−α/2 le quantile d’ordre 1 − α/2 de la loi T (n − 1) et (n−1)
en remarquant que, par symétrie, tα/2
(n−1)
= −t1−α/2 , nous obtenons
S
S
¯ − t(n−1) √ ¯ + t(n−1) √ P X ≤ μ ≤ X 1−α/2 1−α/2 n n
= 1 − α,
et cela nous conduit au résultat suivant : Dans le cas gaussien, et lorsque la variance est inconnue, l’intervalle
S ¯ (n−1) S ¯ − t(n−1) √ √ ; X + t IC1−α (μ) = X 1−α/2 1−α/2 n n est un intervalle de confiance de niveau 1 − α pour μ. La technique qui consiste à remplacer σ 2 par son estimateur S 2 est parfois appelée, un peu oralement, « studentisation ». La densité de la loi de Student à n − 1 degrés de liberté ressemble à celle de la loi normale N (0, 1), mais elle est plus plate (ou dispersée) et dépend de la taille de l’échantillon. Elle conduit donc, en général, à des intervalles de confiance plus larges. Ici encore, nous notons que, à n fixé, la largeur de l’intervalle de confiance est une fonction décroissante de α. Néanmoins, et contrairement au cas σ 2 connu, elle ne diminue pas mécaniquement avec n. En effet, la largeur
(n−1) S n = 2 t1−α/2 √ n est une variable aléatoire soumise aux aléas de fluctuation du terme S (qui peut donc augmenter ou diminuer avec n). En revanche, en se rappelant que E(S 2 ) = σ 2 , on voit que 2 (n−1) 2 σ E(2n ) = 4 t1−α/2 , n qui, elle, est bien une brave fonction déterministe (i.e., pas aléatoire) décroissante en n : en moyenne, le carré de la largeur de l’intervalle de confiance se réduit proportionnellement à 1/n. Remarquons pour finir que, en lieu et place de l’estimateur S 2 , on aurait pu penser à utiliser l’estimateur convergent 1 ¯ 2, (Xi − X) n n
S2 =
i=1
176
5.3. Intervalles de confiance
qui satisfait à la propriété nS 2 ∼ χ2 (n − 1). σ2 La démarche est tout à fait correcte et conduit alors à utiliser la statistique Tn =
√
n−1
¯ −μ X S
à la place de Tn . On préfère en général éviter cette approche, dans la mesure où Tn
n’apporte aucune information supplémentaire √ par rapport à Tn et, pire, dégrade l’esthétique générale à cause du terme en n − 1.
Exemple 3. Reprenons l’exemple 2 concernant la tension artérielle systolique, mais sans supposer cette fois-ci la variance σ 2 connue. À partir de x ¯ = 12, 43, on calcule n n 2 (xi − x ¯) = x2i − n(¯ x)2 , i=1
i=1
soit, numériquement, n
(xi − x ¯)2 = 1912,02 − 12 × 12,432 = 57,96.
i=1
On en déduit que s 2 =
57,96 = 5,27. 12 − 1
(11)
Comme t0,975 = 2,201 (table ou ordinateur), il s’ensuit que (n−1) t1−α/2
! s
5,27 √ = 2,201 = 1,458, 12 n
d’où l’intervalle de confiance de niveau 95 % pour μ : ic0,95 (μ) = [12,43 − 1,458 ; 12,43 + 1,458] = [10,97 ; 13,89]. La largeur de cet intervalle est, comme on pouvait s’y attendre, sensiblement plus importante que celle obtenue dans le cas σ 2 connu de l’exemple 2.
177
Chapitre 5. Estimation ponctuelle et par intervalle
Le cas général Que dire lorsque la loi de X est a priori quelconque et sa variance σ 2 est inconnue ? Bien entendu, dans ce contexte extrêmement général, Tn ne suit pas nécessairement une loi de Student à n − 1 degrés de liberté. Une fois encore, la clé est le théorème central limite(6) : lorsque n tend vers l’infini, la loi du ratio ¯ −μ √ X n S
s’approche d’une loi normale N (0, 1). En écrivant donc ¯ −μ √ X n ≈ N (0, 1), S
on conclut alors que : Dans le cas le plus général, et lorsque la variance est inconnue, l’intervalle S ¯ S
¯ IC1−α (μ) = X − z1−α/2 √ ; X + z1−α/2 √ n n est un intervalle de confiance asymptotique de niveau 1 − α pour μ. (n−1)
Notons que le quantile t1−α/2 de la loi T (n − 1) a été remplacé par le quantile z1−α/2 de la loi N (0, 1), ce que l’on peut justifier intuitivement en disant que, pour n grand, il n’y a « pas de différence » entre une loi T (n − 1) et une loi N (0, 1). Cet intervalle de confiance approché est d’autant meilleur que n est grand et que la loi de X est « proche » de la loi normale. Bien souvent, les statisticiens utilisent cette formule sans se soucier de la normalité de la loi mère ou de la taille de l’échantillon : prudence, cependant...
5.3.4. Estimation par intervalle de la variance : le cas gaussien Dans ce paragraphe, nous supposons que X suit une loi normale N (μ, σ 2 ), et notre objectif consiste à trouver un intervalle de confiance pour la variance σ 2 . Deux cas peuvent alors se présenter, selon que l’espérance μ est connue ou inconnue. Pour encadrer σ 2 dans le premier cas de figure, on utilise le fait (facile (6)
En toute rigueur, pour obtenir ce résultat, il faut adjoindre au théorème central limite le théorème dit de Slutsky, cf. [7].
178
5.3. Intervalles de confiance
à démontrer – nous invitons le lecteur à revoir la définition de la loi du χ2 au chapitre 3 pour s’en convaincre) que nS¯2 ∼ χ2 (n). σ2 Pour traiter le second cas, nous admettrons la propriété (déjà rencontrée au paragraphe précédent dans le mécanisme de « studentisation ») selon laquelle (n − 1)S 2 ∼ χ2 (n − 1). σ2
α/2 1−α
α/2
χ2α/2 (n)
χ21−α/2 (n)
Figure 5.2. Densité de probabilité d’une loi du χ2 (n) et quantiles associés.
Les intervalles de confiance pour σ 2 s’obtiennent alors, dans les deux cas, par la technique habituelle. Examinons en détail par exemple le premier cas de figure, et désignons par χ2α/2 (n) et χ21−α/2 (n) les quantiles d’ordres respectifs α/2 et 1−α/2 de la loi du χ2 à n degrés de liberté (cf. figure 5.2). Comme nS¯2 /σ 2 suit une loi χ2 (n), nous pouvons écrire P
χ2α/2 (n)
nS¯2 2 ≤ 2 ≤ χ1−α/2 (n) = 1 − α, σ 179
Chapitre 5. Estimation ponctuelle et par intervalle
ou encore, en inversant les bornes, nS¯2 nS¯2 2 ≤σ ≤ 2 = 1 − α. P χ21−α/2 (n) χα/2 (n) On en déduit ainsi un intervalle de confiance de niveau 1 − α pour σ 2 lorsque μ est connu : # " ¯2 ¯2 n S n S ; , IC1−α (σ 2 ) = χ21−α/2 (n) χ2α/2 (n) ce qui s’écrit également IC1−α (σ 2 ) =
"
n 2 i=1 (Xi − μ) χ21−α/2 (n)
# 2 (X − μ) i i=1 . χ2α/2 (n)
n ;
Lorsque μ n’est pas connu (cas 2), il suffit juste de remplacer les quantiles de la loi du χ2 à n degrés de liberté par ceux de la loi du χ2 à n − 1 degrés de liberté et S¯2 par S 2 . Un calcul analogue conduit alors à l’intervalle de confiance suivant, dont les réalisations sont en général plus larges : Dans le cas gaussien, et lorsque l’espérance est inconnue, l’intervalle # "
2
2 (n − 1)S (n − 1)S ; IC1−α (σ 2 ) = χ21−α/2 (n − 1) χ2α/2 (n − 1) est un intervalle de confiance de niveau 1 − α pour σ 2 . Cet intervalle s’écrit aussi " # n n 2 2 ¯ ¯ (X − X) (X − X) i i i=1 ; i=1 . IC1−α (σ 2 ) = χ21−α/2 (n − 1) χ2α/2 (n − 1) On prendra bien garde au fait que, comme la densité de la loi du χ2 n’est pas symétrique (contrairement à celle de la loi normale ou de la loi de Student, par exemple), on n’a évidemment pas χ2α/2 (n−1) = −χ21−α/2 (n−1) (cf. figure 5.2). Dit autrement, il faut donc bien disposer de ces deux quantiles pour pouvoir conclure, et il n’est en particulier pas surprenant que les bornes de l’intervalle ne soient pas symétriques par rapport à l’estimation ponctuelle S 2 .
Exemple 4. Sur un échantillon de n = 9 souches prélevées au hasard dans une vigne, on a mesuré le poids des raisins portés par chaque souche. On a trouvé une 180
5.4. Estimation d’un taux de germination : une solution
moyenne empirique de x ¯ = 51 hectogrammes avec, en outre, 9 (xi − x ¯)2 = 130. i=1
On cherche un intervalle de confiance de niveau 95 % pour σ, l’écart-type du poids des raisins par souche, supposé suivre une loi normale N (μ, σ 2 ). Comme μ est inconnu, on travaille avec une loi du χ2 à n − 1 = 8 degrés de liberté. On a χ20,025 (8) = 2, 180 et χ20,975 (8) = 17, 534. On en déduit donc l’intervalle de confiance pour la variance σ 2 : 130 130 2 ; = [7, 41 ; 59, 63], ic0,95 (σ ) = 17, 534 2, 180 soit, pour l’écart-type σ, en prenant la racine carrée des bornes : ic0,95 (σ) = [2, 72 ; 7, 72]. On remarque que cet intervalle est très grand, puisqu’il inclut des valeurs variant du simple au triple. En ce sens, la précision sur l’estimation d’un écart-type est en général moins bonne que pour une moyenne. Notons pour terminer que, contrairement au cas de la moyenne, on ne peut utiliser les résultats de ce paragraphe dans des situations où la loi mère diffère d’une loi normale, et ceci même pour de grandes tailles d’échantillons.
5.4. Estimation d’un taux de germination : une solution 5.4.1. Estimation d’une proportion Revenons à l’exemple du pépiniériste de l’introduction, qui considère que ses semences de roses rouges peuvent être mises à la vente si leur taux de germination avoisine les 85 %. Pour formaliser un peu les choses, il semble naturel de modéliser sa démarche par n variables aléatoires indépendantes X1 , . . . , Xn (une variable aléatoire = une graine plantée) qui ne peuvent prendre chacune que deux valeurs : 1 si la rose a éclos, 0 sinon. Le paramètre inconnu est ici p, qui représente la probabilité d’obtenir une rose une fois la graine plantée ou, dit différemment, la proportion vraie de semences susceptibles d’arriver à maturité au sein de la 181
Chapitre 5. Estimation ponctuelle et par intervalle
production globale du pépiniériste. C’est précisément sur cette proportion inconnue p que nous cherchons à obtenir de l’information. Dans la mesure où chaque Xi prend la valeur 1 avec probabilité p et la valeur 0 avec probabilité 1 − p, il s’agit clairement d’une variable aléatoire qui suit une loi de Bernoulli de paramètre p. Tout s’illumine alors : X1 , . . . , Xn est donc un échantillon de n variables aléatoires suivant chacune la même loi qu’une variable mère X de loi de Bernoulli de paramètre p, que nous souhaitons estimer ou encadrer ! Dès lors, quel estimateur choisir pour p et surtout quelles garanties en attendre ? Le choix le plus naturel consiste certainement à compter le nombre de 1 parmi les X1 , . . . , Xn (dans notre exemple, le nombre de roses effectivement récoltées par le pépiniériste) et à le diviser par n, la taille de l’échantillon (le nombre de graines initialement plantées). L’estimateur ainsi obtenu s’écrit simplement 1 Xi n n
Pn =
i=1
et on l’appelle proportion empirique associée à l’échantillon X1 , . . . , Xn . Pour justifier mathématiquement ce choix, rappelons que E(Xi ) = p (paragraphe 3.6.1 du chapitre 3). Or n 1 np = p, E(Xi ) = E(Pn ) = n n i=1
et nous constatons alors avec joie que l’estimateur Pn n’est autre que la moyenne empirique des Xi , estimateur sans biais de l’espérance p ! Nous sommes donc simplement dans un cas particulier d’estimation de la moyenne d’une loi. Dès lors, pour obtenir un intervalle de confiance pour p, nous pouvons une fois encore faire appel au théorème central limite. Étant donné que chaque Xi a pour espérance μ = p et pour variance σ 2 = p(1 − p), ce théorème nous apprend que ¯ −μ √ √ X Pn − p ≈ N (0, 1). = n n σ p(1 − p) Ainsi, avec des notations maintenant habituelles, nous pouvons écrire √ Pn − p ≤ z1−α/2 ≈ 1 − α. P −z1−α/2 ≤ n p(1 − p) On en déduit alors sans difficulté un encadrement approché pour p, de la forme # " ! ! p(1 − p) p(1 − p) ; Pn + z1−α/2 , Pn − z1−α/2 n n 182
5.4. Estimation d’un taux de germination : une solution
qui n’est malheureusement pas utilisable dans la mesure où p est inconnu. Une première astuce pour s’en sortir consiste simplement à observer que la double inégalité se ramène à une inégalité du second degré en p que l’on peut résoudre : n(Pn − p)2 2 ≤ z1−α/2 , p(1 − p) et qui conduit alors, tous calculs faits, à l’intervalle de confiance de niveau 1 − α suivant : ⎡ ⎤ 2 z1−α/2 2 4 z z Pn + 2n 1 1−α/2 1−α/2 ⎦ Pn (1 − Pn ) + ± IC1−α (p) = ⎣ . 2 2 z1−α/2 z1−α/2 n 4n2 1+ n 1+ n En pratique, cet intervalle compliqué n’est que rarement utilisé. Quitte à perdre un peu en qualité, on préfère en effet de loin remplacer la variance p(1 − p) par Pn (1 − Pn ) dans les expressions précédentes, ce qui conduit au résultat plus usuel suivant (dont la validité est garantie par le théorème central limite(7) ) : L’intervalle
"
IC1−α (p) = Pn − z1−α/2
!
Pn (1 − Pn ) ; Pn + z1−α/2 n
!
Pn (1 − Pn ) n
#
est un intervalle de confiance asymptotique de niveau 1 − α pour p. Tous les termes au sein de cet intervalle très simple peuvent maintenant être évalués numériquement à partir des réalisations de l’échantillon. En utilisant le fait que x(1 − x) ≤ 1/4 pour tout nombre réel compris entre 0 et 1 (pourquoi ?), on vérifie facilement que l’espérance de la largeur (aléatoire) n de l’intervalle est telle que z1−α/2 E(n ) ≤ √ · n Ce résultat, qui a d’importantes implications en théorie des sondages, signifie que √ la précision de l’estimation décroît vers 0 comme 1/ n : lorsque le nombre de données est multiplié par 100, la précision de l’intervalle est multipliée par 10 (voir l’exercice 5). Signalons, pour terminer ce paragraphe, que l’on peut aussi construire un intervalle de confiance « exact » en utilisant la fonction de répartition de Sn = ni=1 Xi , (7)
Ici encore, en toute rigueur, il faut adjoindre au théorème central limite le théorème de Slutsky, cf. [7].
183
Chapitre 5. Estimation ponctuelle et par intervalle
qui suit une loi binomiale B(n, p) (chapitre 3, paragraphe 3.6.2). Cependant, comme la loi binomiale est la loi d’une variable aléatoire discrète, il n’existe pas en général d’intervalle de confiance ayant un niveau exactement égal à 1 − α. On prendra alors un intervalle ayant un niveau supérieur ou égal à 1 − α.
5.4.2. Application au problème du pépiniériste Sur les 100 graines qu’a semées le pépiniériste-botaniste, 87 ont finalement donné naissance à de belles roses rouges. Le pourcentage de graines susceptibles de fournir une rose au sein de la production est donc estimé par pn = 87/100 = 87 %, valeur a priori correcte pour que les graines soient conformes à la vente. Remarquons cependant qu’il aurait suffi que le jardinier plante trois graines de plus qui ne germent pas pour que ce pourcentage estimé passe de 87 % à 87/103 ≈ 84 % ! Cette variabilité se retrouve dans l’intervalle de confiance de niveau 0, 95 pour p, qui s’écrit numériquement # " ! 0, 87(1 − 0, 87) ic0,95 (p) = 0, 87 ± 1, 96 = [0, 804 ; 0, 936]. 100 Ce dernier résultat conduit à nuancer la conclusion, dans la mesure où les bornes se répartissent de part et d’autre de la valeur de référence 0, 85. Pour affiner sa décision, le pépiniériste choisit alors de planter 1000 graines et recueille cette fois-ci 870 roses. Si, dans un tel cas de figure, l’estimation ponctuelle de p ne change pas (870/1000 = 87/100 = 87 %), l’intervalle de confiance se resserre considérablement, et vaut désormais ic0,95 (p) = [0, 849 ; 0, 891]. Il n’y a alors plus d’ambiguïté : la norme est visiblement respectée et le pépiniériste peut écouler en toute tranquillité sa production.
5.5. Estimation de la différence de deux moyennes Nous envisageons dans ce dernier paragraphe deux échantillons aléatoires X1 , . . . , Xn1 et Y1 , . . . , Yn2 issus de deux variables aléatoires mères X et Y . Notre objectif consiste à construire un intervalle de confiance sur la différence entre l’espérance de X (notée μ1 ) et celle de Y (notée μ2 ), soit μ1 − μ2 (si l’on s’intéresse à la différence μ2 − μ1 , il suffit simplement d’intervertir les rôles de X et Y ). 184
5.5. Estimation de la différence de deux moyennes
Cette problématique, qui ne nécessite pas l’introduction de notions nouvelles, a un intérêt essentiellement pratique. On la rencontre en effet de manière récurrente en biologie (par exemple pour comparer le poids de souriceaux avant et après un traitement hormonal), en médecine (pour comparer l’effet d’un médicament à celui d’un placebo), ou encore en sciences économiques (pour comparer les revenus des actifs entre deux régions de France, par exemple). Quel que soit le domaine d’application, le statisticien souhaite apprécier comment la moyenne varie d’un échantillon à l’autre, lorsque les conditions de l’expérience varient, et répondre à des questions du genre : la moyenne a-t-elle tendance à augmenter ou à diminuer et peut-on encadrer ses variations ? D’emblée, il convient de distinguer le cas où les échantillons X1 , . . . , Xn1 et Y1 , . . . , Yn2 sont indépendants entre eux du cas où ils ne le sont pas. Par exemple, il ne faut pas confondre deux échantillons de 10 poids de souriceaux provenant de deux souches bien différentes (une souche européenne pour les 10 souriceaux issus de X et une souche asiatique pour les 10 souriceaux issus de Y , par exemple) avec un échantillon de 10 poids de souriceaux à la naissance (pour X) et au bout d’une semaine (pour Y ). Dans les deux cas, on a bien affaire à deux échantillons aléatoires composés de variables X1 , . . . , X10 indépendantes et de même loi (pour le premier échantillon) et Y1 , . . . , Y10 indépendantes et de même loi (pour le second). En revanche, si les deux échantillons X1 , . . . , X10 et Y1 , . . . , Y10 peuvent être considérés comme indépendants entre eux dans le premier cas (il ne s’agit pas des mêmes souriceaux et, a priori, la souche européenne n’a aucun rapport avec la souche asiatique), il n’en va pas de même dans le second, où ce sont cette fois-ci les couples (X1 , Y1 ), . . . , (X10 , Y10 ) qui sont indépendants (et surtout pas les deux variables Xi et Yi , qui concernent les mêmes souriceaux). Dans le premier cas de figure, on parle d’échantillons indépendants (sous-entendu, entre eux ), alors qu’on dit que les deux échantillons sont appariés dans le second. Ne pas comprendre cette différence expose à des erreurs graves, dans la mesure où les deux situations nécessitent des traitements statistiques bien distincts.
5.5.1. Échantillons indépendants Dans ce contexte, nous avons donc à disposition deux échantillons indépendants entre eux X1 , . . . , Xn1 et Y1 , . . . , Yn2 , respectivement issus des variables aléatoires mères X et Y (soulignons au passage qu’il n’y a aucune raison pour que n1 soit identique à n2 ). Notons μ1 et σ12 (respectivement μ2 et σ22 ) l’espérance ¯ et la variance de X (respectivement l’espérance et la variance de Y ), et par X ¯ (respectivement Y ) la moyenne empirique du premier échantillon (respectivement ¯ − Y¯ fournit un estimateur sans du second échantillon). Il est alors clair que X 185
Chapitre 5. Estimation ponctuelle et par intervalle
biais et convergent de μ1 − μ2 , dans la mesure où, d’une part, ¯ − Y¯ ) = E(X) ¯ − E(Y¯ ) = μ1 − μ2 E(X ¯ et Y¯ sont indépendantes et, d’autre part, comme les deux variables aléatoires X (puisque les deux échantillons le sont), 2 2 ¯ − Y¯ ) = V(X) ¯ + V(Y¯ ) = σ1 + σ2 → 0 V(X n1 n2
(cf. le paragraphe 3.5.4 du chapitre 3) lorsque n1 et n2 tendent tous les deux vers l’infini. Supposons maintenant que les deux variables aléatoires X et Y suivent chacune une loi normale, c’est-à-dire, en termes mathématiques plus condensés, X ∼ N (μ1 , σ12 ) et Y ∼ N (μ2 , σ22 ). Nous savons alors que ¯ ∼N X
σ2 μ1 , 1 n1
,
Y¯ ∼ N
σ2 μ2 , 2 n2
et on peut montrer (en utilisant l’indépendance entre les deux échantillons) que ¯ − Y¯ ∼ N X En d’autres termes,
μ1 − μ2 ,
¯ − Y¯ ) − (μ1 − μ2 ) (X σ12 σ22 + n1 n2
σ12 σ22 + n1 n2
.
∼ N (0, 1),
écriture qui nous conduit directement au résultat suivant : Dans le cas de deux échantillons gaussiens indépendants entre eux, et lorsque les variances σ12 et σ22 sont connues, l’intervalle ⎡ ⎤ 2 2 σ σ 1 ¯ − Y¯ ) ± z1−α/2 + 2⎦ IC1−α (μ1 − μ2 ) = ⎣(X n1 n2 est un intervalle de confiance de niveau 1 − α pour μ1 − μ2 . 186
5.5. Estimation de la différence de deux moyennes
Bien entendu, cet intervalle n’est utilisable qu’à condition que les deux variances σ12 et σ22 soient connues de l’expérimentateur. Lorsque ce n’est plus le cas, on peut encore obtenir un résultat exact en supposant que X et Y admettent la même variance (inconnue), ce que nous écrivons σ12 = σ22 = σ 2 . Introduisons pour ce faire les variances empiriques corrigées 1 1 ¯ 2 = (Xi − X) n1 − 1
n
S1 2
2 1 = (Yj − Y¯ )2 , n2 − 1
n
et
i=1
S2 2
j=1
pour lesquelles nous savons depuis le paragraphe 5.3.3 que (n1 − 1)S1 2 ∼ χ2 (n1 − 1) σ2
et
(n2 − 1)S2 2 ∼ χ2 (n2 − 1). σ2
On admettra alors que l’indépendance entre les deux échantillons entraîne que (n1 − 1)S1 2 + (n2 − 1)S2 2 ∼ χ2 (n1 + n2 − 2). σ2 Comme ¯ − Y¯ ) − (μ1 − μ2 ) (X ! ∼ N (0, 1), 1 1 σ + n1 n2 en posant(8) Sp2 =
(n1 − 1)S1 2 + (n2 − 1)S2 2 n1 + n2 − 2
(moyenne des deux variances d’échantillon pondérée par les effectifs n1 − 1 et n2 − 1), une « studentisation » désormais classique montre que ¯ − Y¯ ) − (μ1 − μ2 ) (X ! ∼ T (n1 + n2 − 2), 1 1 Sp + n1 n2
(8)
Le p de Sp2 signifie « poolée ».
187
Chapitre 5. Estimation ponctuelle et par intervalle
qui nous permet d’aboutir au résultat souhaité : Dans le cas de deux échantillons gaussiens indépendants entre eux, et lorsque les variances sont inconnues mais égales, l’intervalle ! 1 1 (n1 +n2 −2) ¯ ¯ Sp + IC1−α (μ1 − μ2 ) = (X − Y ) ± t1−α/2 , n1 n2 où Sp2 =
(n1 − 1)S1 2 + (n2 − 1)S2 2 , n1 + n2 − 2
est un intervalle de confiance de niveau 1 − α pour μ1 − μ2 . On constate donc que la variance commune (a priori inconnue) a disparu des formules, ce qui a pour effet de rendre ces dernières utilisables en pratique. Par ailleurs, en observant que n1 n2 ¯ 2 ¯ 2 i=1 (Xi − X) + j=1 (Yj − Y ) 2 Sp = , n1 + n2 − 2 on remarque que l’intervalle de confiance peut également s’écrire ⎤ ⎡ n2 n1 2+ 2 ¯ ¯ (X − X) (Y − Y ) 1 1 ⎦ i i=1 j=1 j ¯ − Y¯ ) ± t(n1 +n2 −2) ⎣(X + , 1−α/2 n1 + n2 − 2 n1 n2 expression qui se simplifie lorsque n1 = n2 = n en ⎤ ⎡ n n 2+ 2 ¯ ¯ (X − X) (Y − Y ) i i=1 j=1 j ¯ − Y¯ ) ± t(2n−2) ⎦. ⎣(X 1−α/2 n(n − 1) Qu’en est-il maintenant lorsque la condition très restrictive d’égalité des variances n’est pas satisfaite ? Pour de grands échantillons de même taille (n1 = n2 = n), issus de lois pas trop dissymétriques, on peut se risquer à utiliser l’intervalle de confiance asymptotique ⎤ ⎡ n ¯ 2 + n (Yj − Y¯ )2 (X − X) i i=1 j=1 ¯ − Y¯ ) ± z1−α/2 ⎦, IC1−α (μ1 − μ2 ) ≈ ⎣(X n(n − 1) qui est (approximativement) valable que les variances soient égales ou pas. D’autres formules d’approximation plus précises sont disponibles dans la littérature, mais elles donnent des résultats numériques proches de ceux obtenus avec 188
5.5. Estimation de la différence de deux moyennes
l’hypothèse d’égalité des variances, ce qui encourage peu leur utilisation par les statisticiens. Indiquons qu’il existe un usage assez répandu consistant à effectuer au préalable un test de l’hypothèse d’égalité des variances (nous renvoyons le lecteur au chapitre 6 pour la définition d’un test statistique en général et la mise en œuvre du test d’égalité des variances en particulier). Même si l’on peut admettre que cela a l’avantage de constituer un garde-fou, cette procédure ne fournit pas une garantie suffisante quant à l’applicabilité des considérations précédentes. En résumé, quelle que soit la méthode et les hypothèses sous-jacentes, nous ne saurons jamais trop encourager le lecteur à être critique vis-à-vis des modèles statistiques et des hypothèses qu’il utilise.
Exemple 5. Revenons sur l’exemple de la tension artérielle systolique développé aux paragraphes 5.3.2 et 5.3.3, en supposant maintenant que, outre les mesures réalisées sur les 12 sujets montpelliérains, nous disposions de mesures réalisées sur 12 individus choisis au hasard parmi les habitants de Rennes. Les résultats obtenus, toujours exprimés en cm de mercure, sont les suivants (X = Montpellier, Y = Rennes) : xi yi
12,9 11,3
13,2 10,5
15,1 12
11,4 15,1
10,3 13
14,1 9,6
xi yi
16 9,8
9,3 11,3
12,1 13
14,2 14,1
8,6 12,7
12 12,8
On souhaite obtenir un intervalle de confiance de niveau 80 % sur la différence des moyennes μ1 −μ2 , en supposant que les observations proviennent de lois normales. Dans la mesure où les sujets montpelliérains testés n’ont a priori aucun lien particulier avec les sujets rennais, nous pouvons considérer que, d’un point de vue expérimental, les deux échantillons sont indépendants entre eux. Supposons tout d’abord que les observations proviennent de lois normales, de variances connues σ12 = 4 et σ22 = 3. L’intervalle de confiance cherché a pour expression # " ! 2 + σ2 σ 1 2 ¯ − Y¯ ) ± z1−α/2 IC1−α (μ1 − μ2 ) = (X . n Comme x ¯ − y¯ = 12, 43 − 12, 10 = 0, 33, en prenant un niveau de confiance 1 − α = 0, 8, soit z0,9 = 1, 281, on obtient # " ! 4+3 = [−0, 65 ; 1, 31]. ic0,8 (μ1 − μ2 ) = 0, 33 ± 1, 281 12 189
Chapitre 5. Estimation ponctuelle et par intervalle
Si maintenant les variances ne sont plus supposées connues, il faut les estimer. Nous avons déjà vu que n n (xi − x ¯)2 = x2i − n(¯ x)2 = 57, 96. i=1
i=1
En procédant de manière analogue avec le second échantillon, nous obtenons n n (yj − y¯)2 = yj2 − n(¯ y )2 = 1787, 78 − 12 × 12, 102 = 30, 86. j=1
j=1
L’intervalle de confiance souhaité a pour expression ⎡ ⎤ n n 2 2 ¯ ¯ i=1 (Xi − X) + j=1 (Yj − Y ) ⎦ ¯ − Y¯ ) ± t(2n−2) IC1−α (μ1 − μ2 ) = ⎣(X , 1−α/2 n(n − 1) (22)
soit numériquement, comme t0,9 = 1, 321, " ic0,8 (μ1 − μ2 ) = 0, 33 ± 1, 321
!
# 57, 96 + 30, 86 = [−0, 75 ; 1, 41]. 12 × 11
On constate que cet intervalle est légèrement décalé vers les valeurs positives, ce qui peut éventuellement signifier que, en moyenne, la tension artérielle des habitants de Montpellier est légèrement supérieure à celle des habitants de Rennes. Il est néanmoins difficile d’en tirer des conclusions générales et une étude plus poussée (en augmentant par exemple le nombre de sujets de l’étude et en effectuant des tests, voir le chapitre suivant) semble être indispensable.
5.5.2. Échantillons appariés Dans ce contexte, nous avons accès à deux échantillons appariés X1 , . . . , Xn et Y1 , . . . , Yn ou, dit autrement, à un unique échantillon (X1 , Y1 ), . . . , (Xn , Yn ) composé de n couples de variables aléatoires de même loi mère (X, Y ). On notera bien que, dans la mesure où les données sont appariées, les deux échantillons de X et de Y ont nécessairement la même taille. Il peut par exemple s’agir de la taille à 18 ans mesurée sur n paires père (pour X) et fils (pour Y ), ou du taux de cholestérol de n individus mesuré avant (X) et après (Y ) les fêtes de fin d’année. Quel que soit l’exemple, il est très important de comprendre que les développements du paragraphe précédent ne sont plus licites car les deux échantillons ne peuvent plus être considérés comme indépendants entre eux. On contourne en 190
5.5. Estimation de la différence de deux moyennes
général ce problème en raisonnant sur la variable aléatoire Z = X − Y « différence entre individus appariés » pour se ramener au cas d’une seule variable aléatoire. Ceci est justifié par le fait que E(Z) = E(X − Y ) = E(X) − E(Y ) = μ1 − μ2 . La mise en pratique ne présente aucune difficulté : on remplace simplement les deux échantillons appariés initiaux par l’échantillon (Z1 , . . . , Zn ) = (X1 − Y1 , . . . , Xn − Yn ), auquel on applique mot à mot les résultats développés au paragraphe 5.3.3 consacrés à l’estimation d’une moyenne à variance inconnue. En supposant par exemple ¯ − Y¯ , on obtient le résultat : la variable aléatoire Z gaussienne, et en posant Z¯ = X Dans le cas de deux échantillons appariés dont la différence suit une loi normale, l’intervalle
(n−1) S (n−1) S ¯ ¯ IC1−α (μ1 − μ2 ) = Z − t1−α/2 √ ; Z + t1−α/2 √ , n n où
1 ¯ 2, (Zi − Z) n−1 n
S 2 =
i=1
est un intervalle de confiance de niveau 1 − α pour μ1 − μ2 .
Exemple 6. Reprenons une dernière fois l’exemple de la tension artérielle, en supposant cette fois-ci que, outre les données initiales (obtenues au repos), on dispose d’une nouvelle série de mesures réalisées sur les mêmes sujets à la sortie d’un film d’horreur. Les résultats sont consignés dans le tableau suivant (X = avant, Y = après) : xi yi
12,9 13
13,2 15
15,1 25
11,4 11,4
10,3 13,1
14,1 12,3
16 16
9,3 12,1
12,1 14,3
14,2 13,1
8,6 10,2
12 13
On souhaite obtenir un intervalle de confiance de niveau 95 % pour la différence μ2 − μ1 . 191
Chapitre 5. Estimation ponctuelle et par intervalle
Dans un tel cas de figure, les deux échantillons, qui concernent les mêmes individus, doivent être considérés comme appariés. En posant alors zi = yi − xi , nous obtenons le nouveau tableau de mesures suivant : zi
0,1
1,8
9,9
0
2,8
–1,8
0
2,8
2,2
–1,1
1,6
1
On trouve z¯ = 1,61 et n n (zi − z¯)2 = zi2 − n(¯ z )2 = 129, 79 − 12 × 1, 612 = 98, 68, i=1
i=1
soit s 2 =
98,68 = 8,97. 12 − 1
En supposant que les observations z1 , . . . , zn sont issues d’une loi normale, il suffit (11) de lire dans une table ou un logiciel le quantile t0,975 = 2,201, et cela conduit à l’intervalle de confiance # " ! 8,97 ic0,95 (μ2 − μ1 ) = 1,61 ± 2,201 = [−0,29 ; 3,51]. 12 Cet intervalle est essentiellement concentré sur les valeurs positives, ce qui montre assez clairement que la nature du film influence la tension moyenne.
5.6. Exercices On rappelle que, dans tout l’ouvrage, les quantiles ont été évalués à l’aide du logiciel gratuit R, qui peut être téléchargé à l’adresse http://cran.r-project.org/.
Exercice 1 (Teneur en magnésium d’une eau minérale) Des chimistes ont analysé la teneur en ions magnésium de dix bouteilles d’eau minérale. Les résultats, exprimés en mg/L, ont été reportés dans le tableau suivant : xi
22,0
24,6
23,4
21,3
26,8
20,4
24,9
25,5
26,8
23,8
Donner un intervalle de confiance de niveau 90 % pour la moyenne, la variance et l’écart-type du taux de magnésium dans les bouteilles produites (on supposera ce taux gaussien).
192
Exercices
Exercice 2 (Poids de cocons) Un collectionneur a prélevé au hasard 20 cocons d’une variété rare de papillons et les a pesés. Les poids (exprimés en grammes) ainsi mesurés sont les suivants : xi xi
0,64 0,87
0,65 0,84
0,73 0,66
0,60 0,76
0,65 0,63
0,77 0,52
0,82 0,66
0,64 0,45
0,66 0,74
0,72 0,79
1. Donner un intervalle de confiance de niveau 95 % pour le poids moyen des cocons (on supposera que ce poids suit une loi normale). 2. En supposant la variance connue et égale à la variance empirique, combien de cocons le collectionneur aurait-il dû peser pour connaître le poids moyen à un centigramme près ?
Exercice 3 (Tri de melons) Un producteur de melons s’est équipé d’une machine qui l’aide à trier automatiquement sa production. La machine est réglée de la manière suivante : un melon est considéré comme impropre à la consommation si son diamètre est inférieur ou égal à 7 cm, subit un contrôle manuel si son diamètre est dans l’intervalle ]7 ; 12] et est admis directement à la vente si son diamètre est strictement supérieur à 12 cm. On suppose que les diamètres des melons suivent une loi normale d’espérance μ et de variance σ 2 . 1. On suppose dans cette question que μ = 9 et σ = 3. (a) Calculer la probabilité pour qu’un melon soit directement déclaré impropre à la consommation. (b) Calculer la probabilité pour qu’un melon subisse un contrôle manuel. (c) Calculer la probabilité pour qu’un melon soit admis directement à la vente sans contrôle manuel. (d) On considère un ensemble de quatre melons choisis au hasard. Quelle est la probabilité que exactement deux de ces melons soient directement déclarés impropres à la consommation sans contrôle manuel ? (e) Donner l’intervalle centré en μ qui contient 96 % des diamètres. S’agitil d’un intervalle de confiance ? 2. On suppose désormais μ et σ inconnus. Le producteur, qui estime que les melons les plus gros ne sont pas nécessairement les meilleurs, souhaite que, dans l’idéal, sa machine admette sans contrôle manuel 15, 87 % des melons et en rejette directement 6, 68 %. (a) Calculer la probabilité pour qu’un melon subisse un contrôle manuel. (b) Déterminer les valeurs idéales de μ et σ permettant de respecter les objectifs du producteur. 193
Chapitre 5. Estimation ponctuelle et par intervalle
(c) En fait, sur un échantillon de 121 melons, le producteur a observé un diamètre moyen x ¯ = 10, 3 cm pour une variance (corrigée) s 2 = 4, 8. Qu’en conclure ?
Exercice 4 (Répartition de groupes sanguins) Une étude biologique théorique laisse supposer que le pourcentage de sujets de groupe sanguin A dans la population du Languedoc-Roussillon est p = 40 %. On se propose de s’en assurer par un sondage portant sur un échantillon de 800 personnes. 1. Combien de sujets de groupe A doit-on s’attendre à trouver dans cet échantillon ? 2. En réalité, on observe 360 individus du groupe A. Que peut-on dire du pourcentage de sujets de groupe A dans la population d’origine ?
Exercice 5 (Fiabilité d’un vaccin) Une entreprise fabrique des vaccins contre la grippe. Afin de respecter des normes internationales, et en acceptant un coefficient de risque α = 0, 05, cette société voudrait connaître à ±1 % le pourcentage de personnes qui ne seront pas immunisées après injection d’un nouveau vaccin. Sur combien de sujets, au minimum, l’observation doit-elle porter ? On sait par avance que le pourcentage d’échecs à cette vaccination est compris entre 10 et 15 %. Généraliser le résultat à un risque et une incertitude quelconques. Exercice 6 (Rapport de deux variances) On considère deux variables aléatoires de loi normale X ∼ N (μ1 , σ12 ) et Y ∼ N (μ2 , σ22 ), ainsi que deux échantillons aléatoires indépendants entre eux X1 , . . . , Xn1 et Y1 , . . . , Yn2 issus de X et Y , respectivement. 1. Donner un intervalle de confiance de niveau 1 − α pour le rapport des variances σ12 /σ22 . 2. Application numérique. On prélève au hasard deux échantillons de personnes, l’un à Paris (milieu urbain) et l’autre dans un petit village du Minervois (milieu rural). On mesure, pour chacun des individus, le rythme cardiaque (supposé gaussien) au repos, avant l’endormissement. Les résultats statistiques sont consignés dans le tableau suivant :
Effectif de l’échantillon Moyenne du rythme cardiaque Variance (corrigée) du rythme cardiaque
Milieu urbain 20 77 150
Milieu rural 22 68 200
(a) Donner un intervalle de confiance de niveau 95 % pour le rapport des variances σ12 /σ22 . 194
Exercices
(b) Donner un intervalle de confiance de niveau 95 % pour la différence des moyennes μ1 − μ2 .
Exercice 7 (Traitement du sommeil) Dans une étude sur le sommeil, des spécialistes ont préconisé à 13 volontaires se disant insomniaques un nouveau traitement à base de plantes. Dans le tableau ci-dessous, les variables X et Y représentent les nombres d’heures de sommeil hebdomadaires des 13 individus avant (X) et après (Y ) le traitement. On suppose que X, Y et X − Y suivent des lois normales. xi yi
36 40
15 28
34 34
28 31
50 60
49 55
31 53
42 68
43 51
36 49
27 46
30 30
50 54
Les calculs suivants ont déjà été faits : 13
xi = 471,
i=1
et
13
yi = 599,
i=1
13
x2i = 18 361,
i=1
13
13
yi2 = 29 493
i=1
xi yi = 22 877.
i=1
1. Donner un intervalle de confiance de niveau 90 % pour la moyenne μ1 de X. 2. Donner un intervalle de confiance de niveau 95 % pour la variance σ12 de X. 3. Donner un intervalle de confiance de niveau 99 % pour la différence des moyennes μ2 − μ1 . 4. Reprendre la question précédente en construisant cette fois-ci un intervalle de confiance unilatéral.
Exercice 8 (Quelques résultats théoriques) 1. On rappelle que, pour un estimateur Θn de θ, R(Θn , θ) = E (Θn − θ)2 . Montrer que
R(Θn , θ) = V(Θn ) + [B(Θn )]2 ,
où B(Θn ) = E(Θn ) − θ. 195
Chapitre 5. Estimation ponctuelle et par intervalle
2. On rappelle que
1 ¯ 2 (Xi − X) n n
S2 =
i=1
et que
1 ¯ 2. (Xi − X) n−1 n
S 2 =
i=1
Montrer que E(S 2 ) =
n−1 2 σ n
et en déduire que S 2 est un estimateur sans biais de σ 2 , c’est-à-dire E(S 2 ) = σ 2 .
196
6 TESTS D’HYPOTHÈSES
6.1. Problème : croisement génétique Le chapitre précédent a été consacré à la théorie de l’estimation qui, au vu des résultats observés sur un échantillon, s’intéresse aux valeurs possibles des paramètres de la population dont il a été extrait. Nous avons en particulier distingué l’approche ponctuelle, où l’on cherche à attribuer une valeur particulière au paramètre inconnu, de l’approche par intervalle, où l’on essaie de situer le paramètre dans un intervalle ayant de grandes chances de contenir la valeur réelle. Dans de nombreuses situations pratiques, on est néanmoins confronté à un problème différent, où il s’agit cette fois-ci de faire un choix entre plusieurs hypothèses possibles sur le paramètre, sans pour autant disposer d’informations suffisantes pour que ce choix soit certain. Prenons l’exemple d’un généticien, qui s’intéresse aux croisements possibles entre la version dominante A et la version récessive a d’un gène rare dont il vient de découvrir l’existence. Ce scientifique, qui connaît la loi de Mendel sur la descendance du croisement de deux hétérozygotes, sait que l’on doit normalement observer le phénotype dominant A avec probabilité 3/4 et le phénotype récessif a avec probabilité 1/4. L’ensemble de ses activités de recherche l’amène néanmoins à soupçonner que le couple de gènes AA est létal. Si c’est effectivement le cas, les proportions entre le phénotype A et le phénotype a sont modifiées, et prennent respectivement les valeurs 2/3 et 1/3. Pour formaliser un peu le problème, notons p le pourcentage théorique (inconnu) associé au phénotype A, et appelons H0 l’hypothèse selon laquelle p = 3/4 et H1 celle où p = 2/3. Le problème revient donc à trancher entre les deux hypothèses H0 et H1 à l’aide des résultats observés sur un échantillon. Supposons par exemple que l’on observe 70 sujets de phénotype A et 30 de phénotype a sur un
Chapitre 6. Tests d’hypothèses
échantillon de taille n = 100. Peut-on, en analysant ces résultats, décider d’accepter l’une des deux hypothèses (et par conséquent rejeter l’autre) ? Le biologiste, qui a attentivement lu le chapitre précédent, comprend rapidement qu’il a tout intérêt, pour progresser dans la modélisation, à envisager l’ensemble des observations comme autant de réalisations d’un échantillon de n variables aléatoires, dont la mère X suit une loi de Bernoulli prenant la valeur 1 si le sujet considéré a le phénotype A et 0 s’il a le phénotype a. La question qui reste alors en suspens est celle de la valeur du paramètre p de la loi de Bernoulli, qui est donc égale à 3/4 si H0 est vraie et à 2/3 dans le cas contraire. Afin de répondre à la question, la première idée de notre généticien consiste à estimer p à partir de la proportion empirique Pn (cf. le chapitre précédent), dont la réalisation vaut ici pn = 70/100 = 0,70. Il constate cependant à regret que ce nombre, presque aussi proche de 2/3 que de 3/4, ne permet pas de trancher entre H0 et H1 . Le chapitre 5 montre également que, pour une loi de Bernoulli, un intervalle de confiance (asymptotique) de niveau 1 − α pour p a pour expression # " ! ! Pn (1 − Pn ) Pn (1 − Pn ) ; Pn + z1−α/2 , IC1−α (p) = Pn − z1−α/2 n n où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi N (0,1). On trouve numériquement, en prenant par exemple α = 0,05, # " ! 0,70(1 − 0,70) = [0,610 ; 0,790]. ic0,95 (p) = 0,70 ± 1,96 100 Force est alors de constater que cet intervalle, qui se répartit harmonieusement de part et d’autre des deux valeurs critiques 2/3 et 3/4, ne permet pas non plus de trancher le débat : l’approche ponctuelle et l’approche par intervalle, aussi informatives soient-elles, ne sont pas adaptées au problème du biologiste. En désespoir de cause, ce dernier propose finalement le protocole de décision suivant : si pn , la proportion empirique observée, est plus grande qu’un certain seuil c, il garde H0 , et il opte pour H1 dans le cas contraire. Ce protocole ne le satisfait pourtant qu’à moitié puisqu’il laisse une large place à l’arbitraire dans le choix du seuil c, qui ne devra être choisi ni trop grand (au risque de toujours rejeter H0 ), ni trop petit (au risque de toujours garder H0 ). Après réflexion, notre chercheur conclut qu’une valeur raisonnable du seuil devrait se situer à mi-chemin entre 2/3 et 3/4. Il choisit donc arbitrairement c = 0,71 et finit par conclure, sans beaucoup de conviction, que c’est l’hypothèse H1 qui est la bonne (puisque pn = 0,70). Mais quelles garanties (en termes de probabilités) peut-il espérer d’un protocole aussi arbitraire ? N’y a-t-il pas un moyen plus objectif (ou, 198
6.2. Notions générales sur les tests statistiques
en tout cas, plus statistique) de choisir le seuil ? Et, dans l’affirmative, quels sont les risques de rejeter une hypothèse si elle est vraie ou de l’accepter si elle est fausse ? C’est précisément à toutes ces questions que se propose de répondre la théorie des tests statistiques. Cette théorie, aussi riche que fascinante, constitue après l’estimation le second grand volet de la statistique inférentielle.
6.2. Notions générales sur les tests statistiques Un test est un mécanisme qui permet de décider, sur la base d’un échantillon X1 , . . . , Xn , si une caractéristique de la variable aléatoire mère X répond ou non à une certaine spécification. Cette spécification, que l’on appelle hypothèse nulle (ou parfois, plus simplement, hypothèse), est en général notée H0 et l’hypothèse contraire, dite hypothèse alternative (ou contre-hypothèse), est notée H1 . D’un point de vue concret, les spécifications que l’on souhaite tester peuvent avoir diverses origines. Il peut par exemple s’agir de normes industrielles (un médicament est-il plus efficace qu’un placebo ? les yaourts du commerce contiennent-ils effectivement la teneur en calcium affichée sur l’emballage ?), d’affirmations faites par un tiers (« il pleut moins qu’il y a dix ans », « les carottes font du bien à mes cheveux ») ou, plus généralement encore, de spécifications importantes pour la modélisation (dans notre exemple introductif, la proportion du phénotype A est-elle égale à 3/4 ?). Dans le contexte où nous nous situerons initialement, les hypothèses porteront sur un paramètre inconnu θ de la loi de X (on parle alors, naturellement, de contexte paramétrique). En guise d’illustrations, citons quelques exemples de tests portant sur l’espérance (la moyenne) μ de X : • « H0 : μ = 7 » vs.(1) « H1 : μ = 8 », cas où l’hypothèse nulle et l’hypothèse alternative, qui spécifient une seule valeur du paramètre, sont dites simples ; • « H0 : μ = −2 » vs. « H1 : μ = −2 » : l’hypothèse nulle est simple. En revanche, l’hypothèse alternative, qui spécifie plusieurs valeurs possibles pour le paramètre μ (en fait, l’ensemble ]−∞ ; −2[ ∪ ]−2 ; +∞[), est dite composite ; • « H0 : μ = 4 » vs. « H1 : μ > 4 » (encore un exemple d’hypothèse nulle simple et d’alternative composite) ; • « H0 : μ ≥ 3 » vs. « H1 : μ < 3 » : ici, les deux hypothèses sont composites. (1)
« vs. » est l’abréviation du latin versus.
199
Chapitre 6. Tests d’hypothèses
Lorsque l’on met en place un test statistique, une seule des deux affirmations H0 et H1 est vraie et le test doit toujours aboutir à choisir l’une des deux. On remarque donc d’emblée que la décision à prendre peut conduire à deux types d’erreurs : 1. On rejette H0 alors que H0 est vraie. Cette erreur est appelée erreur de première espèce. 2. On conserve H0 alors que H1 est vraie. Cette erreur est appelée erreur de seconde espèce.
Il est important de comprendre que ces deux types d’erreurs sont associés à des conséquences concrètes très différentes. Afin d’illustrer cette remarque, revenons un instant sur l’exemple introductif.
Exemple 1. Rappelons que le généticien cherche à tester « H0 : le couple AA n’est pas létal » vs. « H1 : le couple AA est létal ». Comme nous l’avons vu, cela s’écrit encore, en termes plus mathématiques, « H0 : p = 3/4 » vs. « H1 : p = 2/3 », où p représente le paramètre de la loi de Bernoulli sous-jacente au problème. Dans ce contexte, l’erreur de première espèce consiste donc à déclarer que le couple de gènes AA est létal alors qu’il n’en est rien, au risque de commettre une erreur scientifique importante. L’erreur de seconde espèce consiste au contraire à affirmer faussement que le couple AA est normal, et passer ainsi à côté d’une découverte médicale de premier plan. Nous invitons le lecteur à imaginer par lui-même différentes problématiques de tests et à envisager les conséquences concrètes associées aux deux types d’erreurs. On appelle risque de première espèce la probabilité de commettre l’erreur de première espèce et risque de seconde espèce la probabilité de commettre l’erreur de seconde espèce. Dans la théorie classique (dite de Neyman-Pearson, en référence aux travaux de 1933 de Jerzy Neyman et Egon Sharpe Pearson), on choisit de contrôler le risque de première espèce, en faisant en sorte que la procédure de test ait un 200
6.2. Notions générales sur les tests statistiques
risque de première espèce inférieur à un nombre α ∈ ]0 ; 1[ donné, que l’on appelle niveau du test. Les valeurs les plus courantes du niveau sont α = 0,05, 0,01 et 0,1 (ou, c’est la même chose, α = 5 %, 1 % et 10 %). Insistons bien sur le fait que la valeur du niveau est toujours fixée a priori – cette valeur fait d’ailleurs souvent partie du cahier des charges des normes industrielles, et l’utilisateur n’a alors presque aucune latitude quant à son choix. Dans l’absolu, un test idéal devrait être associé à des risques de première et seconde espèces faibles, voire nuls. Malheureusement, l’erreur de seconde espèce, que l’on note β, évolue toujours en sens contraire de α : en effet, en diminuant le niveau α, on augmente 1 − α, et donc aussi la probabilité d’accepter l’hypothèse H0 à raison (c’est-à-dire quand elle est vraie), mais on est surtout contraint à une règle de décision plus stricte, qui aboutit à n’abandonner H0 que dans des cas rarissimes, et donc à conserver bien souvent cette hypothèse à tort. En d’autres termes, ne pas vouloir abandonner l’hypothèse nulle conduit à la garder presque tout le temps, en particulier à tort, et donc à augmenter le risque de seconde espèce β. On ne peut donc gagner sur tous les tableaux, et ceci explique pourquoi l’on choisit de se concentrer sur le contrôle d’un seul des deux risques, en l’occurrence celui de première espèce. La probabilité de ne pas commettre l’erreur de seconde espèce, 1−β, est alors appelée puissance du test : il s’agit donc de la probabilité d’opter pour H1 en ayant raison. Les tests que nous présenterons dans ce chapitre possèdent tous de bonnes propriétés d’optimalité concernant leur puissance. Le tableau ci-dessous, qu’il faut toujours avoir en mémoire, résume la situation en représentant les deux types d’erreurs et leurs probabilités. XXX Vérité XX XXX XXX Décision
Conserver H0 Rejeter H0
H0
H1
1−α α (niveau)
β 1 − β (puissance)
La question qui se pose maintenant est donc celle de mettre en place un protocole de test qui respecte le niveau prescrit α et possède une puissance 1 − β raisonnable. Pour atteindre cet objectif, le principe général est le suivant : On se donne une fonction S = S(X1 , . . . , Xn ), appelée statistique de test, et un sous-ensemble Rα de R, appelé région de rejet (ou région critique) tels que, si H0 est vraie, P(S ∈ Rα ) ≤ α. 201
Chapitre 6. Tests d’hypothèses
On écrit parfois P(S ∈ Rα |H0 ) ≤ α ou P0 (S ∈ Rα ) ≤ α, pour bien insister sur le fait que l’inégalité doit être vraie lorsque l’on considère la loi de S sous H0 (c’est-à-dire la loi de la variable aléatoire S lorsque l’hypothèse H0 est vraie). Le complémentaire de la région de rejet est alors appelé région d’acceptation, et on a donc, sous H0 , P(S ∈ Rcα ) ≥ 1 − α. La statistique de test et la région de rejet permettent alors une mise en œuvre concrète du test : si la valeur expérimentale de S est dans Rα , on décide de rejeter l’hypothèse H0 , et on la conserve dans le cas contraire. Par définition, ce processus donne bien lieu à un test ayant un risque de première espèce inférieur ou égal à α, puisque la probabilité de rejeter H0 lorsque cette hypothèse est vraie est P(S ∈ Rα |H0 ), et que l’on a précisément P(S ∈ Rα |H0 ) ≤ α. Le niveau α ayant été choisi, il s’agit donc de déterminer une région Rα telle que, si H0 est vraie, la probabilité que S « tombe » dans Rα soit au plus égale à α. Pour mettre en place un tel mécanisme, la loi de la statistique de test S sous H0 doit être parfaitement connue. La construction d’un test consiste donc à rechercher une statistique pertinente S dont on connaît la loi sous H0 , et la région critique Rα qui va avec. Pour ce faire, les hypothèses H0 , H1 et un peu de bon sens pratique sont en général suffisants. Illustrons ce mécanisme sur l’exemple de l’introduction.
Exemple 2. Guidé par l’intuition, notre biologiste a choisi d’opter pour H1 si Pn < c (c’est-à-dire si Pn ∈ [0 ; c[, puisque Pn ≥ 0) et de conserver H0 dans le cas contraire. Sans le savoir, il a donc mis en place un protocole de test, pour lequel 1 S(X1 , . . . , Xn ) = Pn (= n ni=1 Xi ) et Rα = [0 ; c[. Afin de respecter le principe général énoncé plus haut, il lui reste donc simplement à régler le seuil c = cα en fonction du niveau α, de sorte que, sous H0 , P(Pn < cα ) ≤ α. Nous verrons plus tard comment déterminer précisément un tel seuil cα . Il est essentiel de garder à l’esprit que, dans une procédure de test, on contrôle le niveau α mais pas le risque de seconde espèce β. En d’autres termes, on souhaite avant tout limiter à un faible niveau le risque de rejeter à tort H0 , en se souciant un peu moins de garder cette hypothèse à tort (alors que H1 est vraie) : les deux hypothèses ne jouent donc pas des rôles symétriques. En fait, le rejet d’une hypothèse nulle est une « véritable » décision, alors que son acceptation est un simple « défaut de rejet ». Quand on dit qu’on accepte H0 , on dit surtout qu’on ne la rejette pas, c’est-à-dire qu’il s’agit d’une hypothèse de travail 202
6.3. Test de la moyenne dans un échantillon gaussien
acceptable, que les observations ne permettent pas de mettre en doute. En pratique, H0 représentera donc toujours une hypothèse que la tradition a solidement établie, qui n’a jamais été contredite jusqu’à présent, et toujours associée à une attitude prudente et « conservatrice ». Par exemple, lorsque l’on teste l’efficacité d’un nouveau médicament, il est prudent de partir d’une hypothèse défavorable au nouveau produit : « H0 : le médicament n’est pas actif » vs. « H1 : le médicament est actif ». Pour résumer, on retiendra donc le principe général : La mise en œuvre d’un test statistique se compose des étapes suivantes : 1. Choix de H0 et H1 ; 2. Détermination de la statistique de test S et de la région de rejet Rα , qui doivent vérifier P(S ∈ Rα |H0 ) ≤ α ; 3. Calcul de la valeur expérimentale de la statistique de test et conclusion : rejet ou pas de H0 ; 4. Étude éventuelle de la puissance 1 − β du test. Plutôt que de poursuivre plus en avant la théorie générale des tests statistiques, nous avons choisi, dans les paragraphes qui suivent, de présenter en détail quelques grands tests incontournables, qui font partie de la boîte à outils quotidienne du statisticien. Alors qu’un intervalle de confiance indique l’ensemble des valeurs possibles pour un paramètre d’intérêt, un test doit décider si telle ou telle autre valeur spécifique du paramètre est plausible ou pas. Bien que conceptuellement distinctes, ces deux démarches reposent sur les mêmes bases mathématiques et, de ce fait, nous reprendrons donc dans les pages qui suivent de nombreux éléments du chapitre 5.
6.3. Test de la moyenne dans un échantillon gaussien Cas d’une hypothèse nulle simple Nous supposons dans ce paragraphe que X1 , . . . , Xn est un échantillon issu d’une variable aléatoire mère X qui suit une loi normale d’espérance μ et de variance σ 2 , supposée connue pour l’instant : X ∼ N (μ, σ 2 ). 203
Chapitre 6. Tests d’hypothèses
On souhaite tester, au niveau α, le jeu d’hypothèses « H0 : μ = μ0 » vs. « H1 : μ > μ0 », où μ0 est un nombre réel fixé (étant donné la forme de l’hypothèse H1 , on dit parfois qu’il s’agit d’un test unilatéral à droite). Puisqu’il s’agit de « tester » la ¯ la moyenne empirique des valeur de l’espérance μ, il est naturel de s’intéresser à X, observations, qui fournit une bonne approximation de μ (paragraphe 5.2). Nous ¯ comme statistique de test. En examinant la choisissons donc S(X1 , . . . , Xn ) = X ¯ est trop grande forme de l’hypothèse H1 , il paraît alors naturel de rejeter H0 si X par rapport à μ0 . On prendra donc comme règle de décision le protocole suivant : ¯ est supérieure à un seuil cα qui n’a, sous H0 , qu’une probabilité α 1. Si X d’être dépassé, on opte pour H1 avec une probabilité α de se tromper ; ¯ est trop petite (X ¯ ≤ cα ), on conserve H0 . 2. Si X La région de rejet est donc de la forme Rα = ]cα ; +∞[. Le dernier travail consiste alors à déterminer le seuil cα satisfaisant la propriété souhaitée ¯ ∈ Rα |H0 ) = P(X ¯ > cα |H0 ) ≤ α, P(X ¯ sous H0 . Pour cela, on remarque d’abord que, si l’hypothèse en utilisant la loi de X H0 est vraie, alors μ = μ0 . En outre, puisque X suit une loi normale, nous savons depuis l’annexe du chapitre 4 que (toujours si μ = μ0 ) ¯ − μ0 √ X σ2 ¯ , ou encore ∼ N (0,1). n X ∼ N μ0 , n σ ¯ > cα Pour déterminer cα , il suffit de remarquer l’équivalence entre les propriétés X et ¯ − μ0 √ cα − μ0 √ X > n · n σ σ Choisissons alors cα de telle sorte que √ cα − μ0 = z1−α , n σ où z1−α désigne le quantile d’ordre 1 − α de la loi N (0,1). Avec un tel choix, ¯ − μ0 √ cα − μ0 √ X ¯ > n = P(N (0,1) > z1−α ) = α. n P(X > cα ) = P σ σ √ Dit autrement, avec le choix cα = μ0 + z1−α σ/ n, et lorsque μ = μ0 , l’événement ¯ dépasse cα » n’a qu’une probabilité α de se produire. La réalisation de cet «X 204
6.3. Test de la moyenne dans un échantillon gaussien
événement de petite probabilité correspond exactement au risque que l’on prend ¯ > cα . Nous pouvons finalement résumer la situation par en rejetant H0 lorsque X l’encadré suivant : Dans le cas gaussien, et lorsque la variance σ 2 est connue, pour tester le jeu d’hypothèses « H0 : μ = μ0 » vs. « H1 : μ > μ0 », √ ¯ > cα et on la garde on pose cα = μ0 + z1−α σ/ n, on rejette l’hypothèse H0 si X dans le cas contraire. En procédant ainsi, on obtient un test de niveau α.
Exemple 3. Un producteur de champignons (cultivés dans des grottes où les conditions sont constantes toute l’année) sait, par expérience, que sa production mensuelle suit une loi normale de moyenne 1000 et d’écart-type 100. Cet agriculteur, qui souhaite faire évoluer son exploitation, hésite à s’endetter pour investir dans un nouveau système électronique de régulation de l’arrosage qui, au dire de ses fabricants, pourrait lui permettre d’accroître la moyenne de sa production mensuelle. Avant de s’engager, le producteur choisit de mettre le procédé à l’essai pendant douze mois et consigne les résultats dans le tableau suivant :
Mois Nombre de champignons récoltés
1 1081
2 1108
Mois Nombre de champignons récoltés
7 1004
8 994
3 947 9 976
4 1019 10 1000
5 1100 11 1123
6 1107 12 1101
En supposant que le nouveau procédé d’irrigation ne modifie pas l’écart-type de la production, la variable aléatoire X = « nombre de champignons produits par mois » suit une loi normale N (μ, 1002 ), et le problème de notre agriculteur consiste donc à trancher entre les deux hypothèses « H0 : μ = 1000 » vs. « H1 : μ > 1000 » (soulignons ici l’attitude conservatrice mentionnée plus haut : l’agriculteur part du principe que le nouveau système n’a en fait pas modifié la production moyenne). Dans ce modèle, les n = 12 observations correspondent aux réalisations d’un échantillon X1 , . . . , Xn de variables aléatoires admettant la même loi que X. On calcule tout d’abord la moyenne de la production sur les 12 mois, soit x ¯ = 1046,67. 205
Chapitre 6. Tests d’hypothèses
En choisissant par exemple α = 0,05, on a z1−0,05 = z0,95 = 1,645, ce qui fournit le seuil c0,05 : 100 σ c0,05 = μ0 + z0,95 √ = 1000 + 1,645 × √ = 1047,49. n 12 Comme x ¯ ≤ c0,05 (1046,67 ≤ 1047,49), on décide donc (de justesse) de ne pas rejeter l’hypothèse H0 , au niveau choisi α = 5 %. Il semble donc que le producteur ait donc plutôt intérêt à ne pas investir dans le nouveau système d’irrigation. Remarquons cependant que rien ne dit que conserver H0 mette à l’abri d’une erreur : il se peut parfaitement que le système d’arrosage soit efficace (et donc que le producteur passe à côté d’un bon investissement), mais les observations effectuées pendant les 12 mois ne permettent simplement pas de trancher en sa faveur. De fait, nous invitons le lecteur à vérifier que le choix d’un niveau plus large α = 0,1 conduirait à rejeter H0 ... Pour conclure ce paragraphe, il nous reste finalement à examiner les situations très voisines où l’on souhaite tester les hypothèses suivantes : 1. « H0 : μ = μ0 » vs. « H1 : μ < μ0 » (test unilatéral à gauche) ; 2. « H0 : μ = μ0 » vs. « H1 : μ = μ1 » (avec μ1 = μ0 ) ; 3. « H0 : μ = μ0 » vs. « H1 : μ = μ0 » (test bilatéral ). Le test 1 ne présente pas de difficulté particulière et se traite de manière similaire au cas « H0 : μ = μ0 » vs. « H1 : μ > μ0 ». Seul change le sens de l’hypothèse H1 , et il en va donc de même pour le sens de la région de rejet : on rejettera cette ¯ est « anormalement petit », c’est-à-dire lorsque X ¯ < cα , où fois-ci H0 lorsque X σ cα = μ0 − z1−α √n . Nous invitons le lecteur à vérifier qu’un tel protocole fournit bien un test de niveau α. Le cas 2 est aussi facile et se ramène simplement à un test unilatéral à droite ¯ > μ0 + z1−α √σ ) et à un test unilatéral à lorsque μ1 > μ0 (rejet de H0 lorsque X n ¯ < μ0 − z1−α √σ ) lorsque μ1 < μ0 . gauche (rejet de H0 lorsque X n Seul le cas bilatéral 3 nécessite un traitement particulier. Dans une telle situa¯ est soit trop tion, il paraît naturel de rejeter H0 lorsque la moyenne empirique X ¯ − μ0 | > cα , où cα reste grande soit trop petite par rapport à μ0 , c’est-à-dire si |X ¯ à déterminer. En choisissant S = |X − μ0 | comme statistique de test, la région de rejet est donc de la forme Rα = ]cα ; +∞[. On trouve le seuil cα en utilisant la loi ¯ sous H0 et la spécification de X ( ( ( ( ¯ − μ0 ( > cα ≤ α. ¯ − μ0 ( ∈ Rα = P (X P (X 206
6.3. Test de la moyenne dans un échantillon gaussien
Comme d’habitude, nous commençons par écrire que, sous H0 (c’est-à-dire lorsque μ = μ0 ), ¯ − μ0 √ X σ2 ¯ X ∼ N μ0 , , soit ∼ N (0,1). n n σ En choisissant alors cα = z1−α/2 √σn , où z1−α/2 est le quantile d’ordre α/2 (bien noter ici la différence avec le cas unilatéral) de la loi N (0,1), on obtient, sous H0 , ( ( ¯ − μ0 ( √ cα (√ X ( ( (> n ( ( ( ¯ P X − μ0 > cα = P ( n σ ( σ ( ( ¯ − μ0 ( (√ X ( > z1−α/2 = P (( n σ ( = P |N (0,1)| > z1−α/2 = α. ¯ − μ0 | dépasse cα » n’a qu’une probabilité Ainsi, lorsque μ = μ0 , l’événement « |X α de se produire, qui correspond exactement au risque que l’on prend en rejetant ¯ − μ0 | > cα . L’encadré qui suit résume la situation : H0 lorsque |X Dans le cas gaussien, et lorsque la variance σ 2 est connue, pour tester le jeu d’hypothèses « H0 : μ = μ0 » vs. « H1 : μ = μ0 », √ ¯ − μ0 | > cα et on la on pose cα = z1−α/2 σ/ n, on rejette l’hypothèse H0 si |X garde dans le cas contraire. En procédant ainsi, on obtient un test de niveau α.
Exemple 4. Le chocolat noir à 80 % de cacao, qui n’est pas apprécié de tous à cause de son amertume et de sa texture moins fondante, est en revanche celui qui est préféré par les grands gourmets. Suite à la plainte de plusieurs restaurateurs, une grande marque de chocolat soupçonne l’une de ses usines de ne pas exactement respecter le taux de 80 % dans la fabrication des tablettes. Afin de tirer l’affaire au clair, l’entreprise convoque son meilleur chimiste, en lui précisant que des vérifications techniques préalables ont montré que l’écart-type habituel des productions est de l’ordre de 2 % et que, conformément à la loi, tous les tests statistiques devront être effectués au niveau α = 1 %. Fort de ces informations, le chimiste se rend sur place et analyse la teneur en cacao de 20 tablettes. Voici ses résutats : Teneur
80,3
83
78,6
83,2
81
Teneur
78,3
84
81,1
82,4
79,9
79,1 82,2
81,3 82,3
82,3 83,8
77,5
81,7
78
82,1 207
Chapitre 6. Tests d’hypothèses
En supposant que la teneur en cacao d’une tablette de chocolat, représentée par une variable aléatoire X, suit une loi normale d’espérance μ et de variance 4, le problème du chimiste consiste donc à confronter les hypothèses « H0 : μ = 80 » vs. « H1 : μ = 80 » (noter l’attitude conservatrice de l’entreprise, qui a peut-être des soupçons sur son usine, mais lui donne le bénéfice du doute en partant du principe que la moyenne de 80 est respectée). Il s’agit d’un test bilatéral à hypothèse nulle simple. Un calcul préliminaire donne x ¯ = 81,1. En choisissant, conformément à la législation, α = 0,01, on trouve z1−0,005 = z0,995 = 2,576, ce qui fournit le seuil c0,01 : 2 c0,01 = 2,576 × √ = 1,152. 20 Comme |¯ x − μ0 | ≤ c0,01 (1,1 ≤ 1,152), on ne rejette pas l’hypothèse H0 , au niveau choisi α = 1 %. Il semble donc que les tablettes de chocolat produites par l’usine respectent les spécifications requises quant à la teneur en cacao. Cas d’une hypothèse nulle composite Dans ce paragraphe, nous compliquons légèrement les choses en nous intéressant au test de l’hypothèse nulle composite « H0 : μ ≤ μ0 » vs. « H1 : μ > μ0 », à partir d’un échantillon X1 , . . . , Xn dont la variable aléatoire mère X suit une loi normale N (μ, σ 2 ) d’espérance μ (inconnue) et de variance σ 2 (connue). La difficulté essentielle provient de l’allure de l’hypothèse H0 , qui se présente désormais sous la forme de tout un intervalle (μ ∈ ]−∞ ; μ0 ]), contrairement au paragraphe précédent, où il s’agissait d’un unique nombre (μ = μ0 ). Ainsi, et contrairement à la situation précédente, il semble impossible, dans ce contexte, de spécifier sans ambiguïté la loi de X sous H0 . Afin de résoudre le problème, la règle générale consiste à d’abord se ramener au test de l’hypothèse simple (dite « limite ») « H0 : μ = μ0 » vs. √ « H1 : μ > μ0 », que nous venons d’étudier. En posant cα = μ0 + z1−α σ/ n, ¯ > cα » fournit nous savons alors que le protocole « rejet de l’hypothèse H0 si X
un test de niveau α de l’hypothèse H0 vs. H1 . Mais alors, comment étendre ce mécanisme de la sous-hypothèse H0 à l’hypothèse H0 complète ? Réponse : il n’y ¯ > cα » a aucun travail supplémentaire à effectuer, puisque le protocole « rejet si X fournit aussi un test de niveau α de H0 vs. H1 . Pour se convaincre de ce petit miracle mathématique, supposons que H0 soit vraie, et notons μ0 la vraie valeur 208
6.3. Test de la moyenne dans un échantillon gaussien
de μ, qui est alors inférieure (ou égale) à μ0 par hypothèse. Dans ces conditions, nous savons que X suit une loi normale d’espérance μ0 et de variance σ 2 , ce qui entraîne donc ¯ − μ √ X 0 ∼ N (0,1) . n σ Insistons bien sur le fait que, sous H0 , on a μ = μ0 , où μ0 est possiblement √ ¯ 0 différente de μ0 (il est en particulier faux d’écrire que, sous H0 , n X−μ ∼ σ N (0,1)...). En revanche, pour le cα choisi lors du test de l’hypothèse simple limite H0 , on a toujours ¯ − μ0 √ X ¯ > z1−α |H0 , n P(X > cα |H0 ) = P σ √ ¯ 0 sous H0 n’est pas N (0,1), et donc cette mais cette fois-ci la loi de n X−μ σ probabilité n’est pas nécessairement égale à α. Néanmoins, ¯ − μ0 ¯ − μ √ μ0 − μ0 √ X √ X 0 > z1−α |H0 = P + n > z1−α |H0 n n P σ σ σ ¯ − μ √ μ0 − μ0 √ X 0 > z1−α − n |H0 n =P σ σ ¯ − μ √ X 0 > z1−α |H0 n ≤P σ ¯ √ μ −μ √ X−μ puisque, par hypothèse, μ0 ≤ μ0 et donc n 0 σ 0 ≤ 0. Comme n σ 0 ∼ N (0,1), on en conclut que ¯ − μ0 √ X > z1−α |H0 ≤ α, n P σ
ce qui signifie exactement que le protocole consistant à rejeter H0 si la statistique ¯ est supérieure au seuil cα constitue bien un test de niveau α de H0 vs. H1 . On X retiendra donc le principe suivant : Pour tester le jeu d’hypothèses « H0 : μ ≤ μ0 » vs. « H1 : μ > μ0 », on se ramène au test de la sous-hypothèse « H0 : μ = μ0 » vs. H1 . En procédant ainsi, on obtient un test de niveau α.
209
Chapitre 6. Tests d’hypothèses
Nous laissons au lecteur le soin d’adapter ce principe aux trois cas voisins : 1. « H0 : μ ≤ μ0 » vs. « H1 : μ = μ1 » (avec μ1 > μ0 ) ; 2. « H0 : μ ≥ μ0 » vs. « H1 : μ < μ0 » ; 3. « H0 : μ ≥ μ0 » vs. « H1 : μ = μ1 » (avec μ1 < μ0 ).
Exemple 5. Revenons sur l’exemple 4 et supposons cette fois-ci que la société soupçonne son usine de surdoser le chocolat noir, ce qui a pour effet d’accentuer l’amertume de ce dernier et de le rendre impropre à certaines recettes spécialisées. La problématique du chimiste consiste donc désormais à tester, au niveau α = 1 %, les hypothèses « H0 : μ ≤ 80 » vs. « H1 : μ > 80 ». Pour ce faire, nous savons qu’il suffit de se ramener au test de la sous-hypothèse limite « H0 : μ = 80 » vs. « H1 : μ > 80 ». Il s’agit d’un test unilatéral à hypothèse nulle simple. À partir de z0,99 = 2,326, on calcule le seuil 2 c0,01 = 80 + 2,326 × √ = 81,040. 20 Comme x ¯ > c0,01 (81,1 > 81,040), on rejette l’hypothèse H0 , et donc aussi H0 , au niveau choisi α = 1 %. Il semble donc que les tablettes de chocolat produites par l’usine soient effectivement surdosées. Et lorsque la variance est inconnue ? Rares sont les situations concrètes où la variance de la loi mère est connue. Dans ce paragraphe, nous examinons donc le cas d’un échantillon X1 , . . . , Xn issu d’une variable aléatoire mère gaussienne dont la variance σ 2 est inconnue. Un rapide coup d’œil aux paragraphes précédents montre que les méthodes que nous avons mises en place ne sont plus utilisables, dans la mesure où elles font toutes intervenir σ 2 , qui est précisément inconnu. Pour lever cette difficulté, la parade est identique à celle que nous avons adoptée dans le chapitre 5 pour les intervalles de confiance, et consiste à « remplacer » le terme σ 2 par l’estimateur (sans biais et convergent) n 1
2 ¯ 2. (Xi − X) S = n−1 i=1
Toujours d’après le chapitre 5, nous savons alors que la variable aléatoire Tn = 210
¯ −μ √ X n S
6.3. Test de la moyenne dans un échantillon gaussien
suit une loi de Student T (n − 1) à n − 1 degrés de liberté. Cette expression est √ ¯ bien entendu à rapprocher de la formule n X−μ σ ∼ N (0,1), qui nous a plusieurs ¯ sous H0 et de mettre en fois permis, à variance connue, de spécifier la loi de X place des tests de niveau α. À partir de cette observation, il est alors facile de voir que tous les tests de moyenne que nous avons analysés se transposent au cas σ 2 inconnu, en remplaçant simplement σ 2 par S 2 et la loi normale par la loi de Student T (n − 1). Le principe général s’énonce donc de la manière suivante : Dans le cas gaussien, et lorsque la variance σ 2 est inconnue, on remplace σ 2 par S 2 dans les différentes expressions et la loi normale N (0,1) par la loi de Student T (n − 1) à n − 1 degrés de liberté. Par exemple, pour tester le jeu d’hypothèses « H0 : μ = μ0 » vs. « H1 : μ > μ0 », √ (n−1) ¯ > cα et on la on pose cα = μ0 + t1−α S / n, on rejette l’hypothèse H0 si X garde dans le cas contraire. En procédant ainsi, on obtient un test de niveau α. Les tests décrits dans l’encadré précédent sont connus sous le nom de tests de Student.
Exemple 6. Revenons sur l’exemple 3, mais en supposant cette fois-ci que l’écarttype de la production mensuelle de champignons a pu être modifié par le nouveau système (et qu’il n’est donc plus connu de l’agriculteur). La moyenne de la production sur les 12 mois ne change pas et vaut x ¯ = 1047,5. En ce qui concerne la variance empirique, on trouve n n 2 (xi − x ¯) = x2i − n(¯ x)2 = 13 210 522 − 12 × 1047,52 = 43 447, i=1
i=1
soit s 2 =
43 447 = 3949,73. 12 − 1
(11)
Au niveau α = 0,05, on a t0,95 = 1,796, ce qui fournit le seuil c0,05 : ! c0,05 = 1000 + 1,796
3949,73 = 1032,58. 12
Comme x ¯ > c0,05 (1046,67 > 1032,58), on décide donc cette fois-ci de rejeter l’hypothèse H0 , au niveau choisi α = 5 % : adopter le nouveau système semble finalement être un bon choix économique.
211
Chapitre 6. Tests d’hypothèses
Le cas général Dans le contexte très général où la loi de X est a priori quelconque (et sa √ ¯ variance σ 2 est inconnue), la statistique Tn = n X−μ S ne suit pas nécessairement une loi de Student à n − 1 degrés de liberté. Néanmoins, le théorème central limite (cf. le chapitre 4) affirme que la loi de Tn s’approche d’une loi normale N (0,1) lorsque n se rapproche de l’infini(2) . En écrivant ainsi ¯ −μ √ X n ≈ N (0,1) S
√ ¯ (au lieu de n X−μ S ∼ T (n − 1) dans le cas gaussien), on peut alors adapter sans difficulté les méthodes développées dans les paragraphes précédents pour obtenir des tests sur la moyenne de X qui soient « à peu près de niveau α ». De telles procédures sont évidemment approximatives, puisque rien ne garantit exactement un niveau α lorsque n est fini. Les tests correspondants sont alors dits asymptotiques de niveau α ou asymptotiquement de niveau α. En voici un exemple : Supposons que la loi de X (et sa variance σ 2 ) soient inconnues et que l’on souhaite tester le jeu d’hypothèses « H0 : μ = μ0 » vs. « H1 : μ = μ0 ». √ Si n est assez grand, il suffit de poser cα = z1−α/2 S / n, de rejeter l’hypothèse ¯ − μ0 | > cα et de la conserver dans le cas contraire. En procédant H0 lorsque |X ainsi, on obtient un test asymptotique de niveau α. Comme pour les intervalles de confiance asymptotiques, l’approximation a une qualité qui dépend de la loi de X, et il est donc difficile, en toute généralité, de fournir un n « universel » à partir duquel un test asymptotique est assez proche du niveau souhaité. Un bon statisticien devrait toujours avoir cette remarque à l’esprit. Un outil : la p-valeur La décision d’accepter ou de refuser une hypothèse est assujettie au choix du niveau α. Afin d’éviter ce choix, la plupart des logiciels de statistique ont recourt à la notion de p-valeur (ou niveau de signification). Formellement, la p-valeur est (2)
En toute rigueur, pour obtenir ce résultat, il faut adjoindre au théorème central limite le théorème dit de Slutsky, cf. [7].
212
6.4. Étude de la puissance d’un test de moyenne
la probabilité que, sous H0 , la statistique de test prenne une valeur supérieure à celle qui a été observée sur l’échantillon. Tentons d’éclaircir cette définition en considérant par exemple le cas d’un test gaussien unilatéral à droite « H0 : μ = μ0 » vs. « H1 : μ > μ0 » ¯ > μ0 + z1−α √σ . En notant à variance connue, où l’on est amené à rejeter H0 si X n alors x ¯ la moyenne empirique observée sur l’échantillon (c’est-à-dire, celle que ¯ >x l’on évalue numériquement), la p-valeur n’est autre que P(X ¯), lorsque H0 est √ x¯−μ0 vraie, soit P(N (0,1) > n σ ).
Exemple 7. Avec μ0 = 3, σ = 0,5, n = 100 et une moyenne empirique observée x ¯ = 3,10, on trouve p-valeur = P(N (0,1) > 2) = 0,023. Une p-valeur strictement inférieure à α conduit au rejet de l’hypothèse H0 . En ¯ >x effet, « p-valeur < α » signifie que P(X ¯) < α, et donc que x ¯ est une réalisation ¯ plus grande que le seuil cα = μ0 + z1−α √σ qui a été choisi auparavant. Ce de X n mécanisme se généralise sans difficulté au cas bilatéral et, d’une façon générale, on retiendra donc : La p-valeur d’un test permet de déterminer si l’on rejette l’hypothèse nulle à un niveau α donné, en comparant simplement la p-valeur avec le niveau : si la p-valeur est strictement inférieure à α on rejette H0 , sinon on l’accepte. Les logiciels de statistique se contentent donc de renvoyer la p-valeur associée au test et aux observations considérés, en laissant libre l’utilisateur de prendre la décision finale (acceptation ou rejet) en fonction du risque qu’il se sera fixé. Ainsi, par exemple, si le logiciel nous renvoie une p-valeur de 0,023, nous savons que nous rejetons H0 à tous les niveaux supérieurs à 0,023 (en particulier, au niveau « standard » α = 5 %), mais qu’en revanche nous la conservons à tous les niveaux inférieurs (en particulier, au niveau « standard » α = 1 %). Comme autre façon de voir les choses, on peut aussi dire que plus la p-valeur est faible plus l’hypothèse nulle est suspecte. Notons pour terminer que l’utilisation généralisée de la p-valeur par les logiciels de statistique a rendu quelque peu obsolète l’usage des tables de statistique.
6.4. Étude de la puissance d’un test de moyenne Dans ce paragraphe, nous souhaitons illustrer au travers d’un exemple les considérations intuitives sur la puissance d’un test émises dans l’introduction. 213
Chapitre 6. Tests d’hypothèses
La puissance du test représente la probabilité de rejeter l’hypothèse nulle H0 alors que l’hypothèse alternative H1 est vraie. Elle se calcule toujours pour une valeur fixée du paramètre μ dans H1 , et c’est précisément cette probabilité pour les différentes valeurs de μ que l’on appelle fonction puissance. Pour éclairer notre propos, examinons dans le cadre gaussien le cas du test de moyenne « H0 : μ ≤ 20 » vs. « H1 : μ > 20 », au niveau α = 5 % et en supposant, pour simplifier, la variance σ 2 = 16 connue. Admettons qu’un échantillon de taille n = 100 ait permis de calculer x ¯ = 20,5. En posant μ0 = 20, nous savons que le principe général consiste à se ramener au sous-test « H0 : μ = μ0 » vs. « H1 : μ > μ0 ». On obtient alors un test de niveau ¯ > μ0 + z1−α √σ soit, avec α = 5 % et z0,95 = 1,645, α en rejetant H0 lorsque X n ¯ > 20 + 1,645 × 4 = 20,658. Comme x ¯ = 20,5, on décide donc de lorsque X 10 conserver H0 . Qu’en est-il maintenant de la puissance de ce test ? Pour calculer cette dernière, supposons que l’hypothèse H1 soit correcte et désignons par μ1 la vraie valeur de μ (qui est donc strictement supérieure à 20). Alors ¯ − μ1 √ X ∼ N (0,1) n σ et donc, sous H1 ,
¯ ∈ Rα ) = P P(X
¯ − μ0 √ X > z1−α n σ
(attention : cette probabilité n’est pas égale à α...) ¯ − μ1 √ μ1 − μ0 √ X + n > z1−α n =P σ σ ¯ − μ1 √ X √ μ1 − μ0 > z1−α − n . =P n σ σ En notant u(μ1 ) = z1−α −
√ μ1 − μ0 , n σ
nous avons ainsi ¯ ∈ Rα ) = P (N (0,1) > u(μ1 )) . P(X Dans notre exemple, avec n = 100, μ0 = 20, σ = 4 et α = 0,95 (z0,95 = 1,645), on trouve u(μ1 ) = 1,645 − 2,5(μ1 − 20). Pour chaque valeur μ1 > 20, la fonction μ1 → P(N (0,1) > u(μ1 )) retourne la probabilité de rejeter H0 alors que H1 est vraie avec μ = μ1 . Il s’agit donc de 214
6.4. Étude de la puissance d’un test de moyenne
la fonction puissance du test considéré, et ses valeurs se calculent en utilisant simplement une table ou un logiciel de statistique. Le tableau qui suit fournit quelques valeurs de la fonction u et de la fonction « puissance du test » μ1 → P(N (0,1) > u(μ1 )). La représentation graphique de cette dernière fonction est donnée dans la figure 6.1. μ1 20,1 20,3 20,5 20,7 21 21,3 21,5 21,7 22
u(μ1 ) 1,395 0,895 0,395 –0,105 –0,855 –1,605 –2,105 –2,605 –3,355
P(N (0,1) > u(μ1 )) 0,082 0,185 0,347 0,542 0,804 0,946 0,982 0,9954 0,9996
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
20
20.2 20.4 20.6 20.8 21
21.2 21.4 21.6 21.8 22
Figure 6.1. Fonction puissance du test « H0 : μ ≤ 20 » vs. « H1 : μ > 20 », au niveau α = 5 %.
Dans cet exemple, la fonction u est strictement décroissante. Il s’ensuit donc, d’après les propriétés fondamentales du calcul des probabilités (voir le chapitre 3), que la fonction puissance μ1 → P(N (0,1) > u(μ1 )) est croissante. En d’autres 215
Chapitre 6. Tests d’hypothèses
termes, plus la vraie valeur μ1 de μ est grande, plus la probabilité de rejeter l’hypothèse nulle à raison est élevée (et donc, plus il est facile de faire la distinction entre les deux hypothèses, compte tenu du hasard). En revanche, pour les valeurs de μ à peine supérieures à la valeur limite μ = μ0 = 20, la probabilité de rejet n’est que faiblement supérieure au niveau α = 5 %. Il est également intuitivement clair que plus la taille de l’échantillon sera grande, plus les estimateurs des différents paramètres seront précis, et plus les tests d’hypothèses fondés sur ces estimateurs seront discriminatoires et sans appel. On peut donc légitimement penser que la performance d’un test sera d’autant meilleure que la taille de l’échantillon sera importante. Cette intuition peut être vérifiée à l’aide de la fonction puissance qui, dans le test que nous analysons, a pour expression √ μ1 − μ0 . μ1 → P N (0,1) > z1−α − n σ Nous laissons au lecteur le soin de se convaincre que, pour μ1 > μ0 fixé, la probabilité P(N (0,1) > u(μ1 )) tend vers 1 lorsque n → +∞. Cela signifie que, asymptotiquement et sous H1 , la probabilité de rejeter à raison l’hypothèse H0 se rapproche de 1 ou, ce qui revient au même, que la probabilité de garder à tort l’hypothèse H0 devient insignifiante. On dit d’un tel test qu’il est convergent . Signalons enfin, pour terminer ce paragraphe, que le choix de la valeur du niveau α a aussi une influence sur la puissance du test. À titre d’exercice, le lecteur vérifiera que, pour tout μ1 > μ0 fixé, la puissance décroît lorsque α diminue : pour augmenter nos chances de rejeter l’hypothèse nulle à raison, il faut donc choisir un niveau plus élevé (ce qui aura alors pour effet d’augmenter le risque de rejeter cette même hypothèse à tort...).
6.5. Croisement génétique : une solution Nous sommes maintenant en mesure d’apporter une solution au problème introductif de ce chapitre. Rappelons qu’il s’agit d’un chercheur qui étudie la version dominante A et la version récessive a d’un gène rare, et qui soupçonne que la combinaison AA est létale. Si c’est effectivement le cas, le phénotype A doit être observé avec probabilité 2/3, alors que d’après la loi de Mendel, ce même phénotype devrait normalement être observé avec probabilité 3/4. En désignant par p la proportion (théorique et inconnue) associée au phénotype A, le problème revient donc à choisir entre les deux hypothèses « H0 : p = 3/4 » vs. « H1 : p = 2/3 ». 216
6.5. Croisement génétique : une solution
Afin de trancher, on collecte un échantillon x1 , . . . , xn de n = 100 observations, parmi lesquelles 70 sont de type A et 30 de type a. Si l’on envisage chacune de ces observations comme la réalisation d’une variable aléatoire X de Bernoulli prenant la valeur 1 si le sujet considéré a le phénotype A et 0 s’il a le phénotype a, il s’agit donc d’un test portant sur la moyenne p de X. Bien entendu, X ne suit pas une loi gaussienne ; néanmoins, en désignant par Pn la proportion empirique de sujets de phénotype A (dont la réalisation vaut ici 70/100) et en posant p0 = 3/4, le théorème central limite pour des variables aléatoires de Bernoulli (cf. le paragraphe 5.4 du chapitre 5) nous apprend que, sous H0 , la loi de √
n
Pn − p0 p0 (1 − p0 )
s’approche d’une loi normale N (0,1) lorsque n se rapproche de l’infini. En écrivant √
n
Pn − p0 ≈ N (0,1), p0 (1 − p0 )
nous pouvons alors sans difficulté mettre en œuvre un test (asymptotique) de niveau α de l’hypothèse « H0 : p = p0 » contre « H1 : p = 2/3 ». Étant donné la forme de H1 , on choisit de rejeter l’hypothèse nulle dès que Pn est inférieure à un certain seuil cα . Pour déterminer cα , on utilise la spécification P(Pn < cα |H0 ) ≤ α. Comme, sous H0 ,
√
Pn − p0 ≈ N (0,1), p0 (1 − p0 ) 0) on voit immédiatement que le choix cα = p0 − z1−α p0 (1−p convient (asympn totiquement). En prenant α = 1 %, il vient z0,99 = 2,326, ce qui fournit le seuil n
= 0,649. Puisque pn = 0,70, on ne rejette donc pas c0,01 = 3/4 − 2,326 3/4×1/4 100 l’hypothèse H0 , au niveau choisi α = 1 %. On ne la rejette d’ailleurs pas non plus au niveau α = 5 %, puisque c0,05 = 0,679. La p-valeur du test s’obtient en évaluant (à l’aide d’une table ou d’un ordinateur) √ 0,7 − 3/4 = P(N (0,1) < −1,155) = 0,12. P N (0,1) < 100 3/4 × 1/4
Comme « p-valeur ≥ α », on retrouve le fait que l’on garde l’hypothèse H0 . Ce calcul montre en outre que l’on ne commence donc à rejeter H0 qu’à partir du niveau α = 12 %. 217
Chapitre 6. Tests d’hypothèses
En conclusion, et contrairement aux premières affirmations du biologiste (qui avait arbitrairement fixé le seuil de rejet à 0,71, c’est-à-dire beaucoup trop haut), il semble donc, avec toutes les précautions d’usage, que la combinaison des gènes AA ne soit pas létale. Le lecteur aura peut-être noté, avec étonnement, que le premier seuil (au niveau α = 1 %) est inférieur à 2/3 : autrement dit, même si la valeur empirique de Pn était égale à 2/3 (la valeur spécifiée par H1 ), on n’en rejetterait pas pour autant H0 ! Ceci s’explique par le choix d’un α très petit, qui implique donc que l’on ne souhaite rejeter H0 que si cette hypothèse semble fortement compromise : 2/3 est alors trop proche de 3/4 pour qu’une fréquence expérimentale égale à 2/3 provoque le rejet de H0 . Rappelons par ailleurs qu’il s’agit d’un test asymptotique, qui n’offre donc une garantie de précision que lorsque la taille de l’échantillon est suffisamment grande... et que la taille minimale nécessaire pour obtenir une précision fixée à l’avance est difficile à obtenir. La méthode que nous venons de présenter, qui repose sur l’approximation asymptotique de la loi binomiale par la loi gaussienne, est similaire à celle que nous avions adoptée dans le chapitre 5 pour obtenir des intervalles de confiance sur les proportions. Le cas des tests est même en un certain sens plus simple, puisque l’hypothèse nulle « H0 : p = p0 » spécifie complètement la variance p0 (1−p0 ), qu’il n’est donc pas utile d’estimer, contrairement au cas des intervalles de confiance (où cette dernière quantité est remplacée par Pn (1 − Pn )).
6.6. Comparaison de deux moyennes Dans ce paragraphe, nous cherchons à comparer les espérances μ1 et μ2 de deux variables aléatoires X et Y , sur la base de deux échantillons X1 , . . . , Xn1 et Y1 , . . . , Yn2 issus respectivement de X et de Y . Les deux questions essentielles consistent à décider si, à un niveau donné, ces deux espérances sont différentes (cas bilatéral) ou bien encore si l’une est supérieure à l’autre (cas unilatéral). En termes plus mathématiques, il s’agit donc de mettre en place un mécanisme statistique permettant de décider entre des hypothèses de la forme : « H0 : μ1 = μ2 » vs. « H1 : μ1 = μ2 » (cas bilatéral) ou bien « H0 : μ1 ≤ μ2 » vs. « H1 : μ1 > μ2 » (cas unilatéral). Cette problématique se rencontre dans bon nombre de situations concrètes, où l’on cherche à comparer deux populations suivant leur moyenne. C’est par exemple typiquement le cas en expérimentation clinique, où l’on souhaite démontrer l’efficacité d’un traitement (ou d’un nouveau médicament) en comparant un échantillon 218
6.6. Comparaison de deux moyennes
de cas traités et un échantillon de cas témoins. Les lignes qui suivent s’appuient fortement sur le paragraphe 5.5 du chapitre 5, au sein duquel nous avons appris à construire des intervalles de confiance sur la différence μ1 − μ2 . En guise de préambule, nous conseillons donc une relecture rapide de ce dernier paragraphe et des exemples qui y sont développés.
6.6.1. Échantillons indépendants Supposons pour commencer que les échantillons X1 , . . . , Xn1 et Y1 , . . . , Yn2 sont indépendants entre eux, issus d’une variable mère gaussienne X ∼ N (μ1 , σ12 ) pour le premier et d’une variable mère gaussienne Y ∼ N (μ2 , σ22 ) pour le second. ¯ et Y¯ les moyennes empiriques respectives de ces deux échantillons Désignons par X gaussiens. Lorsque les variances σ12 et σ22 sont connues, le chapitre 5 nous apprend que ¯ − Y¯ ) − (μ1 − μ2 ) (X ∼ N (0,1). σ12 σ22 + n1 n2 C’est cette formule qui nous a permis d’obtenir un intervalle de confiance pour la différence μ1 − μ2 ; elle va maintenant nous permettre de mettre en place les tests statistiques souhaités. Le cas bilatéral Il s’agit ici de tester « H0 : μ1 − μ2 = 0 » vs. « H1 : μ1 − μ2 = 0 ». D’après ce qui précède, si l’hypothèse H0 est vraie, ¯ − Y¯ X σ12 σ22 + n1 n2
∼ N (0,1).
¯ − Y¯ Étant donné la forme de l’hypothèse H1 , on rejette H0 au niveau α dès que X ¯ − Y¯ | > cα , où cα se détermine est trop grand en valeur absolue, c’est-à-dire si |X en écrivant ¯ − Y¯ | > cα |H0 ≤ α, P |X 219
Chapitre 6. Tests d’hypothèses
et donc
⎞
⎛ ⎜ ⎜ P⎜ ⎜|N (0,1)| > ⎝
On trouve ainsi cα = z1−α/2
σ12 n1
+
σ22 n2 ,
cα
⎟ ⎟ ⎟ ≤ α. ⎟ 2 σ2 ⎠
σ12 + n1 n2
d’où le principe suivant :
Dans le cas de deux échantillons gaussiens indépendants entre eux, et lorsque les variances σ12 et σ22 sont connues, pour tester le jeu d’hypothèses « H0 : μ1 = μ2 » vs. « H1 : μ1 = μ2 », 2 σ σ2 ¯ − Y¯ | > cα et on pose cα = z1−α/2 n11 + n22 , on rejette l’hypothèse H0 si |X on la garde dans le cas contraire. En procédant ainsi, on obtient un test de niveau α. Le cas unilatéral Dans cette configuration, on souhaite typiquement confronter les deux hypothèses « H0 : μ1 − μ2 ≤ 0 » vs. « H1 : μ1 − μ2 > 0 ». Le principe général, identique à celui décrit au paragraphe précédent, consiste à se ramener au test de l’hypothèse simple limite « H0 : μ1 − μ2 = 0 » vs. « H1 : μ1 − μ2 > 0 ». En raisonnant comme précédemment, on conclut : Dans le cas de deux échantillons gaussiens indépendants entre eux, et lorsque les variances σ12 et σ22 sont connues, pour tester le jeu d’hypothèses « H0 : μ1 ≤ μ2 » vs. « H1 : μ1 > μ2 »,
on se ramène au test de la sous-hypothèse 2 « H02 : μ1 − μ2 = 0 » vs. « H1 : σ σ μ1 − μ2 > 0 ». On pose alors cα = z1−α n11 + n22 , on rejette l’hypothèse H0 si ¯ − Y¯ > cα et on la garde dans le cas contraire. En procédant ainsi, on obtient X un test de niveau α.
À titre d’exercice, nous invitons le lecteur à adapter l’encadré précédent au jeu d’hypothèses « H0 : μ1 ≥ μ2 » vs. « H1 : μ1 < μ2 ». Les tests que nous venons de présenter ne sont malheureusement pas applicables lorsque les variances σ12 et σ22 sont inconnues, ce qui est presque toujours le 220
6.6. Comparaison de deux moyennes
cas dans la pratique. Il est cependant encore possible d’obtenir un résultat exact lorsque σ12 = σ22 = σ 2 (la valeur de σ étant inconnue), en procédant exactement comme nous l’avons fait pour les intervalles de confiance (voir le paragraphe 5.5.1). On introduit les variances empiriques corrigées 1 1 ¯ 2 = (Xi − X) n1 − 1
et
(n1 − 1)S1 2 ∼ χ2 (n1 − 1) σ2
et
n
S1 2
2 1 = (Yj − Y¯ )2 , n2 − 1
n
i=1
S2 2
j=1
qui vérifient (n2 − 1)S2 2 ∼ χ2 (n2 − 1), σ2
on rappelle que (n1 − 1)S1 2 + (n2 − 1)S2 2 ∼ χ2 (n1 + n2 − 2) σ2 et, comme
¯ − Y¯ ) − (μ1 − μ2 ) (X ! ∼ N (0,1), 1 1 σ + n1 n2
en posant(3)
(n1 − 1)S1 2 + (n2 − 1)S2 2 , n1 + n2 − 2 une « studentisation » montre que Sp2 =
¯ − Y¯ ) − (μ1 − μ2 ) (X ! ∼ T (n1 + n2 − 2). 1 1 Sp + n1 n2 Les deux variances inconnues ne figurent plus dans cette dernière expression, ce qui permet alors de mettre en place les tests souhaités. En résumé : Dans le cas de deux échantillons gaussiens indépendants entre eux, et lorsque les variances sont inconnues mais égales, on remplace σ12 et σ22 par Sp2 =
(3)
(n1 − 1)S1 2 + (n2 − 1)S2 2 n1 + n2 − 2
Le p de Sp2 signifie « poolée ».
221
Chapitre 6. Tests d’hypothèses
dans les différentes expressions et la loi normale N (0,1) par la loi de Student T (n1 + n2 − 2) à n1 + n2 − 2 degrés de liberté. Par exemple, pour tester le jeu d’hypothèses « H0 : μ1 = μ2 » vs. « H1 : μ1 = μ2 », (n1 +n2 −2) ¯ − Y¯ | > cα Sp n11 + n12 , on rejette l’hypothèse H0 si |X on pose cα = t1−α/2 et on la garde dans le cas contraire. En procédant ainsi, on obtient un test de niveau α. Lorsque les variances sont inconnues, il est d’usage d’effectuer au préalable le test d’égalité des variances suivant : « H0 : σ12 = σ22 » vs. « H1 : σ12 = σ22 ». Nous invitons le lecteur à réfléchir à cette question et à se reporter à l’exercice 11 qui propose une solution possible. Insistons cependant sur le fait qu’un tel test ne fournit pas une garantie absolue de l’égalité des variances (et donc, en particulier, de l’applicabilité de la formule précédente), et les résultats qui en découlent doivent donc être interprétés avec prudence. Lorsque les variances ne sont pas identiques, pour de grands échantillons de même taille (n1 = n2 = n), on peut se risquer à utiliser le fait que ¯ − Y¯ ) − (μ1 − μ2 ) (X ≈ N (0,1). n ¯ 2 + n (Yj − Y¯ )2 (X − X) i i=1 j=1 n(n − 1)
Exemple 8. Afin d’illustrer l’ensemble des mécanismes de comparaison de moyennes et leurs liens avec la construction des intervalles de confiance, il est intéressant de revenir un instant sur l’exemple 5 du chapitre 5 relatif à la tension artérielle systolique. Rappelons que l’on dispose dans cet exemple de 12 mesures réalisées sur des sujets montpelliérains et rennais, exprimées en cm de mercure (X = Montpellier, Y = Rennes) :
222
xi yi
12,9 11,3
13,2 10,5
15,1 12
11,4 15,1
10,3 13
14,1 9,6
xi yi
16 9,8
9,3 11,3
12,1 13
14,2 14,1
8,6 12,7
12 12,8
6.6. Comparaison de deux moyennes
Les deux échantillons sont a priori indépendants entre eux, et nous avons déjà fait l’hypothèse qu’ils proviennent de lois normales X ∼ N (μ1 , σ12 ) et Y ∼ N (μ2 , σ22 ). En supposant tout d’abord σ12 = 4 et σ22 = 3, nous avions obtenu un intervalle de confiance de niveau 80 % pour la différence μ1 −μ2 : ic0,8 (μ1 −μ2 ) = [−0,65 ; 1,31]. Cet intervalle de confiance, dont les valeurs sont « majoritairement positives », laisse à penser que μ1 est supérieure à μ2 ce qui, en d’autres termes, pourrait signifier que les sujets montpelliérains ont une tension au repos moyenne supérieure à celle des sujets rennais. Pour répondre rigoureusement à cette interrogation, nous devons mettre en œuvre le test statistique « H0 : μ1 ≤ μ2 » vs. « H1 : μ1 > μ2 ». Comme les variances sont connues (avec deux échantillons de même taille n1 = n2 = n = 12), nous savons qu’il suffit de calculer ! σ12 σ22 + cα = z1−α n n ¯ ¯ et comparer X − Y à cα . Numériquement, toujours avec 1 − α = 0,8, on trouve 4+3 ¯ − y¯ = 0,33 ≤ 0,643, on décide de c0,2 = 0,842 12 = 0,643 et, puisque x conserver l’hypothèse H0 au niveau α = 20 %. D’un point de vue statistique, les données ne permettent donc pas d’affirmer que les sujets montpelliérains ont effectivement une tension au repos moyenne supérieure à celle des sujets rennais. Lorsque les variances ne sont plus supposées connues, il faut les estimer. Nous avions trouvé au chapitre 5 l’intervalle de confiance ic0,8 (μ1 − μ2 ) = [−0,75 ; 1,41]. Ici encore, cet intervalle de confiance, décentré sur la droite, laisse à penser que μ1 > μ2 . Pour tester « H0 : μ1 − μ2 ≤ 0 » vs. « H1 : μ1 − μ2 > 0 », on se ramène à l’hypothèse limite « H0 : μ1 − μ2 = 0 ». Si H0 est vraie, comme les deux échantillons ont même taille n1 = n2 = n, on a ¯ − Y¯ ) − (μ1 − μ2 ) (X ! = 1 1 Sp + n1 n2
¯ − Y¯ X ∼ T (2n − 2). ¯ 2 + n (Yj − Y¯ )2 (X − X) i i=1 j=1
n
n(n − 1)
¯ − Y¯ > cα , où On rejette donc H0 au niveau α si X n ¯ 2 n (Yj − Y¯ )2 (2n−2) i=1 (Xi − X) + j=1 . cα = t1−α n(n − 1) On trouve numériquement c0,2 = 0,86
!
57,96 + 30,86 = 0,705. 12 × 11 223
Chapitre 6. Tests d’hypothèses
On décide, ici encore, de ne pas rejeter l’hypothèse H0 , et l’on prend donc la même décision pour H0 . Observons pour terminer que la p-valeur de ce dernier test s’obtient en évaluant (à l’aide d’une table ou d’un ordinateur) ⎞ ⎛ 12,43 − 12,10 ⎠ = P(T (22) > 0,402) = 0,35. P ⎝T (22) > 57,96+30,86 12×11
Comme « p-valeur ≥ α », on retrouve le fait que l’on garde l’hypothèse H0 . Ce calcul montre aussi que l’on ne commence à rejeter H0 qu’à partir du niveau α = 35 %.
6.6.2. Échantillons appariés Nous examinons dans ce paragraphe le cas important où les deux échantillons X1 , . . . , Xn et Y1 , . . . , Yn ne sont plus indépendants entre eux, mais, au contraire, appariés. Nous conseillons au lecteur de relire le paragraphe 5.5.2, afin de bien se remettre en mémoire la différence importante entre échantillons indépendants et échantillons appariés. Rappelons brièvement que, dans ce contexte, tout se passe comme si l’on disposait d’un unique échantillon (X1 , Y1 ), . . . , (Xn , Yn ) composé de n couples de variables aléatoires de même mère (X, Y ). En particulier, les deux échantillons de X et de Y doivent nécessairement avoir même taille. Pour contourner la difficulté liée à la dépendance entre X et Y , on choisit, comme dans le paragraphe 5.5.2, de raisonner sur la variable aléatoire Z = X −Y , « différence entre individus appariés », pour se ramener au cas d’une seule variable aléatoire. Si μ1 désigne l’espérance de X, μ2 celle de Y et μZ celle de Z, on a alors μZ = μ1 − μ2 , et tous les tests relatifs à μ1 et μ2 se ramènent alors à des tests sur l’espérance μZ . Par exemple, le test « H0 : μ1 ≤ μ2 » vs. « H1 : μ1 > μ2 » se ramène simplement au test « H0 : μZ ≤ 0 » vs. « H1 : μZ > 0 ». En pratique, on remplace simplement les deux échantillons appariés initiaux par l’échantillon (Z1 , . . . , Zn ) = (X1 − Y1 , . . . , Xn − Yn ), auquel on peut appliquer l’ensemble des résultats vus dans ce chapitre. 224
6.7. Tests du χ2
Exemple 9. Nous reprenons ici l’exemple 6 du chapitre 5, où l’on étudie la tension artérielle sur les 12 sujets montpelliérains avant et après le visionnage d’un film d’horreur. Les données sont les suivantes (X = avant, Y = après) : xi yi
12,9 13
13,2 15
15,1 25
11,4 11,4
10,3 13,1
14,1 12,3
16 16
9,3 12,1
12,1 14,3
14,2 13,1
8,6 10,2
12 13
Les deux échantillons sont évidemment appariés (ils concernent les mêmes individus) et, en posant zi = yi − xi , on obtient le tableau de mesures suivant : zi
0,1
1,8
9,9
0
2,8
–1,8
0
2,8
2,2
–1,1
1,6
1
En supposant que les zi suivent une loi normale (d’espérance μ2 −μ1 ), nous avions calculé l’intervalle de confiance de niveau 95 % : ic0,95 (μ2 − μ1 ) = [−0,29 ; 3,51]. Cet intervalle, très clairement décentré sur la droite, laisse à penser que la tension moyenne des sujets s’accroît après le film. Afin de justifier statistiquement cette constatation, on peut penser mettre en œuvre le test des hypothèses « H0 : μ1 = μ2 » vs. « H1 : μ1 > μ2 », c’est-à-dire « H0 : μZ = 0 » vs. « H1 : μZ > 0 ». Nous savons que, dans ce cas, on obtient un test de niveau α en rejetant H0 √ (n−1) (11) lorsque Z¯ > cα , où cα = t1−α S / n. Avec α = 5 %, on a t0,95 = 1,796, et donc ! c0,05 = 1,796
8,97 = 1,553. 12
Comme z¯ = 1,61 > 1,553, on rejette donc l’hypothèse H0 , ce qui semble confirmer que le film que l’on regarde peut accroître la tension artérielle moyenne.
6.7. Tests du χ2 On a coutume de regrouper sous le vocable général de tests paramétriques les différentes procédures que nous avons examinées dans les paragraphes précédents – le terme « paramétrique » signifiant simplement que les tests en question ne portent que sur un paramètre bien précis de la population étudiée, typiquement la moyenne ou la variance. Ces tests sont assez restrictifs, dans la mesure où ils 225
Chapitre 6. Tests d’hypothèses
imposent une forme particulière (on dit aussi parfois un modèle) à la loi mère de l’échantillon, comme par exemple le fait d’être gaussienne. Cependant, dans bon nombre de problèmes pratiques, il est très difficile, voire impossible, de spécifier un modèle a priori sur la loi sous-jacente des observations, ce qui rend les tests paramétriques inutilisables. Pour contourner cette difficulté, on préfère alors utiliser une autre catégorie de tests, dits non paramétriques, qui s’intéressent à la distribution « globale » des observations et non pas à tel ou tel autre paramètre de la loi. Dans les paragraphes qui suivent, nous avons choisi de détailler le fonctionnement du test du χ2 , qui est sans aucun doute le plus populaire parmi les tests non paramétriques. Il faudrait d’ailleurs plutôt dire « les tests du χ2 », puisque le mécanisme se décline en trois versions – test du χ2 d’ajustement, du χ2 d’indépendance et du χ2 d’homogénéité – qui correspondent chacune à une problématique bien précise. Faute de place, il n’était malheureusement pas envisageable que nous développions plus en avant dans ce chapitre la théorie d’autres tests non paramétriques importants (test de Kolmogorov-Smirnov, test de Wilcoxon, test de Mann-Whitney, etc.). Pour plus d’informations sur cette thématique essentielle, nous renvoyons le lecteur à des ouvrages statistiques plus spécialisés (voir par exemple [7]).
6.7.1. Test du χ2 d’ajustement Les tests dits d’ajustement (ou d’adéquation – on emploie aussi parfois le terme anglais goodness-of-fit tests) ont pour objectif de juger de l’adéquation entre une série d’observations et une loi de probabilité définie a priori P0 , comme par exemple une loi uniforme ou une loi de Poisson. Cette problématique est fréquente dans bon nombre d’applications pratiques, en particulier en biologie, lorsqu’un modèle a été élaboré pour un phénomène quantifiable et qu’il s’agit de mettre ce modèle à l’épreuve des faits. En guise d’illustration, considérons par exemple un nombre donné de cultures cellulaires cancéreuses rigoureusement identiques, que l’on traite à l’aide d’un nouveau médicament. Si ce produit est effectivement actif, la théorie prévoit que le nombre de colonies malignes dont la croissance est interrompue doit suivre une loi de Poisson. On mesure alors, dans chaque culture, le nombre de colonies en phase de rémission, et on effectue ensuite un test d’ajustement sur ces valeurs pour juger l’hypothèse selon laquelle leur distribution est effectivement poissonnienne. Parmi les multiples tests d’ajustement disponibles dans la boîte à outils du statisticien, le plus simple – et par là-même le plus répandu – est sans aucun doute le test du χ2 . En termes mathématiques, il s’agit donc de vérifier que la loi mère d’un échantillon X1 , . . . , Xn est d’un type précis P0 , spécifié par une hypothèse H0 . À défaut 226
6.7. Tests du χ2
de pouvoir rejeter H0 , on acceptera le modèle théorique P0 . En désignant par X la variable aléatoire mère de l’échantillon, on désire ainsi tester une hypothèse du genre « H0 : X ∼ P0 » vs. « H1 : X ∼ P0 ». Il convient de remarquer que la loi P0 peut être complètement spécifiée (par exemple : P0 est la loi uniforme sur [0 ; 1], P0 = N (2,4), etc.) ou pas. Dans ce dernier cas, il y a alors r > 0 paramètres inconnus indépendants qu’il faudra estimer pour spécifier correctement l’hypothèse H0 , comme dans les exemples suivants : P0 = P(λ) (r = 1, puisque seul λ est inconnu), P0 = N (μ, 1) (μ est inconnu, donc r = 1), P0 = N (μ, σ 2 ) (r = 2), P0 = B(n, p) (r = 2), etc. Remarquons également que, contrairement aux différents tests que nous avons étudiés jusqu’à présent, on s’intéresse ici à la loi globale de X et non pas à l’un ou l’autre de ses paramètres. En d’autres termes, dire que l’hypothèse H0 est satisfaite signifie que X suit la loi spécifiée par le modèle P0 dans son intégralité – il s’agit d’une des différences fondamentales entre l’approche paramétrique et l’approche non paramétrique, sur laquelle nous invitons le lecteur à méditer un instant. Ces remarques étant faites, le principe du test du χ2 d’ajustement est fort simple et repose sur une discrétisation de la variable aléatoire étudiée. Pour cela, on découpe le domaine des valeurs de X en K intervalles, ou classes, exactement comme on le ferait pour un histogramme. On range ensuite les observations x1 , . . . , xn dans les classes C1 , . . . , CK , en prenant soin de noter les effectifs observés dans chaque classe, comme dans le tableau suivant :
Classe Effectif observé
C1 n1
... ...
CK nK
Total n
Sous l’hypothèse H0 , la loi P0 de X est connue, et cela nous permet donc de calculer pi , la probabilité prédite par le modèle (dite probabilité théorique) pour qu’une observation tombe dans la classe Ci : pi = P(X ∈ Ci ),
i = 1, . . . , K.
Puisqu’il y a n observations, l’effectif de la classe Ci suit donc, sous l’hypothèse H0 , une loi binomiale B(n, pi ), de moyenne npi (exercice : pourquoi ?). Cela signifie en particulier qu’il faut s’attendre à trouver, en moyenne, npi observations dans 227
Chapitre 6. Tests d’hypothèses
la i-ème classe. On appelle effectifs théoriques (ou effectifs attendus) ces moyennes npi , et on les présente en général sous la forme d’un tableau : Classe Effectif théorique
C1 np1
... ...
CK npK
Total n
L’idée générale du test du χ2 consiste alors à rejeter H0 si les répartitions des effectifs observés et théoriques sont trop différentes. Un bon moyen pour mesurer cet écart consiste à utiliser la statistique suivante : La statistique du χ2 empirique est définie par χ2emp =
(n1 − np1 )2 (nK − npK )2 + ... + · np1 npK
Un calcul facile montre que χ2emp =
n2 n21 + . . . + K − n, np1 npK
expression parfois plus pratique à manipuler. Il est clair que cette statistique est une mesure de l’écart (aléatoire...) entre les effectifs observés et les effectifs théoriques. On sent donc, intuitivement, que χ2emp ne saurait être trop grand si H0 est vraie. Cette intuition est confirmée par la théorie qui affirme que la loi suivie par χ2emp s’approche asymptotiquement d’une loi χ2 (K − r − 1), où K est le nombre de classes et r le nombre de paramètres qu’il a fallu estimer pour spécifier complètement H0 . Le test du χ2 consiste alors simplement à rejeter H0 si χ2emp est trop grand, c’est-à-dire si χ2emp est supérieur au quantile d’ordre 1 − α d’une loi du χ2 à K − r − 1 degrés de liberté (soit χ21−α (K − r − 1)), qui n’a qu’une probabilité α d’être dépassée par une loi χ2 (K − r − 1). On retiendra donc : (Test du χ2 d’ajustement) Si K désigne le nombre de classes et r le nombre de paramètres indépendants nécessaires pour spécifier complètement H0 , on effectue un test du χ2 d’ajustement en rejetant H0 si χ2emp > χ21−α (K − r − 1), où χ21−α (K − r − 1) est le quantile d’ordre 1 − α d’une loi χ2 (K − r − 1). En procédant ainsi, on obtient un test (asymptotique) de niveau α. Avant de passer à la pratique, il convient de souligner quelques principes généraux. D’abord, le test du χ2 est un test asymptotique. Cela signifie qu’il n’est 228
6.7. Tests du χ2
théoriquement valable que lorsque n est très grand, voire infini. On admet usuellement que χ2emp ≈ χ2 (K − r − 1) dès lors que tous les effectifs théoriques npi sont supérieurs à 5. Bien entendu, ce chiffre 5 relève plus de la tradition que d’autre chose, et il peut varier selon les auteurs ou les manuels. Lorsque ces conditions ne sont pas remplies, on s’arrange pour regrouper certaines cases proches. Par ailleurs, le choix du nombre de classes et la taille des classes – voire les frontières de ces classes – peuvent influer sur le résultat du test. Ces choix sont difficiles à orienter et l’on recommande en général, pour la pratique, de rester proche de classes à probabilités égales. Enfin, si la loi attendue sous H0 est une loi discrète, chaque valeur possible de cette loi peut, naturellement, constituer une classe en soi.
Exemple 10. Des spécialistes du comportement animal s’intéressent à la mémoire des singes. Pour ce faire, ils enferment un chimpanzé dans un espace clos comportant cinq portes colorées différemment. Quatre portes conduisent à des pièces vides, une seule permet de sortir. On résume dans le tableau suivant le nombre de tentatives nécessaires pour que le singe réussisse à sortir lors de 50 expériences : Nombre i de tentatives Nombre ni d’expériences où le singe a fait i tentatives pour réussir à sortir
1 14
2 11
3 8
4 8
5 et plus 9
Les biologistes s’intéressent tout d’abord au test de l’hypothèse H0 : « le singe est sans mémoire et sans repère », autrement dit, à chaque tentative, l’animal choisit uniformément au hasard la porte qu’il va ouvrir, indépendamment de ce qu’il a fait auparavant. Si l’hypothèse H0 est correcte, la probabilité p1 que le singe sorte à la première tentative vaut 1/5, la probabilité p2 qu’il sorte à la deuxième vaut p2 = 4/5 × 1/5 = 4/25, p3 = 16/125, p4 = 64/625 et ainsi de suite... La probabilité p5+ que le primate sorte en 5 tentatives ou plus vaut alors p5+ = 1 − (1/5 + 4/25 + 16/125 + 64/625) = 256/625. Afin de déterminer si l’hypothèse H0 est valide, on peut effectuer un test du χ2 d’ajustement de la distribution empirique à la distribution théorique donnée par (p1 , . . . , p4 , p5+ ). Pour ce faire, on commence par établir le tableau des effectifs théoriques sous H0 (pour un nombre total de 50 tentatives) :
Nombre i de tentatives Effectif théorique
1 10
2 8
3 6,4
4 5,12
5 et plus 20,48 229
Chapitre 6. Tests d’hypothèses
Chacun des effectifs théoriques est supérieur à 5, et nous sommes ainsi en mesure d’appliquer le test du χ2 d’ajustement. La statistique de test a pour valeur χ2emp =
(14 − 10)2 (11 − 8)2 (8 − 6,4)2 + + 10 8 6,4 2 2 (9 − 20,48) (8 − 5,12) + = 11,180. + 5,12 20,48
Dans la mesure où aucune estimation n’a été nécessaire pour spécifier la loi théorique (r = 0), il faut comparer χ2emp au quantile d’ordre 1 − α d’une loi du χ2 à 5 − 1 = 4 degrés de liberté. En prenant par exemple α = 5 %, on trouve χ20,95 (4) = 9,488. Comme χ2emp > χ20,95 (4), on rejette l’hypothèse H0 selon laquelle les singes n’ont pas de mémoire. Afin de pousser plus avant leur analyse, les spécialistes s’intéressent ensuite à l’hypothèse H0 : « le singe se souvient de chaque porte qu’il a déjà ouverte », autrement dit l’animal ne réessaye pas une porte pour laquelle il a déjà échoué. Dans ce contexte, si l’hypothèse H0 est correcte, les probabilités pi que le chimpanzé sorte à la i-ème tentative valent alors p1 = 1/5, p2 = 4/5 × 1/4 = 1/5, p3 = 4/5 × 3/4 × 1/3 = 1/5, p4 = 4/5 × 3/4 × 2/3 × 1/2 = 1/5 et p5 = 1 − (p1 + . . . + p4 ) = 1/5. Le tableau des effectifs théoriques est donc le suivant : Nombre i de tentatives Effectif théorique
1 10
2 10
3 10
4 10
5 10
Cette fois-ci, χ2emp =
(11 − 10)2 (8 − 10)2 (14 − 10)2 + + 10 10 10 (8 − 10)2 (9 − 10)2 + = 2,6, + 10 10
qui doit toujours être comparé au quantile d’ordre 1− α d’une loi du χ2 à 4 degrés de liberté, soit 9,488. Comme 2,6 ≤ 9,488, on conserve, au niveau α = 5 %, l’hypothèse H0 : il semble donc que les singes se souviennent des portes qu’ils ont déjà ouvertes.
6.7.2. Test du χ2 d’indépendance On considère une population observée selon deux critères de classification, comme par exemple la couleur des yeux et la couleur des cheveux. Le premier critère (la couleur des yeux) est subdivisé en K classes (catégories ou modalités, 230
6.7. Tests du χ2
par exemple « bleu », « vert » et « marron », donc ici K = 3) et le second en L classes (par exemple « brun », « blond », « châtain » et « roux », ici L = 4). Le problème consiste alors à tester l’indépendance entre ces deux critères (dans notre exemple, la couleur des yeux est-elle indépendante de celle des cheveux ?). Pour ce faire, on extrait un échantillon de taille n de la population et on désigne par nij le nombre d’individus observés présentant la modalité i du premier critère et la modalité j du second (par exemple, si i = 3 et j = 1, nij représente le nombre de sujets bruns aux yeux marron). Il y a alors ni· =
L
nij
j=1
individus appartenant à la catégorie i du premier critère et n·j =
K
nij
i=1
appartenant à la catégorie j du second. On range finalement l’échantillon dans K × L classes, en fonction de ces deux critères, comme dans le tableau suivant (dit tableau de contingence) : Critère 2
Critère 1
1
...
j
...
L
Totaux
1 .. . i .. . K Totaux
nij
ni·
n·j
n
Les nombres ni· et n·j , qui apparaissent aux extrémités des lignes et des colonnes, sont appelés effectifs marginaux. L’hypothèse H0 stipule que les deux critères sont indépendants. Si cette hypothèse est juste, la probabilité pij pour qu’une observation tombe dans la classe (i, j) est égale, par définition de l’indépendance d’événements, à pi· p·j , où pi· (respectivement p·j ) est la probabilité qu’une observation tombe dans la classe i du premier critère (respectivement la classe j du second). Comme ces probabilités sont inconnues, on doit les estimer : il est assez naturel d’estimer pi· par ni· /n et p·j par n·j /n. Sous l’hypothèse d’indépendance H0 , l’effectif attendu de la classe (i, j) est donc n n·j i· × , nij = n(pi· × p·j ) ≈ n n n 231
Chapitre 6. Tests d’hypothèses
soit
ni· × n·j · n Nous pouvons alors calculer la statistique χ2emp correspondant à l’écart entre les effectifs observés et les effectifs théoriques sous H0 : ni· × n·j 2 − n L K ij n · χ2emp = n ×n nij ≈
·j
i·
i=1 j=1
n
Un calcul facile montre que l’on a en fait χ2emp =
K L n2ij × n i=1 j=1
ni· × n·j
− n·
Si l’effectif théorique de chaque classe est supérieur à 5, on peut admettre que la statistique χ2emp suit à peu près une loi du χ2 à (K−1)(L−1) degrés de liberté (voir en particulier l’exercice 12 à ce sujet), d’où le test (dit du χ2 d’indépendance) : (Test du χ2 d’indépendance) Si K désigne le nombre de classes du premier critère et L le nombre de classes du second, on effectue un test du χ2 d’indépendance en rejetant H0 si χ2emp > χ21−α ((K − 1)(L − 1)), où χ21−α ((K − 1)(L − 1)) est le quantile d’ordre 1 − α d’une loi du χ2 à (K − 1)(L − 1) degrés de liberté. En procédant ainsi, on obtient un test (asymptotique) de niveau α.
Exemple 11. On a interrogé un échantillon de 50 personnes du même âge et de la même catégorie socio-professionnelle pour savoir si, d’une part, elles ont déjà eu un eczéma dans leur vie et si, d’autre part, elles se sentent globalement stressées au travail. Les réponses, simplifiées sous la forme oui/non, sont résumées dans le tableau suivant : Stress
Eczéma
Oui Non Totaux
Oui 8 20 28
Non 12 10 22
Totaux 20 30 50
On se pose alors la question d’un lien éventuel entre l’existence d’un eczéma et celle d’une souffrance au travail. Pour cela, on peut effectuer un test du χ2 232
6.7. Tests du χ2
d’indépendance, l’hypothèse H0 s’énonçant alors sous la forme « Il n’existe pas de relation entre l’eczéma et le stress ». Le calcul des effectifs théoriques sous H0 est immédiat : Stress
Eczéma
Oui Non Totaux
Oui 28×20 50
= 11,2 28 − 11,2 = 16,8 28
Non
Totaux
20 − 11,2 = 8,8 30 − 16,8 = 13,2 22
20 30 50
Notons au passage qu’il suffit simplement, dans un tel tableau à 2 lignes et 2 colonnes, de calculer un seul effectif théorique (par exemple le premier, celui en haut à gauche), les quatre autres s’en déduisant instantanément par soustraction à partir des effectifs marginaux. La statistique du χ2 empirique a pour valeur χ2emp =
(12 − 8,8)2 (20 − 16,8)2 (10 − 13,2)2 (8 − 11,2)2 + + + = 3,463. 11,2 8,8 16,8 13,2
Notons que l’on trouve la même valeur à partir du calcul χ2emp =
82 × 50 122 × 50 202 × 50 102 × 50 + + + − 50. 28 × 20 22 × 20 28 × 30 22 × 30
En prenant par exemple α = 5 %, il faut donc comparer cette valeur au quantile d’ordre 95 % d’une loi du χ2 à (2 − 1)(2 − 1) = 1 degré de liberté, soit χ20,95 (1) = 3,841. Comme 3,463 ≤ 3,841, on ne rejette donc pas au niveau α = 5 % l’hypothèse H0 d’absence de relation entre eczéma et stress au travail : ces deux phénomènes semblent être indépendants.
6.7.3. Test du χ2 d’homogénéité On dispose cette fois-ci de K échantillons indépendants entre eux, choisis dans K populations, chaque population étant subdivisée en L modalités. On étudie par exemple les effets d’un nouveau médicament contre la migraine à l’aide des trois modalités « pas d’effet », « effet immédiat » et « effet à moyen terme » (L = 3), sur un échantillon de sujets traités par le médicament en question et un échantillon de sujets assignés à un placebo (K = 2). L’hypothèse H0 que l’on souhaite tester stipule que les K populations sont homogènes, c’est-à-dire que toutes les observations, d’où qu’elles proviennent, suivent la même loi de probabilité (dans notre exemple médical, H0 signifie donc qu’il n’y a pas de différence entre l’action du médicament et celle du placebo, eu égard aux critères étudiés). 233
Chapitre 6. Tests d’hypothèses
On range alors les effectifs de chaque échantillon dans les L classes, ce qui conduit à un tableau d’apparence similaire à celui du paragraphe précédent : Modalité Population 1 .. .
...
1
i .. . K Totaux
j
...
L
Totaux
nij
ni.
n.j
n
Le tableau ci-dessus se distingue du tableau de contingence du test d’indépendance. Il présente en effet une classification en lignes selon la population au lieu de la classe d’un critère, et les quantités n1. , n2. , . . . , nK. sont des tailles d’échantillons fixées à l’avance (dans l’exemple médical, il s’agit, respectivement, du nombre de sujets à qui l’on administre le médicament et du nombre de sujets que l’on traite à l’aide du placebo). Le total n ne représente alors pas la taille d’un échantillon unique, mais la somme des tailles de K échantillons distincts et indépendants. Pour la population i, l’effectif de l’échantillon est donc ni. = L j=1 nij . D’autre part, la probabilité pj pour qu’une observation tombe dans la classe j peut être estimée, sous l’hypothèse H0 , par n.j 1 = nij . n n K
pˆj =
i=1
Remarquons que cette estimation de pj utilise les K échantillons, et non pas un seul. On s’appuie ici sur le fait que si tous les échantillons suivent la même loi, on a tout intérêt à estimer les pj à partir de l’ensemble des observations, pour avoir un effectif d’estimation le plus grand possible. On en déduit finalement que l’effectif théorique de la j-ème classe dans la i-ème population est donc environ n ×n ni. pˆj = i. n .j , ce qui nous ramène, en comparant effectifs théoriques et effectifs observés, à la statistique du paragraphe précédent : χ2emp
=
K L i=1 j=1
234
ni. × n.j nij − n ni. × n.j n
2 ·
6.7. Tests du χ2
(Test du χ2 d’homogénéité) Si K désigne le nombre de populations et L le nombre de modalités, on effectue un test du χ2 d’homogénéité en rejetant H0 si χ2emp > χ21−α ((K − 1)(L − 1)), où χ21−α ((K − 1)(L − 1)) est le quantile d’ordre 1 − α d’une loi du χ2 à (K − 1)(L − 1) degrés de liberté. En procédant ainsi, on obtient un test (asymptotique) de niveau α.
Exemple 12. Du grec mi-, en deux, et de la racine tom-, qui indique une coupure, la mitose désigne d’une manière générale le phénomène de division cellulaire. À la suite de deux traitements A et B, le taux mitotique du foie de patients atteints d’une hépatite a été constaté à 2,8 mitoses pour 1000 pour A et à 5,4 mitoses pour 1000 pour B. Dans les deux cas, 9000 cellules ont été examinées. On se demande alors si les deux traitements A et B contre l’hépatite diffèrent par le taux mitotique auquel ils sont associés. Afin de résoudre ce problème, on peut effectuer un test du χ2 d’homogénéité. Précisons tout d’abord le nombre de cellules qui, dans chaque cas, sont en état de mitose ou au repos : Cellules en mitose
Cellules au repos
Effectif total
25,2 48,6 73,8
8974,8 8951,4 17 926,2
9000 9000 18 000
Traitement A Traitement B Totaux
Le tableau des effectifs théoriques sous H0 est alors le suivant : Cellules en mitose Traitement A Traitement B Totaux
73,8×9000 18 000
= 36,9 73,8 − 36,9 = 36,9 73,8
Cellules au repos
Effectif total
9000 − 36,9 = 8963,1 9000 − 36,9 = 8963,1 17 926,2
9000 9000 18 000
Calculons la statistique du χ2 empirique : (8974,8 − 8963,1)2 (25,2 − 36,9)2 + 36,9 8963,1 (48,6 − 36,9)2 (8951,4 − 8963,1)2 + + 36,9 8963,1 = 7,45.
χ2emp =
235
Chapitre 6. Tests d’hypothèses
Au niveau α = 1 %, la statistique de test doit être comparée avec le quantile d’ordre 0,99 d’une loi du χ2 à (2 − 1)(2 − 1) = 1 degré de liberté, qui vaut 6,635. Comme 7,45 > 6,635, on rejette donc l’hypothèse H0 d’homogénéité des traitements A et B. Cette décision s’interprète en disant que, au niveau choisi, les deux traitements ont des effets significativement différents. Notons cependant que si les mêmes taux de mitose avaient été établis sur 1000 cellules seulement, la valeur de la statistique de test passerait à 0, 83, ce qui amènerait alors à conserver l’hypothèse H0 . Prudence dans l’interprétation des résultats, donc...
6.8. Exercices On rappelle que, dans tout l’ouvrage, les quantiles ont été évalués à l’aide du logiciel gratuit R, qui peut être téléchargé à l’adresse http://cran.r-project.org/.
Exercice 1 (Prévisions météo) Un téléspectateur assidu de la météo du soir a noté que la prévision « Demain, il y a 40 % de chances qu’il pleuve » a été faite 25 fois au cours de l’année, alors qu’il n’a plu que 13 fois. Tester, au niveau α = 5 %, l’exactitude de la prévision. Exercice 2 (Efficacité d’un vaccin) L’étude statistique d’une maladie orpheline, réalisée à grande échelle, a permis de montrer que cette pathologie atteint mortellement, chaque année, environ 400 individus sur un million. 1. Quelle est la loi de probabilité de la variable aléatoire X, qui compte le nombre de décès annuels dus à la maladie dans une population de n personnes ? 2. Une équipe de recherche internationale a réussi à expérimenter un vaccin contre la maladie sur un échantillon de n = 100 000 volontaires. Le nombre de décès constaté dans cette population l’année suivante est de 20. Donner un intervalle de confiance de niveau 95 % pour le nouveau taux de mortalité. 3. Avec quel risque peut-on conclure à l’efficacité du vaccin ?
Exercice 3 (Contrôle de qualité) Un producteur de lait a acheté une machine capable de remplir mécaniquement des bouteilles de 1 litre destinées au commerce. Afin de s’assurer qu’il ne trompe pas le consommateur, ce producteur honnête décide de mesurer très précisément le contenu de 10 bouteilles choisies au hasard dans la chaîne de production. Voici ses résultats (exprimés en cL) : 98,0
99,8
100,0
98,3
102,3
97,8
102,1
96,7
103,1
101,0
La notice d’exploitation précise par ailleurs que l’écart-type de la machine est égal à 1 cL et que la distribution du contenu des bouteilles peut être considérée comme gaussienne. 236
Exercices
1. Le producteur doit-il ajuster sa machine, sachant qu’il se donne 5 % de risque de faire un réglage qui n’est pas requis ? 2. En supposant que la machine soit effectivement déréglée, avec une moyenne de remplissage égale à 99,5 cL, calculer l’erreur de seconde espèce du test mis en place par le producteur. 3. En répétant le raisonnement de la question précédente, tracer l’allure de la courbe de puissance du test. 4. Le producteur veut pouvoir détecter avec une probabilité de 0, 99 une contenance moyenne de 99,5 cL, tout en gardant un test de niveau 5 %. Que doit-il faire ?
Exercice 4 (Poids de volatiles) Un groupe d’ornithologues chinois étudie les canards du fleuve Jaune. Chaque saison, ils capturent des canards, mesurent un certain nombre de paramètres, et les mangent. Le tableau suivant indique les poids en kilogrammes des canards qui ont été capturés durant deux années consécutives 1 et 2. Année 1 2,22 2,36 2,07 2,16 2,33 2,18 2,45 2,32 2,07 2,20 Année 2 2,63 2,25 2,39 2,06 2,14 2,56 2,37 2,20 2,43 2,35 Un groupe d’ornithologues italiens étudie quant à lui les oies sauvages du Pô. Chaque saison, ces scientifiques capturent des oies, mesurent un certain nombre de paramètres, et les relâchent après les avoir baguées. D’une saison sur l’autre, il leur arrive de recapturer des volatiles qu’ils avaient pu observer l’année précédente. Le tableau qui suit indique les poids en kilogrammes des oies qui ont pu être observées deux années consécutives 1 et 2. Année 1 4,22 4,36 4,07 4,16 4,33 4,18 4,45 4,32 4,07 4,20 Année 2 4,63 4,25 4,39 4,06 4,14 4,56 4,37 4,20 4,43 4,35 Les équipes chinoise et italienne se demandent l’une comme l’autre s’il y a une variation régulière significative du poids des volatiles d’une année sur l’autre. 1. Expliquer brièvement pourquoi les deux équipes ont des sujets d’étude profondément différents. 2. Indiquer et mettre en place une méthode paramétrique de test que pourrait utiliser l’équipe chinoise. 3. De même, indiquer et mettre en place une méthode paramétrique de test que pourrait utiliser l’équipe italienne. 237
Chapitre 6. Tests d’hypothèses
Exercice 5 (Sport et tabac) Un médecin, qui s’intéresse au comportement des étudiants vis-à-vis du tabac, souhaite mettre en défaut l’hypothèse, admise par tous, selon laquelle les étudiants fumeurs ont de moins bons résultats sportifs que leurs homologues non fumeurs. Pour cela, il relève le total des notes de 20 étudiants fumeurs obtenues à l’issue d’une série d’épreuves sportives, tout en sachant par ailleurs que la moyenne générale des étudiants pour cet ensemble d’épreuves est égale à 500. Voici les scores des 20 étudiants fumeurs : 598 668
627 753
673 583
559 619
631 596
650 527
562 460
373 585
512 582
564 352
La moyenne obtenue par ce groupe d’étudiants fumeurs est de 573,7... Que doit conclure le médecin ? Exercice 6 (Étude de coquillages) Un biologiste marin, qui s’intéresse à une espèce de coquillages présents dans le sable des côtes de la Manche et de la mer du Nord, a prélevé une même quantité de sable en différents endroits d’un site A et compté le nombre de coquillages dans chaque prélèvement. La répartition des prélèvements selon le nombre de coquillages observés est donnée dans le tableau suivant : Coquillages 0 1 2 3 4 5 6 7 Prélèvements 13 27 28 19 8 3 1 1 1. Calculer la moyenne et la variance empiriques, x ¯ et s2 , du nombre de coquillages par prélèvement. 2. (a) Tester, au niveau α = 5 %, l’hypothèse selon laquelle le nombre de coquillages par prélèvement suit une loi de Poisson. (b) Tester, au niveau α = 5 %, l’hypothèse selon laquelle le nombre de coquillages par prélèvement suit une loi binomiale B(20 ; 0, 1). (c) Discuter les résultats obtenus en (a) et (b). 3. Soit p la probabilité pour qu’un prélèvement effectué dans le site A contienne strictement plus d’un coquillage. (a) Quelle est la valeur de p si l’on suppose que le nombre de coquillages par prélèvement suit une loi de Poisson P(2) de paramètre λ = 2 ? (b) Quelle est la proportion empirique pˆ des prélèvements contenant (strictement) plus d’un coquillage ? (c) Donner un intervalle de confiance de niveau 98 % pour p. (d) Tester, au niveau α = 5 %, l’hypothèse selon laquelle p = 0, 5 contre l’hypothèse p > 0, 5. 238
Exercices
Exercice 7 (Diamètres de tortues) Le tableau ci-dessous contient des données regroupées en 7 classes relatives au diamètre (mesuré en millimètres) de petites tortues de rivière. Tester, au niveau α = 1 %, l’hypothèse H0 : « le logarithme en base 2 du diamètre suit une loi normale » (on a indiqué dans le tableau les logarithmes en base 2 des diamètres, à savoir log2 (diamètre) = ln(diamètre)/ ln(2)). Diamètre (en mm) log2 (diamètre) Effectif observé
≤8 ≤3 2
Diamètre (en mm) log2 (diamètre) Effectif observé
]128 ; 256] ]7 ; 8] 12
]8 ; 16] ]3 ; 4] 4
]16 ; 32] ]4 ; 5] 7
> 256 >8 4
]32 ; 64] ]5 ; 6] 16
]64 ; 128] ]6 ; 7] 15
Total Total 60
Exercice 8 (Filles et garçons) Le tableau de contingence ci-après donne la répartition des familles de deux enfants selon le sexe du premier et du second, dans une ville de taille moyenne : Sexe du premier enfant Masculin Féminin Totaux
Sexe du second enfant Masculin Féminin 17 341 16 518 16 797 16 332 34 138 32 850
Totaux 33 859 33 129 66 988
1. Tester, au niveau α = 5 %, l’hypothèse d’indépendance entre le sexe du premier et du second enfant. 2. Tester, au niveau α = 5 %, l’hypothèse selon laquelle une famille a autant de chances d’avoir une fille en premier ou en second enfant.
Exercice 9 (Taille d’un meneur de groupe) Un spécialiste du comportement désire savoir si la taille d’un individu et ses qualités de meneur dans un groupe sont indépendantes. Pour ce faire, il considère un ensemble de 100 individus qu’il classe, d’une part en petit ou grand, d’autre part en meneur, non meneur ou indifférent. Les résultats obtenus sont les suivants : Caractère Meneur Non meneur Indifférent Totaux
Gabarit Petite taille Grande taille 14 32 22 16 10 6 46 54
Totaux 46 38 16 100 239
Chapitre 6. Tests d’hypothèses
Tester, au niveau α = 2 %, l’hypothèse d’indépendance entre la taille et la qualité de meneur.
Exercice 10 (Maladies de l’estomac et groupe sanguin) Au cours d’une étude préliminaire sur la relation entre certaines maladies de l’estomac et le type sanguin, on a noté la répartition des groupes sanguins chez trois types d’individus : un groupe atteint d’ulcère peptique, un groupe atteint d’un cancer gastrique et un groupe témoin ne présentant pas ces maladies. Voici les résultats :
Groupes O A B Totaux
Maladies Ulcère peptique Cancer gastrique 983 383 679 416 134 84 1796 883
Témoins 2892 2625 570 6087
Totaux 4258 3720 788 8766
Le groupe sanguin AB, très peu fréquent dans la population considérée, a été omis pour simplifier l’étude. Tester, au niveau α = 5 %, l’hypothèse selon laquelle la nature de la maladie ne dépend pas du groupe sanguin. Exercice 11 (Tests sur la variance) Soit X une variable aléatoire de loi normale N (μ, σ 2 ) et X1 , . . . , Xn un échantillon issu de X. 1. Soit σ0 > 0 un nombre réel fixé. En ayant relu au préalable le paragraphe 5.3.4 du chapitre 5, proposer un test de niveau α de l’hypothèse « H0 : σ 2 ≤ σ02 » vs. « H1 : σ 2 > σ02 », d’abord lorsque μ est connu puis ensuite lorsque μ est inconnu. 2. Application numérique. Les paquets d’une grande marque de cacahuètes d’apéritif sont vendus pour une contenance moyenne de 150 grammes. La loi impose au fabriquant que la variabilité du poids des paquets ne dépasse pas 5 grammes. Une association de consommateurs, qui a pesé n x = 15,03 kg et un échantillon de n = 100 paquets, a trouvé i=1 i n 2 2 i=1 xi = 2,26 kg . En admettant que le poids des paquets de cacahuètes suit une loi normale, que doit conclure l’association de consommateurs ? On considère maintenant deux variables aléatoires de loi normale X ∼ N (μ1 , σ12 ) et Y ∼ N (μ2 , σ22 ), ainsi que deux échantillons indépendants entre eux X1 , . . . , Xn1 et Y1 , . . . , Yn2 issus de X et Y , respectivement. 3. En ayant relu au préalable l’exercice 6 du chapitre 5, proposer un test de niveau α de l’hypothèse « H0 : σ12 = σ22 » vs. « H1 : σ12 = σ22 ». 240
Exercices
4. Application numérique. Le tableau ci-dessous donne les mesures du taux de diffusion du dioxyde de carbone à travers deux sols de porosités différentes. Premier sol 20 31 18 23 24 28 26 29 27 30 12 17 14 Second sol 19 30 32 28 15 26 35 18 25 27 36 34 23 On suppose que, pour chaque sol, les observations sont indépendantes et issues d’une loi normale N (μ1 , σ12 ) pour le premier sol et N (μ2 , σ22 ) pour le second. On suppose en outre que ces deux groupes de données sont indépendants entre eux. (a) Tester, au niveau α = 5 %, l’égalité des variances des deux lois. (b) Si les variances peuvent effectivement être considérées comme égales, tester, au même niveau, l’égalité des moyennes.
Exercice 12 (Degrés de liberté) Pourquoi, dans un test du χ2 d’indépendance portant sur deux critères à K et L classes, le nombre de degrés de liberté de la loi suivie (approximativement) par χ2emp est-il égal à (K − 1)(L − 1) ? (On pourra remarquer qu’un test d’indépendance peut s’interpréter comme un test d’ajustement...)
241
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
7 RÉGRESSION
7.1. Problème : taux de croissance d’une population La grande majorité des séries d’observations que nous avons rencontrées jusqu’ici peuvent être qualifiées de simples, dans la mesure où elles ne font référence qu’à un caractère unique et bien identifié d’une population statistique (la taille, le poids, l’âge, etc.). Bon nombre de situations concrètes amènent cependant à s’interroger sur la relation qui peut exister entre deux, voire plusieurs caractères d’une population donnée. On peut par exemple imaginer que le taux de cholestérol dans le sang s’accroisse avec la consommation de pizzas, mais qu’il diminue avec la pratique d’une activité sportive régulière, ou encore que la durée d’invalidité due à une maladie grave augmente avec l’intensité du traitement. Dans ces exemples, on note la présence d’une variable explicative (la consommation de pizzas, le temps consacré au sport, l’intensité du traitement) et celle d’une variable expliquée (le taux de cholestérol, la durée d’invalidité). La variable explicative peut être considérée comme une cause potentielle de la variation de la variable expliquée, et la relation entre les deux est alors interprétée comme une relation de cause à effet, du moins d’un point de vue statistique. La démarche qui consiste à rechercher un lien éventuel entre les variables est importante, puisque l’on peut alors espérer connaître les valeurs prises par l’une à partir des seules réalisations de l’autre et faire ainsi des prévisions avec le plus de justesse possible. Pour illustrer notre propos, attardons-nous un instant sur le cas d’un spécialiste d’écologie qui souhaite prédire l’évolution de populations de bactéries sur un substrat dans son laboratoire. Le chapitre 8 donne des outils mathématiques performants permettant de prévoir assez fidèlement l’évolution de telles populations, à condition de disposer d’une formule pour leur taux de croissance (c’est-à-dire
Chapitre 7. Régression
le nombre de nouvelles bactéries par heure et par quantité initiale). Tout le problème de notre biologiste consiste alors à déterminer le taux de croissance de ses populations de bactéries. De nombreux modèles de population partent du principe que ce taux de croissance K est une fonction qui dépend de la taille de la population actuelle M , sans qu’il n’existe pour autant de « formule universelle » donnant une expression exacte de K en fonction de M . Il existe en fait plusieurs modèles différents (modèle de Malthus, modèle logistique, modèle de Gompertz...), qui conduisent tous à des expressions différentes de la fonction K(M ), et qui admettent chacun leur domaine de validité. Dès lors, et en l’absence de toute autre indication particulière, le biologiste, qui souhaite déterminer la relation entre taille de la population d’une part et taux de croissance d’autre part, n’a guère le choix : il doit effectuer (sur plusieurs populations de la même bactérie évoluant sur le même substrat) des mesures répétées du couple (M, K) et espérer que ces observations lui permettront de deviner un lien éventuel entre M et K. Voici ses résultats (M est donné en milligrammes et K en milligrammes par heure) :
M K
1 0,2423
M K
40 –0,0071
45 –0,0034
50 –0,0203
55 –0,0207
60 –0,0388
65 –0,0365
M K
75 –0,0542
80 –0,0486
85 –0,0567
90 –0,0593
95 –0,0660
100 –0,0869
5 0,1416
10 0,1026
15 0,0689
20 0,0483
25 0,0327
30 0,0224
35 0,0046 70 –0,0329
Comment, à partir de ces données brutes, comprendre s’il existe un lien entre M et K ? Et, dans l’affirmative, comment identifier ce lien, mesurer son importance et, au final, suggérer une formule pour la fonction K(M ) ? L’ensemble de ces questions et les problématiques qui leur sont connexes relèvent d’un domaine très vaste de la statistique, que l’on désigne sous le terme général d’analyse de la régression. Présente dans presque tous les domaines de la science, la régression peut être définie comme la recherche de la relation qui lie deux (ou plusieurs) variables statistiques. En guise d’introduction, nous étudierons dans ce chapitre la régression linéaire simple, qui porte sur deux variables (une expliquée et une explicative) et qui cherche à mettre en évidence une relation de nature linéaire entre ces dernières(1) . (1)
244
Le terme « simple » fait référence au fait qu’il n’y a qu’une seule variable explicative.
7.2. Régression linéaire simple
7.2. Régression linéaire simple 7.2.1. Le modèle linéaire À partir de maintenant, nous considérons un couple de variables (X, Y ) et nous ferons dans tout ce chapitre l’hypothèse que le phénomène représenté par X, la variable explicative, pilote celui représenté par Y , la variable expliquée, le lien éventuel nous étant suggéré par la logique du problème ou par des constatations expérimentales (X s’appelle aussi la variable prédictrice, exogène ou encore le prédicteur, et Y la variable prédite, endogène ou encore la réponse). Insistons bien sur le fait que, dans un tel contexte, X et Y ne sont pas indépendantes, puisque les valeurs prises par X influencent fondamentalement celles prises par Y . Afin de simplifier un peu, nous n’envisagerons dans ce cours que la situation un peu moins générale où seule la variable Y est aléatoire, les valeurs de la variable X étant au contraire entièrement contrôlées par l’expérimentateur ou imposées par la nature des choses. Ce modèle regroupe déjà bon nombre de situations concrètes. Il peut être étendu sans grandes difficultés au cas où X est également aléatoire, et nous invitons le lecteur à consulter l’exercice 2 et l’exercice 3 de ce chapitre pour des exemples.
Exemple 1. Supposons que X représente une heure de la journée et Y la vitesse des voitures sur une portion d’autoroute. Si les vitesses des voitures qui passent sur cette portion sont enregistrées à diverses heures de la journée, il s’agit bien d’une situation où X est contrôlée (on sait à quelle heure on mesure les vitesses) tandis que Y est aléatoire (plusieurs véhicules passant à la même heure sur l’autoroute n’ont pas obligatoirement la même vitesse). Par ailleurs, à la lumière du graphique 7.1, qui résume les relevés de vitesses de véhicules sur plusieurs jours d’observation, on pressent clairement l’existence d’une relation entre X et Y (les véhicules semblent aller plus vite en début, milieu et fin de journée). La relation la plus simple (mais néanmoins très importante en pratique) que l’on puisse imaginer entre X et Y est une relation linéaire : si x est la valeur de X, alors la valeur prise par Y doit être, idéalement, de la forme Y = ax + b, où a et b sont des coefficients réels appelés paramètres de régression, indépendants de x et que nous ne connaissons pas a priori. Dans notre contexte aléatoire, il est néanmoins inconcevable que les valeurs de Y soient distribuées de manière 245
Chapitre 7. Régression Vitesses 140 120 100 80 60 40 8
10 12 14 16 18 20 22
Heures
Figure 7.1. Vitesses de véhicules sur une portion d’autoroute, mesurées à différentes heures de la journée.
aussi régulière, et il est donc indispensable de prendre en compte les fluctuations stochastiques de la réponse. Nous sommes donc conduits à la définition suivante : Le modèle linéaire simple suppose que, pour toute valeur fixée x de X, la variable aléatoire Y est de la forme Y = ax + b + ε, où a et b sont des constantes ne dépendant pas de x, et où ε est une variable aléatoire centrée, de variance σ 2 ne dépendant pas de x, que l’on nomme bruit ou terme d’erreur. Dans la mesure où ni x, ni a, ni b ne sont aléatoires, c’est le bruit ε (dont la valeur peut varier d’une expérience à l’autre) qui transmet à la réponse Y son caractère aléatoire. Comme E(ε) = 0 par hypothèse, on constate que E(Y ) = E(ax + b + ε) = ax + b + E(ε) = ax + b et
V(Y ) = V(ε) = σ 2 .
En d’autres termes, dans les conditions spécifiées par la valeur x de X, Y fluctue aléatoirement avec une variance σ 2 autour d’une valeur moyenne égale à ax + b, que l’on appelle partie expliquée du modèle. Notons qu’un tel modèle suppose l’homoscédasticité des erreurs, ce qui signifie simplement que la variance σ 2 est constante, et en particulier indépendante du choix de x. 246
7.2. Régression linéaire simple
Bien entendu, le choix d’un modèle de la forme « variable expliquée = fonction linéaire de la variable explicative + bruit » relève presque toujours d’une gageure, au moins dans les premiers temps de l’étude. Le premier acte d’une analyse sérieuse de la régression consiste donc toujours à réaliser plusieurs expériences indépendantes en donnant à X différentes valeurs, et à reporter les n couples de points (x1 , y1 ), . . . , (xn , yn ) dans un repère orthogonal. Le graphe obtenu, que l’on a coutume d’appeler nuage de points, nous permet alors de décider visuellement s’il peut exister une relation de nature linéaire entre les deux variables (deux exemples sont donnés dans la figure 7.2). 10
10
8
8
6
6
4
4
2
2
0
0
-2
-2
-4
-4 -2 -1.5
-1
-0.5
0
0.5
1
1.5
2
-2 -1.5
-1
-0.5
0
0.5
1
1.5
2
Figure 7.2. Deux exemples de nuages de points. Celui de gauche semble pouvoir se prêter à une modélisation linéaire, mais pas celui de droite.
Si les points représentatifs de la série forment effectivement un nuage relativement allongé et de la forme d’un cigare (comme dans le premier exemple de la figure 7.2), il n’est alors pas dépourvu de sens de chercher à déterminer les coefficients a et b de la droite qui exprime le lien entre X et Y .
7.2.2. Ajustement Si nous sommes convaincus qu’une relation linéaire entre X et Y n’est pas infondée, nous pouvons alors passer à l’étape dite de l’ajustement, qui consiste à déterminer les valeurs des coefficients a (la pente) et b (l’ordonnée à l’origine), et rendre par là-même le modèle opérationnel en pratique. Dans la mesure où la réponse Y est aléatoire, et donc par essence fluctuante, il est vain d’espérer obtenir des coefficients a et b « exacts » et universellement valables. Ces deux paramètres 247
Chapitre 7. Régression
doivent être estimés (on dit aussi ajustés) sur la base d’un n-échantillon de couples appariés (x1 , Y1 ), . . . , (xn , Yn ), où les xi représentent n choix possibles de valeurs de X, et où les Yi sont autant de variables aléatoires représentant la réponse dans les conditions spécifiées par X = xi . Notre hypothèse consiste donc à dire que, pour chaque i = 1, . . . , n, Yi est de la forme Yi = axi + b + εi , où a et b sont les paramètres de régression à déterminer (ce sont les mêmes pour tous les i) et les εi sont des copies indépendantes de la variable aléatoire « bruit mère » ε. D’un point de vue statistique maintenant, les n observations (x1 , y1 ), . . . , (xn , yn ) que l’on recueille doivent être envisagées comme des réalisations de l’échantillon (x1 , Y1 ), . . . , (xn , Yn ), conformément au principe de dualité empirique/théorique qui a prévalu dans les chapitres antérieurs. Nous pouvons donc en particulier écrire, pour tout i, yi = axi + b + ei , où les ei sont les réalisations du terme d’erreur ε. Théoriquement, diverses sortes d’ajustements linéaires sont possibles. Le plus simple est l’ajustement graphique, réalisé par l’expérimentateur. Son inconvénient majeur est qu’il est subjectif : chaque dessinateur trouvera une droite qui, selon ses propres critères esthétiques, représente au mieux l’ensemble des points... et qui n’est pas celle que pourra trouver un autre dessinateur. Une multitude de droites peut ainsi être trouvée, sans que l’on ne dispose pour autant d’un critère objectif permettant d’en choisir une. La méthode dite des moindres carrés présente un caractère plus rigoureux. Elle repose sur l’idée que si le bruit ε est « petit », Yi − axi − b doit être proche de 0. En d’autres termes, la quantité f (a, b) = (Y1 − ax1 − b)2 + . . . + (Yn − axn − b)2 doit être « la plus petite possible » pour les coefficients a et b qui déterminent la vraie relation linéaire entre X et Y . ˆ B) ˆ pour La méthode des moindres carrés consiste à chercher un couple (A, ˆ que lequel la fonction f atteint sa plus petite valeur. Les deux quantités Aˆ et B l’on détermine ainsi sont appelées estimateurs des moindres carrés de a et de b. Ces estimateurs, puisqu’ils dépendent des Yi (tout comme la fonction f ), sont nécessairement aléatoires. Observons également que chercher les estimateurs des moindres carrés revient à minimiser la somme des carrés des distances verticales des points (xi , yi ) à une droite d’équation y = ax + b (cf. la figure 7.3). 248
7.2. Régression linéaire simple y
(¯ x, y¯)
(xi , yi )
(x1 , y1 )
droite y = a ˆx + ˆb x Figure 7.3. Illustration du principe des moindres carrés.
ˆ B) ˆ s’exprime en utilisant les outils du chapitre 2. Nous savons Le couple (A, en effet que les deux dérivées partielles de f par rapport à a et b doivent s’annuler ˆ B) ˆ (s’il existe), ce qui donne en son minimum (A, ∂f ˆ ˆ ˆ i − B)x ˆ i=0 (A, B) = −2 (Yi − Ax ∂a n
i=1
et
∂f ˆ ˆ ˆ i − B) ˆ = 0. (A, B) = −2 (Yi − Ax ∂b n
i=1
Ces deux équations sont appelées équationsnormales. On peut les résoudre en introduisant les moyennes empiriques x ¯ = n1 ni=1 xi et Y¯ = n1 ni=1 Yi (noter que seule la seconde est de nature aléatoire), et en observant qu’elles se réécrivent sous la forme plus sympathique n n 2 ˆx xi Yi − Aˆ xi − nB ¯=0 i=1
i=1
249
Chapitre 7. Régression
et ˆx − B ˆ = 0. Y¯ − A¯ On en déduit alors le résultat important suivant : ˆ de a et b obtenus à partir d’un Les estimateurs des moindres carrés Aˆ et B échantillon (x1 , Y1 ), . . . , (xn , Yn ) sont donnés par n xi Yi − n¯ xY¯ ˆ = Y¯ − A¯ ˆx. ˆ et B A = i=1 n 2 − n(¯ 2 x x ) i=1 i Plusieurs remarques s’imposent. Notons tout d’abord qu’il faudrait, en toute ˆ B) ˆ qui annule les deux dérivées partielles rigueur, s’assurer que le couple (A, de la fonction f représente bien un minimum (voir le chapitre 2 à ce sujet) – cette propriété peut être rigoureusement justifiée mais, afin de ne pas compliquer ˆ l’analyse, nous admettrons ici que c’est bien le cas. Observons ensuite que Aˆ et B dépendent des Yi . Ce sont donc des quantités aléatoires, ce qui justifie l’utilisation de lettres majuscules à leur égard. Il s’agit bien d’estimateurs statistiques au sens classique du terme (chapitre 5), que l’on veillera à ne pas confondre avec leurs réalisations, seules accessibles en pratique, n xi yi − n¯ xy¯ a ˆ = i=1 n 2 x)2 i=1 xi − n(¯ et ˆb = y¯ − a ˆx ¯. La droite d’équation y = a ˆx+ ˆb est appelée droite des moindres carrés, droite ˆ d’ajustement linéaire ou droite de régression. C’est une droite de pente a qui passe par le point moyen (¯ x, y¯) indiqué par un rond sur la figure 7.3. Pour ˆ i −B ˆ correspond à l’écart entre la chaque valeur xi de X, la différence εˆi = Yi − Ax valeur observée et celle donnée par le modèle estimé : elle s’interprète comme une ˆ B) ˆ est donc erreur de prévision, que l’on appelle aussi résidu. Le couple (A, la solution qui minimise la somme des carrés des résidus. Attention en revanche à ne pas confondre l’erreur de prévision εˆi avec le bruit εi : ce dernier représente la fluctuation de la variable Yi autour de son espérance axi + b, alors que la ˆ i+B ˆ première est la différence entre Yi et sa valeur moyenne estimée Yˆi = Ax (nous reviendrons sur ce point plus loin).
Exemple 2. Une équipe de chimistes a mis au point un nouvel alliage de fer et de carbone capable de résister à des conditions extrêmes et souhaite modéliser sa résistance en fonction de la teneur en carbone. Le tableau suivant résume les résultats obtenus par les chimistes à partir de 10 essais en laboratoire concernant 250
7.2. Régression linéaire simple
la « charge de rupture » du nouvel alliage (les yi , exprimés en tonnes) en fonction de sa teneur en carbone (les xi , exprimés en nombre d’unités pour 100) : xi yi
0,3 0,80
0,7 1,77
1 2,13
1,1 2,42
1,2 2,87
2,5 5,34
2,7 5,50
3 6,41
5 10,31
5,2 10,47
Les données sont représentées sur la figure 7.4. y 12 10 8 6 4 2 0
0
1
2
3
4
5
6 x
Figure 7.4. Nuage de points relatif à la teneur en carbone (x) et à la charge de rupture (y) du nouvel alliage et droite d’ajustement linéaire.
La forme clairement allongée du nuage des (xi , yi ) suggère l’idée d’une relation linéaire entre la teneur en carbone et la charge de rupture, et nous pouvons donc appliquer ce paragraphe. Un calcul facile donne x ¯ = 2,27, y¯ = les résultats de 4,802, ni=1 x2i = 78,81 et ni=1 xi yi = 163,139. Ainsi, n xi yi − n¯ xy¯ 163,139 − 10 × 2,27 × 4,802 = = 1,98 a ˆ = i=1 n 2 2 78,81 − 10 × 2,272 x) i=1 xi − n(¯ et ˆb = y¯ − a ˆx ¯ = 4,802 − 1,98 × 2,27 = 0,31. La droite de régression reliant la teneur en carbone à la charge de rupture a donc pour équation y = 1,98x + 0,31. Elle est représentée dans la figure 7.4, où l’on 251
Chapitre 7. Régression
vérifie bien que la droite passe par le point (¯ x, y¯) puisque a ˆx ¯ + ˆb = 1,98 × 2,27 + 0,31 = y¯, aux erreurs d’arrondis près. Le résultat qui suit, dont la preuve fait l’objet de l’exercice 6, montre que Aˆ ˆ sont de « bons » estimateurs des paramètres de régression a et b, au sens des et B critères présentés au début du chapitre 5 : ˆ sont des estimateurs sans biais de a et b, c’est-à-dire E(A) ˆ = a et Aˆ et B ˆ E(B) = b. En outre, la variable aléatoire 2 Sn−2 =
n 2 1 ˆ i + B) ˆ Yi − (Ax n−2 i=1
2 )= est un estimateur sans biais de la variance du bruit σ 2 , c’est-à-dire E(Sn−2 2 σ .
ˆ i+B ˆ On déduit facilement de cet encadré que la valeur estimée Yˆi = Ax est un estimateur sans biais de axi + b, qui n’est autre que l’espérance de la variable Yi (pourquoi ?). La variable aléatoire Yˆi représente donc une prévision de la valeur moyenne de Y pour X = xi fixé. Cette remarque s’avère particulièrement pertinente dans une optique pratique, car la régression est essentiellement utilisée pour prédire Y à partir de la connaissance de x. Nous aurons l’occasion de revenir sur ce point important dans le paragraphe 7.4.3.
7.2.3. Généralisations Le modèle de régression linéaire Y = ax+b+ε se révèle souvent trop simpliste pour représenter correctement la complexité des phénomènes physiques. Il est alors bon d’avoir à l’esprit certaines extensions possibles, que le lecteur intéressé pourra approfondir dans des ouvrages plus spécialisés (voir par exemple [1, 2]). Il peut tout d’abord arriver que les points représentant les observations ne soient clairement pas alignés, mais en revanche « voisins » d’une courbe connue. Si c’est le cas, on peut alors se servir de la méthode des moindres carrés, mais en transformant au préalable l’une ou l’autre des variables X et Y , voire les deux. Ainsi, un ajustement linéaire entre Y et xn donne une équation de la forme Y = axn +b+ε ; un ajustement linéaire entre Y et ln(x) donne Y = a ln(x)+b+ε ; un ajustement linéaire entre ln(Y ) et x donne ln(Y ) = ax + b + ε et donc Y = eax+b+ε ... La figure 7.5 présente deux exemples de transformations de variables permettant de se ramener au cas linéaire. 252
7.2. Régression linéaire simple 5.5
5.5
5
5
4.5
x → x2
4.5
4
4
3.5
3.5
3
3
2.5 -1.5
-1
-0.5
0
0.5
1
2.5
1.5
140
5
120
4 3
0.2
0.4
0.6
0.8
1.2
1
1.4
x → ln(x) 2 et 1 y → ln(y)
100 80
0
60
-1 -2 -3
40 20 0
0
0
1
2
3
4
5
6
-4 -5 -2
-1.5 -1 -0.5
0
0.5
1
1.5
2
Figure 7.5. Deux exemples de transformations de variables permettant de se ramener à une situation linéaire. En haut, x → x2 et en bas, x → ln(x) et y → ln(y).
On peut aussi chercher à expliquer Y par un lien plus complexe qu’une simple relation linéaire entre X et Y , par exemple à l’aide d’un polynôme de degré 2, Y = ax2 + bx + c + ε. Dans ce dernier cas, les coefficients sont estimés à partir de l’échantillon (x1 , Y1 ), . . . , (xn , Yn ) en évaluant le minimum de la fonction n (Yi − ax2i − bxi − c)2 . f (a, b, c) = i=1
Cette idée se généralise à des fonctions f encore plus complexes, ouvrant ainsi la voie à ce que l’on appelle la régression non linéaire. Enfin, il est également possible de réaliser des ajustements linéaires (ou non) à plusieurs variables, toujours sur le principe de la méthode des moindres carrés. On peut par exemple s’intéresser à une relation de la forme Y = ax+ bz + c+ ε, où z désigne la valeur d’une variable explicative d’intérêt (contrôlée) Z qui, combinée avec X, peut potentiellement influencer Y . On cherchera ainsi à prédire le rythme 253
Chapitre 7. Régression
cardiaque d’un randonneur en fonction de la distance parcourue et de l’altitude de la piste. Le critère des moindres carrés fournit, dans ce contexte, un plan de régression de y en x et z. La généralisation à des dimensions supérieures est analogue. On parle alors de régression linéaire multiple, par opposition à celle que nous étudions dans ce chapitre, qui ne fait intervenir qu’une seule variable explicative, et que nous avons déjà appelée simple.
7.3. Qualité de l’ajustement linéaire 7.3.1. Coefficient de détermination Revenons maintenant à notre cadre d’étude initial, en l’occurrence le modèle linéaire simple Y = ax+b+ε. Il est intuitivement clair que le « pouvoir explicatif » d’un modèle pourra considérablement varier d’une situation à l’autre. Une mesure possible et naturelle de la qualité de l’ajustement linéaire réside dans l’écart-type σ du terme d’erreur ε, et en pratique de son estimateur Sn−2 . Le défaut de ce critère est que sa valeur dépend de l’unité de mesure choisie. On préfère donc utiliser un indicateur différent, adimensionnel et compris entre 0 et 1, que l’on appelle coefficient de détermination. Avant d’aller plus loin, il nous faut introduire quelques notations. On appelle « somme des carrés des écarts de X » la quantité SCEx =
n
(xi − x ¯)2 .
i=1
De même, la « somme des écarts centrés de (X, Y ) » est définie par SECx,Y
n = (xi − x ¯)(Yi − Y¯ ) i=1
(bien noter le Y majuscule, qui rappelle que SECx,Y est aléatoire, et qui se transformera donc en y minuscule pour les versions calculées, c’est-à-dire les réalisations SECx,y – en revanche, le x a volontairement été laissé en minuscule pour rappeler qu’il ne s’agit pas ici d’une variable aléatoire). Un calcul similaire à celui permettant d’obtenir la formule de décentrage de la variance empirique (voir le paragraphe 4.3.2 et l’exercice 7 du chapitre 4) permet alors de voir que n Aˆ =
254
(x − x ¯)(Yi − i=1 n i ¯)2 i=1 (xi − x
Y¯ )
=
SECx,Y · SCEx
7.3. Qualité de l’ajustement linéaire
ˆ i +B ˆ sont les valeurs prédites pour Y à partir des Rappelons enfin que Yˆi = Ax valeurs x1 , . . . , xn de X et des estimateurs des paramètres de régression. À l’aide du résultat de l’exercice 5 (qui montre que le deuxième terme de la deuxième ligne ci-dessous est nul), nous pouvons écrire n n 2 ¯ SCEY = (Yi − Y ) = (Yi − Yˆi + Yˆi − Y¯ )2 i=1
i=1 n n = (Yi − Yˆi )2 + 2 (Yi − Yˆi )(Yˆi − Y¯ ) i=1
i=1
n (Yˆi − Y¯ )2 +
=
i=1 n
n
i=1
i=1
(Yi − Yˆi )2 +
(Yˆi − Y¯ )2 .
Cette égalité peut s’interpréter de la manière suivante : 1. La somme SCEY = ni=1 (Yi − Y¯ )2 (pour « somme des carrés des écarts de Y ») représente la variabilité totale de Y sans tenir compte de X, c’està-dire l’écart total de Y à sa moyenne empirique Y¯ (noter que Y¯ est une prévision qui peut être faite à partir de la seule connaissance des Yi , sans utiliser X). 2. La dernière somme ni=1 (Yˆi − Y¯ )2 peut s’interpréter comme la mesure de l’information qu’apporte la connaissance de X dans la prévision de Y . De ˆi − Y¯ = A(x ˆ i−x fait on peut remarquer que Y ¯) ne dépend que des xi et de n ˆi − Y¯ )2 est notée SCEE , pour « somme ˆ La quantité ( Y l’estimation A. i=1 des carrés des écarts expliquée ». Elle représente la variabilité de Y qui est imputable à X et s’appelle donc variabilité expliquée. entre Yi et sa valeur estimée Yˆi (il s’agit du 3. Enfin, comme Yi − Yˆi est l’écart n i-ème résidu), le terme i=1 (Yi − Yˆi )2 est appelé variabilité résiduelle. Il est noté SCER (pour « somme des carrés des écarts résiduelle ») et résume la variabilité de Y autour de la droite de régression. On retiendra le principe fondamental suivant : (Formule d’analyse de variance) SCEY = SCEE + SCER . 255
Chapitre 7. Régression
On énonce souvent l’égalité ci-dessus sous la forme : Variabilité totale = Variabilité expliquée + Variabilité résiduelle. En résumé, le modèle linéaire simple peut s’interpréter de la façon suivante : Y se décompose en une partie « fixe » qui est expliquée par X (la partie ax + b) et une partie aléatoire « inexpliquée » (le bruit ε). De même, la variabilité totale de Y (SCEY ) se décompose en une variabilité « expliquée » par X (SCEE ) et une partie « inexpliquée » (SCER ). Il est alors tentant de dire que la qualité de la prévision linéaire de Y en fonction de X est d’autant meilleure que la variation résiduelle est ˆ i + B, ˆ petite (nulle serait idéal, puisque l’on aurait alors exactement Yi = Yˆi = Ax autrement dit une prévision parfaite des valeurs de Y ). C’est exactement cette idée qui prévaut dans la définition suivante : On appelle coefficient de détermination (empirique) la quantité R2 =
SCEE · SCEY
Ce coefficient s’interprète comme la proportion de la variabilité de Y « expliquée » par X. Il est toujours compris entre 0 et 1 (pourquoi ?) et précisément égal à 1 lorsque SCER est nul (c’est le cas idéal que nous avons mentionné plus haut). Plus la valeur de R2 est grande, plus celle de la variation « inexpliquée » est petite : il est donc, en principe, souhaitable que la valeur (réalisée) de R2 soit la plus proche possible de 1. En résumé, on retiendra que plus R2 est proche de 1, meilleure est la qualité de la régression. Bien entendu, la distinction entre « qualité satisfaisante » et « mauvaise qualité » de la régression est largement subjective et dépend des auteurs et du contexte ; on peut cependant considérer qu’une valeur de R2 supérieure ou égale à 0,9 est en général considérée comme significative.
7.3.2. Corrélation Pour mesurer encore plus précisément la qualité de l’ajustement, on peut aussi utiliser le coefficient de corrélation linéaire, dit coefficient de corrélation de Bravais-Pearson. Ce coefficient est défini de la manière suivante : On appelle coefficient de corrélation linéaire (empirique) entre X et Y la quantité r=√
256
SECx,Y , SCEx SCEY
7.3. Qualité de l’ajustement linéaire
c’est-à-dire n
−x ¯)(Yi − Y¯ ) · n 2 ¯ )2 (x − x ¯ ) (Y − Y i i i=1 i=1
r = n
i=1 (xi
On peut en fait montrer (cf. l’exercice 7) que r 2 = R2 : en conséquence, l’ajustement est plutôt satisfaisant si r 2 est proche de 1 (il est même parfait si r 2 = 1) et plutôt mauvais si r 2 est proche de 0. Mais alors, quelle est la différence entre les deux ? Réponse : contrairement √ au coefficient de détermination R2 (ou à sa racine carrée R = R2 ) qui est toujours positif, le coefficient de corrélation r prend ses valeurs dans l’intervalle [−1 ; 1] (pourquoi ?) et possède l’intéressante vertu d’admettre le même signe que ˆ la pente de la droite de régression. Cette propriété est SECx,Y , et donc que A, importante, puisqu’elle permet de savoir si une augmentation de X dans le modèle linéaire ajusté conduit à une augmentation (cas r > 0) ou une diminution (cas r < 0) de Y . Ainsi, si le carré de r mesure le degré de corrélation linéaire, son signe mesure en revanche le sens de cette dernière.
1
r = −1
2
−1 < r < 0
4
3
r=0
0 f1−α , où f1−α de la loi F(1, n − 2). Ce test est bien équivalent au précédent, car on montre que √ F = [(Aˆ − a) SCEx /Sn−2 ]2 et l’on sait (cf. le paragraphe 3.6.6 du chapitre 3) (1,n−2) = que le carré d’une loi T (n − 2) n’est autre qu’une loi F(1, n − 2), avec f1−α F = (n − 2)
(n−2)
[t1−α/2 ]2 . On a coutume de résumer l’ensemble de ces éléments dans un tableau synthétique, appelé tableau (ou table) d’analyse de (la) variance : Source de variation
Somme des carrés
Degrés de liberté
Carré moyen
Statistique F
Probabilité critique
Expliquée
SCEe
1
SCEe
SCEe (n − 2) SCE r
P(F (1, n − 2) > F )
SCEr n−2 SCEy n−1
Résiduelle
SCEr
n−2
Totale
SCEy
n−1
265
Chapitre 7. Régression
Dans ce tableau, chaque somme des carrés est associée à un nombre de degrés de liberté. Ce nombre indique combien d’éléments indépendants (parmi les n observations) sont en fait nécessaires pour calculer la somme des carrés. Le « carré moyen » est alors obtenu en divisant la somme des carrés par les degrés de liberté. Quant à la probabilité critique, il s’agit simplement de la p-valeur (cf. le chapitre 6) du test de l’hypothèse « H0 : a = 0 » de significativité de la régression. Au niveau choisi α, on rejette donc H0 si la probabilité critique est inférieure à α et on la conserve dans le cas contraire. Nous laissons finalement au lecteur le soin de mettre en place, à partir de l’identité ˆ −b B ∼ T (n − 2), (¯ x)2 Sn−2 n1 + SCE x un test de l’hypothèse « H0 : b = b0 » vs. « H1 : b = b0 » qui signifie que le modèle linéaire admet b0 comme ordonnée à l’origine.
Exemple 5. Voici le tableau d’analyse de variance relatif à l’exemple 4 ci-dessus : Source de variation Expliquée Résiduelle Totale
Somme des carrés 834,18 38,37 872,55
Degrés de liberté 1 18 19
Carré moyen 834,18 2,13 45,92
Statistique F 391,63
Probabilité critique ≈0
La probabilité critique est très largement inférieure (elle est en fait quasiment nulle !) à tous les niveaux usuels. On rejette donc l’hypothèse selon laquelle le recul de la plage ne dépend pas linéairement du temps. On aurait aussi pu tester l’hypothèse de non-régression linéaire en comparant |ˆ a| = 1,12 à √ √ (n−2) t1−α/2 sn−2 / SCEx = 2,101 × 1,39/ 665 = 0,113 (α = 5 %). Les deux tests sont équivalents et la conclusion est bien entendu identique.
7.4.3. Prévision L’un des intérêts les plus concrets d’un modèle de régression est qu’il nous permet de faire de la prévision. Dans le langage courant, le terme prévision se réfère en général à l’avenir, avec le temps comme repère implicite. En statistique, il est plus général et recouvre l’ensemble des valeurs de Y attendues pour des 266
7.4. Intervalles de confiance, tests et prévision
valeurs de X qui n’ont pas été, n’ont pas pu, ou ne peuvent pas être fixées ou observées (et qui ne représentent donc pas toujours des temps). En guise d’exemple, imaginons un procédé de dépollution maritime par des bactéries « mangeuses » d’hydrocarbures. Ici X est le nombre (contrôlé) de bactéries introduites par mètre cube d’eau et Y le niveau de pollution (repéré par la densité de pétrole). À partir de quelques mesures initiales, la question que l’on se pose est alors celle de prévoir le niveau résiduel de pollution lorsque le stock disponible de bactéries aura été injecté. Dans le même ordre d’idée, on peut également se demander la quantité de bactéries à injecter pour obtenir une densité de pétrole diminuée, par exemple, de moitié. Dans le contexte de la régression linéaire, si l’on souhaite prévoir la valeur de Y pour une valeur non observée x0 de X, la prévision naturelle est alors ˆ 0 + B, ˆ Yˆ0 = Ax ˆ sont les estimateurs des moindres carrés de a et b. Bien entendu, la où Aˆ et B ˆ (et donc aussi de Y1 , . . . , Yn ) est elle-même de prévision Yˆ0 , qui dépend de Aˆ et B nature aléatoire. Comme ˆ 0 + E(B) ˆ = ax0 + b, E(Yˆ0 ) = E(A)x on constate que Yˆ0 est un estimateur sans biais de l’espérance de Y lorsque X = x0 . La question qui reste en suspens est alors celle de la fiabilité de cette prévision, qu’il convient donc d’assortir d’un intervalle de confiance. La clé pour progresser est donnée dans l’encadré suivant : Lorsque ε ∼ N (0, σ 2 ), on a (x0 − x 1 ¯)2 2 ˆ + . Y0 ∼ N ax0 + b, σ n SCEx En particulier, E(Yˆ0 ) = ax0 + b
et
V(Yˆ0 ) = σ
2
¯)2 1 (x0 − x + n SCEx
.
La variance de Yˆ0 , qui est inconnue à cause du terme σ 2 , est naturellement estimée par ¯)2 1 (x0 − x 2 + . Sn−2 n SCEx 267
Chapitre 7. Régression
On peut alors en déduire, par « studentisation », que Yˆ0 − (ax0 + b) ∼ T (n − 2), x)2 0 −¯ Sn−2 n1 + (xSCE x d’où le résultat : Dans le modèle de régression linéaire simple Y = ax+b+ε, lorsque ε ∼ N (0, σ 2 ), l’intervalle ⎡ ⎤ 2 1 (x0 − x ¯) ⎦ (n−2) + IC1−α (ax0 + b) = ⎣Yˆ0 ± t1−α/2 Sn−2 n SCEx est un intervalle de confiance de niveau 1 − α pour ax0 + b, la valeur moyenne de Y lorsque X = x0 . ¯. Ce On remarque que l’amplitude de cet intervalle est minimale lorsque x0 = x constat est conforme à l’intuition, puisqu’il signifie que la prévision est meilleure dans la zone des x pour laquelle on a le plus d’observations. A contrario, l’amplitude de l’intervalle s’accroît lorsque l’on s’éloigne de la zone centrale, traduisant ainsi une perte de précision dans les prévisions. Il est d’usage de représenter les graphes des fonctions (n−2)
x0 → yˆ0 ± t1−α/2 sn−2
1 (x0 − x ¯)2 + , n SCEx
c’est-à-dire les (réalisations des) bornes de cet intervalle de confiance, sur le même graphique que celui où figurent les observations (xi , yi ) et la droite de régression (voir la figure 7.9). Ces deux fonctions sont appelées « hyperboles de confiance » (de niveau 1 − α)(3) . L’intervalle de confiance sur Yˆ0 , qui traduit l’incertitude sur la moyenne de la valeur prédite de Y en x0 , ne donne pas de garantie sur les valeurs individuelles elles-mêmes. Pour construire un intervalle pour une nouvelle valeur de Y correspondant à X = x0 , il faut aussi prendre en compte la variabilité due au bruit ε, ce qui a pour effet d’augmenter la taille de l’intervalle (appelé intervalle de prévision dans ce contexte). Nous admettrons que l’intervalle de prévision pour une valeur individuelle en x0 a pour expression ⎡ ⎤ 2 (x 1 − x ¯ ) (n−2) 0 ⎦. IP1−α (ax0 + b) = ⎣Yˆ0 ± t1−α/2 Sn−2 1 + + n SCEx (3)
268
Car elles font partie d’une grande famille de courbes mathématiques appelées hyperboles.
7.5. Taux de croissance d’une population : une solution
Exemple 6. Dans l’exemple 4, on peut naturellement se poser la question de prévoir le recul moyen qu’aura connu la plage dans 5 ans. En prenant ainsi x0 = 25, on trouve yˆ0 = −1,12 × 25 + 63,41 = 35,41 m, soit donc un recul par rapport à la mesure initiale d’environ 27 m. Cette prévision peut être assortie d’un intervalle (18) de confiance : avec, par exemple, α = 0,01 et t0,995 = 2,878, il vient ⎡
⎤ x ¯)2
1 (x0 − ⎦ + n SCEx " # ! (25 − 10,5)2 1 = 35,41 ± 2,878 × 1,39 + 20 665 (n−2)
ic0,99 (ax0 + b) = ⎣yˆ0 ± t1−α/2 sn−2
= [32,99 ; 37,83]. Pour la valeur elle-même, on trouve l’intervalle (plus large) ⎤
⎡ (n−2)
ip0,99 (ax0 + b) = ⎣yˆ0 ± t1−α/2 sn−2 "
1+ !
= 35,41 ± 2,878 × 1,39
x ¯)2
1 (x0 − ⎦ + n SCEx (25 − 10,5)2 1 + 1+ 20 665
#
= [30,73 ; 40,09]. Les hyperboles qui entourent la droite de régression sont représentées sur la figure 7.9 (en tirets pour l’hyperbole relative aux prévisions des valeurs moyennes et en pointillés pour celle relative aux prévisions des valeurs individuelles).
7.5. Taux de croissance d’une population : une solution Nous sommes maintenant en mesure d’apporter une solution au problème présenté en introduction du chapitre. Rappelons qu’il s’agit d’établir une relation entre la taille d’une population de bactéries, notée M , et le taux de croissance de cette dernière, noté K. Pour ce faire, notre biologiste a fait varier (en laboratoire et dans des conditions strictement identiques) la taille de la population, et a mesuré en regard les taux de croissance correspondants. Si K est clairement de nature aléatoire (plusieurs tailles peuvent donner lieu à des taux de croissance différents), il n’en va pas de même pour M , qui est une variable contrôlée par 269
Chapitre 7. Régression
70 65 60 55 50 45 40 35 30 25 20 0
5
10
15
20
25
30
Figure 7.9. Hyperboles de confiance de niveau 99 % pour la prévision de la largeur de la plage (en tirets : intervalles pour les valeurs moyennes ; en pointillés : intervalles pour les valeurs individuelles).
l’expérimentateur. Nous sommes donc bien en présence d’un problème de régression simple, avec M comme variable explicative (contrôlée) et K comme variable expliquée (aléatoire). Les n = 21 observations (m1 , k1 ), . . . , (mn , kn ) recueillies par le scientifique ont été portées sur la figure 7.10, en parallèle avec la droite des moindre carrés. Ce graphique suggère qu’un modèle linéaire de la forme K = aM + b + ε n’est pas très pertinent. Cette intuition est d’ailleurs renforcée par la valeur médiocre R2 = 0,79, qui suggère de définitivement laisser tomber l’idée d’un ajustement linéaire sur les données brutes. Que faire ? L’observation de la forme du nuage de points de la figure 7.10, mâtinée d’un peu d’expérience, suggère la transformation logarithmique M → ln(M ) sur la variable explicative. Les nouveaux couples (ln(mi ), ki ) sont donnés dans le tableau qui suit et le nuage correspondant est représenté sur la figure 7.11.
270
7.5. Taux de croissance d’une population : une solution
0.25 0.2 0.15 0.1 0.05 0 -0.05 -0.1 -0.15
0
10
20
30
40
50
60
70
80
90
100
Figure 7.10. Données recueillies par le biologiste et droite de régression.
ln(M ) K
0 0,2423
1,6094 0,1416
ln(M ) K
3,5553 0,0046
3,6889 –0,0071
ln(M ) K
4,2485 –0,0329
2,3026 0,1026
4,3175 –0,0542
2,7081 0,0689
3,8067 –0,0034 4,3820 –0,0486
2,9957 0,0483
3,9120 –0,0203 4,4427 –0,0567
3,2189 0,0327
4,0073 –0,0207 4,4998 –0,0593
3,4012 0,0224
4,0943 –0,0388 4,5539 –0,0660
4,1744 –0,0365 4,6052 –0,0869
La forme bien allongée des données semble cette fois-ci indiquer la présence d’un lien linéaire entre Z = ln(M ) et K, et suggère donc un modèle de la forme K = aZ + b + ε. Des calculs élémentaires conduisent aux résultats suivants, qui contiennent toute l’information utile : z¯ 3,5488
k¯ 0,0063
SECz,k –1,7942
SCEz 25,7732
SCEk 0,1259
r –0,9961
R2 0,9921
sn−2 0,0072 271
Chapitre 7. Régression
0.3 0.25 0.2 0.15 0.1 0.05 0 -0.05 -0.1
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Figure 7.11. Données recueillies par le biologiste après transformation logarithmique et droite de régression.
L’équation de la droite des moindres carrés obtenue avec ce jeu de données est alors k = −0,0696z + 0,2533, avec une qualité d’ajustement qui, eu égard à la valeur très proche de 1 du coefficient R2 , semble excellente. En admettant l’hypothèse de normalité du bruit ε, on peut alors donner des intervalles de confiance de niveau (19) α = 5 % sur a et b (t0,975 = 2,093) : ic0,95 (a) = [−0,0726 ; −0,0666]
et ic0,95 (b) = [0,2423 ; 0,2644].
Le test de significativité de la régression peut être effectué par l’analyse de variance, présentée dans le tableau ci-dessous : Source de variation Expliquée Résiduelle Totale
Somme des carrés 0,1249 0,001 0,1259
Degrés de liberté 1 19 20
Carré moyen 0,1249 5,26 × 10−5 0,0063
Statistique F 2374,52
Probabilité critique ≈0
La probabilité critique est évidemment très significative et confirme donc la pertinence du lien linéaire entre ln(M ) et K. La figure 7.12 montre les hyperboles 272
7.5. Taux de croissance d’une population : une solution
0.3
0.3
0.2
0.2 0.1
0.1
0
0
-0.1
-0.1
-0.2
-0.2
-0.3
-0.3
-0.4
0
1
2
3
4
5
6
En fonction de ln(M )
7
-0.4
0 100 200 300 400 500 600 700 800 900 1000
En fonction de M
Figure 7.12. Hyperboles de confiance de niveau 95 % pour les prévisions des valeurs individuelles du taux de croissance K de la population, en fonction de ln(M ) et de M .
de confiance à 95 % pour les prévisions des valeurs individuelles, qui sont très reserrées autour de la droite de régression et confirment ainsi la bonne qualité de l’ajustement. Pour aller un peu plus loin dans l’interprétation des résultats, souvenons-nous que le modèle suppose que la régression est effectivement linéaire, que la variance du bruit est constante, et que les erreurs sont indépendantes entre elles. Il est d’usage, à l’issue d’une analyse de la régression, de vérifier ces trois présuppositions en utilisant des méthodes graphiques empiriques et/ou des tests statistiques plus ou moins sophistiqués. On commence en général par porter sur un même graaxi +ˆb) en fonction des valeurs observées (et/ou phique les résidus empiriques yi −(ˆ ˆ ˆxi + b) : si les deux premières hypothèses sont correctes, des valeurs prédites yˆi = a ce graphe ne doit laisser apparaître aucune tendance particulière, sinon il faudra reconsidérer le modèle. En guise d’illustration, on comparera sur la figure 7.13 le graphique des résidus pour le modèle de régression K = aM + b + ε (à gauche) avec le graphique des résidus pour le modèle K = a ln(M ) + b + ε (à droite). Dans le premier cas, les résidus semblent se répartir le long d’une courbe bien particulière, témoignant ainsi de l’inadaptation du modèle linéaire (on dit que le bruit « absorbe » une part trop importante du modèle), contrairement au second cas, où l’organisation des résidus ne permet pas de déceler de configuration anormale des points. Noter enfin qu’un fort résidu (comme celui obtenu dans le coin en bas à droite du second graphique de la figure 7.13) peut parfois indiquer la présence d’une valeur aberrante. En cas de doute, il est alors conseillé de s’interroger sur la validité de cette mesure et, le cas échéant, de refaire l’analyse de la régression 273
Chapitre 7. Régression
0.38
0.525
0.36
0.52
0.34
0.515
0.32
0.51
0.3 0.505 0.28 0.5
0.26 0.24
0.495
0.22
0.49
0.2
0.485 0
10 20 30 40 50 60 70 80 90 100
0
0.5 1
1.5 2
2.5 3
3.5 4
4.5 5
Figure 7.13. Graphique des résidus empiriques en fonction des valeurs observées pour le modèle K = aM + b + ε (à gauche) et pour le modèle K = a ln(M ) + b + ε (à droite).
sans ce point. Cependant, la pratique qui consiste à enlever tous les points qui ne « collent » pas au modèle est risquée : on ne doit uniquement supprimer des points atypiques que si l’on a des raisons « extra-statistiques » pour le faire (appareil de mesure déréglé, observation aux limites du cadre de l’étude, etc.). De nombreuses méthodes permettent de contrôler l’indépendance des erreurs dues au bruit et, plus généralement, d’apprécier de manière plus ou moins empirique la qualité d’une régression. Citons, pêle-mêle, le test de Durbin-Watson, populaire dans le domaine de l’économétrie, l’analyse des résidus « studentisés », l’analyse de la stabilité des coefficients ou encore la sélection de variables. L’étude détaillée de l’ensemble de ces techniques nécessiterait un ouvrage à elle seule, et nous renvoyons donc le lecteur intéressé aux manuels spécialisés dans la question. Au terme de cette étude, notre chercheur en écologie dispose d’un modèle « clés en main » qui lui permet de prévoir en laboratoire le taux de croissance K d’une population de bactéries en fonction de sa taille M . Ce modèle très simple s’écrit K(M ) ≈ −0,0696 ln(M ) + 0,2533. Le lecteur aura peut être remarqué qu’il s’agit du modèle écologique de Gompertz, étudié dans l’exercice 6 du chapitre 8. Ce modèle prévoit que le taux de croissance de la population est donné par K(M ) = −u ln( M L ) = −u ln(M ) + u ln(L), où u et L sont des constantes strictement positives. Dans le cas présent, on trouve donc u ≈ 0,0696 et u ln(L) ≈ 0,2533, soit L ≈ 38,07. 274
7.6. Analyse de variance à un facteur
7.6. Analyse de variance à un facteur L’analyse de variance est une technique voisine de la régression, avec néanmoins un vocabulaire, un contexte général et des champs d’application qui lui sont propres. Cela explique pourquoi cette discipline, dont le domaine est immense, fait souvent l’objet de chapitres séparés dans les ouvrages consacrés à la statistique. Dans ce paragraphe, nous nous contenterons plus modestement d’une brève introduction, en invitant le lecteur intéressé à se référer à des traités plus spécialisés (par exemple [1, 2, 8, 9]).
7.6.1. Données et modèle L’analyse de variance (parfois appelée ANOVA, en référence au terme anglais ANalysis Of VAriance) recouvre un ensemble de techniques de tests et d’estimation destinées à apprécier l’effet d’une ou plusieurs variables qualitatives sur une variable quantitative. Elle revient, dans le cas le plus simple, à comparer les moyennes de plusieurs échantillons de loi normale et de même variance. La méthode fut introduite en 1918 par Sir Ronald Aylmer Fisher et appliquée tout d’abord à l’agriculture et à l’élevage. Il s’agissait à l’origine de mesurer les effets de divers facteurs génétiques ou environnementaux sur le rendement de cultures ou d’animaux domestiques. Aujourd’hui, l’analyse de variance est présente dans de nombreuses sciences expérimentales, où elle est utilisée pour comparer et tester l’efficacité des traitements, entendus au sens large (utilisation de types d’engrais différents sur les cultures, d’insecticides sur les parasites, influence de la température et de la pression sur les réactions (bio)chimiques, évaluation de produits alimentaires par différents goûteurs, etc.). Dans le modèle d’analyse de variance que nous considérons dans ce paragraphe, on étudie l’influence d’une seule variable qualitative A à p modalités (ou niveaux ) sur la distribution d’une variable quantitative. La variable qualitative est appelée facteur dans le vocabulaire de l’analyse de variance, et l’on parle donc d’analyse de variance à un facteur. En guise d’exemple, on peut citer l’étude du rendement à l’hectare d’un champ de maïs (la variable) en fonction du type de fertilisant utilisé (le facteur), l’analyse du nombre de tomates récoltées dans une culture sous serre (la variable) en fonction de la nature de l’éclairage (le facteur) ou encore la spécification du chiffre d’affaires des magasins d’alimentation (la variable) en fonction de la saison (le facteur). Le point de départ de l’analyse de variance consiste à sélectionner p échantillons indépendants entre eux de tailles respectives n1 , . . . , np , qui correspondent 275
Chapitre 7. Régression
chacun à un niveau du facteur. On note (xi,j : j = 1, . . . , ni ) les (réalisations de ces) échantillons et on pose n = pi=1 ni . Le tableau qui suit résume la situation : Niveau du facteur
A1 x1,1 x1,2 .. .
A2 x2,1 x2,2 .. .
... ... ... .. .
Ai xi,1 xi,2 .. .
... ... ... .. .
Ap xp,1 xp,2 .. .
Moyenne
x ¯1
x ¯2
...
x ¯i
...
x ¯p
Ainsi, dans le premier des trois exemples précédents, chaque niveau correspond à l’un des p fertilisants testés. Le champ est alors divisé en un certain nombre de parcelles de même taille, jouissant des mêmes conditions macroscopiques autres que l’engrais (quantité d’eau identique, mêmes conditions climatiques, etc.), sur lesquelles on utilise l’un des p fertilisants. Les observations x1,1 , x1,2 , . . . représentent les rendements obtenus sur les parcelles traitées avec le premier fertilisant, les observations x2,1 , x2,2 , . . . les rendements obtenus sur les parcelles traitées avec le deuxième fertilisant, et ainsi de suite. Les deux hypothèses fondamentales du modèle d’analyse de variance sont alors les suivantes : 1. Les variations du facteur influent uniquement sur la moyenne des observations et non sur leur variance. 2. Pour chaque niveau Ai du facteur A, les observations (xi,j : j = 1, . . . , ni ) sont des réalisations indépendantes d’une variable aléatoire mère Xi suivant une loi N (μi , σ 2 ).
7.6.2. Test de Fisher Reprenons l’exemple du maïs : tous les fertilisants ont-ils le même rendement moyen, ou bien existe-t-il un effet de l’engrais sur le rendement ? Ou encore : si μi représente le rendement (théorique) moyen d’une parcelle cultivée avec le fertilisant numéro i, les μi sont-ils identiques ? La problématique de l’analyse de variance consiste donc à détecter d’éventuelles différences entre les moyennes des p populations. En termes mathématiques, on souhaite tester l’hypothèse « H0 : μ1 = μ2 = . . . = μp » vs. « H1 : il existe k, avec μk = μ ». 276
7.6. Analyse de variance à un facteur
Le test que nous allons maintenant décrire, appelé test de Fisher ou test F, se fonde sur une formule d’analyse de variance du même type que celle qui a été vue pour la régression. Cette formule décompose la « somme des carrés des écarts totale » p ni ¯ 2, (Xi,j − X) SCET = i=1 j=1
¯ désigne la moyenne empirique totale, c’est-à-dire où X i ¯ = 1 Xi,j . X n
p
n
i=1 j=1
Posons, pour i = 1, . . . , p,
ni ¯i = 1 Xi,j , X ni j=1
moyenne empirique des observations pour le i-ème niveau. En remarquant que ⎤ ⎡ p p ni ni ¯ i )(X ¯i − X) ¯ = ¯ ¯ i )⎦ = 0, ¯i − X) ⎣(X (Xi,j − X (Xi,j − X i=1 j=1
i=1
j=1
il vient facilement p ni
(Xi,j
¯ 2= − X)
i=1 j=1
=
p ni i=1 j=1 p ni
¯i + X ¯ i − X) ¯ 2 (Xi,j − X ¯ i )2 + 2 (Xi,j − X
i=1 j=1 p ni
=
i=1 j=1 p ni
¯ i )2 + (Xi,j − X
i=1 j=1 p ni i=1 j=1
i=1 j=1
¯ i − X) ¯ 2 (X
+
=
p ni ¯ i )(X ¯i − X) ¯ (Xi,j − X
¯ i )2 + (Xi,j − X
p ni ¯ i − X) ¯ 2 (X i=1 j=1 p
¯i − X) ¯ 2. ni (X
i=1
¯ i − X) ¯ 2 s’interprète comme la part de variabilité imputable Le terme pi=1 ni (X aux écarts entre les moyennes empiriques à l’intérieur de chaque échantillon et 277
Chapitre 7. Régression
la moyenne générale. Il est appelé variabilité expliquée (factorielle ou interclasses) et noté SCEA (pour « somme des carrés des écarts due au facteur A »). i ¯ i )2 représente les variations intrinsèques, dans Le terme pi=1 nj=1 (Xi,j − X chaque échantillon, de la variable observée. Il est appelé variabilité résiduelle (ou intra-classes) et noté SCER (pour « somme des carrés des écarts résiduelle »). En conséquence, (Formule d’analyse de variance) SCET = SCEA + SCER . Dit autrement, Variabilité totale = Variabilité expliquée + Variabilité résiduelle. On retrouve ainsi une formule de décomposition de la variance analogue à celle rencontrée dans l’analyse de la régression, au paragraphe 7.3.1. L’hypothèse fondamentale du modèle d’analyse de variance amène à considérer chacun des échantillons comme une collection de variables aléatoires Xi,1 , . . . , Xi,ni indépendantes et de même loi mère N (μi , σ 2 ). Le test de l’hypothèse « H0 : μ1 = μ2 = . . . = μp » repose alors sur l’idée suivante : si le facteur A a une influence réelle sur le phénomène observé, le terme SCEA doit être prépondérant dans la formule d’analyse de variance SCET = SCEA + SCER . On peut en fait montrer que, si H0 est vraie, la statistique F =
SCEA /(p − 1) SCER /(n − p)
suit une loi de Fisher à p − 1 et n − p degrés de liberté. On en déduit ainsi le protocole de test suivant : Pour tester le jeu d’hypothèses « H0 : μ1 = μ2 = . . . = μp » vs. « H1 : il existe k, avec μk = μ », on forme le rapport F =
SCEA /(p − 1) , SCER /(n − p) (p−1,n−p)
et on la garde dans le cas contraire. on rejette l’hypothèse H0 si F > f1−α En procédant ainsi, on obtient un test de niveau α. 278
7.6. Analyse de variance à un facteur
Comme en régression, la démarche est récapitulée dans un tableau, dit d’analyse de variance, au sein duquel chaque somme de carrés est associée à un nombre de degrés de liberté : Source de Somme Degrés de Carré Statistique variation des carrés liberté moyen F Expliquée
SCEA
p−1
SCEA p−1
Résiduelle
SCEr
n−p
SCEr n−p
Totale
SCEt
n−1
SCEA /(p−1) SCEr /(n−p)
Probabilité critique P(F(p − 1, n − p) > F )
La probabilité critique correspond à la p-valeur du test de l’hypothèse nulle « H0 : μ1 = μ2 = . . . = μp ». Au niveau choisi α, on rejette donc H0 si la probabilité critique est inférieure à α, et on la conserve dans le cas contraire. Avant de donner un exemple, il est instructif de remarquer que lorsque p = 2 (c’est-à-dire lorsque le facteur admet seulement deux niveaux), le test d’analyse de variance est rigoureusement le même que celui présenté au paragraphe 6.6.1 du chapitre 6, relatif à l’égalité de deux moyennes pour des échantillons gaussiens indépendants entre eux et de même variance. En effet, pour ce dernier test, on utilise la statistique T =
¯ − Y¯ ¯ − Y¯ X X ! = SCEX +SCEY 1 1 1 n1 +n2 −2 n1 + Sp + n1 n2
1 n2
qui, sous l’hypothèse H0 d’égalité des moyennes, suit une loi T (n1 + n2 − 2). On peut alors montrer que T 2 = F , et nous savons (paragraphe 3.6.6 du chapitre 3) que le carré d’une loi T (n1 + n2 − 2) n’est autre qu’une loi F(1, n1 + n2 − 2), avec (1,n +n −2) (n1 +n2 −2) 2 = [t1−α/2 ] , ce qui justifie complètement l’équivalence des deux f1−α1 2 tests (pourquoi ?). Lorsque le facteur admet trois niveaux ou plus, la comparaison de moyennes ne peut plus se traduire par une simple soustraction de deux variables aléatoires, et il devient alors nécessaire de faire appel à l’analyse de variance décrite dans ce paragraphe, qui généralise ainsi le problème de comparaison de moyennes à plusieurs populations.
Exemple 7. Dans le cadre d’une enquête nationale sur le temps de travail, on a demandé à 24 étudiants de quatre grandes universités (A1 , A2 , A3 et A4 ) le volume horaire hebdomadaire qu’ils consacrent à leurs études (cours et travail personnel). L’enquête, qui a été conduite dans des conditions essentiellement 279
Chapitre 7. Régression
identiques (étudiants de la même formation, non salariés, non doublants et du même âge) a donné les résultats suivants : Université
Moyenne
A1 37 31 45 30 50 42 39,17
A2 29 34 40 42 30 31 34,33
A3 33 34 40 38 47 36 38
A4 46 48 50 52 39 51 47,67
On cherche alors à savoir s’il existe une différence significative entre les universités ou bien si les différences de volumes horaires moyens constatées sont le fruit du hasard. L’analyse de variance et le test F apportent des éléments de réponse à cette question. Ici, p = 4, n1 = n2 = n3 = n4 = 6, n = 24, et on trouve : • Pour la variabilité factorielle : SCEA =
p
ni (¯ xi )2 − n(¯ x)2
i=1
= 6(39,172 + 34,332 + 382 + 47,672 ) − 24 × 39,792 = 577,74 ; • Pour la variabilité résiduelle : SCEr =
p ni
x2i,j −
i=1 j=1
p
ni (¯ xi )2
i=1 2
= 39 281 − 6(39,17 + 34,332 + 382 + 47,672 ) = 705,40 ; • Pour la variabilité totale : SCEt = SCEA + SCEr = 577,74 + 705,40 = 1283,14. On peut alors dresser le tableau d’analyse de variance : Source de variation Expliquée Résiduelle Totale 280
Somme des carrés 577,74 705,40 1283,14
Degrés de liberté 3 20 23
Carré moyen 192,58 35,27
Statistique F 5,46
Probabilité critique 0,0066
7.6. Analyse de variance à un facteur
Comme 0,0066 < 0,05, on rejette donc au niveau α = 5 % l’hypothèse « H0 : μ1 = μ2 = μ3 = μ4 » selon laquelle il n’existe pas de différence significative entre le temps de travail moyen des étudiants des quatre universités. que, l’on calcule une variance à l’aide de l’identité de2 même que nRemarquons 2 = 2 , les formules suivantes permettent d’éviter bien ¯ ¯ (X − X) X − n( X) i i i=1 des erreurs lors des calculs d’analyse de variance : • Pour la variabilité factorielle : SCEA =
p
¯ i − X) ¯ 2= ni (X
i=1
p
¯i )2 − n(X) ¯ 2; ni (X
i=1
• Pour la variabilité résiduelle : ⎡ ⎤ p p ni ni 2 ¯ i )2 = ¯ i )2 ⎦ ⎣ (Xi,j − X Xi,j − ni (X SCER = i=1 j=1
i=1
=
j=1
p ni
2 Xi,j −
i=1 j=1
p
¯i )2 ; ni (X
i=1
• Pour la variabilité totale : p p ni ni 2 2 ¯ ¯ 2. (Xi,j − X) = Xi,j − n(X) SCET = i=1 j=1
i=1 j=1
7.6.3. Estimation des effets Afin d’analyser plus finement l’influence du facteur A sur la moyenne des variables aléatoires Xi , on précise en général le modèle d’analyse de variance en posant, pour i = 1, . . . , p, μi = μ + ai . Dans ce nouveau modèle, l’espérance μi s’écrit comme la somme de deux termes : un paramètre μ (appelé effet commun ou effet moyen) et un paramètre ai (appelé effet de déviation), qui représente l’effet de la i-ème modalité du facteur A sur la moyenne du i-ème échantillon. Pour les parcelles d’un champ de maïs traitées à l’aide de plusieurs fertilisants, ce modèle signifie donc que le rendement moyen d’une parcelle se décompose en une partie commune à tous les fertilisants (sans 281
Chapitre 7. Régression
intérêt dans la perspective de comparaison des engrais, en quelque sorte un rendement de référence) et une partie ai qui est le gain (ou la perte...) attendu (par rapport au rendement de référence) lorsque l’on utilise le fertilisant numéro i. Le modèle « moyenne = effet commun + effet de déviation » introduit un paramètre additionnel dans l’étude, puisque l’on dispose à présent de (μ, a1 , . . . , ap ) au lieu de (μ1 , . . . , μp ). Afin de déterminer sans ambiguïté (μ, a1 , . . . , ap ) quand on connaît (μ1 , . . . , μp ), on introduit la contrainte supplémentaire p
ni ai = 0,
i=1
qui assure que μ est bien la moyenne totale pondérée : μ 1 1 n i μi = ni + ni ai = μ. n n n p
p
p
i=1
i=1
i=1
p
On dit de la contrainte i=1 ni ai = 0 qu’elle rend le modèle identifiable. On peut alors écrire, pour chaque niveau i = 1, . . . , p et chaque observation j = 1, . . . , ni du niveau i, Xi,j ∼ N (μ + ai , σ 2 ), soit
avec ε ∼ N (0, σ 2 ).
Xi,j = μ + ai + ε,
Les quantités μ, a1 , . . . , ap et σ 2 sont appelées paramètres du modèle d’analyse de variance à un facteur. Ainsi, dans ce modèle, chaque valeur observée est le résultat d’un effet général commun à tous les niveaux considérés, d’un effet de déviation propre à chaque traitement particulier, et d’une perturbation aléatoire non maîtrisable, due au hasard. Afin de rendre le modèle opérationnel en pratique, il nous reste maintenant à estimer les paramètres inconnus à partir de l’ensemble des observations. Estimation de la variance σ 2 L’estimation de la variance repose sur le résultat suivant, que nous admettrons : La variable aléatoire
2 Sn−p
282
SCER = = n−p
p i=1
ni
j=1 (Xi,j
n−p
¯ i )2 −X
7.6. Analyse de variance à un facteur 2 ) = σ 2 . En outre, la est un estimateur sans biais de σ 2 , c’est-à-dire E(Sn−p 2 (n−p)Sn−p ¯i. variable suit une loi χ2 (n − p) et elle est indépendante des X 2 σ
Estimation des moyennes μi Évidemment, pour chaque i = 1, . . . , p, on estime μi par la moyenne empirique ¯ i du groupe correspondant, en procédant comme au chapitre 5 (estimation d’une X moyenne à variance inconnue). L’estimateur de la variance est fourni par l’encadré précédent, et on obtient donc, par « studentisation », ¯ i − μi ¯ i − μi √ X X ni = ∼ T (n − p). SCER Sn−p ni (n−p)
En résumé : ¯ i est un estimateur sans biais de μi . En outre, Pour chaque i = 1, . . . , p, X ¯ − μi X i ∼ T (n − p), SCER ni (n−p)
"
et l’intervalle
¯i ± IC1−α (μi ) = X
(n−p) t1−α/2
SCER ni (n − p)
#
est un intervalle de confiance de niveau 1 − α pour μi . Noter que l’on aurait pu raisonner classe par classe, mais comme la variance est la même pour toutes les variables, cette façon de procéder améliore sensiblement la précision. Estimation de l’effet commun et des effets de déviation Rappelons que nous avons posé, pour chaquei = 1, . . . , p, μi = μ + ai , avec la contrainte supplémentaire d’identifiabilité pi=1 ni ai = 0. Cette dernière ¯ (la moyenne empirique de toutes les obsercontrainte a l’avantage de faire de X vations) un estimateur sans biais de μ. En effet, i 1 ¯ = 1 E(Xi,j ) = ni μi = μ. E(X) n n
p
n
i=1 j=1
p
i=1
283
Chapitre 7. Régression
On montre en outre facilement, par « studentisation », que ¯ −μ X ∼ T (n − p), SCER n(n−p)
ce qui fournit une estimation par intervalle pour μ. Comme ai = μi − μ, et dans la ¯i − X ¯ est un estimateur ¯ estime μ et X ¯ i estime μi , la différence Aˆi = X mesure où X de ai . Il s’agit même d’un estimateur sans biais puisque ¯ i − X) ¯ = E(X ¯ i ) − E(X) ¯ = μi − μ = ai . E(Aˆi ) = E(X On retiendra donc finalement : ¯ (calculée à partir de toutes les observations) est un La moyenne empirique X estimateur sans biais de μ, et l’intervalle # " SCE (n−p) R ¯ ±t IC1−α (μ) = X 1−α/2 n(n − p) est un intervalle de confiance de niveau 1 − α pour μ. En outre, pour chaque ¯i − X ¯ est un estimateur sans biais de ai . i = 1, . . . , p, la différence Aˆi = X
Exemple 8. Nous pouvons à présent compléter l’exemple 7 en estimant l’ensemble des paramètres du modèle. On trouve tout d’abord, pour la variance : s2n−p =
SCEr 705,40 = = 35,27, n−p 20
¯1 = soit sn−p = 5,94. Pour l’estimation des moyennes μi , il vient naturellement x ¯3 = 38 et x ¯4 = 47,67, avec des intervalles de confiance de 39,17, x ¯2 = 34,33, x niveau 95 % " ¯1 ± ic0,95 (μ1 ) = x
(n−p) t1−α/2
# " # ! SCEr 705,40 = 39,17 ± 2,086 n1 (n − p) 120 = [34,11 ; 44,23],
284
7.6. Analyse de variance à un facteur
# 705,40 = [29,27 ; 39,39], ic0,95 (μ2 ) = 34,33 ± 2,086 120 # " ! 705,40 = [32,94 ; 43,06], ic0,95 (μ3 ) = 38 ± 2,086 120 # " ! 705,40 = [42,61 ; 52,73]. ic0,95 (μ4 ) = 47,67 ± 2,086 120 "
!
Tous ces intervalles ont la même longueur puisque, pour chaque i, (n−p)
t1−α/2
SCEr = 5,06. ni (n − p)
La moyenne empirique générale, qui estime μ, a pour valeur x ¯ = 39,70. L’intervalle de confiance associé est alors # " # " ! SCEr 705,40 (n−p) ic0,95 (μ) = x = 39,70 ± 2,086 ¯ ± t1−α/2 n(n − p) 480 = [37,17 ; 42,23]. ¯1 − x ¯= Finalement, les quatre effets ont pour estimations respectives a ˆ1 = x ˆ3 = 38 − 39,70 = −1,70 et 39,17 − 39,70 = −0,53 ; a ˆ2 = 34,33 − 39,70 = −5,37 ; a a ˆ4 = 47,67 − 39,70 = 7,97.
7.6.4. Comparaisons multiples de moyennes Lorsque l’on accepte l’hypothèse H0 , on conclut que le facteur A n’a pas d’effet, et le problème est terminé. Dans le cas contraire, le rejet de H0 ne signifie pas que tous les μi sont différents, et il convient alors de préciser quels niveaux du facteur conduisent à des moyennes différentes. Remarquons d’abord que le modèle « moyenne = effet commun + effet de déviation » permet de réécrire le test d’égalité des moyennes « H0 : μ1 = μ2 = . . . = μp » vs. « H1 : il existe k, avec μk = μ » sous la forme « H0 : a1 = a2 = . . . = ap » vs. « H1 : il existe k, avec ak = a ». Comme pi=1 ni ai = 0, l’hypothèse H0 signifie donc exactement que tous les ai sont égaux à 0. 285
Chapitre 7. Régression
Plusieurs approches sont alors possibles pour préciser le rejet de H0 . On peut par exemple chercher à tester l’égalité à 0 des différences μk − μ (ou ak − a = 0, c’est la même chose), pour k et fixés (k = ) compris entre 1 et p. Les différences μk − μ sont appelées contrastes. Cela revient donc à tester l’hypothèse « H0 : μk = μ » vs. « H1 : μk = μ ». Dans ce cas, on met en œuvre le test usuel d’égalité des moyennes de deux échantillons gaussiens indépendants entre eux. Afin d’améliorer la précision des résultats, on utilise cependant l’hypothèse d’égalité des variances dans tous les groupes en estimant σ 2 sur l’ensemble des 2 , plutôt qu’à partir des deux échantillons k données à l’aide de l’estimateur Sn−p et seulement. On vérifie ainsi que, sous l’hypothèse H0 , la statistique Tk, = !
¯k − X ¯ X SCER 1 n−p nk +
1 n
suit une loi T (n − p). Pour un niveau fixé α, on rejette donc l’hypothèse H0 si (n−p)
|Tk, | > t1−α/2 , (n−p)
où t1−α/2 est le quantile d’ordre 1 − α/2 d’une loi T (n − p). C’est le test dit de Student pour un contraste.
Exemple 9. Dans l’exemple sur les universités, on a toujours nk = n = 6, et on trouve ainsi 1 1 ! = 705,40 = 0,292. SCEr 1 1 60 n−p nk + n Cela conduit au tableau ci-après, qui regroupe les valeurs calculées tk, : 1 1 2 3
t1,2
2 = 1,41
3 t1,3 = 0,34 t2,3 = −1,07
(20)
t1,4 t2,4 t3,4
4 = −2,48 = −3,89 = −2,82
Comme t0,99 = 2,528, on obtient ainsi la table d’acceptation/rejet (A/R) au niveau α = 2 % suivante : 1 1 2 3 286
2 A
3 A A
4 A R R
7.7. Exercices
On trouve donc que μ2 et μ3 sont significativement différentes de μ4 . On prendra garde toutefois au fait que les comparaisons ne sont pas transitives : ainsi, on accepte μ3 = μ1 , μ1 = μ4 mais pas μ3 = μ4 ! La procédure de comparaison de moyennes deux à deux est souvent critiquée, car elle conduit à utiliser beaucoup de tests, et donc à mettre en évidence à tort des différences significatives (en moyenne, sous H0 , α % des tests réalisés s’avéreront significatifs). Il existe des procédures plus adaptées, mais aussi plus complexes.
7.6.5. Quelques remarques terminales L’analyse de variance à un facteur s’étend au cas de plusieurs facteurs. Prenons par exemple le cas de deux facteurs A et B admettant respectivement p et q modalités – on peut par exemple s’intéresser aux rendements d’une plantation de salades en fonction de la lumière (A) et de l’arrosage (B), aux performances d’un sportif en fonction de la nature de son alimentation (A) et de son degré de préparation (B), ou encore à la vitesse d’une réaction chimique en fonction de la température (A) et de la pression ambiantes (B). Cette fois-ci, le modèle général est de la forme μi,j = μ + ai + bj + ci,j . Comme en analyse de variance à un facteur, μ représente un effet moyen et ai et bj correspondent aux effets factoriels dus respectivement au niveau i de A et au niveau j de B. La nouveauté réside dans le terme ci,j , qui modélise un effet d’interaction entre les niveaux i (de A) et j (de B) et dont la présence équivaut à la non-additivité des effets principaux. Pour aller plus loin, il faut devenir un spécialiste d’ANOVA, mais si l’on a compris les mécanismes de ce chapitre, on n’est pas trop dépaysé en feuilletant un livre sur le sujet.
7.7. Exercices On rappelle que, dans tout l’ouvrage, les quantiles ont été évalués à l’aide du logiciel gratuit R, qui peut être téléchargé à l’adresse http://cran.r-project.org/. Exercice 1 (Âge et cholestérol) Des médecins ont mesuré la concentration de cholestérol dans le sang sur 13 sujets d’âges différents. Dans le tableau suivant, l’âge (les xi ) est exprimé en années et le taux de cholestérol (les yi ) en g.L−1 : xi yi
10 0,8
15 1,2
20 1,6
25 1,5
30 1,8
35 2,0
40 2,2
45 2,1
50 2,5
55 2,8
60 2,7
65 3
70 2,6 287
Chapitre 7. Régression
Peut-on conclure de ces observations que le taux de cholestérol est lié à l’âge ?
Exercice 2 (Pattes de pucerons) Des anatomistes, spécialistes des insectes, s’intéressent aux dimensions des pattes des pucerons. Ils étudient plus particulièrement la longueur (notée X) du fémur de la patte médiane gauche et la longueur (notée Y ) du tibia de la même patte. Après avoir mesuré X et Y sur 100 pucerons, ces scientifiques examinent l’éventualité d’une relation entre X et Y et calculent pour cela les logarithmes (en base 10) de leurs mesures. Voici les résultats (moyennes, variances et covariance empiriques des logarithmes) : log10 x = 2,67 ; s2log10 X = 1637,10 ; log10 y = 2,91 ; s2log10 Y = 1582,06 et enfin s2log10 X,log10 Y = 1554,45. On notera que, dans cet exercice, les deux variables X et Y sont de nature aléatoire. 1. Quel est le coefficient de corrélation linéaire entre log10 X et log10 Y ? Discuter. 2. Déterminer l’équation de la droite de régression de log10 Y par rapport à log10 X. Déterminer de même l’équation de la droite de régression de log10 X par rapport à log10 Y . 3. Conclure.
Exercice 3 (Tempête au dessus d’un pont) Un cabinet d’ingénieurs, spécialisé dans la fiabilité des ouvrages, surveille à l’aide d’outils perfectionnés les petites variations de la hauteur d’un pont suspendu en fonction de la vitesse du vent. Dans le tableau qui suit, la variable V représente la vitesse du vent, exprimée en km.h−1 , et H la variation de hauteur au milieu de l’ouvrage, mesurée par rapport à l’horizontale parfaite et exprimée en centimètres : vi hi
11 4,6
27 5,5
80 7,5
54 6,7
5 3,2
65 7,0
16 5,6
4 2,9
31 6,1
90 7,3
32 5,8
Note : Dans cet exercice, la variable V est aléatoire (pourquoi ?). On admettra néanmoins que les résultats du cours s’appliquent sans problème. 1. Les ingénieurs suspectent une relation entre V et H de la forme 1 H ≈ a V
+b
·
Discuter la pertinence de ce modèle par rapport aux observations et estimer les deux coefficients a et b. 2. Une tempête est attendue sur la région, avec des vitesses de vent pouvant avoisiner les 150 km.h−1 . Les ingénieurs estiment qu’une variation de la
288
Exercices
hauteur du tablier supérieure à environ 9 centimètres présente un danger pour les automobilistes circulant sur le pont. Faut-il interdire (et avec quelle marge d’erreur) la circulation sur le pont pendant la tempête ?
Exercice 4 (Croissance d’arbres) On a observé la croissance d’arbres du même âge plantés sur trois types de terrains différents. Cette croissance est mesurée en centimètres par la circonférence du tronc à un mètre du sol. Sol
Circonférence
Type I 35 27 30 32 31
Type II 26 29 28 30 27
Type III 28 26 30 28 28
1. Sous quelles hypothèses peut-on faire une analyse de variance ? Que peuton en attendre ? On suppose dans les questions 2 et 3 que ces hypothèses sont vérifiées. 2. Pratiquer un test d’analyse de variance, aux niveaux α = 5 % et 10 %. Il est recommandé de faire auparavant un changement de variable destiné à simplifier les calculs. 3. Tester, aux niveaux α = 5 % et 10 %, l’hypothèse d’égalité des moyennes de croissance sur les sols de types I et II. Comparer avec les résultats obtenus en 2. 4. Tester, au niveau α = 5 %, l’égalité des variances de croissance sur les terrains de types I et II. Le résultat obtenu est-il de nature à remettre en question les résultats obtenus aux questions précédentes ? Les exercices qui suivent ont pour objectif de justifier certains résultats théoriques énoncés sans démonstration dans le chapitre. Il ne s’agit donc pas d’« applications », mais plutôt de « compléments ». Bien que ces exercices permettent de mieux saisir les notions du cours, ils peuvent être omis lors d’une première lecture. ˆ i − B) ˆ = 0 et n (Yi − Exercice 5 À l’aide des équations normales ni=1 (Yi − Ax i=1 ˆ i = 0, qui ont permis de déterminer les estimateurs des moindres carrés ˆ i −B)x Ax ˆ i + B, ˆ alors ˆ montrer que si Yˆi = Ax Aˆ et B, n (Yi − Yˆi )(Yˆi − Y¯ ) = 0. i=1
289
Chapitre 7. Régression
Exercice 6 Montrer que, dans le cadre d’une régression linéaire, les estimateurs ˆ sont des estimateurs sans biais de a et b (voir à ce des moindres carrés Aˆ et B sujet l’encadré page 252). Exercice 7 On rappelle que, dans le modèle standard de régression linéaire Yi = (empirique) R2 est axi + b + εi , i = 1, . . . , n, le coefficient nde détermination SCEE 2 2 ˆ ¯ défini par R = SCEY , où SCEE = i=1 (Yi − Y ) désigne la « somme des ˆ i + B) ˆ et SCEY = n (Yi − Y¯ )2 la carrés des écarts expliquée » (avec Yˆi = Ax i=1 « variabilité totale » de Y . On rappelle en outre que le coefficient de corrélation linéaire (empirique) entre X et Y est défini par r=√ n
c’est-à-dire
−x ¯)(Yi − Y¯ ) · n 2 2 ¯ ¯) i=1 (xi − x i=1 (Yi − Y )
r = n Montrer que r 2 = R2 .
290
SECx,Y , SCEx SCEY
i=1 (xi
8 ÉQUATIONS DIFFÉRENTIELLES
8.1. Problème : modélisation d’une population de parasites 8.1.1. Motivation Dans l’exercice 3 du chapitre 1, nous avons étudié une fonction L(t) décrivant l’évolution du nombre de larves d’un parasite, l’aleurode des serres, au cours d’une invasion des cultures. Dans la réalité, l’expression de L(t) ne nous est pas révélée par la nature sous une forme explicite. En amont de l’étude de cette fonction, la question essentielle est donc la suivante : comment a-t-elle été obtenue ? Établir une formule pour L(t) demande d’abord des connaissances sur les caractéristiques de l’insecte, sa reproduction, son milieu ou encore ses prédateurs. Muni de ces informations, le biologiste peut alors essayer de déterminer (souvent de manière statistique) des lois indiquant la probabilité pour que ce parasite meure à chacun des stades de son développement, sa fécondité, le temps moyen nécessaire pour passer au stade suivant, etc. Bien souvent, ce sont des équations différentielles qui modélisent mathématiquement la manière dont le nombre de parasites évolue. Associées à l’état de l’invasion (nombre d’œufs, de larves...) au moment où l’on constate cette dernière, ces équations permettent alors d’établir une formule pour L(t). Nous considérerons plus généralement dans ce chapitre des situations dans lesquelles on cherche à exprimer une grandeur (par exemple une population ou une concentration) qui dépend du temps, autrement dit une fonction x(t), la variable t étant le temps. L’objectif consiste à obtenir une formule explicite (si possible...)
Chapitre 8. Équations différentielles
pour cette fonction inconnue a priori. Cependant, les lois biologiques ou chimiques qui régissent l’évolution de la grandeur cherchée ne conduisent généralement pas à une expression explicite pour x(t), mais plutôt à une relation entre cette fonction et sa dérivée, que l’on appellera précisément équation différentielle portant sur x(t). Bien entendu, personne n’écrit une équation juste pour le plaisir d’écrire une équation ! L’intérêt est que l’on peut en déduire des propriétés sur les solutions, et peut-être les calculer... Le premier objectif de ce chapitre est donc de montrer comment on parvient, en général, à obtenir une relation entre x(t) et sa dérivée en partant de lois et de comportements observés sur le terrain ou en laboratoire. Dans les paragraphes qui suivent, nous présenterons (dans des cas certes assez simples, mais néanmoins riches d’enseignements) des méthodes permettant de calculer toutes les solutions des équations différentielles ainsi obtenues.
8.1.2. Bilans L’écriture d’un bilan est un exercice de modélisation, qui fait plus appel à des considérations de nature physique, biologique ou chimique que mathématique. C’est en particulier au moment du bilan que l’on effectue des hypothèses sur les phénomènes que l’on considère, et ce sont ces hypothèses qui permettent d’établir une équation différentielle régissant le comportement de la grandeur étudiée (population, concentration, etc.) au cours du temps. Lorsque l’on souhaite prévoir la valeur d’une grandeur Z dans le futur, la première étape du bilan consiste à constater l’évidence (en quelque sorte) : Z varie au cours du temps, car des phénomènes contribuent à la faire croître ou décroître. Entre deux instants t et t + δt, cette constatation peut se formaliser de la manière suivante : Quantité de Z Quantité de Z Quantité de Z gagnée entre perdue entre Quantité de Z = + − à l’instant les instants les instants à l’instant t t + δt t et t + δt t et t + δt
Exemple 1. Si Z représente la quantité de liquide dans un entonnoir, le volume gagné est égal à ce que l’on peut ajouter par le haut de l’entonnoir pendant cet intervalle de temps. La quantité de liquide perdue entre ces deux mêmes instants correspond au liquide qui s’est écoulé par le fond. Traduisons maintenant en langage mathématique chacun des termes de l’égalité ci-dessus. Les deux premiers sont évidemment les plus simples : en notant 294
8.1. Problème : modélisation d’une population de parasites
x(t) la quantité de Z à l’instant t (la fonction que l’on cherche !), ces termes sont égaux, respectivement, à x(t + δt) et x(t). La traduction des deux derniers termes de l’égalité fait intervenir les expériences et les mesures (sur le terrain ou en laboratoire), les lois statistiques obtenues à partir des observations, ou encore les lois générales de la discipline scientifique (chimie, biologie, géologie, etc.) à laquelle se rattache le phénomène étudié. Il faut donc recenser les causes des variations de Z : selon la grandeur étudiée, il peut, par exemple, s’agir des naissances ou de l’immigration (qui font croître la population), des transformations chimiques (qui augmentent la concentration d’un produit dans une solution), des décès ou de l’émigration (qui font décroître la population), d’autres transformations chimiques (qui diminuent la concentration), des phénomènes d’osmose membranaire, etc. L’ensemble de ces données constitue un modèle décrivant comment tel ou tel phénomène accroît ou diminue la grandeur que l’on étudie entre les deux instants t et t + δt. Et, comme nous le verrons, les modèles en question établissent fréquemment que le gain de Z entre les deux instants t et t + δt s’écrit sous la forme G(t)δt, et la perte sous la forme P (t)δt (avec des fonctions G(t) et P (t) qui dépendent elles-mêmes, souvent, de x(t)).
Exemple 2. Un modèle démographique usuel (dit de Malthus, voir l’exercice 2) affirme que, entre deux instants t et t + δt proches, le nombre de naissances et de morts dans la population considérée est proportionnel au temps δt qui s’est écoulé et au nombre d’individus présents dans la population à l’instant t. L’inconnue x(t) que l’on cherche alors à calculer est précisément le nombre d’individus à l’instant t. Dans ce cas, le nombre de nouveaux individus apparus entre t et t + δt est αx(t)δt, tandis que le nombre de ceux qui ont disparu est βx(t)δt, où α et β sont des constantes de proportionnalité (égales, respectivement, au taux de natalité et au taux de mortalité de la population), supposées connues. Si l’on suppose en plus qu’un gestionnaire externe ajoute dans la population, entre les deux mêmes instants t et t + δt, un nombre d’individus égal à q(t)δt (q(t) est une fonction connue, puisqu’entièrement contrôlée par le gestionnaire), alors la quantité de population gagnée entre ces instants prend l’expression G(t)δt = αx(t)δt + q(t)δt. Exemple 3. Le modèle classique de la radioactivité prévoit que la masse d’une substance qui se désintègre entre deux instants t et t + δt est proportionnelle à la masse de la substance présente à l’instant t (le x(t) que nous cherchons) et à la durée de l’intervalle de temps δt. Ainsi, une nouvelle fois, la perte de masse peut s’exprimer sous la forme P (t)δt = kx(t)δt, où k est une constante caractéristique de la substance radioactive, reliée à son temps de demi-vie, comme nous le verrons dans l’exercice 1. 295
Chapitre 8. Équations différentielles
Ces expressions de gain et de perte sont souvent des approximations. Le modèle de Malthus de l’exemple 2 affirme que le nombre de décès entre t et t + δt est proportionnel (entre autres termes) à la population présente à l’instant t. Si l’intervalle de temps δt est grand, cette affirmation est fortement sujette à caution : il n’y a par exemple aucune raison de penser que la mortalité en France entre 1908 et 2008 ne dépend que de la population présente sur le territoire en 1908 ! En revanche, si l’intervalle de temps δt que l’on considère est court (un jour, une heure, une minute voire une nanoseconde...), le raisonnement n’est plus forcément choquant. Dans l’exemple 3, on peut imaginer sans difficulté que la seule connaissance de la masse de la substance radioactive à l’instant t suffise à déterminer la masse disparue par désintégration entre t et t + δt lorsque δt est extrêmement petit. Il est par ailleurs légitime de se demander pourquoi on fait jouer un rôle particulier à la masse à l’instant t (par rapport à celle à l’instant t + δt, par exemple). La modélisation repose ici sur une hypothèse fondamentale, souvent implicite : la continuité du phénomène que l’on étudie. Si l’on fait l’hypothèse que la masse de substance radioactive x(t) est une fonction continue du temps, elle évoluera peu entre les instants t et t + δt, à condition que ces deux instants soient très proches. On peut donc, dans un tel contexte, accepter de choisir la masse à l’instant t comme masse de référence qui, en quelque sorte, pilote le comportement du phénomène entre t et t + δt. En réalité, la quantité qui a effectivement été désintégrée entre les deux instants est de la forme k δt (x(t) + ε), où ε est une erreur petite, due à la variation de x entre t et t+δt. Par définition de la continuité de la fonction x(t), cette variation est d’autant plus petite que l’intervalle de temps δt est petit. Le bilan n’est donc qu’approximatif, mais cette approximation est d’autant plus juste que les instants t et t + δt sont proches, c’est-à-dire que δt est petit. Ainsi, dans la suite, comme δt est destiné à tendre vers 0, nous nous permettrons donc, lors de l’écriture du bilan, d’utiliser le symbole « = » là où il conviendrait en fait d’employer « ». En conclusion, le bilan peut en général se récrire sous la forme suivante : x(t + δt) = x(t) + G(t) δt − P (t) δt. En faisant passer x(t) à gauche et en divisant par δt, on obtient x(t + δt) − x(t) = G(t) − P (t). δt Cette formule étant d’autant plus précise que δt est petit, il est alors naturel de tend vers la dérivée faire tendre δt vers 0. Or, on sait que l’expression x(t+δt)−x(t) δt 296
8.1. Problème : modélisation d’une population de parasites
x (t) de x(t) lorsque δt tend vers 0 (sous réserve que la limite existe). En faisant l’hypothèse que cette dérivée existe bien, nous pouvons alors écrire x (t) = G(t) − P (t). Dans la plupart des cas pratiques, les expressions de G(t) et P (t) font intervenir x(t) (comme illustré par l’exemple 3, où P (t) = kx(t)...), et l’on obtient donc finalement une équation différentielle portant sur x(t).
Exemple 4. Dans le cas de l’exemple mentionné plus haut du modèle de Malthus avec gestionnaire de population, on aboutit à l’équation x (t) = αx(t) + q(t) − βx(t) = (α − β)x(t) + q(t).
8.1.3. Qu’est-ce qu’une équation différentielle ? De manière générale, une équation différentielle est une équation qui relie une fonction donnée x(t) et sa dérivée x (t)(1) . Les équations différentielles que nous étudierons dans le cadre de ce cours prendront la forme générale suivante : x (t) = f (x(t)) ou, parfois, x (t) = F (t, x(t)), avec f et F des fonctions (respectivement d’une et de deux variables) supposées connues dans la situation considérée.
Exemple 5. Dans le cas du modèle de radioactivité de l’exemple 3 , on voit facilement que le bilan conduit à la relation x (t) = −kx(t). Il s’agit d’une équation différentielle de la forme x (t) = f (x(t)), avec f (y) = −ky (k étant une constante que l’on connaît). Dans le cas du modèle de Malthus avec gestionnaire de population, nous sommes arrivés à l’expression x (t) = (α − β)x(t) + q(t), qui correspond à une équation de la forme x (t) = F (t, x(t)) avec F (t, y) = (α − β)y + q(t) (α, β et q(t) étant supposés connus, la fonction F est elle-même bien connue). 1 2 x(t)+2 sont Exemple 6. x (t) = x(t), x (t) = tx(t) + 1+t 2 et x (t) = −2x(t) + e d’autres exemples d’équations différentielles, ne provenant pas nécessairement de modèles biologiques, physiques ou chimiques. (1)
En toute généralité, une équation différentielle peut aussi impliquer les dérivées seconde, troisième, etc., de x(t), mais nous n’étudierons pas ces cas plus complexes.
297
Chapitre 8. Équations différentielles
On dit que l’équation différentielle porte sur x(t), ce qui signifie que l’équation relie x(t) et sa dérivée x (t) et que la fonction x(t) est l’inconnue (à déterminer) de l’équation. Si l’on se place du point de vue de la fonction plutôt que de l’équation, une fonction x(t) qui satisfait, pour tous les t dans son domaine de définition, la relation imposée par l’équation différentielle est une solution de l’équation (on dira aussi d’une telle fonction qu’elle vérifie l’équation différentielle).
8.2. Équations différentielles linéaires Comme nous l’avons expliqué plus haut, il est intéressant de disposer d’une équation différentielle portant sur une fonction x(t) dans la mesure où cela permet d’obtenir une expression explicite pour x(t), au moins pour certains types bien particuliers d’équations.
8.2.1. Forme des équations différentielles linéaires Une équation différentielle linéaire d’ordre 1 est une équation différentielle du type x (t) = a(t) x(t) + b(t), où a : [0 ; +∞[→ R et b : [0 ; +∞[ → R sont des fonctions continues connues. Les fonctions sont considérées sur l’intervalle [0 ; +∞[ car, pour nous, la variable t représente le temps et le moment t = 0 est le début du phénomène que l’on étudie.
Exemple 7. L’équation x (t) = (α − β)x(t) + q(t) obtenue dans l’exemple 4 est une équation différentielle linéaire d’ordre 1 (avec a(t) = α − β, fonction constante et b(t) = q(t) ; ces deux fonctions sont connues dans le cadre du modèle considéré et ne dépendent pas de l’inconnue x(t)). Voici quelques autres exemples d’équations différentielles linéaires d’ordre 1 : x (t) = x(t), x (t) = t2 , x (t) = x(t) + t, x (t) = t3 x(t) + ln(1 + t2 ). Comme nous l’avons vu au travers des quelques exemples précédents, et comme nous le reverrons dans les exercices, la fonction a(t) représente le plus souvent une variation due à des facteurs internes, alors que la fonction b(t) représente des apports (ou des retraits, lorsqu’elle est négative) dus à des interactions avec l’extérieur. Bien entendu, il est essentiel que les fonctions a(t) et b(t) soient connues si l’on veut être en mesure de calculer x(t) à l’aide de l’équation différentielle (en particulier, il ne faut surtout pas que a et b fassent intervenir la fonction inconnue x !). 298
8.2. Équations différentielles linéaires
Pour la culture, un peu d’explication du vocabulaire Dans l’expression « équation différentielle linéaire d’ordre 1 », le terme « ordre 1 » fait référence au fait que seule la dérivée première x (t) de x(t) intervient dans l’équation. Les équations d’ordre 2, 3, etc., sont celles qui font intervenir les dérivées seconde, troisième, etc., de la fonction x. Nous n’étudierons pas les équations d’ordre supérieur à 1, et nous omettrons donc à partir de maintenant le terme « ordre 1 », en parlant plus simplement « d’équation différentielle linéaire ». Nous aurons l’occasion de commenter plus bas le terme « linéaire ».
8.2.2. Résolution des équations différentielles linéaires Résoudre une équation consiste à trouver toutes ses solutions. Résoudre l’équation différentielle linéaire telle qu’écrite ci-dessus consiste donc à trouver toutes les fonctions x : [0 ; +∞[ → R qui vérifient x (t) = a(t) x(t) + b(t) pour tout t ∈ [0 ; +∞[. Supposons pour commencer que l’on ait déjà, d’une manière ou d’une autre, ¯(t)+b(t) pour tout trouvé une solution x ¯(t) de l’équation : on a donc x ¯ (t) = a(t) x t ∈ [0 ; +∞[. Prenons alors une autre solution x(t) (pour laquelle on ne dispose pas d’expression pour l’instant) et introduisons la fonction w = x − x ¯. Un calcul simple, utilisant le fait que x et x ¯ sont des solutions de l’équation différentielle, permet de voir que w (t) = x (t) − x ¯ (t) = [a(t) x(t) + b(t)] − [a(t) x¯(t) + b(t)] = a(t) x(t) − a(t) x¯(t) = a(t) (x(t) − x ¯(t)) = a(t) w(t). La fonction w vérifie donc l’égalité w (t) = a(t)w(t), ce qui signifie qu’elle est solution d’une nouvelle équation différentielle obtenue à partir de l’équation d’origine en supprimant le terme b(t) ; cette équation s’appelle l’équation homogène associée à l’équation différentielle linéaire. Le terme « linéaire » qualifie précisément le fait que la différence w = x − x ¯ entre deux solutions de l’équation de départ est solution d’une autre équation différentielle, plus simple, en l’occurrence l’équation homogène. Les solutions de l’équation homogène sont assez faciles à obtenir, pourvu que l’on sache calculer une primitive de a. Supposons en effet que l’on dispose d’une 299
Chapitre 8. Équations différentielles
primitive A(t) (n’importe laquelle !) de a(t) ; en utilisant alors les règles de dérivation des produits et compositions de fonctions, et le fait que l’exponentielle est sa propre dérivée, on a e−A(t) w(t) = (e−A(t) ) w(t) + e−A(t) w (t) = −a(t) e−A(t) w(t) + e−A(t) w (t) = e−A(t) w (t) − a(t) w(t) . Puisque w vérifie w (t) = a(t) w(t), on en déduit que e−A(t) w(t) = 0. La dérivée de e−A(t) w(t) étant nulle, cela signifie que cette fonction est constante sur [0 ; +∞[ : il existe donc un nombre réel C tel que, pour tout t ∈ [0 ; +∞[, e−A(t) w(t) = C. Les propriétés de l’exponentielle donnent alors w(t) = C eA(t) , et l’on obtient du coup, en utilisant le fait que w = x − x ¯, ¯(t). x(t) = C eA(t) + x Ainsi, si l’on sait calculer une primitive A de a, et si l’on sait trouver une solution – que nous appellerons désormais solution particulière (2) – de l’équation différentielle d’origine, alors on sait trouver toutes les solutions, puisque nous venons de voir que n’importe quelle autre solution x s’écrit x(t) = CeA(t) + x ¯(t), pour une certaine constante C. Pour résoudre l’équation différentielle linéaire x (t) = a(t) x(t) + b(t) : 1. On cherche une primitive A de a. 2. On cherche une solution particulière x ¯ de l’équation. x(t), où C est une constante. 3. Les solutions de l’équation s’écrivent C eA(t) +¯
Exemple 8. Essayons de résoudre l’équation différentielle linéaire x (t) = x(t) + t, qui correspond à a(t) = 1 et b(t) = t. On commence donc par chercher une primitive A de a, ce qui, dans le cas présent, ne présente aucune difficulté particulière : il suffit par exemple de prendre A(t) = t. Il faut ensuite trouver une solution (2)
300
... qui n’a en réalité rien de particulier, mis à part le fait que l’on a été capable de la trouver !
8.2. Équations différentielles linéaires
particulière x ¯(t) ; il est facile de constater que x ¯(t) = −t − 1 convient (voir le paragraphe suivant pour des méthodes qui permettent de trouver de telles solutions particulières). On peut alors conclure : les solutions de l’équation sont les fonctions qui s’écrivent C et − t − 1, où C est une constante. Il y a donc autant de solutions que de choix possibles pour la valeur de C. Notons que, lorsque b = 0, la deuxième étape de résolution est inutile. En effet, dans ce cas, l’équation différentielle est identique à son équation homogène associée, et la connaissance d’une primitive A de a donne alors directement les solutions de l’équation (on peut aussi voir cela en remarquant que, lorsque b = 0, la fonction x ¯ = 0 est une solution particulière de l’équation différentielle...).
8.2.3. Comment trouver une solution particulière ? Le programme précédent nous permet de résoudre une équation différentielle linéaire à condition : • d’une part, de savoir calculer une primitive A de a ; • d’autre part, de savoir trouver au moins une solution particulière x ¯(t) de l’équation. Quelques éléments de calcul des primitives ayant été rappelés dans le chapitre 1, nous allons maintenant détailler deux techniques qui permettent de trouver une solution particulière x ¯(t). La première méthode pour trouver une fonction x ¯(t) solution de x ¯ (t) = a(t)¯ x(t) + b(t) consiste tout simplement... à avoir l’intuition d’une fonction qui convienne ! Il peut paraître ardu, au premier abord, de « deviner » une solution de l’équation différentielle, mais il y a fort heureusement des moyens pour guider l’intuition. D’une manière qui peut apparaître au lecteur comme paradoxale, cette méthode intuitive est en réalité souvent la plus efficace. On peut en particulier commencer par chercher une solution x ¯(t) sous une forme prédéterminée : fonction constante, affine ou polynomiale sont les premières formes auxquelles on peut penser. Lorsque l’on cherche par exemple à voir si une fonction affine peut être solution de l’équation différentielle, on pose x ¯(t) = ¯(t) + b(t), et l’on essaye α t + β, on utilise cette expression dans x ¯ (t) = a(t) x d’ajuster les constantes α et β de sorte que cette équation soit effectivement satisfaite. Par ailleurs, la forme même de la fonction b(t) peut nous aider dans la recherche d’une solution particulière. Il est en effet naturel de chercher un x ¯ qui possède la même forme que b, ou qu’une de ses primitives. Une telle fonction n’est 301
Chapitre 8. Équations différentielles
pas nécessairement la solution particulière cherchée, mais on peut essayer de lui ajouter une autre fonction afin d’obtenir une solution. Dans de très nombreux cas, on parvient ainsi par tâtonnements successifs à construire la solution souhaitée.
Exemple 9. Considérons l’équation différentielle linéaire x (t) = 12 x(t) + t, et cherchons une solution particulière. La fonction b étant affine, on commence par essayer une forme affine x ¯(t) = α t + β, avec α et β constants. Dès lors, on a ¯ vérifie l’équation différentielle, la relation x ¯ (t) = α et, puisque l’on souhaite que x 1 α = 2 (α t+β)+t doit être satisfaite. En rassemblant tous les termes du même côté de l’égalité et en factorisant les puissances de t, on obtient 0 = ( α2 + 1) t + β2 − α. Cette dernière égalité devant être satisfaite pour tous les temps t, il faut donc que chaque coefficient en facteur d’une puissance de t s’annule, c’est-à-dire que β α 2 +1 = 0 et 2 −α = 0, soit α = −2 et β = −4. Ces quantités sont bien constantes, et la solution particulière que l’on vient d’obtenir s’écrit x ¯(t) = −2 t − 4. La seconde technique permettant de débusquer une solution particulière est plus mécanique. Elle demande moins d’intuition... mais plus de calculs. Il s’agit de la méthode dite de variation de la constante (3) . L’idée est la suivante : en s’inspirant de la forme C eA(t) que prennent les solutions de l’équation homogène, on cherche une solution particulière sous la forme x ¯(t) = D(t) eA(t) . Ici, D(t) est donc une fonction qui remplace la constante C qui apparaissait dans la solution de l’équation homogène : on fait donc bien varier la constante. Dans ce contexte, on obtient alors x ¯ (t) = D (t) eA(t) + a(t) D(t) eA(t) . Pour ¯(t) soit solution de que l’on ait x ¯ (t) = a(t) x¯(t) + b(t), c’est-à-dire pour que x l’équation, il faut que D (t) eA(t) + a(t) D(t) eA(t) = a(t) D(t) eA(t) + b(t). Les termes a(t) D(t) eA(t) à droite et à gauche s’éliminent, et l’on obtient D (t) eA(t) = b(t), soit D (t) = b(t) e−A(t) . ¯(t) = D(t) eA(t) est une Ainsi, si D(t) est une primitive de b(t) e−A(t) , alors x solution particulière de l’équation x (t) = a(t) x(t) + b(t). La recherche d’une solution particulière se ramène donc à un nouveau calcul de primitive. (3)
302
Le lecteur nous pardonnera ce vocable absurde mais devenu traditionnel.
8.3. Équations à variables séparées
(Méthode de variation de la constante) Pour trouver une solution particulière x ¯ de l’équation différentielle linéaire x (t) = a(t) x(t) + b(t) : 1. On cherche une primitive D(t) de b(t) e−A(t) (rappelons que A est une primitive de a). 2. On prend x ¯(t) = D(t)eA(t) .
Exemple 10. Considérons l’équation différentielle linéaire x (t) =
1 x(t) + 2, 1+t
et cherchons une solution particulière à l’aide de la méthode de variation de la 1 et b(t) = 2, et une primitive de a(t) est donc constante. Ici, a(t) = 1+t A(t) = ln |1 + t| = ln(1 + t) (on peut enlever les valeurs absolues car les temps t sont, pour nous, toujours positifs ou nuls, et donc 1 + t > 0). Il faut maintenant s’attacher à trouver une primitive D(t) de 2 · b(t) e−A(t) = 2 e− ln(1+t) = 1+t Clairement, la fonction D(t) = 2 ln(1 + t) convient, et une solution particulière de l’équation différentielle est donnée par x ¯(t) = D(t) eA(t) = 2 ln(1 + t) eln(1+t) = 2 (1 + t) ln(1 + t). On peut facilement vérifier, par un calcul direct, que cette fonction satisfait effec1 x ¯(t) + 2. tivement x ¯ (t) = 1+t
8.3. Équations à variables séparées Nous allons maintenant examiner en détail d’autres équations différentielles, qui ne sont plus forcément linéaires mais qui revêtent quand même une forme suffisamment simple pour permettre leur résolution. 303
Chapitre 8. Équations différentielles
8.3.1. Forme des équations différentielles à variables séparées Une équation différentielle à variables séparées est une équation différentielle de la forme x (t) = g(t) h (x(t)) , où g et h sont des fonctions continues supposées connues.
Exemple 11. Un modèle démographique classique conduit à x (t) = r x(t)
1−
x(t) K
,
où r et K sont des constantes (voir l’exercice 5 de ce chapitre). Il s’agit d’un exemple d’équation différentielle à variables séparées avec g(t) = r (fonction constante) y ). Ces deux fonctions g et h sont effectivement connues, pourvu et h(y) = y(1 − K que l’on ait accès aux caractéristiques intrinsèques r et K de la population.
Exemple 12. Voici d’autres exemples, avec les fonctions g et h correspondantes, d’équations différentielles à variables séparées : • x (t) = x(t)2 , avec g(t) = 1 et h(x) = x2 ; • x (t) = ln(1 + t) (x(t) + x(t)3 ), avec g(t) = ln(1 + t) et h(x) = x + x3 ; • x (t) = t x(t)+t ln(1+x(t)2 ), où l’on peut prendre, en factorisant t, g(t) = t et h(x) = x + ln(1 + x2 ). Notons que, pour une équation donnée, plusieurs g et h peuvent convenir : ainsi, pour le premier exemple, g(t) = 1 et h(x) = x2 conviennent, mais l’on pourrait tout aussi bien prendre g(t) = 12 et h(x) = 2 x2 . Insistons sur le fait qu’une équation est à variables séparées si elle s’écrit comme une égalité entre x (t) et le produit d’une fonction connue de t et d’une autre fonction connue de x(t).
8.3.2. Résolution des équations à variables séparées Examinons maintenant comment trouver les solutions d’une équation différentielle à variables séparées x (t) = g(t)h(x(t)). 304
8.3. Équations à variables séparées
Équilibres Ces équations possèdent souvent des solutions très particulières, en l’occurrence des solutions constantes. En effet, si h s’annule en un réel q, la fonction constante x(t) = q vérifie bien, pour tout t, x (t) = g(t)h(x(t)), puisqu’alors x (t) = 0 et h(x(t)) = h(q) = 0. Les solutions constantes de l’équation différentielle sont appelées équilibres de l’équation ; pour trouver les équilibres, il suffit donc de trouver les points q tels que h(q) = 0. Ces solutions jouent souvent un rôle très important dans le modèle sous-jacent (voir à ce sujet les exercices 5 et 6). Autres solutions Supposons maintenant que x est une solution non constante et que, en outre, pour tout t dans son domaine de définition, h(x(t)) ne soit pas nul(4) . En divisant l’équation x (t) = g(t) h(x(t)) par h(x(t)), on voit que(5) x (t) = g(t). h(x(t)) Supposons que nous soyons en mesure de trouver une primitive T (x) de la fonction 1 x −→ h(x) . On constate alors, par dérivation de fonctions composées, que (T (x(t))) = T (x(t)) x (t) =
1 x (t) x (t) = = g(t). h (x(t)) h (x(t))
Nous en concluons que la fonction t −→ T (x(t)) est une primitive de g(t). Deux fonctions ayant la même dérivée sur un intervalle ne différant que d’une constante, on peut écrire T (x(t)) = G(t) + C, où G(t) est une primitive de g(t) et C une constante. Si elle ne donne pas directement une expression pour x(t), cette relation représente néanmoins un progrès par rapport à l’équation différentielle x (t) = g(t) h(x(t)) de départ : la dérivée x (t) de x(t) a disparu. (4) Si h est une fonction dérivable de dérivée continue et g est continue (hypothèses qui seront toujours vérifiées dans les exemples traités dans ce livre), une solution de x (t) = g(t)h(x(t)) telle que h(x(t)) s’annule en un certain instant t0 est en réalité constante. Ceci est en fait une conséquence du théorème général de Cauchy-Lipschitz qui sera évoqué au paragraphe 10.2.1 du chapitre 10. Ainsi, sous ces hypothèses, lorsque l’on cherche les solutions x qui ne sont pas des équilibres, on est assuré que h(x(t)) ne s’annulera jamais. (5) Le terme « variables séparées » qui qualifie l’équation en question provient de cette relation, dans laquelle on a rangé d’un côté des termes qui ne dépendent que de t, et de l’autre des termes qui ne dépendent que de l’inconnue x(t) ou de sa dérivée x (t).
305
Chapitre 8. Équations différentielles
Comme la solution prend ses valeurs dans un intervalle de R sur lequel h ne s’annule pas, la fonction 1/h est continue et ne peut pas s’annuler : elle garde donc un signe constant (si elle était négative en un point et positive en un autre, alors le théorème des valeurs intermédiaires assure qu’elle s’annulerait quelque part entre ces deux points). Comme T est une primitive de 1/h, cela signifie que T est soit strictement croissante, soit strictement décroissante, et le théorème de la bijection réciproque du chapitre 1 (paragraphe 1.5.4) affirme alors que T admet une réciproque T −1 . La relation T (x(t)) = G(t) + C se transforme donc en x(t) = T −1 (G(t) + C), à condition de bien choisir le domaine de définition et le domaine d’arrivée de T . Cette dernière opération n’est cependant pas toujours explicite : lorsque T est un peu complexe, inverser la formule T (x(t)) = G(t) + C peut exiger beaucoup d’efforts et une étude fine de divers cas selon la valeur de C... De fait, trouver une réciproque T −1 pour T nécessite bien souvent de préciser les intervalles de définition et d’arrivée de T (voir à ce sujet le chapitre 1). Une fois ce travail effectué, on peut néanmoins espérer obtenir une formule plus ou moins explicite pour notre solution x(t). Comme tout le raisonnement a été effectué en supposant que h(x(t)) ne s’annule pas, il faudrait en dernier lieu s’assurer que la solution x(t) que l’on a trouvée vérifie bien cette propriété. Cependant, cette dernière étape n’est en principe pas nécessaire, puisque la note (4) en bas de la page 305 garantit que cette condition est vérifiée si h est continue de dérivée continue et si g est continue. Le raisonnement que nous venons d’effectuer fournit ainsi toutes les solutions de l’équation différentielle. En voici le résumé : Pour résoudre l’équation différentielle à variables séparées x (t) = g(t) h(x(t)), il faut : 1. Chercher les équilibres, c’est-à-dire les q tels que h(q) = 0. Les fonctions constantes égales à ces nombres réels q sont des solutions de l’équation. 2. Chercher ensuite les autres solutions : (a) Trouver une primitive T (x) de 1/h(x) et une primitive G(t) de g(t). (b) Écrire qu’une solution non constante x(t) de l’équation vérifie T (x(t)) = G(t) + C, où C est une constante. (c) Tenter d’exprimer x(t) à partir de cette relation.
306
8.4. Un mot sur la condition initiale
Exemple 13. Résolvons
x (t) = 2 t (x(t) − 1)2 .
Cette équation est à variables séparées, avec g(t) = 2 t et h(x) = (x − 1)2 . Les équilibres sont les fonctions constantes égales aux zéros de h : ici, il n’y en a qu’un seul, fournissant la solution constante x(t) = 1. Pour trouver les autres solutions, on calcule une primitive de x −→
1 1 = · h(x) (x − 1)2
1 La fonction T (x) = − x−1 convient. Par ailleurs, une primitive de g(t) = 2 t est 2 G(t) = t . Les solutions non constantes x(t) vérifient donc l’équation
−
1 = t2 + C, x(t) − 1
avec C une constante. Cette relation permet d’obtenir une expression pour x(t) : x(t) = 1 −
1 , t2 + C
et l’on voit clairement au passage que h(x(t)) = (x(t) − 1)2 ne s’annule jamais. Il est également instructif de constater que si C est négatif, les solutions correspon√ dantes ne sont pas définies sur [0 ; +∞[ et tendent vers +∞ lorsque t → −C... En résumé, les solutions de l’équation x (t) = 2 t (x(t) − 1)2 sont donc : • la fonction constante x(t) = 1 ; • les fonctions x(t) = 1 −
1 , t2 +C
où C est une constante.
8.4. Un mot sur la condition initiale Comme nous l’avons expliqué dans le paragraphe 8.1.2, un bilan décrit la manière dont une quantité Z évolue en recensant les causes de ses variations. Simple conséquence du bilan, une équation différentielle ne saurait faire autre chose que décrire elle aussi la manière dont Z évolue. En particulier, une telle équation ne détermine la valeur de Z dans le futur que si l’on dispose d’informations sur la « situation de départ ». En d’autres termes, si l’on vous dit que la concentration d’un composé chimique croît de 0,01 mol.L−1 par seconde mais que l’on ne vous donne pas la concentration à l’instant t = 0, vous serez bien incapable de prévoir la concentration à l’instant t = 10 ! 307
Chapitre 8. Équations différentielles
Cette indétermination se retrouve dans les différentes techniques que nous avons explorées pour résoudre des équations différentielles : toutes, à un moment donné, font intervenir une constante C dont l’équation seule ne permet pas de déterminer la valeur. L’information supplémentaire nécessaire, que l’on appelle condition initiale, est la quantité de Z présente au début de l’étude. En pratique, le début de l’étude correspondra le plus souvent au temps t = 0, et la condition initiale sera donc la quantité x(0) de Z à cet instant t = 0. Une fois cette quantité connue, il devient alors possible de fixer la constante C ; cela permet de choisir, parmi toutes les solutions de l’équation, celle qui vérifie la condition initiale, c’est-à-dire celle qui correspond réellement au problème que l’on étudie.
Exemple 14. Revenons à la résolution de l’équation x (t) = 2 t (x(t) − 1)2 , et supposons que l’on veuille cette fois-ci trouver une solution x qui vérifie en plus x(0) = 1/2. Comme cette donnée initiale est différente de 1, la solution souhaitée n’est pas la solution d’équilibre. Il faut donc la chercher parmi les fonctions de la 1 . Pour avoir x(0) = 1/2, il faut que forme x(t) = 1 − t2 +C 1−
1 1 = , C 2
c’est-à-dire que C = 2. La solution recherchée s’écrit alors x(t) = 1 −
t2
1 · +2
On voit sur cet exemple qu’une seule solution de l’équation vérifie la condition initiale x(0) = 1/2 de départ : fixer la condition initiale détermine bien une et une seule solution de l’équation différentielle. Il peut aussi être instructif de chercher (et tracer !) la solution qui vérifie x(0) = 2... un curieux phénomène se passe alors, si l’on imagine que x représente une quantité physique. Notons cependant qu’il est important de trouver, dans un premier temps, toutes les solutions de l’équation. On ne peut généralement pas déterminer a priori quelle est la solution qui nous intéressera in fine : cela ne peut se faire qu’a posteriori, en fixant la constante C à l’aide de la connaissance de x(0). L’ensemble de ces considérations a des conséquences fondamentales en modélisation. Nous avons en effet déjà noté que nos méthodes de résolution permettaient 308
8.5. Commentaire sur la résolution des équations différentielles en général
de trouver toutes les solutions d’une équation différentielle du premier ordre linéaire ou à variables séparées (du moins si les fonctions connues a, b, g et h sont suffisamment sympathiques). Nous affirmons maintenant que la connaissance de la condition initiale détermine la valeur de la constante C de manière unique. Autrement dit, une fois son état initial fixé, un phénomène modélisé par une équation différentielle d’un des deux types que nous avons su traiter possède une unique solution : il s’agit donc d’un phénomène déterministe.
8.5. Commentaire sur la résolution des équations différentielles en général Les paragraphes précédents proposent des techniques qui permettent de résoudre certains types d’équations différentielles, en l’espèce les équations linéaires et les équations à variables séparées. Ces techniques ne fonctionnent malheureusement pas à coup sûr, puisqu’elles demandent de savoir calculer une ou plusieurs primitives, ce qui n’est pas forcément une chose facile... ni même réalisable ! On peut par exemple montrer mathématiquement qu’il est impossible de trouver une « expression simple » (c’est-à-dire n’utilisant que les fonctions usuelles) pour les solutions de l’équation différentielle linéaire x (t) = t x(t) + 1, qui semble pourtant si innocente de prime abord. Il arrive donc (et ce, beaucoup plus fréquemment que le lecteur ne serait probablement tenté de croire) que l’on soit amené à analyser des équations différentielles que l’on ne sait pas résoudre. Dans ce cas, il faut alors se rabattre sur d’autres outils que ceux menant à une expression explicite de la solution. On peut par exemple tenter de décrire cette solution sans la connaître parfaitement (c’est ce que l’on appelle une étude qualitative de la solution, nous en verrons plusieurs exemples plus loin dans le livre), ou essayer de programmer un ordinateur pour qu’il trace une bonne approximation de la solution (c’est le domaine de l’analyse numérique que nous n’aborderons pas dans cet ouvrage).
8.6. Modélisation d’une population de parasites : une solution Revenons sur notre problème initial, qui vise à déterminer une expression pour la fonction L(t) étudiée dans l’exercice 3 du chapitre 1. L’introduction, dans les cultures de la serre, de plantes porteuses d’œufs de parasites non détectés est une 309
Chapitre 8. Équations différentielles
des causes de l’invasion par l’aleurode des serres. Lorsque cela arrive, l’invasion ne devient visible qu’au moment où des larves apparaissent. Nous supposerons donc dans la suite qu’au moment où l’étude démarre, il y a des œufs, des larves, mais aucun adulte (par souci de simplification, nous confondrons aussi les trois stades larvaires néfastes pour les cultures en un stade unique, que nous appellerons « larves agressives »). Nous noterons respectivement N (t) et L(t) le nombre d’œufs et de larves agressives de l’aleurode dans la serre à l’instant t : ce sont ces fonctions dont nous cherchons une expression. Enfin, nous supposerons que, au moins dans l’intervalle de temps qui nous intéresse, le nombre d’adultes est négligeable, ce qui implique que le parasite ne se reproduit pas.
8.6.1. Les œufs Dressons tout d’abord un bilan (cf. le paragraphe 8.1.2) du nombre d’œufs. Pour cela, on écrit que le nombre d’œufs à l’instant t + δt est égal au nombre d’œufs à l’instant t, augmenté du nombre d’œufs apparus entre les instants t et t + δt et diminué du nombre d’œufs disparus entres les deux mêmes instants. Dans la situation que nous examinons, aucun aleurode adulte n’est présent dans la serre, et il n’y a donc aucune source d’œufs nouveaux. Par ailleurs, les causes de disparition des œufs sont de deux types : les œufs qui meurent et ceux qui éclosent. Nous ferons ici l’hypothèse (raisonnable) que la quantité d’œufs qui meurent entre t et t + δt est proportionnelle au nombre d’œufs présents N (t) et au temps écoulé δt. Ainsi, il y a donc une quantité k1 N (t) δt d’œufs qui meurent entre t et t + δt, où k1 est une constante déterminée par les caractéristiques démographiques de l’aleurode. De même, nous supposerons que le nombre d’œufs donnant naissance à une larve entre les instants t et t + δt s’écrit k2 N (t) δt, avec k2 une autre constante de nature démographique. Le bilan concernant les œufs prend donc la forme N (t + δt) = N (t) − k1 N (t) δt − k2 N (t) δt (rappelons encore une fois que ce bilan n’est qu’une approximation, d’autant meilleure que l’intervalle de temps δt est petit). En faisant passer N (t) à gauche de l’égalité, en divisant par δt et en faisant tendre δt vers 0, nous parvenons à N (t) = −k1 N (t) − k2 N (t) = −K N (t), avec K = k1 + k2 . Cette équation différentielle est linéaire, de la forme x (t) = −K x(t) , 310
8.6. Modélisation d’une population de parasites : une solution
et très simple à résoudre. Il s’agit en effet d’une équation homogène (avec les notations précédentes, on a b(t) = 0), et trouver une primitive du terme a(t) = −K est immédiat : A(t) = −K t convient. Les solutions s’écrivent donc x(t) = C e−K t , où C est une constante. Puisque N (t) vérifie cette équation, il s’écrit lui-même N (t) = Ce−K t , pour un certain C qu’il faut maintenant déterminer. Comme nous l’avons expliqué au paragraphe 8.4, cette constante ne peut être fixée qu’en considérant les conditions initiales, c’est-à-dire ici le nombre d’œufs N0 à l’instant t = 0 (qui, pour nous, représente le moment où l’invasion a été détectée et où commence l’étude). La détermination pratique de N0 n’est pas évidente : il est bien sûr hors de question de compter les œufs un à un, et le seul moyen abordable est d’en faire une estimation statistique (voir à ce sujet le chapitre 5). En supposant que l’on ait pu déterminer N0 , la formule N (t) = Ce−K t donne, en t = 0, N0 = N (0) = C e−K×0 = C, soit C = N0 . La constante est donc entièrement déterminée, et l’on conclut que N (t) = N0 e−K t .
8.6.2. Les larves Pour obtenir une expression de L(t), nous démarrons ici encore par un bilan : le nombre de larves agressives à l’instant t + δt est égal à ce nombre à l’instant t, plus toutes les nouvelles larves agressives apparues entre les instants t et t + δt, moins les larves agressives disparues entre les mêmes instants. Une nouvelle larve agressive apparaît quand un œuf éclot, et entre les instants considérés, le nombre d’éclosions s’écrit k2 N (t) δt, comme nous l’avons vu au paragraphe précédent. La disparition de larves agressives provient quant à elle soit de la mort naturelle de ces dernières, soit de leur passage au dernier stade larvaire : nous ferons à nouveau l’hypothèse qu’une quantité k3 L(t) δt (avec k3 constant) de larves agressives meurt et une quantité k4 L(t) δt (avec k4 constant) passe au dernier stade entre les instants t et t + δt. Le bilan des larves agressives se traduit donc par l’égalité L(t + δt) = L(t) + k2 N (t) δt − k3 L(t) δt − k4 L(t) δt. On obtient alors, en retranchant L(t), en divisant par δt et en faisant tendre ce dernier terme vers 0, L (t) = k2 N (t) − k3 L(t) − k4 L(t) = −R L(t) + k2 N (t), 311
Chapitre 8. Équations différentielles
avec R = k3 + k4 . Notons que, dans ce contexte, N (t) n’est plus une fonction inconnue, puisque nous l’avons calculée au paragraphe précédent : N (t) = N0 e−K t . Le nombre de larves agressives au cours du temps est ainsi solution de l’équation différentielle linéaire x (t) = −R x(t) + k2 N0 e−K t . Avec les notations du paragraphe 8.2, nous avons a(t) = −R et b(t) = k2 N0 e−Kt . Employons-nous maintenant à résoudre cette équation à l’aide de la technique développée au paragraphe 8.2. Une primitive de a(t) = −R est A(t) = −Rt. Les solutions s’écrivent donc comme la somme de C e−R t (avec C une constante) et d’une solution particulière x ¯(t) de l’équation. Pour trouver cette dernière, on peut employer la méthode de variation de la constante, qui consiste ici à chercher la solution particulière sous la forme x ¯(t) = D(t) eA(t) = D(t) e−R t , où D est une primitive de b(t) e−A(t) = k2 N0 e−K t eRt = k2 N0 e(R−K) t . Pour exprimer D, il faut donc séparer deux cas : • Si R−K = 0, la fonction D est une primitive de la fonction constante k2 N0 , et l’on peut donc prendre D(t) = k2 N0 t. • Si R − K = 0, une primitive de k2 N0 e(R−K) t est D(t) =
k 2 N0 R−K
e(R−K) t .
Supposons pour continuer que nous soyons dans le second cas (qui est le plus probable : il faudrait un très grand coup de (mal)chance pour que les caractéristiques de l’aleurode soient telles que R = k3 + k4 – somme des taux de mortalité et de maturation des larves agressives – soit exactement égal à K = k1 + k2 – somme des taux de mortalité et de maturation des œufs). Une solution particulière de l’équation est donc x ¯(t) = D(t) e−R t =
k2 N0 (R−K) t −R t k2 N0 −K t e e e = , R−K R−K
et toutes les solutions de l’équation de départ s’écrivent alors ¯(t) = C e−R t + x(t) = C eA(t) + x avec C une constante. 312
k2 N0 −K t e , R−K
8.7. Exercices
La fonction L est l’une de ces solutions, et il nous faut maintenant fixer C à l’aide de la connaissance du nombre de larves agressives L0 à l’instant initial (renseignement qui, comme dans le cas des œufs, n’est pas forcément facile à obtenir). Pour cela, on écrit L0 = L(0) = C −R×0 +
k2 N0 −K×0 k2 N0 e , =C+ R−K R−K
et l’on voit ainsi que k2 N0 · R−K Nous concluons donc avec l’expression suivante pour L(t) : k2 N0 k2 N0 −K t e−R t + e , L(t) = L0 − R−K R−K C = L0 −
qui est exactement celle annoncée dans l’exercice 3 du chapitre 1. Terminons en mentionnant que cette formule pour L n’est pas pertinente pour tous les temps dans [0 ; +∞[. Nous avons en effet supposé, dans notre modèle, qu’il n’y avait pas d’apparition de nouveaux œufs. En réalité, dès que des adultes surgissent en nombre conséquent, il est impossible de négliger les phénomènes de reproduction, ce qui change les équations. Ce cas plus complexe sera étudié en détail dans l’exercice 3 du chapitre 10.
8.7. Exercices Exercice 1 (Radioactivité) On place dans un entrepôt une masse R0 de radium 226, un déchet de la combustion en centrale nucléaire. Le radium subit alors un phénomène de désintégration régi par la loi suivante : entre deux instants t et t + δt, la masse de radium qui se désintègre est proportionnelle à δt et à la masse présente à l’instant t (la constante de proportionnalité, si le temps est exprimé en années, est égale à 0,000433 environ). Écrire une équation différentielle satisfaite par la masse de radium entreposée, la résoudre, puis calculer le temps qu’il faut attendre pour que la moitié de radium ait disparu. Ce temps s’appelle la demi-vie du radium. On constatera qu’il ne dépend pas de la masse R0 présente à l’instant initial (le plus souvent, ce temps de demi-vie est donné comme caractéristique du produit, plutôt que la valeur de la constante 0,000433 indiquée plus haut). Exercice 2 (Modèle de Malthus) Le modèle de Malthus est un modèle de population dans lequel les taux(6) de mortalité et de natalité sont supposés constants. En outre, ce modèle ne tient pas compte des effets migratoires. (6)
Par définition, un taux est un nombre par unité de temps et par unité de population.
313
Chapitre 8. Équations différentielles
1. En notant km et kn ces deux taux, écrire l’équation différentielle satisfaite par la population N (t), puis la résoudre en supposant la population N0 à l’instant initial t = 0 connue. Dans la suite, on supposera kn = km . 2. Tracer l’allure de la fonction N (t) en séparant les cas km > kn et km < kn . Quels commentaires peut-on faire ?
Exercice 3 (Cinétique chimique) On considère une réaction chimique d’ordre 1 (comme par exemple la transformation de l’anhydride azotique N2 O5 en dioxyde d’azote NO2 et oxygène O2 ) au cours de laquelle un produit P a tendance à disparaître naturellement avec une vitesse proportionnelle à sa masse (on notera α la constante de proportionnalité). Durant la réaction, on ajoute régulièrement, entre deux instants t et t + δt, une masse de P proportionnelle à δt (on notera β la constante de proportionnalité correspondante). Écrire l’équation différentielle satisfaite par la masse de P et, en supposant qu’il y avait 1 gramme de P à l’instant initial, calculer cette masse en fonction du temps. Commenter. Exercice 4 (Cinétique chimique à température variable) Considérons à nouveau la réaction chimique de l’exercice 3, mais en faisant cette fois-ci varier la température au cours du temps. Cette opération a pour effet de réduire, au fur et à mesure de l’expérience, la vitesse de disparition naturelle de P . En d’autres termes, α n’est plus constant, mais dépend désormais du temps selon α0 (où α0 est une constante positive). On réduit aussi, au la formule α(t) = 1+t cours du temps, la quantité de produit que l’on rajoute, en prenant β fonction 1 du temps de la forme β(t) = (1+t) ( constante positive). Reprendre, avec ces modifications, les questions de l’exercice 3. Exercice 5 (Modèle logistique) Le modèle logistique (encore appelé modèle de Pearl, ou de Verhulst) est une modification du modèle de Malthus, où l’on ne suppose pas que le taux de croissance k (le taux de natalité diminué du taux de mortalité) de la population est constant. On fait au contraire l’hypothèse que N ), où r et K sont ce taux dépend de la population selon la loi k(N ) = r (1 − K des paramètres constants et strictement positifs (K est appelé capacité biotique du milieu) et N désigne la population à l’instant considéré. Écrire l’équation différentielle satisfaite par la population dans le modèle logistique. Trouver les équilibres de cette équation, puis calculer N (t) en fonction de la population initiale N0 (attention, pour calculer N , il faut distinguer les cas N0 > K, N0 = K et N0 < K – on pourra par ailleurs s’aider, pour les calculs, des résultats de l’exercice 12 du chapitre 1). Étudier puis tracer la fonction ainsi obtenue. On s’intéressera en particulier au comportement, selon que N0 > K, N0 = K ou N0 < K, de la population lorsque le temps croît, et on tentera de donner un sens à la constante K. 314
Exercices
Exercice 6 (Modèle de Gompertz) Le modèle écologique de Gompertz est une autre modification du modèle de Malthus, au sein duquel le taux de croisN ). Reprendre sance de la population N est donné par l’équation k(N ) = −r ln( K l’exercice 5 pour ce modèle (on pourra également s’aider des résultats de l’exercice 12 du chapitre 1). Exercice 7 (Modèle épidémiologique) Un modèle simplifié d’épidémie divise la population en deux catégories, les malades et les sains, et suppose en outre que le nombre de personnes infectées par unité de temps est proportionnel au produit du nombre de personnes malades et du nombre de personnes saines. En notant A la population globale initiale (à t = 0) et m(t) le nombre de malades à l’instant t, montrer que m vérifie l’équation différentielle m (t) = r m(t) (A − m(t)), avec r une constante strictement positive. En déduire une expression pour m et commenter.
315
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
9 CALCUL MATRICIEL ET APPLICATIONS
9.1. Problème : croissance d’une population Un biologiste marin souhaite déterminer, sur une durée assez longue, l’évolution de la population d’une famille d’insectes insulaires tropicaux, espérant ainsi prévoir l’avenir de l’espèce sur l’île. Des observations attentives sur le terrain lui ont montré que l’espèce en question possède trois stades de développement : les larves, les adultes et les individus âgés. Elles lui ont également permis de déterminer les taux de mortalité et de natalité associés à chaque stade du développement, ainsi que le temps moyen de passage d’un stade à l’autre. Comme nous l’avons déjà vu, la première étape du travail de modélisation consiste toujours à bien définir les informations dont on dispose et les quantités que l’on souhaite calculer. Dans le problème qui nous anime, nous nous intéressons aux populations associées aux trois stades au temps T , notées ni (T ) pour i = 1, 2, 3 (les stades sont numérotés de 1 à 3 : n3 (8) représente ainsi le nombre d’individus au stade 3 présents dans l’île 8 unités de temps après les observations initiales). Les informations connues concernent les différentes caractéristiques démographiques de la population. On peut les représenter par des nombres : les taux fi de naissances (ou taux de natalité) issues des stades i (i = 1, 2, 3) en une unité de temps, les taux mi de décès (ou taux de mortalité) associés aux stades i (i = 1, 2, 3) et les temps moyens τi passés aux stades i (i = 1, 2) pour un individu donné. Ces nombres peuvent être constants ou variables au cours du temps, selon la population, la qualité des observations, ou même le degré de précision choisi pour la modélisation. Ainsi, par exemple, des prévisions démographiques annuelles pourraient-elles éventuellement négliger la variabilité saisonnière de la reproduction, au contraire de prévisions mensuelles. Pour simplifier, nous supposerons dans
Chapitre 9. Calcul matriciel et applications
tout ce chapitre que l’ensemble des paramètres du modèle sont indépendants du temps. Dans une seconde étape, nous pouvons nous concentrer sur les différents phénomènes qui se produisent, en identifiant soigneusement ceux qui méritent d’être pris en compte et ceux qui devront être négligés. Intéressons-nous d’abord aux naissances : en une unité de temps (entre T et T + 1, par exemple), celles-ci accroissent le nombre d’individus du stade 1 de f1 n1 (T ) + f2 n2 (T ) + f3 n3 (T ) individus, tandis que la mortalité le diminue de m1 n1 (T ). Ainsi : n1 (T + 1) − n1 (T ) = f1 n1 (T ) + f2 n2 (T ) + f3 n3 (T ) − m1 n1 (T ) . . . (notons au passage qu’il s’agit d’une population d’insectes insulaires, ce qui autorise à négliger d’éventuels phénomènes migratoires). Avons-nous fini ? Non, car nous avons négligé le développement, c’est-à-dire l’éventuel passage d’un stade à un autre. Si la durée (moyenne...) du stade 1 est de τ1 unités de temps, on peut alors supposer que n1 (T )/τ1 individus passent du stade 1 au stade 2 en une unité de temps(1) . En raisonnant de façon similaire pour chacun des stades (faites-le !), on parvient finalement à : n1 (T + 1) − n1 (T ) = f1 n1 (T ) + f2 n2 (T ) + f3 n3 (T ) − m1 n1 (T ) −
1 n1 (T ) τ1
1 1 n1 (T ) − m2 n2 (T ) − n2 (T ) τ1 τ2 1 n3 (T + 1) − n3 (T ) = n2 (T ) − m3 n3 (T ). τ2
n2 (T + 1) − n2 (T ) =
Une première conclusion s’impose : si l’on connaît ni (T ) pour i = 1, 2, 3 et les valeurs des différentes caractéristiques démographiques, on peut alors calculer tous les ni (T + 1). En répétant cette opération, on peut donc déterminer ni (T ), à condition de connaître les conditions à l’instant initial des observations, c’està-dire ni (0) pour i = 1, 2 et 3. Hélas, laissée à ce stade, notre connaissance du développement de l’espèce risque de rester très théorique. En effet, dans la mesure où il semble nécessaire de connaître chaque ni (T ) avant de calculer ni (T +1), la prévision de l’évolution de la population d’insectes dans quelques milliers d’années demandera un certain effort de calcul. Plus grave encore, ce calcul doit être recommencé dès que les conditions (1)
Pour bien comprendre : les n1 (T ) individus présents au stade 1 au temps T sont passés au stade suivant au temps T + τ1 , c’est-à-dire au bout de τ1 unités de temps. Si la répartition des âges des différents individus du stade 1 est uniforme (toujours pour simplifier), il y a donc en moyenne n1 (T )/τ1 individus qui passent du stade 1 au stade 2 au bout d’une unité de temps.
318
9.2. Matrices
initiales considérées sont modifiées... Il apparaît donc essentiel de disposer d’outils permettant de faire tous ces calculs en un nombre raisonnable d’opérations et, plus généralement, de mettre au point des instruments mathématiques permettant d’avoir une compréhension plus globale du comportement à long terme de la population en fonction des conditions initiales. La clé du succès réside dans ce que nous allons apprendre dans ce chapitre : le calcul matriciel.
9.2. Matrices
Une matrice de taille (n, p) est un tableau à n lignes et p colonnes dont chaque case est occupée par un nombre réel. Le nombre réel qui occupe la case située dans la i-ème ligne et la j-ème colonne d’une matrice A est appelé coefficient à la position (i, j), et il est en général noté aij . Attention, la position d’une case est repérée par deux coordonnées, la ligne et la colonne, et de nombreuses ambiguïtés peuvent en découler : ainsi, où est le coefficient a321 ? En troisième ligne et vingt-et-unième colonne ou en trentedeuxième ligne et première colonne ? On mettra donc souvent une virgule entre les indices pour clarifier l’information (en écrivant, par exemple, a32,1 ). De manière générale, nous désignerons par A = (aij )1≤i≤n,1≤j≤p ou, en abrégé A = (aij ), une matrice A de taille (n, p) dont les coefficients sont les aij , que nous noterons également ⎞ ⎛ a11 . . . a1p ⎜ .. ⎟ . A = ⎝ ... . ⎠ an1 . . . anp
Exemple 1. Voici plusieurs exemples de matrices, correspondant respectivement à (n, p) = (2, 2), (n, p) = (2, 3) et (n, p) = (3, 1) : ⎛ ⎞ 3 1 11 1π 4 ⎝ , 2 ⎠. , 1 12 0 12 −7
Les matrices qui ont le même nombre de lignes et de colonnes sont dites matrices carrées. Une matrice carrée très utile est la matrice I (ou matrice identité), de taille (n, n) : il s’agit de la matrice à n lignes et n colonnes dont les coefficients diagonaux sont égaux à 1 et tous les autres valent 0. 319
Chapitre 9. Calcul matriciel et applications
Autrement dit,
⎛ 1 ⎜0 ⎜ I = ⎜. ⎝ ..
0 ... 1 ... .. .
⎞ 0 0⎟ ⎟ .. ⎟ . .⎠
0 0 ... 1 Les coefficients de I sont donc les aij tels que aij = 1 si i = j et aij = 0 sinon. D’autres exemples de matrices carrées remarquables sont fournis par les matrices diagonales, qui diffèrent de la matrice identité par le fait que les coefficients diagonaux ne sont pas forcément égaux à 1. Ainsi, les matrices diagonales sont de la forme : ⎛ ⎞ λ1 0 . . . 0 ⎜ 0 λ2 . . . 0 ⎟ ⎜ ⎟ ⎜ .. .. .. ⎟ , ⎝. . . ⎠ 0 0 . . . λn où les λi sont des nombres réels arbitraires (certains d’entre eux peuvent donc être égaux à zéro et, par ailleurs, il n’y a aucune raison qu’ils soient tous distincts). Une matrice à n lignes et une seule colonne est appelée vecteur de dimension n. Pourquoi ? Tout simplement parce qu’il s’agit d’une manière agréable de représenter les coordonnées d’un point p (extrémité du vecteur op d’origine le centre o du repère) de l’espace à n dimensions – voir le chapitre 2 pour des rappels sur l’espace à n dimensions. Par ailleurs, comme nous le verrons dans la suite, il est souvent pratique de pouvoir parler du multiple d’une matrice (ou d’un vecteur) par un nombre a : il s’agit simplement de la matrice obtenue en multipliant tous les coefficients de la matrice (ou du vecteur) par a.
Exemple 2. Si
alors
⎛
⎞ 1 X=⎝ 2 ⎠ −3 ⎞ −7 −7X = ⎝−14⎠ 21
et
A=
⎛
2 0 −7 , 01 1
et
3A =
6 0 −21 . 03 3
Observons que plusieurs matrices sont naturellement associées à notre problème de modélisation de la population d’insectes. Ainsi, en premier lieu, l’état 320
9.2. Matrices
de l’ensemble de la population au temps T peut être décrit par un vecteur de dimension 3 (matrice à 3 lignes et une seule colonne), noté N (T ) : ⎞ ⎛ n1 (T ) N (T ) = ⎝n2 (T )⎠ . n3 (T ) De plus, en récrivant nos équations sous la forme 1 n1 (T + 1) = 1 + f1 − m1 − f2 n2 (T ) + f3 n3 (T ) n1 (T ) + τ1 1 1 n2 (T + 1) = n1 (T ) + 1 − m2 − 0 × n3 (T ) n2 (T ) + τ1 τ2 1 n3 (T + 1) = 0 × n1 (T ) + n2 (T ) + 1 − m3τ3 n3 (T ), τ2
nous voyons naturellement apparaître la matrice(2) ⎛ L=⎝
1 + f 1 − m1 − 1 τ1
0
1 τ1
f2 1 − m2 − 1 τ2
1 τ2
⎞ f3 0 ⎠ . 1 − m3
Tout ce que nous avons appris pour l’instant relève néanmoins d’un simple jeu d’écriture. La situation change radicalement lorsque l’on réalise que l’on peut faire des opérations sur les matrices : les additionner, les soustraire et surtout les multiplier entre elles.
9.2.1. Addition de matrices Prenons deux matrices M et N à n lignes et p colonnes chacune. La somme M +N est la matrice obtenue en additionnant M et N coefficient par coefficient. Autrement dit, le coefficient en position (i, j) de la matrice M + N est la somme du coefficient en position (i, j) de M et du coefficient en position (i, j) de N . Attention : on ne peut additionner deux matrices que sous la condition expresse qu’elles aient le même nombre de lignes et le même nombre de colonnes ! (2)
La lettre L fait référence à Sir Paul Leslie, qui développa cette approche des modèles démographiques vers 1945.
321
Chapitre 9. Calcul matriciel et applications
Exemple 3. On ne peut pas additionner 1 1 1 et −1 0 . En revanche,
11 1 −1 0 1 012 + = . 1 2 −1 −1 0 3 022
9.2.2. Multiplication de matrices Soient M une matrice à r lignes et p colonnes, dont on note les coefficients (mij ), et N une matrice à p lignes et q colonnes, dont on note les coefficients (nij ).
Le produit M N est la matrice S à r lignes et q colonnes, de coefficients sij , dont le coefficient en position (i, j) est donné par la formule suivante : sij = mi1 n1j + mi2 n2j + . . . + mip npj .
Attention : on ne peut multiplier deux matrices qu’à condition que le nombre de colonnes de la matrice de gauche soit égal au nombre de lignes de la matrice de droite ! Par ailleurs, la multiplication de deux matrices est une opération qui a un ordre : le produit M N n’est pas égal au produit N M (voir l’exercice 1 à ce sujet). Dans un souci de clarté, on parlera parfois de la multiplication de M à droite, ou à gauche, par N . La formule de multiplication des matrices est, à première vue, compliquée. Il existe cependant un moyen mnémotechnique permettant d’effectuer tranquillement un tel produit, que nous décrivons maintenant. Soit donc à multiplier
⎛
m11 ⎜ .. M =⎝ . mr1
322
... ...
⎞
⎛
n11
⎜ m1p ⎜ .. ⎟ et N = ⎜ .. ⎜ . . ⎠ ⎜ ⎝ mrp np1
...
...
n1q
⎞
⎟ ⎟ .. ⎟ . . ⎟ ⎟ ⎠ npq
9.2. Matrices
Plaçons tout d’abord les matrices M et N et le résultat cherché S = (sij ) de la manière suivante : ⎛
q n11
⎜ ⎜ ⎜ p ⎜ ... ⎜ ⎝ np1 p
⎛
m11 ⎜ .. r ⎝ . mr1
...
⎞ m1p .. ⎟ . ⎠
...
mrp
...
⎞
n1q
⎟ ⎟ .. ⎟ . ⎟ ⎟ ⎠ npq
...
⎛ s11 ⎜ .. ⎝ .
...
⎞ s1q .. ⎟ . ⎠
sr1
...
srq
(remarquer au passage la cohérence entre le nombre de lignes de M et S et entre le nombre de colonnes de N et S). Le coefficient sij de S est alors obtenu en multipliant tous les coefficients de M situés sur la même ligne « i » que sij avec les coefficients de N situés sur la même colonne « j » que sij , selon la règle suivante : le premier coefficient sur la ligne de M se multiplie avec le premier coefficient sur la colonne de N , le deuxième avec le deuxième, etc., et l’on somme finalement tous les résultats de ces multiplications pour avoir la valeur de sij . Autrement dit, ⎛
⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝
m11 .. .
...
m1p .. .
mi1 .. . mr1
...
mip .. . mrp
...
n11
⎜ ⎜ ⎜ . ⎜ . ⎜ . ⎜ ⎝ np1 ⎞⎛ s11 ⎟ ⎜ .. ⎟⎜ . ⎟⎜ ⎟⎜ ⎟⎜ ⎟⎜ . ⎠ ⎝ .. sr1
...
n1j .. .
...
npj
... sij ...
...
n1q
⎞
⎟ ⎟ .. ⎟ ⎟ . ⎟ ⎟ ⎠ . . . npq ⎞ . . . s1q .. ⎟ . ⎟ ⎟ ⎟ ⎟ .. ⎟ . ⎠ ...
srq
ce qui est exactement sij = mi1 × n1j + . . . + mip × npj . 323
Chapitre 9. Calcul matriciel et applications
Exemple 4. On a
mais le produit
11 11
1 3 = , 2 3
1 11 2 11
n’existe pas.
Exemple 5. La multiplication d’une matrice, à droite ou à gauche, par la matrice identité I (de la bonne taille...) ne modifie pas cette matrice (d’où le nom matrice identité). Exemple 6. Un calcul important pour la suite est celui de la puissance k-ème d’une matrice diagonale : ⎞ ⎞ ⎛ ⎛ (λ1 )k 0 · · · 0 λ1 0 · · · 0 ⎜ 0 (λ2 )k · · · 0 ⎟ ⎜ 0 λ2 · · · 0 ⎟ ⎟ ⎟ ⎜ ⎜ k si A = ⎜ . .. ⎟ , alors A = ⎜ .. .. ⎟ . . ⎝ . ⎝. . ⎠ . ⎠ 0 0 · · · λn 0 0 · · · (λn )k Pourquoi les opérations sur les matrices sont-elles importantes dans notre problème d’écologie ? Tout simplement parce que l’équation modélisant l’évolution démographique des insectes peut se récrire comme un produit de deux matrices : N (T + 1) = LN (T ), où L est la matrice de Leslie et N (T ) le vecteur décrivant l’état de la population au temps (discret) T . Si la population est connue à l’instant (initial) T0 , son état au bout de k unités de temps s’écrira donc N (T0 + k) = LN (T0 + k − 1) = L2 N (T0 + k − 2) = . . . = Lk N (T0 ). Nous voyons ici apparaître le rôle crucial joué par les puissances k-èmes (les Lk ) de la matrice L. Seriez-vous capables de les calculer lorsque k devient très grand, même avec des valeurs explicites des différents coefficients f1 , f2 , f3 , m1 ... ? Dans certaines circonstances, un ordinateur pourrait sans doute vous aider dans tous ces calculs. Mais il serait incapable de répondre à des questions de nature plus qualitative – néanmoins très importantes pour la compréhension du modèle – du genre : la population s’éteindra-t-elle si l’on attend suffisamment longtemps ? Se stabilisera-t-elle ? Augmentera-t-elle et, si oui, à quelle vitesse ? Ou encore : à partir de quelles valeurs des taux de natalité fi a-t-on la certitude que la population 324
9.3. Systèmes linéaires
ne va pas s’éteindre au cours du temps ? Notre objectif, dans la suite du chapitre, consistera donc à non seulement apprendre à calculer les puissances d’une matrice, mais aussi à apporter des éléments de réponse aux questions que nous venons de poser. Pour ce faire, un long détour mathématique nous sera nécessaire, afin d’acquérir un peu plus de bagage théorique.
9.3. Systèmes linéaires Le calcul matriciel est également utile pour l’étude d’une grande famille d’équations appelées systèmes linéaires. Bien que l’étude de telles équations ne soit pas directement reliée à notre objectif, elle s’avère néanmoins extrêmement utile pour la compréhension générale de la théorie. Un système linéaire est une équation de la forme AX = Y , où X est un vecteur de dimension p (les inconnues du système), Y un vecteur de dimension n supposé connu et A une matrice de taille (n, p), supposée également connue. Si l’on appelle (aij ) les coefficients de la matrice A, (xj ) ceux de X et (yi ) ceux de Y , la définition même du produit matriciel AX montre que le système d’équations peut s’écrire a11 x1 + a12 x2 + . . . + a1p xp = y1 .. .. . . an1 x1 + an2 x2 + . . . + anp xp = yn . Autrement dit, chaque yi est une somme des x1 , . . . , xp affectés de coefficients ; on dit alors que chaque yi est une combinaison linéaire des x1 , . . . , xp . Nous souhaitons maintenant résoudre le système, c’est-à-dire, connaissant la matrice A et le vecteur Y , trouver toutes les solutions X (s’il en existe) de AX = Y .
9.3.1. Deux équations et deux inconnues Ce sont les systèmes linéaires non triviaux les plus simples : ils s’écrivent ax1 + bx2 = y1
(L1 )
cx1 + dx2 = y2 , (L2 ) 325
Chapitre 9. Calcul matriciel et applications
et l’on a donc
A=
ab x1 y1 , X= et Y = . x2 y2 cd
La méthode générale pour résoudre ces systèmes consiste à faire des combinaisons d’équations. Un cas préliminaire simple est celui où les coefficients a et c sont tous les deux nuls : le système se résume alors aux équations bx2 = y1 dx2 = y2 qui peuvent être incompatibles, c’est-à-dire n’avoir aucune solution commune, auquel cas le système n’a pas de solution, ou au contraire être compatibles, c’està-dire avoir la même solution, auquel cas le système a une infinité de solutions : en effet, on a dans ce dernier cas x2 =
y2 y1 = , b d
mais x1 peut prendre n’importe quelle valeur, donc il y a autant de solutions que de choix possibles pour x1 , soit une infinité. Si maintenant a est différent de 0, on peut remplacer la seconde équation L2 par l’équation L2 − ac L1 , et obtenir le système équivalent
ax1 + bx2 = y1 c bc x2 = y2 − y1 d− a a
(L1 ) c (L2 = L2 − L1 ). a
La matrice associée à ce nouveau système est triangulaire supérieure, c’est-àdire de la forme αβ 0 δ (« triangulaire supérieure » signifie simplement que les coefficients sont tous nuls dans le triangle inférieur, celui situé sous la diagonale) avec bien sûr, dans notre cas, α = a, β = b et δ = d − bc a . Si c est différent de 0, on peut procéder de même en échangeant le rôle des lignes L1 et L2 . Cela conduit au nouveau système
326
(L2 ) cx1 + dx2 = y2 a a ad x2 = y1 − y2 , L1 = L1 − L2 b− c c c
9.3. Systèmes linéaires
et donc à une matrice triangulaire supérieure du même type, mais avec cette fois ci α = c, β = d et δ = b − ad c . Dans tous les cas, nous sommes donc amenés à résoudre un système de la forme αx1 + βx2 = z1 δx2 = z2 , où z1 et z2 sont donnés par les termes de droite dans les équations précédentes (selon que a ou c est différent de 0). Trois possibilités se présentent alors : 1. δ = 0 et α = 0 (ou, ce qui est équivalent, ad − bc = αδ = 0 ; dans la suite, nous noterons cette quantité cruciale D = ad − bc). Dans ce cas, la seconde équation nous donne une valeur pour x2 . En injectant cette valeur dans la première équation, on obtient alors une valeur pour x1 . Il y a donc une et une seule solution de notre système initial, qui s’avère, après calculs, être donnée par ⎞ ⎛ δz1 − βz2 ⎟ ⎜ αδ ⎟. X=⎜ ⎠ ⎝ z2 δ En remplaçant α, β, δ, z1 et z2 par leurs valeurs dans le cas où a est différent de 0 ou dans celui où c est différent de 0, on constate que l’on parvient dans les deux situations à la même formule ⎞ ⎛ dy1 − by2 ⎜ ad − bc ⎟ ⎟ ⎜ X=⎜ ⎟. ⎝ −cy1 + ay2 ⎠ ad − bc 2. δ = 0 et α = 0. Le système se réduit alors à deux équations portant sur x2 qui, selon les valeurs de z1 et de z2 , peuvent être incompatibles (auquel cas le système initial n’a aucune solution) ou bien être compatibles (auquel cas il a une infinité de solutions, puisqu’une fois encore x1 peut prendre n’importe quelle valeur). 3. δ = 0. Si z2 = 0, la seconde équation (et donc le système initial) n’a aucune solution. Sinon, il s’agit de l’équation triviale 0 = 0 qui est toujours satisfaite ; dans ce dernier cas, seule la première équation αx1 + βx2 = z1 compte : elle peut n’avoir aucune solution (c’est le cas si α = β = 0 et z1 = 0) ou au contraire avoir une infinité de solutions (correspondant aux points du plan de coordonnées (x1 , x2 ) qui appartiennent à la droite définie par l’équation αx1 + βx2 = z1 ). 327
Chapitre 9. Calcul matriciel et applications
Voici un résumé des informations que nous venons d’obtenir : Lors de l’étude du système AX = Y (de deux équations et deux inconnues), deux situations sont possibles : 1. Ou bien la quantité D = ad − bc est non nulle, et il y a toujours une et une seule solution au système, donnée par d b D −D . X = BY, avec B = a − Dc D ∗ 2. Ou bien la quantité D = ad − bc est nulle, et il n’y a soit aucune, soit une infinité de solutions, selon les valeurs apparaissant dans le vecteur Y . Il faut noter que, dans 1., nous avons écrit la solution sous la forme d’une multiplication à gauche de Y par une matrice B dont les coefficients sont calculés à partir de ceux de A. Cette matrice jouera un rôle important dans la suite. Contentons-nous pour l’instant de remarquer que l’on a AB = BA = I.
9.3.2. Cas général Les observations que nous venons de faire dans le cas particulier des systèmes à deux équations et deux inconnues se retrouvent mot pour mot dans le cas général des systèmes à n équations et p inconnues. On peut alors énoncer le résultat suivant, dont on trouvera la preuve en annexe de ce chapitre : Seuls les deux cas suivants peuvent se produire pour un système linéaire à n équations et p inconnues de la forme AX = Y : 1. Ou bien le système a une et une seule solution. 2. Ou bien le système n’a aucune ou une infinité de solutions. En outre, dans le cas où A est une matrice carrée (c’est-à-dire lorsque n = p), une information supplémentaire peut-être obtenue : Si A est carrée, la connaissance de la seule matrice A permet de savoir si l’on se trouve dans le cas (i) ou (ii). Dans le cas (ii), c’est la valeur du vecteur Y qui détermine l’existence ou non de solutions. Cet énoncé doit être compris de la manière suivante : si A est une matrice carrée et si l’on sait que l’équation AX = Y pour un certain choix de Y possède 328
9.3. Systèmes linéaires
une et une seule solution, alors pour tout choix de Z, l’équation AX = Z admettra une et une seule solution. Inversement, si l’équation AX = Y n’a pas de solution ou a au moins deux solutions pour un certain choix de Y , alors toutes les équations AX = Z auront soit une infinité de solutions, soit aucune solution. De plus, il existe un algorithme, dit du pivot, qui permet, connaissant la seule matrice A, de déterminer si l’on se situe dans le premier ou le second cas. Le principe de cet algorithme est détaillé en annexe à ce chapitre. Prudence cependant : tout ceci n’est vrai que pour une matrice A carrée !
9.3.3. Matrice inverse Nous avons vu au paragraphe précédent que les systèmes carrés de taille (2, 2) peuvent, dans certains cas, admettre une et une seule solution. En outre, la seule connaissance de la matrice des coefficients A permet de savoir si l’on se trouve dans cette situation d’unicité, et la solution est alors donnée comme la multiplication à gauche du vecteur Y par une matrice B qui ne dépend elle aussi que de A et qui vérifie AB = BA = I. Cette remarque motive l’encadré suivant : L’inverse d’une matrice carrée A, s’il existe, est une matrice carrée B de même taille telle que AB = I et BA = I. Une matrice carrée qui possède un inverse est dite matrice inversible. La matrice B est appelée matrice inverse de A et notée A−1 . Parler de l’inverse d’une matrice qui n’est pas carrée (un vecteur, par exemple...) est absurde : un tel inverse n’existe jamais, pour une simple question de taille (si A n’est pas carrée, on ne peut la multiplier à droite et à gauche par la même matrice B) ! Par ailleurs, il est possible de montrer que si une matrice est inversible, son inverse est unique. Enfin, pour vérifier qu’une matrice carrée A est inversible et que B est l’inverse de A, il suffit en fait de vérifier une seule des deux propriétés AB = I ou BA = I (3) . Passons maintenant aux conséquences de cette définition pour les systèmes linéaires : (3)
Attention : connaître le produit M N ne dit a priori rien sur la valeur de N M (voir l’exercice 1). Néanmoins, si M et N sont carrées et M N = I, il se trouve que cela implique que N M = I, mais la démonstration de cette implication demande plus de bagage mathématique qu’il ne laisse paraître...
329
Chapitre 9. Calcul matriciel et applications
Si A est une matrice carrée inversible, alors, quel que soit Y , le système linéaire AX = Y possède toujours une solution, et cette solution est unique. Réciproquement, si pour tout choix de Y le système linéaire AX = Y possède une et une seule solution, alors la matrice A est inversible. En effet, si A est inversible, on peut vérifier que la matrice X = A−1 Y est une solution du système : A(A−1 Y ) = (AA−1 )Y = IY = Y. De plus, si X est une autre solution, c’est-à-dire si Y = AX , alors A−1 Y = A−1 AX = (A−1 A)X = IX = X , ce qui montre que A−1 Y est la seule solution possible du système(4) . Pour la propriété réciproque (si le système a toujours une et une seule solution, alors la matrice est inversible), nous renvoyons le lecteur à l’exercice 6. Il n’est pas très difficile de savoir si une matrice de petite taille est inversible. Il est en effet possible de calculer une quantité appelée déterminant, qui a le bon goût d’être non nulle si et seulement si la matrice est inversible.
Exemple 7. La matrice de taille (2, 2) A=
ab cd
est inversible si et seulement si son déterminant D = ad − bc est non nul. Son inverse est alors d b − D D . A−1 = a − Dc D Nous avons déjà rencontré ces formules : cet exemple n’est autre qu’une reformulation des observations faites il y a quelques pages lors de la résolution des systèmes linéaires de taille (2, 2). Appliquons-les dans un cas concret : la matrice A= (4)
12 34
Noter que dans la première partie de la preuve, on utilise l’identité AA−1 = I, tandis que la seconde partie exploite A−1 A = I. Les deux conditions énoncées dans la définition de l’inverse sont donc aussi importantes l’une que l’autre.
330
9.4. Applications linéaires
a pour déterminant D = 4 − 6 = −2 qui est non nul. Elle est donc inversible, d’inverse −2 1 A−1 = 3 1 . 2 −2 Cela signifie que chaque équation AX = Y aura une et une seule solution, donnée par X = A−1 Y.
Exemple 8. La matrice de taille (3,3) ⎛ ⎞ ab c A = ⎝d e f ⎠ gh i est inversible si et seulement si son déterminant D = a(ei − f h) − d(bi − ch) + g(bf − ce) est non nul. Le déterminant d’une matrice A est noté det(A). Il est souvent assez facile de le calculer dans le cas général, mais nous n’étudierons ici que des matrices de petite taille. Pour des formules plus générales, nous renvoyons le lecteur à un ouvrage de mathématiques de premier cycle universitaire (voir par exemple [6]).
9.4. Applications linéaires 9.4.1. Définitions Revenons à notre problème initial d’écologie, où la démographie de la population d’insectes au temps T est représentée par un vecteur N (T ) et l’évolution au cours du temps s’écrit N (T + 1) = LN (T ). Cela conduit, comme nous l’avons vu, à la prévision suivante pour l’état de la population k unités de temps après l’instant initial T0 : N (T0 +k) = Lk N (T0 ). En se souvenant qu’un vecteur peut être vu comme une manière (commode) de représenter les coordonnées d’un point de l’espace à n dimensions Rn , l’état de la population à un instant donné correspond donc à un point de Rn et la loi d’évolution (c’est-à-dire le passage du temps T au temps T + 1) à une transformation géométrique, qui consiste à associer au point de coordonnées X un nouveau point dont les coordonnées sont données par LX. Ainsi, étudier l’évolution de la population au cours du temps consiste avant tout à étudier cette transformation et, naturellement aussi, celle associant à un point de coordonnées X0 (les données initiales) le point de coordonnées Lk X0 (l’état 331
Chapitre 9. Calcul matriciel et applications
de la population k unités de temps plus tard). Ces transformations géométriques font partie d’une grande famille, que nous définissons maintenant :
Une application linéaire de Rn dans Rn est une fonction de la forme X −→ AX, où A désigne une matrice carrée, de taille (n, n), fixée.
Autrement dit, se donner une application linéaire de Rn dans Rn revient à se donner un système de coordonnées (ici, le système usuel de coordonnées) et une matrice carrée A. L’image par l’application linéaire d’un point p de Rn de coordonnées données par X n’est autre que le point dont les coordonnées sont données par le résultat de la multiplication AX.
Exemple 9. La matrice de taille (2, 2) suivante A=
1 7 11 9 2
a définit l’application linéaire qui à un point p de coordonnées X = dans R2 b a + 7b associe le point de coordonnées AX = 11 . 9 a + 2b
9.4.2. Changement de repère Notre objectif, à partir de maintenant, consiste à étudier les applications linéaires avec, comme point de mire, le calcul de la puissance k-ème Ak d’une matrice carrée A. Afin d’atteindre cet objectif, il faut tout d’abord bien comprendre que le choix des coordonnées usuelles comme coordonnées de travail est un choix arbitraire, qui n’est pas nécessairement adapté à l’étude de la matrice A considérée. Il nous faut donc apprendre à changer de système de coordonnées. Dans l’espace Rn , se donner un système de coordonnées consiste à se donner un repère constitué de n vecteurs (le repère est aussi appelé repère cartésien ou 332
9.4. Applications linéaires
encore base (5) ). Par exemple, le repère usuel est formé des n vecteurs ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 0 0 ⎜0 ⎟ ⎜1⎟ ⎜0⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ e1 = ⎜0⎟ , e2 = ⎜0⎟ , . . . , en = ⎜ ... ⎟ . ⎜ .. ⎟ ⎜ .. ⎟ ⎜ ⎟ ⎝.⎠ ⎝.⎠ ⎝0⎠ 0 0 1
Imaginons maintenant que nous souhaitions travailler dans un nouveau repère, formé des vecteurs ⎞ ⎞ ⎛ ⎛ u11 u1n ⎜ u21 ⎟ ⎜ u2n ⎟ ⎟ ⎟ ⎜ ⎜ u1 = ⎜ . ⎟ , . . . , un = ⎜ . ⎟ , ⎝ .. ⎠ ⎝ .. ⎠ un1 unn
et considérons un point p de Rn qui a pour coordonnées le vecteur Z dans ce nouveau repère et le vecteur X dans le repère usuel, avec ⎛ ⎞ ⎛ ⎞ x1 z1 ⎜ x2 ⎟ ⎜ z2 ⎟ ⎜ ⎟ ⎜ ⎟ Z = ⎜ . ⎟ et X = ⎜ . ⎟ . ⎝ .. ⎠ ⎝.⎠ zn xn (la situation est illustrée dans la figure 9.1). → Le vecteur qui joint l’origine o à p s’écrit donc op= z1 u1 + . . . + zn un . Mais chacun des vecteurs u1 , . . ., un est lui-même une combinaison des vecteurs du repère usuel. Par exemple, u1 = u11e1 + u21e2 + . . . + un1en , et de même pour u2 , . . . , un , de telle sorte que −→
op = z1 (u11e1 + u21e2 + . . . + un1en ) + . . . + zn (u1ne1 + u2ne2 + . . . + unnen ) .
En regroupant ensemble tous les termes contenant e1 , puis ceux contenant e2 , etc., on parvient finalement à −→
op = (z1 u11 + z2 u12 + . . . + zn u1n ) e1 + . . . + (z1 un1 + z2 un2 + . . . + zn unn ) en .
(5)
Rigoureusement, « repère » et « base » ne désignent pas les mêmes objets mathématiques, mais nous nous permettrons l’abus classique consistant à employer indifféremment l’un ou l’autre de ces termes.
333
Chapitre 9. Calcul matriciel et applications
→
e3 x3
→ u1
p
→
u3
z1
z3 o x2 z2
→
e2
x1
→
u2
→
e1 Figure 9.1. Un point et deux systèmes de coordonnées, avec indication des coordonnées dans chacun des deux repères.
Les coordonnées de p dans le repère usuel sont donc données par le vecteur ⎛ ⎞ ⎛ ⎞ u11 z1 + u12 z2 + . . . + u1n zn x1 ⎜ u21 z1 + u22 z2 + . . . + u2n zn ⎟ ⎜ x2 ⎟ ⎜ ⎟ ⎜ ⎟ X = ⎜ . ⎟ = ⎜ ⎟ = U Z, .. ⎝ ⎠ ⎝ .. ⎠ . xn
un1 z1 + un2 z2 + . . . + unn zn
où U est la matrice dont les colonnes sont données par les coordonnées des vecteurs ui : ⎞ ⎛ u11 u12 · · · u1n ⎜ u21 u22 u2n ⎟ ⎟ ⎜ U =⎜ . .. ⎟ . ⎝ .. . ⎠ un1 un2 · · · unn On voit ainsi le rôle très important joué par la matrice U . De fait, nous admettrons que : Si (u1 , . . . , un ) est une famille de n vecteurs de Rn , elle forme un repère si et seulement si la matrice U formée des coordonnées des vecteurs ui dans le repère usuel est une matrice inversible. 334
9.4. Applications linéaires
Réciproquement, toute matrice inversible U définit un nouveau repère de Rn : les vecteurs de ce nouveau repère sont ceux dont les coordonnées dans le repère usuel sont données par les colonnes de U . Le calcul de changement de repère que nous avons effectué il y a quelques instants peut alors se résumer ainsi : Si (u1 , . . . , un ) est un repère arbitraire de Rn , et si p est un point de Rn , de coordonnées dans le repère usuel données par le vecteur X et de coordonnées dans le nouveau repère données par Z, alors Z = U −1 X. Inversement, on passe des coordonnées Z de p dans le nouveau repère aux coordonnées X de p dans le repère usuel par X = U Z.
Exemple 10. La matrice
U=
1 3 4 −1
est inversible et son inverse est (cf. la règle donnée dans l’exemple 7) ⎛1 3 ⎞ U −1 = ⎝
13 13
4 −1 13 13
⎠.
U définit donc un nouveau repère dont les vecteurs ont pour coordonnées dans le repère usuel 1 3 et u2 = . u1 = 4 −1 1 Si le point p a pour coordonnées X = dans le repère usuel, alors il a pour 1 coordonnées ⎛1 3 ⎞ ⎛4⎞ 13 13 13 ⎠ 1 =⎝ ⎠ Z = U −1 X = ⎝ 1 4 −1 3 13 13
13
dans le nouveau repère des vecteurs u1 et u2 . 335
Chapitre 9. Calcul matriciel et applications
La matrice U et son inverse U −1 sont appelées matrices de changement de repère, ou de changement de base, ou encore matrices de passage. Il est très important de bien veiller à utiliser la bonne matrice au bon moment, afin de ne pas confondre le passage des coordonnées usuelles aux nouvelles coordonnées et vice versa. Notons, pour terminer, qu’il est naturel que la matrice U soit inversible, puisqu’une point de cordonnées X fixées dans le repère usuel a forcément une unique collection de coordonnées Z dans un autre repère. Autrement dit, pour tout X, le système linéaire U Z = X (où Z est l’inconnue) a forcément une et une seule solution, et nous avons vu au paragraphe 9.3.3 que cela implique que U est inversible.
9.4.3. Changements de repère et applications linéaires Revenons maintenant aux applications linéaires, par exemple à celle associée à la matrice de Leslie de notre problème d’écologie X −→ LX, qui permet de prévoir l’état de la population au temps T + 1 connaissant son état au temps T , puisque N (T + 1) = LN (T ). En écrivant cette formule, nous sous-entendons que nous représentons l’état de la population au temps T par un point de Rn , dont les coordonnées dans le repère usuel (e1 , . . . , en ) sont données par le vecteur N (T ). L’action de la matrice L est alors vue comme une transformation géométrique qui associe à un point de Rn (de coordonnées N (T )) un nouveau point de Rn (celui de coordonnées N (T + 1) = LN (T )). Mais, et c’est là le point essentiel de notre raisonnement, il se peut qu’un autre repère de Rn soit mieux adapté. Quelle est alors l’action de la transformation géométrique qui nous intéresse, et comment s’exprime-t-elle dans ces nouvelles coordonnées ? Prenons donc un nouveau repère dont la matrice de passage est U , ce qui signifie, rappelons-le, que le nouveau repère est donné par les colonnes de U dans le système usuel de coordonnées. Un point p de coordonnées Z dans le nouveau repère admet alors comme coordonnées X = U Z dans le repère usuel. Si nous disposons maintenant d’une application linéaire dont la matrice associée est A dans le repère usuel, l’image par cette application de p a pour coordonnées AX (qui n’est autre que AU Z), toujours dans le repère usuel. À partir de ces coordonnées dans le repère usuel, nous voulons connaître les coordonnées de l’image de p dans le nouveau repère. Il suffit pour cela de multiplier par U −1 , et l’on obtient ainsi U −1 AU Z. La matrice U −1 AU permet donc d’obtenir les coordonnées de l’image 336
9.5. Diagonalisation
de p, dans le nouveau repère, à partir des coordonnées Z de ce point dans ce même nouveau repère. Nous retiendrons le principe suivant : Si une application linéaire est donnée par une matrice carrée A dans le repère usuel, alors elle est donnée par la matrice U −1 AU dans le repère formé par les colonnes de la matrice inversible U .
Exemple 11. L’application linéaire associée à la matrice 31 A= 13 ne semble pas si simple... sauf si l’on réalise (voir la suite pour comprendre comment) qu’il faut en réalité l’étudier dans le repère 1 1 , u2 = . u1 = −1 1 De fait, dans ce nouveau repère, l’application linéaire a pour matrice 20 −1 , U AU = 04 c’est-à-dire une matrice diagonale, dont il est très facile de calculer les puissances (voir l’exemple 6).
9.5. Diagonalisation Revenons à nos moutons, ou plutôt à nos insectes. L’état de la population k unités de temps après l’instant initial dépend de la puissance k-ème de la matrice L et nous savons, depuis l’exemple 6 de la page 324, que les puissances d’une matrice diagonale sont faciles à calculer. D’où la question suivante : étant donnée une application linéaire, y aurait-il toujours moyen de choisir un repère dans lequel cette dernière serait exprimée sous la forme d’une matrice diagonale ? Malheureusement, la réponse est « non en général » (comme nous le verrons dans l’exemple 15), ce qui justifie la définition suivante : Soit A une matrice carrée de taille (n, n). S’il existe une matrice inversible U telle que U −1 AU soit diagonale, alors la matrice A est dite diagonalisable. Trouver une matrice inversible U telle que U −1 AU soit diagonale s’appelle diagonaliser la matrice A. 337
Chapitre 9. Calcul matriciel et applications
Si A est diagonalisable, il existe donc une matrice U inversible telle que ⎛
λ1 0 . . . ⎜ 0 λ2 ⎜ U −1 AU = D = ⎜ . ⎝ ..
0 0 .. .
⎞ ⎟ ⎟ ⎟. ⎠
0 0 . . . λn Nous montrerons plus loin que, quel que soit le choix de U inversible telle que U AU −1 soit diagonale, on obtient toujours les mêmes nombres λ1 , λ2 , . . . , λn , éventuellement rangés dans un autre ordre. Noter d’emblée que ces nombres peuvent être nuls et qu’ils n’ont aucune raison d’être tous distincts.
9.5.1. Valeurs propres, vecteurs propres Continuons l’étude d’une matrice carrée A diagonalisable, avec les mêmes notations que dans les paragraphes précédents. Les colonnes de la matrice de passage U peuvent être vues comme les coordonnées (dans le repère usuel) d’un nouveau repère (u1 , . . . , un ) et la matrice D n’est alors autre que l’expression de notre application linéaire dans ce nouveau repère. Le fait que D soit diagonale signifie que les images des extrémités des vecteurs (u1 , . . . , un ) par l’application linéaire sont les extrémités des vecteurs λ1 u1 , . . ., λn un . Ou encore, en notant U1 , . . ., Un les colonnes de la matrice U , AUi = λi Ui
pour tout i = 1, . . . , n.
Cette observation motive la définition générale suivante : Soit une matrice A carrée. Un vecteur non nul X tel que AX = λX (pour un certain nombre réel λ) s’appelle un vecteur propre de A. Le nombre réel λ s’appelle la valeur propre associée à X. Par définition, un vecteur propre est toujours non nul (c’est-à-dire qu’au moins une de ses coordonnées est différente de zéro). En effet, la multiplication de n’importe quelle matrice A par le vecteur nul 0 (le vecteur dont tous les coefficients sont égaux à 0) redonne le vecteur nul. Cela signifie donc que A0 = λ0 pour toute matrice carrée de taille (n, n) et tout nombre λ : si l’on acceptait 0 comme vecteur propre, n’importe quel nombre réel serait une valeur propre associée, et ce concept ne serait donc pas très intéressant (il ne donnerait, en particulier, aucun renseignement sur la matrice A). 338
9.5. Diagonalisation
Cette définition fournit une caractérisation agréable (bien que, pour l’instant, très théorique) des matrices diagonalisables : Une matrice carrée est diagonalisable si et seulement s’il existe un repère formé de vecteurs propres. Diagonaliser une matrice carrée est donc strictement équivalent à trouver un nouveau repère formé de vecteurs propres. Exhiber les valeurs propres d’une matrice carrée quelconque n’est en général pas un travail bien difficile. En effet, qui dit valeur propre λ d’une matrice A dit vecteur propre, et tout multiple (non nul) d’un vecteur propre est également un vecteur propre pour la même valeur propre. En d’autres termes, le système linéaire (A − λI)X = 0 possède une infinité de solutions : la matrice carrée A − λI ne peut pas être inversible, et son déterminant doit donc être nul. Réciproquement, si det(A − λI) = 0, alors la matrice A − λI n’est pas inversible, et l’annexe en fin de chapitre permet de montrer qu’il existe un Y tel que le système linéaire (A − λI)X = Y admette deux solutions différentes X1 et X2 . On constate alors que (A − λI)(X1 − X2 ) = 0, autrement dit que λ est une valeur propre de A puisque X = X1 − X2 n’est pas nul et AX = λX. Ceci fournit donc un moyen très efficace de déterminer les valeurs propres d’une matrice : Les valeurs propres d’une matrice carrée A sont exactement les nombres réels λ qui vérifient det(A − λI) = 0. Il est possible de vérifier, à partir des formules donnant le déterminant d’une matrice (voir de nouveau la référence classique [6], par exemple), que det(A − λI) = c0 + c1 λ + . . . + cn λn , où c1 , . . ., cn ne dépendent pas de λ (uniquement des coefficients de A). Autrement dit, la fonction D(λ) = det(A − λI) est un polynôme en λ de degré n (la taille de la matrice carrée A). Ce polynôme est appelé polynôme caractéristique de la matrice A. L’équation à résoudre pour trouver les valeurs propres de A est donc une équation polynomiale de degré n. Les racines d’une telle équation sont données par des formules exactes jusqu’au degré 4. Au-delà, de telles formules générales n’existent pas (résultat célèbre dû au mathématicien français Evariste Galois vers 1830), mais un ordinateur sait assez bien en donner des valeurs approchées.
Exemple 12. Le nombre réel λ est valeur propre d’une matrice A=
αβ γ δ
339
Chapitre 9. Calcul matriciel et applications
si et seulement si le déterminant de la matrice α−λ β A − λI = γ δ−λ est nul. Ce déterminant s’écrit det(A − λI) = (α − λ)(δ − λ) − βγ = λ2 − (α + δ)λ + (αδ − βγ), qui est bien un polynôme de degré 2 en λ. Trouver les valeurs propres de A revient à résoudre l’équation det(A − λI) = 0, ce qui se fait sans difficulté. Ainsi, 1 −1 si A = , on a 1 4 det(A − λI) = (1 − λ)(4 − λ) + 1 = λ2 − 5λ + 5. La méthode générale de recherche des racines d’un polynôme du second degré aX 2 + bX + c est bien connue (et devrait l’être de tout étudiant de niveau universitaire) : on calcule le √ discriminant Δ = b2 − 4ac. Si celui-ci est positif, les racines Δ . Le discriminant est ici Δ = 52 −4×1×5 = 25−20 = 5, sont alors(6) r± = −b± 2a il est strictement positif et le polynôme admet donc deux racines distinctes, en l’occurrence √ √ 5+ 5 5− 5 et r− = · r+ = 2 2
9.5.2. Diagonalisation en pratique Toutes les matrices ne sont pas diagonalisables. On dispose néanmoins d’un critère utile (admis ici sans démonstration) pour déceler certaines matrices diagonalisables : Une matrice de taille (n, n) qui admet exactement n valeurs propres distinctes est diagonalisable. Dans ce cas, pour obtenir un repère de vecteurs propres de la matrice, il suffit de choisir une famille de n vecteurs comprenant exactement un vecteur propre par valeur propre.
(6)
Si Δ = 0, on obtient une seule racine, dite de multiplicité 2 ou encore racine double. Si Δ < 0, la même méthode fournit également des racines, qui sont alors des nombres complexes.
340
9.5. Diagonalisation
La méthode générale procède, elle, de la manière suivante : Diagonalisation, mode d’emploi : 1. Calcul des valeurs propres : Trouver toutes les solutions λ de l’équation det(A − λI) = 0 (équation polynomiale de degré n). En général, une matrice n’admet pas n valeurs propres distinctes et l’on obtient donc, à l’issue de cette première étape, une liste de r valeurs propres (λ1 , . . . , λr ), avec r ≤ n. 2. Calcul d’une base de vecteurs propres : Pour chaque i entre 1 et r, trouver des vecteurs U1i , . . ., Uii non nuls tels que (A − λi I)Uji = 0 (pour tout j entre 1 et i ), de telle sorte que la matrice U obtenue en juxtaposant les vecteurs U11 , . . ., U11 , . . ., U1r , . . ., Urr , ⎛
⎞
U = ⎝U11 . . . U11 . . . U1r . . . Urr ⎠ , soit inversible (il doit donc y avoir n vecteurs au total). Les vecteurs ainsi obtenus forment alors un nouveau repère et la matrice de passage est la matrice U . Dans le cas où r = n (la matrice a n valeurs propres distinctes), il suffit de trouver un seul vecteur U i par valeur propre. 3. Conclusion : Un succès aux deux étapes précédentes assure que la matrice A est diagonalisable. Le repère adapté à l’étude de A est celui formé par les colonnes de U , et la matrice diagonale associée a pour coefficients diagonaux (λ1 , . . . , λr ), rangés dans le même ordre que les Uji formant les colonnes de U , chaque valeur propre λi étant répétée i fois.
À l’étape 2., lorsque la matrice n’admet pas n valeurs propres distinctes, il faut trouver n vecteurs Uji de telle sorte que la matrice U soit inversible. Cela n’est pas toujours possible, et la méthode échoue précisément à ce stade pour les matrices A qui ne sont pas diagonalisables. Développons un peu ce dernier point : le polynôme caractéristique de A a r racines, avec r < n. Il nous faut alors trouver suffisamment de vecteurs propres pour chacune de ces valeurs propres. Or la méthode du pivot donnée en annexe montre que, à i fixé, l’expression des solutions de chacun des systèmes linéaires (A−λi I)X = 0 contient des coefficients « libres » dont nous pouvons fixer au choix la valeur (voir le paragraphe 9.7 sur la méthode du pivot). Notons mi le nombre de coefficients libres pour la i-ème 341
Chapitre 9. Calcul matriciel et applications
équation (A − λi I)X = 0. Alors, si la somme des mi est strictement inférieure à n, il sera impossible de trouver n vecteurs tels que U soit inversible. Il faut noter que, même lorsque l’on trouve assez de coefficients libres dans la résolution des (A − λi I)X = 0, construire une matrice U inversible avec des colonnes formées de vecteurs propres de A peut être délicat. En revanche, si A admet n valeurs propres distinctes, alors la méthode ne peut pas échouer en vertu du résultat cité plus haut.
Exemple 13. Considérons la matrice de taille (3, 3) ⎛ ⎞ 1 −3 1 A = ⎝0 −1 0⎠ . 0 −3 2 On a
⎛ ⎞ 1 − λ −3 1 A − λI = ⎝ 0 −1 − λ 0 ⎠ 0 −3 2 − λ
et le déterminant de cette matrice peut se calculer à l’aide de la règle donnée dans l’exemple 8 : det(A − λI) = (1 − λ) ((−1 − λ)(2 − λ) − (−3) × 0) = (1 − λ)(2 − λ)(−1 − λ). Les λ qui annulent ce produit sont évidents : λ1 = 1, λ2 = 2 et λ3 = −1. Comme on a 3 valeurs propres distinctes pour une matrice de taille (3, 3), nous savons que cette dernière est diagonalisable. Il suffit alors de trouver des vecteurs non nuls U1 , U2 et U3 solutions de (A − λi I)Ui = 0. On peut résoudre ces systèmes en utilisant l’algorithme du pivot (détaillé en annexe), et l’on trouve (par exemple) ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 1 1 ⎝ ⎠ ⎝ ⎠ ⎝ et U3 = 1⎠ . U1 = 0 , U2 = 0 0 1 1 La matrice de passage entre le repère usuel et le nouveau repère formé de vecteurs propres de A s’écrit donc ⎛ ⎞ 111 U = ⎝0 0 1⎠ , 011 et l’on a ainsi
342
⎛
⎞ 10 0 U −1 AU = ⎝0 2 0 ⎠ . 0 0 −1
9.5. Diagonalisation
Exemple 14. Examinons la matrice
⎛
⎞ 2 −1 1 A = ⎝0 0 2⎠ . 0 −1 3
On trouve det(A − λI) = (2 − λ)((0 − λ)(3 − λ) + 2) = (2 − λ)(λ2 − 3λ + 2). Les λ qui annulent ce déterminant sont λ = 2 et les solutions de l’équation du second degré λ2 − 3λ + 2, à savoir λ = 2 et λ = 1. La matrice A n’a donc que deux valeurs propres distinctes : λ1 = 2 et λ2 = 1. Lorsque l’on cherche les solutions de (A − λ1 I)X = 0, on trouve deux coefficients libres dans la méthode du pivot, et en particulier les solutions ⎛ ⎞ ⎛ ⎞ 0 1 1 1 ⎝ ⎠ ⎝ U1 = 1 et U2 = 0⎠ . 1 0 On ne trouve qu’un coefficient libre lors de la résolution de (A − λ2 I)X = 0, et une solution possible est : ⎛ ⎞ 1 U12 = ⎝2⎠ . 1 On peut alors vérifier (en calculant par exemple son déterminant) que la matrice dont les colonnes sont U11 , U21 et U22 , soit ⎛ ⎞ 011 U = ⎝1 0 2⎠ , 101 est inversible. Cela indique donc que A est bien diagonalisable, avec le repère donné par les colonnes de U comme repère formé de vecteurs propres, et ⎛ ⎞ 200 U −1 AU = ⎝0 2 0⎠ . 001
Exemple 15. Prenons
A=
11 . 01
On trouve det(A − λI) = (1 − λ)2 , qui n’a qu’une seule racine, λ1 = 1. La matrice A − λ1 I est 01 A−I = , 00 343
Chapitre 9. Calcul matriciel et applications
et il est très faciledetrouver toutes les solutions de l’équation (A − I)X = 0 : z il s’agit de X = , où z désigne n’importe quel nombre réel. Les vecteurs 0 propres de A correspondent donc à de tels vecteurs X avec z = 0 (un vecteur propre ne doit pas être le vecteur nul). Pour diagonaliser A, il faudrait que l’on puisse construire une matrice U dont les colonnes soient des vecteurs propres et qui soit inversible. Les seules matrices U que l’on peut créer à l’aide de tels vecteurs propres sont de la forme zz , U= 0 0 avec z et z des nombres réels quelconques et non nuls. Cependant, une telle matrice a pour déterminant 0 (quels que soient les choix de z et z ) et n’est donc ainsi jamais inversible : A n’est pas diagonalisable... Saisissons l’occasion pour mentionner que l’on peut très bien tenter de diagonaliser des matrices dont les valeurs propres sont complexes. Le mode d’emploi énoncé plus haut s’applique mot à mot et, en cas de succès, fournit des matrices de passage à coefficients complexes. Tout cela ne pose aucun problème, et on peut calculer les puissances successives de ces matrices en suivant la méthode des pages précédentes. Cette remarque ne règle hélas pas le cas des matrices non diagonalisables comme dans l’exemple 15.
9.6. Croissance d’une population : une solution Le problème d’écologie qui nous a servi de fil rouge depuis le début de ce chapitre amène à décrire l’évolution démographique de la population d’insectes par la loi N (T + 1) = LN (T ), ⎛ ⎞ n1 (T ) où N (T ) = ⎝n2 (T )⎠ et L est la matrice de Leslie : n3 (T ) ⎛ L=⎝
1 + f 1 − m1 − 1 τ1
0
1 τ1
f2 1 − m2 − 1 τ2
1 τ2
⎞ f3 0 ⎠ . 1 − m3
En désignant par N (0) l’état de la population au temps initial T = 0, nous sommes alors conduits à la formule N (n) = Ln N (0), 344
9.6. Croissance d’une population : une solution
qui donne l’état de la population à l’issue de n unités de temps. Par ailleurs, si L est diagonalisable, il existe une matrice inversible U et une matrice diagonale D telles que U −1 LU = D, soit L = U DU −1 . Dès lors, Ln =
U DU −1
U DU −1 . . . U DU −1 ,
où les trois points signifient que le produit du terme entre parenthèses est effectué n fois. Les matrices U et U −1 situées au milieu du membre de droite s’éliminent entre elles, de sorte qu’il ne reste que Ln = U Dn U −1 . Pour décrire plus précisément les calculs, prenons un exemple (fictif mais pas irréaliste) où l’unité de temps est la semaine, et où les constantes démographiques sont les suivantes : • f1 = 0 (pas de reproduction des larves) ; m1 = 0,25 (faible mortalité) ; τ1 = 4 (les larves deviennent adultes en 4 semaines en moyenne) ; • f2 = 2,25 ; m2 = 0,25 ; τ2 = 4 ; • f3 = 0 ; m3 = 0,75 (les individus âgés ne se reproduisent plus et il y a une forte mortalité en leur sein). Dans ce contexte, la matrice de Leslie s’écrit : ⎛
⎞ 0,5 2,25 0 L = ⎝0,25 0,5 0 ⎠ . 0 0,25 0,25 Il est commode de chercher les valeurs et vecteurs propres de la matrice ⎛ ⎞ 2 9 0 M = 4L = ⎝1 2 0⎠ 0 1 1 plutôt que ceux de L : les vecteurs propres seront alors les mêmes, tandis que les valeurs propres obtenues devront être divisées par 4 pour retrouver celles de L. Un calcul utilisant la formule donnée dans l’exemple 8 de la page 331 montre que le polynôme caractéristique de M est det(M − λI) = −λ3 + 5λ2 + λ − 5. 345
Chapitre 9. Calcul matriciel et applications
Il est facile de voir que λ3 = 1 est racine : de fait, la forme même de la matrice M montre que ⎛ ⎞ 0 ⎝ X3 = 0⎠ 1 est vecteur propre de M pour la valeur propre λ3 = 1. La factorisation du polynôme caractéristique par (1 − λ) donne alors −λ3 + 5λ2 + λ − 5 = (1 − λ)(λ2 − 4λ − 5). Il nous reste donc à résoudre l’équation λ2 − 4λ − 5 = 0. En utilisant la méthode classique du discriminant, on constate que les racines sont λ1 = −1 et λ2 = 5, qui correspondent aux deux autres valeurs propres de M . Au total, nous avons obtenu trois valeurs propres distinctes, ce qui nous assure que la matrice M (et donc aussi L) est diagonalisable. Il ne reste plus qu’à mettre en évidence trois vecteurs propres, c’est-à-dire à trouver des solutions non nulles aux équations (M − λi Xi ) = 0. Effectuons ce calcul pour i = 1 (noter que l’on dispose déjà d’une solution pour i = 3) : on cherche alors une solution non nulle (attention, nous savons qu’il y en a une infinité !) de 2x + 9y = −x x + 2y = −y y + z = −z. Les deux premières équations sont équivalentes et donnent x = −3y, tandis que la troisième s’écrit y = −2z. On peut donc choisir une valeur arbitraire pour z, par exemple z = 1, et en déduire que x = 6 et y = −2 conviennent, soit ⎛ ⎞ 6 ⎝ X1 = −2⎠ 1 (un autre choix pour z aurait conduit à un multiple de ce vecteur propre). Observons au passage qu’il faut s’attendre à avoir au moins un coefficient « libre » puisque nous savons qu’il doit y avoir une infinité de solutions. Un calcul analogue fournit (par exemple, puisque plusieurs choix sont possibles !) ⎛ ⎞ 12 ⎝ X2 = 4 ⎠ 1 346
9.6. Croissance d’une population : une solution
(dans des cas plus compliqués que celui décrit dans cet exemple, on peut éventuellement avoir recours à la méthode de résolution des systèmes linéaires donnée en annexe). Au final, nos matrices de passage s’écrivent ⎞ ⎛ 1 1 − 0 ⎛ ⎞ 12 4 6 12 0 ⎟ ⎜ ⎟ ⎜ −1 1 1 U = ⎝−2 4 0⎠ et U = ⎜ 24 8 0⎟ ⎠ ⎝ 1 1 1 1 1 −8 8 1 (l’inverse de U peut être obtenu en utilisant par exemple la méthode décrite à la fin de l’annexe). On peut vérifier que ⎛ ⎞ ⎛ 1 ⎞ −1 0 0 −4 0 0 U −1 M U = ⎝ 0 5 0⎠ , soit donc U −1 LU = D = ⎝ 0 54 0 ⎠ . 0 01 0 0 14 Si l’on note n1 (0), n2 (0) et n3 (0) (rassemblés dans le vecteur N (0)) les populations de larves, adultes et individus âgés à l’instant initial, on peut calculer N (n) = U Dn U −1 N (0)(7) : n 5 n ⎞ 2 (0) − 14 + n1 (0)+3n 2 4 ⎟ ⎜ ⎟ ⎜ n1 (0)+3n2 (0) 5 n −n1 (0)+3n2 (0) 1 n N (n) = ⎜ ⎟. + − 6 4 6 4 ⎠ ⎝ n1 (0)−3n2 (0) 1 n n1 (0)+3n2 (0) 5 n −n1 (0)+n2 (0)+8n3 (0) 1 n + −4 + 12 24 4 8 4 ⎛
n1 (0)−3n2 (0) 2
Ces calculs sont évidemment (très) fastidieux, mais il est important de les avoir pratiqués un certain nombre de fois afin de bien se familiariser avec la méthode et les concepts sous-jacents. Si l’objectif final est la seule obtention de l’état de la population à une date donnée, ils peuvent évidemment être confiés avec profit à un ordinateur. Essayons maintenant d’aller plus loin : comme les termes en ( 14 )n et (− 14 )n tendent rapidement vers 0 alors que ( 54 )n tend vers l’infini lorsque n devient très grand (voir le paragraphe 1.4.2 du chapitre 1), les calculs précédents montrent que ⎛ ⎞ n ⎜ 5 ⎜ (n1 (0) + 3n2 (0)) ⎜ N (n) 4 ⎝ (7)
1 2 1 6
1 24
⎟ ⎟ ⎟ . ⎠
Faites le calcul !
347
Chapitre 9. Calcul matriciel et applications
Le taux de croissance asymptotique (8) de la population est donc égal à 5/4, qui est la plus grande valeur propre (en valeur absolue) de L. Nous voyons ainsi que la simple connaissance des valeurs propres de la matrice L (ce qui demande beaucoup moins de travail que la diagonalisation complète) permet déjà de récupérer une information de premier plan sur le comportement asymptotique de la population : dans notre cas, le modèle prédit que la pérennité de l’espèce est assurée ! Inversement, le modèle aurait annoncé la disparition à long terme de l’espèce si toutes les valeurs propres avaient été strictement comprises entre −1 et 1. Cette observation est générale : quelles que soient les valeurs précises des coefficients de la matrice L, et que cette matrice soit diagonalisable ou pas, le taux de croissance asymptotique de la population ne peut être plus élevé que la plus grande des valeurs propres de L (notée ici Λ). Ainsi, pour chaque stade i, ni (k) ≤ c|Λ|k , où c est une constante sans grande importance, dépendant de L et N (0) mais pas de k. On peut en fait montrer que le taux de croissance asymptotique est égal à |Λ| pour presque toutes les conditions initiales, mais cette étude plus poussée nous entraînerait bien au-delà des mathématiques enseignées dans ce livre.
9.7. Annexe : la méthode du pivot Nous décrivons dans cette annexe une méthode permettant de résoudre des systèmes linéaires, dite méthode du pivot, due à Johann Carl Friedrich Gauss (1777–1855), un des très grands mathématiciens du XIXe siècle. Partant d’un système AX = Y , avec ⎞ ⎛ a11 · · · a1p ⎟ ⎜ ⎜ .. .. ⎟ ⎜ . ⎟ A=⎜ . ⎟ , ⎠ ⎝ an1 · · · anp
(8)
Le taux de croissance est le rapport entre la taille de la population au temps n + 1 et sa taille au temps n. Ce taux est dit ici asymptotique car il n’est qu’approximatif et cette approximation n’est valable que pour n très grand.
348
9.7. Annexe : la méthode du pivot
nous allons fabriquer un nouveau système triangulaire supérieur équivalent, c’està-dire une matrice du type (selon que n > p, n < p ou n = p) : ⎛
t1 ⎜0 ⎜ ⎜ ⎜ ⎜ ⎜0 ⎜ ⎜0 ⎜ ⎝0 0
∗ ∗ t2 ∗ .. .
∗ ∗ .. .
0 0 tp−1 0 0 0 ··· ···
⎞ ∗ ∗⎟ ⎟ ⎟ ⎟ ⎟ , ∗⎟ ⎟ ⎟ tp ⎟ 0⎠ 0
⎛
t1 ⎜0 ⎜ ⎜ ⎝ 0
∗ ∗ ∗ t2 ∗ ∗ .. .. . . 0 0 tn
⎞
⎛
t1 ∗∗ ⎜0 ⎜ ∗ ∗⎟ ⎜ ⎟ ⎟ ou ⎜ ⎜ ⎠ ⎝0 ∗∗ 0
∗ ∗ t2 ∗ .. .
∗ ∗ .. .
0 0 tn−1 0 0 0
⎞ ∗ ∗⎟ ⎟ ⎟ ⎟. ⎟ ∗⎠ tn
Les coefficients importants sont les coefficients « diagonaux » ti (certains pouvant éventuellement être nuls), les autres étant représentés par des étoiles. L’idée consiste à procéder pas à pas, en faisant d’abord apparaître des zéros dans la première colonne (donc en annulant successivement les coefficients en position (2, 1), puis (3, 1), etc., jusqu’à (n, 1)), puis dans la deuxième colonne, et ainsi de suite jusqu’à épuisement du nombre de colonnes. Chacune des étapes est obtenue en effectuant une combinaison linéaire d’équations, c’est-à-dire, en termes matriciels, à partir d’une combinaison des lignes de la matrice obtenue à l’étape précédente. Nous allons étudier en détail la toute première étape, les suivantes se réalisant de la même manière. L’idée fondamentale s’énonce comme suit : Pour placer un zéro en position (2, 1), il suffit de remplacer la deuxième ligne L1 . L2 par L2 − aa21 11 Autrement dit, on retranche à la deuxième ligne (ou équation) un multiple de la première, spécialement choisi pour annuler le coefficient en position (2, 1), L1 est précisément puisque le premier coefficient de la ligne L2 − aa21 11 a21 −
a21 a11 = 0. a11
Du point de vue des équations, cette opération consiste à remplacer la deuxième équation par a21 x1 + a22 x2 + . . . + a2p xp −
a21 a21 (a11 x1 + a12 x2 + . . . + a1p xp ) = y2 − y1 , a11 a11
autrement dit par a21 a21 a21 a12 x2 + . . . + a2p − a1p xp = y2 − y1 , a22 − a11 a11 a11 349
Chapitre 9. Calcul matriciel et applications
et à laisser inchangées toutes les autres. La nouvelle matrice des coefficients A a donc toutes ses lignes, sauf la deuxième, identiques à celles de A ; le nouveau vecteur Y est également identique à Y sauf en deuxième ligne, où l’on a remplacé y1 . y2 par y2 − aa21 11
Exemple 16. On considère le système AX = Y , avec 1 2 −2 A= et Y = . 3 −1 −1 Si l’on veut annuler par manipulation de lignes le coefficient en position (2, 1) de A, qui vaut 3, il faut soustraire 3 fois la première ligne à la deuxième. On obtient alors : 1 2 −2 et Y = . A = 0 −7 5 La première ligne de la matrice des coefficients reste inchangée, tandis que la deuxième contient un 0 à la place souhaitée. Le système A X = Y est équivalent au système initial AX = Y : toute solution X du premier est solution du second. Deux remarques importantes sont à noter : 1. Pour créer un zéro en deuxième ligne en utilisant la première, il faut que le coefficient a11 soit non nul. Ce coefficient crucial s’appelle un pivot. 2. Le prix à payer lors de cette opération est la modification de toute la deuxième ligne de la matrice A, et pas seulement celle du coefficient situé en tête de cette ligne. Une fois un zéro placé en position (2, 1), nous pouvons placer un zéro en position (3, 1). Il suffit pour cela d’effectuer une opération similaire sur la nouvelle matrice A que nous venons d’obtenir, en remplaçant simplement sa troisième ligne L3 par L1 (toute la troisième ligne est donc modifiée). Une fois encore, cela ne L3 − aa31 11 fonctionne que si le pivot a11 est non nul. En répétant cette opération sur toutes les lignes, on peut finalement faire apparaître des zéros dans toute la première colonne, à l’exception du premier coefficient de la première ligne a11 (le premier coefficient diagonal) qui reste bien entendu inchangé. On peut alors passer à la colonne suivante. Il n’est ici plus question d’utiliser la première ligne pour annuler les coefficients situés en deuxième colonne : en effet, remplacer la ligne Lj par Lj − cL1 (avec c = 0) détruirait instantanément le zéro en première colonne de la ligne j que nous venons péniblement d’obtenir ! Afin de remédier à ce problème, il suffit simplement d’utiliser la deuxième ligne : elle possède un zéro en première position (c’est l’étape précédente), donc le remplacement 350
9.7. Annexe : la méthode du pivot
de Lj par Lj − cL2 ne modifiera pas le coefficient situé en tête de Lj (ce coefficient étant nul grâce à l’étape précédente, il le reste). Une fois encore, le point essentiel est la non-nullité du pivot, qui est ici le coefficient en position (2, 2) de la matrice obtenue à l’étape précédente.
Exemple 17. On part de la matrice ⎛
1 A = ⎝4 7
⎞ 2 3 3 5 6 6⎠ . 8 9 9
On commence par retrancher 4 fois la première ligne à la deuxième, pour obtenir une nouvelle matrice avec une deuxième ligne modifiée : un zéro est apparu en position (2, 1), tandis que les première et troisième lignes sont restées inchangées. On enlève ensuite 7 fois la première ligne à la troisième ligne de cette nouvelle matrice pour en obtenir une avec des zéros en positions (2, 1) et (3, 1). Dans les deux cas, le pivot se trouve en position (1, 1) (nous l’avons encadré), et la matrice obtenue à l’issue de cette première étape possède des zéros sur toute la partie de la première colonne située en dessous de la diagonale : ⎛ 1 ⎝ B = 0 0
2 −3 −6
⎞ 3 3 −6 −6 ⎠ . −12 −12
Il ne reste qu’à annuler le coefficient situé en position (3, 2), en utilisant cette fois-ci le pivot placé en position (2, 2), que nous avons encore une fois encadré. On parvient alors à la matrice ⎛
⎞ 1 2 3 3 C = ⎝0 −3 −6 −6⎠ , 0 0 0 0 qui est bien du type voulu (noter que les zéros souhaités sont les trois qui figurent en gras dans la matrice finale – les deux autres ne sont pas situés en dessous de la diagonale et ils apparaissent « par hasard »). Si le coefficient que nous souhaitons utiliser comme pivot pour annuler une colonne est nul, il faut échanger des lignes entre elles afin de faire apparaître un pivot non nul. Prenons un exemple et essayons d’introduire des zéros dans la 351
Chapitre 9. Calcul matriciel et applications
partie inférieure de la troisième colonne ⎛ c11 ∗ ⎜ 0 c22 ⎜ ⎜0 0 ⎜ C=⎜ 0 0 ⎜ ⎜ . .. ⎝ .. . 0
0
de la matrice suivante : ⎞ ∗ ∗ ··· ∗ ∗ ∗ · · · ∗⎟ ⎟ 0 ∗ · · · ∗⎟ ⎟ c43 ∗ · · · ∗⎟ ⎟ .. .. .. ⎟ . . .⎠ cn3 ∗ · · · ∗
(comme plus haut, nous avons noté par des étoiles tous les coefficients dont la valeur est sans importance). Le pivot « naturel » (le coefficient c33 encadré) est nul. Si d’aventure l’un des coefficients situés en dessous de lui est non nul, disons cj3 , il suffit d’échanger la ligne 3 et la ligne j pour retrouver un pivot non nul. Si, en revanche, tous les coefficients situés sous c33 sont nuls, cela signifie que nous avons déjà tous les zéros que nous souhaitons, et nous pouvons donc passer à la colonne suivante ! En termes d’équations, l’échange de deux lignes consiste simplement à permuter les deux équations concernées, opération évidemment parfaitement anodine. En conséquence, pour un système AX = Y , lorsque l’on échange deux lignes de la matrice A, il ne faut pas oublier d’échanger les deux mêmes lignes du vecteur Y . Ce raisonnement montre donc qu’en utilisant les deux opérations soustraire un multiple d’une ligne à une autre et échanger deux lignes, nous pouvons toujours transformer notre matrice initiale en une matrice triangulaire supérieure T égale à ⎛
t1 ∗ ∗ ⎜ 0 t2 ∗ ⎜ ⎜ .. ⎜ . ⎜ ⎜0 0 0 ⎜ ⎜0 0 0 ⎜ ⎝0 ··· 0 ···
∗ ∗ .. . tp−1 0
⎞ ∗ ∗⎟ ⎟ ⎟ ⎟ ⎟ , ∗⎟ ⎟ ⎟ tp ⎟ 0⎠ 0
⎛ ⎞ ⎛ t1 ∗ t1 ∗ ∗ ∗ ∗ ∗ ⎜ 0 t2 ⎜ ⎜ 0 t2 ∗ ∗ ∗ ∗ ⎟ ⎜ ⎟ ⎜ .. ⎟ ou ⎜ ⎜ .. .. . ⎜ ⎠ ⎝ . . ⎝0 0 0 0 0 tn ∗ ∗ 0 0
∗ ∗
∗ ∗ .. .
0 tn−1 0 0
⎞ ∗ ∗⎟ ⎟ ⎟ ⎟ ⎟ ∗⎠ tn
(selon que n > p, n < p ou n = p) et le vecteur Y initial en un nouveau vecteur Z. Le tout forme alors un nouveau système linéaire T X = Z équivalent au système original AX = Y , mais au sein duquel la matrice des coefficients (la matrice T ) est désormais triangulaire supérieure. Les systèmes du type T X = Z sont faciles à analyser, en résolvant de proche en proche les équations en commençant par la dernière. Effectuons cette opération en détail dans le cas n = p : la dernière équation est alors nécessairement de la forme tn xn = zn ; si tn est non nul cela détermine xn . Passons maintenant à l’avant-dernière équation : tn−1 xn−1 + ∗ xn = zn−1 352
9.7. Annexe : la méthode du pivot
(où ∗ désigne, comme toujours, un nombre réel dont la valeur est sans importance). Si tn−1 est non nul, xn−1 est déterminé en fonction de zn−1 et du xn que l’on vient d’obtenir. En remontant ainsi de proche en proche, on conclut que si aucun des ti n’est nul, la résolution se poursuit jusqu’à déterminer X de manière unique(9) . Un problème survient si l’un des coefficients diagonaux ti vaut 0. À la première occurrence (en partant du bas) d’un tel coefficient, xi+1 , . . . , xn ont déjà été déterminés, et l’équation incriminée s’écrit 0 · xi + ∗ xi+1 + . . . + ∗ xn = zi . Elle ne détermine pas xi et fait peser une contrainte supplémentaire sur les valeurs de xi+1 , . . . , xn déjà calculées. Deux cas se présentent alors : ou bien l’équation ∗ xi+1 + . . . + ∗ xn = zi n’est pas vérifiée et, dans ce cas, le système n’a pas de solution ; ou bien les xi+1 , . . . , xn déjà calculés vérifient bien cette contrainte, et la valeur du coefficient xi est alors libre (pour le moment) : la résolution peut se poursuivre. Si aucun autre coefficient diagonal tj plus haut (c’est-à-dire pour j < i) n’est nul, la valeur des x1 , . . . , xi−1 est entièrement déterminée par celle de xi et des xi+1 , . . . , xn déjà calculés, et notre système admet alors une infinité de solutions (chacune d’entre elles étant donnée par le choix d’une valeur particulière pour xi ). Si, en revanche, on rencontre plus haut un autre coefficient diagonal tj = 0 (avec j < i), il nous faut regarder de près une nouvelle contrainte du type 0 · xj + xj+1 + . . . + xi + . . . + xn = zj (où les coefficients arbitraires sont cette fois notés par des ), qui éventuellement n’est pas vérifiée (auquel cas le système n’aura pas de solution)... ou bien fixe (ou pas) la valeur de xi et crée ainsi une nouvelle variable libre xj . Voyons maintenant tout cela par la pratique.
Exemple 18. Considérons le système T X = Y , avec ⎛ ⎞ ⎛ ⎞ 1 1 1 0 ⎝ ⎠ ⎝ T = 0 0 2 et Y = 4⎠ . 0 0 1 2 La dernière équation de ce système est x3 = 2 et fixe bien le dernier coefficient de X. L’avant-dernière équation est 0 · x2 + 2x3 = 4 et correspond à un coefficient diagonal t2 nul. On regarde alors la contrainte 2x3 = 4 avec le x3 précédemment (9)
On voit au passage qu’une matrice carrée triangulaire supérieure dont tous les coefficients diagonaux sont non nuls est inversible.
353
Chapitre 9. Calcul matriciel et applications
calculé, et l’on constate qu’elle est bien vérifiée. La valeur de x2 est donc libre, et l’on peut continuer la résolution du système avec la première équation : x1 + x2 + x3 = 0, qui donne x1 = −x2 − 2. Les solutions X du système sont donc ⎞ ⎛ −x2 − 2 X = ⎝ x2 ⎠ , 2 où x2 est un coefficient libre (il y a donc une infinité de telles solutions).
Exemple 19. Regardons maintenant T X = Y , avec ⎛ ⎞ ⎛ ⎞ 1 0 0 0 ⎠ ⎝ ⎝ T = 0 0 −1 et Y = 1⎠ . 0 0 1 1 La dernière équation est x3 = 1 et fixe ainsi x3 . L’avant-dernière équation correspond à un coefficient diagonal nul et s’écrit 0 · x2 − x3 = 1 : la contrainte est alors x3 = −1, et elle n’est évidemment pas vérifiée par le x3 fixé par la dernière équation : le système linéaire considéré n’a donc pas de solution.
Exemple 20. En guise de dernier exemple de résolution d’un système triangulaire supérieur, prenons ⎛ ⎞ ⎛ ⎞ 1 1 0 0 0 ⎜0 0 −1 1⎟ ⎜1⎟ ⎟ ⎜ ⎟ T =⎜ ⎝0 0 0 1⎠ et Y = ⎝−1⎠ . 0 0 0 2 −2 La dernière équation donne x4 = −1, et l’avant-dernière 0·x3 + x4 = −1 fournit la contrainte vérifiée x4 = −1, laissant ainsi libre x3 . La pénultième équation s’écrit 0 · x2 − x3 + x4 = 1, ce qui impose la relation −x3 + x4 = 1 tout en laissant libre x2 . Cette dernière relation fixe en fait x3 = −1 + x4 = −2 (x3 était auparavant libre), et l’on peut alors continuer la résolution en regardant la première équation x1 + x2 = 0, qui détermine simplement x1 en fonction de x2 (qui reste libre). Les solutions (il y en a une infinité) du système sont donc ⎞ ⎛ −x2 ⎜ x2 ⎟ ⎟ X=⎜ ⎝ −2 ⎠ −1 avec x2 n’importe quel nombre réel. 354
9.7. Annexe : la méthode du pivot
À l’issue de ces exemples, la conclusion générale est que la résolution d’un système triangulaire supérieur se fait en partant de la dernière équation, tout en se laissant guider par chaque équation l’une après l’autre. Il est inutile, pour la pratique, de retenir les différentes situations théoriques pouvant survenir à chaque étape – il suffit juste d’aviser sur le moment, en étant conscient que chaque nouvelle équation peut soit déterminer une variable, soit laisser une variable libre en donnant une contrainte sur les variables précédemment déterminées ou libres. Les raisonnements précédents nous ont permis, d’une part, de ramener la résolution d’un système général à un système triangulaire supérieur et, d’autre part, de comprendre la méthode générale de résolution de ces systèmes particuliers. Ils conduisent à la constatation suivante : si A est une matrice carrée : 1. Ou bien le système linéaire AX = Y a une et une seule solution. 2. Ou bien l’une des deux situations suivantes se produit : soit le système AX = Y n’a aucune solution, soit le système AX = Y admet une infinité de solutions. Savoir si l’on est dans le cas 1 ou 2 ne dépend que de la matrice A, pas du vecteur Y : il suffit en effet de connaître les coefficients diagonaux ti de T , et ceux-ci ne dépendent que de A. Si ces coefficients sont tous non nuls, le système AX = Y sera toujours dans le cas 1, quelle que soit la valeur de Y . En revanche, si l’un des ti est nul, on se trouve dans le cas 2, et l’existence ou non de solutions dépend de la valeur de Y (10) . Le cas où n n’est pas égal à p est similaire et est laissé au lecteur. La seule différence (importante) est que l’on ne peut pas conclure à l’existence d’une unique solution à partir de la seule connaissance de la matrice A : en effet, si par exemple n < p, la dernière équation peut-être de la forme tn xn + ∗ xn+1 + . . . + ∗ xp = zn , et créer ainsi des coefficients libres (les xn+1 , . . ., xp ), alors même que tn est différent de 0. (10)
C’est la valeur précise des coefficients de Y qui permet de savoir si les contraintes de la forme 0 · xi + ∗ xi+1 + . . . + ∗ xn = zi sont ou non vérifiées. Noter que si ces contraintes sont effectivement vérifiées, la situation peut être fort compliquée à la fin de la résolution, avec un ou plusieurs coefficients libres (un ou plusieurs « degrés de liberté »...), mais l’on aura toujours une infinité de solutions. En revanche, il suffit qu’une contrainte ne soit pas vérifiée pour affirmer que le système n’a pas de solution.
355
Chapitre 9. Calcul matriciel et applications
Application : calcul de l’inverse d’une matrice carrée Trouver l’inverse d’une matrice carrée A que l’on sait déjà inversible consiste à résoudre explicitement tous les systèmes linéaires de la forme AX = Y et à écrire leurs solutions sous la forme X = A−1 Y . Or la méthode du pivot fournit une matrice T triangulaire supérieure et tout système AX = Y est alors transformé en un système équivalent T X = Z, que l’on sait résoudre facilement : le fait que A soit inversible assure en effet que tous les coefficients diagonaux de T sont non nuls. Il suffit donc de résoudre AX = Y avec ⎛ ⎞ y1 ⎜ .. ⎟ Y =⎝ . ⎠ yn (où les y1 , . . . , yn n’ont pas de valeur spécifiée) grâce au pivot, ce qui fournit les coefficients de X comme des combinaisons linéaires des yj . Il ne reste plus qu’à transcrire ces dernières équations sous forme matricielle, c’est-à-dire à les voir comme X = A−1 Y , ce qui détermine les coefficients de A−1 .
Exemple 21. Appliquons cette méthode pour calculer l’inverse de ⎛ ⎞ 0 1 1 A = ⎝0 1 0 ⎠ 1 0 −1 (le déterminant de cette matrice est égal à −1, donc on sait qu’elle est inversible). Pour cela, on cherche à résoudre, pour Y un vecteur générique, l’équation AX = Y et à exprimer les coefficients de X en fonction de ceux de Y . Pour appliquer la méthode du pivot, on doit d’abord permuter la première et dernière ligne de A (pour faire apparaître un coefficient non nul sur la première position de la première ligne). On se ramène donc au système ⎧ ⎨ x1 + 0 · x2 + (−1) · x3 = y3 0 · x1 + x2 + 0 · x3 = y2 ⎩ 0 · x1 + x2 + x3 = y1 . Comme on a déjà des 0 sous le premier coefficient de la première colonne, on traite directement la deuxième colonne : on fait apparaître un 0 en troisième position de cette colonne en retranchant la deuxième équation à la troisième : ⎧ ⎨ x1 + 0 · x2 + (−1) · x3 = y3 0 · x1 + x2 + 0 · x3 = y2 ⎩ 0 · x1 + 0 · x2 + x3 = y1 − y2 . 356
9.8. Exercices
Il ne reste plus ensuite qu’a calculer (x1 , x2 , x3 ) en fonction de (y1 , y2 , y3 ) en remontant ce système triangulaire : x3 = y1 − y2 , x2 = y2 et x1 = y3 + x3 = y3 + y1 − y2 . Ces équations peuvent s’écrire X = A−1 Y , avec ⎛ ⎞ 1 −1 1 A−1 = ⎝0 1 0⎠ . 1 −1 0
9.8. Exercices
Exercice 1 (Produit de matrices) On prend M =
14 0 2 et N = . 32 −1 1
Calculer les produits M N et N M . Que constate-t-on ?
Exercice 2 (Inverses de matrices) Dire si les matrices suivantes sont inversibles et, dans l’affirmative, calculer leurs inverses : 11 1 1 4 − 12 12 et A4 = , A2 = , A3 = . A1 = 8 −1 11 1 −1 34 Exercice 3 (Matrice de variance-covariance empirique) On considère un échantillon de n prélèvements d’un produit chimique sur lequel on recueille p variables (par exemple le poids, la concentration, le pH, la température, etc.). Ces informations sont rassemblées dans une matrice X à n lignes et p colonnes dont le coefficient en position (i, j) représente la valeur de la j-ème caractéristique du i-ème prélèvement. On note tX (transposée de X) la matrice de taille (p, n) dont le coefficient en position (i, j) est xji . 1. Montrer que les moyennes de chaque variable sont collectées dans le vecteur G = n1 tXI (I désigne le vecteur dont tous les coefficients sont égaux à 1). Le point g de Rp de coordonnées G est dit point moyen ou centre de gravité. Que représente la matrice Y = X − ItG ? 2. On pose V = n1 tXX − GtG. Calculer les coefficients de V et expliquer pourquoi la matrice V est appelée matrice de variance-covariance empirique (voir aussi le paragraphe 7.3.3 du chapitre 7 à ce sujet). 3. Montrer que V = n1 t Y Y (on pourra utiliser le fait que, pour deux matrices A et B de même taille, t(A+B) = tA+tB ; lorsque les tailles de A et B sont compatibles de sorte que le produit AB existe, on a aussi t(AB) = tB tA ).
Exercice 4 (Changement de repère) Écrire les matrices de changement de repère permettant de passer du repère usuel au repère donné par 1 −1 et u2 = . u1 = 1 1 357
Chapitre 9. Calcul matriciel et applications
Exercice 5 (Diagonalisation) Déterminer si les matrices suivantes sont diagonalisables et, si oui, les diagonaliser : A=
11 11
⎛
et
⎞ −1 0 0 B = ⎝ 0 −1 0⎠ . 2 −2 1
Exercice 6 (Inversibilité et solvabilité de systèmes) Soit A une matrice carrée (n, n). On suppose que, pour tout vecteur Y , le système AX = Y admet une et une seule solution. On souhaite montrer que A est inversible. Pour cela, pour chaque vecteur ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 1 0 0 ⎜0⎟ ⎜1⎟ ⎜0⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟ e1 = ⎜ . ⎟ , e2 = ⎜ . ⎟ , . . . , en = ⎜ . ⎟ . . ⎝.⎠ ⎝.⎠ ⎝ .. ⎠ 0 0 1 du repère usuel, on note Bj l’unique solution de ABj = ej et B la matrice carrée dont les colonnes sont B1 , . . . , Bn . 1. Montrer, en écrivant la définition du produit matriciel et grâce au choix particulier des Bj , que AB = I. 2. Conclure que A est inversible.
Exercice 7 (Dynamique discrète) On considère la population d’un pays, divisée en une population rurale et une population urbaine. On note R(n) et U (n) les populations rurales et urbaines à l’année n, a le taux d’exode rural et b le taux d’exode urbain annuels (supposés constants). 1. Montrer que ce modèle conduit aux équations R(n + 1) = (1 − a)R(n) + bU (n), U (n + 1) = aR(n) + (1 − b)U (n). 2. Écrire les deux équations précédentes sous forme matricielle. Diagonaliser la matrice obtenue en prenant a = 0,2 an−1 et b = 0,1 an−1 (pourquoi ces unités ?). En déduire alors l’expression de R(n) et U (n) pour tout n.
358
Exercices
Exercice 8 (Étude asymptotique d’une démographie) On considère une population d’animaux sauvages divisée en deux classes d’âge (les jeunes et les adultes), et l’on appelle ni (t) (i = 1,2) le nombre d’individus dans la i-ème classe d’âge au temps t, fi la natalité des individus de la classe i, p1 la proportion d’individus passant de la classe 1 à la classe 2, et mi le taux de mortalité de chaque classe d’âge par unité de temps. 1. Rappeler pourquoi P (t + 1) = AP (t), avec n1 (t) f 1 + 1 − m1 − p 1 f 2 P (t) = et A = . p1 1 − m2 n2 (t) En déduire que P (T ) = AT P (0) si T est un nombre entier d’unités de temps. 2. On prend ici f1 = 0, p1 = 1/2, m1 = 1/4, f2 = 2 et m2 = 3/4. Exprimer P (T ) pour des données initiales P (0) générales. 3. Montrer que, avec les choix précédents de f1 , p1 , m1 , f2 et m2 , pour toute donnée initiale P (0) non nulle, la limite quand T tend vers l’infini du ratio nombre d’individus jeunes au temps T nombre total d’individus au temps T a , où a et b sont les coefficients du est toujours la même, égale à a+b vecteur propre X+ correspondant à la valeur propre la plus élevée de A (ces coefficients ne dépendent donc pas de P (0)...).
Exercice 9 (Dynamique discrète bis) Une équipe de chercheurs étudie, année après année, des populations d’oiseaux dans un écosystème isolé. 1. Une première population a les caractéristiques démographiques suivantes : les oiseaux sont adultes au bout d’un an, le sex-ratio est équilibré à la naissance, chaque année 40 % des femelles de plus d’un an pondent en moyenne un œuf, le taux de survie entre 0 et 1 an est de 0,5 et il est de 0,4 au-delà d’un an. Modéliser l’évolution démographique de la population d’oiseaux. 2. On suppose qu’à t = 0, on a observé dans une vallée 200 adultes et 50 jeunes. La population va-t-elle s’éteindre ? Si oui, au bout de combien de temps environ ? 3. Une deuxième espèce a une démographie plus complexe, car il faut distinguer les oiseaux dont l’âge est compris entre 1 et 2 ans de ceux de plus de 2 ans. En revanche, les oiseaux sont toujours adultes au bout d’un an, les taux de survie sont toujours de 0,5 entre 0 et 1 an et de 0,4 au-delà 359
Chapitre 9. Calcul matriciel et applications
d’un an, mais seulement 20 % des femelles entre 1 et 2 ans et 60 % des femelles au-delà de 2 ans se reproduisent, pondant en moyenne 4 œufs par an, indépendamment de leur âge (le sex-ratio est toujours équilibré). Comment le modèle ci-dessus est-il modifié ?
Exercice 10 (Comptage d’individus dans une population) On étudie trois populations d’oiseaux à partir d’observations rapides effectuées sur le terrain, en connaissant à l’avance les caractéristiques suivantes : la population 1 et les mâles des populations 2 et 3 ont un plumage rouge, les oiseaux de la population 1 mangent deux fois plus que ceux de la population 3 et ceux de la population 2 trois fois plus. Déterminer le nombre d’individus dans chaque population, sachant que l’on a observé au total 282 oiseaux, dont 200 à plumage rouge, que la consommation journalière de nourriture est la même que celle consommée en un jour par 424 oiseaux de la population 3 et que le ratio mâles/femelles est de 1 dans les trois populations. Exercice 11 (Résolution d’un système linéaire) On considère les deux matrices ⎛ ⎞ ⎛ ⎞ 1 1 2 −4 1 t ⎜ 0 1 1 −2 1⎟ ⎜u⎟ ⎟ ⎜ ⎟ A=⎜ ⎝ 1 0 1 −2 0⎠ et Y = ⎝ v ⎠ . −2 2 0 0 1 w Déterminer à quelles conditions sur (t, u, v, w) le système AX = Y admet une unique solution, une infinité de solutions, ou pas de solution du tout.
360
10 ÉQUATIONS DIFFÉRENTIELLES COUPLÉES ET SYSTÈMES DYNAMIQUES
10.1. Problème : concentration d’un composé injecté dans le sang Le traitement d’une maladie impose bien souvent d’injecter dans le sang des patients un médicament, qui est ensuite véhiculé via la circulation sanguine jusqu’à l’organe cible. Afin d’optimiser le traitement et de réduire sa nocivité, il est essentiel de connaître la manière dont le composé thérapeutique se répand, quelles sont les concentrations atteintes dans la circulation et dans l’organe cible, et la vitesse à laquelle l’ensemble des phénomènes se produit. La collecte de ces informations sert par la suite à déterminer les doses de produit à injecter, tout en permettant d’adapter le protocole (injections périodiques ou perfusion continue, par exemple).
10.1.1. Phénomène à temps discret ou à temps continu ?
Les phénomènes que nous avons étudiés dans le chapitre 9 revêtent naturellement un caractère discret, c’est-à-dire qu’ils se réalisent, et peuvent être efficacement décrits de manière pertinente, avec un temps discret (le rythme naturel de la reproduction, le temps de passage d’une classe d’âge à une autre, etc.). La modélisation naturelle de ces phénomènes consiste alors à représenter les différentes
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
quantités dont on souhaite suivre l’évolution au cours du temps par des vecteurs ⎞ ⎛ n1 (t) ⎟ ⎜ N (t) = ⎝ ... ⎠ np (t) dépendant du temps, mais où t ne peut prendre comme valeurs que des multiples entiers d’une unité naturelle (de temps), typiquement la période de répétition du phénomène considéré. L’évolution temporelle du phénomène est alors représentée par une loi du type N (t + 1) = AN (t), et le chapitre 9 nous a appris comment calculer N (t) dans de nombreux cas. Les phénomènes que nous rencontrerons dans le présent chapitre sont d’une toute autre nature et relèvent du monde de la modélisation à temps continu : ils se déroulent en continu (comme leur nom l’indique) et il est peu recommandé, voire franchement contre-indiqué, de tenter de les décrire en divisant artificiellement le temps en unités particulières. De fait, les quantités que nous allons étudier, en l’espèce les concentrations de la substance thérapeutique dans le sang et les tissus (notées plus loin cS (t) et cT (t)), sont des fonctions dont le domaine de définition est (a priori ) l’ensemble des nombres réels positifs [0 ; +∞[. La modélisation des phénomènes physiques associés à ces quantités conduit alors naturellement à des équations différentielles. Nous avons déjà rencontré cette notion dans le chapitre 8, mais la nouveauté du présent chapitre réside dans le fait que nous allons étudier des situations où plusieurs objets (il s’agira ici de substances chimiques, mais il pourrait tout aussi bien s’agir de populations, par exemple) interagissent entre eux.
10.1.2. Systèmes couplés d’équations différentielles Un modèle théorique couramment utilisé pour décrire le problème pharmacologique qui nous intéresse est celui dit du « système à compartiments », où l’on étudie l’évolution au cours du temps des concentrations du médicament dans deux « compartiments » : le sang et les tissus de l’organe cible. Ces deux entités biologiques sont séparées par une membrane perméable, qui réagit différemment selon le sens de passage des composés qui la traversent. Nous pouvons par exemple supposer que, par unité de temps, une proportion a de la substance présente dans le sang est absorbée par les tissus, tandis qu’une proportion r de cette même substance, déjà absorbée par les tissus, est relâchée dans le sang. On peut enfin également imaginer qu’une proportion e de la substance est éliminée du sang durant la même unité de temps (par les mécanismes naturels d’évacuation, comme par exemple les urines). Nous devons par ailleurs tenir compte de l’action de 362
10.2. Systèmes d’équations différentielles linéaires du premier ordre
l’équipe médicale, qui injecte le médicament à un débit constant d (qui peut être nul s’il a été jugé préférable de procéder à une injection ponctuelle plutôt qu’à une perfusion). La modélisation dont nous venons de mettre en place les premiers éléments est entièrement similaire à celles que nous avons déjà rencontrées dans le chapitre 8, et il n’est donc pas étonnant que la démarche que nous allons maintenant suivre en soit très fortement inspirée. Elle consiste à faire un bilan des phénomènes entre deux instants t et t + δt supposés très proches (ou, dit autrement, en supposant l’intervalle de temps δt très petit). Entre ces deux instants, l’évolution de la concentration du médicament dans le sang est la suivante : cS (t + δt) cS (t) − acS (t)δt + rcT (t)δt − ecS (t)δt + dδt, tandis que l’évolution de la concentration dans le tissu se comporte comme suit : cT (t + δt) cT (t) + acS (t)δt − rcT (t)δt. En retranchant cS (t) ou cT (t) à chaque équation, en divisant par δt et en faisant tendre ce terme vers 0 (cf. le chapitre 8), nous parvenons donc à une modélisation du processus qui nous intéresse sous la forme : cS (t) = −(a + e)cS (t) + rcT (t) + d cT (t) = acS (t) − rcT (t). Notre objectif consiste à comparer les efficacités respectives de la perfusion et de l’injection ponctuelle. Pour ce faire, nous avons besoin de calculer de manière précise les solutions des équations que nous venons d’obtenir, dans les deux situations suivantes : perfusion : cS (0) = cT (0) = 0 et d = 0 ; injection ponctuelle : cS (0) = c0 , cT (0) = 0 et d = 0. Notre problème est désormais traduit en termes mathématiques, et la question est alors la suivante : trouver les solutions des équations dans les deux cas d’intérêt.
10.2. Systèmes d’équations différentielles linéaires du premier ordre De très nombreux phénomènes naturels (comme l’exemple de pharmacologie que nous venons d’analyser, mais il en existe beaucoup d’autres en biologie des populations, ou encore en chimie...) peuvent être modélisés par des systèmes d’équations différentielles. 363
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
Un système d’équations différentielles linéaires d’ordre 1 à coefficients constants est une famille de n équations portant sur n fonctions h1 (t), . . . , hn (t) (les inconnues du système, quantités dont on souhaite étudier l’évolution au cours du temps), de la forme suivante : h1 (t) = a11 h1 (t) + a12 h2 (t) + . . . + a1n hn (t) + b1 (t) h2 (t) = a21 h1 (t) + a22 h2 (t) + . . . + a2n hn (t) + b2 (t) .. . hn (t) = an1 h1 (t) + an2 h2 (t) + . . . + ann hn (t) + bn (t). Ces équations se rencontrent lors de l’étude de systèmes dont les différents constituants (substances chimiques, populations, classes d’âge, etc.) évoluent en interaction les uns avec les autres. Les coefficients a11 , a12 , . . . , a1n , . . . , ann sont imposés par les caractéristiques du système étudié, dont ils représentent en général les interactions internes (c’est-à-dire les relations entre ses différents constituants). Dans ce chapitre, nous supposerons que ces coefficients n’évoluent pas au cours du temps, autrement dit que chacun des aij est une constante. Comme dans le modèle décrit en introduction du chapitre, où elles représentent l’apport extérieur de la substance étudiée dans chacun des compartiments, les fonctions b1 (t), b2 (t), . . . , bn (t) modélisent plutôt les interactions du système avec le monde extérieur(1) . La difficulté qui survient lorsque l’on cherche à résoudre un tel système réside dans le couplage des équations entre elles : la première est en effet une équation différentielle en la fonction inconnue h1 dont le second membre fait intervenir les autres inconnues h2 , h3 , . . . , hn . Résoudre cette équation nécessiterait donc de disposer de formules explicites pour les autres inconnues, et donc d’avoir résolu les deuxième, troisième... et n-ème équations. Comme chacune de ces n équations fait (a priori ) intervenir la fonction h1 , cette stratégie s’avère donc impossible à mettre en œuvre ! Afin de résoudre le système, il faut au contraire utiliser une méthode globale, qui traite toutes les équations simultanément plutôt que d’essayer de les résoudre séparément. Comme dans le cas des systèmes dynamiques à temps discret, que nous avons étudiés au chapitre précédent, le système d’équations différentielles qui nous préoccupe peut être mis sous forme matricielle, en définissant la matrice des coefficients, le vecteur des fonctions inconnues et le vecteur (1)
Comme toutes les phrases générales, celles-ci souffrent de nombreuses exceptions. Elles constituent néanmoins un guide utile pour la pensée.
364
10.2. Systèmes d’équations différentielles linéaires du premier ordre
des seconds membres comme : ⎞ ⎛ ⎞ ⎛ ⎞ ⎛ b1 (t) a11 . . . a1n h1 (t) ⎜ .. ⎟ , X(t) = ⎜ .. ⎟ et B(t) = ⎜ .. ⎟ . A = ⎝ ... ⎝ . ⎠ ⎝ . ⎠ . ⎠ an1 . . . ann hn (t) bn (t) Nos équations peuvent alors être récrites sous la forme déjà plus sympathique d’une seule et unique équation : X (t) = A X(t) + B(t).
Exemple 1. (Concentration d’un composé... suite). Rappelons les deux équations obtenues dans l’introduction du chapitre, portant sur la concentration du médicament dans le sang et les tissus, et qui s’écrivent sous la forme cS (t) = −(a + e)cS (t) + rcT (t) + d cT (t) = acS (t) − rcT (t). Ces deux équations se traduisent sous forme matricielle en utilisant les matrices X(t) =
−(a + e) r d cS (t) , A= et B(t) = . a −r 0 cT (t)
Afin de mieux guider la pensée, il peut être utile de raisonner de manière géométrique, comme nous l’avons d’ailleurs déjà fait à plusieurs reprises. À chaque instant t, le vecteur X(t) (c’est-à-dire les fonctions h1 (t), . . . , hn (t)) peut être appréhendé comme le vecteur des coordonnées d’un point de l’espace Rn . La fonction qui associe au temps t les coordonnées X(t) est donc une courbe tracée dans l’espace, telle que nous l’avons déjà définie dans le chapitre 2, et le vecteur X (t) n’est autre que le vecteur tangent à la courbe à l’instant t, c’est-à-dire au point de coordonnées X(t). Cette situation est illustrée à la figure 10.1. Demander que la courbe soit solution d’une équation différentielle peut alors s’exprimer de la manière très générale suivante : la courbe de coordonnées t −→ X(t) est solution d’une équation différentielle si et seulement si, en chaque point de la courbe, le vecteur tangent X (t) est donné par une formule ne faisant intervenir que le point où l’on se situe et l’instant où l’on y passe. Le lecteur notera que cette définition (géométrique) d’une équation différentielle recouvre en fait une vaste famille d’équations, plus générales que les seules équations différentielles linéaires du premier ordre. Toute équation du type X (t) = Φ(X(t), t), où Φ est une fonction associant à un point de coordonnées Y et à un temps s un vecteur 365
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
X(t0 ) = (h1 (t0 ), h2 (t0 ), h3 (t0 )) X (t0 ) = (h1 (t0 ), h2 (t0 ), h3 (t0 )) O
Figure 10.1. Une courbe dans l’espace et un vecteur tangent, représenté deux fois : à partir de l’origine du repère, et à partir du point de coordonnées X(t) où il est tangent à la courbe (cette figure est identique à la figure 2.2 du chapitre 2).
Φ(Y, s), peut en effet se décrire de cette manière. Dans le cas linéaire du premier ordre, la fonction Φ est simplement donnée par Φ(Y, s) = AY + B(s), de telle sorte que X (t) = Φ(X(t), t) s’écrit bien X (t) = AX(t) + B(t). Nous reviendrons sur ce point dans le paragraphe 10.5.
10.2.1. Existence et unicité des solutions Comme dans le chapitre 8 (voir en particulier le paragraphe 8.4), la connaissance complète des solutions du système d’équations différentielles est subordonnée à la donnée des conditions initiales, qui précisent l’état du système à l’instant initial. Dans notre cadre, il s’agit d’un vecteur ⎛
⎞ m1 ⎜ ⎟ X0 = ⎝ ... ⎠ mn qui, dans l’exemple pharmacologique, représente la concentration des différentes substances présentes dans le corps lors de la première analyse de sang. 366
10.2. Systèmes d’équations différentielles linéaires du premier ordre
Une fois ces conditions initiales disponibles et fixées, le résultat le plus important de la théorie est connu sous le nom de théorème de Cauchy-Lipschitz pour les équations linéaires. Il s’énonce de la façon suivante : (Théorème de Cauchy-Lipschitz pour les équations linéaires) Soit A une matrice, B : I → Rn une fonction continue définie sur un intervalle I de R, et t0 un instant initial appartenant à I. Étant donnée une condition initiale X0 , il existe une et une seule solution X : I → Rn du système d’équations différentielles linéaires X (t) = A X(t) + B(t) vérifiant la condition initiale X(t0 ) = X0 . Il est instructif de remarquer que, dans le cas n = 1, les paragraphes 8.2 et 8.4 donnent une preuve de ce théorème. En effet, le raisonnement que nous avons mené fournit alors (lorsque n = 1) les expressions de toutes les solutions d’une équation différentielle linéaire (à coefficients constants ou variables, d’ailleurs) : ces expressions assurent d’une part que de telles solutions existent et, d’autre part, que chacune de ces solutions est entièrement connue dès que l’on connaît sa valeur à l’instant initial. Nous ne démontrerons pas le théorème de Cauchy-Lipschitz pour les équations linéaires dans le cas général n ≥ 2 (nous renvoyons à [5] pour une preuve). Il est néanmoins très intéressant d’observer que ce théorème affirme non seulement l’existence et l’unicité d’une solution pour des temps proches du temps initial, mais aussi que la solution existe sur tout l’intervalle de temps où l’équation garde un sens (c’est-à-dire l’intervalle où la fonction B est définie). Ce résultat est loin d’être trivial et ne s’étend pas à des cas plus généraux : le lecteur pourra se rappeler l’exemple 13 du chapitre 8, qui décrit une équation différentielle dont la solution peut « cesser » d’exister à un certain temps (alors même que l’équation garde un sens pour tout temps). Le théorème de Cauchy-Lipschitz pour les équations linéaires permet de s’assurer que ce genre de phénomène ne se produit pas pour les systèmes d’équations différentielles linéaires.
10.2.2. Résolution pratique Comme dans le chapitre 9, l’idée pour résoudre le système d’équations différentielles consiste à réaliser un changement de coordonnées. Prenons donc un nouveau repère de l’espace Rn . Nous savons depuis le chapitre 9 qu’une matrice de passage U inversible est associée à ce repère, matrice dont les colonnes ne sont autres que les expressions des vecteurs formant le nouveau repère dans les coordonnées liées au repère initial. Nous avons vu que l’état X(t) du système au temps t peut être vu comme les coordonnées d’un point dans le repère usuel 367
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
de Rn . Dans le nouveau repère formé par les colonnes de U , ce point aura pour coordonnées G(t) = U −1 X(t), les nouvelles coordonnées étant (par exemple) notées ⎛ ⎞ g1 (t) ⎜ ⎟ G(t) = ⎝ ... ⎠ . gn (t) Mais quelles sont alors les équations vérifiées par ces nouvelles fonctions ? Pour les trouver, il suffit de calculer la dérivée de chaque coordonnée gi (t) de G(t) = U −1 X(t), en utilisant le fait que les coefficients de U −1 ne dépendent pas de t. On obtient ainsi : G (t) = U −1 X (t) = U −1 A X(t) + U −1 B(t) , ce qui s’écrit aussi G (t) = U −1 AU G(t) + U −1 B(t) . Mais dès lors, quelle forme choisir pour la matrice de passage U afin que la matrice U −1 AU soit la plus simple possible ? Instruits par l’expérience, nous pouvons deviner que rendre U −1 AU diagonale nous simplifierait considérablement la tâche. De fait, un système d’équations différentielles dont la matrice des coefficients est diagonale est facile à résoudre : si X (t) = AX(t) + B avec ⎞ ⎞ ⎛ ⎛ b1 (t) λ1 0 . . . 0 ⎜ b2 (t) ⎟ ⎜ 0 λ2 0⎟ ⎟ ⎟ ⎜ ⎜ et B = A=⎜ . ⎟ ⎜ .. ⎟ , .. ⎠ ⎝ ⎝ .. . . ⎠ 0 0 . . . λn
bn (t)
alors les équations correspondantes s’écrivent h1 (t) = λ1 h1 (t) + b1 (t) h2 (t) = λ2 h2 (t) + b2 (t) .. . hn (t) = λn hn (t) + bn (t). Dans ce cas de figure, nous nous trouvons simplement en présence de n équations totalement indépendantes, chacune d’entre elles ne faisant intervenir qu’une et une 368
10.2. Systèmes d’équations différentielles linéaires du premier ordre
seule des fonctions inconnues hi . Nous dirons alors que le système est découplé, et ces équations peuvent être résolues avec les méthodes déjà connues (voir le chapitre 8). En conclusion, et de façon tout à fait analogue au chapitre 9, la facilité avec laquelle nous pouvons résoudre un système diagonal nous conduit, dans le cas général, à rechercher une matrice inversible U telle que U −1 AU soit une matrice diagonale, et donc à diagonaliser la matrice A. Si U −1 AU est une matrice diagonale D, le vecteur des nouvelles fonctions inconnues G(t) = U −1 X(t) vérifie alors G (t) = D G(t) + U −1 B(t), et nous sommes ainsi ramenés au cas d’un système découplé d’équations différentielles : g1 (t) = λ1 g1 (t) + e1 (t) g2 (t) = λ2 g2 (t) + e2 (t) .. . gn (t) = λn gn (t) + en (t) (comme précédemment, les gi (t) sont les fonctions apparaissant dans les coordonnées de G(t), ei (t) celles de U −1 B(t) et λi les coefficients diagonaux de D). Pour résoudre l’équation X (t) = AX(t) + B(t) si A est diagonalisable, il faut : 1. Diagonaliser la matrice A, ce qui fournit une matrice U telle que D = U −1 AU est diagonale. 2. Considérer les nouvelles inconnues G(t) = U −1 X(t), qui vérifient le système diagonal G (t) = D G(t) + U −1 B(t), autrement dit n équations différentielles linéaires indépendantes. Résoudre ce système en suivant les méthodes introduites dans le chapitre 8. 3. Calculer X(t) = U G(t) et fixer les n constantes apparues à l’étape précédente grâce aux conditions initiales.
Exemple 2. Considérons le système d’équations X (t) = AX(t) + B, avec A=
0 −1 0 , B= −1 0 −1 369
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
et la condition initiale X(0) = 0. La matrice A a pour polynôme caractéristique det(A − λI) = λ2 − 1, les valeurs propres sont donc λ+ = 1 et λ− = −1. Il est facile de vérifier que 1 1 et U− = U+ = −1 1 fournissent un repère formé de vecteurs propres. On appelle donc U la matrice inversible dont les deux colonnes sont U+ et U− , et son inverse s’écrit 1 1 2 −2 −1 U = 1 1 . 2
On définit alors une nouvelle inconnue G(t) = U
−1
X(t) =
2
g1 (t) , g2 (t)
qui vérifie l’équation G (t) = U −1 AU G(t) + U −1 B, avec 1 1 0 2 et U −1 B = . U −1 AU = 0 −1 − 12 Autrement dit, les deux fonctions inconnues g1 et g2 vérifient 1 1 g1 (t) = g1 (t) + et g2 (t) = −g2 (t) − · 2 2 En utilisant les méthodes décrites au chapitre 8, on voit aisément que 1 1 et g2 (t) = C2 e−t − , g1 (t) = C1 et − 2 2 où C1 et C2 sont des constantes à déterminer à l’aide des conditions initiales. Ceci nous donne donc une expression pour l’inconnue X d’origine : C1 et + C2 e−t − 1 . X(t) = U G(t) = −C1 et + C2 e−t Il est maintenant temps d’utiliser les conditions initiales X(0) = 0 : celles-ci se retranscrivent en termes de C1 et C2 sous la forme C1 + C2 − 1 = 0 et − C1 + C2 = 0, soit encore C1 = C2 = 12 . On conclut finalement que 1 et + e−t − 2 . X(t) = 2 −et + e−t Un point important : la détermination des constantes laissées libres au cours de la résolution se fait à l’aide des conditions initiales. Il importe donc de ne pas perdre de vue que celles-ci portent sur le vecteur X et non sur G, et qu’il est ainsi essentiel de revenir à X avant de les utiliser... 370
10.2. Systèmes d’équations différentielles linéaires du premier ordre
Matrices diagonalisables à valeurs propres complexes La méthode que nous venons de décrire fonctionne aussi lorsque les valeurs propres sont des nombres complexes(2) . On obtient alors des vecteurs propres Uj dont les coefficients sont des nombres complexes, donc des matrices de changement de repère U dont les coefficients sont également des nombres complexes. Le critère à appliquer reste toujours le même : il faut trouver une collection de vecteurs propres Uj telle que la matrice U associée soit inversible (cette inversibilité est en particulier garantie s’il y a n valeurs propres distinctes, voir le paragraphe 9.5.2). On transforme alors le système X (t) = AX(t) + B(t) en G (t) = D G(t) + U −1 B(t) avec
D = U −1 AU,
et on obtient n équations découplées : g1 (t) = λ1 g1 (t) + e1 (t) g2 (t) = λ2 g2 (t) + e2 (t) .. . gn (t) = λn gn (t) + en (t). Ces équations peuvent être résolues à partir des méthodes habituelles, en tenant simplement compte des observations suivantes (que nous ne justifierons pas, le lecteur intéressé pouvant essayer d’imaginer la démonstration ou se référer à [10, chapitre 9]) : Si λ est un nombre complexe, alors : 1. La dérivée de la fonction g(t) = eλt est g (t) = λeλt . 2. Si λ = 0, une primitive de la fonction h(t) = eλt est toujours de la forme t −→ λ−1 eλt + C, où C est une constante complexe. 3. Une solution de l’équation différentielle y (t) = λy(t) est toujours de la forme t −→ Ceλt , où C est une constante complexe. Ces propriétés permettent d’écrire les solutions du système découplé (en faisant toujours apparaître n constantes a priori complexes, dont les valeurs seront (2)
Un résultat célèbre de mathématiques assure que les racines de tout polynôme, en particulier celles d’un polynôme caractéristique det(A − λI), sont forcément des nombres complexes (un nombre réel n’étant qu’un nombre complexe un peu particulier).
371
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
fixées ultérieurement en fonction des conditions initiales). Le théorème de CauchyLipschitz cité plus haut assure que, lorsque l’on revient aux inconnues initiales X(t) = U G(t) et que l’on fixe la valeur des constantes grâce aux conditions initiales, on obtient des solutions qui ne font plus intervenir de nombres complexes ! Dans la plupart des cas, les calculs explicites ne présentent pas plus de difficulté que lorsque les valeurs propres sont réelles, à condition de bien connaître les formules suivantes (normalement étudiées dans le secondaire) : Si λ = α + iβ, alors eλt = eαt (cos(βt) + i sin(βt)), soit encore eλt + e−λt = 2eαt cos(βt)
et
(on rappelle que i2 = −1, autrement dit
i(eλt − e−λt ) = −2eαt sin(βt) 1 i
= −i).
Exemple 3. Résolvons le système d’équations différentielles X (t) = AX(t) donné par h1 (t) = −h2 (t) et h2 (t) = h1 (t). Des calculs faciles montrent que le polynôme caractéristique de la matrice carrée associée 0 −1 A= 1 0 est λ2 + 1, les valeurs propres complexes sont donc i et −i. Des vecteurs propres associés sont i −i et U− = . U+ = 1 1 On appelle comme toujours U la matrice dont les deux colonnes sont les vecteurs U+ et U− et G(t) = U −1 X(t). De cette façon, dans le repère (complexe) formé de ces deux vecteurs, le nouveau système d’équations obtenu est, toujours, i 0 G(t), G (t) = U −1 AU G(t) = 0 −i c’est-à-dire, en notant g1 et g2 les coordonnées de G, g1 (t) = ig1 (t) et g2 (t) = −ig2 (t). Les solutions sont donc de la forme g1 (t) = C1 eit = C1 (cos(t) + i sin(t)) g2 (t) = C2 e−it = C2 (cos(t) − i sin(t)) , ce qui amène finalement (en calculant X(t) = U G(t)), à h1 (t) = iC1 eit − iC2 e−it h2 (t) = C1 eit + C2 e−it . 372
10.2. Systèmes d’équations différentielles linéaires du premier ordre
Supposons maintenant que les conditions initiales soient h1 (0) = h2 (0) = 2 ; cela conduit au système d’équations portant sur C1 et C2 suivant : iC1 − iC2 = 2,
C1 + C2 = 2,
dont il est facile de voir que les solutions sont C1 = 1 − i et C2 = 1 + i. Au final, h1 (t) = i(1 − i) (cos(t) + i sin(t)) − i(1 + i) (cos(t) − i sin(t)) = 2 (cos(t) − sin(t)) , h2 (t) = (1 − i) (cos(t) + i sin(t)) + (1 + i) (cos(t) − i sin(t)) = 2 (cos(t) + sin(t)) , et les solutions s’expriment donc bien avec des formules ne faisant pas intervenir de nombre complexe. Et si A n’est pas diagonalisable ? (cas n = 2) On peut également observer qu’un système d’équations différentielles triangulaire supérieur, bien qu’un peu moins simple, peut néanmoins toujours être résolu à l’aide des techniques du chapitre 8, en résolvant d’abord la dernière équation puis en remontant de proche en proche (voir par exemple plus bas pour n = 2). Dès lors, il est naturel, lorsque la matrice A n’est pas diagonalisable, de chercher à la trigonaliser afin de se ramener à un système triangulaire supérieur. Cette méthode est efficace car un théorème affirme que toute matrice carrée à coefficients réels peut être rendue triangulaire supérieure par un changement de base, à condition une fois encore d’admettre des coefficients et des matrices de passage complexes. Comme nous avons fait le choix de ne pas parler de trigonalisation dans cet ouvrage, nous renvoyons le lecteur intéressé à [6] pour plus de détails. Nous nous contenterons ici de faire quelques remarques sur le cas n = 2, c’està-dire celui de deux équations couplées. Comme nous l’avons vu dans le chapitre 9, seule la situation où det(A − λI) = 0 admet une seule racine peut conduire la matrice A à ne pas être diagonalisable(3) . On peut même affirmer que, dans ce cas, A n’est jamais diagonalisable sauf si elle est déjà diagonale. La méthode procède alors comme suit : • Si la matrice A est déjà triangulaire supérieure, alors λ1 μ A= 0 λ2 (3)
Si A, de taille (2,2), avait deux valeurs propres distinctes, elle serait diagonalisable...
373
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
et le système X (t) = AX(t) + B(t) s’écrit h1 (t) = λ1 h1 (t) + μ h2 (t) + b1 (t) h2 (t) = λ2 h2 (t) + b2 (t). La seconde équation ne porte que sur h2 (b2 est connu) et peut donc être résolue à l’aide des techniques du chapitre 8. On obtient une expression pour h2 , de sorte que le terme μ h2 (t) + b1 (t) dans la première équation est connu. Cette équation ne porte alors plus que sur h1 et on peut la résoudre, en utilisant à nouveau les outils du chapitre 8. • Si A n’est pas triangulaire supérieure, on cherche d’abord un vecteur propre u U1 = v de A pour l’unique valeur propre λ, puis on pose u1 U= , v0 c’est-à-dire que l’on considère un nouveau repère dont le premier vecteur est U1 et le second est donné par le premier vecteur du repère usuel. Cette matrice de passage est inversible car il est impossible ici que v = 0 (sinon la matrice A serait déjà triangulaire supérieure). La nouvelle inconnue G(t) = U −1 X(t) vérifie alors, comme il se doit, le système G (t) = U −1 AU G(t) + U −1 B(t), et un calcul facile montre que λμ −1 , U AU = 0λ où le coefficient μ est à déterminer par le calcul au cas par cas. Les coefficients g1 (t) et g2 (t) de G(t) doivent donc être solutions d’un système d’équations du type : g1 (t) = λg1 (t) + μg2 (t) + e1 (t) g2 (t) = λg2 (t) + e2 (t), que l’on peut résoudre par la méthode indiquée précédemment.
Exemple 4. Considérons le système X (t) = AX(t) + B(t), avec 5 −1 1 A= et B = . 4 1 0 374
10.3. Concentration d’un composé injecté dans le sang : une solution
Le polynôme caractéristique de A est λ2 − 6λ + 9 = (λ − 3)2 , de racine double 3. On trouve facilement que 1 U1 = 2 est un vecteur propre de A, et on pose donc 11 U= . 20 On calcule ensuite U −1 AU =
32 03
et U −1 B(t) =
0 , 1
et le système sur G(t) = U −1 X(t) s’écrit alors g1 (t) = 3g1 (t) + 2g2 (t) g2 (t) = 3g2 (t) + 1. La seconde équation se résout immédiatement : g2 (t) = C2 e3t − 13 , où C2 est une constante. La première équation donne alors g1 (t) = 3g1 (t) + 2C2 e3t − 23 et se résout, par exemple, par variation de la constante. On trouve g1 (t) = C1 e3t + 2C2 te3t + 29 , avec C1 constant. On revient finalement à X(t) = U G(t) pour obtenir h1 (t) = C1 e3t + 2C2 te3t + C2 e3t −
1 9
4 h2 (t) = 2C1 e3t + 4C2 te3t + , 9 et les constantes C1 et C2 peuvent alors être déterminées en fixant des conditions initiales.
10.3. Concentration d’un composé injecté dans le sang : une solution Nous sommes maintenant en mesure de répondre aux questions posées en tête de chapitre. Rappelons brièvement que la circulation du médicament dans le sang et les tissus est modélisée par le système X (t) = AX(t) + B, avec −(a + e) r d cS (t) , A= et B(t) = . X(t) = a −r 0 cT (t) 375
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
Afin de faire des calculs explicites, nous supposerons ici que a = 0,1 min−1 , r = 0,3 min−1 et e = 0,2 min−1 . La matrice des coefficients devient alors 1 −3 3 . A= 10 1 −3 Pour simplifier les calculs, posons M = 10A. Le polynôme caractéristique de M s’écrit (−3 − λ)(−3 − λ) − 3 = λ2 + 6λ + 6 (le discriminant associé vaut Δ = 36 − 24 = 12). Ce polynôme admet deux racines distinctes, ce qui assure √ que M (donc aussi A) est diagonalisable. Les valeurs propres de M sont −3 ± 3 et, par conséquent, celles de A sont √ √ −3 + 3 −3 − 3 et λ− = · λ+ = 10 10 Les vecteurs propres associés se calculent aisément : un choix pratique est √ √ 3 − 3 et X− = . X+ = 1 1 Nous pouvons maintenant effectuer le changement de coordonnées vers celles associées au repère défini par X+ et X− . La matrice de passage et son inverse s’écrivent 1 1 √ √ √ 3− 3 −1 2 3 2 . et U = U= 1 1 − 2√ 1 1 3 2 Notons G(t) le vecteur des nouvelles coordonnées du point représenté par X(t) dans le repère initial. Les coefficients g1 (t) et g2 (t) de G(t) sont solutions des équations √ −3 + 3 d g1 (t) + √ g1 (t) = 10 2 3 √ −3 − 3 d g2 (t) = g1 (t) − √ · 10 2 3 Les solutions sont donc de la forme (voir le chapitre 8) : √ −3+ 3 t 10
5d √ 3( 3 − 1) √ −3− 3 5d · g2 (t) = C2 e 10 t − √ 3( 3 + 1)
g1 (t) = C1 e
376
+
10.3. Concentration d’un composé injecté dans le sang : une solution
On obtient alors les fonctions cS (t) et cT (t) qui nous intéressent en calculant le produit U G(t), ce qui fournit √ √ √ √ √ √ −3+ 3 −3− 3 5 3d 5 3d t t cS (t) = 3C1 e 10 + √ − 3C2 e 10 + √ , 3( 3 − 1) 3( 3 + 1) √ √ −3+ 3 −3− 3 5d 5d + C2 e 10 t − √ · cT (t) = C1 e 10 t + √ 3( 3 − 1) 3( 3 + 1) Il ne nous reste plus qu’à évaluer les constantes C1 et C2 dans les deux cas spécifiquement étudiés : 1. (Concentrations nulles au départ et perfusion de débit d non nul). Les conditions initiales amènent au système linéaire suivant sur C1 et C2 : √ √ cS (0) = 0 = 3C1 − 3C2 + 5d cT (0) = 0 = C1 + C2 + 5d 3 , qui se résout facilement(4) . Les solutions sont √ √ 5d( 3 + 1) 5d( 3 − 1) et C2 = · C1 = − 6 6 2. (Injection ponctuelle d’une concentration c0 dans le sang). Le système de conditions initiales à résoudre devient √ √ c0 = 3C1 − 3C2 0 = C1 + C2 , et on conclut aisément que c0 C1 = −C2 = √ · 2 3 √
√
3 3 et −3− sont négatifs, les expressions de cS et cT ci-dessus Comme −3+ 10 10 montrent que ces concentrations ont tendance à se stabiliser, respectivement, autour des valeurs √ √ 5 3d 5d 5d 5d 5 3d √ √ + √ = 5d et − √ = 3 3( 3 − 1) 3( 3 + 1) 3( 3 − 1) 3( 3 + 1) (4)
On peut d’ailleurs remarquer que la matrice des coefficients de ce système est la matrice U dont l’inverse est connu...
377
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
lorsque le temps devient grand. Dans le cas d’une perfusion (d = 0), cela signifie que, à terme, la concentration de produit dans l’organe cible est égale à un tiers de la concentration dans le sang : obtenir une concentration permanente et élevée dans cet organe nécessite donc d’avoir aussi une concentration trois fois plus élevée dans le sang. Par ailleurs, si l’on souhaite atteindre une concentration C0 donnée dans l’organe, les calculs précédents montrent qu’il faut régler le débit à d = 3C5 0 . À l’inverse, dans le cas d’une injection initiale ponctuelle (d = 0), les deux concentrations dans le sang et l’organe tendent, comme on s’en doute, à disparaître. Cependant, on peut aller un petit peu plus loin en cherchant la concentration maximale atteinte dans l’organe, à l’aide de l’expression cT (t) = √ √ −3+ c√0 10 (e 2 3
3
t
−e
−3− 3 t 10
). L’exercice 3 du chapitre 1 (voir aussi sa correction) per√
√3 ) = met de dire que le maximum de cette fonction est atteint en tm = − √53 ln( 3− 3+ 3 √ − √53 ln(2 − 3) ≈ 3,8 min, et la valeur maximale de cT est alors cT (tm ) ≈ 0,13c0 . Nous déterminons ainsi non seulement la concentration maximale de produit dans l’organe mais aussi le moment où cette dernière surviendra. Dans les deux situations que nous venons d’examiner, la résolution du système d’équations linéaires régissant l’évolution de cS et cT nous a permis d’obtenir des informations précises et quantitatives sur ces deux fonctions. Ces informations doivent permettre d’ajuster les paramètres du traitement (débit de perfusion, injection initiale, etc.) pour obtenir les effets souhaités.
10.4. Sur l’allure des solutions lorsque n = 2 Nous nous plaçons ici dans le cas n = 2, en supposant que le système d’équations n’a pas de second membre, autrement dit que les fonctions bi (t) sont nulles. Nous cherchons donc les solutions h1 (t) et h2 (t) des équations h1 (t) = ah1 (t) + bh2 (t) h2 (t) = ch1 (t) + dh2 (t), soit encore X (t) = AX(t), avec X(t) =
378
h1 (t) h2 (t)
et A =
ab . cd
10.4. Sur l’allure des solutions lorsque n = 2
Notons alors Δ le discriminant du polynôme caractéristique de la matrice A. Si nous reprenons les résultats décrits dans les pages qui précèdent, nous constatons que : 1. Si Δ > 0, A admet deux valeurs propres réelles distinctes λ1 et λ2 . La diagonalisation de A conduit alors à des équations portant sur de nouvelles fonctions inconnues g1 (t) et g2 (t), de la forme g1 (t) = λ1 g1 (t) et g2 (t) = λ2 g2 (t), dont les solutions sont des multiples de eλ1 t et eλ2 t . On en conclut que h1 et h2 sont donc l’une et l’autre des combinaisons linéaires des deux fonctions eλ1 t et eλ2 t (rappelons qu’une combinaison linéaire signifie une somme assortie de coefficients, voir le chapitre 9 ; ici, h1 (t) et h2 (t) sont donc de la forme ξeλ1 t + χeλ2 t ...). 2. Si Δ < 0, A admet deux valeurs propres complexes conjuguées distinctes λ1 = α + iβ et λ2 = α − iβ, et un raisonnement parfaitement similaire conduit à des solutions h1 et h2 combinaisons linéaires des deux fonctions eλ1 t et eλ2 t . En utilisant les formules données plus haut, qui établissent le lien entre exponentielles complexes et fonctions trigonométriques, ces solutions peuvent se récrire à l’aide de eαt sin(βt) et eαt cos(βt). Autrement dit, h1 (t) = eαt (K1 cos(βt) + K2 sin(βt)) h2 (t) = eαt (K3 cos(βt) + K4 sin(βt)) , où K1 , K2 , K3 et K4 sont des constantes (dépendant des conditions initiales et des coefficients de l’équation). 3. Enfin, si Δ = 0, la matrice A admet une seule valeur propre λ (racine double). Si A est diagonalisable, elle est en réalité déjà diagonale et les deux solutions sont nécessairement l’une et l’autre de la forme Ceλt . Sinon, il faut procéder à un calcul un peu plus approfondi des solutions du système obtenu à la fin du paragraphe 10.2.2 dans le cas sans second membre (nous encourageons le lecteur à faire ce calcul...). Nous étions alors parvenus à un nouveau repère formé d’un vecteur propre U1 complété par un des deux vecteurs du repère usuel. La matrice U −1 AU est de la forme λμ 0λ et on peut voir que, dans les coordonnées liées au nouveau repère, les solutions s’écrivent sous la forme g1 (t) = C1 eλt + μC2 teλt ,
g2 (t) = C2 eλt . 379
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
Les solutions dans le repère d’origine sont donc l’une et l’autre des combinaisons de eλt et de teλt .
10.4.1. Informations qualitatives Les résultats que nous venons de donner s’avéreront très utiles dans les paragraphes suivants. Notons d’ores et déjà qu’ils permettent d’obtenir à peu de frais des informations qualitatives sur les solutions du système lorsque les seconds membres sont absents. Imaginons par exemple que nous soyons intéressés par la vitesse d’absorption de substances dans le corps, dont l’évolution de la concentration au cours du temps est pilotée, comme dans l’exemple qui précède, par un système d’équations différentielles linéaires du type X (t) = AX(t). Les formules énoncées précédemment montrent alors qu’il suffit de calculer les valeurs propres de la matrice A pour constater, si les valeurs propres sont toutes les deux réelles négatives, que la concentration tend vers 0 lorsque le temps tend vers l’infini et, surtout, que cette concentration tend vers 0 à une vitesse de l’ordre de e−Λt , où Λ est la plus petite des deux valeurs positives −λ1 et −λ2 (5) . Une autre conclusion intéressante peut être obtenue dans le cas Δ < 0 et α = 0. La forme des solutions dans ce cas montre en effet que ces dernières vont avoir un comportement périodique (oscillatoire) de période 2π β , puisque les fonctions t → cos(βt) et t → sin(βt) sont l’une et l’autre périodiques de période 2π (6) . Ce cas est particulièrement simple à détecter : le polynôme caractéristique β d’une matrice de taille (2,2) ab A= cd est
det(A − λI) = (a − λ)(d − λ) − bc = λ2 − (a + d)λ + ad − bc.
Le discriminant est donc Δ = (a + d)2 − 4(ad − bc). S’il est strictement négatif, les formules classiques de calcul des racines des polynômes du second degré montrent que α = 0 si et seulement si a + d = 0.
10.4.2. Interprétation géométrique L’allure des courbes solutions d’une équation de la forme X (t) = AX(t), avec A matrice carrée de taille (2,2), est facile à représenter dans chacun des trois cas (5)
Une conclusion similaire est obtenue si les valeurs propres sont complexes dans le cas où α < 0, ou s’il n’y a qu’une racine double λ qui est négative. Dans le premier cas, on a Λ = −α et, dans le second cas, on a Λ = −λ. (6) La période d’un phénomène périodique est le plus petit temps strictement positif à partir duquel le phénomène se répète à l’identique.
380
10.4. Sur l’allure des solutions lorsque n = 2
précédents. L’idée est toujours de raisonner dans le repère donné par les vecteurs propres (si A est diagonalisable) ou dans le repère formé par un vecteur propre et un des deux vecteurs du repère initial (si A n’est pas diagonalisable). Nous notons comme d’habitude Δ le discriminant du polynôme caractéristique de la matrice A. 1. Si Δ > 0, A admet deux valeurs propres distinctes λ1 et λ2 , et elle est donc diagonalisable. L’allure des courbes solutions, que nous appellerons dans ce contexte trajectoires, dépend alors de la nature des valeurs propres. (a) Si det(A) = 0, les deux valeurs propres sont non nulles (remarquer que det(A) = det(A − 0 × I) est la valeur du polynôme caractéristique en λ = 0, autrement dit son terme constant, égal au produit des deux racines du polynôme : si det(A) est non nul alors aucune de ces racines ne peut être nulle). Dans le repère formé par les vecteurs propres, les solutions sont données par g1 (t) = C1 eλ1 t et g2 (t) = C2 eλ2 t (C1 et C2 sont des constantes déterminées par les conditions initiales). Les situations rencontrées suivant le signe de λ1 et λ2 sont représentées dans la figure 10.2. (b) Si det(A) = 0, une des deux valeurs propres est nulle, donc les solutions sont données par g1 (t) = C1 eλ1 t et g2 (t) = C2 (C1 et C2 sont des constantes déterminées par les conditions initiales), ce qui conduit aux situations représentées dans la figure 10.3. 2. Si Δ < 0, les valeurs propres sont complexes, distinctes et conjuguées (nécessairement non nulles), donc de la forme λ1 = α + iβ et λ2 = α − iβ. Comme expliqué plus haut, les coordonnées des solutions dans le repère usuel sont l’une et l’autre de la forme
sin(βt) , eαt K cos(βt) + K
sont constantes (différentes pour chaque coordonnée). où K et K 381
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
0
0
0
0
λ1 > λ2 > 0
0 > λ1 > λ2
0
0
λ1 > 0 > λ2 Figure 10.2. Tracé des trajectoires dans le cas où Δ > 0 et det(A) = 0 (les axes du repère formé par les vecteurs propres ainsi que les sens de parcours de quelques trajectoires ont été indiqués à chaque fois).
Étudions d’un peu plus près ces solutions, en partant d’un point initial distinct de l’origine(7) : si α = 0, la courbe solution tourne autour de l’origine et revient à son point de départ au bout d’un temps t = 2π β ; si α = 0, la courbe tourne également autour de l’origine mais tend à s’en rapprocher lorsque t augmente si α < 0 ou à s’en éloigner si α > 0. On observe donc l’une des situations décrites dans la figure 10.4. (7)
Remarquer que dans les situations que nous considérons dans ce paragraphe, les solutions issues des conditions initiales nulles sont les constantes égales à 0.
382
10.4. Sur l’allure des solutions lorsque n = 2 2
0
0
0
0
λ1 < 0 = λ2
λ1 > 0 = λ2
Figure 10.3. Tracé des trajectoires dans le cas où Δ > 0 et det(A) = 0 (les points de l’axe correspondant au deuxième vecteur propre, associé à la valeur propre nulle, sont des points fixes où convergent ou d’où divergent toutes les autres trajectoires).
0
0
0
α = 0
0
α=0
Figure 10.4. Tracé des trajectoires dans le cas où Δ < 0 (le sens de parcours n’a pas été indiqué).
3. Si Δ = 0, les valeurs propres sont réelles et égales : λ1 = λ2 (nous noterons λ cette unique valeur propre). En excluant le cas trivial A = 0, on se trouve dans l’un des deux cas qui suivent : (a) Ou bien A est diagonalisable, alors A = λI et les trajectoires sont des demi-droites issues de l’origine (situation non représentée ici). (b) Ou bien A n’est pas diagonalisable, et il faut alors étudier les solutions dans le repère formé par un vecteur propre et un autre vecteur qui n’est pas un multiple de ce vecteur propre, par exemple l’un des deux vecteurs du repère usuel. Comme nous l’avons vu plus haut, les solutions, 383
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
0
0 Figure 10.5. Tracé des trajectoires dans le cas où la matrice n’est pas diagonalisable et λ = 0 (le sens de parcours n’a pas été indiqué).
dans les coordonnées liées au nouveau repère, s’écrivent sous la forme g1 (t) = C1 eλt + μC2 teλt
et g2 (t) = C2 eλt .
La figure 10.5 donne un exemple de telles trajectoires lorsque λ = 0 (lorsque λ = 0, les trajectoires sont des droites parallèles à l’origine, ou des points).
10.5. Quelques exemples de dynamiques non linéaires en dimension 2 La dernière partie de ce chapitre est consacrée à un autre type de modèles, plus complexes du point de vue mathématique mais aussi plus pertinents pour modéliser bon nombre de situations concrètes, en particulier dans le domaine de l’écologie des populations. Comme d’habitude, nous commencerons par une description rapide de l’origine d’un de ces modèles.
10.5.1. Problème : proies et prédateurs Nous considérons deux populations d’animaux, les prédateurs et leurs proies, vivant dans un milieu supposé suffisamment isolé et stable pour que les conditions démographiques (natalité et mortalité) n’évoluent pas au cours du temps. 384
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
Le nombre de prédateurs (respectivement de proies) à l’instant t sera noté P (t) (respectivement p(t)). Un modèle classique, dit de Lotka-Volterra, décrit l’évolution des deux populations au cours du temps par les équations différentielles P (t) = P (t) (−a + dp(t))
et p (t) = p(t) (b − cP (t)) .
Expliquons les hypothèses menant à ces équations. Tout d’abord, nous supposons qu’en l’absence d’interaction entre les deux espèces, l’évolution de chacune des deux populations suit une loi de type Malthus, que nous avons déjà rencontrée au chapitre 8 : P (t) = −aP (t) et p (t) = bp(t) (ici nous avons supposé les taux de natalité et de mortalité constants ; la différence entre ces taux pour les prédateurs vaut −a, tandis qu’elle vaut b pour les proies). Ainsi, en l’absence de proies, on peut prédire une disparition rapide des prédateurs (par exemple, parce que ces derniers ne mangent pas à leur faim...). À l’inverse, en l’absence de prédateurs, la population des proies s’accroît. Introduisons maintenant le phénomène de prédation. Entre deux instants t et t + δt proches, il est raisonnable de supposer que le nombre de proies capturées est proportionnel à δt, au nombre de proies présentes et au nombre de prédateurs qu’elles risquent de rencontrer. Autrement dit, p(t + δt) − p(t) = bp(t)δt − cp(t)P (t)δt, où le premier terme représente l’effet de la démographie en l’absence de prédateurs et le second les conséquences de leur présence. Cela conduit, en divisant par δt et en le faisant tendre vers 0, à la seconde équation mentionnée plus haut : p (t) = p(t) (b − cP (t)) . Qu’en est-il des prédateurs ? En présence de proies, leur survie s’améliore, et ce d’autant plus qu’un grand nombre de proies se trouvent à leur disposition. Nous supposerons donc que la différence entre natalité et mortalité est accrue d’un terme proportionnel au nombre de proies. D’où la première équation P (t) = P (t) (−a + dp(t)) . Contrairement aux systèmes d’équations différentielles que nous avons étudiés dans la première partie du chapitre, celui-ci n’est pas linéaire : en effet, les formules pour p (t) et P (t) font intervenir des termes de degré 2, du genre P (t)p(t) (et non pas uniquement des termes de la forme « constante fois p » ou « constante fois P », ou des termes entièrement connus). Il ne peut donc être résolu par les méthodes matricielles précédentes. 385
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
La situation s’avère en réalité bien pire, et rejoint ce que nous avons déjà signalé au paragraphe 8.5 : sauf pour certains choix particuliers de paramètres, il est en fait impossible d’écrire une formule explicite, fonction de t, pour les solutions du système « proies-prédateurs » ! Ce constat pourrait sembler fermer définitivement la porte à une étude mathématique. En réalité il n’en est rien, et cette impasse apparente a conduit les mathématiciens à inventer une gamme d’outils nouveaux, dont l’objectif ne consiste plus à calculer quantitativement les solutions, mais au contraire à essayer de disposer de suffisamment d’informations qualitatives pour obtenir une vision assez précise de leur comportement.
10.5.2. Systèmes dynamiques Le modèle mathématique décrit au paragraphe précédent fait partie de la très grande famille des équations de la forme X (t) = Φ (X(t)) , où la solution cherchée X est une fonction dérivable d’un intervalle I à valeurs dans une région U de l’espace Rn , et Φ est une fonction de plusieurs variables, définie sur U et à valeurs dans Rn . Nous désignerons ces équations sous le vocable général de systèmes dynamiques. Ce choix de vocabulaire traduit un souhait de procéder à une étude du comportement qualitatif des solutions lorsque le temps t évolue, comportement appelé dynamique du système. Il s’agit d’un domaine scientifique qui contient certaines des plus belles pages des mathématiques écrites au cours du XXe siècle. Beaucoup plus modestement, notre objectif en cette fin de chapitre consiste à donner un aperçu des concepts et techniques élémentaires, espérant ainsi encourager les lecteurs à aller plus loin dans leurs découvertes. Nous avons déjà rencontré, dans un cas particulier, des équations du type X (t) = Φ(X(t)) : lorsque n = 1, c’est-à-dire lorsque X ne comporte qu’une seule composante, ces équations ne sont autres que des équations différentielles à variables séparées (voir le paragraphe 8.3). Il est intéressant ici de se remémorer l’exemple 13 qui montre que, pour ce genre d’équations – et contrairement aux équations linéaires – les solutions que l’on peut obtenir n’existent pas nécessairement sur tout l’intervalle de temps où l’équation garde un sens... ce type de phénomène est donc tout aussi susceptible de se produire pour les systèmes dynamiques généraux en dimension n ≥ 2. Ces constatations nous incitent naturellement à considérer plus finement l’intervalle de temps sur lequel une solution peut être définie. 386
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
Étant donnée une équation X (t) = Φ(X(t)) et une solution X(t) vérifiant la condition initiale X(t0 ) = X0 , la durée de vie maximale de cette solution est le plus grand nombre réel T tel que la fonction X(t) soit définie sur l’intervalle [t0 + T [ et y soit solution de l’équation. Une solution maximale est une solution qui est définie sur son intervalle maximal de vie ( i.e. que l’on ne peut pas prolonger en une fonction qui reste solution de l’équation). Une version plus générale du théorème de Cauchy-Lipschitz (dont nous avons déjà rencontré la version linéaire) s’énonce alors ainsi : (Théorème de Cauchy-Lipschitz). Si Φ est une fonction continue et admettant des dérivées partielles continues, alors, pour toute donnée initiale X0 , il existe une et une seule solution maximale X(t) de l’équation X (t) = Φ(X(t)) vérifiant X(t0 ) = X0 . Ce théorème n’affirme donc pas que la solution existe pour tous les temps où l’équation garde un sens, mais seulement qu’il existe une solution pendant un certain temps après l’instant initial. Dans le cas linéaire, nous n’avions pas rencontré ce problème car la partie « existence » du théorème affirmait d’emblée l’existence d’une solution définie sur tout l’intervalle où l’équation avait un sens, qui est connu dès le départ.
10.5.3. Portraits de phase L’existence et l’unicité des solutions étant acquises, nous nous concentrons désormais sur le cas n = 2. Nous avons déjà vu qu’une courbe X(t) tracée dans le plan R2 est solution de l’équation différentielle X (t) = Φ(X(t)) si et seulement si son vecteur tangent en tout point P est égal à Φ(P ). Ce point de vue géométrique peut être encore approfondi en remarquant, avant même de parler d’une équation 2 différentielle et de ses solutions, que la fonction (définiesur une région U de R x et à valeurs dans R2 ) qui à un point P de coordonnées associe y f (x, y) Φ(P ) = Φ(x, y) = g(x, y) 387
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
permet d’affecter à chaque point du plan un vecteur (en un point P de U , on place le vecteur Φ(P )). Nous pouvons donc oublier (provisoirement) l’équation pour ne conserver que la fonction Φ, et plus précisément la donnée d’un vecteur en tout point d’une certaine région U du plan. La donnée des vecteurs en chaque point de U est appelée portrait de phase du système dynamique. Un exemple est donné dans la figure 10.6.
3.8
3.4
3
2.6
2.2 2
2.5
3
3.5
Figure 10.6. Quelques vecteurs et trajectoires pour Φ(x, y) = (xy − x2 , y + 1).
Les solutions de l’équation qui nous intéresse sont alors définies de la manière suivante : Une trajectoire du système dynamique défini par Φ est une courbe dans le plan dont le vecteur tangent en chacun de ses points est égal au vecteur donné par Φ en ce point. Il importe ici de bien distinguer deux choses différentes : la fonction Φ d’une part, qui permet d’associer à tout point du plan un vecteur, et d’autre part la courbe, qui possède un vecteur tangent en chaque point où elle passe. C’est l’égalité de ces deux vecteurs (a priori différents) en chacun des points visités par la courbe 388
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
qui permet d’affirmer que la courbe est effectivement une solution, ce que nous avons appelé une trajectoire.
Exemple 5. La figure 10.6 représente quelques vecteurs et quelques trajectoires du système dynamique associé aux équations h1 (t) = h1 (t)h2 (t) − h1 (t)2 h2 (t) = h2 (t) + 1. Il est important de comprendre que ce point de vue tend à évacuer le rôle du temps dans l’équation différentielle, au profit d’une vision entièrement géométrique. L’exemple de la figure 10.6 est en ce sens révélateur, puisqu’il donne une idée assez précise du comportement qualitatif des trajectoires (des courbes solutions) sans pour autant donner d’information sur la vitesse à laquelle ces courbes sont parcourues. Vu sous l’angle des trajectoires d’un portrait de phase, la propriété d’unicité énoncée dans le théorème de Cauchy-Lipschitz a la conséquence suivante : Si Φ est continue et à dérivées partielles continues, alors deux trajectoires maximales sont soit confondues, soit ne se coupent jamais. Une trajectoire maximale correspond à la notion de solution maximale : il s’agit d’une solution de l’équation qui ne peut être prolongée en restant une solution. La preuve de l’encadré précédent s’obtient aisément en raisonnant de la manière suivante : si deux trajectoires (maximales) se coupent, cela signifie que nous disposons de deux solutions (maximales) X1 (t) et X2 (t) et d’instants t1 et t2 tels que X1 (t1 ) = X2 (t2 ) (la solution X1 à l’instant t1 se situe au même point que la solution X2 à l’instant t2 ). Mais si la fonction t −→ X(t) est une solution de X (t) = Φ(X(t)), la fonction t −→ X(t − a) en est également une, comme le montre un calcul immédiat. Cela signifie donc que nous pouvons nous permettre de translater le temps à notre guise. Ici, les deux fonctions t −→ X1 (t − t1 ) et t −→ X2 (t − t2 ) sont donc deux solutions de l’équation différentielle qui admettent les mêmes conditions initiales au temps t = 0. Ces solutions étant maximales, elles doivent donc être égales (théorème de Cauchy-Lipschitz), ce qui revient à dire que les trajectoires associées sont confondues. On peut constater sur la figure 10.6 de l’exemple précédent que, comme prévu, les trajectoires ne se coupent jamais. 389
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
10.5.4. Courbes isoclines et points d’équilibre Notre objectif consiste maintenant à extraire du portrait de phase (donc de la connaissance de Φ via ses deux composantes f et g) des informations qualitatives sur le comportement des trajectoires système dynamique X (t) = Φ(X(t)), qui du x(t) peut se récrire, en posant X(t) = , y(t) x (t) = f (x(t), y(t)) y (t) = g (x(t), y(t)) . En un point P du plan, la direction suivie par une courbe passant par ce point est donnée par son vecteur tangent. Dans notre cas, la direction générale, au voisinage de P , d’une courbe solution de l’équation et passant par ce même point sera indiquée par le vecteur Φ(P ). Notre première tâche va donc consister à découper le plan (ou plutôt : la région U du plan dans laquelle la fonction Φ est définie) en « grandes zones » sur lesquelles les images de Φ (les vecteurs Φ(P )) ont « sensiblement le même comportement ». Nous nous limiterons ici à un seul type de comportement, en considérant qu’un vecteur non nul qui n’est ni horizontal ni vertical ne peut avoir que quatre directions générales possibles : vers le haut et vers la gauche, vers le haut et vers la droite, vers le bas et vers la gauche, et enfin vers le bas et vers la droite (les cas où le vecteur est nul, vertical ou horizontal seront traités comme des cas particulier, voir plus bas). Analytiquement, ces quatre possibilités sont distinguées par des conditions de signe sur les fonctions f et g : en un point P du plan, • Le vecteur Φ(P ) pointe vers le haut et vers la gauche lorsque f (P ) < 0 et g(P ) > 0. • Le vecteur Φ(P ) pointe vers le haut et vers la droite lorsque f (P ) > 0 et g(P ) > 0. • Le vecteur Φ(P ) pointe vers le bas et vers la gauche lorsque f (P ) < 0 et g(P ) < 0. • Le vecteur Φ(P ) pointe vers le bas et vers la droite lorsque f (P ) > 0 et g(P ) < 0. Si les fonctions f et g sont continues, on ne peut passer d’une zone où f (respectivement g) est strictement positive à une zone où f (respectivement g) est strictement négative sans passer par un point où f (respectivement g) s’annule, cf. le théorème des valeurs intermédiaires au paragraphe 1.5.2. Les régions du plan où 390
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
les vecteurs donnés par la fonction Φ ont grosso modo la même direction sont en général séparées les unes des autres par des courbes le long desquelles les vecteurs sont soit horizontaux, soit verticaux, soit nuls (c’est-à-dire à la fois verticaux et horizontaux). Il s’agit donc de courbes le long desquelles soit f (x, y) = 0, soit g(x, y) = 0. Les courbes isoclines sont les courbes du plan données par l’équation f (x, y) = 0, et celles données par l’équation g(x, y) = 0. Les points d’équilibre sont les points où le vecteur associé à la fonction Φ est nul. Il s’agit donc des points de coordonnées (x∗ , y ∗ ) solutions de ⎧ ⎨f (x∗ , y ∗ ) = 0 ∗ ∗ Φ(x , y ) = 0, soit encore ⎩ ∗ ∗ g(x , y ) = 0.
Exemple 6. Les courbes isoclines du système dynamique x (t) = x(t)2 − y(t) y (t) = x(t) + y(t) − 1 sont au nombre de deux : la parabole donnée par l’équation y = x2 et la droite donnée par l’équation x + y = 1 (on notera en effet que les fonctions f et g correspondant à cet exemple sont f (x, y) = x2 − y et g(x, y) = x + y − 1). En dehors de ces courbes, les vecteurs dont les coordonnées sont données par f et g possèdent forcément l’un des quatre comportements cités plus haut : vers le haut et la gauche, vers le haut et la droite, etc. Les isoclines séparent donc le plan en cinq régions, ainsi que l’atteste la figure 10.7. √ √ Il y a deux points d’équilibre, P et Q, de coordonnées
−1− 5 2√ 3+ 5 2
et
−1+ 5 2√ 3− 5 2
.
Si les fonctions f et g sont continues, deux régions de comportements différents sont nécessairement séparées par une ou plusieurs isoclines. Cependant, certaines isoclines peuvent aussi passer au milieu d’une région ayant un comportement donné (i.e. les comportements de part et d’autre de certaines isoclines peuvent être identiques). 391
Chapitre 10. Équations différentielles couplées et systèmes dynamiques 5 4 3
P
2 1
Q 0 -1
-3
-2
-1
0
1
2
Figure 10.7. Les isoclines de l’exemple 6 et quelques exemples de directions (dans chacune des cinq régions) où pointent les vecteurs.
Exemple 7. Si f (x, y) = x2 et g(x, y) = x − y, les isoclines sont les droites d’équations x = 0 et x = y, qui divisent le plan en quatre régions. Néanmoins, la fonction f est toujours positive, ce qui assure que les vecteurs de coordonnées données par f et g pointent toujours vers la droite. En conséquence, les quatre régions peuvent être regroupées par deux (I et II d’un côté, III et IV de l’autre, voir la figure 10.8), et les vecteurs attachés aux points des deux régions à l’intérieur d’un même groupe de deux ont le même comportement général (ceci malgré le fait que ces deux régions sont séparées par l’isocline x = 0). Par ailleurs, l’origine est le seul point d’équilibre. Il faut enfin noter que les isoclines ne sont pas nécessairement des « courbes » au sens usuel du terme, et que les points d’équilibre peuvent être situés en dehors de l’intersection de deux vraies courbes isoclines.
Exemple 8. La droite d’équation x + y = 1 est une isocline du système dynamique associé aux fonctions f (x, y) = (x2 + y 2 )(x + y − 1) et g(x, y) = x2 + 3y 2 . L’origine est un point d’équilibre (donc aussi une isocline) qui n’est pas sur cette droite. 392
10.5. Quelques exemples de dynamiques non linéaires en dimension 2 1
1.5
III II 0 0
IV I
-1 -1
0
1 2
f (x, y) = x g(x, y) = x − y
-1
-1
0
1.5 2
2
f (x, y) = (x + y )(x + y − 1) g(x, y) = x2 + 3y 2
Figure 10.8. Les isoclines des exemples 7 et 8 (avec indication, dans chacune des régions, de la direction où pointent les vecteurs).
Les courbes isoclines permettent donc de séparer le portrait de phase en grandes zones où les trajectoires se comportent essentiellement de la même façon. De fait : • Dans une zone où f est strictement positive, x(t) est croissante le long des trajectoires (car x (t) = f (x(t), y(t)) > 0). • Dans une zone où f est strictement négative, x(t) est décroissante le long des trajectoires (car x (t) < 0). • Dans une zone où g est strictement positive, y(t) est croissante le long des trajectoires (car y (t) = g(x(t), y(t)) > 0). • Dans une zone où g est strictement négative, y(t) est décroissante le long des trajectoires (car y (t) < 0). Munis de ces informations, nous pouvons donc tracer de manière grossière la forme des trajectoires dans chacune des régions séparées par les isoclines. Les points d’équilibre sont des cas particuliers de trajectoires : imaginons en effet une solution passant par un de ces points de coordonnées (x∗ , y ∗ ). On a donc, pour un certain temps t0 , x(t0 ) = x∗ et y(t0 ) = y ∗ . Or, les fonctions constantes égales l’une à x∗ et l’autre à y ∗ fournissent aussi une solution (puisque 393
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
f (x∗ , y ∗ ) = g(x∗ , y ∗ ) = 0), ayant mêmes conditions initiales en t = t0 . Si nous sommes dans le domaine d’application du théorème de Cauchy-Lipschitz, nous pouvons en déduire que ces solutions doivent être égales. En conclusion : Si les fonctions f et g sont continues et admettent des dérivées partielles continues, alors les seules solutions constantes du système dynamique sont les points d’équilibre. Les autres trajectoires ne rencontrent pas les points d’équilibre. Les points d’équilibre sont donc, au sens propre, les positions d’équilibre du système, autrement dit celles où rien ne peut bouger. En revanche, les isoclines n’ont aucune raison d’être des trajectoires ! Le lecteur pourra se rappeler que nous avons déjà rencontré cette distinction entre les solutions stationnaires, correspondant aux équilibres, et les autres solutions, lorsque nous avons abordé les équations différentielles à variables séparées au paragraphe 8.3.
10.5.5. Proies et prédateurs : une solution Appliquons maintenant l’ensemble de ces idées au modèle « proies-prédateurs » introduit au début du paragraphe 10.5. Le système dynamique est défini par les fonctions f (x, y) = x(−a + dy) et g(x, y) = y(b − cx) (rappelons que les quatre paramètres a, b, c et d sont supposés strictement positifs). Ces deux fonctions sont continues et admettent des dérivées partielles continues, et nous nous trouvons ainsi dans le domaine d’application du théorème de Cauchy-Lipschitz. Les isoclines sont au nombre de quatre : les droites d’équations x = 0, y = ad (sur lesquelles f s’annule), y = 0 et x = bc (sur lesquelles g s’annule), qui divisent donc le plan en neuf régions. Compte tenu de l’origine biologique du système, nous ne l’étudierons que dans le quart de plan {x ≥ 0, y ≥ 0}. On obtient donc quatre régions, quatre parties d’isoclines (dont deux délimitent en fait le domaine d’étude) et deux points d’équilibre : l’origine et le point P ∗ de coordonnées x∗ = bc et y ∗ = ad . Le portrait de phase correspondant est représenté sur la figure 10.9, qui résume les informations que nous pouvons obtenir sur le sens de variation des trajectoires. En réalité, des informations beaucoup plus précises peuvent être obtenues sur les solutions. En guise d’exemple, intéressons-nous à une trajectoire issue de 394
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
II
I
a d
P∗ IV
III
0 0
b c
Figure 10.9. Le portrait de phase et les isoclines du modèle « proies-prédateurs » de Lotka-Volterra, dans le quart de plan {x ≥ 0, y ≥ 0}.
conditions initiales x(0) = x0 et y(0) = y0 situées dans la zone I(8) : les fonctions f et g y sont strictement positives, et les abscisses et les ordonnées sont donc au départ croissantes sur la trajectoire ; elle le restent tant que cette dernière ne sort pas de la zone I. De plus, pour tout x ≥ x0 et y ≥ y0 , comme x ≥ 0 et −a+dy0 > 0 (puisque (x0 , y0 ) est dans la zone I, donc au-dessus de l’isocline y = ad ), f (x, y) = x(−a + dy) ≥ x(−a + dy0 ) ≥ x0 (−a + dy0 ). En conséquence, tant que la trajectoire reste dans la zone I, on a x (t) ≥ x0 (−a + dy0 ) = constante > 0, soit encore, par intégration, x(t) − x0 =
0
t
x (s)ds ≥ x0 (−a + dy0 )t.
(8)
Le lecteur intéressé pourra trouver des détails et des compléments sur cette étude dans [5], comme par exemple la preuve du fait (admis ici) que la durée de vie maximale d’une telle trajectoire est nécessairement infinie.
395
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
Les abscisses augmentent donc le long de la trajectoire, et la minoration précédente montre que celle-ci va obligatoirement traverser l’isocline x = bc (au pire au temps b t = (−a+dy tel que (−a + dy0 )t = cb ). La trajectoire passe alors dans la zone II 0 )c en un point de coordonnées (x1 , y1 ). Dans la zone II, les abscisses restent strictement croissantes, mais les ordonnées deviennent strictement décroissantes. Ainsi, tant que la trajectoire reste dans la zone II, elle vérifie y (t) = y(t)(b − cx(t)) ≤ y1 (b − cx1 ) = constante < 0 (voir la figure 10.10). On en déduit, comme précédemment, que la trajectoire rencontre l’isocline y = ad au bout d’un temps fini et passe dans la zone III en un point de coordonnées (x2 , y2 ).
II
I (x1 , y1 ) (x0 , y0 )
a d
P∗ (x2 , y2 )
IV
0 0
III
b c
Figure 10.10. Portrait de phase et morceau d’une trajectoire pour le modèle « proiesprédateurs ».
En raisonnant de cette façon dans les différentes zones, on constate finalement que toutes les trajectoires issues d’un point appartenant au quart de plan pertinent pour la modélisation sont forcément de l’un des trois types suivants : 1. Une courbe tournant autour du point d’équilibre dans le sens des aiguilles d’une montre. 396
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
2. L’une des deux trajectoires constantes réduites aux points d’équilibre O ou P ∗ . 3. L’une des deux trajectoires exceptionnelles données par l’isocline {x = 0, y > 0} et par l’isocline {x > 0, y = 0} (nous constatons donc ici que deux des quatre isoclines sont des trajectoires, tandis que les deux autres ne le sont pas). Cet exemple montre que l’étude du portrait de phase est un outil puissant pour l’analyse du système dynamique « proies-prédateurs ». Nous commençons en effet à bien maîtriser le comportement qualitatif des trajectoires. Plusieurs questions importantes restent cependant en suspens. En voici quelques exemples : quel est le comportement réel des trajectoires tournant autour du point d’équilibre ? S’en éloignent-elles ? S’en rapprochent-elles ? Si l’on introduit une petite perturbation d’une situation à l’équilibre, observe-t-on un retour à l’équilibre ? Ces questions sont, en général, beaucoup plus difficiles à traiter. Indiquons néanmoins rapidement comment une réponse complète peut être obtenue dans le cas du modèle « proies-prédateurs » de Lotka-Volterra. L’élément clé est la fonction E(x, y) = cx − b ln x + dy − a ln y, définie sur le quart de plan {x > 0, y > 0}. Il est facile de vérifier, en utilisant le théorème de dérivation des fonctions composées du chapitre 2, que si X(t) est une solution, alors la fonction t −→ E (X(t)) = E (x(t), y(t)) est de dérivée nulle, donc constante. En d’autres termes, la fonction E reste constante lorsque l’on se déplace le long d’une trajectoire. Cette propriété permet de voir que les trajectoires sont périodiques, autrement dit qu’elles « se referment » lorsqu’elles ont fait un tour autour du point d’équilibre. Expliquons grossièrement pourquoi. Nous avons vu que la plupart des trajectoires tourne nécessairement autour du point d’équilibre : en conséquence, toute trajectoire issue, par exemple, d’un point localisé sur la demi-droite horizontale située à droite de (x∗ , y ∗ ) doit à nouveau aboutir, au bout d’un tour, sur cette même demi-droite. Le long de cette demi-droite {y = ad ; x > bc }, l’expression de E se réduit à a x −→ cx − b ln x + a − a ln , d fonction dont il est facile de vérifier qu’elle est strictement croissante sur ] bc ; +∞[. Chaque valeur de E n’est donc atteinte qu’une seule fois sur la demi-droite (relisez 397
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
le chapitre 1 !). Comme E est constante le long de la trajectoire, cette dernière ne peut que repasser par le point d’où elle était partie. La partie « unicité » du théorème de Cauchy-Lipschitz implique alors que la solution parcourt indéfiniment la même courbe fermée autour du point d’équilibre. À l’exception des deux points d’équilibre et des axes, toutes les trajectoires sont donc de cette forme. Le modèle prévoit ainsi un comportement périodique des deux populations, oscillant autour des valeurs d’équilibre x∗ et y ∗ . Rappelons enfin que le portrait de phase ne permet pas de tout connaître des solutions, car cet outil qualitatif ignore la vitesse d’écoulement du temps ; il faut de plus prendre garde à ne pas confondre le point de vue donné par le portrait de phase avec celui, peut-être plus usuel, où l’on représente le graphe des solutions comme fonctions dépendant du temps. La figure 10.11, obtenue à l’aide d’un logiciel de calcul numérique approché, permet de se faire une idée de l’allure des graphes des solutions P (t) et p(t) correspondant à la trajectoire indiquée sur la figure 10.10. On y retrouve bien évidemment les caractéristiques que l’on peut déjà observer sur le portrait de phase : périodicité, alternance des minima et des maxima de chaque solution, etc. Une information nouvelle est fournie par l’estimation de la période des solutions, c’est-à-dire le temps nécessaire pour retourner à l’état initial. Prédateurs
Proies
b c a d
0
0
période
t
Figure 10.11. Allure des solutions pour le modèle proies-prédateurs.
10.5.6. Stabilité des équilibres Pour conclure ce chapitre, nous nous intéresserons à la question suivante : quel est le comportement des trajectoires d’un système dynamique autour d’un point 398
10.5. Quelques exemples de dynamiques non linéaires en dimension 2
d’équilibre ? Autrement dit, que se passe-t-il exactement si l’on a une situation d’équilibre en (x∗ , y ∗ ) et que l’on prend une condition initiale X0 très proche de (x∗ , y ∗ ) (on dit alors que l’on perturbe l’équilibre) ? Préliminaire : comportement d’une fonction de plusieurs variables au voisinage d’un point Nous savons depuis longtemps que la dérivée d’une fonction d’une variable permet de définir « la meilleure approximation de la fonction par une fonction affine au voisinage d’un point » : en effet, pour une fonction f , dire que f (x0 ) est la pente de la tangente au graphe de f en x0 signifie que la fonction x −→ f (x0 )(x − x0 ) + f (x0 ) (dont le graphe est la droite tangente) est la meilleure approximation affine de f autour de x0 . À plusieurs variables, la notion de dérivée est remplacée par celle de différentielle, introduite au chapitre 2 : pour une fonction F de deux variables, l’existence de sa différentielle en un point P de coordonnées (x0 , y0 ) assure que la meilleure approximation « affine » de la fonction F au voisinage de P est la fonction (x, y) −→ dFP ((x − x0 , y − y0 )) + F (P ) ∂F ∂F (x0 , y0 )(x − x0 ) + (x0 , y0 )(y − y0 ) + F (x0 , y0 ). = ∂x ∂y Passons maintenant au cas de la fonction (x, y) −→ Φ(x, y) =
f (x, y) . g(x, y)
La différentielle au point P (9) peut alors s’écrire sous la forme d’une matrice, appelée matrice jacobienne de Φ en P : ∂f ∂x (P ) ∂y (P ) . ∂g ∂g ∂x (P ) ∂y (P )
∂f dΦP =
La meilleure approximation affine de Φ en P est alors la fonction x − x0 (x, y) −→ (dΦP ) + Φ(P ), y − y0 (9)
... si elle existe. Mais rappelons que nous faisons ici l’hypothèse que la fonction Φ – c’est-à-dire les fonctions f et g – est continue et admet des dérivées partielles continues, ce qui implique l’existence de la différentielle.
399
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
où la multiplication qui intervient entre (dΦP ) et le vecteur qui le suit est la multiplication des matrices. En particulier, si P est un point où Φ s’annule, cette meilleure approximation devient x − x0 (x, y) −→ (dΦP ) . y − y0 Stabilité des équilibres Les résultats exposés ci-dessus ∗ assurent qu’au voisinage d’un point d’équilibre x , la fonction affine donnée par P ∗ de coordonnées X ∗ = y∗ x−x (x, y) −→ (dΦP ∗ ) y − y∗ est une bonne approximation de la fonction Φ. Si X(t) est « proche » de X ∗ , le système X (t) = Φ(X(t)) est donc « proche » de X (t) = (dΦP ∗ )(X(t) − X ∗ ) (en un sens qu’il faudrait préciser, ce que nous ne ferons pas ici). Dès lors, si X(t) est une solution de X (t) = Φ(X(t)) avec condition initiale X0 proche du point d’équilibre, peut-on en conclure que X(t) − X ∗ se comporte comme la solution X(t) du système linéarisé
X (t) = (dΦP ∗ )X(t) de condition initiale X0 − X ∗ ? Cette question, dont l’énoncé est élémentaire, peut en réalité se révéler extrêmement compliquée. Le résultat suivant est connu sous le nom de théorème de Hartman, et nous allons l’énoncer (sans démonstration) de manière volontairement floue : Soit une équation différentielle X (t) = Φ(X(t)) dans le plan, avec Φ continue et admettant des dérivées partielles continues, et soit P ∗ un point d’équilibre du système, c’est-à-dire un point où Φ s’annule. Si A = dΦP ∗ est inversible et n’admet pas de valeur propre imaginaire pure, alors les trajectoires de l’équation X (t) = Φ(X(t)) au voisinage du point d’équilibre « ressemblent » à celles de l’équation linéaire X (t) = A X(t). Que signifie le verbe « ressembler » utilisé ici ? Tout simplement qu’il y a une manière d’envoyer chacune des trajectoires du système non linéaire passant au 400
10.6. Exercices
voisinage du point d’équilibre sur une trajectoire du système linéarisé (le point d’équilibre s’envoyant, lui, sur 0), et que cette opération peut se faire de façon continue et bijective. Comme nous connaissons l’allure des trajectoires du système linéarisé (c’est l’objet du paragraphe 10.4), nous pouvons en tirer des informations qualitatives sur les trajectoires du système non linéaire d’origine.
Exemple 9. Le système associé aux fonctions f (x, y) = x2 + y 2 − y et g(x, y) = x − y admet un point d’équilibre en (x∗ , y ∗ ) = (0,0). La matrice jacobienne de Φ en ce point est 0 −1 , dΦ(0,0) = 1 −1 et elle admet deux valeurs propres complexes distinctes, non nulles et de parties réelles négatives. On en déduit donc que les trajectoires du système au voisinage du point d’équilibre ont des comportements semblables à ceux des trajectoires du dessin de gauche de la figure 10.4 (le sens de parcours étant convergent vers le point d’équilibre). On peut en conclure, par exemple, que le point d’équilibre est stable, au sens où les fonctions solutions du système tendent vers les valeurs d’équilibre si les conditions initiales sont elles-mêmes suffisamment proches de ces valeurs d’équilibre. Un autre point d’équilibre se trouve au point de coordonnées ( 12 , 12 ). La matrice jacobienne s’écrit alors 1 0 , dΦ( 1 , 1 ) = 2 2 1 −1 et les trajectoires au voisinage de ce point d’équilibre sont cette fois-ci similaires à celles du dessin du bas de la figure 10.2.
10.6. Exercices Exercice 1 (Modèle migratoire continu) La population d’un pays au temps t est constituée d’une fraction R(t) (population rurale) et d’une fraction U (t) (population urbaine). On note a le taux d’exode rural et b le taux d’exode urbain. Enfin, on suppose que les villes reçoivent l’apport d’un flux migratoire constant en provenance de l’étranger, égal à c. 1. Montrer que ce modèle conduit aux équations R (t) = −aR(t) + bU (t),
U (t) = aR(t) − bU (t) + c. 401
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
2. Résoudre les équations en prenant a = 0,2 an−1 et b = 0,1 an−1 , dans les deux cas c = 0 et c = 1. Dans le premier cas, comparer avec l’exercice 7 du chapitre 9.
Exercice 2 (Cinétique chimique à plusieurs composants) On considère deux réactions chimiques stœchiométriques successives, se déroulant dans un volume constant et faisant intervenir cinq produits : A + B → C,
C + D E.
Les conditions expérimentales sont les suivantes : (a) On injecte continûment du produit A à un débit d(t). (b) Il apparaît une concentration de C à une vitesse proportionnelle à la concentration de A présente (constante de proportionnalité k1 ). Le produit B est en excès, ce qui explique qu’il n’influe pas sur la vitesse de la réaction. (c) La première réaction est irréversible, mais pas la seconde. Ainsi, il apparaît une concentration de E à une vitesse proportionnelle à la concentration de C présente (constante de proportionnalité k2 ), en supposant que le produit D est en excès. De même, E se transforme en C + D à une vitesse proportionnelle à la concentration de E présente (constante de proportionnalité k3 ). 1. Expliciter la modélisation utilisée et en déduire le système d’équations différentielles (portant sur les concentrations de A, C et E) auquel elle conduit. Peut-on justifier le choix d’une modélisation à temps continu ? 2. On constate que k1 = 0,1 s−1 , k2 = 0,1 s−1 , k3 = 0,2 s−1 , et on choisit d(t) = constante = 0,1 mol.L−1 .s−1 . Résoudre les équations sachant qu’il n’y a aucun des produits au temps t = 0 (indication : on notera que l’une des équations obtenues est découplée des autres, ce qui permet de la résoudre indépendamment et, par la suite, de traiter la solution de cette équation comme un second membre dans les autres équations). 3. On suppose que le composé A est toxique au-delà d’un certain seuil (très élevé) de concentration. La situation présente-t-elle un risque ou pas ? On souhaite en revanche obtenir une quantité importante du composé C. Peuton y arriver ? Commenter l’intérêt de cette façon de procéder.
402
Exercices
Exercice 3 (Invasion d’aleurodes : traitement de tous les stades) Nous avons déjà rencontré au chapitre 8 l’aleurode des serres, insecte qui s’attaque aux cultures en serres et dont le cycle de vie comporte plusieurs stades de développement : œuf, stade larvaire et individu adulte. Nous avons alors étudié un modèle très simplifié de l’évolution d’une population d’œufs au cours du temps. Dans cet exercice, nous approfondissons l’étude en essayant de connaître la répartition de la population d’aleurodes dans tous les stades. 1. Supposons que, par unité de temps, 20 % des œufs se transforment en larves, 20 % des larves se transforment en adultes, 20 % des adultes meurent, et qu’il y a une ponte d’un nombre d’œufs égal à 20 % des adultes. À quelles équations ces hypothèses conduisent-elles ? 2. Montrer que la matrice des coefficients du système admet la valeur propre 0 et que le nombre total d’aleurodes (sous toutes les formes : œufs, larves ou adultes) reste toujours constant. Quel lien peut-on établir entre ces deux propriétés ? 3. Résoudre en supposant qu’à t = 0 on a 100 larves, 300 adultes et aucun œuf. Que constate-t-on ?
Exercice 4 (Du discret au continu) Un laboratoire de recherche souhaite bâtir un modèle très simplifié du comportement de cellules sanguines infestées par un parasite. Dans un premier temps, l’équipe fait l’hypothèse que le cycle du parasite est extrêmement régulier : tous les mois, une infestation de 10 % des cellules saines se produit de manière synchronisée (chaque cellule peut être envahie par au plus un parasite), et la mortalité mensuelle naturelle des cellules saines est de 10 %, alors que celle des cellules infestées s’élève à 50 %. Enfin, l’infestation provoque un mécanisme de défense de l’organisme qui produit au cours du cycle un nombre de nouvelles cellules saines égal à 10 % du nombre de cellules saines présentes juste avant l’infestation. 1. Justifier l’intérêt d’un modèle discret pour décrire l’ensemble de ces phénomènes. On effectue un recensement mensuel, juste après l’apparition des nouvelles cellules saines mais juste avant la période d’infestation (on suppose que ces deux phénomènes se suivent de peu). Montrer que cela conduit aux équations suivantes pour le nombre de cellules saines s(t) et infestées i(t) : 9 − 100 0 s(t) . N (t + 1) = (I + A)N (t), avec N (t) = et A = 5 i(t) −5 100
10
2. Dans un deuxième temps, les chercheurs font l’hypothèse que le cycle a lieu non pas une fois mais n fois par mois (sans que cela ne change les 403
Chapitre 10. Équations différentielles couplées et systèmes dynamiques
taux mensuels de création ou destruction de cellules) ; l’unité naturelle de temps devient donc Δt = n1 mois. Le modèle n◦ 2 envisagé est alors le suivant : 1 1 − 10n + 100n 0 2 . N (t + Δt) = (I + An )N (t), avec An = 1 5 5 1 − 10n − 10n 10n Justifier ce choix. 3. L’équipe suppose enfin que tous les phénomènes se produisent en continu. Montrer que le modèle à temps continu naturellement obtenu en raisonnant directement à partir des hypothèses s’écrit
N (t) = A∞ N (t), avec A∞ =
1 − 10
0
1 10
5 − 10
.
Comment obtient-on ce modèle à partir du modèle n◦ 2 précédent ?
Exercice 5 (Modèle de compétition) Après une étude attentive de deux espèces vivant dans un milieu isolé, on choisit de modéliser l’évolution de leurs populations respectives à l’aide du système d’équations différentielles suivant : n1 (t) = r1 n1 (t) 1 − − p2 n2 (t) K1 n2 (t) n2 (t) = r2 n2 (t) 1 − − p1 n1 (t) . K2 n1 (t)
Quels phénomènes cette modélisation décrit-elle ? (Pour s’entraîner, le lecteur pourra ensuite étudier les systèmes obtenus en prenant différentes valeurs de K1 , K2 , p1 et p2 .)
Exercice 6 (Modèle de Lotka-Volterra à ressources limitées) Le modèle « proies-prédateurs » présenté dans le paragraphe 10.5.1 peut être raffiné en un modèle plus réaliste de la manière suivante : n1 (t) = an1 (t) (−1 + pn2 (t)) n2 (t) − qn1 (t) , n2 (t) = bn2 (t) 1 − K
404
Exercices
où a, b, p, q et K sont des constantes strictement positives. Commenter les hypothèses sous-jacentes à ce modèle. On suppose maintenant pour simplifier que p = 1 et q = 1(10) . Déterminer les isoclines et les points d’équilibre, et tracer le portrait de phase dans la zone {n1 > 0, n2 > 0}. Quelle est la nature des points d’équilibre suivant les valeurs de K ? Que retrouve-t-on si K tend vers l’infini ? Un commentaire ?
Exercice 7 (Modèle épidémiologique évolué) On considère une population pouvant être infectée par un virus. Celui-ci présente une particularité : les individus infectés peuvent être porteurs sains pendant une longue période avant de déclarer la maladie (mais certains individus contractent immédiatement la maladie). On note alors A(t) la population dont le virus est absent, S(t) le nombre de porteurs sains et M (t) la population malade. On suppose de plus que l’accroissement du nombre d’individus infectés (porteurs sains ou malades) par unité de temps est proportionnel au produit du nombre de sujets infectés par le nombre de sujets non infectés (autrement dit, à la probabilité de rencontre d’un infecté et d’un non infecté). Une fraction (toujours la même) de ces derniers tombe directement malade, tandis que les autres demeurent porteurs sains. En outre, par unité de temps, un pourcentage constant de porteurs sains tombe malade et une fraction fixe des infectés (malades ou pas) guérit avec des taux de guérison différents suivant que l’on considère les porteurs sains ou les malades. Montrer que cette modélisation conduit aux équations différentielles A (t) = −kA(t) (S(t) + M (t)) + gS(t) + hM (t) S (t) = pkA(t) (S(t) + M (t)) − (g + c)S(t) M (t) = (1 − p)kA(t) (S(t) + M (t)) + cS(t) − hM (t), et relier les constantes k, p, c, g et h aux hypothèses faites ci-dessus (on fera aussi des interprétations de ces constantes). On suppose désormais, pour simplifier, que l’on ne tient pas compte des deux stades d’infection (on fait en particulier l’hypothèse g = h), et on note I(t) le nombre d’individus infectés, malades ou porteurs sains. Écrire le système d’équations vérifiées par le couple de fonctions (A(t), I(t)). Quelles sont les isoclines ? Les points d’équilibre ? Peut-on appliquer le théorème de Hartman au voisinage de chaque point d’équilibre ?
(10)
Il ne s’agit pas vraiment d’une hypothèse, car on peut prendre comme nouvelles inconnues y1 = qn1 et y2 = pn2 .
405
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
11 SOLUTIONS DE LA PARTIE I : BASES
11.1. Solutions des exercices du chapitre 1 Exercice 1 1. Les règles de calcul de limites s’appliquent directement : −3 x − 1 = −3+2 − 1 = 2. limx→−3 x+2 2. Forme indéterminée ∞ − ∞. On factorise l’exponentielle (probablement plus forte que la puissance) : f (x) = ex (x3 e−x + e−x − 1). En posant X = −x, on a x3 e−x + e−x = (−X)3 eX + eX et, comme X → −∞ lorsque x → +∞, les formes indéterminées usuelles donnent limx→+∞ x3 e−x + e−x = 0. On en déduit limx→+∞ f (x) = +∞ × (−1) = −∞. 3. Forme indéterminée 0 × +∞. En posant X = x12 , on a x4 = X12 , et eX donc x4 exp( x12 ) = X 2 . Lorsque x tend vers 0, X tend vers +∞ (règle de division avec un dénominateur tendant vers 0 mais gardant un signe constant : limx→0 x2 = 0 et x2 > 0 pour tout x = 0), et donc eX limx→0 = x4 exp( x12 ) = limX→+∞ X 2 = +∞ (forme indéterminée usuelle). Notons que le raisonnement effectué en 2 et 3, qui consiste à introduire la « nouvelle variable » X, ne fait appel à rien d’autre qu’une règle de composition de limites (X est en fait une fonction X(x), et l’on a écrit f (x) = h(X(x)) pour une fonction h bien choisie).
Chapitre 11. Solutions de la partie I : Bases
Exercice 2 On constate tout d’abord que la fonction P (t) est bien définie pour tout nombre réel t. Comme la fonction exp est continue et dérivable sur R, la fonction exp(−kt) est aussi continue et dérivable sur R, par composition de fonctions continues et dérivables. Il en va donc de même pour la fonction P , comme somme de fonctions continues et dérivables. On a P (t) = −kBe−kt et, puisque l’exponentielle est toujours strictement positive, P a un signe opposé à celui de B. La fonction P est donc strictement décroissante sur R si B > 0 et strictement croissante sur R si B < 0 (on ne traite pas le cas B = 0, pour lequel P est simplement une fonction constante). L’exponentielle tendant vers 0 en −∞ et vers +∞ en +∞, on a limt→+∞ P (t) = A et limt→−∞ P (t) = sgn(B) × +∞. Le tableau de variation étant évident, nous nous contentons de donner dans la figure 11.1 les représentations graphiques de P selon le signe de B. P (t)
P (t)
A t A t Si B > 0
Si B < 0
Figure 11.1. Représentation graphique de P (t) = A + Be−kt , selon le signe de B.
Exercice 3 1. On a f (t) = −aAe−at + bBe−bt , et donc f (t) ≥ 0 lorsque bBe−bt ≥ aAe−at soit, par propriété de l’exponentielle, e(a−b)t ≥ aA bB et, en prenant le logarithme (fonction croissante, qui ne change donc 410
11.1. Solutions des exercices du chapitre 1
pas le sens de l’inégalité), (a − b)t ≥ ln( aA ). La suite dépend du bB signe de a − b (nous laissons le lecteur réfléchir tout seul au cas 1 ln( aA ) et, si a − b < 0, a − b = 0) : si a − b > 0, on aboutit à t ≥ a−b bB 1 aA 1 on aboutit à t ≤ a−b ln( bB ) (multiplier par a−b change le sens de l’inégalité). Comme l’exponentielle tend vers 0 en +∞, on a limt→+∞ f (t) = 0. La limite de f en −∞ est une forme indéterminée ∞ − ∞, les deux fonctions e−at et e−bt tendant vers +∞ lorsque t tend vers −∞. Le terme qui va l’emporter est probablement celui correspondant au plus gros coefficient de t. Supposons par exemple que a > b et factorisons e−at : f (t) = e−at (A − Be(a−b)t ). Comme a − b > 0, on obtient limt→−∞ e(a−b)t = 0 et donc, A étant strictement positif, limt→−∞ f (t) = +∞. Inversement, si a < b, on factorise e−bt et on trouve limt→−∞ f (t) = −∞. On peut résumer les informations obtenues, en fonction de la position de a par rapport à b, dans les tableaux de variation suivants : 1 a−b
−∞ f
−
ln( aA ) bB 0
+∞ +
+∞
0
f Si a > b 1 a−b
−∞ f
+
ln( aA ) bB 0
f −∞
+∞ − 0
Si a < b Les allures des représentations graphiques de f sont alors données dans la figure 11.2. 2. Examinons rapidement comment l’étude précédente peut s’appliquer à la population de larves d’aleurode. Si R < K alors, en k 2 N0 k 2 N0 posant A = L0 − R−K , B = − R−K , a = R et b = K (tous ces nombres réels sont positifs dans le cas R < K), on se rend compte 411
Chapitre 11. Solutions de la partie I : Bases
que L(t) = Ae−at − Be−bt = f (t) (avec a < b) : la représentation graphique de L est donc la seconde de la figure 11.2 (en fait, seule la partie du dessin dans la zone t ≥ 0 nous intéresse, car la formule donnée pour L n’est valable que pour les temps positifs, t = 0 marquant le début de l’invasion). Par ailleurs, il est à noter que 1 ln( aA ) n’est pas forcément strictement positif : cela dépend des a−b bB valeurs exactes de A, B, a et b.
f (t)
f (t)
t 1 a−b
ln( aA ) bB
Si a > b
1 a−b
ln( aA ) bB
t
Si a < b
Figure 11.2. Représentations graphiques de f (t) = Ae−at − Be−bt en fonction de la position de a par rapport à b. k 2 N0 k 2 N0 Si l’on suppose que R > K et L0 < R−K , on pose alors A = R−K , k 2 N0 B = −(L0 − R−K ), a = K et b = R (tous ces nombres réels sont positifs), et l’on obtient encore L(t) = Ae−at − Be−bt = f (t) (avec a < b) : la situation est similaire à la précédente (mais avec des A, B, a et b différents). k 2 N0 , on constate que L s’écrit Enfin, dans le cas où R > K et L0 > R−K L(t) = Ae−at + Be−bt , où A, B, a et b sont tous positifs. On ne retrouve donc pas la fonction f , et il faut alors refaire une étude de L. La situation est cependant un peu plus simple car on peut voir que la fonction Ae−at + Be−bt est toujours décroissante sur [0 ; +∞[ (nous laissons au lecteur le soin d’écrire les détails).
412
11.1. Solutions des exercices du chapitre 1
Exercice 4 Notons x la distance en mètres entre le départ et A (cette distance est comprise entre 0 et d, puisque les x négatifs ou supérieurs à d correspondent clairement à des chemins inutilement longs). D’après le théorème de Pythagore, la distance entre A et l’arrivée est (d − x)2 + L2 , et le temps de trajet « départ-A-arrivée » s’écrit donc T (x) = x6 + (d − x)2 + L2 (en secondes). Cette fonction nous intéresse sur le domaine DT = [0 ; d]. La fonction T est continue et dérivable sur DT (comme somme et composition de fonctions continues et dérivables), et elle admet donc un minimum, qui est soit en 0, soit en d, soit en x0 ∈ ]0 ; d[ tel que T (x0 ) = 0. On a T (x) = 16 − √ d−x2 2 et T (x0 ) = 0 lorsque (d−x) +L 2 2 2 6(d − x0 ) = (d − x0 ) + L , soit, en élevant au carré, (d − x0 )2 = L35 . Comme on doit avoir x0 ≤ d, on a d − x0 ≥ 0, √ et donc, en prenant la racine carrée de cette expression (et en utilisant X 2 = |X|), on trouve x0 = d − √L35 . Il faut ensuite considérer deux cas : ou bien ce point x0 est bien dans [0 ; d], et c’est alors un candidat potentiel pour être le minimum de T ; ou bien il n’est pas dans [0 ; d] et il ne doit donc pas être considéré. Dans le√premier cas, le minimum de T est à choisir entre 0, d et x0 .√On a T (0) = d2 + L2 , T (d) = d6 + L et T (x0 ) = d6 − 6√L35 + √6L35 = d6 + L 635 . √ Comme 35 < 6, il est facile de voir que T (d) > T (x0 ). En élevant au carré, on peut aussi constater que T (0) ≥ T (x0 ) et le minimum de T est donc bien localisé en x0 . Dans le second cas (c’est-à-dire x0 < 0), on a d < √L35 et le minimum L, ce qui permet de est à choisir entre 0 et d. On a en particulier d < 12 35 voir que T (0) < T (d) (en élevant cette inégalité au carré) : le minimum de T est donc en 0. Exercice 5 Pour obtenir la plus grande résistance possible, on cherche à avoir simultanément la plus grande largeur et la plus grande superficie possible pour la section rectangulaire. Il est alors clair que l’on doit rejeter les poutres qui n’utilisent pas le maximum possible de la section du rondin (comme la poutre 2 de la figure 1.19 : on peut tailler dans le rondin une 413
Chapitre 11. Solutions de la partie I : Bases
poutre un peu plus large et haute que la poutre 2, qui sera donc plus résistante). Les poutres de résistance maximale sont celles de la forme de la poutre 1 et, en notant et h leur largeur et hauteur, on a ainsi 2 + h2 = D 2 (théorème de Pythagore). Par hypothèse, la résistance de la poutre s’écrit √ R = α × h = α2 D 2 − 2 = α2 (D 2 − 2 )1/2 , avec α constant. De plus, la largeur est obligatoirement comprise entre 0 et D, et R est alors une fonction de continue sur [0 ; D] et dérivable sur ]0 ; D[ (car la fonction racine carrée est continue sur [0 ; +∞[ et dérivable sur ]0 ; +∞[). On sait ainsi qu’il existe un maximum de R sur [0 ; D], qui est soit en 0, soit en D, soit en c ∈ ]0 ; D[ tel que R (c) = 0. On a √ −2 2(D 2 − 2 ) − 2 2D 2 − 32 = α √ = α √ · R () = 2α D 2 − 2 +α2 √ 2 D 2 − 2 D 2 − 2 D 2 − 2 La dérivée de R ne peut s’annuler qu’en = D 2/3 (qui est biendans ]0 ; D[) et le maximum de R est donc soit en 0, soit en D, soit en D 2/3. Or R(0) = R(D) = 0 et R(D 2/3) > 0, ce qui montre que le maximum de R est en D 2/3. En conclusion, il faut tailler une poutre de largeur D 2/3 (et de hauteur correspondante maximale) pour obtenir une résistance maximale. Exercice 6 1. Soit M un point de G qui, par définition, a donc pour coordonnées (x, x1 ) pour un certain x > 0. Si l’on effectue une dilatation de facteur b selon l’axe des abscisses, (x, x1 ) passe en (bx, x1 ). Si l’on applique ensuite une dilatation selon l’axe des ordonnées d’un fac1 ), point qui teur 1b , M se retrouve finalement en (bx, 1b x1 ) = (bx, bx est encore sur G. La courbe G est donc inchangée lorsqu’on lui fait subir les deux dilatations considérées. 2. Une dilatation d’un facteur b selon l’axe des abscisses multiplie par b la largeur de R sans changer sa longueur : son aire se retrouve donc multipliée par b. De même, lors d’une dilatation d’un facteur 1 selon l’axe des ordonnées, l’aire de R est multipliée par ce même b 414
11.1. Solutions des exercices du chapitre 1
facteur. On retiendra en particulier que, lorsque l’on applique successivement les deux transformations, l’aire de R est inchangée (et donc aussi, comme le précise l’énoncé, celle de toute partie du plan). 3. Lorsque l’on effectue une dilatation d’un facteur b selon l’axe des abscisses et de 1/b selon l’axe des ordonnées, les points de coordonnées (1, 0) et (a, 0) sont envoyés, respectivement, sur les points de coordonnées (b, 0) et (ab, 0). Comme la courbe G est inchangée lorsque l’on applique les deux dilatations considérées, on en déduit que la zone verte sur la figure 11.3 se retrouve sur la zone bleue. Les aires étant inchangées lorsque l’on applique les deux dilatations, l’aire verte (= ln(a)) est égale à l’aire bleue (= aire sous la courbe entre 1 et ab moins aire sous la courbe entre 1 et b = ln(ab) − ln(b)). Cela nous donne ln(a) = ln(ab) − ln(b) et montre bien la formule voulue. f (x) =
1
a
1 x
b
ab
Figure 11.3. Représentation graphique de f (x) = x1 et aires égales à ln(a) et ln(ab) − ln(b) (en gris).
4. Lorsque l’on effectue une dilatation d’un facteur a1 selon l’axe des abscisses, suivie d’une dilatation d’un facteur a selon l’axe des ordonnées, la partie du plan située sous G entre x = 1 et x = a (dont l’aire est ln(a)) est ramenée à la partie du plan située sous G (inchangée suite à ces deux dilatations) entre x = a1 et x = 1 (dont l’aire est − ln( a1 ) puisque a1 < 1). 5. Si a < 1, b ≥ 1 et ab ≥ 1, par exemple, on a b = ab a1 avec ab et 1 qui sont supérieurs à 1. On déduit des questions 3 et 4 ci-dessus a que ln(b) = ln(ab) + ln( a1 ) = ln(ab) − ln(a), ce qui redonne bien ln(ab) = ln(a) + ln(b). Les autres cas (b < 1, etc.) se déduisent des questions 3 et 4 par le même genre de manipulations. 6. Pour tous x et y dans R, il existe a et b strictement positifs tels que ln(a) = x et ln(y) = b (d’après le théorème des valeurs 415
Chapitre 11. Solutions de la partie I : Bases
intermédiaires, puisque le logarithme tend vers −∞ en 0 et vers +∞ en +∞). On a donc exp(x+y) = exp(ln(a)+ln(b)) = exp(ln(ab)) = ab et, par définition de l’exponentielle, a = exp(x) et b = exp(y), ce qui démontre la propriété essentielle de l’exponentielle. Exercice 7 La valeur r = 1/2 est bien comprise entre f (−1) et f (1) mais n’est pourtant jamais atteinte par f (il n’existe pas de x dans [−1 ; 1] tel que f (x) = r). Cela se voit à la fois sur la définition de f et sur sa représentation graphique (la droite horizontale à hauteur 1/2 ne rencontre pas la représentation graphique). Notons que f n’est pas continue sur [−1 ; 1] (elle n’a pas de limite en 0), ce qui montre que l’hypothèse de continuité dans l’énoncé du théorème des valeurs intermédiaires n’est pas un luxe... Exercice 8 (0) (0) Si x > 0, on a f (x)−f = |x| = xx = 1 et, si x < 0, f (x)−f = |x| = x−0 x x−0 x f (x)−f (0) −x = −1. Lorsque x tend vers 0, on se rend compte que x−0 n’a pas x de limite (elle alterne entre 1 et −1 selon le signe de x, sans se rapprocher d’un réel donné), et f n’est donc pas dérivable en 0. Cela se voit aussi sur sa représentation graphique (voir figure 11.4) : cette dernière présente un « coin » en x = 0 et l’on serait bien en peine de tracer une « tangente » en ce point.
f(x) = x
0
x
Figure 11.4. Représentation graphique de la fonction valeur absolue (fonction non dérivable en 0).
416
11.1. Solutions des exercices du chapitre 1
Exercice 9 Pour tout x, on a ln(exp(x)) = x. En supposant la fonction exp dérivable, la règle de dérivation des fonctions composées donne alors 1 exp (x) = 1 et donc exp (x) = ln (exp(x)) exp (x) = 1, soit exp(x) exp(x). Comme xn = exp(n ln(x)), la même règle de dérivation des fonctions composées permet d’écrire (xn ) = exp (n ln(x))(n ln(x)) = exp(n ln(x)) nx = xn × nx = nxn−1 . On peut aussi remarquer que, puisque x2 = xx, la règle de dérivation des produits donne (x2 ) = x x+xx = x+x = 2x. De même, x3 = x2 x, et donc (x3 ) = (x2 ) x + x2 x = 2x2 + x2 = 3x2 . En poursuivant le raisonnement (plus précisément, en effectuant un raisonnement par récurrence), on retrouve (xn ) = nxn−1 . Exercice 10 (x0 )g(x0 ) (x0 ) 0) 1. On a f (x)g(x)−f = f (x)−f g(x) + f (x0 ) g(x)−g(x . Comme g x−x0 x−x0 x−x0 est continue sur I, on a limx→x0 g(x) = g(x0 ) et, puisque f et g sont (x0 ) 0) dérivables en x0 , limx→x0 f (x)−f = f (x0 ) et limx→x0 g(x)−g(x = x−x0 x−x0 g (x0 ). La formule (f g) (x0 ) = f (x0 )g(x0 ) + f (x0 )g (x0 ) découle donc de la définition de la dérivée et des règles de produits de limites.
2. Si g ne s’annule pas sur I, on a 1 g(x)
−
1 g(x0 )
x − x0
=
g(x0 ) − g(x) g(x) − g(x0 ) 1 1 =− , x − x0 g(x0 )g(x) x − x0 g(x0 )g(x)
ce qui donne, par la règle de produits de limites, lorsque x → x0 , g (x0 ) f 1 ( 1g ) (x0 ) = − g(x 2 . La règle pour ( g ) = (f g ) se déduit de cette 0) expression et de la règle de dérivation d’un produit. Exercice 11 Le nombre réel f −1 (y) est l’antécédent de y par f , qui s’obtient (voir le paragraphe 1.5.2) en partant de la hauteur y sur l’axe des ordonnées, en avançant horizontalement jusqu’à rencontrer la représentation graphique de f , puis en descendant verticalement jusqu’à l’axe des abscisses. Si l’on 417
Chapitre 11. Solutions de la partie I : Bases
échange l’axe des abscisses et l’axe des ordonnées, c’est-à-dire si l’on fait une symétrie par rapport à la droite y = x (bissectrice des deux axes), les opérations précédentes consistent exactement à tracer la représentation graphique de f −1 : partir d’un point y sur l’axe des abscisses, monter jusqu’à rencontrer la représentation graphique de f −1 , puis revenir horizontalement sur l’axe des ordonnées pour trouver f −1 (y). Exercice 12 1. La dérivée du logarithme est la fonction x −→ x1 . Les primitives de cette dernière sont donc les fonctions x −→ ln x + C
pour x > 0,
où C est une constante, et x −→ ln(−x) + C
pour x < 0
(vérifiez !), que l’on peut rassembler en une seule formule en écrivant 1 ln |x| + C. De même, les primitives de x −→ x−a sont les fonctions x −→ ln |x − a| + C pour x = a. 2. On calcule facilement D C(x − b) + D(x − a) C + = x−a x−b (x − a)(x − b) (C + D)x − (bC + aD) , = (x − a)(x − b) qui est égale à f (x) pour tout x si et seulement si C + D = 0 et 1 . On en déduit donc que bC + aD = −1, soit encore C = −D = a−b 1 1 1 f (x) = − , a−b x−a x−b et les primitives de f sont les fonctions |x − a| 1 ln +C x −→ a − b |x − b| sur chacun des trois intervalles composant R \ {a, b}. 3. Il suffit de dériver la fonction composée x −→ ln(u(x)) pour constater que sa dérivée est bien celle annoncée. En posant u(x) = ln x, on constate que les primitives cherchées sont les fonctions ln | ln |x||+C sur chacun des intervalles composant R \ {−1, 0, 1}. 418
11.2. Solutions des exercices du chapitre 2
11.2. Solutions des exercices du chapitre 2
Exercice 1 Les fonctions partielles de f à y fixé sont de la forme x → x2 −C, donc toujours des paraboles orientées vers le haut. Si l’on coupe le graphe A par des plans verticaux « y = constante », on obtient parfois (selon la constante) des paraboles orientées vers le haut, mais aussi parfois orientées vers le bas et A ne peut donc pas correspondre à f . De même, le graphe B coupé par ces mêmes plans donne plutôt des droites et ne correspond pas à f . En revanche, les coupes du graphe C par de tels plans fournissent toujours des paraboles orientées vers le haut. Par ailleurs, des coupes de C par des plans « x = constante » donnent des paraboles orientées vers le bas, qui peuvent tout à fait correspondre aux fonctions partielles de f à x constant, qui sont de la forme y → C − y 2 . On peut donc fortement soupçonner que la surface-graphe de f est donnée par le graphe C. Les fonctions partielles de g à x fixé sont de la forme y → Cy, donc des droites : le graphe C ne peut donc correspondre (on s’en doutait !), de même que le graphe B. En revanche, le graphe A coupé par des plans « x = constante » donne bien des droites ; de plus, coupé par des plans « y = constante », ce graphe donne des paraboles tantôt orientées vers le haut, tantôt vers le bas, qui semblent correspondre aux fonctions partielles de g à y fixé, de la forme x → Cx2 (avec le signe de C dépendant de la valeur à laquelle on a fixé y). La surface-graphe de g est donc probablement le graphe A. On peut enfin se convaincre que les fonctions partielles de h par rapport à x et y correspondent bien aux coupes que l’on obtient du graphe B.
Exercice 2 Lorsque l’on fixe T , la fonction partielle de P obtenue est z → g p0 exp(− M z), qui se dérive simplement par composition : RT g Mg ∂P p0 Mg − M gz −M z = p0 e RT × − e RT . =− ∂z RT RT 419
Chapitre 11. Solutions de la partie I : Bases
À z fixé, la fonction partielle T → p0 exp(− MRgz T1 ) se dérive aussi par composition : ∂P Mgz −1 p0 Mgz − M gz − MRgz T1 = p0 e × 2 = × − e RT . ∂T R T RT 2 est toujours négatif, tandis que ∂P est toujours poOn constate que ∂P ∂z ∂T sitif : ainsi, dans les conditions où la formule donnée pour P est correcte, augmenter l’altitude fait baisser la pression, tandis qu’augmenter la température fait monter la pression. Exercice 3 Lorsque l’on « gèle » la variable T , la fonction partielle V → kT ) nRT exp(−a/V de P apparaît essentiellement comme un quotient de V −N b a 1 ) est lui-même une deux fonctions, dont le numérateur V → exp(− kT V composition de deux fonctions. On a donc, en notant () la dérivation par rapport à V (puisque T est fixé ici), ∂P (V − Nb)(exp(−a/V kT )) − exp(−a/V kT )(V − Nb) = nRT ∂V (V − Nb)2 a 1 (V − Nb) × kT V 2 exp(−a/V kT ) − exp(−a/V kT ) = nRT (V − Nb)2 a(V − Nb) − kT V 2 = nRT exp(−a/V kT ). kT V 2 (V − Nb)2 La dérivée partielle par rapport à T est un peu plus simple à obtenir (T n’intervient pas au dénominateur), et l’on trouve a ∂P nR exp(−a/V kT ) + T exp(−a/V kT ) = ∂T V − Nb V kT 2 a nR exp(−a/V kT ) 1+ . = V − Nb V kT Exercice 4 Si les dérivées partielles de f sont toutes nulles, alors df = 0 par définition de la différentielle. Fixons a0 dans le domaine de f . Tout point b de ce domaine pouvant être relié à a0 par un chemin γ régulier par 420
11.2. Solutions des exercices du chapitre 2
morceaux et qui reste dans le domaine de f , le théorème fondamental du calcul différentiel et intégral à plusieurs variables montre alors que f (b) − f (a0 ) = γ df = 0. Ainsi, f prend la valeur f (a0 ) en n’importe quel point b de son domaine : elle est donc constante. Exercice 5 On a ∂(−x) − ∂y = −2 et α n’est donc pas fermée (et ne peut ainsi ∂x ∂y être exacte). − ∂y = 0, β est fermée. Pour voir si elle est En revanche, puisque ∂x ∂x ∂y (x, y) = y et exacte, on cherche une fonction f telle que df = β, soit ∂f ∂x ∂f (x, y) = x. En prenant la primitive par rapport à x (on fixe y) de la ∂y première de ces deux équations, on est amené à chercher f sous la forme f (x, y) = xy +m, où m est une « constante par rapport à x », c’est-à-dire qu’elle ne dépend que de y (i.e. m = m(y)). La seconde équation donne alors x + m (y) = x, et l’on doit donc prendre m (y) = 0, i.e. m constant (par exemple nul !). En fin de compte, on s’aperçoit que f (x, y) = xy vérifie df = β, ce qui montre bien que la forme différentielle β est exacte. y −x Enfin, concernant δ = x2 +y 2 dx + x2 +y 2 dy, on a ) ∂( x2−x +y 2 ∂x
−
y ∂( x2 +y 2)
∂y
−(x2 + y 2 ) + x × 2x x2 + y 2 − y × 2y − (x2 + y 2 )2 (x2 + y 2 )2 −2(x2 + y 2) + 2x2 + 2y 2 = = 0, (x2 + y 2)2 =
et δ est donc fermée. Considérons ensuite, comme l’énoncé le suggère, le cercle de centre 0 et de rayon 1, correspondant au chemin γ : [0 ; 2π] → R2 défini par γ(t) = (cos(t), sin(t)) (ce chemin régulier reste bien dans le domaine de δ, constitué de tout le plan sauf l’origine (0, 0)). On a cos(t)2 + sin(t)2 = 1, cos (t) = − sin(t) et sin (t) = cos(t), donc δγ(t) (γ (t)) = sin(t) × (− sin(t)) − cos(t) × cos(t) = − sin(t)2 − 2π cos(t)2 = −1. Ainsi, γ δ = 0 −1 dt = −2π. Or, la courbe γ vérifie γ(0) = γ(2π) = (1, 0), autrement dit γ rejoint les deux mêmes points a = b = (1, 0) : s’il existait f tel que df = δ, le théorème fondamental différentiel et intégral à plusieurs variables affirmerait que du calcul δ = γ df = f (b) − f (a) = 0 (puisque a = b), ce qui est une contraγ diction avec γ δ = −2π. On en conclut que δ n’est pas une forme exacte (bien qu’elle soit fermée). 421
Chapitre 11. Solutions de la partie I : Bases
11.3. Solutions des exercices du chapitre 3 Exercice 1 Dire que le jeu est bien battu signifie que chaque carte a autant de chances d’être tirée que les autres. La situation est donc celle d’événements élémentaires équiprobables. L’univers Ω, composé de tous les tirages possibles de 8 cartes (sans répétition) parmi 52, contient donc 52 événements élémentaires. Il reste alors à dénombrer les tirages de 8 8 cartes qui contiennent les 4 as. Pour former un tel tirage, il suffit en fait de sélectionner les 4 cartes du tirage 48 qui ne sont pas des as, c’est-àdire choisir 4 cartes parmi 48. Il y a 4 manières de choisir ces 4 cartes, et la probabilité d’obtenir les 4 as lors d’un tirage de 8 cartes est donc 48 8! × 44! 48! 4 52 = × 4! × 44! 52! 8 8×7×6×5 = ≈ 0,00026. 52 × 51 × 50 × 49 Exercice 2 On peut associer à chaque groupe de n personnes la liste des dates d’anniversaire (a1 , a2 , . . . , an ) de ses membres. Comme tous les jours de l’année sont équiprobables, la probabilité recherchée est égale au nombre de listes de n dates admettant au moins deux éléments identiques divisé par le nombre de listes de dates possibles. Le nombre total de listes de dates est facile à obtenir : il s’agit de sélectionner n dates d’anniversaire parmi 365 possibles, avec répétitions. Il y en a donc au total 365n . Il reste ensuite à compter les listes favorables, qui sont celles comportant au moins deux dates identiques. Il est toujours assez difficile, de façon générale, de bien dénombrer (sans en compter en double...) des situations définies par un « au moins », et l’on aura plutôt intérêt à énumérer les situations contraires. Dans le cas présent, il s’agit des groupes dans lesquels les individus ont tous des dates d’anniversaire différentes, ce qui revient donc à choisir n dates différentes parmi 365 possibles, en tenant compte de l’ordre. Cela donne A365 possibilités. n 422
11.3. Solutions des exercices du chapitre 3
En conclusion, la probabilité de tomber sur un groupe de n personnes dans lequel toutes les dates d’anniversaire sont différentes est donc A365 1 n = (365 × 364 × . . . × (365 − n + 1)) 365n 365n 364 (365 − n + 1) =1× × ...× · 365 365 Ainsi, la probabilité qu’au moins deux individus dans un groupe de n personnes aient leur anniversaire le même jour est égale à (365 − n + 1) 364 × ...× 1− 1× . 365 365 On vérifie que, pour n = 22, cette probabilité est égale à 0,4757, tandis que pour n = 23 elle vaut 0,5073 (plus d’une chance sur deux). Exercice 3 Si nous notons F l’événement « être fumeur », l’énoncé fournit les valeurs des probabilités conditionnelles PA (F ) = 0,5, PB (F ) = 0,6 et PC (F ) = 0,4. Par ailleurs, chaque malade étant atteint d’une seule affection, l’ensemble F est la réunion des événements disjoints F ∩ A (être fumeur et atteint de A), F ∩B et F ∩C. On peut donc écrire, en utilisant les propriétés d’une mesure de probabilité et la définition des probabilités conditionnelles : P(F ) = P(F ∩ A) + P(F ∩ B) + P(F ∩ C) = PA (F )P(A) + PB (F )P(B) + PC (F )P(C) = 0,5 × 0,4 + 0,6 × 0,3 + 0,4 × 0,3 = 0,5. En moyenne, un patient du service sur deux est donc fumeur. ) On cherche ensuite à calculer PF (C) = P(C∩F . Comme P(C ∩ F ) = P(F ) = 0,24. NoPC (F )P(C) = 0,4 × 0,3 = 0,12, on en déduit PF (C) = 0,12 0,5 tons que l’on peut aussi répondre à la question en utilisant la formule de Bayes, qui s’écrit ici PF (C) =
PC (F )P(C) , PC (F )P(C) + PC c (F )P(C c ) 423
Chapitre 11. Solutions de la partie I : Bases
et calculer PC c (F ) en utilisant C c = A ∪ B (si un patient ne souffre pas de C, il souffre de A ou de B). En fait, cela revient à écrire que le dénominateur dans la formule de Bayes est simplement P(F ), probabilité que nous avons déjà calculée plus haut. Exercice 4 1. Comme la famille a au moins un garçon, l’univers des sexes possibles s’écrit Ω = {(g, f ), (f, g), (g, g)} (avec g = garçon, f = fille, et en plaçant les éléments du couple par ordre de naissance). En supposant que les sexes sont équiprobables et indépendants d’une naissance sur l’autre, les événements élémentaires sont équiprobables. Le cas favorable recherché (g, g) correspond donc a 1/3 des possibilités. On peut retrouver ce résultat en utilisant le formalisme des probabilités conditionnelles. Pour cela, il suffit de se placer dans l’univers Ω = {(g, f ), (f, g), (g, g), (f, f )} , qui correspond à tous les choix possibles pour les sexes des deux enfants. En notant A l’événement « au moins un des deux enfants est un garçon », on cherche ainsi à calculer la probabilité conditionnelle PA ({(g, g)}) = P(A∩{(g,g)}) . Or A ∩ {(g, g)} = {(g, g)} et, P(A) sous les mêmes hypothèses d’indépendance et d’équiprobabilité que ci-dessus, P({(g, g)}) = 12 × 12 = 14 . On a de plus P(A) = 1 − P(Ac ), où Ac est l’événement « pas de garçon parmi les deux enfants », soit Ac =« avoir deux filles ». Ainsi, P(A) = 1 − 14 = 34 , et l’on retrouve = 13 . donc bien PA ({(g, g)}) = 1/4 3/4 2. En désignant par R l’enfant prénommé Raphaël, les cas possibles sont ici (R, f ), (f, R), (R, g) et (g, R), en fonction du sexe de l’autre enfant et du rang de naissance de Raphaël. Il y a deux cas favorables (ceux où Raphaël a un frère) sur quatre cas possibles, tous équiprobables. La probabilité que Raphaël ait un frère est donc égale à 2/4 = 1/2.
424
11.3. Solutions des exercices du chapitre 3
Exercice 5 Notons V l’événement « le courrier comporte le mot viagra » et S l’événement « le courrier est du spam ». L’énoncé donne P(S) = 0,3, PS (V ) = 0,8 et PS c (V ) = 0,01. La probabilité qu’un courrier qui contient le mot « viagra » soit du spam est PV (S). Elle peut être calculée grâce à la formule de Bayes : PV (S) =
0,8 × 0,3 PS (V )P(S) = , c PS (V )P(S) + PS c (V )P(S ) 0,8 × 0,3 + 0,01 × (1 − 0,3)
soit PV (S) ≈ 97 %. La probabilité qu’un courrier qui contient le mot « viagra » ne soit pas du spam, soit PV (S c ), est donc égale à PV (S c ) = 1 − PV (S) ≈ 3 %. Exercice 6 La variable aléatoire X est discrète et peut prendre chacune des valeurs 0, 1, . . . , 9 avec la probabilité 1/10 (puisque le tirage est « au hasard »). On a donc E(X) =
1 (0 + 1 + . . . + 9) = 4,5 10
et 1 (0 − 4,5)2 + (1 − 4,5)2 + . . . + (9 − 4,5)2 = 8,25. 10 √ Finalement, σ(X) = V(X) = 8,25 = 2,87. V(X) =
Exercice 7 1. Pour tout intervalle [α ; β] inclus dans [a ; b], la probabilité que X « tombe » dans [α ; β] s’écrit β β 1 β−α P (X ∈ [α ; β]) = · f (x) dx = dx = b−a α b−a α Cette probabilité ne dépend donc que de la longueur de l’intervalle considéré, ce qui permet d’affirmer que la loi uniforme représente le « hasard pur » sur l’intervalle [a ; b] (les chances de tomber dans 425
Chapitre 11. Solutions de la partie I : Bases
un sous-intervalle donné ne dépendent que de la taille de ce sousintervalle, pas de sa position dans [a ; b]). Nous avons déjà rencontré cette loi dans l’exemple 18 sur la direction du vent, avec a = 0 et b = 360. 2. Pour l’espérance, on trouve 1 1 1 E(X) = xf (x) dx = x dx = · 2 0 0 Pour la variance, il vient 1 V(X) = (x − E(X))2 f (x) dx 0 2 1 1 = dx x− 2 0 1 1 1 1 2 = x dx − x dx + dx 4 0 0 0 1 1 1 1 = − + = · 3 2 4 12 Le lecteur courageux pourra vérifier que, pour a et b quelconques, on a (b − a)2 a+b et V(X) = · E(X) = 2 12 3. Comme f est nulle sur ]−∞ ; a], on a évidemment F (x) = 0 pour x < a. Pour x > b, on trouve x b 1 1 F (x) = f (t) dt = dt = 1. b−a a b−a a Enfin, pour a ≤ x ≤ b, il vient x x 1 x−a 1 · f (t) dt = dt = F (x) = b−a a b−a a b−a En résumé,
⎧ ⎨0 F (x) =
⎩
x−a b−a
1
si x < a si a ≤ x ≤ b si x > b.
La densité de probabilité de la loi uniforme sur [0 ; 1] et la fonction de répartition correspondante F sont représentées dans la figure 11.5. 426
11.3. Solutions des exercices du chapitre 3
f
F 1
1
0
1
0
1
Figure 11.5. Densité de probabilité de la loi uniforme sur [0 ; 1] (à gauche) et fonction de répartition correspondante (à droite).
Exercice 8 Désignons par N la variable aléatoire « nombre d’œufs pondus par l’insecte ». L’énoncé nous indique que N suit une loi de Poisson de paramètre λ, soit donc λn P(N = n) = e−λ · n! Toujours d’après l’énoncé, une fois que l’insecte a pondu n œufs, le nombre de survivants suit une loi binomiale de paramètres n et p. En notant S la variable aléatoire « nombre de survivants », cela signifie que, pour 0 ≤ k ≤ n (il ne peut pas y avoir plus de survivants que d’œufs pondus...), on a n k P(S = k|N = n) = p (1 − p)n−k . k On cherche P(N = n et S = k). Bien entendu, cette probabilité est nulle pour k > n. Pour 0 ≤ k ≤ n, il suffit d’appliquer la définition de la probabilité conditionnelle, ce qui conduit à P(N = n et S = k) = P(S = k|N = n)P(N = n) λn n k = p (1 − p)n−k e−λ · n! k Attention : les variables aléatoires N et S ne sont pas indépendantes (puisque S ≤ N). Cela interdit en particulier tout calcul du genre P(N = n et S = k) = P(N = n)P(S = k)... 427
Chapitre 11. Solutions de la partie I : Bases
Exercice 9 1. Si X désigne la variable aléatoire « pureté du diamant », l’énoncé indique que X ∼ N (60,400), ce qui donne X−60 ∼ N (0, 1) (voir 20 l’exercice 11). On sait aussi qu’un diamant est classé en catégorie 1 si X ≥ 90. Ainsi, 90 − 60 X − 60 ≥ = P(N (0, 1) ≥ 1,5) ≈ 0,0668. P(X ≥ 90) = P 20 20 2. Chacun des diamants produits par la mine a une probabilité p = 0,0668 d’être classé en catégorie 1, et il y a indépendance entre les diamants. Le nombre total de diamants classés en catégorie 1 parmi les 3000 diamants produits chaque année suit donc une loi binomiale B(3000, p), d’espérance 3000 × p = 200 et de variance 3000 × p(1 − p) = 187. 3. Parmi les 3000 diamants produits chaque année, il y a donc, en moyenne, 200 diamants payés 10 000 dollars l’unité et 2800 diamants payés 40 000 dollars les 10. La recette moyenne est donc de ×40 000 dollars, soit 13 200 000 dollars. 200×10 000 dollars plus 2800 10
Exercice 10 En développant le carré, on trouve n
2
(xi − E(X)) =
i=1
=
n i=1 n
x2i
−
n i=1
x2i − 2E(X)
i=1
Comme E(X) =
1 n
n i=1
2xi E(X) +
n
(E(X))2
i=1 n
xi + n (E(X))2 .
i=1
xi , il s’ensuit
1 2 1 2 xi − 2E(X) × E(X) + (E(X))2 = x − (E(X))2 . σ = n i=1 n i=1 i n
2
428
n
11.3. Solutions des exercices du chapitre 3
Pour démontrer la seconde formule, le plus simple est de partir de l’expression d’arrivée. On a n n
2
(xi − xj ) =
i=1 j=1
=
n n
(x2i − 2xi xj + x2j )
i=1 j=1 n x2i n i=1
−2
n
xi
i=1
n
xj + n
j=1
n
x2j .
j=1
Ainsi, n n 1 (xi − xj )2 2n2 i=1 j=1 n n n n 1 1 2 1 2 1 = xi − xi × xj + x 2n i=1 n i=1 n j=1 2n j=1 j
=
1 2 1 2 xi − (E(X))2 + x 2n i=1 2n j=1 j
=
1 2 xi − (E(X))2 . n i=1
n
n
n
On conclut alors grâce à la formule précédente. Exercice 11 1. Supposons tout d’abord que α > 0. Pour tout intervalle [a ; b], on a αX + β ∈ [a ; b] lorsque X ∈ [ a−β ; b−β ], de sorte que α α (b−β)/α a−β b−β ; f (x) dx. P (αX + β ∈ [a ; b]) = P X ∈ = α α (a−β)/α Le changement de variable s = φ(x) = αx+β dans l’intégrale donne alors b s−β 1 f ds, P (αX + β ∈ [a ; b]) = α a α ce qui montre bien que αX + β.
1 f ( x−β ) α α
=
1 f ( x−β ) |α| α
est la densité de 429
Chapitre 11. Solutions de la partie I : Bases
Si α < 0, l’intervalle [ a−β ; b−β ] doit en fait s’écrire [ b−β ; a−β ] (car α α α α la division par α inverse l’ordre de a − β et b − β), et l’on a donc (a−β)/α P (αX + β ∈ [a ; b]) = f (x) dx (b−β)/α a s−β 1 f = ds α b α b s−β 1 f ds. =− α a α )= Cela montre que la fonction − α1 f ( x−β α sité de la variable aléatoire αX + β.
1 f ( x−β ) |α| α
est bien la den-
2. Nous supposerons ici que α > 0, en laissant au lecteur le soin de vérifier par lui-même que le cas α < 0 se traite de façon similaire, moyennant quelques inversions dans les bornes des intégrales. En notant I = [a ; b] un intervalle dans lequel X prend ses valeurs, on constate que αX + β prend ses valeurs dans l’intervalle [αa + β ; αb + β] et, par définition de la variance, αb+β x−β 2 1 f (x − E(αX + β)) V(αX + β) = dx. |α| α αa+β Comme E(αX +β) = αE(X)+β, le changement de variable s = dans cette intégrale conduit à b V(αX + β) = (αs + β − αE(X) − β)2 f (s) ds a b 2 (s − E(X))2 f (s) ds = α2 V(X). =α
x−β α
a
3. La variable aléatoire X admet pour densité la fonction (x − m)2 1 exp − . f (x) = √ 2σ 2 2πσ 2 , on Ainsi, en appliquant la question 1 avec α = σ1 et β = − m σ X−m conclut que la densité de la variable aléatoire σ n’est autre que 2 x 1 ((σx + m) − m)2 1 = √ exp − exp − g(x) = σ √ . 2 2σ 2 2π 2πσ 2 430
11.3. Solutions des exercices du chapitre 3
En d’autres termes, X −m ∼ N (0, 1). σ Exercice 12 Notons {x1 , . . . , xn } les valeurs de X et {y1, . . . , yk } les valeurs de Y , et commençons par constater que XY est une variable aléatoire qui prend ses valeurs dans l’ensemble {x1 y1 , . . . , x1 yk , x2 y1 , . . . , x2 yk , . . . , xn y1 , . . . , xn yk }. Supposons, pour simplifier, que toutes ces valeurs sont deux à deux distinctes (i.e. xi yj = xi yj si i = i ou j = j ). Dans ce cas, il est facile de voir que XY = xi yj uniquement lorsque X = xi et Y = yj , de sorte que, par indépendance de X et Y , P(XY = xi yj ) = P(X = xi et Y = yj ) = P(X = xi )P(Y = yj ). On en déduit, par définition de l’espérance des variables aléatoires discrètes, E(XY ) = x1 y1 P(XY = x1 y1 ) + . . . + x1 yk P(XY = x1 yk ) + x2 y1 P(XY = x2 y1 ) + . . . + xn yk P(XY = xn yk ) = x1 y1 P(X = x1 )P(Y = y1 ) + . . . + x1 yk P(X = x1 )P(Y = yk ) + x2 y1 P(X = x2 )P(Y = y1 ) + . . . + xn yk P(X = xn )P(Y = yk ). Quand on factorise x1 P(X = x1 ) dans les k premiers termes, x2 P(X = x2 ) dans les k suivants, et ainsi de suite, on se rend compte que chacun de ces termes apparaît en facteur de y1 P(Y = y1 ) + . . . + yk P(Y = yk ) = E(Y ). On aboutit ainsi à E(XY ) = x1 P(X = x1 )E(Y ) + . . . + xn P(X = xn )E(Y ) = (x1 P(X = x1 ) + . . . + xn P(X = xn )) E(Y ) = E(X)E(Y ). Lorsque les produits xi yj ne sont pas deux à deux distincts, le raisonnement est identique mais un peu plus lourd à écrire : pour chaque valeur z 431
Chapitre 11. Solutions de la partie I : Bases
que prend la variable aléatoire XY , on cherche tous les couples (i, j) tels que xi yj = z et on remarque que l’événement {XY = z} est l’union sur tous ces couples (i, j) des événements disjoints {X = xi , Y = yj }. En utilisant les propriétés d’une mesure de probabilité, on voit que P(XY = z) est égal à la somme des P(X = xi , Y = yj ) lorsque (i, j) parcourt l’ensemble des couples tels que xi yj = z, et on peut à partir de là reproduire le raisonnement précédent. Enfin, pour se convaincre que le résultat est faux en général si X et Y ne sont pas indépendantes, on peut par exemple choisir une variable aléatoire X suivant une loi B(1/2) et prendre Y = X. Dans ce cas, XY = X 2 = X (puisque X ne prend que les valeurs 0 et 1), de sorte que E(XY ) = E(X) = 1/2, qui est différent de E(X)E(Y ) = 1/2×1/2 = 1/4. On remarque aussi au passage que V(X + Y ) = V(2X) = 22 V(X) = 4V(X) = 4×1/2×1/2 = 1 est différent de V(X)+V(Y ) = 2V(X) = 1/2 : en général, la variance n’est pas additive (elle l’est en revanche lorsque X et Y sont indépendantes, comme indiqué dans le paragraphe 3.5.4).
11.4. Solutions des exercices du chapitre 4
Exercice 1 Les n = 100 observations discrètes de l’échantillon sont présentées dans cette étude sous une forme regroupée, ou agrégée. On trouve donc x¯ =
1 200 (13 × 0 + 27 × 1 + . . . + 1 × 7) = = 2. 100 100
De même, 1 (13 × 02 + 27 × 12 + 28 × 22 + . . . + 1 × 72 ) − 22 100 598 − 4 = 1,98. = 100 √ Finalement, s = 1,98 = 1,407. s2 =
432
11.4. Solutions des exercices du chapitre 4
Exercice 2 1. On trouve x¯ = 73,15 et 1 1 2 (xi − x¯)2 = x −(¯ x)2 = 5361,15−73,152 = 10,2275, s = n i=1 n i=1 i n
n
2
soit s=
10,2275 = 3,198.
Classons maintenant la série par ordre croissant : x(1) = 65, x(2) = 67, x(3) = 70, x(4) = 71, x(5) = 71, x(6) = 72, x(7) = 72, x(8) = 72, x(9) = 72, x(10) = 74, x(11) = 74, x(12) = 75, x(13) = 75, x(14) = 75, x(15) = 76, x(16) = 76, x(17) = 76, x(18) = 76, x(19) = 76 et x(20) = 78. On en déduit ˆ = x(20×0,5) = x(10) = 74 qˆ0,25 = x(20×0,25) = x(5) = 71, m et qˆ0,75 = x(20×0,75) = x(15) = 76. 2. Si la variable est considérée comme discrète, la distribution empirique des teneurs est alors donnée par le tableau suivant : Teneur 65 67 70 71 72 74 75 76 78 Prop. emp. 1/20 1/20 1/20 2/20 4/20 2/20 3/20 5/20 1/20 Le diagramme en bâtons est représenté dans la figure 11.6. 433
Chapitre 11. Solutions de la partie I : Bases
1
0.5
0
65
67
70
71
72
74
75
76
78
Figure 11.6. Diagramme en bâtons associé à la distribution empirique.
3. La valeur 76 est la valeur que la variable discrète considérée (la teneur en silice) prend le plus fréquemment. On l’appelle mode ou valeur modale. 4. (a) Lorsque la variable est considérée comme continue, l’égalité entre certaines mesures ne peut être due qu’à une erreur d’arrondi. Classe Largeur Centre ]64,5 ; 66,5] 2 65,5 ]66,5 ; 68,5] 2 67,5 ]68,5 ; 70,5] 2 69,5 ]70,5 ; 72,5] 2 71,5 ]72,5 ; 74,5] 2 73,5 ]74,5 ; 76,5] 2 75,5 ]76,5 ; 78,5] 2 77,5
Eff. Eff. cumulé 1 1 1 2 1 3 6 9 2 11 8 19 1 20
Fréq. Fréq. cumulée 1/20 1/20 1/20 2/20 1/20 3/20 6/20 9/20 2/20 11/20 8/20 19/20 1/20 1
(b) Afin de tracer l’histogramme, on détermine d’abord la hauteur de chaque classe, en divisant simplement la fréquence par la largeur. 434
11.4. Solutions des exercices du chapitre 4
Classe ]64,5 ; 66,5] ]66,5 ; 68,5] ]68,5 ; 70,5] ]70,5 ; 72,5] ]72,5 ; 74,5] ]74,5 ; 76,5] ]76,5 ; 78,5]
Hauteur du rectangle 0,025 0,025 0,025 0,15 0,05 0,2 0,025
1
1
0.5
0.5
0
64.5 66.5 68.5 70.5 72.5 74.5 76.5 78.5
Histogramme
0
64.5 66.5 68.5 70.5 72.5 74.5 76.5 78.5
Polygone des fréquences
Figure 11.7. Histogramme et polygone des fréquences pour l’exercice 2.
L’histogramme est représenté dans la figure 11.7, à gauche. Observons, puisque les classes ont toutes la même largeur, que nous aurions pu tracer des rectangles de hauteurs égales aux effectifs (histogramme des effectifs) ou aux fréquences (histogramme des fréquences). Le polygone des fréquences s’obtient facilement à partir de l’histogramme en joignant les milieux des « plateaux » par des segments de droite (figure 11.7, à droite). (c) La courbe des fréquences cumulées est représentée sur la figure 11.8. Elle s’obtient en portant les fréquences cumulées en ordonnées aux extrémités droites des classes et en joignant tous ces points par des lignes brisées. 435
Chapitre 11. Solutions de la partie I : Bases
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 62
64
66
68
70
72
74
q˜0.25 m ˜
76
78
80
q˜0.75
Figure 11.8. Courbe des fréquences cumulées pour l’exercice 2.
(d) Les valeurs (empiriques) des trois quartiles peuvent être lues sur la courbe des fréquences cumulées en cherchant les abscisses respectives de 0,25 (pour le premier quartile), de 0,5 (pour la médiane) et de 0,75 (pour le troisième quartile). On trouve (cf. figure 11.8) q˜0,25 ≈ 71,2,
m ˜ ≈ 73,5 et q˜0,75 ≈ 75,5.
On notera bien que ces quantiles empiriques diffèrent des quantiles plus « officiels » calculés à la question 1, ce qui n’enlève rien à leur pertinence. Ils peuvent également être obtenus par une règle de trois. En désignant par F˜n (x) la fonction représentée par la courbe des fréquences cumulées, on voit par exemple que F˜n (72,5) = 9/20 = 0,45 et F˜n (74,5) = 11/20 = 0,55. Cela signifie que m ˜ est dans l’intervalle [72,5 ; 74,5]. Par définition, F˜n (m) ˜ = 1/2, et on trouve donc m ˜ = 72,5 + (0,5 − 0,45) × 436
74,5 − 72,5 = 73,5. 0,55 − 0,45
11.4. Solutions des exercices du chapitre 4
Exercice 3 1. (a) On trouve, pour x ≥ 0, x f (t) dt = λ F (x) = P(X ≤ x) = −∞
x
0
e−λt dt = 1 − e−λx
et, bien entendu, F (x) = 0 pour x < 0. La courbe représentative de F est donnée, pour différentes valeurs de λ, dans la figure 11.9. 1 0.9 0.8 0.7
λ=3
0.6 0.5
λ=1
0.4 0.3
λ = 0.5
0.2 0.1 0
0
1
2
3
4
5
6
7
8
9
10
Figure 11.9. Fonction de répartition (théorique) d’une variable aléatoire de loi exponentielle, pour différentes valeurs du paramètre λ.
(b) On obtient, en utilisant l’indication de l’énoncé, +∞ +∞ 1 tf (t) dt = λ te−λt dt = · E(X) = λ −∞ 0 De même, il vient 2
E(X ) = λ
0
+∞
t2 e−λt dt =
2 , λ2
et donc, en utilisant la formule de décentrage de la variance (exercice 10 du chapitre 3), 2 1 1 V(X) = E(X 2 ) − (E(X))2 = 2 − 2 = 2 · λ λ λ 437
Chapitre 11. Solutions de la partie I : Bases
(c) Pour calculer le quantile d’ordre α, il suffit de résoudre l’équation F (qα ) = α, soit 1 − e−λqα = α. On trouve sans difficulté ln(1 − α) . λ = − [ln(1/2)] /λ = ln 2/λ ≈ 0,693/λ.
qα = − En particulier, m = q1/2
2. (a) La fonction de répartition empirique est donnée par la figure 11.10. L’allure générale de la courbe comparée à celle de la fonction de répartition théorique de la figure 11.9 ne semble pas contredire le fait que les observations proviennent effectivement d’une loi exponentielle. F (x) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
0
50
100
150
200
250
300
350
400
450
x
Figure 11.10. Fonction de répartition empirique des données de survie.
(b) On trouve x¯ = 113,25 et 1 1 2 (xi −¯ x )2 = xi −(¯ x)2 = 23 339,05−113,252 = 10 513,487, s = n i=1 n i=1 n
n
2
soit s= 438
10 513,487 = 102,535.
11.4. Solutions des exercices du chapitre 4
Pour la médiane, après avoir ordonné les données par ordre croissant, il vient m ˆ = x(10) = 78. On constate que l’ordre de grandeur de la variance empirique s’approche du carré de la moyenne empirique. Étant donné le résultat de la question (b) de la partie 1, cette observation nous conforte dans l’hypothèse que les observations proviennent d’une loi exponentielle. (c) Si la variable aléatoire mère X suit effectivement une loi exponentielle de paramètre λ (inconnu), alors, d’après la question (b) de la partie 1, E(X) = 1/λ, soit λ = 1/E(X). Comme l’espérance E(X) est inconnue, il semble naturel de la remplacer par ¯ qui s’en « approche » lorsque la taille de l’échantillon s’accroît X, (d’après la loi des grands nombres, cf. l’annexe du chapitre 4). On peut donc proposer comme valeur approchée de λ la quantité ˆ = 1/¯ ˆ est un estimateur λ x = 1/113,25 = 0,00883. On dit que λ de λ. Le thème de l’estimation est étudié en détail dans le prochain chapitre. Pour estimer λ, nous aurions également pu utiliser le résultat de la question (c) de la partie 1, qui nous dit que λ ≈ 0,693/m. La médiane m est inconnue, mais sa valeur a été estimée à 78 à la question (b) ci-dessus. On obtient de la sorte une seconde valeur ˜ = 0,693/78 = 0,00885 pour λ, tout à fait en accord approchée λ avec la première estimation. Exercice 4 1. On trouve sans difficulté x¯ =
1 403 (31 × 0 + 94 × 1 + . . . + 8 × 4) = = 1,612. 250 250
La médiane est égale à 1 car la valeur de la 125e observation de la série ordonnée est égale à 1. 2. Pour la série complétée, on a n = 251, et donc x¯ = 1,613. La médiane est égale à 2 car la 126e valeur de la série ordonnée est égale à 2. On observe donc que la médiane varie brutalement avec l’ajout 439
Chapitre 11. Solutions de la partie I : Bases
de seulement une donnée, alors que la moyenne reste stable. Il s’agit d’un inconvénient de la médiane pour des données discrètes. Bien entendu, une valeur de la médiane égale à 1 ou à 2 n’aura pas les mêmes conséquences en termes de prise de décision. Nous invitons donc le lecteur à être critique face à la lecture de résultats statistiques, et à toujours confronter plusieurs indicateurs avant de conclure.
Exercice 5 1. On constate que la série est équilibrée (25 femelles et 25 mâles). Dans leur grande majorité, les envergures des femelles sont plus faibles que celles des mâles. L’envergure la plus petite, celle d’une femelle, est de 103 cm. L’envergure la plus importante, celle d’un mâle, est de 179 cm. L’envergure femelle la plus élevée est de 160 cm et l’envergure mâle la plus faible est de 141 cm. 2. On trouve : (a) Pour les femelles Moyenne : x¯f = 133,72. Variance : s2f = 18 131,16 − 133,722 = 250,122. (b) Pour les mâles. Moyenne : x¯m = 163,32. Variance : s2m = 26 812,44 − 163,322 = 139,018. (c) Pour la distribution totale Afin de calculer la moyenne empirique de la série totale, il est judicieux d’utiliser les résultats des questions précédentes. On trouve en effet, puisque les effectifs femelles/mâles sont identiques : x¯ = (¯ xf + x¯m )/2 = (133,72 + 163,32)/2 = 148,52. En revanche, pour la variance, il n’est évidemment pas correct d’écrire s2 = (s2f + s2m )/2. Il faut utiliser toutes les observations, et on trouve s2 = 22 471,8 − 148,522 = 413,61. 3. Rappelons que l’écart interquartile est égal à la différence entre le troisième et le premier quartile. Le calcul de ces derniers est ici 440
11.4. Solutions des exercices du chapitre 4
facilité par le fait que les observations sont classées par ordre croissant. On trouve alors : (a) Pour les femelles f f qˆ0,25 = xf(25×0,25) = xf(7) = 125 et qˆ0,75 = xf(25×0,75) = xf(19) = 148. Pour la série des femelles, l’écart interquartile est donc : f f qˆ0,75 − qˆ0,25 = 148 − 125 = 23. (b) Pour les mâles m m qˆ0,25 = xm ˆ0,75 = xm (7) = 153 et q (19) = 175. Pour la série des mâles, m m l’écart interquartile est donc : qˆ0,75 − qˆ0,25 = 175 − 153 = 22. 4. Remarquons que l’on suppose implicitement dans cette question que les données sont continues, l’égalité entre certaines mesures ne pouvant alors être due qu’à une erreur d’arrondi. (a) Pour les femelles Classe Largeur Centre ]104 ; 114] 10 109 ]114 ; 124] 10 119 ]124 ; 134] 10 129 ]134 ; 144] 10 139 ]144 ; 154] 10 149 ]154 ; 164] 10 159 ]164 ; 174] 10 169 ]174 ; 184] 10 179
Effectif 4 2 7 4 6 2 0 0
Fréquence 4/25 2/25 7/25 4/25 6/25 2/25 0 0
Effectif 0 0 0 2 5 5 6 7
Fréquence 0 0 0 2/25 5/25 5/25 6/25 7/25
(b) Pour les mâles Classe Largeur Centre ]104 ; 114] 10 109 ]114 ; 124] 10 119 ]124 ; 134] 10 129 ]134 ; 144] 10 139 ]144 ; 154] 10 149 ]154 ; 164] 10 159 ]164 ; 174] 10 169 ]174 ; 184] 10 179
441
Chapitre 11. Solutions de la partie I : Bases
5. En assimilant chaque classe à son centre, tout se passe comme si l’on travaillait avec une suite d’observations présentées sous une forme regroupée. On trouve : (a) Pour les femelles Moyenne : 3345 1 x¯f = (4 × 109 + 2 × 119 + . . . + 0 × 179) = = 133,8. 25 25 Variance : 1 s2f = (4 × 1092 + 2 × 1192 + . . . + 0 × 1792 ) − 133,82 25 453 385 − 17 902,44 = 232,96. = 25 Écart interquartile : la 7e et la 19e données de la série des femelles ordonnée ont pour valeurs respectives 129 et 149. L’écart interquartile vaut donc 149 − 129 = 20. (b) Pour les mâles Moyenne : 1 4085 x¯m = (0 × 109 + 0 × 119 + . . . + 7 × 179) = = 163,4. 25 25 Variance : 1 s2m = (0 × 1092 + 0 × 1192 + . . . + 7 × 1792 ) − 163,42 25 671 705 = − 26 699,56 = 168,64. 25 Écart interquartile : la 7e et la 19e données de la série des mâles ordonnée ont pour valeurs respectives 149 et 179. L’écart interquartile vaut donc 179 − 149 = 30. On constate que les indicateurs calculés sur les données brutes et sur les données regroupées sont proches. Le regroupement en classes donne donc ici une bonne idée de la distribution réelle. Exercice 6 Ce graphique permet de visualiser (de façon plus riche que de simples moyennes et plus synthétique que des histogrammes) les plus faibles temps d’endormissement des hommes sous l’effet du somnifère. 442
11.4. Solutions des exercices du chapitre 4
Exercice 7 Les calculs sont exactement les mêmes que ceux effectués dans la correction de l’exercice 10 du chapitre 3, en remplaçant xi par Xi et E(X) ¯ = 1 n Xi . par X i=1 n
443
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
12 SOLUTIONS DE LA PARTIE II : STATISTIQUE
12.1. Solutions des exercices du chapitre 5 Exercice 1 On trouve x¯ = 23,95 et n
(xi − x¯)2 =
i=1
n
x2i − n(¯ x)2 = 5779,75 − 10 × 23,952 = 43,725,
i=1
= 4,858. Comme les observations sont issues d’une loi soit s 2 = 43,725 10−1 2 normale N (μ, σ ), où σ 2 est inconnu, l’intervalle de confiance de niveau 1 − α cherché a pour expression
(n−1) S (n−1) S ¯ ¯ IC1−α (μ) = X − t1−α/2 √ ; X + t1−α/2 √ , n n (n−1)
où t1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi de Student T (n − 1). Ici, α = 0,1 et on trouve à l’aide d’une table ou d’un ordi(9) nateur t0,95 = 1,833, d’où # " ! 4,858 = [22,67 ; 25,23]. ic0,90 (μ) = 23,95 ± 1,833 10
Chapitre 12. Solutions de la partie II : Statistique
L’intervalle de confiance pour la variance σ 2 s’écrit # " n n ¯ 2 ¯ 2 (X − X) (X − X) i i i=1 ; i=1 , IC1−α (σ 2 ) = χ21−α/2 (n − 1) χ2α/2 (n − 1) où χ2α/2 (n − 1) (respectivement χ21−α/2 (n − 1)) désigne le quantile d’ordre α/2 (respectivement 1 − α/2) de la loi χ2 (n − 1). On a χ20,05 (9) = 3,325 et χ20,95 (9) = 16,919, ce qui conduit au résultat 43,725 43,725 2 ic0,90 (σ ) = ; = [2,58 ; 13,15]. 16,919 3,325 On obtient un intervalle de confiance pour l’écart-type σ en prenant la racine carrée des bornes de l’intervalle précédent, soit ic0,90 (σ) = [1,61 ; 3,63]. Exercice 2 1. On trouve x¯ = 0,69 et n n 2 (xi − x¯) = x2i − n(¯ x)2 = 9,7292 − 20 × 0,692 = 0,2072, i=1
i=1
2
0,2072 20−1
= 0,0109. Puisque les observations suivent une loi soit s = normale N (μ, σ 2 ), où σ 2 est inconnu, l’intervalle de confiance de niveau 1 − α pour l’espérance μ a pour expression
S S (n−1) (n−1) ¯ −t ¯ +t √ ;X √ . IC1−α (μ) = X 1−α/2 1−α/2 n n (19)
Avec α = 0,05, on a t0,975 = 2,093, d’où # " ! 0,0109 = [0,64 ; 0,74]. ic0,95 (μ) = 0,69 ± 2,093 20 2. Dire que l’on connaît le poids moyen à un centigramme près (par défaut ou par excès) signifie simplement que la précision de l’intervalle est de 0, 01. En termes mathématiques, on doit 2 donc avoir z1−α/2 √σn = 0,01, ou encore (z1−α/2 )2 σn = 0,0001 (on utilise le quantile z1−α/2 de la loi N (0, 1) car la variance est connue). En supposant que σ 2 = 0,0109, nous pouvons donc écrire (1,96)2 × 0,0109 = 0,0001, soit n = 0,0419 = 419. Il faudrait donc n 0,0001 peser environ 419 cocons. 446
12.1. Solutions des exercices du chapitre 5
Exercice 3 1. Désignons par X la variable aléatoire représentant le diamètre d’un melon. Nous savons que X ∼ N (9, 9), c’est-à-dire Z = X−9 ∼ 3 N (0, 1). Notons alors Φ la fonction de répartition de Z. (a) On a 2 P(X ≤ 7) = P Z ≤ − 3 2 =Φ − 3 2 = 1−Φ 3 = 1 − 0,747 = 0,253. (b) De même, P(7 < X ≤ 12) = P − 23 < Z ≤ 1 = Φ(1) − Φ − 23 = 0,841 − 0,253 = 0,588. (c) Finalement, P(X > 12) = P(Z > 1) = 1 − Φ(1) = 1 − 0,841 = 0,159. (d) Le fait qu’un melon soit directement déclaré impropre à la consommation peut être modélisé par une variable aléatoire qui prend la valeur 1 lorsque le melon est directement rejeté et 0 sinon (contrôle manuel ou acceptation immédiate). Il s’agit donc d’une variable aléatoire de loi de Bernoulli de paramètre p = P(X ≤ 7) = 0,253. Soit alors N la variable aléatoire correspondant au nombre de melonsdirectement rejetés parmi les quatre choisis. On voit que 4 N = i=1 Ni , où N1 , . . . , N4 sont indépendantes et de même loi de Bernoulli B(0,253). N suit donc une loi binomiale B(4 ; 0,253). Ainsi 4 P(N = 2) = × 0,2532 × (1 − 0,253)2 2 = 6 × 0,2532 × 0,7472 = 0,214. 447
Chapitre 12. Solutions de la partie II : Statistique
(e) On cherche h tel que P(μ − h ≤ X ≤ μ + h) = 0,96. Or P(μ − h ≤ X ≤ μ + h) = P(9 − h ≤ X ≤ 9 + h) h h =P − ≤Z≤ 3 3 h = 2Φ − 1. 3 On trouve ainsi 2Φ h3 −1 = 0,96, soit Φ h3 = 0,98. h/3 est donc le quantile d’ordre 0,98 d’une loi N (0, 1), c’est-à-dire h/3 = 2,054. On obtient h = 6,162, et l’intervalle recherché est donc [2,838 ; 15,162]. Il ne s’agit en aucun cas d’un intervalle de confiance puisque tous les paramètres de la loi de X sont connus. Bien réfléchir à ce point. 2. (a) La probabilité pour qu’un melon subisse un contrôle manuel est égale à 1 − (0,1587 + 0,0668) = 0,7745. (b) On veut P(X > 12) = 0,1587 et P(X ≤ 7) = 0,0668. Comme , on en déduit que (12 − μ)/σ est le quanP(X > 12) = 1 − Φ 12−μ σ = 1. tile d’ordre 1 − 0,1587 = 0,8413 de la loi N (0, 1). Ainsi, 12−μ σ Un raisonnement analogue avec l’hypothèse P(X ≤ 7) = 0,0668 donne 7−μ = −1,5. La résolution du système σ ⎧ ⎪ ⎨ 12 − μ = 1 σ 7−μ ⎪ ⎩ = −1,5 σ conduit alors à la solution μ = 10 et σ = 2. (c) Au niveau 1 − α, les intervalles de confiance pour μ et σ 2 ont pour expressions respectives
S S (n−1) (n−1) ¯ −t ¯ +t √ ;X √ IC1−α (μ) = X 1−α/2 1−α/2 n n et
448
#
2
2 (n − 1)S (n − 1)S ; . IC1−α (σ 2 ) = χ21−α/2 (n − 1) χ2α/2 (n − 1) "
12.1. Solutions des exercices du chapitre 5 (120)
En prenant par exemple α = 5 %, il vient t0,975 = 1,980, χ20,025 (120) = 91,573 et χ20,975 (120) = 152,211, d’où les résultats : # " ! 4,8 = [9,91 ; 10,69] ic0,95 (μ) = 10,3 ± 1,980 121 et
120 × 4,8 120 × 4,8 ; ic0,95 (σ ) = = [3,78 ; 6,29]. 152,211 91,573 2
On constate que les deux valeurs idéales μ = 10 et σ 2 = 4 appartiennent aux intervalles de confiance ci-dessus. Le producteur peut donc être confiant sur les objectifs de fonctionnement de sa machine. Exercice 4 1. Soit X le nombre de personnes du groupe A observé sur l’échantillon de taille n = 800. Nous savons que, d’une part, X suit une √ (X/n)−p ≈ N (0, 1) loi binomiale B(n, p) et que, d’autre part, n √ p(1−p)
(d’après le théorème central limite, voir l’annexe du chapitre 4), ce qui s’écrit encore X ≈ N (np, np(1 − p)). Si, effectivement, p = 0,4, on doit donc avoir X ≈ N 800 × 0,4 ; 800 × 0,4 × (1 − 0,4) = N (320 ; 192), et donc
X − 320 ≤ 1,96 ≈ 0,95, P −1,96 ≤ √ 192
ou encore √ √ P 320 − 1,96 192 ≤ X ≤ 320 + 1,96 192 ≈ 0,95. Le nombre de sujets du groupe A auquel on peut s’attendre est donc compris dans l’intervalle suivant : √ √ 320 − 1,96 192 ; 320 + 1,96 192 = [293 ; 347].
449
Chapitre 12. Solutions de la partie II : Statistique
2. Le nombre d’individus de groupe sanguin A observé sur l’échantillon de sondage est égal à 360, et il n’appartient pas à l’intervalle trouvé précédemment. Deux explications sont possibles : • ou bien l’échantillon n’est pas représentatif de la population de l’étude avec p = 0,40 ; • ou bien le pourcentage du groupe sanguin A dans la population du Languedoc-Roussillon n’est pas 0,40. Dans ce cas de figure, le pourcentage se situe dans l’intervalle de confiance obtenu à partir de la valeur observée sur l’échantillon, soit pn = 360/800 = 0,45. Cet intervalle de confiance (asymptotique) a pour expression IC1−α (p) " = Pn − z1−α/2
!
Pn (1 − Pn ) ; Pn + z1−α/2 n
!
# Pn (1 − Pn ) , n
où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi N (0, 1). Numériquement, en prenant par exemple α = 0,1, il vient z0,95 = 1,645 et " # ! 0,45(1 − 0,45) ic0,90 (p) = 0,45 ± 1,645 = [0,42 ; 0,48]. 800 Exercice 5 Désignons par p le pourcentage (vrai) de sujets non immunisés dans la population vaccinée. En utilisant l’approximation gaussienne, nous savons qu’avec une probabilité d’environ 1 − α, le paramètre p se trouvera dans l’intervalle # " ! ! p(1 − p) p(1 − p) ; Pn + z1−α/2 . Pn − z1−α/2 n n La condition s’écrit donc z1−α/2 p(1−p) = 0,01, soit n = 38 416 p(1 − p) n car z1−α/2 = 1,96 pour α = 0,05. L’énoncé nous indique que la vraie valeur de p se trouve dans l’intervalle [0,1 ; 0,15]. Or, la fonction f (p) = p(1 − p) est croissante sur cet intervalle (pourquoi ?), et l’on a ainsi, pour tout p ∈ [0,1 ; 0,15], f (p) ≤ f (0,15) = 0,1275. Il suffit donc que n vérifie la contrainte : n ≥ 38 416 × 0,1275, soit n ≥ 4899 (noter 450
12.1. Solutions des exercices du chapitre 5
qu’il est inutile, dans ce raisonnement, de connaître la valeur de l’estimateur Pn ). Plus généralement, supposons que l’on désire connaître p avec une incertitude ±Δ pour un niveau de confiance donné 1 − α, sans aucune information a priori sur p. En reprenant le raisonnement précédent, nous (z
)2 p(1−p)
= Δ, soit n = 1−α/2Δ2 . En l’absence devons avoir z1−α/2 p(1−p) n d’information a priori sur p, on obtient une minoration de n en posant p = 1/2 (point où la fonction f (p) = p(1 − p) atteint son maximum), (z )2 . Le tableau suivant fournit les valeurs de n d’où la relation n ≥ 1−α/2 4Δ2 pour différentes valeurs de α et de Δ : 1−α Δ 0,90 0,95 0,98 0,01 6764 9604 13 530 0,02 1691 2401 3383 0,05 271 385 542 Exercice 6 1. Posons S1 2 =
1 n1 −1
n1
2 ¯ 2 i=1 (Xi − X) et S2 =
D’après le cours, nous savons que (n2 −1)S22 σ22
1 n2 −1
(n1 −1)S12 σ12
∼
n2
¯ )2 .
j=1 (Yj − Y χ2 (n1 − 1)
et
∼ χ2 (n2 − 1). Comme les deux échantillons sont indépendants entre eux, nous en déduisons alors (cf. le paragraphe 3.6.6 du chapitre 3) que S1 2 /σ12 ∼ F (n1 − 1, n2 − 1), S2 2 /σ22 où F (n1 − 1, n2 − 1) désigne la loi de Fisher à n1 − 1 et n2 − 1 degrés (n −1,n2 −1) (n1 −1,n2 −1) de liberté. Ainsi, en notant fα/21 (respectivement f1−α/2 ) le quantile d’ordre α/2 (respectivement d’ordre 1 − α/2) d’une loi de Fisher à n1 − 1 et n2 − 1 degrés de liberté (attention : on n’a pas (n −1,n2 −1) (n1 −1,n2 −1) fα/21 = −f1−α/2 !), on peut écrire S1 2 /σ12 (n1 −1,n2 −1) (n1 −1,n2 −1) ≤ 2 2 ≤ f1−α/2 P fα/2 = 1 − α, S2 /σ2 451
Chapitre 12. Solutions de la partie II : Statistique
soit
P
S1 2 S2 2
1 (n1 −1,n2 −1) f1−α/2
≤
σ12 σ22
≤
S1 2 S2 2
1 (n −1,n2 −1) fα/21
= 1 − α.
On obtient finalement, compte tenu du fait (paragraphe 3.6.6) que (n −1,n2 −1)
fα/21
=
1 (n2 −1,n1 −1) f1−α/2
,
l’intervalle de confiance souhaité : 2 2 σ1 S1 (n2 −1,n1 −1) S1 2 (n2 −1,n1 −1) = . IC1−α f ; 2 f1−α/2 σ22 S2 2 α/2 S2
2 2. (a) Nous savons que s 2 1 = 150 et s2 = 200. Avec α = 0,1, on a (21,19) (21,19) f0,05 = 0,474 et f0,95 = 2,144, d’où l’on déduit la réalisation numérique de l’intervalle : 2 σ1 150 150 × 0,474 ; × 2,144 = [0,36 ; 1,61]. = ic0,90 σ22 200 200
(b) Il s’agit dans cette question d’encadrer la différence de deux moyennes provenant d’échantillons gaussiens indépendants entre eux. Dans la mesure où ces derniers sont de petite taille, il faudrait au préalable s’assurer que les variances sont identiques, en effectuant par exemple un test d’égalité des variances (cf. le chapitre 6). Plus simplement ici, le fait que l’intervalle de confiance du rapport σ12 /σ22 contienne la valeur 1 nous permet, en première approximation, de supposer l’hypothèse d’égalité des variances vérifiée. Dès lors, nous calculons la variance « poolée » s2p :
2 (n1 − 1)s 2 19 × 150 + 21 × 200 1 + (n2 − 1)s2 = = 176,25. n1 + n2 − 2 20 + 22 − 2 L’intervalle de confiance cherché s’écrit ! 1 1 (n +n −2) 1 2 ¯ ¯ IC1−α (μ1 − μ2 ) = (X − Y ) ± t1−α/2 Sp + . n1 n2
s2p =
(40)
Comme t0,975 = 2,021, on obtient " ic0,95 (μ1 − μ2 ) = (77 − 68) ± 2,021 176,25 452
1 1 + 20 22
# ,
12.1. Solutions des exercices du chapitre 5
c’est-à-dire ic0,95 (μ1 − μ2 ) = [0,71 ; 17,29]. Cet intervalle, décentré vers la droite, laisse à penser que le rythme cardiaque des individus vivant en milieu urbain est, en moyenne, bien supérieur à celui des individus vivant en milieu rural. Exercice 7 1. On calcule x¯ = 471/13 = 36,23 et n
2
(xi − x¯) =
i=1
n
x2i − n(¯ x)2 = 18 361 − 13 × 36,232 = 1297,03,
i=1
soit s 2 1 =
(12)
1297,03 13−1
= 108,09. Comme t0,95 = 1,782, on trouve # " ! 108,09 = [31,09 ; 41,37]. ic0,90 (μ1 ) = 36,23 ± 1,782 13
2. L’intervalle de confiance cherché pour la variance σ12 s’écrit # " n n 2 2 ¯ ¯ (X − X) (X − X) i i i=1 ; i=1 . IC1−α (σ12 ) = 2 2 χ1−α/2 (n − 1) χα/2 (n − 1) Avec χ20,025 (12) = 4,404 et χ20,975 (12) = 23,337, il vient 1297,03 1297,03 2 ; ic0,95 (σ1 ) = = [55,58 ; 294,51]. 23,337 4,404 3. Il s’agit clairement de deux échantillons appariés. Posons, pour i = 1, . . . , 13, zi = yi − xi . On a z¯ = y¯ − x¯ = 46,08 − 36,23 = 9,85. En outre, n
2
(zi − z¯) =
i=1
=
n i=1 n
zi2 − n(¯ z )2 (yi − xi )2 − n(¯ z )2
i=1
=
n i=1
yi2
+
n i=1
x2i
−2
n
xi yi − n(¯ z )2
i=1
= 29 493 + 18 361 − 2 × 22 877 − 13 × 9,852 = 838,71. 453
Chapitre 12. Solutions de la partie II : Statistique
Puisque l’on suppose que Z suit une loi normale (d’espérance μ2 − μ1 , donc), ce calcul conduit à l’intervalle de confiance souhaité (12) (t0,995 = 3,054) : # " ! 838,71 = [2,77 ; 16,93]. ic0,99 (μ2 − μ1 ) = 9,85 ± 3,054 12 × 13 4. Nous avons vu au paragraphe 5.3.1 qu’un intervalle de confiance unilatéral est un intervalle de confiance pour lequel une des deux bornes est rejetée à l’infini. Dans le cas présent, nous cherchons donc un intervalle de la forme IC1−α (μ2 − μ1 ) = [An ; +∞[ ou IC1−α (μ2 −μ1 ) =]−∞ ; Bn ]. On parle d’intervalle de confiance unilatéral à droite dans le premier cas et d’intervalle de confiance unilatéral à gauche dans le second. Le mécanisme de construction étant similaire dans les deux cas, concentrons-nous sur la recherche d’un intervalle de confiance à droite. Pour cela, il suffit de noter que n √ Z−(μ ¯ 1 2 −μ1 )
2 ¯ 2 n ∼ T (n − 1), où, ici, S = i=1 (Zi − Z) . Dès S n−1 (n−1)
lors, par définition du quantile t1−α d’ordre 1 − α de la loi de Student T (n − 1), √ Z¯ − (μ2 − μ1 ) (n−1) n ≤ t1−α = 1 − α, P S
ce qui s’écrit encore
(n−1) S ¯ P Z − t1−α √ ≤ μ2 − μ1 = 1 − α. n Cela signifie exactement que l’intervalle
S (n−1) Z¯ − t1−α √ ; +∞ n est un intervalle de confiance unilatéral à droite de niveau 1 − α pour μ2 − μ1 . Un raisonnement analogue montre que l’intervalle
S (n−1) −∞ ; Z¯ + t1−α √ n est un intervalle de confiance à gauche. Dans la mesure où l’une des deux bornes est rejetée à l’infini, il est important de remarquer que nous avons dû utiliser le quantile d’ordre 1 − α de la loi de Student. Pratiquement parlant, c’est d’ailleurs la seule différence entre le 454
12.1. Solutions des exercices du chapitre 5
cas unilatéral et le cas bilatéral habituel, qui requiert l’utilisation du quantile d’ordre 1 − α/2. Cette remarque se généralise aux intervalles de confiance de tous les paramètres habituels (moyenne, variance, proportion, etc.), et nous invitons le lecteur à reprendre les exercices de ce chapitre avec des intervalles de confiance unilatéraux. Donnons pour terminer la valeur numérique des intervalles de confiance à droite et à gauche de niveau 99 % pour μ2 − μ1 (12) (t0,99 = 2,681) : " ic0,99 (μ2 − μ1 ) = 9,85 − 2,681
!
" 838,71 ; +∞ = [3,63 ; +∞[ 12 × 13
et #
!
ic0,99 (μ2 − μ1 ) = −∞ ; 9,85 + 2,681
# 838,71 =]−∞ ; 16,07]. 12 × 13
Exercice 8 1. En écrivant Θn − θ = [Θn − E(Θn )] + [E(Θn ) − θ] et en développant le carré, on obtient R(Θn , θ) = E (Θn − θ)2 = E ([Θn − E(Θn )] + [E(Θn ) − θ])2 = E (Θn − E(Θn ))2 + [E(Θn ) − θ]2 + 2E ([Θn − E(Θn )] × [E(Θn ) − θ]) = V(Θn ) + [B(Θn )]2 . La dernière égalité provient du fait que E ([Θn − E(Θn )] × [E(Θn ) − θ]) = [E(Θn ) − θ] × E [Θn − E(Θn )] = [E(Θn ) − θ] × [E(Θn ) − E(Θn )] = 0. 455
Chapitre 12. Solutions de la partie II : Statistique
2. En introduisant μ = E(X) et en développant le carré, on trouve n
¯ 2= (Xi − X)
i=1
n ¯ − μ) 2 (Xi − μ) − (X i=1
n ¯ − μ) + (X ¯ − μ)2 = (Xi − μ)2 − 2(Xi − μ)(X i=1
= = =
n i=1 n i=1 n
2
¯ − μ) (Xi − μ) − 2(X ¯ − μ) (Xi − μ)2 − 2(X ¯ − μ) (Xi − μ)2 − 2(X
n i=1 n
=
¯ − μ)2 (X
i=1
¯ − μ)2 (Xi − μ) + n(X
i=1 n
i=1 n
(Xi − μ) +
n
Xi − nμ
¯ − μ)2 + n(X
i=1
¯ − μ)2 + n(X ¯ − μ)2 (Xi − μ)2 − 2n(X
i=1
=
n
¯ − μ)2 . (Xi − μ)2 − n(X
i=1
Ainsi, en utilisant la linéarité de l’espérance, il vient " n # 2 1 ¯ 2 (Xi − X) E S =E n i=1 " n # 1 ¯ 2 (Xi − X) = E n " i=1 # n 1 ¯ − μ)2 (Xi − μ)2 − E (X = E n i=1 n 1 ¯ − μ)2 . = E (Xi − μ)2 − E (X n i=1
¯ − μ)2 ] = V(X) ¯ = σ2 . Comme, en Or, nous savons que E[(X n outre, E[(Xi − μ)2 ] = σ 2 (cette variance est indépendante de i, puisque toutes les observations ont la même loi), il s’ensuit que 456
12.2. Solutions des exercices du chapitre 6 2
2
E(S 2 ) = nσn − σn = n−1 σ 2 . En écrivant S 2 = n vons finalement conclure que E(S 2 ) =
n n−1
S 2 , nous pou-
n−1 2 n n E(S 2 ) = × σ = σ2 . n−1 n−1 n
La variance corrigée S 2 est donc bien un estimateur sans biais de σ 2 .
12.2. Solutions des exercices du chapitre 6 Exercice 1 La météo des 25 jours en question (pluie ou pas pluie) peut être modélisée par une variable aléatoire de loi de Bernoulli, qui prend la valeur 1 s’il pleut et la valeur 0 s’il ne pleut pas. Le paramètre p de cette loi représente donc la probabilité (théorique) que le temps soit à la pluie. En posant p0 = 4/10 = 0,4, le problème du téléspectateur revient donc à tester, au niveau α = 5 %, le jeu d’hypothèses « H0 : p = p0 » vs. « H1 : p = p0 ». Pour ce faire, notre téléspectateur dispose donc de n = 25 observations et d’une proportion empirique pn de jours pluvieux égale à 13/25 = 0,52. Afin de mettre en œuvre le test, il suffit de noter Pn la variable aléatoire « proportion empirique » et se rappeler que, sous H0 , le rapport √
n
P n − p0 p0 (1 − p0 )
suit approximativement une loi normale N (0, 1). En désignant alors par z1−α/2 le quantile d’ordre 1 − α/2 de cette loi,on obtient un test (asymp0) et en rejetant H0 totique) de niveau α en posant cα = z1−α/2 p0 (1−p n lorsque |Pn − p0 | > cα . On trouve numériquement, avec α = 0,05 et z0,975 = 1,96, ! 0,4(1 − 0,4) c0,05 = 1,96 = 0,192. 25
457
Chapitre 12. Solutions de la partie II : Statistique
Comme |pn − p0 | = |0,52 − 0,4| = 0,12 ≤ 0,192, on décide donc de ne pas rejeter l’hypothèse nulle, au niveau choisi α = 5 %. Il semble que le téléspectateur puisse faire confiance aux prévisions de la météo du soir. Exercice 2 1. La variable aléatoire X suit une loi binomiale B(n, p0 ), avec p0 = 400/106 = 4 × 10−4 . 2. Soit p le nouveau taux de mortalité (après vaccination). En notant Pn la variable aléatoire « proportion empirique de décès dans un échantillon de taille n », nous savons depuis le chapitre 5 qu’un intervalle de confiance (asymptotique) de niveau 1 − α pour p a pour expression # " ! Pn (1 − Pn ) , IC1−α (p) = Pn ± z1−α/2 n où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi N (0, 1). On trouve alors, avec n = 105 , pn = 20/105 = 2 × 10−4 et α = 0,05 (z0,975 = 1,96), " # ! −4 (1 − 2 × 10−4 ) 2 × 10 ic0,95 (p) = 2 × 10−4 ± 1,96 105 = [1,123 × 10−4 ; 2,876 × 10−4 ]. 3. On demande dans cette question de mettre en œuvre un test statistique permettant de décider si le vaccin est efficace ou pas. En posant p0 = 4 × 10−4 , cela revient donc à trancher entre les hypothèses « H0 : p = p0 » vs. « H1 : p < p0 ». Observons que l’hypothèse nulle correspond bien à une attitude de prudence, puisqu’elle stipule que, a priori, le vaccin n’est pas efficace. Il s’agit d’un test unilatéral à gauche. En notant α le niveau (que l’énoncé ne précise pas), nous savons que l’on obtient un test (asymptotique) de niveau α en rejetant H0 lorsque Pn < cα , où 458
12.2. Solutions des exercices du chapitre 6
0) cα = p0 + zα p0 (1−p . Le plus petit α pour lequel intervient le n rejet est tel que pn = cα , soit donc √ pn − p0 zα = n · p0 (1 − p0 )
On trouve numériquement, avec pn = 2 × 10−4 , √ 2 × 10−4 − 4 × 10−4 = −1,065. zα = 105 4 × 10−4 (1 − 4 × 10−4 ) On en déduit alors, en utilisant une table statistique ou un ordinateur, que α = 0,143 ≈ 14 %. Le lecteur attentif aura remarqué qu’il s’agit de la p-valeur du test. Exercice 3 1. Désignons par X la variable aléatoire « volume de lait dans une bouteille ». D’après l’énoncé, nous savons que X suit une loi normale N (μ, 1), où μ représente le volume moyen de lait contenu dans une bouteille. Dans le cadre de ce modèle, le problème du producteur revient donc à tester le jeu d’hypothèses « H0 : μ ≥ μ0 = 100 » vs. « H1 : μ < μ0 » au niveau α = 5 %. Il s’agit d’un test unilatéral à gauche à hypothèse nulle composite dont nous savons, d’après le cours, qu’il se ramène au test de l’hypothèse simple « limite » « H0 : μ = μ0 » vs. « H1 : μ < μ0 ». √ En posant cα = μ0 − z1−α / n, le protocole « rejet de l’hypothèse ¯ < cα » fournit alors un test de niveau α. Numériquement, H0 si X n = 10, x¯ = 99,91, z0,95 = 1,645, et donc 1,645 = 99,48. c0,05 = 100 − √ 10 Comme 99,91 ≥ 99,48, on décide donc de conserver, au niveau α = 5 %, l’hypothèse H0 (et donc aussi H0 ). S’il ne se donne que 5 % de chances de faire un ajustement qui n’est pas requis, le producteur doit donc laisser sa machine en l’état. 459
Chapitre 12. Solutions de la partie II : Statistique
2. Supposer que la machine est effectivement déréglée, avec une moyenne de remplissage μ1 égale à 99,5, signifie que X suit une loi normale N (μ1, 1). Cela implique en particulier que ¯ ∼N X
1 μ1 , n
,
soit
√ ¯ − μ1 ) ∼ N (0, 1), n(X
et l’erreur de seconde espèce β (c’est-à-dire la probabilité de garder H0 à tort) s’obtient en écrivant ¯ ≥ cα ). β(μ1 ) = P(X Il vient ainsi ¯ ≥ cα ) β(μ1 ) = P(X √ ¯ − μ0 ) ≥ −z1−α = P n(X (attention : cette probabilité n’est pas égale à α) √ √ ¯ − μ1 ) + n(μ1 − μ0 ) ≥ −z1−α = P n(X √ √ ¯ − μ1 ) ≥ −z1−α − n(μ1 − μ0 ) = P n(X = P (N (0, 1) ≥ u(μ1)) √ ¯ − μ1 ) ∼ N (0, 1)), (puisque, sous H1 , n (X où nous avons posé u(μ1 ) = −z1−α −
√
n(μ1 − μ0 ).
Numériquement, avec n = 10, μ √0 = 100, μ1 = 99,5 et z0,95 = 1,645, on trouve u(99,5) = −1,645 − 10 (99,5 − 100) = −0,064, et donc β(99,5) = 0,525. 3. Pour chaque valeur μ1 < μ0 , la fonction μ1 → β(μ1 ) = P(N (0, 1) ≥ u(μ1 )) fournit la probabilité de conserver H0 alors que H1 est vraie avec μ = μ1 . Il s’agit donc de l’erreur de seconde espèce du test considéré, dont la puissance n’est autre que 1 − β(μ1 ) (probabilité de rejeter H0 à raison avec μ = μ1 ). Le tableau qui suit fournit quelques valeurs de la fonction puissance, qui est représentée dans la figure 12.1. 460
12.2. Solutions des exercices du chapitre 6
μ1 u(μ1 ) β(μ1 ) 1 − β(μ1 ) 99,9 –1,329 0,908 0,092 99,7 –0,696 0,757 0,243 99,5 –0,064 0,525 0,475 99,3 0,569 0,285 0,715 99,1 1,201 0,115 0,885 98,9 1,833 0,033 0,967 98 4,679 0 1 On remarque que plus μ1 s’éloigne de 100, plus le risque de ne pas détecter une défaillance dans la machine diminue. 4. Dire que le producteur arrive à détecter avec une probabilité de 0,99 une contenance moyenne de 99,5 cL signifie exactement (avec les notations de la question précédente) que 1 − β(μ1) = 0,99 pour μ1 = 99,5, soit β(μ1) = 0,01. En d’autres termes, P (N (0, 1) ≥ u(99,5)) = 0,01, √ où u(99,5) = −1,645 + 0,5 n. Afin que cette contrainte soit satisfaite, la seule possibilité consiste à jouer sur la taille n de l’échantillon. On remarque d’emblée que la solution n = 10, qui conduit à un risque de seconde espèce égal à 52,5 %, ne convient pas, et il faut donc choisir une taille d’échantillon beaucoup plus grande. Pour cela, il suffit d’écrire P(N (0, 1) ≥ 2,326) = 0,01 et choisir ainsi n de sorte que √ 2,326 = −1,645 + 0,5 n. √ On trouve n = 7,942, soit n ≈ 64. Le producteur devra donc tester environ 64 bouteilles pour pouvoir détecter avec une probabilité très élevée une contenance moyenne de 99,5 cL, tout en gardant bien sûr un test de niveau α = 5 %. 461
Chapitre 12. Solutions de la partie II : Statistique
1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 98
98.2 98.4 98.6 98.8 99
99.2 99.4 99.6 99.8 100
Figure 12.1. Fonction puissance du test « H0 : μ ≥ 100 » vs. « H1 : μ < 100 », au niveau α = 5 %.
Exercice 4 1. La différence fondamentale provient du fait que la première équipe s’intéresse, d’une année sur l’autre, à des oiseaux différents, alors que la seconde étudie les mêmes animaux. Les deux échantillons doivent donc être considérés comme indépendants (entre eux) pour l’équipe chinoise, alors qu’ils sont appariés pour l’équipe italienne. 2. En admettant que le poids des volatiles est bien modélisé par une variable aléatoire X de loi normale N (μ1 , σ12 ) l’année 1 et une variable aléatoire Y de loi normale N (μ2, σ22 ) l’année 2, le problème de l’équipe chinoise revient donc à tester « H0 : μ1 = μ2 » vs. « H1 : μ1 = μ2 », ce qui s’écrit encore « H0 : μ1 − μ2 = 0 » vs. « H1 : μ1 − μ2 = 0 ». 462
12.2. Solutions des exercices du chapitre 6
Il s’agit d’un test bilatéral de comparaison de moyennes pour deux échantillons gaussiens indépendants de même taille n = 10, à variances inconnues. Dans ce cas, nous savons d’après le cours que, en supposant σ12 = σ22 , et si H0 est vraie, ¯ − Y¯ X ! ∼ T (2n − 2), 1 1 Sp + n n où Sp2 désigne la variance totale, c’est-à-dire Sp2 =
(n − 1)S1 2 + (n − 1)S2 2 , 2n − 2
avec 1 ¯ 2 = (Xi − X) n − 1 i=1 n
S1 2
1 = (Yj − Y¯ )2 . n − 1 j=1 n
et
S2 2
Comme les deux échantillons sont de même taille, la formule ¯ − Y¯ X ! ∼ T (2n − 2) 1 1 Sp + n n se simplifie en ¯ − Y¯ X ∼ T (2n − 2). n ¯ 2 + n (Yj − Y¯ )2 (X − X) i i=1 j=1 n(n − 1) Étant donné la forme de l’hypothèse alternative, on rejette H0 au ¯ − Y¯ est trop grand en valeur absolue, niveau α dès que l’écart X ¯ ¯ c’est-à-dire si |X − Y | > cα , où cα se détermine en écrivant, sous H0 , ¯ − Y¯ | > cα ≤ α, P |X soit donc ⎛ ⎜ ⎜ P⎜ ⎜|T (2n − 2)| > ⎝
⎞ ⎟ ⎟ ⎟ ≤ α. n n 2 2⎟ ¯ ¯ i=1 (Xi − X) + j=1 (Yj − Y ) ⎠ cα
n(n − 1) 463
Chapitre 12. Solutions de la partie II : Statistique
On trouve n cα =
i=1 (Xi
(2n−2) t1−α/2
¯ 2 + n (Yj − Y¯ )2 − X) j=1 , n(n − 1)
(2n−2)
où t1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi de Student T (2n − 2). Numériquement, on a x¯ = 2,236, y¯ = 2,338, n
2
(xi − x¯) =
i=1
n
x2i − n(¯ x)2 = 50,140 − 10 × 2,2362 = 0,143
i=1
et n j=1
2
(yj − y¯) =
n
yj2 − n(¯ y )2 = 54,953 − 10 × 2,3382 = 0,291.
j=1 (18)
En prenant par exemple α = 0,01 (t0,995 = 2,878), il vient ainsi ! 0,143 + 0,291 c0,01 = 2,878 = 0,097. 20 × 19 Comme |¯ x − y¯| = 0,148 > 0,097, on rejette, au niveau α = 1 %, l’hypothèse selon laquelle les moyennes μ1 et μ2 sont égales. Il semble donc que le poids moyen des canards du fleuve Jaune varie d’une année sur l’autre. 3. Puisque les échantillons sont appariés, on fait cette fois-ci l’hypothèse que la différence Z = X − Y suit une loi normale N (μ, σ 2). Les valeurs observées de Z sont alors les suivantes : zi –0,82 0,22 –0,64 0,20 0,38 –0,76 0,16 0,24 –0,72 –0,30 et le problème de l’équipe italienne revient donc à tester les hypothèses « H0 : μ = 0 » vs. « H1 : μ = 0 ». Il s’agit d’un test bilatéral classique de moyenne, dans le cas gaussien et à variance inconnue. En posant 1 ¯ 2, = (Zi − Z) n − 1 i=1 n
S 464
2
12.2. Solutions des exercices du chapitre 6
on sait que, sous H0 , la variable aléatoire √
n
Z¯ S
suit une loi de Student T (n − 1) à n − 1 degrés de liberté. Étant donné la forme de l’hypothèse alternative, on rejette H0 lorsque ¯ > cα , où |Z|
(n−1) S cα = t1−α/2 √ · n On trouve z¯ = x¯ − y¯ = 2 × (2,236 − 2,338) = −0,204, n
(zi − z¯)2 =
i=1
n
zi2 − n(¯ z )2 = 2,584 − 10 × (−0,204)2 = 2,168,
i=1
et donc s 2 = 2,168/9 = 0,241. Il vient ainsi, en prenant toujours (19) α = 1 % (t0,995 = 2,861), ! 0,241 c0,01 = 2,861 = 0,444. 10 Comme |¯ z | = 0,204 ≤ 0,444, on décide cette fois-ci de ne pas rejeter l’hypothèse selon laquelle le poids moyen des oies est identique d’une année sur l’autre. Exercice 5 En admettant que les notes des étudiants fumeurs sont distribuées selon une loi normale N (μ, σ 2 ), et en posant μ0 = 500, le problème du médecin consiste à trancher entre les deux hypothèses « H0 : μ ≤ μ0 » vs. « H1 : μ > μ0 ». Il s’agit d’un test de moyenne, unilatéral à droite, dans le cas gaussien et à variance inconnue. Comme l’hypothèse nulle est composite, le cours nous apprend qu’il suffit de se ramener au test de la sous-hypothèse « H0 : μ = μ0 » vs. H1 . Pour ce faire, on pose 1 ¯ 2, = (Xi − X) n − 1 i=1 n
S
2
465
Chapitre 12. Solutions de la partie II : Statistique
et l’on se rappelle que, sous l’hypothèse H0 , la variable aléatoire ¯ − μ0 √ X n S
suit une loi de Student T (n − 1) à n − 1 degrés de liberté. Étant donné la forme de l’hypothèse alternative, on choisit de rejeter H0 (et donc H0 ) ¯ > cα , où lorsque X
(n−1) S cα = μ0 + t1−α √ · n Numériquement, on trouve x¯ = 573,7, n
2
(xi − x¯) =
i=1
n
x2i − n(¯ x)2 = 6 757 698 − 20 × 573,72 = 175 064,20,
i=1
et donc s 2 = 175 064,20/19 = 9213,90. On trouve ainsi, en prenant par (19) exemple α = 5 % (t0,95 = 1,729), ! 9213,90 = 537,11. c0,05 = 500 + 1,729 20 Comme x¯ = 573,7 > 537,11, on décide donc, au niveau α = 5 %, de mettre en doute l’hypothèse bien établie selon laquelle les résultats sportifs des étudiants fumeurs sont, en moyenne, moins bons que ceux des étudiants non fumeurs. La p-valeur du test s’obtient en évaluant (à l’aide d’une table ou d’un ordinateur) √ 573,7 − 500 = P(T (19) > 3,43) = 0,0014. P T (19) > 20 √ 9213,90 Comme « p-valeur < α », on retrouve le fait que l’on rejette l’hypothèse H0 au niveau 5 %. Exercice 6 1. (a) Les n = 100 données sont présentées sous une forme regroupée. On trouve sans difficulté x¯ = 466
200 1 (13 × 0 + 27 × 1 + . . . + 1 × 7) = = 2. 100 100
12.2. Solutions des exercices du chapitre 6
De même, 1 (13 × 02 + 27 × 12 + 28 × 22 + . . . + 1 × 72 ) − 22 100 598 − 4 = 1,98. = 100 √ Finalement, s = 1,98 = 1,407. s2 =
2. (a) On peut utiliser un test du χ2 d’ajustement. Pour cela, il nous faut au préalable estimer le paramètre λ de la loi de Poisson sous H0 , qui n’est pas spécifié. Comme le paramètre d’une loi de Poisson est égal à son espérance (cf. le paragraphe 3.6.3 du chapitre 3), l’estimateur le plus naturel de λ n’est autre que la moyenne empiˆ = 2. L’effectif théorique d’une rique des observations, c’est-à-dire λ classe i s’obtient alors en multipliant l’effectif total n par la probabilité sous H0 qu’une observation prenne la valeur i, soit donc ˆi ˆλ npi = ne−λ · i! Le tableau des effectifs théoriques est le suivant : Coquillages Effectifs théoriques
0 1 2 3 4 ≥5 13,53 27,07 27,07 18,04 9,02 5,27
Les dernières cases du tableau ont été regroupées pour que les effectifs théoriques soient tous supérieurs à 5. La statistique de test a pour valeur (13 − 13,53)2 (27 − 27,07)2 (28 − 27,07)2 + + 13,53 27,07 27,07 2 2 (19 − 18,04) (8 − 9,02) (5 − 5,27)2 + + + 18,04 9,02 5,27 = 0,23.
χ2emp =
Comme une estimation a été nécessaire pour spécifier la loi sous H0 , il faut comparer χ2emp au quantile d’ordre 1 − α d’une loi du χ2 à 6 − 1 − 1 = 4 degrés de liberté. En prenant α = 5 %, on trouve χ20,95 (4) = 9,488. Comme χ2emp ≤ χ20,95 (4), on accepte, au niveau α = 5 %, l’hypothèse H0 selon laquelle les observations sont distribuées suivant une loi de Poisson. 467
Chapitre 12. Solutions de la partie II : Statistique
(b) On peut encore utiliser un test d’ajustement du χ2 , les paramètres de la loi sous H0 étant ici entièrement spécifiés. L’effectif théorique d’une classe i s’obtient cette fois par la formule (paragraphe 3.6.2, chapitre 3) i 0,1i (1 − 0,1)20−i = n npi = nC20
20! 0,1i (1 − 0,1)20−i , i!(20 − i)!
d’où le tableau Coquillages Effectifs théoriques
0 1 2 3 4 ≥5 12,16 27,02 28,52 19,01 8,98 4,31
Ici encore, les dernières classes ont été regroupées. On trouve (13 − 12,16)2 (27 − 27,02)2 (28 − 28,52)2 + + 12,16 27,02 28,52 2 2 (8 − 8,98) (5 − 4,31)2 (19 − 19,01) + + + 19,01 8,98 4,31 = 0,28.
χ2emp =
Cette valeur doit être comparée au quantile d’ordre 1 − α d’une loi du χ2 à 6 − 1 = 5 degrés de liberté, soit χ20,95 (5) = 11,070. Comme χ2emp ≤ χ20,95 (5), on ne rejette pas, au niveau α = 5 %, l’hypothèse H0 selon laquelle les observations sont distribuées suivant une loi B(20 ; 0,1). (c) On accepte deux hypothèses différentes, ce qui peut paraître à première vue choquant. Mais en réalité, la loi P(2) et la loi B(20 ; 0,1) sont très voisines. On peut en effet montrer que, pour n suffisamment grand, la loi P(np) constitue une excellente approximation de la loi B(n, p). 3. (a) Si l’on suppose que le nombre de coquillages par prélèvement est distribué comme une variable aléatoire X de loi P(2), la probabilité p qu’un prélèvement contienne strictement plus d’un coquillage est 468
12.2. Solutions des exercices du chapitre 6
alors p = P(X > 1) = 1 − P(X ≤ 1) = 1 − P(X = 0) − P(X = 1) = 1 − e−2 × 20 /0! − e−2 × 21 /1! = 0,594. (b) Parmi les 100 prélèvements effectués, exactement 28 + 19 + 8 + 3 + 1 + 1 = 60 contiennent (strictement) plus d’un coquillage, d’où pˆ = 60/100 = 0,6. (c) Notons Pˆ la variable aléatoire « proportion empirique de prélèvements contenant plus d’un coquillage ». Nous savons que, pour n assez grand, Pˆ est approximativement distribuée comme une loi normale (chapitre 5), de sorte que √
Pˆ − p ≈ N (0, 1). n Pˆ (1 − Pˆ )
On en déduit alors un intervalle de confiance (asymptotique) de niveau 1 − α pour p : ⎤ ⎡ Pˆ (1 − Pˆ ) ⎦ IC1−α (p) = ⎣Pˆ ± z1−α/2 , n où z1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi N (0, 1). Numériquement, avec 1 − α = 0,98, on a z0,99 = 2,326, et donc # " ! 0,6(1 − 0,6) ic0,99 (p) = 0,6 ± 2,326 100 = [0,486 ; 0,714]. (c) Sous H0 , p = 0,5 et √ Pˆ − 0,5 ≈ N (0, 1), n 0,5(1 − 0,5) ou encore, avec n = 100, Pˆ ≈ N (0, 5 ; 0,0025). 469
Chapitre 12. Solutions de la partie II : Statistique
Étant donné la forme de l’hypothèse alternative, on rejette H0 si Pˆ est trop grand soit, au niveau α, si Pˆ > cα = 0,5 + z1−α 0,0025 = 0,5 + z1−α 0,05. Avec α = 5 %, on a z0,95 = 1,645 et c0,05 = 0,5+1,645×0,05 = 0,582. Comme pˆ = 0,6 > 0,582, on rejette donc, au niveau α = 5 %, l’hypothèse H0 . Il semble donc que la probabilité qu’un prélèvement fait dans le site A contienne (strictement) plus d’un coquillage soit supérieure à 0,5. Exercice 7 Notons X la variable aléatoire « logarithme en base 2 du diamètre des tortues ». Puisque l’hypothèse H0 ne spécifie pas les paramètres μ et σ 2 de la loi normale que suit X, il faut les estimer. On les évalue respectivement n 1 1 ¯)2 = 59 (2257,5−60×5,982 ) = 1,896 par x¯ = 5,98 et s 2 = n−1 i=1 (xi − x (en assimilant par exemple la première classe à 3, la deuxième à 3,5... et la dernière à 8). On doit donc tester l’ajustement de la distribution empirique à une loi N (¯ x, s 2 ) = N (5,98 ; 1,896). L’effectif attendu dans une classe ]a ; b] est alors donné par a − x¯ b − x¯
2 < N (0, 1) ≤ 60 × P(a < N (¯ x, s ) ≤ b) = 60 × P , s
s
ce qui donne le tableau suivant : X Effectif théorique
≤ 3 ]3 ; 4] 0,9 3,6
X Effectif théorique
]7 ; 8] > 8 Total 9,5 4,3 60
]4 ; 5] ]5 ; 6] ]6 ; 7] 9,8 16 15,9
(la classe « ≤ 3 » correspond à a = −∞ et b = 3, et la classe « > 8 » à a = 8 et b = +∞). Les deux premières classes ont des effectifs théoriques bien inférieurs à 5 (et la somme est elle-même inférieure à 5), et l’on choisit donc de les regrouper avec la classe ]4 ; 5] dans une seule et unique classe « ≤ 5 ». Cette nouvelle classe correspond à un effectif observé de 13 et à un effectif attendu de 0,9 + 3,6 + 9,8 = 14,3. Pour la statistique du χ2 , on a 470
12.2. Solutions des exercices du chapitre 6
alors χ2emp =
(13 − 14,3)2 (16 − 16)2 (15 − 15,9)2 + + 14,3 16 15,9 2 2 (12 − 9,5) (4 − 4,3) + + = 0,848. 9,5 4,3
Le nombre de degrés de liberté est égal à 5 − 2 − 1 = 2, puisque deux paramètres (μ et σ 2 ) ont été estimés et que le regroupement de classes adjacentes a réduit le nombre total de classes à 5. Au niveau α = 1 %, on a χ20,99 (2) = 9,210. Comme 0,848 ≤ 9,210, on ne rejette pas l’hypothèse H0 d’une loi normale pour le logarithme (en base 2) du diamètre des petites tortues, au niveau choisi α = 1 %. Exercice 8 1. On peut effectuer un test du χ2 d’indépendance, l’hypothèse H0 s’énonçant alors sous la forme « Il n’existe pas de relation entre le sexe du premier et du second enfant ». Le calcul des effectifs théoriques est résumé dans le tableau suivant : Sexe du premier enfant Masculin Féminin Totaux
Sexe du second enfant Masculin Féminin
Totaux
34 138×33 859 66 988
33 859 − 17 255 33 859 = 17 255 = 16 604 34 138 − 17 255 33 129 − 16 883 33 129 = 16 883 = 16 246 34 138 32 850 66 988
La statistique du χ2 empirique a pour valeur χ2emp
(17 341 − 17 255)2 (16 518 − 16 604)2 + 17 255 16 604 2 (16 332 − 16 246)2 (16 797 − 16 883) + + 16 883 16 246 = 1,767.
En prenant α = 5 %, il faut donc comparer cette valeur au quantile d’ordre 95 % d’une loi du χ2 à (2 − 1)(2 − 1) = 1 degré de liberté, 471
Chapitre 12. Solutions de la partie II : Statistique
soit χ20,95 (1) = 3,841. Comme 1,767 ≤ 3,841, on conserve, au niveau α = 5 %, l’hypothèse H0 d’indépendance entre le sexe du premier et celui du second enfant. 2. Cette question est plus délicate. On cherche en fait à savoir si, pour une famille de deux enfants qui a déjà une fille, la probabilité que cette dernière naisse en premier est identique à la probabilité qu’elle naisse en second. Pour cela, on commence par dresser le tableau du rang de naissance des filles, qui se déduit du tableau fourni par l’énoncé en ne prenant en compte que les familles qui ont au moins une fille :
Rang de naissance de la fille Effectif observé
Premier 16 797 + 16 332 = 33 129
Second
Total
16 518
49 647
On peut effectuer un test du χ2 d’ajustement, l’hypothèse H0 s’énonçant sous la forme « La probabilité que la fille naisse en premier est identique à la probabilité que la fille naisse en second, et est donc égale à 1/2 ». Le tableau des effectifs théoriques sous H0 est alors le suivant : Rang de naissance de la fille Effectif théorique
Premier 24 823,5
Second 24 823,5
Total 49 647
La statistique de test a pour valeur χ2emp
(33 129 − 24 823,5)2 (16 518 − 24 823,5)2 + = 5557,74. = 24 823,5 24 823,5
Dans la mesure où aucune estimation n’a été nécessaire pour spécifier la loi sous H0 , il faut comparer χ2emp au quantile d’ordre 1 − α d’une loi du χ2 à 2 − 1 = 1 degré de liberté. En prenant α = 5 %, on trouve χ20,95 (1) = 3,841. Comme χ2emp > χ20,95 (1), on rejette l’hypothèse H0 . Ce résultat, qui n’est pas immédiatement conforme à 472
12.2. Solutions des exercices du chapitre 6
l’intuition, s’explique simplement par le fait que les familles de deux filles contribuent aussi à la probabilité d’avoir une fille en premier. Exercice 9 On effectue un test du χ2 d’indépendance, l’hypothèse H0 s’énonçant alors sous la forme « Il n’existe pas de relation entre la taille et la qualité de meneur ». Le calcul des effectifs théoriques est résumé dans le tableau ci-dessous : Caractère Meneur Non meneur Indifférent Totaux
Gabarit Petite taille Grande taille 46×46 100 46×38 100
Totaux
= 21,16
24,84
46
= 17,48 7,36 46
20,52 8,64 54
38 16 100
La statistique du χ2 empirique a pour valeur (14 − 21,16)2 (32 − 24,84)2 (22 − 17,48)2 (16 − 20,52)2 + + + 21,16 24,84 17,48 20,52 2 2 (6 − 8,64) (10 − 7,36) + + 7,36 8,64 = 8,405.
χ2emp =
Avec α = 2 %, il faut donc comparer cette valeur au quantile d’ordre 98 % d’une loi du χ2 à (3−1)(2−1) = 2 degrés de liberté, soit χ20,98 (2) = 7,824. Comme 8,405 > 7,824, on rejette donc, au niveau α = 2 %, l’hypothèse H0 d’indépendance entre taille et qualité de meneur. Notons cependant que l’hypothèse nulle est rejetée « de justesse » et qu’en prenant par exemple α = 0,01 (soit χ20,99 (2) = 9,210) on décide au contraire de conserver H0 (le lecteur vérifiera que la p-valeur du test est en fait égale à 0,015). Exercice 10 On peut résoudre le problème à l’aide d’un test du χ2 d’homogénéité (attention : les populations sont ici représentées en colonnes). Précisons tout d’abord le tableau des effectifs théoriques : 473
Chapitre 12. Solutions de la partie II : Statistique
Groupes O A B Totaux
Maladies Ulcère peptique Cancer gastrique 872,4 428,9 762,2 374,7 161,4 79,4 1796 883
Témoins 2956,7 2583,1 547,2 6087
Totaux 4258 3720 788 8766
Calculons la statistique du χ2 empirique : (983 − 872,4)2 (383 − 428,9)2 (2892 − 2956,7)2 + + 872,4 428,9 2956,7 2 2 (416 − 374,7) (2625 − 2583,1)2 (679 − 762,2) + + + 762,2 374,7 2583,1 2 2 (84 − 79,4) (570 − 547,2)2 (134 − 161,4) + + + 161,4 79,4 547,2 = 40,53.
χ2emp =
Au niveau α = 5 %, la statistique de test doit être comparée avec le quantile d’ordre 0,95 d’une loi du χ2 à (3 − 1)(3 − 1) = 4 degrés de liberté, qui vaut 9,488. Comme 40,53 > 9,488, on rejette donc, au niveau α = 5 %, l’hypothèse H0 d’homogénéité des trois groupes de sujets vis-à-vis du groupe sanguin. Exercice 11 1. Cas où μ est connu. Posons 1 (Xi − μ)2 . S¯2 = n i=1 n
Étant donné la forme de l’hypothèse H1 , le test de niveau α consiste à rejeter H0 si S¯2 est trop grand, c’est-à-dire si S¯2 > cα . Afin de déterminer le seuil cα , il suffit de se rappeler que, sous H0 , la statistique nS¯2 /σ02 suit une loi du χ2 à n degrés de liberté. Désignons par χ21−α (n) le quantile d’ordre 1 − α de cette loi. En écrivant la contrainte de niveau, soit ¯2 nS ncα (( 2 ¯ > 2 (H0 ≤ α, P(S > cα |H0 ) = P σ02 σ0 474
12.2. Solutions des exercices du chapitre 6
on constate que le choix ncα = χ21−α (n), σ02 c’est-à-dire cα =
σ02 χ21−α (n) n
convient. Cas où μ est inconnu. Comme μ est inconnu, la statistique S¯2 est inutilisable en pratique. On utilise alors la variance empirique (corrigée), qui a pour expression 1 ¯ 2. (Xi − X) n − 1 i=1 n
S 2 = Sous H0 , la statistique
(n − 1)S 2 σ02 suit une loi du χ2 à n − 1 degrés de liberté. En répétant le raisonnement précédent avec S 2 en lieu et place de S¯2 , on trouve que le test de niveau α consiste à rejeter H0 lorsque S 2 > cα , avec
σ02 χ21−α (n − 1) · n−1 Nous laissons au lecteur le soin de mettre en place d’autres tests portant sur la variance d’une loi normale, par exemple le test bilatéral « H0 : σ 2 = σ02 » vs. « H1 : σ 2 = σ02 ». cα =
2. En admettant que le poids des paquets de cacahuètes suit une loi normale d’espérance μ = 150 et de variance σ 2 inconnue, il s’agit donc pour l’association de consommateurs de tester « H0 : σ 2 ≤ σ02 » vs. « H1 : σ 2 > σ02 », avec σ02 = 52 = 25 (attention : les 5 g annoncés dans la loi, qui ont la même unité que le poids moyen, correspondent bien à un écart-type). On a n i=1
2
(xi − μ) =
n i=1
x2i
− 2μ
n
xi + nμ2
i=1
= 2,26 − 2 × 0,150 × 15,03 + 100 × 0,1502 = 0,001 kg2 = 1000 g2 . 475
Chapitre 12. Solutions de la partie II : Statistique
Ainsi, (n − 1)¯ s2 = 1000 et (n − 1)¯ s2 /σ02 = 1000/25 = 40. Il faut alors comparer cette valeur au quantile d’ordre 1 − α d’une loi du χ2 à 100 degrés de liberté. En prenant par exemple α = 1 %, on trouve χ20,99 (100) = 135,807. Comme 40 ≤ 135,807, on conserve, au niveau α = 1 %, l’hypothèse H0 selon laquelle l’écart-type du poids des paquets de cacahuètes est inférieur à 5 g. Il semble donc que l’entreprise qui commercialise les apéritifs respecte la loi. 3. Le test est fondé sur la comparaison des variances empiriques, c’està-dire sur la statistique S1 2 /S2 2 , où 1 1 ¯ 2 = (Xi − X) n1 − 1 i=1
n
S1 2
2 1 = (Yj − Y¯ )2 . n2 − 1 j=1
n
et
S2 2
On choisit de rejeter l’hypothèse H0 si le rapport S1 2 /S2 2 est soit trop grand, soit trop petit. Pour obtenir un test de niveau fixé α, il faut d’abord identifier la loi de ce rapport sous H0 . Pour cela, l’exercice 6 du chapitre 5 nous apprend que S1 2 /σ12 ∼ F (n1 − 1, n2 − 1) S2 2 /σ22 et donc, sous H0 , S1 2 ∼ F (n1 − 1, n2 − 1). S2 2 On en déduit alors la règle de décision suivante : on rejette l’hypothèse nulle si S1 2 (n −1,n2 −1) < fα/21
2 S2 (n −1,n −1)
ou
S1 2 (n1 −1,n2 −1) > f1−α/2 ,
2 S2 (n −1,n −1)
2 1 2 où fα/21 (respectivement f1−α/2 ) désigne le quantile d’ordre α/2 (respectivement d’ordre 1 − α/2) d’une loi de Fisher à n1 − 1 et n2 − 1 degrés de liberté. En procédant de la sorte, on
476
12.2. Solutions des exercices du chapitre 6
obtient P(rejeter H0 à tort) 2 S1 S1 2 (n1 −1,n2 −1) (n1 −1,n2 −1) =P < fα/2 ou > f1−α/2 S2 2 S2 2 2 2 S1 S1 (n1 −1,n2 −1) (n1 −1,n2 −1) < fα/2 > f1−α/2 +P =P S2 2 S2 2 = α/2 + α/2 = α, ce qui signifie que le test a le niveau requis. En pratique, il suffit de (ν1 −1,ν2 −1) comparer max(S1 2 /S2 2 , S2 2 /S1 2 ) avec f1−α/2 , où ν1 = n1 − 1
2
2 et ν2 = n2 − 1 si S1 ≥ S2 et ν1 = n2 − 1 et ν2 = n1 − 1 dans le cas contraire (pourquoi ?). En d’autres termes, on travaillera donc toujours avec la statistique correspondant à la somme des carrés la plus élevée au numérateur. 4. (a) On trouve, avec n1 = n2 = 13, x¯ = 23, y¯ = 26,77, n
(xi − x¯)2 =
n
i=1
et n
x2i − n(¯ x)2 = 7349 − 13 × 232 = 472
i=1
2
(yj − y¯) =
j=1
n
yj2 − n(¯ y )2 = 9854 − 13 × 26,772 = 537,77.
j=1
Ainsi, 472 537,77 = 39,33 et s 2 = 44,81. 2 = 12 12
2 Comme s 2 2 > s1 , il faut alors comparer la valeur du rapport
2 s 2 2 /s1 au quantile d’ordre 1 − α/2 d’une loi de Fisher à 12 et
2 12 degrés de liberté. On trouve s 2 2 /s1 = 44,81/39,33 = 1,14 (12,12) et, avec α = 0,05, f0,975 = 3,277. Comme 1,14 ≤ 3,277, on décide donc de conserver l’hypothèse H0 d’égalité des variances, au niveau α = 5 %. (b) Il s’agit d’un test bilatéral de comparaison de moyennes pour deux échantillons gaussiens indépendants entre eux et de même taille n = 13. Les variances sont inconnues mais peuvent, d’après la question précédente, raisonnablement être considérées comme égales. Nous savons alors (cf. l’exercice 4) que, si s 2 1 =
477
Chapitre 12. Solutions de la partie II : Statistique
H0 est vraie (et puisque les deux échantillons ont même taille), ¯ − Y¯ X ∼ T (2n − 2). ¯ 2 n (Yj − Y¯ )2 i=1 (Xi − X) + j=1
n
n(n − 1) ¯ − Y¯ est trop On rejette l’hypothèse H0 au niveau α dès que X ¯ ¯ grand en valeur absolue, c’est-a-dire si |X − Y | > cα . On trouve sans difficulté n ¯ 2 n (Yj − Y¯ )2 (2n−2) i=1 (Xi − X) + j=1 · cα = t1−α/2 n(n − 1) Numériquement, x¯ = 23, y¯ = 26,77, n
2
(xi − x¯) = 472 et
i=1
n
(yj − y¯)2 = 537,77.
j=1 (24)
En prenant α = 0,05, soit t0,975 = 2,064, il vient alors ! 472 + 537,77 = 5,25. c0,05 = 2,064 13 × 12 Comme |¯ x − y¯| = 3,77 ≤ 5,25, on conserve donc, au niveau α = 5 %, l’hypothèse d’égalité des moyennes des taux de diffusion du dioxyde de carbone à travers les deux sols. Exercice 12 Le test du χ2 d’indépendance est en fait un test d’ajustement sur les K × L classes du tableau de contingence (chaque classe correspond à une case de ce tableau, c’est-à-dire à un choix du premier et un choix du second critère). Les paramètres qui doivent être estimés dans cet ajustement sont les probabilités pi. et p.j . Tous ces paramètres ne sont cependant pas indépendants. Par exemple, la probabilité pK. n’a pas besoin d’être estimée puisqu’elle est égale à 1 − p1. − . . . − p(K−1). (une fois que l’on a estimé les K − 1 premières probabilités pi. , on connaît la dernière pK. ). De même, une estimation de p.L découle des valeurs estimées de 478
12.3. Solutions des exercices du chapitre 7
p.1 , . . . , p.(L−1) . Le nombre de paramètres indépendants s’écrit finalement r = K − 1 + L − 1, et le nombre de degrés de liberté du test d’ajustement est donc égal à KL−(K −1+L−1)−1 = KL−K −L+1 = (K −1)(L−1).
12.3. Solutions des exercices du chapitre 7 Exercice 1 Le nuage de points, formé des couples (xi , yi), est représenté sur la figure 12.2. Sa forme allongée suggère une relation linéaire de la forme Y ≈ aX +b entre l’âge X (variable non aléatoire) et le taux de cholestérol Y (aléatoire). y 3.5 3 2.5 2 1.5 1 0.5
10
20
30
40
50
60
70 x
Figure 12.2. Nuage de points relatif à l’âge (x) et au taux de cholestérol (y) et droite d’ajustement linéaire.
On trouve x¯ = 40, y¯ = 2,06, ni=1 x2i = 25 350, ni=1 yi2 = 60,52 et n ˆ et ˆb de a et b : i=1 xi yi = 1220, d’où l’on déduit les estimations a n xi yi − n¯ xy¯ 1220 − 13 × 40 × 2,06 = = 0,033, a ˆ = i=1 n 2 x )2 25 350 − 13 × 402 i=1 xi − n(¯
479
Chapitre 12. Solutions de la partie II : Statistique
et
ˆb = y¯ − a ˆx¯ = 2,06 − 0,033 × 40 = 0,74. La droite de régression reliant l’âge au taux de cholestérol a donc pour équation y = 0,033x + 0,74. Elle est représentée dans la figure 12.2, superposée aux observations. Par ailleurs, n xi yi − n¯ xy¯ = 1220 − 13 × 40 × 2,06 = 148,8, SECx,y = i=1
SCEx =
n
x2i − n(¯ x)2 = 25 350 − 13 × 402 = 4550
i=1
et SCEy =
n
yi2 − n(¯ y )2 = 60,52 − 13 × 2,062 = 5,35,
i=1
de sorte que le coefficient de corrélation linéaire r entre X et Y a pour valeur 148,8 SECx,y =√ = 0,95, r= 4550 × 5,35 SCEx SCEy soit r 2 = R2 = 0,90. La corrélation linéaire entre X et Y semble donc excellente. En admettant la normalité des erreurs, le test du caractère significatif de la régression peut être effectué à l’aide de la statistique F : R2 0,90 = 99 = 11 × 2 1−R 1 − 0,90 qui, sous l’hypothèse nulle de non-régression (a = 0) suit une loi de Fisher à 1 et n − 2 = 11 degrés de liberté. On rejette alors l’hypothèse (1,11) (1,11) nulle au niveau α si F > f1−α , où f1−α est le quantile d’ordre 1 − α (1,11) de la loi F (1,11). En prenant par exemple α = 5 %, on a f0,95 = 4,844 et, puisque 99 > 4,844, on conclut au caractère très significatif de la régression du taux de cholestérol sur l’âge. F = (n − 2)
Exercice 2 1. Calculons le coefficient de corrélation linéaire entre log10 X et log10 Y : s2log10 X,log10 Y 1554,45 , =√ r= 1637,10 × 1582,06 s2log10 X s2log10 Y 480
12.3. Solutions des exercices du chapitre 7
d’où r = 0,97 et r 2 = 0,94. Cette valeur est élevée, assez voisine de l’unité pour justifier l’hypothèse d’un lien linéaire entre log10 X et log10 Y . 2. La droite de régression de log10 Y par rapport à log10 X a pour équation log10 y = aˆ log10 x + ˆb, avec a ˆ=
s2log10 X,log10 Y s2log10 X
=
1554,45 = 0,949 1637,10
et b = log10 y − aˆ log10 x = 2,91 − 0,949 × 2,67 = 0,376. L’équation cherchée s’écrit donc log10 y = 0,949 log10 x + 0,376. On trouve de même que la droite de régression de log10 X par rapport à log10 Y a pour équation log10 x = 0,982 log10 y − 0,188, relation qui s’écrit aussi log10 y = 1,018 log10 x + 0,191. 3. La valeur élevée du coefficient de corrélation linéaire entre log10 X et log10 Y indique que ces deux variables sont potentiellement liées par une relation linéaire. Dans la mesure où les deux variables d’intérêt (X et Y ) sont aléatoires, cette relation peut être estimée à l’aide des deux régressions linéaires précédemment effectuées. En l’absence d’informations supplémentaires, on peut choisir de travailler avec une estimation moyenne, soit log10 y = 0,983 log10 x + 0,283, ou encore (en se rappelant que log10 y = ln y/ ln 10) y = 1,92 x0,983 . Exercice 3 1. En effectuant le changement de variables X = 1/V et Y = 1/H 2 , la formule pressentie par les ingénieurs s’écrit plus simplement sous la forme Y ≈ aX + b. 481
Chapitre 12. Solutions de la partie II : Statistique
Le tableau qui suit donne les valeurs des couples (xi , yi), qui semblent effectivement se répartir de part et d’autre d’une droite moyenne (figure 12.3). xi = 1/vi yi = 1/h2i
0,091 0,037 0,012 0,018 0,200 0,015 0,062 0,047 0,033 0,018 0,022 0,098 0,020 0,032
xi = 1/vi yi = 1/h2i
0,250 0,032 0,011 0,031 0,119 0,027 0,019 0,030
y 0.12 0.1 0.08 0.06 0.04 0.02 0
0
0.05
0.1
0.15
0.2
0.25
x
Figure 12.3. Nuage de points relatif aux observations (xi = 1/vi , yi = 1/h2i ), i = 1, . . . , 11.
On alors, pour n trouve n ce 2jeu de données, x¯n = 0,069, y¯ = 0,042, 2 x = 0,1188, y = 0,0313 et i=1 i i=1 i i=1 xi yi = 0,0597, d’où l’on déduit le coefficient directeur a ˆ et l’ordonnée à l’origine ˆb de la droite de régression : n xi yi − n¯ xy¯ 0,0597 − 11 × 0,069 × 0,042 = = 0,419, a ˆ = i=1 n 2 x )2 0,1188 − 11 × 0,0692 i=1 xi − n(¯ 482
12.3. Solutions des exercices du chapitre 7
et
ˆb = y¯ − a ˆx¯ = 0,042 − 0,419 × 0,069 = 0,013.
La droite de régression reliant X à Y a donc pour équation y = 0,419x + 0,013. D’autre part, SECx,y =
n
xi yi − n¯ xy¯ = 0,0597 − 11 × 0,069 × 0,042 = 0,0278,
i=1
SCEx =
n
x2i − n(¯ x)2 = 0,1188 − 11 × 0,0692 = 0,0664
i=1
et SCEy =
n
yi2 − n(¯ y )2 = 0,0313 − 11 × 0,0422 = 0,0119,
i=1
de sorte que r=
SECx,y 0,0278 =√ = 0,99. 0,0664 × 0,0119 SCEx SCEy
Cette valeur très élevée (r 2 = 0,98) confirme la bonne qualité de la régression. On peut alors donner des intervalles de confiance de niveau 1 − α pour a et b. D’après le cours, ces intervalles ont pour expressions respectives (sous l’hypothèse de normalité des erreurs) Sn−2 (n−2) ˆ IC1−α (a) = A ± t1−α/2 √ SCEx ⎡
et
⎤
ˆ±t IC1−α (b) = ⎣B 1−α/2 Sn−2 (n−2)
(¯ x)2 ⎦ 1 + , n SCEx
(n−2)
où t1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi de Student 2 représente l’estimateur de la variance du bruit de T (n − 2) et Sn−2 la régression. On calcule s2n−2 en utilisant par exemple la relation s2n−2 =
1 − r2 1 − 0,98 SCEy = × 0,0119 = 2,64 × 10−5 , n−2 9 483
Chapitre 12. Solutions de la partie II : Statistique (9)
d’où sn−2 = 0,0051. Avec le choix α = 0,05, on a t0,975 = 2,262, d’où
0,0051 ic0,95 (a) = 0,419 ± 2,262 × √ 0,0664
= [0,374 ; 0,464] et " ic0,95 (b) = 0,013 ± 2,262 × 0,0051
0,0692 1 + 11 0,0664
#
= [0,008 ; 0,018]. Le test de significativité de la régression peut être effectué par l’analyse de variance, présentée dans le tableau ci-dessous :
Source de Somme Degrés de variation des carrés liberté
Carré moyen
Expliquée
1
0,0117
9 10
2,64 × 10−5 0,00119
0,0117
Résiduelle 2,38 × 10−4 Totale 0,0119
Statistique Probabilité F critique 443,18
5,775 × 10−9
La probabilité critique est très significative et confirme ainsi la pertinence du lien linéaire entre X et Y , et donc aussi celle du modèle proposé par les ingénieurs. Ce dernier, qui relie de manière théorique vitesse du vent et variation de la hauteur du pont, a pour expression 1 H≈ · 0,419 + 0,013 V Nous avons représenté le modèle sur la figure 12.4, superposé aux observations (vi , hi ). 484
12.3. Solutions des exercices du chapitre 7
h 8 7 6 5 4 3 2 1 0
0
10
20
30
40
50
60
70
80
90
v
Figure 12.4. Nuage de points relatif à la vitesse du vent (v) et à la variation de hauteur du pont (h) et modèle théorique correspondant.
2. Il s’agit d’un problème de prévision. En prenant v0 = 150 (soit x0 = 1/v0 = 0,0067),la variation moyenne de hauteur prévue a ˆ 0 = 1/ (0,419/150) + 0,013 = 7,96 cm. Cette vapour valeur h leur, a priori inférieure au seuil de danger 9 cm, peut être assortie ˆ 0 )2 = 0,0158, nous d’un intervalle de confiance. En posant yˆ0 = 1/(h savons en effet que, au niveau 1 − α, ⎡
⎤
ic1−α (ax0 + b) = ⎣yˆ0 ± t1−α/2 sn−2 (n−2)
1 (x0 − ⎦, + n SCEx x¯)2
(9)
soit, avec α = 0,05 (t0,975 = 2,262), " ic0,95 (ax0 + b) = 0,0158 ± 2,262×0,0051
(0,0067 − 0,069)2 1 + 11 0,0664
#
= [0,0113 ; 0,0203]. 485
Chapitre 12. Solutions de la partie II : Statistique
Ainsi, ⎛ ic0,95 ⎝
⎞ 1 a x0
1 ⎠= √ 1 ;√ 0,0203 0,0113 +b
= [7,02 ; 9,41]. Dans la mesure où la valeur critique 9 cm se trouve dans cet intervalle de confiance, il semble donc plus prudent de recommander la fermeture préventive du pont. Il est intéressant de noter que nous aurions aussi pu répondre à la question en adoptant le point de vue des tests d’hypothèses. En effet, puisque pour h0 = 9, ax0 + b = 1/92 = 0,012, le problème posé revient finalement à trancher entre les deux hypothèses « H0 : ax0 + b ≤ 0,012 » vs. « H1 : ax0 + b > 0,012 ». (Noter que l’hypothèse H0 correspond bien à une variation de hauteur moyenne supérieure à 9 cm...) Or, en désignant par Yˆ0 la valeur moyenne prédite par le modèle linéaire lorsque X = x0 = 0,0067, le cours nous apprend que Yˆ0 − (ax0 + b) ∼ T (n − 2). x)2 0 −¯ Sn−2 n1 + (xSCE x Nous sommes en présence d’un test de moyenne, à variance inconnue et hypothèse nulle composite, que l’on effectue (cf. le chapitre 6) en se ramenant au test de l’hypothèse simple limite « H0 : ax0 + b = 0,012 » vs. « H1 : ax0 + b > 0,012 ». En posant (n−2)
2
x) 0 −¯ , le protocole « rejet de l’hypocα = 0,012 + t1−α Sn−2 n1 + (xSCE x thèse H si Yˆ0 > cα » fournit ainsi un test de niveau α de l’hypothèse 0
(9)
H0 vs. H1 . Avec α = 0,05 (t0,95 = 1,833), on trouve c0,05 = 0,0156 et, puisque yˆ0 = 0,0158 > 0,0156, on choisit de conserver l’hypothèse nulle, au niveau α = 5 %. Par prudence, le pont devra donc être fermé.
486
12.3. Solutions des exercices du chapitre 7
Exercice 4 1. L’objectif de l’exercice consiste à expliquer la croissance des arbres (variable quantitative) à partir des trois modalités (types I, II et III) d’un facteur qualitatif A (le type du sol). L’étude peut être effectuée à l’aide d’une analyse de variance. Rappelons les deux hypothèses fondamentales de ce modèle : (a) Les variations du facteur influent uniquement sur la moyenne des observations et non sur leur variance. (b) Pour chaque niveau i = 1, 2, 3 du facteur A, les observations (xi,j : j = 1, . . . , ni ) sont des réalisations indépendantes d’une variable aléatoire mère Xi suivant une loi normale N (μi, σ 2 ). On cherche alors à savoir s’il existe une différence significative entre les niveaux du facteur ou bien si les différences constatées sont le fruit du hasard. Le test F et l’analyse de variance permettent de répondre à cette question. Ici, n1 = n2 = n3 = 5 et le nombre total d’observations n est égal à 15. 2. Effectuons quelques calculs préliminaires, en ayant au préalable centré les données en 28 : Sol
Circonférences − 28 ni j=1
xi,j
ni Moyennes
Type I 7 –1 2 4 3
Type II –2 1 0 2 –1
Type III 0 –2 2 0 0
15 5 3
0 5 0
0 5 0
• Pour la variabilité factorielle : SCEA =
p
ni (¯ xi )2 − n(¯ x )2
i=1
= 5(32 + 02 + 02 ) − 15 × 12 = 30. 487
Chapitre 12. Solutions de la partie II : Statistique
• Pour la variabilité résiduelle : p p ni 2 xi,j − ni (¯ xi )2 SCEr = i=1 j=1 2
i=1 2 2
= 97 − 5(3 + 0 + 0 ) = 52. • Pour la variabilité totale : SCEt = SCEA + SCEr = 30 + 52 = 82. On peut alors dresser le tableau d’analyse de variance : Source de Somme Degrés de Carré Statistique Probabilité variation des carrés liberté moyen F critique Expliquée 30 2 15 3,46 0,065 Résiduelle 52 12 4,33 Totale 82 14 Comme 0,065 ≥ 0,05, on conserve donc, au niveau α = 5 %, l’hypothèse « H0 : μ1 = μ2 = μ3 » selon laquelle il n’existe pas de différence significative entre la croissance moyenne des trois catégories d’arbres. En revanche, on rejette l’hypothèse nulle au niveau α = 10 %. 3. On souhaite dans cette question tester l’hypothèse « H0 : μ1 = μ2 » vs. « H1 : μ1 = μ2 » (pas d’effet différentiel entre les sols de types I et II). On sait, d’après le cours, que sous l’hypothèse H0 , la statistique ¯1 − X ¯2 X T1,2 = ! SCER 1 1 + n−3 n1 n2 suit une loi T (n − 3). Pour un niveau fixé α, on rejette donc l’hypothèse H0 si (n−3) |T1,2 | > t1−α/2 , (n−3)
où t1−α/2 désigne le quantile d’ordre 1 − α/2 de la loi T (n − 3). On trouve numériquement t1,2 = 488
3−0 = 2,28. 52 1 1 + 12 5 5
12.3. Solutions des exercices du chapitre 7 (12)
Au niveau α = 5 %, t0,975 = 2,179 et l’on décide donc (de justesse) de conserver l’hypothèse H0 . En revanche, au niveau α = 10 %, (12) t0,95 = 1,782, et l’on rejette ainsi l’hypothèse nulle. 4. On peut utiliser dans cette question le test d’égalité des variances détaillé dans l’exercice 11 du chapitre 6. Rappelons brièvement que ce test est fondé sur le rapport S1 2 /S2 2 des variances empiriques, où 1 1 ¯ 1 )2 = (X1,j − X n1 − 1 j=1
n
S1 2
2 1 ¯ 2 )2 . = (X2,j − X n2 − 1 j=1
n
et
S2 2
S 2
Sous l’hypothèse H0 d’égalité des variances, le rapport S12 suit 2 une loi de Fisher F (n1 − 1, n2 − 1). La règle de décision consiste (ν1 −1,ν2 −1) alors à comparer max(S1 2 /S2 2 , S2 2 /S1 2 ) au quantile f1−α/2 , où
2
2 ν1 = n1 − 1 et ν2 = n2 − 1 si S1 ≥ S2 et ν1 = n2 − 1 et ν2 = n1 − 1 dans le cas contraire.
2 On trouve s 2 1 = 34/4 = 8,5 et s2 = 10/4 = 2,5. Il faut alors com(4,4)
2 parer s 2 1 /s2 = 8,5/2,5 = 3,4 au quantile f1−α/2 . Avec α = 5 %, (4,4)
f0,975 = 9,604 et, comme 3,4 ≤ 9,604, on ne rejette pas l’hypothèse d’égalité des variances entre les deux premiers niveaux. Cette décision ne remet pas en cause les hypothèses du modèle d’analyse de variance – au contraire, elle les conforte. Exercice 5 ˆ i − B)(x ˆ i − x¯) = n (Yi − Ax ˆ i − B)x ˆ i − x¯ n (Yi − On a ni=1 (Yi − Ax i=1 i=1 ˆ = 0 et donc, puisque Y¯ = A¯ ˆx + B ˆ par construction de B, ˆ ˆ i − B) Ax n
ˆ i − B)( ˆ Yˆi − Y¯ ) = (Yi − Ax
i=1
=
n i=1 n
ˆ i − B)( ˆ Ax ˆ i+B ˆ − A¯ ˆx − B) ˆ (Yi − Ax ˆ i − B)( ˆ Ax ˆ i − A¯ ˆx) (Yi − Ax
i=1
= 0.
489
Chapitre 12. Solutions de la partie II : Statistique
Exercice 6 On sait que
n xi Yi − n¯ xY¯ ˆ A = i=1 · n 2 x )2 i=1 xi − n(¯
Dès lors, en utilisant la linéarité de l’espérance et le fait que les xi sont déterministes, on obtient n x E(Y ) − n¯ xE(Y¯ ) ˆ ni 2i E(A) = i=1 · x)2 i=1 xi − n(¯ De plus, dans le modèle linéaire simple, Yi = axi + b + εi , où la variable aléatoire εi est centrée. Du coup, E(Yi ) = axi + b, et ainsi n n 2 x (ax + b) − n¯ x (a¯ x + b) x )2 a i i i=1 i=1 xi − an(¯ ˆ E(A) = = = a. n n 2 2 x)2 x )2 i=1 xi − n(¯ i=1 xi − n(¯ ˆ on sait que B ˆ = Y¯ − A¯ ˆx. Ainsi, E(B) ˆ = E(Y¯ ) − E(A)¯ ˆx = Pour B, a¯ x + b − a¯ x = b. Exercice 7 n ˆ i − x¯), on a SCEE = ˆ ¯ 2 = Comme Yˆi − Y¯ = A(x i=1 (Yi − Y ) ˆ Aˆ2 ni=1 (xi − x¯)2 = Aˆ2 SCEx . Ainsi, par définition de A, (SECx,Y )2 SCEx SCEE SCEx = Aˆ2 = = r2 . SCEY SCEY (SCEx )2 SCEY
490
13 SOLUTIONS DE LA PARTIE III : SYSTÈMES DYNAMIQUES
13.1. Solutions des exercices du chapitre 8 Exercice 1 En notant R(t) la masse de radium au temps t (exprimé en années depuis l’instant initial t = 0), le bilan entre t et t + δt donne R(t + δt) = R(t) − 0,000433R(t)δt, soit R(t+δt)−R(t) = −0,000433R(t) δt et, en faisant tendre δt vers 0, R (t) = −0,000433R(t). Cette équation différentielle homogène se résout immédiatement, et l’on obtient R(t) = Ce−0,000433t , la constante C étant déterminée en écrivant R(0) = R0 = Ce−0,000433×0 = C ; on a donc R(t) = R0 e−0,000433t . Pour que la moitié du radium initial disparaisse, il faut attendre un temps T tel que R(T ) = R(0)/2 = R0 /2, c’est-à-dire R0 e−0,000433T = R0 /2, soit encore e−0,000433T = 1/2. On trouve finalement T = ln(2)/0,000433 ≈ 1600 ans. Exercice 2 1. En utilisant la définition d’un taux, on trouve que les nombres de naissances et de morts entre t et t + δt sont respectivement égaux à kn N(t)δt et km N(t)δt. Le bilan sur N(t) s’écrit ainsi N(t+δt) = N(t)+kn N(t)δt−km N(t)δt, ce qui conduit à l’équation différentielle linéaire N (t) = kn N(t) − km N(t) = (kn − km )N(t).
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
Les solutions de cette équation homogène sont N(t) = Ce(kn −km )t . La constante C est déterminée par la population à l’instant initial, soit N0 = N(0) = Ce(kn −km )×0 = C. On a donc finalement N(t) = N0 e(kn −km )t . 2. La représentation graphique de la fonction N est facile à obtenir, et son allure, selon que kn − km > 0 ou kn − km < 0, est donnée dans la figure 13.1. N(t)
N(t)
N0
N0 0
0 0
t Si kn − km > 0
0
t Si kn − km < 0
Figure 13.1. Évolution de la population dans le modèle de Malthus, selon les positions relatives des taux de natalité et de mortalité.
Lorsque t tend vers +∞, on constate que la population tend soit vers 0 (si la natalité kn est plus faible que la mortalité km ), soit vers +∞ (dans le cas contraire). Aucun de ces deux cas n’est vraiment réaliste. En effet, pour une simple raison de place physique et de ressources naturelles, une population ne peut jamais croître jusqu’à l’infini. Inversement, lorsqu’une population ne comporte plus que quelques individus, le modèle n’est évidemment plus licite. On retiendra que le modèle de Malthus n’est donc plus valable lorsque le temps devient trop grand. Exercice 3 Par définition de la vitesse αP (t), une quantité αP (t)δt de produit disparaît entre les instants t et t + δt. Entre ces deux instants, 492
13.1. Solutions des exercices du chapitre 8
on rajoute une quantité βδt de ce même produit. Le bilan est donc P (t + δt) = P (t) − αP (t)δt + βδt et conduit à l’équation différentielle linéaire P (t) = −αP (t) + β. Avec les notations du paragraphe 8.2, cette équation correspond à a(t) = −α et b(t) = β. Une primitive de a est A(t) = −αt, et l’on peut trouver une solution particulière x¯ à l’équation x (t) = −αx(t) + β sous la forme d’une constante. On constate en effet que x¯(t) = Q est une solution de cette équation pourvu que 0 = x¯ (t) = −αQ + β, soit Q = αβ (qui est bien constant) – nous avons bien entendu supposé que α était non nul, ce qui signifie, en d’autres termes, qu’il y a bien une réaction chimique ! Au total, on a donc P (t) = Ce−αt + αβ , et on détermine C en écrivant P (0) = 1 g, ce qui fournit C = 1 − αβ et, finalement, P (t) = 1 − αβ e−αt + αβ (en grammes). L’étude de cette fonction impose de séparer les cas 1 − αβ ≥ 0 et 1 − αβ < 0 (voir l’exercice 2 du chapitre 1). Sa représentation graphique sur [0 ; +∞[ est donnée par la figure 13.2. Comme α > 0, on voit que limt→+∞ P (t) = αβ : lorsqu’on laisse suffisamment de temps s’écouler, la masse de P a tendance à se stabiliser au niveau αβ . On aboutit ainsi à un équilibre entre la réaction chimique d’une part (qui a tendance à faire disparaître le produit) et l’ajout artificiel d’autre part (qui a tendance à faire augmenter indéfiniment la masse de produit).
P (t)
P (t)
β α
1
1
β α 0
0 0
t Si 1 ≥
β α
0
t Si 1
1, alors limt→+∞ P (t) = 0. ln(1+t) Supposons maintenant α0 − = −1. Dans ce cas, x¯(t) = (1+t) α0 , et les P (t) =
+
ln(1+t) C solutions de l’équation différentielle complète sont x(t) = (1+t) α0 + (1+t)α0 . En imposant que la condition initiale est égale à 1, on trouve ln(1 + t) 1 + · P (t) = α 0 (1 + t) (1 + t)α0
On a cette fois limt→+∞ P (t) = 0. 494
13.1. Solutions des exercices du chapitre 8
En conclusion, on constate que les comportements possibles de P (t) sont beaucoup plus variés lorsque les coefficients a(t) et b(t) de l’équation différentielle qui régit son évolution ne sont pas constants (comparer avec le comportement de P (t) dans l’exercice 3, où a(t) et b(t) étaient supposés constants). En particulier, la masse de produit peut désormais croître vers +∞ (l’ajout effectué l’emporte sur la disparition provoquée par la réaction), il peut s’établir un équilibre autour de α10 (la disparition due à la réaction et l’ajout de produit se compensent), ou bien le produit peut avoir tendance à disparaître (l’ajout n’étant pas suffisant pour compenser la réaction qui fait disparaître le produit). Noter que ces conclusions ne sont valables que si l’on peut effectivement continuer à ajouter du produit tout au long de la réaction... Exercice 5 En changeant le taux de croissance kn −km en k(N) dans le modèle de Malthus, on aboutit à N (t) = rN(t)(1 − NK(t) ). Cette équation n’est plus linéaire, mais à variables séparées : N (t) = g(t)h(N(t)) avec g(t) = r (constant) et h(x) = x(1 − Kx ). Les équilibres de l’équation sont donnés par les réels q tels que h(q) = q(1 − Kq ) = 0, soit q = 0 et q = K. Les équilibres sont donc les solutions constantes x(t) = 0 et x(t) = K. Pour que la population N soit l’un de ces équilibres, c’est-à-dire qu’elle reste constante au cours du temps, il faut soit que N0 = 0 (auquel cas N = 0 et il n’y a en fait pas de population !), soit que N0 = K (la population restant alors constamment égale à la capacité biotique du milieu). Si l’on n’est dans aucun de ces deux cas, il faut trouver des primitives de 1/h et de g. Une primitive G(t) de g(t) = r est G(t) = rt. Une 1 = x(1−1 x ) est donnée par T (x) = ln(| 1−x x |) (voir primitive T (x) de h(x) K K l’exercice 12 du chapitre 1). La méthode de séparation des variables nous (t) |) = rt + C, où C est une constante. On en déduit donne donc ln(| NN(t) 1− K que ( ( ( N(t) ( ( ( ( ( = ert+C . ( 1 − N (t) ( K Pour aller plus loin, il faut être en mesure d’enlever la valeur absolue, et donc supposer a priori que la quantité dans la valeur absolue est soit toujours négative (i.e. N(t) est toujours supérieur à K, auquel cas, 495
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
en particulier, N0 = N(0) > K), soit toujours positive (i.e. N(t) reste inférieur à K, auquel cas, en particulier, N0 < K). Supposons donc, pour commencer, que N0 > K. N reste donc plus grand que K lorsque t est proche de 0 et la quantité dans la valeur abN (t) = ert+C , soit, en multipliant par solue est négative : on a donc N(t) K
N (t) K
−1
− 1 et en rassemblant tous les termes contenant N(t) d’un côté de rt+C l’équation, ert+C = N(t)( e K −1). Comme le membre de gauche ne s’annule jamais, il en va de même de celui de droite, de sorte que l’on peut ert+C écrire N(t) = ert+C . Pour déterminer C, on a tout intérêt à utiliser K
−1
l’équation de départ
N (t)
N(t) −1 K
= ert+C qui, en t = 0, donne eC =
N0 N0 −1 K
. En
utilisant cette expression dans la formule obtenue pour N et le fait que ert+C = eC ert , cela conduit à N(t) =
N0 ert · N0 rt e − NK0 + 1 K
Dans cette situation, N reste-t-il toujours strictement supérieur à K ? Le dénominateur NK0 (ert − 1) + 1 de N(t) est toujours strictement positif (car ert − 1 ≥ 0 pour tout t ≥ 0), de sorte que demander N(t) > K revient à demander N0 ert > K( NK0 (ert − 1) + 1) = N0 ert − N0 + K, soit N0 > K, ce qui correspond bien au cas considéré. Il nous reste maintenant à étudier la fonction obtenue. On note au préalable que l’étude du signe de N (t) est facile grâce à l’expression N (t) = rN(t)(1 − NK(t) ) : comme N(t) > K pour tout t ≥ 0, on déduit que N < 0 sur [0 ; +∞[ et que N est strictement décroissante. La limite , mais diviser numérateur limt→+∞ N(t) est une forme indéterminée +∞ +∞ rt et dénominateur par e permet de lever l’indétermination : on obtient limt→+∞ N(t) = K. Le tableau de variation de N est alors le suivant : 0 N
−
+∞
N0 N
K
et l’allure de la courbe représentative est donnée par la figure 13.3. 496
13.1. Solutions des exercices du chapitre 8
N(t) N0
K
0
0
t
Figure 13.3. Population dans le modèle logistique, lorsque N0 > K.
Dans le cas où N0 < K, et en supposant alors que N(t) < K pour (t) (t) | = ert+C donne NN(t) = ert+C . Les caltout t ≥ 0, la formule | NN(t) 1−
K
1−
K
culs que l’on peut effectuer à partir de cette égalité conduisent alors à la même expression pour N que lorsque N0 > K, ce qui montre en particulier que l’on a encore limt→+∞ N(t) = K. De plus, puisque N0 < K, il est facile de vérifier que N reste toujours strictement inférieur à K. Ainsi, N (t) = rN(t)(1 − NK(t) ) est strictement positif pour tout t ≥ 0, et la fonction N est donc strictement croissante sur l’intervalle [0 ; +∞[. Le tableau de variation de N ne présente ainsi pas de difficulté particulière (nous ne l’explicitons pas), et la représentation graphique de N est donnée par la figure 13.4 (notons qu’il y a deux allures un peu différentes pour cette courbe selon que N0 > K/2 ou N0 < K/2, correspondant chacune à différentes situations de convexité de la fonction, une notion sur laquelle nous n’insisterons pas davantage). En conclusion, dans les deux cas N0 > K et N0 < K, la population tend vers la limite K, qui est un équilibre de l’équation différentielle ). La capacité biotique du milieu représente la taille x (t) = rx(t)(1 − x(t) K de la population optimale à laquelle le milieu peut fournir des ressources : en dessous de cet optimum, les ressources du milieu sont suffisantes pour que la population croisse, et au-dessus la population devient trop importante pour les ressources du milieu et a donc tendance à diminuer. 497
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
N(t)
N(t)
K
K
N0 0
N0 0
t Si N0 > K/2
0
t Si N0 < K/2
Figure 13.4. Population dans le modèle logistique, lorsque N0 < K.
Exercice 6 On trouve N (t) = −rN(t) ln( NK(t) ) (cette expression n’est donc valable que lorsque la population n’est pas nulle...). Le seul équilibre est N(t) = K et les autres solutions de cette équation à variables séparées sont exp(−rt) N N0 ln( K0 ) exp(−rt) N(t) = Ke =K . K On a limt→+∞ N(t) = K et on observe un comportement comparable à celui de l’exercice précédent : si N0 > K, alors N est décroissante sur [0 ; +∞[, alors que si N0 ≤ K, N est croissante sur [0 ; +∞[. Exercice 7 Comme le modèle ne tient visiblement pas compte des décès ou des naissances, la population globale (individus malades et sains) reste constante, égale à A. Dans ce contexte, les populations malades et saines à l’instant t sont respectivement égales à m(t) et A − m(t), et le bilan sur m donne m(t+δt) = m(t)+rδt(A−m(t))m(t), ce qui amène à l’équation différentielle m (t) = rm(t)(A − m(t)). Les équilibres de cette équation différentielle à variables séparées sont m(t) = 0 (pas de malades) et m(t) = A (toute la population est malade dès le début et reste dans cet état). Dans les autres situations, le nombre de malades initial m(0) = m0 est situé entre 0 et A, et la résolution de 498
13.2. Solutions des exercices du chapitre 9
l’équation (à l’aide par exemple des primitives calculées dans l’exercice 12 du chapitre 1) conduit à l’expression m0 AeArt · m0 eArt + A − m0 L’étude de la fonction m est similaire à l’étude de la population dans le modèle logistique lorsque N0 < K. En particulier, on a limt→+∞ m(t) = A, et toute la population finit donc par devenir infectée. Ce modèle est cependant simpliste car il ne tient pas compte des naissances, des décès et des possibles guérisons qui peuvent survenir au cours de l’épidémie (sans compter d’éventuelles actions extérieures visant à enrayer la maladie). m(t) =
13.2. Solutions des exercices du chapitre 9 Exercice 1 On trouve
−4 6 MN = −2 8
et
6 4 NM = , 2 −2
et on constate donc que l’ordre d’un produit matriciel compte : MN n’est pas égal à NM en général. Exercice 2 Les matrices A1 et A3 ne sont pas inversibles car leurs déterminants sont nuls. Pour les deux autres, la formule de l’exemple 7 donne 1 1 −2 1 −1 −1 A2 = 21 21 et A4 = 3 . −2 − 12 2 2 Exercice 3 1. On a
⎛
x11 ⎜x12 t XI = ⎜ ⎝ ... x1p
⎞ ⎛1⎞ ⎛ ⎞ x21 . . . xn1 x11 + x21 + . . . + xn1 .⎟ x22 . . . xn2 ⎟ ⎜ x12 + x22 + . . . + xn2 ⎟ ⎜ .. ⎟ ⎜ ⎟ ⎟. .. .. ⎠ ⎜ . ⎟ = ⎜ ⎝ ⎠ . . . . ⎠ ⎝ . . . x1p + x2p + . . . + xnp x2p . . . xnp 1 499
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
Lorsque l’on multiplie ce dernier vecteur (c’est-à-dire chacun de ses coefficients) par n1 , on obtient bien un vecteur donc le j-ème cox +x +...+xnj est la moyenne empirique de la j-ème efficient gj = 1j 2jn variable sur l’échantillon. La matrice ItG est ⎛ ⎞ ⎛ 1 g1 ⎜ .. ⎟ ⎜g1 ⎜.⎟ ItG = ⎜ . ⎟ g1 g2 . . . gp = ⎜ ⎝ ... ⎝ .. ⎠ g1 1
⎞ g2 . . . gp g2 . . . gp ⎟ .. .. ⎟ . .⎠ g2 . . . gp
(chaque ligne de cette matrice est identique aux autres) et le coefficient (i, j) de Y = X − ItG est donc xij − gj , c’est-à-dire l’écart entre la j-ème caractéristique du i-ème prélèvement et la moyenne sur tout l’échantillon de la j-ème caractéristique : la matrice Y rassemble donc des informations sur l’écart à la moyenne de l’échantillon. 2. Puisque tX est de taille (p, n) et X de taille (n, p), le produit tXX a un sens et est de taille (p, p). En outre, G est un vecteur de taille (p, 1), donc tG est de taille (1, p) : le produit GtG est bien défini et de taille (p, p). Au final, la matrice V est de taille (p, p), et un calcul direct utilisant la définition du produit matriciel montre que le coefficient (i, j) de V est vij =
1 (x1i x1j + x2i x2j + . . . + xni xnj ) − gi gj . n
On reconnaît alors la covariance empirique (paragraphe 7.3.3 du chapitre 7) entre les i-ème et j-ème variables, évaluée sur l’échantillon des n prélèvements. En particulier, lorsque i = j, le coefficient diagonal (i, i) de V est vii = n1 (x21i + . . . + x2in ) − gi2 , ce qui correspond bien (puisque gi est la moyenne de la i-ème variable sur l’échantillon) à la variance empirique de la i-ème variable sur l’échantillon. Cela explique le nom donné à la matrice V , qui joue un rôle très important dans les applications où l’on observe non pas une variable par individu, mais un nombre p souvent élevé. Les propriétés données pour la transposition de la somme et du produit se vérifient à partir de la définition de ces opérations. 500
13.2. Solutions des exercices du chapitre 9
À l’aide de ces formules, on voit que tY Y = (tX − GtI)(X − ItG) = t XX − GtIX − tXItG + GtIItG. Comme G = n1 tXI, et comme tII est la matrice de taille (1, 1) dont le seul coefficient est n, on trouve t Y Y = tXX − G(ntG) − nGtG + nGtG = tXX − nGtG, ce qui montre bien que V = n1 tY Y . Exercice 4 La matrice U dont les colonnes sont formées par u1 et u2 , à savoir 1 −1 U= , 1 1 permet de passer du nouveau repère au repère usuel. Son inverse, U
−1
=
1 2
− 12
1 2 1 2
,
permet de passer du repère usuel au nouveau repère. Exercice 5 Le polynôme caractéristique de A est (1 − λ)2 − 1 = λ2 − 2λ, et ses ra 1 cines sont 2 et 0. Des choix possibles de vecteurs propres sont U1 = 1 −1 et U2 = . La matrice de changement de repère U est donc celle 1 étudiée dans l’exercice 4, et l’on a 20 −1 . U AU = 00 Le polynôme caractéristique det(B − λI) de B se calcule à l’aide de la règle de l’exemple 8, page 331, et on trouve (−1 − λ)(−1 − λ)(1 − λ) = (1 + λ)2 (1 − λ). Les valeurs propres de B sont donc 1 et −1. En résolvant (B − I)X = 0, on trouve un vecteur propre V1 associé à la valeur propre 1 et, en étudiant le système (B + I)X = 0, deux vecteurs propres V2 et V3 associés à −1, avec par exemple ⎛ ⎞ ⎛ ⎞ ⎛ ⎞ 0 1 1 V1 = ⎝0⎠ , V2 = ⎝1⎠ et V3 = ⎝ 0 ⎠ . 1 0 −1 501
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
La matrice V dont les trois colonnes sont données par ces vecteurs est inversible (son déterminant est égal à −1) et son inverse a été calculé dans l’exemple 21, page 356. Enfin, comme le vecteur V1 est associé à la valeur propre 1 et V2 , V3 sont associés à la valeur propre −1, on sait que l’on a ⎛ ⎞ 1 0 0 V −1 BV = ⎝0 −1 0 ⎠ . 0 0 −1 Exercice 6 1. Si A et B sont des matrices de tailles compatibles, de sorte que le produit AB existe, on peut voir à l’aide de la définition du produit que la j-ème colonne de ce produit est simplement égale à ABj , où Bj est le vecteur formé de la j-ème colonne de B. Dans le cas particulier qui nous intéresse ici, on a ABj = ej . Il est alors clair que la matrice AB, dont la j-ème colonne est ABj = ej , n’est autre que la matrice identité, c’est-à-dire que AB = I. 2. Nous avons vu au paragraphe 9.3.3 que, pour vérifier qu’une matrice carrée A est inversible, il suffit en fait de trouver une matrice B telle que AB = I, ce qui entraîne forcément que BA = I.
Exercice 7 1. Le taux d’exode rural annuel est défini comme le rapport entre le nombre de personnes qui, chaque année, quittent le milieu rural (pour s’installer en milieu urbain) divisé par la taille de la population rurale de l’année. Ceci explique l’unité employée pour a et b, puisqu’il s’agit d’un rapport de populations (sans unité) par an. À l’année n, le nombre d’individus quittant le milieu rural vaut donc aR(n), et le nombre d’individus restant dans ce milieu est égal à R(n) − aR(n) = (1 − a)R(n). Inversement, la même année, bU(n) individus partent du milieu urbain pour s’installer en milieu rural, alors que (1 − b)U(n) individus décident de rester en milieu urbain. En année n + 1, on a donc au total (1 − a)R(n) + bU(n) individus 502
13.2. Solutions des exercices du chapitre 9
vivant en milieu rural (les individus y étant restés et ceux nouvellement installés) et (1 − b)U(n) + aR(n) en milieu urbain, ce qui donne les équations de l’énoncé. Notons cependant que ce modèle est vraiment très simplifié car il ne tient compte ni des décès, ni des naissances, ni d’éventuels phénomènes migratoires extérieurs au pays (immigration ou émigration). R(n) , on voit que 2. En notant P (n) = U(n) 1−a b P (n) = AP (n). P (n + 1) = a 1−b Pour les valeurs a et b données, la matrice A a pour polynôme caractéristique (0,8 − λ)(0,9 − λ) − 0,2 × 0,1 = λ2 − 1,7λ + 0,7, dont les racines sont à 1 et égales 0,7. Elles sont associées aux vecteurs 1 1 et U2 = . La matrice de passage U et son propres U1 = 2 −1 inverse sont donc 1 1 1 1 1 −1 , U= et U = 2 −1 3 2 −1 et l’on a U
−1
1 0 , AU = 0 0,7
Posons D=U
−1
soit
1 0 U −1 . A=U 0 0,7
1 0 AU = . 0 0,7
Comme dans le paragraphe 9.6, on aboutit alors à P (n) = UDn U −1 P (0), soit 1 1 n 3 3 1 1 1 0 P (n) = P (0) 1 2 0 0,7n 2 −1 − 3 3 n n 1 + 2 × 0,7 1 − 0,7 1 R(0) . = U(0) 3 2 − 2 × 0,7n 2 + 0,7n Cela donne R(n) = 13 (1 + 2 × 0,7n )R(0) + 13 (1 − 0,7n )U(0) et U(n) = 13 (2 − 2 × 0,7n )R(0) + 13 (2 + 0,7n )U(0). On constate que limn→+∞ R(n) = 13 R(0)+ 13 U(0) et limn→+∞ U(n) = 23 R(0)+ 23 U(0). La somme R(0) + U(0) étant égale à la population totale initiale 503
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
du pays (et aussi à la population à tout instant, puisque le modèle ne tient pas compte des naissances, décès et autres migrations), cela signifie que, à long terme, les populations rurales et urbaines se stabilisent respectivement autour du tiers et des deux tiers de la population totale. Exercice 8 1. Entre les instants t et t + 1, une quantité f1 n1 (t) + f2 n2 (t) d’individus jeunes apparaissent (naissances, respectivement, de parents eux-mêmes jeunes et de parents adultes), une quantité m1 n1 (t) meurent et une quantité p1 n1 (t) deviennent adultes. Cela donne donc le bilan suivant pour les jeunes : n1 (t + 1) = n1 (t) + f1 n1 (t) + f2 n2 (t) − m1 n1 (t) − p1 n1 (t). De même, pour les adultes, le bilan des morts et des jeunes devenus adultes entre t et t + 1 donne n2 (t + 1) = n2 (t) − m2 n2 (t) + p1 n1 (t). Ces deux équations, mises sous forme matricielle, s’écrivent P (t + 1) = AP (t), et on a donc bien P (T ) = AP (T − 1) = A2 P (T − 2) = . . . = AT P (0). 2. Pour les choix fournis par l’énoncé, le polynôme caractéristique de A est ( 14 − λ)2 − 1, de racines 54 et − 34 . La matrice de passage U (dont les colonnes sont formées des vecteurs propres de A) et son inverse sont 1 1 2 2 2 −1 et U = , U= 1 −1 4 1 −2 et l’on a donc U −1 AU = D, avec 5 D=
4
0
0 − 34
.
On en déduit alors que P (T ) = UD T U −1 P (0) 5 T 3 T 5 T 3 T 1 2 4 + 2 −4 4 4 − 4 −4 n1 (0) . = 5 T 3 T 5 T 3 T n2 (0) 4 − − 2 + 2 − 4 4 4 4 504
13.2. Solutions des exercices du chapitre 9 1 (T ) 3. Le ratio qui nous intéresse est n1 (Tn)+n , avec 2 (T ) " " # T T T # T 5 3 5 3 +2 − −4 − 4n1 (T ) = 2 n1 (0)+ 4 n2 (0) 4 4 4 4
et 4(n1 (T )+n2 (T )) " " T # T # T T 5 5 3 3 +2 − −4 − n1 (0) + 4 n2 (0) = 2 4 4 4 4 " " T # T # T T 5 5 3 3 + − − +2 − n1 (0) + 2 n2 (0) 4 4 4 4 " " T # T # T T 5 5 3 3 + − −2 − n1 (0) + 6 n2 (0). = 3 4 4 4 4 On constate que, si P (0) n’est pas nul, alors n1 (0) et n2 (0) ne sont pas simultanément nuls (et ils sont tous les deux positifs ou nuls), de sorte que la somme n1 (T ) + n2 (T ) reste toujours strictement 1 (T ) positive (la population ne s’éteint jamais). Le ratio n1 (Tn)+n est 2 (T ) donc bien défini, et les expressions précédentes montrent que sa . On lève limite lorsque T → +∞ est une forme indéterminée ∞ ∞ cette indétermination en divisant numérateur et dénominateur par le terme dominant (5/4)T , ce qui mène à 3 T 3 T 2 + 2 −5 n1 (0) + 4 − 4 − 5 n2 (0) n1 (T ) = · T T n1 (T ) + n2 (T ) 3 + −3 n (0) + 6 − 2 − 3 n (0) 5
1
5
2
La limite de cette dernière expression lorsque T → +∞ est 2 2n1 (0) + 4n2 (0) = , 3n1 (0) + 6n2 (0) 3 ce qui correspond bien au résultat attendu, puisque le vecteur 2 5 . propre associé à la plus grande valeur propre 4 de A est U1 = 1 En guise de conclusion culturelle, on peut remarquer que, avec les choix de paramètres que l’on a effectués, tous les coefficients de la matrice A sont positifs ou nuls (et même strictement positifs). Il s’agit d’une situation fréquente dans les systèmes dynamiques étudiés en biologie des 505
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
populations, et la théorie dite de Perron-Frobenius prédit alors l’existence d’une valeur propre strictement positive λ, de multiplicité 1 et dont la valeur est strictement supérieure à la valeur absolue de toute autre valeur propre de A. Ces propriétés assurent alors que, en général, la population de chaque classe d’âge se comporte comme λt lorsque t tend vers l’infini, et que le pourcentage occupé par chaque classe tend vers une valeur donnée, comme dans la question 3, par les seuls coefficients d’un vecteur propre associé à la valeur propre λ (« en général » signifie que ce comportement se produit pour presque toutes les conditions initiales). Exercice 9 1. On étudie au cours du temps (exprimé en années) les populations des individus juvéniles et adultes, notées j(t) et a(t) et rassemblées dans un vecteur N(t). En un an, la moitié des jeunes meurt et l’autre moitié devient adulte, 60 % des adultes disparaissent, et il naît un nombre d’individus égal à 40 % des femelles adultes (soit la moitié de la population adulte). Ainsi, j(t + 1) = 0,2a(t), a(t + 1) = 0,5j(t) + 0,4a(t). 02 1 En notant A = 10 , ces équations deviennent N(t + 1) = 54 AN(t). √ 2. Les valeurs propres de la matrice B = 10A sont λ± = 2± 14. Celles de A, qui valent λ10± , sont donc de valeurs absolues strictement plus petites que 1. On en déduit que la population va nécessairement s’éteindre. Plus précisément, comme les effectifs initiaux sont de l’ordre de la centaine, un calcul très approximatif peut être fait (en supposant que les caractéristiques démographiques de la population ne sont pas modifiées lorsque les effectifs deviennent très faibles) en √ T < 1, ou encore estimant le plus petit entier T tel que 100 2+10 14 T log10
√ 2+ 14 10
< − log10 (100), c’est-à-dire T >
2 √ ≈ 8,3. 1 − log10 (2 + 14)
Cela montre que la population risque de disparaître au bout d’une dizaine d’années. 506
13.2. Solutions des exercices du chapitre 9
Pourquoi ce calcul ? Simplement parce que nous savons que la matrice A est diagonalisable, donc qu’il existe une matrice diagonale D (dont les coefficients diagonaux sont les valeurs propres de A) et une matrice de passage U telles que A = U −1 DU. En conséquence, N(t) = U −1 D t UN(0), et les deux termes j(t) et a(t) de N(t) sont des √combinaisons linéaires des valeurs propres (la plus grande étant 2+10 14 ) à la puissance t, avec des coefficients formés en utilisant les coefficients des matrices U et U −1 (qui sont de l’ordre de quelques unités, ou de la dizaine – le lecteur intéressé pourra procéder au calcul précis), et des termes j(0) et a(0) (qui sont de l’ordre de la centaine). Au total, j(t) et a(t) sont au plus de l’ordre de √ 2+ 14 t 1 × 100 × ( 10 ) , d’où l’estimation effectuée plus haut. Ce calcul est évidemment approximatif, car le coefficient de proportionnalité √ 2+ 14 t entre j(t) (ou a(t)) et ( 10 ) peut tout aussi bien être de l’ordre de 1000 que de 100 ; mais comme un logarithme est appliqué à ce facteur, il ne modifie pas fondamentalement le résultat final (on a log10 (100) = 2 et log10 (1000) = 3) : le temps d’extinction de la population se montera tout au plus à quelques dizaines d’années, et certainement pas à un millier d’années ou plus ! 3. Le modèle mis en place pour la première espèce d’oiseaux ne s’applique pas à la seconde, puisqu’il ne tient pas compte de la scission de la population des adultes en deux sous-populations : ceux entre 1 et 2 ans (population notée u(t) ci-dessous) et ceux de plus de 2 ans (population p(t)). Les équations sont : j(t+1) =
4 u(t)+ 12 p(t), 10 10
u(t+1) =
5 j(t), 10
p(t+1) =
4 4 u(t)+ 10 p(t). 10
En notant cette fois P (t) le vecteur rassemblant les trois populations, le modèle est donc P (t + 1) = CP (t), avec ⎛ ⎞ 0 4 12 1 ⎝ 5 0 0 ⎠. C= 10 0 4 4 Exercice 10 Notons pi le nombre d’oiseaux dans la population i. La population totale est p1 + p2 + p3 = 282. Comme il y a autant de mâles que de femelles dans chaque population, le nombre d’oiseaux à plumage rouge est 507
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
p1 + p22 + p23 = 200. Si mi représente la quantité de nourriture mangée par un oiseau de la population i, on a m1 = 2m3 et m2 = 3m3 , et la consommation journalière de nourriture est égale à m1 p1 +m2 p2 +p3 m3 = 424m3 , ce qui donne 2p1 m3 +3p2m3 +p3 m3 = 424m3 , c’est-à-dire 2p1 +3p2 +p3 = 424. On aboutit donc au système linéaire p1 + p2 + p3 = 282 p1 + 12 p2 + 12 p3 = 200 2p1 + 3p2 + p3 = 424, que l’on peut résoudre à l’aide de la méthode du pivot. On soustrait pour cela la première à la deuxième ligne, puis deux fois la première à la troisième, ce qui donne p1 + p2 + p3 = 282 − 12 p2 − 12 p3 = −82 p2 − p3 = −140. On ajoute enfin deux fois la deuxième à la troisième ligne, ce qui conduit à p1 + p2 + p3 = 282 − 12 p2 − 12 p3 = −82 −2p3 = −304 , soit p3 = 152, p2 = 12 et p1 = 118. On constate qu’il y a peu de représentants de l’espèce 2 : on en aperçoit quelques-uns dans la masse totale d’oiseaux, mais se faire une idée précise de leur nombre par un décompte individuel est assez hasardeux. Cependant, partant de chiffres globaux assez importants (nombre total d’oiseaux, nombre total d’oiseaux à plumage rouge, consommation totale de nourriture) – et donc plus faciles à évaluer sans trop d’erreur – et d’informations génériques connues sur chaque espèce d’oiseau (proportion usuelle de mâles et femelles, habitudes alimentaires), nous avons pu écrire un système linéaire dont la résolution a permis un bon décompte de la population. Exercice 11 On applique la méthode du pivot, transformant simultanément A et Y par des combinaisons de lignes (nous indiquons ci-dessous la combinaison 508
13.2. Solutions des exercices du chapitre 9
réalisée pour chaque ligne : ainsi L1 en première ligne signifie que cette ligne n’a pas été modifiée, tandis que L3 − L1 en troisième ligne signifie que cette ligne a été remplacée par la différence entre L3 et L1 ). Partant de A et Y , L1 L2 L3 − L1 L4 + 2L1
⎞ ⎛ 1 1 2 −4 1 ⎜0 1 1 −2 1 ⎟ ⎟ ⎜ ⎝0 −1 −1 2 −1⎠ , 0 4 4 −8 3
⎞ t ⎜ u ⎟ ⎟ ⎜ ⎝ v−t ⎠ w + 2t ⎛
puis L1 L2 L3 + L2 L4 − 4L2
⎛ 1 ⎜0 ⎜ ⎝0 0
1 1 0 0
⎞ 2 −4 1 1 −2 1 ⎟ ⎟, 0 0 0⎠ 0 0 −1
⎞ t ⎟ ⎜ u ⎟ ⎜ ⎝ v − t+ u ⎠. w + 2t − 4u ⎛
Si l’on cherche X, une solution du système, on aboutit donc en remontant ce système à x5 = −w − 2t + 4u, puis 0 = v − t + u. Cette équation donne une condition sur les coefficients de Y : si v−t+u = 0, alors le système n’a pas de solution. Dans le cas contraire, la troisième équation laisse x4 libre, et l’on peut alors continuer la résolution en regardant la deuxième équation, qui donne x2 +x3 −2x4 = u−x5 = w+2t−3u. On constate alors que x3 est aussi libre, et que x2 est déterminé en fonction des coefficients libres x3 et x4 par x2 = w +2t−3u−x3 +2x4 . La première équation donne alors x1 = t−x5 +4x4 −2x3 −x2 = t+w+2t−4u+4x4 −2x3 −w−2t+3u+x3 −2x4 , et les solutions sont, au final, ⎛
⎞ t − u + 2x4 − x3 ⎜w + 2t − 3u − x3 + 2x4 ⎟ ⎜ ⎟ ⎟, x3 X=⎜ ⎜ ⎟ ⎝ ⎠ x4 −w − 2t + 4u avec x3 et x4 n’importe quels nombres réels (il y a une infinité de solutions). 509
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
13.3. Solutions des exercices du chapitre 10 Exercice 1 1. Le bilan des échanges entre les deux populations entre deux instants proches t et t + δt est le suivant : en supposant que la population rurale évolue peu entre ces instants (ce qui est le cas s’ils sont suffisamment rapprochés), le nombre d’individus migrant de la campagne vers la ville est approximativement égal à aR(t)δt, et celui migrant en sens inverse est approximativement égal à bU(t)δt. En conséquence, R(t + δt) = R(t) − aR(t)δt + bU(t)δt U(t + δt) = U(t) + aR(t)δt − bU(t)δt + cδt, en n’oubliant pas le flux migratoire vers les villes (comme expliqué dans le chapitre 8, ce ne sont là que des approximations, d’autant meilleures que δt est petit). En divisant par δt, on obtient donc R(t+δt)−R(t) δt
= −aR(t) + bU(t),
U (t+δt)−U (t) δt
= aR(t) − bU(t) + c,
et l’on peut faire tendre δt vers 0 : les termes de gauche tendent vers les dérivées de R et de U à l’instant t, et l’on conclut R (t) = −aR(t) + bU(t),
U (t) = aR(t) − bU(t) + c.
2 1 , b = 10 et c non précisé pour l’instant, 2. En prenant a = 10 2 1 les équations sont donc R (t) = − 10 R(t) + 10 U(t) et U (t) = 2 1 R(t) − 10 U(t) + c. Nous notons alors 10 2 1 − 10 10 R(t) 0 , A= P (t) = et C = . 2 1 U(t) c − 10
10
Sous forme matricielle, les équations s’écrivent donc P (t) = AP (t) + C. Pour simplifier l’étude de A, il est commode de noter B = 10A. Le polynôme caractéristique de B est (−2 − X)(−1 − X) − 2 = X 2 + 3X, et ses valeurs propres sont ainsi 0 et −3. Comme la matrice est de taille (2, 2), elle est diagonalisable. Calculons les vecteurs propres pour la valeur propre 0 : ce sont les 510
13.3. Solutions des exercices du chapitre 10
x0 vecteurs X0 = non nuls et solutions de BX0 = 0, c’est-à-dire y0 de −2x0 + y0 = 0 et 2x0 − y0 = 0. Il est alors facile de voir que toutes les solutions sont de la forme (x0 = t, y0 = 2t) pourun cer1 . En tain t non nul. On choisit par exemple t = 1 et donc X0 = 2 raisonnant de même pour la seconde valeur on voit qu’un propre, −1 choix possible de vecteur propre est X1 = . 1 La matrice A est diagonalisable dans le repère formé de ces deux vecteurs et, si l’on note U la matrice obtenue en plaçant côte à côte X0 et X1 , on a 1 1 0 0 3 3 −1 −1 U = et U AU = = D. 3 0 − 10 − 23 31 q0 (t) −1 et utilisons ce vecteur comme Notons Q(t) = U P (t) = q1 (t) nouvelle inconnue : il est solution de Q (t) = DQ(t) + U −1 C, c’està-dire 3 q0 (t) = 3c , q1 (t) = − 10 q1 (t) + 3c · On résout facilement, pour obtenir q0 (t) = 3c t + V,
q1 (t) =
10c 9
3
+ W e− 10 t ,
où V et W sont des constantes (qui seraient à calculer si nous disposions de conditions initiales). On calcule alors P (t) = UQ(t), ce qui donne R(t) = 3c t −
10c 9
3
+ V − W e− 10 t ,
U(t) =
2c t 3
+
10c 9
3
+ 2V + W e− 10 t .
Si c = 1, tout se passe (sur le long terme...) comme si le tiers des migrants venant de l’étranger allaient directement dans les campagnes et les deux autres tiers restaient dans les villes, les autres phénomènes étant négligeables par rapport à celui-ci lorsque t est grand. En revanche, si c = 0, comme la population totale est 3V , on observe une stabilisation des deux populations dans un rapport ( 23 , 13 ) comme dans l’exercice 7 du chapitre 9 (voir aussi l’exercice 4 plus bas pour une étude un peu plus précise de relations entre modèles discrets et continus). 511
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
Exercice 2 1. Le composé A subit deux phénomènes : l’ajout en continu (à un débit d(t)) et la réaction transformant A (et B) en C. D’après les hypothèses, entre deux instants t et t + δt proches, et en notant qA (t) la quantité de A présente à l’instant t, qA (t + δt) − qA (t) = d(t)δt − k1 qA (t)δt. En divisant par δt et en le faisant tendre vers 0, on parvient à qA (t) = d(t) − k1 qA (t). On traite de même les deux autres produits intéressants C et E. Avec des notations évidentes, qC (t + δt) − qC (t) = k1 qA (t)δt − k2 qC (t)δt + k3 qE (t)δt qE (t + δt) − qE (t) = k2 qC (t)δt − k3 qE (t)δt, et finalement qC (t) = −k2 qC (t) + k3 qE (t) + k1 qA (t),
qE (t) = k2 qC (t) − k3 qE (t).
On a donc une équation indépendante (celle sur qA ), qui peut être résolue directement, et un système de deux équations couplées portant sur qC et qE , dans lequel qA doit être traité comme un second membre. Le modèle en temps continu peut se justifier par le fait que les évolutions de A, C, etc. sont le résultat d’un cumul de très nombreux phénomènes rapides (les réactions à l’échelle moléculaire). 2. Avec le choix de valeurs numériques de l’énoncé, la première équa1 1 qA (t) + 10 , qui se résout facilement en tion devient qA (t) = − 10 1
qA (t) = 1 + CA e− 10 t (avec CA une constante). Le système couplé est alors 1
1 2 1 1 2 qC (t)+ 10 qE (t)+ 10 + C10A e− 10 t , qE (t) = 10 qC (t)− 10 qE (t). qC (t) = − 10 2 1 − 10 10 La matrice carrée pertinente est , de valeurs propres 0 1 2 − 10 10 3 et − 10 , donc diagonalisable, par exemple dans le repère formé des
512
13.3. Solutions des exercices du chapitre 10
2 −1 vecteurs propres et . Si l’on note U la matrice de pas1 1 sage vers ce repère (dont les colonnes par ces deux sontdonnées q (t) r0 (t) vecteurs), les coefficients du vecteur = U −1 C sont r1 (t) qE (t) solutions de r0 (t) =
1 30
+
1 CA − 10 t e 30
3 r1 (t) = − 10 r1 (t) −
1 30
−
1 CA − 10 t e , 30
et on trouve 1 CA − 10 t 1 t − e 30 3 3 1 − t 1 C1 e 10 − 9 − C6A e− 10 t
r0 (t) = C0 + r1 (t) =
(chercher par exemple une solution particulière de la seconde équa1
tion de la forme t −→ E + F e− 10 t ). Les constantes CA , C0 et C1 se calculent en fonction des conditions initiales : on a 0 = qA (0) = 1 + CA , donc CA = −1 et 1
qA (t) = 1 − e− 10 t . Par ailleurs, qC (0) = qE (0) = 0, ce qui implique r0 (0) = r1 (0) = 0. A En conséquence, C0 − C3A = 0 et C1 − 19 − C6 = 0, soit finalement r0 (t) qC (t) 1 1 =U C0 = − 3 et C1 = − 18 . Un calcul direct de qE (t) r1 (t) mène alors à 1
qC (t) =
1 t 15
− 59 + 12 e− 10 t +
qE (t) =
1 t 30
− 49 + 12 e− 10 t −
1
3 1 − 10 t e 18 3 1 − 10 t e . 18
3. La quantité de composé A reste toujours inférieure à 1 (le débit constant, ici), ce qui est souhaitable si A est toxique. En revanche, les quantités de C et E deviennent aussi grandes que l’on veut en attendant assez longtemps. Une méthode de ce type permet donc 513
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
d’obtenir des quantités très élevées de C tout en profitant d’une éventuelle facilité d’emploi ou d’accès du composé A, et ce malgré sa toxicité. Exercice 3 1. Nous procédons comme d’habitude en faisant un bilan pendant un court intervalle de temps entre un instant t et un instant t + δt. S’agissant des œufs, leur quantité N se modifie comme suit : 2 N(t + δt) − N(t) = − 10 N(t)δt +
2 A(t)δt, 10
où le premier terme à droite de l’égalité est le nombre d’œufs éclos durant cet intervalle et le second le nombre de nouveaux œufs pondus (nous notons N(t), L(t) et A(t) le nombre d’œufs, de larves et d’adultes à l’instant t). (Remarquons par ailleurs que la modélisation proposée ici néglige la mortalité des œufs et des larves.) Cela conduit, en divisant par δt et en le faisant tendre vers 0, à 2 N(t) + N (t) = − 10
2 A(t). 10
S’agissant des larves, L(t + δt) − L(t) =
2 N(t)δt 10
−
2 L(t)δt, 10
où le premier terme compte l’apparition des nouvelles larves issues des œufs et le second la transformation des larves en individus adultes. Enfin, A(t + δt) − A(t) =
2 L(t)δt 10
−
2 A(t)δt 10
(premier terme : apport de nouveaux adultes par transformation de larves, second terme : mortalité des adultes). En conséquence L (t) = A (t) =
2 2 N(t) − 10 L(t) 10 2 2 L(t) − 10 A(t) 10
ou encore, sous forme matricielle, X (t) = MX(t), avec ⎛ ⎞ ⎛ ⎞ −1 0 1 N(t) 2 ⎝ 1 −1 0 ⎠ . X(t) = ⎝ L(t) ⎠ et M = 10 0 1 −1 A(t) 514
13.3. Solutions des exercices du chapitre 10
2. En raisonnant pour simplifier sur S = 5M, on montre que 0 est valeur propre de S. Une possibilité consiste à calculer le polynôme caractéristique de S (nous le ferons plus loin) et à vérifier que 0 en est une racine. Alternativement, on peut montrer qu’il existe des solutions Y non nulles à l’équation SY = 0Y = 0 : de fait, on voit facilement que le vecteur Y ayant tous ses coefficients égaux à 1 convient. Pour le second point, il suffit de calculer (N(t) + L(t) + A(t)) = N (t) + L (t) + A (t) et de constater que le résultat vaut 0 pour tout t. Le lien cherché est le suivant : si la matrice S est diagonalisable (nous verrons plus bas que c’est le cas), il existe un nouveau repère, avec matrices de changement de repère U et U −1 , dans lequel U −1 SU est diagonale avec un des coefficients diagonaux, par exemple le premier, égal à zéro. Si l’on note maintenant Z(t) = U −1 X(t), les coefficients de Z(t) sont des combinaisons linéaires de N(t), L(t) et A(t), et le premier a une dérivée nulle puisque Z (t) = (U −1 SU)Z(t). De fait nous savons qu’il existe une telle combinaison de N, L et A à dérivée toujours nulle : précisément N(t) + L(t) + A(t). 3. Nous résolvons maintenant avec la méthode habituelle. La formule du déterminant donnée dans l’exemple 8 du chapitre 9 permet de voir que le polynôme caractéristique de S est −(λ3 + 3λ2 + 3λ), qui se factorise en −λ(λ2 + 3λ + 3) ; on retrouve que 0 est racine. Les racines de λ2 + 3λ + 3 sont complexes (de parties réelles strictement √ 3±i 3 négatives), égales à λ± = − 2 . On peut néanmoins, comme expliqué dans le cours, procéder de manière identique au cas où les racines sont réelles, en calculant des vecteurs propres (à coefficients complexes) et une matrice de changement de repère (complexe). Une possibilité de telle matrice est ⎛ 1+i√3 2 1−i√3 2 ⎞ 1( 2 ) ( 2 ) ⎜ √ √ ⎟ U =⎝ 1 − 1+i2 3 − 1−i2 3 ⎠ 1 1 1 ⎞ ⎛ z1 (t) et, posant Z(t) = ⎝z2 (t)⎠ = U −1 X(t) (noter que l’on n’a z3 (t) pas besoin de calculer U −1 ici), la résolution de l’équation 515
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
Z (t) = U −1 MUZ(t) conduit à z1 (t) = C1 , z2 (t) = C2 e
λ+ t 5
et
λ− C3 e 5 t .
z3 (t) = La solution X(t) est alors obtenue en calculant fonction X(t) = UZ(t), les constantes Ci étant calculables ⎛ ⎞ en ⎛ ⎞ des 0 C1 conditions initiales en résolvant le système U ⎝C2 ⎠ = ⎝100⎠ (calC3 300 culs faciles laissés au lecteur). Comme λ+ et λ− ont des parties réelles strictement négatives, on voit que z2 (t) et z3 (t) tendent vers 0 quand t tend vers l’infini. Or N(t), L(t) et A(t) s’écrivent tous comme la somme de z1 (t) = C1 et de combinaisons linéaires de z2 (t) et z3 (t) : ainsi, les nombres d’œufs, de larves et d’adultes ont tous tendance à se stabiliser, au bout d’un certain temps, autour de la même valeur C1 (un tiers de la population totale). Exercice 4 1. Une modélisation discrète est bien adaptée aux phénomènes se produisant de manière brutale et périodique, ce qui est le cas ici. Pour la mise en équations, qui est délicate, nous notons provisoirement s(t) = s et i(t) = i le nombre de cellules saines et infestées à un certain instant t où un recensement est effectué. Les événements suivants se déroulent ensuite, dans l’ordre chronologique : • Des cellules saines sont infestées : le nombre de cellules saines baisse donc brutalement de 10 % (il devient alors égal à 9 s) tandis que celui des cellules infestées s’accroît brutas1 = 10 1 s). lement (et devient égal à i1 = i + 10 • Jusqu’au recensement suivant, la mortalité naturelle entraîne 9 de la disparition de cellules saines (il n’en reste donc plus que 10 9 81 celles présentes après la première phase, soit s2 = 10 s1 = 100 s) 5 et des cellules infestées (il n’en reste plus que i2 = 10 i1 = 5 1 (i + 10 s)). 10 • Juste avant le recensement suivant apparaissent les nouvelles cellules saines : le nombre de cellules saines augmente alors 1 91 s = 100 s. brusquement, et devient égal à s3 = s2 + 10 516
13.3. Solutions des exercices du chapitre 10
Au bout d’un cycle, c’est-à-dire au recensement effectué au temps t + 1, on a donc s(t + 1) =
91 s(t), 100
i(t + 1) =
5 i(t) 10
+
5 s(t), 100
ce qui est bien le résultat annoncé par l’énoncé. 2. Le deuxième modèle fait l’hypothèse que tous les phénomènes se produisent n fois par mois au lieu d’une seule fois, mais que la proportion totale de cellules détruites ou créées au bout d’un mois est la même que précédemment. Ainsi, la mortalité au bout d’une frac% pour les cellules saines (au lieu de 10 %) tion n1 de mois est de 10 n 50 et de n % pour les cellules infestées (au lieu de 50 %), la proportion % et la proportion de cellules saines infestées brutalement est de 10 n de cellules saines créées est également de 10 %. La modification du n raisonnement précédent conduit alors à la relation annoncée entre s et i aux temps t et t + n1 = t + Δt. 3. Si les phénomènes se produisent en continu, la modélisation se fait à l’aide d’équations différentielles : entre deux instants t et t + δt 1 très proches, le nombre de cellules infestées en plus est 10 s(t)δt, qui est également le nombre de cellules saines en plus, tandis que la 1 5 mortalité fait disparaître 10 s(t)δt cellules saines et 10 s(t)δt cellules infestées. Au total, s(t + δt) = s(t) −
1 s(t)δt 10
+
1 s(t)δt 10
i(t + δt) = i(t) +
1 s(t)δt 10
−
5 i(t)δt. 10
−
1 s(t)δt 10
En appliquant la méthode décrite dans le cours, ces équations conduisent à la matrice A∞ annoncée. Pour obtenir ce modèle à partir du précédent, l’idée est de remplacer 1 par Δt dans An : on obtient n 1 0 100 An = (Δt)A∞ + (Δt)2 B, avec B = 5 0 − 100 et A∞ la matrice introduite dans le modèle continu. Le modèle discret se récrit alors N (t+Δt)−N (t) Δt
= A∞ N(t) + (Δt)BN(t). 517
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
On fait ensuite tendre Δt vers 0 (c’est ce que l’on appelle la limite continue), et on voit que le dernier terme de droite tend aussi vers 0, ce qui permet de retrouver le modèle continu. Exercice 5 La structure des deux équations étant la même, il suffit d’étudier par exemple la première pour comprendre le sens de cette modélisation : n1 (t) n1 (t) = r1 n1 (t) 1 − − r1 p2 n1 (t)n2 (t). K1 Le premier terme à droite du signe d’égalité (qui ne concerne que n1 ) a déjà été rencontré dans l’exercice 5 du chapitre 8 : il modélise l’évolution d’une population dans un environnement à ressources limitées, où la croissance démographique est positive si la population n’est pas trop importante (n1 (t) < K1 ) et négative si elle dépasse la valeur seuil K1 . Le second terme représente l’interaction entre les deux espèces : la présence de la seconde espèce a un effet négatif sur la démographie de la première. Il s’agit donc, par exemple(1) , d’un modèle décrivant l’évolution de deux espèces en compétition, et soumises l’une et l’autre à des ressources limitées. Remarque : Pour l’étude des différents portraits de phase possibles, on peut réduire nettement le nombre de cas en remarquant que, si l’on travaille avec les inconnues y1 = p1 n1 et y2 = p2 n2 (et si l’on change K1 et K2 en K1 = p1 K1 et K2 = p2 K2 ), on élimine les constantes p1 et p2 . De plus, les valeurs de r1 et r2 ne jouent un rôle que dans l’étude au voisinage des éventuels points d’équilibre (à travers le rapport r1 /r2 ) et non pas sur la division du portrait de phase par les isoclines. Exercice 6 Le modèle prédit que chaque population évolue selon une dynamique malthusienne ou logistique perturbée par la présence de l’autre espèce. Dans la première équation n1 (t) = −an1 (t) + apn1 (t)n2 (t), (1)
Le lecteur doit cependant prendre garde : les modélisations de deux situations très différentes peuvent parfois conduire aux mêmes équations. Il s’agit donc ici d’une interprétation possible des équations, mais il pourrait en exister d’autres...
518
13.3. Solutions des exercices du chapitre 10
la démographie naturelle est négative et la présence de l’autre espèce est bénéfique : il s’agit par exemple d’un phénomène de prédation, le prédateur étant la première espèce et la proie la seconde. Dans la seconde équation, n2 (t) n2 (t) = bn2 (t) 1 − − bqn1 (t)n2 (t), K le dernier terme est également représentatif du phénomène de prédation, tandis que celui qui suit le signe d’égalité met en évidence la limitation des ressources dans l’environnement de la seconde population (voir l’exercice 5). Appelons maintenant f et g les fonctions des deux variables n1 et n2 apparaissant dans les deux équations, c’est-à-dire f (x, y) = ax(y − 1) et g(x, y) = by(1 −
y K
− x).
Ces deux fonctions sont continues et admettent des dérivées partielles continues : le système dynamique relève donc du théorème de CauchyLipschitz. Les isoclines sont les droites horizontales d’équations y = 0 (où g = 0) et y = 1 (où f = 0), la droite verticale d’équation x = 0 (où f = 0) et la droite « oblique » d’équation x + Ky = 1 (où g = 0). Trois situations sont donc possibles suivant les positions relatives de K et de 1, qui sont décrites dans les figures 13.5 et 13.6. On constate qu’il y a, dans la zone {x ≥ 0, y ≥ 0}, deux points d’équilibre si K ≤ 1 et trois si K > 1. 1.6 1.4
1.6
1.2
1.2
1.4
1
1
0.8
0.8
0.6
0.6
0.4
0.4
0.2
0.2
0 −0.2 −0.2 0
0 0.2 0.4 0.6 0.8 1
K K0
Figure 13.6. Les deux dernières situations de l’exercice 6.
La matrice pilotant la nature du point d’équilibre situé à l’origine est −a 0 . Cette matrice a deux valeurs propres réelles de signes toujours 0 b opposés et le point d’équilibre est donc similaire à celui décrit dans le tracé du bas de la figure 10.2 de la page 382 (noter qu’ici les directions des vecteurs propres sont horizontales et verticales). Un deuxième point toujours en (0, K), et la ma d’équilibre apparaît a(K − 1) 0 . Elle admet deux valeurs propres trice pertinente est −bK −b réelles : la seconde valeur propre est −b, et elle est donc toujours strictement négative ; en revanche la première est a(K − 1), et elle est strictement négative si K < 1, s’annule si K = 1 et devient positive si K > 1. Le théorème de Hartman ne s’applique donc que si K = 1, et les situations sont radicalement différentes selon que K est plus petit ou plus grand que 1 : dans le premier cas, le schéma pertinent est le deuxième de la figure 10.2 de la page 382, dans le second il s’agit du troisième. Un troisième point d’équilibre apparaît en (1 − K1 , 1) si K > 1, et la 0 a(1 − K1 ) matrice correspondante est , de polynôme caractéristique −b − Kb X 2 + Kb X + ba(1 − K1 ). Le discriminant de ce polynôme est strictement positif si 1 < K < K0 (sous-cas 1), et strictement négatif si K > K0 (sous-cas 2), où K0 est la seule racine strictement positive du polynôme b . Dans le sous-cas 1, les valeurs propres sont réelles et stricK 2 − K − 4a tement négatives, et lorsque K = K0 , elles deviennent toutes les deux égales à − 2Kb 0 ; le théorème de Hartman s’applique et le schéma adéquat est le deuxième de la figure 10.2. Enfin, dans le sous-cas 2, elles sont 520
13.3. Solutions des exercices du chapitre 10 b complexes de partie réelle strictement négative (égale à − 2K ), le théorème de Hartman s’applique toujours et la situation est celle du premier schéma de la figure 10.4 de la page 383, les trajectoires étant convergentes vers le point d’équilibre. Le tracé de quelques trajectoires autour de certains points d’équilibre et dans différents cas est fait dans les figures 13.5 et 13.6. Si K tend vers l’infini, le portrait de phase tend vers celui du modèle de Lotka-Volterra de la figure 10.10. Le point d’équilibre « central » se rapproche progressivement du point de coordonnées (1, 1) et, au voisinage de ce point, les trajectoires convergent vers lui de plus en plus lentement b (avec les notations de la figure 10.4, on a α = − 2K ). À la limite, il n’est donc pas surprenant de trouver une situation où le point d’équilibre n’est plus attractif et où les trajectoires se contentent de tourner autour de lui sans nécessairement s’en approcher.
Exercice 7 Commençons par étudier chacun des termes des équations afin de mieux les comprendre. Le premier terme à droite du signe d’égalité dans la première équation A (t) = −kA(t)(S(t) + M(t)) + gS(t) + hM(t) décrit le phénomène de contamination, proportionnel à la probabilité de rencontre des individus en bonne santé (A) avec les individus infectés de toute nature (à la fois S et M). Le nombre k représente donc la probabilité de contamination par unité de temps lors d’un contact entre un individu en bonne santé et un individu infecté. Les deux termes suivants traduisent le phénomène de guérison, avec des probabilités par unité de temps différentes (respectivement g et h) selon qu’il s’agit d’un porteur sain ou d’un malade. Dans la deuxième équation, le terme pkA(t)(S(t) + M(t)) traduit à nouveau la contamination : nous avons vu qu’un individu sain rencontrant un individu infecté avait une probabilité k par unité de temps d’être infecté, et parmi ceux qui le seront effectivement, la probabilité de rester porteur sain est p et celle de tomber directement malade est (1 − p)(2) , ce qui nous permet d’expliquer également le premier terme à droite du signe d’égalité dans la troisième (2)
On notera que p est une probabilité, alors que toutes les autres constantes c, g, h et k sont des probabilités par unité de temps.
521
Chapitre 13. Solutions de la partie III : Systèmes dynamiques
équation. Le terme −(g + c)S(t) exprime la guérison des porteurs sains (avec probabilité par unité de temps g pour un individu donné, comme nous l’avons déjà vu) et l’apparition de la maladie (avec probabilité par unité de temps c). En relisant, on constate que la troisième équation est désormais expliquée en détail. Observons maintenant plus précisément comment ces équations sont obtenues. Nous prenons par exemple la troisième, en laissant les raisonnements conduisant aux deux autres au lecteur. Entre deux instants t et t + δt proches, le nombre d’individus malades augmente de (1 − p)kA(t)(S(t) + M(t))δt (du fait de la contamination) et de cS(t)δt (du fait de l’apparition de la maladie chez les porteurs sains), tandis qu’il diminue de hM(t)δt (guérison). Et donc, M(t + δt) − M(t) = (1 − p)kA(t)(S(t) + M(t))δt + cS(t)δt − hM(t)δt. En divisant par δt et en le faisant tendre vers 0, on obtient bien l’équation attendue. Si l’on ne distingue plus les porteurs sains des malades, la nouvelle population à étudier est I(t) = S(t) + M(t), qui vérifie I (t) = S (t) + M (t) = pkA(t)(S(t) + M(t)) − (g + c)S(t) + (1 − p)kA(t)(S(t) + M(t)) + cS(t) − hM(t) = kA(t)I(t) − gI(t) en utilisant que g = h, tandis que l’équation portant sur A devient simplement A (t) = −kA(t)I(t) + gI(t). Il est utile à ce stade de noter f1 (x, y) = y(g−kx) et f2 (x, y) = y(−g+kx) les fonctions de deux variables décrivant le système obtenu sur (A, I). On a f1 = −f2 , les isoclines et les points d’équilibre sont donc confondus : il s’agit de tous les points des droites d’équations y = 0 et x = kg (on suppose k = 0). La matrice pilotant le comportement au voisinage de n’importe lequel de ces points a toujours une valeur propre nulle (vérifiez-le !), donc le théorème de Hartman ne peut jamais s’appliquer ici. La figure 13.7 donne l’allure du portrait de phase. 522
13.3. Solutions des exercices du chapitre 10
I
0
g k
A
Figure 13.7. Esquisse du portrait de phase de l’exercice 7.
On peut facilement tirer des conclusions de cette étude. Les comportements diffèrent selon que le nombre d’individus sains est inférieur ou supérieur à kg au départ. S’il est strictement inférieur, des raisonnements proches de ceux tenus dans le paragraphe 10.5.5 sur le système proiesprédateurs montrent que le nombre d’individus porteurs de la maladie décroît tandis que le nombre d’individus sains croît. On peut être plus précis en remarquant que A (t) + I (t) = 0 : les trajectoires sont donc portées par les droites d’équation x + y = c ; elles tendent alors soit vers un des points d’équilibre situés sur l’axe des abscisses, soit vers un des points d’équilibre situés sur la droite verticale x = kg . Si au contraire le nombre d’individus en bonne santé au départ est strictement supérieur à kg , le nombre d’individus sains diminue, celui des infectés augmente et la trajectoire tend vers l’un des points d’équilibre situés sur la droite verticale x = kg . Si enfin il est égal à cette valeur, alors les populations restent constantes, l’apparition d’un nouveau malade étant exactement compensée par une guérison.
523
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
BIBLIOGRAPHIE
[1] P. Dagnelie, « Statistique théorique et appliquée. Tome 1. Statistique descriptive et bases de l’inférence statistique », De Boeck, Bruxelles, 2007. [2] P. Dagnelie, « Statistique théorique et appliquée. Tome 2. Inférence statistique à une et à deux dimensions », De Boeck, Bruxelles, 2006. [3] J.J. Daudin, S. Robin et C. Vuillet, « Statistique inférentielle. Idées, démarches, exemples », Presses Universitaires de Rennes, Rennes, 1999. [4] A. Hamon et N. Jégou, « Statistique descriptive », Presses Universitaires de Rennes, Rennes, 2008. [5] J. Hubbard et B.H. West, « Équations différentielles et systèmes dynamiques », Cassini, Paris, 1999. [6] D.C. Lay, « Algèbre linéaire. Théorie, exercices & applications », De Boeck, Bruxelles, 2004. [7] M. Lejeune, « Statistique. La théorie et ses applications », Springer, 2004. [8] J. Pagès, « Statistiques générales pour utilisateurs. 1. Méthodologie », Presses Universitaires de Rennes, Rennes, 2005. [9] F. Husson et J. Pagès, « Statistiques générales pour utilisateurs. 2. Exercices et corrigés », Presses Universitaires de Rennes, Rennes, 2005. [10] W. Rudin, « Principes d’analyse mathématique », Dunod, Paris, 2002. [11] G. Saporta, « Probabilités, analyse des données et statistique. 2e édition », Éditions Technip, Paris, 2006.
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
INDEX
A Analyse combinatoire, 85 Analyse de variance, 275 effets, 281 estimation des effets, 283 formule, 255, 278 modèle, 281 tableau, 265, 279 Antécédent, 21 Application linéaire, 332 Arbre de probabilités, 88 Arrangements avec répétitions, 85 sans répétitions, 85 B Biais, 165 Bijection réciproque, 23 Bilan, 294 Box plot, 148 C Changement de repère, 332 application linéaire, 337 matrices, 335 Chemin, 51 régulier par morceaux, 68 Classe, 138 effectif, 138 Coefficient de corrélation, 256 de détermination, 256
Combinaison linéaire, 325 Combinaisons, 85 Condition initiale, 308 Corrélation, 256 Courbe, 51 régulière par morceaux, 68 vecteur tangent, 52 Courbe des fréquences cumulées, 144 Covariance, 259 D Densité de probabilité, 100 Dérivée, 25, 26 Dérivée directionnelle, 64 Dérivée partielle, 58 Dérivées partielles ordre supérieur, 66 Diagonalisation, 337 application aux équations différentielles, 369 Diagramme en bâtons, 137 Différentielle, 62 forme différentielle, 63 Distribution, 98, 102 empirique, 136 théorique, 136 E Écart-type empirique, 135 Échantillon aléatoire, 130 Échantillons appariés, 185 indépendants, 185
Mathématiques et statistique pour les sciences de la nature
Ensemble fondamental, 81 Équation différentielle, 297 à variables séparées, 304 équilibre, 305 analyse numérique, 309 homogène, 299 linéaire, 298 solution particulière, 300 système d’équations linéaires, 364 Équations compatibles, 326 incompatibles, 326 Erreur de première espèce, 200 de seconde espèce, 200 Espérance, 104 Estimateur, 164 asymptotiquement sans biais, 167 convergent, 165 de la moyenne, 165 de la variance, 165 sans biais, 165 sans biais de la variance, 167 Estimation, 164 d’une proportion, 181 de la différence de deux moyennes, 184 par intervalle, 169 ponctuelle, 164 Événement, 81 élémentaire, 81 équiprobable, 83 Événements incompatibles, 82 Exponentielle, 11 Extremum de fonction, 21 F F ratio, 265, 279 Fonction, 4 bijective, 23 continue, 19 croissante, 6 de plusieurs variables, 52
528
continuité, 65 décroissante, 6 dérivable, 25 domaine (de définition), 4 formule, 5 graphe, 6 représentation graphique, 6 sens de variation, 7 strictement croissante, 8 strictement décroissante, 8 Fonction de répartition, 103 empirique, 141 Fonction partielle, 55 Fonctions usuelles exponentielle, 11 logarithme, 9 puissance, 9 Forme différentielle, 63 exacte, 72 fermée, 73 Formule de Bayes, 90 Formule fondamentale du calcul différentiel à plusieurs variables, 70 à une variable, 43 H Histogramme, 138 Hypothèse alternative, 199 nulle, 199 simple, 199 I IC, ic, 169 Indépendance des événements, 91 des variables aléatoires, 111 Intégrale, 42 le long d’un chemin, 69 relation de Chasles, 42 Intervalle, 40 Intervalle de confiance, 169 asymptotique, 174, 178
Index
construction, 170 largeur, 173 niveau, 169 pour la différence de deux moyennes, 184, 186, 188, 191 pour le rapport de deux variances, 194, 452 pour les paramètres de régression, 261 pour un écart-type, 181 pour une moyenne, 171, 175, 178 pour une proportion, 183 pour une variance, 178 unilatéral, bilatéral, 170, 454 L Limite définition, 14–16 formes indéterminées, 16 règles de calcul, 16 Logarithme, 9 Loi binomiale, 113 d’une variable aléatoire, 98, 102 de Bernoulli, 112 de Fisher-Snedecor, 120 de Poisson, 114 de Student, 120 des grands nombres, 152 du χ2 , 118 exponentielle, 115 gaussienne, 116 mère, 164 normale, 116 uniforme continue, 122 uniforme discrète, 122 Loi des grands nombres, 152 M Médiane empirique, 148 théorique, 145 Matrice, 319 carrée, 319 de changement de repère, 336
de passage, 336 de variance-covariance, 357 diagonale, 320 diagonalisable, 337, 339 diagonaliser, 337, 341 identité, 319 inverse, 329 inversible, 329, 335 Matrices addition, 321 multiplication, 322 Méthode du pivot, 348 Modèle, 295 Moindres carrés droite, 250 estimateurs, 250 méthode, 248 Moyenne empirique, 132, 165 N Niveau de confiance pour un intervalle, 169 Niveau de signification, 212 P p-valeur, 212 Permutations, 85 Point critique, 60 Polygone des fréquences, 141 Polynôme caractéristique, 339 Prévision, 266 Primitive, 41 Probabilité, 82 conditionnelle, 87 densité de, 100 distribution de, 102 loi de, 102 mesure de, 84 propriétés, 82 Proportion empirique, 182 Puissance, 213 Q Quantile, 144
529
Mathématiques et statistique pour les sciences de la nature
empirique, 147 théorique, 145 R Région de rejet, 201 Régression, 245 droite, 250 estimation des paramètres, 247 linéaire simple, 246 non linéaire, 252 paramètres, 245 validation des résultats, 273 Résidu, 250 Risque de première espèce, 200 de seconde espèce, 200 quadratique, 164 S Somme des carrés des écarts, 254 Statistique, 164 de test, 201 descriptive, 136 inférentielle, 163 Studentisation, 176 Surface-graphe, 54 Système d’équations différentielles, 364 allure des solutions, 381 forme matricielle, 364 résolution, 369, 373 dynamique, 386 courbes isoclines, 391 équilibres, 391 portrait de phase, 388 solution maximale, 387 stabilité des équilibres, 400 Système linéaire, 325 deux équations et deux inconnues, 325 T Tableau de contingence, 231 Taux d’accroissement, 25
530
Test asymptotique, 212 bilatéral, 206 construction, 203 convergent, 216 d’adéquation, 226 d’ajustement, 226 d’homogénéité, 233 d’indépendance, 230 de Fischer, 276 de la différence de deux moyennes, 218, 220, 221, 224 de Student, 211 des coefficients de régression, 265 du χ2 , 225 F, 276 multiple de moyennes, 285 niveau, 201 non paramétrique, 226 paramétrique, 199 pour le rapport de deux variances, 222, 240, 476 pour une moyenne, 203 pour une proportion, 197, 216 pour une variance, 240, 475 puissance, 201 unilatéral, 204 Théorème central limite, 155 Théorème de Cauchy-Lipschitz, 387 linéaire, 367 Théorème des valeurs intermédiaires, 21 U Univers (des possibles), 81 V Valeur propre, 338 Variable explicative, 245 expliquée, 245 Variable aléatoire, 94 continue, 99 discrète, 97 espérance, 104
Index
loi, 98, 102 mère, 164 réalisation, 96 variance, 108 Variance, 108
empirique, 133, 165, 167 empirique corrigée, 167 Variation de la constante, 302 Vecteur, 320 Vecteur propre, 338
531