261 102 14MB
French Pages 269 [268] Year 2013
i
i “lims_France” — 2013/7/22 — 14:16 — page 1 — #1
i
i
Analyse factorielle multiple avec R
i
i i
i
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
i
i “lims_France” — 2013/7/22 — 14:16 — page 2 — #2
i
i
Jérôme Pagès
Analyse factorielle multiple avec R
i
i i
i
i
i “lims_France” — 2013/7/22 — 14:16 — page 3 — #3
i
i
ISBN : 978-2-7598-0963-9
c 2013, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc d’activités de Courtabœuf, 91944 Les Ulis Cedex A
Imprimé en France
Tous droits de traduction, d’adaptation et de reproduction par tous procédés réservés pour tous pays. Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages publiées dans le présent ouvrage, faite sans l’autorisation de l’éditeur est illicite et constitue une contrefaçon. Seules sont autorisées, d’une part, les reproductions strictement réservées à l’usage privé du copiste et non destinées à une utilisation collective, et d’autre part, les courtes citations justifiées par le caractère scientifique ou d’information de l’œuvre dans laquelle elles sont incorporées (art. L. 122-4, L. 122-5 et L. 335-2 du Code de la propriété intellectuelle). Des photocopies payantes peuvent être réalisées avec l’accord de l’éditeur. S’adresser au : Centre français d’exploitation du droit de copie, 3, rue Hautefeuille, 75006 Paris. Tél. : 01 43 26 95 35.
i
i i
i
i
i “lims_France” — 2013/7/22 — 14:16 — page 4 — #4
i
i
Collection Pratique R dirigée par Pierre-André Cornillon et Eric Matzner-Løber Département MASS Université Rennes-2-Haute-Bretagne France
Comité éditorial Eva Cantoni Institut de recherche en statistique & Département d’économétrie Université de Genève Suisse
Pierre Lafaye de Micheaux Département de Mathématiques et Statistique Université de Montréal Canada
François Husson Département Sciences de l’ingénieur Agrocampus Ouest France
Sébastien Marque Directeur Département Biométrie Danone Research, Palaiseau France
Déjà paru dans la même collection : Psychologie statistique avec R Yvonnick Noël, 2013 ISBN : 978-2-8178-0425-5 – Springer Séries temporelles avec R Yves Aragon, 2011 : 978-2-8178-0208-4 – Springer
ISBN
Régression avec R Pierre-André Cornillon, Eric Matzner-Løber, 2011 : 978-2-8178-0184-1 – Springer
ISBN
Méthodes de Monte-Carlo avec R Christian P. Robert, George Casella, 2011 ISBN : 978-2-8178-0181-0 – Springer
i
i i
i
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
i
i “afm” — 2013/5/6 — 16:12 — page vii — #1
i
i
AVANT-PROPOS Du fait de son large domaine d’application, l’analyse factorielle multiple (AFM) est maintenant largement utilisée. Le présent livre est un exposé complet de la méthode : il rassemble les aspects théoriques et méthodologiques, des exemples d’application et la mise en œuvre logicielle via un package R (FactoMineR). De même que l’analyse en composantes principales (ACP) ou l’analyse des correspondances multiples (ACM), l’AFM s’applique à des tableaux structurés ainsi : pour un ensemble d’individus (un individu = une ligne), on dispose des valeurs de chacun pour un ensemble de variables (une variable = une colonne). La spécificité de l’AFM tient à la prise en compte, au sein des variables actives, d’une structure en groupes définie par l’utilisateur. De telles données sont désignées par « tableau individus × variables structurées en groupes ». Ce format de données est fréquent. En premier lieu parce qu’il correspond bien à la démarche de l’utilisateur lorsqu’il conçoit un recueil de données. Ainsi, le rédacteur d’un questionnaire d’opinion procède par thèmes, qu’il décline chacun selon plusieurs questions (les questions seront les variables et les thèmes les groupes de variables). Cette structure du questionnaire doit bien sûr être présente lors de l’analyse des résultats. En second lieu, parce que l’utilisateur souhaite souvent rapprocher des données recueillies sur les mêmes individus statistiques mais dans des contextes (par exemple géographiques et/ou temporels) différents. Ainsi, dans l’industrie agroalimentaire, on dispose souvent, pour un même ensemble de produits, de profils sensoriels issus de dégustations réalisées dans plusieurs pays et/ou par des (types de) dégustateurs différents. Il est nécessaire d’analyser simultanément ces ensembles de données tout en préservant leur individualité, lors de l’analyse statistique d’abord et lors de l’interprétation ensuite. L’expérience, issue de nombreux contacts avec des utilisateurs variés, montre que les tableaux multiples constituent en fait le format standard des données auxquelles on est confronté aujourd’hui lorsque l’on applique des méthodes factorielles. A cette complexité de structure (en groupes de variables), s’ajoute une complexité de nature, les variables pouvant être quantitatives et/ou qualitatives. Il est donc nécessaire de disposer d’une méthodologie d’analyse de tableaux individus × variables dans lesquels les variables sont structurées en groupes quantitatifs, qualitatifs ou mixtes. Tel est précisément le champ d’application de l’AFM. L’AFM est le résultat d’un travail conjoint de Brigitte Escofier et de Jérôme Pagès au début des années 1980. Cette méthode est maintenant bien établie si l’on en juge par sa disponibilité logicielle croissante. Citons, sans prétendre à l’exhaustivité, quelques logiciels incluant une procédure d’AFM : SPAD, FactoMiner (Package R), ade4 (Package R), Uniwin (Statgraphics), XLStat. La disponibilité de la méthode étant acquise, la fréquence du format des données justifiant sa mise en œuvre s’imposant d’elle-même, il reste encore à aider l’utilisateur à appréhender ses données dans leur complexité. Pour cela, une question est centrale : que signifie précisément « prendre en compte la structure en groupes de variables dans une analyse d’ensemble » ? Autrement dit, pourquoi ne
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page viii — #2
i
i
pas mettre en œuvre une analyse factorielle usuelle, par exemple une analyse en composantes principales, et tenir compte de la structure en groupes de variables uniquement dans l’interprétation. En étant un peu réducteur, on pourrait dire que ce livre ne répond qu’à cette seule question. Les deux premiers chapitres reprennent les méthodes de base de l’analyse factorielle d’un tableau individus × variables, ACP et ACM. Le chapitre 3 traite de l’analyse factorielle simultanée de variables quantitatives et qualitatives, sans distinction de groupes. La méthode décrite, dite AFDM (analyse factorielle de données mixtes), est peu connue ; elle est l’occasion d’introduire les éléments techniques permettant de prendre en compte les deux types de variables au sein d’une analyse unique. Les chapitres suivants, numérotés de 4 à 10, décrivent l’analyse factorielle multiple. Les quatre premiers abordent successivement les points clés de l’AFM dans le cadre de variables quantitatives. Un chapitre est dédié aux données qualitatives et mixtes. Enfin, deux chapitres comparent chacun l’AFM à une méthode de référence pour des questions spécifiques : la méthode Statis et l’analyse procustéenne. Le chapitre 11 présente une extension naturelle de l’AFM : l’AFM hiérarchique (AFMH). Dans cette méthode, les variables ne sont pas structurées par une simple partition, mais par une hiérarchie ou, si l’on préfère, une suite de partitions emboîtées. Un exemple typique de ces données est fourni par les enquêtes dont le questionnaire est structuré en thèmes et sous-thèmes. Enfin, le chapitre 12 présente, sous la forme de deux fiches, quelques éléments de calcul matriciel et d’espaces métriques utilisés dans ce livre. *** Au terme de cet ouvrage, il m’est agréable de remercier Sophie Puyo, ingénieure statisticienne, qui a assuré l’essentiel de la mise en forme de ce livre. Première lectrice de ce travail, elle a été aussi à l’origine de bon nombre d’améliorations. Ces remerciements s’adressent aussi à Magalie Houée-Bigot, ingénieure statisticienne, qui a pris le relais de Sophie après l’intervention des relecteurs. Je remercie aussi tout particulièrement Eric Matzner-Løber pour l’accueil qu’il a su réserver à ce livre et les échanges que cela a occasionnés. Il est juste enfin de remercier Annie, mon épouse, qui éclaire ma vie et donc, indirectement, ce livre. *** Les données utilisées dans ce livre sont disponibles sur le site du laboratoire de mathématiques appliquées d’Agrocampus Ouest. Les chapitres 3, 8, 9 et 10 reprennent, en les adaptant au format d’un livre, des travaux initialement publiés dans la Revue de statistique appliquée (dont la publication s’est arrêtée en 2006). C’est là une excellente occasion de remercier Pierre Cazes, directeur de cette revue, d’abord pour l’excellent accueil qu’il fit à ces travaux et ensuite pour son encouragement à les reprendre dans un livre. Les calligraphies sont dues au talent de Richard Delécolle.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page ix — #3
i
i
Table des matières 1 Analyse en composantes principales 1.1 Données, notations . . . . . . . . . . . . . . . . . . . . . 1.2 Pourquoi analyser un tableau par ACP ? . . . . . . . . . 1.3 Nuages des individus et des variables . . . . . . . . . . . 1.4 Centrage et réduction . . . . . . . . . . . . . . . . . . . 1.5 Ajustement des nuages NI et NK . . . . . . . . . . . . 1.5.1 Principe général et formalisation des critères . . 1.5.2 Interprétation des critères . . . . . . . . . . . . . 1.5.3 Solution . . . . . . . . . . . . . . . . . . . . . . . 1.5.4 Relations entre les analyses des deux nuages . . . 1.5.5 Représentation des variables . . . . . . . . . . . . 1.5.6 Nombre d’axes . . . . . . . . . . . . . . . . . . . 1.6 Aides à l’interprétation . . . . . . . . . . . . . . . . . . . 1.6.1 Pourcentage d’inertie associé à un axe . . . . . . 1.6.2 Contribution d’un point à l’inertie d’un axe . . . 1.6.3 Qualité de représentation d’un point par un axe 1.7 Premier exemple : 909 candidats au bac . . . . . . . . . 1.7.1 Inerties projetées . . . . . . . . . . . . . . . . . . 1.7.2 Interprétation des axes . . . . . . . . . . . . . . . 1.7.3 Remarques méthodologiques . . . . . . . . . . . . 1.8 Eléments supplémentaires . . . . . . . . . . . . . . . . . 1.9 Variables qualitatives en ACP . . . . . . . . . . . . . . . 1.10 Second exemple : six jus d’orange . . . . . . . . . . . . . 1.11 ACP dans FactoMineR . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . .
1 1 2 3 6 7 8 9 10 12 14 15 15 15 16 16 17 17 18 20 22 24 27 29
2 Analyse des correspondances multiples 2.1 Données . . . . . . . . . . . . . . . . . . 2.2 Tableau disjonctif complet . . . . . . . . 2.3 Questionnement . . . . . . . . . . . . . . 2.4 Nuages des individus et des variables . . 2.4.1 Nuage des individus . . . . . . . 2.4.2 Nuage des modalités . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
37 37 38 39 40 41 43
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page x — #4
i
x
i
Analyse factorielle multiple avec R
2.5
2.6 2.7 2.8
2.9
2.4.3 Variables qualitatives . . . . . . . . . . . . . . . . . . Ajustement des nuages NI et NK . . . . . . . . . . . . . . . . 2.5.1 Nuage des individus . . . . . . . . . . . . . . . . . . . 2.5.2 Nuage des modalités . . . . . . . . . . . . . . . . . . . 2.5.3 Relations entre les deux analyses . . . . . . . . . . . . Représentation des individus, des modalités et des variables . Aides à l’interprétation . . . . . . . . . . . . . . . . . . . . . . Exemple : 25 étudiants évaluent 5 outils pédagogiques . . . . 2.8.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8.2 Analyse et représentations . . . . . . . . . . . . . . . . 2.8.3 Comparaison ACM/ACP pour des variables ordinales ACM dans FactoMineR . . . . . . . . . . . . . . . . . . . . .
3 Analyse factorielle de données mixtes 3.1 Données, notations . . . . . . . . . . . 3.2 Représentation des variables . . . . . . 3.3 Représentation des individus . . . . . 3.4 Relations de transition . . . . . . . . . 3.5 Mise en œuvre . . . . . . . . . . . . . 3.6 Exemple : biométrie de six individus . 3.7 AFDM dans FactoMineR . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
4 Pondération des groupes de variables 4.1 Problématique . . . . . . . . . . . . . . . . 4.2 Exemple numérique introductif . . . . . . . 4.3 Pondération des variables en AFM . . . . . 4.4 Application aux six jus d’orange . . . . . . 4.5 Relations avec les analyses partielles . . . . 4.6 Conclusion . . . . . . . . . . . . . . . . . . 4.7 AFM dans FactoMineR (premiers résultats)
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
. . . . . . .
. . . . . . . . . . . .
44 46 46 48 49 50 52 53 53 54 57 59
. . . . . . .
65 66 66 68 69 70 70 73
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
77 77 79 80 84 86 88 89
5 Comparaison de nuages d’individus partiels 5.1 Problématique . . . . . . . . . . . . . . . . . 5.2 Méthode . . . . . . . . . . . . . . . . . . . . . 5.3 Application aux six jus d’orange . . . . . . . 5.4 Aides à l’interprétation . . . . . . . . . . . . . 5.5 Distorsions dans la représentation superposée 5.5.1 Exemple . . . . . . . . . . . . . . . . . 5.5.2 Interprétation géométrique . . . . . . 5.5.3 Approche algébrique . . . . . . . . . . 5.6 Conclusion sur la représentation superposée . 5.7 Nuages partiels de l’AFM dans FactoMineR .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
97 97 100 102 104 106 106 108 110 112 112
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page xi — #5
i
i
Table des matières 6 Facteurs communs 6.1 Problématique . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Mesure de liaison entre une variable et un groupe 6.1.2 Facteur commun à plusieurs groupes de variables 6.1.3 Retour sur les six jus d’orange . . . . . . . . . . 6.1.4 Analyse canonique . . . . . . . . . . . . . . . . . 6.2 Liaison entre variable et groupe de variables . . . . . . . 6.3 Recherche de facteurs communs . . . . . . . . . . . . . . 6.4 Recherche de variables canoniques . . . . . . . . . . . . 6.5 Aides à l’interprétation . . . . . . . . . . . . . . . . . . . 6.5.1 Mesure de liaison Lg . . . . . . . . . . . . . . . . 6.5.2 Coefficients de corrélation canoniques . . . . . .
xi
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
115 115 116 117 117 119 119 121 122 123 123 123
7 Comparaison des groupes de variables 7.1 Nuage NJ des groupes de variables . . . . . . . . . . . . . . 7.2 Produit scalaire, liaison entre groupes de variables . . . . . 7.3 Norme dans l’espace des groupes de variables . . . . . . . . 7.4 Représentation approchée du nuage NJ . . . . . . . . . . . 7.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . 7.4.2 Critère . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5 Aides à l’interprétation . . . . . . . . . . . . . . . . . . . . . 7.6 Modèle Indscal . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.2 Estimation des paramètres et propriétés . . . . . . . 7.6.3 Exemple d’application du modèle Indscal via l’AFM 7.6.4 Dix vins blancs de Touraine . . . . . . . . . . . . . . 7.7 AFM dans FactoMineR (groupes) . . . . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
125 125 127 129 130 130 132 133 134 135 136 138 141 146
8 Groupes qualitatifs et mixtes 8.1 ACM pondérée . . . . . . . . . . . . . . . . . . . . . . . . . 8.1.1 Nuage des modalités en ACM pondérée . . . . . . . 8.1.2 Relations de transition en ACM pondérée . . . . . . 8.2 AFM de variables qualitatives . . . . . . . . . . . . . . . . . 8.2.1 Point de vue de l’analyse factorielle . . . . . . . . . . 8.2.2 Point de vue de l’analyse multicanonique . . . . . . 8.2.3 Représentation des individus partiels . . . . . . . . . 8.2.4 Représentation des modalités partielles . . . . . . . . 2 8.2.5 Analyse dans l’espace des groupes de variables (RI ) 8.3 Cas des données mixtes . . . . . . . . . . . . . . . . . . . . 8.3.1 Pondération des variables . . . . . . . . . . . . . . . 8.3.2 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . 8.4 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.4.1 Analyses séparées . . . . . . . . . . . . . . . . . . . . 8.4.2 Inerties dans l’analyse globale . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
149 149 150 151 151 151 153 154 155 155 157 157 158 160 161 162
. . . . . . . . . . .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page xii — #6
i
xii
i
Analyse factorielle multiple avec R
8.5
8.4.3 8.4.4 8.4.5 8.4.6 8.4.7 8.4.8 AFM
Coordonnées des facteurs des analyses séparées Premier facteur . . . . . . . . . . . . . . . . . . Deuxième facteur . . . . . . . . . . . . . . . . . Troisième facteur . . . . . . . . . . . . . . . . . Représentation des groupes de variables . . . . Conclusion . . . . . . . . . . . . . . . . . . . . de données mixtes dans FactoMineR . . . . . . .
9 AFM et Statis 9.1 Notations . . . . . . . . . . . . . . . . . . . 9.2 Principes communs aux deux méthodes . . 9.3 Pondération des variables . . . . . . . . . . 9.3.1 Comparaison des deux méthodes . . 9.3.2 Illustration . . . . . . . . . . . . . . 9.4 Représentations superposées . . . . . . . . . 9.4.1 Comparaison des deux méthodes . . 9.4.2 Illustration à l’aide des données 26−3 9.5 Mesure de liaison entre groupes de variables 9.5.1 Comparaison des deux méthodes . . 9.6 Représentation des groupes de variables . . 9.6.1 Comparaison des deux méthodes . . 9.6.2 Illustration à l’aide des données 26−3 9.7 Conclusion . . . . . . . . . . . . . . . . . . 9.8 Statis dans ade4 . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
163 164 166 167 168 169 170
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
. . . . . . . . . . . . . . .
175 175 176 176 176 177 180 180 181 183 183 185 185 186 189 190
10 AFM et analyse procustéenne 10.1 Analyse procustéenne . . . . . . . . . . . . . . 10.1.1 Données, notations . . . . . . . . . . . . 10.1.2 Objectifs . . . . . . . . . . . . . . . . . 10.1.3 Méthodes et variantes . . . . . . . . . . 10.2 Comparaison entre les deux méthodes . . . . . 10.2.1 Représentation des NIj . . . . . . . . . . 10.2.2 Nuage moyen . . . . . . . . . . . . . . . 10.2.3 Objectif, critère, algorithme . . . . . . . 10.2.4 Propriétés des représentations des NIj . 10.2.5 Premier bilan . . . . . . . . . . . . . . . 10.2.6 Harmonisation de l’inertie des NIj . . . 10.2.7 Relations entre les facteurs homologues 10.2.8 Représentation des individus . . . . . . 10.2.9 Aides à l’interprétation . . . . . . . . . 10.2.10 Représentation des variables . . . . . . . 10.3 Etude d’un jeu de données choisies (23−1 ) . . . 10.3.1 Données 23−1 . . . . . . . . . . . . . . . 10.3.2 Résultats de l’AFM . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
193 193 193 194 195 196 196 197 198 199 199 200 200 201 202 203 203 203 205
. . . . . . . . . . . . . . .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page xiii — #7
i
i
Table des matières 10.3.3 Résultats de l’APG . . . . . . 10.4 Application aux dix vins de Touraine 10.5 Conclusion . . . . . . . . . . . . . . 10.6 APG dans FactoMineR . . . . . . .
. . . .
. . . .
. . . .
207 209 212 212
11 Analyse factorielle multiple hiérarchique 11.1 Données, exemples . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Hiérarchie et partitions . . . . . . . . . . . . . . . . . . . . . . . 11.3 Pondération des variables . . . . . . . . . . . . . . . . . . . . . 11.4 Représentation des individus partiels . . . . . . . . . . . . . . . 11.4.1 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4.2 Application aux six jus d’orange . . . . . . . . . . . . . 11.5 Coefficients de corrélation canoniques . . . . . . . . . . . . . . 11.6 Représentation des nœuds . . . . . . . . . . . . . . . . . . . . . R catégorisé . . . 11.7 Application à des données mixtes : le napping 11.7.1 Données et méthodologie . . . . . . . . . . . . . . . . . 11.7.2 Analyse intermédiaire : AFM sur une nappe catégorisée 11.7.3 Décompositions de l’inertie . . . . . . . . . . . . . . . . 11.7.4 Représentations des individus, moyens et partiels . . . . 11.8 AFMH dans FactoMineR . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . .
. . . . . . . . . . . . . .
215 215 217 218 219 219 221 223 223 225 225 227 228 229 234
A Calcul matriciel et espace euclidien A.1 Fiche 1 : éléments de calcul matriciel . . . . . . . . . . . A.2 Fiche 2 : espace vectoriel euclidien . . . . . . . . . . . . A.2.1 Espace vectoriel muni de la distance usuelle . . . A.2.2 Espace euclidien muni d’une métrique diagonale A.2.3 Visualisation d’un nuage . . . . . . . . . . . . . .
. . . . .
. . . . .
241 241 245 245 247 248
Bibliographie
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . . .
. . . .
. . . . .
. . . .
xiii
. . . . .
. . . . .
253
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page xiv — #8
i
i
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 1 — #9
i
i
Chapitre 1
Analyse en composantes principales L’analyse en composantes principales est la plus répandue des méthodes factorielles. Elle s’applique à un tableau dans lequel un ensemble d’individus (statistiques) est décrit par un ensemble de variables quantitatives. Le présent chapitre décrit de façon détaillée cette méthode, tant dans son principe que dans son application. C’est l’occasion d’introduire bon nombre de concepts qui seront utilisés lors de l’analyse de tableaux multiples, mais qui valent pour des tableaux simples. Cela permettra, dans la présentation de l’analyse factorielle multiple, de faire apparaître ses spécificités sans ambiguïtés.
1.1
Données, notations
On étudie un tableau ayant les caractéristiques décrites ci-après : – chaque ligne représente un individu statistique ; on note I le nombre d’individus ; I désigne aussi l’ensemble des individus ; l’utilisation d’une même lettre, pour désigner un ensemble et son cardinal, n’est pas gênante car le contexte permet toujours de lever l’ambigüité ; – chaque colonne représente une variable quantitative ; on note K le nombre de variables (ainsi que l’ensemble des variables) ; – à l’intersection de la ligne i et de la colonne k, se trouve xik , valeur (numérique) de l’individu i pour la variable k. Ajoutons deux notations classiques. x ¯k : moyenne de la variable k ; elle sera peu utilisée car les variables seront supposées centrées, mais il est quelquefois utile de faire apparaître explicitement le centrage ; sk : l’écart-type de la variable k. Ces notations sont regroupées dans la figure 1.1.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 2 — #10
i
2
i
Analyse factorielle multiple avec R
1
Variables quantitatives k K
1
Individus i
I Moyennes Ecarts−types
xik
xk sk
Fig. 1.1 – Structure des données et notations. Les exemples de données susceptibles d’être analysées par ACP sont innombrables. Dans ce qui suit, nous utiliserons un exemple scolaire, riche et facile à comprendre. On dispose, pour 909 élèves de terminale scientifique (I = 909), de leurs notes au bac dans 5 matières (K = 5) : mathématiques, physique, sciences naturelles, histoire-géographie et philosophie.
1.2
Pourquoi analyser un tableau par ACP ?
Reprenons l’exemple précité. Après avoir examiné les moyennes, à un niveau très général, l’objet de l’étude statistique de ce tableau est d’étudier la diversité des élèves « intramatière » et « intermatières ». Cette diversité doit d’abord être examinée par matière, à l’aide d’indicateurs (principalement les écarts-types) et de graphiques (principalement boîtes à moustaches et histogrammes). Le recours à l’analyse en composantes principales est motivé principalement par deux objectifs. – On considère chaque élève non pas du point de vue de telle ou telle note particulière, mais de celui de l’ensemble de ses notes, ce que l’on appelle son « profil scolaire ». Cela conduit à étudier la diversité de ces profils (dans leur ensemble et non pas note par note). En ACP, cette diversité des profils est étudiée en mettant en évidence leurs principales dimensions de variabilité. Ainsi, dans l’exemple, on peut s’attendre à ce que la principale dimension de variabilité oppose les bons élèves (i.e. qui ont de bonnes notes dans toutes les matières) aux mauvais (i.e. qui ont de mauvaises notes dans toutes les matières). – On s’intéresse aux liaisons entre les variables. En ACP, on ne considère que les liaisons linéaires ; l’intensité de ce type de liaison entre deux variables est mesurée, comme usuellement, par le coefficient de corrélation. En outre, ces liaisons sont étudiées à l’aide de variables synthétiques (dites composantes principales), combinaisons linéaires de variables initiales liées le plus possible (en un sens à préciser) à ces variables initiales. Idéalement, chaque variable synthétique est étroitement corrélée à un groupe de variables et non corrélée aux autres, mettant ainsi en évidence des groupes de variables (corrélées « intragroupe » et non
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 3 — #11
i
i
Chapitre 1. Analyse en composantes principales
3
corrélées « intergroupes »). Nous verrons que ces variables synthétiques coïncident (en un sens à préciser) avec les dimensions de variabilité du point de vue précédent. Ce qui (dé)montre que les deux objectifs évoqués sont étroitement liés, voire deux aspects d’un même questionnement. Cela peut être illustré dans le cadre de l’exemple : dire que la principale dimension de variabilité oppose les bons et les mauvais élèves (optique étude des individus via leur profil scolaire) est équivalent à dire que toutes les variables (i.e. les notes) sont corrélées positivement deux à deux (optique liaisons entre variables). Cette idée peut, après tout, paraître évidente : les lignes, d’une part, et les colonnes, d’autre part, d’un tableau sont nécessairement deux faces d’une même réalité (i.e. le tableau lui-même). D’où le terme de dualité (i.e. caractère double) souvent utilisé pour désigner cette liaison entre les deux objectifs d’une part, et entre les résultats de l’ACP les concernant d’autre part. Elle n’en est pas moins fondamentale : elle aide à mieux comprendre ce que nous cherchons ; elle montre aussi l’adéquation de l’ACP avec une problématique très générale, à savoir analyser un tableau. Remarquons au passage que l’on retrouve cette dualité (des problématiques et des résultats) dans toutes les analyses factorielles (en particulier celles étudiées dans ce livre soit l’ACP, l’ACM, l’AFDM, l’AFM et l’AFMH), ce qui explique le caractère incontournable de la méthodologie factorielle dans l’analyse statistique d’un tableau.
1.3
Nuages des individus et des variables
Nuage NI des individus Variables quantitatives 1
1
k
d2(i, l )
K
Mi
GI i
x ik
O I GI
NI
Ml
ℝK
xk
xik
k
xk
Fig. 1.2 – Le nuage des individus. A l’individu i, on associe son profil soit {xik ; k = 1, K}. A ce profil, correspond le point Mi dans l’espace RK dont chaque dimension représente une variable (cf. figure 1.2). RK est dit « espace des individus ». L’ensemble I des points i constitue un nuage noté NI . En outre, à chaque individu est associé le poids pi tel que
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 4 — #12
i
4
i
Analyse factorielle multiple avec R pi = 1 (généralement pi = I1 ). Le centre de gravité du nuage NI , noté GI et dit aussi « point moyen », a pour coordonnées {¯ xk ; k = 1, K}. Lorsque les variables sont centrées, ce qui est toujours le cas en ACP, l’origine des axes dans RK est placée en GI (des compléments sur le centrage sont donnés en 1.4). Dans le nuage NI , le carré de la distance entre deux individus i et l s’écrit : X d2 (i, l) = (xik − xlk )2 .
P
i
k
Cette quantité mesure la disparité entre les profils des individus i et l. Etudier la variabilité des individus revient à étudier ces distances, dont l’ensemble constitue la forme du nuage NI . Cette variabilité peut aussi être appréhendée par les distances entre chaque point Mi et le point moyen GI , soit, pour l’individu i : X d2 (i, GI ) = (xik − x ¯k )2 . k
Cette distance mesure la particularité de l’individu i. L’ensemble de ces particularités individuelles constitue la variabilité globale des données. Pour mesurer cette variabilité globale, on agrège les carrés des distances au point moyen pour obtenir l’inertie totale de NI (par rapport à GI ). Soit : Inertie totale de NI /GI =
X
pi d2 (i, GI ) =
i
XX k
pi (xik − x ¯k )2 =
i
X
V ar[k].
k
Cette inertie totale est égale à la somme des K variances, notées V ar[k], soit, lorsque les variables sont réduites, au nombre de variables. Ce qui montre, de façon flagrante dans le cas centré réduit et aussi dans le cas général, que, en ACP, ce n’est pas l’inertie totale qui est intéressante mais la façon dont elle est répartie. On retrouvera cette propriété en ACM et en AFM. On obtient la même inertie totale en agrégeant les carrés des distances interindividuelles, point de vue adopté au début de cette section. La variance de la variable k en fonction des écarts entre individus s’écrit : V ar[k] =
1 XX pi pl (xik − xlk )2 . 2 i l
On obtient, en combinant les deux équations précédentes : Inertie totale de NI /GI =
X 1X 1X pi pl (xik − xlk )2 = pi pl d2 (i, l), 2 2 i,l
k
i,l
ce qui montre que l’inertie de NI représente la variabilité des individus à la fois du point de vue de leur écart au centre de gravité et du point de vue des distances interindividuelles.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 5 — #13
i
i
Chapitre 1. Analyse en composantes principales
5
Nuage NK des variables A la variable k, on associe ses valeurs pour l’ensemble des individus étudiés soit : {xik ; i = 1, I}. Cet ensemble correspond au point Mk (et au vecteur vk ) de l’espace RI dont chaque dimension correspond à un individu. RI est dit « espace des variables » ou, plus généralement, « espace des fonctions sur I » (une fonction sur I associe une valeur numérique à chaque individu i). L’ensemble des points Mk constitue le nuage des variables noté NK (figure 1.3).
Mk
ℝI
ℝI
NK
Mj
Mj θ
O
θ
kj
xik
O
i
A
Mk
kj
NK
xik
1
i
B
Fig. 1.3 – Le nuage des variables. A : données centrées ; B : données centrées et réduites. θkj est l’angle formé par les deux vecteurs représentant les variables k et −−−→ −−−→ j (OMk et OMj ). Lorsque les variables sont centrées, c’est-à-dire toujours en ACP, cet espace possède deux propriétés remarquables : – le cosinus de l’angle θkj formé par les deux variables k et j est égal à leur coefficient de corrélation. Cette interprétation géométrique du coefficient de corrélation justifie l’intérêt de cet espace dans l’étude des liaisons entre variables. Elle explique aussi que l’on y représente la variable k par le vecteur reliant l’origine au point Mk ; – la distance entre Mk et O est égale à la variance de la variable k. Interpréter une variance comme un carré de longueur est très précieux en statistique. Cas particulier important : une variable centrée réduite a pour longueur 1 ; le nuage NK est alors situé sur une hypersphère (de rayon 1). Pour obtenir ces deux propriétés, il est nécessaire, dans le calcul d’une distance dans RI , d’accorder à chaque dimension i le poids pi de l’individu correspondant. Ainsi, on a bien : X d2 (O, Mk ) = pi (xik − x ¯k )2 = V ar[k]. i
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 6 — #14
i
6
i
Analyse factorielle multiple avec R Cette façon de calculer la distance (on dit aussi métrique) dans RI est donc liée aux poids des individus. On dit que les poids sur les individus induisent une métrique dans l’espace des fonctions sur I. Pour en avoir l’intuition, on considère l’équivalence entre, d’une part, deux individus rigoureusement identiques de même poids p et, d’autre part, un seul de ces deux individus avec le poids 2p. Usuellement, on range les poids pi sur la diagonale d’une matrice notée D de taille (I, I), les termes extradiagonaux étant nuls. La matrice D est diagonale, d’où le terme de « métrique diagonale ». La métrique ainsi définie est euclidienne (i.e. elle est associée à un produit scalaire). On a donc, en notant < v, w >D le produit scalaire dans RI entre les vecteurs v et w (la lettre D rappelle l’utilisation des poids pi ) : X −−−→ −−−→ < OMk , OMj >D = pi (xik − x ¯k )(xij − x ¯j ) = Covariance(k, j). i
Cela montre bien que c’est le centrage qui permet d’interpréter ce produit scalaire comme une covariance. Si, en outre, les variables sont réduites, ce produit scalaire −−−→ −−−→ est alors égal au cosinus de l’angle θkj entre OMk et OMj , et s’interprète comme le coefficient de corrélation. Les relations ci-dessus s’écrivent, en notant v 0 le vecteur transposé de v et vk la k e colonne de X : d2 (O, Mk ) = ||vk ||2D = vk0 Dvk . L’inertie totale du nuage NK dans RI par rapport à l’origine O est simple à calculer, les variables ayant toutes le poids 1 X X Inertie(NK /O) = 1 d2 (O, Mk ) = V ar(k). k
k
On retrouve l’inertie totale du nuage NI dans RK , égale au nombre K de variables dans le cas centré réduit. Cette propriété très importante participe à la dualité entre lignes et colonnes du tableau. Analyser la diversité des profils des individus (le nuage NI ) ou les corrélations entre variables (le nuage NK ) revient à examiner des nuages de même inertie, propriété induite par le fait que les points de l’un sont homologues des dimensions de l’espace dans lequel évolue l’autre.
1.4
Centrage et réduction
En ACP, les données sont toujours centrées, ce que l’on note par : xik ← xik − x ¯k , où xik désigne donc le terme général du tableau analysé. Dans l’espace RK , le centrage s’interprète géométriquement comme le positionnement de l’origine des axes au point moyen GI : cette opération ne modifie pas
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 7 — #15
i
Chapitre 1. Analyse en composantes principales
i
7
la forme du nuage étudié NI . Dans l’espace RI , le centrage s’interprète comme la projection de NK sur le sous-espace orthogonal à la première bissectrice (nous appelons première bissectrice la droite contenant les fonctions constantes). Esquissons la démonstration de ce second résultat, très utilisé en statistique. Soit 1 le vecteur de RI (appartenant à la première bissectrice) dont toutes les composantes valent 1. Avec la métrique D, ce vecteur est unitaire. Soit 1⊥ le sous-espace de RI , supplémentaire orthogonal de 1. Un vecteur v (de moyenne v¯) de RI peut être décomposé en sa projection sur 1 (notée P1 (v)) et celle sur 1⊥ (notée P1⊥ (v)). Il en résulte : P1⊥ (v) = v − P1 (v). Il est facile de montrer que P1 (v) est le vecteur constant dont chaque composante vaut v¯. La quantité à droite du signe = est donc la variable v centrée. Ainsi, en ACP, le nuage NK évolue dans 1⊥ , sous-espace de dimension I − 1. Lorsque les variables ne s’expriment pas dans les mêmes unités de mesure, il est nécessaire de réduire les données, soit : xik ←
xik − x ¯k . sk
L’ACP est alors dite normée. Sinon, l’opportunité de la réduction doit être discutée au cas par cas. En pratique, sauf justification particulière, l’utilisateur réduit les données car, nous le verrons, cela équilibre l’influence a priori de chaque variable. Dans l’espace des individus, la réduction s’interprète géométriquement comme prendre l’écart-type sk comme unité de mesure pour la variable k. Dans l’espace des variables, cela revient à représenter la variable k par le vecteur unitaire de la direction reliant O à Mk . Le nuage NK est alors situé sur une hypersphère de rayon 1(cf. figure 1.3 B).
1.5
Ajustement des nuages NI et NK
Si l’on pouvait visualiser parfaitement les nuages NI et NK , comme on peut le faire dans le cas de deux dimensions, nous aurions la réponse à la plupart de nos questions : l’examen de NI montrerait la variabilité multidimensionnelle des individus ; celui de NK montrerait les corrélations entre toutes les variables prises deux à deux. Mais, dès que l’on dépasse la dimension 3, la forme de ces nuages est à jamais inaccessible à nos sens. L’objet des méthodes factorielles en général, et dans le cas présent de l’ACP, est de donner une image approchée, dans un espace de faible dimension, d’un nuage de points évoluant initialement dans un espace de grande dimension. Cette problématique est souvent appelée « réduction de dimension ». Nous utilisons plutôt le terme « ajustement », couramment utilisé en statistique.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 8 — #16
i
8
i
Analyse factorielle multiple avec R
1.5.1
Principe général et formalisation des critères
En analyse factorielle, l’ajustement d’un nuage consiste à le projeter sur une suite d’axes orthogonaux d’inertie maximum. Ajustement de NI dans RK En notant us un vecteur unitaire de l’axe de rang s (dans RK ) et His la projection du point Mi sur us , le critère satisfait par us est : X pi (OHis )2 maximum i
avec la contrainte d’être orthogonal aux s − 1 directions déjà trouvées, soit : us ⊥ut pour t < s. On cherche donc d’abord u1 , direction d’inertie maximum, puis u2 , direction d’inertie maximum orthogonale à u1 , et ainsi de suite. Les axes us sont considérés deux par deux pour constituer les plans factoriels, en particulier le premier d’entre eux (u1 , u2 ). La figure 1.4 illustre cet ajustement. Hi1 (resp. Hi2 ) est la projection de Mi sur u1 (resp. u2 ), axe de rang 1 (resp. 2). En combinant les deux coordonnées de ces projections, on obtient la projection, notée Hi1,2 , de Mi sur le plan P1,2 engendré par u1 et u2 .
Mi
ℝK
u1 P1,2
H i1
H
1,2 i
O = GI
H i2
u2
Fig. 1.4 – Ajustement des individus i dans RK . Formalisation matricielle : on note X, de dimension (I, K), le tableau des données. ||OHis || s’obtient par le produit scalaire entre us et le vecteur des données de i, c’est-à-dire la ie ligne de X. Ces projections (plus exactement leurs coordonnées) sont rangées dans le vecteur Fs , de dimension I. Soit : Fs = Xus . Cette écriture fait bien apparaître que Fs est une combinaison linéaire des variables initiales, le vecteur us contenant les coefficients de cette combinaison.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 9 — #17
i
Chapitre 1. Analyse en composantes principales
i
9
Avec les poids pi (rangés dans la matrice diagonale D), le critère (à maximiser) s’écrit : Fs0 DFs = u0s X 0 DXus . On reconnaît, dans X 0 DX, la matrice des corrélations lorsque les variables sont centrées réduites et la matrice des covariances si elles sont simplement centrées. Ajustement de NK dans RI En notant vs un vecteur unitaire de l’axe de rang s (dans RI ) et Hks la projection du point Mk sur vs , le critère satisfait par vs est : X (OHsk )2 maximum k
avec vs ⊥vt pour t < s. Formalisation matricielle : la coordonnée de la projection Hks s’obtient par le produit scalaire entre vs et le vecteur-colonne de X contenant les données de la variable k (vecteur noté ici vk ) 1 . On a, compte tenu de la métrique D : OHks = < vk , vs >D = vk0 Dvs . Les coordonnées des projections Hks sont rangées dans le vecteur Gs de dimension K. Soit : Gs = X 0 Dvs . Le critère s’écrit : G0s Gs = vs0 DXX 0 Dvs . On reconnaît, dans XX 0 , la matrice des produits scalaires entre individus.
1.5.2
Interprétation des critères K
Dans R , du fait du centrage, l’origine est au point moyen du nuage NI . Le critère s’interprète alors comme la variance des projections. Dans cet espace, on recherche donc les dimensions de variance (ou de variabilité) maximum. Cela correspond parfaitement à l’objectif initial de description de la variabilité des individus. Les vecteurs us étant orthogonaux, les variances des projections s’additionnent d’un axe à l’autre. Si l’on effectue cette addition pour tous les axes, on trouve l’inertie totale du nuage NI . La problématique décrite initialement vise à étudier la variabilité des individus, c’est-à-dire cette inertie totale. En opposition avec 1. Par souci d’économie de notation, nous utilisons la même lettre, v, pour désigner une composante principale normée (vs ou vt ) ou une variable initiale (vk ). Il s’agit bien de vecteurs du même espace et les indices, ainsi que le contexte, permettent de lever les ambiguïtés.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 10 — #18
i
10
i
Analyse factorielle multiple avec R
l’analyse variable par variable, la démarche employée est multidimensionnelle en ce sens qu’elle décompose cette même inertie totale en privilégiant les dimensions de RK (i.e. des combinaisons linéaires des variables) qui expriment le plus cette variabilité. Dans RI , l’origine des axes n’est pas au centre de gravité de NK : dans cet espace, le critère ne s’interprète pas de la même manière que dans RK . Lorsque les variables sont centrées réduites, OHks est le cosinus de l’angle entre vs et OMk et s’interprète donc comme le coefficient de corrélation (noté r(k, vs )) entre la variable k et vs . Le critère à maximiser s’écrit donc : X
[r(k, vs )]2 .
k
Ce critère peut s’interpréter comme un indicateur de liaison entre, d’une part, la fonction (sur I) vs et, d’autre part, l’ensemble des K variables initiales (il vaut 0 si vs est non corrélée avec chacune des variables). Il exprime que v1 est la fonction sur I (nous verrons que cette fonction est une combinaison linéaire des variables initiales) la plus liée (au sens de ce critère) aux variables initiales. De même, v2 est la fonction sur I, non corrélée à v1 , la plus liée à K et ainsi de suite. Cela correspond bien à l’objectif initial de recherche de variables synthétiques. Lorsque les variables ne sont pas réduites, OHks est la covariance entre k et vs et le critère peut s’écrire : X
V ar[k][r(k, vs )]2 .
k
Ce qui montre qu’une ACP non normée peut être considérée comme une ACP sur données centrées réduites en accordant à chaque variable un poids égal à sa variance. Ce point de vue est précieux pour décider de réduire ou non lorsque la question se pose.
1.5.3
Solution
Dans l’espace des individus Dans RK , on cherche us qui rend maximum la quantité : Fs0 DFs = u0s X 0 DXus avec les contraintes de norme et d’orthogonalité suivantes : ||us ||2 = u0s us = 1 et
< us , ut > = u0s ut = 0 pour t < s.
On montre que le vecteur us cherché vérifie : X 0 DXus = λs us avec λs = Fs0 DFs = u0s X 0 DXus .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 11 — #19
i
Chapitre 1. Analyse en composantes principales
i
11
Ainsi, us est vecteur propre unitaire associé à la valeur propre λs de X 0 DX, les valeurs propres étant rangées par ordre décroissant (elles sont égales à l’inertie que l’on recherche à rendre maximum). On désigne usuellement par « diagonalisation d’une matrice » la procédure qui calcule l’ensemble des valeurs propres et vecteurs propres d’une matrice. L’ACP repose donc sur la diagonalisation de la matrice des corrélations dans le cas normé et de la matrice des covariances sinon. Une fois le vecteur us obtenu, les coordonnées de la projection des individus sur l’axe de rang s s’obtiennent par : Fs = Xus . Le vecteur Fs , qui contient les coordonnées des individus sur l’axe de rang s, est appelé composante principale de rang s (on dit aussi facteur sur I de rang s). Etant une combinaison linéaire des variables initiales (centrées), Fs est centrée. Il est simple de montrer que la variance de Fs est égale à λs . Enfin, on a : X X λs = trace(X 0 DX) = V ar[k]. s
k
On retrouve bien l’idée de la décomposition de l’inertie totale de NI dans des dimensions privilégiées. Dans l’espace des variables Dans RI , muni de la métrique D, on cherche vs qui rend maximum : vs0 DXX 0 Dvs avec les contraintes de norme et d’orthogonalité suivantes : ||vs ||2D = vs0 Dvs = 1 et
< vs , vt >D = vs0 Dvt = 0 pour t < s.
On montre que le vecteur vs recherché vérifie : XX 0 Dvs = λs vs avec λs = vs0 DXX 0 Dvs . Ainsi, vs est vecteur propre unitaire associé à la valeur propre λs de XX 0 D, les valeurs propres étant rangées par ordre décroissant (elles sont égales à l’inertie que l’on cherche à rendre maximum). Remarquons que vs est une combinaison linéaire des variables initiales (dont nous verrons en 1.5.4 que les coefficients sont dans X 0 Dvs ). On rejoint ici le point de vue de RK mentionné à propos de Fs . Le lien entre Fs et vs sera formalisé en 1.5.4. Une fois les vecteurs vs obtenus, les coordonnées de la projection des variables sur l’axe de rang s s’obtiennent par : Gs = X 0 Dvs .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 12 — #20
i
12
i
Analyse factorielle multiple avec R
Le vecteur Gs , qui contient les coordonnées des variables sur l’axe de rang s, est appelé facteur sur K de rang s.
1.5.4
Relations entre les analyses des deux nuages
De l’équation donnant la solution de l’ajustement dans RK : X 0 DXus = λs us on déduit : XX 0 DXus = λs Xus ou XX 0 DFs = λs Fs . Cela montre deux résultats essentiels : – λs , définie ici comme valeur propre de X 0 DX, est aussi valeur propre de XX 0 D, ce qui justifie a posteriori l’emploi d’une même notation pour les valeurs propres issues des analyses de NI et de NK . Ainsi, l’inertie projetée de NI sur us (dans RK ) est égale à l’inertie projetée de NK sur vs (dans RI ). On avait déjà vu que ces deux nuages avaient la même inertie totale, propriété que nous avions rangée sous le terme de dualité. La dualité est ici considérablement enrichie ; – en conservant tous les vecteurs propres, la diagonalisation de XX 0 D fournit une représentation parfaite du nuage des individus (dans ses axes principaux et non dans le repère des variables initiales). Cette matrice contient donc toute l’information quant à la forme du nuage des individus et, en ce sens, peut le représenter. Cette propriété est utilisée pour comparer des nuages de points représentant les mêmes individus dans des espaces différents : en effet, les matrices XX 0 D des différents nuages ont les mêmes dimensions et sont comparables entre elles. Le vecteur Fs est, comme vs , vecteur propre de XX 0 D associé à la valeur propre de rang s. La différence entre les deux est que vs est normée (vs est dite « composante principale normée »), soit : 1 1 vs = √ Fs = √ Xus . λs λs Cette relation montre que la direction u1 de RK , qui exprime le mieux la variabilité de NI , correspond à la « meilleure » variable synthétique v1 (en tant qu’élément de RI ). On retrouve ici, dans les résultats de l’ACP, la dualité intrinsèque aux objectifs. Si une direction (us ) de RK exprime beaucoup d’inertie, la répartition (Fs ) des individus dans cette direction s’apparente à celle de beaucoup de variables (r2 (Fs , k) est élevé pour plusieurs k) et Fs peut être considérée comme une variable synthétique. On peut reprendre ce raisonnement en permutant les rôles joués par les lignes et les colonnes. Pour cela, on regroupe les coordonnées des variables sur vs dans le vecteur Gs (de dimension K) soit (cf. fin de 1.5.3) :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 13 — #21
i
Chapitre 1. Analyse en composantes principales
i
13
Gs = X 0 Dvs . En exprimant vs en fonction de us et en utilisant le fait que us est vecteur propre de X 0 DX associé à la valeur propre λs , on obtient : p 1 Gs = √ X 0 DXus = λs us . λs Cette relation montre que, à un coefficient près, les coordonnées des variables sur vs (dans RK ) sont les coefficients de la combinaison linéaire des variables qui définit us (dans RI ). Elle est capitale dans l’interprétation des axes. En effet, on peut songer à deux voies pour interpréter une combinaison linéaire des variables : – les coefficients qui définissent la combinaison ; – les variables initiales auxquelles cette combinaison est liée. Il apparaît ici que ces deux voies reviennent au même. Les relations reliant d’une part Fs et vs , et d’autre part Gs et us font partie des relations de dualité déjà mentionnées (dont elles constituent les éléments les plus remarquables) : la projection de NI d’une part et de NK d’autre part sont les deux faces d’une même analyse. On peut les résumer en disant que les axes d’un espace sont les facteurs de l’autre. On peut aussi relier les facteurs entre eux. En exprimant Gs en fonction de Fs , on obtient : 1 Gs = √ X 0 DFs . λs Pour la k e coordonnée, cette équation s’écrit : 1 X pi xik Fs (i). Gs (k) = √ λs i On retrouve, dans le cas de l’ACP normée, l’interprétation de la coordonnée de la variable k (sur vs ) en tant que coefficient de corrélation entre elle-même et Fs . En exprimant Fs en fonction de Gs , on obtient : 1 Fs = √ XGs . λs Pour la ie ligne, cette équation s’écrit : 1 X Fs (i) = √ xik Gs (k). λs k Le long de l’axe de rang s, un individu a une coordonnée d’autant plus élevée qu’il a de fortes valeurs pour les variables corrélées positivement à Fs et de faibles valeurs pour les variables corrélées négativement à Fs (le « et » est en gras car cette seconde partie est souvent ignorée des utilisateurs). Cette propriété est très utilisée, souvent implicitement, dans l’interprétation des plans factoriels. Sous cette
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 14 — #22
i
14
i
Analyse factorielle multiple avec R
forme, ces relations de dualité sont dites « relations de transition » (sous-entendu d’un espace dans l’autre), terminologie introduite initialement dans le cadre de l’analyse des correspondances.
1.5.5
Représentation des variables
En ACP normée, la représentation « universellement » adoptée est celle du cercle des corrélations, dans laquelle la coordonnée de la variable k sur l’axe de rang s est le coefficient de corrélation entre cette variable et la composante principale Fs (figure 1.5). En ACP normée, cette représentation coïncide avec la projection du nuage NK . F2
r(k, F2)
Variable k
v4 r(k, F ) 1 v3
v1
F1
v2
Fig. 1.5 – Cercle des corrélations. r : coefficient de corrélation. Cette représentation permet d’identifier rapidement quelles sont les variables les plus étroitement corrélées, positivement ou négativement, avec chaque axe. Lorsqu’une variable présente ses deux coordonnées voisines de 0 (i.e. lorsqu’elle est proche de l’origine), elle est orthogonale au plan factoriel. Des compléments sur cette représentation sont donnés en 1.6.3. En ACP non normée, le cercle des corrélations et la projection de NK ne coïncident pas puisque, dans ce second cas, la projection, sur un axe, d’une variable s’interprète comme une covariance. L’analyse est donc ( un peu) plus compliquée. On peut songer enfin, aussi bien en ACP normée que non normée, représenter la variable k sur l’axe s par son coefficient dans la combinaison linéaire définissant l’axe s, i.e. la k e composante de us . La section précédente montre que cette représentation est homothétique axe par axe à la projection de NK avec le coefficient √ 1/ λs . Or, la k e composante de us est égale à la projection (sur us ) du vecteur unitaire représentant la variable k dans RK . D’où l’idée de superposer cette représentation à celle des individus que l’on complète ainsi par une projection, sur le même sousespace, des vecteurs de base (de RK ). En pratique, cette représentation souffre de l’inconvénient majeur de ne pas pouvoir intégrer de variables supplémentaires.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 15 — #23
i
Chapitre 1. Analyse en composantes principales
1.5.6
i
15
Nombre d’axes
Dans RK , on peut trouver au maximum K axes orthogonaux. Par ailleurs, pour représenter parfaitement un ensemble de I points, au maximum I −1 axes (l’origine est en GI ) sont nécessaires. Le nombre d’axes (d’inertie non nulle) maximum est donc : min{I − 1, K}. Dans RI , les variables, étant centrées, sont dans un espace de dimension I − 1 (dans lequel on peut trouver au maximum I − 1 axes orthogonaux). Par ailleurs, les K variables engendrent un sous-espace dont la dimension est au maximum K. Ici encore, le nombre maximum d’axes d’inertie non nulle est donc min{I − 1, K}.
1.6 1.6.1
Aides à l’interprétation Pourcentage d’inertie associé à un axe
En rapportant l’inertie projetée du nuage NI (ou du nuage NK ) sur l’axe de rang s (λs ) à l’inertie totale (égale à K en ACP normée), on obtient le pourcentage d’inertie associé à un axe ; ce pourcentage est utilisé pour mesurer : – la qualité de la représentation des nuages (NI ou NK ) par l’axe de rang s ; – l’importance relative de l’axe s (comparée aux autres axes). Le pourcentage d’inertie ne mesure pas l’intérêt d’un axe pour l’utilisateur. D’abord parce qu’il doit être mis en regard du nombre maximum possible d’axes d’inertie non nulle. Ainsi, par exemple, un pourcentage de 70 % ne sera pas regardé du même œil s’il provient de l’analyse d’un tableau de dimension (5, 4) ou de dimension (50, 40). Concrètement, en ACP normée, le pourcentage d’inertie d’un axe peut être comparé à ce qu’il serait en cas d’absence de structure dans les données (nuage des individus de forme sphérique, i.e. sans direction d’allongement privilégiée ou, ce qui revient au même, variables non corrélées deux à deux), soit 100/K, ce qui correspond à une valeur propre de 1. Ce raisonnement incite à être très circonspect en face d’un axe associé à une valeur propre inférieure à 1, qui représente donc moins de variabilité qu’une seule variable initiale. Dans ce même esprit, on peut réaliser des simulations de tableaux (de dimensions fixées) à partir de variables indépendantes. On obtient ainsi une distribution de la première valeur propre dans laquelle on peut situer une première valeur propre observée. On applique alors une démarche de test (unilatéral) usuelle avec l’hypothèse H0 suivante : les données sont issues d’un processus dans lequel les variables sont indépendantes. Concrètement, des tables ont été établies pour donner le quantile à 95 % des distributions de la première valeur propre pour différentes valeurs de I et de K. Même si, dans un cas donné, cette hypothèse est difficile à concevoir, la valeur fournie par une telle table est toujours utile au moins à titre indicatif. Les pourcentages d’inertie s’additionnent d’un axe à l’autre. En effectuant par exemple cette addition pour les deux premiers axes, on mesure : – la qualité de représentation des nuages (NI ou NK ) par le premier plan ;
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 16 — #24
i
16
i
Analyse factorielle multiple avec R
– l’importance relative du premier plan (comparé à d’autres plans, ou à des axes considérés seuls).
1.6.2
Contribution d’un point à l’inertie d’un axe
Cas d’un individu Dans la quantité maximisée (inertie projetée de NI ), on peut individualiser la part de chaque individu, appelée contribution. Elle est généralement exprimée en pourcentage (de l’inertie totale) soit, pour l’individu i et l’axe de rang s : Contribution(i, s) =
pi (OHis )2 inertie projetée du point i sur s = . inertie projetée de NI sur s λs
La notion de contribution est importante pour distinguer des situations spécifiques dans lesquelles un axe n’est dû principalement qu’à un très petit nombre d’individus, voire un seul. Cela étant, dans cette optique, lorsque les individus ont le même poids, une inspection visuelle de la représentation des individus sur les plans factoriels suffit. La mesure de la contribution n’est donc véritablement utile que lorsque les poids des individus sont différents. Cas d’une variable Dans le cas centré réduit, la contribution « brute » (i.e. non exprimée en pourcentage de l’inertie totale) d’une variable k à l’inertie de l’axe de rang s est égale au carré de son coefficient de corrélation avec la composante principale Fs et se lit donc (au carré près) directement sur le cercle des corrélations. Ce n’est pas le cas en ACP non normée puisque la contribution brute est alors une covariance. Dans ce cas, les deux types de graphiques (projection de NK et cercle des corrélations) sont nécessaires pour interpréter. C’est là, l’une des raisons pour lesquelles l’ACP non normée est considérée comme (un peu) plus compliquée à interpréter que l’ACP normée. Pour un axe donné, les contributions peuvent s’additionner pour faire apparaître la contribution d’un sous-ensemble d’individus ou d’un sous-ensemble de variables.
1.6.3
Qualité de représentation d’un point par un axe
On peut appliquer à un point (individu i ou variable k) le pourcentage d’inertie introduit en 1.6.1 à propos d’un nuage. On mesure ainsi la qualité de représentation (de l’inertie) d’un point par un axe. Soit, pour l’individu i et l’axe de rang s (cf. figure 1.4) : Qlt(i, s) =
−−→ inertie projetée du point i sur us (OHis )2 = = cos2 (OMi , us ). 2 inertie totale de i (OMi )
Pour un même point, cet indicateur s’additionne sur plusieurs axes (comme les pourcentages d’inertie), ce qui permet de mesurer, par exemple, la qualité de représentation d’un point par un plan.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 17 — #25
i
Chapitre 1. Analyse en composantes principales
i
17
Dans le cas de la variable k (que l’ACP soit normée ou non), cet indicateur se confond avec le carré du coefficient de corrélation entre k et la composante principale de rang s (déjà noté r(k, Fs )). Dans la représentation dite du « cercle des corrélations », la qualité de représentation d’une variable par le plan s’évalue visuellement par la distance entre le point représentant la variable (généralement l’extrémité d’une flèche) et le bord du cercle des corrélations. Il n’est donc pas nécessaire de disposer de tableaux d’indicateurs de qualité de représentation pour les variables. Ainsi, dans la figure 1.5, les variables v1 et v2 sont bien représentées et l’angle qu’elles forment donne une bonne idée de leur coefficient de corrélation (voisin de 1). En revanche, les variables v3 et v4 sont mal représentées et l’on ne peut rien dire de leur proximité sur le graphique. En pratique, pour les individus, cet indicateur est principalement utilisé pour sélectionner quelques individus dans le but d’illustrer un axe : si un individu est bien représenté par l’axe, sa particularité (i.e. son écart au point moyen) se réfère essentiellement à l’axe et il sera facile de relier sa coordonnée sur l’axe à ses données.
1.7
Premier exemple : 909 candidats au bac
Nous commentons ici les résultats de l’ACP normée réalisée sur le tableau déjà mentionné des cinq notes au bac obtenues par 909 étudiants. Le tableau 1.6 donné en fin de chapitre rassemble les données de quelques individus mentionnés dans le texte et sur les graphiques. Par rapport aux fichiers de données, ce tableau est présenté transposé pour bien faire apparaître les libellés des variables.
1.7.1
Inerties projetées
Avec 5 variables et 909 individus, il y a au plus 5 axes factoriels d’inertie non nulle (cf. 1.5.6). La décroissance des valeurs propres (tableau 1.1 et figure 1.6) montre un premier facteur prépondérant. Axe 1 2 3 4 5
Valeur propre 2.4081 0.9130 0.6623 0.6419 0.3747
Pourcentage d’inertie 48.16 18.26 13.25 12.84 7.49
Pourcentage cumulé 48.16 66.42 79.67 92.51 100.00
Tableau 1.1 – Valeurs propres et pourcentages d’inertie associés aux axes. En outre, seule la première valeur propre est supérieure à 1 ; cela incite à ne conserver que le premier axe dans l’interprétation. En fait, nous en conserverons
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 18 — #26
i
18
i
Analyse factorielle multiple avec R
0.0
0.5
1.0
1.5
2.0
plus : c’est là un intérêt de cet exemple qui alimente une réflexion sur la sélection des axes à conserver dans l’interprétation.
F1
F2
F3
F4
F5
Fig. 1.6 – Diagramme des valeurs propres.
1.7.2
Interprétation des axes
Après s’être assuré de l’allure à peu près régulière du nuage des individus sur les plans factoriels (autrement dit, aucun axe n’est dû qu’à un petit nombre d’individus, auquel cas l’interprétation se ferait d’abord en termes d’individus), on peut interpréter à partir du cercle des corrélations (cf. figure 1.7). Le premier axe est un « effet taille » : toutes les variables sont corrélées positivement entre elles et donc avec la première composante principale ; cet axe oppose les élèves ayant obtenu des notes élevées dans toutes les matières (e.g. 264) à des élèves ayant obtenu des notes basses dans toutes les matières (e.g. 863). On peut le nommer « niveau général » (de l’élève). Ou encore « moyenne générale » : si, en effet, on calcule la moyenne générale (sans coefficients) des cinq matières, on observe un coefficient de corrélation égal à .999 entre cette moyenne et la première composante principale ; ce qui achève de valider l’interprétation. Le deuxième axe oppose les matières scientifiques (maths et physique) aux matières littéraires (philosophie et histoire-géographie), soit, de façon duale, les élèves ayant un profil plutôt scientifique, i.e. des notes plus élevées dans les matières scientifiques que dans les matières littéraires (e.g. 850) aux élèves ayant un profil littéraire (e.g. 46). La façon la plus simple d’arriver à cette interprétation est de considérer la coordonnée d’une variable (sur l’axe de rang s) comme son coefficient (au coefficient √ λs près) dans la combinaison linéaire définissant us (cf. 1.5.4) ; soit ici, pour l’axe 2 : u2 = .5 maths + .42 physique − .5 histoire-géographie − .47 philosophie − .14 sciences naturelles que l’on pourra assimiler à : u ˜2 =
1 1 (maths+physique) − (hist-géo+philosophie) 2 2
Ce qui montre bien que les élèves ayant une coordonnée positive pour le deuxième axe n’ont pas une note élevée (dans l’absolu) dans les matières scientifiques, mais
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 19 — #27
i
i
Chapitre 1. Analyse en composantes principales
19
ont une note plus élevée dans les matières scientifiques que dans les matières littéraires (comparer par exemple 253 et 264 : le profil scientifique de 253 provient en partie de sa faible note en philosophie). F2 (18.26%) (18.26%) F2 (18.26%) 850
Maths Physique
F1 (48.16%) 863 557 238
253 638
566
264 807 419
F1 (48.16%)
Sciences naturelles naturelles Sciences Philosophie Histoire−géographie
46
638
F4 (12.84%)
F4 (12.84%) Philosophie
807 46 557 F3 (13.25%)
238 419 264
863 850
566
253
Maths Maths F3 (13.25%) Physique Sciences naturelles
Histoire−géographie
F5 (7.49%) F5 (7.49%) Physique 238
863 F1 (48.16%) 557
566
419 850 46 253638 264
F1 (48.16%)
Sciences naturelles naturellesPhilosophie Sciences Histoire−Géographie
807 Maths
Fig. 1.7 – Représentation des individus et des variables sur trois plans factoriels. Quelques individus sont représentés par leur numéro d’ordre dans le fichier. Si l’on calcule la combinaison linéaire des variables définies par u ˜2 , on obtient une nouvelle variable dont le coefficient de corrélation avec la deuxième composante principale (F2 ) vaut 0.963 ; ce qui achève de valider l’interprétation. La troisième composante principale est essentiellement corrélée à la note en sciences naturelles, matière la moins bien représentée sur le premier plan. On pourra nom-
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 20 — #28
i
20
i
Analyse factorielle multiple avec R
mer cet axe : spécificité des sciences naturelles. Il importe de bien différencier cet axe et la variable sciences naturelles elle-même, car on doit raisonner ici à 1er et 2e axe constants. Autrement dit, cet axe oppose les élèves (e.g. 566) qui ont obtenu une note élevée en sciences naturelles (compte tenu de leurs autres notes) à ceux (e.g. 557) qui ont obtenu une note basse dans cette matière (compte tenu, ici encore, de leur autres notes). Ici encore, on peut considérer la combinaison linéaire correspondant au troisième vecteur (dans RK ) u3 : u3 = .72 sciences naturelles − (.13 maths + .14 physique + .29 histoire-géographie + .16 philosophie) Ce que l’on pourra assimiler à : .7 [sciences naturelles - 41 (maths + physique + histoire-géographie + philosophie)] Si l’on applique cette dernière relation aux données, on obtient une nouvelle variable dont le coefficient de corrélation avec F3 vaut .970 ; ce qui achève de valider l’interprétation. Le quatrième axe oppose philosophie à histoire-géographie. Ces deux variables apparaissent très liées sur le premier plan, liaison qui participe à la fois à l’effet taille et à la notion de profil littéraire. On se place ici à niveau général constant et à profil (scientifique vs littéraire) constant et l’on met en évidence un profil plutôt philosophie ou plutôt histoire-géographie. Si l’on calcule la variable philosophie histoire-géographie, on observe un coefficient de corrélation de 0.986 entre cette variable et la quatrième composante principale (F4). A titre d’exemple, pour illustrer cette quatrième composante principale, on pourra comparer les élèves 807 et 253. Le cinquième axe oppose maths et physique et donc des élèves ayant obtenu une note plus élevée en maths qu’en physique (e.g. 238 ou 419) à des élèves ayant la caractéristique inverse (e.g. 557 et 807). Appliqué à cet axe, le même raisonnement tenu pour le quatrième axe conduit à calculer la différence physique-maths ; le coefficient de corrélation entre la variable qui résulte de cette différence et la cinquième composante principale vaut .988.
1.7.3
Remarques méthodologiques
Interprétabilité et pourcentage d’inertie Ainsi, dans cette analyse, tous les axes sont clairement interprétables. Il s’agit donc d’un cas très particulier, qui met bien en évidence deux points importants : – l’ACP peut être vue comme un changement de base (pour examiner la variabilité des individus en commençant par les dimensions de plus grande inertie) ; dans les applications usuelles, on n’utilise que les premiers axes de la nouvelle base, ce qui rend moins flagrant ce point de vue ; – l’interprétabilité d’un axe n’est pas nécessairement associée à une forte inertie. Ici, le cinquième axe est à la fois clair (son interprétation est simple et la position des individus se relie facilement aux données) et marginal (il représente peu de variabilité : les notes en mathématiques et en physique sont corrélées (r = .62) et l’écart entre les deux correspond à peu de variabilité).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 21 — #29
i
Chapitre 1. Analyse en composantes principales
i
21
Deux lectures du cercle des corrélations Dans la représentation des variables, la coordonnée de la variable k le long de l’axe de rang s peut être considérée essentiellement de deux manières (cf. 1.5.4) : – le coefficient de corrélation entre la variable k et la composante principale Fs ; – le coefficient de la variable √ k dans la combinaison linéaire qui définit l’axe us dans RK (au coefficient λs près). Généralement, c’est le premier point de vue qui est privilégié. Dans cet exemple, nous avons largement utilisé le second, bien adapté aux situations dans lesquelles les combinaisons linéaires de variables s’interprètent facilement ; cela nécessite que les variables s’expriment dans les mêmes unités. Remarquons au passage que les combinaisons linéaires présentées plus haut ont été calculées à partir des variables brutes, ce qui rend plus marquantes les interprétations. Pour mieux « coller » à l’ACP, il était possible de les appliquer aux variables centrées réduites, ce qui ne change pas grand-chose dans ces données où l’écart-type varie peu d’une variable à l’autre (en faisant cela, les coefficients de corrélation entre ces combinaisons et les composantes principales augmentent, légèrement, dans quatre cas sur cinq). En pratique, un avantage important du premier point de vue est qu’il s’applique aussi aux variables (quantitatives) supplémentaires (cf. section suivante). Validation de l’interprétation L’analyse des représentations des variables actives a conduit à des interprétations sous la forme de combinaisons de variables initiales. Dès lors, afin de valider ces interprétations, on calcule ces combinaisons, ce qui aboutit à de nouvelles variables que l’on introduit en éléments supplémentaires, technique qui fait l’objet de la section suivante. Cette pratique est très générale : l’interprétation d’un axe suggère souvent de calculer des combinaisons (pas forcément linéaires) de variables, ou d’introduire de nouvelles variables, à fin de validation de l’interprétation. ACP et visualisation synthétique L’ACP est principalement utilisée pour obtenir une visualisation synthétique d’un tableau de données ; on « remplace » les K variables initiales par deux ou trois variables synthétiques (les composantes principales). Selon ce point de vue, on dit que l’on a opéré une réduction de dimension. Or, dans cet exemple, on est tenté de conserver les cinq axes car ils sont tous les cinq clairement interprétables : partant de cinq variables, il n’y a aucune réduction de dimension et, de ce point de vue « comptable », pas de synthèse. Il n’en reste pas moins que même si l’on conserve les cinq axes, l’ACP est plus intéressante (selon nous) à commenter que les variables initiales. Nous laissons le lecteur en juger par lui-même, en attirant son attention sur deux points. A la différence des variables initiales, les composantes principales sont : – hiérarchisées (par ordre de variance décroissante) ; – non corrélées entre elles.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 22 — #30
i
22
1.8
i
Analyse factorielle multiple avec R
Eléments supplémentaires
Un élément, individu ou variable, est dit supplémentaire s’il n’a pas participé à la construction des axes sur lesquels il est représenté. En pratique, la mise en œuvre d’une analyse factorielle comporte presque toujours des éléments supplémentaires, en particulier des variables supplémentaires. Face à un ensemble de variables disponibles, la décision de considérer telle variable comme active ou supplémentaire ne va pas toujours de soi et demande de spécifier précisément les objectifs de l’analyse. Concrètement, le plus simple est de raisonner en termes de profil d’individu, en se demandant quelles variables doivent participer à ce profil. Reprenons l’exemple des 909 élèves de terminale pour lesquelles on dispose en fait : – des notes obtenues au bac pour cinq matières ; – des cinq notes de ces mêmes matières obtenues pendant l’année que nous appelons ici « notes annuelles » ; – du lycée d’inscription, variable qualitative à 23 modalités. La variable « lycée d’inscription », étant qualitative, ne peut pas, de ce fait, être active. De toutes les façons, nous étudions des profils scolaires et, clairement, le lycée d’inscription n’en fait pas partie. Faut-il pour autant éliminer cette variable ? Non, car il sera intéressant de relier les principales dimensions de variabilité des profils scolaires au lycée d’inscription (cf. section suivante). Pour les autres variables, plusieurs options sont possibles : – définir le profil scolaire à partir des seules notes du bac, par exemple parce qu’il est plus rigoureusement comparable d’un élève à l’autre lorsque l’on considère tous les lycées ; ou parce que, tout simplement, la notation au bac est l’objet principal de l’étude. Conserver les notes annuelles en supplémentaire revient à les relier aux principales dimensions de variabilité des profils du bac afin d’enrichir l’interprétation (concrètement, l’interprétation « profonde » d’une même dimension de variabilité des notes au bac ne sera pas la même selon qu’elle est non corrélée, ou au contraire étroitement corrélée, aux notes annuelles) ; – définir le profil scolaire à partir des seules notes annuelles, par exemple parce que le travail des élèves pendant l’année est l’objet principal de l’étude. Conserver alors les notes au bac en supplémentaire revient à les relier aux principales dimensions de variabilité des profils « annuels » ; – définir le profil scolaire à partir de l’ensemble des dix notes parce que l’attention n’est pas focalisée sur un sous-ensemble. Dans l’exemple, la projection des notes trimestrielles conduit aux graphiques de la figure 1.8. Sur le premier plan, les notes trimestrielles « suivent » de près les notes annuelles. Ce n’est pas le cas (ou très peu) des axes suivants. Ceci suggère que les commentaires des deux premiers axes se réfèrent à des profils « structurels » des élèves (une note élevée est associée à une aptitude « dans la durée ») et que ceux des axes suivants se réfèrent à des profils « conjoncturels » (une note élevée correspond à une réussite ponctuelle : chance ? bachotage ? etc.).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 23 — #31
i
Chapitre 1. Analyse en composantes principales
i
23
Dim 2 (18.26%) Dim 2 (18.26%) 1.0
L5 L 21 L 17
-1.5
Maths.au.bac Physique.au.bac Maths.3.trimestres Phy..3.trimestres
L 12
L2
L 10 L 4 L1 L 14
Dim 1 (48.16%)
L 23
0.5
-1.0
-0.5
L7
L 13 L 11 L 16 L 20 L 22 L 6 1.0 0.5 L 15 L 3 L8 L 19 L9 -0.5
Dim 1 (48.16%)
Sc..Nat..3.trimestres Sciences.Nat..au.bac Hist..géo..3.trimestres Philo..3.trimestres
L 18
Philosophie.au.bac Hist.géo..au.bac -1.0
Dim 4 (12.84%)
Dim 4 (12.84%)
Philosophie.au.bac
0.4
L7 L4 L8 -0.5
L3 L 6 0.2 L 1 L 12
L 18 L 10 L 13 L 17
L 11
Hist..géo..3.trimestres
0.5
-0.4
L 23
L 22 L9
Dim 3 (13.25%)
Dim 3 (13.25%)
L 15
-0.2
L5
Philo..3.trimestres
L 21L 16 L 19 L 2
L 14 L 20
Sc.Nat..au.bac Sc..Nat..3.trimestres
Hist.géo..au.bac
-0.6
-0.8
Dim 5 (7.49%)
Dim 5 (7.49%) 1.0
L2 L7
L 20
Physique.au.bac 0.5
L 18 L8 L 21 L4 L 9 L 16 L 10 L 14 19 Dim 1 (48.16%) L 5 L0.0 L1 L 13 L 22 L 11 L 23 -1.0 L 15 -1.5 -0.5 0.5 1.0 L3 L6 L 12 L 17 -0.5
Phy..3.trimestres Dim 1 (48.16%)
Maths.3.trimestres
Maths.au.bac
Fig. 1.8 – A droite : représentation de la figure 1.7 auxquelles on a ajouté les notes trimestrielles en tant que variables supplémentaires. A gauche : représentation des lycées en tant que centre de gravité de leurs élèves. On retiendra de cela : – la nécessité de préciser le statut (actif/supplémentaire) choisi pour chaque variable ; – l’intérêt de la notion de profil des individus pour raisonner ce choix ; c’est-à-dire le relier à l’objectif précis de l’analyse ; – la signification du statut supplémentaire d’une variable : relier la variable aux principales dimensions de variabilité des profils.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 24 — #32
i
24
i
Analyse factorielle multiple avec R
Remarque Dans RI , projeter une variable y sur le plan défini par les deux premiers axes (v1 et v2 ) revient à estimer les paramètres du modèle de régression linéaire multiple exprimant y en fonction de v1 et v2 . En effet, v1 et v2 étant non corrélées, leur coefficient dans la régression multiple est égal à celui de la régression simple. Et ce dernier, lorsque les variables (explicative et à expliquer) sont centrées et réduites, est égal à leur coefficient de corrélation avec y (d’où, au passage, la notation « r » pour ce coefficient).
1.9
Variables qualitatives en ACP
Principe L’ACP est construite pour analyser simultanément un ensemble de variables quantitatives. Aussi, une variable qualitative ne peut pas intervenir en (tant qu’élément) actif. En revanche, une variable qualitative peut être introduite en (élément) supplémentaire, c’est-à-dire être reliée aux composantes principales. Concrètement, introduire une variable qualitative supplémentaire en ACP peut prendre les formes décrites ci-après. Sur les plans factoriels, on peut identifier les individus par un symbole désignant leur modalité pour une variable ; dans les données bac, cela revient à représenter chaque élève, par exemple, par le numéro de son lycée. Cette procédure permet d’analyser de façon très fine (elle visualise à la fois la variabilité interlycées et intralycée) la liaison entre une variable qualitative et les composantes principales (niveau de finesse d’ailleurs rarement nécessaire), mais elle ne permet d’étudier qu’une seule variable à la fois. Sur les plans factoriels, on peut aussi représenter les centres de gravité des individus présentant la même modalité d’une variable (et ce pour toutes les modalités de toutes les variables). Cette procédure est moins précise que la précédente (elle ne visualise pas la variabilité intralycée) mais permet de visualiser les modalités de plusieurs variables qualitatives à la fois. Intuitivement, une variable quantitative et une variable qualitative sont liées si les individus d’une même classe de la variable qualitative ont des valeurs proches pour la variable quantitative. Plus précisément, on décompose la variabilité de la variable quantitative selon la partition définie par la variable qualitative. On obtient ainsi l’équation d’analyse de la variance qui peut s’écrire, dans notre langage (auquel cas on l’appelle théorème de Huygens) : inertie totale = inertie interclasses+ inertie intraclasses. Le carré du rapport de corrélation rapporte l’inertie inter à l’inertie totale. C’est le pourcentage d’inertie « expliqué » par la variable qualitative. Ainsi, l’intensité de la liaison entre une variable qualitative q et une composante principale Fs peut être mesurée globalement par le carré du rapport de corrélation entre q et Fs . On peut alors construire une représentation des variables en utilisant
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 25 — #33
i
i
Chapitre 1. Analyse en composantes principales
25
cette mesure comme coordonnée. Cette représentation est d’autant plus utile qu’il y a un grand nombre de variables qualitatives, et donc ne l’est pas dans l’exemple des notes au bac. Elle sera décrite plus précisément et illustrée à propos de l’analyse des correspondances multiples. La significativité de cette liaison peut être mesurée par la probabilité critique associée au test F global de l’effet du facteur dans l’analyse de variance à un facteur « expliquant » la composante Fs à l’aide de la variable q. Comme en analyse de variance usuelle, ce test global est un préalable à l’examen détaillé des modalités présenté ci-après. En présence de nombreuses variables qualitatives, il permet de les hiérarchiser lors de l’examen d’une composante principale. La significativité de l’écart, le long de l’axe s, entre (le centre de gravité des individus possédant) la modalité j (de la variable q) et l’origine des axes (i.e. le point moyen GI ) peut être évaluée de plusieurs façons. Une façon commode est d’utiliser la probabilité critique associée au coefficient de la modalité j dans l’analyse de variance précitée. Un tel indicateur est indispensable pour accompagner la représentation des centres de gravité de ces modalités car il prend en compte, outre l’écart à l’origine des axes (i.e. la coordonnée), l’effectif de la modalité (une même coordonnée peut être significative si elle correspond à un effectif important et non significative sinon) et la variabilité intramodalité. Exemple des notes au bac Les indicateurs de liaisons entre la variable (qualitative) lycée et les composantes principales sont rassemblés dans le tableau 1.2. ACP : facteur F5 F3 F1 F2 F4
Probabilité 2.28E-21 5.20E-15 2.67E-12 5.60E-09 2.58E-07
η2 0.156 0.123 0.108 0.088 0.078
Libellé de la variable H.Géo. 3 trimestres Hist. Géo au bac Philo. 3 trimestres Maths au bac Bac Sc. nat. au bac Phys. 3 trimestres Physique au bac Philosophie au bac Bac continu Sc.Nat. 3 trimestres Maths 3 trimestres
Probabilité 9.85E-28 6.65E-18 2.71E-17 3.89E-16 5.02E-11 1.06E-10 1.90E-08 4.02E-08 7.41E-08 1.08E-05 1.82E-05 4.78E-05
η2 0.187 0.138 0.135 0.129 0.100 0.099 0.085 0.083 0.081 0.067 0.065 0.062
Tableau 1.2 – Indicateurs de liaison entre la variable lycée d’une part et les composantes principales ou les variables initiales d’autre part. Ces indicateurs sont calculés en se plaçant dans le cadre de l’analyse de variance « expliquant » une composante principale, ou une variable initiale, à partir du lycée. La probabilité critique est celle du F de l’effet global du lycée. Toutes les probabilités critiques des facteurs de l’ACP sont très hautement signi-
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 26 — #34
i
26
i
Analyse factorielle multiple avec R
ficatives : la variable « lycée » est indiscutablement liée à toutes les dimensions issues de l’ACP. Les pourcentages de variance expliquée par le lycée peuvent paraître faibles dans l’absolu, mais il faut les situer dans le contexte. Pour une matière donnée, on « sait bien » que, indépendamment du lycée, il y a de grandes différences de niveau entre les élèves. A cette variabilité individuelle « structurelle », s’ajoute la variabilité « conjoncturelle » liée à un examen particulier. Il en résulte une variabilité individuelle a priori importante. Cela étant, d’où peut provenir un effet lycée ? Un tel effet peut être dû, par exemple, à une éventuelle sélection à l’entrée ou à une plus ou moins bonne préparation de l’examen. Compte tenu de tout ceci, les pourcentages observés (entre 7.8 % et 15.6 %) peuvent être considérés comme assez élevés. Cet ensemble de liaisons significatives incite à examiner les liaisons entre le lycée et les variables initiales. On observe à peu près les mêmes valeurs des indicateurs : globalement, le lycée « explique » 10 % de la variabilité de chacune des notes au bac. Note Maths au bac Physique au bac Maths 3 trimestres Physique 3 trimestres
Moyenne lycée 2 11.737 13.684 10.456 12.148
Moyenne générale 13.207 11.002 10.950 11.166
Probabilité critique 0.117 0.001 0.493 0.082
Tableau 1.3 – Moyennes, en mathématiques et en physique, des élèves du lycée 2 et probabilités critiques des coefficients correspondants dans l’analyse de variance. Pour entrer dans les détails, chaque lycée est représenté sur chaque plan factoriel en tant que centre de gravité de ses élèves (figure 1.8). Par exemple, d’après sa position sur le plan (1,5), le lycée 2 (L2) est moyen du point de vue de l’ensemble des résultats de ses élèves, mais très particulier du point de vue du couple (mathématiques, physique) : ses élèves ont beaucoup mieux réussi en physique qu’en mathématiques, ce qui est vérifié, et précisé dans le tableau 1.3. Le cas de l’axe 5 revêt un intérêt particulier car c’est le dernier et il est associé à une valeur propre (0.38) très sensiblement inférieure à 1 ; il a déjà été indiqué (cf. 1.7.3.) que son interprétation claire incitait à le conserver dans le commentaire malgré sa faible inertie. Cette décision est renforcée par sa forte liaison avec la variable lycée. De façon générale, une liaison « significative » entre une composante principale et une variable illustrative est un argument important pour ne pas considérer cette composante comme du bruit. Cet argument n’est pas très fort dans le cas particulier de la variable lycée dans cet exemple, cette variable étant liée à toutes les variables initiales. On remarque toutefois que c’est précisément avec cette cinquième composante principale que la variable lycée est la plus liée. Par ailleurs, les lycées les plus caractérisés par cet axe (2, 7, 20, 18) ont un effectif faible (19, 11, 19, 20) correspondant très vraisemblablement à une seule classe, situation dans
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 27 — #35
i
Chapitre 1. Analyse en composantes principales
i
27
laquelle l’effet lycée peut plus facilement exprimer un effet « enseignant ». Ces pistes de réflexion sont données à titre d’exemple ; elles illustrent comment l’ACP en général, en particulier les variables qualitatives supplémentaires, peut aider l’exploration d’un tableau de données.
1.10
Second exemple : six jus d’orange
Ces données ont été soumises à plusieurs analyses commentées dans ce livre. L’exemple qui suit a deux objectifs : illustrer une démarche d’interprétation à l’aide d’un exemple de petite taille et donner un premier aperçu de ces données pour mieux goûter les analyses plus riches qui en seront tirées dans d’autres chapitres. N◦ P1 P2 P3 P4 P5 P6
Marque Pampryl Tropicana Fruvita Joker Tropicana Pampryl
Origine Autre Floride Floride Autre Floride Autre
Type Ambiant Ambiant Réfrigéré Ambiant Réfrigéré Réfrigéré
Tableau 1.4 – Les six jus d’orange étudiés. Six purs jus d’orange (tableau 1.4) ont été choisis parmi les principales marques du marché (en 1997) qui existent en « réfrigéré » (fr ; dans les linéaires, ces jus, qui subissent une pasteurisation plus légère, doivent être conservés dans un rayon réfrigéré) et en « ambiant » (amb ; dans les linéaires, ces jus sont présentés à température ambiante). Parmi ces jus, trois sont originaires de Floride (les deux Tropicana et Fruvita). Ces six jus ont fait l’objet de huit mesures chimiques : deux mesures de pH, titre, acide citrique, sucres, vitamine C. Parallèlement, 96 élèves ingénieurs d’un établissement d’enseignement supérieur en agronomie et agroalimentaire, à la fois habitués à déguster des produits alimentaires et consommateurs de jus d’orange, ont chacun décrit ces six produits selon sept descripteurs : intensité et typicité de l’odeur, intensité du goût, caractères pulpeux, sucré, acide et amer. Ils ont en outre exprimé une appréciation (hédonique) globale. Le tableau des données (que le tableau 1.5 représente transposé) croise en lignes les six jus d’orange et en colonnes les 8+7+1 variables quantitatives auxquelles s’ajoutent deux variables qualitatives à deux modalités chacune : l’origine (Floride/autre) et le type (ambiant/réfrigéré). Dans une première approche de ces données, on focalise notre attention sur les variables chimiques. Pour un produit donné, ses valeurs pour les huit mesures constituent son « profil chimique ». Pour mettre en évidence les principales dimensions de variabilité de ces profils chimiques, on met en œuvre une ACP dans laquelle les mesures chimiques sont introduites en actif.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 28 — #36
i
28
i
Analyse factorielle multiple avec R
Glucose (g/L) Fructose (g/L) Saccharose (g/L) pH brut pH après centrifuga. Titre Acide citrique Vitamine C Intensité odeur Typicité odeur Pulpeux Intensité goût Acide Amer Sucré Appréciation globale
P1 25.32 27.36 36.45 3.59 3.55 13.98 0.84 43.44 2.82 2.53 1.66 3.46 3.15 2.97 2.60 2.68
P2 17.33 20.00 44.15 3.89 3.84 11.14 0.67 32.70 2.76 2.82 1.91 3.23 2.55 2.08 3.32 3.01
P3 23.65 25.65 52.12 3.85 3.81 11.51 0.69 37.00 2.83 2.88 4.00 3.45 2.42 1.76 3.38 3.27
P4 32.42 34.54 22.92 3.60 3.58 15.75 0.95 36.60 2.76 2.59 1.66 3.37 3.05 2.56 2.80 2.67
P5 22.70 25.32 45.80 3.82 3.78 11.80 0.71 39.50 3.20 3.02 3.69 3.12 2.33 1.97 3.34 2.97
P6 27.16 29.48 38.94 3.68 3.66 12.21 0.74 27.00 3.07 2.73 3.34 3.54 3.31 2.63 2.90 2.65
Moyenne 24.76 27.06 40.06 3.74 3.70 12.73 0.77 36.04 2.91 2.76 2.71 3.36 2.80 2.33 3.06 2.87
Tableau 1.5 – Données chimiques et sensorielles. Introduire les descripteurs sensoriels en supplémentaires a pour but de répondre à la question suivante : les principales dimensions de variabilité chimique sontelles liées à des descripteurs sensoriels ? En outre, introduire l’origine et le type des jus permet de relier ces dimensions aussi à ces deux variables (la principale dimension de variabilité chimique des jus est-elle liée à leur origine ? à leur type ?). Les résultats de cette ACP sont présentés figures 1.9 et 1.10. Dim 2 (13.74%)
Dim 2 (13.74%)
Intensité.goût Acide Pulpeux Intensité.odeur Sucré
Fructose Glucose Acide.citrique Titre
pH.après.centri. pH.brut
Dim 1 (77.66%)
Dim 1 (77.66%)
Amer
Typicité.odeur
Saccharose Qualité.globale
Vitamine.C
Fig. 1.9 – Représentation des variables actives (à gauche) et supplémentaires (à droite) sur le premier plan. Le premier plan exprime 91.4 % de l’inertie et l’on doit s’y limiter. Le premier
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 29 — #37
i
Chapitre 1. Analyse en composantes principales
i
29
axe est prépondérant (77.68 %). Il oppose les deux mesures de pH d’une part, au titre et à l’acide citrique d’autre part. Soit les jus 2, 3 et 5, peu acides, aux autres, plus acides. Avec cette acidité évolue la répartition des sucres. Les jus non acides sont proportionnellement plus riches en saccharose. Cette opposition entre sucres est à relier à l’hydrolyse du saccharose (en glucose et fructose) favorisée en milieu acide. On peut résumer cet axe par « acidité ». Il est lié à l’origine des jus : les jus de Floride sont moins acides que les autres. Le deuxième axe correspond à la vitamine C. Dim 2 (13.74%)
P6 Pampryl fr.
P4 Joker amb.
Autre que Floride
Réfrigéré
P2 Tropicana amb.
P3 Fruvita fr.
Dim 1 (77.66%)
Floride
Ambiant P5 Tropicana fr. P1 Pampryl amb.
Fig. 1.10 – Représentation des individus et des modalités des variables qualitatives supplémentaires (en italique).
La représentation des variables sensorielles montre une liaison forte entre l’acidité (mesurée) et la description sensorielle. Les jus chimiquement acides (4, 1, 6) sont perçus acides, mais aussi amers et peu sucrés. A l’opposé, les jus chimiquement peu acides (2, 3, 5) sont perçus peu acides, mais aussi peu amers et sucrés. Enfin, l’appréciation globale est fortement liée au premier facteur : dans l’ensemble, les dégustateurs ont préféré les jus sucrés, peu acides et peu amers.
1.11
ACP dans FactoMineR
Les méthodes factorielles décrites dans ce livre sont disponibles dans le package R : FactoMineR. Il est possible de les mettre en œuvre directement, à l’aide de lignes de code ou en passant par R Commander. Nous commençons par présenter cette seconde façon, plus simple mais, bien sûr, moins flexible. Pour illustrer notre propos, nous utilisons les données « bac » analysées dans ce chapitre. Ces données ont été importées, soit par le menu d’importation de FactoMineR, soit via la fonction read.table.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 30 — #38
i
30
i
Analyse factorielle multiple avec R
Menu déroulant dans R Commander
1 2 4 5
3
6 7 8
Fig. 1.11 – Fenêtre principale de l’ACP dans le menu déroulant de FactoMineR. 1. Les variables (quantitatives) actives sont sélectionnées dans la fenêtre principale. Elles ne sont pas nécessairement contiguës. Par défaut, toutes les variables (quantitatives) sont actives. 2. Par défaut, il n’y a pas de variable quantitative supplémentaire. En utilisant ce menu déroulant, les variables quantitatives du fichier non sélectionnées comme actives sont ignorées. Ce bouton ouvre une fenêtre pour sélectionner les variables quantitatives supplémentaires (de la même façon que l’on sélectionne les variables actives en 1). 3. Par défaut, tous les individus sont actifs. Ce bouton ouvre une fenêtre contenant la liste des individus, liste dans laquelle on sélectionne les individus supplémentaires. 4. Dans la terminologie R, les variables qualitatives s’appellent « facteurs ». Par défaut, il n’y a pas de variables qualitatives supplémentaires. Ce bou-
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 31 — #39
i
i
Chapitre 1. Analyse en composantes principales
5. 6.
7.
8.
31
ton ouvre une fenêtre contenant la liste des variables qualitatives (liste ici réduite à la variable « Lycée »). Dans cette liste, on sélectionne les variables qualitatives à introduire en supplémentaire. En utilisant ce menu déroulant, les variables qualitatives du fichier non sélectionnées sont ignorées. Ouvre la fenêtre reproduite figure 1.12. Permet de sélectionner les tableaux de résultats à éditer et d’indiquer un nom de fichier « .csv » (i.e. fichier de texte lisible par Excel) dans lequel seront regroupés tous ces tableaux. Réduire les variables revient à faire une ACP normée (option par défaut). L’ACP non normée, dans laquelle chaque variable est munie d’un poids égal à sa variance, est obtenue en ne réduisant pas. Permet de réaliser une classification ascendante hiérarchique (CAH) des individus (méthode de Ward) à partir des coordonnées factorielles. Cet enchaînement permet de produire des résultats croisant ceux de la CAH et ceux de l’ACP (e.g. des plans factoriels dans lesquels les individus sont coloriés en fonction de leur appartenance à un groupe d’une partition définie à partir de l’arbre hiérarchique). Cet enchaînement d’une classification à l’issue d’une analyse factorielle est disponible pour toutes les méthodes factorielles. Il sera illustré en AFM (chapitre 4).
5 6
1 2
7 3 4
Fig. 1.12 – Fenêtre des options graphiques. 1. Les éléments représentés dans ce type de graphique peuvent être les individus, actifs et/ou supplémentaires, et/ou les barycentres des (individus pré-
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 32 — #40
i
32
i
Analyse factorielle multiple avec R sentant une même) modalité(s). 2. Les éléments représentés peuvent être étiquetés ou non. Dans l’exemple, les individus apparaissent seulement chacun par un point, alors que les lycées apparaissent avec leur étiquette. 3. On peut attribuer des couleurs aux différents types de points. 4. On peut associer à chaque individu (i.e. à son point et à son étiquette) une couleur représentant la modalité d’une variable qualitative (ici une couleur différente par lycée). 5. Sur les graphiques, on peut ne faire figurer que les variables les plus proches du cercle des corrélations (i.e. les mieux représentées), ce qui est précieux lorsqu’elles sont nombreuses. 6. et 7. Possibilités d’étiquetage et de couleurs, pour les variables, semblables à celles des individus.
Exemples de commandes Le répertoire de travail est celui qui contient le fichier des données, sous le nom Bac.csv. Ces données sont importées dans R (dans le data.frame, Bac) par : > Bac=read.table("Bac.csv",header=TRUE,sep=";",dec=",",row.names=1) Editer les deux premières lignes du fichier pour vérifier l’importation : > Bac[1:2,] Lycée MAT PHY SN HG PHI mat3t 1 L_4 11 12 10 7 5 12.50 2 L_4 15 12 10 11 13 13.47
phy3t 9.83 11.13
sn3t 12.60 10.83
hg3T 10.63 11.33
phi3T 9.70 10.23
Les données sont dans le data-frame Bac. Les onze colonnes sont dans l’ordre suivant : le lycée, les cinq notes au bac, les cinq notes annuelles. L’ACP (fonction PCA) sur les seules notes au bac peut être lancée en choisissant toutes les options par défaut. Par défaut, toutes les variables quantitatives disponibles sont actives. D’où, dans cette commande, la restriction aux variables des colonnes 2 à 6 : > res=PCA(Bac[,c(2:6)]) Le fichier res contient tous les tableaux de résultats. Par défaut, les graphiques de base s’affichent : représentation des individus et des variables sur le premier plan. On obtient d’autres graphiques à l’aide de la fonction plot.PCA ; par exemple, pour obtenir la représentation des variables sur le plan (3,4) : > plot.PCA(res,axes=c(3,4),choix="var")
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 33 — #41
i
Chapitre 1. Analyse en composantes principales
i
33
Pour introduire les notes trimestrielles (variables quantitatives dans les colonnes de 6 à 10) et le lycée (variable qualitative en première colonne) en supplémentaire : > res=PCA(Bac,quanti.sup=c(7:11),quali.sup=1) Toutes les variables qualitatives doivent être explicitement déclarées supplémentaires. La présence d’une variable qualitative « non déclarée » entraîne un message d’erreur. Les individus et les barycentres associés aux modalités évoluent dans le même espace et, par défaut, sont représentés simultanément. Par défaut, les variables quantitatives actives et supplémentaires sont représentées simultanément (figure 1.8 à droite). Pour obtenir un graphique ne comportant que les barycentres des modalités (figure 1.8 à gauche), on rend invisibles les individus : > plot.PCA(res,axes=c(1,2),choix="ind",invisible="ind") Pour récupérer tous les tableaux de résultats dans un seul fichier « .csv » : > write.infile(res,file ="Sortie_ACP_Bac.csv") Pour obtenir le tableau 1.3, on calcule le tableau des données centrées et réduites à l’aide de la fonction scale (résultat dans Bac_CR) : > Bac_CR=scale(Bac3[,2:11])*sqrt(909/908) Dans la fonction scale, la variance utilisée est l’estimation de la variance de la c2 ) dont l’on peut considérer que les données population (notée classiquement σ constituent un échantillon. Soit : c2 = σ
I −1 1 X 2 (xi − x ¯) = V ar [x] . I −1 i I
Pour utiliser la variance de l’échantillon (classiquement notée V ar[x]), on doit donc p multiplier le résultat de la fonction scale par I/(I − 1). Ceci permet d’éditer les données centrées réduites des individus 46 et 238 par exemple : > Bac_CR[c(46,238),] Le tableau 1.6 contient les données transposées (fonction t) avec deux chiffres après la virgule (fonction round) et limité à un ensemble d’individus dont l’on met le rang dans un vecteur (de nom : list_ind_etiq) : > list_ind_etiq=c(46,238,264,253,419,557,566,638,807,850,863) > round(Bac_CR_t[,list_ind_etiq],2) Pour obtenir le tableau 1.4, on utilise la fonction catdes (description de catégories) accessible dans le menu de FactoMineR ou par la commande suivante : > results=catdes(Bac,num.var=1)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 34 — #42
i
34
i
Analyse factorielle multiple avec R
Cette fonction relie une variable qualitative à chacune des autres variables du fichier. Le tableau 1.2 page 25 à droite est dans : > results$quanti.var Pour obtenir le tableau 1.2 à gauche, on applique la fonction catdes aux composantes principales. Pour cela, on concatène (fonction cbind) le fichier des coordonnées des individus issu de l’ACP (res$ind$coord) aux données brutes : > Tout=cbind(Bac,res$ind$coord) On vérifie l’opération en listant les colonnes du nouveau data.frame (Tout). > colnames(Tout) [1]"Lycée" "MAT" "PHY" "SN" "HG" "PHI" "mat3t" "phy3t" "sn3t" [10] "hg3T" "phi3T" "Dim.1" "Dim.2" "Dim.3" "Dim.4" "Dim.5" Puis on applique catdes en écartant les variables initiales (de 2 à 11) : > results=catdes(Tout[,c(1,12:16)],num.var=1) Le tableau 1.4 à gauche est dans : > results$quanti.var Dans la fonction plot.PCA, le paramètre select permet de sélectionner les points représentés avec leur libellé ce qui est utile dans ces données qui présentent beaucoup d’individus. La commande suivante ne conserve les libellés que pour les 10 individus ayant les plus fortes qualités de représentation (cos2) sur le plan : > plot.PCA(res,axes=c(1,2),choix="ind",select="cos2 10") Les symboles des points non sélectionnés peuvent être représentés de façon plus ou moins transparente avec le paramètre unselect.transp. La commande suivante ne les représente pas du tout : > plot.PCA(res,select="cos2 10",unselect.transp=0,invisible="quali")
Script pour l’analyse des données jus d’orange Nous donnons ci-après le script relatif à la section 1.10. Celui-là contient quelques élements de R utiles en analyse factorielle : # > + >
Importation puis vérification Orange=read.table("Orange5.csv",header=TRUE,sep=";",dec=",", row.names=1) summary(Orange)
# ACP avec les variables actives et supplémentaires :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 35 — #43
i
Chapitre 1. Analyse en composantes principales
i
35
> res > > > > +
plot.PCA(res,choix="ind",col.quali="black",cex=1.3) x11() plot.PCA(res,choix="var",cex=1.3,invisible="quanti.sup") x11() plot.PCA(res,choix="var",cex=1.3,invisible="var", col.quanti.sup="black")
i
i i
i
i
i
i
i Elèves Maths Physique Sc. Nat Hist. Géo. Philo Maths 3 trim. Phys. 3 trim. Sc. Nat. 3 trim. Hist. Géo. 3 trim. Philo 3 trim.
46 -1.01 -1.11 0.01 1.43 2.48 -1.03 -1.48 -0.56 1.03 0.4
238 -3.2 -0.55 -2.07 -1.21 -0.86 -1.31 -0.52 -0.33 -0.66 -1.11
264 9 19 17 14 16 12 16.92 14.6 16.17 12.82 10.4
Données brutes 253 419 9 8 17 15 15 18 12 15 15 16 5 14 13.93 13.53 13.96 14.6 15.33 12.33 14.58 11.67 8.1 11
557 17 11 1 3 7 6 7.83 5.83 7.67 8.91 6.83
566 15 10 6 16 7 4 8.5 8.83 11 9 6.67
638 8 18 15 12 8 18 15.2 15.43 13.25 12.57 11.08
807 6 20 12 14 13 17 15.47 15 14.27 12.22 12.07
850 14 18 16 12 6 3 14.33 11.6 12.9 9.5 7
863 21 5 1 7 3 2 6.6 5.67 7.67 8.83 10.33
Données centrées-réduites 264 253 419 557 1.82 1.19 0.56 -0.69 1.66 1.11 1.94 -2.77 1.05 0.36 1.4 -2.77 2.19 1.81 2.19 -1.21 1.26 -0.86 1.87 -0.56 2.27 1.13 0.98 -1.18 1.27 1.03 1.27 -1.97 2.38 1.99 0.61 -1.55 0.93 1.85 0.34 -1.09 0.7 -0.52 1.02 -1.2
566 -1.01 -1.38 1.74 -1.21 -1.17 -0.93 -0.86 -0.01 -1.04 -1.29
638 1.5 1.11 0.36 -0.84 3.09 1.62 1.58 1.03 0.8 1.06
807 2.13 0.28 1.05 1.05 2.78 1.72 1.42 1.5 0.62 1.58
850 1.5 1.38 0.36 -1.59 -1.47 1.29 0.16 0.87 -0.78 -1.11
863 -2.57 -2.77 -1.38 -2.73 -1.78 -1.65 -2.03 -1.55 -1.13 0.66
“afm” — 2013/5/6 — 16:12 — page 36 — #44
238 7 3 9 5 7 5 7.5 9.77 10.3 9.73 7
Analyse factorielle multiple avec R
46 14 10 7 11 14 16 8.25 7.17 9.8 13 9.83
36
Elèves Lycée Maths Physique Sc. Nat Hist. Géo. Philo Maths 3 trim. Phys. 3 trim. Sc. Nat. 3 trim. Hist. Géo. 3 trim Philo 3 trim.
Tableau 1.6 – Données bac. Données, brutes et centrées réduites, pour quelques élèves identifiés figure 1.7.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 37 — #45
i
i
Chapitre 2
Analyse des correspondances multiples L’analyse des correspondances multiples (ACM) est la méthode factorielle adaptée aux tableaux dans lesquels un ensemble d’individus est décrit par plusieurs variables qualitatives. Elle peut être présentée de maintes façons. La plus classique en France, à la suite des travaux de L. Lebart, consiste à exploiter sa filiation avec l’analyse des correspondances, méthode conçue pour étudier la liaison entre deux variables qualitatives. Dans la perspective de traiter simultanément des variables quantitatives et qualitatives observées sur les mêmes individus, ce qui est l’un des points forts de l’analyse factorielle multiple (AFM), il est nécessaire de mettre en avant les analogies entre ACP et ACM. Ce que nous faisons dans cet exposé. De la présentation adoptée dans ce chapitre, qui suit autant que possible le même cheminement que celle de l’ACP, on ne conclura pas pour autant que l’ACM est un cas particulier d’ACP. Il s’agit de deux méthodes bien distinctes appartenant à une même famille, celle des analyses factorielles.
2.1
Données
Les données sont constituées par un ensemble de I individus décrits chacun par un ensemble de J variables qualitatives. La structure du tableau des données brutes est identique à celle du tableau soumis à l’ACP : – chaque ligne i correspond à un individu (statistique) ; – chaque colonne j correspond à une variable (qualitative) ; – à l’intersection de la ligne i et de la colonne j se trouve la « valeur » de la variable j pour l’individu i. Par rapport à l’ACP, l’originalité tient ici à ce que cette « valeur » n’est pas quantitative : c’est la modalité possédée par i pour la variable j (cf. figure 2.1).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 38 — #46
i
38
i
Analyse factorielle multiple avec R
L’exemple classique de ce type de données, qui nous servira souvent de référence, est celui d’une enquête. Les individus statistiques sont les enquêtés et les variables sont les questions. Ainsi, à la question « Quelle est votre catégorie socioprofessionnelle ? », l’enquêté répond en choisissant une modalité parmi un ensemble fixé à l’avance, par exemple : {ouvrier, employé, cadre, etc.}. En pratique, dans les questionnaires, les modalités de réponse à une question sont souvent ordonnées. Ainsi, dans une enquête d’opinion, une démarche classique consiste à soumettre aux enquêtés un ensemble de propositions (dans le monde des enquêtes on parle d’une « batterie d’items ») : pour chacune d’elle, l’enquêté doit exprimer son accord ou son désaccord à l’aide d’une échelle matérialisée par un ensemble de modalités ordonnées. Par exemple : Exprimez votre accord ou votre désaccord avec la proposition suivante : il faut fermer toutes les centrales nucléaires. – Pas du tout d’accord – Pas d’accord – D’accord – Tout à fait d’accord. On peut songer considérer une telle variable comme quantitative, c’est-à-dire comme une sorte de degré d’accord allant de 1 (pas du tout d’accord) à 4 (tout à fait d’accord). Nous illustrerons par un exemple l’intérêt de la considérer comme qualitative.
2.2
Tableau disjonctif complet
Le tableau décrit à la section précédente correspond au fichier des données telles qu’elles doivent être présentées pour être entrées dans les logiciels. Une autre façon de présenter les données est le tableau croisant en lignes les individus et en colonnes les modalités avec, à l’intersection de la ligne i et de la colonne k (appartenant à la variable j), la valeur yik qui vaut : – 1 si l’individu i possède la modalité k (de la variable j) ; – 0 sinon. Ce tableau n’est pas calculé explicitement par l’utilisateur, mais c’est celui sur lequel se fonde l’ACM. Il est dit « disjonctif complet » (et noté TDC, cf. figure 2.1) : si l’on considère les yik relatifs à un même individu et une même variable, ces valeurs contiennent obligatoirement un 1 (complet) et un 1 seulement (disjonctif). Par ailleurs, on note : – J le nombre de variables ; – Kj le nombre de modalités de la variable Pj; – K le nombre total de modalités : K = j Kj ; P – pk la proportion d’individus présentant la modalité k : pk = I1 i yik .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 39 — #47
i
Chapitre 2. Analyse des correspondances multiples j
1 1
j
1
J
1
k
i
39
J Kj
Σ
1
i
xij
i
xik
l
2
l
01000
I
J
I
Fig. 2.1 – Tableaux de codage condensé (à gauche) et disjonctif complet (TDC, à droite). xij : modalité de j possédée par i. yik = 1 si i possède la modalité k (de j) et 0 sinon. Ligne l : exemple numérique avec Kj = 5 et xij = 2. De façon implicite, nous avons considéré jusqu’ici que tous les individus sont affectés du même poids (soit concrètement le poids 1/I, pour obtenir une somme des poids égale à 1). C’est effectivement le cas dans la quasi-totalité des applications. Mais rien n’empêche d’affecter à chaque individu un poidsPpi spécifique. Dans ce cas, la quantité pk doit les prendre en compte, soit : pk = i pi yik . La quantité pk peut alors s’interpréter comme le poids de l’ensemble des individus présentant la modalité k. Cela justifie l’économie de notation selon laquelle on utilise la même lettre p pour le poids d’un individu (pi ) et celui d’un ensemble d’individus (pk ). Par la suite, pour simplifier l’exposé, nous nous situons le plus souvent dans le cas d’individus de même poids (en considérant donc pk comme une proportion). Les colonnes de ce tableau sont dites (fonctions) indicatrices. Elles présentent une propriété remarquable très importante en ACM : la somme des indicatrices d’une même variable est une fonction constante (égale à 1). Il en résulte que la margecolonne (colonne dont le ie terme est la somme des termes de la ligne i) est aussi une fonction constante, égale à J, nombre de variables. La marge-ligne, quant à elle, contient les effectifs des modalités.
2.3
Questionnement
Nous nous situons dans le cas classique de données issues d’une enquête d’opinion. La première étape du dépouillement consiste en l’examen des effectifs des modalités. Le demandeur de l’enquête sera en premier lieu intéressé par ces résultats : combien de personnes apprécient telle personnalité politique ? Combien d’étudiants ont trouvé très utile tel enseignement (de statistique) ? Etc. La seconde étape consiste à examiner la liaison entre quelques variables prises deux à deux. La personnalité politique préférée est-elle liée à la catégorie socioprofessionnelle ? L’attitude à l’égard du nucléaire est-elle liée à l’attitude à l’égard de la justice ? Etc. Le tableau de contingence, construit en croisant les réponses à deux questions, est l’outil traditionnel du dépouillement des enquêtes. Ces deux premières étapes permettent d’étudier la variabilité des enquêtés d’un
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 40 — #48
i
40
i
Analyse factorielle multiple avec R
point de vue unidimensionnel et bidimensionnel. Elles sont l’analogue des histogrammes et des graphiques cartésiens pour les variables quantitatives. Il convient ensuite d’aller plus loin : de même que l’ACP pour les variables quantitatives, l’ACM a pour premier objet d’étudier la variabilité des individus du point de vue multidimensionnel. Dans cette perspective, on considère chaque enquêté du point de vue de l’ensemble de ses réponses, ce que l’on pourra appeler « profil de réponse ». Comme pour l’ACP, la diversité de ces profils sera étudiée à l’aide de leurs principales dimensions de variabilité. A ce niveau de généralité, l’objectif de l’ACP et celui de l’ACM sont identiques. De façon duale, comme en ACP, on s’intéresse aussi aux liaisons entre les variables. Il s’agit de variables qualitatives : chaque liaison ne peut être résumée, même dans une toute première approche, par un indicateur comme le coefficient de corrélation (les indicateurs de liaisons entre deux variables qualitatives ne mesurent que l’intensité ou la significativité de la liaison, mais ne disent rien sur sa nature). Il est nécessaire de visualiser les associations entre modalités : par exemple, la liaison entre les variables « couleur de yeux » et « couleur des cheveux » est caractérisée, entre autres, par l’association privilégiée entre les modalités « yeux bleus » et « cheveux blonds » : les personnes ayant les yeux bleus ont plus souvent les cheveux blonds que les autres ; les blonds ont plus souvent les yeux bleus que les autres. Le cœur des résultats d’une ACM réside dans une représentation graphique dans laquelle chaque modalité est représentée par un point, la proximité entre deux points exprimant une association privilégiée entre les deux modalités correspondantes. Toujours comme en ACP, cette visualisation globale des liaisons sera établie à partir de variables synthétiques quantitatives, celles utilisées pour construire les plans factoriels. Comme en ACP, outre leur intérêt pour représenter les modalités, la recherche de variables synthétiques peut être un objectif en soi de l’analyse. Ce point de vue est moins intuitif en ACM car ces variables synthétiques ne sont pas de même nature que les variables qu’elles synthétisent. Concrètement, résumer un ensemble de variables qualitatives par une variable quantitative se fait en associant un coefficient à chaque modalité et en calculant, pour chaque individu, la somme des coefficients des modalités qu’il possède. La question consiste à choisir les coefficients. En analyse factorielle, l’idée majeure est de choisir des variables synthétiques ayant la plus forte variance possible.
2.4
Nuages des individus et des variables
On considère le tableau disjonctif complet. En suivant la démarche utilisée en ACP, on construit le nuage des lignes (individus) et celui des colonnes (modalités) de ce tableau. L’analogie avec l’ACP apparaît clairement en considérant chaque colonne du TDC en tant que variable indicatrice. De même qu’en ACP le tableau des données est transformé avant l’analyse, par centrage et généralement par réduction, le tableau disjonctif complet (TDC) n’est
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 41 — #49
i
Chapitre 2. Analyse des correspondances multiples
i
41
pas utilisé tel quel. En effet, dans le TDC brut, la possession d’une modalité k par un individu i se traduit par la valeur yik = 1. Or, cette modalité k ne caractérise pas l’individu i de la même façon selon sa fréquence dans la population étudiée : plus précisément, du point de vue de l’analyste, la possession d’une modalité rare caractérise plus un individu que celle d’une modalité fréquente. D’où l’idée de relativiser yik par la fréquence de la modalité k, ce que l’on peut faire en transformant yik de la façon suivante : xik ← yik /pk . Avec cette transformation, la possession de la modalité k se traduit, pour l’individu i, par une valeur de xik égale à, par exemple : – 1 si k est possédée par tous ; – 2 si k est possédée par la moitié de la population ; – 4 si k est possédée par un quart de la population. En outre, la moyenne de chaque colonne k vaut 1. Les colonnes devant être centrées, la transformation finale s’écrit : xik ← yik /pk − 1. Dans ce chapitre, nous présentons l’ACM à partir de l’ACP non normée des xik .
2.4.1
Nuage des individus
On considère l’ensemble des données de l’individu i : {xik ; k = 1, K}. Cet individu peut être représenté par un point dans l’espace RK (dit espace des individus). On construit ainsi le nuage des individus noté NI . Par construction, ce nuage est centré (l’origine est au centre de gravité). Chaque individu i est affecté du poids pi ; généralement, ce poids est constant : pi = 1/I. La définition de la distance dans RK nécessite de préciser quel poids accorder à chaque dimension, c’est-à-dire à chaque modalité. En ACM, ce poids est proportionnel à la fréquence de la modalité, soit, compte tenu de la contrainte selon laquelle la somme des poids vaut 1 : poids de la modalité k = mk = pk /J. Cette pondération est « naturelle » si l’on considère une modalité comme l’ensemble des individus qui la possèdent, point de vue qui s’imposera, comme nous le verrons, dans l’analyse des résultats. La justification directe de cette pondération apparaît plus clairement dans l’espace des modalités (or, les poids des modalités dans cet espace induisent la métrique dans RK ). Des justifications indirectes résident dans les bonnes propriétés de l’ACM. Distance entre un individu i et le centre de gravité (noté GI ) de NI
d2 (i, GI ) =
X pk yik 1 X yik ( − 1)2 = − 1. J pk J pk k
k
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 42 — #50
i
42
i
Analyse factorielle multiple avec R
Cette distance prend en compte les coefficients yik non nuls de l’individu i, ceux induits par les modalités qu’il possède. La moyenne de ces coefficients (plus précisément son écart à la valeur 1) indique dans quelle mesure l’individu i présente des modalités rares. Plus il en présente et plus il est loin de l’origine (donc plus il est particulier, interprétation tout à fait satisfaisante d’une distance à l’origine). Inertie totale de NI (par rapport à GI )
Inertie totale (NI /GI ) =
X
pi d2 (i, GI ) =
i
K − 1. J
L’inertie totale du nuage ne dépend pas du contenu du tableau de données, mais d’un aspect de son format : le nombre moyen de modalités par variable. Ce résultat est analogue à celui de l’ACP normée dans laquelle l’inertie totale est égale au nombre de variables (et donc ne dépend pas du contenu du tableau). Distance entre deux individus i et l d2 (i, l) =
2 X 2 X pk yik ylk yik ylk I X pk − = − . J pk pk J pk pk j k
k∈Kj
Le dernier terme fait apparaître la contribution de la variable j à la distance entre i et l. Si les individus i et l présentent la même modalité pour cette variable j, cette contribution vaut 0. Sinon, en notant k (resp. h) la modalité possédée par i (resp. l), elle vaut : 1 1 1 + . J pk ph Ainsi, deux individus sont d’autant plus éloignés qu’ils possèdent des modalités différentes pour un grand nombre de variables et que ces modalités (possédées donc par un seul d’entre eux deux) sont peu fréquentes. Cette distance est tout à fait satisfaisante. Remarque La distance entre deux individus i et l peut aussi s’écrire : d2 (i, l) =
X J yik ylk 2 1X 1 2 − = (yik − ylk ) . pk J J J pk k
k
On aboutit à cette relation lorsque, comme cela est fait classiquement, on présente l’ACM à partir de l’analyse des correspondances : les données sont transformées en profil et la modalité k est affectée de l’inverse de son poids. L’ACP des xik conduit bien aux résultats de l’ACM.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 43 — #51
i
Chapitre 2. Analyse des correspondances multiples
2.4.2
i
43
Nuage des modalités
On garde à l’esprit qu’une modalité, en tant que colonne du TDC, peut être considérée comme une variable indicatrice. Après la transformation et le centrage introduit à la section précédente, la colonne k du tableau analysé X n’est plus exactement une indicatrice, mais en diffère peu puisqu’il s’agit d’une fonction constante sur les classes de la partition des individus associés à k (partition comportant deux classes, celle des individus possédant k et celle regroupant les autres). Les modalités, en tant que colonnes de X, peuvent donc être plongées dans l’espace des fonctions sur I (dit souvent « espace des variables » et noté RI ), identique à celui introduit en ACP : chaque dimension correspond à un individu ; les poids des individus définissent la métrique (diagonale) ; les modalités constituent le nuage NK ; étant centrées, elles appartiennent au sous-espace orthogonal à la fonction constante. Chaque modalité est affectée d’un poids proportionnel à son effectif, soit, pour la modalité k : pk /J. Ce poids est nécessairement le même que celui de la modalité dans la définition de la distance dans l’espace des individus. Une justification directe de ce poids est de privilégier, dans l’analyse qui va suivre, les modalités qui concernent un grand nombre d’individus. Les justifications indirectes résident dans les propriétés induites par ces poids. Les modalités ne sont pas réduites. La variance de la modalité k, égale au carré de sa distance à l’origine O du fait du centrage, vaut : Var [k] = d2 (k, O) =
X i
pi
2 1 yik −1 = − 1. pk pk
Une modalité possédée par tous est confondue avec l’origine. Autrement, elle est d’autant plus éloignée de l’origine qu’elle est peu fréquente. Or, dans l’analyse factorielle du nuage NK , les modalités interviennent au travers de leur inertie. L’influence de la fréquence pk d’une modalité k intervient donc à deux niveaux : – celui du poids, qui augmente avec pk ; – celui de la distance à l’origine, qui diminue avec pk . L’inertie (par rapport à O) de la modalité k vaut : Inertie (k/O) =
pk 2 1 − pk d (k, O) = . J J
Finalement, une modalité a une influence a priori d’autant plus grande qu’elle est rare. Ce résultat est assez naturel : pour différencier des individus, les modalités très fréquentes sont de peu d’intérêt ; une modalité très rare attire l’attention sur le(s) individu(s) qui la possède(nt). Mais, dans le cadre d’une étude globale visant à mettre en évidence des phénomènes généraux, la mise en évidence d’une succession de cas particuliers s’avère gênante. D’où la pratique qui consiste à regrouper les modalités rares avec d’autres (par exemple, pour un item du type de celui évoqué en 2.1, on regroupera, si elle est peu utilisée, la modalité extrême « tout à fait d’accord » avec la modalité « d’accord »).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 44 — #52
i
44
i
Analyse factorielle multiple avec R
Remarquons au passage que l’inertie totale de NK , obtenue en sommant l’inertie de toutes les modalités, est égale à celle de NI , ce qui est un élément de la dualité entre les deux nuages montrée dans le cas des variables quantitatives. En effet : Inertie (NK /O) =
X
inertie(k/O) =
k
X 1 − pk k
J
=
K − 1. J
La propriété suivante est très précieuse : le centre de gravité des modalités d’une même variable est confondu avec l’origine des axes. En effet, la ie coordonnée de ce centre de gravité, pour la variable j, vaut : X X X pk yik 1 1 pk = (1 − 1) = 0. yik − −1 = J pk J J k∈Kj
k∈Kj
k∈Kj
Il en découle que le centre de gravité de l’ensemble du nuage NK est, lui aussi, confondu avec l’origine des axes. Ainsi, en ACM, les deux nuages, NI et NK , sont centrés. La question se pose d’évaluer les positions relatives des modalités, autrement dit la forme du nuage NK . En poursuivant l’analogie avec l’ACP, on est conduit à calculer les coefficients de corrélation entre indicatrices. Ce cas particulier du coefficient de corrélation (appelé coefficient bisérial de point) n’est pas facilement interprétable directement. Aussi, en ACM, on s’intéresse plutôt à la distance entre modalités. Appliquée aux modalités k et h, cette distance s’écrit (en notant pkh la proportion d’individus possédant à la fois les modalités k et h) : 2 X yik yih pk + ph − 2pkh 2 d (k, h) = pi − = . pk ph pk ph i Dans la dernière expression, le numérateur représente la proportion d’individus possédant une et une seule des modalités k et h. Le dénominateur relativise (normalise ?) cette proportion par celles des modalités k et h considérées séparément (un même nombre d’individus possédant une et une seule des deux modalités k et h « éloigne » d’autant plus ces deux modalités qu’elles sont rares). La distance entre deux modalités s’interprète donc de façon naturelle.
2.4.3
Variables qualitatives
Jusqu’ici, les variables qualitatives n’ont été considérées qu’au travers de leurs modalités. Il est clair que les modalités jouent un rôle central dans la problématique de l’ACM : un individu est caractérisé par les modalités qu’il possède ; la liaison entre deux variables qualitatives s’analyse au travers des associations entre leurs modalités. Il n’en reste pas moins que les variables en tant que telles interviennent dans l’interprétation. Dans RI , la variable j est d’abord représentée par ses Kj modalités. Avant le centrage, les modalités d’une même variable sont orthogonales deux à deux (les
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 45 — #53
i
Chapitre 2. Analyse des correspondances multiples
i
45
produits scalaires correspondants sont nuls) ; elles engendrent donc un sous-espace de dimension Kj . Ce sous-espace est celui des combinaisons linéaires des indicatrices de j, donc des fonctions (définies) sur I constantes à l’intérieur des classes de la partition (de I) définie par j. Tous ces sous-espaces ont en commun l’axe des fonctions constantes (dont le vecteur unitaire, ne comportant que des « 1 », a déjà été noté 1). Après le centrage (qui consiste à projeter NK sur le sous-espace orthogonal à 1), le sous-espace associé à chaque variable j est de dimension Kj − 1 : il contient les fonctions centrées constantes sur les classes de la partition définie par j. L’inertie totale des Kj modalités k de la variable j vaut : Inertie des modalités de j/O =
X 1 − pk Kj − 1 = . J J
k∈Kj
Cette inertie est d’autant plus grande que la variable possède beaucoup de modalités. Dans un premier temps, ce résultat peut gêner car l’utilisateur ne maîtrise pas toujours le nombre des modalités des variables : par exemple, la variable « genre » présente 2 modalités (femme et homme) et la variable « région » en présente 21 (en France). Spontanément, l’utilisateur ne souhaite pas accorder 20 fois plus d’importance à la région qu’au genre. En fait, l’inertie (Kj − 1)/J de la variable j doit être mise en regard de la dimension (Kj − 1) du sous-espace engendré par (les modalités de) la variable j : plus l’inertie est élevée, plus elle se repartit selon un grand nombre de dimensions. Plus précisément, ce qui sera démontré un peu plus loin, l’inertie des modalités de la variable j est constante (et égale à 1/J) en projection dans n’importe quelle direction du sous-espace qu’elles engendrent. Ainsi, dans la recherche du premier axe d’inertie, aucune variable n’est privilégiée. En revanche, la variable « genre » ne peut être liée fortement qu’à un seul axe (opposant donc hommes et femmes), alors que la variable « région » peut être liée à plusieurs (20) dimensions (opposant, par exemple, le Nord au Sud, l’Est à l’Ouest, la Bretagne à la Normandie, etc.). Cela justifie pleinement la proportionnalité de l’inertie totale d’une variable avec son nombre de modalités. Si l’on projette la modalité k (de la variable j) sur un vecteur unitaire centré v de RI (dont la ie coordonnée vi est la valeur de la fonction v pour l’individu i), la longueur de cette projection vaut (en notant v¯k la moyenne de la fonction v pour les individus présentant la modalité k) : X 1 yik hk, vi = − 1 vi = v¯k . I pk i Ce résultat, qui vaut aussi lorsque les individus ont des poids différents, est très utilisé en ACM. Jusque-là, nous avons considéré une modalité essentiellement comme une variable (indicatrice). Apparaît ici le second point de vue, mentionné à propos de l’affectation de poids aux modalités : une modalité peut être vue comme l’ensemble des individus qui la possèdent. Ce qui est remarquable est que ce second
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 46 — #54
i
46
i
Analyse factorielle multiple avec R
point de vue, qui apparaît tout naturellement dans l’espace des individus, apparaît ici dans l’espace des fonctions (définies) sur I. Maintenant, on projette sur v l’ensemble (noté Kj ) des modalités k de la variable j. L’inertie de ces projections vaut : 1X Inertie projetée de Kj sur v = pk v¯k2 J k
1 2 η (j, v) . J Au coefficient 1/J près, cette inertie est égale à l’inertie interclasses de la fonction v pour la partition des individus définie par la variable j. Comme l’inertie totale de v vaut 1, cette inertie interclasses peut être vue comme le pourcentage d’inertie (de v) « expliqué » par la variable qualitative j. Elle est donc confondue avec le carré du rapport de corrélation entre d’une part la variable qualitative j et d’autre part la fonction numérique v. Cet indicateur, noté η 2 (j, v), est la mesure de liaison classiquement utilisée entre une variable quantitative et une variable qualitative. On peut montrer que cet indicateur s’interprète géométriquement comme le carré du cosinus de l’angle entre la variable quantitative v et le sous-espace engendré par la variable qualitative j. Ce résultat est remarquable. Il montre qu’il est utile de plonger, dans le même espace des fonctions sur I, à la fois des variables quantitatives et qualitatives car la mesure de (l’intensité de) la liaison entre deux variables de types différents s’y exprime de façon simple. Il sera la pierre angulaire de l’analyse simultanée des deux types de variables (que nous rencontrerons en analyse factorielle de données mixtes (AFDM) et, bien sûr, en AFM) ; mais aussi dès l’ACM puisque nous avons annoncé, dans les objectifs, la volonté de synthétiser un ensemble de variables qualitatives par une (ou un petit nombre de) variable(s) quantitative(s). = inertie interclasses de j =
2.5
Ajustement des nuages NI et NK
Comme en ACP, les deux nuages, NI et NK , sont projetés chacun sur une suite d’axes orthogonaux d’inertie maximum.
2.5.1
Nuage des individus
L’application de cette procédure au nuage des individus présente la même justification qu’en ACP : le nuage NI étant centré, l’inertie de sa projection dans une direction donnée u mesure la variance des points projetés. Si l’on considère la coordonnée de la projection de i sur u comme la valeur de i pour la combinaison (linéaire) des variables initiales définie par u, cette inertie est la variance de cette combinaison. D’un point de vue technique, la seule chose qui change par rapport à l’ACP est que, dans le calcul d’une distance dans RK , les dimensions sont affectées d’un poids
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 47 — #55
i
Chapitre 2. Analyse des correspondances multiples
i
47
(pk /J pour la dimension k). Autrement dit, l’espace RK est muni d’une métrique euclidienne (diagonale) qui n’est pas la métrique usuelle. Si l’on range ces poids sur la diagonale d’une matrice carrée M, de dimension K, le produit scalaire entre deux vecteurs u et v de RK s’écrit : hu, viM = u0 M v =
X pk k
J
uk vk .
D’où l’on déduit : 2
kukM = hu, uiM = u0 M u =
X pk k
J
u2k .
Avec ces notations et en reprenant celles de l’ACP (cf. 1.5.1), le facteur sur I de rang s (vecteur dont la ie coordonnée est celle de la projection de i sur us , noté Fs ) s’écrit : Fs = XM us . L’inertie projetée de NI sur us s’écrit (les poids pi des individus sont rangés sur la diagonale de la matrice carrée D de dimension I) : Fs0 DFs = u0s M X 0 DXM us . Le seul changement par rapport à l’ACP est la présence du poids de chaque dimension de RK au travers de la matrice M. On cherche une suite d’axes orthogonaux d’inertie maximum. Pour la direction de rang s, le critère s’écrit : Fs0 DFs maximum avec les contraintes de norme et d’orthogonalité : 2
kus kM = u0s M us = 1 et
hus , ut iM = u0s M ut = 0 pour t < s.
On montre que le vecteur us vérifie : X 0 DXM us = λs us avec λs = Fs0 DFs = us M X 0 DXM us . Comme ceux de l’ACP, les résultats de l’ACM reposent sur une diagonalisation. Les vecteurs propres définissent les axes sur lesquels le nuage NI est projeté ; les valeurs propres correspondent aux inerties projetées. Par analogie avec l’ACP, les vecteurs Fs sont quelquefois appelés « composantes principales ».
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 48 — #56
i
48
2.5.2
i
Analyse factorielle multiple avec R
Nuage des modalités
Ici encore, comme en ACP, on projette le nuage NK sur une suite d’axes orthogonaux d’inertie maximum. Mais, le nuage NK n’a pas les mêmes propriétés dans les deux analyses. En ACM, l’inertie projetée des Kj modalités d’une même variable j sur un vecteur unitaire v est proportionnelle au carré du rapport de corrélation entre j et v. L’inertie projetée de NK vaut donc : Inertie projetée de NK sur v =
1X 2 η (j, v). J j
Ainsi, les facteurs sur I de l’ACM sont les fonctions sur I les plus liées (au sens de la moyenne des carrés des rapports de corrélation) aux variables initiales. Cette propriété est très importante à deux titres ; elle apporte : – une validation de l’ensemble du processus (application de la méthodologie factorielle au TDC recodé) ; – un parallèle supplémentaire entre ACP et ACM (en ACP, chaque facteur sur I, c’est-à-dire chaque composante principale, maximise la somme des carrés des coefficients de corrélation entre lui-même et les variables initiales). L’expression des valeurs propres en tant que moyenne de carrés de rapports de corrélation rend utile leur interprétation indépendamment du pourcentage d’inertie. La valeur maximum 1 correspond à une dimension commune à tous les sous-espaces engendrés par les variables ; concrètement, cette dimension est associée à une partition (des individus) synthétique au sens suivant : quelle que soit la variable, si deux individus en possèdent la même modalité, ils appartiennent à la même classe de la partition synthétique. Cela n’est possible que si les variables qualitatives sont étroitement liées entre elles au sens suivant : on peut regrouper les modalités de chaque variable de façon à ce que les J nouvelles variables ainsi définies soient identiques. Il apparaît donc que la valeur propre λs mesure l’intensité des liaisons (entre les variables) exprimée par l’axe de rang s. L’écriture matricielle de cette démarche dans RI reprend celle de l’ACP (dans RI ) avec, en plus, la prise en compte de poids de colonnes (rangés sur la diagonale de la matrice M ). On regroupe dans Gs = X 0 Dvs les coordonnées des K modalités le long de l’axe de rang s (de vecteur unitaire vs ). On cherche vs qui rend maximum la variance de ces coordonnées (en ACM, le nuage NK , est centré ce qui permet d’interpréter l’inertie par rapport à l’origine comme une variance ; ce n’est pas le cas en ACP), soit : 0 Gs M Gs = vs0 DXM X 0 Dvs avec les contraintes de norme et d’orthogonalité : 2
0
kvs kD = vs Dvs = 1 et
hvs , vt iD = vs0 Dvt = 0 pour t < s.
On montre que vs vérifie : XM X 0 Dvs = λs vs
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 49 — #57
i
Chapitre 2. Analyse des correspondances multiples
i
49
avec : λs = G0s M Gs = vs0 DXM X 0 Dvs . Ainsi, vs est le vecteur propre unitaire associée à la valeur propre λs de XM X 0 D ; les valeurs propres correspondent aux inerties projetées et sont rangées par ordre décroissant.
2.5.3
Relations entre les deux analyses
Comme en ACP, l’écriture de la solution dans RK : X 0 DXM us = λs us conduit à : XM X 0 DXM us = λs XM us . Soit, puisque Fs = XM us : XM X 0 DFs = λs Fs Fs , le se facteur sur I, est, comme vs , le vecteur propre de XM X 0 D associé à la √ valeur propre λs . Ces deux vecteurs sont colinéaires. Fs a pour norme λs et vs est normé. Soit : 1 vs = √ Fs . λs La combinaison linéaire des modalités, en tant que vecteur de RK sur lequel on projette NI (i.e. us ), conduit à une fonction sur I (Fs ) colinéaire au vecteur vs de RI sur lequel on projette NK . Ce résultat exprime bien la dualité entre les deux analyses : la fonction sur I la plus liée (au sens de la moyenne des carrés des rapports de corrélation) à l’ensemble des variables correspond à la dimension de variabilité maximum du nuage des individus. Il est tout à fait analogue à celui de l’ACP (en remplaçant « rapport de corrélation » par « coefficient de corrélation »). Il est à la base de l’interprétation simultanée des représentations de NI et de NK . En ACM, cette dualité s’exprime de façon particulièrement remarquable. Dans le calcul de Gs , on exprime le lien entre vs et Fs , soit : 1 Gs = X 0 Dvs = √ X 0 DFs . λs Pour la k e coordonnée, on obtient (puisque Fs est centré) : 1 1 X Gs (k) = √ pi yik Fs (i). λs pk i Ainsi, à un coefficient près, la coordonnée de la modalité k sur l’axe de rang s (dans RI ) est égale à la moyenne des coordonnées (dans RK ) des individus possédant la modalité k. Cette propriété s’avère capitale dans l’interprétation : l’utilisateur considère plus facilement une modalité comme un centre de gravité d’individus que comme une
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 50 — #58
i
50
i
Analyse factorielle multiple avec R
(projection d’) indicatrice. Concrètement, la proximité sur un plan factoriel entre les modalités k et h s’interprète comme une ressemblance de profil entre les individus qui possèdent la modalité h et ceux qui possèdent la modalité k. Cette ressemblance est acquise si ces deux modalités sont possédées par les mêmes individus (ce qui assure la proximité entre les indicatrices correspondantes), mais peut s’observer autrement (cas de deux modalités « voisines » d’une même variable, par exemple les tranches d’âge 60-65 ans et 65-70 ans ; aucun individu ne possède ces deux modalités à la fois mais on peut penser que ceux qui possèdent l’une ont le même profil de réponse que ceux qui possèdent l’autre). Comme en ACP, on reprend ce raisonnement en permutant les rôles des lignes et des colonnes. Dans RI , le vecteur vs vérifie XM X 0 Dvs = λs vs . D’où : X 0 DXM X 0 Dvs = λs X 0 Dvs Or, Gs = X 0 Dvs , cela donne X 0 DXM Gs = λs Gs . Gs est le vecteur propre de X 0 DXM associé à la valeur propre λs et est donc colinéaire à us : p Gs = λs us . On utilise cette propriété pour exprimer Fs en fonction de Gs . Soit : 1 Fs = XM us = √ XM Gs . λs D’où, pour la coordonnée de la ligne i le long de us (Gs est centré) : 1 1X Fs (i) = √ yik Gs (k). λs J k Ainsi, à un coefficient près, la coordonnée de l’individu i sur l’axe de rang s (dans RK ) est égale à la moyenne des coordonnées (dans RI ) des modalités qu’il possède. Cette relation, ainsi que la précédente (exprimant Gs (k) en fonction des Fs (i)), sont dites relations de transition car elles expriment les coordonnées des objets d’un espace (RI ou RK ) en fonction des coordonnées des objets de l’autre espace.
2.6
Représentation des individus, des modalités et des variables
Représentation des individus et des modalités En ACM, les relations de transition sont particulièrement simples et suggèrent de superposer les représentations des individus et des modalités. Elles peuvent alors s’exprimer comme suit. Le long de chaque axe, à un coefficient près :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 51 — #59
i
Chapitre 2. Analyse des correspondances multiples
i
51
– un individu est au barycentre des modalités qu’il possède ; – une modalité est au barycentre des individus qui la possèdent. D’où le nom de « propriétés barycentriques » donné aux relations de transition (on dit aussi « quasi-barycentriques » pour rappeler que les barycentres ne le sont qu’à un coefficient près). Dans la pratique de l’ACM, pratique bien représentée par le traitement des données d’enquêtes d’opinion, les individus sont souvent nombreux et anonymes (on ne sait rien d’autre sur eux que leurs données). Aussi, le nuage des individus n’est consulté que pour son allure générale, l’attention étant focalisée sur la représentation des modalités. Dans cette perspective, certains utilisateurs préfèrent représenter les modalités par les exacts barycentres. Représentation des variables Surtout lorsqu’elles sont nombreuses, se placer au niveau des variables est une étape utile avant de se placer au niveau des modalités. Exemples de questions : quelles sont les variables les plus liées à tel axe ? Quelles sont les variables qui ont le plus contribué à tel axe ? Le rapport de corrélation (entre une variable j et le facteur sur I de rang s) permet de répondre à ces deux questions puisque son carré (déjà noté η 2 (j, Fs )) mesure à la fois : – l’intensité de la liaison entre la variable j et le facteur de rang s ; – la contribution de la variable j à l’inertie de la dimension s (cf. l’écriture de cette inertie en fonction des η 2 (j, Fs )). Ces coefficients peuvent être représentés par un graphique dans lequel la coordonnée de la variable j le long de la direction s est η 2 (j, Fs ). Un tel graphique, dont un exemple est donné figure 2.3 page 55, montre les variables les plus liées à l’un des deux axes ou aux deux. Les coordonnées étant comprises entre 0 et 1, les points sont situés à l’intérieur d’un carré (de côté de longueur 1), d’où le nom de « carré des liaisons » donné à ce graphique. Remarquons que l’on peut aussi représenter sur ce graphique des variables quantitatives en utilisant comme coordonnées les carrés des coefficients de corrélation (entre ces variables et les facteurs Fs ). D’autres propriétés de ce carré de liaisons sont décrites à propos de l’AFM (chapitre 7). Remarque sur le nombre d’axes Dans RK , on peut a priori trouver K axes orthogonaux. Mais, en ACM, les Kj modalités de la variable j sont liées par une relation (leur somme pondérée par les poids des modalités est nulle). De ce point de vue, le nombre maximum d’axes est K − J. Par ailleurs, le nuage NI comportant I points, au maximum I − 1 axes sont nécessaires pour le représenter parfaitement. Finalement, en ACM, le nombre maximum d’axes d’inertie non nulle est : min {I − 1, K − J}. Dans RI , les modalités, étant centrées, sont situées dans un sous-espace de dimension I − 1. Par ailleurs, après centrage, chaque variable j engendre un sous-espace
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 52 — #60
i
52
i
Analyse factorielle multiple avec R
de dimension Kj − 1. L’ensemble des variables engendre donc au maximum un sous-espace de dimension K − J. Finalement, on retrouve qu’en ACM, le nombre maximum d’axes d’inertie non nulle est : min {I − 1, K − J}.
2.7
Aides à l’interprétation
Les aides présentées à propos de l’ACP s’adaptent directement à l’ACM. Pourcentage d’inertie associé à un axe L’inertie (associée à un axe) elle-même, en tant que moyenne de carrés de rapports de corrélation, a déjà été commentée. Le pourcentage d’inertie, comme dans toute analyse factorielle, mesure la qualité de représentation de l’ensemble du nuage (NI ou NK ) par un axe ou un plan. En pratique, comparée à l’ACP, l’ACM conduit, dans l’ensemble, à : – des pourcentages d’inertie plus petits ; – une décroissance de ces pourcentages plus douce. Face à un tel résultat, l’utilisateur habitué à l’ACP est souvent déçu, en particulier par les faibles pourcentages d’inertie. Aussi ce point mérite-t-il quelques commentaires. Tout repose sur le fait qu’à une variable qualitative (à Kj modalités) correspond un sous-espace (à Kj dimensions). On peut avoir une intuition de ces faibles pourcentages en considérant le cas limite dans lequel toutes les variables sont identiques. Dans ce cas : – l’ACP conduit à un premier axe associé à un pourcentage d’inertie de 100 % (et donc 0 pour les suivants) ; – l’ACM conduit à Kj − 1 axes se partageant équitablement les 100 % d’inertie. Ainsi, par exemple, en présence de variables à cinq modalités, le pourcentage d’inertie associé au premier axe ne peut excéder 25 %. Plus généralement, on peut rapporter la borne supérieure d’une inertie projetée (1) à l’inertie totale (Kj − 1 = 4 dans cet exemple). Contributions La contribution d’un individu en ACM appelle les mêmes remarques qu’en ACP. Celles des variables ont déjà été commentées. La contribution (notée CT Rs (k)) d’une modalité k (à l’inertie de l’axe de rang s) peut être vue de deux façons. A partir de sa définition dans l’espace RI : CT Rs (k) =
pk Gs (k)2 J
on obtient, dans RK (en notant F¯s (k) la coordonnée du barycentre des individus possédant la modalité k) : CT Rs (k) =
1 1 pk F¯s (k)2 . J λs
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 53 — #61
i
Chapitre 2. Analyse des correspondances multiples
i
53
La contribution d’une modalité k peut donc être exprimée aussi dans RK : elle est proportionnelle à l’inertie du barycentre des individus possédant la modalité k. Ce point de vue enrichit l’interprétation du critère de l’ACM dans RK . Jusqu’ici, on a cherché à exprimer le maximum de variabilité des individus par un nombre réduit de dimensions. Si l’on considère, dans RK , le nuage des barycentres associés aux modalités, il apparaît que les axes de l’ACM séparent aussi « au mieux » ces barycentres. Eléments supplémentaires En pratique, comme pour l’ACP, la mise en œuvre d’une ACM comporte presque toujours des éléments supplémentaires. L’introduction d’individus ou de variables qualitatives (et donc de modalités) supplémentaires ne pose pas de problème particulier : mis à part le fait qu’ils n’interviennent pas dans la construction des axes, ces éléments sont traités comme les éléments actifs. On peut introduire, en outre, des variables quantitatives supplémentaires en ACM. Dans ce cas, on calcule les coefficients de corrélation entre ces variables d’une part et les facteurs sur I d’autre part. Les variables sont alors représentées, comme en ACP, dans le cercle des corrélations. On peut aussi les représenter dans le carré des liaisons (cf. 2.6 page 50).
2.8 2.8.1
Exemple : 25 étudiants évaluent 5 outils pédagogiques Données
Pour une première illustration de la méthode, il est commode de l’appliquer à un ensemble de données de petite taille conduisant à des interprétations (à peu près) claires. Pour cela, nous avons construit un tableau supposé être le résultat d’une enquête auprès de 25 étudiants sur leur perception de l’utilité d’outils pédagogiques mis à leur disposition. Il y a cinq outils : trois sont les composants d’un cours en ligne, à savoir du texte, des animations et des films décrivant l’utilisation de logiciels. A cela s’ajoutent deux livres, l’un de cours et l’autre d’exercices. Pour chacun de ces cinq outils, on demande aux étudiants d’évaluer son utilité sur une échelle en 5 points allant de 1 = inutile à 5 = très utile. Le tableau des données brutes comporte donc I = 25 lignes et J = 5 colonnes (cf. tableau 2.1). Les variables sont ici considérées comme qualitatives : le tableau est donc analysé à l’aide d’une ACM. Les modalités de ces variables sont ordonnées. Comme cela a déjà été mentionné, ce type de variable (dit souvent « variable en échelle ») peut aussi être considéré comme quantitatif et être analysé par une ACP. Nous profiterons de ces données pour fournir, à la fin de ce chapitre, quelques éléments de comparaison entre ces deux points de vue.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 54 — #62
i
54
i
Analyse factorielle multiple avec R N◦ ind. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Texte 1 2 1 2 3 1 2 3 3 2 1 1 3 3 3 5 4 3 4 4 4 5 5 5 5
Animation 1 2 2 2 2 1 1 3 3 2 1 2 3 4 4 4 4 3 5 4 4 5 4 4 5
Films 1 1 2 2 3 1 1 3 3 2 2 1 3 4 5 4 4 3 5 4 4 5 5 5 4
Livre cours 1 1 2 2 1 5 4 1 2 4 5 5 3 2 2 1 2 5 2 3 4 4 5 5 5
Livre exercices 1 2 1 1 2 4 4 2 1 3 5 5 3 2 1 1 2 4 2 4 4 4 5 5 5
Tableau 2.1 – Données brutes. Remarquons enfin qu’en pratique, le nombre d’individus de cette étude (25) est insuffisant pour réaliser une ACM. La raison en est que l’étude de la liaison entre variables qualitatives nécessite plus d’individus que pour celle de la liaison entre variables quantitatives. Pour fixer les idées, considérons le tableau de contingence croisant deux variables. Dans l’exemple, quel que soit le couple de variables, ce tableau comporte 25 cases. Il est clair que 25 individus sont insuffisants pour mettre en évidence des irrégularités « stables » dans la distribution de ces individus dans les 25 cases (ce sont ces irrégularités qui montrent des associations privilégiées entre modalités, associations au cœur de la liaison entre les variables). Cela étant, notre objectif étant d’illustrer la méthode en reliant les résultats d’une ACM aux données brutes, cette « instabilité » n’est pas gênante (d’autant plus que les données, choisies pour illustrer l’ACM, ne résultent pas d’un vrai sondage. . .).
2.8.2
Analyse et représentations
La décroissance des valeurs propres (figure 2.2) suggère clairement de conserver les deux premiers axes dans l’interprétation. Les deux premières valeurs propres sont très proches : c’est le plan formé par les deux premiers axes qui est stable et non pas les axes eux-mêmes.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 55 — #63
i
i
55
0.0
0.1
0.2
0.3
0.4
0.5
0.6
Chapitre 2. Analyse des correspondances multiples
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Fig. 2.2 – Valeurs propres. Les pourcentages d’inertie associés à ces deux premiers axes (15.92 % et 15.42 %) peuvent sembler faibles à l’utilisateur d’ACP. En fait, compte tenu du nombre de modalités de chaque variable, ce pourcentage ne peut excéder 25%. Les deux premières valeurs propres elles-mêmes (0.64 et 0.62), étant des moyennes de carrés de rapports de corrélation, peuvent être considérées comme élevées : chacune des deux premières dimensions factorielles est très liée à l’ensemble des variables. Si l’on décompose cette inertie selon les variables, on obtient (au coefficient J = 5 près) les carrés des rapports de corrélation entre les facteurs sur I et les variables (figure 2.3). Il apparaît clairement que les deux premiers axes sont dominés par les trois composants du cours en ligne, les deux livres intervenant seulement dans la formation du premier axe. 1.0
Dim 2 (15.42%)
23
20
25 22
1.0
21
24
19
14
16
15
0.5
0.6
17
18
0.4
Dim 2 (15.42%)
0.8
Films Texte Animation
-1.0
-0.5
0.0
0.5
Dim 1 (15.92%) 1.0
0.2
5 Livre.exercices
0.0
Livre.cours
11 0.0
0.2
0.4
0.6
0.8
9 8
13
2.0
-0.5
1.0
6 7 12 1
3 4 -1.0
2 10
Dim 1 (15.92%)
Fig. 2.3 – Outils pédagogiques. Carré des liaisons (à gauche). Représentation des individus sur le premier plan (à droite). Représentation des individus Elle présente une structure tripolaire (figure 2.3) ; le premier axe sépare les individus {5, 8, 9, 13 et, à la rigueur, 18} des autres. Le deuxième axe sépare les individus restants en deux groupes bien distincts. La coordonnée d’une variable j
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 56 — #64
i
56
i
Analyse factorielle multiple avec R
le long de l’axe de rang s est le carré du rapport de corrélation entre cette variable et le facteur sur I de rang s (noté η 2 (j, Fs )). Représentation des modalités Les modalités d’une même variable étant ordonnées, on fait apparaître cette information en les reliant (dans leur ordre) sur le graphique (la ligne brisée ainsi obtenue est souvent appelée « trajectoire »).
1.5
Dim 2 (15.42%)
Tex 4
Ani 5 Tex 5
Film 4
Film 5
Ani 4
0.5
Liv_cours 3 Liv_ex 5
Liv_ex 4
Liv_ex 2
Liv_cours 5
-1.5
Liv_cours 2
Tex 3 Dim 1 (15.92%) Ani 3
Liv_cours 4
0.0
1.5
Film 3
Liv_ex 1 Liv_cours 1
Tex 1 Ani 1
Film 1
Film 2
-1.0
Liv_ex 3 Ani 2
Tex 2
Fig. 2.4 – Représentation des modalités sur le premier plan. Nous commençons le commentaire par l’axe 2, plus simple (figure 2.4). En effet, il met en évidence une liaison « linéaire » entre les trois composants du cours en ligne : l’axe 2 range les étudiants depuis ceux qui ont jugé ces trois composants inutiles (e.g. le n◦ 1) jusqu’à ceux qui les ont jugés très utiles (e.g. le n◦ 22). Cette dimension, que l’on pourrait résumer par « attitude à l’égard du cours en ligne », n’est pas liée aux opinions émises sur les livres. Le premier axe, quant à lui, oppose : – pour le cours en ligne, les modalités moyennes aux modalités extrêmes ; – pour les livres, les modalités « assez utile » et « très utile » aux autres. Comme (presque) toujours, il est concret de raisonner à partir des individus (c’est particulièrement vrai dans cet exemple où la répartition des individus est discontinue). Ainsi, le premier axe isole, comme déjà mentionné, les individus 5, 8, 9 et 13
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 57 — #65
i
Chapitre 2. Analyse des correspondances multiples
i
57
qui ont émis des jugements moyens sur le cours en ligne et des jugements négatifs ou moyens sur les livres. A l’opposé se trouvent les individus ayant en commun d’avoir trouvé les livres très utiles mais étant très partagés sur le cours en ligne, les uns le trouvant utile (21 à 25), les autres non (6, 7, 11 et 12). Malgré sa petite taille, cet exemple illustre bien les résultats de l’ACM dont l’utilisateur a besoin : une représentation des individus mettant en avant les principales dimensions de leur variabilité ; une représentation des modalités mettant en avant leurs associations les plus remarquables, outil de description des liaisons entre variables qualitatives.
2.8.3
Comparaison ACM/ACP pour des variables ordinales
Dans ces données, les variables présentent une particularité : leurs modalités sont ordonnées. Comme déjà dit, ce cas est suffisamment fréquent pour mériter des commentaires ; en particulier, de telles variables peuvent aussi être considérées comme quantitatives et donc traitées par ACP. Cet exemple est l’occasion de comparer ces deux démarches. En ACP, on n’envisage que les liaisons linéaires. Dans l’espace des fonctions sur I (RI ), une variable quantitative est représentée par un vecteur ; les positions relatives de deux variables se limitent à leur angle (dont le cosinus représente géométriquement le coefficient de corrélation). En ACM, une variable qualitative est représentée par autant de points que de modalités. Les positions relatives de deux variables peuvent présenter des allures très diverses : cela correspond bien à la notion de liaison entre variables qualitatives beaucoup plus complexe, ou, selon un autre point de vue, plus riche que la liaison linéaire entre variables quantitatives. En ACM, la mise en évidence de liaisons non linéaires se traduit concrètement par : – des écarts irréguliers entre modalités consécutives dans un schéma général monotone. C’est le cas des composants du cours en ligne dont les modalités 2 et 4 sont beaucoup plus proches des modalités extrêmes correspondantes (1 et 5) que de la modalité centrale 3. Cet « isolement » des modalités 3 provient du fait que, pour les composants du cours en ligne, ces modalités s’associent presque systématiquement entre elles (en comparaison, les modalités 1 s’associent avec les 2 et les 4 avec les 5) ; – des convergences entre modalités extrêmes (1 et 5) d’une variable qui s’associent de la même façon aux modalités d’une autre question. C’est le cas, par exemple, de livre_exercices_5 qui s’associe aussi bien aux modalités 1 que 5 pour la composante « texte » du cours en ligne. On retrouvera facilement les origines de ces représentations en consultant quelques tableaux croisant les variables deux à deux (tableau 2.2).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 58 — #66
i
58
i
Analyse factorielle multiple avec R
Tex1 Tex2 Tex3 Tex4 Tex5 Ani1 Ani2 Ani3 Ani4 Ani5 Fil1 Fil2 Fil3 Fil4 Fil5 Lco1 Lco2 Lco3 Lco4 Lco5 Ani1 Ani2 Ani3 Ani4 Ani5 Fil1 Fil2 Fil3 Fil4 Fil5 Lco1 Lco2 Lco3 Lco4 Lco5 Lex1 Lex2 Lex3 Lex4 Lex5
3 2 0 0 0 3 2 0 0 0 1 1 0 0 3 2 0 0 1 2
1 3 0 0 0 2 2 0 0 0 1 1 0 2 0 1 1 1 1 0
0 1 4 2 0 0 0 5 1 1 2 3 1 0 1 2 3 1 1 0
0 0 0 3 1 0 0 0 3 1 0 2 1 1 0 0 2 0 2 0
0 0 0 3 2 0 0 0 2 3 1 0 0 1 3 1 0 0 1 3
4 0 0 0 0 3 1 0 0 0 1 0 0 1 2 1 0 0 2 1
0 6 0 0 0 2 3 1 0 0 2 2 0 1 1 2 2 1 0 1
0 0 4 0 0 0 0 4 0 0 1 1 1 0 1 1 1 1 1 0
0 0 0 8 0 0 0 0 5 3 1 3 1 1 2 2 2 0 2 2
0 0 0 0 3 0 0 0 1 2 0 1 0 1 1 0 1 0 1 1
5 0 0 0 0 2 0 0 1 2 1 1 0 2 1
0 4 0 0 0 0 2 0 1 1 2 0 1 0 1
0 0 5 0 0 2 1 1 0 1 1 2 1 1 0
0 0 0 6 0 1 2 1 1 1 1 2 0 2 1
0 0 0 0 5 0 2 0 1 2 1 1 0 1 2
5 0 0 0 0 2 3 0 0 0
0 7 0 0 0 4 3 0 0 0
0 0 2 0 0 0 0 1 1 0
0 0 0 4 0 0 0 1 3 0
0 0 0 0 7 0 0 0 2 5
Tableau 2.2 – Tableau de Burt (juxtaposition des tableaux croisant les variables deux à deux). Les représentations des individus et des variables sur le premier plan de l’ACP réalisée sur ces mêmes données (figure 2.5) montrent : Dim 2 (37.41%) Dim 2 (37.41%)
16
2
5 98
1 3
2 4
17 14
1
Dim 1 (56.75%) -3
15 19
13
-2
-1
Dim 1 (56.75%)
0
1
20 21
2
Films Animation Texte
22
10 -1
7
18
6
-2
12 11
23 24 25
Livre exercices Livre cours
Fig. 2.5 – Représentation des individus (à gauche) et des variables (à droite). – une forte corrélation entre les composants du cours en ligne ; les étudiants qui considèrent utile (resp. inutile) un composant trouvent généralement utiles (resp. inutiles) les autres composants ;
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 59 — #67
i
Chapitre 2. Analyse des correspondances multiples
i
59
– une forte corrélation entre les deux livres ; les étudiants qui considèrent utile (resp. inutile) un livre considèrent aussi l’autre utile (resp. inutile) ; – l’absence de corrélation entre le cours en ligne et les livres. Cet exemple illustre bien ce que l’on peut attendre des deux approches. Les liaisons linéaires entre les variables apparaissent beaucoup plus clairement en ACP ; mais les aspects non linéaires en sont absents. Remarquons que le pourcentage d’inertie associé au premier plan diffère grandement d’une analyse à l’autre (31.33 % en ACM ; 94.16 % en ACP). L’utilisateur de l’ACP peut avoir l’impression d’avoir bien décrit la variabilité de ses données, ce qui ne sera pas le cas de celui de l’ACM. Or, le plan de l’ACM est plus riche que celui de l’ACP. La raison en est que, en ACP, on se limite aux liaisons linéaires et que, en effet dans ce cadre, le premier plan de cette ACP donne une image presque parfaite des données. Le cadre de l’ACM est plus large. Risquons une image : il vaut mieux posséder 31.33 % de quatre millions d’euros que 94.16 % d’un seul million (1 et 4 sont la dimension du sous-espace engendré par une variable dans chacun des deux cas). Il n’en reste pas moins que le plan de l’ACP est précieux, précisément pour son caractère épuré. Nous verrons en 8.4 comment l’AFM peut offrir une méthodologie conjuguant les avantages de ces deux approches.
2.9
ACM dans FactoMineR
Pour illustrer cette mise en œuvre, nous utilisons le fichier « outils pédagogiques » dont le traitement par ACM est décrit plus haut. Les variables sont introduites deux fois, sous forme qualitative et quantitative. Pour le rendre plus général, une variable qualitative (qui sera supplémentaire) est ajoutée (la somme des cinq notes discrétisée appelée Note-en-classes : A, B, C, D, E).
Menu déroulant dans R Commander La fenêtre qui apparaît lorsque l’on sélectionne l’ACM est reproduite figure 2.6. Elle appelle des commentaires analogues à ceux faits pour l’ACP.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 60 — #68
i
60
i
Analyse factorielle multiple avec R
1 2 4 5 6
3
7
Fig. 2.6 – Fenêtre principale de l’ACM dans le menu déroulant de FactoMineR.
1. Les variables (qualitatives) actives sont sélectionnées dans la fenêtre principale. Elles ne sont pas nécessairement contiguës. Si l’on ne sélectionne rien, toutes les variables (qualitatives) sont actives et les variables quantitatives sont ignorées. 2, 3 et 4. Par défaut, il n’y a pas d’élément supplémentaire. En utilisant ce menu déroulant, les variables du fichier non sélectionnées comme actives ou supplémentaires sont ignorées. 5. Ouvre la fenêtre reproduite en figure 2.7. 6. Permet de sélectionner les tableaux de résultats à éditer et d’indiquer un nom de fichier « .csv » (i.e. fichier de texte lisible par Excel) dans lequel seront regroupés tous ces tableaux. 7. Permet de réaliser une classification ascendante hiérarchique (CAH) des individus (méthode de Ward) à partir des coordonnées factorielles. Cet enchaînement d’une classification à l’issue d’une analyse factorielle est disponible pour toutes les méthodes factorielles. Il sera illustré pour l’AFM (chapitre 4). FactoMineR propose trois types de graphiques pour l’ACM (figure 2.7).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 61 — #69
i
i
Chapitre 2. Analyse des correspondances multiples
61
5
1
6
2
7 3
4
Fig. 2.7 – Fenêtre des options graphiques de l’ACM.
1. C’est le graphique classique de l’ACM qui peut contenir à la fois les individus et les modalités des variables qualitatives (appelées « facteurs » dans R), que ces dernières soient actives ou supplémentaires. 2. Ces trois types d’éléments peuvent indépendamment être présents ou non et être étiquetés ou non (souvent, il n’est pas utile d’étiqueter les individus et il suffit de rappeler seulement l’allure générale du nuage qu’ils forment). 3. Affectation de couleurs aux types d’éléments à représenter. 4. Les variables quantitatives, nécessairement supplémentaires en ACM, sont représentées à l’aide de leurs coefficients de corrélation avec les facteurs. Il en résulte un cercle des corrélations qui se lit exactement comme en ACP pour les variables supplémentaires. 5. Le carré des liaisons (cf. figure 2.3 page 55) permet de représenter simultanément les variables qualitatives elles-mêmes (via leur rapport de corrélation avec les facteurs), et non leurs modalités, ainsi que les variables quantitatives (via leur coefficient de corrélation). 6 et 7. Les différents types de variables peuvent être sélectionnés, étiquetés et coloriés indépendamment.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 62 — #70
i
62
i
Analyse factorielle multiple avec R
Exemples de commandes Les données sont dans le fichier Outil_P.csv. Dans un souci de vérification, on édite les noms des variables dans l’ordre du fichier par : > Outils=read.table("Outils_P.csv",sep=";",header=TRUE,row.names=1) > colnames(Outils) [1] "Texte" "Animation" "Films" [4] "Livre_cours" "Livre_exercices" "Note_en_classes" [7] "Texte_quanti" "Animation_quanti" "Films_quanti" [10] "Livre_cours_quanti" "Livre_exercices_quanti" On constitue un nouveau data.frame (de nom Outils_MCA) contenant seulement les cinq premières colonnes de Outils, par l’instruction : > Outils_MCA=Outils[,1:5] Cette sélection permet d’appliquer au data.frame Outils_MCA l’ACM avec toutes les options par défaut (ce qui n’est pas possible avec Outils du fait de la présence de variables quantitatives que l’on ne souhaite pas inclure dans l’analyse) soit : > res=MCA(Outils_MCA) Cette commande affiche les graphiques de base (individus, modalités et variables sur le premier plan) et génère tous les tableaux de résultats (coordonnées, contributions, etc., des individus, des modalités, etc.) rangés dans la liste res. Cette liste est de la classe MCA, attribut reconnu par la fonction générique plot. En pratique, on peut indifféremment commander des graphiques via la fonction plot.MCA, introduite ci-après, ou via la fonction générique plot (à condition, bien sûr, d’avoir chargé le package FactoMineR). On pourra exporter tous ces tableaux dans un fichier « .csv » par la commande : > write.infile(res,file="Sortie_ACM_Outils.csv") On peut aussi écrire directement la sélection des colonnes dans la fonction MCA : > res=MCA(Outils[,1:5]) Les graphiques sont commandés par une fonction spécifique de l’ACM : plot.MCA. Cette fonction construit le type de graphique adapté aux éléments à représenter, éléments définis par l’argument choix, soit : 1. Choix="ind". Graphique usuel : individus + modalités (actives et supplémentaires) ; 2. Choix="quanti.sup". Cercle des corrélations pour les variables quantitatives (nécessairement supplémentaires) ; 3. Choix="var". Carré des liaisons.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 63 — #71
i
Chapitre 2. Analyse des correspondances multiples
i
63
Par défaut, tous les éléments (individus et variables) sélectionnés sont étiquetés. Ainsi, le carré des liaisons (figure 2.3 à gauche page 55) s’obtient par : > plot(res,choix="var") On peut retirer des éléments de la sélection par l’argument invisible ; le graphique des seuls individus (figure 2.3 à droite page 55) s’obtient par : > plot.MCA(res,choix="ind",invisible="var") On peut étiqueter seulement certains éléments via label ; pour obtenir le graphique des modalités étiquetées, les individus ne l’étant pas : > plot.MCA(res,choix="ind",label="var") On applique maintenant l’ACM à l’ensemble du fichier Outils. Les variables qualitatives supplémentaires doivent être indiquées en tant que telles (sinon elles sont considérées comme actives), ainsi que les variables quantitatives supplémentaires (sinon elles engendrent un message d’erreur) : > res=MCA(Outils,quali.sup=6,quanti.sup=c(7:11)) Par défaut, cette commande affiche tous les graphiques de base : individus (ind), modalités (var), variables quantitatives (quanti.sup ; cercle des corrélations), toutes les variables (var ; carré des liaisons). La fonction plot.MCA présente beaucoup de possibilités. Par exemple, représenter les seuls individus, coloriés en fonction de la variable (qualitative) n◦ 6, grâce à l’argument habillage (hab=6) : > plot.MCA(res,choix="ind",invisible=c("var","quali.sup"),hab=6) Commande du carré des liaisons (choix = "var") en se limitant aux variables actives (invisible=c("quanti.sup","quali.sup")) : > plot.MCA(res,choix="var",invisible=c("quanti.sup","quali.sup")) Il est souvent commode de représenter les valeurs propres sous la forme d’un diagramme en barre. La figure 2.2 page 55 a été obtenue via la commande : > barplot(res$eig[,1],names=1:20,cex.names=0.8) Les valeurs propres sont dans la première colonne de res.mca$eig. L’argument names contient le nom des barres (ici le rang de l’axe), tandis que cex.names modifie la taille des caractères des noms des barres (ici, cette taille est réduite pour permettre un affichage du nom de chaque barre sans produire un graphique trop grand). Si l’on souhaite se limiter aux dix premières valeurs propres :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 64 — #72
i
64
i
Analyse factorielle multiple avec R
> barplot(res.mca$eig[1:10,1],names=1:10) La figure 2.4 page 56 s’obtient en affichant, via plot.MCA, une fenêtre active avec les positions des points. Dans cette fenêtre, on ajoute les traits (via la fonction points). Dans la liste res produite par l’ACM, les coordonnées des modalités sont dans res$var$coord. Ces modalités sont rangées par variable et, au sein de chaque variable, dans l’ordre alphabétique soit, dans cet exemple, par degré d’utilité croissant (e.g. de fil1–films inutiles – à fil5 – films très utiles). Pour relier les modalités d’une même variable dans leur ordre naturel, on indique leurs coordonnées dans la fonction points et l’on utilise l’argument type = "o", pour afficher les points et les relier. Soit, pour relier les modalités de la première variable (Texte) : > plot(res,choix="ind",invisible="ind") > points(res$var$coord[1:5,1],res$var$coord[1:5,2],type="o") Pour relier celles de la seconde variable (lignes de 6 à 10) : > points(res$var$coord[6:10,1],res$var$coord[6:10,2],type="o")
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 65 — #73
i
i
Chapitre 3
Analyse factorielle de données mixtes L’introduction simultanée de variables quantitatives et qualitatives (données dites mixtes) en tant qu’éléments actifs d’une même analyse factorielle est une problématique fréquente. La méthodologie usuelle consiste à transformer les variables quantitatives en qualitatives, en découpant en classes leur intervalle de variation, et à soumettre le tableau homogène ainsi obtenu à une analyse des correspondances multiples (ACM). Cette méthodologie est relativement facile à mettre en œuvre et éprouvée dès lors que les individus sont un tant soit peu nombreux, disons au-delà d’une centaine pour fixer les idées, limite en deçà de laquelle l’ACM donne des résultats peu stables. L’intérêt de conserver telles quelles les variables quantitatives reprend ses droits dans deux cas : – lorsque le nombre de variables qualitatives est très petit comparé à celui des variables quantitatives : ainsi, on peut hésiter à recoder vingt variables quantitatives dans le seul but de pouvoir introduire une seule variable qualitative ; – lorsque le nombre d’individus est faible. La méthode présentée ici a plusieurs origines. En 1979, B. Escofier a proposé d’introduire des variables quantitatives (moyennant un codage approprié) dans une ACM. En 1990, G. Saporta a proposé d’introduire des variables qualitatives en ACP (moyennant une métrique particulière). En fait, ces deux points de vue conduisent aux mêmes résultats. Il en résulte une analyse factorielle qui présente suffisamment de bonnes propriétés et de potentiel d’application pour justifier le statut d’une méthode à part entière : l’analyse factorielle de données mixtes (AFDM).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 66 — #74
i
66
i
Analyse factorielle multiple avec R
3.1
Données, notations
Nous disposons de I individus. Chaque individu i est muni du poids pi tels que P p = 1. Pour simplifier, sauf mention explicite du contraire, nous supposons les i i individus de même poids soit pi = 1/I ∀i. Ces individus sont décrits par : – K1 variables quantitatives {k = 1, K1 }. Ces variables seront toujours supposées centrées réduites. Cela n’est pas une commodité mais une nécessité due à la présence des deux types de variables ; – Q variables qualitatives {q = 1, Q}. La q e variable P présente Kq modalités {kq = 1, Kq }. L’ensemble des modalités a pour cardinal q Kq = K2 . On note pkq la proportion des individus possédant la modalité kq . Soit K = K1 + K2 le nombre total de variables quantitatives et de variables indicatrices. Ces notations peuvent être rassemblées dans le tableau de la figure 3.1, dans lequel les variables qualitatives apparaissent à la fois sous leur forme condensée et sous leur forme disjonctive complète. ͳ
ȋ
±Ǧ±Ȍ
ȋ
±Ȍ
αʹ
ȋ
Ȍ
ͳ
ͳ
ͳͳ
ͳ
ͳ
ʹ
ͳ
yikq
Fig. 3.1 – Structure des données et principales notations. xik : valeur de i pour la variable (centrée réduite) k ; xiq : modalité de i pour la variable q ; yikq : 1 si i possède la modalité kq de la variable q et 0 sinon.
3.2
Représentation des variables
Soit RI l’espace des fonctions sur I. Cet espace est muni de la métrique diagonale des poids des individus notée D : 0 si j 6= i D(i, j) = pi si j = i.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 67 — #75
i
Chapitre 3. Analyse factorielle de données mixtes
i
67
Généralement, les individus ont le même poids : D = (1/I)Id (en notant Id la matrice identité de dimension convenable). Comme en ACP normée, les variables quantitatives sont représentées par des vecteurs de longueur 1. Comme en ACM, la variable q est représentée par le nuage Nq de ses Kq indicatrices centrées. Ce nuage engendre le sous-espace Eq de dimension Kq − 1, ensemble des fonctions sur I centrées et constantes sur les classes de la partition définie par q. Pour que Nq possède, si on le soumet à un programme d’ACP non normée, les mêmes propriétés inertielles que dans une ACM, il faut diviser l’indicatrice kq par pkq et lui affecter le poids pkq (en toute rigueur, obtenir exactement l’inertie de l’ACM nécessite le poids pkq /J (cf. 2.4.1). Ce qui « moyenne » les inerties par le nombre de variables, propriété indésirable ici, où les variables qualitatives sont confrontées à des variables quantitatives dont les inerties ne sont pas « moyennées »). En procédant ainsi, on obtient en particulier la propriété fondamentale suivante de l’ACM : l’inertie projetée de Nq sur une variable centrée y est égale au carré du rapport de corrélation η 2 (q, y) entre q et y. En recherchant la direction v de RI qui rend maximum l’inertie projetée du nuage NK (comportant les variables quantitatives et les indicatrices), on rend maximum le critère : X X r2 (k, v) + η 2 (q, v) k∈K1
q∈Q
point de départ de la méthode proposée par Gilbert Saporta en 1990. Géométriquement, les variables k étant réduites, la coordonnée de la projection de la variable k sur v vaut cos(θkv ) = r(k, v) en notant θkv l’angle entre les vecteurs k et v. De même, v étant centrée, η 2 (q, y) = cos2 (θqv ), en notant θqv l’angle entre v et sa projection sur Eq . Le critère s’écrit alors : X X cos2 θkv + cos2 θqv k∈K1
q∈Q
point de départ de la méthode proposée par Brigitte Escofier en 1979. L’influence d’une variable doit être raisonnée en fonction de la dimension du sousespace qu’elle engendre. Ainsi, dans l’espace RI : – une variable quantitative est représentée par un vecteur associé à une inertie de 1 ; – une variable qualitative à Kq modalités est représentée par Kq vecteurs engendrant un sous-espace Eq de dimension Kq − 1, l’ensemble étant associé à une inertie de Kq − 1. Comme en ACM, l’inertie totale d’une variable qualitative est d’autant plus grande qu’elle présente beaucoup de modalités ; mais en projection sur une direction quelconque de Eq , cette inertie vaut 1. En ce sens, les variables des deux types sont équilibrées dans la recherche de directions d’inertie maximum, ce qui est bien traduit par l’une ou l’autre des deux écritures du critère ci-dessus.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 68 — #76
i
68
i
Analyse factorielle multiple avec R
3.3
Représentation des individus
L’espace RK a pour dimensions les K1 variables quantitatives et les K2 indicatrices. Il est muni de la métrique euclidienne diagonale des poids des colonnes (1 pour les variables quantitatives et pkq pour les modalités). La distance entre les individus i et l s’écrit :
d2 (i, l) =
X
2
(xik − xlk ) +
X X q∈Q k∈Kq
k∈K1
pkq
yikq ylkq − pkq pkq
2 .
Les variables quantitatives contribuent à cette distance exactement comme elles le font dans l’ACP portant sur ces seules variables (cf. 1.3 page 3) ; les variables qualitatives contribuent à cette distance (au coefficient 1/Q près) comme elles le font dans l’ACM de ces seules variables (cf. 2.4 page 40). Un cas particulier important est celui de la distance entre un individu et le centre de gravité du nuage. Ce centre de gravité est confondu avec l’origine O dès lors que les variables sont centrées, ce que nous avons supposé d’emblée pour les variables quantitatives. Pour les indicatrices codées ACM, compte tenu de la division par pkq , la moyenne de la colonne kq vaut 1 (cf. 2.4). On obtient finalement :
2
d (i, O) =
X k∈K1
x2ik
+
X X q∈Q kq ∈Kq
pkq
2 X X 1 − pq(i) yikq −1 = x2ik + pkq pq(i) k∈K1
q∈Q
en notant q(i) la modalité de la variable q possédée par i et pq(i) la proportion associée à q(i). Il reste à s’assurer de l’équilibre entre les influences des deux types de variables dans ces relations. Il est naturel de mesurer l’influence d’une variable par sa contribution à l’inertie de l’ensemble des points. Les considérations établies dans RI se transposent dans RK par dualité. En particulier, dans le sous-espace de RK engendré par les Kq modalités de la variable q, la projection du nuage des individus a une inertie de Kq − 1 répartie de façon isotrope dans toutes les directions de ce sous-espace de dimension Kq − 1. Comme dans toute analyse factorielle, on représente : – le nuage des individus par sa projection sur ses axes d’inertie (on note Fs (i) la projection de l’individu i sur l’axe de rang s) ; – les variables quantitatives par leur coefficient de corrélation avec les facteurs Fs ; – les modalités de variables qualitatives par les centres de gravité des individus correspondants : on note Fs (kq ) la coordonnée de la projection, sur l’axe de rang s, du centre de gravité des individus possédant la modalité k de la variable q.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 69 — #77
i
Chapitre 3. Analyse factorielle de données mixtes
3.4
i
69
Relations de transition
On applique ici les formules générales de l’ACP (cf. 1.5.4) au tableau codé comme indiqué en 3.2. Relations de RK vers RI Soit Gs (k) la coordonnée de la colonne k sur l’axe de rang s. Cas d’une variable quantitative : 1 X pi xik Fs (i) = r (k, Fs ) . Gs (k) = √ λs i Cas d’une modalité kq de la variable q ayant la fréquence relative pkq : 1 1 X 1 Gs (kq ) = √ pi yikq Fs (i) = √ Fs (kq ) λs pkq i λs en notant Fs (kq ) les centres √ de gravité des individus ayant la modalité k. Comme en ACM, au coefficient 1/ λs près, la coordonnée d’une modalité, en tant qu’indicatrice (i.e. dans RI ), est égale à celle du barycentre des individus qui la possèdent (dans RK ). Relation de RI vers RK Cette relation est fondamentale en ACM où elle exprime la position d’un individu par rapport aux modalités qu’il possède. Elle est rarement explicitée en ACP mais est sous-jacente aux interprétations. Pour l’AFDM, elle s’écrit : yikq 1 X 1 X Fs (i) = √ xik Gs (k) + √ pk − 1 Gs (kq ). λs k∈K λs k ∈K q pkq 1
q
2
Le premier membre est celui de l’ACP usuelle (cf. 1.5.4). Il exprime qu’un individu se trouve globalement du côté des variables pour lesquelles il a une valeur au-dessus de la moyenne et à l’opposé des variables pour lesquelles il a une valeur au-dessous de la moyenne. Le second membre est, au coefficient 1/Q près, celui de l’ACM (cf. 2.5.3). Il peut s’écrire en fonction de Fs (kq ) : 1 X λs
kq ∈K2
1 X yikq − pkq Fs (kq ) = yikq Fs (kq ). λs kq ∈K2
Cette dernière écriture exprime qu’un individu est, au coefficient λs près, au barycentre des modalités qu’il possède (ces modalités étant elles-mêmes des barycentres d’individus).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 70 — #78
i
70
i
Analyse factorielle multiple avec R
Remarque Dans la relation de transition exprimant la coordonnée d’un individu en fonction de√ celles des modalités, le coefficient est : – λs si les modalités sont représentées par la projection des indicatrices dans RI ; – λs si les modalités sont représentées par les centres de gravité des individus possédant une même modalité (dans RK ). Finalement, un individu se trouve à la fois du côté des variables quantitatives pour lesquelles il a une forte valeur et du côté des modalités qu’il possède.
3.5
Mise en œuvre
Le plus simple est d’utiliser un programme d’AFDM, par exemple la fonction FADM du package FactoMineR ou la fonction d’AFDM d’UNIWIN Plus. Sinon, on peut réaliser une AFDM à partir d’un programme usuel d’ACP. Pour cela, les variables quantitatives doivent être au préalable centrées et réduites puisque l’on utilise l’ACP non normée. Les variables qualitatives apparaissent au travers de √ leurs indicatrices dans lesquelles yikq (= 0 ou 1) est divisé par pkq (diviser par √ pkq , et non par pkq comme indiqué en 3.2, permet d’utiliser la métrique identité dans RK , les programmes usuels d’ACP ne permettant pas d’autre métrique ; en outre, il n’est pas utile de centrer puisque les programmes usuels d’ACP le font). Une telle ACP fournit directement les représentations des individus et des variables quantitatives. Pour obtenir la représentation des centres de gravité des modalités, on introduit aussi les variables qualitatives déclarées comme telles en supplémentaire.
3.6
Exemple : biométrie de six individus
Pour illustrer l’AFDM, nous utilisons un petit ensemble de données très simple. Six individus sont décrits par deux variables quantitatives non corrélées (taille et poids) et une variable qualitative (couleur des cheveux, à trois modalités) liée aux deux premières. Les données sont rassemblées dans le tableau 3.1.
a b c d e f Moyenne Ecart-type
Couleur des cheveux blond blond châtain châtain brun brun
Taille 1 2 3 4 5 6 3.5 1.708
Poids 1 2 3 3 2 1 2 0.816
Taille c.r. -1.464 -0.878 -0.293 0.293 0.878 1.464 0 1
Poids c.r. -1.225 0.000 1.225 1.225 0.000 -1.225 0 1
Tableau 3.1 – Données (c.r. : centré réduit).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 71 — #79
i
Chapitre 3. Analyse factorielle de données mixtes
i
71
Le tableau 3.2, dit « matrice des liaisons », rassemble les mesures de liaisons entre les variables prises deux à deux. Ces mesures sont : – le carré du coefficient de corrélation dans le cas de deux variables quantitatives. Les variables taille et poids sont orthogonales ; – le carré du rapport de corrélation dans le cas d’une variable quantitative et d’une variable qualitative. La couleur des cheveux est liée à la fois à la taille et au poids ; elle est plus liée à la taille (.914 > .750) ce qui peut se lire dans les données : par exemple, les blonds d’une part et les bruns d’autre part ont des poids moyens identiques, mais des tailles moyennes très différentes ; – le φ2 (= χ2 /I) dans le cas de deux variables qualitatives. Ici, cela ne concerne que le terme diagonal correspondant à la couleur des cheveux ; on retrouve le nombre de modalités moins 1.
Couleur des cheveux Taille Poids
Couleur des cheveux 2 0.914 0.750
Taille
Poids
1 0
1
Tableau 3.2 – Matrice des liaisons. Chaque nombre, hors diagonale, est le carré du coefficient de corrélation ou du rapport de corrélation selon la nature des variables concernées. Diagonale : 1 pour les variables quantitatives ; nombre de modalités moins 1 pour les variables qualitatives. Comme attendu, vu la manière dont les données ont été construites, le premier plan exprime la quasi-totalité (95.56 %) de l’inertie (première ligne du tableau 3.3).
% d’inertie Valeur propre Couleur des cheveux Taille Poids
F1 48.91 1.96 0.98 0.98 0
F2 46.65 1.87 0.93 0 0.93
F3 3.35 0.13 0.07 0 0.07
F4 1.10 0.04 0.02 0.02 0
Tableau 3.3 – Inertie décomposée par axe et par variable. Quel que soit l’axe, son inertie se répartit de façon parfaitement équilibrée entre une variable quantitative et la variable qualitative. Cet exemple illustre bien : – l’efficacité de l’AFDM pour gérer le problème crucial de l’équilibre entre les deux types de variables ; – le fait qu’une variable quantitative ne peut être étroitement liée qu’à un seul axe (comme en ACP), alors qu’une variable qualitative peut être étroitement liée à « nombre de modalités −1 » axes (comme en ACM).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 72 — #80
i
72
i
Analyse factorielle multiple avec R
La figure 3.2 représente les positions relatives des variables et des axes dans RI . Du fait de l’orthogonalité entre taille et poids, les axes sont situés sur la bissectrice de l’angle formé par une variable quantitative et sa projection sur le plan engendré par la variable qualitative. Cette figure illustre parfaitement l’interprétation géométrique de l’AFDM dans l’espace des fonctions sur I et comment est réalisé l’équilibre entre les deux types de variables. Poids F2 Couleur Taille
F1
Fig. 3.2 – Représentation des variables et des axes dans RI . La contribution (absolue) d’une variable à l’inertie d’un axe s’interprète aussi comme une mesure de liaison entre la variable et l’axe. Dim 2 (46.65 %)
1.0
c Couleur des cheveux
0.8
Poids
0.6
1
0.4
Dim 1 (48.9 %)
-2
b
-1
1
2
e
0.0
0.2
Dim 2 (46.65 %)
d
-1
Taille 0.0
0.2
0.4
0.6
0.8
a
f
1.0
Dim 1 (48.9 %)
Fig. 3.3 – Carré des liaisons (à gauche) et représentation des individus (à droite). On représente ces inerties dans le graphique dit carré des liaisons (figure 3.3 à gauche) dans lequel la coordonnée d’une variable v le long de l’axe de rang s s’interprète comme le carré :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 73 — #81
i
i
Chapitre 3. Analyse factorielle de données mixtes
73
– du coefficent de corrélation entre v et la composante principale Fs si v est quantitative ; – du rapport de corrélation entre v et Fs si v est qualitative. Le carré des liaisons a déjà été introduit en ACM (figure 2.3 page 55). Il est généralisé en AFM (chapitre 7). Dans l’exemple, le carré des liaisons montre que : – – – –
le premier facteur est dû uniquement aux variables taille et couleur ; le deuxième facteur est dû uniquement aux variables poids et couleur ; dans les deux cas, les contributions sont équilibrées entre les deux variables ; dans les deux cas, le facteur est étroitement lié à chacune des deux variables.
Ce cadre général étant posé, l’interprétation des figures 3.3 et 3.4 est aisée dans ce cas simple. Le premier axe oppose les petits blonds aux grands bruns. Ces deux groupes d’individus sont légers et s’opposent aux individus lourds et châtains sur le deuxième axe.
Dim 2 (46.65 %)
châtain
1.5 Dim 2 (46.65 %)
Poids
1.0
0.5
Dim 1 (48.9 %)
Dim 1 (48.9 %)
Taille -2
-1
1
2
-0.5
blond
brun -1.0
Fig. 3.4 – Représentation des variables quantitatives (A) et des modalités de la variable quantitative (B).
3.7
AFDM dans FactoMineR
Les données « biométrie » (tableau 3.1 page 70) servent d’illustration.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 74 — #82
i
74
i
Analyse factorielle multiple avec R
Menu déroulant dans R Commander
2
1 3 4
5
6
Fig. 3.5 – Fenêtre principale de l’AFDM.
1. Fenêtre dans laquelle on sélectionne les variables quantitatives actives. 2. Fenêtre dans laquelle on sélectionne les variables qualitatives (facteurs) actives. 3. Boutons commandant l’ouverture des fenêtres pour sélectionner des éléments supplémentaires. 4. Commande l’ouverture de la fenêtre des graphiques (figure 3.6). 5. Les options de sortie permettent, si besoin, d’éviter l’affichage des résultats concernant les individus (ce qui est précieux s’ils sont très nombreux) et de stocker l’ensemble des résultats dans un fichier « .csv ». 6. On peut exécuter une CAH (méthode de Ward) à partir des coordonnées factorielles.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 75 — #83
i
i
Chapitre 3. Analyse factorielle de données mixtes
75
1 4 2 3
5
6
Fig. 3.6 – Fenêtre des options graphiques de l’AFDM. L’AFDM produit trois types de graphiques. – Graphe des individus (et des modalités) 1 et 2. Permet de sélectionner et d’étiqueter les types d’éléments à représenter de façon (presque) indépendante. 3. On peut affecter une couleur aux individus en fonction de leur modalité pour une variable qualitative, active ou supplémentaire. Ici, une seule variable est disponible : couleur (des cheveux). – Graphe des variables (carré des liaisons) 4. On peut gérer indépendamment la couleur des différents types de variables. – Graphe des variables quantitatives (cercle des corrélations). 5. On peut gérer indépendamment la couleur des différents types de variables quantitatives. 6. Permet de sélectionner un type de variables quantitatives à représenter.
Exemples de commandes Les données sont importées et éditées à titre de vérification : > biometrie=read.table("biometrie.csv",sep=";",header=TRUE, + row.names=1) > biometrie Couleur Taille Poids a blond 1 1
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 76 — #84
i
76
i
Analyse factorielle multiple avec R b blond c châtain d châtain e brun f brun
2 3 4 5 6
2 3 3 2 1
L’AFDM peut être lancée en choisissant toutes les options par défaut : > res=FADM(biometrie) Dans ce cas, toutes les variables, quantitatives et qualitatives, sont actives. Tous les tableaux de résultats sont stockés dans le fichier de sortie (res). Les quatre graphiques de ce chapitre (individus, modalités, carrés des liaisons et cercle des corrélations ; figures 3.3 page 72 et 3.4 page 73) sont affichés par défaut. Les graphiques sont obtenus par une fonction spécifique de l’AFDM : plot.FADM. Le type de graphique est déterminé par le type d’éléments à représenter spécifié dans l’argument choix : ind pour les individus et les modalités ; group pour le carré des liaisons : var pour le cercle des corrélations. La commande suivante affiche les individus (choix="ind"), et eux seuls (invisible="quali"), en les coloriant selon leur modalité pour la première variable (argument habillage : hab=1) : > plot.FADM(res,axes=c(1,2),choix="ind",hab=1,invisible="quali") Pour obtenir le tableau 3.1 page 70, on centre et on réduit (fonction scale ; cf. remarque en 1.11) les variables quantitatives, résultat que l’on stocke dans la matrice tab3_1 : > tab3_1=scale(biometrie[,2:3])*sqrt(6/5) Enfin, on concatène horizontalement tab3_1 avec les données brutes par : > cbind(biometrie,tab3_1) La matrice des liaisons (tableau 3.2 page 71) est dans res$var$Lg. Pour construire le tableau 3.3 page 71, les valeurs propres et pourcentages d’inertie, qui sont dans les deux premières colonnes de res$eig sont stockées, et transposées (fonction t), dans la matrice tab3_3 : > tab3_3=t(res$eig[,c(2,1)]) Ce tableau est concaténé avec les inerties des variables le long des axes (dans res$var$coord) en se limitant aux quatre premiers axes, les suivants étant d’inertie nulle : > round(rbind(tab3_3[,1:4],res$var$coord[,1:4]),2)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 77 — #85
i
i
Chapitre 4
Pondération des groupes de variables Avec ce chapitre, commence la description de l’analyse factorielle multiple. Les points clés de la méthode sont abordés successivement dans quatre chapitres. Le premier d’entre eux vise à équilibrer les groupes, dans une analyse globale, via une pondération des variables. Cette spécificité de l’AFM est capitale, en ce sens que bon nombre de propriétés de la méthode en découlent.
4.1
Problématique
Par commodité, nous nous situons ici dans le cas de variables quantitatives normées. Le tableau analysé étant de type individus × variables, la problématique qui lui est associée contient en premier lieu celle de l’ACP, à savoir : – une représentation de la variabilité des individus. Elle se fait à l’aide des principales dimensions de cette variabilité ; – une représentation des corrélations entre variables. Elle se fait à l’aide de variables synthétiques. A ce niveau de généralité, cette problématique vaut, que les variables soient structurées en groupes ou non. Il convient donc de préciser l’influence de la structure en groupes sur la problématique. L’idée fondamentale est que la distinction de groupes parmi les variables implique, plus ou moins explicitement, un équilibre (en un sens à préciser) global. Que dire en effet d’une telle analyse qui conduirait, par exemple, à un premier facteur dépendant principalement d’un seul groupe ? Ce premier facteur ne traduit-il pas tout simplement une influence a priori, plus grande de ce groupe de variables ? Auquel cas il présente peu d’intérêt. En revanche, si l’influence a priori des groupes a été équilibrée, l’utilisateur pourra interpréter « sur le fond » l’impossibilité, dans ces données, de mettre en évidence une direction d’inertie importante à laquelle les différents groupes contribuent (à
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 78 — #86
i
78
i
Analyse factorielle multiple avec R
peu près) également. Sans entrer dans les détails techniques, ce qui sera fait plus loin, on peut dès à présent préciser ce que l’on attend d’un tel équilibre. Plusieurs points de vue peuvent être abordés. Notre cadre étant celui de l’analyse factorielle, nous focalisons notre attention sur l’inertie des nuages étudiés. Groupes
1
j
1
Variables
K1
1
J
k
Kj
1
KJ
1 Indiv.
xik
i
X1
I
Xj
XJ
Fig. 4.1 – Tableau dont les variables sont structurées en groupes. Notations. On reprend les notations de l’ACP (figure 4.1) : (i, IP ) pour les individus, (k, K ) pour les variables, pi pour le poids de l’individu i ( i pi = 1). On les complète par celles relatives aux groupes. j : indice du groupe courant. J : nombre de groupes (ou ensemble des groupes). P Kj : nombre de variables du groupe j (ou ensemble de ces variables) et K = j Kj . Xj : sous-tableau contenant les données du seul groupe j. Exprimons l’inertie totale du nuage des individus (identique à celle du nuage des variables) en faisant apparaître la part de chaque groupe de variables (les données sont supposées centrées). Soit : X X X X X X X X pi d2 (O, i) = pi x2ik = pi x2ik = V ar(k). i
i
k
j
k∈Kj
i
j
k∈Kj
Ainsi, la contribution du groupe j à l’inertie totale du nuage des individus est égale à la somme des variances des variables de ce groupe. Dans le cas de l’ACP normée, cette contribution est égale au nombre de variables, ce qui correspond bien à l’intuition selon laquelle l’influence d’un groupe dépend avant tout de son nombre de variables. Ce résultat a conduit plusieurs auteurs à proposer de normaliser (à 1) cette contribution (ce que l’on obtient en accordant à chaque variable un poids égal à l’inverse du nombre de variables du groupe auquel elle appartient). Mais, mise à part la notion d’inertie, l’approche qui précède ne prend pas en compte la démarche de l’analyse factorielle, à savoir le fait de rechercher des directions d’inertie maximum. Dans cette perspective, on exprime le critère maximisé par le premier axe en faisant apparaître la contribution de chaque groupe de variables. Il est plus direct de raisonner sur le nuage des variables. En notant Hks la projection de la variable k sur l’axe de rang s, le critère associé à l’axe de rang s s’écrit : X X X 2 2 (OHks ) = (OHks ) . k
j
k∈Kj
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 79 — #87
i
i
Chapitre 4. Pondération des groupes de variables
79
La contribution d’un groupe de variables est ici la somme des inerties projetées des variables de ce groupe. On peut chercher à harmoniser directement ces contributions et non pas indirectement avec l’approche précédente. En effet, dans cette nouvelle approche, l’harmonisation (par exemple à 1) des inerties totales des groupes fournit bien une borne supérieure à la contribution d’un groupe à la construction d’un axe. Mais, si l’inertie totale d’un groupe est égale à 1, cette borne ne peut être atteinte que par un groupe strictement unidimensionnel. On peut souhaiter que l’équilibre entre les groupes réside dans une borne (pour la contribution) susceptible d’être a priori atteinte par chaque groupe (ensuite, le fait qu’elle soit ou non atteinte dépend, bien sûr, des données).
4.2
Exemple numérique introductif
Nous illustrons ces considérations à l’aide d’un exemple, en raisonnant dans l’espace des variables (RI ). Dans cet espace, les variables du groupe j constituent un j j que nous analysons. . C’est l’inertie de ces nuages NK nuage noté NK
1 2 3 4 5 6 7 8
V1 1 1 1 1 -1 -1 -1 -1
V2 1 1 -1 -1 1 1 -1 -1
V3 1 -1 1 -1 1 -1 1 -1
V4 1 0 0 1 -1 0 0 -1
V5 1 0 0 1 -1 0 0 -1
V1 V2 V3 V4 V5
V1 1 0 √ 0 √2/2 2/2
V2
V3
V4
V5
1 0 0 0
1 0 0
1 1
1
(b)
(a)
Tableau 4.1 – Données (a) et matrice des corrélations (b). On considère huit individus décrits par deux groupes de variables (tableau 4.1). Le groupe 1, {V 1, V 2, V 3}, comporte trois variables non corrélées (on reconnaît dans ce groupe le plan d’expérience complet pour trois facteurs à deux modalités mais ces facteurs sont considérés ici comme quantitatifs). Le groupe 2, {V 4, V 5}, contient deux variables identiques, corrélées à une seule variable du groupe 1. Le tableau 4.2-A rassemble les résultats de l’ACP du tableau 4.1 concernant les variables et le premier axe. Ce premier axe est dû principalement au groupe 2 : la contribution relative de ses variables à l’axe 1 s’élève à 72.36 %. Ainsi, dans cet exemple (construit « pour », il est vrai), c’est le plus petit groupe qui infléchit de façon majoritaire le premier axe. On illustre ainsi l’insuffisance de la notion d’inertie totale pour cerner l’influence d’un groupe : il faut prendre en compte la répartition de cette inertie. Dans
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 80 — #88
i
80
i
Analyse factorielle multiple avec R A V1 V2 V3 V4 V5 Somme
Coordonnée 0.85 0 0.00 0.97 0.97
Contribution 0.72 0 0.00 0.95 0.95 2.62
Contribution (%) 27.64 0 0 36.18 36.18 100
B V1 V2 V3 V4 V5 V6 Somme
Coordonnée 0.811 0 0 0.99 0.99 0.99
Contribution 0.66 0 0 0.97 0.97 0.97 3.581
Contribution (%) 18.38 0 0 27.21 27.21 27.21 100
Tableau 4.2 – Coordonnées et contributions des variables pour le premier axe de l’ACP du tableau 4.1 (A) ou du tableau 4.1 dans lequel on a ajouté une variable V 6 identique à V 4 et V 5 (B).
l’exemple, le groupe 2 a une inertie totale de 2, concentrée dans une seule direction ; le groupe 1 a une inertie totale supérieure (3) mais équirépartie dans un sous-espace à trois dimensions. L’analyse factorielle, recherchant des directions de grande inertie, est par définition très sensible à la répartition de l’inertie dans les groupes : d’où la nécessité de prendre en compte cette répartition dans la recherche d’un équilibre entre groupes. Où l’on retrouve l’idée, émise dans la problématique, de ne pas chercher à équilibrer les groupes dans l’absolu, mais en prenant en compte les méthodes statistiques utilisées. En équilibrant l’inertie totale de chaque groupe, on renforcerait encore l’influence du groupe 2 sur le premier axe : la contribution de ce groupe à cet axe passerait alors à 81.62 % (cf. tableau 4.2-B ; concrètement, dans cet exemple, la pondération par l’inertie totale (3) est obtenue en ajoutant une variable V 6 identique à V 4 et V 5 et en utilisant un programme usuel d’ACP). Bien que choisi pour sa simplicité, cet exemple n’est pas irréaliste : il suffit de songer à la situation dans laquelle un groupe est réduit à une seule variable, l’autre en comportant beaucoup. Dans un tel cas, la pondération par l’inertie totale conduirait à un premier axe quasiment confondu avec la variable du groupe qui n’en comporte qu’une.
4.3
Pondération des variables en AFM
Prendre en compte la répartition de l’inertie, d’une manière qui s’applique quel que soit le nombre de variables, nécessite de ne considérer que la principale direction
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 81 — #89
i
Chapitre 4. Pondération des groupes de variables
i
81
d’inertie (tout groupe en possède une) ; la pondération de l’AFM s’inscrit dans cette perspective. Pour un groupe j donné, elle consiste à affecter un poids à chaque variable tel que : – ce poids est le même pour chaque variable du groupe ; de cette façon on ne déforme pas la répartition de l’inertie à l’intérieur de chaque groupe j ; – l’inertie axiale maximum est égale à 1 (cette inertie est la première valeur propre de l’ACP séparée du groupe j en prenant en compte ces poids). Pour cela, on j affecte à chaque variable du groupe j le poids 1/λ1 en notant λj1 la première valeur propre de l’ACP séparée du groupe j. L’ACP du tableau complet avec ces poids est le cœur de l’AFM. Dans l’exemple, cela revient à accorder le poids 1 à chaque variable du groupe 1 et le poids 1/2 à chaque variable du groupe 2. Les coordonnées et contributions des variables associées au premier axe de l’AFM sont rassemblées tableau 4.3. Dans cette analyse, les contributions des groupes au premier axe (i.e. les sommes des contributions des variables d’un même groupe) sont rigoureusement identiques. La pondération a parfaitement fonctionné. Libellé V1 V2 V3 V4 V5 somme
Poids 1 1 1 0.5 0.5
Coordonnée 0.924 0 0 0.924 0.924
Contribution 0.854 0 0 0.427 0.427 1.707
Contribution (%) 50 0 0 25 25 100
Tableau 4.3 – Coordonnées et contributions des variables pour le premier axe.
V4
V5
F1 ACP Inerties totales équilibrées F1 ACP F1 AFM
EV1V2V3 V1
Fig. 4.2 – Représentation schématique dans RI de variables du tableau 4.1 et des premiers facteurs normés de plusieurs analyses. EV 1V 2V 3 : sous-espace engendré par les trois variables du groupe 1. Ainsi que le suggère le graphique, V 1 est colinéaire avec la projection de V 4 sur EV 1V 2V 3 .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 82 — #90
i
82
i
Analyse factorielle multiple avec R
La figure 4.2 schématise de façon géométrique les positions relatives (dans RI ) du premier facteur des trois analyses réalisées et les variables ayant contribué à leur construction. Le premier facteur de l’ACP usuelle est plus « attiré » par le groupe 2 que par le groupe 1. Cette attraction est renforcée avec la pondération équilibrant les inerties totales et annulée en AFM. En pratique, l’influence de la pondération sur la construction du premier axe en AFM est très variable selon les données ; elle est d’autant plus importante que les premières valeurs propres des ACP séparées sont différentes. Cela étant, le fait de normaliser à 1 l’inertie axiale maximum de chaque groupe confère à l’analyse des propriétés précieuses lors des interprétations. Qu’en est-il des axes suivants en AFM ? Le tableau 4.4 rassemble les inerties des deux groupes de variables du tableau 4.1 en AFM d’une part et dans les ACP séparées d’autre part.
Analyses séparées Groupe 1 Groupe 2 AFM Totale Groupe 1 Groupe 2
Inertie totale
Axe 1
Axe 2
Axe 3
Axe 4
3 2
1 2
1 0
1 0
0 0
4 3 1
1.71 0.85 0.85
1 1 0
1 1 0
0.29 0.15 0.15
Tableau 4.4 – Décomposition de l’inertie totale, en AFM et dans les ACP séparées des groupes. Il montre que les axes 2 et 3 de l’AFM sont dus au seul groupe 1. Cela n’est pas contradictoire avec une volonté d’équilibrer les groupes : il est naturel d’attendre qu’un groupe multidimensionnel (le 1) contribue fortement à plus de dimensions qu’un groupe unidimensionnel. On retrouve ici une idée qui apparaît dans l’ACM. Une variable qualitative qui présente beaucoup de modalités possède une inertie importante (égale au nombre de modalités moins 1), mais cette inertie est répartie de façon isotrope dans un sous-espace de grande dimension (dimension égale, elle aussi, au nombre de modalités moins 1). Une telle variable ne peut à elle seule induire le premier axe ; mais elle peut jouer un rôle dans la construction de plusieurs axes. Cette parenté n’est pas fortuite : c’est cette propriété de l’ACM qui a inspiré la pondération de l’AFM. La pondération par l’inertie axiale maximum s’applique directement aux groupes de variables non normées. De ce fait, il est possible de prendre en compte simultanément des groupes comportant pour les uns des variables normées et pour les autres des variables non normées. Le cas des jus d’orange en fournit un exemple : certains praticiens de l’évaluation sensorielle analysent les tableaux produits × descripteurs à l’aide d’une ACP non normée (pour accorder plus d’importance
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 83 — #91
i
Chapitre 4. Pondération des groupes de variables
i
83
aux descripteurs variant beaucoup d’un produit à l’autre). Si l’on adopte ce point de vue, on réalisera une AFM dans laquelle le groupe sensoriel est composé de variables non normées et le groupe chimique de variables normées. En pondérant les variables de façon à « normaliser » (à 1) l’inertie axiale maximum de chaque groupe, ces deux types de variables peuvent être introduits simultanément en actif dans une même analyse. Dans l’espace des individus, RK , l’affectation de poids aux variables se traduit par une métrique particulière : dans le calcul d’une distance, chaque variable du groupe j intervient avec le poids 1/λj1 . Ainsi, en faisant apparaître la part du groupe j dans la distance entre un individu i et l’origine O : d2 (O, i) =
X 1 X λj1
j
x2ik .
k∈Kj
La part du groupe j dans d2 (O, i) s’interprète géométriquement comme le carré de la distance entre l’origine et la projection de i (notée ij ) sur le sous-espace engendré par les variables du groupe j (noté RKj ). L’espace des individus RK est la somme directe des (sous-)espaces RKj et l’on a : d2 (O, i) =
X
d2 (O, ij ).
j
ℝK
ℝ
ℝI
Kj
ij
N Ij
N Kj
i
NI
NK
Fig. 4.3 – Dualité entre nuage des individus et nuage des variables, complet ou restreint au seul groupe de variables j. Pour interpréter dans RK la propriété de la pondération des variables introduite dans RI , il faut considérer l’ensemble des points ij associés au groupe j : {ij , i = 1, I} (cf. figure 4.3). Ils constituent le nuage noté NIj , projection du nuage N I sur j le sous-espace engendré par les variables du groupe j. Ce nuage est lié au nuage NK I (des variables du groupe j dans R ) par les relations de dualité, à savoir qu’ils ont : – la même inertie totale ; – la même inertie projetée sur la dimension principale d’inertie de rang s, en particulier la première d’entre elles soit λj1 .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 84 — #92
i
84
i
Analyse factorielle multiple avec R
La pondération des variables introduite dans RI se traduit dans RK par la propriété suivante : la projection du nuage des individus sur le sous-espace engendré par les variables du groupe j a une inertie axiale maximum de 1. Ainsi, dans RK , la pondération des variables se traduit par un équilibre entre les groupes de variables dans la forme du nuage NI : – non pas dans les distances globales entre individus (ce qui renverrait à un équilibre des inerties totales des groupes) ; – mais dans l’absence d’une direction d’inertie très élevée qui serait l’apanage d’un seul groupe. On retrouve, du fait de la dualité, l’effet de la pondération décrit dans RI : en comparaison avec un groupe de variables « unidimensionnel », un groupe multidimensionnel ne sera pas avantagé dans la construction du premier axe d’inertie, mais influencera un plus grand nombre d’axes.
4.4
Application aux six jus d’orange
Nous appliquons aux données « six jus d’orange » (cf. 1.10) les différentes méthodologies évoquées. Le tableau 4.5 récapitule les principales décompositions d’inertie.
1 2 3 4 5 6 7 8
ACP Chimie ACP Sensoriel ACP Ensemble Groupe Chimie Groupe Senso. AFM Groupe Chimie Groupe Senso.
Inertie totale 8 7 15 8 7 2.763 1.286 1.476
F1 6.212 4.744 9.801 5.727 4.075 1.785 0.891 0.894
F2 1.1 1.333 1.886 0.691 1.194 0.365 0.099 0.266
F 1 (%) 77.66 67.77 65.34 58.43 41.57 64.6 49.92 50.08
F 2 (%) 13.74 19.05 12.57 36.65 63.35 13.21 27 73
Tableau 4.5 – Inertie totale, dans quatre analyses, décomposée sur les deux premiers axes et par groupe quand il y a lieu. Lignes 1 et 2. Les deux groupes présentent un premier axe prépondérant. Cette prépondérance est plus accentuée dans le groupe « chimie » (77.66 % vs 67.77), ce qui, ajouté à un plus grand nombre de variables (8 vs 7), conduit à une première valeur propre sensiblement plus grande (6.212 vs 4.744). Lignes 3, 4 et 5. Cette plus forte inertie axiale maximum du groupe 1 se traduit, dans l’ACP usuelle appliquée aux deux groupes, par une contribution plus forte du groupe 1 au premier axe (58.43 % vs 41.57). Remarquons au passage la très forte première valeur propre de cette ACP (9.801) compte tenu des premières valeurs propres des ACP séparées ; elle est proche de son maximum possible (10.956) qui aurait été atteint si les premières composantes principales (F1) des ACP séparées étaient colinéaires.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 85 — #93
i
i
Chapitre 4. Pondération des groupes de variables
85
Lignes 6, 7 et 8. En AFM, les contributions, au premier axe, de chacun des deux groupes de variables sont presque identiques (49.92 et 50.08) : la pondération a parfaitement joué son rôle. La première valeur propre peut être considérée comme assez élevée : 1.785 valeur sensiblement plus proche du maximum possible 2 (qui aurait été atteint si les premières composantes principales (F 1) des ACP séparées étaient colinéaires) que du minimum 1 (correspondant au cas où chaque variable du groupe 1 est non corrélée à chaque variable du groupe 2). Cela étant, la lecture de la représentation des individus et celle des variables s’effectuent comme en ACP. Le premier plan exprime un pourcentage d’inertie élevé (77.81 %) qui justifie que l’on s’y limite, au moins dans cette présentation méthodologique. Le premier axe (figure 4.4) sépare les jus P1, P4 et P6 des trois autres. Selon la représentation des variables, ces trois jus sont caractérisés, relativement aux trois autres : – sur le plan sensoriel par un goût acide, amer et peu sucré, ainsi que par une odeur peu typique ; – sur le plan chimique par un pH bas, une teneur élevée en glucose et fructose, une teneur basse en saccharose. Dim 2 (13.21 %)
Dim 2 (13.21 %)
P6 Pampryl fr.
Pulpeux
1.0
Intensité.odeur Intensité.goût
0.5
P5 Tropicana fr. P3 Fruvita fr. -2
Dim 1 (64.6 %)
-1
1
P4 Joker amb.
Typicité.odeur Saccharose
Amer
Dim 1 (64.6 %)
Sucré pH ap.centri.
Acide.citrique Titre
pH.brut -0.5
P2 Tropicana amb.
Fructose Glucose Acide
P1 Pampryl amb.
Vitamine.C
Fig. 4.4 – Représentation des individus et des variables sur le premier plan. Les trois autres jus, P2, P3 et P5, présentent les caractéristiques opposées. On pourra résumer cet axe par l’opposition jus doux ⇔ jus durs ; cette opposition coïncide avec l’origine des jus, les jus « doux » provenant de Floride. Le deuxième axe ne semble pas clairement interprétable. En revanche, la seconde bissectrice coïncide pratiquement avec la variable « pulpeux ». Sur le plan des individus, cette seconde bissectrice correspond exactement à l’opposition entre les jus « frais » (P3, P4 et P6) et les « ambiants ». Cette relation entre le type de jus et le caractère pulpeux résulte vraisemblablement d’un choix fait par les industriels car le caractère pulpeux n’est pas un effet du choix du niveau de pasteurisation. En revanche, la liaison entre l’intensité de l’odeur et cette bissectrice (i.e. le fait que les jus frais ont une odeur plus forte) est peut-être liée à la pasteurisation.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 86 — #94
i
86
i
Analyse factorielle multiple avec R
La visualisation des liaisons entre les variables fournie par le cercle des corrélations mérite quelques commentaires. Les liaisons entre les trois sucres et le pH évoquent l’hydrolyse du saccharose (en glucose et fructose), favorisée en milieu acide. L’opposition entre les sucres ne permet pas d’interpréter la position de « sucré » puisque chacun engendre une sensation de sucré. D’où l’idée de les additionner. On obtient alors une variable « total sucres » qui, introduite en supplémentaire, montre un coefficient de corrélation de 0.1182 avec la première composante principale. Cette variable n’est donc pas liée, dans ces données, à l’opposition dur ⇔ doux. En outre, son coefficient de corrélation avec le caractère sucré est de .1856 : il faut donc chercher ailleurs l’origine de la sensation de sucré. Du point de vue sensoriel, le premier axe évoque la notion d’équilibre gustatif (on perçoit les saveurs simultanément et donc ces perceptions ne sont pas indépendantes). Ce cadre suggère que, dans ces données, une forte sensation de sucré est plus liée à une absence d’acidité qu’à une forte quantité de sucre. Un autre élément appuie cette interprétation : la quantité totale de sucre varie de 81 g à 101 g, variation qui peut être considérée comme faible compte tenu de la teneur moyenne (et donc peu perceptible). Ces niveaux étant élevés, on dira que, dans ces données, la dureté (acidité + amertume) de certains jus masque l’influence du sucre. La représentation des individus et des variables s’interprète donc comme en ACP. Seule différence, mais seulement par rapport à l’ACP normée, la présence de poids pour les variables ne permet pas d’interpréter le cercle des corrélations en terme de contribution des variables. L’utilisateur désireux de visualiser ces contributions devra donc construire un graphique supplémentaire.
4.5
Relations avec les analyses partielles
Nous avons déjà insisté sur l’utilité de relier les inerties mises en jeu dans l’AFM et celles des ACP séparées (tableaux 4.4 et 4.5). Il est également utile de relier les facteurs de l’AFM avec ceux des ACP séparées (dits aussi « axes partiels »), à la fois pour mieux apprécier les effets de la pondération et pour enrichir l’interprétation. Pour cela, on projette ces derniers comme des variables supplémentaires (figure 4.5). Le premier facteur de l’AFM est très lié au premier facteur de chaque groupe : la principale dimension de variabilité sensorielle est corrélée à la première dimension de variabilité chimique et le premier facteur de l’AFM est en quelque sorte un compromis entre ces deux directions. La portée de ce premier facteur se trouve renforcée.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 87 — #95
i
Chapitre 4. Pondération des groupes de variables
i
87
Dim 2 (13.21 %)
Dim2.Sensoriel
Dim3.Chimie
Dim3.Sensoriel Dim1.Chimie
Dim1.Sensoriel Dim1.ACP
Dim 1 (64.6 %)
Dim2.Chimie
Dim2.ACP
Fig. 4.5 – Représentation des premiers facteurs des ACP séparées et de l’ACP sur les 8 + 7 variables.
Le deuxième facteur est étroitement corrélé à la deuxième composante principale sensorielle, ce qui est en phase avec la plus grande dimensionnalité de ce groupe comparée à celle de la chimie : on retrouve que la pondération ne normalise que la première direction d’inertie. Il en résulte un premier plan d’AFM très proche du premier plan de l’ACP séparée du groupe « sensoriel ». Un autre aspect de la confrontation entre les facteurs de l’AFM d’une part et les composantes principales des ACP séparées d’autre part réside dans la qualité de j représentation des variables de chaque groupe (i.e. les NK ) dans chaque analyse. j On calcule donc le rapport (inertie projetée)/(inertie totale) pour chaque NK dans l’AFM. Soit, pour le groupe j et l’axe s (de l’AFM) :
X
k∈Kj
1 2 (OHks ) P t
λjt
.
Ces valeurs sont à confronter avec les pourcentages d’inertie des ACP séparées. Dans l’exemple (tableau 4.6), sur le premier plan de l’AFM, la qualité de représentation des variables sensorielles est de 78.64 %. Cette valeur est à comparer avec le pourcentage d’inertie du premier plan de l’ACP du groupe sensoriel (86.81 % ; cf. tableau 4.5) ; la différence entre les deux est en quelque sorte le « prix à payer » lorsque l’on passe d’une représentation optimale du seul groupe sensoriel à une représentation optimale des deux groupes. Dans cet exemple, on pourra considérer cette différence comme faible.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 88 — #96
i
88
i
Analyse factorielle multiple avec R
Chimie Sensoriel
F1 69.21 60.58
F2 7.66 18.06
Plan (1,2) 76.86 78.64
Tableau 4.6 – Qualité de représentation des groupes de variables sur le premier plan (dans RI ). Remarquons que l’on ne change pas l’analyse en remplaçant un groupe de variables par l’ensemble des composantes principales (soit non normées, soit normées et affectées d’un poids égal à leur inertie en tenant compte de l’inertie de la pondération de l’AFM) de son analyse séparée. Aussi, ces composantes principales peuvent être considérées comme des variables actives. En particulier, leur inertie projetée peut s’interpréter comme une contribution. Ces contributions, exprimées relativement à l’inertie totale des axes de l’AFM, sont données tableau 4.7. Facteurs F 1 ACP F 2 ACP F 3 ACP F 1 ACP F 2 ACP F 3 ACP
Chimie Chimie Chimie Sensoriel Sensoriel Sensoriel
Poids 1.000 0.177 0.059 1.000 0.281 0.173
F 1 AFM 49.632 0.004 0.205 49.890 0.047 0.106
F 2 AFM 1.089 17.683 3.967 1.530 70.180 1.136
Tableau 4.7 – Contribution (en %) des facteurs des analyses séparées aux axes de l’AFM. Poids : valeur propre, de l’ACP séparée, divisée par la première d’entre elles. Elles sont un complément utile au cercle des corrélations (figure 4.5) car ce dernier ne fait pas apparaître leur poids. Dans cet exemple, ces contributions mettent bien en évidence la contribution essentielle, à l’inertie de l’axe 2 de l’AFM, de la deuxième composante du groupe sensoriel.
4.6
Conclusion
Dans cet exemple, l’effet de la pondération en tant que facteur d’équilibre entre les groupes n’est pas très important puisque la première valeur propre varie peu d’un groupe à l’autre. D’ailleurs, la représentation, sur la figure 4.5, des facteurs de la simple ACP sur les 8 + 7 variables (Dim1.ACP et Dim2.ACP) montre que, sur ces données, ACP et AFM conduisent à des axes proches. Cela étant, lorsque la première valeur propre diffère grandement d’un groupe à l’autre, cette pondération a un effet essentiel. En revanche, le fait d’égaliser à 1 l’inertie axiale maximum aide la lecture des indicateurs d’inertie (cf. lignes 6, 7 et 8 du tableau 4.5), ce qui sera très précieux
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 89 — #97
i
i
Chapitre 4. Pondération des groupes de variables
89
par la suite. Mais surtout, l’apport de l’AFM réside dans toutes les facettes de la problématique qui seront abordées dans les chapitres qui suivent. Cela étant, dès à présent, la simple représentation des facteurs des analyses séparées illustre l’intérêt de la prise en compte de la structure en groupes de variables : par exemple, dire que la dimension principale que l’on présente (celle de l’AFM) est très proche de la dimension principale de chaque groupe accroît la portée des résultats.
4.7
AFM dans FactoMineR (premiers résultats)
Nous utilisons ici le fichier « jus d’orange » (tableau 1.5 page 28) qui comporte, dans cet ordre, les huit variables chimiques, les sept descripteurs sensoriels, l’appréciation globale et les deux variables qualitatives (origine puis type).
Menu déroulant dans R Commander
1
2
3 4
5
6 7
8
9
10
Fig. 4.6 – Fenêtre principale de l’AFM de FactoMineR (via R Commander). 1. Zone des groupes quantitatifs actifs. Ici, les deux groupes (Chimie et Sensoriel) ont déjà été définis (cf. point 3 ci-après). 2. Zone des groupes quantitatifs supplémentaires. Ici, l’appréciation globale a été introduite en tant que groupe (d’une seule variable) supplémentaire.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 90 — #98
i
90
i
Analyse factorielle multiple avec R
1.5
3. Le bouton « ajout groupe quanti » fait apparaître la fenêtre de la figure 4.9 ci-après. 4, 5, 6. Définition des groupes qualitatifs (cf. chapitre 8 dédié aux variables qualitatives). 7. Fait apparaître la liste des individus dans laquelle on coche les individus supplémentaires. Par défaut, tous les individus sont actifs. 8. Commande l’ouverture de la fenêtre de la figure 4.10 page 92. 9. Par défaut, le programme édite tous les tableaux de résultats. Cette fenêtre permet de n’en éditer que quelques-uns et, éventuellement, de les stocker dans un fichier « .csv ». 10. Il est possible d’enchaîner une classification ascendante hiérarchique se fondant sur les coordonnées factorielles (de la même façon qu’après toute analyse factorielle). L’AFM joue alors le rôle de prétraitement, d’abord en équilibrant les groupes de variables entre eux et ensuite en ordonnant les facteurs en vue d’une sélection. Notons au passage deux spécificités de la CAH dans FactoMineR (fonction HCPC) : – A) une représentation de l’arbre hiérarchique permettant de définir un niveau de coupure (et donc une partition des individus) de façon interactive (par clic sur un niveau d’agrégation) (cf. figure 4.7) ;
1.0
Hierarchical Clustering
1.5
0.0
0.5
Click to cut the tree
P4_Joker_amb.
P1_Pampryl_amb.
P6_Pampryl_fr.
P2_Tropicana_amb.
P3_Fruivita_fr.
P5_Tropicana_fr.
0.0
0.5
1.0
inertia gain
Fig. 4.7 – Arbre produit par la CAH appliquée aux facteurs de l’AFM. La partition en deux classes a été fixée par un clic au niveau hiérarchique souhaité. Dans le cartouche en haut à droite, le diagramme des gains d’inertie associés aux nœuds aide au choix d’un niveau de coupure.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 91 — #99
i
i
Chapitre 4. Pondération des groupes de variables
91
– B) une représentation de l’arbre hiérarchique associée à la représentation factorielle (cf. figure 4.8). cluster 1 cluster 2
0.5
1.5 1.0
P6_Pampryl_fr.
0.5 P3_Fruivita_fr. P5_Tropicana_fr.
P4_Joker_amb.0.0
0.0
P1_Pampryl_amb.
-1.0
-0.5 -1.0
P2_Tropicana_amb.
-1.5
Dim 2 (13.21%)
1.0
height
1.5
2.0
Hierarchical clustering on the factor map
-0.5
0.0
0.5
1.0
1.5
2.0
Dim 1 (64.6%)
Fig. 4.8 – Arbre de la figure 4.7 associé au premier plan de l’AFM.
1
2 3 4
Fig. 4.9 – Fenêtre de définition des groupes. 1. On peut donner un nom à chaque groupe. Ce nom sera utilisé dans les
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 92 — #100
i
92
i
Analyse factorielle multiple avec R tableaux et les graphiques. 2. Le statut du groupe (actif/supplémentaire) est défini indépendamment pour chaque groupe (et donc indépendamment de la place des variables dans le fichier). 3. (Existe uniquement pour les groupes de variables quantitatives.) Le choix de réduire ou non se fait indépendamment pour chaque groupe. Il est donc possible d’introduire dans une même analyse des groupes réduits et des groupes non réduits. Cela est permis par la pondération. Un exemple d’application consiste à introduire les mêmes données deux fois, l’une en les réduisant, l’autre sans les réduire : l’AFM est dans ce cas utilisée pour comparer l’ACP normée et l’ACP non normée sur les mêmes données. 4. La fenêtre contient la liste de toutes les variables quantitatives. On sélectionne les variables du groupe dans cette liste (qui ne sont pas nécessairement consécutives dans le fichier). Quand un groupe est constitué, ses variables restent dans la liste et sont donc éligibles pour un autre groupe. Il est ainsi possible de faire intervenir une même variable dans plusieurs groupes, ce qui est utile dans des études méthodologiques comme celle évoquée au point 3 (comparaison entre ACP normée et ACP non normée) ou lorsque l’on veut comparer des groupes de compositions légèrement différentes.
5 1 2 6 3 7 8
4
9
Fig. 4.10 – Fenêtre des graphiques. 1 et 2. Le graphique des individus (figure 4.4 page 85 à gauche) peut contenir
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 93 — #101
i
Chapitre 4. Pondération des groupes de variables
i
93
des individus dits « partiels » (chapitre 5) et aussi les modalités des variables qualitatives (chapitre 8). La présence et l’étiquetage de ces trois types d’éléments sont gérés indépendamment. 3. On peut colorier chaque individu en fonction d’une variable qualitative quand il y en a. Les options « par groupe » et « par individu » concernent principalement les individus partiels (chapitre 5). 4. (cf. chapitre 5.) 5. (cf. chapitre 7.) 6. Les axes partiels sont les axes des analyses séparées (figure 4.5 page 87). Par défaut les cinq premiers axes sont représentés. On peut affecter des couleurs différentes aux axes issus de groupes différents. 7, 8, 9. Le graphique des variables quantitatives (figure 4.4 page 85 à droite) contient les variables quantitatives actives et/ou illustratives (9). Il est généralement commode de les colorier en fonction de leur groupe d’appartenance (8). En présence d’un grand nombre de variables, il est commode (7) soit de ne pas les étiqueter, pour faire apparaître l’allure générale du nuage, soit de sélectionner les mieux représentées.
Exemples de commandes Les données sont dans le fichier Orange.csv que l’on importe et dont on vérifie les 17 premières colonnes par : > orange=read.table("Orange.csv",sep=";",dec=",",header=TRUE, + row.names=1) > attributes(orange[,1:17]) $names [1] "Origine" [4] "Fructose" [7] "pH_après_centrifuga." [10] "Vitamine_C" [13] "Pulpeux" [16] "Amer"
"Type" "Saccharose" "Titre" "Intensité_odeur" "Intensité_goût" "Sucré"
"Glucose" "pH_brut" "Acide_citrique" "Typicité_odeur" "Acide"
$class [1] "data.frame" $row.names [1] "P1 Pampryl amb." [4] "P4 Joker amb."
"P2 Tropicana amb." "P3 Fruivita fr." "P5 Tropicana fr." "P6 Pampryl fr."
Dans ce chapitre, on ne prend en compte que les variables chimiques et sensorielles. On travaille donc sur le data.frame orange1 obtenu par :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 94 — #102
i
94
i
Analyse factorielle multiple avec R
> orange1=orange[,3:18] Pour mettre en œuvre l’AFM sur un data.frame, les variables d’un même groupe doivent être contiguës dans le fichier. C’est le cas ici. Dans la commande : > ResAFM=MFA(orange1,group=c(8,7,1),type=c("s","s","s"), + name.group=c("Chimie","Sensoriel","Appréciation_globale"), + num.group.sup=3) group=c(8,7,1) : il y a trois groupes constitués respectivement des 8 premières variables, des 7 suivantes et de la dernière. Les groupes sont numérotés dans l’ordre de leurs variables dans les données. type=c("s","s","s") : pour les trois groupes, il s’agit de variables devant être centrées et réduites ("s" pour scale ; sinon, "c" pour seulement centré). num.group.sup=3 : le troisième groupe est supplémentaire. Par défaut tous les groupes sont actifs. Par défaut, la commande ci-dessus produit tous les graphiques pour les deux premiers axes, soit en particulier celui des individus (figure 4.4 page 85 à gauche), celui des variables quantitatives actives (figure 4.4 page 85 à droite) et celui des axes partiels (figure 5.4 à laquelle s’ajoute ici la variable supplémentaire « appréciation globale ». La liste ResAFM contient tous les tableaux de résultats. On exporte ces tableaux dans un fichier « .csv » par : > write.infile(ResAFM,file ="ResAFM.csv") Les graphiques sont obtenus à l’aide de la fonction plot.MFA, spécifique de l’AFM. Les options par défaut sont souvent suffisantes, au moins dans un premier temps. La représentation, sur le premier plan, des variables quantitatives tous groupes confondus s’obtient par : plot.MFA(ResAFM,choix="var") La commande suivante : > plot.MFA(ResAFM,axes=c(3,4),choix="var", + invisible="sup",hab="group") représente sur le plan (3,4) les seules variables actives (invisible="sup") coloriées (argument habillage abrégé en hab) en fonction du groupe auquel elles appartiennent (hab="group"). La représentation d’autres objets se fait au travers de l’argument choix, égal à ind pour les individus et à axes pour les axes partiels. Pour éditer les valeurs propres sous forme graphique (six individus donc cinq valeurs propres non nulles) : > barplot(ResAFM$eig[,1],names=1:5)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 95 — #103
i
Chapitre 4. Pondération des groupes de variables
i
95
Le tableau 4.5 page 84 L’utilisateur souhaite souvent éditer un tableau particulier, rassemblant, sous une forme ad hoc, des résultats épars. C’est le cas du tableau 4.5 page 84, que l’on reproduit ci-après à titre d’exercice. On initialise une matrice (8, 5) de nom tab4_5. > tab4_5=matrix(nrow=8,ncol=5) On choisit les noms des lignes et des colonnes. > + + >
row.names(tab4_5)=c("ACP Chimie","ACP Sensoriel","ACP Ensemble", "Groupe Chimie","Groupe Sensoriel","AFM", "Groupe Chimie","Groupe Sensoriel") colnames(tab4_5)=c("Inertie totale","F1","F2","F1%","F2%")
On renseigne les cinq premiers éléments de la colonne 1 : > tab4_5[1:5,1]=c(8,7,15,8,7) Les lignes (3, 4, 5) de l’ACP sur les 15 variables nécessitent d’exécuter cette ACP. > resPCA=PCA(orange[,1:15]) Ligne 3. les valeurs propres de l’ACP sont dans resPCA$eig : > tab4_5[3,2:5]=c(t(resPCA$eig[1:2,1]),t(resPCA$eig[1:2,2])) Lignes 4 et 5, colonnes 4 et 5. Les contributions des variables sont dans resPCA$var$contrib ; il faut les additionner par groupe. > tab4_5[4,4:5]=apply(resPCA$var$contrib[1:8,1:2],MARGIN=2,FUN=sum) > tab4_5[5,4:5]=apply(resPCA$var$contrib[9:15,1:2],MARGIN=2,FUN=sum) Lignes 4 et 5, colonnes 2 et 3. On retrouve l’inertie en multipliant le pourcentage par la valeur propre. > tab4_5[4:5,2]=tab4_5[4:5,4]*resPCA$eig[1,1]/100 > tab4_5[4:5,3]=tab4_5[4:5,5]*resPCA$eig[2,1]/100 Les ACP séparées des groupes (lignes 1 et 2) sont éditées via l’AFM dans ResAFM$separate.analyses, les valeurs propres étant dans $eig : > + > +
tab4_5[1,2:5]=c(t(ResAFM$separate.analyses$Chimie$eig[1:2,1]), t(ResAFM$separate.analyses$Chimie$eig[1:2,2])) tab4_5[2,2:5]=c(t(ResAFM$separate.analyses$Senso$eig[1:2,1]), t(ResAFM$separate.analyses$Senso$eig[1:2,2]))
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 96 — #104
i
96
i
Analyse factorielle multiple avec R
Ligne 6. Les valeurs propres de l’AFM sont dans ResAFM$eig : > tab4_5[6,2:5]=c(t(ResAFM$eig[1:2,1]),t(ResAFM$eig[1:2,2])) Lignes 6, 7, 8, colonne 1. L’inertie globale d’un groupe dans l’AFM résulte directement du nombre de variables (les variables sont réduites) et de la pondération (par la première valeur propre) : > tab4_5[7:8,1]=tab4_5[1:2,1]/tab4_5[1:2,2] > tab4_5[6,1]=tab4_5[7,1]+tab4_5[8,1] Lignes 7 et 8. Les inerties des variables sommées par groupe sont dans ResAFM$group ; les inerties brutes sont dans coord (l’explication de ce terme apparaît au chapitre 7) et les pourcentages dans contrib : > + > +
tab4_5[7:8,2:3]=c(t(ResAFM$group$coord[,1]), t(ResAFM$group$coord [,2])) tab4_5[7:8,4:5]=c(t(ResAFM$group$contrib[,1]), t(ResAFM$group$contrib[,2]))
Pour l’édition, on réduit le nombre de chiffres décimaux. > > > > >
tab4_5[,2:3]=round(tab4_5[,2:3],3) tab4_5[,4:5]=round(tab4_5[,4:5],2) tab4_5[1:5,1]=round(tab4_5[1:6,1],0) tab4_5[6:8,1]=round(tab4_5[7:8,1],3) tab4_5
L’affichage dans R utilise le même nombre de décimales par colonne, soit ici trois pour la colonne 1. Mais, l’exportation en fichier .csv respecte les arrondis différents demandés pour cette colonne. Sorties simplifiées L’AFM produit de nombreux tableaux de résultats. La fonction summary.MFA édite une synthèse des principaux tableaux. La commande suivante édite ces tableaux dans le fichier texte SorAFM. summary(ResAFM,nbelements=Inf,file="SorAFM") Cette fonction existe pour toutes les analyses factorielles de FactoMineR.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 97 — #105
i
i
Chapitre 5
Comparaison de nuages d’individus partiels Une bonne part de la problématique de l’AFM réside dans la comparaison des sous-tableaux constitués chacun par un groupe de variables. Un aspect de cette comparaison a été décrit au chapitre précédent : celui des facteurs des analyses séparées. On aborde ici l’aspect qui contribue sans doute le plus à la richesse des résultats de l’AFM : la comparaison des nuages d’individus associés chacun à l’un des groupes de variables.
5.1
Problématique
Nous appelons « individu partiel » une ligne du tableau de données dans laquelle on ne considère que les données relatives à un groupe de variables. Ainsi, l’individu i j partiel correspondant au groupe j, noté i , est composé de l’ensemble des valeurs {xik ; k ∈ Kj }. L’ensemble ij , i ∈ I des individus partiels associés au groupe j constitue le nuage partiel noté NIj . Ce nuage des individus est celui que l’on analyse lorsque l’on réalise l’ACP des données du seul groupe j. Il évolue dans l’espace, noté RKj , engendré par les variables du seul groupe j. En AFM, on est donc conduit à considérer J + 1 nuages d’individus : les J nuages partiels auxquels s’ajoute le nuage NI considéré jusqu’ici, nuage que l’on peut qualifier de « global » (par opposition à partiel) pour évoquer le fait qu’il est issu de l’ensemble des données (actives), mais qu’en pratique on désigne par « nuage moyen », en référence à une propriété géométrique importante dans les représentations. La comparaison des nuages partiels tient principalement dans la question suivante : deux individus i et l semblables du point de vue du groupe j sont-ils semblables du point de vue du groupe g ?
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 98 — #106
i
98
i
Analyse factorielle multiple avec R
Ainsi, dans l’exemple des six jus d’orange, en considérant les deux groupes de variables, sensorielles d’une part et chimiques d’autre part, on se posera des questions de types suivants. – De façon générale, deux jus d’orange proches du point de vue chimique ont-ils le même profil sensoriel ? – Existe-t-il un (voire des) jus ayant à la fois un profil chimique « moyen » et un profil sensoriel très particulier ? Une telle discordance peut provenir par exemple d’une caractéristique chimique qui n’a pas été mesurée, d’une interaction entre deux caractéristiques chimiques (sur la perception), etc. L’utilisateur attend de la statistique qu’elle mette en évidence de telles discordances, à charge ensuite pour lui de les interpréter. Ce que l’on peut attendre de la comparaison (de la forme) des nuages partiels peut être illustré par un petit exemple de données choisies pour leur simplicité (auxquelles nous donnons un habillage pour agrémenter le commentaire). Pour trois étudiants (A, B et C), on dispose de mesures biométriques (taille et poids) et de notes d’examen (français, maths). Le fait de disposer de groupes bidimensionnels permet une représentation graphique des nuages partiels, dont l’examen visuel tient lieu d’analyse statistique (figure 5.1). Taille
A
Maths
Maths
A
B
B
B
A
C
C
Français
Poids 1
C
2
Français 3
Fig. 5.1 – Trois individus (A, B, C) vus selon deux groupes de variables : biométrie (1) et notes (deux variantes : 2 et 3). Dans le cas 1 (graphiques 1 et 2), les graphiques mettent en évidence une identité de forme entre les deux nuages. Dans chacun, les étudiants B et C sont très semblables et l’étudiant A est très particulier. D’après les graphiques, A est à la fois costaud (grand et lourd) et à « profil scientifique » (bon en maths, mauvais en français). Dans le cas 2 (graphiques 1 et 3) en revanche, les graphiques montrent des nuages partiels de formes différentes. Pour les mesures biométriques, A est très particulier (costaud) alors que pour les notes c’est B qui l’est (« profil scientifique »). Plus généralement, il s’agit de comparer entre eux les nuages NIj du point de vue de leur forme (ce qui est un peu tautologique puisque nous définissons la forme d’un nuage de points par l’ensemble des distances interpoints).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 99 — #107
i
i
Chapitre 5. Comparaison de nuages d’individus partiels
99
La comparaison visuelle directe de ces nuages est, sur le principe, aisée s’ils ne sont définis chacun que par deux variables. Mais, même dans ce cas, si les individus et/ou les groupes sont nombreux, un outil graphique peut être utile. C’est l’objet de l’analyse procustéenne qui : – après une normalisation par l’inertie totale (s’il y a lieu) ; – superpose les configurations ; – les tourne une par une, en opérant s’il y a lieu des symétries, de façon à rapprocher le plus possible les points relatifs à un même individu (dits points homologues) ; la rotation élémentaire qui fait coïncider « au mieux » un nuage avec un autre est dite « rotation procustéenne ». On obtient ainsi une représentation superposée des nuages partiels qui met en évidence, aussi bien que possible (i.e. au sens d’un certain critère), les ressemblances et dissemblances de forme entre les nuages.
0.6
Les résultats de l’analyse procustéenne appliquée aux deux cas commentés cidessus sont donnés figure 5.2. Dans le cas 1, l’identité de forme entre les deux nuages est immédiatement perceptible.
0.4
0.4
c1
b1
a2
-0.2
a1
c1
-0.4
C
C
0.2
a2
A
b2
0.0
B c2
Dim 2
0.2 0.0
Dim 2
c2
b1
a1
B
A
b2
-0.6
-0.6
-0.4
-0.2
B
0.6
A
-0.6
-0.4
-0.2
0.0
0.2 Dim 1
0.4
0.6
0.8
-0.5
0.0
0.5
Dim 1
Fig. 5.2 – Analyses procustéennes des données de la figure 5.1. A : graphiques 1 et 2 ; B : graphiques 1 et 3.
Le chapitre 10 fournit plus de précisions sur l’analyse procustéenne. Dans le présent chapitre, la référence à l’analyse procustéenne est utile pour spécifier notre objectif : construire un graphique dans lequel apparaissent simultanément les points (des nuages) partiels (autrement dit chaque individu vu par chaque groupe de variables). Ce chapitre décrit la solution apportée par l’AFM à cette problématique.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 100 — #108
i
100
5.2
i
Analyse factorielle multiple avec R
Méthode
L’espace des individus RK peut être vu comme une somme directe des espaces RKj : J
RK = ⊕ RKj . j=1
L’espace R utilisé plus haut pour définir NIj est isomorphe au sous-espace RKj de RK (cf. figure 5.3). En AFM, RK a été muni de la métrique diagonale M contenant l’inverse de la première valeur propre des ACP séparées des groupes de variables (dans les RKj ). Cette métrique, étant constante au sein d’un groupe de variables, ne remet pas en cause cet isomorphisme. Kj
RK
R
R
Kj
j
NI
Kj
ij
NI
j
ij i
NI
Fig. 5.3 – Le nuage « partiel » NIj dans RKj et dans RK . Le tableau Xj contient les coordonnées de NI dans le sous-espace RKj de RK . Les sous-espaces RKj étant orthogonaux entre eux par construction, le nuage NIj est ˜ j la matrice Xj complétée par la projection orthogonale de NI sur RKj . On note X des 0 pour être de la dimension de X, c’est-à-dire la matrice des coordonnées de NIj dans RK . La figure 5.4 illustre les positions relatives de NI et des NIj dans le cas limite constitué par deux groupes contenant chacun une variable. V2 i2 i
i1 V 1
Fig. 5.4 – Individus complet (i) et partiels (i1 et i2 ) du même individu i. Le premier (resp. second) groupe est réduit à la variable V1 (resp. V2 ). A partir des coordonnées de i, les individus partiels sont dilatés avec le rapport J. L’individu complet i est la « somme » des individus partiels ij . Dans les graphiques,
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 101 — #109
i
Chapitre 5. Comparaison de nuages d’individus partiels
i
101
il est commode de faire figurer i au centre de gravité des J points ij . Aussi, en pratique, les nuages NIj sont-ils dilatés avec le rapport J pour réaliser les graphiques. D’où le nom d’individu moyen pour désigner i. Dans cet espace, la représentation des individus de l’AFM est obtenue par une analyse factorielle pondérée de NI . La représentation des NIj est obtenue par projection (des NIj ) sur les axes principaux de NI . Cette procédure confère à la représentation présente plusieurs propriétés importantes pour l’utilisateur. Propriété 1 Cette représentation est obtenue par projection, démarche usuelle de l’utilisateur d’analyse factorielle. L’interprétation géométrique est claire et ne pose aucun problème algorithmique. Propriété 2 Cette représentation utilise les axes factoriels de NI déjà interprétés. L’analyse de NI et celle des NIj se font dans le même cadre. Ceci est très important pour l’utilisateur et s’avère en pratique un avantage décisif (par rapport à une méthodologie mettant en œuvre des méthodes différentes et donc conduisant à des plans factoriels différents selon les différents volets d’une problématique) : – d’abord en termes d’énergie déployée pour l’interprétation (un seul système d’axes est interprété) ; – ensuite en termes de conclusions : face à plusieurs plans de représentation, lequel choisir pour fonder une conclusion ? Celui de l’ACP pondérée de NI ou celui de l’analyse procustéenne des NIj ? Propriété 3 Le fait d’utiliser les axes principaux de NI induit des relations de dualité (dites aussi relations de transition) entre ce qui se passe dans RK d’une part et dans RI d’autre part. Nous détaillons ci-après cette propriété. Notons Fsj le vecteur des coordonnées des points ij sur l’axe de rang s. Par définition, on a : ˜ j M us . Fsj = X Du fait de la dualité (dans l’ACP pondérée de NI ) : 1 us = √ Gs . λs En combinant ces deux équations, on obtient : 1 ˜ Fsj = √ X j M Gs . λs Les coordonnées des points partiels peuvent donc être calculées à partir des coordonnées des variables. Cette relation, pour l’individu partiel ij , s’écrit très simple˜ j , qui ne contient que des ment du fait de la structure particulière de la matrice X
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 102 — #110
i
102
i
Analyse factorielle multiple avec R
0 en dehors des données concernant le groupe j. Soit, en notant la coordonnée de ij sur us indifféremment par Fsj (i) ou Fs ij : 1 X 1 xik Gs (k) . Fsj (i) = Fs ij = √ q λs λj k∈K 1
j
Ainsi, pour l’axe de rang s, à un coefficient près (le même pour tous les individus), la coordonnée de ij est la « moyenne » des coordonnées des variables du groupe j « pondérées » par les valeurs (centrées et, généralement, réduites) de i pour ces variables (les guillements sont dus au fait que les poids peuvent être négatifs). Autrement dit, un individu partiel (relativement au groupe j) est du côté des variables (du groupe j) pour lesquelles il a une forte valeur et à l’opposé des variables (du groupe j) pour lesquelles il a une faible valeur. Cette relation est la restriction aux variables du groupe j de l’une des relations de transition usuelle de l’ACP pondérée de NI (cf. 1.5.4). D’où le nom de relation de transition partielle pour cette propriété capitale pour les interprétations. Si l’on écrit la relation de transition usuelle (pour le point i et donc l’ensemble des variables), on trouve facilement : Fs (i) =
X j
1X JFs ij . Fs ij = J j
Ainsi, en dilatant uniformément (avec le coefficient J) les points partiels, le point i apparaît au barycentre de ses J points partiels ij , ce qui rend commode la lecture des graphiques. Remarquons au passage que, dans le calcul de ce barycentre, tous les J individus partiels ij ; j = 1, J ont le même poids, ce qui est en accord avec la volonté d’équilibrer l’influence des groupes (le poids des variables a été pris en compte dans le calcul de la coordonnée de ij ). Naturellement, la relation de transition symétrique, qui exprimerait la coordonnée d’une variable du groupe j en fonction des coordonnées des individus partiels ij , n’existe pas (une telle relation n’existe que dans l’ACP du seul groupe j) et même ne serait pas souhaitable puisqu’elle serait incompatible avec une représentation des variables des différents groupes sur un même graphique.
5.3
Application aux six jus d’orange
La figure 5.5 reprend, pour les individus moyens, exactement la figure 4.4 (les pourcentages d’inertie, qui ne concernent que ces individus moyens, sont donc identiques). Sur ce même plan factoriel, on projette les nuages partiels. Pour faciliter la lecture, les individus partiels sont reliés par un trait à l’individu moyen qui leur correspond. Il en résulte une représentation dite « en étoile » qui, dans le cas de deux groupes, se limite à des segments reliant les points partiels homologues.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 103 — #111
i
i
Chapitre 5. Comparaison de nuages d’individus partiels
103
Les interprétations se fondent essentiellement sur la relation de transition partielle. Elle permet de comparer directement entre eux les points partiels relatifs à un même groupe (leurs coordonnées sont calculées à partir des mêmes variables). A titre d’exemple, comparons les jus 1 et 4 qui, d’après leur point moyen, peuvent être considérés comme également « durs ». La figure 5.5 permet de nuancer cette ressemblance : – du point de vue chimique, le jus 4 est plus « dur » que le 1. Ceci peut être retrouvé dans les données (tableau 1.5 page 28) : hormis le pH légèrement plus faible pour le jus 1, les autres variables montrent un jus 4 beaucoup plus dur (quantités d’acide citrique, de glucose et de fructose beaucoup plus élevées ; titre plus élevé ; teneur en saccharose beaucoup plus faible) ; – du point de vue sensoriel, le jus 1 est plus « dur » que le 4. Observation qui se vérifie aisément dans les données, le jus 1 étant perçu plus acide, plus amer et moins sucré que le 4. Chimie Sensoriel
F 2 (13.21 %)
F2 (13.21 %)
Senso Pulpeux
Intensité odeur
P6 Pampryl fr. Intensité goût
Senso
Chim
Senso P5 Tropicana fr.
Chim
P3 Fruivita fr.
Chim Chim Chim
P1 Pampryl amb. Senso
P4 Joker amb. Senso
Fructose Glucose Acide Amer
F1 (64.6 %)
Chim
P2 Tropicana amb.
Typicité odeur Saccharose Sucré pH. centrif. pH brut
F 1 (64.6 %)
Acide citrique Titre
Appréciation globale
Vitamine C
Senso
Fig. 5.5 – Représentation superposée des nuages partiels et du nuage moyen (à gauche). Le libellé d’un point partiel est limité au libellé du groupe (Chim et Senso). A droite, rappel de la représentation des variables (figure 4.4). La comparaison de points partiels relatifs à un même groupe ne pose donc aucun problème, la relation de transition partielle s’appliquant exactement comme celle de l’ACP usuelle. En revanche, il est a priori plus délicat de comparer des points relatifs à des groupes différents puisqu’ils résultent de moyennes pondérées de points (qui représentent des variables) différents. En la matière, il est donc indispensable de vérifier dans les données les observations faites à partir des plans factoriels. Toutefois, lorsque les groupes contribuent de la même manière à un axe, ce qui est le cas du premier axe dans l’exemple, les impressions visuelles sont généralement confirmées par les données. Ainsi, la figure 5.5 suggère que la dureté « chimique » du jus 4 est plus exceptionnelle que la dureté « sensorielle » du jus 1. Cela se retrouve bien dans les valeurs des variables liées à la dureté, plus extrêmes pour les variables chimiques du jus 4 que pour les variables sensorielles du jus 1. Les points partiels liés à des groupes différents que l’on souhaite comparer cou-
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 104 — #112
i
104
i
Analyse factorielle multiple avec R
ramment sont ceux relatifs à un même individu. Ainsi, le graphique suggère que, du point de vue des deux groupes de variables, le jus 1 est plus « homogène » que le jus 4. « Homogène » en ce sens que les duretés, chimique et sensorielle, du jus 1 se situent, comparativement à celles du jus 4, à des niveaux plus proches (élevés dans les deux cas).
5.4
Aides à l’interprétation
L’analyse visuelle de la représentation superposée des nuages partiels est difficile dès lors que le nombre d’individus et/ou de groupes est un tant soit peu important. Il est alors précieux de disposer d’indicateurs permettant de sélectionner axe par axe des situations remarquables. Une série d’indicateurs peut être obtenue en décomposant l’inertie du nuage regroupant tous les points partiels. On note NIJ le nuage de tous les points partiels, tous individus et tous groupes confondus ij ; i = 1, I; j = 1, J . Soit : NIJ = U NIj . j
On peut aussi considérer la partition de NIJ en I classes dans laquelle on affecte à une même classe les J points partiels relatifs à un même individu. On note NiJ le nuage des points partiels associés à l’individu i. Soit : NIJ = U NiJ . i
Pour chaque axe (de rang s), on applique à cette seconde partition le théorème de Huygens décomposant l’inertie totale (par rapport à l’origine O) en une inertie interclasses et une inertie intraclasse. Les points moyens des classes constituent le nuage NI . L’inertie intra(classes) est celle des NiJ relativement à leur centre de gravité. Soit (pour alléger les notations, on ne rappelle pas le rang s de l’axe) : X Inertie[NIJ /O] = Inertie[NI /O] + Inertie[NiJ /i]. i
L’inertie intraclasse de NiJ , mesure l’hétérogénéité, le long d’un axe u s , des points partiels associés à l’individu i. En la rapportant à l’inertie intra de NIJ , on obtient la contribution (relative) de l’individu i à cette inertie intra (pour l’axe s). En triant axe par axe ces contributions par valeurs croissantes, on obtient : – en tête de liste, les individus dont les points partiels sont homogènes pour l’axe considéré. Ces individus représentent bien, surtout s’ils sont loin de l’origine, les ressemblances entre les NIj . On en sélectionnera quelques-uns pour illustrer l’interprétation ; – en fin de liste, les individus dont les points partiels sont hétérogènes pour l’axe considéré. Ils mettent en évidence des différences entre les NIj et, en ce sens, sont partie intégrante de la variabilité des données. Dès qu’il y a beaucoup d’individus, la liste triée est précieuse pour sélectionner les individus à examiner en priorité. Le tableau 5.1 rassemble les contributions à l’inertie intra des six jus. Dans ces données de petite taille, ce tableau n’est pas utile pour l’interprétation (l’analyse visuelle est suffisante) et est donné à titre illustratif. On y lit :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 105 — #113
i
Chapitre 5. Comparaison de nuages d’individus partiels
i
105
– pour le premier axe, les hétérogénéités équivalentes des jus 2, 4 et 5 ; l’homogénéité du jus 3 ; l’hétérogénéité du jus 4 plus grande que celle du jus 1 (commentée plus haut) ; – pour le deuxième axe, l’hétérogénéité extrême du jus 4.
P3 P6 P1 P2 P4 P5
Axe 1 Fruivita fr. Pampryl fr. Pampryl amb. Tropicana amb. Joker amb. Tropicana fr.
0.47 5.36 14.43 25.19 26.74 27.81 100
P1 P3 P6 P2 P5 P4
Axe 2 Pampryl amb. Fruivita fr. Pampryl fr. Tropicana amb. Tropicana fr Joker amb.
0.38 6.15 11.93 16.22 25.35 39.97 100
Tableau 5.1 – Inerties intraindividu de la représentation superposée des nuages partiels. Pour chaque axe, ces inerties sont triées par valeurs croissantes. Lorsque le nombre de groupes actifs est supérieur à 2, il peut être intéressant de décomposer cette inertie intra-individu par groupe de variables. On obtient ainsi les contributions des individus partiels à l’inertie intra. Cela permet de détecter des individus qui, pour un groupe de variables, occupent, dans le nuage partiel correspondant, une place particulière comparée à celle qu’ils occupent dans les autres nuages partiels. La liste triée, par valeurs décroissantes, de ces inerties constitue un outil original de description de la variabilité d’un ensemble de données qui peut être utilisé pour détecter des anomalies et donc un certain type d’erreurs. Dans le cas de deux groupes, ces inerties sont égales à la moitié des inerties précédentes. Si l’on considère l’ensemble des individus, on peut calculer, pour chaque axe, le rapport usuel : Inertie de NI Inertie interclasses = . Inertie totale Inertie de NIJ On obtient ainsi un indicateur global de ressemblance entre les structures des nuages partiels mises en évidence par un axe donné. Axe 1 0.8964
Axe 2 0.6990
Axe 3 0.2046
Axe 4 0.3451
Axe 5 0.4874
Tableau 5.2 – Inertie inter/inertie totale associée à la représentation superposée. Dans l’exemple (tableau 5.2), ces valeurs incitent clairement à prendre en compte les deux premiers axes dans l’interprétation, ce qui n’était pas le cas des valeurs propres. Le second axe met en évidence une ressemblance entre les deux nuages partiels (rapport [inertie inter/inertie totale] élevé : .6990, valeur très supérieure
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 106 — #114
i
106
i
Analyse factorielle multiple avec R
aux suivantes) qui semble notable alors qu’elle correspond à une faible direction d’inertie de NI (faible valeur propre : .3651, à peine supérieure aux suivantes). Remarque Les inerties concernant les points partiels ne s’additionnent pas d’un axe à l’autre.
5.5 5.5.1
Distorsions dans la représentation superposée Exemple
Un petit exemple rassemblant les coordonnées de deux trapèzes (tableau 5.3 et figure 5.6), est utile pour illustrer notre propos. Quatre individus sont décrits par deux groupes composés chacun de deux variables non corrélées. Ces deux variables sont les mêmes d’un groupe à l’autre : seule change la variance de la seconde (Y1 et Y2 ), ce qui sera pris en compte dans les analyses en ne normant pas les variables. Ces variables jouent donc le rôle de composantes principales des analyses séparées et leurs variances celui des valeurs propres correspondantes. Il s’agit d’un ensemble de données très particulier puisque les composantes principales des analyses séparées sont identiques.
a b c d Variance
X1 0 10 10 0 25
Y1 0 1 3 4 2.5
X2 0 10 10 0 25
Y2 0 2 6 8 10
Tableau 5.3 – Données « deux trapèzes ».
Y2
4
d
8
Y1 d
c
6
c 4
2
a
0 0
b 10
X1
b
2
a
0 0
X2 10
Fig. 5.6 – Représentation des individus pour chaque groupe de variables.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 107 — #115
i
Chapitre 5. Comparaison de nuages d’individus partiels
ACP séparée groupe 1 ACP séparée groupe 2 AFM Nuage moyen AFM Nuage partiel groupe 1 AFM Nuage partiel groupe 2
F1 25 25 2 2 2
F2 2.5 10 0.5 0.08 1.28
i
107
F 2/F 1 0.1 0.4 0.25 0.04 0.64
Tableau 5.4 – Variances des deux premiers facteurs, dans les groupes analysés séparément et dans les représentations issues de l’AFM.La colonne F 2/F 1 rapporte la variance de la seconde dimension à celle de la première. C’est en quelque sorte un coefficient de forme exprimant l’allongement (horizontal) du nuage. Sans surprise (tableau 5.4 et figure 5.7), le premier axe de l’AFM coïncide avec les deux variables X1 et X2 en étant associé à une valeur propre de 2. Le second (et dernier) axe coïncide avec les deux variables Y1 et Y2 en étant associé à une valeur propre de 0.5 soit (en notant λjs la valeur propre de rang s de l’ACP séparée du groupe j) : 0.5 =
λ1 λ2 2.5 10 + = 21 + 22 . 25 25 λ1 λ1
La configuration moyenne des individus (figure 5.7) correspond bien à ce que l’on attend. Le rapport des variances entre le premier et le second axe est, pour la configuration moyenne, la moyenne de ce qu’il est pour chacune des configurations séparées. Soit : 0.5 1 = 2 2
2.5 10 + 25 25
.
La représentation superposée des nuages partiels (figure 5.7 et tableau 5.5) montre un premier axe parfaitement identique pour les deux nuages partiels. Le deuxième axe montre la même opposition entre les individus {a, b} d’une part et {c, d} d’autre part mais de façon plus marquée pour le groupe 2. Cela correspond bien à la variance de Y2 (= 10), plus élevée que celle de Y1 (= 2.5).
a b c d Variance
F11 1.4142 -1.4142 -1.4142 1.4142 2.00
F21 0.3578 0.1789 -0.1789 -0.3578 0.08
F12 1.4142 -1.4142 -1.4142 1.4142 2.00
F22 1.4311 0.7155 -0.7155 -1.4311 1.28
Tableau 5.5 – Coordonnées des individus partiels. F21 : coordonnées, selon l’axe 2, des individus partiels du groupe 1.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 108 — #116
i
Analyse factorielle multiple avec R
1.5
1.5
108
i
1.0
1.0
d c.g2
c
d.g1
0.0
c.g1 b.g1
-0.5
0.0
Dim 2 (20 %)
0.5
0.5
c
-0.5
Dim 2 (20 %)
d.g2
d
a.g1
b
b
-1.0
-1.0
b.g2
a
-1.5
-1.5
a
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Dim 1 (80 %)
a.g2
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
Dim 1 (80 %)
Fig. 5.7 – Individus moyens (à gauche) ; individus moyens et partiels (à droite). Mais, en comparant les représentations des nuages partiels dans l’AFM (figure 5.7) avec leur image exacte (figure 5.6), on remarque que les rapports de variances entre les deux axes ne correspondent pas. Ainsi, les données brutes montrent bien le nuage 1 plus allongé que le nuage 2. Il en est de même de la représentation des nuages partiels. Cependant les proportions ne sont pas exactement conservées. Cette impression visuelle peut être quantifiée en comparant les rapports F 2/F 1 (cf. tableau 5.4). Par rapport aux données brutes, le nuage des individus partiels du groupe 1 (resp. 2) est plus (resp. moins) allongé. Ainsi, pour un axe donné, la représentation des individus partiels en AFM respecte les positions relatives des points partiels d’un même groupe mais, en quelque sorte, caricature/accentue les différences de variabilité d’un groupe à l’autre. Ce résultat est général. Les données étant de très petite taille et ayant une structure très particulière, il est possible, dans ce cas particulier, d’en fournir une représentation géométrique exacte.
5.5.2
Interprétation géométrique
Dans RK (figure 5.8), en projection sur le sous-espace engendré par Y1 et Y2 (seules dimensions d’inertie non nulle une fois « retiré » le premier axe), le nuage NI est aligné le long de l’axe porté par u2 = Y1 + 2Y2 , axe qui constitue donc le second axe factoriel. C’est la plus grande variance de Y2 qui induit son plus grand poids dans u2 . Dans RI , les vecteurs Y1 et Y2 sont colinéaires et donc confondus avec le second axe factoriel. Y2 , étant deux fois plus long que Y1 , a une coordonnée deux fois plus grande. On illustre ici la relation de dualité en ACP (cf. 1.5.4) reliant les
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 109 — #117
i
Chapitre 5. Comparaison de nuages d’individus partiels
i
109
coordonnées (dans RI ) des variables en projection sur vs (regroupées dans Gs ) et les coordonnées de us (dans RK ) soit : 1 us = √ Gs . λs
ℝK
u2 d
Y2
Y2
ℝI Y1
c
v2
O
O Y1
b a
Fig. 5.8 – Relation de dualité entre les coordonnées de u2 (second axe factoriel dans RK ) et celles de Y1 et Y2 le long de v2 (dans RI ). La figure 5.9 montre le fonctionnement de la représentation superposée (des nuages partiels) en AFM. Les points partiels sont obtenus enprojetant le nuage moyen d’une part sur Y1 (c1 , d1 ) et d’autre part sur Y2 c2 , d2 . Conformément aux données, l’inertie de NI1 est plus petite que celle de NI2 (V ar [Y2 ] = 4V ar [Y1 ]). Ces nuages sont ensuite projetés sur u2 . Comme u2 est plus « proche » de Y2 que de Y1 , la projection réduit plus l’inertie de NI1 que celle de NI2 (et ce dans le rapport de 1 à 4). In fine, le rapport entre les variances de F21 et de F22 (i.e. entre les représentations partielles des groupes 1 et 2 le long du second axe) est de 1 à 16.
RK
Y2 d2 c2
u2 d c c1 d 1
Y1
Fig. 5.9 – Les nuages partiels et leur représentation superposée. Les nuages étant symétriques par rapport à l’origine, on se limite aux individus c et d. Le mécanisme qui, dans l’AFM, renforce axe par axe les différences d’inerties entre nuages partiels est ainsi éclairci : un nuage partiel de faible inertie influence moins l’axe factoriel et sera donc plus « contracté » dans la projection sur cet axe. Une double peine en quelque sorte.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 110 — #118
i
110
i
Analyse factorielle multiple avec R
Remarque Pour j que le point i de NI figure bien au centre de gravité des points partiels i : j = 1, J correspondants, dans les graphiques fournis par les programmes les points partiels sont dilatés avec le coefficient J. Ce coefficient, étant le même pour tous les groupes, ne change pas les inerties « relatives » des nuages. Cette propriété barycentrique est très importante pour l’interprétation. Aussi, on ne cherche pas à réduire la distorsion évoquée ci-dessus (par exemple en dilatant différentiellement les nuages partiels), ce qui ferait perdre la propriété barycentrique. On retiendra que, dans la représentation superposée, les distances entre points partiels ne sont « aisément » interprétables qu’à l’intérieur d’un même groupe de variables (ce qu’exprime, d’ailleurs, la relation de transition partielle). D’un groupe à l’autre, les distances entre points partiels de groupes différents ne sont « suggestives » que si les nuages partiels correspondants ont des inerties comparables (pour les axes, ou les plans, considérés).
5.5.3
Approche algébrique
Notations (rappels et compléments) Soit xik le terme général du tableau X de taille (I, K) juxtaposant en ligne les tableaux Xj . Soient mk le poids affecté à la variable k, M la matrice diagonale de taille (K, K) contenant l’ensemble des mk et Mj la matrice diagonale de taille (Kj , Kj ) contenant les poids mk des variables du seul groupe j. Pour simplifier, nous nous situons ici dans le cas où les individus ont le même poids. Soit Wj = Xj Mj Xj0 la matrice des produits scalaires (entre individus) associée au j e tableau. L’AFM repose sur une ACP pondérée du tableau X. On note us le vecteur unitaire du se axe d’inertie du nuage moyen (us ∈ RK ), Fs la composante principale associée, vs la composante principale normée associée (Fs et vs ∈ RI ), λs la valeur propre associée et S le nombre de valeurs propres non nulles. Soit Z la matrice de taille (I, I) dont les colonnes sont les vecteurs propres normés de XM X 0 rangés par valeur propre décroissante ; les S premières colonnes de Z sont les vs . On a : Z 0 Z = ZZ 0 = identité. La coordonnée de l’individu partiel ij le long de l’axe de rang s de l’AFM est notée Fs (ij ) = Fsj (i). Fsj est le vecteur de ces I coordonnées. En outre, on note Gs (k) la coordonnée de la variable k le long de l’axe s (dans RI ). Enfin, λjs représente la se valeur propre de l’ACP séparée du groupe j.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 111 — #119
i
Chapitre 5. Comparaison de nuages d’individus partiels
i
111
Reconstitution des NIj Les coordonnées de la projection de NIj sur us sont regroupées dans Fsj ; Fsj se déduit de vs par (cf. 5.2) : 1 ˜ 1 ˜ 1 Fsj = √ X Xj M X 0 vs = √ Wj vs . j M Gs = √ λs λs λs √ λs Fsj ; s = 1, S l’ensemble des coordonnées des projections du nuage NIj Soit √ (multipliées par λs ). L’ACP de la matrice de taille (I, S) ayant pour colonnes √ λs Fsj ; s = 1, S revient à faire celle du tableau Wj Z (de taille (I, I)). Ce qui conduit à diagonaliser la matrice : Wj ZZ 0 Wj = Wj Wj , dont les vecteurs propres sont les mêmes que ceux de Wj et les valeurs propres les carrés de celles de √Wj . j Ainsi, l’ACP de λs Fs ; s = 1, K conduit aux mêmes facteurs que celle de Xj , les valeurs propres de cette ACP étant les carrés de celles de Xj . En ce sens, l’ensemble des Fsj permet une reconstitution de Xj . Cette reconstitution n’est en général pas parfaites même si le nuage NI est parfaitement représenté dans l’AFM puisque, pour cette reconstitution : √ – les facteurs Fsj ont été au préalable multipliés par λs (distortion 1) ; – les valeurs propres de la reconstitution obtenue sont les carrés de celles de la représentation exacte (distortion 2). Exemple numérique Les données « deux trapèzes » présentent la particularité suivante : les variables initiales correspondent aux axes de l’AFM. La déformation d’un nuage NIj peut donc être illustrée en comparant la variance d’une variable initiale (notée ici v j ) et la variance du facteur Fsj correspondant. D’après ce qui précède : jp 2 λs F V ar s λs = 2 V ar Fsj = V ar v j . J J Fsj est ici le vecteur des coordonnées fourni par les programmes (donc après l’homothétie de rapport J (cf. 5.2)), d’où la division par J. La variance de v j doit être considérée après la pondération de l’AFM. Soit, en remplaçant dans la seconde égalité ci-dessus les symboles par leur valeur pour le groupe 1 et l’axe 2 : 0.5 0.08 = 22
2.5 25
2 .
L’élévation au carré montre bien la « contraction » des dimensions de petite inertie. Par ailleurs, l’effet de la valeur propre λs , étant le même pour tous les groupes, n’a pas retenu notre attention jusqu’ici. Mais dans le cas d’un plan factoriel construit à partir d’axes d’inerties très différentes, il peut donner lieu à des distorsions
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 112 — #120
i
112
i
Analyse factorielle multiple avec R
visibles, en particulier quand, initialement, les dimensions correspondantes d’un nuage partiel sont d’inerties égales. Un exemple en est donné en 10.3.2.
5.6
Conclusion sur la représentation superposée
La représentation superposée s’avère un intérêt majeur dans les applications. Elle permet, dans une certaine mesure, d’éviter de consulter les analyses séparées. Dans cette perspective, nous avons insisté sur les distorsions liées à cette représentation. En résumé, le long de l’axe de rang s du nuage moyen, l’inertie de la projection de NIj a tendance à être amplifiée lorsque la direction de projection correspond : – à une direction d’inertie faible du nuage NI (du fait de la distortion 1) ; cette déformation est identique pour tous les NIj ; – à une direction d’inertie importante de NIj (du fait de la distortion 2) ; cette déformation varie selon les NIj . En contrepartie de cette déformation, la représentation superposée des NIj bénéficie d’une relation de transition, dite partielle, exprimant la coordonnée Fsj (i) d’un individu partiel ij en fonction des coordonnées Gs (k) des variables du groupe j. Cette relation offre une possibilité intéressante de prise en compte d’individus qui ne possèdent des données que pour certains groupes de variables. De tels individus ne peuvent être introduits en actif dans l’AFM. En revanche, on peut les introduire en supplémentaires et les représenter au travers des points partiels correspondant aux groupes pour lesquels ils ont des données. Dans l’exemple des jus d’orange, cela correspondrait à un jus dont on connaîtrait les variables chimiques mais qui n’aurait pas été dégusté. On peut alors représenter, sur le plan factoriel de la figure 5.5, le point partiel chimie de ce jus et interpréter sa position par rapport aux autres points partiels chimie. Concrètement, on réalisera ceci en complétant les données manquantes par des valeurs arbitraires (les moyennes des variables par exemple) et en ne prenant en compte, dans les résultats, que des points partiels pour lesquels on dispose des données. L’AFM offre ici une possibilité d’intégrer dans l’analyse des données usuellement mises de côté.
5.7
Nuages partiels de l’AFM dans FactoMineR
Nous utilisons les données « jus d’orange ». Nous poursuivons l’analyse présentée en 4.7 page 89, en détaillant quelques spécificités des points partiels. La représentation superposée contient a priori I(J + 1) points et est souvent peu lisible telle quelle. Il est donc nécessaire de pouvoir sélectionner les individus, moyens et/ou partiels, à représenter. On obtient ainsi des graphiques suffisants pour l’analyse. Toutefois, dans la perspective d’une présentation esthétique de résultats, il est nécessaire de recourir à des logiciels graphiques.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 113 — #121
i
Chapitre 5. Comparaison de nuages d’individus partiels
i
113
Menu déroulant La figure 5.10 reprend la partie « individus » de la figure 4.10 page 92.
1
2
3 4 5
Fig. 5.10 – Fenêtre du graphique des individus. 1. On peut étiqueter ou non les points moyens et/ou partiels. 2. On peut affecter une même couleur aux individus partiels relatifs soit à un même groupe soit à un même individu. 3. On peut sélectionner a priori les individus dont on veut représenter les points partiels. 4. Cette option affiche un graphique interactif au sens suivant. Au départ, seuls les individus moyens apparaissent. En cliquant sur un individu moyen, on fait apparaître les individus partiels correspondants, ces individus partiels étant reliés (par un segment) à leur point moyen (représentation dite « en étoile »). En cliquant sur un individu moyen dont les points partiels sont représentés, on efface ces derniers. Il est ainsi possible, en procédant pas à pas, de sélectionner visuellement quelques individus remarquables (ayant, pour un ou deux axes, une inertie intra particulièrement grande ou particulièrement petite). Attention, après le travail sur ce graphique, il est impératif de le fermer (clic droit puis « arrêter »).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 114 — #122
i
114
i
Analyse factorielle multiple avec R 5. Lorsque les groupes de variables sont associés à une date, il est utile de relier les points partiels (d’un même individu) dans l’ordre chronologique, ce qui est souvent appelé « trajectoire ». Cela implique que les groupes soient rangés par ordre chronologique.
Quelques lignes de commande Deux fonctions graphiques spécifiques de l’AFM sont disponibles. La fonction plot.MFA a déjà été présentée. Par défaut, elle affiche les individus moyens, étiquetés chacun de couleur différente : > plot.MFA(resAFM) Il est commode de faire apparaître les points partiels non étiquetés mais coloriés selon leur groupe (ici, on explicite les valeurs par défaut des arguments axes et choix) : > plot.MFA(resAFM,axes=c(1,2),choix="ind",hab="group",partial="all") On peut restreindre la représentation des individus partiels à quelques individus dont on indique les numéros. > plot.MFA(resAFM,axes=c(1,2),choix="ind",hab="group",partial=c(1,2)) La sélection interactive des individus dont on souhaite la représentation des points partiels (présentée dans R Commander) est accessible directement via la fonction plot.MFApartial : > plotMFApartial(resAFM,axes=c(1,2),hab="group") Cette commande affiche la représentation des individus moyens. On clique sur les points à sélectionner (un second clic annule la sélection). Attention, lorsque cette option est commandée avec Rcmdr, toujours arrêter explicitement la sélection (clic droit ou onglet en haut à gauche) avant de réaliser une autre opération. L’étiquetage des points partiels se fait en concaténant le libellé de l’individu et le libellé du groupe. Il en résulte un graphique encombré. Exemple : > plot(resAFM,choix="ind",partial="all",lab.par=T,hab="group") Une option consiste à afficher des libellés spécifiques d’un graphique. Pour cela, on affiche d’abord un graphique sans libellés ; dans la fenêtre active obtenue, on ajoute des libellés à l’aide de la fonction text. Exemple pour un graphique en noir et blanc (habillage="none") : > plot(resAFM,choix="ind",partial="all",hab="none") > text(resAFM$ind$coord.partiel[,1],resAFM$ind$coord.partiel[,2], + rep(c("Chim","Senso"),6),pos=3,offset=0.5) Les sorties de l’AFM comportent un grand nombre de tableaux. Les valeurs du tableau 5.1 page 105 sont dans resAFM$ind$within.inertia ; celles du tableau 5.2 page 105 sont dans resAFM$inertia.ratio.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 115 — #123
i
i
Chapitre 6
Facteurs communs à différents groupes de variables Historiquement, l’analyse simultanée de plusieurs groupes de variables s’est d’abord focalisée sur la recherche de facteurs communs à ces groupes. Tel est l’objet de l’analyse canonique dont il existe de nombreuses variantes. Ce chapitre montre comment ce point de vue est pris en compte dans l’AFM et en quel sens l’AFM peut être vue comme une analyse canonique particulière.
6.1
Problématique
Un aspect majeur de l’étude d’un tableau individus × variables réside dans la mise en évidence de liaisons entre les variables. Ainsi, dans le cas simple d’un seul groupe de variables quantitatives, on examine les coefficients de corrélation entre les variables prises deux à deux. Cet examen peut être fait aussi en présence de plusieurs groupes de variables, auquel cas on distinguera les corrélations intergroupes et intragroupe. Mais le fait de prendre en compte simultanément plusieurs groupes de variables suggère de s’intéresser à la liaison entre groupes de variables eux-mêmes. Encore faut-il préciser ce que recouvre un tel concept, ce que nous faisons ci-après. Ce problème est ancien : dès 1936, H. Hotelling publiait un article intitulé « Relations entre deux ensembles de variables ». Pour introduire ce sujet, il présente l’exemple de la mise en relation de l’offre et de la demande pour les matières premières agricoles, mettant en évidence la nécessité d’analyser simultanément ces matières premières dont les offres, d’une part, et les demandes, d’autre part, sont interdépendantes. Nous décrirons à la fin de cette section à quelle problématique précise Hotelling aboutit. Nous posons ci-après le problème d’une façon plus naturelle, croyons-nous, compte tenu du contexte « analyse exploratoire » de ce livre.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 116 — #124
i
116
i
Analyse factorielle multiple avec R
Repartons du cas d’un seul groupe de variables quantitatives. Au-delà des corrélations deux à deux, l’étude des liaisons se fait à l’aide de l’ACP. Les composantes principales constituent un repère privilégié pour représenter les variables initiales, en ce sens qu’elles rendent maximum l’inertie projetée. Dans le cas de l’ACP normée, ce critère est équivalent à la somme des carrés des coefficients de corrélation entre la composante principale et les variables initiales. D’où l’interprétation d’une composante principale en tant que variable synthétique (elle peut prétendre faire la synthèse de ce à quoi elle est très liée). Pour prendre en compte plusieurs groupes de variables, on peut songer à mettre en œuvre une ACP globale afin de visualiser à la fois les corrélations inter et intragroupes. C’est ce qui a été fait dans le chapitre 4 où on montre que, pour être pleinement utile, cette analyse suppose un équilibre (en un sens à préciser) entre les groupes de variables. Dit autrement : faire émerger des corrélations intergroupes parmi des corrélations intragroupe implique, implicitement, un équilibre entre les groupes de variables.
6.1.1
Mesure de liaison entre une variable et un groupe
Reprenons le second point de vue sur une composante principale d’ACP normée : une telle composante est une variable synthétique très liée aux variables initiales. L’extension la plus simple au cas de plusieurs groupes consiste à chercher une variable très liée aux groupes de variables. Ce qui suppose la définition d’une mesure de liaison entre une variable (en l’occurrence ici vs , variable synthétique de rang s) et un groupe de variables (déjà noté Kj ). En notant Lg (vs , Kj ) une telle mesure, la variable synthétique (de rang s) vs doit satisfaire : X Lg(vs , Kj ) maximum j
avec une contrainte de norme kvs k = 1 et d’orthogonalité (on cherche, en fait, une suite de variables synthétiques) vs ⊥vt pour t < s. Pour assurer l’équilibre des groupes au sein d’un tel critère, il suffit que la mesure de liaison vérifie (comme le carré du coefficient de corrélation en ACP normée) : 0 ≤ Lg ≤ 1. La valeur 0 indique une absence totale de liaison (en un sens à préciser), la valeur 1 indique une liaison d’intensité maximum (en un sens à préciser). La référence au critère de l’ACP normée (écrit comme une somme de carrés de coefficients de corrélation) éclaire ce que l’on attend d’un équilibre entre les groupes de variables. En ACP, il ne s’agit pas d’obtenir des composantes principales (variables synthétiques) telles que chacune d’elles soit liée de la même manière à chaque variable (la possibilité d’obtenir une telle composante principale dépend des corrélations entre les variables initiales). Il faut simplement que, a priori, aucune variable initiale ne soit privilégiée dans la construction d’une composante
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 117 — #125
i
Chapitre 6. Facteurs communs
i
117
principale ; cela est assuré dans la mesure où la contribution maximum d’une variable à la construction d’une composante principale est la même pour toutes les variables. C’est bien le cas en ACP normée ; c’est cette propriété qu’il est souhaitable de transposer au cas de l’analyse simultanée de plusieurs groupes de variables (on retrouve ici, sous l’angle de la liaison entre un groupe et une variable, la démarche utilisée dans le chapitre 4).
6.1.2
Facteur commun à plusieurs groupes de variables
Nous recherchons donc des variables synthétiques liées le plus possible aux groupes de variables. Une variable synthétique, c’est-à-dire très liée à chaque groupe, sera appelée facteur commun (à tous les groupes). On peut aussi imaginer un facteur commun à certains groupes seulement et même un facteur spécifique d’un seul groupe. Cela permet d’exprimer une spécification de l’objectif général « étude des relations entre ensembles de variables ». On recherche des facteurs : – communs à l’ensemble des groupes de variables ; – communs à certains groupes seulement ; – spécifiques d’un groupe. Une fois ces facteurs obtenus, ils sont étudiés, comme en ACP, à l’aide d’une représentation : – des individus ; fondamentalement, un facteur commun est une structure sur l’ensemble des individus, par exemple une opposition entre deux groupes d’individus ; – des variables (cercle des corrélations) ; la question est : quelles sont les variables, dans chacun des groupes, qui correspondent (i.e. sont liées) à cette structure sur les individus ?
6.1.3
Retour sur les six jus d’orange
Illustrons ces considérations dans le cas des données « six jus d’orange » (cf. 1.10), pour lesquelles on dispose de deux groupes de variables : les sept descripteurs sensoriels et les huit mesures chimiques. Dans la mise en relation de ces deux types de données, on calcule, dans un premier temps, quelques coefficients de corrélation « inter-groupes » dont on peut avoir l’idée a priori. Ainsi : – r (saveur acide, pH) = −.85 ; ce résultat est attendu : plus le pH est bas, plus le milieu est acide et plus on s’attend à observer des perceptions « acides » ; – r (saveur sucrée, saccharose) = .77 ; ce résultat est, lui-aussi, attendu : plus la concentration en saccharose est élevée et plus on s’attend à une perception « sucrée ». Mais il convient de préciser que ces liaisons ne peuvent être considérées comme attendues que « toutes choses égales par ailleurs ». Or, dans ces données, on peut s’attendre à des relations intragroupes pour deux types de raisons. A) Les produits ont été choisis selon une variable technologique (niveau de pasteurisation) et leur origine (Floride/autre). Un tel choix induit nécessairement des
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 118 — #126
i
118
i
Analyse factorielle multiple avec R
corrélations entre caractéristiques chimiques. Ainsi, r (pH, saccharose) = .82 : dans l’ensemble, les produits les moins acides (chimiquement) sont aussi les plus sucrés (chimiquement). B) Ces liaisons entre caractéristiques chimiques ont nécessairement un impact sur le profil sensoriel. Mais il y a plus. Même si l’on attend des dégustateurs une analyse séparée de leurs perceptions, ces dernières sont forcément simultanées : en nous limitant aux sensations gustatives stricto sensu, ce que l’on perçoit est d’abord un équilibre gustatif, au sein duquel, dans un second temps, on essaie d’évaluer les saveurs fondamentales. Il en résulte que l’on attend des liaisons entre les variables sensorielles. Ainsi, r (acidité perçue, sucré perçu) = −.90. On reliera d’abord ce résultat à la liaison (pH, saccharose) déjà mentionnée. Mais, on pensera aussi à l’équilibre gustatif acide/sucré (pour diminuer l’acidité d’un jus de citron, il est courant d’ajouter du sucre). Pour étudier la liaison entre les données chimiques et les données sensorielles, apparaît clairement, dans cet exemple, la nécessité d’aller au-delà des corrélations deux à deux (i.e. entre une variable chimique et une variable sensorielle) et de considérer globalement les profils chimiques et sensoriels (et non leurs constituants séparément). Dans cette perspective, que peut nous apporter le point de vue des facteurs communs ? Compte tenu des corrélations inter et intragroupes entre les quatre variables précitées (pH, saccharose, acidité et sucré perçus), du faible nombre de ces variables (4), de leur facilité (au moins à première vue) d’interprétation et enfin du faible nombre d’individus, on peut avoir l’idée d’opposer deux classes de chacune trois jus : – {les deux Tropicana et Fruvita} ; ces trois jus ont un pH et une teneur en saccharose élevés, ils sont perçus comme sucrés et peu acides ; – {les deux Pampryl et Joker} ; ces trois jus présentent exactement les caractéristiques inverses. Cette opposition illustre de façon schématique ce que peut être un facteur commun (schématique car cette opposition définit une variable qualitative ; un facteur commun est généralement une variable quantitative qui permet plus de nuances) et son intérêt. Elle est considérée comme un facteur commun en ce sens qu’elle est liée à des variables des deux groupes. Son intérêt réside dans le fait que la description de l’opposition entre les deux classes présente de façon synthétique les liaisons entre les variables des deux groupes, aussi bien inter qu’intragroupes. Finalement, dans cet exemple de petite taille (6 individus, 2 groupes de 2 variables chacun), il a été possible : – d’avoir l’intuition de ce facteur commun ; – de valider la synthèse fournie par le facteur commun en analysant directement l’ensemble des coefficients de corrélation. Ce n’est évidemment pas le cas dès que les données sont sensiblement volumineuses. D’où le recours à une méthode statistique spécifique. Dans cet exemple des jus d’orange, il a été possible d’avoir l’intuition d’un facteur commun grâce aux résultats de l’ACP (cf. 1.10). Cette ACP est-elle « la » méthode pour mettre en évidence des facteurs communs ? Non, car elle fait jouer un rôle
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 119 — #127
i
Chapitre 6. Facteurs communs
i
119
dissymétrique aux deux groupes : on recherche d’abord les principales dimensions de variabilité chimique, et ensuite seulement on relie ces dimensions aux variables sensorielles.
6.1.4
Analyse canonique
L’idée de rechercher une fonction liée le plus possible à un ensemble de groupes de variables a été introduite la première fois par J.D. Carroll en 1968 en tant que généralisation de l’analyse canonique (de Hotelling). Comme plusieurs généralisations de l’analyse canonique ont été proposées, il y a lieu de préciser « analyse canonique généralisée (ACG) au sens de Carroll » (on dit aussi « analyse multicanonique au sens de Carroll »). Du fait de son antériorité d’une part, et du fait de sa focalisation sur la recherche de facteurs communs d’autre part, on peut considérer cette analyse comme la méthode de référence sur ce sujet. Ce qui n’empêche pas de proposer d’autres approches, mais nécessite de les situer par rapport à celle-là. Pour analyser la liaison entre deux groupes de variables, Hotelling introduit la notion de variable canonique. Il cherche simultanément : – une combinaison linéaire (notée u) des variables du groupe 1 ; – une combinaison linéaire (notée v) des variables du groupe 2 ; telles que le coefficient de corrélation entre u et v (r (u, v)) soit maximum. u et v sont dites « variables canoniques », r (u, v) est dit « coefficient de corrélation canonique » et l’ensemble de la démarche « analyse canonique ». L’analyse canonique est une méthode qui joue un rôle théorique important, essentiellement parce que de nombreuses autres méthodes de la statistique peuvent être vues comme en étant un cas particulier (par exemple, la régression multiple, si l’un des deux groupes est réduit à une seule variable). Mais elle n’est pratiquement jamais utilisée pour traiter des données. La raison en est, croyons-nous, que le point de vue de la recherche d’un couple de variables canoniques, une dans chaque groupe, ne coïncide pas exactement avec un questionnement naturel d’utilisateur. Ce n’est pas le cas du point de vue de l’analyse de Carroll, comme nous pensons l’avoir illustré avec l’exemple des jus d’orange. Remarquons toutefois que, dans sa présentation de 1968, Carroll voit, dans ce que nous avons appelé « facteurs communs », des intermédiaires de calcul pour obtenir des variables canoniques (d’un facteur commun, il déduit une variable canonique par groupe). La présentation de l’analyse multicanonique au sens de Carroll faite plus haut est donc celle d’une méthode « revisitée ».
6.2
Liaison entre variable et groupe de variables
La mesure classique de liaison entre une variable z et un groupe Kj est le coefficient de corrélation multiple (ou son carré, le coefficient de détermination, usuellement noté R2 ) noté r (z, Kj ). C’est le coefficient de corrélation maximum entre z et une combinaison linéaire des variables du groupe Kj . Géométriquement, c’est le cosinus
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 120 — #128
i
120
i
Analyse factorielle multiple avec R
de l’angle entre z et sa projection sur Ej , sous-espace engendré par les variables du groupe Kj . Cette mesure est utilisée systématiquement en régression multiple (z étant la variable à prédire ; Kj contenant les prédicteurs) pour juger de la qualité de l’ajustement (de z par une combinaison linéaire des variables de Kj ). Cette mesure est pleinement satisfaisante lorsque les variables de Kj sont non corrélées deux à deux. En pratique, on est dans cette situation lorsque les variables sont des prédicteurs construits à partir d’un plan d’expériences. Autrement, lorsque les variables sont liées, le sous-espace engendré par les variables de Kj peut être très instable (vis-à-vis de fluctuations de ces variables) comme l’illustre la figure 6.1 dans une situation extrême. z1
θ1
Eab1 b1 a b2
θ2 z2
Eab2
Fig. 6.1 – Interprétation géométrique du coefficient de corrélation multiple dans une situation d’instabilité. cos θ1 : coefficient de corrélation multiple entre z1 et {a, b1 } ; Eab1 : sous-espace engendré par a et b1 . Dans cette figure, le groupe de variables Kj contient deux variables a et b très étroitement corrélées. La variabilité de b est représentée au moyen de deux « réalisations » de b : b1 et b2 . Dans le premier (resp. second) cas, le groupe Kj , soit {a, b1 } (resp. {a, b2 }), engendre le sous-espace Eab1 (resp. Eab2 ). Alors que b1 et b2 sont très corrélées (autrement dit, la variabilité de b matérialisée par l’écart entre b1 et b2 est faible), ces sous-espaces sont très différents (là réside l’instabilité du coefficient de corrélation multiple puisqu’il s’appuie sur ces sous-espaces). Le coefficient de corrélation multiple entre z1 (resp. z2 ) et {a, b1 } (resp. {a, b2 }) est le cosinus de l’angle noté θ1 (resp. θ2 ) entre z1 (resp. z2 ) et sa projection sur Eab1 (resp. Eab2 ). Examinons la liaison entre Kj et chacune des deux variables z1 et z2 . Ces deux dernières variables sont à peu près orthogonales à chacune des variables de Kj . Or le coefficient de corrélation multiple entre z1 et Kj vaut : – à peu près 1 dans le premier cas (r(z1 , {a, b1 }) ≈ 1) car θ1 , angle entre z1 et Eab1 , est à peu près nul ; – à peu près 0 dans le second cas (r(z1 , {a, b2 }) ≈ 0) car θ2 , angle entre z1 et Eab2 , vaut à peu près 90◦ .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 121 — #129
i
Chapitre 6. Facteurs communs
i
121
Cette instabilité (vis-à-vis d’une petite fluctuation de b) s’observe aussi pour la variable z2 . En effet, r(z2 , {a, b1 }) ≈ 0 et r(z2 , {a, b2 }) ≈ 1. Ces deux variables z1 et z2 ont en commun d’être peu liées à chacune des variables du groupe Kj . Une variable z3 très corrélée à a et b (quelle que soit la réalisation de cette dernière) ne serait pas concernée par cette instabilité. D’où l’idée d’une mesure de liaison (entre une variable z et un groupe Kj ) qui fasse intervenir le groupe de variables, non pas uniquement au travers du sous-espace qu’elles engendrent, mais en prenant en compte la répartition des variables au sein de ce sous-espace. Dans cet esprit, on définit la mesure (de liaison) Lg (z, Kj ) comme l’inertie projetée sur z des variables du groupe Kj , inertie rapportée à sa valeur maximum (déjà notée λj1 , première valeur propre de l’ACP de Kj ). Soit, dans le cas de variables normées (notées vk ) : Lg(z, Kj ) =
1 X λj1 k∈Kj
(inertie projetée de vk sur z) =
1 X λj1
r2 (z, vk ).
k∈Kj
On a : 0 ≤ Lg (z, Kj ) ≤ 1. La valeur 0 est atteinte lorsque toutes les variables vk sont parfaitement non corrélées à z. Cette propriété vaut aussi pour le coefficient de corrélation multiple. Mais la différence est que si les r (z, vk ) sont très légèrement voisins de 0, Lg demeure proche de 0 alors que le coefficient de corrélation multiple peut être important (cf. figure 6.1). La valeur 1 est atteinte si z est confondue avec la première composante principale de Kj . Nous avons déjà interprété cette première composante principale comme la fonction sur I la plus liée aux variables actives de l’ACP.
6.3
Recherche de facteurs communs
Une fois la mesure de liaison entre une variable et un groupe (de variables) définie, on applique la première partie de la démarche de l’analyse canonique de Carroll (esquissée en introduction à ce chapitre) : chercher la combinaison linéaire des variables la plus liée à l’ensemble des groupes en remplaçant donc, dans la méthode de Carroll, le carré du coefficient de corrélation multiple par la mesure Lg. Le premier facteur (commun), noté v1 , est la variable z qui maximise : X 2 Lg (z, Kj ) avec la contrainte de norme : k v1 k D = 1. j
Lg(z, Kj ) étant égale à l’inertie des variables de Kj projetées sur z (ici l’inertie intègre la pondération par λj1 ), ce premier facteur commun est la première composante principale normée de l’AFM. C’est l’équilibre de l’influence des groupes obtenu grâce à la pondération de l’AFM qui permet la double interprétation du critère, à la fois comme celui d’une ACP et comme celui d’une analyse canonique. Ce résultat est précieux à plus d’un titre. Il montre en particulier que les deux objectifs, étude de la variabilité (en incluant plusieurs groupes de variables) des
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 122 — #130
i
122
i
Analyse factorielle multiple avec R
individus (objectif de l’ACP) d’une part, et recherche de facteurs communs (objectif de l’analyse canonique) d’autre part, sont liés entre eux, voire constituent deux faces d’une même problématique. Cette idée apparaît déjà dans l’introduction à ce chapitre, dans laquelle ces facteurs sont définis comme une structure sur les individus (l’exemple donné est celui de l’opposition entre deux groupes de chacun trois jus d’orange). Une fois le premier facteur commun trouvé, on en cherche un second, orthogonal au premier, et ainsi de suite pour obtenir finalement une suite de facteurs orthogonaux. Ces facteurs sont les composantes principales de l’AFM, dont celle de rang s a déjà été notée vs (de variance 1) ou Fs (de variance λs ).
6.4
Recherche de variables canoniques
Dans la méthode de Carroll, à chaque facteur Fs on associe un ensemble de J variables canoniques (une par groupe de variables). Ces variables représentent en quelque sorte le facteur commun Fs dans chaque groupe. Elles sont obtenues en projetant Fs sur chacun des sous-espaces engendrés par les variables d’un groupe. Il y a donc une homogénéité de critères dans la recherche de facteurs communs d’une part et dans celle de variables canoniques d’autre part : dans les deux cas, un groupe de variables est représenté par le sous-espace qu’il engendre. Nous adaptons la démarche de Carroll en faisant intervenir les spécificités de notre point de vue sur l’analyse canonique, à savoir : – considérer chaque groupe de variables en prenant en compte la distribution de l’inertie au sein du sous-espace qu’il engendre ; – mettre en avant l’espace des individus, ce qui est fait lorsqu’un facteur commun est défini comme une structure sur les individus. Ce dernier point de vue suggère d’utiliser les coordonnées des individus partiels (regroupées dans les facteurs partiels notés Fsj ) comme variables canoniques. En effet, Fsj est bien une structure sur les individus définie par le groupe j (c’est le nuage NIj que l’on projette) et associée à Fs (NIj est projeté sur us ). Pour valider ce choix, il est nécessaire de l’exprimer dans l’espace RI , cadre usuel de l’analyse canonique. Le facteur Fsj a déjà été exprimé (propriété 3 de la section 5.2) en fonction des ˜ j est le tableau Xj complété coordonnées des variables dans RI , soit (rappel : X par des 0 pour avoir les mêmes dimensions que le tableau complet X) : 1 ˜ Fsj = √ X j M Gs . λs Dans le cas de variables normées, la k e coordonnée de Gs contient le coefficient de corrélation entre la k e variable notée vk et Fs . Dans ce cas : 1 1 X r (Fs, vk ) vk . Fsj = √ λs λj1 k∈K j
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 123 — #131
i
Chapitre 6. Facteurs communs
i
123
Ainsi, Fsj est une fonction sur I qui à la fois prend en compte la distribution des variables de Kj (c’est une combinaison linéaire des variables du groupe Kj ) et à la fois est liée à Fs (chaque variable vk influence d’autant plus Fsj qu’elle est liée à Fs ). Cette interprétation de Fsj dans RI valide son choix en tant que variable canonique dans une démarche inspirée de celle de Carroll. Elle permet ainsi de considérer l’AFM comme une analyse multicanonique. Remarque L’idée de combiner des variables vk en utilisant comme coefficient leur corrélation avec une variable z se retrouve dans la régression PLS (avec une seule composante) expliquant z en fonction des vk . En pratique, comme déjà mentionné pour les nuages partiels, pour la réalisation des graphiques, les Fsj sont multipliés par J.
6.5
Aides à l’interprétation
Le point de vue de l’analyse canonique suggère deux types d’indicateurs supplémentaires pour aider l’interprétation d’une AFM.
6.5.1
Mesure de liaison Lg
Il ne s’agit pas à proprement parler d’un indicateur nouveau, mais d’une interprétation supplémentaire de la contribution d’un groupe à l’inertie d’un axe. Ainsi, le tableau 4.5 suggère maintenant les commentaires suivants : – le premier facteur de l’AFM est très lié à chacun des groupes en ce sens qu’il représente une direction d’inertie importante de chaque groupe (e.g. Lg(F1 , K1 ) = .891, valeur assez proche du maximum théorique 1). – le deuxième facteur de l’AFM est un peu lié au second groupe (Lg(F2 , K2 ) = .266) et très peu au premier (Lg(F2 , K1 ) = .099).
6.5.2
Coefficients de corrélation canoniques
Dans l’analyse canonique originelle, celle de Hotelling, un coefficient de corrélation canonique mesure la liaison entre deux variables canoniques de même rang. Cette notion perd de son intérêt dans le cas de plus de deux groupes, en particulier dans une approche du type de celle de Carroll. En revanche, il est intéressant d’évaluer la liaison entre un facteur commun Fs et sa représentation Fsj dans le groupe j. Cette liaison indique dans quelle mesure le facteur Fs peut être considéré comme « appartenant » au groupe j. Pour cela, on calcule, pour chaque rang s, le coefficient de corrélation entre le facteur Fs et chaque variable canonique Fsj .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 124 — #132
i
124
i
Analyse factorielle multiple avec R
Ce sont ces coefficients qui sont dits « canoniques » en AFM. Consultés au début de l’interprétation, ils orientent l’utilisateur en suggérant, pour chaque facteur, son type (facteur commun à tous les groupes, ou à certains d’entre eux, voire spécifique d’un groupe). Appliqués aux données « jus d’orange », ces coefficients sont rassemblés dans le tableau 6.1. Groupe 1 : chimie 2 : sensoriel
F1 .9466 .9469
F2 .7556 .9522
F3 .4407 .4638
F4 .4631 .6941
F5 .8030 .5744
Tableau 6.1 – Coefficients de corrélation canoniques. En l’absence de procédure de validation, on ne peut décider qu’empiriquement du seuil en deçà duquel un coefficient de corrélation canonique sera considéré comme négligeable. En pratique, on consulte ces coefficients pour un grand nombre d’axes, ceux des rangs les plus élevés correspondant (presque) sûrement à une absence de structure : on essaie alors de trouver une discontinuité dans cette distribution. Le tableau 6.1 suggère de mettre cette limite entre .8030 et .9522. Il conduit à considérer le premier facteur comme commun aux deux groupes et le deuxième facteur comme spécifique du groupe 2 (sensoriel). Cette interprétation est en accord avec : – la mesure de liaison, déjà citée, Lg égale à .099 (tableau 4.5), très faible entre F2 et le groupe 1 ; – les valeurs propres de l’ACP du groupe 1 (tableau 4.5) qui suggèrent un groupe unidimensionnel (le premier axe exprime 77.66 % de l’inertie totale) ; – la représentation des variables sur le premier plan (figure 4.4) qui ne suggère aucune interprétation chimique en dehors du premier axe. Remarque méthodologique. En pratique, on commence le dépouillement des résultats d’une AFM par l’examen des coefficients de corrélation canoniques. Si l’on conclut à l’absence de facteurs communs, il est logique d’arrêter l’investigation : dans un tel cas, les facteurs des ACP séparées seront préférés aux facteurs (spécifiques d’un groupe donc) de l’AFM. Dans les sorties de l’AFM de FactoMineR (de nom res), ce tableau se trouve dans res$group$correlation.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 125 — #133
i
i
Chapitre 7
Comparaison des groupes de variables et modèle Indscal Les chapitres précédents présentent des outils d’analyse détaillée des relations entre groupes de variables, tant du point de vue des variables (corrélations intergroupes) que de celui des individus (comparaison des nuages partiels). Mais, dès lors que les données sont volumineuses (de nombreux groupes comportant chacun de nombreuses variables définies sur un grand nombre d’individus), il est nécessaire, au moins dans un premier temps, de disposer d’outils plus globaux. Cela afin de répondre aux questions du type décrit ci-après. – Deux groupes de variables étant donnés, peut-on considérer qu’ils sont liés ? Autrement dit : dans l’ensemble, les deux nuages partiels qui leur sont associés se ressemblent-ils ? – A l’image des représentations des individus et des variables, peut-on disposer d’un graphique dans lequel chaque groupe est représenté par un point, les proximités entre points traduisant une liaison/ressemblance entre groupes ?
7.1
Nuage NJ des groupes de variables
Les données brutes associées à un groupe de variables j constituent le tableau Xj . Dans le cas général, il n’y a pas de correspondance entre les colonnes des différents Xj , et la comparaison directe des tableaux Xj entre eux n’est pas possible. L’idée de comparer deux groupes de variables à travers leur nuage partiel (point de vue du chapitre 5) suggère de représenter un groupe par la matrice des distances interindividuelles. D’un groupe à l’autre, ces matrices ont les mêmes dimensions et leurs cases se correspondent deux à deux : on peut donc les comparer directement. Selon un autre point de vue, il est légitime de représenter un nuage d’individus par la matrice des produits scalaires (interindividus ; notée XX 0 en 1.5.1) qui lui est associée : en effet, la diagonalisation de cette matrice permet de reconstituer
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 126 — #134
i
126
i
Analyse factorielle multiple avec R
parfaitement le nuage d’individus en le représentant dans ses axes principaux, le même poids étant affecté à chaque individu (cf. 1.5.3). Ces deux matrices sont étroitement liées : la matrice des produits scalaires peut être obtenue en effectuant un double centrage de la matrice des carrés des distances. On adopte les notations suivantes : hi, li indique le produit scalaire entre les individus i et l ; d (i, l) la distance entre i et l ; d2 (i, .) (resp. d2 (., l)) la moyenne des carrés des distances entre i (resp. l ) et les autres points, ce qui s’écrit : d2 (i, .) =
1X 2 d (i, l) I
d2 (., l) =
l
1X 2 d (i, l) ; I i
2
d (., .) : moyenne générale des carrés des distances inter individuelles, soit : d2 (., .) =
1 XX 2 d (i, l) . I2 i l
La formule de Torgerson donne le produit scalaire entre les individus i et l à partir des distances : 1 2 d (i, l) − d2 (i, .) − d2 (., l) + d2 (., .) . 2 Il s’agit d’un double centrage, par ligne et par colonne, de la matrice des carrés des distances. Compte tenu de ses propriétés, c’est la matrice des produits scalaires (et non la matrice des distances) qui sera utilisée. Elle est classiquement notée par la lettre W soit, pour le groupe j : hi, li =
Wj = Xj Mj Xj0 . La matrice Mj représente la métrique dans RKj ; elle est diagonale et contient les poids des variables. En AFM, ce poids est en général constant à l’intérieur d’un groupe de variables (et égal à 1/λj1 ). Chaque matrice Wj contient I × I = I 2 nombres : on peut lui associer un point (ou un vecteur) dans un espace à I 2 2 dimensions, noté RI et dit « espace des groupes de variables » (cf. figure 7.1).
ℝI
N Kh
ℝI N Kj
O
k
NJ
2
O
Wh
Wj
(i,l)
Fig. 7.1 – Nuages des variables et nuage NJ des groupes de variables. A chaque 2 groupe de variables dans RI , on associe un point dans RI .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 127 — #135
i
i
Chapitre 7. Comparaison des groupes de variables
127
2
L’ensemble des Wj dans RI constitue le nuage des groupes de variables noté NJ . 2 Pour juger de la ressemblance entre deux matrices, on examine (dans RI ) leur distance (comme pour les individus en ACP) et/ou l’angle qu’elles forment avec l’origine (comme pour les variables en ACP). Il convient donc de munir l’espace 2 RI d’une métrique. 2 Chaque élément de Wj , donc chaque dimension de RI , correspond à un couple d’individus. Pour tenir compte du poids des individus, on affecte à la dimension correspondant au couple d’individus (i, l ) le produit pi pl des poids de ces individus. 2 Ainsi, le produit scalaire (dans RI ) entre les matrices (des produits scalaires entre individus, dans RK ) associées aux groupes j et h s’écrit : XX hWj , Wh iD = pi pl Wj (i, l) Wh (i, l) = trace (Wj DWh D) . i
l
La lettre D dans hWj , Wh iD rappelle que les poids des individus interviennent dans la définition de ce produit scalaire. La justification de cette métrique réside dans le raisonnement déjà tenu à propos de la métrique dans RI : accorder le poids 2 à un individu équivaut à introduire deux fois cet individu dans l’analyse. Ainsi, accorder le poids 2 (resp. 3) à l’individu i (resp. l ) fait apparaître, après duplication des individus i et l, 2 × 3 = 6 fois la case (i, l ) dans la matrice Wj . Remarque Il est aussi possible de faire intervenir les poids des individus en associant au 2 groupe j la matrice Wj D. Dans ce cas, l’espace RI est muni de la métrique usuelle et l’on obtient le même produit scalaire entre les groupes j et h.
7.2
Produit scalaire, liaison entre groupes de variables
Cas de groupes de variables réduits chacun à une seule variable K1 = {v}
K2 = {z} .
Du fait de la pondération de l’AFM, ces variables sont centrées réduites et de poids 1. Dans ce cas, W1 = vv 0 et W1 (i, l) = v (i) v (l) . Cette matrice est de rang 2 1. Un élément de RI est dit « de rang 1 » s’il correspond à un seul élément de RI . Le produit scalaire entre W 1 et W 2 s’écrit : XX hW1 , W2 iD = pi pl v (i) v (l) z (i) z (l) = r2 (v, z) . i
l 2
Dans ce cas simple, mais fondamental, le produit scalaire (dans RI ) correspond à la mesure classique de liaison entre deux variables quantitatives.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 128 — #136
i
128
i
Analyse factorielle multiple avec R
Cas où un seul des deux groupes est multidimensionnel K1 = {v}
K2 = {zk : k = 1, K2 } .
La variable zk est munie du poids mk . Lorsque les variables sont centrées réduites d’emblée, ce poids est en général celui de l’AFM : 1/λ21 . Lorsque les variables ne sont que centrées, on peut voir la réduction comme une pondération (des variables centrées réduites) par leur variance s2k . Finalement, dans ce cas, leur poids dans l’AFM est : s2k /λ21 . W2 peut s’écrire comme une somme d’éléments de rang 1. Soit : X W2 = mk zk zk0 . k
D’où, en exploitant la (bi)linéarité du produit scalaire : * hW1 , W2 iD
=
+ 0
vv ,
X
mk zk zk0
k
=
X
=
X
mk hvv 0 , zk zk0 iD =
X
k
D
mk r2 (v, zk )
k I
inertie projetée de zk sur v (dans R ) = Lg(v, K2 ).
k
Ici aussi, le produit scalaire s’interprète comme une mesure de liaison (cf. 6.2). Cas général : deux groupes multidimensionnels K1 = {vh : h = 1, K1 }
K2 = {zk : k = 1, K2 } .
La variable vh est munie du poids mh et la variable zk est munie du poids mk . X X W1 = mh vh vh0 W2 = mk zk zk0 h
hW1 , W2 iD =
X h
mh
X
mk r2 (vh , zk ) =
k
k
X h
mh Lg (vh , K2 ) =
X
mk Lg (zk , K1 ) .
k
2
Ce produit scalaire dans RI s’interprète dans l’espace RI de la façon suivante : on cumule les inerties des variables d’un groupe projetées sur chacune des variables de l’autre groupe. Il vaut 0 si et seulement si chaque variable d’un groupe est non corrélée à chaque variable de l’autre groupe. Il n’y a pas de valeur maximum dans l’absolu : ce maximum dépend de la dimensionnalité des groupes. Plus précisément, cette quantité est d’autant plus grande que les deux groupes possèdent une structure commune riche (i.e. comportant plusieurs directions communes de grande inertie dans chaque groupe). En ce sens, on peut considérer ce produit scalaire comme une mesure de liaison entre deux groupes de variables. Cet aspect apparaît plus clairement dans
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 129 — #137
i
i
Chapitre 7. Comparaison des groupes de variables
129
2
la section suivante explicitant la norme dans RI . Lg et RV 2 Lorsque W1 et W2 sont normés (dans RI ), hW1 , W2 iD s’interprète géométriquement comme un cosinus et correspond à la mesure de liaison RV . Soit : RV (Kj , Kl ) =
Wl Wj , kWj kD kWl kD
. D
Comme la mesure Lg, RV vaut 0 si et seulement si chaque variable d’un groupe est non corrélée à chaque variable de l’autre groupe. En revanche, le coefficient RV est toujours inférieur ou égal à 1, valeur atteinte lorsque les nuages d’individus associés à chacun des groupes sont homothétiques. Cette bonne propriété fait de RV la mesure classique de liaison entre deux groupes de variables multidimensionnels. Mais dans le cas où l’un des groupes est unidimensionnel, Lg est plus précieux. L’interprétation de la mesure Lg, comparée à celle de la mesure RV , est détaillée en 9.5. Le cas limite RV = 1 est important pour appréhender ce qu’est une liaison entre groupes de variables. En particulier, il apparaît que la notion de « signe » d’une liaison n’a pas de sens pour des groupes de variables. Cette notion est essentielle pour deux variables : calculé entre la note en mathématique et la note en français, un coefficient de corrélation conduit à des interprétations complètement différentes selon qu’il est positif (auquel cas il souligne l’importance de la distinction entre bons et mauvais élèves) ou négatif (auquel cas il souligne l’importance de la distinction entre profils scientifique et littéraire). Cette notion de signe disparaît dans le cas de groupes de variables. Ainsi, en multipliant les données d’un groupe par −1, toutes les corrélations intergroupes changent de signe alors que les composantes principales ne changent pas. Où il apparaît que la caractéristique des composantes principales de n’être définies qu’au signe près n’est pas simplement une « scorie » gênante pour l’utilisateur (qui voit des plans factoriels en apparence différents pour des jeux de données très proches), mais la conséquence d’une propriété profonde des groupes de variables.
7.3
Norme dans l’espace des groupes de variables 2
Dans RI , au produit scalaire précédemment défini, on peut associer une norme (dont le carré, noté N g, est utilisé comme indicateur). Soit : 2
N g (Wj ) = kWj kD = hWj , Wj iD = trace (Wj DWj D) =
X
λjs
2
.
s
En AFM, du fait de la pondération, cette norme devient, en faisant explicitement apparaître la pondération :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 130 — #138
i
130
i
Analyse factorielle multiple avec R
N g (Wj ) =
2 kWj kD
=
1 λj1
X 2
2 λjs
s
=1+
s=S X s=2
"
λjs λj1
#2 .
Les groupes de variables ne sont donc pas normés en AFM. La norme d’un groupe est d’autant plus grande qu’il possède un nombre important de directions d’inertie égale (en pratique « voisine ») à la première valeur propre. D’où l’idée de considérer N g comme un indicateur de dimensionnalité. Dimensionnalité et dimension. On peut définir la dimension d’un groupe de variables comme la dimension du sous-espace engendré par les variables du groupe. Dans ce sous-espace, seules les dimensions associées à une inertie importante intéressent l’utilisateur. On peut définir alors la dimensionnalité comme le nombre de ces dimensions d’inertie importante. Dans le cas des six jus d’orange, N g vaut 1.039 pour le groupe 1 et 1.109 pour le groupe 2. Comme nous l’avons déjà dit (cf. commentaire du tableau 4.5), le premier groupe ne comporte qu’une dimension notable et le second en comporte deux. De ce point de vue, l’indicateur N g classe bien les deux groupes selon leur dimensionnalité. Toutefois, cet indicateur suggère un écart entre les deux dimensionnalités beaucoup plus faible que celui suggéré par la séquence des valeurs propres. La raison en est l’élévation au carré de ces valeurs propres (dans le calcul de N g) qui les rend petites par rapport à 1 (tableau 7.1).
N◦ axe 1 2 3 4 5
λ 1 .177 .059 .050 .002
Groupe 1 λ2 1 .031 .003 .002 .002
Cumul 1 1.031 1.035 1.037 1.039
λ 1 .281 .173 .018 .004
Groupe 2 λ2 1 .079 .030 .000 .000
Cumul 1 1.079 1.109 1.109 1.109
Tableau 7.1 – Valeurs propres (λ) des ACP séparées des deux groupes de variables brutes, élevées au carré et cumulées.
7.4 7.4.1
Représentation approchée du nuage NJ Principe
Pour représenter le nuage NJ des groupes de variables, une idée naturelle (au moins pour l’amateur d’analyse factorielle) consiste à le projeter sur ses directions d’inertie maximum. C’est ce que fait la méthode Statis qui, historiquement, fut la première à s’intéresser au nuage NJ . Le chapitre 9 est consacré à la comparaison 2 entre l’AFM et Statis. Pour l’instant, il nous suffit de dire que les axes de RI
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 131 — #139
i
Chapitre 7. Comparaison des groupes de variables
i
131
trouvés par Statis ne sont pas interprétables ; autrement dit, si deux groupes de variables sont proches le long d’un axe et éloignés le long d’un autre, on ne sait pas ce qui les rapproche et ce qui les sépare. D’où l’idée d’imposer aux axes, sur lesquels on projette NJ , d’être des éléments de rang 1 ; ainsi, ils correspondent à une direction de RI (cf. 7.2), direction que l’on interprète en examinant ses liens avec les variables initiales. 2 En AFM, le nuage NJ est projeté sur les éléments de rang 1 (dans RI ) associés aux composantes principales normées de l’AFM (vecteurs de RI notés vs ). En 2 notant ws l’axe de rang s dans RI , on a donc : ws = vs vs0 . Les vecteurs vs étant normés et orthogonaux entre eux (dans RI ), on montre 2 facilement que les ws le sont aussi (dans RI ). Soit : 2
kws kD = trace (vs vs0 Dvs vs0 D) = trace (vs0 Dvs vs0 Dvs ) = 1 hws , wt iD = trace (vs vs0 Dvt vt0 D) = trace (vt0 Dvs vs0 Dvt ) = 0. La coordonnée du groupe Kj le long de ws (axe de rang s) vaut : hws , Wj iD = Lg (vs , Kj ) = Lg (Fs , Kj ) .
0.6
Type de jus (ambiant/autre)
0.4
Dim 2 (13.21 %)
0.8
1.0
Cette coordonnée s’interprète donc comme une mesure de liaison entre Kj et Fs . Les axes de représentation de NJ , étant induits par les composantes principales, s’interprètent comme elles.
0.2
Sensoriel
Chimie
0.0
Origine (Floride/autre) 0.0
0.2
0.4
0.6
0.8
1.0
Dim 1 (64.6 %)
Fig. 7.2 – Représentation des groupes de variables (carré des liaisons). La figure 7.2 contient la représentation des groupes dans l’exemple des jus d’orange. Dans cet exemple, le nombre de groupes est très petit et cette représentation
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 132 — #140
i
132
i
Analyse factorielle multiple avec R
n’apporte pas grand-chose aux interprétations déjà faites. Mais cette figure est suffisante pour illustrer le principe d’interprétation. L’interprétation d’un tel graphique se fait de façon analogue à celle du cercle des corrélations : dans les deux cas, la coordonnée d’un point s’interprète comme une mesure de liaison dont la valeur maximum est 1. Les groupes des variables ne sont pas normés et leurs coordonnées sont toujours positives : ils apparaissent donc dans un carré (de côté 1 et ayant les points [0,0] et [1,1] comme sommets) dit « carré des liaisons ». Les deux groupes actifs sont quasiment identiques du point de vue du premier axe et leur coordonnée est élevée : le premier axe, c’est-à-dire l’opposition entre les jus de Floride et les autres, correspond à une direction d’inertie importante dans chaque groupe (i.e. elle est liée à beaucoup de variables de chaque groupe). Les deux groupes diffèrent du point de vue du second axe, la coordonnée du groupe 1 (chimie) étant très faible. Le deuxième axe (c’est-à-dire, en simplifiant, l’opposition entre les jus frais et les jus ambiants) est invisible du point de vue chimique (tout au moins compte tenu des variables disponibles) : en revanche, cette opposition correspond à une direction sensorielle mais de faible inertie (i.e. elle concerne peu de variables). Ainsi, à côté de la démarche d’interprétation intuitive (pour un praticien de l’ACP), un avantage, très appréciable en pratique, de cette représentation est sa relation avec les représentations des individus et des variables déjà fournies : en AFM, les données sont envisagées selon différents points de vue mais dans un cadre unique. Remarque Dans la figure 7.2, les deux variables qualitatives (introduites en supplémentaire) ont été représentées, comme en ACM (figure 2.3 page 55), par leurs rapports de corrélation avec les facteurs. Il apparaît ainsi que la première dimension correspond à peu près à l’origine des jus. Quant au type de jus, il est assez lié à la seconde dimension et un peu à la première. Ces commentaires sont en phase avec la représentation des individus. La justification complète de cette représentation simultanée de groupes quantitatifs et qualitatifs est décrite dans le chapitre suivant dédié aux données qualitatives et mixtes.
7.4.2
Critère
Dans RI , la composante principale (normée) vs rend maximum la quantité (avec les contraintes de norme et d’orthogonalité usuelles) : X
Lg (v, Kj ) .
j 2
Traduit dans RI , ce critère devient : ws est le w qui rend maximum la quantité
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 133 — #141
i
i
Chapitre 7. Comparaison des groupes de variables
X
133
hw, Wj iD
j
avec, outre la contrainte particulière d’être de rang 1, les contraintes usuelles de norme et d’orthogonalité : 2
kws kD = 1 et
hws , wt iD = 0 pour t < s.
Ainsi, on suit la démarche usuelle de l’analyse factorielle, à savoir la projection d’un nuage de point sur une suite d’axes orthogonaux « d’intérêt » décroissant ; mais les coordonnées des projections interviennent directement dans le critère et non pas au travers de leur carré. Cela ne pose pas de problème de principe, à la différence de l’ACP par exemple, car ces coordonnées sont toujours positives.
7.5
Aides à l’interprétation
La contribution du groupe Kj à l’axe de rang s est la coordonnée du groupe Kj (et non son carré) le long de l’axe de rang s ; on obtient une contribution relative en rapportant cette coordonnée à la somme des coordonnées des groupes actifs. j Ces contributions s’interprètent dans RI comme celles des nuages NK . Soit, pour la contribution relative : j sur vs Inertie projetée de NK Lg(Fs , Kj ) = = CT R (Kj , Fs ) . CT R(Kj , ws ) = P Inertie projetée de N sur vs Lg(F , K ) K s j j
La qualité de représentation d’un groupe par un axe (ou un plan) peut être mesurée, comme usuellement, par le cosinus carré de l’angle entre le vecteur représentant le groupe (Wj ) et l’axe (ou le plan). Dans le carré des liaisons, il est d’autant plus important de contrôler cette qualité que les axes sur lesquels on projette sont contraints d’être de rang 1 (contrainte qui pénalise la qualité de représentation). Calculés dans l’exemple des jus d’orange, ces indicateurs sont rassemblés tableau 7.2. Groupe W1 W2 NJ
Axe 1 0.7657 0.7205 0.7423
Axe 2 0.0094 0.0640 0.0376
Plan (1,2) 0.7751 0.7845 0.7799
Axe 3 0.0190 0.0202 0.0196
Axe 4 0.0038 0.0122 0.0081
Axe 5 0.0086 0.0022 0.0053
Ssp(1...5) 0.8065 0.8191 0.8130
Tableau 7.2 – Qualité de représentation des groupes de variables et de NJ (dans 2 RI ), axe par axe, pour le premier plan (1,2) et pour l’ensemble des cinq axes (Ssp(1. . . 5)).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 134 — #142
i
134
i
Analyse factorielle multiple avec R
Chacun des deux groupes possède une qualité de représentation par le premier plan proche de .8 ce qui peut être considéré comme très satisfaisant. Du fait de la contrainte imposée aux axes d’être de rang 1, même si l’on conserve l’ensemble des axes (ici cinq), la qualité de représentation d’un groupe n’atteint en général pas 1 : la raison en apparaîtra plus clairement à propos du modèle Indscal. Calculé sur l’ensemble des J points (dernière ligne du tableau 7.2), cet indicateur mesure donc la qualité de représentation du nuage NJ par un axe ou un plan. Cet indicateur est différent de celui calculé pour les nuages NI ou NK , même si 2 ces deux indicateurs ne sont pas indépendants, l’un étant fondé (dans RI ) sur la somme des coordonnées et l’autre sur la somme des carrés des coordonnées (confronter les tableaux 7.2 et 4.5). En particulier, on retrouve, pour le nuage NJ , l’effet de la contrainte mentionné pour chaque groupe : sauf cas très particulier, NJ n’est jamais parfaitement représenté, même en gardant tous les axes. Eléments supplémentaires L’introduction de groupes supplémentaires ne pose aucun problème. Une fois les composantes principales Fs obtenues, la coordonnée du groupe supplémentaire j le long de l’axe de rang s se calcule comme pour un groupe actif. Il est aussi possible de représenter des variables isolées, en tant que groupe ne comportant qu’une seule variable. Cette représentation a déjà été introduite en ACM (figure 2.3) et en AFDM (figure 3.3). La coordonnée de la variable quantitative 2 vk le long de l’axe de rang s (dans RI ) vaut : r2 (vk , Fs ). Cette représentation des variables est moins riche que le cercle des corrélations (le signe du coefficient de corrélation est perdu) : son intérêt est d’être commune aux variables et aux groupes de variables. Nous verrons, dans le chapitre 8, comment introduire des variables qualitatives dans cette représentation ; en particulier, sera présentée l’in2 terprétation géométrique, dans RI , de la représentation de la figure 2.3 (dans laquelle la coordonnée de la variable qualitative q le long de l’axe de rang s (dans 2 RI ) est égale au carré du rapport de corrélation η 2 (q, Fs )). Cette possibilité est utilisée dans la figure 7.2, qui montre que le premier axe est lié à l’origine du jus (Floride/autre) et le second à son type (frais/ambiant) ; ce que l’on retrouve facilement dans la représentation des individus (figure 4.4).
7.6
Modèle Indscal
Le modèle Indscal est précieux pour analyser des données pour lesquelles un ensemble de sujets évaluent globalement les ressemblances entre des stimulus. Il s’ex2 prime de façon directe dans l’espace RI . En outre, l’analyse du nuage NJ incluse dans l’AFM correspond à ce modèle.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 135 — #143
i
Chapitre 7. Comparaison des groupes de variables
7.6.1
i
135
Modèle
Dans ce qui précède, chaque groupe j est représenté par la forme du nuage NIj qui lui est associé. Techniquement, pour représenter cette forme, après avoir envisagé les matrices de distances associées aux NIj , on utilise la matrice des produits scalaires Wj (entre les individus). Ces deux points de vue, distances et produits scalaires, se retrouvent dans le modèle Indscal, modèle imaginé pour analyser un ensemble de matrices de distances (relatives à un même ensemble d’individus). Dans les données à l’origine du modèle Indscal, on demande à J sujets d’évaluer directement les ressemblances (ou dissemblances) entre I stimulus. « Directement » signifie que l’on ne demande pas à chaque sujet j une évaluation de chaque caractéristique de chaque stimulus, mais seulement, pour chaque couple de stimulus (i, l ), l’évaluation globale de leur distance (notée dj (i, l)). Les données sont donc constituées par un ensemble de J matrices de distances (de dimension I × I). Le modèle Indscal tient en deux points. 1. Les stimulus se différencient selon S facteurs (ou caractéristiques) pour lesquels il y a un consensus parmi les sujets. Si les stimulus sont des jus d’orange, un exemple d’un tel consensus est le suivant : tous les sujets perçoivent le jus 1 comme très amer, très sucré, etc., le jus 2 comme pas du tout amer, très sucré, etc. On note zs (i ) la valeur du se facteur pour le stimulus i ; fondamentalement, il n’y a pas de relation d’ordre entre les facteurs. 2. Dans leur évaluation globale des stimulus, les sujets n’accordent pas la même importance aux différents facteurs. Par exemple, certains juges accordent une grande importance aux différences d’acidité (peut-être parce qu’ils sont très sensibles à l’acidité) et peu aux différences d’amertume ; de tels juges pourront considérer comme proches des jus ayant des amertumes très différentes et très éloignés des jus ne différant que par leur acidité. Soit qsj le poids affecté par le sujet j au facteur zs . Avec ces hypothèses, la distance, perçue par le sujet j, entre les stimulus i et l, s’écrit : X 2 d2j (i, l) = qsj (zs (i) − zs (l)) + résidu. s
Dans ce modèle, les facteurs zs et les poids qsj sont les paramètres à estimer. Il n’y a pas de contraintes sur les résidus, le modèle n’étant pas posé dans un cadre inférentiel classique. Autrement dit, selon ce modèle, il existe une configuration des stimulus (définie par les zs ) que chaque sujet j « voit » avec sa propre métrique diagonale. Ce point de vue permet d’écrire le modèle pour les produits scalaires. Soit, en notant wj (i, l) le produit scalaire entre deux stimulus i et l du point de vue du sujet j : X wj (i, l) = qsj zs (i) zs (l) + résidu. s
Ce qui donne, pour la matrice Wj rassemblant les produits scalaires du sujet j :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 136 — #144
i
136
i
Analyse factorielle multiple avec R
Wj =
X
qsj zs zs0 + résidu.
s 2
On reconnaît, dans cette écriture, la décomposition dans RI de Wj en une somme d’éléments symétriques de rang 1. La représentation des groupes de variables dans l’AFM peut donc être interprétée en termes d’un modèle Indscal dans lequel : – les stimulus sont les individus ; les sujets sont les groupes de variables ; – les facteurs zs du modèle sont les facteurs normés vs (de l’AFM) ; 2 – le poids qsj est la coordonnée, dans RI , du groupe j le long de la direction de rang s.
7.6.2
Estimation des paramètres et propriétés
L’algorithme usuel (d’estimation des paramètres du modèle) Indscal, décrit dans la publication originelle de ce modèle, procède de façon alternée : on fixe les zs et l’on estime les qsj ; ces valeurs de qsj servent à leur tour à estimer les zs , et ainsi de suite. Pour cela, il est nécessaire de fixer le nombre S de facteurs. Les estimations ainsi obtenues ne sont pas emboîtées (i.e. les deux facteurs de l’estimation pour S = 2 ne coïncident pas avec deux des facteurs d’une estimation avec S > 2). Ce problème est résolu en pratique en lançant l’algorithme pour plusieurs valeurs de S et en choisissant, a posteriori, une valeur de S correspondant à un bon équilibre entre la qualité de l’ajustement et le nombre de facteurs. L’AFM, vue comme une méthode d’estimation des paramètres du modèle Indscal, procède en deux étapes. Etape 1. On commence par estimer les zs . Ces facteurs correspondent autant que possible à des directions d’inertie importante dans chaque groupe. Cette idée ne figure pas explicitement dans le modèle Indscal, mais correspond bien à l’idée de facteurs « influençant » les distances entre stimulus. Elle est essentielle en AFM et débouche sur une hiérarchie des facteurs, allant du plus important (dans l’ensemble) pour les sujets au moins important. Cette hiérarchie entre les facteurs est bien sûr nécessaire en pratique, et l’utilisateur des algorithmes usuels pour Indscal en obtient une en classant les facteurs par somme des poids individuels croissante. Etape 2. Les zs étant fixés, on calcule les qsj . Selon l’interprétation en tant que mesure de liaison Lg (Fs , Kj ), le poids que le sujet j accorde à la dimension s est d’autant plus grand que cette dimension correspond à une forte direction d’inertie de sa configuration des stimulus. Cela est en parfait accord avec la signification des poids dans le modèle Indscal. Par rapport à l’algorithme usuel, l’estimation des paramètres du modèle Indscal par l’AFM présente les avantages techniques listés ci-après. – Les poids qsj sont toujours positifs. En comparaison, l’algorithme usuel Indscal peut fournir des poids négatifs interprétés comme des erreurs d’arrondi s’ils sont
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 137 — #145
i
Chapitre 7. Comparaison des groupes de variables
i
137
proches de 0 mais non interprétables sinon (en pratique, ces poids négatifs sont remplacés par la valeur 0). – Les poids qsj ont pour valeur maximum 1, valeur atteinte lorsque le facteur zs correspond à la direction d’inertie maximum du sujet j. L’échelle de variation de ces poids est donc fixe, ce qui permet de les comparer entre sujets, entre axes et même entre analyses. – Les estimations des paramètres des modèles ayant des nombres différents de facteurs sont emboîtées (les deux axes de la solution à deux dimensions sont les deux premiers axes des solutions à plus de deux dimensions). – Du fait de la démarche en deux temps (trouver d’abord les zs puis les qsj ), l’introduction de sujets supplémentaires se fait naturellement. – Cette estimation se fait dans un cadre commun à plusieurs points de vue qui s’enrichissent mutuellement dans l’interprétation. Deux autres caractéristiques différencient l’estimation par AFM et par l’algorithme Indscal. En AFM, les facteurs Fs sont orthogonaux par construction. Or, cette contrainte n’existe pas dans le modèle Indscal usuel. Dans un premier temps, cette contrainte semble utile, comme elle l’est en analyse factorielle. Il n’en reste pas moins que l’on peut rencontrer des facteurs (sous-jacents à l’évaluation des distances) corrélés. Le cas des jus d’orange en fournit un exemple : les deux facteurs expérimentaux (origine et type) ne sont pas orthogonaux et s’avèrent influents sur le plan sensoriel. Cela n’est pas gênant en analyse factorielle : l’utilisateur peut décider d’interpréter des directions du plan factoriel autres que les axes eux-mêmes (ce qui peut être fait empiriquement, ou plus formellement par une rotation optimale des axes). Or, cela n’est pas possible avec le modèle Indscal. Cette particularité, identifiée dès 2 l’origine, est particulièrement claire avec l’interprétation géométrique dans RI : le plan engendré par deux éléments de rang 1 (w 1 et w 2 ) ne comporte pas d’autres éléments de rang 1 (que w 1 et w 2 ). Il en résulte que l’algorithme usuel Indscal garde tout son intérêt en présence de facteurs non orthogonaux. L’autre différence entre les deux approches réside dans la normalisation préalable des sujets : l’algorithme Indscal normalise les sujets en rendant leur inertie totale égale à 1. Le principe de la pondération de l’AFM est bien adapté au point de vue du modèle Indscal : en particulier, une configuration multidimensionnelle ne doit pas être désavantagée dans la construction du premier axe. Le modèle Indscal est euclidien. L’existence d’un terme résiduel permet d’envisager des données individuelles non euclidiennes. Mais, les algorithmes travaillant à partir des matrices de produits scalaires, cela nécessite de leur fournir des données individuelles euclidiennes. Or, dans le cas général, les données individuelles ne sont pas euclidiennes. Ainsi, par exemple, lorsque l’on demande à un enquêté d’évaluer successivement les dissemblances entre les paires de stimulus, la matrice de distances obtenue ne vérifie généralement pas l’inégalité triangulaire ; ce n’est donc pas une matrice de distances mais une matrice de dissimilarités (matrice symétrique de nombres positifs ayant des 0 sur la diagonale). On se ramène à des données euclidiennes en réalisant un prétraitement des données : à chaque matrice
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 138 — #146
i
138
i
Analyse factorielle multiple avec R
de dissimilarités, on applique la formule de Torgerson. La matrice obtenue, dite de pseudo-produits scalaires, est diagonalisée et on ne conserve que les facteurs associés à des valeurs propres positives. On peut montrer que cette procédure, dite analyse factorielle sur tableau de distances (AFTD), fournit la meilleure approximation euclidienne d’une matrice de distances non-euclidiennes. Cas particulier. Il est un cas dans lequel les données individuelles sont euclidiennes : R Dans cette procédure de recueil de données, on demande aux sujets le napping . de disposer les stimulus sur une grande feuille de papier (à l’origine une nappe, d’où le terme « napping ») de façon telle que les distances sur la nappe reflètent les dissemblances perçues. Cette méthode de recueil de données apparaît dans les deux exemples décrits ci-après.
7.6.3
Exemple d’application du modèle Indscal via l’AFM
Un exemple simple permet d’illustrer l’estimation des paramètres du modèle Indscal via l’AFM. On dispose de deux configurations planes de quatre individus (figure 7.3), autrement dit de deux groupes comportant chacun deux variables quantitatives (les coordonnées horizontales X et verticales Y ; cf. tableau 7.3). Nous reprenons ici la terminologie de l’AFM : individus et groupes (respectivement les stimulus et les sujets du modèle).
00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00
a
b
c
d
000000000000000000000000000000000000000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000000000000000000000000000000000000000
000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 0000000000000000000000000000000000000000000000
a
c
000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000
b d
Fig. 7.3 – Données : quatre individus (les cartes a, b, c et d) vus par deux groupes de deux variables (les configurations données par les deux enfants).
Cet exemple s’inspire d’une expérience réelle menée auprès d’enfants. On propose à plusieurs enfants (ici deux) un ensemble de cartes (ici quatre) représentant des dessins de formes et de couleurs différentes. Chaque enfant doit disposer sur la table les cartes en plaçant proches les cartes qui, selon lui, se ressemblent et en plaçant éloignées les cartes qui, selon lui, diffèrent beaucoup. On recueille la disposition des cartes à l’aide des coordonnées en choisissant un repère commode.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 139 — #147
i
i
Chapitre 7. Comparaison des groupes de variables
a b c d Variance
X1 0 0 10 10 25
Y1 4 0 4 0 4
X2 4 8 0 4 8
139
Y2 8 4 4 0 8
Tableau 7.3 – {X1 , Y1 } : coordonnées de la configuration de gauche (figure 7.3). Ces données ont été construites selon un modèle Indscal comportant deux dimensions orthogonales. Il n’est donc pas surprenant que l’AFM « retrouve » ce modèle. L’intérêt de cet exemple réside dans l’interprétation de certains résultats de l’AFM en tant que paramètres du modèle Indscal. Dans cette AFM, afin de respecter les distances initiales, les variables ne sont pas normées. Les estimations des paramètres sont représentées graphiquement dans la figure 7.4.
1.0
G2
c
0.6 0.4
moyen(AFM)
b
G1
d 0.0
-1.0
0.2
-0.5
Dim 2 (36.71 %)
Dim 2 (36.71 %) 0.0 0.5
0.8
1.0
a
-1
0 Dim 1 (63.29 %)
1
0.0
0.2
0.4
0.6
0.8
1.0
Dim 1 (63.29 %)
(a) Représentation des individus
(b) Représentation des groupes
Fig. 7.4 – Représentations correspondant aux paramètres du modèle Indscal. G1 : groupe 1. Moyen (AFM) : ensemble des deux groupes, pondérés au sens de l’AFM.
Rappelons que l’ensemble des coordonnées des individus le long d’un axe s’interprète en tant que facteur du modèle Indscal. Ici, ces facteurs s’interprètent simplement : – le premier oppose {a,b} et {c,d} (opposition de formes : carré/rond) ; – le second oppose {a,c} et {b,d} (opposition de couleurs : blanc/gris). Deux représentations des individus sont a priori possibles en référence au modèle Indscal : – celle des facteurs normés ; elle découle directement du modèle en ce sens que les poids qsj s’appliquent à ces facteurs. C’est le choix des procédures Indscal
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 140 — #148
i
140
i
Analyse factorielle multiple avec R
usuelles ; – celle de facteurs non normés, la norme dépendant de leur importance. C’est le choix de l’AFM (figure 7.4), fait indépendamment du modèle Indscal mais qui s’interprète dans les termes de ce modèle : le carré de la norme d’un facteur (i.e. la valeur propre associée) est la somme des poids de tous les groupes actifs pour ce facteur qsj ; j = 1, J . La configuration des individus de la figure 7.4 montre donc que le premier facteur est dans l’ensemble plus important que le second et illustre, par sa forme allongée, ces importances relatives : dans l’ensemble (ici pour les deux groupes/sujets), la forme est plus importante que la couleur. Il en résulte une représentation « moyenne » des nuages associés à chaque groupe. Cette importance relative se lit également sur la représentation des groupes (figure 7.4). Ainsi, les poids pour le premier axe sont beaucoup plus importants que pour le second. Le fait que ces poids soient bornés par 1 en AFM permet d’être plus précis : dans cet exemple, le premier axe correspond à la direction d’inertie maximum de chaque groupe. Ce maximum pour un groupe est en pratique unique (l’ACP conduit rarement à deux premières valeurs propres égales). De ce point de vue, le cas du second groupe est particulier de par sa symétrie (bien visible figure 7.3) : les deux facteurs sont d’égale importance. On remarque au passage que, dans le carré des liaisons, le point de coordonnées (1, 1) ne correspond pas à la configuration « moyenne » des individus (figure 7.4) mais aux facteurs normés. D’où l’idée de représenter, à titre d’aide à l’interprétation, le point correspondant à la configuration des individus de la figure 7.4. C’est ce qui est fait sous le libellé « moyen (AFM) » (pour « configuration moyenne au sens de l’AFM »). Ce point a pour coordonnées (1, λ2 /λ1 ), en notant λ1 et λ2 les deux premières valeurs propres de l’AFM.
ACP Groupe 1 ACP Groupe 2 AFM dont groupe 1 dont groupe 2
Totale 29 16 3.16 1.16 2
F1 25 8 2 1 1
F2 4 8 1.16 0.16 1
Tableau 7.4 – Inerties dans les ACP séparées (deux premières lignes) et dans l’AFM (trois dernières lignes).
Le tableau 7.4 récapitule les principales inerties en jeu dans cette analyse. La simplicité des données permet de retrouver facilement tous ces résultats. Ainsi, les valeurs propres des analyses séparées coïncident avec les variances des variables initiales et les inerties des groupes, pour le second axe de l’AFM et s’obtiennent en rapportant la seconde valeur propre à la première.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 141 — #149
i
i
Chapitre 7. Comparaison des groupes de variables
7.6.4
141
Dix vins blancs de Touraine
Données On a demandé à 11 dégustateurs (professionnels du vin) d’évaluer 10 vins blancs R Pour cela, chaque dégustateur dispose les vins sur par la méthode du napping . une nappe, de telle façon que deux vins sont d’autant plus proches sur la nappe qu’ils lui paraissent proches d’un point de vue sensoriel. A chaque dégustateur j est associé une configuration des 10 vins, c’est-à-dire concrètement un tableau de coordonnées ayant 10 lignes (les vins) et 2 colonnes (les coordonnées horizontales et verticales), sauf pour le dégustateur 10 qui n’a utilisé que la dimension verticale (et dont les données ne comportent donc qu’une colonne). Ces tableaux sont juxtaposés horizontalement, l’ensemble étant soumis à une AFM dans laquelle un groupe correspond à un dégustateur (et contient donc ses coordonnées). Nous focalisons ici l’attention sur la représentation des groupes (i.e. des dégustateurs) en référence au modèle Indscal. Parallèlement à l’AFM, les paramètres de ce modèle ont été estimés par la procédure usuelle (que nous appelons Indscal, utilisant ainsi le même mot pour désigner le modèle et le programme usuel). Parmi les vins, cinq d’entre eux (numérotés de 1 à 5) appartiennent à l’appellation Touraine (cépage sauvignon) ; les cinq autres (numérotés de 6 à 10) appartiennent à l’appellation Vouvray (cépage chenin). Parmi ces derniers, deux d’entre eux (les 7 et 10) ont subi un élevage en barrique (et présentent de ce fait une note « boisée ») et l’un (le 6) présente du sucre résiduel (7 g/L). La figure 7.5 reproduit deux nappes. Celle du dégustateur 9, par exemple, montre un relatif isolement des deux vins boisés (7 et 10), mais pas de séparation entre les chenins et les sauvignons.
Y8
40
40
Y9
3 T Trotignon 5 T Buisse Cristal 30
30
3 T Trotignon 1 T Michaud
2 T Renaudie 6 V Aub. Silex
9 V Font. Brules
8 V Font. Domaine 4 T Buisse Domaine
20
20
2 T Renaudie
4 T Buisse Domaine 8 V Font. Domaine
10
10
10 V Font Coteaux 7 V Aub. Marigny
10 V Font Coteaux 0 0
10
20
30
40
50
0
6 V Aub. Silex
7 V Aub. Marigny
5 T Buisse Cristal
9 V Font. Brûlés 1 T Michaud
60
X8
0
10
20
30
40
50
60
X9
Fig. 7.5 – Nappes des dégustateurs 8 (à gauche) et 9 (à droite).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 142 — #150
i
142
i
Analyse factorielle multiple avec R
Résultats La configuration des vins fournie par l’AFM (figure 7.6) montre, selon la première bissectrice, une séparation entre les chenins et les sauvignons. Dans le détail, elle suggère que les sauvignons sont plus homogènes que les chenins, et que deux d’entre eux (les 4 et 5, du même producteur Buisse) sont moins « typés sauvignon » que les trois autres puisqu’ils sont plus proches du centre de gravité (ce qui est bien visible sur le plan et reste vrai lorsque l’on considère l’espace tout entier). 9 V Font. Brûlés
F2 (26.68 %)
1.0
8 V Font. Domaine
F2 (26.68 %)
0.8
8
0.6
6 V Aub. Silex
2
F1 (39.39 %)
3 0.4
4 T Buisse Domaine
5 T Buisse Cristal
6
1 11
7 V Aub. Marigny 10 V Font. Coteaux
0.2
1 T Michaud
10 7
4
3 T Trotignon 2 T Renaudie
9 0.0
5 F1 (39.39 %) 0.0
0.2
0.4
0.6
0.8
1.0
Fig. 7.6 – AFM : représentation des vins et des dégustateurs sur le premier plan. Mais pour une interprétation dans le cadre du modèle Indscal, il faut s’en tenir aux axes. Le premier axe sépare les vins boisés (7 et 10 ; ces deux vins totalisent une contribution de 55 %) des autres ; on pourra le résumer par le terme « boisé ». A l’autre extrémité de cet axe, on trouve en particulier les trois sauvignons les plus typés, dont le nez puissant et fruité (cette caractéristique traditionnelle des sauvignons ressort bien d’autres analyses sensorielles réalisées sur ces dix vins) constitue en quelque sorte le « contraire » du boisé. Le deuxième axe sépare les vins 8 et 9 des autres (ces deux vins totalisent une contribution de 60 %). Il s’agit de chenins sans particularité (pas d’élevage en fût, pas de sucre résiduel). Aussi proposons-nous, non sans parti pris d’œnophile il est vrai, de résumer cet axe par « typicité chenin ». La représentation des groupes par l’AFM (figure 7.6) s’interprète dans le cadre du modèle Indscal. Par exemple, la coordonnée élevée du dégustateur 9 le long de l’axe 1 suggère qu’il a accordé, dans sa représentation des vins, une grande importance à la dimension « boisé » (ce qui se retrouve sur sa nappe, figure 7.5, qui sépare bien les vins 7 et 10 des autres). Autre exemple : du fait de sa forte coordonnée le long de l’axe 2, le dégustateur 8 a privilégié la dimension « typicité chenin ». Cela se voit bien sur sa nappe (figure 7.5) dont la dimension horizontale est très liée au deuxième axe de l’AFM (r(X8, F2AF M ) = .93).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 143 — #151
i
i
Chapitre 7. Comparaison des groupes de variables
143
3 T Trotignon
1.0
Appliqué à ces mêmes données, l’algorithme usuel (d’estimation des paramètres du modèle) Indscal, a conduit aux représentations de la figure 7.7. F2
F2
10 0.8
2 T Renaudie
4 7
1 T Michaud
0.6
4 T Buisse Domaine 5 T Buisse Cristal
0.4
F1
6 V Aub. Silex
6
5
2
9
8
0.2
8 V Font. Domaine
1
10 V Font. Coteaux
0.0
7 V Aub. Marigny 9 V Font. Brûlés
11 0.0
0.2
0.4
0.6
3 0.8
F1 1.0
Fig. 7.7 – Indscal : représentation à deux dimensions des vins et des dégustateurs. La configuration des vins issue d’Indscal est, à une rotation près, très proche de celle de l’AFM (RV entre ces deux configurations planes = .95). Comme la première bissectrice de la figure 7.6, le deuxième axe issu d’Indscal sépare parfaitement les deux cépages. En revanche, le premier axe ne suggère aucune interprétation immédiate. Il fait bien ressortir les deux vins boisés, mais les oppose à des vins (1, 3, 8 et 9) dont le dénominateur commun n’est pas évident. Toutefois, en consultant d’autres informations disponibles sur ces quatre vins, il apparaît qu’ils ont été assez souvent cités comme « fruités », terme générique assez vague (les odeurs des fruits sont très différentes entre elles) mais qui finalement peut s’opposer à boisé si on le comprend comme naturel. Enfin la seconde bissectrice correspond pratiquement au premier axe de l’AFM (r = .996) mais n’entre pas dans le cadre du modèle Indscal. Entre les deux méthodes, la représentation des dégustateurs diffère complètement. Indscal met en évidence trois dégustateurs très particuliers (4, 7 et 10) ayant essentiellement séparé les vins selon le cépage, et trois autres (1, 3 et 11) ayant essentiellement opposé les vins boisés aux vins fruités. Ces deux groupes de dégustateurs sont mélangés dans la représentation de l’AFM. Ainsi cet exemple, dans lequel les deux représentations de vins ne diffèrent que par une rotation et les deux représentations des dégustateurs n’ont rien à voir entre elles, illustre bien l’impossibilité d’interpréter, dans le cadre du modèle Indscal, des combinaisons de facteurs, comme cela se fait en ACP par exemple. Remarques techniques sur les paramètres issus du programme Indscal Les facteurs (coordonnées des vins) sont corrélés (r(F1Indscal , F2Indscal ) = −.33).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 144 — #152
i
144
i
Analyse factorielle multiple avec R
Cinq coordonnées de dégustateurs sont égales à 0 (les dégustateurs 4, 6 et 10 pour F 1 ; 3 et 11 pour F 2). Il s’agit de coordonnées négatives à l’issue de l’algorithme ; comme un poids négatif n’a pas de sens, elles sont affichées égales à 0. Les estimations fournies par Indscal, selon que l’on postule un modèle à une ou deux dimensions, ne sont pas emboîtées. Néanmoins, l’unique facteur de la solution à une dimension F11 dim est très proche du premier facteur de la solution à deux dimensions F12 dim : r F11 dim , F12 dim = .961 Comparaison entre les deux estimations : qualité de l’ajustement Dans la procédure usuelle Indscal, cette qualité est mesurée par la somme des carrés des résidus rapportés à la variabilité totale. En AFM, cette quantité s’interprète comme le pourcentage d’inertie du nuage NJ exprimé par un axe ou un plan (cf. 7.5).
Indscal AFM Indscal sans sujet 10 AFM sans sujet 10
Une dimension .2862 .2773 .3118 .3073
Deux dimensions .4961 .4286 .4860 .4674
Tableau 7.5 – Qualité d’ajustement du modèle Indscal selon la procédure (programme Indscal ou AFM), le nombre de dimensions et la prise en compte ou non du sujet 10. Le tableau 7.5 rassemble les qualités d’ajustement du modèle Indscal pour différentes procédures. Cette qualité est sensiblement meilleure (.4961 > .4286) pour l’estimation Indscal (figure 7.7) que pour celle de l’AFM (figure 7.6). Ce résultat est attendu : la contrainte d’orthogonalité incluse dans la solution de l’AFM ne peut que diminuer la qualité d’ajustement. D’où l’idée de comparer l’estimation associée au seul premier axe de l’AFM et l’estimation Indscal avec une seule dimension. La différence entre les deux procédures est encore en faveur d’Indscal mais est cette fois bien moindre (.2862 > .2773). Ici encore, on peut légitimement attendre un meilleur ajustement par Indscal dont l’algorithme vise précisément à optimiser cet ajustement, ce qui n’est pas le cas de l’AFM. Il convient enfin de mentionner que, entre les deux approches, les pondérations des groupes sont différentes : dans Indscal, ce sont les inerties totales des dégustateurs qui sont normalisées. Cette différence entre les procédures explique-t-elle les différences de qualité d’ajustement ? Dans ces données, cette différence de pondération joue peu (après pondération de l’AFM, les dégustateurs ont à peu près la même 2 norme dans RI ), excepté le dégustateur 10, déjà mentionné pour n’avoir utilisé qu’une seule dimension. D’où l’idée de refaire les analyses sans le juge 10, ce qui a priori doit atténuer l’effet de la pondération. Comme attendu (cf. tableau 7.5), les différences sont toujours en faveur de la
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 145 — #153
i
Chapitre 7. Comparaison des groupes de variables
i
145
procédure Indscal mais de façon moindre (.4860 > .4674 pour la solution à deux dimensions et .3118 > .3073 pour la solution à une dimension).
Nature des facteurs Bien qu’associées à des qualités d’ajustement comparables, les estimations fournies par les deux procédures diffèrent. En outre, les solutions (de dimensions différentes) de la procédure Indscal n’étant pas emboîtées, il est utile de les confronter dans le but d’en retirer des éléments d’appréciation de la stabilité des résultats. Enfin, les estimations réalisées sans le dégustateur 10 peuvent également fournir des éléments de validité. Dans cette perspective, on a réalisé une ACP normée des facteurs issus des différentes procédures. Elle a conduit à une représentation de ces facteurs (figure 7.8) ayant une excellente qualité de représentation (96.88 %) qui montre : – vis-à-vis de la prise en compte ou non du dégustateur 10, une bonne stabilité des deux facteurs de l’AFM et du premier facteur d’Indscal, mais non du second facteur d’Indscal ; – une différence notable entre les deux procédures lorsque l’on prend en compte les onze dégustateurs, mais une convergence lorsque l’on élimine le dégustateur 10 ; – un emboîtement des solutions Indscal presque parfait sans le dégustateur 10 mais non dans l’autre cas.
F2AFM _11
F2AFM _10 F2 (34.46%)
F1 AFM _11 F1 AFM _10 F ind _11 F1ind _10 F ind _10
F1 (62.42%)
F1ind _11
F2ind _11 F2ind _10
Fig. 7.8 – ACP normée sur les facteurs issus de différentes procédures. Représenind_10 tation de ces facteurs sur le premier plan. F1 : premier facteur issu d’Indscal ind_10 avec 10 sujets. F : idem avec modèle Indscal à une dimension.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 146 — #154
i
146
i
Analyse factorielle multiple avec R
Conclusion Il est toujours délicat de tirer des enseignements généraux à partir d’un exemple. Au minimum, on pourra retenir que le volet Indscal de l’AFM est tout à fait concurrentiel vis-à-vis de la procédure dédiée à la seule estimation des paramètres du modèle Indscal. Le principal avantage de l’AFM est, ici encore, de fournir un « point de vue Indscal » dans un cadre général englobant beaucoup d’autres points de vue. Néanmoins, la procédure usuelle Indscal garde son intérêt si l’on pense être en présence de facteurs sous-jacents non orthogonaux.
7.7
AFM dans FactoMineR (groupes)
Nous utilisons ici le fichier « jus d’orange » (tableau 1.5 page 28). Dans R Commander, la représentation des groupes dans le carré des liaisons est obtenue par défaut pour le premier plan (cf. figure 4.10 page 92). Pour obtenir d’autres plans, on utilise la fonction plot.MFA : > plot.MFA(ResAFM,axes=c(2,3),choix="group") 2
La fonction MFA édite plusieurs tableaux concernant les groupes (dans RI ) soit : les coordonnées (res$group$coord), les qualités de représentation (res$group$cos2) et les inerties totales (res$group$dist2). Le tableau 7.2 page 133 combine plusieurs de ces résultats. Nous donnons ci-après le code R pour l’obtenir : # Initialisation > tab7_2=matrix(nrow=3,ncol=7) # Noms des lignes et des colonnes > row.names(tab7_2)=c("W1","W2","NJ") > colnames(tab7_2)=c(paste("Axe",1:5),"Plan(1,2)","Ssp(1,5)") # Qualité de représentation des groupes > tab7_2[1:2,1:5]=ResAFM$group$cos2[,1:5] # Inertie projetée de NJ > tab7_2[3,1:5]=apply(ResAFM$group$coord[,1:5]^2,MARGIN=2,FUN=sum) # Qualité de réprésentation de NJ # L’inertie totale des Wj est dans ResAFM$group$dist2 > tab7_2[3,1:5]=tab7_2[3,1:5]/sum(ResAFM$group$dist2) # Deux marges colonnes > tab7_2[,6]=apply(tab7_2[1:3,1:2],MARGIN=1,FUN=sum) > tab7_2[,7]=apply(tab7_2[1:3,1:5],MARGIN=1,FUN=sum)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 147 — #155
i
Chapitre 7. Comparaison des groupes de variables
i
147
> round(tab7_2,4) Il est quelquefois utile d’ajouter, dans le carré des liaisons, un point correspondant à l’ensemble du tableau actif (en intégrant la pondération de l’AFM). C’est ce qui a été fait figure 7.4 page 139 à partir des données « couleur et forme ». Pour cela, à partir du graphique (actif) affiché par la fonction plot.MFA, on ajoute un point (fonction points), dont les coordonnées se déduisent des valeurs propres de l’AFM, et son libellé (fonction text). # > + > a b c d
Lecture et vérification du fichier : CouleurForme=read.table("Couleur&Forme.csv",header=TRUE,sep=";", dec=".",row.names=1) CouleurForme X1 Y1 X2 Y2 0 4 4 8 0 0 8 4 10 4 0 4 10 0 4 0
# > + > > >
Code pour obtenir la figure 7.4 : res=MFA(CouleurForme,group=c(2,2),type=c("c","c"),graph=F, name.group=c("G1","G2")) plot(res,choix="group") points(1,res$eig[2,1]/res$eig[1,1] ) text(1,res$eig[2,1]/res$eig[1,1],"moyen(AFM)",offset=0.5,pos=3)
Une fonction indscal se trouve dans le package SensoMineR. Elle est dédiée au traitement des nappes (tous les groupes comportent deux variables). On duplique donc l’unique dimension de la nappe 10 (colonne 19). Nous donnons ci-après le code correspondant à l’analyse des 10 vins blancs de Touraine à l’aide du modèle Indscal. # > > >
lecture des données (10 vins blancs) et chargement de SensoMineR nappes=read.table("nappes.csv",header=TRUE,sep=";",row.names=1) library(SensoMineR) res=indscal(nappes[,c(1:19,19:21)])
# # > > > > >
La fonction indscal sort tous les graphiques utiles. Personnaliser les graphiques de la figure 7.7 (police plus grande) plot(res$points) text(res$points,rownames(res$points),offset=0.5,pos=3,cex=1.3) x11() plot(res$W) text(res$W,paste("",1:11,sep=""),offset=0.5,pos=3,cex=1.3)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 148 — #156
i
148
i
Analyse factorielle multiple avec R
# # # # > > > + >
Tableau 7.5 et figure 7.8. Ils nécessitent une solution Indscal à une dimension (coord=c(1,1)). Pour la figure 7.8, on stocke les facteurs au fur et à mesure des analyses dans DonFig7_8. Ces facteurs sont dans $points (Indscal) ou dans $ind$coord (AFM). DonFig7_8=res$points Tab7_5=matrix(nrow=4,ncol=2) rownames(Tab7_5)=c("Indscal","AFM","Indscal sans sujet 10", "AFM sans sujet 10") colnames(Tab7_5)=c("1 dimension","2 dimensions")
# > > >
Indscal avec 1 dimension res1=indscal(nappes[,c(1:19,19:21)],coord=c(1,1)) DonFig7_8=cbind(DonFig7_8,res1$points) Tab7_5[1,]=c(res1$r2,res$r2)
# > > > > >
Indscal sans le sujet 10 res=indscal(nappes[,c(1:18,20:21)]) DonFig7_8=cbind(DonFig7_8,res$points) res1=indscal(nappes[,c(1:18,20:21)],coord=c(1,1)) DonFig7_8=cbind(DonFig7_8,res1$points) Tab7_5[3,]=c(res1$r2,res$r2)
# > + > > >
AFM avec puis sans le sujet 10 res=MFA(nappes[,c(1:19,19:21)],group=rep(2,11),type=rep("c",11), graph=F) DonFig7_8=cbind(DonFig7_8,res$ind$coord[,1:2]) lig2=apply(res$group$coord^2,MARGIN=2,FUN=sum)/sum(res$group$dist2) Tab7_5[2,]=c(lig2[1],sum(lig2[1:2]))
> + > > > > > + >
res=MFA(nappes[,c(1:18,20:21)],group=rep(2,10),type=rep("c",10), graph=F) DonFig7_8=cbind(DonFig7_8,res$ind$coord[,1:2]) lig2=apply(res$group$coord^2,MARGIN=2,FUN=sum)/sum(res$group$dist2) Tab7_5[4,]=c(lig2[1],sum(lig2[1:2])) round(Tab7_5,4) colnames(DonFig7_8)=c("F1Ind","F2Ind","FInd","F1Ind10","F2Ind10", "FInd10","F1AFM","F2AFM","F1AFM10","F2AFM10") res=PCA(DonFig7_8)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 149 — #157
i
i
Chapitre 8
Cas des variables qualitatives et des données mixtes L’AFM a jusqu’ici été présentée dans le cas de variables quantitatives. Dans ce chapitre, nous l’étendons aux variables qualitatives et, plus généralement, aux données mixtes. La méthode de référence pour traiter les tableaux individus × variables qualitatives est l’ACM. Par ailleurs, la question des données mixtes a déjà été traitée par l’AFDM. C’est donc une combinaison de l’ACM, de l’AFDM et de l’AFM des chapitres précédents qui est présentée ici. Une clef de l’AFM réside dans la pondération des variables. Nous commençons par introduire la notion de poids de variables en ACM sous le nom d’ACM pondérée.
8.1
ACM pondérée
Nous reprenons les notations de l’ACM présentée section 2.2 : – yik : terme général du tableau disjonctif complet ; yik ∈ {0, 1} ; – I est le nombre d’individus et J le nombre de variables ; P – Kj correspond au nombre de modalités de la variable j et K = j Kj au nombre total de modalités ; – pi : poids de l’individu i. Généralement, tous les individus ont le même poids ; soit, la somme des poids étant fixée à 1 : pi = 1/I. Par la suite, pour simplifier l’exposé, sauf mention explicite du contraire, nous nous situons dans le cas d’individus de même poids. Ces poids sont regroupés dans la matrice diagonale D de dimension I, soit : D (i, i) = pi ; P – pk : poids de l’ensemble des individus présentant la modalité k : pk = i pi yik . Lorsque les individus ont le même poids, pk est la proportion d’individus présentant la modalité k. Ces poids (de modalités) sont regroupés dans la matrice diagonale M de dimension K, soit : M (k, k) = pk .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 150 — #158
i
150
i
Analyse factorielle multiple avec R
Dans une ACM, si l’on duplique une variable, on lui attribue un rôle deux fois plus important. Il est donc aisé de concevoir une ACM dans laquelle on affecte une pondération aux variables. Implicitement, dans l’ACM usuelle, le poids de chaque variable est 1/J. Cela apparaît notamment dans le critère maximisé : la moyenne des carrés des rapports de corrélation. Dans l’ACM pondérée, on note cj le poids accordé à la variable j. Pour se placer exactement dans le cadre de l’ACM, en particulier pour obtenir des valeurs propres comprises entre 0 et 1, il est nécessaire que la somme de ces poids soit égale à 1. Nous verrons que cette condition ne s’applique pas en AFM, les poids des variables devant assurer une inertie axiale maximum égale à 1. Mais n’anticipons pas. En suivant la présentation de l’ACM du chapitre 2, l’ACM pondérée d’un tel tableau revient à réaliser l’ACP du tableau X de terme général : xik =
yik − 1, pk
l’individu i ayant pour poids pi et la modalité k (de la variable j ) ayant le poids mk = pk cj . En effet, l’ACM pondérée ne diffère de l’ACM usuelle, telle qu’elle est présentée au chapitre 2,que par la pondération des modalités. La pondération de la modalité k, appartenant à la variable j, peut être vue comme le produit de la pondération de la modalité « dans » la variable j (i.e. pk ) par la pondération de la variable j dans l’ensemble des variables (i.e. 1/J dans le cas de l’ACM usuelle, cj dans le cas de l’ACM pondérée). Soit : pk cj .
8.1.1
Nuage des modalités en ACM pondérée
En ACM, le nuage des modalités possède des propriétés remarquables. Les principales caractéristiques de ce nuage, en ACM et en ACM pondérée, sont regroupées dans le tableau 8.1. Pour l’ACM pondérée, elles sont obtenues en replaçant, dans les propriétés de l’ACM, la quantité 1/J par cj . Poids de la modalité k (appartenant à la variable j) Poids de l’ensemble des modalités de la variable j Inertie de la modalité k (appartenant à la variable j) Inertie de l’ensemble des modalités de la variable j Inertie totale du nuage des modalités Carré de la distance entre deux modalités k et h Carré de la distance entre deux individus i et l
1 J
ACM
ACM pondérée
pk J1
p k cj
1 J
cj
(1 − pk )
1 (Kj J
P P P
1 j J
i
pi
P
− 1)
1 j J Kj
yik pk
cj (1 − pk ) cj (Kj − 1) P
−1
−
yih ph
1 k∈Kj pk (yik
2 − ylk )2
P P
j cj
i
pi
P
j cj Kj
yik pk
−1
−
1 k∈Kj pk
yih ph
2
(yik − ylk )2
Tableau 8.1 – Quelques propriétés comparées de l’ACM et de l’ACM pondérée.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 151 — #159
i
Chapitre 8. Groupes qualitatifs et mixtes
8.1.2
i
151
Relations de transition en ACM pondérée
λs , Fs et Gs désignent ici alternativement les résultats (valeur propre, coordonnées des individus et coordonnées des modalités concernant l’axe de rang s) d’une ACM et ceux d’une ACM pondérée. En ACM et en ACM pondérée, une modalité k est (à un coefficient près) au barycentre (noté gk ) des individus qui la possèdent : 1 1 1 X pi yik Fs (i) = √ Fs (gk ). Gs (k) = √ p λs k i λs En ACM, un individu est (à un coefficient près) au barycentre des modalités (affectées chacune du même poids) qu’il possède : 1 1 X 1 X1 X Fs (i) = √ yik Gs (k) = √ yik Gs (k). λs J k∈K λs j J k∈K j
En ACM pondérée, un individu est (à un coefficient près) au barycentre des modalités (affectées chacune du poids de la variable à laquelle elles appartiennent) qu’il possède : 1 X X 1 X X cj yik Gs (k) = cj yik Fs (gk ). Fs (i) = √ λs j λs j k∈K k∈K j
8.2
j
AFM de variables qualitatives
Au sein du TDC, dont le terme général est toujours noté yik , les indicatrices sont maintenant rassemblées en groupes qui incluent plusieurs variables. Les indicatrices d’une même variable appartiennent toujours à un même groupe : on parle indifféremment de groupe d’indicatrices ou de groupe de variables. Comme dans toute AFM, nous réservons la lettre j aux groupes (groupe j et J : nombre de groupes) ; la lettre q est réservée aux variables qualitatives (variable q et Q nombre de variables). En résumé, nous avons : – K Pj : nombre de modalités du groupe j ; K : nombre total de modalités (K = Kj ) ; P – Qj : nombre de variables du groupe j ; Q : nombre total de variables (Q = Qj ).
8.2.1
Point de vue de l’analyse factorielle
Principe de la pondération des groupes de variables La problématique qui découle de la prise en compte de groupes dans un ensemble de variables est identique, que les variables soient quantitatives ou qualitatives : équilibrer l’influence a priori des différents groupes, étant entendu qu’un groupe présentant de nombreuses dimensions influencera, dans une analyse globale, plus d’axes qu’un autre présentant peu de dimensions (voire une seule). La solution
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 152 — #160
i
152
i
Analyse factorielle multiple avec R
choisie par l’AFM (harmoniser les inerties axiales maximum des nuages associés aux différents groupes), présentée précédemment dans le cadre de variables quantitatives, n’est pas spécifique de ces variables et s’applique aux variables qualitatives. L’AFM de variables qualitatives repose sur une ACM pondérée L’analyse factorielle usuelle d’un ensemble de variables qualitatives étant l’ACM, il est naturel de faire reposer l’AFM de J groupes de variables qualitatives sur une ACM pondérée. Dans cette ACM pondérée, les pondérations des variables, induites par l’égalisation (à 1) des inerties maximums des sous-nuages, découlent du raisonnement suivant. Dans le groupe j avant la pondération (i.e. dans l’ACM de ce groupe), la distance entre deux individus i et l s’écrit : d2 (ij , lj ) =
2 yik ylk 1 X pk − Qj pk pk k∈Kj
en notant ij l’individu i considéré du point de vue des variables du seul groupe j (appelé « individu partiel » en AFM). Pour rendre égale à 1 l’inertie maximum du nuage associé au groupe j, on divise le poids de chaque modalité du groupe j par λj1 (première valeur propre de l’ACM du groupe j ). A l’issue de cette harmonisation, la distance entre ij et lj s’écrit (cf. 2.4) : d2 (ij , lj ) =
1
X
Qj λj1
k∈Kj
pk
yik ylk − pk pk
2 .
Lorsque l’on considère tous les groupes de variables, ces distances induisent la distance suivante entre les points i et l de NI : 2 X X 1 X ylk yik p − d2 (i, l) = d2 ij , lj = k j pk pk j j Qj λ1 k∈Kj 2 X X 1 yik ylk = p − . k pk pk Qj λj1 j k∈Kj
Cette relation montre que l’AFM d’un ensemble de variables qualitatives structurées en groupes doit reposer sur une ACM pondérée dans laquelle la pondération des variables du groupe j est 1/(Qj λj1 ). Le poids 1/(Qj λj1 ) de la variable q du groupe j provient de la succession suivante : – considérer que la variable q appartient au groupe j auquel cas sa pondération vaut 1/Qj dans l’ACM de ce groupe ; – rendre égale à 1 l’inertie axiale maximum des nuages de l’ACM du groupe j en divisant par λj1 (première valeur propre de cette ACM) la pondération des variables précédentes.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 153 — #161
i
Chapitre 8. Groupes qualitatifs et mixtes
i
153
Cette ACM pondérée fournit des représentations des individus et des modalités conformes à la problématique, en ce sens que le rôle a priori des différents groupes est équilibré. La discussion des conditions de cet équilibre – harmoniser les inerties axiales maximums plutôt que, par exemple, les inerties totales – peut être faite dans les mêmes termes que pour les variables quantitatives. Remarques Lorsque chaque groupe est composé d’une seule variable, alors : ∀j Qj = 1 et λj1 = 1 ; l’AFM est alors confondue avec l’ACM. La somme des poids des variables ne vaut pas 1. Cette caractéristique est induite par le fait que l’on impose à chaque groupe une inertie axiale maximum de 1.
8.2.2
Point de vue de l’analyse multicanonique
Mesure Lg pour variables qualitatives Il a été mentionné, dans le cas de variables quantitatives (cf. 6.2), que l’AFM peut être vue comme une analyse multicanonique au sens de Carroll (cf. 6.2 et 6.3) à condition de mesurer la liaison entre une variable z et un groupe de variables Kj = {vk ; k = 1, Kj } par la mesure Lg, inertie projetée des variables du groupe Kj le long de z. Soit : Lg (z, Kj ) =
X
inertie de la projection de vk sur z.
k∈Kj
Dans le cas où le groupe de variables j est composé des indicatrices d’une seule variable qualitative V, cette mesure s’applique et vaut (z est centré) : Lg (z, Kj ) = η 2 (z, V ) en notant η 2 (z, V ) le carré du rapport de corrélation entre z et la variable V. Si le groupe j comprend Qj variables qualitatives Vq , cette mesure devient : Lg(z, Kj ) =
1 1 X 2 η (z, Vq ). λj1 Qj q∈Qj
Cette mesure est proportionnelle à la moyenne des rapports de corrélation entre la variable z et les variables qui composent le groupe j. Cette moyenne est rapportée à sa valeur maximum compte tenu des données du groupe j, à savoir la première valeur propre de l’ACM de ce groupe j. En effet, en ACM, la valeur propre de rang s est égale à la moyenne des carrés des rapports de corrélation entre le facteur Fs et les Q variables qualitatives. Finalement, la mesure Lg vaut 0 si la variable z a un rapport de corrélation nul avec chaque variable du groupe j ; elle vaut 1 si z coïncide avec la direction principale d’inertie du groupe j. Ces commentaires sont analogues à ceux faits à propos des variables quantitatives. Ils montrent que Lg est adaptée pour servir de mesure de liaison dans une analyse
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 154 — #162
i
154
i
Analyse factorielle multiple avec R
multicanonique de variables qualitatives et que, par voie de conséquence, l’AFM peut être considérée comme une telle analyse. Remarque Dans la dernière relation, Lg(z, Kj ) vérifie la propriété suivante : si l’on duplique chaque variable du groupe j, l’ACM de ce groupe, et en particulier λj1 , est inchangée ; le coefficient 1/Qj permet d’obtenir la même valeur de Lg(z, Kj ) dans les deux cas. Recherche des variables générales Dans l’espace RI muni de la métrique D (contenant les poids des individus), la variable générale de rang s (notée zs ) de cette analyse multicanonique rend maximum : X
Lg(zs , Kj ) =
j
X
1
X
j
λj1 Qj
q∈Qj
η 2 (zs , Vq )
avec les contraintes usuelles de norme et d’orthogonalité : kzs kD = 1
8.2.3
hzs , zt iD = 0 si s 6= t.
Représentation des individus partiels
La notion d’individu partiel, c’est-à-dire d’un individu considéré du point de vue d’un groupe seulement, est importante en AFM. On a déjà noté ij , l’individu i « vu » par le groupe j. Le principe géométrique de représentation de ces individus partiels est identique dans le cas des variables qualitatives et dans celui des variables quantitatives : dans l’espace RK , l’individu partiel ij , déduit de i en remplaçant par 0 ses valeurs pour les variables (centrées) des groupes autres que j, est projeté sur les axes d’inertie de NI . La représentation des individus partiels jouit d’une propriété importante : une relation de transition « partielle », déduite de la relation usuelle exprimant la coordonnée d’un individu en fonction de celles des modalités, en se limitant à un seul groupe de variables. Nous présentons ces deux relations (usuelle et partielle) dans le cas des variables qualitatives. En AFM sur variables qualitatives, la représentation de NI vérifie les propriétés de l’ACM pondérée (cf. 8.1.2). Ainsi, un individu est (à un coefficient près) au barycentre des modalités (affectées chacune de la pondération de la variable à laquelle elle appartient) qu’il possède. Soit : Fs (i) =
1 X 1 X y ik Fs (gk ). λs j λj1 Qj k∈Kj
La représentation de l’individu partiel ij vérifie la relation de transition précédente en restreignant la sommation aux variables du groupe j (relation de transition « partielle »). Soit :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 155 — #163
i
i
Chapitre 8. Groupes qualitatifs et mixtes
Fs (ij ) =
155
1 1 X yik Fs (gk ). λs λj1 Qj k∈Kj
A un coefficient près, ij est au barycentre des modalités (du groupe j ) qu’il possède. Cette relation permet de comparer directement les positions des points d’un même nuage NIj (e.g. ij et lj ). En revanche, la comparaison de points de nuages différents (e.g. ij et lh ) est indirecte : elle consiste à comparer les positions relatives de ces points dans leurs nuages respectifs (NIj et NIh ), ce qui ne semble véritablement utile que si les facteurs étudiés sont bien des facteurs communs. Remarque En pratique, on dilate chaque nuage NIj par une homothétie de rapport J afin de situer l’individu i au centre de gravité de ses points partiels {ij : j = 1, J}. La relation précédente devient : Fs (ij ) =
8.2.4
1 J X yik Fs (gk ). λs λj1 Qj k∈Kj
Représentation des modalités partielles
Une modalité étant représentée par un centre de gravité d’individus, on peut imaginer un concept de modalité partielle calqué sur celui d’individu partiel. Dans RK , la modalité k partielle au groupe j (notée gkj ) est déduite de gk en remplaçant par 0 ses valeurs pour les variables (centrées) des groupes autres que j. Il résulte de cette définition que, en AFM, une modalité partielle est au centre de gravité des individus partiels qui la possèdent. Soit, en projetant sur l’axe de rang s : Fs (gkj ) =
1 X pi yik Fs (ij ). pk i
Remarque Le concept de modalité partielle est très important dans la pratique des variables qualitatives. Dans le cas des enquêtes, par exemple, les individus sont généralement nombreux : on ne les considère donc pas individuellement, mais au travers des souspopulations induites par les modalités. C’est le concept de « modalité partielle » qui justifie de représenter en AFM les modalités par les barycentres d’individus et non par les indicatrices (ou, ce √ qui revient au même, par les barycentres dilatés axe par axe par le coefficient 1/ λs ) comme cela est fait usuellement en ACM.
8.2.5
2
Analyse dans l’espace des groupes de variables (RI )
Nuage des groupes de variables 2 Dans RI , le cas des variables qualitatives ne se distingue que très peu de celui des variables quantitatives. Chaque groupe de variables Kj est représenté par la
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 156 — #164
i
156
i
Analyse factorielle multiple avec R
matrice des produits scalaires entre individus définie par le seul groupe j. Soit, en notant Mj , la matrice diagonale de dimension Kj contenant les poids des modalités du groupe j (cf. aussi 7.1) : Wj = Xj Mj Xj0 . A chaque Wj on associe un point de 2 RI . L’ensemble de ces points constitue le nuage des groupes de variables noté NJ . Le nuage NJ est projeté sur le sous-espace induit par les composantes principales (de l’AFM dans RI ) normées vs . Soit ws = vs vs0 (cf. 7.4.1). La coordonnée du groupe j le long de ws est égale à la mesure de liaison Lg (ws , Kj ), d’où le nom de « carré des liaisons » (déjà) donné à cette représentation. Lg (ws , Kj ) est aussi la contribution du groupe j à l’inertie de l’axe de rang s (cf. 6.5.1). A la différence des groupes de variables quantitatives, cette mesure Lg est fondée sur le rapport de corrélation (et non le coefficient de corrélation) dont elle est une moyenne « normalisée » (cf. 8.2.2). Dans le carré des liaisons, on peut aussi représenter chaque variable qualitative individuellement. On retrouve la représentation proposée à propos de l’ACM (cf. 2.6) qui acquiert ici une justification supplémentaire (en tant que projection d’un nuage de points). Interprétation du produit scalaire entre deux groupes Rappelons que, dans cet espace, le produit scalaire entre deux groupes de variables quantitatives K1 et K2 s’interprète comme une mesure de liaison : RV si les groupes sont normés et Lg(K1 , K2 ) lorsque les inerties axiales maximales des nuages associés aux groupes sont égales à 1 (cf. 7.2). Cette propriété s’étend aux variables qualitatives. Rappelons les deux mesures classiques de la liaison entre deux variables qualitatives : – le critère χ2 , mesure, via une probabilité critique, la significativité de la liaison ; – le critère φ2 = χ2 /I mesure l’intensité de la liaison. On montre que lorsque les groupes de variables K1 et K2 sont composés chacun d’une seule variable qualitative (respectivement V1 et V2 ) : hW1 , W2 iD = Lg(K1 , K2 ) = φ2V1 V2 =
1 2 χ . I V1 V2
Dans ce cas particulier, on retrouve la mesure de liaison usuelle. Il en résulte que, si K1 est composé d’une seule variable V1 et K2 de Q2 variables notées Vq : hW1 , W2 iD = Lg(K1 , K2 ) =
1
X
λ21 Q2 q∈Q2
Lg(V1 , Vq ) =
1
X
λ21 Q2 q∈Q2
φ2V1 Vq .
Les deux groupes sont d’autant plus liés que la variable du groupe 1 est liée, au sens du φ2 , à chacune des variables du groupe 2. La pondération par λ21 (1er valeur propre de l’ACM du groupe 2) appelle des remarques analogues à celles faites dans le cas de variables quantitatives. La liaison entre V1 et K2 est d’autant plus grande que le sous-espace engendré par les indicatrices de V1 est proche des principales directions d’inertie de K2 . Remarquons que, si l’on duplique toutes les variables
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 157 — #165
i
Chapitre 8. Groupes qualitatifs et mixtes
i
157
du groupe K2 , λ21 est inchangée : c’est le coefficient Q2 qui assure cette invariance de la mesure de liaison. Enfin, si K1 et K2 comportent respectivement Q1 et Q2 variables (notées Vh pour le groupe K1 et Vq pour le groupe K2 ), on a : hW1 , W2 iD = Lg(K1 , K2 ) =
1 1 X X 2 φV h V q . λ11 Q1 λ21 Q2 h∈Q1 q∈Q2
Les deux groupes sont d’autant plus liés que chaque variable du groupe 1 est liée, au sens du φ2 , à chacune des variables du groupe 2. La pondération par 1/(λ11 λ21 Q1 Q2 ) appelle des remarques analogues à celles faites dans le cas précédent.
8.3
Cas des données mixtes
Les J groupes de variables se décomposent maintenant en J1 groupes de variables quantitatives, J2 groupes de variables qualitatives et J3 groupes mixtes. Le traitement simultané par analyse factorielle de variables quantitatives et qualitatives a été traité à propos de l’AFDM (chapitre 3). Mais l’AFDM ne prend pas en compte la notion de groupes de variables. Or, la possibilité de prendre en compte des variables des deux types structurées en groupes est souhaitée dans de nombreuses applications. L’AFM offre une telle possibilité. Un point d’entrée pour une telle analyse est la définition d’une distance entre individus qui prenne en compte simultanément les deux types de variables. Cette question a déjà été traitée pour l’AFDM. De façon concise, on peut dire que cette distance doit être celle de l’ACP si l’on considère seulement des variables quantitatives et celle de l’ACM si l’on considère seulement des variables qualitatives. L’élément nouveau est ici la structure en groupe. L’équilibre entre les deux types de variables doit être assuré à l’intérieur des groupes pour les groupes mixtes (comme en AFDM) et entre les groupes comme usuellement en AFM.
8.3.1
Pondération des variables
Le tableau de données juxtapose variables quantitatives et indicatrices. L’analyse doit prendre en compte simultanément ces deux types de données et fonctionner « localement » comme une ACP pour les variables quantitatives et comme une ACM pour les variables qualitatives. Pratiquement, comme en AFDM, ce résultat peut être obtenu directement en utilisant l’équivalence entre ACP et ACM : les indicatrices peuvent être traitées comme les variables quantitatives à condition de les coder et de les pondérer de façon adéquate (cf. 2.4). L’équilibre entre les groupes est assuré par la pondération de l’AFM. On divise le poids initial de la variable k du groupe j par : – λj1 si le groupe j est quantitatif ou mixte (λj1 : première valeur propre de l’ACP ou de l’AFDM du groupe j ) ;
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 158 — #166
i
158
i
Analyse factorielle multiple avec R
– λj1 Qj si le groupe j est qualitatif (λj1 : première valeur propre de l’ACM du groupe j comportant Qj variables cf. 8.2.1). Le même résultat peut être obtenu en remplaçant les données brutes par les facteurs des analyses factorielles séparées des groupes (ACP, ACM ou AFDM selon le cas). Ces facteurs seront soit non normés, soit normés et affectés d’un poids initial égal à la valeur propre qui leur est associée. Cette propriété suggère de calculer des contributions (au plein sens du terme) à l’inertie des axes aussi bien pour les variables initiales que pour les facteurs des analyses séparées (idée déjà exploitée en 4.5).
8.3.2
Propriétés
Représentation des variables Les variables quantitatives sont représentées à l’aide de leurs coefficients de corrélation avec les facteurs. Les variables qualitatives apparaissent essentiellement au travers de leurs modalités, représentées par le barycentre des individus qui les possèdent. En AFM, on utilise le barycentre exact, et non à un coefficient près comme en ACM, du fait des modalités partielles (pour lesquelles le coefficient ne serait pas justifié). Enfin, les variables qualitatives peuvent aussi apparaître en tant que telles dans le carré des liaisons. Représentation des nuages d’individus partiels L’égalisation des inerties maximums de ces nuages permet leur représentation simultanée. Cette représentation bénéficie des relations de transition partielles identiques à celles de l’AFM appliquée à des groupes de même type. L’individu i partiel au groupe qualitatif j se trouve, à un coefficient près, au barycentre des modalités du groupe j qu’il possède ; soit : Fs (ij ) =
J X 1 1 J X yik Fs (gk ) = √ yik Gs (k). j j λs λ1 Qj λs λ1 Qj k∈K k∈Kj j
L’individu i partiel au groupe quantitatif j se trouve du côté des variables du groupe j pour lesquelles il présente de fortes valeurs, et à l’opposé de celles du groupe j pour lesquelles il présente de faibles valeurs ; soit : 1 J X xik Gs (k). Fs (ij ) = √ λs λj1 k∈K j
Le positionnement d’un individu partiel au groupe mixte j vérifie une propriété qui combine les deux précédentes, à la manière de la relation de transition en AFDM (cf. 3.4) ; en raccourci : un individu se trouve à la fois du côté des variables pour lesquelles il a une forte valeur et du côté des modalités qu’il possède. Dans les relations précédentes, le coefficient J assure la propriété suivante (cf. aussi la remarque en fin de 8.2.3) : l’individu i est à l’isobarycentre de ses points partiels ij quel que soit leur type. Soit :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 159 — #167
i
Chapitre 8. Groupes qualitatifs et mixtes
Fs (i) =
i
159
1X Fs (ij ). J j∈J
A partir des individus partiels, on peut définir des modalités partielles. La modalité k partielle au groupe j est notée k j ; elle est située au barycentre des individus partiels ij associés aux individus i possédant la modalité k. Cette définition s’applique quelle que soit la nature du groupe. Analyse multicanonique La quantité rendue maximum par les facteurs de l’AFM peut s’exprimer en termes d’analyse canonique, ces facteurs étant les variables générales. On donne ci-après cette quantité en se limitant à trois groupes, soit : K1 (groupe quantitatif comportant K1 variables vk ), K2 (groupe qualitatif comportant Q2 variables Vq ) et K3 (groupe mixte comportant K3 variables quantitatives vk et Q3 variables qualitatives Vq ). La variable générale de rang s (notée vs ) rend alors maximum : Lg (vs , K1 ) + Lg (vs , K2 ) + Lg (vs , K3 ) =
1 X 2 1 X 2 r (vs , vk ) + 2 η (vs , Vq ) 1 λ1 λ1 Q2 k∈K1
q∈Q2
X 1 X 2 r (vs , vk ) + η 2 (vs , Vq ) + 3 λ1 k∈K3
q∈Q3
avec les contraintes usuelles de norme et d’orthogonalité pour vs et en notant λj1 la première valeur propre de l’analyse factorielle (ACP, ACM ou AFDM) du groupe j. Comme en AFDM, cette quantité fait jouer un rôle analogue au carré du coefficient de corrélation et au carré du rapport de corrélation. Elle est d’autant plus grande que vs est fortement corrélée avec les variables quantitatives et présente un fort rapport de corrélation avec les variables qualitatives. En ce sens, vs est liée à la fois à K1 , K2 et K3 . La pondération des groupes de variables limite à 1 la contribution maximum d’un groupe à cette quantité. Cette quantité vaut donc au maximum 3 (J dans le cas général), valeur atteinte lorsque vs coïncide à la fois avec le premier facteur de l’ACP de K1 et avec celui de l’ACM de K2 et avec celui de l’AFDM de K3 . 2
Analyse dans RI Dans cet espace, le groupe j est représenté par la matrice Wj des produits scalaires (entre individus) qu’il induit. La présence de variables de natures différentes ne pose pas de problème particulier, ces matrices étant homogènes (mêmes dimensions, même première valeur propre). La projection du groupe Kj , sur l’axe ws
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 160 — #168
i
160
i
Analyse factorielle multiple avec R
induit par la variable générale vs (définie dans RI ) de l’AFM, s’interprète comme la mesure de liaison Lg (vs , Kj ) (cf. 7.4.1). Dans cet espace, le produit scalaire entre K1 et K2 (à condition que les inerties axiales maximums des nuages associés aux groupes soient égales à 1) vaut Lg(K1 , K2 ). Selon la nature des variables, ce produit scalaire dérive du coefficient de corrélation, du rapport de corrélation ou du φ2 . Le tableau 8.2 explicite Lg(K1 , K2 ) en fonction du nombre et de la nature des variables composant les groupes dans le cas de groupes homogènes. Dans le cas d’un groupe quantitatif et d’un groupe qualitatif, Lg(K1 , K2 ) vaut 0 si chaque variable d’un groupe a un rapport de corrélation nul avec chaque variable de l’autre groupe. Elle n’est pas bornée supérieurement : elle est d’autant plus grande que les deux groupes présentent un grand nombre de directions communes d’inertie importante. Cette dernière propriété vaut pour tous les types de groupes et est détaillée dans le cas de deux groupes quantitatifs en 9.5. Groupe K2 Quantitatif v z
qualitatif
Groupe K1 quantitatif
r 2 ( z , v)
zl , l=1, K1
Qualitatif V
vk , k = 1, K 2 1 ∑ r 2 ( z, vk ) λ12 k∈K 2 1
∑∑r
λ11λ12 l∈K k∈K 1
2
2
(zl , vk )
Vk , k = 1, Q2 1 ∑ η 2 ( z , Vk ) λ12 Q2 k∈Q2
2
η ( z, V )
1
∑η
λ11 l∈K
2
( z l ,V )
1
1
1
λ11 λ12 Q2
Z
1
φZV2 Zl , l=1, Q1
∑ ∑η
λ12Q2 1
2
( z l , Vk )
l∈K1 k∈Q2
1
∑φ
2 ZVk
k∈Q2
∑ ∑φ
λ11Q1 λ12Q2 l∈Q
1
2 ZlVk
k∈Q2
Tableau 8.2 – Mesure de liaison Lg (vs , Kj ) entre deux groupes de variables selon leur nature (quantitatif/qualitatif) et le nombre de variables qu’ils comportent (une/plusieurs). r2 (z, v) : carré du coefficient de corrélation entre les variables quantitatives z et v ; η 2 (z, V ) : carré du rapport de corrélation entre la variable quantitative z et la variable qualitative V ; φ2ZV : statistique φ2 = χ2 /I entre les variables qualitatives Z et V .
8.4
Application
Nous illustrons les propriétés de l’AFM sur données mixtes à l’aide d’un exemple restreint de données choisies précisément pour mettre en valeur ces propriétés.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 161 — #169
i
Chapitre 8. Groupes qualitatifs et mixtes
A B C D E F Moy. Ec.-type
Données brutes Long. Poids Larg. 1 1 6 2 0 5 3 2 3 5 0 4 4 1 1 6 0 2 3.5 0.667 3.500 1.708 0.745 1.708
Centrées réduites Long. Poids Larg. -1.464 0.447 1.464 -0.878 -0.894 0.878 -0.293 1.789 -0.293 0.878 -0.894 0.293 0.293 0.447 -1.464 1.464 -0.894 -0.878 0 0 0 1 1 1
i
161
Codées en classes Long. Poids Larg. 1 2 3 1 1 3 2 2 2 3 1 2 2 2 1 3 1 1
Tableau 8.3 – Six individus (A,. . ., F) sont décrits par trois variables quantitatives. Ces données sont soumises à l’AFM au travers de deux transformations : le centrage-réduction et un codage en (2 ou 3) classes. Cet ensemble de données, dit « biométrie 2 », est construit de la façon suivante (cf. tableau 8.3). – Six individus (A, . . ., F) sont décrits par trois variables quantitatives (longueur, poids, largeur) dont deux sont corrélées entre elles (r(long., larg.) = −.71) et peu corrélées à la troisième (r(long., poids) = −.39 ; r(larg., poids) = −.13). – Ces trois variables sont aussi codées en variables qualitatives en subdivisant leur plage de variation en deux ou trois classes. L’objet spécifique de cette application est de comparer deux images d’un même ensemble de données : celle fournie par les données centrées réduites et celle fournie par un recodage en classes. Le point de vue « analyse canonique » de l’AFM, selon lequel la méthode met en évidence les facteurs communs aux tableaux et ceux qui sont spécifiques de l’un d’entre eux, correspond bien à cette comparaison. Le point de vue « analyse des facteurs des analyses séparées » permet une comparaison des méthodologies usuelles : l’ACP normée sur les données brutes ; l’ACM sur données recodées en classes. L’objet plus général de cette application est d’illustrer comment l’AFM prend en compte simultanément les deux types de variables. Remarquons que le nombre d’individus est très faible, en particulier dans la perspective d’une ACM. Une telle analyse n’aurait a priori pas grand intérêt avec des données réelles ; mais ces données ont été construites selon une structure simple et claire qui doit logiquement apparaître au travers des deux codages.
8.4.1
Analyses séparées
Inerties (tableau 8.4) Les inerties projetées sont toujours inférieures à 1 en ACM ; en ACP, la première valeur propre est toujours supérieure à 1. La pondération des variables est indispensable dans l’analyse simultanée de ces deux types de données. La décroissance des inerties est plus lente pour le groupe qualitatif (ACM). Cette observation est classique. Le premier groupe (qualitatif) est tridimensionnel, avec deux premières valeurs propres assez voisines. Le second groupe (quantitatif) est bidimensionnel, ce qui est en accord avec la façon dont il a été construit.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 162 — #170
i
162
i
Analyse factorielle multiple avec R
Groupe 1 qualitatif (ACM) 2 quantitatif (ACP)
1 0.667 1.765
Valeurs propres 2 3 0.605 0.333 1.110 0.125
4 0.061
Pourcentages d’inertie 1 2 3 4 40.0 36.3 20.0 3.7 58.8 37.0 4.2
Tableau 8.4 – Valeurs propres des analyses séparées. Corrélations entre les facteurs des analyses séparées (tableau 8.5)
Groupe 2 (ACP)
F1 F2 F3
Groupe 1 (ACM) F1 F2 F3 -0.82 -0.37 -0.41 0.43 -0.87 -0.04 0.33 0.27 -0.68
Tableau 8.5 – Corrélations entre facteurs des analyses séparées. Exemple : .43 est le coefficient de corrélation entre le 2e facteur de l’ACP du groupe 2 et le 1er facteur de l’ACM du groupe 1. En se limitant aux deux premiers, les facteurs de même rang sont assez fortement corrélés (.82 ; .87) : comme attendu, les résultats des deux analyses sont liés. Cela étant, on pouvait s’attendre à des coefficients plus importants. En fait, ces coefficients donnent une vision pessimiste des relations entre les résultats, car une ressemblance entre deux plans factoriels peut être masquée par une rotation. Une telle rotation est d’autant plus plausible, dans ce cas, que les deux premières valeurs propres de l’ACM étant voisines, c’est plus le premier plan de l’ACM qui est stable que les axes eux-mêmes.
8.4.2
Inerties dans l’analyse globale
Inertie totale Groupe 1 Groupe 2
Inertie totale 4.200 2.500 1.699
F1 1.920 0.947 0.972
F2 1.530 0.909 0.621
F3 0.610 0.536 0.072
F4 0.120 0.098 0.020
F5 0.020 0.010 0.015
Tableau 8.6 – Décompositions de l’inertie, par axe et par groupe. La séquence des valeurs propres (tableau 8.6) suggère d’interpréter trois axes. La première valeur propre 1.920 est proche de son maximum (le nombre de groupes). Le premier axe de l’AFM correspond à une direction d’inertie très importante dans chaque groupe. Les deux groupes contribuent également à ce premier axe, propriété attendue (et généralement observée en pratique, mais on peut imaginer des contre-exemples) suite à la pondération de l’AFM.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 163 — #171
i
i
Chapitre 8. Groupes qualitatifs et mixtes
163
Le deuxième axe correspond à une direction d’inertie importante pour le groupe 1 et légèrement plus faible pour le groupe 2. Cela était également attendu, au vu des deux premières valeurs propres des analyses séparées. Le troisième axe est spécifique du groupe 1. Cela est en accord avec le mode de construction des données. On illustre ici la difficulté majeure inhérente à l’analyse factorielle simultanée de variables quantitatives et qualitatives : la pondération de l’AFM normalise les inerties axiales maximums des groupes. Mais, du fait de la décroissance des inerties en général plus faible en ACM qu’en ACP, les groupes qualitatifs sont a priori plus influents, en terme de contribution à l’inertie, à partir du 2e axe. Toutefois, cette difficulté doit être relativisée comme le montre le point suivant.
8.4.3
Coordonnées des facteurs des analyses séparées Dim 2 (36.42 %) Dim 2 (36.42 %)
Poids
Longueur2
C
E
Dim2.CR
Poids2
Largeur2 Largeur1
Dim1.CR
A
Dim 1 (45.72 %) Dim3.Classes Dim3.CR Longueur
Dim 1 (45.72 %) Longueur1
Largeur Dim1.Classes
Largeur3 F
D Longueur3
Poids1 B
Dim2.Classes
Fig. 8.1 – 1er plan. A gauche : variables quantitatives et facteurs des analyses séparées. CR : centré et réduit. A droite : individus et modalités. Les deux premiers facteurs de l’AFM (figure 8.1) sont assez proches des facteurs de rang homologue des analyses séparées dont ils constituent une sorte de compromis. On remarque qu’ils sont un peu plus corrélés aux facteurs du groupe quantitatif. Il s’agit vraisemblablement d’une conséquence de la faible décroissance des inerties du groupe qualitatif, qui avantage les facteurs du groupe quantitatif, en ce sens qu’ils « arbitrent » entre des directions du groupe qualitatif ayant des inerties comparables. Conclusion : la pondération de l’AFM a très bien fonctionné dans cet exemple en équilibrant les influences des deux types de variables. Cette remarque atténue l’impact de la réserve émise à la fin de la section précédente (8.4.2) quant au traitement simultané de variables des deux types. Quoi qu’il en soit, cela souligne la nécessité, dans une interprétation, de garder à l’esprit les
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 164 — #172
i
164
i
Analyse factorielle multiple avec R
inerties des analyses séparées. Cette nécessité, qui vaut dans toute analyse de tableau multiple, est exacerbée dans le cas de groupes actifs de types différents.
8.4.4
Premier facteur
Individus et variables (figure 8.1) Au niveau des variables quantitatives, des modalités et des individus, les règles d’interprétation sont celles de l’ACP et de l’ACM. Le premier facteur : – est corrélé négativement à la longueur et positivement à la largeur (quantitatives) ; – classe les individus par ordre alphabétique (inverse) de façon presque régulière ; – classe les modalités des variables qualitatives longueur et largeur dans leur ordre naturel, et ce en accord avec les corrélations précédentes. Ce facteur oppose en particulier l’individu A, large et court, à F, long et étroit. Il s’agit bien d’un facteur commun aux deux groupes de variables, cette opposition étant claire dans les données pour chacun des deux types de variables. Individus partiels (figure 8.2)
Dim 2 (36.42 %) Cl. Cl.
Cl.
C
Dim 2 (36.42 %)
Longueur2
CR
Cl.
E CR
Poids2 CR
CR Cl. Cl. Dim 1 (45.72 %)
A Cl.
CR
Largeur1 CR
Largeur2
CR Dim 1 (45.72 %) CR Largeur3 Longueur1
CR CR D
F Cl.
Cl.
CR
B Cl.
CR Longueur3 Cl.
CR
Cl.
Poids1 Cl.
Fig. 8.2 – 1er plan de l’AFM, à gauche, individus, moyens et partiels, à droite, modalités, moyennes et partielles De façon marginale, quelques différences entre les individus partiels des deux groupes apparaissent. Ainsi, pour l’axe 1, les individus A et B sont plus différents du (groupe point quantitatif de vue du groupe CR) que qualitatif (groupe classes) : F1 A1 − F1 B 1 < F1 A2 − F1 B 2 . On retrouve ici une conséquence du codage en classes qui peut regrouper des individus (légèrement) différents : A et B diffèrent (peu) du point de vue de la longueur et de la largeur, mais cela est effacé dans le regroupement en classes (seule leur différence de poids, variable très
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 165 — #173
i
Chapitre 8. Groupes qualitatifs et mixtes
i
165
légèrement liée au premier facteur, empêche A1 et B 1 d’avoir la même coordonnée sur cet axe). Les individus D et E attirent l’attention. Du point de vue de l’axe 1, E est plus F1 E 2 > caractéristique que D si l’on considère les données quantitatives : F1 D2 . En effet, D est un peu plus long que large alors que E est beaucoup plus long que large ; cela est visible dans les données brutes, ces deux variables ayant le même écart-type. En revanche, toujours du point de vue du premier axe, D est plus caractéristique que E si l’on considère les données recodées en classes : F1 D1 > F1 E 1 . Remarquons d’abord que le codage en classes a gommé la différence précitée en ce sens que l’écart entre la longueur et la largeur n’est plus que d’une classe pour les deux individus. De ce point de vue, ces deux individus sont identiques, ce qui apparaît dans la proximité entre le barycentre (non représenté) de {longueur = 3 ; largeur = 2} pour l’individu D et celui de {longueur = 2 ; largeur = 1} pour l’individu E. La différence entre les points partiels tient au poids, légèrement lié au premier facteur et opposant franchement (surtout dans les données codées en classes) D et E. Relations de transition Les relations de transition exprimant la coordonnée d’un individu en fonction de celles des variables quantitatives d’une part et des modalités d’autre part (cf. 8.3.2) sous-tendent l’interprétation de la projection du nuage des individus et donc les commentaires du paragraphe précédent.
Groupe 2 (quantitatif)
Groupe 1 (qualitatif)
Long. Poids Larg. Ind. Part G2 Long.=1 Long.=2 Long.=3 Poids=1 Poids=2 Larg.=1 Larg.=2 Larg.=3 Ind. Part.G1
A 1.165 0.08 1.016 2.261 0.927 0 0 0 0.225 0 0 0.927 2.079
B 0.699 -0.16 0.61 1.148 0.927 0 0 -0.225 0 0 0 0.927 1.63
C 0.233 0.32 -0.203 0.35 0 -0.228 0 0 0.225 0 -0.217 0 -0.221
D -0.699 -0.16 0.203 -0.656 0 0 -0.699 -0.225 0 0 -0.217 0 -1.14
E -0.233 0.08 -1.016 -1.169 0 -0.228 0 0 0.225 -0.71 0 0 -0.714
F -1.165 -0.16 -0.61 -1.935 0 0 -0.699 -0.225 0 -0.71 0 0 -1.633
Tableau 8.7 – Contributions des cases du tableau aux coordonnées des individus partiels (Ind. part. G1 & G2) sur le premier facteur. Le tableau 8.7 montre des détails sur le calcul de la coordonnée d’un individu partiel à partir de ses données. Il rassemble, pour le facteur 1, les termes, à droite dans les relations de 8.3.2, dont la somme est la coordonnée d’un individu (à un coefficient près, chaque terme résulte du produit d’une valeur du tableau de
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 166 — #174
i
166
i
Analyse factorielle multiple avec R
données par la coordonnée d’une variable ou d’une modalité) : en ce sens, ces valeurs peuvent être vues comme des contributions des variables aux coordonnées des individus (par exemple, la coordonnée de A2 vaut : 1.165 + 0.080 + 1.016 = 2.261). Dans la détermination de cette coordonnée, la longueur et la largeur jouent un rôle équivalent et le poids ne joue pratiquement pas). Entre les deux groupes, ces contributions aux coordonnées peuvent être comparées, comme le montrent deux exemples ci-après. – La variable qualitative longueur ne distingue pas A et B ; par rapport aux données quantitatives, elle fait apparaître (le long de F1 ) à la fois A moins caractéristique (.927 < 1.165) et B plus caractéristique (.927 > .699) ; – Le poids est beaucoup moins lié à F1 que la longueur, ce qui se traduit par des contributions plus faibles et ce dans les deux codages. Ces contributions sont un peu plus élevées dans le cas qualitatif, signe d’une plus forte liaison entre F1 et le poids dans le codage qualitatif (η 2 (F1 , poids qlt.) = .097) que dans les données quantitatives (r2 (F1 , poids quant.) = .048). Modalités partielles (figure 8.2) Globalement, les modalités partielles homologues (i.e. relatives à une même modalité) sont plus proches entre elles que ne le sont les individus partiels homologues. Ce résultat est mécanique : parmi les individus présentant une même modalité, des écarts de sens contraires entre images partielles s’annulent dans le calcul des barycentres. Exemple : largeur = 3 (partagée par A et B ) le long de F1 . Contreexemple : largeur = 1, le long de F1 (partagée par E et F ), tous deux plus extrêmes du point de vue de F1 . Conclusion La corrélation négative entre la longueur et la largeur, principale structure des données en ce sens qu’elle concerne deux variables sur trois, apparaît clairement au travers des deux codages. La perte d’information due au codage en variable qualitative se traduit par une allure du nuage des individus légèrement différente, en particulier : – un étalement régulier des individus pour les données brutes ; – un étalement suggérant deux classes ({A, B } et {C, D, E, F }) après le codage en classes. La représentation superposée de l’AFM fonctionne dans les cas quantitatifs, qualitatifs et mixtes. Son interprétation repose essentiellement sur les relations de transition partielles, presque identiques à celles de l’ACP et de l’ACM.
8.4.5
Deuxième facteur
Ce facteur : – oppose essentiellement les individus E et C (contribution : 59.8 %) aux autres ; – est corrélé positivement à la variable quantitative poids (R2 = .88) ;
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 167 — #175
i
i
Chapitre 8. Groupes qualitatifs et mixtes
167
– est lié à la variable poids qualitative (η 2 = .80) et longueur qualitative (η 2 = .902). Ces coefficients se lisent dans le carré des liaisons (figure 8.3) commenté plus loin. Selon ce facteur, les individus E et C sont donc caractérisés par un poids élevé et une longueur intermédiaire (ce que l’on retrouve dans les données brutes). Ce deuxième facteur est commun aux deux groupes (schématiquement, il oppose E et C aux autres) mais n’a pas exactement la même signification dans les deux cas. Il est lié aux deux variables poids mais sa signification est enrichie, pour le groupe 1, par l’opposition entre longueurs extrêmes et longueurs intermédiaires. On retrouve ici l’aptitude de l’ACM à mettre en évidence des liaisons non linéaires. Le point de vue quantitatif indique seulement que le 2e facteur est non corrélé avec la longueur et la largeur. Le point de vue qualitatif montre une absence de liaison avec la largeur, mais une liaison non linéaire avec la longueur. Du point de vue de la représentation superposée des nuages partiels, on remarque que la dispersion des individus partiels est plus grande pour le groupe 1 que pour le groupe 2. Cela est une conséquence de la décroissance plus faible des inerties de l’analyse séparée du groupe 1 ; parallèlement, le facteur F2 de l’AFM est plus lié au groupe 1 qu’au groupe 2 : Lg (F2 , K1 ) = .91 ; Lg (F2 , K2 ) = .62. Il en résulte que F2 sépare plus fortement les modalités partielles du groupe 1.
8.4.6
Troisième facteur
1.0
Ce facteur est spécifique dugroupe 1 et étroitement corrélé au 3e facteur de l’ACM de ce groupe (r F3AF M , F31 = .95). Étant tridimensionnel, le groupe 1 ne pouvait être parfaitement représenté sur le premier plan de l’AFM.
Données qualitatives
Poids quanti
D
0.8
Longueur quali Dim 3 (14.46 %)
Poids quali
Largeur2 C
F
A Longueur1 B Largeur3
Largeur quanti Largeur quali
Longueur quanti
0.0
Largeur1 E
Dim 1 (45.72 %) Poids2
0.2
Poids1 Longueur2
Dim 2 (36.42 %) 0.4 0.6
Données quantitatives Longueur3
0.0
0.2
0.4 0.6 Dim 1 (45.72 %)
0.8
1.0
Fig. 8.3 – A gauche, individus et modalités sur le plan (F 1, F 3). A droite, carré des liaisons (F 1, F 2). Classes : groupe qualitatif ; CR : groupe quantitatif.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 168 — #176
i
168
i
Analyse factorielle multiple avec R
En ACM, chaque variable engendre, dans RI , un sous-espace de dimension égale à : (nombre de modalités −1). Le premier plan de l’AFM prend en compte, pour le groupe 1 : les deux dimensions de la longueur, l’unique dimension du poids, une dimension de la largeur. « Mécaniquement », le 3e facteur de l’AFM doit exprimer la dimension « restante » de la largeur. De façon directe (figure 8.3), ce 3e facteur oppose entre elles les modalités 1 et 2 de la largeur (ces modalités sont proches sur le premier plan, en particulier du point de vue du groupe 1, ce qui correspond bien à la façon identique dont elles s’associent avec les autres modalités) et, parallèlement, les individus qui possèdent l’une ou l’autre.
8.4.7
Représentation des groupes de variables
La représentation graphique des groupes de variables dans le carré des liaisons présente surtout de l’intérêt lorsque le nombre de groupes est élevé, ce qui n’est pas le cas de cet exemple. Toutefois, cette représentation peut être complétée par celles des variables en tant que groupes (la coordonnée d’un groupe composé d’une seule variable s’interprète comme un coefficient, ou rapport, de corrélation au carré). La figure 8.3 fournit une visualisation synthétique des grands traits de l’interprétation déjà faite : – le premier facteur de l’AFM correspond à une direction d’inertie importante des deux groupes de variables ; il est très liéeà deux variables sur trois (longueur et largeur) de chacun d’eux ; – le deuxième facteur de l’AFM correspond à une direction d’inertie importante du premier groupe (il est lié à deux variables de ce groupe : poids et longueur) et d’importance moindre du second groupe (il est lié seulement au poids).
Groupe 1 (Classes) Groupe 2 (CR) Ensemble Longueur quali Poids quali Largeur quali Longueur quanti Poids quanti Largeur quanti
F1 0.43 0.68 0.53 0.40 0.01 0.41 0.90 0.00 0.52
F2 0.40 0.28 0.35 0.41 0.64 0.01 0.00 0.78 0.03
F3 0.14 0.00 0.08 0.00 0.00 0.48 0.00 0.00 0.01
Tableau 8.8 – Qualité de représentation des groupes sur les trois premiers axes. Les groupes de variables n’étant pas normés, leurs qualités de représentation (au sens inertie projetée/inertie totale) n’apparaissent pas sur le graphique et doivent être consultées à part (cf. tableau 8.8). Ainsi, sur le premier plan :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 169 — #177
i
Chapitre 8. Groupes qualitatifs et mixtes
i
169
– l’éloignement entre les deux codages de la longueur (bien représentés) correspond bien à l’unidimensionnalité de l’un et à la bidimensionalité de l’autre ; – la proximité entre les deux largeurs (mal représentées) ne correspond pas à une équivalence globale entre les deux codages, impossible du fait des dimensions différentes ; la différence entre les deux codages s’exprime sur l’axe 3 ; – la proximité entre les deux poids (assez bien représentés) suggère une équivalence entre les deux codages, possible du point de vue des dimensions et non contredite par les autres axes. L’influence du codage peut être mesurée par les indicateurs de liaison Lg et RV calculés entre deux codages d’une même variable (cf. tableau 8.9). Les groupes étant réduits à une variable quantitative d’une part et à une variable qualitative d’autre part, Lg s’interprète comme le carré du rapport de corrélation. La variable qualitative poids ayant deux modalités, Lg s’interprète dans ce cas aussi comme le carré du coefficient de corrélation entre la variable quantitative et l’une des deux indicatrices. Enfin, dans ce cas très particulier, RV est égal à Lg divisé par la racine carrée du nombre de modalités de la variable qualitative. L’indicateur Lg indique une plus faible structure commune entre les deux codages pour la variable poids ; la variable qualitative permet de mieux reconstituer les données brutes dans le cas de la longueur et de la largeur. Le fait que ces deux variables aient plus de modalités joue mécaniquement dans ce sens. En comparaison, l’indicateur RV relativise l’importance de la structure commune par le nombre de modalités de la variable qualitative : il indique que les images des individus données par les deux codages sont plus proches dans le cas du poids. Mesure/variable Lg RV
Longueur .914 .646
Poids .800 .800
Largeur .914 .646
Tableau 8.9 – Indicateurs de liaison Lg et RV entre les deux codages d’une même variable.
8.4.8
Conclusion
Cet exemple montre que la pondération des variables incluse dans l’AFM rend possible l’analyse simultanée de groupes de variables de types différents. Les interprétations empruntent à la fois à l’ACP et à l’ACM. Elles ne posent pas de problème particulier hormis la nécessité (classique en AFM mais exacerbée dans ce type d’application) de garder à l’esprit les inerties des analyses séparées. L’intérêt de la méthodologie d’étude de variables quantitatives qui consiste à les coder en qualitatives et à en faire l’ACM est confirmé (si besoin était). Les liaisons linéaires décelées par l’ACP le sont aussi par l’ACM. Cette dernière met aussi en évidence d’autres liaisons. Dans cet exemple où les liaisons sont essentiellement linéaires, les premiers facteurs de l’ACP et de l’ACM sont apparentés, mais ce n’est bien sûr pas toujours le cas.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 170 — #178
i
170
i
Analyse factorielle multiple avec R
L’AFM s’est avérée ici un outil riche et commode pour comparer deux méthodologies. On retrouve l’intérêt de cette méthode lorsque les groupes ont beaucoup en commun. Une autre application est suggérée par cet exemple : l’AFM permet de ne pas choisir entre deux (ou plus) codages et de réaliser une analyse les prenant tous les deux en compte. Cette approche sera précieuse en particulier pour construire, à partir des coordonnées de l’AFM qui joue ici le rôle d’un prétraitement, une classification des individus « robuste » vis-à-vis du codage.
8.5
AFM de données mixtes dans FactoMineR
Nous ne reprenons pas ici l’interface de R Commander déjà décrite en 1.11 page 29 et focalisons l’exposé essentiellement sur les spécificités des variables qualitatives. Nous illustrons cette partie avec les données « Biométrie2 » (cf. tableau 8.3 page 161). Chaque variable est présente deux fois dans le fichier dans un ordre qui apparaît dans la vérification de l’importation : > Biometrie2=read.table("Biometrie2.csv",header=TRUE, + sep=";",dec=".",row.names=1) > colnames(Biometrie2) [1] "Longueur3classes" "Poids2classes" "Largeur3classes" "Longueur" [5] "Poids" "Largeur" "Long3cl" "Poids2cl" [9] "Larg3cl" "Long" "Poid" "Larg" L’AFM est réalisée sur les six premières colonnes seulement avec toutes les options par défaut (les noms des groupes sont alors group.1 et group.2). Les colonnes d’un même groupe sont consécutives : > res=MFA(Biometrie2[,1:6],group=c(3,3),type=c("n","s")) Cette commande affiche les principaux graphiques : individus moyens, variables quantitatives, modalités moyennes et partielles, axes partiels, groupes, individus moyens et partiels, ces derniers étant limités aux quatre individus ayant les deux plus fortes et les deux plus faibles inerties intra pour le premier axe. Pour certains graphiques, il est commode de disposer de noms de groupes courts. Ainsi, pour étiqueter les individus partiels et/ou les modalités partielles : > + > +
res=MFA(Biometrie2[,1:6],group=c(3,3),type=c("n","s"), name.group=c("Classes","CR")) plot.MFA(res,axes=c(1,2),choix="ind",habillage="group", invisible="quali",partial="all",lab.par=TRUE)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 171 — #179
i
Chapitre 8. Groupes qualitatifs et mixtes
i
171
Le graphique de la figure 8.2 page 164 à droite a été obtenu par les instructions suivantes : > plot.MFA(res,axes=c(1,2),choix="ind",habillage="group", + invisible="ind",partial="all") # > + +
Etiqueter les points partiels par les noms des groupes text(res$quali.var$coord.partiel[seq(1,15,2),1], res$quali.var$coord.partiel[seq(1,15,2),2], rep("CR",6),pos=3,offset=0.5)
> text(res$quali.var$coord.partiel[seq(2,16,2),1], + res$quali.var$coord.partiel[seq(2,16,2),2], + rep("Classes",6),pos=1,offset=0.5) # # > > >
Relier les points moyens des modalités des variables Longueur et Largeur varco plot.MFA(res,choix="ind",invisible="quali",hab=2) Il est possible d’afficher, via la fonction plotellipses, une ellipse de confiance autour du point moyen des individus possédant une même modalité d’une variable donnée. Par exemple, pour les modalités de la variable « poids » (keepvar = 2) : > plotellipses(res,keepvar=2) Le carré des liaisons (figure 8.3 page 167 à droite) peut contenir, outre les groupes de variables, les variables elles-mêmes. Pour l’obtenir, on introduit en supplémentaire chaque variable en tant que groupe d’une seule variable. Là est la raison de la duplication des variables dans le fichier. Dans la perspective de ce graphique, on utilise des libellés longs pour les groupes. Soit : > + + + +
res=MFA(Biometrie2,group=c(3,3,rep(1,6)), type=c("n","s",rep("n",3),rep("s",3)), num.group.sup=c(3:8),name.group=c("G1qualitatif","G2quantitatif", "LongQuali","PoidQuali","LargQuali","LongQuanti","PoidQuanti", "LargQuanti"))
Cette commande sort, entre autres, le carré des liaisons de la figure 8.3. La plupart des tableaux de ce chapitre ne sont pas spécifiques des données mixtes et la façon de les obtenir a déjà été décrite. Les quatre tableaux ci-après sont (plus ou moins) nouveaux.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 172 — #180
i
172
i
Analyse factorielle multiple avec R
Tableau 8.5 page 162 (corrélations entre axes partiels) Le programme regroupe les coefficients de corrélation pour tous les couples de facteurs dans un tableau dont on extrait ici une partie : > round(res$partial.axes$cor.between[6:8,1:3],2) Tableau 8.7 page 165 (contributions des cases aux individus partiels) Ce tableau est très particulier et, à la différence des trois autres, on ne le construit pas en routine. Il est précieux pour apprécier de façon très fine comment s’effectue l’équilibre entre variables quantitatives et qualitatives. Il s’appuie principalement sur les relations de transition partielles décrites en 8.3.2. La fonction tab.disjonctif est incluse dans FactoMineR. A partir d’un data.frame contenant des variables qualitatives (factors), elle construit un tableau disjonctif complet (TDC). Elle est très utile par ailleurs, en particulier pour regrouper, en un seul tableau, les tableaux de contingence croisant un sous-ensemble de variables qualitatives avec un autre : # > # # > > > > +
Initialisation Tab8_7=matrix(rep(0,78),nrow=13,ncol=6) BCR Groupe quantitatif centré et réduit Bdis : groupe qualitatif sous forme disjonctive complète BCR=as.matrix(scale(Biometrie2[,4:6])*sqrt(6/5)) Bdis=tab.disjonctif(Biometrie2[,1:3]) colnames(Tab8_7)=rownames(Biometrie2) rownames(Tab8_7)=c(colnames(BCR),"Ind.part.quanti",colnames(Bdis), "Ind.part.quali")
# > > >
Premières valeurs propres de l’AFM et des analyses séparées L1AFM=res$eig[1,1] L1ACM=res$separate.analyses$Categ.$eig[1,1] L1ACP=res$separate.analyses$Std$eig[1,1]
Dans la relation de transition en ACP (pour l’axe de rang s), apparaît un coefficient égal à la racine de la valeur propre (de rang s) ; le rôle de ce coefficient est tenu ici par la première (première car on s’intéresse ici à l’axe de rang 1) valeur propre de l’AFM. En outre, intervient ici aussi la pondération de l’AFM par la première (première car c’est le choix de la pondération de l’AFM) valeur propre de l’ACP séparée du groupe de variables quantitatives : # coeff=coefficient dans la relation de transition > coord=res$quanti.var$coord[,1] > coeff=2/(sqrt(L1AFM)*L1ACP) L’indice j (des colonnes) est celui des individus (il y en a 6) et l’indice i (des lignes) celui des variables (par rapport au format usuel, le tableau est transposé pour des commodités d’édition) :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 173 — #181
i
Chapitre 8. Groupes qualitatifs et mixtes # > + + +
i
173
Partie groupe quantitatif for(i in 1:3){ for (j in 1:6) { Tab8_7[i,j]=BCR[j,i]*coord[i]*coeff Tab8_7[4,j]=Tab8_7[4,j]+Tab8_7[i,j] }}
Pour les variables qualitatives, la première valeur propre de l’ACP est remplacée par la première valeur propre de l’ACM multipliée par le nombre de variables. En outre, la première valeur propre de l’AFM intervient ici directement, et non pas au travers de sa racine, car on utilise les coordonnées des centres de gravité des modalités et non celles des indicatrices (cf. 8.1.2).
# > > > + + +
Partie groupe qualitatif coeff=2/(L1AFM*L1ACM*3) coord=res$quali.var$coord[,1] for(i in 1:8){ for (j in 1:6) { Tab8_7[i+4,j]=Bdis[j,i]*coord[i]*coeff Tab8_7[13,j]=Tab8_7[13,j]+Tab8_7[i+4,j] }}
2
Tableau 8.8 page 168 (qualités de représentation dans RI ) Par commodité d’édition, on utilise des libellés un peu abrégés : # > > + >
Initialisation et choix des libellés tab8_8=matrix(nrow=9,ncol=3) row.names(tab8_8)=c("Groupe 1","Groupe 2","Ensemble","LongQuali", "PoidQuali","LargQuali","LongQuanti","PoidQuanti","LargQuanti") colnames(tab8_8)=c("F1","F2","F3")
# Les cos2 des Wj sont calculés par l’AFM (cos2 et cos2.sup). > tab8_8[1:2,1:3]=res$group$cos2[,1:3] > tab8_8[4:9,1:3]=res$group$cos2.sup[,1:3]
# # # > >
Le rapport (pour NJ) inertie projetée/inertie totale doit être recalculé à partir des coordonnées (coord) et des distances des Wj à l’origine (dist2) tab8_8[3,1:3]=apply(res$group$coord[,1:3]^2,MARGIN=2,FUN=sum) tab8_8[3,1:3]=tab8_8[3,1:3]/sum(res$group$dist2)
# Edition avec deux chiffres décimaux > round(tab8_8,2)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 174 — #182
i
174
i
Analyse factorielle multiple avec R
Tableau 8.9 page 169 (indicateurs de liaison Lg et RV ) Pour obtenir ce tableau, comme pour le carré des liaisons, chaque variable a aussi été introduite en tant que groupe supplémentaire d’une seule variable. Les indicateurs Lg et RV cherchés se trouvent dans les matrices rassemblant ces coefficients pour chaque paire de groupes (res$group$Lg et res$group$RV) : # > > >
Initialisation et choix des libellés tab8_9=matrix(nrow=2,ncol=3) row.names(tab8_9)=c("Lg","RV") colnames(tab8_9)=c("Longueur","Poids","Largeur")
# # > >
On récupère les coefficients sur les diagonales de parties des matrices res$group$Lg et res$group$RV tab8_9[1,1:3]=diag(res$group$Lg[3:5,6:8]) tab8_9[2,1:3]=diag(res$group$RV[3:5,6:8])
# Edition avec trois chiffres décimaux > round(tab8_9,3)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 175 — #183
i
i
Chapitre 9
Analyse factorielle multiple et méthode Statis De même que l’analyse factorielle multiple, la méthode Statis traite des tableaux dans lesquels un ensemble d’individus est décrit par plusieurs groupes de variables. Leurs objectifs sont très proches à bien des égards. Ce chapitre met en parallèle les principales caractéristiques techniques de ces deux méthodes.
9.1
Notations
Nous nous limitons aux tableaux individus × variables quantitatives, seuls cas analysables par les deux méthodes (l’AFM s’applique également aux variables qualitatives). L’ensemble des variables est structuré en groupes. Nous rappelons ci-après les notations des chapitres précédents. Soient : I l’ensemble des individus ; K l’ensemble des variables (supposées ici centrées réduites) tous groupes confondus ; Kj l’ensemble des variables du j e groupe ; X le tableau complet de terme général xik , valeur de l’individu i pour la variable k ; Xj le tableau (ou sous-tableau de X ) associé au groupe j ; J l’ensemble des groupes de variables. I, K, Kj et J représentent à la fois un ensemble et son cardinal. L’individu i correspond à une ligne du tableau X. A cet individu, dit « moyen », sont associés J individus dits « partiels », notés ij , correspondant à la ie ligne de chacun des J tableaux Xj . A I (resp. K ) est associé le nuage NI (resp. NK ) dans l’espace RK (resp. RI ). A I sont aussi associés les nuages NIj , dits nuages partiels (NIj ∈ RKj ). Les nuages NIj peuvent être représentés dans RK puisque cet espace est la somme directe des Kj RKj : RK = ⊕R . Enfin, les variables du groupe j induisent, dans RI , le nuage S j j NK ; NK = j NK . Le se facteur sur I de l’analyse de X (par l’AFM ou par Statis) est noté Fs ; il est associé à la valeur propre λs . La se valeur propre de l’ACP séparée de Xj est notée λjs .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 176 — #184
i
176
i
Analyse factorielle multiple avec R
Les poids initiaux des variables du groupe j sont rassemblés dans la matrice diagonale Mj ; les poids des individus sont rassemblés dans la matrice diagonale D. On note Wj la matrice des produits scalaires entre individus associée au groupe 2 j : Wj = Xj Mj Xj0 . A Wj , on associe un point dans RI , dit espace des groupes 2 de variables ; à l’ensemble des Wj est associé le nuage NJ . RI est muni de la métrique induite par les poids des individus (cf. 7.1). Remarque 2 Dans les présentations usuelles de Statis, RI est muni de la métrique usuelle et le groupe j est représenté par la matrice Wj D. Ce point de vue est équivalent à celui que nous adoptons.
9.2
Principes communs aux deux méthodes
Dans la méthode Statis, on considère d’abord le nuage NJ , dit « inter structure », 2 dans RI . L’analyse factorielle de ce nuage fournit une représentation de cette inter structure. Les axes de cette représentation ne sont pas contraints à être des éléments de rang 1 ; ce sont des combinaisons linéaires des Wj . Le premier axe est donc la combinaison linéaire des Wj qui représente le mieux NJ ; aussi, cette combinaison, notée W , est appelée « compromis ». L’étude de ce compromis est réalisée en diagonalisant W , ce qui revient à faire une ACP du tableau complet X en surpondérant les variables par leur coefficient dans la combinaison linéaire définissant W . On obtient ainsi une représentation de NI et de NK . Enfin, les nuages partiels NIj , dont l’ensemble est dit « intra structure », sont superposés à la représentation de NI . Le cœur de chacune de ces deux méthodes repose donc sur une ACP pondérée du tableau complet X ; les poids affectés aux variables diffèrent d’une méthode à l’autre. Dans les deux méthodes, par rapport à une simple ACP, la prise en compte de la structure en groupes de variables intervient en particulier dans : – la surpondération des variables ; elle équilibre l’influence des groupes dans l’analyse globale de X ; – des représentations spécifiques ; celles des groupes (projections de NJ ) et celles des nuages partiels (projections des NIj ) ; – des aides à l’interprétation spécifiques (e.g. indices de liaison entre groupes de variables).
9.3 9.3.1
Pondération des variables Comparaison des deux méthodes
En AFM Elle s’interprète clairement dans RI et RK . Chaque variable du groupe j est surpondérée par 1/λj1 , inverse de la première valeur propre de l’ACP séparée de Xj .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 177 — #185
i
Chapitre 9. AFM et Statis
i
177
Géométriquement, cela revient à rendre égale à 1 l’inertie axiale maximum des j nuages NIj et NK pour chaque groupe j. Dans Statis 2 Elle s’interprète clairement dans RI muni du produit scalaire induit par les poids des individus – hWj , Wl iD = tr(Wj DWl D) – et s’effectue en deux temps. a) On commence par normer les Wj ; cela revient à surpondérer chaque variable du groupe j par le coefficient βj tel que : βj =
1 1 . = qP kWj kD j 2 (λ ) s s
b) Cette normalisation étant faite, on réalise l’analyse factorielle de NJ (dans 2 RI ) ; P le premier axe de cette analyse fournit la combinaison linéaire des Wj (notée W = αj Wj et appelée compromis) en un certain sens (explicité en 9.6.1) la plus liée à l’ensemble des Wj . W étant un vecteur unitaire associé au premier axe factoriel des Wj , on a : αj =
hWj , W iD (avec ν1 première valeur propre de l’analyse de NJ ). ν1
c) Finalement, Statis analyse le compromis W, en réalisant l’ACP de X, les variables du groupe j étant surpondérées par αj βj . La surpondération βj de Statis, même si elle est techniquement différente de celle de l’AFM, a le même objectif : « normaliser » les groupes pour équilibrer leur influence au sein d’une analyse globale. L’objectif de la surpondération αj de Statis est spécifique de cette méthode. On accorde ainsi au groupe j d’autant plus d’importance a priori qu’il est lié au compromis, c’est-à-dire, en un certain sens, à l’ensemble des groupes. Remarquons que, concrètement, les poids sont affectés aux variables : toutes les variables d’un groupe (globalement) lié au compromis voient leur poids initial amplifié, même celles qui, correspondant à une direction spécifique d’un groupe, ne participent pas à cette liaison.
9.3.2
Illustration
Deux ensembles de données sont nécessaires pour analyser « toutes choses égales par ailleurs » les deux aspects de la pondération de Statis. Normalisation Pour illustrer la normalisation dans Statis (coefficient βj ), on construit un ensemble de données de la manière suivante : deux groupes comprennent chacun deux variables centrées réduites de poids 1. Le groupe 1 est unidimensionnel (d’où une première valeur propre de 2 dans les données initiales, la seconde étant nulle)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 178 — #186
i
178
i
Analyse factorielle multiple avec R
et le groupe 2 aussi multidimensionnel que possible (pour un groupe comportant deux variables ; soit deux valeurs propres égales à 1 dans les données initiales). Le tableau 9.1 récapitule les inerties de ces deux groupes avec trois normalisations : celle de l’AFM, celle de Statis et celle qui consiste à égaliser les inerties totales.
Données initiales AFM Statis Iner. tot. égales
Groupe Groupe Groupe Groupe Groupe Groupe Groupe Groupe
1 2 1 2 1 2 1 2
λ1 2 1 1 1 1√ 1/ 2 1 .5
λ2 0 1 0 1 0√ 1/ 2 0 .5
P
λs 2 2 1 2 √1 2 1 1
P
(λs )2 4 2 1 2 1 1 1 .5
pP (λs )2 2 √ 2 1 √ 2 1 1 √1 2
Tableau 9.1 – Exemple d’influence, sur les valeurs propres (notées λs ) de l’ACP de chaque groupe, de trois types de normalisation des données ; les quantités normalisées apparaissent en gras.
En AFM, la surpondération rend la première valeur propre (de l’ACP séparée de chaque groupe) égale à 1. Aucun groupe ne peut induire à lui seul le premier axe d’une analyse globale ; le groupe 2 (bidimensionnel) contribuera deux fois plus que l’autre (unidimensionnel) à l’ensemble des axes de cette analyse. Lorsque la surpondération est choisie de façon à égaliser les inerties totales des groupes, c’est la somme des valeurs propres qui est égale à 1. Dans cet exemple, le groupe 1 va infléchir de façon prépondérante le premier axe d’une analyse globale (son inertie est concentrée dans une seule direction). Dans Statis, c’est la somme des carrés des valeurs propres que la normalisation rend égale à 1 ; cette normalisation a un effet intermédiaire entre les deux précédentes. Ainsi, par rapport à ceux de l’AFM, les premiers axes de Statis sont a priori plus influencés par les groupes unidimensionnels (que par les groupes multidimensionnels).
Surpondération αj de Statis Nous utilisons un jeu de données un peu caricatural (données choisies (26−3 )), composé de quatre groupes comportant chacun trois variables choisies parmi un ensemble de six variables centrées, réduites et deux à deux non corrélées. Chaque variable est présente, avec un poids donné, dans un, deux ou trois groupes. Le tableau 9.2 rassemble les poids initiaux des différentes variables dans chaque groupe. Les groupes 1 et 2 sont identiques. Nous appelons « 26−3 » cet ensemble de données, en référence au plan d’expériences fractionnaire (cf. tableau 9.4) qui a permis de le construire simplement.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 179 — #187
i
i
Chapitre 9. AFM et Statis
Groupe 1 Groupe 2 Groupe 3 Groupe 4 Somme
V1 1 1 1 3
V2 .9409 .9409 1 2.8818
V3
.4489 .4489 .8978
V4 .3025 .3025
V5
V6
P
.8836 .8836
2.2434 2.2434 2.3325 2.3325 9.1518
.8836 .6050
.8836
179
P 2 () 1.9768 1.9768 1.9823 1.9823 7.9182
Tableau 9.2 – Poids des variables dans les données 26−3 initiales. Exemples : le groupe 3 possède les variables V 1, V 3 et V 5 (affectées respectivement des poids 1, .4489 et .8836) ; la variable P V 4 est présente dans les groupes 1 et 2 avec, dans les deux cas, le poids .3025. ()2 indique somme des carrés des poids des variables. A l’intérieur d’un groupe, les variables initiales étant orthogonales deux à deux, chaque composante principale du groupe est confondue avec une variable initiale, la valeur propre associée étant égale au poids de la variable. Dans le tableau 9.2, la somme des poids de la colonne k donne l’inertie de la direction de la variable k dans le nuage des variables tous groupes confondus. Ici, les variables initiales étant orthogonales et de poids maximum égal à 1, ces poids coïncident avec les valeurs propres de l’AFM. Pour chaque groupe, le plus grand poids affecté à une variable (ici égal à la première valeur propre) vaut 1 : la surpondération de l’AFM ne joue pas. En outre, d’un groupe à l’autre, la somme des carrés des poids des variables (ici égale à la somme des carrés des valeurs propres) est pratiquement constante : les Wj ont presque la même norme. Au niveau des poids des variables, les deux méthodes ne diffèrent donc que par l’impact des coefficients αj de Statis. Ces coefficients et les poids de variables qui en résultent se trouvent dans le tableau 9.3.
Groupe 1 Groupe 2 Groupe 3 Groupe 4 Somme
V1 .2610 .2610 .1718 .6938
V2 .2456 .2456 .1627 .6539
V3
.0730 .0730 .1501
V4 .0790 .0790
V5
V6
P
.1438 .1438
.5856 .5856 .4006 .3796 1.9514
.1518 .1580
.1518
αj .3670 .3670 .2418 .2291 1.2049
Tableau 9.3 – Poids des variables dans le compromis de Statis. Les poids découlent du tableau 9.2 et des αj (poids du groupe j dans Statis) donnés √ par le programme. Exemple de calcul (groupe 1, V 2) : .2456 = .9409 × .3670/ 1.9768. La somme des poids de la ligne j donne l’inertie totale du groupe j. La somme des poids de la colonne k donne l’inertie de la direction de la variable k dans le nuage NK ; les variables initiales étant orthogonales, ces poids coïncident avec les valeurs propres de l’analyse du compromis. Interprétation des coefficients αj Etant la simplicité de l’exemple, il est aisé de relier les coefficients αj aux données : – α1 et α2 sont sensiblement supérieurs à α3 et α4 : les groupes 1 et 2 sont chacun
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 180 — #188
i
180
i
Analyse factorielle multiple avec R
plus liés que les deux autres groupes à la structure commune matérialisée par le compromis (étant identiques, ils pèsent fortement sur le compromis) ; par rapport à la situation initiale et aux deux autres groupes, toutes leurs variables sont « revalorisées » (comparer, par exemple, les poids des variables V 1 et V 2 dans les 4 groupes pour les deux méthodes) ; – α3 est légèrement supérieur à α4 : le groupe 3 est légèrement plus lié aux autres que ne l’est le groupe 4 ; par rapport à situation initiale et aux variables du groupe 4, celles du groupe 3 sont « revalorisées » (comparer, par exemple, le poids de V 1 dans le groupe 3 et celui de V 2 dans le groupe 4). Représentation du nuage (« moyen » ou « compromis ») NI Les coefficients de corrélation entre les variables initiales valant 0 ou 1, les facteurs des deux analyses sont identiques ; seules diffèrent les inerties qui leur sont associées (lues sur la dernière ligne du tableau 9.2 pour l’AFM et du tableau 9.3 pour Statis) et, par conséquent, éventuellement leur rang. L’essentiel de la comparaison entre les rangs des facteurs tient en trois points. – Les deux premiers facteurs (confondus respectivement avec V 1 et à V 2) sont identiques entre les deux méthodes. Le pourcentage d’inertie exprimé par le premier plan est plus grand pour Statis (35.55 + 33.51 = 69.06 %) que pour l’AFM (32.78 + 31.49 = 64.27 %) : on peut voir là une conséquence de la pondération par αj de Statis, qui renforce la structure commune aux groupes en diminuant l’influence des groupes les plus différents des autres. – La direction liée à V 4 correspond au sixième facteur de l’AFM et au troisième de Statis. Ceci illustre comment Statis renforce une direction peu importante de groupes qui par ailleurs sont très liés au compromis. – Autre illustration de ce phénomène : d’une analyse à l’autre, l’importance relative des axes correspondant aux variables V 3 et V 5 est inversée (facteurs 3 et 4 de l’AFM ; facteurs 5 et 4 dans Statis). Cette inversion est due au plus fort coefficient αj du groupe 3 (lui-même dû au fait que, dans les groupes 1 et 2, la dimension partagée avec le groupe 4 (V 2) a une inertie plus faible (.9409 < 1) que celle qui est partagée avec le groupe 3 (V 1)).
9.4 9.4.1
Représentations superposées des nuages partiels des groupes actifs (trajectoires) Comparaison des deux méthodes
En AFM On projette les nuages NIj sur les axes principaux de NI . On a la relation exprimant qu’un individu i se trouve à l’isobarycentre de ses images partielles {ij : j = 1, J} : 1X Fs (ij ). Fs (i) = J j
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 181 — #189
i
Chapitre 9. AFM et Statis
i
181
Dans Statis La représentation superposée peut elle aussi s’interpréter à l’aide d’une projection des NIj sur la suite des axes principaux de NI . Mais cette représentation est conçue de façon à obtenir la relation : X Fs (i) = αj Fs (ij ) j
ce qui, d’une certaine manière, permet de visualiser les αj sur les graphiques. Compte tenu de la surpondération par αj des variables du groupe j, on s’attend √ plutôt au coefficient αj dans la relation ci-dessus (c’est ce que l’on obtiendrait en projetant les NIj sans tenir compte des αj , sachant que la projection de NI , par définition, en tient compte). Cette relation donc peut être interprétée ainsi : √ les nuages NIj subissent une homothétie de rapport 1/ αj avant d’être projetés. Remarque P P En général : αj 6= 1 ( αj ≥ 1 si les groupes sont normés). En comparaison avec celle de l’AFM, la représentation de Statis accentue la proximité de i avec les ij des groupes les plus proches de la structure commune, quel que soit l’axe factoriel, y compris ceux, en principe peu nombreux et de rang élevé, auxquels ces groupes P ont peu contribué. Techniquement, αj 6= 1 est quelquefois gênant, par exemple lorsque les points ij sont confondus entre eux et diffèrent de leur compromis i.
9.4.2
Illustration à l’aide des données 26−3
Nous reprenons les données du tableau 9.2 en précisant cette fois les valeurs des variables pour les huit individus (cf. tableau 9.4).
A B C D E F G H
V1 1 1 -1 -1 1 1 -1 -1
V2 1 -1 -1 1 1 -1 -1 1
V3 1 -1 1 -1 1 -1 1 -1
V4 1 -1 -1 1 -1 1 1 -1
V5 1 1 1 1 -1 -1 -1 -1
V6 1 1 -1 -1 -1 -1 1 1
Tableau 9.4 – Valeurs des individus (A, . . . , H) pour les variables (V 1, . . . V 6). La figure 9.1 présente côte à côte le plan (F 3, F 6) de l’AFM et le plan (F 5, F 4) de Statis. Ils correspondent aux mêmes variables (V 3 et V 4) et ne diffèrent que par leur inertie.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 182 — #190
i
182
i
Analyse factorielle multiple avec R F3 (V4)
F6 (V4)
b1 c1 b2 c2 B
B
b1 c1 b2 c2
C
C
b4 b3 b3 d4 d3
c3 c4 a3 a4 F3 (V3) D
c3 c4 a3 a4 F5 (V3)
b4 b3 d4 d3
A d1 a1 d2 a2
D
AFM
d1 a1 d2 a2
A
STATIS
Fig. 9.1 – Représentations superposées des NIj , sur le plan (F 3, F 6) de l’AFM et sur le plan (F 5, F 4) de Statis. Sur ces plans, les individus suivants sont confondus : A et G, B et H, C et E, D et F . Pour alléger les graphiques, seuls les individus A, B, C et D sont figurés. Les deux représentations de NI sont très voisines ; les différences entre leurs inerties, dues aux αj , ont déjà été commentées. Nous analysons les représentations des NIj en illustrant tour à tour les deux spécificités de Statis (par rapport à l’AFM) déjà signalées. Somme des αj différente de 1 dans Statis Sur le graphique de Statis, l’individu compromis A est à l’extérieur de l’enveloppe convexe (ici un segment) de ses homologues partiels aj . Cette caractéristique, qui vaut également pour tous les individus, n’est pas gênante dans cet exemple. Proximité privilégiée entre un individu compromis et ses homologues partiels de fort poids En AFM, l’individu i figure à l’isobarycentre de ses homologues partiels ij . Dans Statis, ce point i figure plutôt du côté des ij ayant un fort poids. Or, ce poids de ij ne dépend que de j et vaut donc pour tous les axes, que ces axes dépendent du groupe j ou non. Cela est illustré par les deux commentaires suivants de la représentation issue de Statis. – Le long de l’axe vertical, les points compromis ressemblent plus aux individus partiels des groupes 1 et 2 qu’à ceux des groupes 3 et 4. Or seuls les groupes 1 et 2 contribuent à cet axe. Cela traduit bien l’esprit de la méthode qui vise à accorder aux groupes une importance d’autant plus grande qu’ils possèdent la structure commune. – Le long de l’axe horizontal, de nouveau les points compromis ressemblent plus aux individus partiels des groupes 1 et 2. Or ces deux groupes ne contribuent
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 183 — #191
i
Chapitre 9. AFM et Statis
i
183
pas à cet axe. On retrouve ici, sous un autre angle, le fait qu’une dimension commune à certains groupes seulement (ici les groupes 3 et 4) est émoussée dans le compromis si, par ailleurs, ces groupes participent peu à l’ensemble de la structure commune.
9.5 9.5.1
Mesure de liaison entre groupes de variables Comparaison des deux méthodes
Dans les deux méthodes, la liaison entre les deux groupes de variables Kj et Kl est mesurée par le produit scalaire hWj , Wl iD . La différence réside dans la normalisation préalable des Wj . Dans Statis Les groupes sont normés, la liaison entre les groupes Kj et Kl s’écrit : Wl Wj , . RV (Kj , Kl ) = kWj kD kWl kD D De façon analogue au coefficient de corrélation, le coefficient RV s’interprète géo2 métriquement comme un cosinus (dans RI ). En AFM Du fait de la pondération de l’AFM, la norme du groupe Kj vaut :
!2
W 2 X λj
j s 2 Ng = j = .
λ1 λj1 s D
Cette norme est d’autant plus grande que le groupe Kj possède un grand nombre de facteurs d’importance comparable au premier d’entre eux. Si le groupe Kj ne comporte que des variables réduites non corrélées deux à deux, cette norme est égale au nombre de variables. C’est pourquoi elle peut s’interpréter comme un « nombre de dimensions communes », chacune étant « pondérée » par son inertie ; de ce fait, elle constitue un indicateur de multidimensionnalité. La liaison entre les groupes Kj et Kl s’écrit : * + Wj Wl Lg(Kj , Kl ) = , . λj1 λl1 D
Cette mesure est d’autant plus grande que Kj et Kl sont multidimensionnels et présentent des directions communes nombreuses et proches des directions d’inertie importante de chaque groupe. C’est en quelque sorte un « nombre de dimensions communes », chacune étant « pondérée » par son inertie. Dans les deux cas, on évalue dans quelle mesure on est en présence d’une structure commune à deux groupes de variables :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 184 — #192
i
184
i
Analyse factorielle multiple avec R
– dans le cas de RV , sans se préoccuper de la dimension de cette structure commune ; – dans le cas de Lg, en prenant en compte la dimension de cette structure commune et son inertie relativement à celle des groupes. Les deux mesures sont donc parfaitement complémentaires. Point de repère : on choisira RV ou Lg selon que l’on souhaite ou non distinguer le cas de deux structures homothétiques unidimensionnelles de celui de deux structures homothétiques multidimensionnelles (à bien des égards, le second cas est plus remarquable que le premier). Dans la pratique de l’AFM, on calcule les deux indicateurs (ce qui n’est pas le cas dans la pratique de Statis). Il est en effet naturel de mesurer le cosinus entre deux vecteurs non normés (ce que l’on fait en ACP non normée par exemple). La figure 9.2 donne les valeurs de RV et de Lg dans quelques cas de référence commentés ci-après.
2
1
LgLg==1 ; RV=1
4
LgLg==1 ; RV=.7
7
LgL= g =.25 ; RV=.2
3
LgL=g =1.25 ; RV=1
LgL =g =2 ; RV=1
6
5
LgL =g =1 ; RV=.57
8
LgL=g =.25 ; RV=.16
LgLg==2 ; RV=.67
9
LgLg==.25 ; RV=.11
Fig. 9.2 – Valeur des mesures Lg et RV dans quelques situations de référence. Chaque segment représente une variable, appartenant au groupe 1 (traits pleins) ou au groupe 2 (tirets). Dans ces exemples, les angles entre variables valent 0◦ ou 90◦ , ce que les dessins ne respectent pas tout à fait afin de figurer toutes les variables.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 185 — #193
i
Chapitre 9. AFM et Statis
i
185
– Cas 1, 2 et 3. Dans ces trois cas, les structures engendrées par les deux groupes sont homothétiques : RV vaut toujours 1. Lg croît avec le nombre et l’importance (relativement à la première composante principale de chaque groupe) des dimensions communes. – Cas 1, 4 et 5. Dans ces trois cas, les deux groupes ont leur première composante principale, et seulement elle, en commun : Lg vaut toujours 1 ; RV décroît au fur et à mesure que le nombre de dimensions non communes croît. – Cas 1 et 6. Entre 1 et 6, le nombre de dimensions communes ainsi que le nombre de dimensions non communes croissent : Lg croît et RV décroît. – Cas 7, 8 et 9. Dans ces trois cas, la dimension commune des deux groupes est différente de leur première composante principale et est associée, pour chaque groupe, à une inertie constante relativement à celle de la première composante principale : Lg est constant, et vaut ici .25 ; RV décroît au fur et à mesure que le nombre et l’importance des dimensions non communes croissent.
9.6
Représentation des groupes de variables
Dans les deux méthodes, on analyse le nuage NJ des groupes de variables, nuage nommé « inter structure » dans Statis. Cette analyse est la clef de voute de Statis : elle est réalisée en premier et les autres représentations, en particulier celle de NI et celle de NK , en dépendent. En AFM, c’est l’inverse : elle dépend de la représentation de NI et de NK , dont elle constitue une aide à l’interprétation (même si sa propre optimalité lui confère un intérêt supplémentaire).
9.6.1
Comparaison des deux méthodes
En AFM 2 NJ est projeté sur les directions de RI induites par les composantes principales I de NK (dans R ). En notant vs le vecteur unitaire associé au se axe factoriel de 2 NK , le se vecteur (dans RI ) sur lequel on projette NJ s’écrit : vs vs0 . 2 Cette représentation est optimale au sens suivant : on cherche dans RI , sous contrainte qu’ils soient de rang 1 (i.e. associés à une seule direction de RI ), une suite de vecteurs orthonormés liés le plus possible à l’ensemble des groupes de variables. En notant vv 0 un élément de rang 1 (associé à la direction v de RI ), vs vs0 rend maximum : X Lg (v, K) = hvv 0 , Wj iD . j
Dans Statis NJ est projeté sur ses axes principaux d’inertie. On recherche donc W (de norme 1) qui rend maximum : X 2 hW, Wj iD . j
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 186 — #194
i
186
i
Analyse factorielle multiple avec R
L’interprétation de ce critère est analogue, jusqu’à un certain point, à celle du critère de l’ACP dans le cas des variables. On recherche W lié le plus possible aux Wj . W est une combinaison linéaire des Wj . Autrement dit, on cherche un système de pondération des Wj tel que la représentation des individus induite par W ressemble le plus possible à celles induites par les Wj . On entrevoit ici comment un groupe différent des autres verra son influence diminuée par l’attribution d’un poids (αj ) faible. Critère 2 Si l’on raisonne uniquement dans RI , le critère de l’inertie maximum utilisé par Statis est naturel (pour les familiers de l’analyse factorielle). Le critère somme des projections a une interprétation elle aussi naturelle en termes de liaison et ne 2 pose aucun problème algorithmique dès lors que l’on impose aux éléments de RI cherchés d’être de rang 1. Cela étant, il ne semble pas que l’un ou l’autre critère soit plus adapté à telle ou telle problématique d’application. Représentation de NJ En AFM, on sait interpréter les axes de représentation de NJ et donc exprimer axe par axe les proximités entre les groupes en termes de variables. En revanche, la qualité globale de représentation des groupes (au sens du pourcentage d’inertie projeté) n’est pas forcément bonne en partie du fait de la contrainte (imposée aux axes) d’être de rang 1. En particulier, du fait de cette contrainte, la représentation du groupe Kj sur le sous-espace engendré par les s premiers axes s’écrit : X
qsj vs vs0
(avec qsj la coordonnée de Wj sur l’axe de rang s)
s
expression dans laquelle on reconnaît une écriture du modèle Indscal : même si l’on conserve tous les axes, la représentation n’est parfaite que si les données vérifient exactement ce modèle. Dans Statis, la qualité globale de représentation de NJ (mesurée par le pourcentage d’inertie projeté) est optimale, donc toujours meilleure qu’en AFM, et ce de façon plus ou moins importante selon les cas. Le premier axe, combinaison linéaire à coefficients positifs des Wj , s’interprète en tant que compromis. En revanche, les axes suivants ne sont pas interprétables, car l’on ne sait pas traduire en termes de données initiales la proximité entre deux groupes le long de tel ou tel axe.
9.6.2
Illustration à l’aide des données 26−3
Les deux représentations de NJ (figure 9.3) Le nuage NJ comporte quatre points dont deux (groupes 1 et 2) sont confondus. Statis, qui réalise une analyse factorielle non centrée de ce nuage, en fournit donc une représentation parfaite à l’aide de trois axes. Sur ces mêmes données, la représentation parfaite par l’AFM nécessite l’ensemble des six axes (attention ! en
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 187 — #195
i
i
Chapitre 9. AFM et Statis
187
général, même en utilisant tous les axes de l’AFM, on n’obtient pas une représentation parfaite de NJ . Ici les données ont été construites selon le modèle Indscal). Les trois premiers axes de l’AFM représentent 78 % de l’inertie totale. Ce résultat était attendu : par rapport à Statis, la contrainte à laquelle les axes de l’AFM sont soumis pénalise la qualité de représentation de NJ .
F6
F3 (.051) 1+
AFM G4
(.350)
(.023) (.098)
1+
F2 G1
1
1
G2 G3
F5
G4 G1 G2 G3
+
F1
1
(.379)
+ 1
F4 (.098)
F3 (.118) (.225)
1+
F2
G3
Figure 3 Jeu de données choisies. Représentation du nuage des
STATIS 1
groupes de variables par l'AFM et par STATIS . Entre parenthèses : pourcentages d'inertie G4
+ 1
G1
F1 (.657)
G2
Fig. 9.3 – Représentation du nuage NJ des groupes de variables par l’AFM et par Statis. Entre parenthèses : pourcentages d’inertie.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 188 — #196
i
188
i
Analyse factorielle multiple avec R
Remarque Dans Statis, la qualité de représentation de NJ décroît nécessairement avec le rang de l’axe puisqu’elle correspond à la quantité maximisée ; ce n’est pas le cas en AFM. Interprétation de la représentation fournie par Statis La représentation fournie par Statis montre essentiellement que les groupes 1 et 2 sont identiques et plus liés à chacun des groupes 3 et 4 que ces derniers ne le sont entre eux. Ceci est en accord avec les poids des variables (cf. tableau 9.2) et avec les coefficients RV (cf. tableau 9.5). Nous sommes en présence d’une visualisation globale des coefficients RV , d’autant plus précieuse que le nombre de groupes est grand (ce qui n’est pas le cas ici). Remarque Les données initiales satisfont la pondération de l’AFM et les normes des Wj sont (presque) constantes. Aussi, les mesures Lg sont (presque) proportionnelles aux RV.
Groupe 1 2 3 4 Compromis
1 1 1 .505 .475 .965
2
3
4
1 .505 .475 .965
1 .102 .636
1 .603
Tableau 9.5 – Coefficients RV entre les groupes de variables. Le premier axe montre que les groupes 1 et 2 sont très voisins du compromis (RV (W1 , W ) = .965), et que les groupes 3 et 4 sont liés à ce compromis avec la même intensité (RV (W3 , W ) = .636 ; RV (W4 , W ) = .603). Cet axe 1 correspond à une structure multidimensionnelle : le fait que toutes les coordonnées des Wj le long de cet axe soient positives (ce qui est toujours le cas) n’implique pas l’existence d’une dimension commune à tous les groupes (ce qu’illustre cet exemple). On ne peut rien déduire, en termes de données, des autres axes. Interprétation de la représentation fournie par l’AFM Remarque préliminaire. Dans ces données, l’interprétation est particulièrement simple puisque chaque axe s correspond à une variable initiale vk : la coordonnée non nulle du groupe j sur l’axe s implique que cette variable vk est présente dans le groupe j. Les représentations fournies par l’AFM conduisent aux mêmes conclusions que celle de Statis en ce qui concerne les positions relatives globales des points. Rappelons que, sur ce point, les données sont favorables à l’AFM qui, en général, ne fournit pas une image exacte de NJ . En revanche, ce qui est général, c’est l’interprétabilité
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 189 — #197
i
Chapitre 9. AFM et Statis
i
189
axe par axe de cette représentation, due au fait qu’un axe de cette représentation correspond à une seule dimension des nuages NI et NK . Ainsi, il apparaît que : – les groupes 1, 2 et 3 ont en commun leur principale direction d’inertie (coordonnée de 1 le long de l’axe 1) ; – les groupes 1 et 2 ont chacun une direction d’inertie importante en commun avec la principale direction d’inertie du groupe 4 (axe 2) ; – les groupes 3 et 4 ont en commun une direction d’importance moyenne (axe 3) et présentent chacun une direction spécifique d’inertie importante (axes 4 et 5) ; – les groupes 1 et 2 ont aussi en commun une direction de faible inertie (axe 6). Tout ces commentaires correspondent parfaitement à la structure des données (tableau 9.2).
9.7
Conclusion
Au-delà de considérations techniques, deux points de repère peuvent guider l’utilisateur dans le choix entre les deux méthodes pour traiter un problème particulier. Extraction d’une structure commune On utilisera l’AFM lorsque l’on souhaite extraire une par une les dimensions communes à plusieurs groupes. Cette problématique est celle de l’analyse multicanonique ; l’AFM peut d’ailleurs être vue comme une analyse multicanonique particulière (chaque dimension extraite est en un certain sens -cf. 9.6.1 - la plus liée à l’ensemble des groupes) qui bénéficie pleinement des relations de dualité de l’analyse factorielle. On utilisera Statis lorsque l’on souhaite extraire d’un coup la structure commune multidimensionnelle et analyser ensuite cette structure. Les principales structures communes aux groupes de variables sont nécessairement mises en évidence quel que soit le point de vue adopté. La différence entre les deux stratégies porte sur des structures marginales, par exemple une liaison entre deux groupes qui, par ailleurs, ne ressemblent pas aux autres. L’AFM fait ressortir une telle structure en l’interclassant parmi les autres en fonction de son importance. Statis minimise son importance du fait qu’elle ne participe pas à la structure commune d’ensemble. En pratique, les données réelles, sur lesquelles nous avons confronté les deux méthodes, ont conduit à des configurations d’individus très voisines. Il semble que les deux stratégies aboutissent à des facteurs très proches dès lors que les données possèdent une structure un tant soit peu forte. Représentation des groupes On utilisera Statis si l’on attend de cette représentation uniquement une visualisation globale des ressemblances entre groupes.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 190 — #198
i
190
i
Analyse factorielle multiple avec R
On utilisera l’AFM si l’on attend une visualisation analytique, même partielle, des ressemblances entre groupes (et si, bien sûr, la référence au modèle Indscal est utile compte tenu de la nature des données). En pratique, on observe toujours des représentations de groupes très différentes entre les deux méthodes.
9.8
Statis dans ade4
La méthode Statis n’est pas disponible dans FactoMineR. Pour la mettre en œuvre, on utilise la fonction statis du package R ade4, téléchargeable à partir du cran (http ://cran.r-project.org/web/packages/ade4/index.html). Ce package une fois installé et chargé, on procède comme décrit ci-après. Importation du tableau 9.4 page 181 (dans le fichier D2_6_3.csv) et édition des données pour vérification : > ex=read.table("D2_6_3.csv",sep=";",dec=",",header=TRUE,row.names=1) > ex V1 V2 V3 V4 V5 V6 A 1 1 1 1 1 1 B 1 -1 -1 -1 1 1 C -1 -1 1 -1 1 -1 D -1 1 -1 1 1 -1 E 1 1 1 -1 -1 -1 F 1 -1 -1 1 -1 -1 G -1 -1 1 1 -1 1 H -1 1 -1 -1 -1 1 Les quatre groupes sont composés des variables contenues dans ex, auxquelles on affecte des poids différents (donnés dans le tableau 9.2 page 179). Pour cela, on travaille sur des variables non réduites ayant comme variance le poids que l’on souhaite leur affecter. Les données étant centrées et de variance égale à 1, il suffit de multiplier les valeurs de chaque variable par la racine carrée de son poids : > + + + > > + # >
jdd=cbind.data.frame(ex[,1],sqrt(0.9409)*ex[,2],sqrt(0.3025)* ex[,4],ex[,1],sqrt(0.9409)*ex[,2],sqrt(0.3025)*ex[,4],ex[,1], sqrt(0.4489)*ex[,3],sqrt(0.8836)*ex[,5],ex[,2], sqrt(0.4489)*ex[,3],sqrt(0.8836)*ex[,6]) rownames(jdd)=rownames(ex) colnames(jdd)=c("V1_1","V2_1","V4_1","V1_2","V2_2", "V4_2","V1_3","V3_3","V5_3","V2_4","V3_4","V6_4") Vérification des deux premières lignes jdd[1:2,] V1_1 V2_1 V4_1 V1_2 V2_2 V4_2 V1_3 V3_3 V5_3 V2_4 V3_4 V6_4 A 1 0.97 0.55 1 0.97 0.55 1 0.67 0.94 1 0.67 0.94 B 1 -0.97 -0.55 1 -0.97 -0.55 1 -0.67 0.94 -1 -0.67 0.94
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 191 — #199
i
Chapitre 9. AFM et Statis
i
191
La fonction statis nécessite en entrée un objet de classe ktab spécifique d’ade4 ; un objet de cette classe est une liste de data-frames ayant les mêmes noms de lignes (chaque data-frame correspond à un groupe de variables) : # > # # # > # >
Créer une liste des 4 data-frames représentant les groupes liste=list(jdd[,1:3],jdd[,4:6],jdd[,7:9],jdd[,10:12]) A partir de cette liste, on crée un objet ktab avec la fonction ktab.list.df ; Le nom des groupes (tabnames) est spécifié à ce moment. tab=ktab.list.df(liste,tabnames=c("G1","G2","G3","G4")) Exécuter la fonction statis sur ce ktab : res=statis(tab)
Par défaut, le paramètre scannf vaut TRUE : la fonction affiche alors le graphe des valeurs propres et demande à l’utilisateur de sélectionner le nombre d’axes qu’il souhaite conserver dans l’analyse. Il est également possible de préciser dès le départ le nombre d’axes à conserver, à l’aide du paramètre nf : > res=statis(tab,scann=FALSE,nf=5) Les graphiques s’obtiennent par la fonction plot qui, par défaut, affiche une fenêtre graphique contenant la représentation, sur le premier plan, des groupes (NJ ), du nuage des individus moyens (NI ; compromis) et des composantes principales des analyses séparées des groupes. > plot(res) On peut éditer les graphiques séparément (paramètre option) et choisir les axes de représentation (à l’aide de xax et yax). Par exemple, le code suivant affiche la représentation du nuage moyen sur le plan (3, 5) : > plot(res,option=2,xax=3,yax=5) On peut aussi utiliser la fonction usuelle plot sur les coordonnées des objets à représenter. Soit, pour le nuage moyen : res$C.li. 2 Les tableaux de résultats de l’analyse de NJ (dans RI ) sont dans res$RV. – RV$eig : valeurs propres de l’analyse de NJ ; les pourcentages d’inertie sont obtenus en divisant ces valeurs propres par leur somme, égale au nombre de groupes (ici 4). Ces valeurs propres sont différentes de celles de l’analyse du compromis. – RV.coo : coordonnées des groupes (Wj ) ; elles sont utilisées pour construire le graphique de la figure 9.3 page 187 (en bas). – RV.tabw : poids des groupes dans l’analyse. Ces poids sont proportionnels aux coordonnées des Wj sur le premier axe (ils sont divisés par la racine de la première valeur propre de l’analyse de NJ : la somme de leurs carrés vaut 1).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 192 — #200
i
192
i
Analyse factorielle multiple avec R
– RV : coefficient RV de liaison entre les groupes ; res$RV permet d’éditer le tableau 9.5 page 188 ; la dernière ligne de ce tableau coïncide avec la coordonnée de chaque groupe le long du premier axe. Soit, pour éditer le tableau 9.5 : > tab9_5=rbind(res$RV,t(res$RV.coo[,1])) > rownames(tab9_5)[[5]]="Compromis" > round(tab9_5,3) La fonction kplot.statis permet de visualiser en détail la représentation des variables par groupe. Remarque La figure 9.1 page 182 a été réalisée à l’aide d’un logiciel de dessin. Les coordonnées des points de la partie AFM sont fournies par FactoMineR. Celles des points moyens de Statis sont fournies par la fonction statis de ade4. Celles des points partiels de Statis proviennent du logiciel ACT, écrit par C. Lavit et diffusé autrefois par le CISIA-CERESTA (Paris) ; ce logiciel n’est plus disponible aujourd’hui.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 193 — #201
i
i
Chapitre 10
Analyse factorielle multiple et analyse procustéenne A l’origine, la question qui a motivé l’analyse procustéenne (AP) est la suivante : disposant de deux nuages de points homologues situés dans le même espace, comment faire tourner l’un des nuages pour le faire coïncider le mieux possible avec l’autre ? Aujourd’hui, l’analyse procustéenne généralisée (APG) s’applique à un ensemble de plus de deux nuages. Le chapitre 5 décrit la solution proposée par l’analyse factorielle multiple pour obtenir une représentation superposée de nuages de points homologues (les NIj ). Il est intéressant de comparer les deux approches. L’APG étant peu connue en dehors du domaine de l’analyse sensorielle, nous commençons par présenter quelques éléments sur cette méthode.
10.1 10.1.1
Analyse procustéenne Données, notations
On dispose de J nuages (notés NIj ) de I points homologues (ij ). Ces nuages évoluent dans des espaces de même dimension Kc . Les coordonnées des points de NIj sont rassemblées dans la matrice Xj de dimensions (I, Kc ). Les colonnes de Xj sont supposées centrées. Lorsqu’initialement les NIj évoluent dans des espaces de dimensions différentes (Kj ), on se ramène au cas précédent en choisissant Kc = max (Kj , j = 1, J) ; lorsque Kj < Kc , on considère que NIj a une inertie nulle dans Kc − Kj directions, ce que l’on obtient concrètement en ajoutant des colonnes de 0 à la matrice Xj initiale. En analyse procustéenne, les individus sont toujours affectés du poids 1. Nous adoptons ces poids dans cet article. Cela étant, la présence de poids différents d’un
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 194 — #202
i
194
i
Analyse factorielle multiple avec R
individu à l’autre n’est pas antinomique de l’analyse procustéenne. On peut vouloir que la superposition soit particulièrement bien ajustée pour certains individus.
10.1.2
Objectifs
Les nuages NIj sont placés dans un même espace RKc . Chaque nuage est centré et il n’y a pas lieu d’opérer de translation. On transforme alors les NIj de façon à faire coïncider le mieux possible les points homologues. Dans la version usuelle (et originelle), seules les transformations orthogonales, qui ne modifient pas les distances entre les points d’un même nuage, c’est-à-dire les rotations et les symétries, sont autorisées. On peut aussi autoriser les homothéties, mais l’intérêt en termes d’application n’apparaît pas clairement dès lors que les NIj ont subi une normalisation. Aussi, sauf mention explicite du contraire, nous ne les envisageons pas. A l’issue des transformations, le nuage NIj possède de nouvelles coordonnées que l’on rassemble dans la matrice Yj . Dire que les NIj coïncident (entre eux) le mieux possible revient à dire que les Yj se ressemblent le plus possible. La somme des carrés des différences terme à terme entre les deux matrices Yj et Yl s’écrit : 0 trace (Yj − Yl ) (Yj − Yl ) . La quantité que l’on minimise s’écrit donc : X
0
trace (Yj − Yl ) (Yj − Yl ) .
j>l
Formellement, Yj se déduisant de Xj par une isométrie (transformation qui conserve les distances), on peut écrire Yj = Xj Tj avec Tj matrice orthogonale, c’est-à-dire vérifiant Tj Tj0 = Id (en notant Id la matrice identité de taille convenable). Le modèle procustéen peut alors s’écrire : qj Xj Tj = Z + Ej avec Z, matrice de taille (I, Kc ) contenant les coordonnées de la configuration dite moyenne (en référence à la façon dont elle est calculée), Ej une matrice de résidus et qj un scalaire présent dans le modèle lorsque l’on autorise les homothéties. Remarque à propos du nuage moyen. Dès lors que les NIj sont placés dans le même espace, on peut construire un nuage moyen NI dont chaque point i est l’isobarycentre de ses points homologues dans les NIj . Ce nuage est analogue, jusqu’à un certain point, au nuage moyen NI de l’AFM. Pour faciliter la comparaison entre les deux méthodes, nous appelons NI le nuage moyen quelle que soit l’analyse (bien que les deux nuages ne soient pas construits de la même manière).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 195 — #203
i
Chapitre 10. AFM et analyse procustéenne
10.1.3
i
195
Méthodes et variantes
Selon le nombre de nuages Premier cas : J = 2. C’est le cas de la méthode originelle. Il existe une solution analytique que nous rappelons brièvement. Soient X1 et X2 les tableaux contenant les données initiales, centrées et généralement réduites ; on cherche à transformer X2 pour « l’ajuster » à X1 . Soit V12 = X10 X2 la matrice contenant (au coefficient I près), lorsque les données sont centrées réduites, les coefficients de corrélation entre les variables du groupe 1 (en lignes) et celles du groupe 2 (en colonnes). V12 contient les covariances si les données sont seulement centrées. 0 Soient U une matrice (orthogonale) de vecteurs propres normés de V12 V12 et V 0 une matrice (orthogonale) de vecteurs propres normés de V12 V12 . Alors, on montre que l’ajustement du tableau X2 (au tableau X1 ) est donné par : Y2 = X2 V U 0 . La dissymétrie de la solution est seulement apparente ; du point de vue de la position relative des points, il revient au même d’ajuster X1 à X2 ou X2 à X1 . Remarque De même que les axes de l’ACP ne dépendent que des corrélations entre variables, ceux de l’APG ne dépendent que des corrélations inter tableaux. Second cas : J > 2. C’est le cas de l’APG. On ne connaît pas de solution analytique. On procède par un algorithme itératif qui, à chaque pas, ajuste successivement chaque nuage NIj au nuage moyen (au premier pas, le premier nuage sert de nuage moyen), le nuage moyen étant lui-même recalculé après les rotations des NIj . Plus précisément, le principe de l’algorithme usuel peut être décrit ainsi : 1. initialisation du nuage moyen Z (par la première configuration) ; 2. ajustement de chacun des J nuages NIj au nuage moyen ; mise à jour des NIj par le résultat de ces ajustements, ajustements réalisés successivement ; 3. mise à jour du nuage moyen Z à partir des J nuages NIj « ajustés » ; 4. mise à jour du critère d’ajustement pour l’ensemble des NIj ; 5. reprendre l’étape 2 tant que l’amélioration du critère est supérieure à un seuil fixé. Cet algorithme converge, mais sa convergence vers un optimum global du critère est incertaine. Plusieurs travaux ont eu pour objet l’amélioration de cet algorithme. Selon le nombre de dimensions Premier cas : Kc = 2 ou 3. La solution peut être examinée directement et globalement par une représentation graphique
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 196 — #204
i
196
i
Analyse factorielle multiple avec R
Second cas : Kc > 3. La solution ne peut être examinée qu’en projection sur des sous-espaces. Dans la variante usuelle, à l’issue de l’AP (ou de l’APG), on projette les NIj sur les axes factoriels de NI . Ce ne sont donc pas les axes directement issus de l’analyse procustéenne qui sont étudiés. Il a aussi été proposé d’utiliser les axes factoriels de l’union des NIj (notée NIJ ). Influence, sur les objectifs, du nombre de dimensions Lorsque Kc > 3, on n’étudie pas globalement l’homologie entre les espaces dans lesquels évoluent les NIj , mais sous-espace par sous-espace. En pratique, on étudie même souvent les représentations dimension par dimension. Ce point de vue rapproche l’APG de l’analyse canonique généralisée, à savoir la recherche d’une suite de directions communes à plusieurs nuages de points homologues. Par la suite, nous faisons souvent référence à ce point de vue.
10.2
Comparaison entre les deux méthodes
Rappelons que l’AFM repose sur une ACP du tableau X de taille (I, K ) juxtaposant en ligne les tableaux Xj . Dans cette ACP, les variables du groupe j sont pondérées par 1/λj1 (en notant λj1 la première valeur propre de l’ACP séparée du groupe j ).
10.2.1
Représentation des NIj
A chaque tableau Xj correspond un nuage NIj . En AFM Les NIj sont placés dans l’espace RK , somme directe des RKj . Ainsi les NIj ne sont pas vraiment dans le même espace. Le caractère simultané de cette représentation est artificiel ; il se justifie en tant que cadre d’interprétation de la méthode. En APG Les NIj sont tous placés dans le même espace RKc . Cette représentation correspond à une homologie globale des espaces RKc , a priori distincts, qui contiennent chacun un nuage NIj . Attention : au départ, il s’agit d’une homologie globale et non d’une homologie dimension initiale par dimension initiale, ce qui est le cas lorsque les variables sont les mêmes d’un groupe à l’autre. Cette représentation superposée initiale des NIj est artificielle, à l’instar de celle de l’AFM, et se justifie en tant que cadre d’interprétation de la méthode. L’objet de l’APG est, à partir de cette homologie globale des espaces RKc , d’identifier les dimensions homologues des NIj . Ces dimensions homologues sont celles qui induisent la même structure sur les individus. On retrouve ici la notion de facteur commun de l’AFM.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 197 — #205
i
Chapitre 10. AFM et analyse procustéenne
i
197
Presque toutes les différences entre les deux méthodes dérivent de la différence entre les deux modes de représentation des NIj .
10.2.2
Nuage moyen
Dans les deux méthodes, le nuage moyen NI contient les points i, centres de gravité des ensembles ij ; j = 1, J (d’où l’appellation nuage moyen). Mais ces deux nuages moyens NI , étant construits dans des espaces différents, ne possèdent pas la même signification d’une méthode à l’autre.
En AFM – Les ij associés à un même i appartiennent à des sous-espaces orthogonaux. – Leurs coordonnées se juxtaposent et ne s’additionnent pas deux à deux. – Le carré de la distance entre deux points moyens i et l s’écrit : d2 (i, l) =
1 X 2 j j d i ,l . J2 j
– Ainsi, deux points i et l sont d’autant plus éloignés qu’ils le sont dans chacun des groupes, et ce quelles que soient les directions de cet éloignement dans chacun des groupes. – Dans RK , l’inertie totale de NI est égale à l’inertie totale de NIJ (union des NIj ) divisée par J 2 .
En APG – Les ij appartiennent au même espace RKc . – Le calcul des coordonnées de i résulte d’une « véritable » moyenne entre les coordonnées homologues des ij ; j = 1, J . – La distance entre les deux points moyens i et l dépend, comme en AFM, de la distance entre les individus i et l dans chaque groupe, mais aussi du fait que, le long des directions homologues, les écarts entre les individus i et l sont dans le même sens ou non cf. figure 10.1). – Il en résulte que, à inertie de NIJ constante, l’inertie de NI est d’autant plus grande que les écarts entre les points sont identiques dans les directions homologues, c’est-à-dire que les NIj se ressemblent. D’où la dénomination de nuage consensus quelquefois attribuée au nuage moyen en APG. Dans la figure 10.1, A et B diffèrent pour chaque groupe : en AFM les points moyens diffèrent. Il en est de même pour C et D. Sur l’axe de l’AP, les différences entre A et B vont dans le même sens pour chaque groupe : les points moyens diffèrent. Sur ce même axe, les différences entre C et D, dans les deux groupes, vont en sens contraire : les points moyens sont confondus.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 198 — #206
i
198
i
Analyse factorielle multiple avec R V2
AFM
Analyse procustéenne
c2
C
d2
D a
1
o
b
1
V1 c1
d1
a1 a2
b1 b2
A
B
B A
+ O
d1 c2 V1
c1 d2 C D
V2
b2
a2
Fig. 10.1 – Quatre individus (A, B, C, D) décrits par deux groupes composés chacun d’une seule variable ({V 1}, {V 2}). Représentations des nuages NI et NIj dans l’espace RK de l’AFM (gauche) et sur l’axe unique de l’analyse procustéenne.
10.2.3
Objectif, critère, algorithme
D’un point de vue général, on recherche, dans les deux cas, des facteurs communs aux NIj qui seront visualisés à l’aide d’une représentation superposée des NIj . En AFM – Le nombre de facteurs communs n’est pas spécifié. – Les facteurs communs peuvent être communs à tous les groupes ou à certains d’entre eux. – L’objet de l’analyse est de les mettre en évidence. En APG – On suppose qu’il existe une homologie complète entre les espaces dans lesquels évoluent initialement les NIj . En pratique, on met en évidence des bases homologues de ces sous-espaces ; finalement, en termes d’analyse canonique, cela revient à supposer qu’il existe Kc facteurs communs aux J groupes. – L’objet de l’analyse est d’identifier ces facteurs communs. Critère Dans les deux méthodes, on peut l’exprimer à partir de la représentation superJ posée. On considère la partition de N I en I classes contenant chacune les points partiels associés à un même individu ij ; j = 1, J . Relativement à cette partition, l’inertie intra-classes de NIJ s’écrit : XX i
j
1 X X 2 j l d2 ij , i = d i ,i . 2I i j,l
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 199 — #207
i
Chapitre 10. AFM et analyse procustéenne
i
199
En AP ou en APG, on cherche à minimiser cette quantité. Lorsque les homothéties ne sont pas autorisées, il revient au même de maximiser l’inertie inter-classes associée qui n’est autre que l’inertie de NI . Pour l’APG, on cherche à chaque étape la rotation de chaque nuage NIj qui satisfait ce critère (calculé, donc, pour l’ensemble des dimensions). Remarque Lorsque les homothéties sont autorisées, une solution triviale consiste à choisir le coefficient 0 pour chaque nuage. Pour l’éviter, on adopte la contrainte de ne pas modifier l’inertie totale de NIJ (union des NIj ). En AFM, on cherche axe par axe à maximiser l’inertie inter classes projetée. Malgré cette parenté, les deux critères ne correspondent que partiellement car, en procédant axe par axe, l’inertie totale n’est plus fixe, ce qui annule l’équivalence entre minimiser l’inertie intra et maximiser l’inertie inter. Ainsi, entre les deux méthodes : – les représentations géométriques diffèrent ; les nuages moyens n’ont pas exactement la même signification ; – les quantités à maximiser diffèrent malgré une certaine parenté ; – les types de transformation des NIj diffèrent (rotation ou projection).
10.2.4
Propriétés des représentations des NIj
En APG – Les transformations des NIj sont orthogonales (composées éventuellement avec des homothéties). – La forme des NIj est parfaitement respectée : c’est là une contrainte très forte, spécificité de l’APG. – Si Kc est supérieur à 3, on ne peut examiner la représentation superposée des NIj qu’à l’aide de projections, par exemple sur les axes principaux de NI ; ces projections sont effectuées après l’ajustement. En AFM – La projection se déroule simultanément à l’ajustement. – La projection de NIj se fait sur des axes qui n’appartiennent pas à RKj ou, selon un autre point de vue, sur des axes non orthogonaux de RKj ; il en résulte une déformation des NIj , même si le nuage NI est parfaitement représenté. Ces déformations ont déjà été décrites en 5.5 ; une illustration en est donnée dans l’exemple (dit 23−1 ) décrit ci-après en 10.3.
10.2.5
Premier bilan
L’AFM est une analyse factorielle particulière et une analyse multicanonique (au sens de Carroll) particulière. Elle n’est pas une analyse procustéenne si l’on considère comme caractéristique de cette dernière la non-déformation des NIj . Il n’en
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 200 — #208
i
200
i
Analyse factorielle multiple avec R
reste pas moins que les problématiques des analyses procustéennes et de l’AFM sont apparentées : – toutes deux peuvent s’articuler autour de la notion de facteur commun ; – toutes deux incluent une représentation superposée des NIj et d’un nuage moyen.
10.2.6
Harmonisation de l’inertie des NIj
En AFM, l’harmonisation de l’inertie des NIj est effectuée avant l’analyse : – à l’intérieur des groupes, par la réduction, sur option, des colonnes ; – entre les groupes, par la surpondération des variables qui équivaut à une homothétie de chaque NIj . En APG, deux harmonisations, non exclusives, sont possibles. Avant l’analyse Ici, la problématique est la même qu’avant une AFM (ou toute autre analyse de ce type de tableau multiple). Dans la pratique anglo-saxonne, l’usage est le suivant : dans tous les cas, l’inertie de NIJ est ramenée à 100 ; sur option, l’inertie de chaque NIj est ramenée à 100/J. Pendant l’analyse La transformation de chaque NIj peut inclure ou non une homothétie. Cette homothétie est différente selon les NIj , mais concerne l’ensemble des dimensions de RKc . L’introduction de telles homothéties : – améliore par principe le critère ; – revient en fait à faire jouer des rôles différents aux NIj . A la limite, cela permet d’éliminer un nuage de l’analyse (coefficient égal à 0).
10.2.7
Relations entre les facteurs homologues
Nous reprenons les notations de l’AFM : Fs : coordonnées de NI le long de l’axe de rang s ; Fsj : coordonnées de NIj le long de l’axe de rang s. En AFM, ces facteurs bénéficient de la propriété suivante : ∀s, j : r Fsj , Fs ≥ 0. Ainsi, une variable canonique Fsj n’est jamais liée négativement à la variable générale de même rang Fs . Cette propriété constitue le moins que l’on puisse demander à un facteur commun. On peut montrer que l’APG vérifie cette propriété. En revanche, en APG comme en AFM, on peut avoir des facteurs homologues (e.g. Fsj et Fsl ) corrélés négativement, ce que nous illustrons à l’aide d’un exemple (tableau 10.1).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 201 — #209
i
Chapitre 10. AFM et analyse procustéenne
A B C
V1 V2 5 1 -2 -2 -3 1 Données
V3 -3 -2 5
V1 V2 V3
i
201
V1 V2 V3 1 .40 1 -.68 .40 1 Corrélations
Tableau 10.1 – Trois individus (A, B, C) décrits par trois groupes contenant chacun une variable. Dans ce cas particulier où chaque groupe ne comporte qu’une seule variable, l’APG considère les trois variables comme homologues (éventuellement en considérant leurs opposées) et la matrice des corrélations entre facteurs homologues est confondue (éventuellement, pour tenir compte des symétries, en changeant tous les signes d’une ou plusieurs lignes et des colonnes correspondantes) avec la matrice des corrélations entre variables initiales. Lorsqu’une variable est corrélée positivement avec deux variables elles-mêmes liées négativement entre elles (ce qui est le cas ici), il existe des facteurs homologues corrélés négativement. Remarque Si, sur les données de l’exemple précédent, on réalise une APG avec homothéties, alors le groupe 2 se voit affecter un coefficient 0, ce qui illustre, au passage, comment l’introduction d’homothéties permet d’exclure un groupe. Mais l’introduction d’homothéties ne règle de façon satisfaisante le problème des corrélations négatives entre dimensions homologues que dans le cas unidimensionnel, puisque l’homothétie s’applique uniformément à toutes les dimensions d’un groupe.
10.2.8
Représentation des individus
Remarque préliminaire. Lorsque le modèle procustéen est exactement vérifié (i.e. les NIj se déduisent les uns des autres par rotation ou symétrie), les deux méthodes fournissent le « bon résultat », à savoir une représentation superposée des NIj dans laquelle les points homologues sont confondus et les formes des NIj parfaitement respectées. Pour l’APG, c’est évident puisque le nuage moyen est identique à chaque NIj après rotation. Pour le cas de l’AFM, supposons trois groupes tels que X = (Z, ZA, ZB) avec A0 A = Id et B 0 B = Id (avec Id la matrice identité de taille convenable) ; les composantes principales de l’AFM sont vecteurs propres de X 0 = 3Z 0 Z : ainsi, le nuage moyen et chaque nuage partiel ont les mêmes composantes principales. Dans la mise en évidence de facteurs communs, le cadre de l’APG, comparé à celui de l’AFM, est très contraignant puisqu’il suppose que : – il existe Kc facteurs communs orthogonaux ; – les facteurs sont communs à tous les groupes. Ces contraintes pèsent sur l’ensemble des résultats (en particulier sur les premiers facteurs) puisque l’on recherche un optimum global. Considérons le cas d’un facteur commun à certains groupes seulement.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 202 — #210
i
202
i
Analyse factorielle multiple avec R
– En AFM, les NIj qui ne possèdent pas ce facteur sont orthogonaux à ce facteur ; ils n’ont aucune influence sur lui. – En APG, toute direction est nécessairement commune à tous les groupes et un facteur commun à certains groupes seulement sera superposé avec des directions des autres groupes avec lesquelles il n’a rien à voir. Ainsi, dans ce cas, la mise en évidence même de ce facteur commun peut être perturbée : la configuration moyenne ne correspond pas à celle de ce facteur commun car elle est déformée par les représentations des groupes qui n’ont rien à voir avec lui, mais qui lui sont quand même superposées.
10.2.9
Aides à l’interprétation
Nous présentons successivement les principales aides de l’APG en précisant leur signification et, le cas échéant, leurs équivalents en AFM. En APG, la représentation superposée fournit un cadre dans lequel l’inertie totale de NIJ peut être décomposée de multiples façons et induire un système exhaustif d’indicateurs (cette décomposition est présentée dans le cadre de l’AFM en section 5.4). L’inertie totale (en pratique rendue égale à 100) est d’abord décomposée en inertie inter (inertie du consensus NI ) et inertie intra (inertie des NiJ , nuages rassemblant chacun les J points partiels associés à l’individu i ). Ces trois inerties sont ensuite elles-mêmes décomposées de trois façons (un exemple de ces décompositions est donné ci-après en 10.3.3). Décomposition par dimension – L’inertie inter indique l’importance relative des dimensions ; on retrouve les valeurs propres de l’ACP de NI ; cet indicateur est le même que dans l’AFM. – L’inertie intra indique le degré de « consensualité » de la dimension ; cet indicateur est équivalent à celui de l’AFM, dans laquelle on rapporte l’inertie inter à l’inertie totale (cf. 5.4 et tableau 5.2). Décomposition par groupe – L’inertie intra mesure la ressemblance entre NIj et NI . En AFM, on calcule les coefficients de corrélation canoniques et les mesures Lg qui permettent d’évaluer la liaison entre NIj et NI axe par axe. La différence entre les méthodes porte ici sur deux points : la nature de l’indicateur et le fait de le calculer par axe ou globalement. Ces différences s’inscrivent dans les optiques différentes des méthodes. Rien n’interdit d’introduire dans l’une les indices de l’autre, à l’exception des sommes d’inertie intra sur plusieurs axes qui n’ont pas de sens en AFM. – La décomposition de l’inertie inter n’a pas de sens ici. Décomposition par individu – L’inertie inter est la contribution des individus au nuage moyen ; cet indicateur existe aussi en AFM (attention : le nuage moyen n’a pas exactement le même sens) mais il est surtout utilisé axe par axe dans l’optique de l’analyse factorielle.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 203 — #211
i
Chapitre 10. AFM et analyse procustéenne
i
203
– L’inertie intra indique si l’individu est globalement l’objet d’un consensus ou non. En AFM, cet indicateur est calculé axe par axe mais ne peut pas être cumulé sur plusieurs directions ; en APG, il peut être calculé globalement et décomposé axe par axe. En résumé – Les deux méthodes possèdent des systèmes d’indicateurs permetant de balayer exhaustivement les thèmes qui surgissent lors de l’examen d’une représentation superposée. – En AFM, il n’est toutefois pas possible de cumuler les inerties projetées des NIj sur plusieurs axes. – En APG, le caractère forcé de la superposition, qui pèse sur le consensus, pèse par voie de conséquence sur les indicateurs ce qui sera illustré dans l’exemple ci-après (23−1 ).
10.2.10
Représentation des variables
Dans les deux méthodes, on calcule les coefficients de corrélation (et aussi, éventuellement, les covariances) entre les variables initiales et les dimensions du nuage moyen. Ces coefficients sont représentés graphiquement comme en ACP. Ici, la différence entre les deux méthodes tient au fait que, en AFM, les variables initiales jouent un rôle actif direct (via les liaisons intra et intergroupes) dans la représentation du nuage moyen alors qu’en APG elles interviennent de façon indirecte. Il en résulte que : – la représentation des variables possède sa propre optimalité en AFM, ce qui n’est pas le cas en APG ; – la relation de transition qui exprime la coordonnée d’un individu moyen en fonction des coordonnées des variables n’existe pas en APG ; – a fortiori la relation qui, en AFM, exprime la coordonnée d’un individu partiel (ij ) en fonction des coordonnées des variables est spécifique de l’AFM. Cette relation, décrite en 5.2 (propriété 3), est capitale dans les interprétations.
10.3 10.3.1
Etude d’un jeu de données choisies (23−1 ) Données 23−1
Quatre individus (A, B, C et D) sont décrits par trois groupes comportant chacun deux variables. Les données sont rassemblées dans le tableau 10.2 et illustrées figures 10.2 et 10.3.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 204 — #212
i
204
i
Analyse factorielle multiple avec R Groupe 1 X1 Y1 6 6 6 -6 -6 6 -6 -6 36 36
A B C D Variance
Groupe 2 X2 Z2 6 -2 6 2 -6 2 -6 -2 36 4
Groupe 3 Y 3 Z3 3 -6 -3 6 3 6 -3 -6 9 36
Tableau 10.2 – Données 23−1 .
Z3
Z2 X1 X2
Y3 Y1
Fig. 10.2 – Représentation des six variables dans R4 . Les variables, étant centrées, se situent dans un sous-espace de dimension 3, ce qui les rend représentables. Ici, les coefficients de corrélation valent soit 0, soit 1. Les variables parfaitement corrélées (X1 et X2 ) sont légèrement écartées afin d’être représentées distinctement.
C1
A1
B3 C2
D2
D1
B1
C3
B2 A2
D3
A3
Fig. 10.3 – Représentation des quatre individus pour chacun des trois groupes. Les six variables sont centrées. Elles dérivent de trois variables X, Y et Z, non corrélées deux à deux et de variance 1, qui ont été multipliées par 2, 3 ou 6.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 205 — #213
i
Chapitre 10. AFM et analyse procustéenne
i
205
Ces variables sont donc les composantes principales des ACP séparées. Les trois variables X, Y et Z sont construites à partir des facteurs du plan d’expériences fractionnaire 23−1 , d’où le nom de ces données. Les variables ne sont pas réduites, ce qui conduit à des directions d’inerties inégales. En procédant ainsi, chaque groupe présente un facteur commun avec chacun des deux autres ; ces facteurs communs ne sont pas forcément associés à la même inertie d’un groupe à l’autre. L’inertie maximum est la même dans chaque groupe, ce qui élimine l’influence de la pondération de l’AFM : les deux analyses opèrent sur les mêmes données.
10.3.2
Résultats de l’AFM
Inerties projetées du nuage moyen Les inerties des axes de l’AFM se calculent facilement. Le premier axe correspond à la variable X. Son inertie s’obtient en sommant celles de X1 et de X2 (après la pondération de l’AFM c’est-à-dire en divisant chaque variance par la variance maximum de son groupe). Soit 36/36 + 36/36 = 2. L’axe 2 correspond à la variable Y et à une inertie de : 36/36+9/36 = 1.25. L’axe 3 correspond à Z avec une inertie de 4/36 + 36/36 = 10/9. Dans cette analyse, trois dimensions sont nécessaires (on a utilisé trois variables orthogonales) pour représenter les données. Elles sont d’importances comparables. Mesures de liaison entre facteurs et groupes Deux mesures sont utilisées et rassemblées dans le tableau 10.3, dans lequel on trouve, à l’intersection du groupe j et du facteur s : – le coefficient de corrélation (dit canonique) entre Fs et Fsj ; – la mesure de liaison Lg entre Fs et le groupe j. Groupe 1 Groupe 2 Groupe 3
F1 F2 F3 1 1 0 1 0 1 0 1 1 r(Fs , Fsj )
F1 1 1 0
F2 F3 1 0 0 1/9 1/4 1 Lg (Fs , j)
Tableau 10.3 – Liaisons entre facteurs et groupes. Les coefficients de corrélation canoniques indiquent que F 1 est commun aux groupes 1 et 2, F 2 aux groupes 1 et 3, F 3 aux groupes 2 et 3. Les mesures Lg précisent, par exemple, que F 3 correspond à la principale direction d’inertie du groupe 3 et à une direction d’inertie peu importante du groupe 2. On retrouve ici exactement la structure qui a servi de base pour construire les données. Inerties des individus du nuage moyen Quel que soit l’axe, les quatre individus ont, en valeur absolue, la même coordonnée et donc la même contribution à l’inertie. On retrouve ici la symétrie des individus bien visible sur les données.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 206 — #214
i
206
i
Analyse factorielle multiple avec R
F3
ͳ ͳǤͶͳ ͳǤͶͳ ǦͳǤͶͳ ǦͳǤͶͳ
ʹ ͳǤͳʹ ǦͳǤͳʹ ͳǤͳʹ ǦͳǤͳʹ
A
͵ ͳǤͲ ǦͳǤͲ ǦͳǤͲ ͳǤͲ
D
C
F1
ͳǤͶͳ
ͳǤͳʹ
2
5 2
F2
ͳǤͲ
B
10 3
Fig. 10.4 – Représentation du nuage moyen. Représentation superposée
F3
ͳ ͳ ͳ ͳ ʹ ʹ ʹ ʹ ͵ ͵ ͵ ͵
A3 F2
D3
6 5
C1
A1
A2
D2
C2
B2
3 2
F1
D1 B1 C3
B3
± ͳ ʹ ͵ ʹǤͳʹ ʹǤͺ ͲǤͲͲ ʹǤͳʹ ǦʹǤͺ ͲǤͲͲ ǦʹǤͳʹ ʹǤͺ ͲǤͲͲ ǦʹǤͳʹ ǦʹǤͺ ͲǤͲͲ ʹǤͳʹ ͲǤͲͲ ͲǤ͵ʹ ʹǤͳʹ ͲǤͲͲ ǦͲǤ͵ʹ ǦʹǤͳʹ ͲǤͲͲ ǦͲǤ͵ʹ ǦʹǤͳʹ ͲǤͲͲ ͲǤ͵ʹ ͲǤͲͲ ͲǤ ʹǤͺͷ ͲǤͲͲ ǦͲǤ ǦʹǤͺͷ ͲǤͲͲ ͲǤ ǦʹǤͺͷ ͲǤͲͲ ǦͲǤ ʹǤͺͷ
1 10 ͲǤ͵ʹ
3 2 5
3 2
6 5
9 10
ͲǤ
ʹǤͳʹ
ʹǤͺ
ʹǤͺͷ
Fig. 10.5 – Représentation superposée. Les coordonnées des NIj sont multipliées par le nombre de groupes actifs J (ici égal à 3) de façon à ce que le nuage global NI soit au centre de gravité des NIj . Cette représentation précise la nature des facteurs communs (figure 10.5). Ainsi, le premier facteur oppose A et B d’une part, à C et D d’autre part, opposition qui existe dans les groupes 1 et 2 et non dans le groupe 3. Dans cet exemple très particulier, cela a déjà été vu dès lors que l’on a identifié le facteur 1 à la variable X.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 207 — #215
i
Chapitre 10. AFM et analyse procustéenne
i
207
Dans le détail, cette représentation illustre les distorsions des nuages partiels dans la représentation superposée. En effet, bien que NI soit parfaitement représenté, les nuages NIj sont déformés, et ce selon deux aspects déjà décrits en 5.5. Ainsi, par rapport aux NIj initiaux, les représentations des NIj dans l’AFM présentent dans l’exemple les deux caractéristiques ci-dessous. √ – Les NIj ont subi une homothétie de rapport 1/ λs le long de chaque facteur du nuage NI . Ainsi, le nuage NI1 possède initialement la même inertie dans toutes les directions mais, en projection, est plus allongé le long de F 2. Pour ce premier groupe, le calcul numérique est aisé car les deux valeurs propres non nulles de son ACP séparée sont égales. Entre les axes 1 et 2 de l’AFM, le carré du rapport des coordonnées des individus partiels (coordonnées identiques en valeur absolue pour tous les points et pour chacun des axes 1 et 2) est l’inverse de celui des valeurs propres de l’AFM. Soit, numériquement, puisque λ1 = 2 et λ2 = 1.25 : √ #2 λ1 6 2 2 = √ = . = 3 λ 1.25 5 2 p – Les NIj ont subi une homothétie de rapport λjs le long de leurs propres facteurs (λjs étant la se valeur propre dans l’analyse séparée de NIj ). Ainsi, pour j = 3, le rectangle formé par NIj est plus étiré en projection qu’initialement (l’écart entre les deuxième et troisième valeurs propres de NI est faible et joue peu ici). Pour ce troisième groupe, un calcul simple est possible car les facteurs de l’AFM coïncident, au rang près, à ceux de son ACP séparée : l’axe 2 (resp. 3) de l’AFM coïncide avec l’axe 2 (resp. 1) de l’ACP séparée du groupe 3. Ainsi, entre les axes 2 et 3, le carré du rapport des coordonnées des individus s’exprime simplement en fonction des valeurs propres de l’AFM et de celles de l’ACP du groupe 3. Soit, numériquement, puisque λ31 = 1 , λ32 = 1/4 , λ2 = 1.25 et λ3 = 10/9 :
10.3.3
F2 (i) F1 (i)
F3 (i) F2 (i)
2
2
"
√ #2 9 2 5 λ2 λ31 5 9 = √ = = 4. λ3 λ32 4 10 10 3 "
Résultats de l’APG
Inerties projetées du nuage moyen Par construction ce nuage est contenu dans un plan. Les pourcentages d’inertie projetée sont 63.5 % et 36.5 %.
Représentation des individus Chaque nuage NIj est parfaitement représenté (cf. figure 10.6). Bien évidemment, les points homologues ne se superposent pas exactement puisque les données ne respectent pas le modèle procustéen. A la différence des NIj , le nuage moyen ne
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 208 — #216
i
208
i
Analyse factorielle multiple avec R
possède aucune symétrie : les individus y jouent des rôles différents. Cela n’est évidemment pas conforme aux données. F2
C1 A1
C3 C B2
A
C2 B3
F1 A2
B
A3
D2
D D1
D3 B1
Fig. 10.6 – APG : représentation superposée. Cela étant, on retrouve les grandes lignes du premier plan de l’AFM, à savoir un premier axe qui oppose globalement {A, B} à {C, D} et un second qui oppose globalement {A, C} à {B, D}. Indicateurs d’adéquation au modèle procustéen La décomposition de l’inertie totale en inertie inter et inertie intra est examinée globalement, et à son tour décomposée de différentes façons (tableau 10.4). L’inertie totale est fixée à 100. Décomposition globale. Elle met en évidence une inertie inter : – sensiblement inférieure à 100 : le modèle procustéen est loin d’être vérifié ; – sensiblement supérieure à 100/3 : les trois nuages ont des éléments de structure en commun. Décomposition par dimension. Le pourcentage d’inertie inter est à peu près le même pour les deux dimensions. Décomposition par groupe. Le nuage moyen (qui s’interprète comme la structure commune mise en évidence) s’apparente surtout aux groupes 1 et 2 et beaucoup moins au groupe 3 (plus forte inertie intra pour ce groupe). Cette décomposition suggère que les groupes 1 et 2 se ressemblent plus entre eux qu’ils ne ressemblent au groupe 3. Cela est visible dans les données (figure 10.3) et en AFM (tableau 10.3 :
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 209 — #217
i
Chapitre 10. AFM et analyse procustéenne
i
209
la direction commune entre NI1 et NI2 est une direction d’inertie maximum). Décomposition par individu. Les différentes représentations des individus A et C sont très regroupées autour de leur centre de gravité ; inversement celles de l’individu B sont très écartées. Cela suggère que l’individu B joue un rôle particulier dans les données, ce qui est contradictoire avec les inerties identiques des individus. De fait, si l’on permute dans la configuration de l’APG, d’une part les individus A et D et d’autre part les individus B et C, on obtient une solution aussi bonne que la précédente mais qui suggère cette fois que c’est l’individu C qui est très particulier. Décomposition globale par dimension 1 2 par groupe 1 2 3 par individu A B C D
I. inter 58.3
I. intra 41.7
totale 100
37.0 (58%) 21.3 (56%)
26.2 15.5
63.3 (100%) 37.7 (100%)
13.3 (29%) 9.6 (38%) 18.8(65%)
45.9 (100%) 25.5 (100%) 28.7 (100%)
4.4 23.6 3.6 10.1
25 25 25 25
20.6 1.4 21.4 15.0
Tableau 10.4 – APG : décompositions de l’inertie totale. Conclusion Dans cet exemple de très faible dimension, le caractère contraignant du modèle pèse lourdement dans l’APG de données qui ne vérifient pas le modèle procustéen. Les spécificités des groupes gênent une mise en évidence claire des structures communes.
10.4
Application aux dix vins de Touraine
R Ces données ont été analysées dans le chapitre 7. Dans cette épreuve de Napping , onze dégustateurs ont fourni chacun une configuration plane de dix vins. On est ici dans une véritable situation d’APG. En effet, les configurations initiales étant planes, elles peuvent être parfaitement représentées sur un plan. Alors que, lorsque ces configurations ont plus de deux dimensions, l’intérêt de la contrainte de l’APG de non-déformation de ces configurations dans la recherche d’une représentation superposée n’est pas clair puisque, in fine, on ne pourra pas représenter les configurations sans déformation.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 210 — #218
i
210
i
Analyse factorielle multiple avec R
Nous ne reproduisons pas la superposition des dix configurations car elle est très touffue et n’intéresse vraiment que l’utilisateur qui connaît bien les dégustateurs. La configuration moyenne issue de cette APG (figure 10.7) est très proche de celle issue de l’AFM (figure 7.6) : le RV entre ces deux configurations planes vaut .906. Plus en détail, ces deux représentations ont presque le même premier axe, ce qui n’est pas le cas du second (cf. tableau 10.5). Il en résulte, en particulier, que la première bissectrice ne sépare plus clairement les deux cépages.
AFM1 AFM2 AFM3 APG1 APG2
AFM1 39.39% 0.0000 0.0000 -0.9917 -0.0581
AFM2
AFM3
APG1
APG2
26.68% 0.0000 0.0147 -0.8734
11.45% 0.0716 -0.4381
73.15% 0.0000
26.85%
Tableau 10.5 – Coefficients de corrélation entre les facteurs de l’AFM et ceux de l’APG. Sur la diagonale figurent les pourcentages d’inertie associés aux facteurs.
F2 (27.21%)
10 V Font coteaux 7 V Aub. marigny
2 T renaudie
3 T Trotignon 1 T Michaud 4 T Buisse domaine F1 (72.79%)
6 V Aub. silex 5 T Buisse cristal
8 V Font. domaine 9 V Font. Brûlés
Fig. 10.7 – APG : représentation du nuage moyen. Le deuxième axe de l’APG isole (des autres), en les rapprochant (entre eux), les vins 5, 6, 8 et 9 : il ne semble pas interprétable. En AFM, les vins 8 et 9 contribuent majoritairement au 2e axe (60 %) et les vins 5 et 6 contribuent majoritairement au 3e axe (73 %). A la différence de l’AFM, l’APG ne dispose (dans cette application) que de deux dimensions. D’où ce deuxième axe de l’APG difficile à interpréter. L’impossible compromis (en gros entre les axes 2 et 3 de l’AFM) réalisé par le 2e axe de l’APG se traduit aussi par une différence d’inertie, avec le premier axe, très forte comparée à celle de l’AFM.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 211 — #219
i
i
Chapitre 10. AFM et analyse procustéenne
211
On retrouve donc, dans cette application sur données réelles, l’inconvénient de l’APG mis en évidence sur les données 23−1 . En fait, l’intérêt de l’APG réside dans la représentation superposée. Le nuage moyen n’est qu’un intermédiaire de calcul et son intérêt en tant que nuage moyen est limité. De son côté, la représentation superposée de l’AFM déforme les nuages partiels R où chaque (cf. 5.5) ce qui est gênant dans une application comme le napping dégustateur attend de retrouver exactement sa nappe. D’où l’idée de l’AFM procustéenne (AFMP) qui, à partir de la configuration moyenne de l’AFM, effectue une rotation procustéenne de chaque configuration partielle sur cette configuration moyenne. A titre d’exemple, la figure 10.8 montre le graphique du résultat de l’AFMP pour les nappes 8 et 9. Il s’agit donc d’une rotation procustéenne appliquée aux configurations de la figure 7.5 pour les faire coïncider autant que possible avec la configuration des vins de la figure 7.6.
Y8 V Font. Brules
4
4
Y9 1 T Michaud
2
6 V Aub. Silex
5 T Buisse Cristal
-2
0
6 V Aub. Silex 4 T Buisse Domaine
5 T Buisse Cristal 4 T Buisse Domaine V Aub. Marigny 1 T Michaud 1 T Michaud 10 V Font Coteaux 10 V Font Coteaux 3 T Trotignon 3 T Trotignon
-4
3 T Trotignon V Aub. Marigny 10 V Font Coteaux 4 T Buisse Domaine 2 T Renaudie 8 V Font. Domaine V Aub. Marigny 1 T Michaud 6 V Aub. Silex 10 V Font Coteaux 3 T Trotignon 2 T Renaudie
Dim 2
5 T Buisse Cristal
0
4 T Buisse Domaine
2 T Renaudie
-2
0
2
4
6
Dim 1 RV between the mean representation and the representation of Y9 : 0.6697
V Aub. Marigny
2 T Renaudie
X8
-4
X9 -4
8 V Font. Domaine
8 V Font. Domaine 6 V Aub. Silex
-2
2
5 T Buisse Cristal
Dim 2
V Font. Brules
V Font. Brules 8 V Font. Domaine V Font. Brules
-4
-2
0
2
4
Dim 1 RV between the mean representation and the representation of Y8 : 0.6386
Fig. 10.8 – AFMP : représentation des nappes 8 et 9 sur la configuration moyenne de l’AFM.
On ne sera pas surpris de voir la plus grande dimension de la nappe 9 (resp. 8) coïncider (à peu près) avec le premier (resp. second) axe : cela en accord avec la représentation des dégustateurs fournie par l’AFM (figure 7.6 à droite). Le dégustateur 9 (resp. 8) accorde une grande importance (au sens du modèle Indscal) à la dimension illustrée par le premier (resp. deuxième) axe de l’AFM. Cela illustre bien un avantage maintes fois cité dans cet ouvrage, c’est-à-dire le fait que chaque point de vue de l’AFM (ici celui de la représentation superposée, c’est-à-dire celui de l’APG) est relié aux autres points de vue (celui d’Indscal dans le commentaire ci-dessus).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 212 — #220
i
212
10.5
i
Analyse factorielle multiple avec R
Conclusion
Fondamentalement, AFM et APG sont des méthodes différentes qui n’ont pas les mêmes objectifs. En particulier, l’APG construit une représentation des données dans un cadre très contraignant (chaque dimension est commune à tous les groupes). Il semble donc, en première analyse, que l’APG doive être réservée à des applications très particulières. Concrètement, l’APG fournit une représentation exacte des NIj . Le nuage moyen n’est qu’un intermédiaire pour obtenir cette représentation superposée. Sa représentation peut exprimer imparfaitement une structure commune si elle s’accompagne de structures spécifiques. L’utilisation de l’APG dans le but principal d’obtenir une configuration moyenne n’est pas recommandée. De son côté, l’AFM est axée sur la représentation du nuage moyen et en donne une représentation qui bénéficie pleinement de la dualité de l’analyse factorielle. En revanche, la représentation des NIj subit des distorsions. En pratique, la recherche de dimensions communes à des groupes de variables s’effectue souvent sur des données comportant, outre quelques dimensions communes, un assez grand nombre de dimensions à la fois non communes et d’inertie peu importante. Dans de telles situations, la contrainte de l’APG n’est pas gênante puisque les dimensions non communes qu’elle superpose concernent des dimensions d’inertie peu importante qui ne sont pas examinées. Cela explique la convergence des résultats que l’on peut observer en pratique pour le premier plan.
10.6
APG dans FactoMineR
Nous utilisons ici les données 23−1 . La mise en œuvre de l’APG via R Commander ne présente pas de particularités et l’utilisateur de l’AFM n’éprouvera aucune difficulté. Les valeurs par défaut des paramètres de l’algorithme conviennent (presque) toujours en pratique. Nous donnons ci-après quelques lignes de commande utilisées pour ce chapitre : # Lecture et vérification des données > D2=read.table("DON2(3-1).csv",header=T,sep=";",row.names=1) > D2 X1 Y1 X2 Z2 Y3 Z3 A 6 6 6 -2 3 -6 B 6 -6 6 2 -3 6 C -6 6 -6 2 3 6 D -6 -6 -6 -2 -3 -6 Comme pour l’AFM, les variables d’un même groupe doivent être consécutives dans le fichier et la définition des groupes se fait par leur nombre de variables. Seules les variables quantitatives sont autorisées. Les données sont toujours cen-
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 213 — #221
i
Chapitre 10. AFM et analyse procustéenne
i
213
trées. La réduction est sur option mais s’applique à tous les groupes de la même manière. Dans l’exemple, il ne faut pas réduire les variables : > res=GPA(D2,group=c(2,2,2),scale=F) Par défaut, cette instruction affiche les points moyens et partiels « en étoile ». Elle correspond à la fonction plot.GPA, toutes options choisies par défaut, soit : > plot.GPA(res) On choisit généralement la couleur des points partiels selon les groupes, soit : > plot.GPA(res,hab="group") Le graphique ainsi produit a servi de base pour réaliser la figure 10.6 page 208 à l’aide d’un logiciel de dessin. La liste res contient les différentes décompositions de l’inertie. On obtient les valeurs brutes du tableau 10.4 page 209 à l’aide du code suivant. # > # > > + # # # > # > # > # >
Initialisation du tableau tab10_4 tab10_4=matrix(nrow=10,ncol=3) Choix des libellés des lignes et des colonnes colnames(tab10_4)=c("I. inter","I. intra","I. totale") row.names(tab10_4)=c("Globale","Dim1","Dim2","G1","G2","G3", "A","B","C","D") Les différentes décompositions de l’inertie sont dans des tableaux de la liste res$PANOVA Par dimension tab10_4[1:3,]=res$PANOVA$dimension[c(3,1,2),] Par groupe tab10_4[4:6,]=res$PANOVA$config[1:3,] Par individu tab10_4[7:10,]=res$PANOVA$objet[1:4,] Edition round(tab10_4,1)
AFM procustéenne (AFMP ; figure 10.8) Il s’agit d’une méthode dont le domaine d’application est très spécialisé : celui du recueil de données sensorielles par napping. Aussi cette méthode n’est pas disponible dans FactoMineR. En revanche, elle est disponible dans SensoMineR, package dédié à l’analyse de données sensorielles et lui aussi développé par le laboratoire de mathématiques d’Agrocampus. Dans ce package, l’AFMP est disponible via la fonction pmfa. Cette fonction s’applique à un tableau de données de même format que celui de l’AFM avec comme contrainte que chaque groupe est composé de deux variables quantitatives (consécutives) et qu’il n’y a pas de variables supplémentaires. Dans le cas des vins de Touraine (cf. 10.4 et 7.6.4) cela implique de
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 214 — #222
i
214
i
Analyse factorielle multiple avec R
dupliquer l’unique coordonnée du dégustateur 10. Ces contraintes permettent de mettre en œuvre la fonction avec toutes les options par défaut : # > # # # > >
Importation des données : nappes vins de Loire nappes=read.table("nappes.csv",header=TRUE,sep=";",row.names=1) AFMP Chaque nappe doit avoir 2 dimensions d’où la dupplication de la colonne 19 (nappe 10) library(SensoMineR) res=pmfa(nappes[,c(1:19,19:21)])
Ci-après, le code utilisé pour le traitement en APG de ces données (figure 10.7 et tableau 10.5). # > > # > # # >
APG library(FactoMineR) res=GPA(nappes[,c(1:21)],group=c(rep(2,9),1,2),scale=FALSE) Figure 10.7 plot(res,partial="none") Les inerties par dimension sont dans res$PANOVA$dimension Pour avoir les % d’inertie de la représentation du nuage moyen res$PANOVA$dimension[1:2,1]/res$PANOVA$dimension[3,1]*100
# # > + > > > # > > + > >
Tableau 10.5 Concaténation des 3 premiers facteurs de l’AFM et des 2 de l’APG resafm=MFA(nappes[,c(1:19,19:21)],group=rep(2,11), type=rep("c",11),graph=F) comp=cbind(resafm$ind$coord[,1:3],res$consensus) colnames(comp)=c("AFM1","AFM2","AFM3","APG1","APG2") Tab10_5=cor(comp) Pourcentages d’inertie sur la diagonale pourcentafm=resafm$eig[1:3,2] pourcentapg=res$PANOVA$dimension[1:2,1]/res$PANOVA$dimension[3,1] *100 diag(Tab10_5)=c(pourcentafm,pourcentapg) round(Tab10_5,4)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 215 — #223
i
i
Chapitre 11
Analyse factorielle multiple hiérarchique L’analyse factorielle multiple hiérarchique (AFMH) est l’extension la plus directe de l’AFM : elle traite des tableaux dans lesquels les variables sont structurées selon une hiérarchie, c’est-à-dire, en pratique, une suite de partitions emboîtées. Dans un premier temps, on peut être tenté de penser qu’il ne s’agit là que d’une curiosité. Il n’en est rien et le potentiel d’application de l’AFMH est considérable. La raison en est la complexité croissante des données que les utilisateurs souhaitent analyser simultanément.
11.1
Données, exemples
On rencontre assez souvent des tableaux individus × variables que l’on souhaite analyser au travers d’une structure sur les variables plus complexe qu’une simple partition. Pour illustrer ce point, reprenons l’exemple des jus d’orange. En fait, dans ces données, outre les mesures chimiques et sensorielles, on dispose des notes d’appréciation globale (dites « jugements hédoniques » dans le monde de l’analyse sensorielle) de chacun des six jus fournies par 96 consommateurs. On attend de ces nouvelles données qu’elles indiquent quels sont les jus qui sont appréciés des mêmes consommateurs. En reprenant la terminologie utilisée dans la présentation de la problématique de l’ACP, on appelle « profil hédonique » d’un produit l’ensemble des notes d’appréciation qu’il a obtenu. Ce tableau doit donc permettre de mettre en évidence des jus ayant des profils hédoniques semblables (quand on apprécie l’un, on apprécie l’autre) ou opposés (quand on apprécie l’un, on n’apprécie pas l’autre). Ces notes peuvent être présentées dans un tableau ayant en lignes les six jus, en colonnes les consommateurs, avec, à l’intersection de la ligne i et de la colonne k, la note donnée par le consommateur k au produit i. Présenté ainsi, c’est-à-dire les produits étant associés aux lignes d’un tableau,
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 216 — #224
i
216
i
Analyse factorielle multiple avec R
ces données peuvent être juxtaposées aux données chimiques et sensorielles. On dispose finalement d’un tableau ayant 8+7+96=111 colonnes. On peut songer à réaliser une AFM de ce tableau, les trois groupes de variables étant introduits en actif. Mais cette méthodologie fait jouer le même rôle à chacun des trois groupes, ce qui ne correspond pas parfaitement aux questions de l’utilisateur. Ce dernier cherche avant tout à relier les jugements hédoniques aux caractéristiques des produits, que ces caractéristiques soient approchées par des mesures chimiques ou des descripteurs sensoriels. Ce point de vue suggère la structure hiérarchique sur les données illustrée figure 11.1. L’objet de ce chapitre est d’expliciter ce que signifie la prise en compte d’une structure hiérarchique sur les variables.
1 Jugements hédoniques (96 variables) ACP : λ1= 34.0281
2 Caractérisation des produits AFM : λ1= 1.7852
2-1 Mesures chimiques (8 variables) ACP : λ1= 6.2125
2-2 Description sensorielle (7 variables) ACP : λ1= 4.7437
Fig. 11.1 – Structure des données. Les nœuds de l’arbre sont numérotés comme les chapitres d’un livre (cf. texte). Pour chacun, on mentionne la méthode (ACP ou AFM) correspondant à l’analyse des variables rassemblées par le nœud, ainsi que sa première valeur propre.
Les données « bac », utilisées pour illustrer l’ACP au chapitre 1, fournissent un second exemple d’une hiérarchie sur les variables. En fait, dans ces données, on dispose pour chaque élève, outre ses notes au bac, de ses notes, dans les mêmes cinq matières, obtenues pendant l’année à chacun des trois trimestres. Le tableau complet des données comporte donc 5 (matières) × {1 (bac) + 3 (trimestres)} = 20 colonnes. De nombreuses analyses sont possibles et intéressantes sur ces données. Un point de vue global consiste à prendre en compte la hiérarchie sur les variables qui sépare d’abord les cinq notes au bac des quinze notes trimestrielles et, au sein de ces quinze dernières, les trois blocs de cinq notes trimestrielles. Ces deux exemples illustrent une source importante de problématiques associées à une hiérarchie sur les variables : le recueil, pour un même ensemble d’individus statistiques, de données de différents types. Une autre source est fournie par les enquêtes : les questionnaires sont fréquemment structurés en thèmes et sous-thèmes, structure qu’il peut être intéressant de prendre en compte dans l’analyse.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 217 — #225
i
i
Chapitre 11. Analyse factorielle multiple hiérarchique
11.2
217
Hiérarchie et partitions
La figure 11.2 contient deux représentations d’une même hiérarchie définie sur un même ensemble de sept variables {X1 , . . . , X7 }. Dans ces graphiques, un nœud est représenté par un segment horizontal. Le segment le plus élevé représente le nœud dit « sommital ». P1 1
P1 1-1
P2
1-2
2 P3 2-1 P4
1-1
1-2
P2
2-2 2-5
2-1
1-3
P5 X1
X2
X3
X4
X5
X6
X7
X1
2-2 2-3 X 2 X3 X 4
2-4 X5 X6
X7
Fig. 11.2 – Deux représentations d’une même hiérarchie sur sept variables. Dans notre contexte, il est commode de voir une hiérarchie comme une suite de partitions emboîtées, sachant que, en pratique, on ne s’intéresse qu’à certaines de ces partitions. Cela est illustré figure 11.2, qui met en évidence deux suites de partitions à partir d’une même hiérarchie. Dans nos applications, les hiérarchies ne sont pas indicées : comme le montre la figure 11.2, introduire graphiquement des indices à chaque nœud permet de visualiser une suite de partitions particulière. Ces considérations ne sont pas purement formelles. En pratique, c’est-à-dire dans la fonction réalisant une AFMH dans le package FactoMineR, la hiérarchie est introduite via une succession de partitions emboîtées. Les résultats concernant les nœuds sont fournis selon cette succession. Concrètement, dans la figure 11.2, la succession de gauche permet de détailler les composants du nœud 1 (X1 , X2 , X3 , X4 ) sans détailler ceux du nœud 2 (X5 , X6 , X7 ) (partition P 2), ce qui n’est pas le cas de la succession de droite. Cet aspect est surtout important dans les graphiques, vite encombrés, représentant les individus partiels (voir plus loin). Nous verrons que, dans la procédure de calcul ainsi que dans celle de la définition de la hiérarchie, on procède de bas en haut, depuis la partition la plus fine jusqu’à la partition la plus grossière. Mais, dans l’analyse des résultats, on procède de la façon inverse, de haut en bas. Il est donc commode de numéroter les partitions en partant du haut (cf. figure 11.2). Dans l’interprétation, on fait constamment référence aux groupes de variables définis dans l’arbre, c’est-à-dire aux nœuds de l’arbre. Il est donc nécessaire de les étiqueter. Deux systèmes d’étiquetage sont possibles, sachant que le nœud sommital, qui regroupe toutes les variables, n’a pas besoin d’étiquette. Un premier système (figure 11.2 à droite) est fondé sur les partitions. Un nœud reçoit une étiquette concaténant le rang de la partition qui le définit, suivi d’un
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 218 — #226
i
218
i
Analyse factorielle multiple avec R
numéro d’ordre (arbitraire) dans cette partition. 2-1 : premier nœud de la partition de niveau 2. Un second système (figure 11.2 à gauche et figure 11.1) exprime le chemin entre le nœud sommital et un nœud donné (à la manière de la numérotation des parties d’un livre). 2.1 : premier nœud dépendant (directement) du nœud 2 (lui-même directement attaché au nœud sommital).
11.3
Pondération des variables
En AFM, prendre en compte une partition sur les variables implique en premier lieu d’équilibrer le rôle des groupes dans une analyse globale. Cette idée se transpose dans le cas d’une hiérarchie sur les variables : prendre en compte cette hiérarchie implique, pour chaque nœud, d’équilibrer le rôle des groupes de variables descendants directs de ce nœud. Ainsi, dans les données « jus d’orange », il convient d’abord d’équilibrer entre eux les groupes « chimie » et « sensoriel ». Cet équilibre doit être fait au sens de l’AFM, c’est-à-dire en rendant l’inertie axiale maximum égale à 1. Dans un premier temps, on affecte donc à ces variables leur poids dans l’AFM de ces deux groupes (i.e. l’inertie de la première valeur propre de l’ACP de leur groupe ; λn1 : première valeur propre de l’analyse du nœud n) soit, pour une variable sensorielle (appartenant au nœud 2-2 ; cf. figure 11.1) 1/λ2-2 = 1/4.7437 = .2108 et, pour une variable 1 chimique (appartenant au nœud 2-1), 1/λ2-1 1 = 1/6.2125 = .1610. En outre, il convient d’équilibrer entre eux les groupes « caractérisation » et « jugements hédoniques ». Pour cela, les jugements hédoniques (nœud 1) seront pondérés par 1/λ11 = 1/34.0281 = 0.02939 ; les variables de caractérisation seront quant à elles surpondérées par l’inverse de la première valeur propre de leur AFM, soit 1/λ21 = 1/1.7852 = .5602. « Surpondérées » car ces variables sont déjà pondérées dans l’AFM associée au nœud 1. Finalement, les poids associés aux variables de caractérisation sont : – pour les variables chimiques : 1/λ2-1 1/λ21 = .0902 1 – pour les variables sensorielles : 1/λ2-2 1/λ21 = .1181 1 En utilisant ces poids dans l’analyse d’ensemble : – les groupes « caractérisation » et « jugements hédoniques » sont équilibrés entre eux au sens de l’AFM (au plein sens du terme, les inerties axiales maximum de chaque groupe sont égales à 1) ; – les groupes « chimie » et « sensoriel » sont équilibrés entre eux au sens de l’AFM (au sens restreint du terme ; les inerties axiales maximum sont égales entre elles, mais pas à 1 – plus précisément à 1/λ21 ). De façon plus générale, considérons une variable k, de poids initial p0k (généralement p0k = 1) et la suite de nœuds ici notée {0, 1, ..., n, ..., N } (le nœud 0 correspond à la variable considérée isolément) qui la relie au nœud sommital. Soit λn1 la première valeur propre de l’analyse factorielle associée au nœud n. Dans le cas de variables quantitatives, cette analyse est une ACP si n = 1, une AFM si
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 219 — #227
i
i
Chapitre 11. Analyse factorielle multiple hiérarchique
219
n = 2 et une AFMH si n > 2. Le poids de la variable k dans l’analyse associée à un nœud quelconque n0 est : pnk 0 = p0k
n=n Y0
n=1
1 λn1
On note simplement pk le poids de la variable k dans l’analyse finale. Algorithme. On peut réaliser une AFMH à l’aide d’un programme d’AFM (et donc d’ACP). On explore l’arbre à partir du bas. Pour chaque nœud, on réalise l’AFM des variables qu’il regroupe et l’on remplace ces variables par les facteurs (non normés) de cette AFM. L’AFM associée au nœud sommital fournit les facteurs de l’AFMH. C’est d’ailleurs ainsi que procède l’AFMH dans FactoMineR. Le tableau 11.1 récapitule les décompositions de l’inertie dans l’AFMH des six jus d’orange. Cela illustre comment l’AFMH a équilibré l’influence des jugements hédoniques et de la caractérisation d’une part (lignes 3 et 4), de la chimie et du sensoriel d’autre part (deux dernières lignes). Cet équilibre est excellent pour le premier axe (.957 ≈ .976 et .449 ≈ .527). Pour les axes suivants, la prépondérance des jugements hédoniques dérive directement d’une répartition de l’inertie plus homogène dans ce groupe. n◦ AFMH 1 2 2-1 2-2
Jug. hédoniques Caractérisation Chimie Sensoriel
F1 1.934 (44.25%) 0.957 0.976 0.449 0.527
F2 0.775 (17.73%) 0.577 0.198 0.060 0.138
F3 0.648 (14.82%) 0.489 0.159 0.134 0.026
F4 0.512 (11.71%) 0.412 0.100 0.068 0.031
F5 0.501 (11.46%) 0.386 0.115 0.010 0.104
Tableau 11.1 – AFMH : décomposition de l’inertie par axe et par nœud.
11.4 11.4.1
Représentation des individus partiels Méthode
En AFM, le nuage (d’individus) partiel associé au groupe j (noté NIj ) est obtenu en projetant le nuage moyen (noté NI ) sur le sous-espace (de RK ) engendré par les variables du seul groupe j. Le même principe est adopté en AFMH, le rôle des groupes étant joué par les nœuds. Soit : le nuage partiel au nœud n (noté NIn et composé des individus partiels notés in ) est la projection de NI sur le sous-espace engendré par les variables dépendant du seul nœud n. Le nuage NIn étant défini, sa représentation est obtenue comme en AFM, à savoir par projection sur les axes principaux de NI . Cette représentation bénéficie des mêmes propriétés qu’en AFM, en particulier la relation de transition partielle
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 220 — #228
i
220
i
Analyse factorielle multiple avec R
qui exprime la coordonnée du point in en fonction des coordonnées des variables dépendant du nœud n. On adapte à l’AFMH les notations de l’AFM (cf. 5.2). Kn : ensemble des variables dépendant du nœud n. Fsn : facteur de rang s partiel au nœud n. Il contient les coordonnées des individus partiels in sur l’axe de rang s (du nuage moyen NI ). Son ie terme est noté indifféremment Fsn (i) ou Fs (in ). ˜ n : tableau des données dans lequel les variables qui ne dépendent pas du nœud X n sont remplacées par des 0 (comme les variables sont centrées, ce tableau contient les coordonnées de NIn dans RK ). M : métrique (diagonale) dans RK pour l’analyse globale. A la différence de l’AFM, les poids (pk ) des variables d’un groupe défini par un nœud ne sont en général pas identiques. Avec ces notations, la relation de transition partielle de l’AFM (page 102) se transpose directement, soit : 1 X xik pk Gs (k) . Fsn = Fs (in ) = √ λs k∈K n
La règle concrète d’interprétation qui découle de cette relation est la même qu’en AFM : sur les graphiques, l’individu partiel in est du côté des variables (du nœud n) pour lesquelles il a une forte valeur et à l’opposé des variables (du nœud n) pour lesquelles il a une faible valeur. La seule différence entre les deux relations est la présence de poids de variables (pk ) pas nécessairement constants au sein d’un nœud. Sur les graphiques de l’AFM, le point « moyen » i apparaît au barycentre des individus partiels (d’où le nom de point « moyen »). Pour obtenir cette propriété, le nuage NIj est dilaté avec le coefficient J (cf. 5.2). Cette propriété se transpose de la façon suivante en AFMH. Chaque point partiel in doit être au barycentre des points partiels qui dépendent directement du nœud n. Dans l’exemple des six jus d’orange : – le point moyen i doit être au barycentre de ses points partiels « caractérisation » et « jugements hédoniques » ; – le point partiel i « caractérisation » doit être au barycentre de ses points partiels « chimie » et « sensoriel ». Comme en AFM, cette propriété est obtenue en dilatant les nuages NIn . Pour les J nœuds dépendant du nœud sommital, la dilatation est effectuée comme en AFM avec le coefficient J. Pour les autres nœuds, il faut tenir compte des dilatations associées aux nœuds qui les relient au nœud sommital. Ainsi, dans l’exemple des jus d’orange, les points partiels « chimie » et « sensoriel » doivent être « dilatés » avec le coefficient 2 pour que le point partiel « caractérisation » soit à leur barycentre. Mais ce point partiel « caractérisation » a lui-même été « dilaté », avec le coefficient 2, pour que le point moyen i soit au barycentre de ses points partiels « caractérisation » et « jugements hédoniques ». Finalement, les nuages partiels « chimie » et « sensoriel » seront dilatés avec le coefficient 4=2×2. Plus généralement, en notant Jn le nombre de descendants directs du nœud n, c’està-dire le nombre d’éléments qui lui sont reliés directement, et An l’ensemble des
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 221 — #229
i
Chapitre 11. Analyse factorielle multiple hiérarchique
i
221
ascendants du nœud n (y compris le nœud sommital), le coefficient de dilatation de NIn vaut : Y Jn n∈An
11.4.2
Application aux six jus d’orange
La figure 11.3 représente les points partiels, uniquement pour les nœuds « jugements hédoniques » et « caractérisation » ; la figure 11.4 fait apparaître les aspects « chimiques » et « sensoriels ». Dim 2 (17.75 %) h
P6 Pampryl fr.
h h
c
P3 Fruivita fr. P5 Tropicana fr.
c
c c
c P4 Joker amb. h P1 Pampryl amb.
Dim 1 (44.25 %) h c
P2 Tropicana amb.
h
Fig. 11.3 – AFMH : représentation des points partiels correspondant aux nœuds « caractérisation » (c) et « jugements hédoniques » (h) sur le premier plan.
Dim 2 (17.75 %) h s P6 c
ch
h h P3 s P5
ch ch
c s
c P4 P1 h
c ch
h s
Chimie : ch Sensoriel : s Hédonique : h Caractérisation : c
s
c ch
c
s
Dim 1 (44.25 %) ch
P2 h
Fig. 11.4 – Représentation de tous les points partiels.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 222 — #230
i
222
i
Analyse factorielle multiple avec R
Remarquons d’emblée que la représentation des individus moyens issue de l’AFMH est très proche de celle obtenue avec l’AFM des seules données de caractérisation (cf. figure 4.4) et supporte donc, du point de vue sensoriel et chimique, la même interprétation (cf. la représentation des variables de la figure 4.4). L’aspect nouveau ici provient des jugements hédoniques : l’opposition « jus doux » ↔ « jus durs » est corrélée à beaucoup de jugements hédoniques. On peut même aller plus loin : la projection des axes des analyses séparées des nœuds (figure 11.5) montre que ce premier facteur de l’AFMH est très proche du premier facteur de l’ACP des seuls jugements hédoniques (le coefficient de corrélation entre ces deux facteurs vaut .957). Cette convergence entre principales dimensions de la caractérisation d’une part et des jugements hédoniques d’autre part est tout à fait remarquable. F2_C F2_AFMH F2_S
F1_Ch F1_H F1_S
F1_C
F1_AFMH.1
Dim 2 (17.75%)
F2_Ch
Dim 1 (44.25%)
F2_H
Fig. 11.5 – Représentation des axes des analyses séparées des nœuds. H : jugements hédoniques ; C : caractérisation ; Ch : chimie ; S : sensoriel. La représentation superposée montre que, du point de vue du premier axe (opposition « jus doux » ↔ « jus durs ») : – les jus 2, 3 et 5 sont équivalents du point de vue « caractérisation » ; cela se retrouve dans l’AFM des seules données de caractérisation (figure 4.4) ; – les jus 3 et 5 sont beaucoup plus caractéristiques que le 2 du point de vue « jugements hédoniques » ; (par rapport à 3 et 5) ce dernier a donc été beaucoup moins apprécié par les amateurs de jus doux et/ou beaucoup moins mal noté par les amateurs de jus durs (cela est bien visible sur l’ACP des seules notes hédoniques, non reproduite ici). Cette homogénéité des caractérisations des jus 2, 3 et 5 masque des disparités lorsque l’on détaille les aspects chimiques et sensoriels (figure 11.4). Le jus 2 est plus caractéristique d’un jus doux d’un point de vue chimique que sensoriel. C’est
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 223 — #231
i
Chapitre 11. Analyse factorielle multiple hiérarchique
i
223
l’inverse pour le jus 3. Cette observation correspond bien au plan de l’AFM sur les seules données des caractérisations (figure 4.4). On retiendra de cette illustration que les règles d’interprétation de la représentation des points partiels en AFMH sont identiques à celles de l’AFM.
11.5
Coefficients de corrélation canoniques
De même qu’en AFM, il est utile de disposer d’une mesure de ressemblance entre la représentation du nuage moyen et celle de chaque nuage partiel. Ainsi, on peut calculer le coefficient de corrélation entre Fs et Fsn pour tout n et tous les premiers axes. On obtient ainsi le tableau 11.2, analogue du tableau 6.1 en AFM.
Jug. hédoniques Caractérisation Chimie Sensoriel
F1 0.989 0.990 0.902 0.972
F2 0.994 0.952 0.492 0.913
F3 0.967 0.776 0.623 0.400
F4 0.997 0.958 0.550 0.281
F5 0.994 0.938 0.325 0.871
Tableau 11.2 – Coefficients de corrélation canoniques. Les deux premières lignes rappellent à l’utilisateur les problèmes liés aux dimensions de ces données, à savoir le faible nombre d’individus en regard du nombre de variables. Ce problème est particulièrement flagrant pour le nœud « jugements hédoniques » (96 variables dans un espace à 5 dimensions) dont les cinq coefficients sont supérieurs à .966 : quelle que soit la direction, on trouve une combinaison linéaire des jugements hédoniques qui lui correspond. Cela vaut encore, de façon atténuée, pour le nœud caractérisation (15 variables). Enfin, les deux dernières lignes de ce tableau ressemblent à celles du tableau 6.1 de l’AFM de la seule caractérisation. Finalement, le premier facteur est commun aux données hédoniques, chimiques et sensorielles ; le second aux seules données hédoniques et sensorielles.
11.6
Représentation des nœuds
En AFM, la représentation des groupes de variables (dite « carré des liaisons » ; cf. 7.2 page 131) présente une propriété intéressante : la coordonnée d’un groupe actif j le long de l’axe s s’interprète à la fois comme la mesure Lg de liaison entre le groupe j et le se facteur, et comme la contribution du groupe j à la construction de l’axe de rang s. En AFMH, cette propriété n’existe que pour les nœuds rattachés directement au nœud sommital (l’AFMH repose sur une AFM de ces nœuds). Pour les autres, ces deux notions ne coïncident pas. Dans ce type de graphiques, il est naturel de privilégier la notion de liaison, ne serait-ce que pour permettre de représenter des
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 224 — #232
i
224
i
Analyse factorielle multiple avec R
Dim 2 (17.75 %)
0.8
1.0
éléments supplémentaires. En outre, avec ce point de vue, on représente au même endroit un ensemble de variables qui apparaîtrait deux fois dans la hiérarchie.
0.4
0.6
Jug. hédoniques
0.2
Sensoriel Caractérisation
0.0
Chimie
Dim 1 (44.25 %) 0.0
0.2
0.4
0.6
0.8
1.0
Fig. 11.6 – Représentation des nœuds (carré des liaisons). Dans l’exemple des six jus d’orange, cette représentation (figure 11.6) montre que : – le premier axe correspond à une direction d’inertie importante de chacun des nœuds ; cela n’est pas une nouveauté : nous avons déjà indiqué la forte corrélation entre cet axe et les premières composantes des analyses séparées des nœuds ; – le deuxième axe est plus lié aux jugements hédoniques qu’à la caractérisation ; cela est lié à la plus forte dimensionnalité des jugements hédoniques (cf. tableau 11.1) : la caractérisation (et a fortiori ses deux aspects), ayant une dimension prépondérante liée au premier axe, ne peut être fortement liée, au sens du Lg, à d’autres dimensions ; – la plus forte liaison du groupe sensoriel, par rapport à la chimie, avec le premier axe. Dans l’AFM sur les seules données de caractérisation (cf. figure 7.2 et tableau 4.5) cette liaison était au même niveau ; on peut voir dans cette AFMH l’influence des données hédoniques, plus directement liées aux données sensorielles qu’aux données chimiques (cf. tableau 11.3) : 0.8197 > 0.6576 RV AFM ch. + sensoriel Jug. hédoniques Chimie Sensoriel
AFM ch. + s. 1.0000 0.8245 0.8938 0.9011
Jug. hédoniques
Chimie
1.0000 0.6576 0.8197
0.6109
Tableau 11.3 – Coefficients RV entre les nœuds.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 225 — #233
i
Chapitre 11. Analyse factorielle multiple hiérarchique
11.7
11.7.1
i
225
Application à des données mixtes : R catégorisé le napping Données et méthodologie
En évaluation sensorielle, le recueil des données classique consiste à faire évaluer, par des juges (i.e. des dégustateurs), un ensemble de produits à l’aide d’un ensemble de descripteurs (i.e. des variables). Cela permet la caractérisation sensorielle de produits : tel produit est perçu acide, peu amer, etc. Dans cette approche classique, l’importance des descripteurs dans la formation d’un jugement global de dégustateurs n’apparaît pas. Pour accéder aux importances des critères, on peut recourir aux méthodes dites holistiques, dans lesquelles les juges évaluent directement les ressemblances entre produits, et ce chacun selon ses propres critères. Trois méthodes sont disponibles. La catégorisation. Chaque juge fournit une partition des produits telle que, à l’intérieur d’une classe les produits se ressemblent (selon lui) et d’une classe à l’autre les produits diffèrent. Dans ce mode de recueil, les données d’un juge consistent en une variable qualitative (définie sur les produits). R Chaque juge fournit une représentation plane des produits telle Le napping . que deux produits sont d’autant plus proches (resp. éloignés) qu’ils se ressemblent (resp. diffèrent). A l’origine, chaque juge disposait physiquement les produits sur une grande feuille de papier 40 cm × 60 cm (une nappe, d’où le terme « napping » ; en pratique, le terme « nappe » désigne une configuration des produits fournie par un juge). Actuellement, cette opération est souvent réalisée sur un écran (à l’aide d’un logiciel, le juge place sur l’écran des icônes représentant les produits). Dans ce mode de recueil, les données d’un juge consistent en un couple de variables quantitatives (les coordonnées des produits). Pour que les distances soient respectées, il est indispensable de ne pas normer les variables dans l’analyse de ces données. R catégorisé » regroupe les deux démarches. Après avoir disposé Le « napping les produits sur la nappe, le juge regroupe ensemble les produits qui lui paraissent particulièrement proches. Dans ce mode de recueil, les données d’un juge comportent trois variables (l’ensemble de ces trois variables constitue une « nappe catégorisée ») : un couple de variables quantitatives (qui constitue ce que nous appellerons la nappe stricto sensu) et une variable qualitative (la catégorisation).
Pour illustrer l’analyse factorielle de telles données, nous utilisons un petit exemple comportant deux nappes catégorisées (tableau 11.4 et figure 11.7).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 226 — #234
i
226
i
Analyse factorielle multiple avec R Iden. a b c d e f Variance
X1 10 20 20 40 40 50 200
Y1 10 10 30 30 10 10 88.9
C1 C1_1 C1_1 C1_2 C1_2 C1_3 C1_3 -
X2 10 10 20 40 40 50 200
Y2 10 20 30 30 10 10 80.6
C2 C2_1 C2_1 C2_1 C2_2 C2_2 C2_2 -
Tableau 11.4 – Deux nappes catégorisées. X1 : dimension horizontale du juge 1 (en cm). C2_1 : groupe 1 de la catégorisation du dégustateur 2 (qui contient les individus a, b et c).
2
40
Nappe catégorisée 1 (AFM)
d
b
e
d
Y1 20
Dim 2 (41.94 %) 0 1
30
c c
10
a
f b
e
f
0
-1
a
0
10
20
30 X1
40
50
-2
60
-1
0 Dim 1 (54.17 %)
1
2
1.5
40
Nappe catégorisée 2 (AFM)
d
1.0
30
c
d
Dim 2 (13.57 %) 0.0 0.5
c
e
f
40
50
b f
e a
0
-1.5
-1.0
10
a
-0.5
Y2 20
b
0
10
20
30 X2
60
-1.5
-1.0
-0.5
0.0 0.5 Dim 1 (84.51 %)
1.0
1.5
2.0
Fig. 11.7 – Deux nappes catégorisées. Nappes « brutes » (à gauche) ; nappes vues par leur AFM (dites nappes catégorisées, à droite). L’objectif d’une analyse factorielle sur ce type de données est d’obtenir des représentations graphiques des objets en jeu, à savoir des individus, des variables
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 227 — #235
i
Chapitre 11. Analyse factorielle multiple hiérarchique
i
227
quantitatives, des modalités de variables qualitatives et des nappes catégorisées. Pour réaliser cette analyse, il est nécessaire d’équilibrer : – les deux nappes catégorisées entre elles ; – la nappe stricto sensu et la catégorisation au sein de chaque nappe catégorisée. Ces deux équilibres correspondent à la structure hiérarchique de la figure 11.8. Pour réaliser une analyse factorielle de ces données en prenant en compte cette structure, on recourt à l’AFMH. λ1=1.955
λ1=1.866
λ1=1.956 λ1=1
λ1=200
X1 Y1 C1 Nappe 1 Catégorisation 1 Nappe catégorisée 1
λ1=249
λ1=1
X2 Y2 C2 Nappe 2 Catégorisation 2 Nappe catégorisée 2
Fig. 11.8 – Deux nappes catégorisées. Hiérarchie sur les six variables. A chaque nœud, est associée la première valeur propre de l’analyse factorielle (ACP, ACM, AFM ou AFMH selon les cas) des variables qu’il regroupe.
11.7.2
Analyse intermédiaire : AFM sur une nappe catégorisée
Avant de décrire les résultats de cette analyse, il est utile d’examiner la prise en compte simultanée de la nappe et de la catégorisation pour obtenir une nappe catégorisée. Concrètement, l’AFMH procède exactement ainsi puisqu’elle revient à réaliser une analyse factorielle (ACP, ACM, AFDM, AFM ou AFMH selon les cas) pour chacun des nœuds de la hiérarchie, et ce en commençant par le bas de l’arbre. Le type de nœud que nous considérons ici réunit les données d’un seul juge, à savoir un groupe de deux variables quantitatives d’une part, et une variable qualitative d’autre part. C’est donc un bon exemple pour illustrer : – sur le plan de la méthodologie statistique, l’analyse par AFM de variables quantitatives et qualitatives ;
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 228 — #236
i
228
i
Analyse factorielle multiple avec R
– sur le plan de la méthodologie sensorielle, l’influence de la catégorisation « superposée » à une nappe. La figure 11.7 (à droite) représente le premier plan factoriel de l’AFM des données de chaque nappe, premier plan qui constitue, en quelque sorte, une nappe catégorisée. Globalement, par rapport à la nappe stricto sensu, les individus d’un même groupe (de la catégorisation) sont rapprochés dans la nappe catégorisée (le terme « nappe catégorisée » désigne aussi bien les figures 11.7 à gauche, sur lesquelles apparaît la nappe elle-même et la catégorisation, que les figures 11.7 à droite, représentations euclidiennes qui tiennent compte des deux types de données). Il en résulte une nappe catégorisée 1 ayant deux directions d’inerties comparables (les dimensions horizontale et verticale de la nappe correspondent toutes deux à une opposition entre classes de la catégorisation) et une nappe catégorisée 2 ayant une direction d’inertie prépondérante (seule la dimension horizontale correspond à une opposition entre classes de la catégorisation et donc aux deux points de vue). Ces résultats sont tout à fait satisfaisants du point de vue de l’utilisateur.
11.7.3
Décompositions de l’inertie
Le tableau 11.5 rassemble les décompositions de l’inertie, par axe et par nœud, dans l’AFMH. La figure 11.9 illustre celle du premier axe selon les nœuds.
Valeur propre AFMH Nappe catégorisée 1 Nappe catégorisée 2
F1 1.955 0.977 0.978
F2 0.919 0.772 0.148
F3 0.107 0.079 0.028
F4 0.036 0.016 0.020
F5 0.012 0.002 0.010
Somme 3.029 1.846 1.183
Nappe s.s. 1 Catégorisation 1
0.514 0.464
0.237 0.534
0.008 0.071
0.015 0.001
0.000 0.001
0.774 1.072
Nappe s.s. 2 Catégorisation 2
0.505 0.472
0.148 0.000
0.002 0.026
0.009 0.011
0.008 0.003
0.672 0.511
Tableau 11.5 – Décompositions de l’inertie, par axe et par nœud (s.s : stricto sensu)
Les deux premiers axes permettent une reconstitution presque parfaite des données ((1.955 + .919)/3.029 = 94.89 % de l’inertie) et l’on peut s’y limiter. La décomposition de la première valeur propre selon les nœuds de la hiérarchie montre une influence équilibrée : – des deux nappes catégorisées entre elles (.977 vs .978) ; – de la nappe et de la catégorisation au sein de chaque nappe catégorisée (.514 vs .464 d’une part, .505 vs .472 d’autre part).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 229 — #237
i
i
Chapitre 11. Analyse factorielle multiple hiérarchique
229
λ1=1.955
.977
.978 .464
.472
.514
.505
X1 Y1 C1
X2 Y2 C2
Nappe 1
Nappe 2
Catégorisation 1 Nappe catégorisée 1
Catégorisation 2 Nappe catégorisée 2
Fig. 11.9 – Décomposition de l’inertie du premier axe selon les nœuds de la hiérarchie.
11.7.4
Représentations des individus, moyens et partiels
Les deux nappes catégorisées ayant des dimensions horizontales et verticales qui se correspondent, on constate aisément que la représentation des individus issue de l’AFMH (figure 11.10) en est en quelque sorte une moyenne. Dim 2 (30.35 %)
Dim 2 (30.35 %)
n1
c
d
c
Dim 1 (64.54 %)
a
b
e
f
n2 n2 n2 b a n1
n1
n1
d
n2 Dim 1 (64.54 %) n2 n2 e n1
f n1
Fig. 11.10 – Représentation des individus « moyens » (à gauche) et des individus partiels (à droite) associés au nœud sommital (i.e. associés à chaque nappe). En particulier, l’écart entre les deux premiers pourcentages d’inertie est, dans
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 230 — #238
i
230
i
Analyse factorielle multiple avec R
l’AFMH, intermédiaire à ce qu’il est dans les deux nappes catégorisées (12.23 % < 34.199 < 70.94 % ; les pourcentages des nappes catégorisées apparaissent figure 11.7 ; exemple : 12.23 % = 54.17 % − 41.94 %). Autre exemple : dans la configuration « moyenne », les points c et d sont, relativement aux autres, plus proches que sur la nappe catégorisée 2 et plus éloignés que sur la nappe catégorisée 1. En AFMH, il est possible de représenter, pour chaque individu, beaucoup de points partiels : autant que d’arêtes (une arête représente une variable ou un groupe de variables) regroupées par l’un des nœuds de la hiérarchie. En pratique, on commence par représenter les points partiels associés au nœud sommital. Puis, on détaille si besoin. Dans la pratique du napping catégorisé, seuls les points partiels associés au nœud sommital sont utilisés : chacun représente un individu dans une nappe catégorisée. La figure 11.10 suggère les commentaires suivants. Le long de l’axe 1, les deux points partiels relatifs à un même individu sont très proches et ce pour tous les individus. Cette première dimension constitue bien un facteur commun aux deux groupes de variables. Dans le détail, les individus c et d sont plus proches entre eux sur la nappe 1 que sur la nappe 2, ce qui se voit aussi bien à partir des coordonnées des points partiels le long de l’axe 1 que sur les nappes catégorisées elles-mêmes. Encore plus dans le détail, selon cette dimension, que nous schématiserons par l’opposition entre {a, b} d’une part et {e, f } d’autre part, a est plus extrême que b seulement sur la nappe 1, ce qui se voit aussi bien sur le plan issu de l’AFMH que sur les nappes elles-mêmes. Le long de l’axe 2, l’opposition entre {c, d } et les autres individus est visible pour les points partiels des deux nappes. Cette opposition est beaucoup plus nette sur la première nappe que sur la seconde. C’est bien ce que l’on peut observer directement sur les nappes catégorisées elles-mêmes. Ainsi, examinée axe par axe, la représentation des points partiels conduit bien à des interprétations clairement lisibles dans les données. Toutefois, il semble que, entre les axes, les proportions ne sont pas respectées : – pour la nappe 1 : la dimension verticale semble avoir plus d’importance (relativement à la dimension horizontale) dans la représentation des points partiels que dans les nappes catégorisées ; – pour la nappe 2 : la dimension verticale semble avoir moins d’importance (relativement à la dimension horizontale) dans la représentation partielle que dans les nappes catégorisées. Cette impression visuelle est confirmée en confrontant les variances des deux dimensions principales dans les différentes représentations (tableau 11.6) : .769 < 1.292 et 19.383 > 6.229.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 231 — #239
i
Chapitre 11. Analyse factorielle multiple hiérarchique
AFM nappe 1 AFM nappe 2 AFMH nuage moyen AFMH nuage partiel nappe 1 AFMH nuage partiel nappe 2
F1 1.866 1.956 1.955 1.998 2.000
F2 1.444 0.314 0.920 2.598 0.103
i
231
F 1/F 2 1.292 6.229 2.126 0.769 19.383
Tableau 11.6 – Variance des deux premiers facteurs dans les nappes catégorisées et dans les représentations issues de l’AFM (nuages moyens et partiels).
On retrouve ici une particularité de la représentation superposée en AFM explicitée en 5.5 et rencontrée aussi en 10.3.2 : lorsqu’un axe de l’AFM correspond à des inerties différentes selon les groupes, ces différences d’inerties se traduisent dans la représentation superposée de façon amplifiée. Dans la pratique de l’analyse d’un ensemble de nappes catégorisées, on ne détaille pas la représentation superposée au-delà de la partition « sommitale ». Mais, dans le cadre de cette étude méthodologique, il est nécessaire d’examiner une représentation superposée comportant au moins deux niveaux de partition, en particulier dans le cas de variables de différents types (quantitatif/qualitatif). Dans la suite, chaque nœud est numéroté en faisant apparaître le chemin, dans l’arbre, qui le relie au nœud sommital (figure 11.11). Le libellé d’un point partiel concatène celui de l’individu et celui du nœud.
Partition 1 1
2
Partition 2 1-1
2-1
1-2 X1 Y1 C1 Nappe catégorisée 1
2-2 X2 Y2 C2 Nappe catégorisée 2
Fig. 11.11 – Numérotation des nœuds utilisée dans la représentation superposée.
La figure 11.12 reprend la figure 11.10 en la complétant par les nuages partiels associés à la partition de niveau 2.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 232 — #240
i
232
i
Analyse factorielle multiple avec R
c-1-2
d-1-2
d-1
c-1
c-1-1
d
c c-2-1
d-2 d-2-2
c-2
c-2-2
d-1-1
d-2-1
F1 (64.54 %)
a
b
e
f
F2 (30.35 %)
Fig. 11.12 – Représentation superposée des nuages partiels associés aux deux partitions de niveau le plus élevé (cf. figure 11.11). Seuls les points relatifs aux individus c et d sont étiquetés. Considérons les points c et d du point de vue de la nappe catégorisée 1 (c-1 et d -1). En prenant en compte la partition 2, chacun de ces points apparaît maintenant : – du point de vue de la seule catégorisation (c-1-2 et d -1-2), auquel cas c et d sont confondus ; – du point de vue de la nappe stricto sensu (c-1-1 et d -1-1), auquel cas c et d sont plus écartés qu’ils ne le sont dans la nappe catégorisée (car la catégorisation rapproche c-1 et d -1). Considérons maintenant ces mêmes points c et d, mais du point de vue de la nappe catégorisée 2 (c-2 et d -2). En distinguant la nappe stricto sensu et la catégorisation, la figure 11.12 montre des points c et d : – non caractérisés par l’axe 2 lorsqu’ils sont vus au travers de la seule catégorisation (c-2-2 et d -2-2) ; ce qui représente bien la non-caractérisation de ces points par la variable qualitative C2 ; – caractérisés par l’axe 2 lorsqu’ils sont vus au travers de la nappe stricto sensu (c-2-1 et d -2-1) ; leurs coordonnées sont légèrement moindres que celles de leurs homologues sur la nappe 1 (c-1-1 et d -1-1), ce qui correspond bien aux nappes stricto sensu (figure 11.7). Représentation des groupes de variables (figure 11.13) En AFMH, un groupe de variables correspond à un nœud de l’arbre structurant les 2 variables. L’indicateur N g (carré de la norme dans RI ) précise la dimensionnalité des groupes (tableau 11.7, première colonne). Dans ce tableau, on retrouve : – les dimensions (égales à 2 ou 1) des catégorisations (variables qualitatives à trois et deux modalités) ;
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 233 — #241
i
i
Chapitre 11. Analyse factorielle multiple hiérarchique
233
– la plus forte dimensionnalité de la nappe stricto sensu 1 (1.198> 1.099) due à la plus grande importance relative de sa seconde dimension (verticale) ; – les dimensionnalités des nappes catégorisées, intermédiaires entre celle des nappes stricto sensu et celle des catégorisations. Nœuds Nappe catégorisée 1 Nappe catégorisée 2
Ng 1.604 1.026
F1 0.595 0.931
F2 0.371 0.021
Plan(1,2) 0.966 0.953
Nappe s.s. 1 Catégorisation 1
1.198 2.000
0.767 0.374
0.164 0.497
0.931 0.871
Nappe s.s. 2 Catégorisation 2
1.099 1.000
0.889 0.853
0.076 0.000
0.965 0.853 2
1.0
Tableau 11.7 – Normes et qualités de représentation des nœuds dans RI .
Catégorisation_1
0.6
Nappe_1 0.4
Dim 2 (30.35 %)
0.8
Nap_cat_1
0.2
Nappe_2 Nap_cat_2
0.0
Catégorisation_2
0.0
0.2
0.4
0.6
0.8
1.0
Dim 1 (64.54 %)
Fig. 11.13 – Représentation des nœuds (= groupes de variables) dans le carré des liaisons. Pour les deux groupes attachés au nœud sommital (nappe catégorisée 1 et nappe catégorisée 2), la représentation des nœuds en AFMH est en tout point analogue à celle des groupes en AFM : les coordonnées des groupes s’interprètent à la fois comme une contribution et comme une mesure de liaison. Dans l’exemple, ces
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 234 — #242
i
234
i
Analyse factorielle multiple avec R
coordonnées sont les inerties des lignes 2 et 3 du tableau 11.5. Ainsi, la figure 11.13 visualise : – la grande importance du premier axe dans les deux nappes ; – la plus grande importance de l’axe 2 dans la nappe 1 (dans laquelle cet axe correspond aux deux points de vue) que dans la nappe 2 (dans laquelle cet axe n’est absolument pas lié à la catégorisation). Pour les autres groupes, les coordonnées s’interprètent comme la mesure de liaison Lg. En particulier, les nœuds « catégorisation », correspondant à une seule variable qualitative, ont leur coordonnée égale au φ2 (entre la variable et le facteur). Ainsi, dans l’exemple : – le premier axe est une dimension importante pour chacun des deux points de vue (nappe et catégorisation) de chaque juge ; – le deuxième axe est une dimension d’à peu près égale importance dans les deux nappes stricto sensu ; il est très lié à la catégorisation du juge 1 et absolument pas à celle du juge 2. Cette représentation peut être complétée par un indicateur de qualité de représentation (tableau 11.7). Dans cet exemple très simple, tous les groupes sont très bien représentés (cos2 ≥ .853) par le premier plan. L’utilisateur déduira de cette représentation une forte ressemblance entre les nappes stricto sensu et une situation contrastée pour les catégorisations (forte ressemblance selon un axe, forte dissemblance selon un autre axe). Cette situation est extrême dans l’exemple mais, au-delà de données particulières, est liée à la nature des données. C’est d’ailleurs là que réside l’intérêt de cette méthodologie qui mêle aspect quantitatif (avec possibilité de nuances) et aspect qualitatif (avec incitation à une focalisation sur l’essentiel, voire à la caricature).
11.8
AFMH dans FactoMineR
Nous utilisons ici les données « deux nappes catégorisées » (tableau 11.4). Cette présentation est centrée sur les aspects spécifiques de l’AFMH (par rapport à l’AFM). # Importation et visualisation des données : > DonNap=read.table("donap.csv",header=T,sep=";",row.names=1) # Edition des deux > DonNap[1:2,] X1 Y1 C1 X2 Y2 a 10 10 C1_1 10 10 b 20 10 C1_1 20 20
premières lignes C2 C2_1 C2_1
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 235 — #243
i
Chapitre 11. Analyse factorielle multiple hiérarchique
i
235
Fig. 11.14 – AFMH de FactoMineR. Fenêtre correspondant à la partition la plus fine (à gauche) et à la partition immédiatement supérieure (à droite) Pour définir la hiérarchie sur les variables, on décrit une suite de partitions emboîtées. La première partition décrite est la plus fine. Ensuite, pour chaque niveau de partition, on agrège les groupes définis par la partition précédente. Dans l’exemple des deux nappes catégorisées, on commence par définir les quatre groupes de variables, nappe et catégorisation de chaque dégustateur. A l’issue d’une procédure semblable à celle de l’AFM, on a obtenu quatre groupes (figure 11.14 à gauche), deux quantitatifs (comportant chacun les deux coordonnées d’une nappe ; ils ont été appelés Nappe_1 et Nappe_2) et deux qualitatifs (comportant chacun une variable qualitative ; ils ont été appelés Catégorisation_1 et Catégorisation_2). Cela étant fait, le bouton « Niveau de hiérarchie suivant » ouvre une fenêtre (figure 11.14 à droite) pour regrouper les groupes déjà constitués. Dans la figure 11.14 à droite, on a sélectionné les deux groupes de la nappe catégorisée 1 (Nappe_1 et Catégorisation_1). Remarque De même qu’en AFM il est possible d’inclure une même variable dans plusieurs groupes, il est possible, en AFMH, d’inclure un groupe d’un niveau hiérarchique
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 236 — #244
i
236
i
Analyse factorielle multiple avec R
donné dans plusieurs groupes du niveau hiérarchique immédiatement supérieur. Ici encore, il est possible de lancer directement l’exécution d’une classification ascendante hiérarchique à partir des facteurs issus de l’AFM. La ligne de commande qui correspond à cette AFMH s’écrit : > ResAFMH=HMFA(DonNap,type=c("c","n","c","n"),H=list(c(2,1,2,1), + c(2,2)),name.group=list(c("Nappe_1","Catégorisation_1", + "Nappe_2","Catégorisation_2"),c("Nap_cat_1","Nap_cat_2"))) Le fichier DonNap peut être soumis directement à l’AFMH puisque : – les variables appartenant à un même groupe de la partition la plus fine sont contiguës ; – les groupes de cette partition, étant regroupés dans la partition supérieure sont contigus. La hiérarchie est définie par l’argument H, auquel on affecte une liste contenant autant de termes que de partitions. Le premier de ces termes correspond à la partition la plus fine décrite, comme en AFM, par le nombre de variables de chaque groupe (dans l’exemple, le premier groupe contient les deux premières variables, le deuxième uniquement la troisième, etc.). Le terme suivant décrit la partition immédiatement supérieure, en utilisant le même principe mais appliqué aux classes de la partition précédente. Dans l’exemple, cette seconde partition comporte un premier groupe rassemblant les deux premiers groupes du niveau hiérarchique précédent et un second groupe rassemblant les deux derniers. Le type des groupes est fixé dans l’argument type auquel on affecte une séquence de caractères (comme en AFM : "c" = groupe quantitatif non réduit ; "s" = centré réduit ; "n" = groupe qualitatif) correspondant chacune à un groupe de la partition la plus fine. Il est possible d’affecter un nom à chaque groupe, et cela quel que soit son emplacement dans l’arbre hiérarchique. Ces libellés sont regroupés dans une liste (affectée à name.group) ayant la même structure que celle définissant la hiérarchie (affectée à H). Dans l’exemple, les deux groupes de la seconde partition ont été appelés Nap_Cat_1 et Nap_Cat_2. De nombreux graphiques peuvent être obtenus par la fonction plot.HMFA. Exemple de la figure 11.10 page 229 : > plot.HMFA(ResAFMH,choix="ind",invisible="quali",new.plot=TRUE, + cex=1.4) L’argument choix sélectionne les éléments à représenter ; ind représente les individus et les modalités des variables qualitatives (en tant que centre de gravité d’individus). L’argument invisible permet d’affiner la sélection : ici, on ne conserve que les individus. Cette commande génère 3 graphiques dont ceux de la figure 11.10. On les ferme, sauf celui des points partiels niveau 1 ce dernier devenant alors actif.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 237 — #245
i
Chapitre 11. Analyse factorielle multiple hiérarchique
i
237
On ajoute des libellés courts aux points partiels avec les deux lignes de code suivantes : > + > +
text(ResAFMH$partial[[2]][,1:2,1],labels=rep("n1",6),pos=3, offset=.5,cex=1) text(ResAFMH$partial[[2]][,1:2,2],labels=rep("n2",6),pos=3, offset=.5,cex=1)
L’utilisateur désire souvent une présentation particulière des résultats. C’est le cas du tableau 11.5 page 228 obtenu avec le code R ci-après : # > # > + >
Initialisation tab11_5=matrix(nrow=7,ncol=6) Noms des lignes et des colonnes row.names(tab11_5)=c("Val. propre AFMH","Nap.cat.1","Nap.cat.2", "Nappe1","Cat.1","Nappe 2","Cat.2") colnames(tab11_5)=c(paste("F",1:5,sep=""),"Somme")
# > # >
Valeurs propres de l’AFMH tab11_5[1,1:5]=t(ResAFMH$eig[,1]) Inerties des nappes catégorisées tab11_5[2:3,1:5]=ResAFMH$coord[[2]][,]
# # > > >
Contributions (en %) des nappes stricto sensu (on somme les ctr des deux coordonnées) quan_ctr=ResAFMH$quanti.var$contrib tab11_5[4,1:5]=apply(quan_ctr[1:2,],MARGIN=2,FUN=sum) tab11_5[6,1:5]=apply(quan_ctr[3:4,],MARGIN=2,FUN=sum)
# # > > >
Contribution (en %) des catégorisations (on somme les ctr des modalités) qual_ctr=ResAFMH$quali.var$contrib tab11_5[5,1:5]=apply(qual_ctr[1:3,],MARGIN=2,FUN=sum) tab11_5[7,1:5]=apply(qual_ctr[4:5,],MARGIN=2,FUN=sum)
# On passe aux inerties en multipliant les contributions (en %) # par les valeurs propres > tab11_5[4:7,1:5]=tab11_5[4:7,1:5]%*%diag(ResAFMH$eig[,1])/100 # Somme par ligne (dernière colonne) > tab11_5[,6]=apply(tab11_5[,1:5],MARGIN=1,FUN=sum) # Edition avec 3 chiffres décimaux > round(tab11_5,3)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 238 — #246
i
238
i
Analyse factorielle multiple avec R
Le tableau 11.6 page 231 rassemble des résultats issus de l’AFMH et des AFM séparées des nœuds reliés au nœud sommital. Le tableau 11.7 page 233 nécessite 2 des calculs dans RI . Nous donnons ci-après le code correspondant à ces deux tableaux. Le lecteur peut essayer de le retrouver à titre d’exercice : # # > # > + >
Tableau 11.6 Initialisation Tab11_6=matrix(nrow=5,ncol=3) Noms des lignes et des colonnes row.names(Tab11_6)=c("AFM nappe 1","AFM nappe 2","AFMH nuage moyen" ,"AFMH nuage partiel nappe 1","AFMH nuage partiel nappe 2") colnames(Tab11_6)=c("F1","F2","F1/F2")
# Valeurs propres des AFM séparées des nappes catégorisées > Tab11_6[1,1:2]=resafmnappe1$eig[1:2,1] > Tab11_6[2,1:2]=resafmnappe2$eig[1:2,1] # # > > + > +
AFMH. Valeurs propres puis variances des nuages partiels par dimension de l’AFMH Tab11_6[3,1:2]=ResAFMH$eig[1:2,1] Tab11_6[4,1:2]=apply(ResAFMH$partial[[2]][,1:2,1],MARGIN=2, FUN=var)*5/6 Tab11_6[5,1:2]=apply(ResAFMH$partial[[2]][,1:2,2],MARGIN=2, FUN=var)*5/6
> for(i in 1:5){Tab11_6[i,3]=Tab11_6[i,1]/Tab11_6[i,2]} > round(Tab11_6,3) # # > # > + >
Tableau 11.7 Initialisation Tab11_7=matrix(nrow=6,ncol=4) Noms des lignes et des colonnes row.names(Tab11_7)=c("Nappe cat. 1","Nappe cat. 2","Nappe ss 1", "Catégorisation 1","Nappe ss 2","Catégorisation 2") colnames(Tab11_7)=c("Ng","F1","F2","Plan(1,2)")
# # > > > >
Les normes des groupes avant l’ultime pondération de l’AFMH (Ng) sont dans les AFM séparées des nappes catégorisées Tab11_7[1,1]=sum(resafmnappe1$eig[,1]^2)/resafmnappe1$eig[1,1]^2 Tab11_7[2,1]=sum(resafmnappe2$eig[,1]^2)/resafmnappe2$eig[1,1]^2 Tab11_7[3:4,1]=diag(resafmnappe1$group$Lg)[1:2] Tab11_7[5:6,1]=diag(resafmnappe2$group$Lg)[1:2]
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 239 — #247
i
Chapitre 11. Analyse factorielle multiple hiérarchique # # > + > + > >
i
239
Cos carré des groupes : carré de longueur projetée (in AFMH) sur carré de longueur totale (Ng) for(i in 1:2){Tab11_7[1:2,i+1]=ResAFMH$group$coord[[2]][,i]^2/ Tab11_7[1:2,1]} for(i in 1:2){Tab11_7[3:6,i+1]=ResAFMH$group$coord[[1]][,i]^2/ Tab11_7[3:6,1]} Tab11_7[,4]=apply(Tab11_7[,2:3],MARGIN=1,FUN=sum) round(Tab11_7,3)
Nous rassemblons ci-après les lignes de code correspondant à l’AFMH appliquée aux jus d’orange : # # > >
Lecture des données et sélection des colonnes utiles ici dans le data-frame Orange orange5=read.csv2("orange5.csv",header=T,row.names=1) orange=orange5[,c(3:17,19:114)]
> library(FactoMineR) # > + +
AFMH resAFMH=HMFA(orange,type=c("s","s","s"),H=list(c(8,7,96),c(2,1)), name.group=list(c("Chimie","Sensoriel","Hédonique"), c("Caractérisation","Hédonique")))
# > + # # > + > +
Figure 11.3 plot.HMFA(resAFMH,choix="ind",invisible="quali",new.plot=TRUE, cex=1.4) Cette commande génère 3 graphiques dont celui de la figure 11.3. On ferme les autres ce dernier devenant alors actif. text(resAFMH$partial[[2]][,1:2,1],labels=rep("c",6),pos=3, offset=.5,cex=1) text(resAFMH$partial[[2]][,1:2,2],labels=rep("h",6),pos=3, offset=.5,cex=1)
# > # # > + > + > +
Figure 11.4 plot.HMFA(resAFMH,choix="ind",invisible="quali",new.plot=TRUE,cex=1.4) Cette commande génère 3 graphiques dont celui de la figure 11.4. On ferme les autres ce dernier devenant alors actif. text(resAFMH$partial[[2]][,1:2,1],labels=rep("c",6),pos=3, offset=.5,cex=1) text(resAFMH$partial[[2]][,1:2,2],labels=rep("h",6),pos=3, offset=.5,cex=1) text(resAFMH$partial[[1]][,1:2,1],labels=rep("ch",6),pos=3, offset=.5,cex=1)
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 240 — #248
i
240
i
Analyse factorielle multiple avec R
> text(resAFMH$partial[[1]][,1:2,2],labels=rep("s",6),pos=3, + offset=.5,cex=1) Pour obtenir la figure 11.5 page 222, on réalise les analyses par nœud et l’on stocke les facteurs. On réalise une ACP sur les deux premiers facteurs de l’AFMH (ce qui reconstitue l’AFMH) en introduisant les facteurs des analyses par nœud en supplémentaires. # > + + # > > > > +
AFMH resAFMH=HMFA(orange,type =c("s","s","s"),H =list(c(8,7,96), c(2,1)),name.group =list(c("Chimie","Sensoriel","Hédonique"), c("Caractérisation","Hédonique"))) Analyses par noeud resacpchim=PCA(orange[,c(1:8)]) resacpsenso=PCA(orange[,9:15]) resacphedo=PCA(orange[,16:111]) resafmcaract=MFA(orange[,1:15],group=c(8,7), type=c("s","s"),name.group=c("Chimie","Sensoriel"))
# # > + + # > +
Concaténation des deux premiers facteurs des analyses par noeud et de l’AFMH axpartAFMH=cbind(resAFMH$ind$coord[,1:2], resacpchim$ind$coord[,1:2],resacpsenso$ind$coord[,1:2], resafmcaract$ind$coord[,1:2],resacphedo$ind$coord[,1:2]) Libellés des axes partiels colnames(axpartAFMH)=c("F1_AFMH","F2_AFMH","F1_Ch","F2_Ch", "F1_S","F2_S","F1_C","F2_C","F1_H","F2_H")
# # # # >
ACP sur les facteurs de l’AFMH en actif, les facteurs par noeud étant supplémentaires ; le premier facteur de l’AFMH est introduit deux fois pour respecter l’ordre des facteurs bien que l’ACP soit normée. resPartAFMH=PCA(axpartAFMH[,c(1,1,2:10)],quanti.sup=c(4:11))
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 241 — #249
i
i
Annexe A
Fiches techniques : calcul matriciel et espace vectoriel euclidien Ce livre utilise plusieurs éléments d’algèbre, en particulier du calcul matriciel, ainsi que la notion d’espace muni d’une distance. Pour éviter à quelques lecteurs de se replonger dans un ouvrage général d’algèbre, il a paru utile de regrouper ces éléments dans deux fiches techniques. Il n’y a pas d’ordre pour lire ces fiches, d’autant plus que chacune utilise des éléments de l’autre.
A.1
Fiche 1 : éléments de calcul matriciel
Définitions Une matrice est un ensemble de nombres rangés dans un tableau rectangulaire. On la note généralement par une lettre majuscule (exemple : X). Ses termes sont désignés à l’aide d’indices, le premier étant celui des lignes (exemple A12 terme au croisement de la 1er ligne et de la 2e colonne). Pour mentionner les dimensions d’une matrice, on les place entre parenthèses (la matrice A(n, p) possède n lignes et p colonnes). Si n = p, la matrice est carrée. Une matrice carrée symétrique est telle que Aij = Aji . Une matrice diagonale est telle que Aij = 0 si i 6= j. Une matrice diagonale dont les termes non nuls sont égaux à 1 est dite « matrice identité ». Un vecteur est associé à une matrice n’ayant qu’une colonne (dite matrice colonne). Transposition Soit une matrice notée X ayant n lignes et p colonnes. Sa (matrice) transposée,
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 242 — #250
i
242
i
Analyse factorielle multiple avec R
notée X 0 , s’obtient en écrivant les valeurs des lignes de X dans les colonnes de X 0 . La matrice X 0 obtenue possède donc p lignes et n colonnes. Produit matriciel Soient deux matrices X (n, p) et Y (p, q) telles que le nombre de colonnes de X est égal au nombre de lignes de Y . Le produit de ces deux matrices, noté XY , est une matrice, notée A, ayant n lignes et q colonnes et dont le terme général Aij , à l’intersection de la ligne i de la colonne j, est le produit scalaire entre le vecteur contenant les termes de la ie ligne de X et le vecteur contenant les termes de la j e colonne de Y . Soit : Aij =
X
Xik Ykj .
k
Le produit scalaire (usuel) entre deux vecteurs u et v (noté < u, v >) s’obtient en effectuant le produit des matrices correspondantes (notées aussi u et v ), la première ayant été transposée : hu, vi = u0 v = v 0 u. La multiplication matricielle peut donc être vue comme une juxtaposition de produits scalaires. Cela apparaît en statistique lorsque l’on calcule la matrice des produits scalaires entre individus. Soit X (n, p) le tableau de données dans lequel n individus sont décrits par p variables. Les lignes de X correspondent aux transposés des vecteurs colonnes contenant chacun les données d’un individu. Le produit matriciel XX 0 revient donc à calculer les produits scalaires de chaque individu avec chacun des autres. En effet, le terme général de XX 0 , à l’intersection de la ligne i et de la colonne l, est le produit scalaire entre les individus i et l. En outre, sur la diagonale, on obtient la norme des individus (au carré). L’autre produit matriciel très utilisé en statistique est X 0 X. Il juxtapose les produits scalaires entre les vecteurs représentant les variables. Lorsque les variables sont centrées (resp. centrées et réduites), la matrice X 0 X contient les covariances (resp. coefficients de corrélation) entre les variables (au coefficient n près et si les individus ont le même poids). Lorsque les individus n’ont pas le même poids, ces poids étant rangés sur la diagonale de la matrice diagonale D, la matrice de covariance s’écrit : X 0 DX. En analyse factorielle, on projette fréquemment un nuage de points sur un axe. Les coordonnées du point i étant rangées dans la ie ligne de la matrice X, on calcule l’ensemble des coordonnées des projections des points i sur le vecteur unitaire u en effectuant le produit matriciel Xu (qui s’interprète donc clairement ici comme une juxtaposition de produits scalaires). Le produit matriciel bénéficie de la propriété d’associativité : ABC = (AB)C = A(BC).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 243 — #251
i
Annexe A. Calcul matriciel et espace euclidien
i
243
Pour effectuer le produit matriciel entre trois matrices, on multiplie d’abord deux d’entre elles (contiguës), puis le résultat de ce produit par la troisième. La transposée d’un produit de deux matrices est égale au produit des deux matrices transposées, leur ordre dans le produit étant inversé : (AB)0 = B 0 A0 . Trace d’une matrice La trace d’une matrice carrée A est la somme des ses termes diagonaux. Elle est notée : trace (A). Appliquée à la matrice XX 0 des produits scalaires entre individus, la trace est la somme des carrés des normes des individus, c’est-à-dire, si tous les individus ont le poids 1, l’inertie totale du nuage des individus. L’opérateur « trace » bénéficie d’une propriété remarquable : trace (AB) = trace (BA) . Appliquée à la matrice des covariances entre individus, cette propriété, qui s’écrit trace (X 0 DX) = trace (XX 0 D), relie l’inertie totale du nuage des individus et celle du nuage des variables. Propriété : la trace d’une matrice carrée est égale à la somme de ses valeurs propres (définies plus loin). Cette propriété est utilisée en ACP (les valeurs propres de X 0 DX sont les inerties projetées sur les axes ; la trace de X 0 DX est l’inertie totale que l’on décompose donc sur les axes factoriels). Matrice et fonction, matrice orthogonale, diagonalisation Soient la matrice A (n, p) et le vecteur u de Rp associé donc à une matrice, également notée u, de dimensions (p,1). En multipliant A et u, on obtient un vecteur v = Au ayant n coordonnées donc appartenant à Rn . Ainsi, la matrice A correspond à une fonction, qui à tout élément u de Rp associe un élément v de Rn . Généralement, on considère les fonctions à l’intérieur d’un espace (e.g. de Rn dans Rn ), associées donc à une matrice carrée de dimensions (n,n). Une matrice carrée A (n, n) est dite orthogonale si tous ses vecteurs colonnes sont orthogonaux et de norme 1 (elle constitue donc une base orthonormée). Une telle matrice vérifie donc : A0 A = In en notant In la matrice identité de taille n. On montre en outre que cette matrice A vérifie A0 A = AA0 = In . Une matrice orthogonale correspond à une fonction ayant une propriété remarquable : la norme d’un vecteur est inchangée dans la transformation par cette fonction. En effet : 2 2 kAuk = u0 A0 Au = u0 u = kuk . Une telle fonction, qui conserve la distance, est appelée « isométrie ». L’exemple type est la rotation. Elle est utilisée en analyse procustéenne. Changement de base. Soient une matrice orthogonale A et uA un vecteur exprimé
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 244 — #252
i
244
i
Analyse factorielle multiple avec R
dans la base des colonnes de A. Pour exprimer uA dans la base canonique usuelle, expression notée u, on écrit : u = AuA . D’où l’on déduit l’équation qui permet d’écrire u dans la base (des colonnes de) A : uA = A0 u. Le vecteur u est dit vecteur propre de la matrice carrée A associé à la valeur propre λ s’il vérifie : Au = λu. On remarque tout de suite que si u est vecteur propre, ku (k étant une constante) l’est aussi. Un vecteur propre engendre donc une direction (ou dimension) propre telle que tous ses vecteurs sont vecteurs propres (associés à la même valeur propre). On la représente par un vecteur unitaire (ce qui laisse deux possibilités entre lesquelles les logiciels choisissent au hasard). Interprétation géométrique. Soit u un vecteur propre de la matrice A associé à la valeur propre λ. Si l’on applique à u la fonction associée à la matrice A, on obtient un vecteur colinéaire à u (dans le rapport λ). Les directions propres sont donc invariantes pour la fonction A et donc très particulières vis-à-vis de cette fonction. La procédure qui, à partir d’une matrice A, en trouve les dimensions propres (représentées chacune par un vecteur unitaire) s’appelle « diagonalisation ». Par commodité de langage, la terminologie « les vecteurs propres de A (n, n) » désigne un ensemble de n vecteurs propres unitaires, chacun associé à une valeur propre distincte. Lorsqu’une matrice est symétrique, elle bénéficie des propriétés suivantes : – deux vecteurs propres associés à deux valeurs propres distinctes sont orthogonaux (pour la métrique identité) ; – les valeurs propres sont réelles. En ACP, dans l’espace RK (muni de la métrique identité), les axes factoriels sont obtenus à partir des vecteurs propres de X 0 DX (cf. 1.5.3). Cette matrice étant symétrique, ses vecteurs propres sont orthogonaux (entre eux) et donc, de même, les axes factoriels qu’ils définissent. Dans l’espace RI (muni de la métrique D des poids des individus), les vecteurs cherchés, notés vs , sont vecteurs propres de XX 0 D. Soit : XX 0 Dvs = λs vs . La matrice D est diagonale et ne comporte que des termes positifs. On note D1/2 la matrice diagonale telle que D1/2 D1/2 = D (ses termes sont donc la racine de ceux de D). En multipliant à gauche les deux termes de l’équation précédente par D1/2 , on obtient : D1/2 XX 0 D1/2 D1/2 vs = λs D1/2 vs . Ce qui montre que D1/2 vs est vecteur propre de D1/2 XX 0 D1/2 associé à la valeur propre λs . Comme cette matrice est symétrique, deux vecteurs propres associés à des valeurs propres distinctes sont orthogonaux pour la métrique usuelle, soit :
D1/2 vs
0
D1/2 vt = vs0 Dvt .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 245 — #253
i
Annexe A. Calcul matriciel et espace euclidien
i
245
Ce qui exprime que les axes engendrés par les vecteurs vs et vt sont orthogonaux pour la métrique D. En analyse factorielle, la valeur propre correspond à une inertie projetée. Elle est donc positive ou nulle. La condition de symétrie de A ne suffit pas. En fait, lorsque la matrice diagonalisée peut s’écrire sous la forme X 0 X ou XX 0 (i.e. le produit d’une matrice par sa transposée), alors les valeurs propres sont positives ou nulles. En effet, de : X 0 Xu = λu on déduit : u0 X 0 Xu = λu0 u et donc : 2
2
kXuk = λ kuk . Ce qui montre que λ est positif ou nul. En outre, si u est unitaire, λ est égal à la somme des carrés des coordonnées des projections des lignes de X sur u (c’est-àdire, en ACP, à l’inertie totale du nuage des points dont les coordonnées sont dans les lignes de X ).
A.2
Fiche 2 : espace vectoriel euclidien
En analyse factorielle, on travaille dans des espaces vectoriels. Dans ce type d’analyse, les notions de distance, de norme, de projection et d’angle (et donc de produit scalaire) sont essentielles. Nous montrons ici comment ces notions sont liées entre elles et comment les calculer. Un espace vectoriel (de dimension finie) dans lequel on a défini une distance (on dit aussi une « métrique ») dérivant d’un produit scalaire est dit euclidien. En analyse factorielle, on travaille donc toujours dans des espaces euclidiens.
A.2.1
Espace vectoriel muni de la distance usuelle
Cas de l’espace à deux dimensions Dans l’espace usuel (R3 , à trois dimensions, celui qui nous entoure), nous sommes habitués aux notions de distance, de longueur et d’angle. Nous partons de cette habitude, en raisonnant d’abord dans le plan (R2 ) pour des raisons de simplicité, et effectuons quelques calculs simples à partir de deux points A et B (figure A.1). En considérant R2 comme un espace vectoriel, A et B sont alors des vecteurs, reliant l’origine aux points A et B (on reconnaît ici le point de vue des variables → ~ voire − en ACP). A en tant que vecteur est quelquefois noté A OA. Par économie de notation, nous utilisons la même lettre A pour désigner le point, le vecteur et la matrice (à une colonne) rassemblant les coordonnées de A. Le théorème de Pythagore permet de calculer (le carré de) la distance entre A et B : 2
2
d2 (A, B) = (xa − xb ) + (ya − yb ) .
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 246 — #254
i
246
i
Analyse factorielle multiple avec R
ya
A
yb
B
yu
u Pu(B)
0
xa
xb
xu
Fig. A.1 – Quelques notations dans R2 .
−→ −→
La longueur du vecteur OA, on dit aussi sa norme, que l’on note OA ou plus simplement kAk, se calcule comme la distance entre O et A, soit :
−→ 2
2
OA = kAk = d2 (O, A) . On retient à ce niveau que les notions de distance et de norme sont liées. Une autre notion liée à celle de distance est celle de projection. La projection d’un point sur une droite D est le point de la droite D le plus proche de A. Dans R2 , pour obtenir la coordonnée de cette projection, on calcule le produit scalaire entre A et un vecteur unitaire de D (noté u, de coordonnées xu et yu ). On note Pu (B) la projection de B sur u. La longueur de cette projection vaut (en notant hB, ui le produit scalaire entre B et u) : kPu (B)k = hB, ui = |xb xu + yb yu |. Les notions de produit scalaire et de norme sont liées : en projetant un vecteur sur lui-même, on ne le change pas. Soit, pour un vecteur v (de coordonnées xv et yv ) : 2
kvk = hv, vi = x2v + yv2 . Enfin la notion de produit scalaire est liée à la notion d’angle de la façon suivante. Soit u et v deux vecteurs quelconques faisant un angle θ. Le cosinus de l’angle θ s’obtient en projetant l’un de ces deux vecteurs sur l’autre après les avoir normés. Soit : cosθ = h
u v , i. kuk kvk
Cas particulier important : deux vecteurs sont dit orthogonaux si leur produit scalaire est nul.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 247 — #255
i
Annexe A. Calcul matriciel et espace euclidien
i
247
Résumé. En partant de la définition du produit scalaire on déduit celle de la 2 norme : kuk = hu, ui. De la définition de la norme, on déduit celle de la distance : 2 d2 (u, v) = ku − vk . Cas d’un espace vectoriel à n dimensions Le produit scalaire précédemment défini dans R2 se généralise aisément dans Rn . Soit, en notant cette fois {ui ; i = 1, n} les coordonnées de u et {vi ; i = 1, n} les coordonnées de v : hu, vi = u1 v1 + u2 v2 + ... =
i=n X
ui vi .
i=1
Matriciellement, en gardant la notation u (resp. v ) pour désigner la matrice colonne (ayant n lignes et une colonne) rassemblant les coordonnées de u (resp. v ), le produit scalaire entre u et v s’écrit (en notant u0 la matrice transposée de u) : hu, vi = u0 v = v 0 u. L’orthogonalité entre deux vecteurs s’écrit donc : u0 v = 0. On en déduit aisément 2 l’écriture de la norme : kuk = u0 u. Un vecteur unitaire vérifie donc : u0 u = 1.
A.2.2
Espace euclidien muni d’une métrique diagonale
Dans la distance usuelle, celle décrite jusqu’ici, on accorde le même poids 1 à chaque dimension de l’espace. En analyse des données, on peut souhaiter accorder un poids différent de 1, mais identique pour toutes les dimensions, voire un poids différent selon les dimensions. Le cas le plus fréquent est celui du nuage des variables en ACP. Ce nuage évolue dans un espace à I dimensions, noté RI , chaque dimension étant associée à un individu. Si l’individu i est affecté du poids pi , alors, ce même poids pi doit être associé à la dimension i dans le calcul de la distance dans RI . Comme, pour des raisons de commodité, on impose aux poids pi d’avoir une somme égale à 1, ces poids pi ne sont jamais égaux à 1 et donc, même dans le cas où les individus ont le même poids, la distance usuelle doit être (légèrement) adaptée. Reprenons le cas général de l’espace à n dimensions (Rn ) en conservant l’indice i pour les dimensions. Soit pi le poids accordé à la dimension i. Ces poids sont rangés sur la diagonale d’une matrice M, matrice contenant des 0 partout ailleurs (elle est donc diagonale). Pour rappeler que l’on utilise les poids rangés dans la matrice M, cette lettre est mentionnée dansP les notations du produit scalaire, de la norme et de la distance. Soit : hu, viM = i pi ui vi = u0 M v. D’où la norme : X 2 kukM = hu, uiM = pi u2i = u0 M u. i
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 248 — #256
i
248
i
Analyse factorielle multiple avec R
D’où la distance entre (les extrémités des vecteurs) u et v : 2
d2M (u, v) = ku − vkM =
X
2
pi (ui − vi ) .
i
Cas particuliers. Lorsque tous les poids pi sont égaux à 1, on obtient la distance (euclidienne) usuelle. La matrice M est alors la matrice identité, d’où le nom de « métrique identité » que l’on trouve quelquefois. Lorsque tous les poids sont égaux à une constante c (et différents de 1 ; cas usuel de l’espace RI des variables en ACP avec c = 1/I) on parle encore, par abus de langage, de métrique identité. En analyse des données, les métriques diagonales jouent un rôle essentiel car elles sont faciles à interpréter : cela revient à accorder un poids à chaque dimension de l’espace étudié. Mais il est possible de définir un produit scalaire, et donc une métrique, à partir d’une matrice M non diagonale. Nous ne faisons que mentionner cette possibilité qui n’est pas utilisée dans cet ouvrage.
A.2.3
Visualisation d’un nuage dans un espace muni d’une métrique différente de l’identité
Notre œil ne sait lire qu’avec la métrique identité. Considérons les données du tableau A.1 représentées sur la figure A.2 (à gauche). Les quatre points {a, b, c, d } forment un carré. Or cette impression est fausse si l’on utilise par exemple la métrique accordant le poids 4 à la dimension 1 et 1/4 à la dimension 2 (cf. distances sur le tableau A.1).
a b c d
u1 1 2 2 1
u2 1 1 2 2
(a) Données
Dim1 Dim2
Dim1 4 0
(b) Métrique
Dim2 0 1/4
a b c d
a
b
c
p2 17/2 1/2
p1/2 17/2
1/2
d
(c) Distances
Tableau A.1 – Exemple « visualisation », données brutes.
Avec cette métrique, les vecteurs u1 et u2 qui ont servi à construire le graphique ne sont pas unitaires (ku1 k = 2ku2 k = 1/2). Sur ces mêmes axes, considérons les vecteurs unitaires e1 et e2 . Exprimons maintenant les données dans la base {e1 , e2 } et calculons les distances entre les quatre points à partir de ces nouvelles données et avec la métrique identité (tableau A.2).
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 249 — #257
i
i
Annexe A. Calcul matriciel et espace euclidien
249
e2 u2
d
c
a
b
e2
d
c
a
b
e1
e1 u1
Fig. A.2 – Exemple « visualisation », représentation des données du tableau A.1 et du tableau A.2.
a b c d
u1 2 4 4 2
u2 1/2 1/2 1 1
(a) Données
Dim1 Dim2
Dim1 1 0
(b) Métrique
Dim2 0 1
a b c d
a
b
c
p2 17/2 1/2
p1/2 17/2
1/2
d
(c) Distances
Tableau A.2 – Exemple « visualisation », données exprimées dans une base orthonormée. On retrouve les mêmes distances que dans le tableau A.1. La représentation graphique (figure A.2) donne cette fois une visualisation correcte des distances. On illustre ainsi une propriété très souvent employée en analyse factorielle : lorsque l’on utilise une métrique euclidienne différente de l’identité, il faut exprimer les données dans une base orthonormée ; la représentation obtenue se lit correctement avec la distance usuelle.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 250 — #258
i
i
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 251 — #259
i
i
Bibliographie Bécue M. & Pagès J. (2003). A principal axes method for comparing contingency tables : MFACT. Computational Statistics and Data Analysis, 45(3), 481–503. Bécue M. & Pagès J. (2008). Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. application to survey data. Computational Statistics and Data Analysis, 53(6), 3255–3268. Bry X. (1996). Analyses factorielles multiples. Economica, Paris. Cadoret M., Lê S. & Pagès J. (2011). Statistical analysis of hierarchical sorting data. Journal of Sensory Studies, 26(2), 86–105. Escofier B. & Pagès J. (1982a). Comparaison de groupes de variables : 2e partie : un exemple d’application. Rapport de recherche INRIA, (165). Escofier B. & Pagès J. (1982b). Comparaison de groupes de variables définies sur le même ensemble d’individus. Rapport de recherche INRIA, 149. Escofier B. & Pagès J. (1983). Méthode pour l’analyse de plusieurs groupes de variables. Revue de Statistique Appliquée, XXXI(2), 43–59. Escofier B. & Pagès J. (1984). L’analyse factorielle multiple. Cahiers du BURO (Bureau Universitaire de Recherche Opérationnelle), 42, 3–68. Escofier B. & Pagès J. (2008). Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation. Dunod, Paris, 4e ed. Fox J., with contributions from Liviu Andronic, Ash M., Boye T., Calza S., Chang A., Grosjean P., Heiberger R., Kerns G.J., Lancelot R., Lesnoff M., Ligges U., Messad S., Maechler M., Muenchen R., Murdoch D., Neuwirth E., Putler D., Ripley B., Ristic M., & Wolf. P. (2009). Rcmdr : R Commander. R package version 1.5-4. Husson F., Josse J., Lê S. & Mazet J. (2009). FactoMineR : Factor Analysis and Data Mining with R. R package version 1.12.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 252 — #260
i
252
i
Analyse factorielle multiple avec R
Husson F. & Lê S. (2009). SensoMineR : Sensory data analysis with R. R package version 1.10. Husson F. & Pagès J. (2006). Indscal model : geometrical interpretation and methodology. Computational Statistics and Data Analysis, 50(2), 358–378. Lavit C. (1976). Analyse conjointe de tableaux quantitatifs : Méthode et programmes. Masson. Le Barzic J.F., Dazy F., Lavallard F. & Saporta G. (1996). L’analyse des données évolutives. - Méthodes et applications. Technip, Paris. Lebart L., Piron M. & Morineau A. (2006). Statistique exploratoire multidimensionnelle. Dunod, Paris, 4e ed. Lê S. & Husson F. (2008). SensoMineR : A package for sensory data analysis. Journal of Sensory Studies, 23, 14–25. Lê S., Josse J. & Husson F. (2008). FactoMineR : An R package for multivariate analysis. Journal of Statistical Software, 25, 1–18. Lê Dien S. & Pagès J. (2003a). Analyse factorielle multiple hiérarchique. Revue de Statistique Appliquée, LI(2), 47–73. Lê Dien S. & Pagès J. (2003b). Hierarchical multiple factor analysis : application to the comparison of sensory profiles. Food Quality and Preference, 14, 397–403. Morand E. & Pagès J. (2006). Procrustes multiple factor analysis to analyse the overall perception of food products. Food Quality and Preference, 17, 36–42. Morand E. & Pagès J. (2007). L’analyse factorielle multiple procustéenne. Journal de la Société Française de Statistique, 148(2), 65–67. Pagès J. (1996). Eléments de comparaison entre l’analyse factorielle multiple et la méthode STATIS. Revue de Statistique Appliquée, XLIV(4), 81–95. Pagès J. (2002). Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes. Revue de Statistique Appliquée, L(4), 5–37. Pagès J. (2004). Analyse factorielle de données mixtes. Revue de Statistique Appliquée, LII(4), 93–111. Pagès J. (2005a). Analyse factorielle multiple et analyse procustéenne. Revue de Statistique Appliquée, LIII(4), 61–68. Pagès J. (2005b). Collection and analysis of perceived product inter-distances using multiple factor analysis ; application to the study of ten white wines from the Loire Valley. Food Quality and Preference, 16, 642–649.
i
i i
i
i
i “afm” — 2013/5/6 — 16:12 — page 253 — #261
i
Bibliographie
i
253
Pagès J., Cadoret M. & Lê S. (2010). The sorted napping : a new holistic approach in sensory evaluation. Journal of Sensory Studies, 25(5), 637–658. Pagès J. & Camiz S. (2008). Analyse factorielle multiple de données mixtes : application à la comparaison de deux codages. Revue de Modulad, 38, 178–183. Pagès J. & Husson F. (2005). Multiple factor analysis with confidence ellipses : a methodology to study the relationships between sensory and instrumental data. J. Chemometrics., 19, 1–7. Pagès J. & Tenenhaus M. (2001). Multiple factor analysis combined with path modelling. application to the analysis of relationships between physicochemical variables, sensory profiles and hedonic judgements. Chemometrics and Intelligent Laboratory Systems, 58, 261–273. Pagès J. & Tenenhaus M. (2002). Analyse factorielle multiple et approche PLS. Revue de Statistique Appliquée, L(1), 5–33. R Development Core Team (2008). R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Saporta G. (2006). Probabilités, analyse des données et statistique. Technip, Technip Paris, 2e ed.
i
i i
i
7KLVSDJHLQWHQWLRQDOO\OHIWEODQN