202 14 1MB
French Pages 198 [199] Year 2019
Le secret statistique
Le secret statistique JEAN-PIERRE LE GLÉAU
Préface de Jean Gaeremynck
17, avenue du Hoggar – P.A. de Courtabœuf BP 112, 91944 Les Ulis Cedex A
Publications de la SFdS Collection Le Monde des données (EDP Sciences) Droesbeke J.-J. et Vermandele C. (2018), Histoire(s) de(s) données numériques. Collection des Journées d’étude en Statistique (Éditions Technip) Droesbeke J.-J., Maumy-Bertrand M., Saporta G. et Thomas-Agnan C. Éds. (2014), Approches statistiques du risque. Droesbeke J.-J., Saporta G. et Thomas-Agnan C. Éds. (2015), Méthodes robustes en statistique. Bertrand F., Droesbeke J.-J., Saporta G. et Thomas-Agnan C. Éds. (2017), Model choice and model aggregation. Maumy-Bertrand M., Saporta G. et Thomas-Agnan C. Éds. (2018), Apprentissage statistique et données massives. Collection La statistique autrement (Éditions Technip) Droesbeke J.-J. et Vermandele C. (2016), Les nombres au quotidien. Leur histoire, leurs usages. Ardilly P. et Lavallée P. (2017), Les sondages pas à pas. Collection Pratique de la statistique (Presses Universitaires de Rennes) Husson F. Éd. (2018), R pour la statistique et la science des données. Bécue-Bertaut M. (2018), Analyse textuelle avec R. Genuer R. et Poggi J.-M. (2019), Forêts aléatoires avec R.
Composition et mise en pages : Patrick Leleux PAO Couverture : Conception graphique de B. Defretin, Lisieux Imprimé en France ISBN (papier) : 978-2-7598-2332-1 ISBN (ebook) : 978-2-7598-2342-0 Tous droits de traduction, d’adaptation et de reproduction par tous procédés, réservés pour tous pays. La loi du 11 mars 1957 n’autorisant, aux termes des alinéas 2 et 3 de l’article 41, d’une part, que les « copies ou reproductions strictement réservées à l’usage privé du copiste et non destinés à une utilisation collective », et d’autre part, que les analyses et les courtes citations dans un but d’exemple et d’illustration, « toute repré sentation intégrale, ou partielle, faite sans le consentement de l’auteur ou de ses ayants droit ou ayants cause est illicite » (alinéa 1er de l’article 40). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles 425 et suivants du code pénal. © EDP Sciences, 2019
SOMMAIRE
Préface...........................................................................................
7
Introduction.................................................................................... 19 1. Qu’est-ce que le secret statistique ?............................................ 25 1.1 La loi du 7 juin 1951............................................................. 25 1.2 Les évolutions de la loi depuis 1951........................................ 41 2. Le secret statistique et la diffusion............................................. 65 2.1 Diffusion de données agrégées................................................ 75 2.2 Diffusion de données individuelles........................................... 81 2.3 Diffusion de données géographiques fines................................. 101 2.4 Diffusion des données sur l’environnement................................ 105 3. L’accès aux données confidentielles............................................. 107 3.1 L’accès aux données couvertes par le secret statistique............... 108 3.2 L’accès aux données couvertes par le secret fiscal....................... 135 3.3 L’accès aux données de santé.................................................. 146 3.4 L’accès aux données détenues par la Banque de France............... 152 3.5 L’accès aux autres données..................................................... 153 3.6 En conclusion....................................................................... 158 4. Comment ça se passe ailleurs ?................................................... 161 4.1 Le secret statistique au niveau international............................. 162 4.2 Le secret statistique dans quelques pays................................... 166 5. Chronologie............................................................................... 179 5
SOMMAIRE
6. Principaux textes autour du secret statistique.............................. 183 6.1 Textes législatifs ou réglementaires – France............................. 183 6.2 Autres documents.................................................................. 189 6.3 Europe et international.......................................................... 192 6.4 Sites.................................................................................... 195 Index ............................................................................................ 197
6
LE SECRET STATISTIQUE
PRÉFACE
Le livre de Jean-Pierre Le Gléau a bien des mérites. D’abord celui d’exister, puisque c’est le premier qui soit spécialement consacré au secret statistique, du moins dans la période récente. Ensuite parce qu’il constitue une mine d’informations de toute nature sur les arcanes de la statistique publique. Qu’elles soient historiques, juridiques, administratives, qu’elles décrivent des pratiques ou qu’elles portent des jugements, et l’auteur ne s’en prive pas, les pages qui suivent nous apprennent toujours quelque chose. Et par-dessus le marché, mais en fait pour cette raison même, ce livre donne matière à réfléchir. Par exemple, il y a un paradoxe apparent à parler de secret statistique. En effet, qu’y a-t-il a priori de plus étranger au secret que les statistiques ? Leur raison d’être n’est-elle pas d’éclairer, de révéler une vérité cachée sous la surface bouillonnante des faits comme dans la forêt des chiffres ? N’ont-elles pas pour objet, et pour mérite, de dévoiler la réalité de l’être collectif que constitue un ensemble d’individus, au-delà de la simple addition des éléments qui le composent ? En ce sens, les statistiques procèdent du besoin de savoir et de la mise en œuvre d’un savoir scientifique, appuyé sur des techniques spécifiques, qui leur confèrent une valeur unique. Que l’on se réfère aux 7
PRÉFACE
remarquables productions de l’Insee, à commencer par le recensement de la population, mais aussi à l’enquête logement, au « portrait social » de la France, aux études sur la pauvreté. On pourrait citer également nombre de productions des services statistiques ministériels (SSM), par exemple celles de la Drees sur les dépenses de santé ou de la Dares sur les conditions de travail. On trouve dans tous ces travaux non pas des opinions, ou des appréciations, mais des constats, c’est-à-dire des vérités, qu’on ne trouvera nulle part ailleurs. Les statistiques, c’est l’alliance du miroir, puisqu’elles donnent à voir ce qui est, et du rayon laser, car elles franchissent le mur des apparences. À première vue, il y a donc antinomie entre la catégorie du secret et la notion de statistiques. Mais évidemment, le paradoxe n’est qu’apparent. Car il y a partie liée, manifestement, entre la garantie du secret et la qualité des statistiques. Une vérité solide ne pouvant s’appuyer sur le mensonge ou les approximations, des statistiques de qualité ne peuvent procéder que de matériaux de qualité. Quand ces matériaux sont des réponses à des enquêtes, ce qui est le schéma de base de la loi statistique du 7 juin 1951, il faut que les réponses d’abord existent et ensuite qu’elles soient exactes et sincères. C’est pourquoi ladite loi avait initialement rendu obligatoires les réponses aux enquêtes statistiques et qu’elle a par ailleurs garanti le secret à ces réponses. Les enquêtés ne pouvant craindre l’utilisation de leurs réponses à d’autres fins que celles – statistiques – affichées par l’enquête, n’ont ainsi pas de raison de manquer à la sincérité. Ils peuvent avoir confiance, cela leur est garanti par la loi. Il y a donc ici, au cœur de la loi statistique, un cercle vertueux entre la qualité des statistiques, le secret des enquêtes et la confiance des répondants. Là-dessus, la loi n’a fait que prendre acte, et traduire en droit une réalité structurelle. On voit donc que parler de secret statistique est un raccourci pour désigner le secret qui s’attache aux données utilisées dans le traitement statistique, mais qui ne sont pas encore le résultat statistique, c’est-à-dire les statistiques. 8
LE SECRET STATISTIQUE
PRÉFACE
Il y a une autre raison d’être, plus formelle, à cette expression de secret statistique. C’est qu’il s’agit d’une modalité particulière du secret, dont le régime est fixé par la loi statistique du 7 juin 1951 : sur ce point, l’intention du législateur, et l’importance qu’il attache au secret, ressortent du titre même de cette loi, « sur l’obligation, la coordination et le secret en matière de statistiques ». On observera au passage que l’expression de secret statistique ne se retrouve nulle part dans la loi : ce secret n’est donc pas spécialement défini, il résulte simplement des prescriptions de la loi. Mais procédant d’une législation spéciale, ce secret se distingue des autres formes particulières de secret protégées par d’autres lois. En matière de secret en effet, la législation française est d’une grande richesse : indépendamment du secret professionnel en général, imposé par le code pénal (article 226-13), on peut citer le secret fiscal, le secret des affaires, le secret médical. On n’ose citer le secret de l’instruction, qui mérite bien peu son nom, ni le secret de la confession, qui évidemment est étranger à la loi républicaine. On observera au passage que la structure (qualité/secret/confiance) mentionnée ci-dessus à propos du secret statistique fonctionne également pour les autres modalités du secret. Une qualité reconnue du système fiscal français, par exemple, est son excellent taux de recouvrement : à quoi l’attribuer, sinon à la confiance des contribuables dans la capacité de l’administration fiscale à garder le secret sur leurs déclarations ? Si la loi de 1951, on l’a dit, ne définit pas le secret statistique, mais l’organise, elle le fait en distinguant les finalités. Ainsi, depuis 1951, la loi interdit expressément l’utilisation des renseignements individuels d’ordre économique et financier collectés (auprès des entreprises) à l’occasion des enquêtes statistiques « à des fins de contrôle fiscal ou de répression économique ». La protection de ce secret résulte donc de l’indépendance des finalités. La finalité statistique ne saurait céder devant la finalité fiscale. 9
PRÉFACE
C’est donc un édifice extrêmement solide que cette loi de 1951, et le système de protection des données individuelles d’enquête qu’elle a instauré a bien duré plus de trente ans. Mais il a connu une mutation importante en 1984, comme le montre Jean-Pierre Le Gléau. La raison en réside, au fond, dans les tensions, voire les contradictions, de la demande sociale. Comme on l’a dit, le secret d’une manière générale est au cœur d’une structure qui relie la qualité de certaines productions, en l’occurrence les productions statistiques, à la préservation de la confiance. Cette équation n’a rien perdu de sa force puisqu’elle repose largement sur le besoin de protection des données individuelles, dit autrement de protection de la vie privée (ou du secret industriel et commercial s’agissant de la vie des entreprises). Mais au cœur des sociétés contemporaines, ce besoin de protection entre aujourd’hui en tension, voire en conflit, avec d’autres exigences, celles de la transparence, du refus de l’opacité administrative, du partage des informations. Il y a le besoin d’en savoir toujours plus sur le fonctionnement de la société elle-même, un besoin qui devient nécessité s’agissant du réglage des politiques publiques. La montée de ces exigences est elle-même concomitante avec l’extraordinaire développement de techniques quantitatives appuyé sur l’essor des instruments de calcul et des technologies numériques. On retrouve ici l’attrait du dévoilement de la réalité, attribué ci-dessus à la raison d’être des travaux statistiques. Ainsi, le développement des outils vient-il répondre à l’affirmation des nouvelles exigences sociales. Ce sont ces exigences, combinées au développement de ces outils, qui sont à l’origine du mouvement en faveur des « open data », de la mise à disposition d’informations et de données en ligne, et d’une manière générale de toute l’effervescence autour des « big data ». Tout se passe comme si on ne cessait d’ouvrir des mines d’informations en vue de leur exploitation par les chercheurs plus ou moins à ciel ouvert. On n’en était pas encore là en 1984, et pourtant il devenait indispensable, comme le montre très bien Jean-Pierre Le Gléau, de répondre 10
LE SECRET STATISTIQUE
PRÉFACE
dès ce moment à l’appétit des chercheurs, et de concevoir à leur intention des voies d’accès à ces gisements de données que constituent les réponses aux enquêtes statistiques. Il n’était pas question, à cause précisément du secret, de permettre l’exploitation de ces gisements à ciel ouvert. Aussi, et sans qu’il soit besoin à ce stade de modifier la loi sur le secret statistique, ces nouvelles possibilités ont pris la forme, notamment, des « fichiers de production et de recherche » conçus spécialement pour faciliter les travaux statistiques tout en respectant la confidentialité des données. Il s’agit de fichiers constitués à l’aide de procédures de brouillage faisant appel à des modalités d’agrégation. Mais de ce fait, ils n’offrent pas le même intérêt que les réponses individuelles aux enquêtes statistiques. Ces dernières en effet comprennent une grande richesse d’informations, lesquelles peuvent, croisées avec d’autres données concernant les mêmes personnes par le biais des appariements, donner lieu à des productions statistiques plus intéressantes. Il a paru nécessaire alors de prévoir par la loi l’accès des chercheurs à tout le corpus des données individuelles issues des grandes enquêtes statistiques. C’est ce qui a été fait, en deux temps, en 1984 pour l’accès aux données concernant les entreprises, en 2008 pour l’accès aux données concernant les ménages. Dans le même temps, en 1984, était créé le Comité du secret statistique, dont la mission est de se prononcer sur les demandes, présentées le plus souvent par des universitaires, d’accès à ces données. Ainsi complétée par ces dispositions nouvelles, la loi de 1951, à l’origine intransigeante sur la protection du secret, s’est trouvée singulièrement enrichie, et son équilibre un peu modifié, en ce qu’elle organise cette fois non plus seulement le secret, mais les exceptions au secret que constituent les voies d’accès aux données individuelles d’enquête. Plus complète, la loi est à l’évidence aussi plus complexe, mais son objet même la place au carrefour d’un ensemble de législations aux adhérences fortes qui produisent ensemble une autre complexité 11
PRÉFACE
redoutable. Cela provient du fait que ces législations répondent aux exigences différentes, voire contradictoires, de la demande sociale que nous avons déjà mentionnée. D’un côté, le besoin de protection de la vie privée inspire toute la législation sur la protection des données personnelles, c’est-à-dire la loi « informatique et libertés » de 1978 modifiée en 2004 suite à la directive européenne de 1995, et par une loi récente qui a pour but de la mettre en conformité avec la règlementation européenne qui s’applique désormais directement, à travers le fameux RGPD. Le respect de tout ce corpus est assuré, on le sait, par la Cnil. D’un autre côté, le besoin d’ouverture a inspiré la loi du 17 juillet 1978 sur l’accès aux documents administratifs, dont les dispositions ont été reversées aujourd’hui dans le code des relations entre l’administration et le public. Dans la période récente, et après les modifications ci-dessus rappelées, de la loi statistique de 1951, il a conduit à modifier en 2013 (loi du 22 juillet 2013 relative à l’enseignement supérieur et à la recherche) la loi fiscale (livre des procédures fiscales, article L.135D) pour prévoir explicitement, et pour la première fois, l’accès des chercheurs aux bases de données de l’administration fiscale. De la même manière, l’approche sectorielle a-t-elle conduit le législateur à prévoir dans la loi santé de 2016 les conditions d’accès à ces immenses bases que constituent les données de santé. Enfin, le même mouvement d’ouverture a généré plusieurs dispositions de la loi « pour une République numérique » du 7 octobre 2016, en particulier celle qui permet d’une manière générale d’accéder aux bases de gestion des organismes administratifs pour les besoins de l’exploitation statistique. Ces dispositions de la loi « pour une République numérique » font elles-mêmes écho à un élargissement considérable, intervenu en 2008 (loi pour la modernisation de l’économie du 4 août 2008), de la définition, incluse dans la loi de 1951, de la notion de statistiques publiques. Il ne s’agit plus seulement des travaux conduits par le service statistique public (Insee et services statistiques ministériels), mais de l’exploitation « à des fins d’information 12
LE SECRET STATISTIQUE
PRÉFACE
générale » des données collectées pour les besoins de leur gestion par les administrations en général (y compris les organismes privés chargés d’une mission de service public). Cette exploitation est évidemment le fait des détenteurs de ces fichiers eux-mêmes et le législateur, en 2008, en a pris acte, mais la nouveauté provient de ce qu’il a qualifié pour la première fois ces travaux de statistiques publiques. De la même manière qu’en 1984, les détenteurs des réponses aux enquêtes ont perdu le monopole de leur exploitation, le législateur de 2016 demande aux détenteurs des fichiers administratifs d’autoriser, dans certaines conditions, des chercheurs extérieurs à travailler sur ces fichiers. Potentiellement, c’est une petite révolution, et on voit bien comment elle pose dans un contexte nouveau la question traditionnelle du secret. Faut-il déduire de ce mouvement législatif, accéléré dans la période récente, que le secret statistique se trouve progressivement démantelé ? En aucune manière, car les avancées législatives se combinent entre elles pour produire un nouvel équilibre, dans lequel personne n’a envie de sacrifier la protection des données personnelles. Ainsi, les chercheurs qui accèdent aux bases de données restent-ils évidemment soumis à toutes les exigences et formalités de la loi Cnil. Par ailleurs, les législations « d’ouverture » et leurs textes d’application encadrent sévèrement les conditions d’accès aux bases de données, en réaffirmant les finalités de leur exploitation – selon les cas, la recherche scientifique ou historique, la réalisation de travaux présentant un caractère d’intérêt public, ou toutes finalités équivalentes –, ce qui conduit à réserver l’accès aux bases de données à certains acteurs, ceux qui présentent les meilleures garanties de sérieux. Pour l’essentiel, ce sont des chercheurs, et notamment ceux des laboratoires universitaires. Il faut dire que depuis le début, les bénéficiaires de l’ouverture, notamment celle opérée en 1984 et en 2008 dans la loi statistique, ont toujours « joué le jeu » et n’ont jamais manqué à l’engagement qui leur était formellement demandé de respecter le secret en s’abstenant 13
PRÉFACE
de toute diffusion de données individuelles. Je n’ai pas le souvenir, au cours de près de dix années de présidence du Comité du secret statistique, d’avoir été jamais saisi de faits de manquement à cette obligation de secret, et il semble que l’Insee non plus n’ait pas eu à déplorer de cas de violation du secret. Cette exigence de respecter le secret est parfaitement intégrée dans les pratiques et cette situation jamais démentie crée à l’évidence des conditions favorables au processus d’élargissement retracé ci-dessus. C’est d’autant plus précieux que les possibilités techniques de traitement des données sont d’une telle puissance qu’elles ne cessent d’accroître les risques d’identification de données même a priori anonymisées. La situation de départ de 1951 est celle dans laquelle les réponses aux enquêtes sont toutes par nature des données individuelles, car elles sont produites sous une forme qui permet de les rattacher immédiatement à des individus. Comme le montre JeanPierre Le Gléau, les conditions de recueil des réponses aux enquêtes ont changé depuis cette époque et ces réponses ne sont plus collectées sous une forme de face-à-face avec l’enquêté, permettant une identification immédiate. Mais cela ne garantit pas pour autant la protection du secret, du fait des capacités sans cesse accrues des instruments de traitement informatique, qui élargissent considérablement les possibilités techniques d’identification. D’une certaine manière, on peut dire que le secret ne résiste que par le coût des moyens à mettre en œuvre pour le surmonter. De ce fait, le périmètre des données couvertes par le secret s’en trouve, potentiellement, non pas rétréci, mais élargi. Mais dans un tel contexte, la technique n’est pas seulement la menace, elle vient elle-même au secours du secret, comme le montre Jean-Pierre Le Gléau dans sa présentation du Centre sécurisé d’accès aux données (CASD). L’apparition, il y a environ huit ans, de ce nouvel outil, conçu au sein du Genes (Groupement des écoles nationales de statistiques), a permis de sécuriser très fortement le système. En permettant la conduite des travaux à distance et en interdisant 14
LE SECRET STATISTIQUE
PRÉFACE
matériellement toute captation de données individuelles ou susceptibles de l’être, il impose de lui-même par la technique ce que leur engagement faisait reposer jusqu’ici sur la vertu des chercheurs. Il résulte de toutes ces évolutions un nouvel équilibre dans lequel le secret n’a rien perdu de sa raison d’être, et dans lequel il ne court pas plus le risque d’être méconnu que par le passé. Ce nouvel équilibre lui-même permet de focaliser l’attention sur les enjeux des évolutions législatives qui viennent d’être retracées et des nouvelles et immenses possibilités qu’elles ont ouvertes aux chercheurs. Ces enjeux tiennent à la multiplication et aux orientations de leurs travaux. La multiplication est inscrite dans les chiffres (pour ne pas dire les statistiques) relatifs à l’activité du Comité du secret statistique : ces dernières années, le nombre des demandes dont il a été saisi est passé de 228 en 2012 à 300 en 2017. Il n’a pu faire face à cet accroissement qu’en faisant évoluer ses méthodes, en développant le traitement électronique d’un grand nombre de ces demandes et en réservant les séances plénières, devant lesquelles les chercheurs sont invités à présenter leurs projets, aux cas nouveaux ou difficiles. Mais c’est surtout l’orientation et l’objet des travaux pour lesquels l’intervention du Comité conditionne l’accès aux bases de données de l’Insee (par exemple Esane pour les statistiques d’entreprises, l’échantillon démographique permanent ou encore les déclarations annuelles de données sociales, DADS), des SSM (travail, agriculture, développements durables) et des administrations représentées au Comité (douanes, impôts), qui sont remarquables. C’est évidemment à mettre en relation avec la richesse et la qualité de ces bases, qui se rapportent naturellement aux activités économiques et à la réalité sociale du pays, mais aussi avec la qualité de l’accueil réservée aux porteurs de projets de recherche par les services « producteurs » de l’Insee et des ministères. Ainsi, il n’est pas de session du Comité sans que de jeunes doctorants ne viennent présenter des travaux dont l’objet n’a rien de purement spéculatif, mais qui a priori seront 15
PRÉFACE
intéressants à prendre en compte dans les domaines du travail, du logement, du commerce extérieur, etc., qui recouvrent largement les politiques publiques. Il n’est pas de séance non plus que le Comité, qui a d’ailleurs le droit de se les voir communiquer, ne presse ces chercheurs de lui faire connaître les résultats de leurs travaux et les invite à leur donner l’audience la plus large possible. Il y a là tout un potentiel qui soulève à nouveau la question récurrente du lien entre les travaux scientifiques et l’éclairage des circuits de décision politiques. Si la question est récurrente, on observera qu’elle est renouvelée aujourd’hui par l’importance prise dans le discours des autorités politiques par la thématique de l’évaluation. Cette importance n’a d’ailleurs d’égale que le flottement conceptuel qui l’entoure et la faiblesse de l’organisation administrative. De quelle évaluation parlet-on ? Qui en est le responsable ? Y a-t-il un socle méthodologique clairement défini ? Ces questions n’ont pas à ce jour reçu de réponse claire, mais elles n’en cessent pas moins de se poser. Si vraiment il existe une volonté forte de progresser sur ce thème, on n’échappera pas à une réflexion sur le rôle de la statistique dans le dispositif à mettre en place. Mais s’il existe, comme nous le pensons, de nouvelles possibilités de faire participer les chercheurs à cette entreprise d’évaluation, et par là même, à la définition et au réglage des politiques publiques, cela suppose qu’un dialogue utile s’engage avec eux, pour définir les conditions de leur participation au débat public qui préservent leur indépendance et prenne en considération leurs besoins propres. Les institutions de la statistique publique – Conseil national de l’information statistique, Autorité de la statistique publique, Comité du secret statistique – sont bien placées pour avoir une vue d’ensemble du jeu des acteurs : détenteurs des bases de données, producteurs de travaux statistiques, universités et organismes de recherche, responsables de la définition et de la conduite des politiques publiques. Au-delà de leur activité quotidienne, elles devraient se saisir de ce sujet comme d’une priorité majeure. 16
LE SECRET STATISTIQUE
PRÉFACE
Tout progrès en ce sens ne fera que prendre acte d’une réalité que des décennies de pratique du secret statistique ont bien mise en évidence : au-delà d’une prescription en forme d’interdiction, la règle du secret est la condition de production d’éclairages décisifs sur la vie économique et sociale, qui comptent autant pour la pertinence des politiques publiques que pour la qualité du débat démocratique. Jean Gaeremynck Président de section au Conseil d’État Ancien président du Comité du secret statistique (2009-2018)
17
INTRODUCTION
Secret statistique ? Mais les statistiques ne sont-elles pas par définition des agrégats anonymes dans lesquels on ne peut pas isoler la valeur se rattachant à un individu ? Alors, de quel secret s’agit-il ? Il est bien vrai que l’immense majorité des statistiques ne donnent que des résultats agrégés, où il est impossible d’identifier un individu. Mais, il est aussi possible de produire des résultats très détaillés, donc sur une population peu nombreuse. Avec un risque de pouvoir identifier une personne. De leur côté, les utilisateurs de la statistique publique demandent justement des informations de plus en plus précises, allant parfois jusqu’au niveau individuel, non pas pour savoir quelle valeur prend la variable pour une personne donnée, mais pour mettre en œuvre des techniques sophistiquées, nécessitant une information pour chaque individu : analyse des données, suivi temporel des personnes, appariements de fichiers, etc. La réponse à ces besoins ne saurait se faire au détriment de la protection légitime des données individuelles, qu’il s’agisse de protéger la vie privée des personnes ou, pour les données sur les entreprises, de sauvegarder le secret des affaires. La problématique du secret statistique répond justement à ce besoin de trouver un équilibre entre d’une part le service rendu par la production et la diffusion de 19
INTRODUCTION
statistiques et d’autre part la nécessaire protection de ceux qui ont fourni les informations servant à les construire. La protection des données individuelles constitue un véritable enjeu en ce début de xxie siècle. La France avait fait figure de pionnière en adoptant dès 1978 la « loi informatique et libertés ». Mais les digues ainsi construites se sont avérées parfois fragiles. Certains s’affranchissent allègrement des contraintes. Ou bien profitent de failles dans le réseau législatif, puisque la protection de la vie privée, pour être efficace, doit se déployer au niveau de la planète. Des utilisations peu scrupuleuses de données, comme celles qui ont mis récemment en scène Facebook et Cambridge Analytica, en constituent une partie émergée, bien loin, hélas, d’être des cas uniques en leur genre ! L’Union européenne préparait déjà depuis plusieurs années des mesures permettant de contrecarrer ce type de contournement de la loi : cela s’est traduit par le règlement général sur la protection des données (RGPD), adopté par le Parlement européen et le Conseil le 27 avril 2016 et qui est applicable depuis le 25 mai 2018. Ce règlement élève un certain nombre de barrières contre l’usage indélicat de données à caractère personnel, tout en augmentant très fortement les pénalités en cas d’infraction. Mais, s’adressant à l’ensemble des données personnelles pouvant faire l’objet d’un traitement, il ne peut entrer dans les détails pour chaque type de données. De plus, chaque pays ayant une législation et une culture propres, une loi a été nécessaire en France pour adapter ce règlement aux spécificités de la situation française. Cette loi a été adoptée le 20 juin 2018. L’avenir dira si ces mesures auront été efficaces, sans être excessives, pour protéger les individus d’un mauvais usage des innombrables données collectées par des milliers d’opérateurs, à l’occasion de nombreux actes de la vie quotidienne. Mais, parmi toutes ces données, il en existe qui sont collectées spécifiquement par la puissance publique, pour ses besoins propres : ouvrir des droits sociaux, collecter des impôts, rembourser des prestations ou… établir des statistiques ! 20
LE SECRET STATISTIQUE
INTRODUCTION
Ces collectes amènent parfois à poser des questions sur des sujets que l’on peut considérer comme confidentiels : les déplacements effectués tel jour par une personne, le volume de sa consommation d’alcool, le montant des investissements d’une entreprise, la récolte d’un agriculteur… Pour cela, le service statistique public est habilité à réaliser chaque année un certain nombre d’enquêtes, tant auprès des particuliers qu’auprès des entreprises. L’établissement de la liste des enquêtes ainsi autorisées fait l’objet d’une concertation approfondie entre les utilisateurs et les producteurs de la statistique publique, notamment au travers du Conseil national de l’information statistique. Si l’on veut que l’information recueillie soit utile pour dresser un panorama conforme à la réalité, il faut que celui qui est interrogé (particulier ou entreprise) fournisse une réponse sincère, conforme à la réalité. Pour cela, il est nécessaire qu’il soit assuré que ses réponses ne seront pas utilisées dans un sens qui puisse lui causer du tort. On pense immédiatement aux impôts, à la police, mais aussi aux concurrents, aux voisins, à la famille, etc. Les réponses aux questions doivent donc rester absolument confidentielles afin de pouvoir donner à la personne enquêtée l’assurance que le fait d’avoir répondu ne lui portera aucun préjudice ni dans sa vie privée, ni dans sa vie professionnelle, ni dans l’activité de son entreprise. La protection des données captées par des sociétés privées à l’occasion d’actes de la vie courante (communication téléphonique, opération bancaire, connexion à internet…) est une nécessité. Mais il est clair que cette exigence est encore plus absolue, s’agissant de renseignements recueillis par la puissance publique, au moyen de questionnements pour lesquels la réponse est souvent obligatoire. L’objet du secret statistique était initialement de protéger les informations recueillies au moyen des enquêtes de la statistique publique, afin de garantir aux personnes interrogées que ces réponses ne puissent en aucun cas les desservir. Cela permet aussi d’obtenir des réponses plus sincères à ces enquêtes. Ce sont donc historiquement 21
INTRODUCTION
les enquêtes statistiques qui sont à la base du secret et qui ont conduit à la mise en place de l’architecture législative et matérielle que nous connaissons aujourd’hui dans ce domaine. Mais cette fonction s’est ensuite étendue à d’autres types de données administratives. Finalement, les principes et les méthodes mis en place pour le respect du secret statistique sont appliqués sur un très large éventail de données recueillies par l’administration pour d’autres finalités que l’établissement de statistiques. Ces règles se sont révélées efficaces et l’on peut dire que, s’agissant des données recueillies par la puissance publique, le respect de la confidentialité est effectivement assuré. Le secret statistique est donc beaucoup plus strict et beaucoup plus rigoureux que la simple protection des données personnelles captées par des organismes privés. La première partie de cet ouvrage décrit la façon dont le secret statistique s’est petit à petit construit autour du recueil d’informations par des enquêtes de la statistique publique. Le texte de la loi fondamentale de 1951 a évolué au gré des bouleversements de la société, des capacités techniques de traitement des données et de la demande des utilisateurs de la statistique publique. On y voit que le secret statistique concerne aussi toutes les données recueillies par l’Insee [58]1 et les services statistiques ministériels auprès d’autres administrations pour établir leurs statistiques. Dans la deuxième partie, on rappelle les règles qui s’appliquent au moment de la diffusion de données agrégées ou individuelles, pour faire un barrage à la révélation d’informations couvertes par le secret statistique. Une place particulière est réservée à la diffusion de données individuelles et à celles qui sont diffusées sous forme de cartes. Si la diffusion de données totalement anonymes suffisait au bonheur des chercheurs, il ne serait pas trop difficile de concilier leurs besoins avec les règles du secret statistique. Mais les chercheurs en 1. Les chiffres entre crochets renvoient à l’annexe « Principaux textes autour du secret statistique », pp. 183 et suivantes.
22
LE SECRET STATISTIQUE
INTRODUCTION
sciences économiques, humaines et sociales sont avides de données très détaillées, y compris celles qui sont protégées par le secret statistique. Pour répondre à cette demande, tout en préservant la confidentialité des informations, des processus et des moyens techniques ont été mis en place et les textes législatifs ont évolué pour concilier ces deux impératifs, apparemment contradictoires. C’est ce qui est exposé dans la troisième partie. D’autres administrations ont emboîté le pas pour mettre à la disposition des chercheurs leurs données confidentielles, en s’appuyant sur ces mêmes processus : données fiscales, données de santé, données de la Banque de France. Ces informations ne sont pas couvertes par le secret statistique, mais par d’autres types de secret professionnel (fiscal, médical…). Compte tenu des spécificités propres à chacune de ces administrations, des adaptations ont été nécessaires, brouillant quelque peu le paysage et complexifiant le cheminement d’accès aux données confidentielles pour la recherche. Enfin, la quatrième partie donne quelques coups d’éclairage sur les pratiques dans divers pays. On a choisi de présenter d’abord quelques pays emblématiques, en raison de leur engagement ancien en faveur du respect du secret statistique (Canada, Pays-Bas). Puis le RoyaumeUni, qui est l’exemple d’un pays qui est, sur ce point au moins, assez proche des pratiques françaises. Enfin, on a voulu montrer le cas de pays éprouvant des difficultés à faire respecter le secret statistique, soit en raison d’habitudes ancrées dans leur histoire (Russie), soit en raison d’un développement encore imparfait du système statistique (Tunisie).
23
1 Qu’est-ce que le secret statistique ?
1.1 LA LOI DU 7 JUIN 1951 Avant même le vote d’une loi statistique en France, il existait déjà un secret de type professionnel pour les informations détenues par les organismes collectant des informations pour établir des statistiques [28]. Mais il n’y avait aucune spécificité de type statistique, et c’était la simple confidentialité attachée à toute information détenue par les administrations qui s’appliquait. Les sanctions étaient sévères en cas de rupture de ce secret par les agents. Mais l’information recueillie pouvait en revanche circuler au sein de l’administration, sans frein particulier, y compris auprès de la police, du fisc ou des douanes. La première pierre du secret statistique a été posée par la loi no 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques [2]. Comme son nom l’indique, cette loi va bien au-delà de la seule protection du secret statistique, puisqu’elle met en place les procédures de coordination des différents producteurs publics de statistiques (principalement l’Insee et les services statistiques ministériels) et qu’elle fixe une obligation de réponse aux enquêtes figurant dans le programme national d’enquêtes de la statistique publique et précise les sanctions en cas de non-réponse. 25
Qu’est-ce que le secret statistique ?
Mais son article 6 est totalement consacré à la définition de ce que l’on a alors commencé à appeler le secret statistique, bien que l’expression ne figure pas dans la loi (ni dans aucune autre loi, d’ailleurs). Cet article était ainsi rédigé, au moment du vote de la loi : « Sous réserve des dispositions des articles 29 et 89 du Code d’instruction criminelle, les renseignements individuels figurant sur les questionnaires revêtus du visa prévu à l’article 22 et ayant trait à la vie personnelle et familiale et d’une manière générale, aux faits et comportement d’ordre privé, ne peuvent être l’objet d’aucune communication de la part du service dépositaire. Les renseignements individuels d’ordre économique ou financier, figurant sur les questionnaires revêtus du visa prévu à l’article 2, ne peuvent en aucun cas être utilisés à des fins de contrôle fiscal ou de répression économique. Les administrations dépositaires de renseignements de cette nature ne sont pas tenues par les obligations prévues, notamment à l’article 31 de la loi du 31 juillet 1920 portant fixation du budget général de l’exercice 1920, modifié par l’article 30 de la loi no 45-0195 du 31 décembre 1945, et à l’article 15, 2e alinéa, de l’ordonnance n° 45-1483 du 30 juin 1945. Les agents des services publics et des organisations appelés à servir d’intermédiaires pour les enquêtes dans les conditions fixées à l’article 4 sont astreints au secret professionnel sous les sanctions prévues à l’article 378 du code pénal. » Cette rédaction est intéressante, car elle met déjà en avant quelques-unes des caractéristiques du secret statistique et contient en germe de nombreuses évolutions qui vont l’affecter dans les années suivantes. 2. L’article 2 de la loi du 7 juin 1951 dit que : « Toute enquête statistique des services publics, à l’exclusion des travaux statistiques d’ordre intérieur ne comportant pas le concours de personnes étrangères à l’administration, doit être soumise au visa préalable du ministre dont relève l’Institut national de la statistique et des études économiques et du ministre à la compétence duquel ressortissent les intéressés. »
26
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
On distingue en effet dans cette rédaction : –– le périmètre d’application du secret ; –– la distinction entre les données recueillies auprès des personnes physiques et celles recueillies auprès des personnes morales ; –– quelques exceptions au secret statistique ; –– la supériorité du secret statistique sur d’autres textes législatifs d’accès à des données confidentielles ; –– les sanctions en cas de rupture du secret ; –– l’absence de lien entre secret et obligation. Reprenons ces points dans l’ordre… Le périmètre d’application du secret Dans sa rédaction d’origine, la loi de 1951 réserve le secret statistique aux renseignements individuels collectés à l’occasion d’enquêtes statistiques ayant reçu un visa. Comme on le verra plus loin, ce champ s’est élargi par la suite à d’autres types de données. En 1951, les renseignements individuels figurant sur des questionnaires étaient forcément liés à la présentation physique de ce questionnaire, qui prenait la forme d’une feuille de papier. On y retrouvait souvent le nom et l’adresse de la personne interrogée, ne serait-ce que pour faire des contrôles sur la qualité de la collecte. L’accès aux renseignements impliquait donc ipso facto l’accès à l’identité de la personne enquêtée. Depuis 1951, les choses ont bien changé. Les renseignements individuels sont maintenant systématiquement conservés sous forme numérisée. Les identifiants directs du répondant (nom, adresse exacte) ne sont en général pas saisis dans les mêmes fichiers, au moins pour les enquêtes auprès des ménages, et il n’est donc pas possible d’identifier directement la personne interrogée. Il est cependant à noter que les fichiers constitués à l’occasion d’enquêtes auprès des entreprises conservent en général le numéro SIREN, qui permet d’identifier directement l’entreprise, puisque ce numéro est public. Les informations figurant dans de 27
Qu’est-ce que le secret statistique ?
tels fichiers sont donc systématiquement dans le champ du secret statistique. Enfin, la plupart des enquêtes auprès des ménages sont maintenant effectuées avec saisie directe par l’enquêteur sur un ordinateur portable, soit à l’occasion d’un face-à-face avec l’enquêté, soit par téléphone, soit par internet. Ces modes de collecte nécessitent des précautions spécifiques qui seront examinées plus loin (voir page 58). Mais ils permettent de séparer, dès la capture des données, les renseignements collectés des identifiants directs de la personne interrogée. Une exception notable à ce mode de collecte est constituée par le recensement de la population, qui fait toujours l’objet pour l’essentiel d’une collecte papier, comme en 1951, bien qu’une collecte par internet ait été mise en place depuis quelques années3. Sur les bulletins du recensement figurent le nom, le prénom et l’adresse de la personne recensée et on se trouve donc toujours dans le cas de figure prévu par la rédaction initiale de la loi de 1951. Toutes ces évolutions techniques ont conduit les statisticiens à repréciser ce que l’on devait entendre par « renseignements individuels figurant sur un questionnaire ». En effet, une identification indirecte du répondant est parfois possible par croisement des divers renseignements recueillis à l’occasion de l’enquête avec des informations d’origine externe à l’enquête ellemême (registres, informations sur la famille ou le voisinage, informations de notoriété publique, etc.). On considère, dans ce cas, que les renseignements individuels, dans la mesure où ils autorisent une ré-identification, fût-ce seulement pour quelques individus enquêtés, sont couverts par le secret statistique.
3. Cette expérience concerne aujourd’hui une fraction croissante de la population. Depuis 2015, tous les citoyens, dans toutes les communes concernées, ont la possibilité de répondre au recensement de la population sur internet. En 2017, la réponse par internet a concerné 46 % des ménages et 54 % des individus (+ 7 points par rapport à l’enquête de 2016).
28
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Mais il existe aussi d’autres fichiers de données individuelles qui ne comportent aucune donnée permettant la ré-identification des personnes interrogées. Dans ce cas, l’article 6 de la loi de 1951 est interprété selon son esprit et non selon sa lettre. On considère en effet que les informations contenues dans des fichiers ne permettant aucune ré-identification des individus ne constituent pas à proprement parler des « renseignements individuels » au sens de l’article 6 de la loi de 1951. Même des informations se rapportant à un seul individu, dans la mesure où il est strictement impossible de découvrir de quelle personne précise il s’agit, ne sont pas couvertes par le secret statistique. Cette interprétation est renforcée par la référence à l’article du code pénal qui sanctionne une éventuelle rupture du secret statistique : cet article (aujourd’hui l’article 226-13) se trouve dans une partie intitulée « Atteintes à la personne humaine ». Et il est donc nécessaire que la personne puisse être identifiée pour que la sanction soit opérante. On conçoit immédiatement l’enjeu qui existe dès lors entre ces deux types de fichiers : ceux qui permettent une ré-identification (fût-elle laborieuse) pour au moins quelques individus et ceux pour lesquels une telle ré-identification est impossible, pour tous les répondants à l’enquête. Cette distinction fera l’objet d’un développement spécifique (page 81). Notons aussi que l’interdiction porte sur la communication de renseignements individuels à l’extérieur du service dépositaire. Cela signifie, a contrario, que la circulation de ces renseignements à l’intérieur de ce service n’est pas interdite. Y compris pour utiliser ces renseignements à d’autres fins que l’établissement de statistiques (par exemple, pour enrichir le fichier Sirene des entreprises et des établissements). Ce point différencie la situation française par rapport à ce qui se fait dans d’autres pays, où les données couvertes par le secret statistique ne peuvent être utilisées que pour l’établissement d’autres statistiques ou éventuellement à des fins de recherche scientifique. 29
Qu’est-ce que le secret statistique ?
La distinction entre les données « ménages » et les données « entreprises » Dès sa rédaction initiale, la loi a opéré une distinction entre deux types de données, selon qu’elles relevaient des « faits et comportements d’ordre privé » ou qu’elles touchaient à des renseignements « d’ordre économique ou financier ». PEUT-ON ENQUÊTER LES MÉNAGES ? Au moment du débat parlementaire de 1950, ces deux catégories d’informations ont fait l’objet d’âpres débats. Le Conseil de la République (équivalent du Sénat sous la IVe République) s’était opposé à la collecte d’informations ayant trait à la vie personnelle et familiale et d’une manière générale, aux faits et comportements d’ordre privé. Un orateur4 de ce Conseil trouvait « absolument insoutenable et [ne pouvait] tolérer cette sorte d’inquisition nouvelle dans la vie personnelle, dans la vie privée, dans l’existence des personnes qui composent une famille et d’une façon générale dans le comportement intime de nos concitoyens ». Emporté par son élan, celui-ci conclut, sous les vifs applaudissements de la gauche, du centre et de la droite : « Si nous adoptions ce qui est proposé à ce sujet, la France ne serait plus la France, et ce serait vraiment dommage. » [3] Le Conseil de la République a donc proposé de limiter la collecte d’informations aux seules données d’ordre économique ou financier, ainsi que, résultat d’une concession faite à contrecœur, aux données « démographiques », mais en excluant explicitement celles « qui ont trait à la vie personnelle et familiale et d’une manière générale, aux faits et comportements d’ordre privé ». L’Assemblée nationale a finalement rétabli le texte initial en maintenant les deux catégories de renseignements.
4. M. Pierre Mossion de La Gontrie, rapporteur pour avis de la commission de la justice et de législation civile, criminelle et commerciale.
30
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Implicitement, la rédaction adoptée suppose que ces deux catégories couvrent l’ensemble du spectre des sujets sur lesquels peuvent porter les enquêtes statistiques, bien que cela ne soit jamais dit explicitement. Autrement dit, il n’existerait pas d’information collectée par la statistique publique qui ne soit ou bien « d’ordre économique ou financier » ou bien relative « à la vie personnelle et familiale et d’une manière générale, aux faits et comportements d’ordre privé ». Cela n’est pas toujours évident. De la même manière qu’il n’est pas toujours facile de dire si un renseignement collecté se situe dans l’une ou l’autre de ces catégories. Il en va ainsi de ce qui touche à l’économie domestique (budget des familles, patrimoines…) ou bien ce qui concerne les entreprises individuelles, au premier rang desquelles les exploitations agricoles familiales. Les enquêtes effectuées sur ces sujets ou auprès de ces personnes portent-elles sur les aspects économiques ou financiers ou sur des comportements d’ordre privé ? Le Comité du secret statistique, qui sera créé bien plus tard, tranchera au cas par cas ces situations, en classant dans la catégorie « faits et comportements d’ordre privé » toutes les informations collectées par des enquêtes auprès des ménages et dans la catégorie « d’ordre économique ou financier » celles qui sont collectées auprès des exploitations agricoles, quels que soient la taille et le statut de ces dernières. Notons enfin que cette expression décrivant des informations ayant trait « à la vie personnelle et familiale et d’une manière générale, aux faits et comportements d’ordre privé » est particulièrement alambiquée. Elle n’a jamais fait l’objet d’un réel débat. Inscrite en ces termes dans le tout premier projet de loi présenté en 1950 au Parlement, elle reste ainsi formulée de nos jours dans la loi, malgré toutes les vicissitudes que ce texte a supportées depuis 1951. On peut se demander en effet pourquoi la loi n’énonce pas tout simplement que cette catégorie se rapporte aux informations « ayant trait aux faits et comportements d’ordre privé », sans qu’il soit besoin de rajouter des exemples (« vie personnelle », « vie familiale ») pour ensuite les étendre par la périphrase « d’une manière générale ». 31
Qu’est-ce que le secret statistique ?
Une lecture attentive de la loi de 1951 dans sa version d’origine montre une différence très importante de traitement entre les deux catégories de données, que l’on qualifiera pour simplifier de « données ménages » pour celles qui ont « trait à la vie personnelle et familiale et d’une manière générale, aux faits et comportements d’ordre privé », et de données « entreprises » pour celles qui sont « d’ordre économique ou financier ». Pour les données « ménages », la loi précise en effet que ces renseignements individuels « ne peuvent être l’objet d’aucune communication de la part du service dépositaire ». Cette précision ne figurait pas dans le tout premier texte préparé par le gouvernement, mais il a été rajouté à la demande du Conseil d’État, consulté sur le projet. Elle signifie l’interdiction de toute communication à qui que ce soit : administration, particulier ou autre. À l’inverse, les données « entreprises » ne font pas l’objet d’une mesure générale sur le secret. Il est seulement dit que les renseignements individuels de cette catégorie ne peuvent être utilisés à des fins de contrôle fiscal ou de répression économique. La loi précise même que ces renseignements échappent à l’obligation de communication aux administrations exerçant ces activités. Mais rien n’est dit pour la communication à d’autres personnes, en particulier à d’autres administrations. Cette différence de traitement a été mentionnée lors du débat parlementaire, lorsque le secrétaire d’État à l’économie (Robert Buron) a précisé : « bien qu’il n’y ait obligation de secret dans aucun texte à ce sujet, nous avons dit que le service dépositaire, pour les renseignements qui ne sont pas d’ordre industriel ou commercial (…), se doit de conserver le secret. » [3] On ne peut que comprendre, à la lecture de cette phrase, que ce même secret ne s’applique pas pour les données que le secrétaire d’État qualifie d’ordre « industriel ou commercial ». Certes, l’ensemble de cet article est chapeauté par son dernier alinéa, qui impose à tous les agents ayant à connaître ces informations 32
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
de respecter le secret professionnel. Mais celui-ci s’impose à chaque agent à titre individuel. Il n’exclut pas que le service dépositaire des renseignements individuels puisse transmettre ceux-ci à d’autres personnes, notamment à d’autres administrations, à condition que celles-ci n’exercent pas des pouvoirs de contrôle fiscal ou de répression économique. Il y a donc une certaine ambiguïté dans ce texte, qui privilégie clairement une protection renforcée des données « ménages » par rapport aux données « entreprises ». Les premières font l’objet d’une protection absolue, illimitée dans le temps et dans l’espace. Les secondes ne sont protégées que par le secret professionnel auquel sont astreints les agents de la fonction publique et par une interdiction de communication aux administrations chargées du contrôle fiscal ou de la répression économique. Disons tout de suite que cette ambiguïté a été levée par les modifications qui ont été ultérieurement apportées à la rédaction de cet article. Néanmoins, un clivage, très spécifique à la France, se maintiendra au cours des années : les Français sont plus sensibles à la protection des données personnelles qu’à celle des données économiques. Alors que c’est souvent l’inverse chez nos voisins européens. Les exceptions au secret statistique Dès 1951, des exceptions législatives sont prévues au secret statistique. Puisque ce dernier ne s’applique explicitement qu’aux données « ménages », les exceptions sont également cantonnées à cette catégorie d’information. Par la suite, avec l’harmonisation du secret sur les données « ménages » et « entreprises », les exceptions seront étendues à tous les types de renseignements collectés. Ces dérogations au secret statistique sont exprimées selon la référence à des textes de lois ou de codes en vigueur au moment du vote de la loi ou de ses amendements. Nous les commenterons ici en référence aux textes actuellement en vigueur. 33
Qu’est-ce que le secret statistique ?
– La première, notée aujourd’hui par référence à l’article 40 du code de procédure pénale, indique qu’un agent qui, dans l’exercice de ses fonctions, acquiert la connaissance d’un crime ou d’un délit, est tenu d’en informer sans délai le procureur de la République. Or, dans les enquêtes statistiques, il peut arriver que l’enquêteur soit amené à poser des questions pour lesquelles une réponse sincère de l’enquêté revient à admettre l’existence d’un délit (rarement d’un crime) commis par l’enquêté lui-même, ou par l’un de ses proches. Cela est ennuyeux, puisque les enquêtes ont pour objectif de faire apparaître des réponses sincères et le secret statistique est justement l’un des éléments mis en avant pour obtenir cette sincérité de la part des enquêtés. Cependant, les enquêtes qui risquent de conduire à la révélation de délits sont peu nombreuses. L’ENQUÊTE CVS Parmi les enquêtes susceptibles de révéler un délit, on peut citer l’enquête « cadre de vie et sécurité » (dite enquête « CVS ») pilotée par l’Observatoire national de la délinquance et de la réponse pénale et mise en œuvre par l’Insee. Un module de cette enquête vise à connaître les violences commises au sein de la famille, notamment les violences conjugales. Il s’agit là de données particulièrement sensibles et souvent mal connues par les services de police et de gendarmerie, dans la mesure où elles font plus rarement l’objet d’un dépôt de plainte que les autres actes de violence. L’enquête statistique est justement là pour évaluer plus précisément le niveau et les caractéristiques de ces violences. Mais l’exception qui figure dans la loi risque de ruiner totalement cette tentative, puisque, si l’enquêteur avait connaissance de tels délits, il devrait en informer immédiatement le procureur de la République… Une procédure a donc été mise en place, spécifiquement pour ce type d’enquête, afin de recueillir l’information, sans que l’enquêteur lui-même puisse à aucun moment en avoir connaissance. Le protocole prévoit en effet que, lorsqu’on arrive à cet instant de l’enquête, l’interrogation se
… 34
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
… passe selon un mode différent. L’enquêteur confie à l’enquêté le microordinateur sur lequel il enregistrait jusqu’alors ses réponses et il lui donne un casque audio, relié à l’ordinateur. Les questions sont, à partir de cet instant, affichées sur l’ordinateur et entendues par l’enquêté dans son casque. L’enquêté peut répondre en cliquant sur les cases correspondant à ses réponses. L’enregistrement informatique de ces réponses est immédiatement crypté et devient totalement illisible pour qui reprendrait l’ordinateur à ce moment : l’enquêteur lui-même ou une autre personne qui se trouverait dans la pièce et voudrait savoir les réponses qui ont été faites. Ainsi, l’enquêté peut répondre en toute sécurité, sans craindre de se voir reprocher les réponses qu’il aura faites et l’enquêteur a la possibilité d’assurer sa collecte sans avoir à dénoncer ce qu’il aurait sinon entendu auprès du procureur de la République. Ensuite, ces données restent cryptées, y compris au moment de leur traitement par les agents de l’Insee (qui sont, eux aussi, soumis à l’obligation de dénonciation prévue à l’article 40 du code de procédure pénale) et ne sont rendues lisibles qu’après que tout lien a été rendu impossible entre le questionnaire contenant ces réponses et l’identité du répondant. Ainsi, l’information comportant éventuellement la révélation de délits peut-elle être collectée, sans que les agents traitant l’enquête n’aient à les signaler à la justice. Pour cette enquête, une procédure complémentaire a même été mise en place, pour recueillir des informations aussi sincères que possible de la part des personnes interrogées. En effet, malgré toutes ces précautions, certaines personnes peuvent redouter de mentionner des violences qui leur ont été faites, alors même que l’auteur de ces violences se trouve non loin d’elles, voire dans la même pièce. C’est pourquoi l’enquêteur communique à la personne répondante un numéro de dossier et un numéro de téléphone « vert » pour éventuellement compléter ou corriger les réponses faites en présence de l’enquêteur. L’enquêté peut alors appeler quelques jours plus tard ce numéro, où un agent de l’Insee note le numéro de dossier (totalement anonyme pour lui) et les compléments ou modifications apportés par téléphone. Ces modifications, une fois cryptées, sont introduites dans la réponse au questionnaire du dossier correspondant. Dans les faits, cette dernière procédure a été rarement utilisée.
35
Qu’est-ce que le secret statistique ?
– La seconde dérogation au secret statistique se présente dans le cadre des articles 56, 76, 97 et 99 du code de procédure pénale. Ces articles prévoient des perquisitions, saisies et mises sous scellés de documents nécessaires à la manifestation de la vérité, dans le cadre d’une enquête judiciaire. Elles ne peuvent donc se faire que si une commission rogatoire a été ordonnée par un juge5. Dans la pratique, les renseignements collectés au cours d’enquêtes sont assez rapidement anonymisés après la fin de l’enquête (en général dans un délai de trois à quatre mois). La saisie ne pourrait donc être efficace que si elle survenait durant ce laps de temps, car ensuite, même le service enquêteur est dans l’impossibilité de dire quels sont les renseignements relatifs à une personne donnée. De plus, les enquêtes se font sur échantillon et la composition de cet échantillon est maintenue confidentielle. Le juge ne peut donc savoir si une personne concernée par l’enquête a, ou non, été interrogée. Toutefois, ces restrictions n’interviennent pas dans le cadre du recensement de la population. D’une part parce que la collecte est exhaustive dans les plus petites communes, et couvre une large partie de la population dans les plus grandes. D’autre part parce que la collecte se fait pour l’essentiel sur papier et qu’il est donc possible de retrouver les documents, même plusieurs mois après la fin de la collecte. Il est effectivement arrivé, quoique de manière exceptionnelle, qu’un juge d’instruction demande la saisie de certains documents du recensement de la population, afin d’éclairer certains éléments de l’enquête qu’il mène. Par exemple lorsqu’un crime a été commis et qu’il a acquis la certitude que le coupable réside dans le voisinage. Le recensement de la population est alors un moyen commode (même s’il est loin d’être le seul) pour dresser la liste des personnes qui résidaient dans un certain rayon autour de la scène du crime. 5. Ou sous le contrôle du procureur de la République pour la mise en œuvre de l’article 56.
36
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Pour très exceptionnelles qu’elles soient, ces atteintes au secret statistique n’en sont pas moins gênantes et probablement en désaccord avec le texte du traité de l’Union européenne et du code de bonnes pratiques de la statistique européenne. Prévues par la loi statistique de 1951, elles n’ont jamais été supprimées, ce que certains considèrent comme regrettable6 alors que d’autres font valoir qu’il s’agit d’un choix de société : souhaite-t-on privilégier la recherche de crimes ou la préservation du secret statistique ? La supériorité du secret statistique sur d’autres textes législatifs d’accès à des données confidentielles Comme on l’a vu précédemment, les informations collectées par voie de questionnaire statistique ne peuvent être utilisées ni à des fins de contrôle fiscal, ni à des fins de répression économique. Le problème est que cette affirmation se trouve en contradiction avec des dispositions des codes des impôts ou des douanes, qui prévoient explicitement l’obligation de transmission de toute information demandée par ces administrations. C’est en vue de contrer cette obligation qu’a été rédigée la dernière phrase de l’article 6 de la loi de 1951. Elle faisait référence à des textes aujourd’hui obsolètes, mais la loi a été actualisée afin de traduire la même obligation, en référence à des textes actuels. De plus, une disposition « miroir » de cette exception a été reprise dans le code des impôts et dans celui des douanes, pour éviter toute interprétation qui mettrait en concurrence ces textes et ceux de la loi de 1951. 6. Dans sa recommandation de la revue par des pairs de 2014 [50], sur la conformité avec le code de bonnes pratiques, Eurostat souligne très diplomatiquement : « La législation statistique française actuelle qui traite du respect de la confidentialité et qui prévoit la levée automatique du secret dans les affaires criminelles (…) devrait être revue afin de l’harmoniser avec les dispositions correspondantes dans la législation européenne. » Il est toutefois curieux de remarquer que d’autres pays européens (Royaume-Uni, Allemagne notamment) ont dans leur législation des exceptions du même type, mais qu’Eurostat n’a pas jugé nécessaire de leur faire les gros yeux… 37
Qu’est-ce que le secret statistique ?
Ainsi, l’article L. 83 du livre des procédures fiscales énonce-t-il que « Les administrations (…) doivent communiquer à l’administration, sur sa demande, les documents de service qu’ils détiennent sans pouvoir opposer le secret professionnel ». Mais la spécificité du secret statistique apparaît dès l’article suivant du même code : « Les renseignements individuels portant sur l’identité ou l’adresse des personnes ou d’ordre économique ou financier, recueillis au cours des enquêtes statistiques (…) ne peuvent en aucun cas être utilisés à des fins de contrôle fiscal. Les administrations dépositaires de renseignements de cette nature ne sont pas tenues par l’obligation découlant de l’article L. 83. » Il en va de même pour les informations demandées par les services des douanes, puisque l’article 64A du code des douanes énonce : « En aucun cas, les administrations (…) ne peuvent opposer le secret professionnel aux agents des douanes ayant au moins le grade de contrôleur qui, pour établir les impôts institués par les lois existantes, leur demandent communication des documents de service qu’ils détiennent, quel qu’en soit le support. » Mais, de nouveau, ce texte est complété par une exception concernant le seul secret statistique : « Les renseignements individuels d’ordre économique ou financier recueillis au cours d’enquêtes statistiques (…) ne peuvent en aucun cas être utilisés à des fins de contrôle fiscal ou de répression économique7. Les administrations dépositaires de renseignements de cette nature ne sont pas tenues par l’obligation découlant du 1 ci-dessus. » Ces deux textes marquent clairement la supériorité du secret statistique sur l’obligation de répondre aux demandes de communications de documents présentées par les administrations fiscale et douanière. La clarté de ces exceptions est manifeste dans le droit français. Elle l’est beaucoup moins dans la législation d’autres pays, où subsiste 7. Ce terme de « répression économique » est généralement compris de façon très extensive. Il s’agit non seulement des actions visant à pénaliser des entreprises, mais aussi celles qui visent à leur attribuer des avantages (primes, marchés, etc.), dans la mesure où, dans une économie de marché, favoriser une entreprise revient à pénaliser ses concurrents et où cela peut donc être vu comme une répression économique.
38
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
l’ambiguïté entre ce que dit la loi statistique et ce qu’imposent les législations fiscales ou douanières. Les sanctions en cas de rupture du secret La loi statistique précisait dès 1951 les sanctions à appliquer en cas de rupture du secret statistique. Ces sanctions sont d’ordre pénal et pas seulement d’ordre administratif. Selon le texte actuel, celui qui rompt le secret statistique encourt une peine pouvant aller jusqu’à un an de prison et 15 000 € d’amende. Ce sont les peines prévues par l’article 226-13 du code pénal, en cas de « révélation d’une information à caractère secret par une personne qui en est dépositaire soit par état ou par profession, soit en raison d’une fonction ou d’une mission temporaire ». On voit bien que cet article prévoit la possibilité de sanctions pour toute personne de la chaîne de production statistique, depuis l’enquêteur, jusqu’au diffuseur, en passant par les responsables de traitement des données. Il est cependant à noter que, dans sa version actuelle, la loi cite les sanctions prévues « aux articles 226-13 et 226-14 du code pénal ». Or, l’article 226-14 du code pénal ne cite pas de sanctions, mais, au contraire, fait échapper aux sanctions les personnes qui révèlent un secret dans certains cas, parmi lesquels : –– ceux où la loi impose ou autorise la révélation du secret ; –– ceux où la personne a eu connaissance de privations ou de sévices, y compris lorsqu’il s’agit d’atteintes ou mutilations sexuelles, infligées à un mineur ou à une personne qui n’est pas en mesure de se protéger en raison de son âge ou de son incapacité physique ou psychique. Dans de telles circonstances, le signalement aux autorités compétentes effectué ne peut faire l’objet d’aucune sanction disciplinaire. Certes, ces circonstances ont peu de chances de survenir dans le cas d’enquêtes statistiques, mais on voit tout de même que le législateur a 39
Qu’est-ce que le secret statistique ?
prévu de faire une exception au secret statistique si elles survenaient un jour. On notera au passage que la mention de la supériorité du secret statistique sur les obligations fiscales et douanières, rappelée ci-dessus, est particulièrement importante. En effet, sans cette mention, le secret statistique ne résisterait pas à ces obligations, en vertu de la première exception de l’article 226-14 du code pénal. L’absence de lien entre secret et obligation Une opinion, tenace, mais erronée, voudrait que le secret soit la contrepartie de l’obligation, pour les enquêtes de la statistique publique. Ce serait une espèce de troc : « On vous oblige à répondre et, en contrepartie, vos réponses seront couvertes par le secret statistique. » Cette présentation ne correspond ni à la réalité législative, ni à la pratique. La confusion a pu naître du fait que, en 1951, toutes les enquêtes de la statistique publique figurant dans le programme visé par le ministre de l’Économie étaient obligatoires (l’article 3 de la loi disait : « Les personnes physiques ou morales sont tenues de répondre, avec exactitude, et dans les délais fixés, aux enquêtes statistiques revêtues du visa. »). Donc, toutes les enquêtes étaient obligatoires et couvertes par le secret. L’enquêteur pouvait alors très bien annoncer simultanément les deux à l’enquêté et même présenter l’un (le secret) comme la contrepartie de l’autre (l’obligation). Mais au cours du temps, la loi a évolué. L’ordonnance du 25 mars 2004 [7] a introduit la notion d’enquêtes non obligatoires8, mais n’a rien modifié en ce qui concerne le secret statistique, si bien que celui-ci s’applique aussi bien aux enquêtes obligatoires qu’aux enquêtes non obligatoires. 8. Dans la pratique, la création d’enquêtes non obligatoires est plus ancienne, même si cette distinction n’avait pas encore été traduite dans la loi.
40
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
1.2 LES ÉVOLUTIONS DE LA LOI DEPUIS 1951 La loi du 7 juin 1951 a beaucoup évolué depuis sa première adoption. Le texte de l’article 6 de la loi est maintenant le suivant : « Sous réserve des dispositions des articles 40, 56, 76, 97 et 99 du code de procédure pénale et de celles de l’article L. 213-3 du code du patrimoine, les renseignements individuels figurant dans les questionnaires revêtus du visa prévu à l’article 2 de la présente loi et ayant trait à la vie personnelle et familiale et, d’une manière générale, aux faits et comportements d’ordre privé ne peuvent, sauf décision de l’administration des archives, prise après avis du Comité du secret statistique et relative à une demande effectuée à des fins de statistique publique ou de recherche scientifique ou historique, faire l’objet d’aucune communication de la part du service dépositaire avant l’expiration d’un délai de soixantequinze ans suivant la date de réalisation de l’enquête ou d’un délai de vingt-cinq ans à compter de la date du décès de l’intéressé, si ce dernier délai est plus bref. Sous réserve des dispositions des articles 40, 56, 76, 97 et 99 du code de procédure pénale et de celles de l’article L. 213-3 du code du patrimoine, les renseignements individuels d’ordre économique ou financier figurant dans les questionnaires revêtus du visa prévu à l’article 2 de la présente loi ne peuvent, sauf décision de l’administration des archives, prise après avis du Comité du secret statistique, faire l’objet d’aucune communication de la part du service dépositaire avant l’expiration d’un délai de vingt-cinq ans suivant la date de réalisation du recensement ou de l’enquête. Ces renseignements ne peuvent en aucun cas être utilisés à des fins de contrôle fiscal ou de répression économique. Par application des dispositions de l’article L. 84 du livre des procédures fiscales et de l’article 64 A du code des douanes, les administrations dépositaires de renseignements de cette nature ne sont pas tenues par les obligations relatives au droit de communication. Les agents des services publics et des organisations appelés à servir d’intermédiaires pour les enquêtes dans les conditions fixées à l’article 4 41
Qu’est-ce que le secret statistique ?
sont astreints au secret professionnel sous les sanctions prévues aux articles 226-13 et 226-14 du code pénal. Les recensements et enquêtes statistiques effectués conformément aux dispositions de la présente loi ont le caractère d’archives publiques. » Comme on l’a déjà vu, certaines modifications portent sur la référence à d’autres textes législatifs en vigueur (code pénal, code des impôts, code des douanes…). Mais d’autres concernent la façon de considérer le secret statistique lui-même. Durée de non-communication Initialement, le secret statistique était donc illimité dans le temps. Une information collectée par voie d’enquête ne pouvait jamais être rendue publique. Ce qui pouvait être gênant, en particulier pour les historiens qui souhaitaient s’appuyer sur des documents du recensement pour étudier des situations locales, même après le décès de tous les protagonistes9. La première modification intervient en 1979, grâce à une loi sur les archives [8], avec la limitation à cent ans de la durée de non- communication pour les données portant sur des faits et comportements d’ordre privé. La loi prévoit donc implicitement que le secret est levé sur les données recueillies à l’occasion d’une enquête auprès des ménages ou d’un recensement, à l’issue d’un délai de cent ans à partir de la réalisation de cette enquête ou de ce recensement (au moment du vote, cela ne concernait, dans la pratique, que les recensements de la population de 1876 et avant…). Les informations d’ordre économique ou financier demeurent en revanche éternellement soumises au secret professionnel. Cependant, en 1984, des possibilités de déroger au secret statistique sont organisées, avec la mise en place d’un Comité du secret statistique (cf. page 46). 9. Le premier recensement de la population a eu lieu en 1801 et l’introduction du bulletin individuel date de 1876.
42
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Ce n’est qu’en 2004, grâce à une ordonnance de simplification en matière d’enquêtes statistiques [7], qu’un plafond est mis à la durée de non-communicabilité des données sur les entreprises. Ce délai est fixé à trente ans, terme au-delà duquel les données sur les entreprises tombent dans le domaine public. À cette date, les informations d’ordre économique et financier antérieures à 1974 ne sont donc plus couvertes par le secret statistique. Une dernière modification survient avec la loi de 2008 sur les archives [9], qui ramène à soixante-quinze ans la durée de noncommunicabilité pour les données ménages et à vingt-cinq ans pour celles qui portent sur les entreprises. Ce délai est raccourci lorsque la personne concernée est décédée. Dans ce cas, la consultation devient possible dans un délai de vingt-cinq ans suivant la date du décès. Cela permet de faire entrer le traitement des données statistiques dans l’une des catégories prévues à l’article L. 213-2 du code du patrimoine, qui fixe les délais de communication des archives publiques. Cependant, pour les fichiers statistiques, cette dernière disposition est de peu d’intérêt, puisqu’il est en général impossible de savoir si les personnes enquêtées ou recensées sont encore ou non en vie. PAS D’EXCEPTION POUR LE RECENSEMENT ! Lors du vote de cette loi, un sénateur10 avait plaidé au Sénat le maintien d’un délai de non-communicabilité de cent ans pour les seules données du recensement de la population. Son argument était que les renseignements collectés à cette occasion sont particulièrement sensibles, du fait de leur exhaustivité. De plus, un nouveau mode de collecte du recensement se mettait alors en place11 et l’on avait insisté, lors de sa
…
10. Le sénateur d’Ille-et-Vilaine Yves Fréville. 11. Ce nouveau mode de collecte abandonnait l’exhaustivité pour la collecte dans les communes de plus de 10 000 habitants, mais il le maintenait pour les plus petites communes ; de plus, la sensibilité des questions à l’exhaustivité soulevée ici portait sur les recensements effectués depuis plus de soixante-quinze ans (avant 1933), donc exhaustifs. 43
Qu’est-ce que le secret statistique ?
… présentation, sur le fait que le secret serait garanti cent ans. Le Sénat a été sensible à ces arguments et a adopté l’amendement à l’unanimité. Cependant, quelques semaines plus tard, l’Assemblée nationale rétablissait le délai de soixante-quinze ans, prévu dans le projet initial du gouvernement.
La même loi ouvrait la possibilité d’accéder, sous conditions, à des données ménages avant le délai de soixante-quinze ans, en ouvrant le champ de compétences du Comité du secret statistique (cf. page 52). Exceptions au secret statistique En dehors des cas prévus par le code de procédure pénale, déjà examinés, d’autres possibilités existent de déroger au secret statistique, dans quelques cas particuliers. On peut distinguer les exceptions permanentes, correspondant à une mesure générale, prise une fois pour toutes, et les mesures ponctuelles, décidées au cas par cas. ■■
Les dérogations permanentes concernant les entreprises
Le Cnis [60], puis le Comité du secret statistique, ont considéré que certaines données concernant les entreprises, même recueillies au moyen d’enquêtes statistiques, étaient très souvent connues de tous, publiées dans les rapports d’activité des entreprises, et figuraient souvent dans la presse nationale ou locale. Il a estimé de plus que ces variables étaient suffisamment générales pour que leur diffusion ne porte en général pas tort à l’entreprise considérée. C’est pourquoi l’assemblée plénière du Cnis du 3 juillet 1986 a adopté un avis concernant la possibilité de diffuser les variables suivantes12 : –– les effectifs globaux de l’entreprise et de chacun de ses établissements (une fois par an) ; 12. Nous n’avons pas retrouvé l’avis du Comité du secret statistique qui validerait cette décision administrative.
44
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
–– la catégorie d’importance de son chiffre d’affaires ; –– la catégorie d’importance de la part de son chiffre d’affaires réalisée à l’exportation ; –– un indicateur (oui/non) de l’exercice d’une activité de recherche. Cependant, afin de préserver le secret sur ces variables pour les entreprises qui souhaiteraient les maintenir confidentielles, une possibilité leur a été ouverte de refuser la diffusion de ces informations. Moins d’une dizaine d’entreprises ont effectué cette démarche, appelée parfois opt out. Pour la mise en œuvre de cet avis13, le Cnis a précisé le 31 décembre 1986 que le refus ou l’absence de refus d’une entreprise vaut pour les données correspondantes des années antérieures. De même, le compte rendu de la première réunion du Comité du secret statistique concernant les entreprises, le 29 mars 1985, a adopté un avis favorable à la mise à jour du code APE (activité principale exercée) dans Sirene (répertoire des entreprises et de leurs établissements) à partir de la source statistique des enquêtes annuelles d’entreprise (EAE). Il s’est également prononcé en faveur de la libre diffusion, « sauf opposition des entreprises concernées », des activités secondaires des entreprises. Cet avis rejoint la position adoptée par le Conseil national de la statistique (CNS, ancêtre du Conseil national de l’information statistique, le Cnis) dans sa séance plénière du 6 juin 1980. ■■
Les dérogations permanentes concernant les ménages
Dans les recensements d’après-guerre, l’Insee craignait de voir des maires constituer des fichiers de population « sauvages » en recopiant les données figurant sur les bulletins du recensement. Il était très difficile d’empêcher cette pratique et, de fait, beaucoup de communes fabriquaient des fichiers de population, à partir des bulletins individuels, en contravention flagrante avec les règles du secret statistique. Pour endiguer cette pratique, l’Insee a alors décidé d’autoriser les 13. Publié au Bulletin officiel de l’Administration centrale de l’économie, des finances et de la privatisation (fascicule 86-2). 45
Qu’est-ce que le secret statistique ?
mairies à confectionner des « listes nominatives », à partir de la collecte du recensement. Un document spécifique leur était fourni. Une ligne était prévue pour chaque individu et des colonnes permettaient de coder certains renseignements relatifs à l’état civil, au sexe, à l’âge et à la position professionnelle… Ces listes étaient ensuite conservées dans les mairies, d’où elles ne pouvaient sortir. En procédant ainsi, l’Insee espérait canaliser les dérapages. Il s’est avéré que cet établissement des « listes nominatives » retardait les opérations de collecte et avait peu d’effet sur les pratiques abusives de certains maires. Les listes nominatives ont donc été supprimées à partir du recensement de 1982 et une attention plus grande a été portée au comportement des maires pour éviter qu’ils ne constituent des fichiers de population à partir du recensement. Nous reviendrons sur ce point un peu plus loin. On notera que cet établissement de listes nominatives, bien qu’encadré et officialisé entre 1946 et 1982, contrevenait formellement à la conception que l’on se fait aujourd’hui du secret statistique. Il s’agissait bien de la révélation, à destination d’un certain nombre de personnes, de « renseignements individuels » collectés à l’occasion du recensement et donc couverts par le secret statistique. Encore l’établissement de ces listes et leur usage étaient-ils strictement encadrés. Ce qui n’était pas le cas des listes établies à l’occasion des recensements effectués à la fin du xixe siècle ou au début du xxe siècle. Où l’on voit, à travers cet exemple, l’évolution de la notion de secret avec le temps. Il est certain que cette conception est beaucoup plus stricte de nos jours qu’elle ne l’était à cette époque. Le Comité du secret statistique14 Il est apparu, avec le développement de la science économique et des moyens de calcul mis à la disposition de cette dernière, que les 14. De larges passages qui suivent sont extraits de l’article de Jean Gaeremynck sur le Comité du secret statistique, dans le Courrier des statistiques no 128, septembredécembre 2009 [30].
46
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
chercheurs avaient de plus en plus besoin de disposer d’informations individuelles pour mener à bien leurs travaux. Non pas qu’ils eussent besoin de connaître la donnée fournie par telle ou telle personne interrogée, mais les outils mathématiques qu’ils utilisaient nécessitaient le plus souvent de procéder à une analyse à partir de données individuelles, afin de pouvoir effectuer des corrélations, des classements, des analyses de données, etc. Dans ce but, le service statistique public a entrepris de mettre à leur disposition des fichiers détail anonymisés (voir page 82). Cet exercice s’est avéré facilement réalisable pour les fichiers relatifs aux personnes physiques : l’anonymisation des informations individuelles était rendue possible en supprimant certaines variables qui auraient permis une identification des individus (lieu de résidence, profession détaillée, nationalité en clair, etc.). Il a ainsi été possible de répondre à la demande des chercheurs en sciences sociales, par la fourniture de fichiers individuels totalement anonymisés et respectant les règles du secret statistique. Il en allait tout autrement pour les fichiers portant sur les entreprises. L’anonymisation de ces derniers suppose en effet le plus souvent d’occulter certaines variables essentielles à l’analyse, telles que l’activité économique ou la taille. Les travaux que l’on peut mener sur des fichiers ainsi amputés sont souvent d’un faible intérêt. Si l’on ne voulait pas pénaliser la recherche française, ni imposer aux chercheurs de réinterroger des entreprises qui l’avaient déjà été par le service statistique public, il fallait donc entrouvrir les règles du secret statistique, de façon très contrôlée. ■■ Le Comité du secret statistique concernant les entreprises est créé en 1984
Cette nécessité d’ouverture s’est manifestée dès le milieu des années 1970 : un certain consensus15 s’est fait sur l’idée qu’il convenait d’orga15. Matérialisé par un rapport du Bureau d’informations et de prévisions économiques (BIPE) daté de mars 1976 intitulé Le secret statistique : possibilités d’assouplissement. 47
Qu’est-ce que le secret statistique ?
niser une ouverture maîtrisée pour l’accès à ces fichiers en faveur de la recherche scientifique. Il s’agissait en particulier d’éviter que les entreprises ne soient assiégées de demandes portant sur des données qu’elles avaient déjà fournies en réponse à des questionnaires statistiques. C’est ainsi qu’est né en 1984 un Comité du secret statistique concernant les entreprises [14], chargé d’étudier les problèmes que pose l’application des règles relatives à celui-ci et de donner un avis sur les demandes de communication de données statistiques individuelles auxquelles la loi de 1951 ne fait pas obstacle, c’est-à-dire ne permettant ni contrôle fiscal, ni répression économique. Placé auprès du Conseil national de l’information statistique (Cnis) [60], ce comité est en un sens mal nommé, puisque sa fonction première est d’accorder des dérogations aux règles très strictes du secret statistique. Le Comité du secret statistique concernant les entreprises se contentait cependant d’émettre des avis. La décision d’accorder une communication d’informations confidentielles aux personnes qui en faisaient la demande revenait, après avis du Comité, conjointement au ministre dont relève le service enquêteur et au ministre chargé de l’économie. Le Comité, présidé par un membre du Conseil d’État et comprenant quatre représentants de l’administration (dont un représentant du ministre de la Justice), quatre représentants des entreprises, un représentant des organisations syndicales de salariés et un représentant des utilisateurs régionaux et locaux de la statistique publique, s’est réuni pour la première fois le 29 mars 1985. Sa première tâche a été de « régulariser » les transmissions entre administrations intervenues sous le régime antérieurement en vigueur, en prenant cinquante-huit avis préalables à des décisions concertées permanentes en faveur : –– des services statistiques des ministères, afin qu’ils puissent bénéficier de transmissions de données individuelles sur les entreprises produites par d’autres services statistiques pour effectuer leurs propres travaux statistiques ;
48
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
–– de certaines directions techniques de ministères qui, pour leurs besoins propres, doivent recourir à l’utilisation de données individuelles d’ordre économique ou financier. Dans les séances qui ont suivi, le Comité a également proposé diverses mesures clarifiant ou allégeant les règles du secret statistique concernant les entreprises. Il a notamment suggéré, comme on l’a vu, que soit autorisée, sauf opposition explicite de l’entreprise concernée, la fourniture de quatre variables individuelles pour chaque entreprise : les effectifs, la tranche de chiffre d’affaires, la tranche de chiffre d’affaires à l’exportation, ainsi que l’existence ou non d’une activité de recherche et admis que le code APE du répertoire Sirene puisse être mis à jour à partir des résultats d’une enquête statistique. Ces dérogations à caractère général venaient compléter des mesures prises avant la création du Comité sur la décision du directeur général de l’Insee16, abaissant de quatre à trois le nombre minimal d’entreprises indispensables pour que les valeurs les concernant puissent faire l’objet d’une publication, ouvrant la possibilité, sans autre restriction que l’avis contraire de l’entreprise concernée, de diffuser (au niveau 600 de la nomenclature officielle des activités et produits) les activités secondaires des entreprises et des établissements et maintenant au niveau de 85 % la notion de dominance d’une seule entreprise dans un agrégat statistique et faisant de ce fait obstacle à sa publication (voir page 75). Les règles de fonctionnement du Comité du secret statistique concernant les entreprises ont fait l’objet de plusieurs ajustements : en cas d’absence ou d’empêchement du président, le Comité du secret statistique tient séance sous la présidence du représentant du garde des Sceaux, ministre de la Justice, sa composition a été modifiée par l’adjonction de trois représentants des assemblées constitutionnelles (Sénat, Assemblée nationale et Conseil économique et social). 16. Note no 167/950 du 13 juin 1980 du directeur général de l’Insee. 49
Qu’est-ce que le secret statistique ?
La gestion des règles relatives au secret statistique sur les entreprises a elle-même évolué, suite aux réflexions d’un groupe de travail du Cnis [35] au début des années 2000. Les recommandations qu’il a émises se sont traduites par des décisions du directeur général de l’Insee [39] assouplissant certaines règles de gestion. Les quatre recommandations ayant fait l’objet de la décision sont les suivantes : –– autoriser la diffusion de données agrégées dans lesquelles une entreprise occupe une place prépondérante (moins de trois unités ou forte prédominance d’une unité) dans les deux cas suivants : • lorsque l’entreprise concernée a donné explicitement son accord pour ce faire au service enquêteur, • lorsque les valeurs fournies par l’entreprise, dans sa réponse à l’enquête, sont identiques aux résultats publiés par l’entreprise du fait de directives comptables communautaires ou d’obligations concernant le secteur public, ou sont remplacés par ceux-ci ; –– autoriser la mise à jour dans Sirene, en référence à la NAF (nomenclature d’activités française), non seulement du code APE, mais également de la liste des activités (principale et secondaires significatives) des entreprises, à partir de collectes statistiques telles que les EAE ou les enquêtes de branche ; –– modifier la stratification des tranches de chiffres d’affaires dont la diffusion est autorisée et libeller ces tranches en euros en tenant compte du règlement communautaire de 1993 ; –– mettre en œuvre l’avis du Comité du secret statistique du 10 mai 1998 concernant l’accès restreint aux réponses à l’enquête liaisons financières en tenant à la disposition des entreprises-têtes le demandant expressément l’organigramme de leur « groupe statistique ». L’élargissement des compétences du Comité Il faudra pourtant attendre l’année 2004 pour que le Comité du secret statistique apparaisse dans la loi (et pas seulement dans un 50
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
décret) et prenne le nom qu’il porte actuellement, en abandonnant son suffixe initial « relatif aux entreprises ». À cette date, plusieurs modifications, outre son changement de nom, sont en effet apportées au Comité du secret statistique [7] : –– à plusieurs reprises, le comité avait dû se déclarer incompétent à propos de communications de données portant sur des organismes publics (telles que l’enquête annuelle sur l’emploi dans les collectivités territoriales). Celles-ci ne portent en effet manifestement pas sur la vie personnelle et familiale ; mais on ne peut non plus les qualifier de données d’ordre économique ou financier sur les entreprises. C’est la raison pour laquelle le champ de compétences du Comité a été étendu aux personnes morales de droit public. Son nom a été raccourci en conséquence. Un décret ultérieur [17] a réorganisé le Comité du secret statistique pour y créer deux sections, l’une consacrée aux entreprises, l’autre aux organismes publics ; –– si le Comité avait pouvoir de donner des avis sur la communication de renseignements individuels issus d’enquêtes statistiques, il ne pouvait se prononcer sur la communication de données d’origine administrative détenues par l’Insee ou les services statistiques ministériels. Cette situation était pénalisante pour les chercheurs ; ou bien elle les poussait à réinterroger des entreprises qui avaient déjà fourni ces informations, dans le cadre d’obligations fiscales ou sociales. L’introduction d’un article 7ter dans la loi de 1951 permet au Comité du secret statistique d’effectuer des recommandations relatives à la transmission de telles données. La décision de transmission reste confiée à l’administration des archives, mais l’avis de l’administration ou de la personne morale ayant procédé à la collecte des données concernées n’est que facultatif. Afin de ne pas trahir le « contrat de confiance » entre les enquêtés et les services enquêteurs, la communication des données confidentielles ne peut se faire que dans des conditions très strictes. Le demandeur doit tout d’abord présenter un dossier dans lequel il explique l’intérêt 51
Qu’est-ce que le secret statistique ?
de l’étude qu’il réalise et démontrer qu’il ne lui est pas possible de mener cette étude sans avoir accès à des variables individuelles sur les entreprises. Le secrétariat du comité examine ce dossier et s’assure que le demandeur n’est pas susceptible de les utiliser à des fins autres que celles qu’il a annoncées : il n’est par exemple pas possible que quelqu’un ayant un intérêt personnel ou professionnel dans un secteur d’activité ait accès aux données individuelles des entreprises de ce secteur ; de même, il est exclu que celles-ci puissent être utilisées à des fins de contrôle fiscal ou de répression économique. Par ailleurs, si le demandeur poursuit une finalité de recherche scientifique, le comité vérifie que l’organisme au sein duquel cette recherche est effectuée est bien solidaire de cette demande. Lorsque son dossier est présenté devant le Comité du secret statistique (celui-ci se réunit trois à quatre fois par an), le demandeur doit être personnellement présent pour le défendre. S’il recueille un avis favorable du comité, il s’engage par écrit, et à titre personnel, à respecter scrupuleusement les règles du secret statistique, à détruire les fichiers qui lui seront communiqués au bout d’un certain délai qui lui est fixé par le Comité et à transmettre à ce dernier toute publication produite à partir des données auxquelles il aura ainsi accès. Il est informé que la révélation d’une donnée couverte par le secret statistique l’expose à des peines pouvant aller jusqu’à un an d’emprisonnement et 15 000 € d’amende. ■■
Le cas des données sur les ménages
Avec les nouveaux progrès des matériels et logiciels informatiques, et le développement des sciences humaines et sociales, la situation des chercheurs dans ces domaines devenait de plus en plus difficile. En effet, contrairement à leurs collègues qui travaillaient sur les entreprises, ils ne bénéficiaient d’aucune dérogation pour avoir accès à des informations confidentielles issues des enquêtes ou des documents administratifs relatifs aux ménages. Or les besoins de la recherche scientifique nécessitaient de plus en plus qu’un tel accès leur fût ouvert. Certes, les chercheurs pouvaient avoir accès à des 52
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
fichiers individuels. Mais ceux-ci devaient être appauvris pour éviter toute possibilité d’identification. Or, les chercheurs avaient besoin de fichiers de plus en plus précis. Cette possibilité leur a été accordée en 2008 par la loi sur les archives [9] qui a modifié les règles du secret statistique. On a déjà vu qu’elle avait ramené la durée à partir de laquelle la communication des informations recueillies par voie d’enquête statistique est libre de cent ans à soixante-quinze ans pour les renseignements relatifs aux faits et comportements d’ordre privé, et de trente à vingt-cinq ans pour celles qui ont trait à des renseignements d’ordre économique ou financier ; mais elle a surtout ouvert la possibilité de communiquer avant ce délai des informations relatives à la vie personnelle et familiale, après avis du Comité du secret statistique, pour des travaux réalisés à des fins de statistique publique ou de recherche scientifique ou historique. Cette dernière disposition élargit considérablement le champ de compétences du Comité du secret statistique. Elle a amené une réorganisation [18] de son fonctionnement et une modification de sa composition. Le Comité du secret statistique a été réorganisé en deux sections (distinctes des précédentes) : –– la première section est compétente pour les renseignements ayant trait à la vie personnelle et familiale. Elle comprend, outre le président du Comité, les représentants de l’Assemblée nationale, du Sénat et du Conseil économique, social et environnemental, de l’Insee, du ministre de la Justice, de la direction des Archives de France, du service producteur intéressé, ainsi que le président du conseil scientifique du comité de concertation pour les données en sciences humaines et sociales, qui sont membres des deux sections du Comité. Elle inclut également spécifiquement deux membres désignés par le président de la Commission nationale de l’informatique et des libertés (Cnil), deux représentants des syndicats de salariés, un représentant des organisations patronales, un représentant de l’Union nationale des associations familiales et 53
Qu’est-ce que le secret statistique ?
un représentant de l’Institut national d’études démographiques (Ined) ; –– la seconde section du comité est compétente pour les renseignements individuels d’ordre économique ou financier. Elle comprend, outre les membres communs aux deux sections, un représentant des syndicats de salariés, des représentants du Medef, de la Confédération générale des petites et moyennes entreprises (CGPME, devenue depuis lors la CPME), de l’Union professionnelle artisanale et de la Fédération nationale des syndicats d’exploitants agricoles (FNSEA), des représentants de l’Assemblée des chambres françaises de commerce et d’industrie et de l’Assemblée permanente des chambres de métiers, ainsi qu’un représentant des collectivités locales. Le Comité doté de ces nouvelles fonctions s’est réuni pour la première fois le 6 octobre 2009. À cette occasion, il a adopté un avis favorable pour l’accès aux listes nominatives établies par les maires à l’occasion des recensements généraux de la population jusqu’en 1975, en vue des finalités de statistique publique ou de recherche scientifique ou historique, étant précisé que ce droit d’accès ne s’accompagne pas d’un droit de réutilisation, notamment en vue d’une utilisation commerciale. Il a également continué à exercer ses compétences anciennes relatives à l’accès à des données confidentielles d’ordre économique ou financier. Pour l’accès à des données relatives aux personnes physiques, la communication était également subordonnée à des formalités auprès de la Cnil dans la mesure où elles constituaient ce que la loi « informatique et libertés » appelle des « données à caractère personnel ». Selon leur type, cette formalité pouvait prendre la forme d’une simple déclaration ou d’une demande d’avis suivie d’un acte réglementaire ou d’autorisation. Ces formalités préalables ont pour la plupart disparu, en application du règlement européen sur la protection des données à caractère personnel [49]. 54
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Une jurisprudence a été également fixée pour les modalités de communication de ces données. L’Insee a fait savoir que, pour donner son accord, nécessaire après l’avis du Cnis et la décision des archives, il exigerait que les chercheurs accèdent aux données dans le cadre d’un centre d’accès sécurisé qui était en train de se mettre en place (voir page 123). En 2012, l’Insee a également décidé que la mise à disposition des données sur les entreprises ne se ferait plus sur CD, comme cela était le cas jusqu’alors, mais selon la même procédure de mise à disposition sur un centre d’accès sécurisé. La transmission de données confidentielles sur CD présentait en effet de nombreux inconvénients. Le principal était que ce CD pouvait être facilement perdu, volé ou mis à disposition d’une tierce personne. Certes, les chercheurs s’engageaient à ne les communiquer à quiconque, mais la tentation était parfois grande de le passer à un collègue qui recherchait précisément ce genre d’informations et qui n’avait pas eu le temps d’effectuer les formalités requises auprès du Comité du secret statistique. Un autre inconvénient résidait dans le fait qu’il était impossible de vérifier que les informations figurant dans le CD étaient effectivement détruites au terme de la durée fixée par le Comité du secret statistique. La mise à disposition sur un centre d’accès sécurisé permet de parer à ces deux inconvénients. Le fonctionnement avec deux sections s’est finalement avéré très lourd et peu utile. Lors de ses réunions, le Comité examinait successivement les dérogations demandées pour accéder aux données « ménages », puis, quelques minutes plus tard, aux données « entreprises ». Il aurait fallu faire à cette occasion un changement de composition, certains membres devant partir alors que d’autres seraient arrivés. Un décret de 2013 [20] a mis fin à cette complexité inutile. Il n’y a désormais plus qu’une seule section au Comité du secret statistique. Celui-ci comprend, outre son président et les représentants de l’Assemblée nationale et du Sénat : –– un membre du Conseil économique, social et environnemental ; –– un représentant de l’Insee ; 55
Qu’est-ce que le secret statistique ?
–– –– –– –– –– –– ––
un représentant du ministre de la Justice ; le délégué interministériel aux Archives de France ; un représentant du service producteur concerné par la demande ; deux membres de la Cnil ; deux chercheurs ; deux représentants des syndicats ; des représentants du Mouvement des entreprises de France, de la Confédération générale des petites et moyennes entreprises et du patronat réel, de l’Union professionnelle artisanale et de la Fédération nationale des syndicats d’exploitants agricoles ; –– un représentant de l’Institut national d’études démographiques (Ined) ; –– un élu local. Ainsi constitué, le Comité est apte à examiner l’ensemble des demandes qui lui sont soumises. ■■
Présidents et activités du Comité du secret statistique Dates
Nombre de séances
Nombre de dossiers traités
Jean Querenet Onfroy de Breville
1985-1989
14
103
Achille Lerche
1989-1993
8
60
Jacques Faure
1993-1998
15
146
Gilles Arnaud de la Ménardière
1998-2009
16
405
Jean Gaeremynck
2009-2018
34
1 900
Jean-Éric Schoettl
2018-…
Président
56
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Élargissement du champ du secret aux données administratives Une modification importante de la loi de 1951 est intervenue en 1986 [10] [27], complétée par des dispositions d’une ordonnance de 2004 [7]. Cette modification donne l’accès, pour l’Insee et les SSM17, aux sources administratives nécessaires à l’établissement des statistiques (c’est l’article 7bis de la loi de 1951). Cette modification était en fait une régularisation de pratiques déjà anciennes : l’Insee et les SSM utilisaient déjà des sources administratives, sociales ou fiscales, pour établir les statistiques. Mais la loi a fixé un cadre juridique à cette communication de documents. Celle-ci peut se faire si aucune disposition législative ne s’y oppose (par exemple le secret fiscal, en raison duquel d’autres dispositions seront nécessaires pour que le service statistique public ait accès à ces données), après avis du Cnis et sur la demande du ministre dont relève l’Insee. Sont exclues de cette possibilité les données relatives à la vie sexuelle. Celles relatives à la santé peuvent être communiquées, mais leur transmission est encadrée par des règles très strictes. L’ordonnance de 2004 introduit le fait que cette communication est non seulement autorisée, mais elle est obligatoire. Le service dépositaire ne peut donc refuser la communication des données demandées par l’Insee ou un SSM, à partir du moment où la demande a été effectuée dans les formes. Cependant, cette obligation n’est assortie d’aucune sanction automatique en cas de refus. Dans un tel cas, une action judiciaire serait donc nécessaire. Dans les faits, il est arrivé qu’un tel refus provienne d’une personne morale chargée d’une mission de service public. Après une relance effectuée par le président du Cnis, l’Insee avait finalement renoncé à engager une procédure contre elle. Et si la personne morale concernée avait été une administration
17. Services statistiques ministériels, dont l’existence a été introduite dans la loi en 2008 et dont la liste est publiée et mise à jour depuis 2009 (Annexe au décret n° 2009250 du 3 mars 2009 relatif à l’Autorité de la statistique publique [19]). L’Insee et les SSM forment le « service statistique public » (article 1er de la loi de 1951). 57
Qu’est-ce que le secret statistique ?
de l’État, celui-ci ne pouvant recourir contre lui-même, il aurait probablement fallu s’en remettre à un arbitrage du Premier ministre. S’agissant du secret statistique, la disposition importante est celle qui figure à la fin de cet article 7bis : « Sous réserve des dispositions des articles 40, 56, 76, 97 et 99 du code de procédure pénale, les informations transmises en application du présent article et permettant l’identification des personnes physiques ou morales auxquelles elles s’appliquent ne peuvent faire l’objet d’aucune communication de la part du service bénéficiaire. » Autrement dit, avec les quelques exceptions déjà vues à propos des enquêtes statistiques, le secret statistique s’applique lui aussi pour les données communiquées à l’Insee et aux SSM. Dit autrement, ces données changent de nature, à partir du moment où elles sont transmises à l’Insee ou à un SSM : elles ne sont plus couvertes par le simple secret professionnel ; elles le sont aussi par le secret statistique. On aboutit alors à la situation suivante : certaines informations détenues par des administrations sont couvertes par un type de secret plus faible que le secret statistique ; mais, lorsqu’elles ont été transmises à l’Insee ou à un SSM dans le cadre de l’article 7bis, elles deviennent couvertes par le secret statistique. Ainsi, la même information a deux statuts, selon qu’elle est détenue par l’Insee ou par une autre administration. Or, l’Insee est, contrairement à la plupart des autres administrations, bien rodé à la diffusion d’informations quantitatives. C’est même une de ses missions. De ce fait, les personnes intéressées par des données administratives ont tendance à se retourner vers l’Insee, plutôt que vers le service qui les a initialement produites, pour y avoir accès, notamment dans le domaine social. La préservation du secret statistique au moment de la collecte Un moment délicat pour la protection du secret statistique est celui de la collecte des informations. Les enquêtes de la statistique publique auprès des ménages se font le plus souvent en tête-à-tête, 58
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
même si l’interview par téléphone ou par internet prend une place grandissante. Il faut distinguer le cas du recensement de la population et celui des autres enquêtes. Pour les autres enquêtes, le schéma habituel est celui d’un enquêteur qui se voit confier une liste de logements à aller enquêter. Ou, plus rarement, une liste de personnes. La collecte des informations se fait à l’aide d’un ordinateur portable. C’est ce que l’on appelle la collecte assistée par ordinateur ou par informatique (CAPI). Pour la plupart des enquêtes réalisées en « face-à-face », deux types de matériaux sont remis aux enquêteurs avant la réalisation de l’enquête : –– des fiches-adresses papier : sur ces fiches figurent les nom, prénom et adresse des personnes à enquêter ; elles sont issues, en règle générale, des bases-images du recensement de la population ; –– un poste CAPI, où figurent : • le carnet de tournée, avec les numéros des fiches-adresses à enquêter, le numéro du département et des communes concernées, • le questionnaire de l’enquête, • un espace réservé aux commentaires de l’enquêteur. Pour activer son ordinateur, l’enquêteur doit tout d’abord composer son code d’accès personnel, qui lui donne accès au système. Pour avoir accès au contenu, il doit introduire dans l’ordinateur une carte à puce, de format carte bancaire. Il lui est alors demandé un code PIN. Ce code PIN correspond à un certificat privé, figurant sur la carte. La composition de ce code PIN lui permet d’avoir accès au questionnaire de l’enquête. Pour traiter un dossier relatif à une fiche-adresse, l’enquêteur doit rechercher le numéro de cette fiche dans une liste qui lui est proposée, puis composer une clef, pour confirmer que le dossier ouvert correspond bien à la fiche-adresse souhaitée. Cette clef figure sur la fiche-adresse papier, à côté du numéro de la fiche-adresse. 59
Qu’est-ce que le secret statistique ?
L’enquête peut alors commencer. Les données sont cryptées dès leur saisie. Lorsqu’un lot d’enquêtes est terminé, l’enquêteur transmet les résultats à l’Insee. Les données sont décryptées au moment de la transmission et acheminées par une liaison sécurisée. Le transfert est sécurisé et se fait selon un protocole chiffré. Une interception des données au cours de ce transfert n’est pas possible, ou du moins ne peut donner accès qu’à des informations cryptées, donc incompréhensibles pour celui qui s’en serait emparé. Il peut arriver que l’enquêteur perde ou se fasse dérober son ordinateur d’enquête. Par exemple, au cours d’un cambriolage à son domicile. La procédure décrite ci-dessus constitue une protection efficace contre l’accès par un tiers aux données confidentielles. Le code d’accès est nécessaire pour accéder au système. Sa complexité est une première garantie contre l’intrusion. Ensuite, le code PIN pour accéder au contenu présente les mêmes sécurités que celui d’une carte bancaire : il permet un verrouillage du système après trois tentatives infructueuses. On peut donc considérer que, dans le cas des enquêtes en face-àface, la confidentialité des données est bien protégée. Pour les enquêtes par téléphone ou par internet, beaucoup moins nombreuses, la confidentialité est également assurée. Pour les enquêtes par téléphone, le lien est direct et oral entre l’enquêté et le service enquêteur. Les données collectées sont donc immédiatement soumises à la protection des données propres au service enquêteur. Pour les enquêtes utilisant internet, une lettre avis proposant l’enquête est adressée au ménage. Elle comporte l’adresse du site internet de l’enquête ainsi que l’identifiant et le mot de passe pour la connexion sécurisée. Elle est suivie d’une ou de deux relances par courrier. Un questionnaire papier est joint soit à la lettre avis initiale soit à la lettre de relance. 60
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Lorsque l’enquêté commence à répondre au questionnaire, aucun tiers n’a a priori connaissance des informations fournies. Les seules possibilités de rupture de la confidentialité seraient : –– pendant la transmission des données : les liaisons sont protégées pour empêcher quiconque d’en prendre connaissance ; de plus, aucune donnée identifiante n’est transmise en même temps que les données d’enquête ; –– au moment de la saisie : l’enquêté peut interrompre sa saisie et la reprendre plus tard ; un membre du ménage, ou une autre personne proche pourrait éventuellement prendre connaissance des renseignements déjà saisis, à condition de connaître l’identifiant et le mot de passe qui ont été donnés à l’enquêté. Il importe donc que celui-ci soit bien informé de la nécessité de ne transmettre son mot de passe à quiconque (comme pour une carte bancaire). On peut donc considérer que la protection de la confidentialité et de l’anonymat est correctement assurée dans la réalisation des enquêtes par internet. Pour le recensement de la population, la question du secret au moment de la collecte se trouve posée d’une tout autre manière. Les renseignements sont collectés soit par des agents recenseurs, recrutés en général par la mairie, soit par internet. Lors de l’enquête, l’agent recenseur se présente devant le ménage à enquêter, détermine le nombre de personnes présentes dans le ménage et distribue le nombre adéquat de bulletins à remplir. Mais il propose en même temps au ménage la possibilité de remplir ces questionnaires par internet et de les transférer directement à l’Insee. Il subsiste, pour le recensement, un véritable problème lié au stockage temporaire des documents papier dans les mairies. Comme tous les intermédiaires chargés de la collecte (agents recenseurs, délégués, etc.), les maires sont astreints au respect du secret statistique. Mais la tentation est forte de profiter de cette masse d’information disponible à portée de main pour mettre à jour des fichiers municipaux. L’immense majorité des maires sait parfaitement résister à cette 61
Qu’est-ce que le secret statistique ?
tentation et reste dans le cadre de la légalité. Mais il est notoire que quelques-uns profitent de cette situation pour récupérer quelques informations qui pourraient s’avérer utiles pour la gestion de leur commune. Le fait que la collecte se fasse maintenant par sondage dans les plus grandes communes retire de l’intérêt, pour les maires, à cette tentation. La généralisation de la possibilité de répondre par internet va également dans le sens d’une moins grande accessibilité des maires aux informations recueillies à l’occasion du recensement. La préservation du secret dans le service qui a effectué la collecte Une fois arrivées dans le service qui a effectué la collecte, les données doivent être protégées de toute communication à l’extérieur. La « fuite » de données confidentielles peut se produire de deux façons : –– soit par intrusion d’un organisme extérieur dans le système où les données sont recueillies ; –– soit à la suite d’un acte malveillant ou d’une négligence d’un agent interne à ce service. Le premier type de fuite relève principalement de la sécurité informatique. C’est une préoccupation constante de l’Insee et des services statistiques ministériels que de protéger les données confidentielles dont ils disposent. Celles-ci sont stockées sur des serveurs spécifiques, distincts des serveurs utilisés pour les autres opérations du service, notamment pour les services statistiques ministériels. Tous les agents n’ont pas accès à ces données confidentielles. Les procédures permettant d’y accéder limitent cette possibilité aux quelques personnes qui en ont réellement besoin pour leur activité professionnelle ; c’est-àdire une très faible proportion des agents du service statistique public. Les autres n’y ont pas plus accès que le commun des mortels. De plus, des pare-feu contrôlent les éventuels échanges entre ces serveurs et le monde extérieur. Aucune intrusion n’est parvenue jusqu’à présent à accéder à ces données. 62
LE SECRET STATISTIQUE
Qu’est-ce que le secret statistique ?
Des précautions matérielles sont également prises pour éviter toute intrusion physique dans les lieux où sont conservées les données confidentielles. On comprendra aisément que celles-ci ne peuvent être détaillées dans le présent ouvrage. Le deuxième type de fuite relève du comportement humain. L’acte de malveillance venant de l’intérieur des services ne peut évidemment être totalement exclu, bien qu’on n’en ait relevé aucun exemple depuis la promulgation de la loi de 1951. Il convient par contre d’être extrêmement vigilant sur les risques éventuels liés à un acte de négligence. Tous les agents sont informés de la responsabilité qui est la leur en ce domaine. Depuis 2007, tous les agents du service statistique public signent une reconnaissance des obligations de confidentialité. Ils sont informés du fait que la loi leur impose des obligations dans ce domaine et ils s’engagent à s’y conformer. Cette reconnaissance des obligations, improprement appelée « engagement de confidentialité », découle du code de bonnes pratiques de la statistique européenne, adopté en 2005. Il est à noter que le décret no 46-1432 du 14 juin 1946 [1], toujours en vigueur, dispose dans son article 7 que « Les fonctionnaires de l’Institut national prêtent serment. Le personnel de toutes catégories de l’Institut national est tenu au secret professionnel. » Si la seconde partie de la phrase (respect du secret professionnel) est toujours d’actualité, la première (prestation de serment) correspond à un rite tombé petit à petit en désuétude. Cette prestation de serment était effective pour les nouveaux arrivants jusque dans les années 1960, mais a été abandonnée à une date aujourd’hui oubliée. Pendant près de cinquante ans, rien ne l’a remplacée. On peut considérer qu’aujourd’hui la reconnaissance des obligations de confidentialité fait office de prestation de serment. Il n’empêche que, formellement, cet article du décret de 1947 n’a toujours pas été aboli et reste toujours théoriquement en vigueur.
63
2 Le secret statistique et la diffusion
La définition retenue dans la loi de 1951 donne un caractère absolu au secret statistique. Les informations couvertes par ce secret ne doivent faire l’objet d’aucune communication (sauf dans les cas prévus par la loi elle-même). Il n’y est pas question de probabilité plus ou moins grande de révélation d’informations couvertes par le secret. Dans certains pays, on considère comme suffisamment protégés des fichiers dans lesquels les informations confidentielles ne pourraient être dévoilées que moyennant un travail hors de proportion avec le risque encouru. On compare alors l’énergie et la dépense qu’il a fallu déployer pour révéler une information avec le dommage causé par cette révélation. Si cette comparaison aboutit à une disproportion manifeste, on considère que le secret est suffisamment gardé. S’il faut, par exemple des milliers d’heures de travail, des mobilisations de nombreux fichiers pour réussir à révéler l’âge exact ou le statut matrimonial d’un individu, on considèrera que le fichier protège suffisamment le secret. Il n’en va pas ainsi en France, où le secret statistique ne doit pas faire l’objet d’une estimation moyens/risques. Il est absolu. Même s’il faut mettre en œuvre des moyens déraisonnables pour révéler des informations individuelles contenues dans un fichier, celui-ci sera 65
Le secret statistique et la diffusion
considéré comme non conforme aux règles du secret statistique et ne pourra donc faire l’objet d’une diffusion générale. La première attitude est parfois appelée la « gestion du risque » de révélation de données confidentielles. L’attitude retenue en France relève de « l’aversion pour le risque ». Ces deux attitudes se retrouvent dans la façon de caractériser les données à caractère personnel. La définition de ce qu’est une donnée à caractère personnel n’est pas tout à fait la même en France et dans le reste de l’Union européenne (cf. encadré ci-dessous). GESTION OU AVERSION ?18 Dès qu’il s’est agi de protéger les données personnelles, il a fallu définir ce que l’on entendait par donnée nominative. Il ne suffit évidemment pas de retirer le nom et le prénom pour obtenir une information anonyme. Des périphrases (le meilleur buteur de la Coupe du monde de football en 1958) ou des accumulations d’informations (la personne qui habite 27 rue du Vol-à-Voile à Moulinsart et qui est reporter) suffisent souvent à identifier des individus de façon unique. La loi informatique et libertés et la directive européenne C’est pourquoi, la loi dite « informatique et libertés » de janvier 1978 [4] a posé la définition suivante, qui reconnaît les possibilités d’identification directe et indirecte : « Sont réputées nominatives les informations qui permettent, sous quelque forme que ce soit, directement ou non, l’identification des personnes physiques auxquelles elles s’appliquent. » Cependant, le Parlement et le Conseil européen ont voulu affiner encore cette définition en précisant, dans le considérant no 26 d’une directive européenne de 1995 [48], les éléments à prendre en considération pour déterminer si une personne est, ou non, identifiable. Pour cela, dit la
…
18. Cet encadré est largement inspiré de l’encadré figurant dans Dossiers Solidarité et santé no 64 de juillet 2015 [40].
66
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
… directive, il faut « considérer l’ensemble des moyens susceptibles d’être raisonnablement mis en œuvre, soit par le responsable du traitement, soit par une autre personne, pour identifier ladite personne ». Pour éviter de considérer comme identifiantes certaines informations difficiles à rattacher à un individu, le législateur européen a introduit l’adverbe « raisonnablement ». Cette disposition permet d’éviter de considérer comme indirectement identifiante une information telle que : « La personne qui a obtenu son permis de conduire en 1993, qui a été abonnée pendant huit années consécutives à la Comédie française et qui a habité pendant trois ans à l’étranger. » Même si cette personne est unique, il faudrait pour l’identifier recourir à des fichiers d’accès peu commode, pas toujours informatisés et éparpillés dans divers organismes ; autrement dit, mettre en œuvre des moyens déraisonnables. En conséquence, au sens de la directive de 1995, ces données ne suffisent pas pour considérer que l’on a affaire à des informations identifiantes. De plus, la terminologie « donnée à caractère personnel » s’est substituée à celle de « donnée directement ou indirectement nominative ». La transposition de la directive par la France Comme toute directive européenne, celle de 1995 a dû être transposée dans le droit de chaque État membre pour devenir effective. Cela a été fait en France par la loi d’août 2004 relative à la protection des personnes physiques à l’égard des traitements de données à caractère personnel [5]. Des délais sont imposés aux États pour effectuer cette transposition, qui doit respecter le texte de la directive. Première lecture à l’Assemblée nationale Lorsque la France a engagé en 2002 cette transposition (alors que celle-ci aurait dû intervenir avant octobre 1998), le texte du projet de loi déposé par le gouvernement indiquait simplement que : « Constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. »
… 67
Le secret statistique et la diffusion
… Il reprenait en cela, de façon un peu simplifiée, la définition suivante figurant à l’article 2a de la directive européenne de 1995 : « donnée à caractère personnel : toute information concernant une personne physique identifiée ou identifiable (personne concernée) ; est réputée identifiable une personne qui peut être identifiée, directement ou indirectement, notamment par référence à un numéro d’identification ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique, psychique, économique, culturelle ou sociale. » Première lecture au Sénat Lorsque ce texte a été examiné au Sénat en première lecture, en avril 2003, le rapporteur de la commission des lois, Alex Türk, qui était à l’époque vice-président de la Cnil, a proposé d’inclure dans cette définition la précision figurant dans le considérant no 26 de la directive de 1995. Il a été suivi par le Sénat qui a donc adopté la rédaction suivante : « Constitue une donnée à caractère personnel toute information relative à une personne physique identifiée ou qui peut être identifiée, directement ou indirectement, par référence à un numéro d’identification ou à un ou plusieurs éléments qui lui sont propres. Pour déterminer si une personne est identifiable, il convient de considérer l’ensemble des moyens susceptibles d’être raisonnablement mis en œuvre, soit par le responsable du traitement, soit par une autre personne. » Seconde lecture à l’Assemblée nationale Quand ce texte est revenu devant l’Assemblée nationale en avril 2004, le rapporteur de la commission des lois, Francis Delattre, a considéré que l’emploi de l’adverbe « raisonnablement » n’était pas sans ambiguïté et risquait de provoquer de réelles difficultés d’interprétation, source de contentieux. Par ailleurs, il notait que la nouvelle rédaction proposée par le Sénat reproduisait partiellement, non pas une disposition de la directive de 1995 elle-même, mais son considérant no 26 qui, comme tout considérant, n’a pas de valeur normative, mais explicative de l’intention du législateur européen. En conséquence, il proposait de supprimer, dans la transposition française, l’adverbe « raisonnablement ».
…
68
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
… Cette suppression, si lourde de conséquences, de l’adverbe incriminé, a fait l’objet, en séance publique, d’un débat qui a duré moins de trente secondes. Était-ce bien raisonnable ? Seconde lecture au Sénat Lorsque le texte est arrivé devant la commission des lois du Sénat, présidée par Alex Türk, devenu entretemps président de la Cnil, celleci a jugé que la suppression de l’adverbe « raisonnablement » devait effectivement permettre de prévenir des difficultés d’interprétation et a donc souscrit à cette volonté de sécurité juridique. Aucun amendement n’a été déposé visant à rétablir l’adverbe « raisonnablement » et le texte définitif a donc été adopté sans celui-ci. Le résultat de ces turbulences législatives est que la définition d’une donnée à caractère personnel n’est pas strictement identique selon que l’on se place du point de vue du droit français ou du droit européen. Les données pour lesquelles l’identification des individus requiert la mise en œuvre de moyens déraisonnables sont considérées comme nominatives par la loi française, mais anonymes selon la directive européenne. Un nouveau règlement européen La directive de 1995 a été abrogée et remplacée par un règlement [49] applicable depuis le 25 mai 2018. Un règlement européen est directement applicable dans le droit de chacun des États membres, sans qu’il soit besoin d’attendre une loi de transposition, contrairement à une directive. Pour la définition d’une « donnée à caractère personnel », le texte initial élaboré par la Commission reprenait pour l’essentiel celui de la directive de 1995 et retenait donc, dans son article 4, la formulation suivante : « toute information se rapportant à une personne physique identifiée ou une personne physique qui peut être identifiée, directement ou indirectement, par des moyens raisonnablement susceptibles d’être utilisés par le responsable du traitement ou par toute autre personne physique ou morale, notamment par référence à un numéro d’identification, à des
… 69
Le secret statistique et la diffusion
… données de localisation, à un identifiant en ligne ou à un ou plusieurs éléments spécifiques, propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale. » Après examen par le Parlement européen et par le Conseil, cette rédaction a évolué pour arriver à la rédaction définitive suivante : « toute information se rapportant à une personne physique identifiée ou identifiable ; est réputée être une “personne physique identifiable” une personne physique qui peut être identifiée, directement ou indirectement, notamment par référence à un identifiant, tel qu’un nom, un numéro d’identification, des données de localisation, un identifiant en ligne, ou à un ou plusieurs éléments spécifiques propres à son identité physique, physiologique, génétique, psychique, économique, culturelle ou sociale. » On notera que, dans cette version, l’adverbe « raisonnablement » a disparu. Cependant, le texte adopté est précédé d’une liste impressionnante de considérants (173 !), dont le 26e est ainsi rédigé : « Pour déterminer si une personne physique est identifiable, il convient de prendre en considération l’ensemble des moyens raisonnablement susceptibles d’être utilisés par le responsable du traitement ou par toute autre personne pour identifier la personne physique directement ou indirectement, tels que le ciblage. Pour établir si des moyens sont raisonnablement susceptibles d’être utilisés pour identifier une personne physique, il convient de prendre en considération l’ensemble des facteurs objectifs, tels que le coût de l’identification et le temps nécessaire à celle-ci, en tenant compte des technologies disponibles au moment du traitement et de l’évolution de celles-ci. » … où le terme raisonnablement réapparaît et fait même l’objet d’une explication ! Les détenteurs de la position française pourront toujours dire qu’il s’agit d’un considérant, figurant en préalable du règlement luimême, et qu’il n’a donc pas la même valeur normative que le règlement lui-même. La loi française relative à la protection des données personnelles [6], prise pour préciser et mettre en application ce règlement, ne prévoit aucun changement dans la définition de ce que la France appelle
… 70
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
…
une donnée à caractère personnel, donc sans l’adverbe « raisonnablement ». La jurisprudence qui s’applique depuis le 25 mai 2018 est donc quelque peu compliquée ! Certains diront que, s’agissant d’un règlement et compte tenu de la précision de ce considérant, il encadre incontestablement la notion européenne de personne identifiable. D’autres feront remarquer que la loi française applique dans sa totalité le règlement. Simplement, elle en étend les dispositions à d’autres données, qui ne sont pas couvertes par celui-ci… Ce débat est une illustration des différences de conception potentielles, non seulement de ce qu’est une donnée à caractère personnel, mais aussi de ce qu’est une information couverte par le secret statistique. Du point de vue de la loi française, l’anonymat est considéré comme quelque chose d’absolu. Il n’est pas question de mettre en balance le coût nécessaire pour parvenir à son éventuelle levée avec le tort qui peut en résulter ou le bénéfice qui peut en être tiré. Au contraire, le règlement européen invite à prendre en compte le caractère déraisonnable de certaines possibilités de levée de l’anonymat qui, pour aboutir, devraient mettre en jeu des moyens sans rapport avec les potentiels bénéfices escomptés ou torts portés. L’avenir dira si ces deux conceptions entreront effectivement en conflit.
Pour la diffusion de données couvertes par le secret statistique, on doit donc se référer à la loi du 7 juin 1951 et, lorsqu’il s’agit de données à caractère personnel, faire en outre application de la loi « informatique et libertés ». On vient de voir que la loi « informatique et libertés » présentait une légère différence avec le règlement européen qui définit ce qu’est une donnée à caractère personnel. La loi française allant plus loin que le règlement européen, si on se conforme à celle-là, on sera ipso facto en accord avec celui-ci. À l’inverse, on pourra toujours discuter pour savoir si une information doit être considérée comme une donnée personnelle en vertu de la loi française, alors qu’il faudrait mettre en 71
Le secret statistique et la diffusion
œuvre des moyens « déraisonnables » pour identifier la personne à laquelle elles se rattachent. La loi du 7 juin 1951 donne une définition du secret qui, on l’a vu, repose sur des concepts, des pratiques et des techniques qui avaient cours au moment du vote de cette loi : « (…) les renseignements individuels (…) figurant dans les questionnaires (…) ne peuvent (…) faire l’objet d’aucune communication de la part du service dépositaire (…) » Comment interpréter, de nos jours, cette disposition qui interdit la communication des renseignements individuels figurant dans les questionnaires ? Serait-ce à dire que l’on ne peut donner aucune information relative à un seul individu ? La jurisprudence a répondu à cette question par la négative : il est bien autorisé de diffuser des informations relatives à un individu, pourvu que l’on ne puisse identifier celui-ci. Cette évolution théorique, admise aujourd’hui par tous les États du monde est très importante pour l’usage qui est fait aujourd’hui des données statistiques. On pourrait penser qu’il serait utile de réécrire l’article correspondant de la loi de 1951, car, si cette position correspond bien à l’esprit du législateur de 1951, elle peut paraître en contradiction formelle avec les termes de cette loi. Donc, la règle qui doit guider celui qui s’apprête à diffuser des informations qui risquent d’être concernées par le secret statistique est celle-ci : « Ne diffuser aucune information qui puisse être rattachée à un individu ». Et, selon l’interprétation de la loi « informatique et libertés », cette règle doit s’appliquer de façon absolue, et non en comparant le coût de la révélation d’une information personnelle avec le bénéfice ou le préjudice qui pourrait découler de cette révélation. Cette règle peut cependant être contestée dans certaines situations, où l’on peut la considérer soit comme excessive, soit comme insuffisante.
72
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Un cas où cette règle peut apparaître comme excessive Je m’apprête à diffuser le tableau suivant, donnant la répartition par sexe et tranche d’âge dans une petite commune : Âge
Hommes
Femmes
Total
0-9 ans
17
16
33
10-19 ans
15
13
28
20-29 ans
18
21
39
30-39 ans
12
11
23
40-49 ans
11
11
22
50-59 ans
10
7
17
60-69 ans
8
6
14
70 ans et plus
1
3
4
Total
92
88
180
Toute personne familière de cette commune sait quel en est l’habitant de sexe masculin et âgé de plus de soixante-dix ans, identifiera immédiatement la personne située dans la case correspondante du tableau. Il y a donc bien diffusion d’une information relative à un individu identifiable et identifié. Pourtant, les seules informations disponibles dans ce tableau sont justement celles qui ont permis d’identifier cette personne. Le tableau, en lui seul, n’apporte donc aucune information supplémentaire. Doit-on considérer qu’il rompt le secret statistique ? Il semble que non, puisque ce tableau ne révèle rien à qui ne connaîtrait pas déjà ces informations. On voit sur cet exemple qu’un « 1 » dans une case d’un tableau n’entraîne pas nécessairement une rupture du secret statistique. 73
Le secret statistique et la diffusion
Un cas où cette règle peut apparaître comme insuffisante Je m’apprête à diffuser le tableau suivant concernant les établissements situés dans un canton : Activité/ 0-9 salariés Effectifs salariés
10-49 salariés
50 salariés et +
Total
Industrie
10
0
3
13
BTP
7
5
3
15
Services
78
27
12
117
Total
95
32
18
145
À première vue, ce tableau ne semble apporter aucune information sur aucun établissement pris individuellement. Pourtant, à y regarder de plus près, il apporte une information sur tous les établissements dont l’activité principale est l’industrie : on sait qu’ils n’ont pas des effectifs salariés compris entre 10 et 49, à cause du « 0 » qui figure dans cette case. Ainsi, si je connais un établissement industriel dans ce canton, je pourrai sans doute savoir à quelle tranche il appartient, pour peu que je me doute qu’il a plus de 10 salariés ou moins de 50. On tire de cet exemple la leçon que la présence d’un « 0 » dans un tableau statistique apporte toujours une information sur les entités situées dans la colonne ou la ligne où figure ce « 0 ». Donc un tableau contenant un « 0 » peut très bien ne permettre d’identifier personne et pourtant apporter une information couverte par le secret sur plusieurs individus. Notons que la plupart des instituts de statistique du monde semblent ignorer cette remarque et continuent de diffuser des tableaux contenant des « 0 ». Il existe pourtant des cas où la présence de « 0 » apporte une information plus précise encore sur certains individus du tableau. 74
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Soit par exemple le tableau suivant donnant la répartition des foyers fiscaux par tranche de revenus annuels pour plusieurs communes d’un canton : Commune
Moins de 10 000 €
De 10 000 € à 50 000€
De 50 000 € à 100 000 €
Total
A
100
37
13
150
B
27
0
0
27
C
43
17
12
72
Dans ce tableau, aucun chiffre non nul n’est inférieur à douze. Pourtant, il apporte une information personnelle pour les habitants de la commune B : tous les foyers fiscaux y ont un revenu annuel inférieur à 10 000 €. Ce type de tableau ne respecte donc pas les règles du secret statistique. Il en va ainsi lorsque l’on trouve une seule case non nulle dans une ligne ou dans une colonne. Si l’on revient à la règle élémentaire, celle-ci a des déclinaisons différentes selon qu’elle s’applique à des données agrégées ou à des fichiers individuels.
2.1 DIFFUSION DE DONNÉES AGRÉGÉES Ici encore, les modalités d’application sont différentes selon que ces données agrégées concernent des individus ou d’autres entités (entreprises, établissements…). Règles concernant la diffusion de données agrégées sur les entreprises Pour les entreprises, comme pour toutes les autres personnes physiques ou morales, la règle première est qu’aucune information précise ne puisse être rattachée à une unité. Avec les exceptions pour quatre variables, qui ont été examinées page 44. 75
Le secret statistique et la diffusion
Mais on se rend bien compte qu’il est nécessaire d’aller plus loin. En effet, si une case d’un tableau contient des informations relatives à deux unités, le responsable d’une de ces entreprises, connaissant le résultat pour la sienne, peut en déduire le résultat pour l’autre entreprise figurant dans la case19. Pour que le secret statistique soit effectif, il convient donc que les informations figurant dans chaque case concernent au moins trois unités20. Mais ceci ne semble pas encore tout à fait suffisant. Imaginons en effet qu’une case d’un tableau nous donne le montant des investissements, pour une année donnée, pour trois entreprises : Renault, et deux petits carrossiers. Certes, il ne sera pas possible d’en déduire de façon exacte le montant des investissements réalisés par l’entreprise Renault cette année-là, mais on pourra en tirer une excellente approximation, en supposant négligeables, par rapport à ceux de Renault, les investissements réalisés par ces deux petits carrossiers. De façon plus générale, il convient d’éviter qu’une seule entreprise réalise à elle seule la quasi-totalité de la quantité figurant dans une case. Initialement, les règles pratiques de diffusion pour des données agrégées concernant les entreprises élaborées le 7 juillet 1960 par le Cocoes21 étaient un minimum de quatre entreprises par case, aucune 19. Notons que cette remarque vaut tout autant pour les données sur les ménages, mais qu’il est souvent plus difficile d’identifier l’autre personne dont le résultat figure dans la même case. Mais, du point de vue théorique, l’objection reste la même. 20. Il peut cependant arriver exceptionnellement que la publication d’un agrégat sur trois entreprises conduise à dévoiler une information individuelle. Par exemple, si une des trois entreprises est tout à fait marginale par rapport aux deux autres, chacune de ces deux entreprises peut connaître avec une bonne approximation l’information individuelle de l’autre. On est dans la même situation avec deux entreprises dominantes et plusieurs entreprises qui ne représentent à elles toutes qu’une part marginale de l’agrégat. Dans ces cas, l’agrégat doit être considéré comme confidentiel. Ce cas de figure est une combinaison dans une même case de la règle des trois entreprises et de la dominance à moins de 85 %. 21. Comité de coordination des enquêtes statistiques, créé par la loi du 7 juin 1951. Il peut être considéré comme le lointain ancêtre du Conseil national de l’information statistique (Cnis).
76
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
d’entre elles ne pouvant représenter plus de 85 % du total. En juin 1980, cette règle a été assouplie par une décision du directeur général de l’Insee, déjà citée, pour ramener de quatre à trois le nombre minimal d’entreprises indispensables pour que les valeurs les concernant puissent faire l’objet d’une publication et maintenant à 85 % la dominance d’une seule entreprise dans un agrégat statistique, au-delà de laquelle toute diffusion serait interdite. Ces règles ont été confirmées lors de la première séance du Comité du secret statistique, qui s’est tenue le 29 mars 1985. L’assemblée plénière du Cnis du 7 décembre 200122 a néanmoins autorisé la diffusion de données agrégées dans lesquelles une entreprise a une place prépondérante (moins de trois unités présentes ou prédominance de plus de 85 % d’une unité) dans les deux cas suivants : –– lorsque l’entreprise concernée a donné explicitement son accord pour ce faire au service enquêteur (à condition que la révélation de cette valeur ne conduise pas, par ricochet, à révéler la valeur correspondante pour l’entreprise no 2) ; –– lorsque les données fournies par l’entreprise, dans sa réponse à l’enquête, sont identiques aux résultats publiés par l’entreprise du fait des directives comptables communautaires ou d’obligations concernant le secteur public, ou sont remplacées par ceux-ci. Un rapport d’un groupe de travail du Cnis d’octobre 2009 [36] a recommandé que les règles des trois entreprises et de la limitation de la dominance à 85 % continuent à s’appliquer en considérant que le terme « entreprises » désigne les unités statistiques observées, c’est-à-dire soit des unités légales indépendantes n’appartenant pas à un groupe, soit des entreprises issues du profilage23, regroupements d’unités légales des groupes. Au cours de son assemblée plénière du 22. Délibération approuvée par la décision ministérielle du 25 janvier 2002 [39]. 23. Le profilage d’un groupe consiste à déterminer les entreprises qui composent ce groupe en classant chacune des unités légales rattachées au groupe dans une de ces entreprises issues du profilage. 77
Le secret statistique et la diffusion
28 janvier 2010, le Cnis a souhaité que ces recommandations soient mises en œuvre par le service statistique public. Par ailleurs, le Comité du secret statistique a adopté, lors de sa réunion du 10 mars 1998, un avis concernant la possibilité d’une diffusion restreinte aux intéressés de données (contour d’un groupe, en faveur de l’entreprise « tête de groupe » ; appartenance de l’entreprise à un groupe, en faveur de l’entreprise concernée et sauf opposition de la « tête de groupe ») collectées par l’Insee dans l’enquête « liaisons financières (LIFI) ». Cet avis a été approuvé par une décision ministérielle du 23 janvier 2002. Règles concernant la diffusion de données agrégées sur les personnes physiques Pour les personnes physiques, il faut tenir compte du secret statistique proprement dit, résultant pour l’essentiel de la loi de 1951, et de la protection de la vie privée répondant aux obligations de la loi « informatique et libertés » de 1978. Les deux lois conduisent à des règles souvent voisines, mais qui peuvent diverger sur certains points de détail. Selon la loi de 1951, le secret statistique consiste à ne diffuser aucune information qui puisse être rattachée à un individu. Si une information concerne un groupe d’individus, de façon indistincte, on ne peut dire qu’il y a rupture du secret statistique. Au contraire, la Cnil considère que le concept de données à caractère personnel embrasse, au-delà des données individuelles, celui des données agrégées portant sur de trop petits effectifs ou permettant l’établissement de « profils de groupe » pouvant conduire à stigmatiser certains sous-groupes d’une population. Si bien que, malgré leur proximité, les concepts de données statistiques confidentielles au sens du secret statistique et de données à caractère personnel au sens de la Cnil, ne conduisent pas nécessairement aux mêmes conclusions concrètes. C’est ainsi que l’examen par la Cnil des conditions de diffusion des résultats du recensement général 78
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
de la population de 1990 a révélé un véritable conflit culturel avec les statisticiens. Ces derniers passent leur vie à faire du « profil de groupe » en classant dans les tableaux les personnes selon leur sexe, leur âge, leur activité, leur lieu de résidence... De son côté, la Cnil essaie de minimiser autant que possible les effets de ces profilages sur la révélation de détails relatifs à la vie privée. C’est ainsi que dans l’arrêté portant création d’un traitement de données lié au recensement de la population de 1990, la Cnil avait fait interdire la cession par l’Insee de données agrégées pour des groupes de moins de 5 000 habitants. C’était mettre la barre bien haut ! Suite à une plainte déposée par l’Association des utilisateurs de données publiques économiques et sociales (AUDPES), le Conseil d’État a purement et simplement annulé cette mesure, considérant que la protection du secret statistique et du secret de la vie privée ne justifiait pas la fixation générale d’un seuil minimal d’agrégation aussi élevé, sans aucune différenciation tenant à la nature des informations recueillies et aux différents supports contenant les données du recensement général de la population de 1990 [42]. Que l’on comprenne bien : le strict respect du secret statistique impose en général que les cases d’un tableau ne comprennent pas de « 1 », ni de « 0 », ni parfois de « 2 », en application (et avec les réserves) de ce que l’on a vu précédemment. C’est la protection de la vie privée, fondée sur la loi « informatique et libertés » qui fait que l’on édicte souvent une règle plus stricte en imposant un chiffre minimum plus élevé pour les cases d’un tableau de données agrégées portant sur des personnes physiques. Ainsi, pour la diffusion des résultats du recensement de la population, les règles de diffusion fixées par un arrêté du 19 juillet 2007 [22] vont bien au-delà de ce qu’exigerait la simple application des règles du secret statistique. Cet arrêté fixe par exemple que : –– les données agrégées ne peuvent être diffusées que pour les communes, les quartiers dits « Iris » (voir encadré ci-dessous) ou pour les zones définies pour la politique de la ville ; 79
Le secret statistique et la diffusion
–– toutefois, les informations relatives à la nationalité et aux migrations (pays de naissance et pays de résidence antérieure) et leurs croisements ne peuvent être diffusés que pour les communes de plus de 5 000 habitants, regroupements de trois quartiers « Iris » (Triris) ou pour des arrondissements, zones d’emploi, aires urbaines, unités urbaines ou leurs regroupements et zones définies pour la politique de la ville, de plus de 5 000 habitants ; –– la date d’arrivée en France ne peut être diffusée qu’au niveau départemental. Pour les autres enquêtes statistiques, la diffusion des résultats agrégés est régie par les règles énoncées dans la déclaration faite à la Cnil avant le lancement de l’enquête. Pour les données administratives, ce sont les services producteurs qui fixent les règles de diffusion. Celles-ci vont en général bien au-delà de ce que nécessiterait le simple respect du secret statistique. Ainsi, pour les données tirées des fichiers des administrations sociales (Caf, Cnav, CnamTS…), le nombre minimum d’individus nécessaires pour rendre une case diffusable est souvent fixé à cinq. L’administration fiscale, pour sa part, considère qu’un agrégat ne peut être diffusé que s’il concerne plus de dix individus (c’est-à-dire au moins onze…). LES IRIS Afin de préparer la diffusion du recensement de la population de 1999, l’Insee avait développé un découpage du territoire en mailles de taille homogène appelées Iris 2000. Un sigle qui signifiait « îlots regroupés pour l’information statistique » et qui faisait référence à la taille visée de 2 000 habitants par maille élémentaire. Ces Iris étaient une référence (sans que ce nom soit cité) dans l’arrêté du 22 mai 1998 relatif à la collecte et à la diffusion des résultats du recensement général de la population de 1999.
… 80
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
… Depuis, l’Iris (appellation qui se substitue désormais à Iris 2000) constitue la brique de base en matière de diffusion de données infracommunales du recensement. Il doit respecter des critères géographiques et démographiques et avoir des contours identifiables sans ambiguïté et stables dans le temps. Les communes d’au moins 10 000 habitants et une forte proportion des communes de 5 000 à 10 000 habitants sont découpées en Iris. Ce découpage constitue une partition de leur territoire. La France compte environ 16 100 Iris, dont 650 dans les départements d’outre-mer. Par extension, afin de couvrir l’ensemble du territoire, on assimile à un Iris chacune des communes non découpées en Iris. En 2008, une retouche très partielle du découpage est intervenue pour prendre en compte les évolutions importantes de la voirie et de la démographie. Cette retouche a été limitée à une centaine d’Iris afin de préserver la continuité des séries de diffusion. Le découpage en Iris peut être affecté par les modifications de la géographie communale (fusions de communes, créations ou rétablissements de communes, échanges de parcelles). Aussi, il est utile de spécifier son année de référence en notant par exemple : Irisgéographie 1999 ou Iris-géographie 2008. Un Triris est un regroupement d’Iris (en général trois Iris). Le Triris a été créé en 1999 pour la diffusion de variables sensibles du recensement pour lesquelles l’Iris apparaissait insuffisant pour garantir la protection de la vie privée.
2.2 DIFFUSION DE DONNÉES INDIVIDUELLES Ici encore, les règles sont différentes selon qu’il s’agit de diffuser des données sur des entreprises ou sur des personnes physiques. Diffusion de données individuelles sur les entreprises Une première remarque doit être faite : il suffit en général de très peu de données pour identifier une entreprise. Le secteur d’activité, un indicateur du chiffre d’affaires ou des effectifs, une localisation 81
Le secret statistique et la diffusion
grossière suffisent le plus souvent pour identifier les plus gros établissements. Dans une liste d’entreprises ou d’établissement où ces informations figureraient, il serait vain d’espérer conserver la confidentialité pour les entreprises d’une certaine taille. Mais si on supprime ces variables, la plupart des études qui pourraient être faites à partir de ce fichier deviennent sans intérêt. C’est pourquoi on considère que les fichiers fournissant des données individuelles pour des entreprises de toutes tailles ne peuvent en général pas respecter les règles du secret statistique, et ne sont donc pas diffusables en l’état. La seule exception pourrait survenir pour des fichiers ne comportant que des petites ou très petites entreprises. C’est le cas par exemple de fichiers provenant d’une enquête sur les entreprises récemment créées : elles restent en général pendant quelques années des entreprises de petite taille. Beaucoup de microentreprises sont en réalité des entreprises individuelles, et il n’est dès lors pas illogique de leur appliquer les règles relatives à la diffusion de données individuelles portant sur des personnes physiques. Diffusion de données individuelles sur les personnes physiques Les chercheurs ont de plus en plus souvent besoin de disposer de fichiers de données individuelles. En effet, ils ne se contentent pas de faire des « tris à plat » ou de construire des tableaux croisant deux ou trois variables. Ils ont aussi besoin de chercher des corrélations, de déterminer des parcours individuels, de mettre en œuvre des techniques d’analyse des données, etc. Pour cela, il leur est indispensable de disposer de données pour chaque individu de la population étudiée, même s’ils n’ont aucun besoin d’en identifier un seul (sauf le cas où un appariement est nécessaire : ce cas sera étudié p. 127). La question se pose donc de savoir si un fichier de données individuelles permet ou non d’identifier une personne. La réponse à cette question n’est en général pas très simple. 82
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
■■
Les fichiers directement nominatifs
Éliminons tout de suite le cas où ce fichier comporte le nom, voire le prénom des personnes qui y figurent. Ce type de fichier est appelé parfois fichier « directement nominatif », car il permet d’identifier les individus directement, sans recours à aucune autre donnée complémentaire. Un cas voisin est fourni par les fichiers comportant l’adresse exacte des personnes. Sauf dans le cas des immeubles collectifs (et encore, y compris certains d’entre eux, de petite taille…), l’adresse exacte permet d’identifier le ménage. Les données sur ce ménage ne sont donc plus protégées. Pour peu que le fichier comprenne quelques variables supplémentaires très banales (sexe, âge, état matrimonial…), on pourra de plus y identifier les individus. Donc, l’adresse exacte peut être considérée comme un élément strictement identifiant. Il existe aussi des numéros liés à un seul individu : par exemple le numéro d’identification au répertoire national d’identification des personnes physiques (NIR, souvent appelé « numéro de sécurité sociale ») ou le numéro fiscal (pour le foyer fiscal). Pour le commun des mortels, ces numéros ne sont pas directement identifiants. Par exemple, le NIR n’apporte d’information que sur le sexe et le mois et l’année de naissance de la personne ; à condition de consulter un code, il informe aussi sur sa commune de naissance. En général, ces informations sont insuffisantes pour identifier une personne. Mais, il existe quelque part (à la sécurité sociale pour le NIR, au fisc pour le numéro fiscal) quelqu’un qui peut parfaitement identifier la personne à l’aide de ce numéro. On a donc affaire à une information qui doit encore être considérée comme « directement nominative ». Au sens de la loi informatique et libertés, il s’agit de données à caractère personnel ; au sens de la loi de 1951, il s’agit d’une information couverte par le secret statistique. Les fichiers comportant de tels numéros sont donc considérés, eux aussi, comme directement nominatifs. 83
Le secret statistique et la diffusion
■■
Les fichiers non directement nominatifs
Les fichiers non directement nominatifs sont ceux qui ne comportent pas d’éléments (nom, adresse exacte, numéro d’identification) permettant une identification directe des individus. Certains de ces fichiers sont obtenus en supprimant toute référence aux nom, prénom, adresse et en remplaçant le numéro significatif, tel que le NIR, par un numéro sans signification, obtenu le plus souvent par des techniques de cryptage ou de hachage24. Les fichiers ainsi obtenus étaient dits « pseudonymisés ». Cependant, le RGPD vient de donner une définition différente à ce mot25. Il est facile d’imaginer que, si le fichier comporte un grand nombre de variables pour chaque individu, la combinaison des modalités prises par quelques-unes de ces variables risque de converger vers un seul individu et donc permettre son identification pour qui connaît par ailleurs ces variables. En effet, si quelqu’un connaît ces variables pour une personne, il peut la retrouver facilement dans le fichier et prendre connaissance des valeurs prises par les autres variables pour cette personne. Un exemple de ce type de reconnaissance d’un individu à partir de variables qui semblaient a priori non identifiantes est donné par le fichier dit PMSI (programme de médicalisation des systèmes 24. Le cryptage est une technique qui fait correspondre un code à un autre code, grâce à une fonction comportant une clef. Le code obtenu par ce traitement est non signifiant. À partir de ce second code, on peut revenir au code initial, en utilisant une autre fonction avec une autre clef. Le cryptage est donc une opération réversible et bijective. Le hachage fonctionne suivant le même principe, mais avec l’impossibilité de revenir au code initial (sauf par énumération : voir ci-dessous le paragraphe sur le NIR). 25. Le règlement 2016/679 du Parlement européen et du Conseil du 27 avril 2016 [49], article 4-5° définit la pseudonymisation comme un « traitement de données à caractère personnel [effectué] de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable ».
84
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
d’information). Une étude réalisée par Gilles Trouessin et Dominique Blum [40] a montré que, en 2015, avec quelques variables, pouvant sembler anodines, ce n’est pas un ou deux individus que l’on pouvait ainsi repérer, mais une fraction importante, parfois majoritaire (voire la totalité) des 18 millions de séjours figurant dans le fichier. Leurs conclusions sont par exemple que la combinaison du sexe, de l’âge, du code de résidence (type code postal), de l’établissement de soins, du mode d’entrée, du mode de sortie, du mois de sortie et de la durée de séjour permettait d’identifier 81 % des séjours. Si l’on ne dispose que de la simple empreinte chronologique26, l’identification est possible dans 9 % des cas. Or, un voisin, un membre de la famille, un employeur peuvent souvent avoir accès à ces données. Bien qu’on y ait retiré le nom, le prénom et le NIR, le fichier du PMSI reste donc un fichier où les risques d’identification des individus sont élevés. Dès lors, face à un fichier de données individuelles, comment être sûr que l’identification d’une personne sera impossible ? La réponse à cette question ne peut être totalement rigoureuse. Elle résulte plutôt d’une approche à tâtons [32] [41]. ■■
Quelques règles pour l’anonymisation
Le k-anonymat Dans un fichier de données individuelles, les variables peuvent être classées en trois catégories : les variables directement identifiantes (nom, prénom, numéro de sécurité sociale…), les données dites « quasi identifiantes » (sexe, âge, département de résidence…) qui peuvent, par croisement, permettre l’identification d’un individu, et les variables d’intérêt, qui sont celles que l’on doit protéger en priorité. Les « variables d’intérêt » constituent le plus souvent le cœur et la raison d’être du fichier. Les variables « identifiantes » ou « quasi identifiantes » n’étant souvent là que pour mettre de l’ordre dans le 26. Les auteurs appellent « empreinte chronologique » la combinaison des durées de séjour des premier, deuxième et troisième séjours du parcours et du délai interséjour. 85
Le secret statistique et la diffusion
fichier. Les variables quasi identifiantes sont souvent déjà connues par des tiers (famille, voisins, employeur…) alors que les variables d’intérêt sont protégées par un secret et ne sont connues que d’un petit nombre de personnes soumises aux obligations de confidentialité. Si, dans un tel fichier, un individu (dont on sait qu’il figure dans le fichier) est le seul à présenter une certaine combinaison des variables « quasi identifiantes », il sera facile de le repérer, et donc d’obtenir les informations le concernant pour toutes les variables d’intérêt. Prenons un exemple. Soit le fichier des membres d’une association sportive où figurent notamment le prénom, l’âge et le sport pratiqué par les membres, ainsi qu’une indication sur les dons qu’ils ont effectués à l’association et qui, selon leur montant, en font des membres ordinaires, donateurs, émérites ou d’honneur. L’âge et le sport pratiqué par chaque individu sont connus de tous. Ce sont les variables quasi identifiantes. Par contre, le statut vis-à-vis des dons n’est pas public et c’est ici la variable d’intérêt. Tableau A
Nom
Âge
Sport pratiqué
Membre
Jules
20
Golf
Ordinaire
Théo
23
Volleyball
Donateur
Alexis
28
Football
Donateur
Jordane
30
Relais
Bienfaiteur
Mina
35
Saut en hauteur
Ordinaire
Raphaël
29
Tennis
Donateur
Inès
20
Golf
Émérite
Daren
20
Polo
Ordinaire
Suzanne
42
Relais
D’Honneur
Le tableau A comporte des informations directement nominatives (le prénom). Mais on voit bien qu’il ne suffit pas de supprimer le 86
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
prénom pour rendre le tableau anonyme. En effet, la connaissance de l’âge précis d’une personne, ou du sport qu’elle pratique, peut suffire à l’identifier. Seule Jordane a 30 ans, et elle est membre bienfaiteur. Il n’y a que Daren qui pratique le polo et il est membre ordinaire. Pour anonymiser le fichier, une technique consiste à regrouper les individus qui ont des caractéristiques voisines, pour former ce que l’on appelle des classes. Par exemple, au lieu de coder l’âge exact, on constituera des tranches : moins de 22 ans/22-29 ans/30 ans et plus. De même pour le sport pratiqué, on peut faire des regroupements selon les catégories : sport non olympique (polo et golf)/sports de balle ou de ballon (volleyball, football, tennis)/sports rattachés à l’athlétisme (relais, saut en hauteur). Ce qui conduit au tableau B. Tableau B
Numéro
Catégorie d’âge
Type de sport
Membre
1
Moins de 22
Non olympique
Ordinaire
2
22-29
Balle
Donateur
3
22-29
Balle
Donateur
4
30 et +
Athlétisme
Bienfaiteur
5
30 et +
Athlétisme
Ordinaire
6
22-29
Balle
Donateur
7
Moins de 22
Non olympique
Émérite
8
Moins de 22
Non olympique
Ordinaire
9
30 et +
Athlétisme
D’Honneur
On obtient ainsi trois classes : –– moins de 22 ans pratiquant un sport non olympique (en italiques) ; –– 22 à 29 ans pratiquant un sport de balle ou de ballon (en gras) ; –– 30 ans ou plus pratiquant l’athlétisme (souligné). 87
Le secret statistique et la diffusion
Chacune de ces classes contient trois individus. Il sera donc impossible d’en identifier un. On sait par exemple que Jordane a 30 ans et pratique le relais. Cela ne nous permet pas de l’identifier dans le fichier, car il y a trois individus qui ont pour caractéristiques d’avoir 30 ans ou plus et de pratiquer l’athlétisme. Et l’une de ces personnes est membre bienfaiteur, une autre est membre ordinaire et la troisième membre donateur. C’est cette technique que l’on appelle le k-anonymat, car elle permet de constituer des classes d’au moins k individus (ici, k = 3) possédant les mêmes caractéristiques sur les variables quasi identifiantes. La l-diversité On voit bien, sur cet exemple que le k-anonymat interdit bien l’identification précise d’une personne, mais ne protège pas pour autant la variable d’intérêt. En effet, il y a au moins trois personnes dans chaque classe, mais dans la classe des individus de 22 à 29 ans, pratiquant un sport de balle ou de ballon, tous sont membres donateurs. Ainsi, je sais que Raphaël appartient à cette classe (il a 29 ans et pratique le tennis). Je ne peux pas l’identifier dans cette classe, mais je sais qu’il est membre donateur, car tous les individus de cette classe le sont. Il y a donc rupture de la confidentialité sur ce tableau. Pour remédier à cette situation, il convient de constituer des classes qui, non seulement comportent au moins k individus ayant les mêmes variables quasi identifiantes, mais possédant aussi une diversité de situations sur la variable d’intérêt. Si on exige que, dans ces classes, il y ait au moins l situations de la variable d’intérêt, on dira que l’on a atteint la l-diversité. On peut ainsi faire des regroupements avec seulement deux tranches d’âge : moins de 25 ans/plus de 25 ans et de classes de sports : collectifs (volleyball, football, relais, polo)/individuels (golf, saut en hauteur, tennis) (Tableau C). 88
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Tableau C
Numéro
Catégorie d’âge
Individuel/Collectif
Membre
1
Moins de 25
Individuel
Ordinaire
2
Moins de 25
Collectif
Donateur
3
Plus de 25
Collectif
Donateur
4
Plus de 25
Collectif
Bienfaiteur
5
Plus de 25
Individuel
Ordinaire
6
Plus de 25
Individuel
Donateur
7
Moins de 25
Individuel
Émérite
8
Moins de 25
Collectif
Ordinaire
9
Plus de 25
Collectif
D’Honneur
–– –– –– ––
On voit que dans ce tableau, on a créé quatre classes : moins de 25 ans pratiquant un sport individuel (en italique) ; moins de 25 ans pratiquant un sport collectif (en gras) ; plus de 25 ans pratiquant un sport collectif (souligné droit) ; plus de 25 ans pratiquant un sport individuel (souligné italique).
Chacune de ces classes comporte deux ou trois individus (2-anonymité). Et pour chacune d’elles on a au moins deux statuts vis-à-vis des dons effectués (2-diversité) : ordinaire et émérite pour la première classe, donateur et ordinaire pour la deuxième, donateur, bienfaiteur et d’honneur pour la troisième et donateur et ordinaire pour la dernière. Le tableau C ne permet pas de savoir le statut précis vis-à-vis des dons d’un individu dont on connaîtrait l’âge et le sport pratiqué. Il apporte cependant une information « en creux » ou en probabilité. En creux, il permet de savoir par exemple que Mina ou Raphaël, qui ont plus de 25 ans et pratiquent un sport individuel, appartiennent à la dernière classe. Ils ne sont donc ni membres d’honneur, 89
Le secret statistique et la diffusion
ni membres émérites. Qu’ils appartiennent donc aux catégories les moins « généreuses » en matière de dons à l’association. En probabilité, il donne aussi une information sur les donateurs émérites, qui sont rares dans l’association, car ce sont ceux qui ont fait les dons les plus élevés. Dans notre échantillon, il n’y en a qu’un. Mais dans ce tableau, on voit que deux seulement sont susceptibles d’être un donateur émérite : Jules et Inès, qui ont donc chacun une chance sur deux d’être dans cette catégorie, soit une probabilité très supérieure à la proportion de donateurs émérites dans l’association. La t-proximité Le processus qui vise à la t-proximité tend à reproduire, dans chaque classe déterminée par les mêmes valeurs des variables quasi identifiantes, une distribution des variables d’intérêt aussi proche que possible de celle qui existe dans l’ensemble de la population. On veut ainsi éviter que la diffusion du fichier individuel n’apporte trop d’informations en probabilité par rapport à l’information globale fournie par les simples comptages. Cette technique est complexe à mettre en place et nous ne la détaillerons pas ici [33]. ■■
Les techniques utilisées
Pour obtenir un fichier respectant les règles de k-anonymat, de l-diversité, voire de t-proximité, diverses techniques peuvent être utilisées. Faire des regroupements La première idée qui vient à l’esprit est d’effectuer des codages afin de regrouper des modalités détaillées de variables. C’est ce qui a été fait ci-dessus pour passer du tableau A au tableau B ou au tableau C : on a par exemple regroupé les âges détaillés de 22 à 29 ans dans la catégorie « 22-29 ans ». 90
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Cette technique peut se faire assez naturellement quand les variables à coder sont des variables quantitatives, telles que l’âge, ou quand il existe des regroupements naturels (de commune en département, d’activité économique à quatre chiffres en activité économique à deux chiffres…). Mais elle devient plus difficile lorsqu’il n’y a pas de regroupement « naturel », comme dans l’exemple des sports pratiqués, ci-dessus. Lorsque la variable est quantitative, les regroupements peuvent se faire de façon régulière, pas par pas. Mais elle peut aussi ne concerner que (ou concerner surtout) les valeurs extrêmes, donc les plus susceptibles de conduire à une identification. Par exemple pour l’âge : au-delà de cent ans. Ou, pour les revenus : au-delà d’un certain seuil. Ces regroupements de modalités diminuent la finesse de l’information contenue dans le fichier et conduisent donc à une perte d’information globale. Il peut arriver un moment où cette perte d’information conduit à un fichier ne présentant plus un grand intérêt. En revanche, toute l’information contenue reste vraie et conforme au fichier initial. Supprimer des enregistrements Certains individus ont des caractéristiques tellement atypiques qu’il est difficile de les faire entrer dans des catégories regroupées. Sauf à créer des catégories très artificielles pour pouvoir les y inclure. On peut dans ce cas ôter ces individus du fichier, ce qui permet de créer des regroupements plus « naturels ». L’inconvénient de cette technique est de faire perdre sciemment de l’information qui était contenue dans le fichier initial. Ce qui peut être gênant pour les études qui se fonderont sur lui. De plus, il s’agit d’une information très « atypique » par rapport au reste du fichier. Elle contient donc des caractéristiques très spécifiques, qui disparaîtront dans l’analyse finale. Supprimer un individu atypique est plus dommageable, pour les études qui seront faites à partir de ce fichier, que supprimer un individu moyen. 91
Le secret statistique et la diffusion
Permuter des variables entre plusieurs individus On peut aussi effectuer des permutations entre les valeurs prises par certaines variables pour quelques individus. Par exemple, on dira que Théo est membre ordinaire et que Jules est membre donateur (alors que c’est l’inverse dans le fichier initial). En annonçant la couleur dès le départ et en disant que des permutations ont été opérées sur cette variable, on se prémunit contre la possibilité que quelqu’un puisse dire qu’il a détecté le statut de membre pour un individu, puisque ce statut est peut-être le résultat d’une permutation avec celui d’un autre individu. De plus, les « tris à plat » pour chaque variable restent conformes à ceux qu’aurait fournis le tableau initial. En contrepartie, toute corrélation ou tout lien entre le statut de membre et une autre variable devient du coup dénué de sens. Or c’est le plus souvent ce type de lien ou de corrélation dans lequel réside l’intérêt principal de l’analyse du fichier. Introduire des individus fictifs L’introduction d’individus fictifs est une technique qui permet, elle aussi de remplir certains regroupements où il y aurait trop peu d’individus et comportant donc des risques de ré-identification. Cette technique est peu usitée, car elle est lourde à mettre en œuvre et elle perturbe bien entendu toute exploitation qui peut être faite sur le fichier, y compris les tris à plat. Introduire des perturbations sur certaines variables Cette méthode consiste à modifier, de façon aléatoire, une ou plusieurs variables pour un certain nombre d’individus. Cette modification peut porter sur des variables quantitatives ou sur des variables qualitatives. Des modèles permettent de maîtriser la perturbation introduite par cette technique. Si cette technique a été utilisée, une personne prenant connaissance du fichier qui en résulte ne peut jamais être certaine que l’enregistrement où elle pense avoir identifié quelqu’un correspond bien à 92
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
la personne prétendument identifiée, puisque des perturbations ont peut-être modifié les variables permettant cette « identification ». Les tris à plat ou les tris croisés sont bien sûr modifiés par l’introduction de ces perturbations aléatoires. Mais, dans la mesure où l’on connaît les caractéristiques du modèle aléatoire qui a perturbé les données, on peut avoir une mesure de la perturbation finale introduite dans les tris croisés ou les corrélations. Cette technique reste toutefois complexe. Elle a néanmoins été utilisée pour la production de fichiers diffusables à partir du recensement du Royaume-Uni en 2001. Faire un échantillon Pour des fichiers d’une certaine taille, il peut aussi être envisagé d’en effectuer un échantillonnage. Seuls certains individus du fichier initial figurent dans le fichier résultant de ce traitement. Pour être efficace, cette technique doit respecter quelques conditions que nous allons examiner ci-dessous : –– ne pas conduire à un fichier final trop petit ; –– produire un fichier final dont la structure soit conforme à celle du fichier initial ; –– ne pas permettre à l’utilisateur final de savoir qui a été échantillonné. a) L’échantillonnage réduit par définition la taille du fichier initial. Pour que le fichier qui en résulte puisse faire l’objet d’une analyse intéressante, il faut bien qu’il ait une taille permettant ces analyses, sans que celles-ci soient influencées par la présence d’individus atypiques dont le poids serait trop important. Cette condition est de bon sens, mais on va voir qu’elle vient parfois, sinon en contradiction, du moins en concurrence avec d’autres caractéristiques souhaitées du fichier final. b) Il faut en effet que le fichier obtenu à la suite de l’échantillonnage soit représentatif du fichier initial. Par « représentatif », 93
Le secret statistique et la diffusion
on entend le fait que les distributions des variables simples et des tableaux croisant deux ou plusieurs variables soient (presque) identiques dans le fichier échantillonné et dans le fichier initial. Pour obtenir un tel fichier, il faut un mode d’échantillonnage adapté. Cela peut être un échantillonnage purement aléatoire (tirage au sort à partir de tables de nombres au hasard, par exemple), ou tirage systématique d’une personne sur n, après que les individus ont été rangés dans un ordre fixé par d’autres considérations. Le premier type d’échantillonnage correspond plus ou moins, dans son principe, à celui qui est appliqué pour les enquêtes par sondage réalisées par la statistique publique ; le sondage est à plusieurs niveaux, il est partiellement raisonné et non totalement aléatoire, mais il correspond, pour l’essentiel à un tirage de ce type. Le sondage systématique est celui qui est appliqué pour les fichiers du recensement de la population (au quart, au cinquième, au vingtième…) : les bulletins des individus sont classés dans l’ordre des logements, des immeubles, des rues, des communes, etc. et l’on retient un bulletin sur quatre, cinq, vingt, etc. Un autre mode de tirage, utilisé pour les fichiers médico-sociaux, consiste à utiliser une variable dont on sait qu’elle est (presque) aléatoirement répartie dans la population : il s’agit de la « clef » du NIR27. Cette clef est le complément à 97 du reste de la division des 13 premiers chiffres du NIR par 97. C’est donc un nombre à deux chiffres, compris entre 01 et 97. Des études ont montré que cette clef se répartissait de façon tout à fait aléatoire dans la population, et que les distributions de tous les types de variables étaient pratiquement les mêmes pour les individus porteurs d’une certaine clef et dans l’ensemble de la population. Sélectionner une clef du NIR pour constituer l’échantillon est donc une bonne manière de construire un échantillon aléatoire de la population, bien représentatif de la 27. Numéro d’inscription au répertoire national d’identification des personnes physiques, souvent appelé « numéro de sécurité sociale ».
94
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
population initiale. Retenir les personnes ayant une clef revient à constituer un échantillon au 1/97, soit presque au centième. Mais on peut aussi constituer des échantillons plus gros en retenant les individus porteurs d’une clef, parmi un sous-ensemble de k clefs. c) Une des vertus de l’échantillonnage est que l’on ne sait pas a priori si une personne dont on connaît certaines caractéristiques est ou non présente dans l’échantillon retenu. Ainsi, si figure, dans cet échantillon, une personne unique ayant exactement les caractéristiques de la personne que l’on connaît, on ne pourra pas affirmer que c’est elle : il s’agit peut-être d’une personne ayant, sur ces variables, les mêmes caractéristiques que la personne connue, alors que cette dernière ne figure pas dans l’échantillon. Cette vertu disparaît si l’on a une information sur qui a été échantillonné. On pourra alors savoir si la personne connue est ou non dans l’échantillon. Et si une personne de l’échantillon est la seule à posséder les valeurs des variables attachées à cette personne, alors elle sera identifiée. Ainsi, dans l’exemple donné ci-dessus d’un échantillonnage à partir de la clef du NIR, il convient, pour garder toutes les vertus de cet échantillonnage, que la clef utilisée pour effectuer le tirage de l’échantillon soit maintenue secrète. Ce qui n’est pas très facile matériellement, car beaucoup de personnes doivent avoir connaissance de cette clef pour effectuer le tirage de l’échantillon. Ainsi, la clef utilisée pour le tirage de l’échantillon du Sniiram n’était protégée que par un secret de polichinelle et de nombreuses personnes qui n’auraient normalement pas dû la connaître savaient très bien quelle clef avait été utilisée. Certes, si l’on connaît un grand nombre de variables relatives à un individu, il est peu probable que celui-ci soit présent dans l’échantillon, puisque, on l’a vu, seulement une personne sur 97 y figure. Mais si le hasard fait que, justement, cette personne a une clef de NIR identique à celle qui a été retenue pour effectuer le tirage, il sera possible de l’identifier dans l’échantillon ainsi constitué. 95
Le secret statistique et la diffusion
La question des identifiants L’identification d’une observation dans un fichier peut se faire soit indirectement, comme on vient de le voir, soit directement, grâce à une variable liée directement à une seule observation. Parmi ces identifiants directs, il y a bien sûr le nom et le prénom (encore qu’il existe beaucoup d’homonymes) pour les personnes physiques et la raison sociale pour les personnes morales. Mais il faut aussi faire un cas particulier pour deux identifiants spécifiques : le numéro SIREN pour les entreprises et le NIR pour les personnes physiques. Le numéro SIREN Le numéro SIREN est un identifiant de neuf chiffres attribué par l’Insee à chaque unité légale au moment de sa création. Les huit premiers chiffres n’ont aucune signification, excepté pour les organismes publics (communes...), dont le numéro SIREN commence obligatoirement par 1 ou 2. Le neuvième chiffre est un chiffre de contrôle de validité du numéro. Ce numéro est non significatif ; il n’a aucun lien avec les caractéristiques de l’unité légale. Il n’est attribué qu’une fois et n’est supprimé du répertoire qu’au moment de la disparition de la personne juridique (décès ou cessation de toute activité pour une personne physique, dissolution pour une personne morale). Ce numéro est très identifiant. L’application créée par l’Insee permet d’avoir un avis de situation de l’entreprise concernée rien qu’en entrant son numéro SIREN. Cet avis de situation donne la raison sociale de l’entreprise, l’adresse de son siège, son activité économique et la tranche de salariés. Il est clair que ce numéro SIREN est un identifiant direct. Mais, on l’a déjà vu, les fichiers d’entreprises comprenant quelques informations élémentaires comme un indicateur de taille, l’activité et une localisation géographique, même grossière ne permettent pas de conserver l’anonymat. Dans ces conditions, que le numéro SIREN soit présent ou non ne change pas grand-chose à l’affaire. 96
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Le NIR Il en va tout autrement pour le NIR. Toute personne née en France métropolitaine et dans les départements d’outre-mer (DOM) est inscrite au répertoire national d’identification des personnes physiques (RNIPP), quelle que soit sa nationalité. Une personne née à l’étranger n’est inscrite que si son inscription est demandée par un utilisateur autorisé dans les conditions prévues par la loi, par exemple à l’occasion d’un premier emploi. L’inscription à ce répertoire entraîne l’attribution du numéro d’inscription au répertoire (NIR) qui est utilisé notamment par les organismes d’assurance maladie pour la délivrance des « cartes vitales ». C’est pourquoi le NIR est communément appelé « numéro de sécurité sociale ». Ce numéro d’identification unique de l’individu est formé de 13 chiffres : le sexe (1 chiffre), l’année de naissance (2 chiffres), le mois de naissance (2 chiffres) et le lieu de naissance (5 chiffres). Les 3 chiffres suivants correspondent à un numéro d’ordre qui permet de distinguer les personnes nées au même lieu à la même période ; une clef de contrôle à 2 chiffres complète le NIR. Le NIR est donc partiellement signifiant. S’il ne permet pas d’identifier directement l’individu concerné, il donne cependant déjà une information sur son sexe, son âge et sur son lieu de naissance (dont les naissances à l’étranger). La Commission nationale de l’informatique et des libertés (Cnil) a longtemps souhaité le cantonnement de l’utilisation du NIR à la seule sphère sociale, notamment en refusant l’extension de son utilisation au domaine de l’éducation nationale et en résistant le plus possible à son utilisation dans les domaines de la santé ou des impôts. Cependant, la loi de janvier 2016 de modernisation de notre système de santé [26] a modifié l’article L. 1111-8-1 du code de la santé publique, qui est maintenant ainsi rédigé : « Le numéro d’inscription au répertoire national d’identification des personnes physiques est utilisé comme identifiant de santé des personnes pour leur prise en charge à des fins sanitaires et médico-sociales. » 97
Le secret statistique et la diffusion
L’utilisation du NIR reste cependant très fortement encadrée. La loi dite « informatique et libertés » prévoyait en effet jusqu’en 2018 qu’une autorisation de la Cnil était nécessaire pour tout traitement portant sur des données parmi lesquelles figure le NIR. La demande d’autorisation à la Cnil était une démarche assez lourde, mais qui restait envisageable. Malheureusement, cette procédure ne s’appliquait pas à tout le monde ! La loi prévoyait en effet qu’un décret en Conseil d’État était nécessaire lorsqu’un traitement de données à caractère personnel contenant le NIR était mis en œuvre pour le compte de l’État, d’une personne morale de droit public ou d’une personne morale de droit privé gérant un service public. Ce cas englobait donc l’Insee, des établissements publics tels que l’Ined et tous les laboratoires universitaires. Pendant des années, cette clause a empêché pratiquement toute utilisation du NIR pour les traitements mis en œuvre pour le compte d’un service public. Les seuls qui peuvent y avoir accès étaient ceux qui sont en mesure d’actionner un ministre pour qu’il prenne un décret en Conseil d’État. Seuls l’Insee et quelques services statistiques ministériels ont pu y avoir recours en de très rares occasions. Même dans ce cas, la procédure était extrêmement lourde. Par contre, pour les chercheurs appartenant à des laboratoires universitaires, cette clause équivalait purement et simplement à une interdiction d’accéder au NIR. Et elle n’a donc jamais été mise en œuvre. Un assouplissement de cette dernière règle a toutefois été introduit par la loi d’octobre 2016 pour une République numérique [12], et élargi encore par la loi de juin 2018 relative à la protection des données personnelles [6] : –– d’une part pour les traitements qui ont exclusivement des finalités de statistique publique et sont mis en œuvre par le service statistique public ; –– d’autre part pour les traitements qui ont exclusivement des finalités de recherche scientifique ou historique. 98
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Dans ces deux cas, la procédure à suivre est la même que pour tous les traitements comportant des données à caractère personnel. Toutefois, l’identifiant auquel ont accès les membres du service statistique public ou les chercheurs n’est pas le NIR lui-même, mais un identifiant obtenu par hachage à partir du NIR, appelé « code statistique (ou spécifique) non signifiant ». Le hachage est une opération de cryptage avec clef secrète et irréversible, c’est-à-dire qu’il n’existe pas de clef ni de procédure permettant de revenir du NIR haché au NIR initial. Le hachage est donc considéré comme une bonne protection en soi contre l’identification des individus. C’est la raison pour laquelle la loi qualifie ces NIR hachés de « codes non signifiants ». En théorie, une procédure d’énumération pourrait permettre de remonter du code non signifiant au NIR initial. Cette procédure est la suivante : elle consiste, connaissant la clef de hachage, à hacher tous les NIR possibles et à rechercher ensuite dans les codes non signifiants ainsi obtenus celui dont on souhaitait connaître le NIR initial. Le tableau résultant de cette opération donne en effet une correspondance NIR initial code non signifiant pour tous les NIR possibles. Si elle est théoriquement envisageable, cette opération reste cependant quasi impossible à mettre en œuvre pour au moins deux raisons : –– la première est que la clef de hachage est secrète ; ne pourraient donc mettre en œuvre cette procédure que des personnes ayant accès à cette clef. Ces personnes sont en nombre limité, elles sont tenues au secret et ont en général été choisies comme tiers de confiance en fonction de leur aptitude (morale et technique) à conserver une information secrète. De plus, dans la plupart des usages de la possibilité offerte par la loi, le hachage est double, c’est-à-dire que le NIR haché est lui-même haché à nouveau, avec une autre clef, elle aussi secrète ; et les services disposant de ces clefs de hachage sont distincts, c’est-à-dire que personne ne connaît les deux clefs de hachage ; 99
Le secret statistique et la diffusion
–– la seconde est que ce travail serait d’une ampleur colossale. L’opération de hachage, quoique complexe, peut être effectuée sans trop de difficultés sur une dizaine, une centaine, voire quelques milliers d’individus. Mais le nombre total de NIR envisageable est d’un tout autre ordre de grandeur. En se limitant aux cas les plus simples, il y a deux possibilités pour le sexe, cent pour l’année de naissance, douze pour le mois, environ quarante mille pour le lieu de naissance (département + commune ou pays), et en théorie mille pour le numéro d’ordre qui termine le NIR, soit au total près de cent milliards de possibilités. Ce qui ferait de cette opération d’énumération un travail gigantesque, qui ne pourrait en tout cas pas passer inaperçu. Pour les besoins de la statistique publique et de la recherche, il n’est d’ailleurs pas nécessaire d’avoir le NIR lui-même, mais simplement un identifiant unique pour chaque individu. Cet identifiant doit cependant être le même dans deux fichiers dont on souhaiterait effectuer la fusion. C’est justement dans cette procédure d’appariements de fichiers que l’on a souvent recours à un double hachage, avec deux tiers de confiance détenant chacun la clef de l’un des hachages. Si, pour une raison quelconque, c’est le NIR lui-même qui est souhaité par le statisticien ou le chercheur, la procédure reste celle du décret en Conseil d’État pour tous les organismes publics, y compris les laboratoires universitaires. ■■
Les fichiers individuels issus du recensement de la population
Les fichiers de données individuelles issus du recensement de la population obéissent à des règles particulières. Celles-ci sont définies par l’arrêté de juillet 2007 relatif à la diffusion des résultats du recensement de la population [22]. Les fichiers ne comportant que des données décrivant les logements, ainsi que des caractéristiques propres aux ménages qui y résident peuvent être mis à disposition s’ils sont relatifs à une commune ou un quartier « Iris » (voir encadré page 80), sans mention de localisation géographique à l’intérieur de cette zone. 100
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
Trois types de fichiers de données individuelles comportant des informations concernant les individus enquêtés peuvent être diffusés : –– les fichiers de type « mobilités » comportant le lieu de travail ou d’étude ; –– les fichiers de type « migrations résidentielles » comportant le lieu de résidence antérieure ; –– les fichiers généraux de « caractéristiques sociodémographiques » ne comportant ni le lieu de travail ou d’étude, ni le lieu de résidence antérieure. Le contenu de ces fichiers dépend du niveau de localisation du logement. Il est défini de telle sorte que la confidentialité des données mises à disposition soit garantie. La localisation du logement est obligatoirement choisie parmi les zones suivantes : commune, quartier « Iris », arrondissement, département, région, métropole et ensemble « métropole et départements d’outre-mer ». Le descriptif de ces fichiers est transmis à la Commission nationale de l’informatique et des libertés avant d’être rendu disponible sur le site internet de l’Insee.
2.3 DIFFUSION DE DONNÉES GÉOGRAPHIQUES FINES Le risque d’identification les individus augmente lorsqu’on leur donne une localisation précise. La variable géographique est en effet une de celles qui peut contribuer le plus à la rupture du secret statistique. On comprend bien que la révélation de quelques caractéristiques sur un individu (son âge et sa profession, par exemple) est beaucoup plus intrusive si l’on sait que cette personne réside dans une petite commune rurale que si l’on sait simplement qu’elle habite en France. Cette variable est largement prise en compte pour la diffusion des résultats du recensement. Ainsi, l’arrêté du 19 juillet 2007 relatif à la diffusion des résultats du recensement de la population précise que les cartes illustrant ces résultats ne peuvent présenter un détail 101
Le secret statistique et la diffusion
inférieur à celui de la commune ou, pour les plus grandes communes à des quartiers dits « Iris » comptant environ 2 000 habitants. Une possibilité est toutefois laissée à l’Insee d’effectuer un découpage du territoire communal en carreaux fixes. Curieusement, cet arrêté ne précise pas la dimension de ce carroyage, ni en termes de superficie, ni en termes de population. Ces cartes ne peuvent illustrer ni la nationalité, ni les migrations (pays de naissance et résidence antérieure). Pour la diffusion sous forme de cartes des résultats des autres enquêtes statistiques, les mêmes règles que celles déjà vues pour les données agrégées doivent s’appliquer. Il est à noter que le respect de cette règle est parfois subtil. La diffusion d’une carte peut sembler indiquer que la variable prise pour une certaine zone se situe dans une tranche mentionnée en légende : par exemple, la couleur de tramage pour cette zone signifie que la variable est comprise entre 20 % et 50 %. Mais le système d’information géographique qui supporte cette carte peut éventuellement, par un simple clic, donner la valeur exacte pour cette zone (27,3 %). Dans ce cas, le flou donné par la simple couleur de la trame peut être conforme aux règles du secret statistique, alors que la valeur exacte obtenue en cliquant sur la carte peut constituer une violation de celui-ci, par la précision de la valeur donnée. Cependant, la diffusion de données sous forme cartographique est une demande constante de la part des utilisateurs. Celle-ci s’est notamment manifestée au travers d’un rapport du Cnis de septembre 2009 [37] dans lequel figure la recommandation de « mettre en place les conditions qui permettront aux utilisateurs de rassembler des informations “clefs” issues de sources diverses selon une même maille géographique, le “carreau” ; ceci afin de les agréger et de les analyser sur leurs propres terrains infracommunaux d’observation et d’action ». Il convient d’être très prudent pour la diffusion de données cartographiées à un niveau fin, car celle-ci peut présenter des risques d’atteinte au secret statistique. L’Insee l’a expérimenté à ses dépens (voir encadré ci-contre). 102
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
DONNÉES CARROYÉES : L’INCIDENT DE 2013 La rubrique « données carroyées » du site internet de l’Insee a été ouverte en 2010 dans le but de satisfaire prioritairement les acteurs chargés de la mise en œuvre des politiques publiques locales, en application de la recommandation du Cnis de 2009. Grâce à cette base de données, il est possible d’obtenir les informations dans des périmètres géographiques à façon en agrégeant les données relatives à des carreaux élémentaires de 200 mètres de côté identifiés par leurs coordonnées géographiques. En 2013, la base de données a été enrichie de nouvelles variables dont le revenu fiscal médian par unité de consommation. Le revenu fiscal étant une donnée couverte par le secret fiscal, il importait d’en préserver la confidentialité. Or, avec un carroyage de 200 mètres de côté, il faut près de 14 millions de carreaux pour recouvrir le territoire métropolitain. Sur ce total, il s’avère que plus de 11,5 millions sont inhabités, et que seulement 2 300 000 sont habités. Mais, parmi ces derniers, 1 200 000, soit la moitié, ne sont habités que par un ou deux ménages : il est hors de question de donner la valeur exacte du revenu fiscal médian pour de tels carreaux, puisque, on l’a vu, le secret fiscal exige, pour que des données soient diffusables, qu’elles concernent au moins onze foyers fiscaux. Pour préserver les secrets fiscal et statistique, l’Insee a donc « brouillé » les données concernant les carreaux hébergeant moins de onze foyers fiscaux. La méthode de brouillage s’est inspirée de celle qui se pratique en la matière dans d’autres pays, notamment aux ÉtatsUnis pour la diffusion des résultats du recensement de la population. Le brouillage consiste à substituer au revenu réel un revenu calculé à partir de la distribution des revenus des ménages comparables dans une large zone environnante ou à permuter le revenu fiscal d’un ménage avec celui d’un ménage d’une maille voisine. Une déclaration avait été faite à la Cnil, qui avait délivré un récépissé valant avis favorable pour diffuser ce type de données dans les conditions annoncées, c’est-à-dire respectant la confidentialité des données individuelles prévue par la loi sur le secret statistique et sur le secret fiscal.
… 103
Le secret statistique et la diffusion
… La documentation disponible en ligne précisait bien que les valeurs affichées pour les carreaux ne correspondaient souvent pas à la valeur vraie, en raison de ce brouillage. Malheureusement, un bug informatique a conduit, pour un petit nombre de carreaux peu peuplés, à diffuser les valeurs du revenu fiscal médian sans effectuer ce brouillage. Le Canard enchaîné du 27 février 2013, mal informé (ou trop bien informé ?) a pointé cette rubrique en affirmant que l’Insee diffusait des revenus fiscaux pour des zones ne comportant qu’un seul foyer fiscal. Les journalistes avaient-ils lu l’avertissement soulignant que les valeurs affichées pour un carreau donné n’étaient le plus souvent que des valeurs calculées, et non pas la valeur réelle ? Avaient-ils eu connaissance du bug informatique (alors non encore détecté à l’Insee) ? Toujours est-il que les exemples concrets qu’ils donnaient figuraient bien parmi les carreaux affectés par le bug. Ou au moins en étaient des victimes indirectes, puisque le revenu médian d’un carreau cité par l’hebdomadaire avait été affecté à un carreau voisin, avec risque de confusion entre ceux-ci. Dans l’heure qui a suivi la publication du journal, l’Insee a retiré cette rubrique de son site internet et ne l’a rétablie que lorsqu’il a été certain qu’aucune information diffusée ne constituait une rupture du secret statistique. Mais, pour cette nouvelle diffusion, aucune information statistique (à l’exception du nombre total d’individus) n’était plus diffusée pour les carreaux de moins de onze ménages. Ces carreaux de faibles effectifs ont été regroupés en rectangles de taille plus importante et satisfaisant à cette règle des onze ménages minimum. Le « brouillage », technique à risque, a donc été remplacé par le regroupement de carreaux pour éviter toute diffusion de données se rapportant à un trop petit nombre de foyers. On remarquera que la diffusion de données selon des carreaux de taille fixe était présentée par le Cnis comme permettant de reconstituer l’information pour un périmètre plus vaste, au gré des utilisateurs. Cette propriété est moins vraie, dès lors que l’on regroupe les rectangles
… 104
LE SECRET STATISTIQUE
Le secret statistique et la diffusion
… de 200 mètres de côté trop peu peuplés : la maille n’étant plus fixe, les regroupements sont moins évidents. Enfin, la variable « revenu fiscal médian » est, par elle-même une variable ne permettant pas des regroupements, puisque, contrairement à la moyenne, la médiane ne possède pas la propriété d’additivité.
2.4 DIFFUSION DES DONNÉES SUR L’ENVIRONNEMENT En 2003, l’Union européenne a adopté une directive [52] visant à garantir à tout un chacun l’information la plus large possible sur l’environnement. Dans ses attendus, elle affirme qu’il est nécessaire de garantir à toute personne physique ou morale de la Communauté le droit d’accès aux informations environnementales détenues par les autorités publiques ou pour le compte de celles-ci, sans que cette personne ne soit obligée de faire valoir un intérêt ; qu’il est en conséquence nécessaire que les autorités publiques mettent à disposition et diffusent le plus largement possible auprès du grand public l’information en matière d’environnement. Cette directive a été transposée dans la loi française en 2005 [13]. Un article de cette loi précise que toute personne qui en fait la demande doit recevoir communication des informations relatives à l’environnement détenues par une autorité publique. Cependant, l’article suivant prévoit que l’autorité publique peut rejeter la demande d’une information relative à l’environnement, notamment si celle-ci porte atteinte à la protection de renseignements couverts par le secret statistique. On notera que le texte dit simplement que l’autorité publique « peut » s’y opposer. Elle n’y est pas contrainte. Il y a donc là une petite exception supplémentaire aux règles habituelles de protection du secret statistique. La loi n’oblige pas l’autorité publique à consulter le Comité du secret statistique avant de prendre sa décision. On peut considérer qu’elle serait bien inspirée de le faire… 105
Le secret statistique et la diffusion
De plus, un autre article interdit à l’autorité publique de rejeter la demande d’une information relative à des émissions de substances dans l’environnement. Quelques exceptions sont prévues à cette interdiction28. Mais aucune ne concerne la protection du secret statistique. Il s’agit donc là d’une atteinte plus sérieuse au secret statistique. Jusqu’à ce jour, aucune demande mettant en cause le secret statistique n’a été présentée. Mais il est tout à fait envisageable que cela se produise un jour ou l’autre. Par exemple, des informations très détaillées sur les zones inondables, permettant éventuellement d’identifier certains individus. Dans une telle éventualité, l’autorité publique pourra refuser d’accéder à cette demande ou aura la possibilité d’y donner suite, en mettant des conditions telles que cette diffusion ne porte pas atteinte aux intérêts que la loi sur le secret statistique a entendu protéger.
28. Elles concernent la politique extérieure de la France, la sécurité publique ou la défense nationale, le déroulement des procédures juridictionnelles et la propriété intellectuelle.
106
LE SECRET STATISTIQUE
3 L’accès aux données confidentielles
Pendant de nombreuses années, l’histoire du secret statistique s’est arrêtée aux questions de collecte, de stockage et de diffusion par l’organisme qui avait collecté les données. Les données collectées étaient confidentielles et ne pouvaient donc être communiquées à personne, en dehors des agents travaillant pour les organismes collecteurs (enquêteurs, concepteurs d’enquête, codeurs…). Ces personnes s’engageaient à ne rediffuser à quiconque aucune information couverte par le secret. Fort heureusement, les informations ainsi collectées se sont avérées de plus en plus utiles pour les chercheurs, notamment ceux qui effectuent des travaux dans le domaine économique et social. Parallèlement, l’évolution des techniques informatiques a permis de traiter de plus en plus de données individuelles pour faire apparaître des corrélations, des études de trajectoires, des analyses de données… Aussi les chercheurs, bien que très heureux de disposer de nombreux tableaux de statistiques agrégées, étaient par ailleurs demandeurs d’informations plus précises, allant jusqu’aux données individuelles. Bien sûr, il leur importait peu de savoir qui était l’individu auquel se référaient ces données, mais ils en avaient besoin pour les lier avec 107
L’accès aux données confidentielles
d’autres variables ou à ces mêmes variables, pour ce même individu, à une autre date. Petit à petit est ainsi apparue la nécessité de mettre à disposition des chercheurs, non seulement des données agrégées, mais aussi des données individuelles. Dès lors, la question de la protection de la confidentialité et du respect du secret statistique prenait une autre dimension. L’accès aux informations confidentielles ne concerne pas que les données strictement couvertes par le secret statistique. Rappelons que celles-ci sont les données issues d’enquêtes de la statistique publique (article 6 de la loi de 1951) et les données administratives nécessaires à l’établissement des statistiques (article 7bis de cette même loi). Les chercheurs souhaitent également avoir accès à d’autres données couvertes par un secret, mais ne relevant pas, ou pas seulement, du secret statistique : par exemple, les fichiers de santé ou les fichiers fiscaux. Ces autres types d’information feront l’objet d’un chapitre spécifique. Dans un premier temps, on s’intéressera aux données qui sont couvertes par le secret statistique.
3.1 L’ACCÈS AUX DONNÉES COUVERTES PAR LE SECRET STATISTIQUE La question de la confidentialité des données individuelles se pose en termes différents pour les données sur les entreprises et pour les données sur les ménages. L’accès aux données confidentielles sur les entreprises (1984-2012) Puisque la mise à disposition de données individuelles sur les entreprises entraîne presque automatiquement la rupture du secret statistique (voir pp. 81-82), il a fallu prendre des dispositions en conséquence et prévoir les mesures législatives, réglementaires, administratives et techniques pour permettre la communication de données individuelles aux chercheurs qui en avaient besoin. Jusqu’en 1984, la loi de 1951 présentait une certaine ambiguïté à propos du secret sur les données relatives aux entreprises. En 1984, 108
LE SECRET STATISTIQUE
L’accès aux données confidentielles
c’est un simple décret [14] qui a ouvert la possibilité de communiquer des informations individuelles sur les entreprises, sur décision conjointe du ministre duquel relevait l’enquête et du ministre de l’Économie, après avis du Comité du secret statistique concernant les entreprises, créé par le même décret (voir page 47). Le chercheur souhaitant avoir accès à des données confidentielles sur les entreprises devait tout d’abord prendre contact avec le service enquêteur. Il devait démontrer à celui-ci que l’étude qu’il devait mener nécessitait bien l’accès à des données couvertes par le secret statistique. Pour garantir le maintien du secret après la communication du fichier au chercheur, il devait présenter un certain nombre de garanties, matérielles et morales. Il devait notamment indiquer les mesures qui seraient prises pour protéger matériellement les données transférées (stockage dans une pièce fermant à clef, installation sur un ordinateur avec mot de passe, par exemple). Surtout, il devait démontrer que son projet s’inscrivait dans un programme général et son dossier devait être visé par son directeur de laboratoire ou une personne de responsabilité équivalente. Après examen et avis du service enquêteur, le dossier était admis à être présenté devant le Comité du secret statistique concernant les entreprises. Celui-ci ne se réunissant que quatre fois par an, un nombre conséquent de dossiers pouvait y être présenté. Pour chaque dossier, le chercheur devait être physiquement présent (ce qui représentait parfois un effort et une dépense non négligeables pour les chercheurs de province) et exposer la raison pour laquelle il souhaitait avoir accès à des informations confidentielles. Les membres du Comité du secret statistique concernant les entreprises pouvaient lui demander des compléments d’explication, après quoi l’avis était donné. Cet avis, s’il était favorable (la plupart des dossiers arrivant jusqu’au comité recevaient un avis favorable), mentionnait : –– le (ou les) fichier(s) au(x)quel(s) le demandeur aurait accès ; 109
L’accès aux données confidentielles
–– le nom de chacune des personnes qui pourraient avoir accès aux données confidentielles ; –– la durée pour laquelle cette communication était autorisée. En général, la durée de communication du fichier était inférieure ou égale à trois ans. Durée après laquelle le demandeur devait, s’il souhaitait continuer à travailler sur ces informations, faire une nouvelle demande. Puis le demandeur signait un document, dans lequel il reconnaissait avoir pris connaissance des règles relatives à la protection du secret statistique sur les entreprises et des peines encourues en cas de non-respect de ces règles. Il s’engageait à les respecter et à détruire les données communiquées à l’issue de la durée fixée par le Comité du secret statistique concernant les entreprises. L’avis du Comité était alors transmis aux ministres concernés qui signaient l’autorisation de communication. Il n’y a jamais eu d’exemples pour lesquels l’un des ministres aurait refusé une communication, après avis favorable du Comité du secret statistique concernant les entreprises. C’est pourquoi l’on entend souvent dire que la décision de communication revient au Comité du secret statistique concernant les entreprises : c’est juridiquement inexact, mais pratiquement, cela correspond à la réalité. Enfin, les données demandées étaient communiquées au chercheur, d’abord sous forme de bande magnétique puis, la technologie évoluant, sous forme de CD. Il faut bien reconnaître que cette procédure reposait sur la confiance mutuelle entre le demandeur et le service qui lui mettait à disposition son information. En effet, en dehors de l’obligation morale matérialisée par la signature du document d’engagement, rien n’empêchait matériellement le chercheur de dupliquer l’information communiquée, d’y donner accès à d’autres personnes que celles initialement autorisées, de conserver les données au-delà du délai imparti par le Comité du secret statistique concernant les entreprises. 110
LE SECRET STATISTIQUE
L’accès aux données confidentielles
Malgré ces imperfections, il ne semble qu’aucune « fuite » sensible ne soit venue rompre le secret statistique sur les entreprises, à l’issue de cette communication. Mais il est bien difficile pour l’Insee et les services enquêteurs d’affirmer qu’aucune entorse aux engagements pris par les demandeurs ne soit jamais survenue… Cette situation, peu assurée du point de vue matériel, s’est trouvée aggravée lorsque le Comité du secret statistique (dont le nom avait changé) a vu ses compétences élargies, en 2004, à l’ensemble des données administratives utilisées pour l’établissement des statistiques (voir page 50). L’accès aux données confidentielles sur les ménages (jusqu’en 2012) Comme on l’a vu, la loi française a toujours été plus protectrice de la vie privée (données sur les ménages) que de la vie industrielle et commerciale (données sur les entreprises). Il n’était donc pas question de donner les mêmes facilités d’accès aux données ménages que celles qui avaient été accordées à partir de 1984 pour les données sur les entreprises. Pourtant, les chercheurs en sciences sociales, comme leurs collègues chercheurs en sciences économiques, avaient de plus en plus besoin d’accéder à des données très détaillées sur les ménages, donc susceptibles d’enfreindre les règles relatives au secret statistique. Ne pouvant se contenter d’une simple fin de non-recevoir, l’Insee a envisagé deux pistes pour permettre un accès restreint à des données confidentielles, sans se mettre en contradiction avec les règles (sinon l’esprit) du secret statistique. ■■
La consultation sur place
D’après la loi, le personnel travaillant pour le service producteur a un accès aux données confidentielles produites par ce service. En contrepartie, il s’engage à ne diffuser aucune donnée protégée à l’extérieur de ce service. Dès lors, la solution était toute simple : il suffisait de faire du chercheur un membre du service producteur pour qu’il ait accès aux données confidentielles ! 111
L’accès aux données confidentielles
C’est ce que l’Insee et quelques services statistiques ministériels ont fait pendant quelques années. Lorsqu’un chercheur avait réussi à démontrer que son étude présentait un intérêt général, utile pour la société, qu’il appartenait à une structure connue pour son sérieux, il lui était proposé un contrat temporaire pour devenir, le temps nécessaire à la recherche, un membre du service ayant produit les données confidentielles. Comme tout membre de ce service, il s’engageait, sous peine de sanctions graves, à ne diffuser aucune information secrète en dehors de ce service. Cette « embauche » était matérialisée par une convention entre l’Insee (ou le SSM) et l’organisme de recherche auquel émargeait la personne concernée. Elle précisait que la personne était mise gracieusement à la disposition de l’Insee pour réaliser une étude impliquant l’accès à des données couvertes par le secret statistique. Elle avait une durée limitée et prévoyait que la personne se soumette aux obligations disciplinaires de ce service et effectue ses travaux dans les locaux de l’Insee ou du SSM. Du point de vue du respect du secret statistique, cette procédure était assez robuste, car tous les travaux du chercheur concerné pouvaient être « tracés » en permanence par l’Insee. Finalement, cette personne était soumise aux mêmes obligations (et à la même surveillance) que les agents de l’Insee eux-mêmes. Cette procédure a cependant été relativement peu utilisée, car elle implique beaucoup de lourdeur administrative. Le processus de rédaction et de signature de la convention est toujours très long. Ensuite, il faut mettre à disposition du chercheur des locaux et un ordinateur dédiés, ce qui n’est pas toujours très facile, dans des locaux déjà densément occupés. Un minimum d’encadrement du chercheur est également nécessaire. Finalement, cette piste n’a en fait été retenue que pour les chercheurs menant des travaux assez proches des études menées par l’Insee ou par le SSM concerné. Le service d’accueil pouvait donc, en contrepartie des efforts fournis, récupérer des travaux qu’il pouvait lui-même mettre en valeur. 112
LE SECRET STATISTIQUE
L’accès aux données confidentielles
Il est à noter que cette procédure, pour lourde et exceptionnelle qu’elle soit, reste tout à fait en conformité avec les règles du secret statistique. ■■
L’accès à des fichiers spécifiques pour les chercheurs
Depuis longtemps, l’Insee avait permis l’accès à un certain nombre de fichiers de données individuelles (dits « fichiers-détail ») provenant d’enquêtes par sondage auprès des ménages qu’il réalisait, notamment de l’enquête annuelle sur l’emploi. Toutefois, pour respecter les règles du secret statistique, l’information contenue dans ces fichiers était fortement dégradée pour éviter que l’on puisse identifier une personne. Pour cela, l’Insee utilisait des techniques qui ont été décrites pages 85 et suivantes, notamment les regroupements : on remplaçait par exemple la nationalité détaillée par une nationalité regroupée en deux ou trois postes (français/étranger ou français/Union européenne/autre étranger), ou bien on supprimait la commune de résidence en ne laissant plus que la région, la catégorie socioprofessionnelle était codée sur un seul chiffre, etc. Dans un premier temps, ces fichiers étaient disponibles sur bande magnétique, puis sur disquette, enfin sur CD. Ils étaient mis à disposition par le service de diffusion de l’Insee (l’Observatoire économique de Paris ou bien les Observatoires économiques régionaux). Les personnes qui les obtenaient s’engageaient à ne pas chercher à identifier qui que ce soit. La cession (payante) ne se faisait qu’à des personnes ou organismes dignes de confiance et chaque transaction était enregistrée. Avec la création, puis la montée en puissance de son site internet, l’Insee a souhaité mettre ces fichiers à disposition du grand public, par un système de téléchargement très simple. Ce que le demandeur gagnait en simplicité et en gratuité, l’Insee le perdait en traçabilité du demandeur. Il n’était plus possible d’identifier la personne ou l’organisme qui avait fait le téléchargement et il fallait donc redoubler de vigilance sur l’anonymisation de ces fichiers. Ce d’autant plus 113
L’accès aux données confidentielles
que les personnes susceptibles d’effectuer le téléchargement n’étaient pas nécessairement des chercheurs, mais pouvaient être un quidam, pas nécessairement animé par de bonnes intentions. Par ailleurs, l’enquête sur l’emploi était une enquête aréolaire29. Une personne interrogée dans l’enquête pouvait, sans trop de difficultés, retrouver l’enregistrement correspondant à ses réponses. Et il pouvait alors rechercher, parmi les enregistrements « voisins », ceux qui pourraient correspondre à des ménages situés dans la même « aire ». Les fichiers ainsi diffusés devaient donc être « encore plus » anonymisés que ceux qui étaient précédemment transmis aux demandeurs (regroupements encore plus larges). Du coup, ces fichiers perdaient beaucoup de leur intérêt pour les chercheurs qui avaient besoin d’une information fine et détaillée. L’Insee a donc décidé en 2006 de créer des fichiers spécifiquement destinés aux chercheurs, qu’il a appelés « fichiers de production et de recherche » (FPR). Ces fichiers présentaient la caractéristique d’apporter un niveau de détail plus grand que les fichiers-détail existant sur internet (par exemple, le département de résidence remplaçait la région de résidence, ou la nationalité était un peu plus détaillée). Pour un usage normal de chercheur, il était impossible d’identifier un individu dans ces fichiers. Cependant, avec une information complémentaire extérieure (par exemple, savoir que telle ou telle personne fait partie de l’échantillon) et en se donnant beaucoup de mal, il n’était pas exclu qu’on puisse identifier un petit nombre d’individus dans l’échantillon. On s’approche ici de la notion des moyens que l’on peut « raisonnablement » mettre en œuvre pour identifier une personne (cf. pages 66 et suivantes). Malgré les affirmations de l’époque, on n’était pas tout à fait dans les limites très strictes fixées par la loi française, mais on restait dans les limites admises au niveau européen. 29. C’est-à-dire que l’on interrogeait tous les ménages situés dans une « aire » composée d’une vingtaine de logements.
114
LE SECRET STATISTIQUE
L’accès aux données confidentielles
L’accès à ces fichiers est très contrôlé. Seules des personnes ayant la qualité de statisticien public (Insee et SSM) ou de chercheur sont susceptibles d’y avoir accès. Les demandes motivées sont examinées par l’unité propriétaire des données si la demande provient d’un agent du service statistique public, par le réseau Quetelet pour les chercheurs relevant de leur champ, ainsi que pour les chercheurs étrangers. Chaque diffusion donne lieu à la signature d’une licence. Lorsque le demandeur est un chercheur, la demande doit être visée par le directeur de thèse ou le directeur de laboratoire. Lorsque le demandeur est un doctorant, soit le directeur de thèse figure parmi les bénéficiaires et vise la demande, soit la demande est visée par le directeur de laboratoire. C’est l’Adisp [62] (Archives de données issues de la statistique publique) qui organise l’accès à ces fichiers de production et de recherche. L’Adisp est un service inséré dans l’équipe Greco du Centre Maurice Halbwachs (CMH). Partenaire du réseau Quetelet, l’Adisp participe également au réseau européen des archives de données à travers le Cessda (Consortium of European Social Science Data Archives). Le règlement de l’Adisp prévoit que les données sont accessibles gratuitement pour des utilisations ayant pour finalité la recherche, ce qui exclut les utilisations à des fins commerciales, ainsi que les utilisations à des fins d’enseignement. Les procédures d’accès aux services de l’Adisp diffèrent selon le statut et l’appartenance institutionnelle du demandeur. Dans tous les cas, l’acceptation de la demande conduit à la signature d’un engagement individuel. La nature des fichiers peut également induire la nécessité de signer des engagements particuliers du fait des règles auxquelles sont assujettis les producteurs. La loi pour une république numérique d’octobre 2016 [12] a changé la façon d’accéder à ces documents. Ils se situent en effet dans une « zone grise » entre les documents confidentiels et ceux ouverts au public. –– Si on les considère comme ouverts au public, la loi fait aux producteurs l’obligation de les mettre à disposition de tous sur son 115
L’accès aux données confidentielles
site internet [23]. Ce qui irait complètement contre l’esprit qui a présidé à la constitution de ces fichiers, qui sont réservés à des chercheurs, ayant pris des engagements de confidentialité sur leur diffusion. –– Si au contraire on les considère comme des fichiers couverts par le secret statistique, un examen par le Comité du secret statistique est nécessaire. La solution retenue a été la mise en place d’une procédure simplifiée devant le Comité du secret statistique pour accéder à ces fichiers. Ainsi, leur caractère confidentiel est reconnu, mais il n’est pas nécessaire d’engager une procédure trop lourde pour y accéder. Il reste la difficulté d’effectuer le tri entre les trois catégories de fichiers : ceux qui sont en accès libre (open data), ceux qui relèvent de la procédure simplifiée (réseau Quetelet) et ceux qui doivent passer par la procédure complète du Comité du secret statistique. Le Comité et le réseau Quetelet sont en train d’effectuer ce tri. L’accès aux données confidentielles sur les ménages (depuis 2012) En 2008, est intervenu un changement très important concernant le secret statistique. Ce changement, qui modifiait la loi du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques, était porté par la loi sur les archives [9]. La modification introduite ouvrait la possibilité, sous certaines conditions, d’avoir accès aux informations couvertes par le secret statistique sur les ménages, comme cela était déjà possible depuis 1984 pour les données relatives aux entreprises. Pourquoi ce changement ? La demande exercée par les chercheurs sur les données produites par la statistique publique était de plus en plus forte. Les dispositifs mis au point précédemment (fichiers de production et de recherche) permettaient de satisfaire une bonne partie de cette demande. Mais il restait encore un nombre substantiel de demandes qui ne pouvaient se satisfaire de fichiers aussi dégradés dans leur détail. Par ailleurs, les progrès des matériels et logiciels 116
LE SECRET STATISTIQUE
L’accès aux données confidentielles
informatiques ouvraient de plus grandes possibilités aux chercheurs par le traitement fin et complexe de fichiers individuels de grande taille. Cependant, le législateur a souhaité que, à la différence de ce qui est prévu pour les entreprises, l’accès aux données confidentielles sur les ménages soit réservé à des demandes effectuées à des fins de statistique publique ou de recherche scientifique ou historique. Cette restriction s’explique ainsi : –– la recherche scientifique ou historique était bien à l’origine de ce souhait de voir modifier la loi de 1951, afin de permettre aux chercheurs d’élargir le champ de leurs travaux ; –– l’introduction de l’exception pour la statistique publique est plus subtile, et a des conséquences profondes sur le fonctionnement et l’organisation de la statistique publique française. En effet, jusqu’à cette modification, les données individuelles collectées par l’Insee ne pouvaient être transmises en dehors de l’Institut, et notamment pas aux services statistiques ministériels. Par exemple, lorsque le service statistique de la santé voulait faire une enquête auprès des ménages, il ne pouvait obtenir de l’Insee des fiches-adresses issues du recensement de la population, car celles-ci étaient couvertes par le secret statistique. Des montages devaient alors être faits pour que seuls les enquêteurs de l’Insee, mis à disposition de ce service puissent effectuer les enquêtes, sans que le service statistique de la santé ait connaissance des adresses enquêtées. La modification apportée par la loi sur les archives permet l’organisation d’une relative fluidité de la circulation des données confidentielles au sein du service statistique public. C’est, d’une certaine façon, la reconnaissance, dans le domaine du secret statistique, de ce tout nouveau « service statistique public » créé presque au même moment par la loi de modernisation de l’économie [11]. Cette possibilité ouverte par la loi est restée assez théorique pendant quelques années, le temps de mettre au point un dispositif permettant un accès sécurisé à ces données confidentielles. 117
L’accès aux données confidentielles
En fait, deux dispositifs ont été mis en place, à la suite de cette loi : –– l’accès aux données confidentielles directement nominatives ; –– l’accès aux données confidentielles indirectement nominatives. ■■
L’accès aux données confidentielles directement nominatives
Ces accès concernent essentiellement la fourniture d’adresses tirées du recensement de la population, pour les besoins d’une enquête statistique. Dans ce cas, l’Insee a considéré que, en plus de l’avis du Comité du secret statistique, prévu par la loi, l’accord de l’Insee devait prendre la forme d’une délibération de son comité de direction, procédure assez solennelle, pour marquer le caractère exceptionnel (quoique conforme à la loi) de cette autorisation. Les enquêtes concernées par cette procédure sont le plus souvent des enquêtes menées par un service statistique public. Mais il y a eu aussi, de façon exceptionnelle, des enquêtes menées par un organisme public de santé qui souhaitait effectuer en urgence une enquête sur la propagation d’une épidémie. Dans la catégorie des informations directement nominatives, on peut également classer l’accès aux bulletins du recensement de la population. Le recensement a été longtemps exhaustif : jusqu’en 1999, un bulletin individuel était recueilli pour chacune des personnes résidant en France un jour donné. Ce recensement se déroulait normalement les années se terminant par un 1 ou un 6, sauf en période de guerre (1871, 1916, 1941). Depuis la guerre, et suite à l’augmentation de la richesse des informations recueillies, et donc de son coût, le recensement n’avait plus lieu qu’à intervalle irrégulier, parfois en fonction de considérations strictement budgétaires30. L’accès aux bulletins individuels papier était donc particulièrement 30. Ainsi, un recensement était prévu en 1997. Mais cette année servait de référence pour la mesure du déficit public pour la mise en place de l’euro. Le gouvernement a donc souhaité décaler cette dépense exceptionnelle, pour ne courir aucun risque d’aboutir à un déficit excessif. Le recensement de la population a donc été reporté à 1999.
118
LE SECRET STATISTIQUE
L’accès aux données confidentielles
recherché par les historiens et les généalogistes31. Jusqu’à la loi sur les archives de 2008, on ne pouvait théoriquement avoir accès aux bulletins individuels que pour les recensements ayant plus de cent ans, c’est-à-dire très peu, le bulletin individuel du recensement n’ayant été introduit qu’en 1872. Dans la pratique, la direction des archives, qui gérait matériellement l’accès à ces bulletins avait une politique différente, formellement en contradiction avec les règles du secret statistique : elle avait fixé une règle permettant l’autorisation d’accès aux bulletins du recensement à partir de trente ans. Depuis la loi sur les archives, ces bulletins sont librement accessibles pour les recensements ayant plus de soixante-quinze ans. En 2018, le dernier recensement librement accessible est donc celui de 1936. Pour les recensements plus récents, un avis du Comité du secret statistique doit être obtenu. Le comité a décidé de donner un avis favorable pour toute demande de recherche historique ou généalogique, à l’exception de celles qui comprendraient des clauses commerciales. ■■
L’accès aux données confidentielles indirectement nominatives
C’est évidemment sur ces données que s’exerce l’essentiel de la demande venant des chercheurs. Comme on l’a vu, la modification de la loi statistique introduite en 2008 par la loi sur les archives laisse la possibilité d’accéder à des informations indirectement nominatives. Cette possibilité est soumise, outre à une décision de l’administration des archives, à deux conditions : –– un avis (pas nécessairement favorable) du Comité du secret statistique ; –– l’accord de l’autorité dont émanent les documents32. L’Insee, principal pourvoyeur de données de ce type, a décidé que cet accès se ferait au moyen d’un centre sécurisé. Il ne donne donc 31. Il est à noter que seul un échantillon de ces bulletins est conservé, pour des raisons évidentes d’encombrement. 32. Article L. 213-3 du code du patrimoine. 119
L’accès aux données confidentielles
son accord que sous réserve que les données soient mises à disposition sur ce dispositif. Qu’est-ce qu’un centre d’accès sécurisé aux données ? C’est un dispositif qui permet de donner accès à des données confidentielles, sans que celui qui y a accédé puisse « emporter » ces données et en disposer à sa guise. Dans la pratique, il existe trois types de centres d’accès sécurisés : 1. Dans les premiers pays ayant eu recours à ce dispositif (notamment le Canada), l’idée était tout simplement de surveiller la personne au moment où elle avait accès aux données confidentielles. Dans ce cas, le maintien de la confidentialité est assuré par des contraintes physiques. Les données sont stockées sur un serveur coupé du reste du monde. Il est placé dans une pièce dont l’accès est très strictement contrôlé. Seul un petit nombre de personnes de confiance peut y avoir accès. Pour le cas où cette pièce comporte des vitres, de solides barreaux empêchent toute intrusion par effraction et des stores interdisent de voir de l’extérieur ce qui se passe à l’intérieur. On a souvent appelé ces locaux des « bunkers », car ils en présentent effectivement plusieurs caractéristiques. Le chercheur doit déposer à l’entrée tout ce qui lui permettrait de communiquer avec l’extérieur (tablettes, téléphones portables). Dans son travail sur les données confidentielles, il ne doit utiliser que les logiciels mis à sa disposition et ne prendre aucune note (ni aucune photo) lui permettant d’exporter à l’extérieur du « bunker » des données confidentielles. C’est cette solution qui a été, au moins dans un premier temps, adoptée au Canada, au Royaume-Uni et à Eurostat. Cette option présente de nombreux défauts d’ordre financier, humain, logistique, liés à la préservation du secret ou à la satisfaction du demandeur. Le premier d’entre eux est le coût. Il est en effet nécessaire de dédier des locaux spécifiques à ce centre. Comme le chercheur aura à s’y déplacer, il est naturel que les centres soient installés au plus près des chercheurs. Pour un pays de l’étendue du Canada, trente 120
LE SECRET STATISTIQUE
L’accès aux données confidentielles
universités accueillent sur leur campus un tel « bunker », appelé « Centre de données de recherche ». Donc l’investissement immobilier est important, même si ces locaux sont des salles préexistantes dans des universités : elles seront dorénavant totalement dédiées à l’accès aux données confidentielles. Avec pour chacune, une ou plusieurs personnes habilitées à y accéder, et devant être présentes au moins au moment de l’entrée et de la sortie du chercheur. Donc un coût humain très élevé. Du point de vue logistique, toute modification ou ajout de données doit également faire l’objet d’une intervention spécifique sur chaque serveur. Cela implique aussi qu’un nombre important de personnes soient habilitées à avoir accès à ces données, ce qui n’est jamais bon pour la protection d’un secret. Enfin, et surtout, les chercheurs sont obligés de se déplacer physiquement (parfois sur de longues distances) pour atteindre le « bunker », malgré la multiplication de ces derniers. Ils ne peuvent en tout cas pas continuer à travailler dans leur environnement matériel et logiciel habituel. Ces défauts sont tels que les pays qui ont autorisé plus récemment l’accès à des données confidentielles n’ont pas retenu cette solution. 2. Le deuxième type d’accès mis en œuvre est celui de l’exécution à distance (en anglais, remote execution). Le chercheur n’a aucun accès aux données, mais il connaît leur structure (le dessin de fichier). Il peut écrire des programmes d’exploitation de ces fichiers pour produire des données anonymisées. Ce programme est envoyé à un organisme habilité au secret statistique, qui l’exécute sur les fichiers confidentiels et, après vérification que le secret statistique est bien respecté, renvoie les résultats aux chercheurs. L’accès aux résultats peut dans certains cas être instantané, sans vérification de confidentialité, mais il est alors limité au calcul des fréquences, des moyennes, des centiles, des proportions, des ratios et des parts (système ADTR de Statistique Canada [54]). 121
L’accès aux données confidentielles
Cette solution, moins coûteuse que la précédente, présente l’inconvénient de limiter grandement le champ des analyses possibles pour le chercheur. Il ne peut examiner en détail les cas particuliers, ne peut effectuer des appariements entre différents fichiers et, sauf les cas où la demande est limitée à quelques types de calcul, il doit attendre un certain temps entre le moment où il lance sa demande et celui où il reçoit les résultats. 3. Les pays qui ont développé plus tardivement un système d’accès aux données confidentielles ont choisi un troisième type d’accès, appelé « accès à distance » (en anglais, remote access). Dans ce système, le chercheur peut voir les données sur lesquelles il travaille, les intégrer dans ses calculs et en tirer des tableaux, graphiques, analyses. Mais à aucun moment il ne peut ni les imprimer, ni les enregistrer sur un support quelconque : clef USB, CD-ROM… Les données ne quittent en effet jamais le serveur sur lequel elles sont stockées. Au cours de son travail, le chercheur produit des tableaux, des graphiques, des cartes, des analyses, qui restent eux aussi confinés sur le serveur. Quand il pense que son travail est terminé, ou qu’au moins une étape importante a été franchie, le chercheur peut demander à récupérer ces résultats, réputés anonymes. Il envoie un signal au service gestionnaire du centre d’accès sécurisé, qui vérifie le caractère anonyme des résultats produits. Si tout est bien conforme, le service envoie les fichiers de résultats au chercheur par simple messagerie. Ce service présente une grande souplesse pour les chercheurs, qui peuvent ainsi effectuer de nombreux essais d’exploitation des fichiers confidentiels. Ils en obtiennent les résultats en temps réel et peuvent donc affiner facilement leur étude. Ils peuvent aussi effectuer des appariements de fichiers confidentiels, ce qui est une source très importante d’enrichissement de leurs travaux. De plus, ils n’ont pas besoin (sauf au moment de leur inscription) de se déplacer physiquement hors de leur environnement habituel, ce qui leur donne un confort très apprécié. Pour le service gestionnaire du centre d’accès sécurisé, cette solution est nettement plus économique, après l’investissement initial, 122
LE SECRET STATISTIQUE
L’accès aux données confidentielles
puisque, hormis la maintenance du système, l’intervention humaine en cours de processus se limite à la vérification du respect du secret statistique dans les résultats produits par le chercheur, avant que celui-ci puisse les récupérer. Cette vérification doit cependant se faire dans des délais assez brefs (deux jours ouvrables) pour ne pas pénaliser le chercheur qui souhaite diffuser ces résultats. C’est ce système qui a été retenu pour les pays venus plus tardivement à une politique d’accès pour les chercheurs aux données confidentielles. Il est actuellement utilisé notamment aux Pays-Bas et en France. Le système utilisé aux Pays-Bas suppose l’installation d’un jeton d’identification sur l’ordinateur du chercheur. En cas de changement d’ordinateur ou de système d’exploitation, une intervention du gestionnaire du centre d’accès sécurisé peut donc être nécessaire [55]. En France, le Centre d’accès sécurisé aux données (CASD) utilise une autre technique, qui a fait l’objet d’un brevet. Le fonctionnement du CASD est décrit en détail dans l’encadré ci-dessous. Par un arrêté du 20 décembre 2018, le CASD est devenu un Groupement d’intérêt public, à vocation industrielle et commerciale. LE CENTRE D’ACCÈS SÉCURISÉ AUX DONNÉES DU GENES33 34 La solution retenue par l’Insee a l’avantage de n’impliquer aucune intervention dans le système informatique des établissements de recherche. Elle a été mise au point et brevetée par l’équipe « Organisation du système d’information » du Genes (Groupement des écoles d’économie et de statistique, qui était jusqu’à fin 2010 une direction de l’Insee) sous l’impulsion de Kamel Gadouche, directeur du CASD et sous la direction
…
33. Groupe des écoles nationales d’économie et de statistique. 34. Le texte qui suit est largement inspiré du Courrier des statistiques no 130, mai 2011 [31]. 123
L’accès aux données confidentielles
… d’Antoine Frachot, directeur général du Genes. Elle consiste à mettre à disposition de l’organisme demandeur un terminal appelé « SD Box » pour lui permettre de se connecter et de travailler sur le serveur installé au Genes. Cette « SD Box » permet au chercheur de voir les données sur lesquelles il travaille, de les intégrer dans ses calculs et d’en tirer des tableaux, graphiques, analyses. Mais à aucun moment il ne peut ni les imprimer, ni les enregistrer sur un support quelconque : clef USB, CD-ROM… Ainsi, les données ne quittent jamais le serveur du Genes. La communication entre cette « SD Box » et le serveur est assurée par une liaison sécurisée et cryptée. Cette solution a commencé à fonctionner au début de 2010, et un total de 600 projets ont été gérés et hébergés depuis son lancement, pour 435 institutions utilisatrices et 1 726 utilisateurs de données sécurisées35. Quel est le cheminement d’un projet de recherche qui a recours à ce dispositif ? Un chercheur qui souhaite accéder à des données individuelles sur les ménages produites par le service statistique public doit tout d’abord prendre connaissance de la source statistique dont ces données peuvent être tirées, et des différents produits de diffusion de cette source. Pour cela, ce chercheur dispose de deux ressources documentaires principales : le site internet de l’Insee (ou celui du service statistique ministériel), riche en informations générales sur la source, en données agrégées, et qui met à disposition un fichier individuel anonymisé d’usage public s’il a été possible d’en établir un ; et le site internet du réseau Quetelet qui donne accès à un dessin de fichier, et au Fichier de production et de recherche (FPR) s’il en existe un. Beaucoup de recherches peuvent être conduites avec ces matériaux d’accès aisé et rapide. Le chercheur qui estime qu’il ne peut pas s’en contenter, et qu’il a besoin des fichiers complets, doit à ce stade bien préciser pourquoi certaines variables lui manquent encore : c’est l’information cruciale qu’il devra fournir au Comité du secret statistique. Pour
… 35. Situation au 1er août 2018.
124
LE SECRET STATISTIQUE
L’accès aux données confidentielles
… cette phase d’élaboration, le chercheur devra impérativement prendre contact avec le service producteur, de façon à bien cerner sa demande et à vérifier qu’il a bien pris connaissance de tous les fichiers auxquels il peut avoir accès, de leurs possibilités et aussi de leurs limites. Le chercheur présente ensuite sa demande au Comité du secret statistique. Avant la séance, le secrétariat du Comité peut lui fournir toutes les indications nécessaires. Le Comité du secret statistique se réunit une fois par trimestre. Parmi les critères à prendre en compte, ceux de la finalité du traitement occupent une place spéciale. Le but poursuivi, pour les données sur les ménages, ne peut être que la statistique publique ou la recherche scientifique ou historique. La présence du chercheur à la séance du Comité est nécessaire pour que ses membres puissent recevoir les éclaircissements et les assurances nécessaires. En cas d’avis favorable du Comité du secret statistique, le chercheur peut consulter les données sur le CASD. Un certain délai est cependant nécessaire pour mettre en place les données que le chercheur est autorisé à traiter. D’autres données peuvent également être introduites dans l’espace réservé au projet du chercheur sur le CASD, si leur utilisation est nécessaire dans le cadre de l’étude pour laquelle il a demandé l’accès aux informations confidentielles. Il peut s’agir par exemple de données apportées par le chercheur lui-même ; elles sont alors introduites sur le CASD par un agent habilité à la gestion du centre. Avant de se connecter, le chercheur doit également, le cas échéant, faire toutes les démarches prévues par la loi en cas de traitement de données à caractère personnel. Dans les semaines qui suivent son autorisation d’accès à certaines données confidentielles, le chercheur est invité par les gestionnaires du CASD à participer à une séance dite « d’enrôlement », au cours de laquelle lui sont rappelés les principes généraux du secret statistique, la responsabilité personnelle qui sera la sienne et les modalités pratiques d’accès au centre. Ces dernières consistent en : – l’attribution d’une « SD Box », si l’organisme dont il dépend n’en est pas encore pourvu ;
… 125
L’accès aux données confidentielles
… – l’attribution d’une carte individuelle de connexion contenant un code obtenu par traitement de ses empreintes digitales, relevées au cours de cette séance. Ces séances d’enrôlement ont lieu tous les mois (sauf en août). Le chercheur peut avoir accès aux fichiers qu’il a demandés, sur la « SD Box » qui lui a été attribuée. La reconnaissance de son identité se fait grâce à sa carte et à la reconnaissance de ses empreintes digitales par le lecteur intégré à la SD Box. Il faut noter que ce dispositif ne comporte aucun stockage des empreintes digitales ailleurs que sur la carte qui reste en possession du chercheur. Plusieurs chercheurs peuvent être inscrits sur un même projet : le dossier présenté au Comité du secret statistique mentionne en ce cas les noms de tous les chercheurs associés à ce projet. Ceux-ci ont alors accès à un espace spécifique sur le CASD, dédié à leur projet. Le gestionnaire du centre y installe les bases de données qui leur sont spécifiques, et leur ouvre l’accès aux fichiers pour lesquels l’autorisation d’accès leur a été donnée. Personne d’autre qu’eux n’a accès à cet espace. Ils peuvent également utiliser la large gamme de logiciels de calcul statistique et d’édition mis à la disposition de tous les chercheurs sur le CASD. Lorsque le chercheur a terminé un travail sur les données, il crée un fichier de résultats (tableaux, projet de publication…) qu’il glisse dans une « boîte aux lettres » virtuelle à laquelle il a accès. Ce fichier est examiné par des personnes habilitées au secret statistique. Elles s’assurent que le fichier ne contient pas d’éléments pouvant constituer une rupture du secret statistique. Si tel est le cas, elles avertissent le chercheur et lui demandent de rectifier son fichier de sortie, afin qu’il soit conforme aux règles de la confidentialité. S’il ne comporte aucun élément de nature à dévoiler une information confidentielle, il est renvoyé, par simple messagerie, au chercheur. Aujourd’hui, cette vérification est exhaustive sur tous les fichiers de résultats produits dans le CASD dont un chercheur demande la sortie. C’est une solution coûteuse, car elle demande une grande expertise de la part des personnes habilitées. Son coût augmentera avec celui de la
… 126
LE SECRET STATISTIQUE
L’accès aux données confidentielles
… fréquentation du Centre. Si le nombre de personnes habilitées qui se consacrent à ce contrôle était insuffisant, cela pourrait de plus entraîner des retards dans le feu vert donné aux chercheurs. C’est pourquoi on pourrait envisager à l’avenir de n’effectuer cette vérification que par sondage. Dans tous les cas, la responsabilité de la rupture du secret statistique continuerait de peser sur celui qui aurait produit le fichier fautif. En l’absence d’un contrôle exhaustif, l’attention du chercheur devrait être appelée sur sa responsabilité personnelle. Le contrôle exhaustif peut lui donner l’illusion (fausse) qu’il est « couvert » par la vérification effectuée par un tiers. Lorsque le chercheur a achevé ses travaux, ce qui doit intervenir avant l’expiration de son habilitation, il en avertit les gestionnaires du CASD. Son accès au CASD est alors coupé. Cependant, son espace de travail est archivé pour une durée de trois ans renouvelable une fois. Cette disposition rend possibles les éventuels « retours vers les données », nécessaires après une publication par exemple. Au terme de cette période, tous les fichiers propres au chercheur et présents sur le CASD seront détruits. L’accès au CASD entraîne des coûts qui sont répercutés sur l’utilisateur. Pour l’année 2019, la mise à disposition d’une SD-Box pour un chercheur coûte 203 € par mois. Ce prix bénéficie d’une subvention reçue par le CASD au moment de sa création. Cette subvention a permis de pratiquer des tarifs bas dès le début de la création du Centre. Son impact va en s’amenuisant. Le prix de la location de la SD-Box pour un chercheur atteindra 238 € par mois en 2020. Ces prix sont très sensiblement inférieurs à ceux qui sont pratiqués à l’étranger pour un service équivalent, lorsque celui-ci est facturé à l’utilisateur.
■■
Le cas particulier des appariements
Les chercheurs ont fréquemment besoin d’effectuer des appariements de données, pour enrichir les informations recueillies lors d’une enquête, par des données administratives, ou issues d’une autre enquête. Cet appariement se fait souvent sur un numéro 127
L’accès aux données confidentielles
d’identification (par exemple le NIR pour les personnes physiques et le numéro SIREN pour les personnes morales). Mais il peut se faire aussi à partir du nom, si celui-ci est disponible. Malheureusement, dans ce dernier cas, l’identification ne peut être que probabiliste. Il existe en effet de nombreux homonymes pour la plupart des noms, même enrichis du prénom. On peut bien sûr ajouter l’adresse ou la date de naissance pour départager les homonymes. Cela n’est pas toujours suffisant. Et il y a bien peu de fichiers comportant toutes ces informations. Même pour les rares fichiers qui comprennent ces données, il arrive assez souvent qu’il y ait des différences d’orthographe (nom accentué ou non, prénom d’usage ou de l’état civil, etc.) Si bien que l’appariement à partir de ces informations « naturelles » n’est mis en œuvre que de façon très exceptionnelle. En fait, l’appariement qui permet réellement de faire correspondre des individus figurant dans deux fichiers se fait en général sur un numéro d’identification. Ce peut être le NIR (numéro d’inscription au répertoire national d’identification des personnes physiques) ou un numéro dérivé de celui-ci. Ce numéro (qu’il s’agisse du NIR ou de ses dérivés) ne présente pas les inconvénients mentionnés ci-dessus. Il est unique pour un individu, et il n’y a pas deux individus qui portent le même NIR. La France a, de ce point de vue, un avantage important sur la plupart des autres pays, puisque l’attribution du NIR est de très bonne qualité. Celle-ci a été vérifiée au moment de la mise en place de la carte vitale et est maintenue à un haut niveau depuis. Et le NIR figure dans un grand nombre de fichiers, ou le lien avec celui-ci peut être plus ou moins facilement effectué. Dans les fichiers mis à disposition sur le CASD, ne figure aucun identifiant permettant de reconnaître directement un individu : pas de NIR, pas de nom, pas d’adresse complète… Le chercheur pourra donc rarement mener lui-même cet appariement à l’intérieur du CASD. Si un appariement non faisable dans le CASD est cependant nécessaire, le chercheur peut demander à un tiers habilité (Insee ou autre) de réaliser cet appariement hors du CASD et de mettre le 128
LE SECRET STATISTIQUE
L’accès aux données confidentielles
fichier issu de l’appariement (sans les numéros d’identification) sur le CASD. Il s’agit là bien évidemment d’une prestation spécifique, qui ne peut se faire qu’avec l’accord du gestionnaire du CASD et moyennant une facturation du service. Le fichier apparié restera sur le CASD, sans possibilité pour le chercheur de le sortir, ni d’en tirer des résultats qui ne respecteraient pas les règles du secret statistique. Ce travail peut aussi bien être effectué sur des fichiers disponibles sur le centre, qu’avec un ou des fichiers apportés par le chercheur, comme résultats d’une enquête qu’il a lui-même effectuée. L’appariement de deux fichiers peut se faire de façon simple, comme décrit ci-dessus. C’est le cas où le tiers qui effectue l’appariement est habilité pour avoir accès aux deux fichiers à apparier. Mais il peut arriver des cas plus complexes où les deux services détenteurs de fichiers contenant des informations confidentielles ne sont pas habilités pour avoir accès au fichier détenu par l’autre. Soit A et B ces deux services. Ils gèrent des fichiers où les individus sont repérés par un identifiant ou par un groupe d’informations identifiantes. Un exemple d’identifiant est le NIR. Un groupe d’informations identifiantes peut être par exemple le nom, le prénom et une partie de l’adresse. Les services A et B transmettent à un premier tiers de confiance la liste de leurs données identifiantes (sans aucune autre variable). Le tiers de confiance rapproche ces identifiants. S’il s’agit du NIR des deux côtés, l’opération est immédiate. Mais il peut s’agir d’un côté du NIR, et de l’autre d’un groupe d’informations de type nom, prénom, adresse. Dans ce cas, le tiers de confiance doit être un service habilité à connaître le NIR des individus concernés. Ces services sont peu nombreux. Il peut aussi s’agir, dans les deux cas, d’un groupe d’informations identifiantes. Le travail de rapprochement est alors plus probabiliste et plus long. Lorsque ce rapprochement est fait, le tiers de confiance crée une nouvelle variable pour chaque binôme d’identifiants. Et il renvoie aux services A et B l’identifiant qu’ils avaient transmis, couplé à cette nouvelle variable. Les services A et B intègrent cette nouvelle variable dans leur fichier et suppriment 129
L’accès aux données confidentielles
les identifiants ou groupes d’informations identifiantes qui y figuraient initialement. Ils transmettent ces fichiers à un second tiers de confiance, qui peut, sur la base de cette nouvelle variable, faire l’appariement entre les deux fichiers. Le fichier ainsi créé est un nouveau fichier confidentiel, qui pourra éventuellement être mis à la disposition des chercheurs sur le Centre d’accès sécurisé. L’accès aux données confidentielles sur les entreprises (depuis 2012) Après la mise en place de centres d’accès sécurisé aux données sur les ménages, il paraissait incongru de continuer à diffuser les données confidentielles sur les entreprises sous forme de CD confiés aux chercheurs. Certes, comme on l’a déjà vu, la France s’est toujours distinguée de ses voisins en accordant une protection accrue à la vie privée, quitte à être plus souple sur la protection du secret professionnel. Cependant, l’écart devenait criant entre les modes de mise à disposition des données, selon qu’elles concernaient des ménages ou des entreprises. C’est pourquoi l’Insee, suivi par les services statistiques ministériels, a décidé en 2012 que la mise à disposition des fichiers se ferait dorénavant sur le CASD. Pour les laboratoires universitaires qui respectaient scrupuleusement le secret statistique, ce passage devait se faire en douceur, sans trop changer les habitudes professionnelles des chercheurs, puisque le CASD leur permet de continuer à travailler dans un environnement proche de celui de leur poste de travail habituel. Pour les autres, la nouvelle contrainte était peut-être plus difficile à supporter, mais comment se prévaloir d’éventuelles turpitudes commises sous l’ancienne procédure ? Les labos dans ce cas étaient sans doute peu nombreux, et les entorses qu’ils faisaient pouvaient le plus souvent être considérées comme bénignes : non-destruction du fichier à l’expiration du délai fixé ; admission de nouveaux chercheurs dans l’équipe ayant obtenu l’habilitation… Malgré tout, pour tous, l’accès aux données confidentielles avait un coût direct, ce qui n’était pas le cas auparavant. Certains s’en sont 130
LE SECRET STATISTIQUE
L’accès aux données confidentielles
plaints. Mais il leur a été expliqué que c’était le prix à payer pour s’assurer d’un meilleur respect du secret statistique. Ce que la plupart d’entre eux ont compris. L’accès sécurisé à ces données nécessite en effet une infrastructure importante. Elle est assurée au CASD par une équipe de 24 personnes réparties sur trois pôles « métiers » complémentaires, contribuant à l’accomplissement de l’ensemble des missions qui lui sont dévolues : service projet et management, informatique et datascience, et statistiques. En 2011, le CASD a bénéficié d’un financement équipement d’excellence (Equipex) dans le cadre du programme investissements d’avenir, ce qui lui a permis de modérer la contribution financière des utilisateurs pendant quelques années. L’accès aux données statistiques confidentielles aujourd’hui Le paysage législatif et administratif a désormais atteint un certain point de stabilité concernant l’accès aux données confidentielles produites ou utilisées par la statistique publique, et qui forment le champ des informations couvertes par le secret statistique. Lorsqu’une personne souhaite avoir accès à ce type d’information confidentielle, elle doit tout d’abord se poser la question suivante : ai-je absolument besoin d’informations aussi détaillées, ou puis-je me contenter d’informations agrégées déjà disponibles ou qu’il serait possible de produire sans porter atteinte au secret statistique ? Cette question sera nécessairement posée par les instances habilitées à lever le secret statistique. Mieux vaut donc se la poser dès le début. Cela évitera de mobiliser inutilement des énergies et de se faire refouler à un stade avancé de la procédure, pour finalement revenir au point de départ. Supposons donc que l’accès aux données confidentielles s’avère effectivement indispensable. Pour les chercheurs, au moins lorsqu’il s’agit de données sur les individus, la question qui doit venir immédiatement à l’esprit est la suivante : puis-je trouver mon bonheur dans les fichiers de production et de recherche proposés par le réseau Quetelet et mis à disposition par l’Adisp (voir page 115) ? Il faut pour cela consulter les fichiers 131
L’accès aux données confidentielles
disponibles sur ce réseau et déposer une demande, avec des modalités qui peuvent différer selon le statut et l’appartenance institutionnelle du demandeur. En cas d’acceptation, il faut signer un engagement individuel [62] et recueillir l’avis du Comité du secret statistique, selon une procédure très simplifiée. Si les fichiers proposés par l’Adisp se révèlent insuffisants, il faudra alors sans doute demander à accéder à des fichiers clairement couverts par le secret statistique. Ces demandes seront examinées par le Comité du secret statistique (voir pages 46 et suivantes). Toutefois, si la demande porte sur des données ménages, elle ne sera examinée que si elle est effectuée à des fins de statistique publique ou de recherche scientifique ou historique. De même, le Comité a, dans sa jurisprudence, décidé de ne pas donner d’avis favorable aux demandes effectuées dans un but commercial, même si elles ne portent pas sur des données ménages. Comme l’accès final aux données est subordonné à l’accord de l’autorité dont émanent les documents (art. 213-3 du code du patrimoine), il est indispensable de prendre contact avec le service producteur avant d’adresser une demande formelle au Comité du secret statistique. Ce contact n’est jamais du temps perdu, car il permet d’avoir une vue complète des sources statistiques disponibles, avec leur contenu précis, leur calendrier de production, etc. Il conduit souvent les demandeurs à infléchir légèrement leur demande, pour accéder à des sources plus en adéquation avec le sujet qui les préoccupe. Ce contact permet aussi de s’assurer que le service producteur donnera un avis favorable à la demande, lors du passage devant le Comité du secret statistique. La demande formelle d’accès à des données confidentielles se fait au moyen d’un formulaire téléchargeable sur le site du Comité du secret statistique [59]. Dans ce formulaire, on demande de préciser : –– le statut et la composition de l’équipe souhaitant accéder aux données confidentielles ; 132
LE SECRET STATISTIQUE
L’accès aux données confidentielles
–– la description du projet qui motive la demande ; –– les données demandées ; –– les modalités de traitement, de conservation et de sécurisation des données. Le Comité du secret statistique se réunit quatre fois par an (en général mars, juin, octobre et décembre). Le demandeur reçoit un avis l’informant de la date de la réunion du comité à laquelle son projet sera examiné. Il doit être présent physiquement à cette séance. Une représentation par un tiers peut être accordée par le président du comité. Dans les jours suivant la séance, le demandeur est informé de l’avis donné par le comité sur sa demande d’accès à des données confidentielles. En cas d’avis favorable, celui-ci mentionne la liste précise des informations concernées, leur durée de conservation et les noms des personnes habilitées à accéder à ces informations. Formellement, cet avis doit être confirmé par une autorisation d’accès donnée par l’administration des archives. Il n’est encore jamais arrivé que cette décision aille dans un sens différent de l’avis donné par le Comité du secret statistique (dans un sens, comme dans l’autre). C’est pourquoi l’on parle parfois abusivement de la « décision » du Comité du secret statistique. Le maximum est fait pour que l’autorisation formelle de l’administration des archives soit donnée dans les meilleurs délais. Mais il est déjà arrivé dans le passé que cette signature prenne plusieurs semaines, ce qui était inacceptable. Si les données visées sont des données à caractère personnel, le demandeur doit mettre en œuvre les mesures ou réaliser les études d’impact prévues par le règlement européen sur la protection des données à caractère personnel [49] et la loi informatique et libertés [4]. Pour la plupart des données statistiques confidentielles (toutes celles de l’Insee, des ministères du Travail, de l’Agriculture, de la Justice, de l’Environnement, de l’Éducation nationale, de l’Acoss, 133
L’accès aux données confidentielles
notamment), l’accès se fait via le Centre d’accès sécurisé aux données (CASD) du Genes. Les modalités d’accès aux services du CASD sont décrites dans l’encadré pages 123 et suivantes, auquel le lecteur pourra se référer. Par la suite, il se peut que le chercheur souhaite modifier sa demande d’accès, tout en conservant le même projet de recherche. Cela se produit notamment dans les cas suivants : –– une nouvelle personne s’est jointe à l’équipe de recherche et il est demandé de l’habiliter à l’accès aux données confidentielles ; –– l’étude prend des développements un peu plus longs que prévu initialement : l’autorisation d’accès était donnée pour n années, et l’équipe souhaiterait la prolonger encore de quelques années36. Dans tous ces cas, il est nécessaire d’adresser une nouvelle demande au Comité du secret statistique. Mais il s’agit alors d’une procédure simplifiée, dans laquelle la présence physique du demandeur lors du comité n’est pas nécessaire. Il existe aussi des cas particuliers, où le demandeur conduit une étude, mais où il en sous-traite une partie. C’est le cas notamment lorsque l’étude comporte une enquête, que celle-ci s’appuie sur des données confidentielles et que cette enquête est sous-traitée par exemple à un réseau d’enquêteurs. Dans ce cas, le Comité du secret statistique peut autoriser le soustraitant à avoir connaissance d’informations confidentielles pour la durée et à des fins exclusives de l’étude pour laquelle l’autorisation a été donnée. Cette possibilité est prévue par l’article 18 du décret du 20 mars 2009 [18] qui énonce : 36. Jusqu’en 2017, le Comité du secret statistique ne donnait son avis que sur des enquêtes millésimées et disponibles. Il fallait donc faire une nouvelle demande si l’on avait obtenu l’autorisation d’accès pour l’année n, et que les résultats de l’année n + 1 devenaient disponibles. Depuis 2017, l’accord se fait par source de données et donc pour tous les millésimes la concernant...
134
LE SECRET STATISTIQUE
L’accès aux données confidentielles
« Le Comité du secret statistique peut autoriser des personnes publiques ou privées à servir d’intermédiaires dans certaines étapes du traitement d’une enquête statistique, les amenant à prendre temporairement connaissance de renseignements individuels collectés au cours de cette enquête ou au cours d’enquêtes précédentes. Il fixe les conditions dans lesquelles s’effectue la communication des renseignements individuels. » Les possibilités ouvertes par cet article n’ont, à ce jour, été utilisées qu’à la demande de services statistiques ministériels.
3.2 L’ACCÈS AUX DONNÉES COUVERTES PAR LE SECRET FISCAL Les administrations du fisc et des douanes sont amenées à traiter, pour l’exécution de leurs tâches, un grand nombre d’informations confidentielles. La confidentialité de ces données doit être protégée soit au titre de la concurrence, lorsqu’il s’agit de données sur les entreprises, soit au titre de la protection de la vie privée, lorsqu’il s’agit de données sur les personnes physiques. Notons ici que la protection des données fiscales sur les personnes est particulièrement sensible en France, où il est souvent admis que les revenus ou le patrimoine financier font partie de la vie privée et ne peuvent être communiqués à personne sans l’accord de celui qui perçoit ces revenus ou possède cette fortune. Les citoyens des pays anglo-saxons et ceux de l’Europe du Nord ont, sur ce point, une attitude beaucoup plus ouverte et n’hésitent pas, le plus souvent, à faire connaître leurs revenus ou leur fortune. On dit parfois que, lorsque des Étatsuniens font connaissance, une des premières questions qu’ils se posent est celle du revenu : « Combien gagnez-vous ? » Cette question n’est pas choquante aux États-Unis, mais elle semblerait déplacée en France. Il n’empêche, bien entendu, que le secret fiscal existe aussi dans ces pays, mais il touche, chez les particuliers, une corde moins sensible qu’en France. La base du secret fiscal français est l’article 103 du livre des procédures fiscales qui énonce : 135
L’accès aux données confidentielles
« L’obligation du secret professionnel, telle qu’elle est définie aux articles 226-13 et 226-14 du code pénal, s’applique à toutes les personnes appelées à l’occasion de leurs fonctions ou attributions à intervenir dans l’assiette, le contrôle, le recouvrement ou le contentieux des impôts, droits, taxes et redevances prévus au code général des impôts. Le secret s’étend à toutes les informations recueillies à l’occasion de ces opérations. (…). » Pour que la société puisse fonctionner, il est nécessaire qu’un certain nombre de dérogations soient apportées à cette règle très stricte. Ces dérogations font notamment l’objet des articles 114 à 163 du livre des procédures fiscales. Leurs bénéficiaires sont divers et soumis à chaque fois à des conditions strictes d’accès (qui ne sont pas reproduites ici) : –– administrations étrangères dans le cadre de l’assistance fiscale internationale (notamment dans la lutte contre la fraude fiscale) ; –– certaines administrations, autorités administratives, collectivités, services et organismes publics : défenseur des droits, l’autorité des marchés financiers, divers fonctionnaires chargés de la lutte contre la fraude sociale, de la protection de l’environnement, de la sûreté de l’État, les officiers de police judiciaire… et l’Insee, les services statistiques ministériels, les chercheurs (voir ci-dessous), etc. ; –– diverses commissions : commission des infractions fiscales, commission de surendettement des particuliers, etc. ; –– autorités judiciaires et juridictions : procureur de la République, juge d’instruction, conseil des prud’hommes, conseil constitutionnel, etc. ; –– certains officiers ministériels (notaires, huissiers) ; –– autorités et organismes chargés de l’application de la législation sociale : sécurité sociale, départements (dans le cadre de l’APA) ; –– quelques organismes divers (SACEM…). Naturellement, pour tous ces organismes, l’accès aux données fiscales est très contrôlé : il ne peut se faire que dans un cadre précis, 136
LE SECRET STATISTIQUE
L’accès aux données confidentielles
pour un objectif bien déterminé, ne concerne que les données fiscales nécessaires à la réalisation de la tâche pour laquelle elles sont communiquées, et sont toujours encadrées de conditions de mise à disposition. Notons également, en matière de publicité de l’impôt, que les directions départementales des finances publiques tiennent la liste des personnes assujetties à l’impôt sur le revenu. Cette liste comprend pour chaque contribuable, le nombre de parts retenu pour l’application du quotient familial, le revenu imposable et le montant de l’impôt. Cette liste peut être mise, par la direction départementale des finances publiques, à la disposition de tout contribuable qui relève de sa compétence territoriale. C’est donc un grand nombre de dérogations qui sont faites à ce secret fiscal. On l’a vu, l’une d’entre elles concerne d’une part l’Insee et les services statistiques ministériels, d’autre part les chercheurs. Dérogations pour le service statistique public Tout a commencé lorsque la loi statistique de 1951 a été modifiée et a rendu possible, pour l’Insee et pour les services statistiques ministériels, l’accès à l’ensemble des données administratives utiles pour l’établissement des statistiques. Cette possibilité s’appliquait « nonobstant toutes dispositions contraires relatives au secret professionnel ». Pour expliciter cette possibilité, il fallait un pendant du côté des textes fiscaux autorisant l’accès du service statistique public aux données fiscales. C’est ce qui a été fait, et codifié sous l’article L.135D du livre des procédures fiscales. En 1994, cette faculté a été étendue aux documents produits par les douanes. On peut remarquer sur ce point une certaine dissymétrie entre le secret statistique et le secret fiscal. Une exception au secret fiscal est faite pour les agents du service statistique public. À l’inverse, aucune exception n’est faite pour l’accès aux données statistiques pour les agents du fisc et des douanes. La circulation de l’information ne peut se faire que dans un seul sens : du fiscal vers le statistique, jamais en 137
L’accès aux données confidentielles
sens inverse. C’est cette situation qui amène à dire que le secret statistique est d’un niveau supérieur au secret fiscal. Dérogations pour les chercheurs Un nouvel élargissement est survenu en 2009 lorsqu’une loi a donné la possibilité d’accès à certaines informations sur les entreprises non seulement aux agents du service statistique public, mais aussi aux chercheurs. Cet élargissement ne concernait toutefois qu’un nombre limité de données. Il entrait en fait dans le cadre d’une simplification des formalités administratives. Avant le vote de ce texte, l’Insee recueillait déjà ces données auprès des entreprises par la voie d’une enquête statistique (enquête annuelle d’entreprises). Il pouvait ensuite les remettre à la disposition des chercheurs selon le processus déjà vu d’accès aux données confidentielles de la statistique publique. Pour simplifier la tâche des entreprises, l’Insee a souhaité pouvoir récupérer directement auprès du fisc ces informations, contenues dans un ensemble de documents couramment appelé « liasse fiscale », sans passer par une enquête statistique, évitant aux entreprises une double déclaration (au fisc et à l’Insee) et allégeant ainsi leur tâche. Mais du coup, ces informations changeaient de statut : de simples données statistiques, elles devenaient des données fiscales. Et, sans changement de la législation, les chercheurs ne pouvaient plus y avoir accès. C’est pourquoi, dans le cadre d’une loi de simplification [24], il a été prévu de maintenir une possibilité d’accès aux données de la « liasse fiscale » à des fins de recherche. De même, certains services de l’État font des études économiques, mais ne sont pas intégrés dans un service statistique ministériel. Ils pouvaient auparavant accéder à la « liasse fiscale », sous forme de données statistiques, en passant par le Comité du secret statistique. Mais ils ne pouvaient plus y accéder si ces informations devenaient des données fiscales. La modification de la loi leur a aussi permis d’accéder à ces données bien qu’ils ne fassent pas partie du service 138
LE SECRET STATISTIQUE
L’accès aux données confidentielles
statistique public, et bien qu’on ne puisse considérer leur activité comme une activité de recherche. Par la suite, certains esprits chagrins dans l’administration fiscale, regrettant sans doute de devoir partager une partie de leurs privilèges avec de vulgaires chercheurs universitaires, ont tenté de limiter la portée de cet article. Et ils y sont arrivés ! Ils ont fait valoir une interprétation très discutable du texte de la loi, contre son esprit général. Il est vraiment regrettable que de telles attitudes aient existé, heureusement compensées par la suite, comme on le verra, par l’ouverture d’esprit d’autres cadres de cette même administration fiscale, qui ont préféré, quant à eux, jouer l’intérêt général plutôt que de mesquins privilèges de caste (voir encadré ci-dessous). UNE HISTOIRE DE VIRGULE L’élargissement de l’accès de la liasse fiscale aux chercheurs a été voulu par la hiérarchie de la Direction générale des impôts (DGI) et par le ministre. Mais il a été nécessaire, pour cela, de combattre un courant de pensée, à l’intérieur même de cette direction, qui voulait absolument « verrouiller » à tout prix l’ensemble des informations collectées par le fisc. Y compris la « liasse fiscale », dont pourtant la quasi-totalité des informations était par ailleurs publique, accessible notamment dans les tribunaux de commerce, mais sous une forme moins complète et sous une présentation moins commode pour un éventuel utilisateur. Toujours est-il que la DGI a réussi à imposer son point de vue et à autoriser l’accès des chercheurs à la « liasse fiscale », moyennant un protocole au demeurant assez lourd pour ces derniers, notamment un passage devant le Comité du secret statistique. Les opposants à cette ouverture ont alors cherché un moyen de ne pas faire appliquer cette loi qui avait été votée. Et ils ont trouvé ce moyen ! Ils ont fait remarquer que le texte voté était le suivant : « Les informations [de la liasse fiscale communiquées au SSP pour l’établissement de statistiques] peuvent l’être également, dans les mêmes
… 139
L’accès aux données confidentielles
… limites et conditions, soit pour des besoins de recherche scientifique, soit à des fins exclusives de réalisation d’études économiques, aux agents de services de l’État chargés de la réalisation d’études économiques. » Ce texte veut clairement dire : « Les informations de la liasse fiscale peuvent être communiquées : – pour des besoins de recherche scientifique ; – pour la réalisation d’études économiques, aux agents des services de l’État chargés de la réalisation d’études économiques. » Deux publics sont visés : – les chercheurs ; – les agents des services de l’État chargés de la réalisation d’études économiques, chacun avec une finalité d’utilisation précise. Mais des représentants des esprits chagrins, déçus d’ouvrir les portes de leurs coffres-forts de données à de simples universitaires, ont fait remarquer que l’on pouvait lire ce texte autrement. Ils ont prétendu que ce texte voulait dire : « Les informations de la liasse fiscale peuvent être communiquées aux agents des services de l’État chargés de la réalisation d’études économiques : – pour des besoins de recherche scientifique ; – pour la réalisation d’études économiques. » Donc un seul public, et deux finalités d’utilisation possible ! Pas d’accès possible pour les chercheurs ! Cette lecture tendancieuse est permise par une simple virgule, à vrai dire inutile, placée malencontreusement entre les mots « réalisation d’études économiques » et les mots « aux agents de services de l’État ». Par cette astuce, ils ont considéré que le texte pouvait signifier que l’ouverture ne se faisait qu’aux seuls agents des services de l’État, et qu’en conséquence, pratiquer cette même ouverture auprès des chercheurs comportait un risque juridique que la Direction générale des impôts ne pouvait se permettre. Le tour était joué ! Pendant plusieurs années, les
…
140
LE SECRET STATISTIQUE
L’accès aux données confidentielles
… chercheurs n’ont donc plus eu accès aux informations contenues dans la liasse fiscale ! Pourquoi cette démonstration ne tient-elle pas la route ? Il suffit pour cela de considérer deux choses. Les agents des services de l’État chargés de la réalisation d’études économiques ne font pas de recherche scientifique, et ils n’en ont jamais fait ; l’ouverture « pour des besoins de recherche scientifique » ne pouvait donc évidemment pas les concerner. Le législateur avait lui-même précisé le public qu’il visait : la commission des finances, du contrôle budgétaire et des comptes économiques de la nation du Sénat37, par laquelle l’amendement créant cette modification est arrivé, précisait bien dans la présentation de cet article qu’il s’agissait de la « communication de documents comptables aux agents des services de l’État chargés de la réalisation d’études économiques ainsi qu’aux chercheurs ». La commission précisait un peu plus loin dans son rapport que « le présent amendement a pour objet d’étendre le droit de communication des renseignements prévus à l’article L. 135D du LPF aux chercheurs ainsi qu’aux agents des services de l’État chargés de la réalisation d’études économiques ». Il reconnaissait un peu plus loin que le terme de « chercheur » est non défini en droit, justifiant ainsi implicitement l’emploi du terme « recherche scientifique », pour les désigner par leur activité et non par leur nom. En séance publique, le 24 mars 200938, M. Bernard Angels, rapporteur pour avis de cette commission, enfonçait le clou en rappelant : « Cet amendement tend à étendre explicitement ce droit, qui concerne les documents comptables des entreprises, aux agents des services de l’État chargés de la réalisation d’études économiques, ainsi qu’aux chercheurs. » Il était donc bien clair que, dans l’esprit du législateur, les deux publics étaient visés. Devant les deux interprétations possibles du texte, le
…
37. http://www.senat.fr/rap/a08-245/a08-2457.html#toc18 38. http://www.senat.fr/seances/s200903/s20090324/s20090324011.html#section 1622 141
L’accès aux données confidentielles
… retour à la volonté du législateur aurait dû suffire pour en privilégier une. Les manœuvres de quelques fonctionnaires crispés sur leur pré carré ont réussi à imposer l’autre. Le prix à payer pour les chercheurs a été la privation de ces données pendant plusieurs années, alors que le législateur avait explicitement souhaité qu’ils puissent y accéder. Comme quoi une virgule mal placée peut changer le sens d’une phrase, au moins pour ceux qui veulent lui faire dire autre chose39.
Pendant ce temps, la situation avait fortement évolué, comme on l’a vu, pour l’accès aux données issues de la statistique publique. Notamment avec la mise en place d’un Centre d’accès sécurisé aux données (CASD). Celui-ci semblait donner pleine satisfaction aux utilisateurs, tout en protégeant efficacement le secret statistique. Le succès de ce CASD a éveillé l’intérêt du ministre des Finances de l’époque40 qui a demandé à ses services d’étudier la possibilité de mettre les informations fiscales à la disposition des chercheurs en utilisant cet outil. La position de Bercy avait en effet évolué, sous l’impulsion du ministre et de son cabinet : il était favorable à l’ouverture des données fiscales à des fins de recherche, à la condition absolue que cela ne menace pas le secret fiscal. Et il semblait bien que le CASD permettait de concilier ces deux exigences, jusqu’alors plutôt contradictoires. Une nouvelle modification de l’article L. 135D du livre des procédures fiscales a donc été introduite dans la loi. Non sans mal, car un premier article introduisant cette modification dans le projet de loi de finance rectificative pour 2012 a été voté par le Parlement, mais retoqué (non sans raison) par le Conseil constitutionnel, au motif 39. On cite parfois, en référence à cette question de « la virgule qui change tout », l’hymne à l’amour d’Édith Piaf : « Peu m’importe, si tu m’aimes, je me fous du monde entier » n’a pas le même sens que « Peu m’importe si tu m’aimes, je me fous du monde entier ». Évidemment, personne n’a jamais douté du fait qu’Édith Piaf avait en tête la première version… 40. Il s’agissait de Pierre Moscovici. 142
LE SECRET STATISTIQUE
L’accès aux données confidentielles
qu’il s’agissait d’un « cavalier », sans rapport avec l’objet de la loi. Finalement, ce texte a été repris, dans les mêmes termes, dans une loi relative à l’enseignement supérieur et à la recherche de juillet 2013 [25], où il s’insérait sans problème. Cette modification réglait tout d’abord le cas de l’ambiguïté introduite par la virgule malencontreuse dans la rédaction précédente : il n’était plus fait référence, dans le paragraphe sur la liasse fiscale, aux finalités de recherche scientifique (donc aux chercheurs…), mais uniquement aux agents des services de l’État chargés de la réalisation d’études économiques. Mieux encore, un nouveau paragraphe était introduit pour ouvrir potentiellement l’ensemble des données fiscales aux chercheurs. Cependant, cette ouverture est assortie de garanties. D’une part, l’autorisation d’accès à ces informations ne relève pas, comme pour les données de la statistique publique, de l’administration des archives, mais du ministre du budget lui-même : Bercy garde ainsi un pouvoir de contrôle (et de veto) sur l’accès de (certains) chercheurs à certaines données fiscales. D’autre part, comme pour les données de la statistique publique, l’accès est soumis à un avis du Comité du secret statistique. Mais il est précisé que cet avis doit être favorable, alors qu’il est simplement consultatif pour les données statistiques. Il existe donc une double clef pour l’accès des chercheurs aux données fiscales : d’une part, le Comité du secret statistique, dont l’avis favorable est indispensable pour assurer l’aboutissement de la démarche, d’autre part, un possible veto par le ministre du Budget, si celui-ci estime que la mise à disposition des données, dans les conditions prévues par le projet risque de compromettre la confidentialité des données fiscales. Mais ce n’est pas tout ! Le texte rajoute encore trois modalités pour l’accès à ces données : –– d’une part, il fixe les critères que le Comité du secret statistique doit prendre en compte pour donner son avis ; il doit tenir compte : 143
L’accès aux données confidentielles
• des enjeux attachés à la protection de la vie privée, à la protection du secret des affaires et au respect du secret professionnel, ce qui va de soi, ces critères étant déjà implicitement pris en compte pour l’accès aux données de la statistique publique, • de la nature et de la finalité des travaux pour l’exécution desquels la demande d’accès est formulée ; ici encore, ce critère était déjà pris en compte par le Comité du secret statistique, • de la qualité de la personne qui demande l’accès aux données, de celle de l’organisme de recherche auquel elle est rattachée et des garanties qu’elle présente ; ce critère était déjà plus ou moins pris en compte par le Comité du secret statistique, mais on voit bien là un motif possible de refus ultérieur par le ministre du Budget, qui pourrait s’appuyer sur ce critère pour passer outre un avis favorable du Comité du secret statistique, • de la disponibilité des données demandées ; autrement dit, on ne peut demander l’accès à des données qu’il faudrait construire ou à des données non encore disponibles ; c’est un critère que s’applique habituellement le Comité du secret statistique ; –– l’accès aux informations s’effectue dans des conditions préservant la confidentialité des données. Cette restriction, qui paraît au premier abord évidente, a beaucoup fait craindre que l’accès ne soit pas possible par le CASD. En effet, lorsque les données sont sur le CASD, elles peuvent être visualisées en détail par le chercheur. Ce que permet le CASD, c’est d’assurer la confidentialité de ce qui en sort. On aurait donc pu prétendre que la confidentialité n’était pas assurée vis-à-vis du chercheur, même si celui-ci signe l’engagement écrit de ne rien révéler des données individuelles et si la capacité humaine de mémorisation est limitée. Les mêmes qui avaient interprété l’article précédent de façon tendancieuse n’allaient-ils pas soutenir que le nouvel alinéa s’opposait à l’utilisation des données sur le CASD ? Heureusement, il n’en a rien été ; –– les travaux issus de l’exploitation de ces données ne peuvent en aucun cas faire état des personnes auxquelles elles se rapportent, 144
LE SECRET STATISTIQUE
L’accès aux données confidentielles
ni permettre leur identification. Cela va sans dire, mais peut-être mieux en le disant. On notera que beaucoup des précisions apportées par cet article relèvent des conditions de mise en œuvre des principes réglant l’accès aux données fiscales confidentielles, principes qui, seuls, sont du domaine de la loi. Elles auraient donc dû normalement figurer dans un décret d’application plutôt que dans la loi elle-même. Mais la tendance, depuis de nombreuses années, est d’inclure des dispositions réglementaires dans les textes de loi, avec l’idée que ces dispositions seront mieux appliquées si elles figurent rassemblées dans la loi plutôt que réparties entre la loi et son décret d’application. L’empiètement de la loi sur le décret pose cependant toutes sortes de problèmes, comme l’illustre l’expérience41. Un décret d’application de cette loi n’en a pas moins été publié. Il rappelle tout d’abord que les données ainsi communiquées ne peuvent être directement nominatives, au sens qu’on a dit plus haut, sauf, s’agissant des entreprises, la possibilité de faire figurer le code SIREN. Les publications issues de ces consultations doivent évidemment respecter le secret fiscal ainsi que, est-il mentionné, le secret statistique. Les personnes ayant accès à ces documents sont évidemment soumises au secret professionnel, sous peine d’un an d’emprisonnement et de 15 000 € d’amende42. On a vu que l’opinion du cabinet du ministre et de l’administration fiscale avait évolué en constatant l’efficacité du CASD pour l’accès des chercheurs aux données confidentielles de la statistique publique. 41. Dès 2001, le vice-président du Conseil d’État, M. Renaud Denoix de Saint-Marc rappelait que « la loi devrait être solennelle, brève et permanente. Elle est aujourd’hui bavarde, précaire et banalisée ». 42. Curieusement, il est dit que le demandeur est informé qu’il est soumis au secret professionnel « en application de l’article L. 113 », qui est en fait un article qui introduit les exceptions à ce secret professionnel. De même, il évoque les « sanctions prévues à l’article 226-14 du code pénal », qui est en fait un article qui détaille les cas où ces sanctions ne sont pas applicables. 145
L’accès aux données confidentielles
Ce centre d’accès sécurisé permettait en effet une mise à disposition convenant aux chercheurs, tout en garantissant un haut niveau de confidentialité. Cette opinion est spectaculairement confirmée dans le décret, qui précise que l’accès aux données se fera exclusivement « au moyen du Centre d’accès sécurisé distant du groupe des écoles nationales d’économie et statistique (Genes) ». Toutes ces démarches ne dispensent pas de la mise en œuvre des mesures de protection des données personnelles prévues par le RGPD et la loi de 1978 (registre des traitements, études d’impact…).
3.3 L’ACCÈS AUX DONNÉES DE SANTÉ Les données de santé font partie des données dites « sensibles » (bien que le terme ne soit jamais employé dans la loi) énumérées à l’article 8 de la loi « informatique et libertés »43. Elles font donc l’objet d’une protection particulière. Parmi les données relatives à la santé, il faut distinguer : –– celles issues des systèmes de remboursement (notamment par la caisse d’assurance maladie, mais aussi par les mutuelles complémentaires) ou de la gestion des établissements de soins (causes de décès) ; –– et celles qui portent sur des résultats d’examens ou « impliquant la personne humaine »44. Les premières, figurant dans des fichiers administratifs, sont définies, dans un article de la loi de modernisation de notre système de santé [26]. 43. Les autres données dites « sensibles » sont celles qui révèlent « la prétendue origine raciale ou l’origine ethnique, les opinions politiques, les convictions religieuses ou philosophiques ou l’appartenance syndicale d’une personne physique, [les] données génétiques, [les] données biométriques aux fins d’identifier une personne physique de manière unique, […] [les] données concernant la vie sexuelle ou l’orientation sexuelle d’une personne physique » [4]. 44. Les « recherches impliquant la personne humaine » sont définies à l’article L. 112-1 du code de la santé publique, comme les recherches organisées et pratiquées sur l’être humain en vue du développement des connaissances biologiques ou médicales.
146
LE SECRET STATISTIQUE
L’accès aux données confidentielles
––
–– –– –– ––
Elles regroupent45 : les données produites par les établissements de santé et regroupées dans un ensemble appelé PMSI (programme de médicalisation des systèmes d’information) ; les données du Sniiram (Système national d’information inter régimes de l’assurance maladie), qui seront détaillées ci-dessous ; les données sur les causes de décès ; les données médico-sociales produites par les maisons départementales des personnes handicapées ; les données produites par les mutuelles.
L’accès aux données de santé avant 2016 Avant la loi du 26 janvier 2016, les règles d’accès aux données de santé étaient touffues et contestées. Le détail sur ces règles figure dans le rapport de septembre 2013 de Pierre-Louis Bras et André Loth, sur la gouvernance et l’utilisation des données de santé [34] auquel on pourra se référer utilement. Sans entrer dans tous les détails rappelés dans ce rapport, on peut néanmoins dire que cet accès était régi par des dispositions spécifiques de la loi « informatique et libertés », qui opérait une distinction, que certains jugeaient problématique, entre les « traitements de données de santé à caractère personnel ayant pour fin la recherche dans le domaine de la santé » (qui faisaient l’objet du chapitre IX de la loi) et les « traitements des données de santé à caractère personnel à des fins d’évaluation des pratiques ou des activités de soins et de prévention » (qui faisaient l’objet du chapitre X de la loi). La loi prévoyait l’accès permanent de certains organismes (médecins des Agences régionales de santé46, Institut de veille sanitaire, 45. Ces données constituent ce que la loi de 2016 de modernisation de notre système de santé [26] appelle le « Système national des données de santé ». 46. La restriction de l’accès aux données confidentielles aux seuls médecins des ARS posait problème : les statisticiens, plus à même techniquement de traiter ces données complexes, n’y ayant pas accès, ne pouvaient pas le faire. 147
L’accès aux données confidentielles
Haute autorité de santé…) à certaines catégories de données de santé. Pour l’accès ponctuel à des données de santé, l’autorisation d’accès appartenait toujours in fine à la Cnil, mais les voies par lesquelles la demande était instruite étaient multiples et imbriquées de sorte qu’il n’était pas toujours facile de savoir où s’adresser. L’instruction pouvait ainsi se faire, selon les cas : –– auprès du Comité consultatif sur le traitement de l’information en matière de recherche dans le domaine de la santé (CCTIRS) ; –– par le Conseil national de l’information statistique ; –– par les services de la Cnil elle-même ; –– par le comité d’experts de l’Institut des données de santé. Ces organismes ne disposaient ni des moyens, ni des compétences suffisants pour faire face au grand nombre de demandes qui leur étaient adressées. Par ailleurs, ces demandes ponctuelles donnaient parfois lieu à des extractions exhaustives dans leur champ. Les fichiers du PMSI étaient ainsi transmis sur simple CD, avec un fort risque que ces données soient dupliquées, transmises à des personnes non habilitées et conservées sans limite de temps. De plus, la complexité des circuits était telle que les demandes ponctuelles d’extraction d’un échantillon demandaient en moyenne un délai de dix-sept mois. L’ensemble de ces contraintes étaient si grandes que l’on pouvait considérer que la richesse des systèmes d’information sur la santé était très largement sous-exploitée. L’accès aux données de santé à partir de 2016 La loi de santé du 26 janvier 2016 [26] revoit en profondeur la question de l’accès aux données de santé, en y consacrant un article, et quel article ! (voir encadré ci-contre)
148
LE SECRET STATISTIQUE
L’accès aux données confidentielles
L’ARTICLE 193 DE LA LOI DE 2016 Dans le Journal officiel, l’article 193 de la loi no 2016-41 du 26 janvier 2016 de modernisation de notre système de santé [26] occupe plus de six pages en petits caractères (soit treize pages pour une édition Word en prenant une police de 10). Il modifie de nombreux codes et des lois et se présente comme un cas d’école d’illisibilité législative contemporaine : il faut avoir le code ou la loi modifiés sous les yeux pour comprendre de quoi il retourne. C’est une règle assez générale : la simplification des textes législatifs génère souvent de la complexité ! Cette complexité met également en lumière le problème du vote par le Parlement de textes très techniques. Outre le fait que beaucoup de dispositions auraient pu figurer dans un texte réglementaire, le résultat final est difficile à apprécier par les personnes intéressées, sans même parler du citoyen ordinaire. La complexité du texte est d’ailleurs telle que les parlementaires eux-mêmes, pourtant appuyés par de nombreux experts, s’y perdent parfois aussi. Ainsi, dans ce texte, dans le paragraphe modifiant l’article L. 14613.-II du code de santé publique, a été introduite cette phrase : « L’accès aux données est subordonné : a) Avant le début de la recherche, à la communication, par le demandeur, au groupement d’intérêt public mentionné à l’article L. 1462-1 de l’étude ou de l’évaluation de l’autorisation de la Commission nationale de l’informatique et des libertés, d’une déclaration des intérêts du demandeur en rapport avec l’objet du traitement et du protocole d’analyse. » Phrase qui ne veut rien dire du point de vue grammatical. La bonne raison en est qu’elle est issue d’un malheureux copier/coller dans un amendement déposé précipitamment par le sénateur Claude Malhuret au cours d’une séance de nuit (les mots « de l’étude ou de l’évaluation » auraient dû être placés juste après les mots « de la recherche, »). Les passages ultérieurs devant l’Assemblée nationale, puis à nouveau devant le Sénat n’ont rien décelé. Cette phrase vide de sens figure toujours dans le texte de la loi, tel qu’on peut le consulter sur Legifrance. Une erreur plus grave s’était glissée dans le texte initial de la loi.
… 149
L’accès aux données confidentielles
… Dans sa partie modifiant le traitement des données « sensibles » de la loi informatique et libertés, il était écrit que l’interdiction de traitement des données sensibles (dont les données de santé) ne s’appliquait pas pour les traitements justifiés par l’intérêt public et ne nécessitant pas d’appariements ni le recours au NIR. Ils étaient soumis à une simple déclaration ! Ce n’était évidemment pas ce qu’avait voulu dire le législateur, qui s’était une fois de plus pris les pieds dans le tapis. Cette mauvaise formulation provenait d’une erreur de transcription du texte de la loi entre la Commission mixte paritaire (CMP), qui avait échoué, et le nouvel examen par le Parlement. Lors de l’examen ultérieur de ce texte, les parlementaires croyaient que c’était une rédaction qu’ils avaient déjà votée, ne sont donc plus revenus dessus… Cependant, cette fois, le cas était suffisamment grave pour qu’il soit nécessaire de corriger au plus vite ce texte malheureux. L’erreur ayant été commise dans une loi, seul un nouvel article de loi pouvait la corriger. C’est ce qui a été fait, avec l’article 37 de la loi d’octobre 2016 pour une République numérique [12]. Heureusement, pendant les huit mois où le texte erroné a été en vigueur, personne ne s’est engouffré dans la brèche juridique qui avait été ainsi ouverte.
Cet article modifie notamment le code de la santé publique et la loi informatique et libertés. Le code de la santé publique précise que l’accès aux données de santé à caractère personnel ne peut être autorisé que pour permettre des traitements : –– soit à des fins de recherche, d’étude ou d’évaluation répondant à un motif d’intérêt public ; –– soit nécessaires à l’accomplissement des missions des services de l’État ou d’autres organismes publics. Cet accès est accordé à des personnes nommément désignées et habilitées à cet effet. 150
LE SECRET STATISTIQUE
L’accès aux données confidentielles
Pour les traitements effectués à des fins de recherche, d’étude ou d’évaluation, la procédure est définie par le nouveau chapitre IX de la loi informatique et libertés. Ce chapitre a de nouveau été modifié et réécrit par la loi de juin 2018 relative à la protection des données personnelles [6]. Dans sa rédaction actuelle, ce nouveau chapitre dispose que les traitements de données de santé à caractère personnel, ayant une finalité d’intérêt public de recherche, d’étude, d’évaluation ou d’analyse des pratiques, doivent faire l’objet d’une simple déclaration auprès de la Cnil, lorsqu’ils sont conformes à une méthodologie de référence homologuée et publiée par la Cnil. La déclaration auprès de la Cnil atteste la conformité du traitement à cette méthodologie. Pour le cas où le traitement ne peut être déclaré conforme à une telle méthodologie de référence (ce qui arrivera tant que la Cnil n’aura pas établi de telles méthodologies), une autorisation de la Cnil est nécessaire. Cependant, la Cnil ne pourra donner son autorisation qu’après avoir recueilli l’avis : –– pour les recherches impliquant la personne humaine, d’un Comité de protection des personnes (CPP) ; –– pour les autres recherches, études ou évaluations, du Comité d’expertise pour les recherches, les études et les évaluations dans le domaine de la santé (CEREES). Le CEREES émet un avis sur la méthodologie retenue, sur la nécessité du recours à des données à caractère personnel, sur la pertinence de celles-ci par rapport à la finalité du traitement et, s’il y a lieu, sur la qualité scientifique du projet. Le cas échéant, le comité recommande aux demandeurs des modifications de leur projet afin de le mettre en conformité. Le caractère d’intérêt public de la recherche, l’étude ou l’évaluation peut être apprécié par l’Institut national des données de santé, sur saisine de la Cnil ou du ministre chargé de la Santé ou de sa propre initiative. 151
L’accès aux données confidentielles
L’autorisation de la Cnil est donnée dans un délai de deux mois suivant la demande, prolongeable une fois. Si, à l’issue de cette période, la Cnil ne s’est pas prononcée, la demande d’autorisation est réputée acceptée, sauf si l’avis du CPP ou du CEREES n’a pas été rendu ou n’a pas été expressément favorable.
3.4 L’ACCÈS AUX DONNÉES DÉTENUES PAR LA BANQUE DE FRANCE Certaines données détenues par la Banque de France ont un statut particulier, dans la mesure où la Banque de France appartient au Système européen des banques centrales (SEBC). L’accès aux données confidentielles transmises à la Banque de France dans le cadre de ses missions au sein du SEBC est régi par un règlement européen [53]. Celui-ci précise qu’il est possible d’« accorder à des organes de recherche scientifique l’accès aux informations statistiques confidentielles qui ne permettent pas une identification directe, et avec le consentement explicite préalable de l’autorité qui a fourni les informations ». Selon ce même règlement, la Banque de France doit prendre « toutes les mesures réglementaires, administratives, techniques et organisationnelles nécessaires pour garantir la protection physique et logique des informations statistiques confidentielles ». Les autres données confidentielles recueillies par la Banque de France doivent être traitées de la même manière que les informations produites par les administrations. Ainsi, les enquêtes de la statistique publique réalisées par la Banque de France relèvent-elles du même protocole que toutes les autres enquêtes statistiques. Pour permettre la consultation de ces données confidentielles, la Banque de France a mis en place un dispositif particulier comportant une étape d’habilitation et une étape de mise à disposition. L’habilitation est donnée par un « Comité d’examen des demandes d’accès aux données de la Banque de France ». Ce comité composé de représentants de la Banque de France et de personnalités du monde 152
LE SECRET STATISTIQUE
L’accès aux données confidentielles
académique. Il s’assure seulement que le motif de la demande est bien un projet de recherche scientifique à des fins de publication. La mise à disposition se fait alors, pour les personnes habilitées, dans une salle appelée « Open Data Room »47. Cette salle est localisée dans les locaux de la Banque de France, dans le deuxième arrondissement de Paris. L’accès à cette salle est gratuit, ce qui représente un avantage par rapport au CASD. Cependant, il n’est possible que du lundi au vendredi, de 10 h à 18 h et est évidemment moins commode pour les chercheurs non parisiens48. Les outils statistiques mis à la disposition des chercheurs sont moins nombreux que sur le CASD. Surtout, ce Centre d’accès sécurisé est isolé du reste des autres données (de la statistique publique, fiscales, de santé ou autres), ce qui rend très complexes les appariements entre ces sources et celles de la Banque de France.
3.5 L’ACCÈS AUX AUTRES DONNÉES Après le vote de la loi santé de 2016, une procédure était définie pour l’accès à la plupart des archives publiques : données produites par le service statistique public, données utilisées par celui-ci en vue de l’établissement des statistiques, données fiscales et douanières, données de santé. Pour les autres archives publiques, le régime général d’accès est prévu par le code du patrimoine. En fonction de la nature des données, celui-ci peut être la communication immédiate de plein droit (il ne s’agit alors pas de données confidentielles) ou la communication à l’issue d’un certain délai, pouvant aller de vingt-cinq à cent ans, selon la nature des données couvertes. Des dérogations sont cependant possibles pour une consultation de ces archives avant le délai ainsi fixé, « dans la mesure où l’intérêt 47. Utiliser la langue française aurait certainement fait moins « classe ». 48. La Banque de France envisage cependant, pour l’année 2018, la mise en place d’un site d’accès à ses données dans ses locaux de New York. 153
L’accès aux données confidentielles
qui s’attache à la consultation de ces documents ne conduit pas à porter une atteinte excessive aux intérêts que la loi a entendu protéger » (Article L. 213-3 du code du patrimoine). Dans un tel cas, « l’autorisation est accordée par l’administration des archives aux personnes qui en font la demande après accord de l’autorité dont émanent les documents ». La procédure est donc prévue et ses conditions d’application sont simples. Pourtant, un certain nombre d’administrations ou d’organismes publics comme la Cnaf ou la Cnav ont considéré que, n’ayant pas le statut de service statistique ministériel, ils ne pouvaient utiliser la procédure prévue pour la communication aux chercheurs des données statistiques. On pourrait leur faire remarquer que, dans la mesure où ces données sont utilisées par le service statistique public pour l’établissement des statistiques, l’accès serait possible par le canal du Comité du secret statistique, en application de l’article 7ter de la loi du 7 juin 1951, lorsque la demande est faite pour des besoins de recherche scientifique ou pour la réalisation d’études économiques. Mais il arrive en France que, faute d’appliquer complètement la loi existante, on alourdisse le fardeau législatif en créant de nouveaux textes qui veulent dire la même chose que ce qui existe déjà. C’est ce que s’est empressé de faire le sénateur Jean-Pierre Sueur, en présentant au Sénat un amendement à la loi pour une République numérique, ajoutant un nouvel article (article 36 [12]) à cette loi pourtant déjà bien lourde. UN ARTICLE À LA RÉDACTION ET À L’UTILITÉ CONTESTABLES Dans sa forme, cet article soulève également un certain nombre de questions. Le régime de consultation des archives publiques se trouve comme on l’a vu dans le code du patrimoine, ce qui semble assez naturel. Cette nouvelle rédaction, qui vise à élargir ce régime de consultation, introduit une modification dans… le code des relations entre le public et l’administration (CRPA) ! Mais le nouvel article L. 311-8 du CRPA
…
154
LE SECRET STATISTIQUE
L’accès aux données confidentielles
… intéresse l’application… du code du patrimoine (« […] Lorsqu’une demande faite en application du I du même article L. 213-3 [du code du patrimoine] porte sur une base de données et vise à effectuer des traitements à des fins de recherche ou d’étude présentant un caractère d’intérêt public, l’administration détenant la base de données ou l’administration des archives peut demander l’avis du Comité du secret statistique institué par l’article 6 bis de la loi no 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques […] ») Lorsqu’un demandeur souhaitera connaître la marche à suivre pour l’accès à des documents avant le délai prévu pour sa consultation, il ira naturellement voir le code du patrimoine, et son article L. 213-3. Mais il devra aussi deviner (ou savoir ?) que cet article doit se lire en relation avec un article du code des relations entre le public et l’administration et avec son décret d’application !... Il aurait évidemment été plus simple de modifier directement le code du patrimoine. Mais pourquoi faire simple, quand on peut faire compliqué ? Dans son contenu, cet article dit : a. que c’est le Comité du secret statistique qui donne son avis sur la demande de consultation ; b. que c’est l’administration détenant les données ou l’administration des archives qui saisit le Comité du secret statistique. Cela différencie de la procédure existante jusqu’à cette date (qui n’est pas supprimée) qui prévoyait que c’était le demandeur lui-même qui sollicitait l’avis du Comité du secret statistique ; c. que le Comité du secret statistique peut recommander le recours à une procédure d’accès sécurisé aux données présentant les garanties appropriées ; d. que son avis tient compte des enjeux attachés aux secrets protégés par la loi, notamment la protection de la vie privée et la protection du secret industriel et commercial et de la nature et de la finalité des travaux pour l’exécution desquels la demande d’accès est formulée ; e. que les sanctions pénales relatives à la rupture du secret ne sont pas applicables à ces procédures d’ouverture anticipée des archives publiques.
… 155
L’accès aux données confidentielles
… Chacun de ces points mérite un commentaire. a. On confie de nouvelles missions au Comité du secret statistique. Or les missions de ce dernier sont définies dans la loi statistique de 1951. Elles disent que « [Le Comité du secret statistique] est appelé à se prononcer sur toute question relative au secret en matière de statistiques. Il donne son avis sur les demandes de communication de données individuelles collectées en application de la présente loi ». Mais ici, il ne s’agit nullement de données individuelles collectées en application de la loi de 1951. Le législateur n’a pas pensé à modifier les missions (voire le nom…) du Comité du secret statistique. Il aurait pourtant été légitime de définir, dans la loi de 1951 ou dans une autre loi, ces nouvelles missions. Certes, ces missions sont regroupées dans l’article 17 du décret du 20 mars 2009 [18]. Mais celui qui se référerait à la loi n’aurait qu’une vision tronquée des missions du Comité. b. Les données statistiques, fiscales ou de santé ne sont pas exclues de la procédure envisagée par cet article. Pour elles, il y a donc deux chemins pour accéder à la communication anticipée49. Le lecteur a vu que ces procédures sont complexes. Le présent article y ajoute encore un peu d’ambiguïté. On note aussi que l’article précise bien que l’avis du Comité du secret statistique doit être recueilli, mais il ne dit pas qui prend, ensuite, la décision d’autoriser ou non la consultation : est-ce l’administration détenant les données ? est-ce l’administration des archives ? On pourrait comprendre que c’est l’administration des archives, en accord avec l’administration détenant les données (en vertu de l’article 213-3 du code du patrimoine), mais on peut aussi penser, s’agissant des données fiscales, que c’est une décision du ministre chargé du budget, après avis favorable du Comité du secret statistique (en application de l’article 135D du livre des procédures fiscales), ou bien, s’agissant des
…
49. Il est habituel de considérer que, lorsqu’une loi à caractère général est en conflit avec des lois s’appliquant à des cas particuliers de ce cas général, c’est la loi particulière qu’il convient de prendre en compte. Cela donne la solution à cette contradiction, mais ne contribue pas à la simplification… 156
LE SECRET STATISTIQUE
L’accès aux données confidentielles
… données de santé, sur autorisation de la Cnil, après avis, selon le cas, du comité d’expertise pour les recherches, les études et les évaluations dans le domaine de la santé (CEREES) ou d’un comité de protection des personnes (en application de l’article 64 de la loi informatique et libertés). La nouvelle disposition ne soumet à l’avis du Comité du secret statistique que les demandes d’accès des chercheurs à des fichiers administratifs dont l’administration détentrice accepte l’intervention du Comité (à ce jour, seule l’ACOSS a donné son agrément). Il s’agit donc un peu de « droit mou » (sans portée normative substantielle). c. … d. Les critères mentionnés sont ceux auxquels se réfère depuis toujours le Comité du secret statistique. Ils étaient dans un décret, parce qu’ils sont d’ordre réglementaire et n’ont pas leur place dans une loi. e. Il est amusant de constater que, à s’en tenir aux termes du nouveau III de l’article L. 213-3 du code du patrimoine (ajouté par l’article 36 de la loi pour une République numérique), des procédures pourraient être sanctionnées : une procédure risque-telle d’aller en prison ou de verser une amende ? Ne seraient-ce pas plutôt les personnes qui mettent en œuvre ces procédures qui sont exemptées de ces peines ? En revanche, on peut être étonné de constater qu’aucune sanction n’est prévue pour les personnes bénéficiaires de ces communications et qui rompraient le secret attaché aux données dont ils ont reçu communication. Cette sanction était prévue à l’article 6bis de la loi de 1951 pour la communication de données couvertes par le secret statistique50.
50. Notons que les personnes ayant obtenu communication d’une information confidentielle en application de cet article ne sont pas soumises ipso facto aux sanctions prévues à l’article 213-3 du code pénal. Celui-ci prévoit en effet que ces sanctions (un an d’emprisonnement et 15 000 euros d’amende) ne s’appliquent, hormis les autres cas prévus par la loi, qu’aux personnes « qui en [sont] dépositaires soit par état ou par profession, soit en raison d’une fonction ou d’une mission temporaire ». Ce qui n’est pas le cas des personnes qui en ont obtenu communication par cet article. 157
L’accès aux données confidentielles
Comme on le voit, une ouverture a été faite, mais dans la confusion. Provenant d’un amendement parlementaire, elle n’a pas bénéficié de l’examen attentif et toujours pertinent du Conseil d’État. Il en résulte un texte plein de bonne volonté, mais qui comporte beaucoup d’à-peuprès et crée de l’ambiguïté dans un domaine qui n’en avait pas besoin… Le décret, pris en application de cet article de loi [21] est un décret en Conseil d’État. Profitant de l’expertise de ce dernier, il rattrape, autant que possible, les oublis, inexactitudes ou ambiguïtés de la loi. Il modifie par exemple les missions du Comité du secret statistique, telles qu’elles figurent dans le décret de 2009. Il ne peut par contre compléter la loi, comme cela aurait été nécessaire.
3.6 EN CONCLUSION Lorsqu’une personne souhaite obtenir des informations confidentielles produites par un organisme public, elle doit commencer par se poser les questions suivantes : –– ai-je réellement besoin de ces informations confidentielles pour les travaux que je vais mener ? Il arrive en effet souvent que des informations agrégées puissent suffire, sans qu’il soit besoin de lever la confidentialité pesant sur des informations ; –– si la réponse à cette question est positive, il faut s’interroger sur la nature des informations souhaitées. On peut distinguer cinq catégories d’informations, qui ont chacune un régime d’accès différent : a. les données couvertes par le secret statistique ; b. les données couvertes par le secret fiscal ou douanier ; c. les données sur la santé ; d. les données détenues par la Banque de France ; e. les autres données. Lorsque les informations souhaitées appartiennent à plusieurs catégories énoncées ci-dessus, il faut suivre la procédure adaptée à chacune d’elles. 158
LE SECRET STATISTIQUE
L’accès aux données confidentielles
Dans tous les cas, lorsque les traitements portent sur des données à caractère personnel, il est nécessaire d’effectuer les démarches d’analyse de risque, d’étude d’impact et de traçabilité des accès aux données. Des procédures spéciales sont prévues pour l’accès aux données de santé. Si ces données comportent le NIR, il faut se référer aux démarches décrites aux pages 97 et suivantes. Dans le cas où il s’agit de données sensibles, il convient de respecter les règles de fond et de forme édictées à l’article 8 (II 11°) de la loi de 1978. a) Les données couvertes par le secret statistique sont celles qui sont collectées par une enquête de la statistique publique (ayant reçu un numéro de label et publiée au Journal officiel), ainsi que les informations collectées par d’autres administrations, mais utilisées par l’Insee ou par un service statistique ministériel pour l’établissement de statistiques. Ces dernières couvrent un domaine très vaste. Il convient de se renseigner auprès du service statistique public (Insee + SSM) pour obtenir la liste de ces informations. La démarche pour obtenir l’accès à ces données est décrite pages 131 et suivantes. Elle prévoit essentiellement un accord du service dont émanent les documents, un avis du Comité du secret statistique et une décision de l’administration des archives. b) Pour les données couvertes par le secret fiscal ou douanier, on utilisera la procédure prévue à l’article L. 135D du livre des procédures fiscales, qui est détaillée aux pages 135 et suivantes. Cette démarche prévoit un avis favorable du Comité du secret statistique et une décision du ministre du Budget. c) Les données de santé ne sont accessibles que pour réaliser des traitements effectués à des fins de recherche, d’étude ou d’évaluation répondant à un motif d’intérêt public ou nécessaires à l’accomplissement des missions des services de l’État ou d’autres organismes publics. Si le traitement est conforme à l’une des méthodologies de référence homologuées par la Cnil, une simple déclaration de conformité suffit. Sinon, il faut faire une demande d’autorisation à la Cnil. 159
L’accès aux données confidentielles
L’autorisation est donnée par la Cnil, après avis du Comité d’expertise pour les recherches, les études et les évaluations dans le domaine de la santé (CEREES), ou d’un Comité de protection des personnes, pour les recherches impliquant la personne humaine. Le caractère d’intérêt général de la recherche, l’étude ou l’évaluation peut être apprécié par l’Institut national des données de santé. d) Pour les données détenues par la Banque de France et qui ne sont pas couvertes par le secret statistique (cf. point a) ci-dessus), l’accès est possible dans l’« Open Data Room », après accord du « Comité d’examen des demandes d’accès aux données de la Banque de France ». e) Pour les autres données, il faut obtenir l’accord de l’administration détenant les données et de l’administration des archives. Le Comité du secret statistique est saisi si l’administration détentrice le souhaite. En règle générale, l’accès à ces données se fait sur un centre d’accès sécurisé. On voit le foisonnement et la complexité de ces règles d’accès. Les différences de procédures proviennent essentiellement du fait qu’elles ont été établies dans des lois différentes, à des dates différentes. Mais on ne peut que regretter qu’une harmonisation/simplification n’ait jamais été envisagée. Toutes ces modalités d’accès des chercheurs aux données confidentielles sont exposées dans un excellent rapport du Cnis de mars 2017, préparé par Antoine Bozio, directeur de l’Institut des politiques publiques et par Pierre-Yves Geoffard, directeur de l’École d’économie de Paris [38]. L’une des recommandations de ce rapport est précisément que le législateur rapproche les procédures législatives d’accès et de traitement des données couvertes par un secret. On ne saurait mieux dire…
160
LE SECRET STATISTIQUE
4 Comment ça se passe ailleurs ?
Le secret statistique n’est naturellement pas une exclusivité française. Tous les pays ont développé des règles pour préserver la confidentialité des informations fournies par les individus et les entreprises qui communiquent des données utilisées pour l’établissement des statistiques. Les fondements théoriques de ces règles sont les mêmes partout, mais leur mise en œuvre peut différer d’un pays à l’autre. Il ne saurait être question ici de développer l’ensemble des règles retenues pour un ou plusieurs pays, ni de dresser un panorama général de la façon dont le secret statistique s’applique dans un ensemble de pays. On fera seulement ici la description de quelques situations pouvant directement intéresser la France, ou servir de comparaison utile pour mieux juger de la pertinence (ou l’inadaptation) des méthodes retenues en France. Dans un premier temps, on considèrera les règles en œuvre au niveau international, puis on donnera un aperçu de la situation dans quelques pays emblématiques de situations particulières. 161
Comment ça se passe ailleurs ?
4.1 LE SECRET STATISTIQUE AU NIVEAU INTERNATIONAL Nations unies L’assemblée générale des Nations unies a adopté le 29 janvier 2014 une résolution [43] qui entérine les principes fondamentaux de la statistique officielle, établis en 1994 par la Commission de statistique. Parmi ceux-ci, le principe no 6 précise : « Les données individuelles recueillies pour l’établissement des statistiques par les organismes qui en ont la responsabilité, qu’elles concernent des personnes physiques ou des personnes morales, doivent être strictement confidentielles et ne doivent être utilisées qu’à des fins statistiques. » On notera que ce principe exige que les données individuelles ne soient utilisées qu’à des fins statistiques. La France (comme la plupart des autres pays) va au-delà, en utilisant les données ainsi collectées à des fins de recherche scientifique ou historique. Mais, dans ce cas, la confidentialité des informations reste sévèrement contrôlée. Union européenne Dès sa création (sous le nom de « Marché commun »), l’Union européenne avait timidement évoqué la question du secret statistique, ou au moins de la confidentialité des données recueillies à des fins statistiques. Cette trace subsiste dans le traité de Lisbonne, qui énonce dans son article 338 : « L’établissement des statistiques se fait dans le respect de l’impartialité, de la fiabilité, de l’objectivité, de l’indépendance scientifique, de l’efficacité au regard du coût et de la confidentialité des informations statistiques. » [44] Les choses ont évidemment évolué et ont été précisées depuis 1957. Le secret statistique pour l’Union européenne fait l’objet d’un chapitre du règlement relatif aux statistiques européennes [45], puis il a été complété par un règlement spécifique [46]. Ce règlement réaffirme la nécessité de la confidentialité des données recueillies pour l’établissement des statistiques. Il place le secret 162
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
européen au-dessus du secret national : le secret statistique français ne peut être invoqué contre la transmission à Eurostat ou à la Banque centrale européenne de données confidentielles nécessaire « à l’efficacité du développement, de la production et de la diffusion de statistiques européennes ou pour améliorer la qualité de celles-ci ». Comme la France, l’Union européenne admet une exception au secret statistique en faveur des chercheurs réalisant des analyses statistiques à des fins scientifiques. Et, comme en France, cet accès est très encadré. Il faut tout d’abord que la demande provienne d’une entité de recherche reconnue. La liste des entités de recherches reconnues par Eurostat est disponible sur le site de ce dernier [47]. À ce jour, près de mille entités sont reconnues par l’Union européenne à l’intérieur ou à l’extérieur de celle-ci, dont cinquante-trois en France. Pour être reconnue, une entité doit respecter certains critères : –– sa mission doit contenir une référence à la recherche ; –– son expérience doit être confirmée, notamment par des publications ; –– elle doit disposer d’un certain degré d’autonomie par rapport à la structure qui éventuellement la chapeaute ; –– elle doit offrir les meilleures garanties sur la sécurité des données. Tous les chercheurs qui auront accès aux données confidentielles doivent signer un engagement à respecter la confidentialité. Enfin, l’autorité statistique nationale qui a fourni les données à Eurostat doit avoir donné son accord. Si ces conditions sont remplies, l’entité de recherche peut demander l’accès à certains fichiers pour le programme de recherche qu’elle a soumis. Ces fichiers sont répartis en deux catégories : –– Les « fichiers à usage scientifique » pour lesquels l’anonymisation a été poussée afin de rendre « raisonnablement » impossible l’identification d’individus précis. C’est un peu l’équivalent des « fichiers de production et de recherche » déjà évoqués (voir page 113). Ces 163
Comment ça se passe ailleurs ?
fichiers seront transmis aux chercheurs sur support électronique (CD, DVD…). Les données doivent être détruites à la fin de la période spécifiée dans la proposition de recherche. –– Les « fichiers à usage sécurisé » pour lesquels l’anonymisation a été beaucoup moins poussée. Dans ces fichiers, il n’existe aucune possibilité d’identification directe, mais une combinaison de variables pourrait éventuellement permettre d’identifier un ou plusieurs individus. Ces fichiers ne peuvent être consultés que dans les locaux dédiés à cet effet au siège d’Eurostat. Le règlement prévoit que cet accès puisse aussi se faire dans les locaux des autorités statistiques nationales, mais les modalités de mise en œuvre de cette disposition sont encore en cours de discussion. En dehors de cet accès à des fins de recherche scientifique, Eurostat se préoccupe également du respect du secret statistique dans les instituts nationaux de statistique et dans les autres autorités nationales51. À cet effet, il a adopté en 2005 un code de bonnes pratiques de la statistique européenne, qui a ensuite été révisé en septembre 2011 et novembre 2017 [51]. Ce code impose un standard pour le développement, la production et la dissémination des statistiques européennes. Il contient notamment un chapitre consacré au respect du secret statistique. Celui-ci affirme en préambule que le respect de la vie privée ou du secret des affaires des fournisseurs de données (ménages, entreprises, administrations et autres répondants), la confidentialité des informations qu’ils communiquent et l’utilisation de celles-ci à des fins strictement statistiques doivent être absolument garantis. Pour vérifier l’application de ce principe, Eurostat considère six indicateurs (la situation en France fait l’objet de quelques lignes de commentaires après chacun de ces indicateurs) :
51. En France, les autres autorités nationales statistiques sont les services statistiques ministériels, le CASD et le Centre d’épidémiologie sur les causes médicales de décès (CépiDc).
164
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
1. Le secret statistique est garanti par le droit. On l’a vu, des textes de loi garantissent le respect du secret statistique, notamment l’article 6 de la loi n° 51-711 du 7 juin 1951. 2. Le personnel signe un engagement de confidentialité 52 au moment de l’entrée en fonction. Cette exigence a été introduite pour l’Insee et les SSM en 2007. 3. Des sanctions sont prévues pour toute violation délibérée du secret statistique. La loi prévoit en effet de lourdes sanctions (15 000 € d’amende et un an d’emprisonnement) pour les personnes qui ne respecteraient pas le secret statistique. 4. Des lignes directrices et des instructions sont données au personnel concernant la protection du secret statistique lors des processus de production et de diffusion. Les règles de confidentialité sont portées à la connaissance du public. Des règles sont effectivement établies et communiquées aux agents. Le public en est-il suffisamment informé ? On notera à cet égard que le « Guide du secret statistique » disponible sur le site de l’Insee a été mis à jour en juillet 2018. 5. Des dispositions matérielles, techniques et organisationnelles sont prises en vue de garantir la sécurité et l’intégrité des bases de données statistiques. Ces dispositions sont effectivement prises. 6. Des protocoles stricts s’appliquent aux utilisateurs extérieurs ayant accès aux microdonnées statistiques à des fins de recherche. Le Comité du secret statistique s’attache à ce que toutes les dispositions soient prises à l’occasion de chaque habilitation. La création du CASD concourt bien sûr à cet objectif. 52. C’est le terme employé dans le code de bonnes pratiques. En fait, il ne s’agit pas réellement d’un engagement, puisque c’est la loi qui impose cette confidentialité, ou bien alors, il s’agirait d’un engagement à respecter la loi... Dans le service statistique public français, on a préféré parler de reconnaissance des obligations liées à la confidentialité. Il s’agit en fait plus d’une information de la personne que d’un engagement de sa part. 165
Comment ça se passe ailleurs ?
4.2 LE SECRET STATISTIQUE DANS QUELQUES PAYS Cet ouvrage n’est pas le lieu pour présenter en détail la façon dont le secret statistique est préservé dans chaque pays et comment l’accès pour la recherche est favorisé, dans le respect de la protection de la vie privée et du secret commercial. Tous les pays ont des lois et des pratiques assurant, pour l’essentiel, le respect du secret statistique, pour les enquêtes menées par leur système statistique public. La plupart ont trouvé des moyens pour que les chercheurs puissent accéder à des données confidentielles, tout en protégeant les intérêts individuels et collectifs. Certains ont avancé dans cette direction plus vite que les autres. D’autres ont montré des degrés d’exigence plus élevés pour la protection du secret statistique. D’autres encore ont pris du retard, pour finalement accéder directement à des solutions plus modernes et efficaces, sans passer par des étapes intermédiaires. Le détail des mesures prises dans chaque pays se trouve en général sur le site de leur institut national de statistique. C’est pourquoi on se contentera ici de souligner quelques-unes des caractéristiques propres à quelques pays, qui nous ont semblé emblématiques de degré d’exigence et d’avancement différents. On commencera par deux pays qui ont été parmi les pionniers de la mise à disposition des données individuelles pour la recherche scientifique : le Canada et les Pays-Bas (on aurait pu aussi retenir le Danemark, ou d’autres pays nordiques). Puis on examinera le cas d’un pays qui a évolué parallèlement à la démarche française (le Royaume-Uni). La Russie donnera ensuite l’exemple d’un pays qui a hérité d’un système où le secret n’était pas très fortement défendu vis-à-vis du pouvoir central. Enfin, la Tunisie nous montrera comment ces problèmes sont résolus dans des pays ne bénéficiant pas d’une infrastructure économique aussi développée que dans les pays déjà cités.
166
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
Canada Le Canada a une longue tradition en matière de secret statistique. Sa loi statistique prévoit (article 17-1 b) que « aucune personne assermentée (…) ne peut révéler ni sciemment faire révéler, par quelque moyen que ce soit, des renseignements obtenus en vertu de la présente loi de telle manière qu’il soit possible, grâce à ces révélations, de rattacher à un particulier, à une entreprise ou à une organisation identifiables les renseignements ainsi obtenus qui les concernent exclusivement ». Contrairement à la loi française, ce secret ne connaît pas d’exception devant les tribunaux. L’article 18-2 de cette loi prévoit en effet : « Aucune personne assermentée (…) ne peut être requise, par ordonnance d’un tribunal ou d’un autre organisme, dans quelque procédure que ce soit, de produire un relevé ou des renseignements identificateurs obtenus dans le cadre de l’application de la présente loi ni de faire une déposition orale ayant trait à des renseignements ainsi obtenus. » Il est à noter que le statisticien en chef de Statistique Canada peut lever le secret statistique concernant les établissements de santé ou d’enseignement « à l’exception des détails présentés de telle façon qu’elle permettrait à n’importe qui de les rattacher à un malade, un pensionnaire ou une autre personne dont s’occupe un tel établissement ». On peut aussi noter que la règle de non-communication des informations individuelles tirées du recensement de la population dépend… de la date du recensement. Pour les recensements effectués de 1910 à 2005 et pour ceux qui seront effectués en 2021 ou après, la règle est qu’une communication est possible quatre-vingt-douze ans après ce recensement (à comparer, pour la France à la règle des cent ans, applicable jusqu’en 2008 et des soixante-quinze ans applicable depuis cette date). Pour les recensements effectués en 2006, 2011 et 2016, cette possibilité n’est ouverte que si la personne visée par les renseignements a consenti lors du recensement à ce que les renseignements la concernant cessent d’être protégés quatre-vingt-douze ans plus tard. 167
Comment ça se passe ailleurs ?
En matière de diffusion de fichiers de données individuelles, le Canada a longtemps fait figure de pionnier. Aujourd’hui, plusieurs chemins sont possibles pour accéder à de tels fichiers. Statistique Canada considère deux catégories de fichiers de données individuelles : –– les fichiers de microdonnées à grande diffusion (FMGD) ; –– les fichiers de microdonnées confidentielles. Les FMGD ont fait l’objet de transformations, sous forme d’agrégations, de plafonnements ou de suppressions complètes des variables qui sont considérées comme identificatrices. Il est donc impossible d’identifier un individu particulier. Par exemple, l’âge et le revenu sont regroupés, la taille est plafonnée et regroupée, et la plupart des variables géographiques sont supprimées sauf, dans la majorité des cas, la province et la région sociosanitaire dans lesquelles réside le répondant. À l’inverse, les fichiers de microdonnées confidentielles contiennent la plus grande partie des renseignements recueillis sur le sujet dans le cadre de l’enquête, ainsi que des variables dérivées ajoutées par la suite à l’ensemble des données. Ils sont donc susceptibles de permettre une identification indirecte de plusieurs individus. L’accès aux FMGD peut se faire par un canal appelé « initiative de démocratisation des données ». Celle-ci est un programme qui améliore l’accès des établissements d’enseignement supérieur du Canada aux ressources en données canadiennes. Il donne aux professeurs et aux étudiants un accès illimité à un grand nombre de FMGD. Il existe aussi un service par abonnement, qui offre un accès institutionnel à la collection des FMGD de Statistique Canada. Moyennant des frais annuels, les personnes-ressources désignées des établissements abonnés peuvent accéder à toutes les microdonnées et à toute la documentation disponible dans la collection de FMGD. Pour l’accès aux fichiers de microdonnées confidentielles, Statistique Canada a choisi une stratégie assez différente de celle qui a été retenue en France. 168
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
En France, la loi prévoit qu’un accord peut être donné à certains individus (chercheurs en particulier) pour accéder à des informations couvertes par le secret statistique. Cet accord est obtenu après avis du Comité du secret statistique. Les personnes signent un engagement de confidentialité : la possibilité d’avoir accès à des informations confidentielles, initialement réservé aux agents du service statistique public est étendue temporairement à des personnes qui lui sont extérieures. Au Canada, c’est une autre option qui a été retenue. Lorsque les personnes sont accréditées, elles prêtent serment en qualité de personnes « réputées être employées de Statistique Canada ». Ces chercheurs deviennent, temporairement et pour le projet pour lequel elles ont reçu l’accréditation, « employées de Statistique Canada ». Elles sont donc assujetties à toutes les conditions et pénalités applicables aux employés de Statistique Canada, y compris des amendes ou des peines d’emprisonnement en cas de violation des dispositions en matière de confidentialité des données. De plus, comme pour tous les fonctionnaires fédéraux (y compris les personnes réputées être employées), ces personnes doivent faire prendre leurs empreintes digitales pour obtenir leur cote de sécurité. Et le Conseil du Trésor du Canada exige une vérification de leur solvabilité53. Lorsque les chercheurs ont obtenu leur accréditation, ils peuvent avoir accès aux données nécessaires pour leur projet dans un « Centre de données de recherche » (CDR). Il y a trente CDR répartis sur tout le territoire du Canada. Ces CDR sont des espaces dédiés à l’accès aux fichiers de données confidentielles, situés dans des campus universitaires et gérés par des personnes réputées employées par Statistique 53. Les chercheurs étrangers ont d’autres contraintes supplémentaires : ils doivent avoir un co-chercheur qui est citoyen canadien ou résident permanent du Canada et fournir une lettre de recommandation d’une personne se portant garante de leur réputation, attestant qu’ils sont bien des chercheurs réputés ayant un besoin légitime d’accéder aux données canadiennes. Les étudiants étrangers doivent de plus soumettre une lettre signée par le doyen des études supérieures de l’université canadienne à laquelle ils sont affiliés. 169
Comment ça se passe ailleurs ?
Canada. Le chercheur peut travailler dans ce CDR, mais ne peut sortir librement (sur papier ou support numérique) aucune donnée. Tous les résultats sortant de ces « bunkers » sont examinés afin de déterminer s’ils contiennent des données confidentielles, qu’il s’agisse de divulgation directe ou de divulgation par recoupement. Ce système fonctionne depuis longtemps. Il a été mis en place sur la recommandation d’un rapport datant de 1998. Ce qui a fait du Canada un pionnier en matière d’accès aux données confidentielles pour la recherche. Mais c’est un système lourd et qui présente de nombreux inconvénients. Le Canada est un pays immense, et les chercheurs doivent parfois effectuer des déplacements importants pour se rendre au CDR le plus proche, malgré l’existence de trente CDR sur l’ensemble du territoire. Par ailleurs, il requiert la présence de personnes dans chaque CDR pour gérer l’accessibilité aux fichiers et vérifier que les sorties effectuées ne comportent pas d’informations confidentielles. Bref, le Canada paye le prix d’avoir été pionnier en la matière. Son système, très en pointe au début des années 2000, devient maintenant un poids lourd que n’ont pas à traîner les pays qui, comme la France, sont entrés dans le mouvement beaucoup plus tard. Il existe au Canada un autre moyen d’avoir accès aux informations confidentielles. Il s’agit du système d’accès à distance en temps réel (ADTR). Ce système est un mécanisme d’accès à distance en ligne qui permet aux utilisateurs d’exécuter en temps réel des programmes SAS portant sur des ensembles de microdonnées situées dans un emplacement central et sécurisé. Ce système ne donne pas un accès direct aux microdonnées et ses utilisateurs ne peuvent pas voir le contenu du fichier de microdonnées. Ils sont seulement en mesure d’utiliser des programmes SAS pour extraire des données sous forme de tableaux statistiques. Étant donné que les chercheurs qui utilisent l’ADTR ne peuvent pas visualiser les microdonnées, ils ne sont plus tenus d’obtenir le statut de personne « réputée être employée de Statistique Canada ». Cette façon de faire permet donc au système d’ADTR de 170
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
répondre rapidement à ses clients. C’est le système dit de remote execution déjà décrit page 121. On pourra trouver plus d’information sur ce sujet sur le site de Statistique Canada [54]. Pays-Bas Aux Pays-Bas, le secret statistique est inscrit depuis longtemps dans la culture du bureau central des statistiques (CBS). En ce qui concerne l’accès aux données individuelles, elles peuvent être consultées et utilisées à des fins de recherche par des organismes autorisés. Ces données peuvent être mises à la disposition des chercheurs sous des conditions assez strictes. Les organismes autorisés sont les universités néerlandaises, les instituts de recherche scientifique, les organismes de conseil ou d’analyse politique, les autorités statistiques de pays étrangers, d’autres institutions autorisées au cas par cas. Pour obtenir cette autorisation, il est nécessaire que l’organisme demandeur ait dans sa mission la conduite de recherche scientifique ou statistique, qu’il publie les résultats de sa recherche et… qu’il ait bonne réputation. L’accès aux microdonnées de CBS se fait à partir d’un lieu de travail sécurisé via une connexion internet sécurisée (remote access). Pour ce faire, le chercheur reçoit un token d’accès personnel. Il n’a accès qu’aux données nécessaires à sa recherche. Il lui est également possible de télécharger ses propres données et de les apparier avec les microdonnées de CBS. Ce dernier fournit un environnement de travail sécurisé dans lequel le chercheur peut stocker des versions de brouillon, des formules et des résultats. Toutes les microdonnées resteront dans cet environnement sécurisé de CBS. L’exportation d’informations à partir de l’environnement sécurisé nécessite l’utilisation du dossier d’exportation. Si le chercheur souhaite exporter ses résultats de l’environnement sécurisé, CBS vérifiera que ceux-ci ne comportent aucun risque de divulgation. 171
Comment ça se passe ailleurs ?
On retrouve là beaucoup de caractéristiques du CASD français. Une différence est que les programmes de traitement des données sont installés sur la machine du chercheur, ce qui nécessite des opérations délicates, à chaque fois qu’un programme doit être modifié, ajouté ou détruit. Les tarifs d’accès à ce service sont sensiblement plus élevés que sur le CASD. Le lancement d’un nouveau projet de recherche est facturé à 1 600 €, plus 160 € par fichier pour lequel l’accès est demandé. Des frais mensuels sont dus pour l’accès de chaque chercheur (100 €) et pour chaque fichier (16 €). S’y ajoutent des frais pour la récupération des résultats non confidentiels, pour l’addition de chercheurs supplémentaires ou la réouverture d’un projet antérieurement fermé. Au total, les frais pour le chercheur sont bien supérieurs à ceux pratiqués par le CASD. On pourra trouver plus d’information sur ce sujet sur le site du CBS [55]. Royaume-Uni Au Royaume-Uni, les données produites par le service statistique public sont classées en trois catégories, en vue de leur diffusion : –– les données ouvertes (Open Data) qui sont accessibles à tout un chacun sans mot de passe ni besoin d’être enregistré. Ce sont les données (y compris les données individuelles) pour lesquelles le risque de rupture du secret statistique est considéré comme nul ou négligeable ; –– les données protégées (Safeguarded Data). Ce sont des données qui ne permettent pas en elles-mêmes d’identifier des individus. Mais le producteur considère qu’il peut y avoir un risque de divulgation de données personnelles par croisement avec d’autres données, par exemple des bases de données privées. L’accès à ces données impose que l’utilisateur et le projet qui nécessite l’accès à ces données soient enregistrés auprès du service des données du RoyaumeUni (UK Data Service). Pour l’accès à certaines données de cette 172
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
catégorie, des conditions supplémentaires peuvent être imposées, par exemple l’accord du service producteur ou des conditions spécifiques pour le processus de téléchargement ; –– les données contrôlées (Controlled Data). Ce sont des données qui, quoique non directement nominatives, présentent un risque élevé de divulgation d’informations identifiables. Ces données ne sont accessibles que par les utilisateurs qui ont été accrédités et dont les méthodes de traitement ont été approuvées par un comité d’accès aux données (Data Access Committee). L’accès lui-même nécessite une authentification. Lorsque l’accès aux données contrôlées est accordé, il ne peut se faire que dans un environnement sécurisé, physique ou virtuel. L’accès virtuel se fait sur un réseau à distance (remote access) et l’accès physique est possible dans la salle sécurisée de l’université d’Essex. Le recours à l’un ou l’autre de ces chemins d’accès est fixé par le service producteur des données, selon leur degré de sensibilité. Comme pour le CASD en France, le chercheur a accès aux données, mais ne peut rien télécharger. Ses productions doivent être vérifiées par des experts avant de lui être restituées. Comme on le voit, la situation au Royaume-Uni est, dans ses grandes lignes, assez comparable à celle de la France, s’agissant de l’accès aux données confidentielles. On y trouve en particulier des dispositifs comparables à ceux des fichiers de production et de recherche (FPR) et du CASD. On pourra trouver plus d’information sur ce sujet sur le site de l’ONS [56]. Russie La loi statistique russe distingue trois types d’informations utilisées par la statistique publique : les synthèses officielles, les données statistiques primaires et les données administratives. Les synthèses officielles sont les données agrégées prévues par le programme de travail. Elles sont accessibles à tous les usagers. 173
Comment ça se passe ailleurs ?
Les données administratives sont recueillies par des administrations, en dehors de tout cadre statistique. Les données statistiques primaires sont celles qui sont fournies par les répondants aux enquêtes. Elles sont confidentielles. La loi prévoit que le système statistique de l’État « garantit la confidentialité des données statistiques primaires durant l’établissement des synthèses statistiques officielles et pour son usage pour la compilation de statistiques officielles ». Mais elle ajoute que « les données statistiques primaires figurant dans les questionnaires du programme fédéral de statistique sont des informations à accès limité, sauf pour les informations dont l’accès ne doit pas être limité en vertu des lois fédérales. Les données statistiques primaires qui sont d’accès limité ne doivent pas être révélées (diffusées et/ou fournies) et ne doivent être utilisées que pour l’établissement de l’information statistique officielle ». Ce qui signifie qu’il existe des statistiques recueillies par questionnaire et qui ne sont pas « à accès limité », autrement dit, pas couvertes par le secret statistique. Il s’agit notamment des informations sur l’environnement, sur les pouvoirs publics, sur les collectivités locales, sur l’utilisation des finances publiques, sur les monopoles naturels (pétrole, gaz…). On ne peut en effet limiter le droit à l’information sur ces sujets. Le fait que l’information collectée ne soit pas confidentielle apparaît sur les questionnaires, par l’absence de mention « Confidentialité protégée ». Cela représente environ 20 % des questionnaires du programme statistique annuel. Ces informations peuvent servir à autre chose que l’établissement des statistiques. Si un ministère doit en être destinataire, il est indiqué comme deuxième adresse de retour du questionnaire. L’application de cette loi s’est avérée difficile et douloureuse, suite à la pratique en vigueur pendant les longues années de l’Union soviétique, où les informations statistiques étaient utilisées à des fins non statistiques. Dans les deux premières années qui ont suivi la 174
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
publication de cette loi (2009 et 2010), les statisticiens ont beaucoup souffert. Ceux qui ont le plus souffert sont les antennes territoriales. En effet, le parquet, les organes d’instruction judiciaire, les huissiers de justice ont exigé des antennes de Rosstat la fourniture de données statistiques primaires, en s’appuyant sur une législation qui stipule que tout organisme est tenu de leur fournir l’information dont ils ont besoin. Les demandes ont été stimulées par le vote d’une loi sur l’information : les sujets de la Fédération de Russie54 peuvent, en fonction des besoins régionaux, collecter et obtenir toute information nécessaire pour l’exercice de leurs compétences. Ils pourraient donc demander directement cette information aux particuliers ou aux entreprises. Mais ils préfèrent s’adresser à Rosstat, car ils estiment que l’information est meilleure (et moins chère) à Rosstat que celle qu’ils pourraient collecter eux-mêmes. Face à ces demandes, les statisticiens ont tenu bon, en s’appuyant sur leur propre législation. En effet, s’ils se mettent à diffuser des données statistiques primaires, ils peuvent tout de suite fermer la boutique, car plus personne ne répondra à leurs questionnaires… Ils n’ont donc jamais fourni de bon gré des données confidentielles à qui que ce soit. Mais il leur est arrivé d’être traînés devant les tribunaux par des demandeurs qui s’appuyaient sur leur propre législation. Et les jugements ont varié d’un tribunal à l’autre. Il est arrivé dans certains cas que ces jugements aient conduit des services statistiques territoriaux à être frappés de la double peine : fournir l’information confidentielle au demandeur et payer une amende pour leur refus initial. En fait, les autorités locales sont très friandes de ces informations, à des fins de gestion et de contrôle. Les demandes peuvent émaner d’un niveau très haut. Rosstat a reçu des lettres de gouverneurs de 54. Il s’agit de républiques, de territoires, de régions, de villes d’importance fédérale, de régions autonomes et de districts autonomes. 175
Comment ça se passe ailleurs ?
la Fédération de Russie, pour obtenir des informations économiques sur une ville où il n’y a qu’une seule entreprise importante. Leur répondre serait porter indirectement atteinte à la confidentialité. En fait, on ne peut leur fournir que l’information officielle élaborée selon le plan fédéral, qui précise pour chaque information les niveaux de diffusion autorisés. Pour les résultats du recensement, l’information n’est pas fournie si elle porte sur un effectif inférieur à quatre personnes. Par exemple, si dans un territoire, il y a dix personnes ayant un diplôme universitaire, on publie, mais s’il n’y en a que deux, on ne publie pas. Si une case de tableau devait contenir moins de quatre personnes, on remplace cette information par la lettre « C » (confidentiel) et dans ce cas, il faut évidemment masquer aussi une autre case, car sinon, on pourrait déduire le nombre masqué par une simple différence entre le total et la somme des autres cases. On peut aussi agréger les informations. Par exemple en remplaçant la rubrique « Personnes ayant obtenu un doctorat » par « Personnes ayant effectué des études universitaires ou postuniversitaires ». De nombreux résultats du recensement sont diffusés sur internet. Mais, quelle que soit la masse d’information diffusée, les chercheurs auront toujours des insatisfactions. C’est pourquoi Rosstat a mis sur internet une base à partir de laquelle les chercheurs peuvent produire eux-mêmes les tableaux dont ils ont besoin. Le logiciel qui permet de réaliser cette production est un logiciel, créé pour l’« Australian Bureau of Statistics ». Il permet de produire des tableaux à la demande. Pour produire un tableau, le demandeur doit choisir les indicateurs et une zone territoriale. Sa demande est exécutée automatiquement en quelques minutes seulement. Mais se pose bien sûr la question de la protection des données personnelles. Lorsque les données conduiraient à une case comportant moins de quatre unités, les données sont « défigurées » afin que le résultat confidentiel ne soit ni diffusé, ni déductible par soustraction. Le tableau produit contiendra ainsi des données un peu modifiées. 176
LE SECRET STATISTIQUE
Comment ça se passe ailleurs ?
Par exemple, si dans une agglomération il y a deux personnes de nationalité américaine, le résultat pourra être qu’il y en a cinq. Ces modifications pourront être, en valeur relative, très importantes pour des effectifs faibles, mais elles deviennent négligeables dès que les effectifs considérés sont importants. Pour les données économiques, Rosstat s’est fixé la règle qu’il fallait au moins trois unités, mais cela n’est inscrit dans aucun texte. Cela peut parfois poser problème au niveau local, car, compte tenu de la structure économique de la Russie, il existe des régions pour lesquelles certains secteurs d’activité sont représentés par moins de quatre entreprises. Tunisie En Tunisie, le secret statistique figure explicitement dans la loi statistique [57], dont l’article 5 dit : « Le secret statistique signifie que les données individuelles figurant sur les questionnaires des enquêtes statistiques (…) ne peuvent être divulguées par les services dépositaires avant l’expiration d’un délai de soixante ans suivant la date de réalisation des recensements, des enquêtes ou autres opérations statistiques diverses. Les informations individuelles d’ordre économique ou financier figurant sur les questionnaires des enquêtes statistiques (…) ne peuvent pas être utilisées à des fins ayant une relation avec le contrôle fiscal, économique ou social. Les services chargés de la statistique, dépositaires de ce genre d’informations ne sont pas tenus par les dispositions légales relatives au droit de communication des données dont disposent les services fiscaux. En aucun cas, les données individuelles recueillies au cours des enquêtes statistiques (…) ne seront utilisées à d’autres fins que statistiques ; par ailleurs, les agents des services statistiques sont astreints au respect du secret professionnel. » On note, dans cet article, beaucoup de points communs avec les dispositions de l’article 6 de la loi française. Notamment l’interdiction pour les statisticiens de communiquer l’information qu’ils ont recueillie aux services fiscaux. La durée de non-communication est 177
Comment ça se passe ailleurs ?
uniformément fixée à soixante ans, soit un peu moins que pour les données ménages en France (soixante-quinze ans), mais plus que pour les données sur les entreprises (vingt-cinq ans). Pour la diffusion de données individuelles, l’INS de Tunisie offre deux possibilités aux chercheurs. Les données-détail de quelques enquêtes sont accessibles sur le site internet de l’Institut. Il s’agit principalement de l’enquête nationale annuelle sur la population et l’emploi et de l’enquête nationale de 1995 sur le budget, la consommation et le niveau de vie des ménages. Pour y accéder, le demandeur doit commencer par s’enregistrer. Il s’engage ensuite à respecter une charte qui dispose notamment que « les données seront utilisées à des fins de recherche statistique et scientifique. Elles seront utilisées uniquement pour l’obtention de résultats agrégés, et non pour enquêter sur des personnes ou des organisations particulières ». « Aucune tentative ne sera faite pour ré-identifier les répondants, et aucune utilisation ne sera faite de l’identité de toute personne ou de tout établissement découverte par inadvertance. Aucune tentative ne sera faite pour établir des liens entre les fichiers de données fournis par l’INS (ou entre ces fichiers et d’autres fichiers) qui permettraient d’identifier des individus ou des organisations. » Le chercheur certifie que son « utilisation des données statistiques obtenues à partir de l’INS sera conforme aux pratiques généralement acceptées et aux restrictions juridiques qui visent à protéger la confidentialité des répondants ». Il a ensuite accès à des fichiers-détail comportant des enregistrements individuels, anonymisés, afférents à des enquêtes ou opérations statistiques réalisées par l’INS. Une autre façon d’avoir accès à des données individuelles est de venir physiquement dans une salle dédiée à cet effet à l’Institut national de statistique, à Tunis. Le chercheur est alors temporairement assimilé à un employé de l’Institut, avec toutes les contraintes et obligations qui s’y rattachent. Il ne peut en particulier imprimer ni télécharger sur un support mobile les données confidentielles. 178
LE SECRET STATISTIQUE
5 Chronologie
1946 Création de l’Insee Loi du 27 avril 1946 (article 32) 1946 Mention d’un secret professionnel spécifique à l’Insee Décret no 46-1432 du 14 juin 1946 1951 Première apparition du secret statistique Loi no 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques 1978 Protection des données personnelles Loi no 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés 1979 Communicabilité des données ménages après cent ans Loi no 79-18 du 3 janvier 1979 sur les archives 1984 Création du Comité du secret statistique Décret no 84-628 du 17 juillet 1984 relatif au Cnis 1986 Accès de l’Insee et des SSM aux fichiers administratifs (y compris fiscaux) Loi no 86-1305 du 23 décembre 1986 portant modification de la loi de 1951 179
Chronologie
1995 Cadre européen pour la protection des données à caractère personnel Directive 95/46/CE du Parlement européen et du Conseil relative à la protection des personnes… 2004 Inscription dans la loi du Comité du secret statistique Compétence du Comité pour l’accès aux données administratives utilisées par le SSP Délai de communicabilité de trente ans pour les données sur les entreprises Ordonnance no 2004-280 du 25 mars 2004 relative aux simplifications en matière d’enquêtes statistiques 2005 Diffusion des données sur l’environnement Loi no 2005-1319 du 26 octobre 2005 portant diverses dispositions d’adaptation au droit communautaire… 2007 Diffusion des résultats du recensement Arrêté du 19 juillet 2007 relatif à la diffusion des résultats du recensement de la population 2008 Ouverture de l’accès des données ménages aux chercheurs Délais de communicabilité portés à soixante-quinze ans (ménages) et vingt-cinq ans (entreprises) Loi no 2008-696 du 15 juillet 2008 relative aux archives 2009 Secret statistique européen Règlement no 223/2009 du 11 mars 2009 relatif aux statistiques européennes 2009 Réorganisation du Comité du secret statistique Décret no 2009-318 du 20 mars 2009 relatif au Cnis, au Comité du secret statistique et au comité du label 2009 Accès de chercheurs à certaines données fiscales Loi no 2009-526 du 12 mai 2009 de simplification et de clarification du droit et d’allègement des procédures 2010 Mise en service du Centre d’accès sécurisé aux données (CASD)
180
LE SECRET STATISTIQUE
Chronologie
2013 Accès aux données confidentielles européennes Règlement no 557/2013 du 17 juin 2013 sur l’accès aux données confidentielles 2013 Accès de chercheurs aux données fiscales Loi no 2013-660 du 22 juillet 2013 relative à l’enseignement supérieur et à la recherche 2016 Accès des chercheurs aux données de santé Loi no 2016-41 du 26 janvier 2016 de modernisation de notre système de santé 2016 Protection des données personnelles Règlement no 2016/679 du Parlement européen et du Conseil relatif à la protection des personnes 2016 Accès des chercheurs aux « autres données » Loi no 2016-1321 du 7 octobre 2016 pour une République numérique 2018 Protection des données à caractère personnel Loi no 2018-493 du 20 juin 2018 relative à la protection des données personnelles 2018 Transformation du CASD en Groupement d’intérêt public Arrêté du 20 décembre 2018 paru au Journal Officiel du 29 décembre 2018
181
6 Principaux textes autour du secret statistique
6.1 TEXTES LÉGISLATIFS OU RÉGLEMENTAIRES – FRANCE Secret statistique [1] Décret no 46-1432 du 14 juin 1946 portant règlement d’administration publique pour l’application des articles 32 et 33 de la loi de finances du 27 avril 1946 relatifs à l’Institut national de la statistique et des études économiques pour la métropole et la France d’outre-mer. Fixe les attributions et l’organisation de l’Insee. Son article 7 mentionne le secret professionnel. https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTE XT000000872629&fastPos=1&fastReqId=900442896&categorieLien =cid&oldAction=rechTexte [2] Loi no 51-711 du 7 juin 1951 sur l’obligation, la coordination et le secret en matière de statistiques C’est la loi fondamentale en matière de secret statistique en France. Voir notamment ses articles 6, 6bis, 7bis et 7ter. 183
Principaux textes autour du secret statistique
https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTE XT000000888573&fastPos=1&fastReqId=1746259669&categorieLie n=cid&oldAction=rechTexte [3] Conseil de la République – Séance du 29 décembre 1950 (pages 3 382 et suivantes) Débat sur l’adoption de la loi de 1951 http://www.senat.fr/comptes-rendus-seances/4eme/pdf/1950/12/ S19501229_3373_3404.pdf [4] Loi no 78-17 du 6 janvier 1978 relative à l’informatique, aux fichiers et aux libertés Cette loi fixe les règles de gestion et d’accès aux données à caractère personnel. Elle a été profondément modifiée en 2004 puis en 2018. https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTE XT000000886460&fastPos=1&fastReqId=76340296&categorieLien= cid&oldAction=rechTexte [5] Loi no 2004-801 du 6 août 2004 relative à la protection des personnes physiques à l’égard des traitements de données à caractère personnel Revoit en profondeur la loi « informatique et libertés » de 1978 https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000441676 [6] Loi no 2018-493 du 20 juin 2018 relative à la protection des données personnelles Revoit en profondeur la loi « informatique et libertés » de 1978 https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000037085952
184
LE SECRET STATISTIQUE
Principaux textes autour du secret statistique
[7] Ordonnance no 2004-280 du 25 mars 2004 relative aux simplifications en matière d’enquêtes statistiques Fixe un délai pour l’accès aux données sur les entreprises, fait entrer dans la loi le Comité du secret statistique et officialise l’existence d’enquêtes non obligatoires https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000437016 [8] Loi no 79-18 du 3 janvier 1979 sur les archives Ses articles 7-4° et 35 fixent le délai à partir duquel seront consultables les informations recueillies par le biais d’enquêtes statistiques. https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000322519 [9] Loi no 2008-696 du 15 juillet 2008 sur les archives Ses articles 17 et 25 modifient les délais de communication et ouvrent la possibilité d’un accès anticipé pour les données sur les ménages. https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000019198529 [10] Loi no 86-1305 du 23 décembre 1986 Permet à l’Insee et aux services statistiques ministériels d’accéder aux informations administratives https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000693694 [11] Loi no 2008-776 du 4 août 2008 de modernisation de l’économie Son article 144 crée une Autorité de la statistique publique. https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000019283050
185
Principaux textes autour du secret statistique
[12] Loi no 2016-1321 du 7 octobre 2016 pour une République numérique Son article 34 élargit les possibilités d’utilisation du NIR à des fins de recherche. https://www.legifrance.gouv.fr/affichTexte.do;jsessionid=DCFBE 62B62419AEE085CC2ABD34E53FB.tplgfr22s_3?cidTexte=JORFTE XT000033202746&categorieLien=id [13] Loi no 2005-1319 du 26 octobre 2005 portant diverses dispositions d’adaptation au droit communautaire dans le domaine de l’environnement Loi de transposition de la directive 2003/4/CE du Parlement européen et du Conseil du 28 janvier 2003 https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000635725 [14] Décret no 84-628 du 17 juillet 1984 relatif au Cnis Création du Conseil national de l’information statistique (Cnis) et du Comité du secret statistique https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000701777 [15] Décret no 95-105 du 31 janvier 1995 Modification de dispositions concernant le comité du contentieux https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000551554 [16] Décret no 97-947 du 10 octobre 1997 Création du Comité du label https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT0000003 85949&pageCourante=15092
186
LE SECRET STATISTIQUE
Principaux textes autour du secret statistique
[17] Décret no 2005-333 du 7 avril 2005 relatif au Cnis et au Comité du secret statistique Création de deux sections au Comité du secret statistique https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000805328 [18] Décret no 2009-318 du 20 mars 2009 relatif au Conseil national de l’information statistique, au Comité du secret statistique et au comité du label de la statistique publique Nouvelle organisation du Cnis et du Comité du secret statistique https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000020428769 [19] Décret no 2009-250 du 3 mars 2009 relatif à l’Autorité de la statistique publique Fonctionnement de l’Autorité de la statistique publique https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000020343162 [20] Décret no 2013-34 du 10 janvier 2013 Modification de dispositions concernant l’ASP, le Cnis et le Comité du secret statistique https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000026929037 [21] Décret no 2017-349 du 20 mars 2017 relatif à la procédure d’accès sécurisé aux bases de données publiques Procédure de saisine du Comité du secret statistique, par les administrations, pour les demandes d’accès anticipé à leurs bases de données https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000034228129
187
Principaux textes autour du secret statistique
[22] Arrêté du 19 juillet 2007 relatif à la diffusion des résultats du recensement de la population Règles à appliquer pour la diffusion des résultats du recensement de la population https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000465454 [23] Article L. 312-1-1 du code des relations entre le public et l’administration Obligation de l’open data pour les administrations https://www.legifrance.gouv.fr/affichCode.do;jsessionid=37A8D 694A3E37F2C240A38E2F9E2CF80.tplgfr22s_3?idSectionTA=LEG ISCTA000031367737&cidTexte=LEGITEXT000031366350&dateTe xte=20180812 Accès aux données fiscales [24] Loi no 2009-526 du 12 mai 2009 de simplification et de clarification du droit et d’allègement des procédures Son article 19 donne une possibilité d’accès à la « liasse fiscale » des entreprises pour les chercheurs. https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000020604162 [25] Loi n° 2013-660 du 22 juillet 2013 relative à l’enseignement supérieur et à la recherche Son article 104 donne aux chercheurs la possibilité d’accéder à l’ensemble des sources fiscales https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000027735009 Accès aux données de santé [26] Loi no 2016-41 du 26 janvier 2016 de modernisation de notre système de santé 188
LE SECRET STATISTIQUE
Principaux textes autour du secret statistique
Son article 193 fixe les conditions d’un accès ouvert aux données de santé. https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000031912641
6.2 AUTRES DOCUMENTS [27] Courrier des statistiques no 41, janvier 1987 « Utilisation de données administratives à des fins statistiques : une nouvelle loi » https://www.epsilon.insee.fr/jspui/bitstream/1/14344/1/cs41.pdf [28] Courrier des statistiques no 123, janvier-avril 2008 « L’élaboration de la loi de 1951 » https://www.epsilon.insee.fr/jspui/bitstream/1/8587/1/cs123j.pdf [29] Courrier des statistiques no 126, janvier-avril 2009 « Les trois institutions de la statistique publique en France » https://www.epsilon.insee.fr/jspui/bitstream/1/8543/1/cs126i.pdf [30] Courrier des statistiques no 128, septembre-décembre 2009 Présentation du Comité du secret statistique https://www.epsilon.insee.fr/jspui/bitstream/1/8546/1/cs128e.pdf [31] Courrier des statistiques no 130, mai 2011 « Le centre d’accès sécurisé aux données de la statistique publique française : un nouvel outil pour les chercheurs » https://www.epsilon.insee.fr/jspui/bitstream/1/8288/1/cs130e.pdf [32] Ouvrage Statistical Disclosure Control de Anco Hundepool et alii, paru chez Wiley Méthode pour préserver le secret statistique (en anglais)
189
Principaux textes autour du secret statistique
[33] « T-Closeness: Privacy beyond k-Anonymity and l-Diversity » Considérations sur la « t-Closeness » (en anglais) http://ieeexplore.ieee.org/document/4221659/ [34] Rapport sur la gouvernance et l’utilisation des données de santé Analyse de l’état des lieux sur l’accès aux données de santé en 2013 http://solidarites-sante.gouv.fr/IMG/pdf/Rapport_donnees_de_ sante_2013.pdf [35] Rapport no 71 du Cnis (janvier 2002) : « Le secret statistique concernant les entreprises » Rapport très complet sur la situation du secret sur les entreprises en 2000 https://www.cnis.fr/wp-content/uploads/2017/10/RAP_2002_71_ secret_statistique_entrprises.pdf [36] Rapport no 116 du Cnis (octobre 2009) : « Conséquence du profilage des groupes en matière de secret statistique » Comment le profilage conduit à proposer de nouvelles règles en matière de secret statistique https://www.cnis.fr/wp-content/uploads/2017/10/RAP_2009_ 116_profilage_groupes_secret_statistique.pdf [37] Rapport no 117 du Cnis (septembre 2009) « Statistiques et nouvelles tendances de localisation des populations et des activités sur le territoire » www.cnis.fr/wp-content/uploads/2017/10/RAP_2009_117_ populations_activites_territoire.pdf [38] Rapport du Cnis (mars 2017) : « L’accès des chercheurs aux données administratives » 190
LE SECRET STATISTIQUE
Principaux textes autour du secret statistique
Une analyse très fine des modalités d’accès des chercheurs aux données confidentielles https://www.cnis.fr/wp-content/uploads/2017/09/RAPPORT_ CNIS-acc%C3%A8s_des_chercheurs_donn%C3%A9es_avril_2017. pdf [39] Décision ministérielle du 25 janvier 2002, publiée au JO du 28 février 2002 Mise en œuvre des recommandations du rapport sur le secret statistique concernant les entreprises https://www.legifrance.gouv.fr/jo_pdf.do?id=JORFTEXT 000000226098 [40] Dossiers Solidarité et santé no 64 de juillet 2015 « Données de santé : anonymat et risque de ré-identification » http://drees.social-sante.gouv.fr/IMG/pdf/dss64-2.pdf [41] Revue Statistique et Société no 4-2014 Présentation des principales techniques d’anonymisation http://statistique-et-societe.fr/issue/view/46 [42] Décision du Conseil d’État du 7 octobre 1998 Annulation de l’arrêté du 27 décembre 1996 portant création du traitement automatisé réalisé à l’occasion du recensement général de la population en 1990 https://www.legifrance.gouv.fr/affichJuriAdmin.do?idTexte= CETATEXT000007994473
6.3 EUROPE ET INTERNATIONAL [43] Principes fondamentaux de la statistique officielle : résolution 68/261 adoptée par l’Assemblée générale des Nations unies le 29 janvier 2014 191
Principaux textes autour du secret statistique
Son principe 6 établit la nécessité de la confidentialité des informations statistiques. https://unstats.un.org/unsd/dnss/gp/FP-New-F.pdf [44] Article 338 du traité sur le fonctionnement de l’Union européenne (ex-article 285 du traité de Rome) Cite la confidentialité des informations statistiques https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri= CELEX:12012E/TXT&from=FR [45] Règlement no 223/2009 du Parlement européen et du Conseil du 11 mars 2009 relatif aux statistiques européennes Son chapitre V définit les règles du secret statistique au niveau européen. http://eur-lex.europa.eu/LexUriServ/LexUriServ.do?uri=OJ:L:200 9:087:0164:0173:fr:PDF [46] Règlement no 557/2013 de la Commission du 17 juin 2013 mettant en œuvre le règlement no 223/2009 du Parlement européen et du Conseil relatif aux statistiques européennes en ce qui concerne l’accès aux données confidentielles à des fins scientifiques et abrogeant le règlement no 831/2002 de la Commission Précise les conditions d’accès aux données européennes à des fins de recherche https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri= CELEX:32013R0557&rid=1 [47] Liste des entités de recherches reconnues par Eurostat Établit la liste des entités reconnues officiellement comme entités de recherche par Eurostat http://ec.europa.eu/eurostat/documents/203647/771732/ Recognised-research-entities.pdf
192
LE SECRET STATISTIQUE
Principaux textes autour du secret statistique
[48] Directive no 95/46/CE du Parlement européen et du Conseil du 24 octobre 1995 relative à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données Fixe le régime de traitement des données à caractère personnel https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri= CELEX:31995L0046&rid=1 [49] Règlement 2016/679 du Parlement européen et du Conseil du 27 avril 2016 relatif à la protection des personnes physiques à l’égard du traitement des données à caractère personnel et à la libre circulation de ces données, et abrogeant la directive 95/46/CE Fixe le régime de traitement des données à caractère personnel et abroge la directive précédente https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri= CELEX:32016R0679&rid=1 [50] Rapport de la revue par les pairs effectuée en France par Eurostat en décembre 2014 Pointe les cas de transmission d’informations confidentielles à la justice et suggère une modification de la loi française (en anglais) http://ec.europa.eu/eurostat/documents/64157/4372828/2015FR-Report/156ad9fd-06eb-4f16-b20e-20cd6d5eb832 [51] Code de bonnes pratiques de la statistique européenne Son principe 5 rappelle la nécessité du secret statistique et fixe six indicateurs. https://www.autorite-statistique-publique.fr/wp-content/ uploads/2018/11/CodeBonnesPratiquesStatEuroNov2017.pdf [52] Directive 2003/4/CE du Parlement européen et du Conseil du 28 janvier 2003 concernant l’accès du public à l’information en matière d’environnement et abrogeant la directive 90/313/CEE du Conseil 193
Principaux textes autour du secret statistique
Fixe les conditions d’accès aux données sur l’environnement https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri= CELEX:32003L0004&rid=1 [53] Règlement (CE) no 2533/98 du Conseil du 23 novembre 1998 concernant la collecte d’informations statistiques par la Banque centrale européenne Définit le régime de collecte d’informations statistique par la Banque centrale européenne https://eur-lex.europa.eu/legal-content/FR/TXT/PDF/?uri= CELEX:31998R2533&rid=1 [54] Statistique Canada Comment avoir accès aux microdonnées https://www.statcan.gc.ca/fra/aide/microdonnee [55] Pays-Bas : Bureau central des statistiques (CBS) Accès aux données individuelles (en anglais) www.cbs.nl/en-gb/our-services/customised-services-microdata/ microdata-conducting-your-own-research [56] Royaume-Uni : Office for national statistics Accès aux données individuelles https://www.ukdataservice.ac.uk/ [57] Tunisie Lois et décrets relatifs à l’Institut national de la statistique http://www.ins.tn/sites/default/files/Lois_Decrets-fr.pdf 6.4 SITES [58] Insee Secret statistique et protection des données https://www.insee.fr/fr/information/1300624 194
LE SECRET STATISTIQUE
Principaux textes autour du secret statistique
[59] Comité du secret statistique Informations générales sur le Comité https://www.comite-du-secret.fr/ [60] Conseil national de l’information statistique Concertation entre les producteurs et les utilisateurs de la statistique publique https://www.cnis.fr/ [61] Autorité de la statistique publique Veille à l’indépendance de la statistique publique http://www.autorite-statistique-publique.fr/asp/ [62] Adisp Diffusion d’enquêtes et de bases de données produites par l’Insee et plusieurs SSM https://www.cmh.ens.fr/greco/adisp.php
195
INDEX
A activité économique 45,47, 49, 50, 81, 91, 96 Adisp (Archives de données issues de la statistique publique) 115, 131, 132 appariements 82, 100, 122, 127, 150 archives 41, 42, 43, 51, 53, 55, 56, 116, 117, 119, 133, 143, 153 et sq. ARS (Agences régionales de la Santé) 147 aversion 66
B Banque de France 152, 158, 160
C Canada 23, 120, 121, 166, 167 cartographie 102 carroyage 102, 103 CASD (Centre d’accès sécurisé aux données) 123 et sq., 134, 142, 144, 164, 165, 172, 173 Cerees (Comité d’expertise pour les recherches, les études et les évaluations) 151, 157, 160
chiffre d’affaires 44, 45, 48, 50, 81 Cnaf (Caisse nationale d’allocations familiales) 154 Cnav (Caisse nationale d’assurance vieillesse) 80, 154 Cnil (Commission nationale de l’informatique et des libertés) 53, 54, 56, 68, 69, 78, 79, 80, 97, 98, 103, 148, 15, 152, 157, 159, 160 Cnis (Conseil national de l’information statistique) 44, 45, 50, 55, 57, 76 et sq., 102et sq., 160, 187 code de bonnes pratiques 37, 63, 164, 165, 193 code de procédure pénale 34, 35, 36, 41, 44, 58 collectivités territoriales 51, 54, 136, 174 comité du secret statistique 31, 41, 44, 46, 50, 51, 77, 78, 105, 109 et sq., 116, 118, 119, 124, 125, 132 et sq., 143, 144, 154 et sq., 165, 169, 186 consultation 43, 111, 145, 152, 153, 154, 155, 156 CVS (enquête Cadre de vie et sécurité) 34
Est indiqué en gras les pages où le mot référencé fait l’objet d'un paragraphe spécifique. 197
INDEX
D
I
dérogation 33, 36, 44, 45, 48, 49, 52, 55, 136, 137, 138, 153 dominance 49, 50, 76, 77 données administratives 22, 57, 58, 80, 108, 111, 127, 137, 173, 174 données agrégées 22, 50, 75, 76, 77, 78, 79, 102, 108, 124, 173 durée de non-communication 42, 43, 53
informatique et libertés (loi) 20, 54, 66, 71, 72, 78, 79, 83, 98, 133, 146, 147, 149, 150, 151, 157 Insee 22, 25, 34, 35, 45, 46, 49 et sq., 53, 55, 57, 58, 60 et sq., 77 et sq., 96, 98, 101 et sq., 111 et sq., 123, 124, 128, 130, 133, 136 et sq., 159, 165 Iris 79, 80, 81, 100 et sq.
E échantillon 15, 36, 90, 93, 94, 114, 119, 148 effectifs 44, 49, 74, 78, 81 environnement 105, 106, 121, 136, 174 Eurostat 37, 120, 163, 164
F fichier à usage scientifique 163 fichier à usage sécurisé 164 fichier-détail 113, 114, 178 finalité 22, 52, 54, 98, 115, 125, 140, 143, 144, 151, 155 fiscal (secret) 57, 103, 135, 137, 138, 142, 145, 158, 159 FPR (fichiers de production et de recherche) 114, 124, 173
G Genes (Groupement des écoles nationales d’économie et de statistique) 123, 124, 134, 145, 146 groupe d’entreprises 50, 77, 78, 79
H hachage 84, 99, 100 198
LE SECRET STATISTIQUE
K k-anonymat 85, 88, 90
L l-diversité 88, 90 listes nominatives 46, 54
M ménages 27, 28, 30 et sq., 42 et sq., 45, 52, 55, 58, 76, 100, 103, 104, 108, 111, 113, 114, 116, 117, 124, 125, 130, 132, 164, 178
N Nations-Unies 162 NIR (Numéro d’identification au répertoire national informatique des personnes physiques) 83 et sq., 94 et sq., 97 et sq., 128, 129, 150, 159
O obligation 25, 26, 27, 32, 35, 37, 38, 40, 41, 50, 51, 57, 63, 77, 78, 86, 110, 112, 115, 116, 136, 155, 165, 178
P Pays-Bas 23, 123, 166, 171 personne humaine 29, 146, 151, 160
INDEX
PMSI (programme de médicalisation des systèmes d’information) 84, 85, 147, 148 profilage 77, 79
R recensement 28, 36, 41 et sq., 54, 59, 61, 62, 78, 79, 81, 93, 94, 100, 101, 103, 117, 118, 119, 167, 176, 177 regroupements 77, 80, 81, 87, 88, 90 et sq., 104, 105, 113, 114 remote access 122, 171, 173 remote execution 121, 171 RGPD (règlement général sur la protection des données) 20, 84, 146 Royaume-Uni 23, 37, 93, 120, 166, 172, 173 Russie 23, 166, 173, 175, 177
S sanctions 25, 26, 27, 39, 42, 112, 145, 155, 157, 165 santé 23, 57, 97, 108, 117, 118, 146 et sq., 156 et sq., 167 SD-Box 127 secret des affaires 19, 144, 164 serment 63, 169
Sirene (Système informatique pour le répertoire des entreprises et des établissements) 29, 45, 49, 50 SIREN (Système d’identification du répertoire des entreprises) 27, 96, 128, 145 Sniiram (Système national d’information interrégimes de l’assurance maladie) 95, 147 sous-traitance 134 SSM (services statistiques ministériels) 22, 25, 51, 57, 58, 62, 98, 112, 115, 117, 130, 135 et sq., 159, 164, 165
T t-proximité 90 Triris 80, 81 Tunisie 23, 166, 177, 178
U Union européenne 20, 37, 66, 105, 113, 162, 163
V vie privée 19, 20, 21, 30, 78, 79, 81, 111, 130, 135, 144, 155, 164, 166
199