106 43 29MB
French Pages [282]
Les systèmes d'information géographique-2e éd.
Claire Cunty Paule-Annick Davoine
Les systèmes d’information géographique
Dans la même collection ••Baudelle Guy, Géographie du peuplement, 2022, 4e édition. ••Béguin Michèle et Pumain Denise, La représentation des données géographiques. Statistique et cartographie, 2023, 4e édition. ••Blanchard Sophie, Estebanez Jean et Ripoli Fabrice, Géographie sociale. Approches, concepts, exemples, 2021. ••Boulay Guilhem et Grandclément Antoine, Introduction à la géographie économique, 2019. ••Ciattoni Annette et Veyret Yvette, Les fondamentaux de la géographie, 2018, 4e édition. ••David Olivier, La population mondiale. Répartition, dynamique et mobilité, 2020, 4e édition. ••Desjardins Xavier, L’aménagement du territoire, 2021, 2e édition. ••Feuillet Thierry, Cossart Étienne et Commenges Hadrien, Manuel de géographie quantitative. Concepts, outils, méthodes, 2019. ••Giband David, Delage Aurélie, Mary Kevin, Nafaa Nora, Géographie de l’éducation, 2023. ••Godard Alain et Tabeaud Martine, Les climats, 2009. ••Grataloup Christian, Introduction à la géohistoire, 2023. ••Guinard Pauline, Géographies culturelles. Objets, concepts, méthodes, 2019. ••Humain-Lamoure Anne-Lise et Laporte Antoine, Introduction à la géographie urbaine, 2022, 2e édition. ••Louchet André, Les océans. Bilan et perspectives, 2015. ••Louiset Odette, Introduction à la ville, 2011. ••Morange Marianne et Schmoll Camille, Les outils qualitatifs en géographie. Méthodes et applications, 2016. ••Pumain Denise et Saint-Julien Thérèse, Analyse spatiale. Les interactions, 2010, 2e édition. ••Pumain Denise et Saint-Julien Thérèse, Analyse spatiale. Les localisations, 2010, 2e édition. ••Reghezza-Zitt Magali, La France dans ses territoires, 2017, 2e édition. ••Tiano Camille et Loizzo Clara, Le commentaire de carte topographique. Méthodes et applications, 2022, 2e édition. ••Tiano Camille et Loizzo Clara, Croquis et schéma de géographie. Réussir les épreuves aux concours et examens, 2022, 2e édition. ••Veyret Yvette, Laganier Richard et Scarwell Helga-Jane, L’environnement. Concepts, enjeux et territoires, 2017. ••Zanin Christine et Lambert Nicolas, Manuel de cartographie. Principes, méthodes, applications, 2016.
Christina Aschan-Leygonie Claire Cunty Paule-Annick Davoine
Les systèmes d’information géographique Principes, concepts et méthodes 2e édition
Conception de couverture : Hokus Pokus créations Image de couverture : Christina Aschan-Leygonie, Claire Cunty, Paule-Annick Davoine ; Source : BD Alti®/IGN et Open Data de la Métropole de Lyon Maquette intérieure : Raphaël Lefeuvre Mise en pages : Belle Page Réalisation des figures : Cyrille Suss et Claire Cunty
© Armand Colin, 2019, 2023 Armand Colin est une marque de Dunod Éditeur, 11 rue Paul Bert, 92240 Malakoff
www.dunod.com
ISBN : 978‑2‑200‑63798‑9
Sommaire Introduction
9
1. De la « réalité » du terrain à l’information géographique dans les SIG 13 1. Construire un modèle spatial de la « réalité » du terrain 14 1.1 Des données à l’information géographique 15 1.2 Phénomènes géographiques continus, discrets, en réseau 16 1.3 La traduction du monde réel par une sélection de l’information géographique 18 1.4 La notion de couche d’information géographique thématique 20 1.5 La modélisation numérique de l’information géographique 21
2. Deux modes de représentation en deux dimensions 2.1 Le mode raster 2.2 Le mode vecteur
3. La structuration de l’information géographique 3.1 Le modèle vecteur non topologique 3.2 Le modèle vecteur topologique 3.3 Le réseau, un modèle vecteur particulier intégrant la topologie
2. Fondamentaux de l’information géographique 1. Les systèmes de coordonnées 1.1 Les systèmes de coordonnées géographiques 1.2 Les systèmes de coordonnées projetées 1.3 Les systèmes de coordonnées dans les SIG
22 24 26 33 35 37 39 45 46 47 52 59
2. La troisième dimension de l’information géographique 63 2.1 La troisième dimension dans les jeux de données géographiques 63 2.2 La modélisation de surfaces de terrain 65 2.3 La modélisation d’objets discrets avec une géométrie tridimensionnelle 70
3. Les relations des objets dans l’espace : la topologie 3.1 Les relations topologiques 3.2 Les opérateurs topologiques
4. La distance entre les objets géographiques : une notion fondamentale 4.1 Les types de distances dans les SIG 4.2 La prise en compte des relations de distances dans les analyses
72 73 74 81 82 94
3. Intégration de données géographiques dans les SIG 101 1. Mobiliser des jeux de données géographiques existants 103 1.1 Les sources et fournisseurs d’information géographique 103 1.2 Les données ouvertes ou l’Open Data 105 1.3 Les services Web géographiques pour accéder à l’information géographique 108 1.4 Les métadonnées pour caractériser, comprendre et échanger l’information géographique 110
2. Intégrer et créer des jeux de données géographiques dans un SIG 2.1 Intégrer l’information géographique en mode vecteur 2.2 Intégrer l’information géographique en mode raster
3. Convertir des jeux de données 3.1 La rastérisation 3.2 La vectorisation
4. Stocker des jeux de données géographiques : les formats informatiques 4.1 Stocker des jeux de données raster 4.2 Stocker des jeux de données vecteur 4.3 Stocker des jeux de données vecteur et raster : le format Geopackage
5. SIG et bases de données
113 114 124 130 130 132 133 133 140 145
146 5.1 Les systèmes de gestion de bases de données relationnels (SGBDR) 146 5.2 Les systèmes de gestion de bases de données géographiques 150 5.3 Connexions entre SIG et systèmes de gestion de bases de données 152
6
Les systèmes d’information géographique
4. Visualisation, interrogation et enrichissement de l’information géographique 1. Visualiser l’information géographique
155 156 156
1.1 Organiser les données dans un document cartographique 1.2 Naviguer à travers les données géographiques – les jeux de données à l’écran 1.3 Personnaliser l’affichage
158 159
2. Enrichir sémantiquement l’information géographique 2.1 Enrichir des jeux de données vecteur 2.2 Enrichir des jeux de données raster
3. Interroger et sélectionner l’information géographique 3.1 Les principes généraux d’interrogation des données 3.2 Les critères d’interrogation des données
4. Communiquer l’information géographique
5. Traitements spatiaux de l’information géographique 1. Agréger des entités ou des cellules d’un même jeu de données géographiques 1.1 Pourquoi agréger des entités ou des cellules ? 1.2 Agréger spatialement des entités d’un jeu de données vecteur 1.3 Agréger spatialement des cellules d’un jeu de données raster
2.1 Extraire/découper 2.2 Créer des zones tampons 2.3 Créer une enveloppe convexe ou concave autour d’entités vecteur
172 172 174 180 181 182 183 187 188 189 190
4.1 La sélection de l’information à représenter 4.2 La généralisation des tracés 4.3 La cartographie de l’information thématique 4.4 La cartographie lissée 4.5 Les affichages graphiques et les résumés statistiques 4.6 La construction d’un document cartographique 4.7 La gestion des étiquettes
2. Délimiter une partie d’un jeu de données géographiques
162 162 170
193 194 195 196 199 200 201 203 207
Sommaire
7
3. Combiner des jeux de données géographiques 3.1 Combiner la géométrie de jeux de données vecteur 3.2 Combiner des jeux de données raster 3.3 Combiner des jeux de données raster et vecteur
4. Le schéma de traitements 6. Aperçu de l’analyse spatiale avec les SIG 1. Analyses intégrant la distance 1.1 Aires d’attraction 1.2 Autocorrélation spatiale, analyses de concentration et interpolation spatiale
2. Analyses de surface 2.1 Les analyses de pente, de profil, d’exposition et de volume 2.2 Les analyses de visibilité 2.3 Les analyses hydrologiques
3. Analyse spatiale multicritère 3.1 Démarche d’analyse spatiale multicritère dans un SIG 3.2 Analyse multicritère et types de critères : « contraintes » ou « facteurs »
Bibliographie Table des figures Table des sigles Index Remerciements
8
Les systèmes d’information géographique
209 209 220 221 223 229 231 232 240 248 248 250 252 253 255 258 263 265 271 273 281
Introduction L’information géographique prend aujourd’hui une ampleur croissante, aussi bien en termes de volume que de disponibilité. Elle est au cœur de la géographie, l’aménagement, l’environnement, l’urbanisme, mais s’étend à de nombreux autres domaines ou activités économiques. La production de données géographiques s’est largement démocratisée en raison notamment des dispositifs mobiles dotés de systèmes de géolocalisation. La dimension spatiale s’invite donc dans la description et l’analyse de nombreux phénomènes, qu’ils soient environnementaux, territoriaux, économiques, sociétaux, historiques, etc. Elle se concrétise à travers des représentations cartographiques, comme en témoignent les nombreuses productions du Web. Les finalités de la carte sont aujourd’hui largement reconnues : localisation d’objets, de phénomènes, voire d’information ; mise en évidence des phénomènes spatialisés et révélation du fonctionnement de systèmes spatiaux ; contribution à la prise de décision territoriale… Cependant, la construction cartographique passe au préalable par des étapes de modélisation, d’acquisition, de transformation, de combinaison, de traitements statistiques et d’analyse de l’information géographique, qui peuvent être plus ou moins complexes selon les objectifs fixés. C’est notamment pour faciliter toutes ces étapes, et plus largement pour aider à la gestion des territoires, qu’ont été développés à partir des années 1960 les SIG (systèmes d’information géographique). D’un point de vue fonctionnel, les SIG permettent l’acquisition, le stockage, l’interrogation, le traitement, l’analyse et la visualisation de données géographiques. Ils se distinguent des autres systèmes d’information par leur capacité à gérer des informations relatives à des objets ou des phénomènes localisés à la surface de la Terre. Ils permettent de traiter une série de questions liées à la localisation (Que trouve-t-on à tel endroit ? Où se situe tel phénomène ?), à la répartition spatiale des phénomènes et aux liens et interactions spatiales qui peuvent exister entre eux (À quelle distance est situé le lieu le plus proche ?), à leur
évolution dans l’espace en fonction du temps (Où se situent les changements ? À quels moments se sont-ils produits ?), etc. Au fil des années, les SIG se sont imposés comme des outils indispensables à la compréhension et la gestion des territoires. Ils sont devenus plus facilement accessibles avec le développement de logiciels SIG bureautiques commerciaux et la montée en puissance de logiciels et librairies informatiques libres de gestion et de traitement de l’information géographique. Souvent simplement vus comme des outils logiciels, ils doivent être envisagés dans une dimension plus large de projet, dans lequel l’information géographique est mobilisée, produite, traitée et analysée avec des méthodes spécifiques pour répondre à un questionnement ayant une dimension spatiale. Ces projets peuvent concerner aussi bien des productions cartographiques (atlas cartographiques, cartes de synthèse et analytiques, documents d’urbanisme ou de planification territoriale, etc.), que la gestion et le partage de données dans des contextes variés (gestion des risques, urbanisme opérationnel, suivis environnementaux, etc.). Dans ces projets se pose toujours la question des caractéristiques de l’information géographique, de son traitement et de son analyse pour répondre aux objectifs définis. Cet ouvrage pédagogique porte sur les principes, concepts et méthodes communs à différents contextes (institutionnels, logiciels, disciplinaires…) de mise en œuvre de projets SIG. Il est le fruit de nombreuses années d’enseignement sur l’information géographique numérique, les SIG, les systèmes de gestion de bases de données, l’analyse spatiale, la cartographie et les statistiques, essentiellement pour des étudiants en géographie et aménagement et en école d’ingénieurs. Nous avons la conviction que la connaissance et la maîtrise des SIG ne doivent pas être subordonnées à l’apprentissage d’un logiciel, qui n’est qu’un aspect des SIG. Les logiciels SIG sont aujourd’hui très performants, mais parfois sous-exploités, notamment par manque de formation théorique et méthodologique. La formation sur les SIG s’effectue généralement au travers de l’apprentissage d’un logiciel spécifique, comme en témoigne par exemple la diversité des ressources pédagogiques disponibles sur le Web qui leur sont dédiées. Ce type d’apprentissage permet aux étudiants certes de produire des résultats, mais sans toujours connaître les tenants et les aboutissants des méthodes mobilisées pour les obtenir. Cette approche est peu propice à un usage efficace de l’information géographique, à une bonne connaissance des potentialités des SIG ou encore à l’adaptation de l’utilisateur aux évolutions technologiques offertes par la géomatique. 10
Les systèmes d’information géographique
L’objectif de l’ouvrage n’est donc pas de former le lecteur à l’utilisation d’un logiciel dédié, mais de lui permettre de s’approprier les principes des SIG, d’acquérir une connaissance et une compréhension des notions et des méthodes clés. Nous pensons donc que le déploiement informatique d’un projet SIG est relativement aisé à partir du moment où l’utilisateur a une solide connaissance des phénomènes géographiques (natures, structures, interactions), de la façon de les formaliser numériquement, et de la démarche à mettre en œuvre pour résoudre un problème géographique. Par ailleurs, le développement des projets SIG s’appuie sur des concepts, des principes et des méthodes issus des systèmes de bases de données, de l’analyse statistique, de l’analyse spatiale, de la cartographie. Pour utiliser de manière correcte et efficace les SIG, il est nécessaire d’avoir des connaissances dans ces domaines qui ne sont pas présentés de manière approfondie dans cet ouvrage, mais pour lequel le lecteur trouvera au cours du texte des références utiles. Ce manuel s’adresse à un public non spécialisé en science de l’information géographique (ou géomatique). Il est avant tout écrit pour des étudiants de licence ou master de géographie et aménagement, discipline académique qui a les plus forts liens avec les SIG. Cependant, l’ouvrage s’adresse aussi à d’autres publics : étudiants d’autres disciplines ; enseignants, chercheurs, techniciens, ingénieurs ou tout autre professionnel souhaitant se former aux SIG ou approfondir ses connaissances dans ce domaine. Il est organisé en six chapitres et a été structuré pour former un tout unifié, mais chaque chapitre peut être lu séparément. Le premier chapitre porte sur la numérisation de l’information géographique : comment l’information géographique modélise-t-elle la réalité du terrain ? Quelles sont ses composantes et comment sont-elles structurées au sein des SIG ? Le deuxième chapitre traite des caractéristiques fondamentales de l’information géographique. Il aborde les systèmes de coordonnées et la troisième dimension, ainsi que les relations topologiques et de distances liées à la position relative des objets géographiques. Le troisième chapitre approfondit les méthodes d’intégration de données dans les SIG. Celles-ci sont variées : importation ; géocodage ; création et transformation de jeux de données géographiques. Il présente aussi les modalités d’échanges de données dans le contexte de l’Open Data et les différents formats informatiques utilisés pour stocker et gérer les jeux de données géographiques. Introduction
11
Le quatrième chapitre présente les fonctionnalités premières et fondamentales des SIG, qui sont systématiquement les plus mobilisées lors de la réalisation d’un projet, quelles que soient sa finalité et son ampleur : visualisation, enrichissement sémantique, interrogation des données, réalisation d’un document cartographique. Le cinquième chapitre décrit les principaux traitements spatiaux, appelés aussi géotraitements, proposés dans les SIG. Ces traitements sont très variés et permettent notamment de transformer des jeux de données ou d’en extraire des sous-ensembles en mobilisant des méthodes variées. L’enchaînement de différents traitements dans un projet SIG se traduit par un schéma de traitements. Le sixième chapitre est dédié à une présentation des méthodes d’analyse spatiale les plus fréquemment mobilisées dans un projet SIG. Celles-ci préexistent aux SIG et s’appuient sur des fondements théoriques forts, qui font déjà l’objet d’ouvrages dont nous recommandons la lecture pour comprendre et maîtriser les enjeux géographiques et méthodologiques qui sous-tendent leurs mises en œuvre. Il n’existe pas véritablement de consensus sur l’ensemble des termes associés aux SIG et nous avons fait des choix de termes qui sont toujours explicités dans le texte. Par ailleurs, les méthodes et fonctionnalités abordées sont systématiquement appliquées aux données en mode vecteur et en mode raster. Enfin, les illustrations sont des éléments fondamentaux de cet ouvrage, elles sont souvent accompagnées d’exemples pour faciliter la compréhension via des cas d’application. Plusieurs éléments pédagogiques et rubriques communs à chaque chapitre sont proposés pour aider le lecteur à tirer le meilleur parti de cet ouvrage : -- Les objectifs d’apprentissage sont précisés au début de chaque chapitre. -- Les Focus permettent d’approfondir certaines questions. -- Les erreurs à éviter mettent en garde sur des éléments qui posent fréquemment des problèmes, comme nous avons pu le constater dans nos expériences d’enseignement. -- Un pas de côté est proposé dans la rubrique « Le saviez-vous ? ». -- Les définitions permettent de poser le vocabulaire utilisé. -- Les notions à maîtriser, classées par thématiques, qui concluent chaque chapitre, permettent de rassembler le vocabulaire spécifique au domaine. -- Des questions pour réviser sont proposées en fin de chapitre. 12
Les systèmes d’information géographique
Chapitre 1 De la « réalité » du terrain à l’information géographique dans les SIG Objectifs
• Comprendre la nécessité de conceptualiser le monde réel pour le numériser et le traduire en information géographique. • Distinguer les phénomènes géographiques continus et discrets. • Comprendre la différence entre donnée et information géographique. • Connaître les principes de modélisation et de structuration de l’information géographique dans un SIG. • Comprendre la structuration topologique des données en mode vecteur.
Trois étapes sont nécessaires pour passer du monde réel à sa représentation numérique. La première étape suit une démarche d’abstraction, au cours de laquelle sont identifiés les différents phénomènes géogra-
phiques observés sur le terrain que l’on souhaite représenter dans le SIG pour mener à bien les analyses. La deuxième étape consiste à choisir le modèle de données à travers lequel les données peuvent être stockées, affichées et analysées : c’est la modélisation numérique. Dans la troisième étape, il s’agit de voir comment les relations entre les unités d’observation du phénomène peuvent être structurées et formalisées.
1. Construire un modèle spatial de la « réalité » du terrain Le terrain est vu par un observateur qui interprète ce qu’il voit et catégorise l’information, souvent de façon inconsciente. Le passage de la « réalité » (sans rentrer dans une controverse philosophique sur ce qu’est la réalité) à son observation, puis à son enregistrement sous forme numérique pour pouvoir être intégrée dans un SIG, dépend donc du filtre perceptif de l’observateur. Pour choisir l’information à prendre en compte et à traduire sous forme numérique, l’observateur trie les observations en fonction de ses objectifs, mais aussi en fonction de ses caractéristiques propres (sa culture, ses connaissances…). Aucune donnée ne doit donc être considérée comme totalement neutre et objective. Il est nécessaire d’en avoir conscience pour interpréter correctement et avec prudence les résultats issus des traitements réalisés par les SIG, sans pour autant s’interdire de les utiliser ! On appelle souvent modélisation1 (voir Focus, p. 21) ce processus d’abstraction de la réalité qui permet de la simplifier pour aider à la comprendre. Ce dernier, pour rester cohérent avec la réalité, a pour objectif de décrire non seulement les objets, mais également les relations qui existent entre eux afin de prendre en compte la manière dont l’ensemble des objets s’organise dans l’espace. Ces relations sont liées à leurs positions relatives, décrivant ainsi des propriétés de voisinage, d’inclusion ou d’intersection (voir chapitre 2, p. 72).
1. Le terme de représentation est aussi souvent utilisé, mais nous préférons ne pas l’employer afin de ne pas créer de confusion avec la représentation cartographique au sens de la visualisation des données sur une carte.
14
Les systèmes d’information géographique
1.1 Des données à l’information géographique Pour comprendre ce que signifie l’information géographique, il est utile de partir du terme de « donnée localisée » (également appelée « donnée géographique » ou « donnée spatiale »). Toute donnée qui se réfère à une localisation, via des coordonnées géographiques (voir chapitre 2, p. 46), un nom de lieu ou une adresse, peut être considérée comme une donnée géographique. Les données localisées peuvent être obtenues par une mesure (exemple : bruit), une imagerie satellite (exemple : occupation du sol), un inventaire (exemple : commerces), un recensement (exemple : population), une enquête (exemple : déplacements), etc. Les méthodes d’acquisition et de création des données, en vue d’une utilisation dans un SIG, ainsi que les principales sources de données sont décrites dans le chapitre 3. Il est fréquent de distinguer donnée et information, bien que les deux termes soient souvent utilisés de façon interchangeable. Nous pouvons considérer que les données recueillies sont transformées en informations géographiques lorsqu’elles sont intégrées dans un contexte et qu’elles prennent alors une signification particulière, qu’elles sont interprétées par rapport à une question donnée. Illustrons par un exemple la distinction entre donnée et information géographique : les membres d’une équipe de recherche sont mandatés pour proposer des actions pour adapter un territoire au changement climatique. Trois chercheurs relèvent les températures de l’air sous couvert forestier et hors couvert forestier et effectuent des entretiens avec les habitants pour recueillir leur ressenti de la température dans différents lieux. Les résultats obtenus sont transcrits dans des tableaux ; ce sont les données. Ces données, exprimées sous la forme de nombres ou de texte, n’ont pas de signification particulière en elles-mêmes. Pour les rendre utiles et les transformer en information géographique, il est nécessaire de préciser le contexte de l’étude et les méthodes de recueil des données. Elles doivent également être accompagnées de leurs unités de mesures et de leur localisation. Ces précisions sont généralement fournies dans ce qui est appelé « métadonnées », c’est-à-dire des données décrivant les données (voir chapitre 3, p. 110).
De la « réalité » du terrain à l’information géographique dans les SIG
15
1.2 Phénomènes géographiques continus, discrets, en réseau Les phénomènes géographiques du monde réel sont classiquement décomposés en phénomènes de natures continue ou discrète. À cette distinction on peut ajouter une catégorie supplémentaire, celle des réseaux. Un phénomène géographique est considéré comme continu si les données observées pour le caractériser sont mesurables en tout point de l’espace. Les phénomènes météorologiques (température, pression, etc.), atmosphériques (composition chimique de l’air, caractéristiques aérobiologiques, etc.), pédologiques (humidité, taux de salinité, pH, etc.) sont des phénomènes continus dans l’espace. Les phénomènes continus relèvent surtout du domaine de l’environnement physique, et sont généralement caractérisés par des variations graduelles dans l’espace. Les données qui les caractérisent sont souvent issues de mesures échantillonnées. La température, par exemple, peut être mesurée par des capteurs localisés dans des lieux représentatifs de certains types d’environnements. Afin d’avoir une donnée de température mesurée par des capteurs sous une forme continue, on procède à une estimation (par interpolation entre les capteurs de mesure, voir chapitre 6 p. 240) des valeurs prises dans les lieux où aucune mesure n’a été effectuée. Cette interpolation s’appuie sur une grille régulière, chaque valeur de température étant affectée à une maille de cette grille (figure 1.1). Les phénomènes continus peuvent également être directement enregistrés de manière continue dans l’espace par télédétection. Ces capteurs, portés par des satellites par exemple, peuvent enregistrer des températures (capteurs infrarouges thermiques), mais aussi d’autres types d’information, tels que le relief ou encore la réflectance d’une surface, dont on peut par exemple déduire l’occupation du sol. Ces données vont être enregistrées au sein d’une grille avec une maille régulière.
16
Les systèmes d’information géographique
Figure 1.1 : De la mesure ponctuelle échantillonnée de phénomènes continus à son interpolation Points de mesure de la température • 5,3
2,8
•
ASCHAN, CUNTY, DAVOINE, 2019
• •
Représentation continue de la température • 3,2
2,8
4 •
4,2 •
•
3,3
• •
4,3
•
•
1,9
3
4,1 •
2,2
4,5 station météo, température en degré 2
2,5
3
3,5
4
4,5
5
5,5
6
Températures minimales enregistrées au cours du mois de mars
Un phénomène géographique est considéré comme discret si les éléments qui le constituent sont clairement délimités dans l’espace. Ces éléments ou unités d’observation constituent des objets géographiques et disposent chacun de caractéristiques spécifiques, comme des espaces verts en milieu urbain, caractérisés chacun par une taille, une fonction. Certains phénomènes discrets couvrent l’ensemble de l’espace, c’est le cas des mailles administratives (départements ou communes par exemple). Ces dernières ne peuvent pas pour autant être assimilées à un phénomène continu. Chaque entité administrative correspond à un objet délimité dans l’espace et caractérisé par sa superficie, sa population, son budget, etc. Les réseaux sont des objets géographiques spécifiques. Clairement délimités dans l’espace comme les phénomènes géographiques discrets, ils ont la spécificité d’être organisés par des connexions entre les différents objets qui les constituent : un réseau hydrographique est constitué de cours d’eau qui sont connectés les uns aux autres et dont l’étude a peu de sens si on ne prend pas en compte ces connexions. Pour les phénomènes géographiques précédemment exposés, le monde est souvent observé comme un espace plan (et plat) en deux dimensions. Or le monde réel est en trois dimensions, et les phénomènes géographiques doivent être également observés en trois dimensions (voir chapitre 2, p. 63). Il s’agit alors de prendre en compte non seulement l’emprise au sol, mais aussi le volume de l’espace continu (exemple : relief) ou de l’objet géographique considéré (exemple : hauteur d’un bâtiment). De la « réalité » du terrain à l’information géographique dans les SIG
17
1.3 La traduction du monde réel par une sélection de l’information géographique Pour chaque problème traité, les différentes composantes du monde réel sont plus ou moins importantes et pertinentes. La première opération nécessaire consiste à sélectionner l’information. L’exemple d’une étude de la propagation du phytoplasme du Stolbur, une bactérie qui provoque le dépérissement de plantes de lavande, et dont le vecteur de transmission est un insecte, permet d’illustrer ces propos. Pour cette étude, la localisation, la taille des parcelles de lavande et les espèces de lavande cultivées sont des informations centrales. C’est aussi le cas de la répartition des différents écosystèmes sur le territoire, qui sont plus ou moins favorables à la présence des espèces d’insectes transmettant la bactérie. En revanche, le réseau des pylônes et câbles électriques présents sur le territoire est une information peu importante pour cette étude (figure 1.2). Dans cette phase de conception de l’information géographique, il est important de considérer le niveau de précision avec lequel représenter les objets introduits dans le SIG. Dans le cas de l’étude de la propagation de la maladie de la lavande, les parcelles de lavande pourront être considérées comme des objets graphiques surfaciques, prenant la forme des parcelles. En revanche, pour comprendre le phénomène de diffusion de la maladie à plus petite échelle, par exemple dans le sud de la France, les parcelles touchées par la maladie seront plutôt représentées comme des objets graphiques ponctuels.
18
Les systèmes d’information géographique
Figure 1.2 : Du monde réel à sa modélisation
De la « réalité » du terrain à l’information géographique dans les SIG
19
1.4 La notion de couche d’information géographique thématique Pour faciliter la compréhension du monde réel, celui-ci est décomposé en thèmes. Les éléments constitutifs d’un territoire sont ainsi pensés en « couches » d’information géographique de façon thématique : couche des routes, des écoles, des communes, des bâtiments, du relief, de la qualité de l’air, de l’occupation du sol… La superposition des couches permet de reconstituer un modèle du territoire (figure 1.3). Figure 1.3 : Superposition de couches de thèmes différents Écoles
Routes principales
Communes
ASCHAN, CUNTY, DAVOINE, 2023
Relief
Fig. 03, chapitre 1 – Couches _ Themes – (110 x 110 mm) – #1
20
Les systèmes d’information géographique
1.5 La modélisation numérique de l’information géographique Pour être intégrée dans un outil informatique, l’information géographique doit être modélisée sous une forme numérique (voir Focus). Les types d’analyses géographiques possibles dépendront directement de la façon dont le monde réel a été modélisé numériquement. Le choix de telle ou telle modélisation numérique est donc important, même s’il est possible de convertir les données d’un mode vers un autre (voir chapitre 3, p. 130).
• FOCUS : La modélisation
Le terme de modélisation est employé selon différents sens : − Le processus d’abstraction de la réalité, qui permet de la simplifier pour aider à la comprendre, est appelé modélisation en référence au fait que l’on crée un modèle du monde réel. La représentation cartographique offre une modélisation des éléments constitutifs d’un territoire et des phénomènes qui s’y déroulent. − Le processus qui consiste à adapter l’information géographique à un modèle numérique pour l’intégrer dans un outil informatique est également nommé modélisation. Pour le distinguer du premier sens de modélisation, le terme de modélisation numérique est utilisé dans cet ouvrage.
La nature continue ou discrète du phénomène géographique (voir p. 16) influence le plus souvent la façon de réaliser la modélisation numérique. On utilise deux types de modélisations numériques des données en SIG : le mode vecteur et le mode raster. Quelle que soit la façon de modéliser les données sous format numérique, ces données sont dotées de trois composantes : -- géométrique, qui précise la forme et l’extension du phénomène modélisé ; -- de localisation, qui est traduite par des coordonnées X et Y et renseigne sur la position exacte à la surface de la Terre du phénomène modélisé ; -- sémantique, qui traduit des propriétés qualifiant la nature et les caractéristiques du phénomène modélisé. Les phénomènes du monde réel possèdent des propriétés et des caractéristiques qui De la « réalité » du terrain à l’information géographique dans les SIG
21
sont mesurées, qualifiées, estimées et traduites par des indicateurs. Cette composante sémantique est aussi appelée thématique. Ces modes fondamentaux sont aussi à l’origine de modélisations plus spécifiques comme la modélisation en réseaux (voir p. 39) et la modélisation en trois dimensions (voir chapitre 2, p. 63). Pour éviter les erreurs, pensez-y !
La phase de conception et de modélisation est particulièrement importante dans un projet SIG ; une réflexion approfondie en amont de la mise en place du projet permet de gagner beaucoup de temps.
2. Deux modes de représentation en deux dimensions Tous les logiciels SIG ont été conçus pour gérer des données géographiques. Pour cela, ces données doivent être modélisées sous une forme numérique. Deux modes sont utilisées : -- le mode vecteur, qui consiste à décrire la géométrie des entités géographiques à partir de trois formes géométriques élémentaires : des points, des lignes et des surfaces (figure 1.4) ; -- le mode raster, qui consiste à découper l’espace en une grille régulière de cellules de même taille. À chaque cellule est associée une valeur chiffrée qui représente un élément caractéristique du territoire à cet emplacement (figure 1.4).
22
Les systèmes d’information géographique
Figure 1.4 : Modélisation numérique de l’information, mode raster/mode vecteur
Mode raster
Monde réél
Mode vecteur
Zoom sur des objets de la photo (figure 1.2) Latitude
Latitude
Longitude
Point : feuillu
Longitude
Latitude
Latitude
Longitude
Ligne : cours d’eau
Longitude
Latitude
Latitude
Longitude
Surface : verger
Longitude Latitude
Latitude
Longitude
Réseau de routes
Longitude Latitude
+
Longitude
Relief
Longitude
ASCHAN, CUNTY, DAVOINE, 2023
Latitude
Fig. 04, chapitre 1 – mode raster/mode vecteur – (110 x 165 mm) – #1
De la « réalité » du terrain à l’information géographique dans les SIG
23
2.1 Le mode raster Le mode raster (appelé aussi modèle de données raster ou mode matriciel) est utilisé pour représenter les photographies aériennes numériques, les images satellitaires et les cartes papiers numérisées (scannées). Dans ce cas, c’est le mode d’acquisition de la donnée qui implique le mode raster. En dehors de ces supports, le modèle de données raster est surtout approprié pour représenter de façon numérique des phénomènes géographiques continus, tels que le relief ou la température de l’air. Des données en mode raster sont aussi produites à partir de certains traitements et analyses SIG, comme l’interpolation spatiale (voir chapitre 6, p. 237). Le saviez-vous ?
Le mode raster est très utilisé dans le domaine de la télédétection, pour stocker les valeurs numériques des images satellites.
• La composante géométrique et la composante localisation En mode raster, l’espace est découpé en cellules de tailles identiques formant une grille qui couvre l’intégralité du territoire. Ces cellules sont parfois appelées pixels (réduction du terme anglais « picture element »). La succession de cellules contiguës ayant les mêmes valeurs peut être interprétée comme représentant l’étendue et la forme des phénomènes (figure 1.4). Par exemple, plusieurs cellules contiguës correspondant à une occupation du sol de type « arboriculture » dessinent l’étendue d’un verger. Des coordonnées (latitude, longitude) permettent de localiser les données sur la surface de la terre (figure 1.4). La localisation de chaque cellule dans l’espace de représentation est définie par ses coordonnées (latitude et longitude). Le degré de précision dans la localisation, l’étendue et la forme des phénomènes sont liés à la résolution de la grille (voir Focus), définie par la taille des cellules.
24
Les systèmes d’information géographique
• FOCUS : Résolution en mode raster
La résolution de données en mode raster définit le niveau des détails visibles dans l’image. Plus le nombre de cellules utilisées pour représenter le terrain en mode raster est élevé, plus il y aura de détails visibles car la taille des cellules est petite (figure 1.5). On parle de haute résolution lorsque l’unité d’observation est précise, c’est-à-dire lorsque la taille de la cellule est petite. Il est nécessaire de choisir une résolution ni trop haute, pour éviter d’avoir un volume et une diversité d’informations trop importante, ni trop basse, pour éviter une trop grande simplification. Plus la résolution est élevée, plus le poids du fichier (en octets) est important. Figure 1.5 : La résolution en mode raster
1 cellule = 1m x 1m =1m²
1 cellule = 2m x 2m = 4m²
Latitude
Latitude
1 cellule = 4m x 4m = 16m² ASCHAN, CUNTY, DAVOINE, 2019
Latitude
Longitude
Haute résolution Poids du fichier (en octets) élevé
Longitude
Longitude
Basse résolution Poids faible
• La composante sémantique À chaque cellule de la grille est associée une valeur alphanumérique, souvent appelée attribut. Cette valeur peut correspondre à une mesure (exemple : concentration de dioxyde d’azote dans l’air), une valeur numérique enregistrée par un capteur porté par un satellite (exemple : température au sol, altitude), un code (exemple : catégorie d’occupation du sol, nature du substrat rocheux), un indicateur (exemple : indice de végétation, indice d’accessibilité, valeur de pente) ou à une valeur de niveau de gris ou de couleur d’une image scannée (carte topographique ancienne, comme la carte de Cassini ou d’état-major – figure 1.6a). En mode raster, la composante sémantique est systématiquement associée à chaque cellule, puisque chacune prend une valeur et une seule (figure 1.6b). Cette valeur sera toujours de même format numérique (majoritairement des nombres entiers ou réels) (voir Focus, p. 31-32). De la « réalité » du terrain à l’information géographique dans les SIG
25
Les données stockées en format numérique de type « réel » correspondent majoritairement à des phénomènes continus dans l’espace géographique et demandent plus d’espace de stockage informatique (taille des fichiers en octets). Les logiciels SIG offrent la possibilité d’afficher un tableau récapitulatif qui donne le nombre de cellules correspondant à chaque valeur (figure 1.6c). Ce tableau récapitulatif est parfois appelé table attributaire. Figure 1.6 : Composante sémantique en mode raster 232 226 231 240 233 247 228 204 189 186 207 180 134 104 113
b. Grille raster (catégories
66
78
71
48
45
76
65
alphanumérique associée à chaque cellule de la grille
colonnes
lignes
cellule ou pixel Forêt (1)
134 131 97
1
3
3
3
3
1 1
1
3
3
3
1
1
3
3
1
1
1
2
2
1
1
1
1
2
Longitude
Valeur ou
Valeur
Lac (3)
1
13
2
3
3
9
Chaque cellule de la grille et 255 qui traduit le niveau de gris de l’image scannée
d’une grille raster (format standard) 5,5,3 1,3,3,3,3 1,1,3,3,3 1,1,1,3,3 1,1,1,2,2 1,1,1,1,2
ASCHAN, CUNTY, DAVOINE, 2023
a. Image scannée (carte de Cassini)
La première ligne du fichier décrit le nombre de lignes et de colonnes du raster, suivi du nombre de valeurs différentes que peuvent prendre Chaque ligne suivante des cellules d’une ligne séparées par une virgule.
nombre de cellules correspondant à chaque valeur (Count en anglais)
Fig. 06, chapitre 1 – Sémantique Raster – (110 x 96 mm) – #1
2.2 Le mode vecteur
En mode vecteur (appelé aussi modèle de données vecteur), les unités d’observation correspondent à des objets du monde réel (phénomènes géographiques discrets), tels qu’un maillage administratif, un ensemble de bâtiments, un réseau routier. 26
Les systèmes d’information géographique
• La composante géométrique et la composante localisation En mode vecteur, trois types de représentations géométriques sont utilisés pour traduire les objets et phénomènes du monde réel : le point, la polyligne1, le polygone (figure 1.7). Les objets du monde réel peuvent alors être représentés sous la forme d’objets graphiques ponctuels, linéaires ou surfaciques. Un même objet géographique peut être représenté selon différentes géométries en fonction des objectifs de l’étude et de l’échelle d’analyse (voir Focus, p. 28-29). Les objets graphiques ponctuels traduisent des phénomènes géographiques qui sont localisés en un point précis. Des arbres, des écoles, des arrêts de bus peuvent être enregistrés sous la forme d’un point qui correspond à un couple de coordonnées X et Y. On suppose alors que le phénomène ou l’objet géographique ne présente pas de forme géométrique particulière et n’est donc pas caractérisé par une longueur ou une superficie. Il est modélisé uniquement par sa localisation formalisée à travers ses coordonnées (figure 1.7a). Les objets graphiques linéaires sont représentés par une ligne ou une succession de lignes (d’où l’appellation polylignes). Ces lignes sont construites par une série de couples de coordonnées X et Y dans l’ordre de succession des points constitutifs de la polyligne (figure 1.7b). Les liens entre les points sont appelés arcs ou segments de droite. Ils traduisent des phénomènes géographiques dont la forme peut être linéaire, comme des rivières, des routes, des lignes électriques, etc. Un objet graphique de type ligne est composé d’au moins deux couples de coordonnées X et Y et a une longueur mesurable, mais pas de superficie. Les objets graphiques surfaciques sont représentés par une succession de lignes dont les coordonnées de début de la première ligne sont égales aux coordonnées de fin de la dernière ligne formant ainsi un polygone. Ils représentent des objets ou des phénomènes qui sont dotés à la fois d’une longueur (périmètre) et d’une superficie. Des lacs, des parcelles agricoles, des communes sont enregistrés sous la forme de polygones ; le contour du polygone traduit la forme géométrique et l’extension de l’objet représenté (figure 1.7c). 1. On parle souvent de polylignes et non simplement de lignes car, en géométrie, une ligne correspond à une droite passant par deux points seulement.
De la « réalité » du terrain à l’information géographique dans les SIG
27
Figure 1.7 : Point, polyligne et polygone dans le modèle vecteur Y : Latitude (°, Nord)
44,30 2
44,29 1
44,28
a. Points
5,30 5,31 5,32 5,33 5,34 5,35
44,30 44,29
44,26 X : Longitude (°, Est)
Coordonnées (X,Y) (5,31 ; 44,28) (5,34 ; 44,29) (5,33 ; 44,27) (5,35 ; 44,26)
b. Polylignes
44,25 5,30 5,31 5,32 5,33 5,34 5,35
X : Longitude (°, Est)
Ligne n° Coordonnées (X,Y) 1 (5,31 ; 44,28) (5,32 ; 44,29) (5,33 ; 44,28) (5,34 ; 44,29) 2 (5,31; 44,26) (5,33 ; 44,27) (5,35 ; 44,29)
Y : Latitude (°, Nord) 1
44,28 2
44,27 44,26
2
44,27 4
44,25 Point n° 1 2 3 4
1
44,28 3
44,27 44,26
Y : Latitude (°, Nord)
44,29
c. Polygones
44,25 5,30 5,31 5,32 5,33 5,34 5,35
Polygone n° 1 2
Coordonnées (X,Y) (5,31 ; 44,28) (5,31 ; 44,29) (5,32 ; 44,29) (5,31 ; 44,28) (5,33 ; 44,27) (5,34 ; 44,28) (5,35 ; 44,28) (5,35 ; 44,26) (5,34 ; 44,27) (5,33 ; 44,27)
X : Longitude (°, Est)
ASCHAN, CUNTY, DAVOINE, 2023
44,30
Fig. 07, chapitre 1 – Point,ligne, polygone – (110 x 81 mm) – #1
• FOCUS : Généralisation en mode vecteur
Selon l’échelle cartographique, le niveau de détail et de densité d’information dans la représentation des objets géographiques varie : c’est ce que les cartographes appellent la généralisation. La diminution du nombre de points constitutifs des objets graphiques correspond à une généralisation des tracés (figure 1.8a). On parle aussi de généralisation conceptuelle (figure 1.8b). Un même objet géographique pourra être représenté selon différentes géométries. Certains objets géographiques observés de suffisamment près (à grande échelle) ont à la fois une longueur et une superficie. C’est par exemple le cas des établissements scolaires qui vont correspondre à des polygones à grande échelle et à des points à petite échelle.
28
Les systèmes d’information géographique
Figure 1.8 : Généralisation des tracés et généralisation conceptuelle a. Généralisa�on des tracés 21 points
14 points
La�tude
La�tude
7 points ASCHAN, CUNTY, DAVOINE, 2023
La�tude
Longitude
Longitude
Faible généralisation Poids du fichier (en octets) élevé
Longitude
Forte généralisation Poids faible
b. Généralisa�on conceptuelle Objet Grande géographique échelle
Pe�te échelle
Établissement Polygone scolaire
Point
Cours d’eau
Polyligne Les réseaux hydrographiques sont généralement
Polygone
Exemples Tous les collèges d’un département seront représentés par des points. En revanche, dans une étude à l’échelle d’un quar�er, un collège serait représenté par un polygone. représentés sous formes de lignes. Dans des études portant sur la qualité de l’eau, un cours d’eau sera représenté par des surfaces correspondant, par exemple, à l’étendue de son lit majeur.
Fig. 08, chapitre 1 – Généralisation – (105 x 85 mm) – #1
• La composante sémantique
À chaque entité vecteur est associé un ensemble de valeurs alphanumériques, appelées attributs. Par exemple, les parcelles de lavande étudiées dans le cadre d’une étude de la propagation de la bactérie phytoplasme du Stolbur, qui provoque le dépérissement des plantes de lavande, exemple déjà évoqué dans le chapitre 1 (voir p. 18), seront décrites a minima par la présence ou non de la maladie sur la parcelle, la date de la découverte de la présence de la maladie, l’espèce de lavande, le nombre de pieds de lavande sur la parcelle, le nombre de plantes atteintes par la maladie. En mode vecteur, la composante sémantique est stockée sous la forme d’un tableau d’information géographique, appelé couramment table attributaire dans les logiciels SIG. Dans cette table attributaire, chaque ligne correspond à une entité géographique : par exemple, chaque parcelle de lavande correspond à une ligne dans le tableau (figure 1.9a).
De la « réalité » du terrain à l’information géographique dans les SIG
29
Figure 1.9 : Table attributaire en mode vecteur : cas général et cas particulier des entités multi-parties Cas général
Table a�ributaire des parcelles de lavande c. Champ
e. Iden�fiant
La�tude
a. Objet graphique
id L01 L02 L03 L04 L05 L06 L07 L08
Superficie 1670 1680 1420 1140 9970 3690 5340 11630
État sanitaire bon bon bon b. Enregistrement bon bactérie bon bon bon
d. A�ribut
Longitude
Lien entre objet graphique et enregistrement dans la table a�ributaire À chaque objet graphique correspond un enregistrement dans la table a�ributaire.
Cas par�culier : les en�tés mul�-par�es
Plusieurs objets graphiques peuvent correspondre à un seul enregistrement dans la table a�ributaire, on parle alors d’en�tés mul�-par�es (mul�point, mul�ligne, mul�polygone). Table a�ributaire des départements id Département Popula�on 22 Côte d’Armor 135 616 29 Finistère 206 596 56 Morbihan 171 482 Cinq objets graphiques correspondent à un seul et même enregistrement Longitude
ASCHAN, CUNTY, DAVOINE, 2023
La�tude
Fig. 09, chapitre 1 – Table attributaireVecteur– (110 x 83 mm) – #1
Le saviez-vous ?
Parfois les objets graphiques peuvent être composés de plusieurs objets géométriques. Un département peut, par exemple, être constitué de plusieurs polygones : un pour sa partie continentale et d’autres pour les îles rattachées administrativement au département. On parle alors d’objets graphiques multi-parties (figure 1.9 – Cas particulier).
Dans une table attributaire, les lignes sont appelées enregistrements (figure 1.9b), et les colonnes champs attributaires (figure 1.9c) (exemple : superficie, état sanitaire). Ces champs contiennent les attributs qui décrivent chaque objet (figure 1.9d). Chaque enregistrement doit posséder un identifiant unique, c’est-à-dire un code qui permet d’identifier de façon unique l’entité (figure 1.9e).
30
Les systèmes d’information géographique
Définitions
• Entité géographique : représentation d’un phénomène ou d’un élément perceptible du monde réel. Une entité géographique est caractérisée à la fois par sa localisation dans l’espace, ses attributs descriptifs et l’objet graphique décrivant sa forme géométrique. • Objet graphique : représentation géométrique sous la forme d’un point, d’une polyligne ou d’un polygone d’une entité. Par abus de langage, le terme entité est parfois employé pour désigner cet objet graphique, notamment dans les logiciels. • Enregistrement : ligne d’une table attributaire correspondant à une entité. • Champ : colonne de la table attributaire permettant de qualifier une entité. • Attribut : valeur qualifiant un enregistrement pour un champ.
Chaque champ est caractérisé numériquement par le type de valeurs qu’il contient et par sa longueur : on parle alors de format du champ.
• FOCUS : Type de données numériques
Les données attributaires (en mode raster ou vecteur) peuvent être de différents types. La définition du type de données est importante car ce dernier conditionne l’espace de stockage nécessaire pour enregistrer les données (quand d’importants volumes de données sont manipulés, il vaut mieux ne pas gaspiller de la mémoire informatique), et les types de traitements que l’on peut faire sur les données (on ne peut pas faire de calculs sur des données textuelles par exemple). Le type de données est défini pour l’ensemble des attributs d’un champ en mode vecteur et pour l’ensemble des cellules d’une grille en mode raster. En plus du type de données, il est souvent nécessaire de définir la longueur qui correspond au nombre de caractères alphanumériques nécessaires. Les formats utilisés pour stocker les données attributaires sont identiques à ceux que l’on peut rencontrer dans le monde des bases de données en général.
De la « réalité » du terrain à l’information géographique dans les SIG
31
− Le type texte Un champ ou une valeur de cellule de type texte contient généralement des caractères alphanumériques (lettres et chiffres), par exemple le nom d’une commune, une adresse. Parfois les champs texte sont appelés « chaîne » (pour « chaîne de caractères »). En anglais le type texte est appelé « string ». Un champ texte ou une valeur d’attribut de type texte peut aussi contenir des chiffres et dans ce cas le chiffre correspond généralement à un code. Un exemple de code couramment utilisé en France est le code postal. Il est nécessaire de stocker les codes postaux dans des formats de type textuel qui reconnaissent par exemple le code 01500 qui, stocké dans un champ de type numérique, deviendrait 1500. Par convention, dans la plupart des logiciels, les données apparaissent alignées à gauche dans les champs de type texte.
− Les types nombre Les nombres sont stockés dans des types de champs différents selon qu’il s’agit d’entiers (nombres sans décimale) ou de réels (nombres « fractionnels », c’est-à-dire avec décimales). Par convention, dans la plupart des logiciels, les données de type nombre apparaissent alignées à droite dans les champs de type nombre.
oo Le type entier Le type entier permet de stocker uniquement des nombres entiers (exemple : nombre d’habitants). Il demande un espace de stockage informatique réduit.
oo Le type réel Les nombres avec des décimales sont appelés des réels (exemple : superficie, taux, etc.). Le type réel utilise plus de place de stockage informatique. En plus de la longueur du champ (qui correspond au nombre total de chiffres : chiffres entiers + chiffres décimaux), il faut préciser le nombre de décimales.
− Le type date Les données temporelles peuvent être stockées dans des champs de type date.
− La particularité du champ identifiant Le champ identifiant contenu dans les SIG correspond à un code généré automatiquement par les logiciels SIG. Il est parfois nommé FID pour Feature id, c’est-à-dire l’identifiant de l’entité.
32
Les systèmes d’information géographique
Le mode vecteur offre une représentation généralement associée aux phénomènes discrets. Les objets géographiques du monde réel sont représentés aussi bien du point de vue de leur localisation que de leur forme ou de leur taille. Il impose un effort de conceptualisation et de généralisation sur la façon de modéliser l’objet et son niveau de précision (voir Focus p. 28-29). Il peut arriver que des phénomènes continus soient représentés en mode vecteur (par exemple, la base de données européenne d’occupation du sol CORINE Land Cover est diffusée au public en mode raster et en mode vecteur). En général, et c’est le cas pour CORINE Land Cover, il y a eu une transformation pour passer d’un mode raster à un mode vecteur (voir chapitre 3, p. 132), soit pour adapter le modèle de données à des outils d’analyse (voir chapitre 5), soit parce que ce n’est pas l’ensemble du phénomène dans son caractère continu qui est utile à l’analyse, mais les localisations répondant à certaines caractéristiques (exemple : seulement les zones boisées). Pour éviter les erreurs, pensez-y !
• Se poser la question de l’échelle de l’analyse et du niveau de généralisation lors de la recherche ou la création de données : un même objet géographique peut être représenté selon différentes géométries en fonction des objectifs de l’étude et de l’échelle d’analyse ; le niveau de généralisation des objets graphiques en mode vecteur et la résolution en mode raster influencent les résultats des analyses. • Tenir compte de la nature de la donnée et correctement définir le type et la longueur des attributs.
3. La structuration de l’information géographique La structuration des données s’entend ici comme l’organisation des différents objets géographiques au sein des jeux de données. Cette structuration est nécessaire pour élaborer une reconstitution numérique de l’organisation du monde réel, qui doit concerner aussi bien l’agencement des objets modélisés que les relations spatiales qui peuvent exister De la « réalité » du terrain à l’information géographique dans les SIG
33
entre eux (adjacence, proximité, voisinage…). Les différents types de structurations utilisés, en particulier pour des données en mode vecteur, nécessitent une attention particulière. Ils seront développés dans cette dernière partie du chapitre. Définition
On emploie dans cet ouvrage le terme de jeu de données ou jeu de données géographiques pour désigner l’ensemble des entités vecteur ou cellules raster décrivant un phénomène relevant d’un même domaine thématique. Ce terme est préféré ici à celui de couche (voir p. 20) qui dans sa formulation tend à évoquer uniquement la partie graphique d’un jeu de données.
Nous avons vu que la modélisation des données vecteur est basée sur l’utilisation de primitives géométriques que sont le point, la polyligne et le polygone (voir p. 27). La modélisation vecteur renseigne sur la façon dont les objets euxmêmes sont constitués. En revanche, elle ne renseigne pas sur les liens entre ces objets : il n’y a pas d’information sur les liens qui peuvent exister entre des polygones juxtaposés ou entre des polylignes et des polygones qui peuvent se superposer et s’intersecter. Pour pallier ce problème, il est nécessaire d’intégrer numériquement cette organisation des objets graphiques, appelée la topologie. On utilise pour cela un modèle de données vecteur topologique. Définition
La topologie est un des champs de la science mathématique qui s’intéresse aux relations géométriques entre objets. Dans le domaine de l’information géographique, la topologie est l’ensemble des règles qui expriment les relations spatiales entre les objets graphiques en les situant les uns par rapport aux autres. Les relations spatiales élémentaires sont l’inclusion, l’adjacence et l’intersection (voir chapitre 2, p. 73-74).
34
Les systèmes d’information géographique
Tous les projets SIG ne nécessitent pas forcément de connaître la structuration topologique des données vecteur. Il est aussi parfois très long de modéliser les liens topologiques existants dans les jeux de données. De ce fait, ces derniers sont fréquemment structurés sans intégrer de modélisation topologique. On parle alors de modèles de données vecteur non topologiques ou de modèle « spaghetti ».
3.1 Le modèle vecteur non topologique La modélisation non topologique n’intègre que les notions de sommets (points) et d’arcs (segments de droite entre deux points). Ainsi, seule la forme des objets graphiques est identifiable. Les relations topologiques entre les objets graphiques sont seulement implicites à travers la localisation relative des objets les uns par rapport aux autres. Deux lignes se croisent par exemple sans que l’intersection ne soit codée numériquement et intégrée dans le modèle de données de façon explicite. Dans ce type de modèle, chaque objet est défini indépendamment des autres objets : les segments communs à plusieurs polygones sont saisis autant de fois qu’il y a de polygones concernés. Dans ce cas, les relations spatiales sont identifiées par calcul lors des traitements et analyses, via les coordonnées des objets et en fonction de l’opérateur topologique utilisé (voir chapitre 2, p. 74). L’intérêt du modèle non topologique est qu’il est facile à construire, à utiliser et à mettre à jour. En revanche, il possède des inconvénients majeurs. Dans un modèle non topologique, les objets graphiques contiennent souvent de nombreuses erreurs géométriques. Par exemple, les polygones adjacents peuvent se chevaucher ou présenter des interstices (figure 1.10a), et il peut y avoir des erreurs de raccordement entre les segments ; des segments constitutifs d’une ligne peuvent ne pas être correctement connectés entre eux (figure 1.10b). Ce type de modélisation présente l’inconvénient de dupliquer les coordonnées des points et des segments de ligne autant de fois qu’il y a d’objets graphiques qui partagent ou intersectent des limites communes, créant une redondance d’information dans les jeux de données.
De la « réalité » du terrain à l’information géographique dans les SIG
35
Figure 1.10 : Exemples d’erreurs topologiques sur des polygones et des polylignes a. Polygone
b. Polyligne Arcs non connectés
Erreurs de raccordements Interstice entre les polygones adjacents
ASCHAN, CUNTY, DAVOINE, 2019
Chevauchements entre polygones adjacents
L’absence de topologie a aussi un impact sur les performances informatiques d’affichage graphique des objets. Une frontière commune à deux polygones est dessinée deux fois, ce qui peut considérablement ralentir les temps d’affichage. Enfin, la structuration de données selon un modèle non topologique ne permet pas de concevoir des représentations basées sur la notion de réseau (réseaux routiers, hydrographiques, d’assainissement…). Malgré tous ces inconvénients, il reste cependant l’un des modèles les plus utilisés, car il est beaucoup moins contraignant et lourd à mettre en œuvre qu’un modèle topologique. Le saviez-vous ?
L’absence d’information topologique dans un jeu de données n’empêche pas son utilisation pour les traitements spatiaux (voir chapitre 5) et l’analyse spatiale (voir chapitre 6). Dans ce cas, les propriétés d’adjacence, d’intersection et d’inclusion sont définies au moyen de fonctions de calcul qui cherchent à déterminer les points et segments de droites communs à tous les objets. Cette approche alourdit toutefois le temps de calcul des analyses.
36
Les systèmes d’information géographique
3.2 Le modèle vecteur topologique La topologie est souvent implicitement prise en compte dans la phase de conception des données géographiques décrite dans la première partie de ce chapitre. L’espace est en effet souvent abordé comme un système et non comme un ensemble d’objets sans relation entre eux. Par exemple, le fait que deux champs de lavande soient contigus peut être traduit en termes de propriétés topologiques par le partage d’un segment commun aux deux polygones représentant les champs cultivés. Le principe général des modèles topologiques (pour lesquels plusieurs formalisations existent) est de ne pas créer de redondance dans les points (ou sommets) et dans les segments de droites (ou arcs) utilisés pour la construction des objets graphiques linéaires ou surfaciques. La structure est donc plus complexe car chaque objet est décrit non pas par la simple liste de ses propres coordonnées constitutives comme en figure 1.7 (voir p. 28), mais par la référence à une liste de sommets et d’arcs. Deux modèles sont plus particulièrement utilisés : -- Le modèle DIME pour Dual Independant Map Encoding, dans lequel, les objets sont décrits par leurs sommets. Les relations de voisinages sont des arcs « orientés », c’est-à-dire des arcs dont on définit le premier et le dernier sommet, ainsi que les objets gauche et droit qu’ils délimitent (figure 1.11a). -- Le modèle POLYVRT pour POLYgon conVeRTer, dans lequel les objets font référence à des nœuds et à des chaînes qui font euxmêmes référence à des sommets. Les éléments de départ sont les sommets qui ont un identifiant unique et des coordonnées. Les nœuds correspondent aux sommets communs entre au moins deux polygones ou aux sommets de début et de fin d’une polyligne. Les chaînes correspondent à la liste des sommets constitutifs d’arcs. Ainsi, dans le modèle POLYVRT, les objets (polygones ou polylignes) sont décrits par une succession de chaînes (figure 1.11b). Cette succession de références à d’autres éléments constitutifs permet de qualifier le modèle POLYVRT comme modèle hiérarchique.
De la « réalité » du terrain à l’information géographique dans les SIG
37
Figure 1.11 : Deux modèles topologiques a) Modèle DIME : modèle topologique de base 44,30
Y : Latitude (°, Nord) 3
44,29 44,28
1
b
2 a
44,27
4
d
A i
h
Les sommets sont identifés par des codes et décrits par leur coordonnées (fichier 1).
8
Fichier 1 : Sommets
f
B
5
44,25
e
6 c
44,26
7
9
10
g
5,30 5,31 5,32 5,33 5,34 5,35
X : Longitude (°, Est)
Les arcs sont orientés, décrits par leur premier et dernier sommet et par les polygones qu’ils délimitent à droite et à gauche (fichier 2). Les polylignes et les polygones peuvent être déduits à partir du fichier 2.
Sommet Coordonnées (X,Y) 1 (5,30 ; 44,28) 2 (5,32 ; 44,28) 3 (5,33 ; 44,29) 4 (5,31 ; 44,27) 5 (5,31 ; 44,25) 6 (5,33 ; 44,27) 7 (5,34 ; 44,29) 8 (5,35 ; 44,28) 9 (5,35 ; 44,26) 10 (5,34 ; 44,25)
Fichier 2 : Arc et polygones Arc a b c d e f g h i
Sommet Début Sommet Fin Polygone Droit Polygone Gauche 1 2 externe externe 2 3 externe externe 5 6 B externe 6 7 A externe 7 8 A externe 8 9 B externe 9 10 B externe 10 5 B externe 6 8 B A
b) Modèle POLYVRT : modèle topologique hiérarchique Les sommets sont identifés par des codes et décrits par leur coordonnées (Fichier 1). Les nœuds et les chaînes sont décrits par les sommets qui les constituent (Fichiers 2 et 3). Les polylignes et les polygones sont décrits par les chaînes qui les constituent (Fichier 4). Fichier 1 : Sommets
Fichier 2 : Noeuds
Sommet Coordonnées (X,Y) 1 (5,30 ; 44,28) 2 (5,32 ; 44,28) 3 (5,33 ; 44,29) 4 (5,31 ; 44,27) 5 (5,31 ; 44,25) 6 (5,33 ; 44,27) 7 (5,34 ; 44,29) 8 (5,35 ; 44,28) 9 (5,35 ; 44,26) 10 (5,34 ; 44,25)
C
1 n1
4
44,27
Chaîne a b c d
2
a n3
3 7 n2 c
A
6
Sommets Nœud Début Nœud Fin Polygone Droit Polygone Gauche 1,2,3 n1 n2 externe externe 6,8 n3 n4 B A 6,7,8 n3 n4 A externe 8,9,10,5,6 n4 n3 B externe
5
Fichier 4 : Objets
8 n4
Objet A B C
b
B
44,26 44,25
Fichier 3 : Chaînes
Y : Latitude (°, Nord)
44,29 44,28
Sommet 1 3 6 8
10
9 d
5,30 5,31 5,32 5,33 5,34 5,35
X : Longitude (°, Est)
Type Chaîne polygone b,c polygone b,d polyligne a
Exemples de relation hiérarchique
Fig. 11, chapitre 1 – Le modèle topologique – (110 x 165 mm) – #1
38
Les systèmes d’information géographique
ASCHAN, CUNTY, DAVOINE, 2023
44,30
Nœud n1 n2 n3 n4
L’intérêt d’un modèle topologique est multiple : -- Il minimise le risque d’erreurs géométriques telles que celles décrites dans la figure 1.10 (voir p. 36). -- Il réduit le nombre de points saisis et allège le poids des fichiers. -- Il facilite la modification et la mise à jour des caractéristiques partagées entre différents jeux de données, puisqu’il assure le maintien de la cohérence entre les données. Par exemple, le déplacement d’un sommet d’un polygone et donc de sa limite aura pour effet de modifier aussi les limites des polygones adjacents. -- Il optimise le processus d’interrogation spatiale des données et rend plus rapide l’exécution des requêtes spatiales (voir chapitre 4, p. 178). Les logiciels SIG offrent des fonctionnalités plus ou moins performantes, permettant d’associer les données topologiques aux jeux de données et de vérifier leur qualité. Le saviez-vous ?
• Les jeux de données géographiques utilisés dans les SIG n’intègrent pas systématiquement des données topologiques. • En mode raster, la topologie est exprimée par la position relative des cellules les unes par rapport aux autres, mais il n’y a pas de topologie à proprement parler dans la structure des données. • Un modèle topologique est indispensable pour l’étude d’un projet qui porte sur la construction et l’analyse d’un réseau (par exemple, l’analyse de distances ou d’accessibilité dans un réseau de transport en commun).
3.3 Le réseau, un modèle vecteur particulier intégrant la topologie Quelle que soit la nature des réseaux (hydrographique, de transport, etc.), ils constituent une information géographique spécifique car ils sont constitués d’objets graphiques linéaires connectés. La topologie de réseau décrit ces relations de connexion. Les réseaux sont ainsi modélisés sous forme de points, appelés des nœuds (ce qui permet de représenter les intersections dans un réseau de transport, les antennes dans un réseau de téléphonie mobile, les confluences des cours d’eau, etc.) et de lignes, appelés des liens (les tronçons de routes, les cours d’eau, etc.). De la « réalité » du terrain à l’information géographique dans les SIG
39
La structuration des données sous la forme d’un réseau implique de définir des relations topologiques qui lient les objets graphiques ponctuels (nœuds) et les objets graphiques linéaires (liens) entre eux. On simplifie alors le réseau sous la forme d’un objet mathématique appelé graphe ou réseau logique (pour une description plus complète des données de réseau sous forme de graphe, on peut se référer au chapitre 3, « Réseaux et localisation » de l’ouvrage Analyse spatiale. Les localisations [Pumain et Saint-Julien, 2010]). Dans une modélisation réseau, les liens peuvent être orientés (figure 1.12), ce qui signifie qu’ils ont des nœuds de départ et d’arrivée selon un sens de circulation. La structuration topologique est indispensable pour pouvoir calculer des distances (voir chapitre 2, p. 83) ou simuler des flux sur le réseau. Figure 1.12 : La topologie d’un réseau : représentation géographique et logique
On distingue principalement deux types de réseaux dont les caractéristiques impliquent une certaine structuration des données. Les réseaux hydrographiques, de drainage ou de distribution d’électricité, par exemple, dans lesquels l’orientation est unique (depuis la source vers un « exutoire ») et qui constituent des réseaux hiérarchiques (figure 1.13a). Les réseaux de transport, pour lesquels on connaît aussi le sens, qui sont généralement dotés d’intersections et de boucles et constituent des réseaux maillés (figure 1.13b). Figure 1.13 : Modélisation de réseaux hiérarchiques et maillés
40
Les systèmes d’information géographique
Toute l’information décrivant les nœuds et les liens est stockée sous une forme attributaire, mais la structuration d’un modèle de données réseau implique une table attributaire plus complexe qu’un modèle vecteur basique. En effet, au-delà de la description des points (exemple : nombre de points de vente de tickets à un point d’arrêt dans un réseau de transport en commun) et des lignes (exemples : type de matériel empruntant les lignes de tramway, vitesse de circulation moyenne) (figure 1.14a), d’autres tables et d’autres champs, peuvent être mobilisés pour l’analyse du réseau, notamment, une table qui décrit la connectivité. Ainsi, pour chaque nœud est décrite la liste des nœuds et liens qui lui sont connectés, en précisant l’identifiant du lien permettant la connexion (figure 1.14b). Dans le cas d’un réseau de transport orienté, c’est-à-dire avec des tronçons à sens unique, les règles qui définissent le sens des flux seront également stockées dans la table de connectivité. Figure 1.14 : Représentation géographique et représentation logique d’un réseau de transport avec les tables attributaires associées Laba Tram1
La�tude Tram2 Laplace A Lagare Lecoin Tram1
Lelointain
Lelieu
B A
Localité
Tram2
07 Point d’arrêt de transport Ligne de métro Ligne de tramway Voie ferrée
T1
02 T1 05
03 F1
T2 M1
06
T2 F1
Longitude
Table a�ributaire des points d’arrêt de transport id Nom Table a�ributaire 01 Lagare des lignes de métro 02 Laplace id Nom 03 Lelieu M1 A 04 Lendroit M2 B 05 Lecoin 06 Localité Table a�ributaire 07 Laba des lignes de tramway 08 Lelointain id Nom T1 Tram1 T2 Tram2
Nœud Lien
M2 M1
01
Lendroit
Table a�ributaire des lignes de transport inter-urbain id Type F1 ferrée
b. Représenta�on logique du réseau de transport
04
ASCHAN, CUNTY, DAVOINE, 2023
a. Représenta�on géographique d’un réseau de transport
08
Table des noeuds
Table des liens
id 01 02 03 04 05 06 07 08
id M1 M2 T1 T2 F1
Points Nom de vente Lagare 10 Laplace 2 Lelieu 1 Lendroit 1 Lecoin 3 Localité 1 Laba 1 Lelointain 2
Vitesse Nom (km/h) A 25 B 26 Tram1 15 Tram2 19 ferrée 80
Table de connec�vité Nœud Nœuds adjacents et liens 01 02,T2 04,T2 05,M1 06,M1 03,M2 07,F1 07,F1 02 01,T2 05,T1 03,T1 03 01,M2 02,T1 04 01,T2 05 01,M1 02,T1 06 01,M1
Fig. 14, chapitre 1 – TableAttributaireReseau – (110 x 95 mm) – #1
De la « réalité » du terrain à l’information géographique dans les SIG
41
Dans ce chapitre, nous avons vu que l’information géographique des SIG est basée sur des modélisations numériques qui simplifient considérablement le monde réel. Le fait de concevoir et de comprendre une vision simplifiée du monde constitue une première étape essentielle dans un projet SIG. Connaître les différents types de modélisations numériques de l’information géographique et la façon dont cette information est structurée est une deuxième étape indispensable. Dans le chapitre suivant seront approfondies les caractéristiques fondamentales de l’information géographique qui ont été rapidement évoquées dans ce chapitre : sa position dans l’espace géographique (composante localisation), sa troisième dimension et les relations spatiales entre les objets géographiques. Notions à maîtriser
Modélisation/abstraction : phénomène géographique continu et d iscret – information géographique – donnée localisée/donnée géographique – objet géographique – couche d’information géographique. Modélisation numérique : jeu de données – composantes des données géographiques numériques : géométrie, localisation, sémantique – modèle vecteur/modèle raster – résolution – généralisation – modèle de données vecteur non topologique et topologique – type de champ – longueur d’un champ. Modèle vecteur : objet graphique ponctuel, linéaire, surfacique – enregistrement – champ – attribut. Modèle raster : cellule/maille/pixel – attribut – effectif. Modèle topologique : topologie – arc/segment de droite – sommet – lien – nœud – modèle topologique réseau – réseau hiérarchique – réseau maillé – graphe – connectivité.
42
Les systèmes d’information géographique
Pour réviser
1. En tant que responsable géomatique d’une communauté de communes, vous devez proposer des localisations pour un futur camping. Imaginez toutes les informations à mobiliser pour identifier les parcelles susceptibles d’accueillir ce nouvel équipement. Précisez pour chaque information si elle renvoie à un phénomène continu ou discret. 2. Donnez un exemple de phénomène géographique continu. Comment pourriez-vous mesurer ce phénomène ? Quel modèle de données utiliseriez-vous pour l’enregistrer dans un format numérique ? 3. Quelles sont les trois géométries utilisées pour modéliser les objets graphiques en mode vecteur ? 4. Pour quels types de phénomènes sont préférés les modes raster ? 5. Comment l’échelle influence-t-elle la façon de modéliser un phénomène ? 6. En quoi consiste la généralisation ? Expliquez avec des exemples. 7. Pour les listes d’attributs suivants, indiquez le type et la longueur du champ nécessaire à leur stockage : –– température en degré : 12,3 ; 14,7 ; 15,5 ; 14,8 ; –– occupation du sol : forêt, culture, bâti ; –– code INSEE de la commune : 07064 ; 07019 ; 07186 ; 07231 ; –– type d’établissement scolaire : école maternelle, école primaire, collège, lycée ; –– nombre de salariés : 812 ; 32 ; 5 ; 415 ; 4. 8. Qu’est-ce que la topologie ? Pourquoi ne peut-on pas définir des relations topologiques en mode raster ? 9. Lors de la modélisation des données, pourquoi est-il utile de définir les relations topologiques entre les objets ? 10. Définissez la notion de connectivité. Dans quel type de structuration de données est-elle utile ?
De la « réalité » du terrain à l’information géographique dans les SIG
43
Chapitre 2 Fondamentaux de l’information géographique Objectifs
• Connaître les composantes d’un système de coordonnées géographiques. • Connaître les composantes d’un système de coordonnées projetées. • Connaître et être capable de reconnaître les principaux types de systèmes de coordonnées. • Comprendre comment la troisième dimension peut être intégrée dans les données. • Connaître les concepts clés de la topologie : relations topologiques et opérateurs topologiques. • Connaître les différentes mesures de distances possibles. • Comprendre comment la distance peut être prise en compte dans les analyses.
Les données géographiques sont des données particulières, elles ont certaines spécificités. Tout d’abord, elles sont caractérisées par des informations sur la position absolue des objets dans l’espace : c’est ce qu’on appelle les coordonnées. Cette position peut s’exprimer uniquement en deux dimensions (latitude et longitude), mais elle est également souvent dotée d’une troisième dimension (altitude).
Par ailleurs, les objets géographiques ne sont pas isolés dans l’espace et la position relative des différents objets géographiques est également une spécificité fondamentale de l’information géographique. Cette position relative est traduite par des relations topologiques ou de distances entre les objets.
1. Les systèmes de coordonnées Les données géographiques, qu’elles décrivent des phénomènes discrets ou continus, sont des données localisées. Cette localisation peut se faire au moyen de coordonnées (X,Y), mais aussi d’adresses postales, de noms de lieux (toponymes)… Le saviez-vous ?
Comment indiquer sa position autrement que par un couple de coordonnées X,Y qui demande de retenir au minimum 2 x 6 chiffres ? Une start-up londonienne, « What3Words », a mis au point depuis 2013 un système de géolocalisation basé sur une division de l’ensemble de la surface du globe en carrés de 3 mètres de côté. Chacun des 57 000 milliards de carrés ainsi définis correspond à une association unique de trois mots. Ces associations existent aujourd’hui dans plus de 30 langues différentes. Ce système permet de se repérer précisément dans des lieux sans adresse (comme certains camps de réfugiés), ou avec une précision permettant de trouver la bonne porte d’entrée d’un bâtiment dans une cour intérieure par exemple. Ce système est disponible dans certaines applications telles que le Géoportail de l’IGN1. Cependant, il est critiqué car même si des outils sont mis à disposition pour utiliser ce système de géocodage dans les logiciels SIG, il est la propriété d’une société privée qui se garde le droit de faire des modifications à tout moment et ne permet pas une localisation en 3 dimensions. Vous pouvez rencontrer les auteures de ce manuel aux coordonnées W3W suivantes « ///revivre.frôler.durant » et « ///doux.spumeux.débiter »… à vous de trouver à quel étage ! 1. IGN : Institut national de l’information géographique et forestière. Disponible sur https://www. geoportail.gouv.fr/ (consulté le 4 mai 2023).
46
Les systèmes d’information géographique
Quel que soit le mode utilisé, la localisation se fait toujours, in fine, en référence à un système (de latitude/longitude, d’adresses, de communes, etc.). Les paramètres de ce système de référence spatiale doivent donc être définis1. Cette définition est loin d’être évidente car, même pour les latitudes et longitudes, il n’existe pas de définition universelle et de très nombreux systèmes cohabitent. Une première distinction importante dans les systèmes de coordonnées se fait entre les systèmes de coordonnées géographiques et les systèmes de coordonnées projetées. Définitions
• Les systèmes de coordonnées géographiques sont définis sur une surface correspondant au globe terrestre. • Les systèmes de coordonnées projetées sont définis sur une surface plane correspondant à la surface sur laquelle le globe terrestre (ou une de ses parties) a été projeté. Ces systèmes sont aussi appelés systèmes de coordonnées cartographiques ou planimétriques.
1.1 Les systèmes de coordonnées géographiques En mathématique, pour définir la coordonnée d’un point, il faut tout d’abord définir les paramètres du repère, à savoir le point d’origine du repère, l’axe des abscisses (X) et l’axe des ordonnées (Y). Il en va de même pour définir la position et les coordonnées à la surface du globe : il faut tout d’abord définir les paramètres du système de coordonnées géographiques. Contrairement à ce que l’on pourrait croire, il existe plusieurs systèmes de coordonnées géographiques de référence. La définition de chacun de ces systèmes passe par la détermination : -- d’un système géodésique (datum en anglais), qui permet notamment de déterminer le point d’origine du système ; -- d’un méridien d’origine, axe des abscisses (X) ; -- d’un parallèle d’origine, axe des ordonnées (Y).
1. Les systèmes de localisation par adresse seront abordés au chapitre 3, p. 114, car ces derniers sont souvent traduits finalement en coordonnées latitude et longitude.
Fondamentaux de l’information géographique
47
• Géoïde, ellipsoïde et système géodésique La Terre n’est pas une sphère parfaite, il s’agit en fait d’un géoïde. Ce terme désigne une surface équipotentielle du champ de pesanteur et se traduit par une forme non régulière (figure 2.1). Figure 2.1 : Le géoïde
Surface terrestre
Exagération des hauteurs : 15 000 fois
Mont Everest (8 848 m)
Surface de s océ ans Fosse des Mariannes (–11 034 m)
LAMBERT & ZANIN, 2016
Géoïde
Les géodésiens mesurent avec précision les coordonnées de points à la surface de ce géoïde. Mais pour faciliter les calculs, cette surface non régulière est généralement modélisée par une surface géométrique régulière appelée ellipsoïde. La forme de l’ellipse permet de traduire le léger aplatissement de la Terre au niveau des pôles. Elle est caractérisée par des valeurs de demi-grand axe a et demi-petit axe b, ainsi que par un coefficient d’aplatissement (dérivé des valeurs a et b)1 (figure 2.2a). Comme les déformations du géoïde sont très irrégulières sur l’ensemble de la Terre, plusieurs ellipsoïdes ont été définis pour correspondre localement au mieux à la forme du géoïde. Les ellipsoïdes dits « locaux » sont utilisés pour résumer la surface sur une partie du globe seulement (figure 2.2b). En France, les ellipsoïdes locaux couramment utilisés sont Clarke 1880 et Hayford 1909. Il existe aussi des ellipsoïdes globaux qui résument l’ensemble de la surface terrestre (figure 2.2c). Aujourd’hui, l’ellipsoïde global le plus couramment utilisé est GRS80 (Geodetic Reference System 1980)2. 1. Le coefficient d’aplatissement de l’ellipsoïde (f = (a – b)/a) varie entre 0 et 1. 0 correspond à une sphère. La Terre étant très proche d’une sphère, la valeur de f est souvent très faible, et c’est pourquoi le paramètre 1/f est parfois proposé. 2. Un ellipsoïde ayant les mêmes caractéristiques que l’ellipsoïde GRS80 est l’ellipsoïde WGS84, du nom du système de coordonnées géographiques qui l’utilise. L’ellipsoïde WGS84 est aujourd’hui également très fréquemment utilisé.
48
Les systèmes d’information géographique
petit axe grand axe
b
b. Ellipsoïde local ex. : Clarke 1880, Hayford 1909 a
point d’origine
c. Ellipsoïde global ex. : GRS 80 Géoïde
ASCHAN, CUNTY, DAVOINE,2023
Figure 2.2 : Ellipsoïdes a. Paramètres de defini�on d’un ellipsoïde
Fig. 02, chapitre 2 – Ellipsoïde – (110 x 36 mm) – #1
Définition
Système géodésique ou datum : la forme de l’ellipsoïde, l’orientation de ses axes, ainsi que sa position par rapport au centre de la Terre, permettent de définir le système géodésique appelé aussi couramment datum (terme anglais). Ce datum peut être matérialisé sur le terrain par un réseau de stations géodésiques (points physiquement liés à la croûte terrestre et matérialisés par des bornes, des piliers…)1.
Comme plusieurs ellipsoïdes ont été définis, plusieurs systèmes géodésiques coexistent. Ceci explique pourquoi différents « points d’origine » peuvent être rencontrés, chacun étant associé à un système géodésique (voir Focus, p. 55-56). • Méridien et parallèle de référence L’équateur est universellement admis comme étant le parallèle d’origine. Le méridien servant de méridien d’origine n’est pas systématiquement le même dans tous les pays. Aujourd’hui, un consensus apparaît cependant pour définir le méridien de Greenwich comme méridien d’origine.
1. Attention, cette matérialisation est souvent appelée « système de référence » ; il ne faut pas la confondre avec le système de coordonnées géographiques parfois appelé dans les logiciels SIG « système de coordonnées de référence ».
Fondamentaux de l’information géographique
49
Le saviez-vous ?
La conférence internationale du méridien qui s’est tenue à Washington en 1884 a désigné le méridien de Greenwich comme méridien d’origine. Mais historiquement, d’autres méridiens ont également été utilisés comme méridien d’origine, notamment les méridiens de Paris, Naples, Alexandrie, Saint-Pétersbourg… Ainsi en France, jusqu’en 1993 (officiellement), le méridien d’origine était celui de Paris.
• Longitude et latitude d’un point dans un système de coordonnées géographiques Un point A à la surface de la Terre est défini par : -- sa longitude (X) qui correspond à l’angle entre le plan méridien du point A et le plan méridien d’origine ; -- sa latitude (Y) qui correspond à l’angle entre la normale à l’ellipsoïde de A et le plan équatorial (figure 2.3). Ces coordonnées sont mesurées en valeurs angulaires (exprimées en degrés par exemple). Elles peuvent, dans certains systèmes de coordonnées, être négatives quand un lieu se situe au sud de l’équateur ou à l’ouest du méridien d’origine. Figure 2.3 : Coordonnées géographiques
n die éri M
* La normale à l’ellipsoïde correspond à la projection perpendiculaire à la verticale du point A (situé à une altitude h) sur l’ellipsoïde (altitude 0).
A h 0
eA Parallèle d A0
ale rm No
ϕ
λ Équateur
La coordonnée X du point A, appelée longitude, correspond à l’angle λ entre le plan mériden du point A0 et le plan méridien d’origine.
50
Les systèmes d’information géographique
La coordonnée Y du point A, appelée latitude, correspond à l’angle φ entre la normale à l’ellipsoïde en A0 et le plan équatorial.
ASCHAN, CUNTY, DAVOINE ,2019
Méridien d’ori gine
0 de A
de*
soï llip à l’e
• Les systèmes de coordonnées géographiques les plus couramment utilisés Avec la généralisation de l’utilisation des GPS (Global Positioning System), le système le plus fréquemment utilisé aujourd’hui dans le monde est le WGS84 (World Geodetic System 1984). La France a adopté à partir de 1993 le système RGF93 (Réseau Géodésique Français 1993), devenu le système officiel en 2000. Ce système est totalement cohérent avec le système WGS84 (coordonnées identiques à quelques centimètres près). Au niveau européen, la directive INSPIRE (voir chapitre 3, Focus p. 106) recommande l’utilisation du système ETRS89 (European Terrestrial Reference System 1989), compatible avec le RGF93 et le WGS84. Dans le système WGS84, en France métropolitaine, les latitudes sont comprises entre 41° et 52 ° Nord et les longitudes entre – 4° (ou 4° Ouest) et 10° Est (figure 2.4). Figure 2.4 : La position de la France dans le système de coordonnées géographiques WGS84 51° N
Dunkerque Lille 50° N
Le Havre Rouen
49° N
© Eurographics pour les limites administratives.
Amiens
Cherbourg
Reims
Caen Paris Strasbourg
Nancy Brest 48° N
Rennes Orléans Dijon Nantes
Besançon Poitiers
46° N
Limoges Lyon ClermontFerrand
45° N
Grenoble
Bordeaux 44° N
Nice Toulouse
ASCHAN, CUNTY, DAVOINE, 2019
Latitude
47° N
Montpellier
43° N
Marseille 42° N
Ajaccio 0
100
200 km
41° N 5° O
4° O
3° O
2° O
1° O
-5°
-4°
-3°
-2°
-1°
0°
1° E
2° E
3° E
4° E
Méridien d’origine Méridien de Greenwich
5° E
6° E
7° E
8° E
9° E
10° E
Longitude
Fondamentaux de l’information géographique
51
1.2 Les systèmes de coordonnées projetées La visualisation des données géographiques se fait généralement sur une surface plane (un écran ou une feuille de papier). L’ellipsoïde (forme géométrique simplifiée du géoïde), objet en trois dimensions, doit alors être projeté en deux dimensions. Il existe plusieurs procédés de projection et ceux-ci peuvent s’appliquer à des ellipsoïdes différents. Ainsi, tout système de coordonnées projetées est basé sur un système de coordonnées géographiques indiquant l’ellipsoïde qui est projeté. La définition de chaque système de coordonnées projetées passe par la détermination : -- d’une projection ; -- d’un méridien et d’un parallèle d’origine ; -- d’un point origine du repère des coordonnées. • La projection Le type de projection utilisé pour représenter un ellipsoïde sur une surface plane est le premier paramètre définissant un système de coordonnées projetées. Définition
Projection : opération mathématique qui permet de représenter une surface sphérique en 3D sur une surface plane en 2D. Il existe plus de 200 projections différentes.
Deux paramètres permettent de définir une projection : la surface de projection et l’altération. [Pour une description de ces paramètres, voir : Lambert et Zanin, 2016, p. 34‑36.] Les surfaces de projection les plus couramment utilisées sont : -- le plan, pour les projections dites azimutales ; -- le cylindre, pour les projections dites cylindriques ; -- le cône, pour les projections dites coniques. L’ellipsoïde n’étant pas une surface développable, c’est-à-dire que l’on ne peut pas la projeter sur un plan en conservant les angles et les surfaces, la projection entraîne forcément des déformations. [Pour une description de ces déformations, voir : Lambert et Zanin, 2016, p. 34‑36.] 52
Les systèmes d’information géographique
Il est important de savoir que : -- les projections conformes conservent les angles ; -- les projections équivalentes conservent les surfaces ; -- les projections aphylactiques ou composées tentent de minimiser simultanément les altérations d’angles et de surfaces. Ces deux paramètres (surface et altération) se retrouvent généralement dans le nom de la projection (par exemple Lambert Conique Conforme). • Les composantes d’un système de coordonnées projetées Les paramètres de projection (surface et altération) permettent de définir la façon dont l’ellipsoïde est projeté sur les deux dimensions du plan. Mais la projection seule ne suffit pas à définir l’emplacement des objets dans un système de coordonnées projetées. Comme pour les systèmes de coordonnées géographiques, il est nécessaire de définir un repère avec un point d’origine et les positions de l’axe des X et de l’axe des Y. L’origine du système est définie par un méridien central ou longitude d’origine (en X) et un parallèle central ou latitude d’origine (en Y). L’origine ainsi définie se trouve généralement au centre de la surface projetée, entraînant des coordonnées positives et négatives. Pour avoir uniquement des coordonnées positives sur la zone pour laquelle la projection a été définie, l’origine du repère est déplacée. Ces paramètres de déplacement sont appelés « False », suivis d’une direction par exemple « Northing » ou « Easting » et d’une valeur de distance. Le « False Northing » correspond à la coordonnée « Nord » du point d’origine et le « False Easting » à la coordonnée « Est » du point d’origine (figure 2.5).
Le saviez-vous ?
D’autres paramètres peuvent être utilisés pour définir le système de coordonnées projetées : parallèles de référence et facteur d’échelle. • Si la projection est conique, des parallèles de référence (ou standard parallel en anglais) sont indiqués. Il s’agit des parallèles où le cône de projection est en contact avec la surface terrestre. Le long de ces lignes Fondamentaux de l’information géographique
53
de contact entre le plan de projection et l’ellipsoïde, les déformations liées à la projection sont nulles. • Le facteur d’échelle correspond à une valeur, généralement inférieure à 1, qui permet d’appliquer une réduction là où les déformations liées à la projection sont nulles (au niveau du point, du parallèle ou du méridien de contact de la projection), de sorte que les distorsions sur l’ensemble de la surface projetée sont diminuées. Figure 2.5 : La définition du point d’origine des coordonnées projetées dans le système Lambert93 Coordonnées Nord en mètres
Méridien d’origine (3°)
False_Easting : 700 000 mètres
© Eurographics pour les limites administratives.
Parallèle central (46,5°)
L’origine du système Lambert93 utilisé couramment en France est défini par : • le méridien d’origine : 3° • le parallèle central : 46,5° • « False_Easting » : 700 000 mètres • « False_Northing » : 6 600 000 mètres (cette distance très importante a été choisie pour éviter la confusion des coordonnées Lambert93 avec d’autres systèmes de coordonnées projetées préexistants en France).
0 0
Coordonnées Est en mètres
ASCHAN, CUNTY, DAVOINE, 2023
False_Northing : 6 600 000 mètres
Un système de coordonnées projetées est toujours basé sur un sysFig. 06, chapitre 2 – Origine Lambert 93 – (110 x 100 mm) – #1 tème de coordonnées géographiques qui définit notamment la forme de l’ellipsoïde qui est projeté. C’est pourquoi les systèmes de coordonnées projetées portent généralement un double nom : le nom du système de coordonnées géographiques/le nom du système de coordonnées 54
Les systèmes d’information géographique
projetées (exemple : RGF93/Lambert93). Cela permet notamment de gérer les paramètres de translation d’un système de coordonnées géographiques à un autre (voir Focus) préalables à tout changement de systèmes de coordonnées projetées. Par exemple, le Lambert93 est toujours basé sur le RGF93 et ne pourra jamais être associé à un système de coordonnées géographiques NTF. OCUS : Les translations nécessaires pour passer d’un système • Fde coordonnées géographiques à un autre
Chaque système de coordonnées géographiques est associé à un système géodésique (datum), lui-même basé sur un ellipsoïde. Le centre de l’ellipsoïde sert de point de référence au système de coordonnées géographiques. L’existence de différents ellipsoïdes entraîne donc la coexistence de plusieurs points de référence. Comme le centre géométrique des différents ellipsoïdes ne se situe pas au même endroit (figure 2.6), les coordonnées d’un point à la surface de la Terre varient d’un système de coordonnées géographiques à l’autre. Le changement de système géodésique (datum) entraînant la modification de toutes les valeurs des coordonnées des entités, certains organismes n’ont pas opté pour les systèmes plus récents pour des raisons légales ou historiques (trop d’informations géographiques étant stockées dans d’anciens systèmes de coordonnées). Ainsi en France, avant que se généralise l’utilisation du GPS (basé sur le système de coordonnées géographiques WGS84) dans les années 2000, le système de coordonnées géographiques utilisé était le NTF (Nouvelle Triangulation Française, basé sur l’ellipsoïde de Clark). Or la différence de coordonnées entre les deux systèmes est relativement importante (168 mètres en X et 60 mètres en Y – figure 2.6).
Fondamentaux de l’information géographique
55
Figure 2.6 : Les translations de coordonnées géographiques d’un système à l’autre. L’exemple du NTF et du WGS84 Ellipsoïde local ex. : Clarke 1880 utilisé pour le système NTF
X 0 (WGS84)
Ellipsoïde global ex. : GRS 80 utilisé pour le système WGS84
Y Y (WGS84) (NTF)
60 m 168 m
0 (NTF)
X (NTF)
X (WGS84)
ASCHAN, CUNTY, DAVOINE,2019
Y
Dans certains logiciels il faut spécifier translation d’origine du sysFig. 05, chapitre 2 – SIG, Translations – (105 x cette 37 mm) – #1 tème de coordonnées géographiques (appelée parfois transformation), soit en utilisant des valeurs déjà paramétrées, soit en indiquant les valeurs de différentiels en X, en Y (et parfois en Z) manuellement. Par exemple, la translation entre WGS84 et NTF correspond à + 60 mètres en Y et + 168 mètres en X.
• Les systèmes de coordonnées projetées les plus courants Il est impossible de présenter ici tous les systèmes de coordonnées projetées tant ils sont nombreux. Pour la France métropolitaine, les systèmes se sont succédé mais, depuis les années 1920, ce sont toujours des projections coniques conformes de Lambert qui ont servi à définir les systèmes de coordonnées projetées de référence. Le saviez-vous ?
Le choix d’une projection conforme par la France s’explique par la nécessité de pouvoir calculer les valeurs d’angles sur les cartes, pour les tirs d’artillerie lors de la Première Guerre mondiale notamment.
Historiquement, il y a d’abord eu les systèmes de coordonnées projetées Lambert basés sur le système de coordonnées géographiques NTF. Pour que les déformations soient les moins importantes, quatre zones de projection, numérotées de Lambert 1 à Lambert 4 du sud au nord, avaient été définies. Afin de fournir un système de coordonnées pour tout le territoire métropolitain, le système de projection de la zone 2 avait été appliqué sous le nom de « Lambert 2 étendu ». L’usage de ces systèmes de coordonnées projetées est appelé à disparaître. 56
Les systèmes d’information géographique
Avec le développement du référencement dans l’espace par GPS, l’IGN a développé à partir de 1993 un nouveau système de projection appelé Lambert93 basé sur le système de coordonnées géographiques RGF93. Ce système de coordonnées projetées a été défini pour la France entière. En France métropolitaine, les latitudes sont comprises entre 6 000 000 et 7 100 000 mètres et les longitudes entre 100 000 et 1 200 000 mètres dans le système Lambert93 (figure 2.7).
7 100 000
Figure 2.7 : Les coordonnées projetées dans le système Lambert93 en France Dunkerque Lille
Caen
Brest
6 700 000
Rennes
Amiens Reims
Paris
© Eurographics pour les limites administratives.
Le Havre Rouen
Strasbourg
Nancy
Orléans Dijon
Nantes
Besançon
Poitiers
6 500 000
Limoges
Lyon ClermontFerrand
45° N
Bordeaux
6 300 000
Latitude en mètres
6 900 000
Cherbourg
Toulouse
Grenoble
Nice
Montpellier
6 100 000
Marseille Ajaccio 0
100
200 km
-5° O 0
0° 200 000
400 000
Méridiens et parallèles
5° E 600 000
800 000
10° E 1 000 000
ASCHAN, CUNTY, DAVOINE, 2019
50° N
1 200 000
Longitude en mètres
Du fait d’un manque de précision pour des cartographies locales, notamment à Lille ou à Marseille (éloignées du parallèle de référence), ce système a, depuis 2006, été décliné en 9 projections appelées Lambert zone CC (CC signifiant Conique Conforme). De la zone Fig. 07, chapitre 2 – Les coordonnées projetées dans le système Lambert 93 en France – (110 x 102 mm) – #2
Fondamentaux de l’information géographique
57
Lambert CC42 au Sud à la zone Lambert CC50 au Nord, les chiffres indiquent le parallèle de référence pour chaque projection (figure 2.8). Figure 2.8 : Les 9 zones Lambert CC 51° N
Dunkerque Lille
CC 50
50° N
Le Havre Rouen
CC 49 49° N
Reims
Caen Paris Strasbourg
Nancy Brest
CC 48 48° N
Rennes Orléans Dijon
CC 47 Nantes
Besançon
Latitude
47° N
Poitiers
CC 46 46° N
Limoges Lyon
CC 45
ClermontFerrand
45° N
Grenoble
Bordeaux
CC 44
© Eurographics pour les limites administratives.
Amiens
Cherbourg
44° N
Toulouse
Montpellier
CC 43 43° N
Marseille
CC 42 42° N
Ajaccio 0
100
200 km
41° N
ASCHAN, CUNTY, DAVOINE, 2019
Nice
0°
Méridien d’origine Méridien de Greenwich
À l’échelle européenne, les systèmes de coordonnées projetées associés au système de coordonnées géographiques ETRS89 sont également basés sur la projection Lambert. Il s’agit : -- du système de coordonnées projetées LAEA « Lambert azimutale équivalente », recommandé pour des cas d’utilisations de cartographie de données statistiques, cette projection conservant les surfaces ; -- du système de coordonnées projetées LCC « Lambert conique conforme », recommandé pour les échelles inférieures au 1:500 000.
58
Les systèmes d’information géographique
À l’échelle mondiale, les systèmes de coordonnées projetées basés sur la projection UTM (Universal Transverse Mercator), associés au système de coordonnées géographiques WGS84, sont également fréquemment utilisés. Il existe 120 systèmes de coordonnées projetées UTM : 60 pour l’hémisphère Nord et 60 pour l’hémisphère Sud. Les zones, appelées aussi fuseaux, sont numérotées de 1 à 60 à partir de 180° Ouest et chaque zone couvre 6° de longitude. En France, les systèmes de coordonnées projetées UTM utilisés sont UTM 30N à UTM 32N. OCUS : Comment distinguer des coordonnées géographiques • Fde coordonnées projetées ?
Les coordonnées géographiques sont exprimées en unités d’angle (degré ou grades). Dans le cas des degrés, les coordonnées peuvent être exprimées en Degrés, Minutes, Secondes (DMS) ou en Degrés Décimaux (DD). Les coordonnées projetées (appelées aussi cartographiques ou planimétriques) sont exprimées en unités linéaires (mètres, kilomètres, miles, etc.). Ainsi les coordonnées de l’antenne de l’Aiguille du Midi sont : − En WGS84 : 45°52’43.0’’N et 6°53’14.5’’E. − En NTF : 50,976 grades N et 7,653 grades E. − En Lambert93 : X = 1 001 396,44 mètres et Y = 6 538 421 mètres. − En Lambert 2 étendu : X = 953 098,56 mètres et Y = 2 107 822,12 mètres.
1.3 Les systèmes de coordonnées dans les SIG Les systèmes de coordonnées, géographiques ou projetées, sont des paramètres à part entière des jeux de données géographiques. Un jeu de données géographiques est défini dans un système donné. Ainsi, changer le système de coordonnées d’un jeu de données revient à créer un nouveau jeu de données, qui contient, certes, les mêmes objets géographiques, mais définis dans un autre système et donc avec des coordonnées différentes. Par exemple, si l’on dispose d’un jeu de données des communes françaises en Lambert 2 étendu et que l’on souhaite l’avoir en Lambert93, il faudra créer un nouveau jeu de données.
Fondamentaux de l’information géographique
59
Le saviez-vous ?
Les jeux de données géographiques en format GeoJson (voir chapitre 3, p. 144) sont toujours définis dans un système de coordonnées géographiques WGS84.
C’est l’existence même d’un système de coordonnées utilisé dans les logiciels qui permet de fournir des mesures de surfaces, de périmètres, de longueurs, de sinuosité des objets, ainsi que des distances entre objets (voir p. 88). Dans certains logiciels, les calculs de longueur et de surface ne sont possibles que si le système de coordonnées est projeté. Par ailleurs, il faudra être prudent lors des calculs des superficies, car lorsque le système de coordonnées utilisé est basé sur une projection conforme (voir p. 53), les rapports de surface ne sont pas conservés sur l’ensemble de la surface projetée. Si ces variations de surface sont minimes à grande échelle (1/25000 par exemple), elles peuvent être importantes à plus petite échelle [voir Feuillet, Cossart et Commenges, 2019, p. 75]. Certains logiciels SIG gèrent l’affichage superposé de jeux de données géographiques définis dans différents systèmes de coordonnées en appliquant une projection à la volée (voir chapitre 4, p. 159‑160), mais pour de nombreux traitements et analyses dans un SIG, il est nécessaire que les jeux de données utilisés soient définis dans le même système de coordonnées.
• FOCUS : La dénomination des systèmes de coordonnées dans les SIG
Différents termes sont utilisés dans les logiciels SIG pour désigner les systèmes de coordonnées géographiques ou projetées. En voici quelques-uns : − Système de coordonnées − Système de coordonnées X,Y − SCR : Système de coordonnées de référence − SRID : Spatial Reference Identifier − SRS : Spatial Reference System Quels que soient les formats de stockage de l’information relative aux systèmes de coordonnées, leur dénomination indique toujours s’il s’agit de systèmes de coordonnées géographiques ou de systèmes de coordonnées projetées.
60
Les systèmes d’information géographique
On trouvera par exemple « GCS » (Geographical Coordinate System) et « GEOGCS » avant les noms et/ou paramètres de systèmes de coordonnées géographiques et « PROJCS » avant ceux de systèmes de coordonnées projetées.
Dans les logiciels SIG, la gestion des systèmes de coordonnées est souvent peu aisée car l’utilisation du vocabulaire associé n’est pas toujours rigoureuse. Ainsi certains logiciels utilisent le terme de « projeter » un jeu de données pour passer d’un système de coordonnées à un autre. Cela serait acceptable s’il s’agissait seulement de passer d’un système de coordonnées géographiques à un système de coordonnées projetées, or il permet également de passer simplement d’un système de coordonnées géographiques à un autre système de coordonnées géographiques. Dans ce cas, le terme « projeter » peut induire en erreur. • EPSG ou la normalisation de la définition des systèmes de coordonnées La définition des paramètres des différents systèmes de coordonnées a été standardisée par des entreprises pétrolières, puis reprise par l’OGC (Open Geospatial Consortium, voir Focus) sous le terme de code EPSG (European Petroleum Survey Group). Ces codes EPSG sont fréquemment utilisés dans les SIG pour définir le système de coordonnées. Il existe des codes EPSG pour les systèmes de coordonnées géographiques et projetées (voir tableau 2.1).
• FOCUS : L’Open Geospatial Consortium (OGC)
− L’OGC est une organisation internationale à but non lucratif rassemblant des entreprises commerciales et industrielles de l’information géographique et des SIG, des services gouvernementaux et internationaux. − L’OGC travaille depuis 1994 sur les questions d’interopérabilité (voir chapitre 3, p. 106-107) dans les SIG. Il travaille au développement et la promotion de standards ouverts dans le but de garantir l’interopérabilité des contenus et des services liés à l’information géographique et ainsi faciliter l’échange de données.
Fondamentaux de l’information géographique
61
Tableau 2.1 : Codes EPSG des principaux systèmes de coordonnées, géographiques et projetés, utilisés en France Système de coordonnées géographiques
Ellipsoïde de référence
Code EPSG
Système de coordonnées projetées
Code EPSG
NTF
Clarke 1880
4807
Lambert zone 1 à 4 Lambert 2 étendu
27571 à 27574 27572
RGF93
GRS 1980
4171
Lambert93 Lambert zone CC 42 à CC50
2154 3942 à 3950
ETRS89
GRS 1980
4258
LAEA LCC
3035 3034
WGS84
GRS 1980
4326
UTM 30N UTM 31N UTM 32N
32630 32631 32632
Pour éviter les erreurs, pensez-y !
• Connaître le système de coordonnées dans lequel vous travaillez. Vous devez savoir s’il s’agit d’un système de coordonnées géographiques ou projetées et son nom (et éventuellement son code EPSG). • Être précis dans le vocabulaire. Évitez de parler simplement de projection pour désigner les systèmes de coordonnées projetées. • Utiliser des jeux de données définis dans des systèmes de coordonnées basés sur des projections équivalentes pour faire des calculs de surface à des grandes échelles. • Définir les paramètres de transformation d’un système de coordonnées géographiques à un autre (voir Focus, p. 55-56). Sinon, cela peut produire des décalages dans la position de vos entités de plusieurs dizaines de mètres.
62
Les systèmes d’information géographique
2. La troisième dimension de l’information géographique La plupart des objets géographiques du monde réel sont des objets en volume. Ils sont donc dotés de ce que l’on appelle communément une troisième dimension. Cependant, cette dimension n’est pas nécessairement prise en compte lors de la modélisation des données. C’est par exemple le cas pour le jeu de données décrivant les zones de végétation dans la BD TOPO® de l’IGN, où la hauteur des cimes des différentes formations végétales n’est pas intégrée dans le jeu de données (on comprend facilement pourquoi). Quand la troisième dimension est modélisée, les objets ou les surfaces sont dotés de coordonnées X et Y, définissant la localisation géographique, et de valeurs souvent appelées Z, qui représentent les hauteurs ou les profondeurs. La troisième dimension est, par définition, toujours présente dans les données décrivant le relief d’un territoire, mais elle est également souvent intégrée dans d’autres données, comme celles décrivant le bâti, les arbres isolés, les pylônes électriques, les canalisations d’eaux usées… Le saviez-vous ?
La visualisation en 3D peut aussi s’appliquer à des phénomènes géographiques dépourvus d’une véritable troisième dimension au sens de l’altitude, comme la température, le bruit, le taux de salinité du sol ou la population dans une ville. Dans ce cas, c’est l’attribut (valeurs de température, effectifs de population…) qui est représenté en 3D.
2.1 La troisième dimension dans les jeux de données géographiques L’information décrivant l’altitude (incluant la hauteur et la profondeur1) peut être intégrée dans les jeux de données utilisées en SIG de deux façons différentes : en 2,5D ou en 3D. Il s’agit de deux modes différents de stockage de la troisième dimension. 1. Le terme « altitude » sera utilisé dans la suite du texte pour désigner une hauteur ou une profondeur.
Fondamentaux de l’information géographique
63
En 2,5D, le jeu de données peut simplement être doté d’un champ attributaire décrivant la troisième dimension, ou d’une coordonnée Z qui est intégrée dans les propriétés du jeu de données, au même titre que les coordonnées X,Y. C’est par exemple le cas des jeux de données représentant le relief où l’information de l’altitude est intégrée sous la forme d’un attribut ou d’une coordonnée Z. Cette modélisation en 2,5D est particulièrement fréquente pour des phénomènes géographiques continus (voir chapitre 1, p. 16), et notamment pour représenter la surface terrestre, le plus souvent pour le relief. On parle dans ce cas de modélisation de « surfaces » (voir chapitre 6, p. 248) en faisant référence à la surface terrestre, qui inclut ou non, selon les utilisations, les objets comme les bâtiments ou la végétation. Les modèles de données véritablement structurés en 3D intègrent la troisième dimension dans la géométrie de l’objet. C’est par exemple le cas de la modélisation du bâti qui permet aussi de représenter la volumétrie des objets (voir p. 70). Dans cet ouvrage, le choix d’inclure les données 2,5D dans le chapitre traitant des données 3D se justifie par le fait qu’elles sont utilisées depuis longtemps en géomatique pour pallier l’absence de données intégrant une véritable géométrie 3D. La modélisation des données en 2,5D est plus simple qu’une modélisation en 3D. Ces jeux de données ont l’avantage de non seulement pouvoir être mobilisés dans des logiciels qui traitent la 2D, mais aussi de pouvoir être traités et analysés comme de véritables jeux de données 3D par des logiciels SIG spécifiques. Les modélisations en 2,5D et en 3D peuvent être faites en mode raster ou en mode vecteur. Définitions
• 2D : modèle de données représentant les objets en vue horizontale et les surfaces continues sous forme d’un plan. • 2,5D : terme souvent utilisé pour désigner des modèles de données où la troisième dimension est soit un attribut, soit intégrée dans les propriétés des données. Par exemple, dans un jeu de données raster décrivant le relief, l’attribut des cellules correspond à l’altitude.
64
Les systèmes d’information géographique
• 3D : modèle de données d’objets ou de surfaces géographiques dans lequel la géométrie de l’objet contient, non seulement les coordonnées X et Y pour la localisation géographique, mais également des coordonnées Z qui représentent souvent la hauteur ou l’altitude. Il existe des formats de données standards (CityGML, par exemple) qui intègrent la 3D dans la géométrie des objets. Un autre type de données 3D correspond aux données acquises par LiDAR (acronyme anglais de Light Detection and Ranging), qui est un scanner laser. • 4D : modèle de données en 3D utilisé pour simuler un processus spatio-temporel. La quatrième dimension est le temps (t) qui est alors un attribut de type date.
2.2 La modélisation de surfaces de terrain Les altitudes d’une surface sont un des descripteurs les plus importants de la morphologie de la terre. Les données d’altitude sont utilisées dans un large éventail de domaines tels que la gestion des ressources, la gestion du risque, le génie civil, la planification urbaine… • Question de vocabulaire : MNE, MNT, MNS On peut modéliser la surface terrestre en prenant en compte la surface au sol ou en intégrant la hauteur des objets comme le bâti ou la végétation. Pour désigner ces modélisations du monde réel, on parle de modèles numériques de terrain (MNT), de surface (MNS) et d’élévation (MNE). Il n’existe pas de consensus sur les modèles numériques auxquels font référence ces termes, même entre scientifiques francophones. Il est donc important de toujours préciser ce que l’on entend par les différents termes. Dans cet ouvrage, les définitions de la directive européenne INSPIRE (voir chapitre 3, p. 105-106) précisées dans les spécifications des données d’altitude seront retenues pour différencier les modèles numériques. -- Dans les MNT, l’altitude caractérise la surface nue de la Terre (sans la végétation, les bâtiments, etc.) ou le fond de la mer (figure 2.9). -- Si les hauteurs de tous les objets placés sur le sol (parfois appelé le sursol), comme les bâtiments et la végétation, sont prises en Fondamentaux de l’information géographique
65
compte, le terme de modèle numérique de surface (MNS) est retenu par INSPIRE (figure 2.9). -- Enfin, le terme modèle numérique d’élévation (MNE) est utilisé de façon générique pour désigner aussi bien un MNT qu’un MNS. Dans ces modèles, les altitudes font référence à une origine spécifiée, souvent le niveau de la mer, pour identifier le relief, ou la surface du sol pour des objets sur la surface terrestre comme les bâtiments.
MNS MNT
ASCHAN, CUNTY, DAVOINE, 2019
Figure 2.9 : La différence entre un modèle numérique de terrain (MNT) et un modèle numérique de surface (MNS) selon la définition de la directive INSPIRE
• FOCUS : Quelques MNT
Couverture France –– BD ALTI® de l’IGN : résolution moyenne à faible de 25 mètres, de 75 mètres et de 250 mètres. –– RGE ALTI® de l’IGN : très haute résolution de 1 à 5 mètres. Couverture Europe –– EU-DEM (EU Digital Elevation Model over Europe) de l’Agence européenne pour l’environnement : résolution moyenne d’environ 30 mètres. Couverture Monde –– SRTM (Shuttle Radar Topography Mission) de la NASA : résolution moyenne d’environ 30 mètres. –– ASTER GDEM (Global Digital Elevation Model) : résolution moyenne d’environ 30 mètres.
• MNE en mode raster et vecteur Pour modéliser et visualiser le relief d’un territoire avec une très grande précision, il faudrait stocker un nombre presque infini d’observations. Les modèles numériques d’élévation utilisent un nombre plus ou moins 66
Les systèmes d’information géographique
grand d’observations en fonction du niveau de résolution pour représenter les altitudes. Ces modèles numériques peuvent être structurés de différentes façons, ce qui impacte la visualisation et les méthodes d’analyses possibles. Dans les MNE en mode raster (2,5D), la valeur prise par les cellules correspond à l’altitude (valeurs Z). Ces modèles sont les plus fréquemment rencontrés en SIG et peuvent être visualisés en 2D (figure 2.10a) ou en 3D (figure 2.10b). Les MNE en mode raster permettent de produire des mesures et des analyses, comme une analyse de visibilité à partir de différentes positions sur le territoire (voir chapitre 6, p. 250). Figure 2.10 : Visualisation en 3D d’un jeu de données raster b. Raster en 3D
ASCHAN, CUNTY, DAVOINE, 2023
a. Raster en 2D
2 km
source : IGN
Un deuxième type de modélisation en 3D peut être réalisé à partir Fig. 10, chapitre 2 – Raster 2D 3D – (110 x 41 mm) – #1 d’un réseau triangulé irrégulier (TIN, voir Focus, p. 68). Le TIN est un MNE en mode vecteur qui représente une surface composée d’un ensemble de triangles contigus ne se chevauchant pas (figure 2.11). Figure 2.11 : Visualisation en 3D d’un jeu de données TIN a. TIN triangulation de Delaunay
b. TIN en 3D
Source : RGE ALTI®, IGN.
Fondamentaux de l’information géographique
67
• FOCUS : Les réseaux triangulés irréguliers (TIN)
Un réseau triangulé irrégulier (TIN) est créé à partir d’un ensemble de points répartis dans l’espace de façon irrégulière ou régulière et dotés d’un attribut Z d’altitude. Le relief est reconstitué par une triangulation de l’ensemble des points qui sont joints par des lignes droites qui ne se croisent jamais et qui produisent ainsi une mosaïque de triangles irréguliers (figure 2.11a). Cette mosaïque est appelée une « tessellation », et peut être effectuée par différentes méthodes, telles que la triangulation de Delaunay (méthode géométrique permettant de relier les points pour former des triangles dont les angles sont les moins pointus possible). − Un des avantages d’une modélisation TIN est que la densité de l’échantillon de points utilisés pour la triangulation peut être adaptée sur le territoire pour refléter correctement le relief. Davantage de points sont nécessaires pour représenter les zones montagneuses que les zones de faibles variations d’altitude. Un autre avantage de ce modèle de données est le faible volume de données à stocker par rapport à un format raster. Effectivement, le stockage repose sur un nombre minimum de points significatifs des variations d’altitude. En revanche, les possibilités du traitement de données TIN sont plus réduites que pour un raster.
Les données recueillies par LiDAR (voir Focus, p. 69) sont des données vecteur 3D avec une représentation géométrique sous la forme d’un nuage de points en trois dimensions. Elles sont une ressource importante de la visualisation d’un territoire sous la forme d’un MNE, car ces nuages de points 3D permettent de créer des représentations très réalistes du paysage (figure 2.12). Figure 2.12 : Visualisation en 3D d’un nuage de points LiDAR Zoom sur le nuage de point
ASCHAN, CUNTY, DAVOINE, 2023
MNE à par�r d’un nuage de points LiDAR
Réalisa�on : Julien Point. Source : data.grandlyon.com
68
12, chapitre 2 – Les Fig. systèmes d’information géographique
Visualisation en 3D d’un nuage de points LiDAR – (110 x 54 mm) – #1
• FOCUS : Les données LiDAR
LiDAR (acronyme anglais de Light Detection And Ranging) est une technique de télédétection optique qui utilise la lumière laser pour échantillonner avec une très grande précision la surface de la Terre. − Le laser (aérien ou terrestre) balaye très rapidement la surface terrestre et les impulsions émises par le capteur sont réfléchies par la végétation, les bâtiments, le sol ou tout autre objet (le temps de propagation de la lumière entre le capteur et la cible est mesuré). Le résultat se présente sous la forme de données en 3D, appelées nuages de points. La densité des points dépend des capacités techniques du LiDAR (nombre de lasers émis) et des propriétés spectrales des surfaces survolées. Les jeux de données acquis par LiDAR sont généralement composés d’une très grande quantité de points et permettent de reconstituer de façon très détaillée un paysage.
Les jeux de données vecteur formés d’isohypses (isolignes d’égale altitude) peuvent également être visualisés en 3D (figure 2.13). Ces courbes de niveaux sont fréquemment représentées sur des cartes topographiques ou des cartes marines. Figure 2.13 : Visualisation de courbes de niveau en 3D
Source : RGE ALTI®, IGN.
Fondamentaux de l’information géographique
69
Le saviez-vous ?
Les jeux de données non dotées d’une information sur la hauteur ou l’altitude, comme une orthophotographie (figure 2.14a), peuvent être visualisés en 3D par « drapage » sur un MNE (figure 2.14b). Figure 2.14 : Visualisation en 3D, le drapage a. Orthophotographie
b. Orthophotographie drapée sur un MNT
Sources : BD ORTHO® et RGE ALTI®, IGN.
2.3 La modélisation d’objets discrets avec une géométrie tridimensionnelle La modélisation de phénomènes discrets (voir chapitre 1, p. 17) en 3D, où la hauteur ou la profondeur sont intégrées dans la géométrie des objets, est souvent employée comme une aide à la décision dans des domaines tels que l’aménagement du territoire, l’urbanisme, la gestion des risques. Cette modélisation 3D est, par exemple, utile pour comprendre la répartition et/ou la diffusion de phénomènes physiques dans l’espace géographique en fonction des bâtis (bruit, température, polluant, ombrage, potentiel de production de l’énergie solaire, etc.). Dans ces données 3D, la géométrie de chaque objet est décrite par les coordonnées X,Y pour localiser l’objet, et par plusieurs coordonnées Z qui représentent les différentes hauteurs de l’objet. La manière dont sont structurées les données fait que, pour une localisation X,Y, il peut y avoir plus d’une valeur d’altitude. Par exemple, pour un bâtiment, un premier point Z peut indiquer le niveau du sol, un deuxième point Z la hauteur du dixième étage et un troisième point le toit (figure 2.15). Ces modèles de données 3D nécessitent des logiciels ou des modules 70
Les systèmes d’information géographique
informatiques spécifiques dédiés à leur gestion, à leur visualisation et à leur traitement. Figure 2.15 : Représentation simplifiée de la modélisation de données 3D Description de la géométrie d’un bâtiment B25
B10 B1 C1
A1 D1
Id A1 B1 B10 B25 C1 D1 …
Étage Rez de chaussée Rez de chaussée 10e étage Toit Rez de chaussée Rez de chaussée …
X -94.582125 -94.581971 -94.581971 -94.581971 -94.581990 -94.582125 …
Y 39.099824 39.099824 39.099824 39.099824 39.099402 39.099402 …
Z 454 454 484 529 454 454 …
ASCHAN, CUNTY, DAVOINE, 2023
Polygones 3D du bâti
Les modèles 3D sont particulièrement utilisés dans des contextes d’environnements urbains. Ce sont des modèles numériques qui représentent le relief, les bâtiments, la végétation, les infrastructures, le mobilier urbain et d’autres éléments du paysage en trois dimensions (figure 2.16). Fig. 15, chapitre 2 – Modélisation 3D – (110 x 36 mm) – #1
Figure 2.16 : Modèle 3D du bâti de Lyon 100 m
Source : Grand Lyon Data, 2019. Réalisation : Julien Point.
Les données acquises par LiDAR peuvent aussi être utilisées pour modéliser des objets discrets comme les bâtiments ou les ouvrages d’art (pont, digue, etc.). L’analyse des variations d’intensité du laser permet de catégoriser la distance des objets détectés pour discerner le sol du Fondamentaux de l’information géographique
71
sursol (végétation, bâtiment, etc.). Dans ce cas, les nuages de points sont utilisés pour reconstruire les objets comme les bâtiments ou les arbres (figure 2.17). Une classification spécifique du nuage de points permet ensuite de catégoriser chaque objet. Figure 2.17 : Identification d’objets à partir d’un nuage de points 3D acquis par LiDAR
Réverbère Voiture
Arbre Bâ�ment sur pilo�s
5m Source : UMR 5600, EVS, données acquises à par�r d’un drône LiDAR
ASCHAN, CUNTY, DAVOINE, 2023
Plot délimitant le parking
Réalisa�on : Julien Point
Fig. 17, chapitre 2 – Identification d’objets à partir d’un nuage de points 3D acquis par LiDAR – (110 x 41 mm) – #1
3. Les relations des objets dans l’espace : la topologie Les systèmes de coordonnées permettent de donner une position « absolue » des objets dans l’espace. Or nous avons déjà vu dans le premier chapitre que certains modèles de données peuvent décrire les objets et les relations qui existent entre eux (voir chapitre 1, p. 37). En effet, les objets géographiques ne fonctionnent pas de manière indépendante, mais entretiennent des relations qui sont induites par leurs positions relatives dans l’espace. Quelques exemples simples peuvent illustrer les relations spatiales : la parcelle A est voisine de la parcelle B, la rivière traverse la commune, l’arrêt de bus A est à 350 mètres de l’arrêt de bus B, etc. Il est possible de distinguer : -- les relations basées sur la position relative des objets dans l’espace et, dans ce cas, on parlera de relations topologiques (qui font l’objet de cette partie de l’ouvrage) ; 72
Les systèmes d’information géographique
-- les relations basées sur la distance qui sépare les objets (qui font l’objet de la partie 4 de ce chapitre, p. 81 et suivantes). L’organisation topologique des objets géographiques constitutifs d’un jeu de données peut être intégrée numériquement dans des modèles topologiques ou de réseaux (voir chapitre 1, p. 37 et 39). Cependant, la plupart du temps, les relations entre les objets sont prises en compte dans les phases d’interrogation ou d’analyse pour répondre à des questions telles que : quelles sont les communes traversées par le cours d’eau « Le Lez » ? Combien d’équipements sportifs sont situés à moins de 500 mètres des collèges d’une communauté d’agglomération ? C’est dans la possibilité de mobiliser ces relations entre objets dans l’espace via des traitements et analyses que réside en grande partie l’intérêt des SIG.
3.1 Les relations topologiques La notion de topologie a déjà été définie (voir chapitre 1, p. 33) pour présenter les modèles de données topologiques. Or, même si les relations topologiques entre les objets géographiques n’ont pas été formalisées dans le modèle de données, elles peuvent être utilisées dans les interrogations, traitements et analyses. Les principales relations topologiques proposées dans les SIG permettent de traduire des notions d’inclusion, d’adjacence ou de contiguïté et d’intersection. • L’inclusion décrit une relation par laquelle un objet (point, ligne, polygone) est contenu dans un autre objet (point, ligne ou polygone). Elle peut traduire des situations telles que la présence d’un arbre remarquable dans un espace boisé ou l’existence d’un sentier de randonnée dans une aire naturelle protégée. • L’adjacence ou la contiguïté décrit une relation de voisinage par laquelle deux objets (ligne ou polygone) partagent au moins un segment ou un sommet en commun. Par exemple, deux objets géographiques comme des parcelles de lavande qui ont une limite ou frontière en commun sont contigus. Du point de vue de leurs géométries, deux objets sont adjacents si tout ou partie d’au moins un segment qui les compose possède les mêmes coordonnées. La connectivité est un cas particulier de la relation d’adjacence. Elle Fondamentaux de l’information géographique
73
s’applique à des réseaux routiers, hydrographiques… Elle permet de décrire les liens entre, d’une part, les objets linéaires d’un réseau (routier, par exemple) et, d’autre part, les objets ponctuels (carrefours, par exemple) pour représenter un réseau (de transport, par exemple). • L’intersection traduit la relation de croisement entre deux objets ou, d’une façon plus générale, l’existence entre deux objets d’au moins un point commun à deux objets. On considère généralement que l’intersection est une relation topologique plus générale car les objets qui entretiennent une relation d’inclusion ou d’adjacence ont forcément une relation d’intersection. Le saviez-vous ?
Les mêmes objets peuvent avoir plusieurs relations topologiques : par exemple, si A est contenu dans B, alors A intersecte aussi B puisque l’intersection est moins restrictive que l’inclusion.
3.2 Les opérateurs topologiques La caractérisation des relations d’inclusion, d’adjacence et d’intersection entre objets géographiques est basée sur l’utilisation d’opérateurs topologiques – appelés aussi opérateurs spatiaux. Ces opérateurs portent sur la géométrie des objets. Les opérateurs topologiques utilisés par les SIG sont basés sur ceux définis par l’OGC (voir Focus, p. 61). Leurs conditions d’application dépendent de la géométrie des objets et des objectifs attendus (voir tableau 2.2 et figures 2.19, 2.20 et 2.21). Les opérateurs sont basés sur les notions de limite, d’intérieur et d’extérieur qui caractérisent la géométrie de l’objet (figure 2.18) : -- Limite : ensemble des points qui définissent le contour de l’objet. -- Intérieur : ensemble des points qui définissent l’objet lui-même (forme de l’objet) sans ses limites. -- Extérieur : ensemble des points de l’espace qui ne constituent ni les limites, ni l’intérieur de l’objet. 74
Les systèmes d’information géographique
Figure 2.18 : Les notions de limite, intérieur et extérieur des géométries POINT
LIGNE
POLYGONE
Limite Extérieur
N’existe pas
ASCHAN, CUNTY, DAVOINE,2023
Intérieur
Fig. opérateurs 18, chapitre topologiques 2 – IntérieurLimiteExterieur – (110 x 50 mm) #1 Les interviennent à toutes les– étapes du processus de gestion et d’analyse de l’information : création de l’information, interrogation, traitement et analyse. -- Utilisés entre les entités d’un même jeu de données, les opérateurs topologiques permettent de vérifier la cohérence topologique des données (voir chapitre 1, p. 35). -- Mobilisés pour formuler des requêtes spatiales, les opérateurs topologiques permettent de sélectionner des objets en fonction de leur relation topologique avec d’autres objets. Par exemple, la sélection des routes qui traversent une zone protégée (voir chapitre 4, p. 178). -- La jointure spatiale, qui permet l’enrichissement sémantique des jeux de données géographiques, utilise également les opérateurs topologiques pour mettre en relation les entités de deux jeux de données différents (voir chapitre 4, p. 168). -- Lors de traitements des données, les opérateurs topologiques permettent de combiner des objets (voir chapitre 5, p. 209) en prenant en compte leur relation topologique. -- Enfin, différentes méthodes d’analyse spatiale, comme les analyses d’attractivité ou des mesures d’autocorrélation spatiale (voir chapitre 6, p. 240), mobilisent ces relations.
Fondamentaux de l’information géographique
75
Tableau 2.2 : Opérateurs topologiques selon l’OGC Relation topologique
Opérateur (en anglais) Est égal à (equals )
Inclusion
Adjacence
Type d’objets Point (P), PolyLigne (L), Polygone (S) Tous
A est égal à B s’ils sont géométriquement identiques.
Se trouve dans (within ) Inverse de « contient »
Tous
A se trouve dans B si tout point de A est un point de B (aucun point de A n’est à l’extérieur de B).
Contient (contains) Inverse de « se trouve dans »
Tous
A contient B si tout point de B est un point de A (aucun point de B n’est à l’extérieur de A).
Touche (touches )
S/S L/S, L/L P/S P/L
A touche B si les limites des objets ont au moins un point en commun et si les intérieurs n’ont pas de point commun.
Croise (crosses )
P/S, P/L, L/S, L/L
A croise B si les intérieurs ont au moins un point en commun, mais pas tous.
Chevauche (overlaps )
S/S L/L P/P
A chevauche B si A et B ont des points en commun, mais ni tous ni un seul.
Intersecte (intersects )
Tous
A intersecte B si A et B ont au moins un point en commun (intérieur ou limite).
Est disjoint de (disjoint ) Inverse de « intersecte »
Tous
A est disjoint de B s’ils n’ont aucun point en commun.
Intersection
76
Conditions
Les systèmes d’information géographique
• FOCUS : D’autres opérateurs topologiques
Les normes OGC ne sont pas adoptées par tous les logiciels SIG, d’autres opérateurs topologiques sont parfois utilisés. Parfois l’opérateur topologique « se trouve dans » et « contient » est décliné en : − « se trouve entièrement dans », qui va sélectionner A s’il est entièrement à l’intérieur de B et que A et B n’ont pas de limite commune ; − « se trouve dans » qui va sélectionner A s’il est à l’intérieur de B, même si A et B ont une limite commune. Le même type de nuance est proposé pour « contient » ou « contient entièrement ». − L’opérateur « a son centroïde dans » va sélectionner A si son centroïde (voir chapitre 4, p. 162) est à l’intérieur de B.
Fondamentaux de l’information géographique
77
B : POINT
B : LIGNE
B : POLYGONE
ex. : Sen�ers de randonnée
ex. : Espaces boisés
A contient B B contient A A se trouve dans B B se trouve dans A A est égal à B B est égal à A
A se trouve dans B B contient A
A se trouve dans B B contient A
A contient B B se trouve dans A
A est égal à B B est égal à A A se trouve dans B (B se trouve dans A)* B contient A (A contient B)*
A se trouve dans B B contient A
ex. : Lieux d’observa�on d’une espèce animale
INCLUSION
A : POINT
ex. : Arbres remarquables
A : LIGNE
ex. : Routes
A : POLYGONE
A est égal à B B est égal à A A contient B A contient B A se trouve dans B B se trouve dans A B se trouve dans A (B se trouve dans A)* B contient A NB : Les objets représentés en gris clair n’entre�ennent pas de rela�on d’inclusion. (A contient B)* Les objets représentés en noir entre�ennent une rela�on d’inclusion ex. : Aires naturelles protégées
* Ces situa�ons sont possibles, mais ne sont pas représentées sur la figure.
Fig. 19, chapitre 2 – Topologie _ Inclusion – (110 x 165 mm) – #2
78
Les systèmes d’information géographique
ASCHAN, CUNTY, DAVOINE, 2023
Figure 2.19 : Les relations topologiques d’inclusion
Figure 2.20 : Les relations topologiques d’adjacence B : POINT
ex. : Équipements spor�fs
B : LIGNE
B : POLYGONE
ex. : Ligne de tramway
ex : Zone en travaux
A touche B B touche A
A touche B B touche A
A touche B (point) B touche A (point) A touche B (segment) B touche A (segment)
A touche B (point) B touche A (point) A touche B (segment) B touche A (segment)
A : POINT
La rela�on d’adjcacence entre deux objets de type points n’existe pas
ex : Arrêts de bus
A : LIGNE
A touche B B touche A
A : POLYGONE
A touche B B touche A
ex : Rues principales
ASCHAN, CUNTY, DAVOINE,2023
ADJACENCE
A touche B (point) A touche B (point) B touche A (point) B touche A (point) A touche B (segment) A touche B (segment) B touche A (segment) B touche A (segment) NB : Les objets représentés en gris clair n’entre�ennent pas de rela�on d’adjacence. Les objets représentés en noir entre�ennent une rela�on d’adjacence ex : Square
Fig. 20, chapitre 2 – Topologie _ Adjacence – (110 x 133mm) – #2
Fondamentaux de l’information géographique
79
Figure 2.21 : Les relations topologiques d’intersection B : POINT
ex. : Lieux d’observa�on d’une espèce animale
B : LIGNE
B : POLYGONE
ex. : Sen�ers de randonnée
ex. : Réserve naturelle
A intersecte B B intersecte A A chevauche B B chevauche A A est disjoint de B B est disjoint de A
A intersecte B B intersecte A A croise B B croise A A est disjoint de B B est disjoint de A
A intersecte B B intersecte A A croise B B croise A A est disjoint de B B est disjoint de A
A intersecte B B intersecte A A croise B B croise A A est disjoint de B B est disjoint de A
A intersecte B B intersecte A A croise B B croise A A chevauche B B chevauche A A est disjoint de B B est disjoint de A
A intersecte B B intersecte A A croise B B croise A A est disjoint de B B est disjoint de A
A : POINT
ex. : Arbres remarquables
A : LIGNE
ex. : Cours d’eau
A : POLYGONE
ASCHAN, CUNTY, DAVOINE, 2023
INTERSECTION
A intersecte B A intersecte B A intersecte B B intersecte A B intersecte A B intersecte A A chevauche B A croise B A croise B B chevauche A B croise A B croise A A est disjoint de B A est disjoint de B A est disjoint de B B est disjoint de A B est disjoint de A B est disjoint de A NB : Les objets représentés en gris clair entre�ennent une rela�on inverse de l’intersec�on : «est disjoint» Les objets représentés en noir entre�ennent une rela�on d’intersec�on ex. : Zone fores�ère
Fig. 21, chapitre 2 – Topologie _ Intersection – (110 x 165 mm) – #2
80
Les systèmes d’information géographique
4. La distance entre les objets géographiques : une notion fondamentale La distance joue un rôle majeur dans le traitement et l’analyse de l’information géographique. Elle est utilisée non seulement pour des mesures « simples », comme évaluer l’éloignement ou la proximité entre deux objets géographiques, mais aussi dans de nombreuses méthodes de traitements de données et de modèles relevant de l’analyse spatiale (analyses d’accessibilité, lissage de l’information spatiale, mesures d’autocorrélation spatiale, méthodes d’interpolation…) (voir chapitre 6, p. 240). Dans les SIG, les différents types de distances s’obtiennent par calcul. Cette possibilité de calculer des distances exploite la dimension « localisation » des jeux de données définis dans un système de coordonnées (voir p. 47). Certains calculs de distance utilisent également la capacité des SIG à gérer les relations topologiques (voir p. 73). Mesurer la distance entre la place Bellecour et la station de métro Hénon sur la colline de la Croix-Rousse à Lyon peut ainsi paraître relativement simple comme question à résoudre avec un SIG. Or, si l’on demande à plusieurs personnes de calculer la distance entre ces deux lieux, il est certain que, sans consigne précise (sur le type de distance à mesurer, le ou les jeux de données à utiliser, la méthode à appliquer…), les résultats obtenus seront variables. Les divergences seront liées aux différents choix à opérer pour calculer une distance : -- Quel est le point de départ sur la place Bellecour ? La statue équestre de Louis XIV au centre de la place, l’office du tourisme, l’entrée de la station de métro (et laquelle) ? -- Le calcul correspond-il à une distance à vol d’oiseau ou à une distance sur un réseau (de transport par exemple) ? -- Le calcul porte-t-il sur des jeux de données définis dans un système de coordonnées géographiques ou projetées ? -- Les jeux de données sont-ils en mode vecteur ou en mode raster ?
Fondamentaux de l’information géographique
81
OCUS : Choix de points d’origine et d’arrivée pour les entités • Fde géométrie surfacique lors du calcul de distance
Les calculs de distance entre lieux se font souvent implicitement sur des points de départ et d’arrivée. Si les entités sont ponctuelles, aucun choix n’est nécessaire. Pour des entités surfaciques (polygones), plusieurs choix sont possibles pour définir le point de départ et/ou le point d’arrivée : –– utiliser un point situé dans le polygone et qui le « représente », cela peut être son centroïde (voir chapitre 4, p. 162) ou un lieu remarquable (le centre du chef-lieu d’une commune, la statue équestre de Louis XIV sur la place Bellecour) ; –– utiliser l’un des points constitutifs de la limite des polygones. Il faut dans ce cas introduire la notion de point le plus proche (figure 2.22).
A
B
Entre les centroïdes de A et de B
A
B
Entre le centroïde de A et le point le plus proche de B
A
B
ASCHAN, CUNTY, DAVOINE, 2023
Figure 2.22 : Trois différentes façons de considérer la distance entre deux entités de géométrie surfacique
Entre les deux points les plus proches de A et de B
Il est nécessaire de connaître les différents types de distance qu’il est possible de calculer dans les SIG mais aussi de voir comment la distance est prise en compte dans les analyses. Fig. 22, chapitre 2 – Trois différentes façons de considérer la distance entre deux entités de géométrie surfaciques – (110 x 47 mm) – #1
4.1 Les types de distances dans les SIG L’objectif des calculs de distances est de donner une valeur approximative des distances effectivement parcourues sur le terrain par des personnes, par des marchandises, des volumes d’eau. Ces valeurs de distance ne correspondent pas exactement aux distances « réelles » car tout déplacement est régi par un ensemble de choix (par exemple : choix d’un itinéraire plus « agréable » par une personne) qu’il n’est pas possible de modéliser. 82
Les systèmes d’information géographique
Plusieurs catégories de distances peuvent être calculées dans les SIG en fonction des données qui sont prises en compte pour le calcul : -- (1) à partir d’un réseau (vecteur) ou (2) assimilé (raster) ; -- (3) à partir des coordonnées des lieux ; -- (4) à partir des relations topologiques des objets en mode vecteur. • Distances calculées à partir d’un réseau en mode vecteur Les distances calculées à partir d’un réseau (de transport, hydrographique, d’approvisionnement…) ont pour ambition de mesurer les « véritables » distances parcourues en empruntant un réseau. C’est pourquoi les distances réseaux sont parfois appelées, de manière abusive, des distances empiriques. Dans les faits, la distance calculée donne une approximation de la distance terrain, celle-ci ne pouvant être connue que par un enregistrement de déplacements sur le terrain. Les distances sur un réseau peuvent être calculées dans différentes unités de mesure : -- en distance exprimée en unités de longueur (mètres, kilomètres, miles…), souvent appelée distance kilométrique ; -- en distance-temps exprimée en unités de temps (heures, minutes…) ; -- en distance-coût, qui peut être exprimée sous forme de coût monétaire (prix du ticket de métro pour aller de la station de métro Hénon au métro place Bellecour). Ce coût peut aussi être fonction de l’effort nécessaire à fournir pour effectuer le déplacement, lié à la friction (exemple : le désagrément différencié du déplacement dans les rues pour un piéton entre une zone piétonne et une petite rue à la circulation automobile dense) ou à la rugosité du terrain (topographie, pente, obstacles, état des chemins…). La distance-coût à vélo entre la station de métro d’Hénon et la place Bellecour pourrait ainsi être évaluée en quantité de calories nécessaires pour l’effort physique ou encore en fonction d’un calcul qui combine la distance kilométrique par le chemin le plus court et le dénivelé cumulé entre les deux lieux pour intégrer la rugosité du terrain. Dans les SIG, ces trois distances (kilométrique, temps, coût) peuvent être calculées à partir de jeux de données modélisés sous la forme d’objets graphiques ponctuels et linéaires dont la connectivité est décrite dans un modèle topologique de réseau (voir chapitre 1, p. 39). Pour calculer une distance à partir d’un réseau en SIG, il est nécessaire d’avoir défini au préalable certains paramètres et/ou attributs dans le jeu de Fondamentaux de l’information géographique
83
données lors de la modélisation. Par exemple, les valeurs de distances entre la station de métro Hénon et la place Bellecour varient selon le type de réseau, support aux calculs de distance, et selon les paramètres choisis (figure 2.23, tableau 2.3). Calculer les distances sur un réseau est souvent long et fastidieux, et malgré les apparences, la précision est relative et dépend de différents facteurs. Premièrement, les tracés des lignes (appelés liens en modélisation réseau) qui composent le réseau, sont une simplification du tracé réel du réseau sur le territoire. Cette simplification est liée à l’échelle de définition du jeu de données et au niveau de généralisation du tracé des lignes (voir Focus, p. 28-29). La longueur d’une ligne dans un réseau modélisé a donc tendance à être plus courte que celle du réseau sur le territoire. Deuxièmement, les attributs utilisés pour calculer les distances sont souvent des valeurs moyennes (exemple : vitesse de 70 km/h en moyenne sur une route nationale), alors que l’on sait que la vitesse peut varier en fonction du dénivelé, de la largeur, de l’état de la route, etc. Tableau 2.3 : La variété des distances calculées sur des réseaux entre la station de métro Hénon et la place Bellecour à Lyon Unité de mesure Kilométrique Kilométrique
Type de réseau
Mode de déplacement À pied
Le chemin le plus court
2,8 km
Viaire (rues)
En voiture
Le chemin le plus court
4,5 km
Viaire (rues)
En voiture
Le chemin le plus rapide, un samedi soir à 20 heures
19 minutes
Réseau de transport en commun
En métro
Le chemin le plus rapide, à l’heure de pointe
12 minutes
Viaire (rues)
En voiture
Le chemin le moins coûteux, coût au km estimé à 0,26 euro
1,21 euro
Coût
84
Distance
Viaire (rues)
Temps
Temps
Paramètres
Les systèmes d’information géographique
Figure 2.23 : Deux distances sur le réseau de rues entre le carrefour du métro Hénon et la place Bellecour, à Lyon
Place Bellecour
Distance par le chemin le plus court :
à pied : 2,8 km
500 m
Place Bellecour
ASCHAN, CUNTY, DAVOINE, 2023
500 m
Hénon
© IGN
Hénon
en voiture : 4,5 km
Fig. 23, chapitre 2 – Deux distances sur le réseau de rues à Lyon – (110 x 56 mm) – #1
OCUS : Les paramètres de calcul d’une distance sur un réseau • Fen mode vecteur
La modélisation d’un réseau est plus complexe qu’un modèle vecteur simple (voir chapitre 1, p. 39). Les longueurs des tronçons qui forment le réseau peuvent être calculées automatiquement à partir de la géométrie des objets et de leurs positions dans un système de coordonnées. Or, selon le niveau de précision souhaité par l’utilisateur pour estimer la distance empirique, différentes informations qualifiant les tronçons (on parle alors de liens valués) peuvent être renseignées lors de la modélisation numérique du réseau. Des paramètres fréquemment intégrés dans des modèles de réseau de transport permettent d’illustrer les choix possibles : Pour des distances sur un réseau viaire : − les tronçons à sens unique (pour calculer les distances à parcourir par un véhicule) ; on parle alors d’un réseau orienté (voir chapitre 1, p. 41) ; − la vitesse de déplacement moyenne ou maximale sur chaque tronçon du réseau en fonction des modes de déplacement (à pied, à vélo, en voiture, en poids lourd…) ; − la congestion des tronçons du réseau en fonction de l’horaire de déplacement. Pour des distances sur un réseau de transport en commun : − le coût pour les itinéraires ; − le temps de déplacement entre deux stations ; Fondamentaux de l’information géographique
85
− le temps d’attente moyen à chaque point d’arrêt ;
− le temps de correspondance entre deux lignes. Ces informations permettent de calculer la distance par le plus court chemin selon le critère d’optimisation fixé au départ, par exemple : − optimisation de la distance-temps pour laquelle il est nécessaire de disposer au minimum de la distance kilométrique et de la vitesse moyenne ; − optimisation de la distance-coût en voiture pour laquelle il est nécessaire de disposer au minimum de la distance kilométrique et d’une estimation du coût kilométrique pour un véhicule.
Le saviez-vous ?
Dans le langage courant, il est fréquent de dire « le GPS m’a fait passer par là ». Il s’agit d’un abus de langage. En effet, le GPS est un système qui permet à un capteur (intégré par exemple dans un téléphone ou une montre connectée) d’établir une position à la surface du globe. Mais ce capteur doit être associé à une base de données géographiques décrivant généralement le réseau routier pour pouvoir proposer un itinéraire. Cet itinéraire est calculé à partir de la position (point de départ) et de la base de données du réseau routier, qui permet de géolocaliser le point d’arrivée. Le calcul se fait grâce à une application apparentée à un SIG qui utilise notamment un algorithme du plus court chemin en choisissant d’optimiser un critère temps, distance, coût (par exemple, la quantité de CO2 émise sur le trajet avec un mode de déplacement particulier).
• Distances calculées à partir d’un réseau en mode raster À partir d’un jeu de données raster qui stocke des informations relatives à un réseau, il est possible de mettre en œuvre un calcul de distance-coût. Les attributs des cellules des jeux de données raster sont utilisés pour représenter de façon numérique un réseau. La valeur des cellules représente une valeur de coût. Plus la valeur est forte plus le coût de franchissement (appelé parfois niveau de friction) est important. Ainsi, chaque cellule située sur le réseau est dotée d’une valeur représentant le coût de déplacement différente de celle des cellules situées à l’extérieur du réseau. Dans 86
Les systèmes d’information géographique
la situation la plus simple, les cellules situées sur le réseau prennent par exemple une valeur de « 1 », représentant un coût faible, et les cellules hors du réseau (bâti, cours d’eau, champs agricoles…) une valeur de « 1 000 », représentant un coût tellement élevé qu’elles sont infranchissables. On peut préciser la caractérisation des cellules en ajoutant d’autres catégories d’attributs. Au lieu de préciser qu’une cellule est située sur le réseau, les attributs peuvent distinguer par exemple des niveaux hiérarchiques des tronçons du réseau (1 pour une route nationale, 2 pour une route départementale, 3 pour une voie communale). Le niveau de friction (voir p. 86) peut varier en fonction du mode de déplacement. Pour un déplacement à pied, on peut attribuer des valeurs de friction différentes en fonction du bruit, du sentiment d’insécurité… Plus la friction ou le désagrément lors du déplacement dans la rue sont considérés forts, plus l’attribut de chaque cellule localisée sur le tronçon aura une valeur élevée, c’est-à-dire un coût de franchissement élevé (figure 2.24). Figure 2.24 : Le réseau dans un raster. Exemple des niveaux de friction attribués aux tronçons de rue pour évaluer la distance-coût à pied 1
1
3
3 2 200 m
École élémentaire Paul Émile Victor, lieu d’arrivée Familles, lieux de départ Source des données : Opendata Grand Lyon, Géoportail, IGN.
Jeu de données raster : degré de friction en fonction de la perception de la pénibilité piétonne (sécurité, bruit, pente…) Table attributaire Valeurs du jeu de données raster des pixels 1 Valeur Effectif 10 2 172 1 50 5 827 10 1 000 1 878 50 245 591 1 000 Itinéraire le moins pénible pour un piéton (coût cumulé de friction minimal)
Départ
Arrivée
Famille 1 Famille 2 Famille 3
École élémentaire Paul Émile Victor École élémentaire Paul Émile Victor École élémentaire Paul Émile Victor
Coût cumulée de friction minimal 4 513 4 469 3 942
ASCHAN, CUNTY, DAVOINE, 2023
2 Taille des rues Petite rue Rue moyenne Grande rue
À partir d’un tel jeu de données raster, il est possible de calculer la Fig. 24, chapitre 2 – Degré de friction – (110 x 74 mm) – #1 distance-coût la plus faible pour se rendre d’un point de départ (associé à la cellule raster la plus proche) à un point de destination (une école Fondamentaux de l’information géographique
87
dans l’exemple). Le calcul s’effectue par un algorithme qui identifie l’itinéraire passant par les cellules, telles que la somme de leurs attributs soit minimale (figure 2.24). • Distances liées au système de coordonnées Les distances le plus fréquemment calculées et utilisées dans les SIG sont des distances exprimées en unités de longueurs (mètres, kilomètres, pieds, miles…). Ces distances, parfois appelées métriques, sont directement liées au système de coordonnées, car elles sont calculées à partir des coordonnées des points d’origine et d’arrivée.1 Il est indispensable de bien vérifier le type de système de coordonnées dans lequel sont définies les données qui seront utilisées pour calculer les distances. À partir des coordonnées projetées, deux types de distances sont fréquemment calculés : la distance euclidienne, appelée aussi distance à vol d’oiseau, et la distance rectilinéaire, appelée aussi la distance de Manhattan. La distance orthodromique, dite aussi distance géodésique, est quant à elle, toujours calculée à partir de coordonnées géographiques. • La distance euclidienne (distance à vol d’oiseau) est la distance la plus courte entre deux points dans un repère orthonormé (comme le sont les systèmes de coordonnées projetées). Cette distance peut être matérialisée par une ligne droite entre deux points (figure 2.25a). Cette distance n’est pas la véritable distance qui serait parcourue en une parfaite ligne droite sur la surface terrestre. En effet, ainsi calculée, elle correspond à un déplacement sur une surface parfaitement plate et plane (appelé espace isotropique). En intégrant la 3D dans le calcul de la distance, la valeur de celle-ci peut différer de façon substantielle si le relief est très marqué. C’est bien pour cela que la distance euclidienne est communément appelée la distance « à vol d’oiseau ». En SIG, à condition de disposer d’un MNT du territoire (voir p. 65), il est possible de calculer une distance euclidienne 3D qui intègre les dénivelés sur le tracé entre les deux points (figure 2.25b). Par exemple, la distance euclidienne 3D tenant compte des variations d’altitude entre la station de métro Hénon et la place Bellecour est de 2 437 mètres. Elle est supérieure de 13 mètres à la distance euclidienne en 2D, qui est de 2 424 mètres. 1. Les ouvrages Analyse spatiale. Les localisations [Pumain et Saint-Julien, 2010] et Manuel de géographie quantitative [Feuillet, Cossart et Commenges, 2019] permettent d’approfondir les aspects théoriques et les méthodes de calcul des distances mathématiques, qui ne seront pas abordés ici.
88
Les systèmes d’information géographique
Cette distance euclidienne en 3D est particulièrement intéressante à utiliser dans des terrains très accidentés où les écarts avec la distance à vol d’oiseau peuvent être significatifs. • La distance rectilinéaire (distance de Manhattan) est la distance calculée entre deux points le long d’axes verticaux et horizontaux. Dans les jeux de données projetées, ces axes perpendiculaires correspondent aux directions des axes des abscisses et des ordonnées définis dans le système de coordonnées du jeu de données. Elles sont souvent assimilées à des directions Nord/Sud et Est/Ouest (figure 2.25a). Figure 2.25 : Les distances euclidienne (2D et 3D) et rectilinéaire entre la station de métro Hénon et la place Bellecour (statue équestre de Louis XIV), à Lyon a. Distances euclidienne et rectilinéaire
b. Profil topographique du tracé euclidien (distance euclidienne 3D) entre la station de métro Hénon et la Place Bellecour
Pour certaines questions, ces distances calculées à partir des coordonnées constituent des approximations parfois peu représentatives des distances empiriques (les distances calculées à partir d’un réseau sont aussi des approximations, mais leurs valeurs sont souvent plus proches des valeurs de distances empiriques). La distance euclidienne sous-estime systématiquement la vraie distance parcourue, sauf dans des situations Fondamentaux de l’information géographique
89
particulières où il s’agit de calculer la distance entre deux lieux proches reliés par un chemin parfaitement droit. Par exemple, la distance euclidienne entre la place Bellecour et la station de métro Hénon est inférieure, en 2D comme en 3D (tableau 2.4), à la distance empirique à pied (2,8 km, voir tableau 2.3, p. 84). La distance rectilinéaire a tendance à surestimer la distance kilométrique sur un réseau. Ainsi, la distance rectilinéaire (voir tableau 2.4) entre Bellecour et la station de métro Hénon est proche de la distance calculée sur le réseau et parcourue à pied (tableau 2.3). La distance euclidienne est très adaptée pour estimer les distances empiriques par la route dans des régions de plaine caractérisées par un réseau routier en lignes droites entre les agglomérations (par exemple, le réseau routier dans la plaine de la Beauce en France ou de Scanie au sud de la Suède). En revanche, pour des réseaux de transport dans des régions plus vallonnées ou en milieu urbain, la distance rectilinéaire peut donner une meilleure approximation d’une distance sur un réseau. Malgré ces approximations, l’avantage de ces distances euclidiennes et rectilinéaires est la simplicité et la rapidité de calcul d’une part, et le fait qu’elles nécessitent de ne disposer que des coordonnées projetées d’autre part (et pas d’une modélisation complexe de réseau comme vu précédemment). Tableau 2.4 : Distances euclidiennes et rectilinéaires entre la place Bellecour et la station de métro Hénon à la Croix-Rousse à Lyon Jeu de données Vecteur ou raster Deux jeux de données : vecteur et raster Vecteur *
Distance Euclidienne (à vol d’oiseau) Euclidienne 3D
Coordonnées Coordonnées Système de en mètres du en mètres du Distance coordonnées point de départ point d’arrivé (X,Y)* (X,Y)** 2,424 km
Lambert93
Rectilinéaire (Manhattan)
842408, 6519233
2,437 km
2,826 km
Point de départ : métro Hénon (croisement du boulevard des Canuts et de la rue Jacques-Louis Hénon). Point d’arrivée : place Bellecour (statue équestre de Louis XIV).
**
90
841985, 6521636
Les systèmes d’information géographique
• Une dernière distance souvent calculée par les SIG est la distance orthodromique, appelée aussi distance géodésique. C’est la plus petite distance courbe entre deux points sur une sphère. Cette distance est calculée à partir des coordonnées géographiques (voir p. 47). Elle est notamment utilisée pour calculer des distances longues sur la surface terrestre. Les itinéraires décrits par cette distance sont couramment utilisés dans la navigation maritime et l’aviation. Sur un trajet transocéanique, la distance orthodromique est bien plus courte que la distance avec un cap constant (appelée distance loxodromique). On peut l’illustrer en comparant les deux distances entre le Cap de Bonne Espérance (Afrique du Sud) et Perth (Australie). Sur ce trajet, la distance avec un cap constant est de 4 727 milles marins (= 8 755 kilomètres), alors que la distance orthodromique, qui tient compte de la forme sphérique de la Terre, est bien plus courte avec 4 533 milles marins (= 8 396 kilomètres), soit un gain de 359 milles marins ou 194 kilomètres (figure 2.26). L’écart entre ces deux distances s’agrandit d’autant que l’itinéraire considéré s’éloigne de l’équateur. Figure 2.26 : La distance orthodromique pour mesurer des longues distances : distance entre le Cap de Bonne Espérance (Afrique du Sud) et Perth (Australie) 180° 150° 120° 90° 60° 30°
0°
30° 60° 90° 120° 150° 180°
0°
D
A
30° 0°
0°
120°
D Longitude de départ : 21,7° E Latitude de départ : 34,6° S
30°
D
A
60°
A Longitude d’arrivée : 115,8° E Latitude d’arrivée : 32,1° S
ASCHAN, CUNTY, DAVOINE, 2023
60°
Distance loxodromique (8 755 km) Distance orthodromique (8 396 km)
Fig. 26, chapitre 2 – La distance orthodromique pour mesurer des longues distances – (110 x 50 mm) – #1
Fondamentaux de l’information géographique
91
• Distances liées à la topologie Les distances calculées à partir de coordonnées sont des distances parfois qualifiées de mathématiques. D’autres distances mathématiques existent, il s’agit des distances topologiques. Ces distances sont principalement liées aux relations topologiques d’adjacence ou de contiguïté (voir p. 73) et la connectivité dans un réseau (voir chapitre 1, p. 41). Ces distances servent à mesurer des relations entre objets dans un espace discret (voir chapitre 1, p. 17). Elles sont donc principalement utilisées avec des jeux de données vecteur, même s’il n’est pas impossible de parler de distance topologique entre des cellules d’une couche raster. Lorsque les distances topologiques sont utilisées pour un réseau, la connectivité définit la distance entre les nœuds en fonction du nombre de liens à emprunter pour aller d’un lieu à un autre. On parle d’ordre de connexité pour décrire le nombre de liens entre deux nœuds (figure 2.27a) Par exemple, entre la station de métro Hénon et la station de métro Bellecour, il y a une distance topologique de 5 sur le réseau de métro (3 liens entre Hénon et Hôtel de Ville + 2 liens entre Hôtel de Ville et Bellecour) (tableau 2.5 et figure 2.27a). Tableau 2.5 : Distance topologique entre la station de métro Bellecour et la station de métro Hénon à Lyon Jeu de données Vecteur
92
Distance Topologique
Type de réseau Réseau de transports en commun
Mode de déplacement Métro
Les systèmes d’information géographique
Paramètre
Distance
Le chemin le plus direct
5 (nombre de liens à parcourir)
Figure 2.27 : Le principe des distances topologiques de connectivité et de contiguïté a. Distance topologique sur un jeu de données vecteur réseau : le cas du métro de Lyon Hénon
Station de métro de référence (Bellecour) Ordre de connexité par rapport à la station de métro de référence Ordre 1 (connexion directe) Ordre 2 (connexion par 2 liens) Ordre 3 (connexion par 3 liens)
Croix-Rousse Croix-Paquet Valmy Gorge de Loup
Hôtel de ville
Foch
Liens entre les stations Bellecour et Hénon Station au-delà de l’ordre 3
Cordeliers Vieux Lyon
Place Guichard
Bellecour Ampère
Guillotière
Saxe Gambetta Garibaldi
Perrache Jean Macé
b. Distance topologique par contiguïté pour des objets de géométrie surfacique (l’exemple des IRIS du 6e arrondissement de Lyon) ou de cellules raster Type de contiguïté Objet/cellule de référence Contiguïté au sens strict par un segment commun aux deux objets/cellules Contiguïté au sens large par seulement un point commun aux deux objets/cellules
En mode raster
En mode vecteur
Ordre de contiguïté (sens large) Objet/cellule de référence Ordre 1 Ordre 2 Ordre 3
En mode raster
En mode vecteur
ASCHAN, CUNTY, DAVOINE, 2023
c. Ordre de contiguïté pour des objets de géométrie surfacique (l’exemple des IRIS du 6e arrondissement de Lyon) ou de cellules raster
Fig. 27, chapitre 2 – Le principe des distances topologiques de connectivité et de contiguïté – (110 x 150 mm) – #1
Fondamentaux de l’information géographique
93
Pour éviter les erreurs, pensez-y !
• Les distances calculées à partir d’un réseau vecteur ou raster ne sont pas nécessairement très réalistes : ce sont des approximations de la « vraie distance », qui dépendent en particulier du niveau de généralisation des tracés d’un jeu de données vecteur et de la résolution d’un jeu de données raster. • Les distances euclidiennes ou rectilinéaires simplifient beaucoup la réalité, mais elles peuvent être des mesures utiles à la représentation d’une distance empirique. Malgré leur simplicité, elles donnent souvent de bons résultats. • Il n’est pas possible calculer une distance euclidienne ou rectilinéaire à partir d’un jeu de données défini dans un système de coordonnées géographiques. Il faut que le jeu de données soit défini dans un système de coordonnées projetées. • Les distances euclidienne ou rectilinéaire ne sont pas appropriées pour calculer une distance intercontinentale, il faut dans ce cas privilégier une distance orthodromique.
4.2 La prise en compte des relations de distances dans les analyses La distance entre deux lieux joue un rôle important dans leurs relations. Par exemple, généralement, le nombre de déplacements des individus est plus important sur des distances courtes que sur des longues distances, les effets d’une source de pollution diminuent quand on s’en éloigne, etc. La distance est un facteur fondamental de l’intensité des relations entre les lieux, c’est-à-dire des interactions. Le saviez-vous ?
En 1970, Waldo Tobler, professeur de géographie et de cartographie à l’Université de Californie, a énoncé la « première loi de la géographie » : « Tout interagit avec tout, mais deux objets proches ont plus de chances de le faire que deux objets éloignés. »
94
Les systèmes d’information géographique
L’effet de la distance dépend du phénomène étudié et du contexte géographique. Par exemple, la distance n’a pas le même effet sur les pratiques de déplacement des consommateurs pour des biens et des services en milieu rural, où les distances parcourues pour un service peuvent être élevées, qu’en milieu urbain1. Dans un très grand nombre d’outils d’analyse et de modélisation, l’effet décroissant de la distance est central. Cet effet est intégré dans des traitements permettant par exemple d’effectuer un lissage des données (voir chapitre 4, p. 187), d’identifier des zones d’attraction, d’interpoler des données pour obtenir des informations manquantes, d’évaluer le niveau d’organisation spatiale des objets dans l’espace géographique par des mesures d’autocorrélation spatiale, pour n’en mentionner que quelques-uns (voir chapitre 6, p. 240). Il est important de noter que ces analyses ont pour objectif de traduire la réalité de façon simplifiée (schématisée), puisque bien souvent d’autres facteurs que l’éloignement à la source contribuent à expliquer l’intensité de l’effet observé. Par exemple, une pollution de l’air émanant d’une usine d’incinération d’ordures ménagères ne diminue pas d’intensité seulement en fonction de la distance à la source, mais aussi en fonction des conditions météorologiques, du relief, etc. Dans les analyses de phénomènes qui sont influencés de manière décroissante par la distance, il est nécessaire de choisir une fonction mathématique qui traduit correctement cette décroissance. En effet, selon les phénomènes, l’effet décroissant de la distance n’est pas le même, ce qui implique une connaissance, un « jugement informé », du phénomène à analyser ou à modéliser dans un SIG afin de choisir la bonne fonction. Ainsi, au-delà des fonctions décroissantes linéaires de la distance, d’autres fonctions mathématiques peuvent être mobilisées pour traduire un effet de la distance, par exemple une fonction de puissance. Enfin, dans certains cas, on utilise une distance seuil qui traduit un effet « homogène » constaté « jusqu’à une certaine distance ». Ces différentes fonctions sont intégrées dans différentes analyses proposées dans les logiciels SIG.
1. L’ouvrage Analyse spatiale. Les interactions [Pumain et Saint-Julien, 2010b] peut être consulté pour approfondir les connaissances sur le rôle de la distance sur les relations entre des lieux.
Fondamentaux de l’information géographique
95
Le saviez-vous ?
Les outils SIG qui intègrent des fonctions traduisant l’effet de la décroissance de la distance s’appuient sur les distances euclidienne, rectilinéaire ou topologique, mais pas sur des distances calculées sur un réseau.
• La décroissance linéaire de l’effet de la distance L’effet décroissant implique que, plus un objet géographique est éloigné d’un lieu d’origine, moins l’effet du phénomène se produisant au lieu d’origine se fait sentir (figure 2.28a). On utilise alors une fonction linéaire décroissante (eij = – a dij + b) où i et j désignent deux lieux quelconques, eij est l’effet de la distance et dij la distance. Par exemple, le bruit d’un avion diminue selon une fonction linéaire décroissante de la distance à partir de la trajectoire de vol (hypothèse simplificatrice qui correspond à une situation en laboratoire, car la propagation du bruit ne dépend pas seulement de la distance, mais aussi d’autres facteurs, comme la direction et la force du vent par exemple). • La décroissance, « puissance » de l’effet de la distance Le nombre de clients venant des différents quartiers d’une ville et fréquentant un magasin de produits biologiques serait plutôt décrit par une fonction décroissante « puissance ». Les habitants des quartiers très proches auront une tendance bien plus importante à fréquenter le magasin que des résidents des quartiers plus éloignés, ce qui pourrait se traduire par une fonction inverse. La fonction inverse (eij = 1/dij où i et j désignent deux lieux quelconques) est donc utilisée dans des situations où l’effet de la distance décroît très rapidement (figure 2.28b).
96
Les systèmes d’information géographique
Figure 2.28 : Des fonctions mathématiques pour traduire l’effet décroissant de la distance
a. Fonc�on décroissante linéaire
-
40
10
20
10
30
+ 40 dij : distance
eij = -a dij + b
eij : intensité de l’effet de la distance*
50 40 30 20 10
0
50 30 20
-
10
eij =
20
1 dij
30
12,5
+ 40 dij : distance
eij : intensité de l’effet de la distance*
b. Fonc�on décroissante « puissance » (ou fonc�on inverse) ∞ 50
25 16,7 12,5
0
50 25 16,7
Fig. 28, chapitre 2 – Effet fonction de la distance – (105 x 170 mm) – #1
c. Distance seuil
-
30
+
dij : distance
eij : intensité de l’effet de la distance*
1
0
1
ASCHAN, CUNTY, DAVOINE, 2023
97
Fondamentaux de l’information géographique
• Les seuils de distance Pour certains phénomènes géographiques, on peut définir très simplement la distance prise en compte par un seuil de distance. Par exemple on peut chercher à identifier les espaces naturels protégés situés à moins d’un kilomètre du tracé de l’autoroute. Dans ce cas, tous les objets (si le jeu de données est en mode vecteur) ou toutes les cellules (si le jeu de données est en mode raster) situés à l’intérieur du seuil de distance défini seront pris en compte dans l’analyse et de la même manière. On parlera moins d’effet de la distance sur le phénomène lorsque l’on mobilise une distance seuil. Il est plus courant d’utiliser une distance seuil lors de la réalisation de cartographies lissées d’un phénomène, comme la répartition de cas de grippes aviaires dans des exploitations agricoles (voir chapitre 4, p. 188). Dans ce cas, il est nécessaire de définir un rayon fixe, qui est la distance à laquelle un point est pris en compte dans la valeur de la cellule du raster contenant le résultat du lissage. Les seuils de distance sont également mobilisés dans de nombreuses analyses simples dans les SIG : dans des requêtes spatiales (voir chapitre 4, p. 178) pour chercher les objets situés à « une distance inférieure à » ou « dans un rayon de ». Elles sont également utilisées pour la création de « zones tampons » (voir chapitre 5, p. 203). Notions à maîtriser
• Systèmes de coordonnées : systèmes de coordonnées géographiques – systèmes de coordonnées projetées – géoïde – ellipsoïde – méridien d’origine – système géodésique (datum) – coordonnées X,Y – latitude/longitude – projection – surface de projection (projection conique, projection cylindrique, projection azimutale) – altération (projection conforme, projection équivalente, projection aphylactique) – WGS84 – Lambert93 – code EPSG. • Troisième dimension : 2,5D – 3D – coordonnée Z – altitude – MNE – MNS – MNT – modélisation de surface – LiDAR – TIN – isoligne. • Topologie : inclusion – adjacence – intersection – contiguïté – connectivité – opérateurs spatiaux ou opérateurs topologiques. • Distance : distance empirique – distance sur un réseau – liens valués – friction – distance euclidienne (à vol d’oiseau) – distance rectilinéaire
98
Les systèmes d’information géographique
(de Manhattan) – distance orthodromique (géodésique) – distance topologique – effet décroissant de la distance – fonction décroissante linéaire de la distance – fonction inverse de la distance – distance seuil. Pour réviser
1. Quel peut être le système de coordonnées associé aux coordonnées suivantes ? a. 5° 43’ 4,9’’Nord et 4°55’ 10,3’’Est b. 849 309,06 m et 6 514 977,88 m Précisez s’il s’agit de coordonnées géographiques ou projetées et donnez le nom exact du système de coordonnées. À côté de quelle grande ville se situe le point défini par ces coordonnées ? 2. Pourquoi un système de coordonnées géographiques s’appuie-t-il sur un ellipsoïde ? 3. Dans un SIG, pourquoi est-il important d’utiliser des jeux de données définis dans un système de coordonnées projetées ? 4. Donnez les définitions des modèles de données suivants : 2D, 2,5D, 3D. 5. Qu’est-ce qu’un TIN ? Comment est-il construit ? 6. Précisez les différences entre MNT et MNS. Qu’appelle-t-on MNE ? 7. Quelles relations topologiques peut-on utiliser pour décrire les situations suivantes ? a. La maison de Monsieur Durand est située sur les parcelles n° 14 et 15. b. Il y a une cabane dans la forêt. c. La route nationale 7 traverse les villes de Vienne et de Valence. d. Saint-Martin d’Hères, Gières et La Tronche sont des communes voisines de Grenoble. e. La rivière suit les limites des parcelles. 8. Quels opérateurs doit-on utiliser pour décrire des relations d’inclusion ? 9. Expliquez les différences entre les opérateurs suivants : a. « À l’intérieur » et « Contient ». b. « Intersecte » et « Croise ».
Fondamentaux de l’information géographique
99
c. « Est égal à » et « Chevauche ». d. « Croise » et « Touche ». e. « Intersecte » et « Touche ». f. « Contient » et « Intersecte ». 10. De quelles données devez-vous disposer pour calculer une distance (en kilomètres) : a. sur un réseau de transport ? b. de Manhattan ? c. orthodromique ? 11. Quel est le type de relations de distance prises en compte dans l’établissement d’une zone d’un rayon de 500 mètres autour d’un point d’eau ? À quel type de distance correspondent ces 500 mètres ? 12. Comment l’échelle influence-t-elle la façon de modéliser un phénomène ?
100
Les systèmes d’information géographique
Chapitre 3 Intégration de données géographiques dans les SIG Objectifs
• Connaître les principales sources et types de données géographiques. • Savoir intégrer des données de terrain ou de capteur dans les SIG. • Comprendre le processus de production de données géographiques. • Savoir créer des données géographiques raster et vecteur. • Connaître l’utilité et le contenu des métadonnées. • Savoir identifier les principaux formats de données utilisés par les SIG. • Comprendre l’intérêt de la structuration des données sous forme de base de données.
Le recueil et la structuration des données constituent les tâches les plus longues et fastidieuses dans un projet SIG. S’il existe de nombreux fournisseurs de données qui mettent à disposition des jeux de données géographiques directement intégrables dans un SIG, il est souvent nécessaire de transformer des données brutes ou d’en créer de nouvelles. Le terme « données géographiques » inclut ici à la fois les données géographiques définies dans un système de coordonnées et les données
statistiques qui viennent enrichir les jeux de données géographiques, et en particulier les jeux de données vecteur. Lors d’un projet SIG, l’acquisition de données est une étape particulièrement importante qu’il ne faut pas négliger. Les données utilisées et intégrées dans le SIG doivent être en adéquation avec les objectifs attendus : quels sont les cas d’utilisation du SIG ou à quels usages doit-il répondre ? Quelles questions ou quels problèmes doit-il traiter ? La réflexion sur les données est donc un préalable. Elle doit permettre d’identifier les sources de données existantes, les données à créer, ainsi que les traitements à effectuer sur ces données afin de les adapter au projet ciblé. Dans cette étape cruciale, il est également important de s’interroger sur le niveau de précision de la position des objets dans l’espace de représentation, ainsi que sur le niveau de détails de leur forme géométrique en fonction de l’échelle cartographique par laquelle les objets du monde réel doivent être représentés. Ce chapitre commence par une présentation des jeux de données géographiques disponibles. L’accès à ces données, produites pour des objectifs variés, s’est aujourd’hui largement ouvert et prend différentes formes (géocatalogues, services Web…). Lorsque ces jeux de données ne permettent pas de répondre directement à la problématique d’étude sur le territoire choisi, il est nécessaire de créer ses propres données géographiques. La création de données fait l’objet de la deuxième partie de ce chapitre. Parfois, des jeux de données existent, mais leur format n’est pas adapté à l’analyse, il est alors nécessaire de les convertir. Les méthodes employées pour réaliser ces conversions sont présentées dans une troisième partie. Les deux dernières parties de ce chapitre présentent d’une part, les formats informatiques couramment employés aujourd’hui pour stocker les données géographiques, d’autre part, la structuration des données sous forme de base de données relationnelles.
102
Les systèmes d’information géographique
1. Mobiliser des jeux de données géographiques existants Les sources de données géographiques disponibles sont très nombreuses et variées. Données de référence ou plus spécifiquement dédiées à une activité, elles peuvent être gratuites ou payantes, libres de droit ou non. Leur disponibilité s’est accrue avec le mouvement de l’Open Data et dans le même temps des nouvelles modalités d’accès (services Web) sont apparues et leur description (métadonnées) a été normalisé.
1.1 Les sources et fournisseurs d’information géographique Il existe une grande variété de sources d’information géographique, qui peuvent être classées de différentes manières. On peut utilement distinguer les sources de données « de référence » et les sources de données « métier », qui sont des données géographiques plus spécifiques dédiées à une activité ou une thématique. • Les données de référence Les sources de données géographiques, dites de référence, sont utilisées quelle que soit la question qui a donné lieu à la mise en place du projet SIG. Elles constituent en général les données de base, une sorte de socle commun nécessaire à la visualisation cartographique. Elles jouent le rôle de fond de carte dans un projet SIG : les limites administratives, les réseaux de transport, le relief, le trait de côte, etc. Elles sont généralement distribuées par des fournisseurs de données institutionnelles, tels que l’IGN (Institut national de l’information géographique et forestière) pour la France, Eurogeographics pour l’Europe ou NASA pour le monde. En France, l’IGN produit et diffuse notamment les données des découpages administratifs du territoire français (commune, département, région...) via Admin Express et les bases de données comme, par exemple, BD TOPO®, BD CARTO®, BD ORTHO®, ou RGE ALTI®. Depuis plus d’une dizaine d’années, des données de référence sont aussi construites de manière collaborative, comme c’est le cas pour la production des données dans OpenStreetMap (OSM) qui sont en accès libres. Intégration de données géographiques dans les SIG
103
• FOCUS : OpenStreetMap (OSM)
OpenStreetMap est une base de données géographiques collaborative et ouverte qui contient une variété d’informations géographiques décrivant les infrastructures d’un territoire telles que les routes, les bâtiments ou autres types d’infrastructures du territoire dans le monde. OSM est considéré comme le « Wikipédia de la cartographie ». Il s’agit d’une plateforme cartographique ouverte et libre d’accès, sur laquelle les internautes contribuent gratuitement à la création, la vérification et la mise à jour de données géographiques. Les données produites sont téléchargeables gratuitement. Cette base est actuellement considérée comme l’une des principales sources de données géographiques libres possédant un haut niveau d’exhaustivité et de qualité.
• Les données métier La deuxième catégorie de données est constituée par les sources de données géographiques dites métier ou thématiques, relatives à un domaine d’activité particulier. Elles ont une utilisation spécifique et peuvent être divisées en deux types : − Celles qui intéressent diverses communautés d’utilisateurs et qui sont produites sans objectif spécifique d’utilisation, autre que la connaissance des territoires, souvent au niveau national ou supranational. En Europe, les données provenant des satellites Copernicus (programme de l’Union européenne pour l’observation et la surveillance de la Terre), qui mettent à disposition de très nombreuses données thématiques sur l’agriculture, l’environnement, les réseaux de transport, etc., appartiennent à cette catégorie (par exemple, les données d’occupation du sol de CORINE Land Cover ® sont produites dans le cadre de ce programme). En France, les données statistiques sur l’activité agricole d’AGRESTE1 du ministère de l’Agriculture et de la Souveraineté alimentaire ou les données décrivant les crues centennales et les zonages d’inondations de la Base nationale des zones inondables du BRGM2 constituent des exemples de données qui relèvent de cette catégorie.
1. Voir https://agreste.agriculture.gouv.fr/ (consulté le 4 mai 2023). 2. Bureau de recherches géologiques et minières.
104
Les systèmes d’information géographique
− Une deuxième sous-catégorie concerne des données relatives à une application ou une problématique particulière. Elles sont généralement produites à l’échelle d’un territoire (par exemple, une communauté de communes) et doivent répondre à un objectif spécifique. Ce sont par exemple des données qui décrivent les marchés de producteurs, les sentiers de randonnée sur un territoire, la localisation des bornes de vélo dans une ville ou encore celles décrivant le niveau de pollution. Ces données peuvent bien entendu être utilisées dans d’autres contextes, mais il y a alors un risque que le niveau de généralisation des entités vecteurs et leurs attributs, ou la résolution d’un raster, ne soient pas parfaitement adaptés à la question traitée. Le saviez-vous ?
Certaines données géographiques de l’IGN sont utilisées comme référentiel commun pour produire de nouvelles données. C’est par exemple le cas des zonages d’aménagement qui sont souvent définis par les collectivités à partir du scan 25 (carte topographique au 1/25 000). De même, la BD ORTHO® de l’IGN sert à digitaliser les parcelles agricoles qui entrent dans la base de données du Registre Parcellaire Graphique (RPG), servant à l’instruction des aides de la politique agricole commune (PAC).
1.2 Les données ouvertes ou l’Open Data Le mouvement de l’Open Data désigne la mise à disposition des données produites et collectées par les services publics (administration, collectivités territoriales…). Il repose sur le principe selon lequel les données issues des services de l’État et des collectivités constituent un bien commun, et que leur diffusion présente un intérêt public et général.
Intégration de données géographiques dans les SIG
105
• FOCUS : La réglementation et les données ouvertes
En Europe, la directive INSPIRE1 (INfrastructure for SPatial InfoRmation in Europe) se donne pour objectif de rendre les bases de données géographiques des pays membres de l’Union européenne interopérables, c’est-à-dire disponibles dans un type de format standard dit « ouvert » (format dont les spécifications sont publiques et sans restriction d’accès et d’utilisation). La directive impose aux « autorités publiques » (États, régions, provinces…) de publier sur Internet dans des standards ouverts leurs données et de les documenter. Elle s’attache à définir les règles de mise en œuvre concernant l’échange, le partage, l’accès et l’utilisation des données géographiques. En France, la loi NOTRe2 de 2015 impose l’ouverture et la mise à disposition de l’information numérique sur le territoire à toutes les communes et EPCI (établissements publics de coopération intercommunale) de plus de 3 500 habitants et employant plus de 50 agents. Cela concerne tout type d’information, dont l’information géographique. Définitions
• Standard de fait ou standard de facto : formats propriétaires, dits natifs, initialement développés par une société, et qui progressivement se sont imposés aux logiciels SIG pour faciliter la réutilisation et l’échange des données entre les applications (par exemple, le format Shapefile d’ESRI) (figure 3.1). • Standard interopérable ou ouvert : disponibles dans un type de format standard dit « ouverts ». Ces formats et leurs spécifications sont publics et sans restriction d’accès et de mise en œuvre (figure 3.1).
1. Directive 2007/2/CE du 14 mars 2007 établissant une infrastructure d’information géographique dans la Communauté européenne. 2. La loi no 2015-991 du 7 août 2015 portant sur la Nouvelle Organisation Territoriale de la République.
106
Les systèmes d’information géographique
Figure 3.1 : Standard de fait et interopérabilité Interopérabilité logiciel A
logiciel B format standard ouvert
logiciel B logiciel C
logiciel D
logiciel C
Source : adapté d’une figure du « groupe de travail interopérabilité de l’AFUL », AFUL : Association Francophone des Utilisateurs de Logiciels Libres.
logiciel D
ASCHAN, CUNTY, DAVOINE, 2019
Standard de fait format propriétaire logiciel A
Aujourd’hui, les collectivités territoriales s’attachent à mettre à disposition les données qu’elles produisent, et dont la publication présente un intérêt économique, social, sanitaire, environnemental. Pour cela, elles s’appuient sur le développement d’infrastructures de données géographiques (IDG), qui ont pour objectif de favoriser la mutualisation, la mise à disposition et le partage des données géographiques relatives à un territoire ou une thématique au sein d’une communauté d’acteurs. Ces IDG sont généralement dotées de plateformes accessibles par Internet et offrent des fonctionnalités permettant : -- de connaître la disponibilité des données via des moteurs de recherche ; -- d’avoir une description des caractéristiques des données disponibles, via des fiches de métadonnées définies par la norme Inspire. On parle alors d’IDG de type « géocatalogue » ; -- de consulter et de visualiser les données, voire de les télécharger, ou d’y accéder via un service Web géographique. On parle alors d’IDG de type « géoportail ». Le saviez-vous ?
Il existe des droits d’accès et d’utilisation des données géographiques qui évoluent constamment. Il est impératif de se renseigner sur les droits associés aux données utilisées. Attention, les droits d’accès peuvent différer des droits d’utilisation. Par exemple, les données sur les espèces en danger de l’ONG UICN (Union internationale pour la conservation de la nature) sont libres d’accès, mais ne peuvent pas être utilisées pour un
Intégration de données géographiques dans les SIG
107
usage commercial. Dans tous les cas, il est indispensable d’indiquer les sources des données utilisées lors de la réalisation d’un produit dérivé des données comme une carte ou une application Web cartographique (voir chapitre 4, p. 189).
1.3 Les services Web géographiques pour accéder à l’information géographique Les SIG offrent la possibilité d’ajouter à un projet des données sous forme de flux de services Web géographiques, appelés parfois géo services. Ces services permettent d’accéder directement à des données géographiques au moyen d’une URL. Les données fournies par ces plateformes de services sont intégrées dans un projet SIG, sans les télécharger et sans les stocker préalablement. Elles peuvent être combinées entre elles ou avec d’autres jeux de données déjà présents dans le projet SIG. Il s’agit de services informatisés et standardisés, dont la structuration est définie par l’OGC (voir Focus, p. 61). On distingue différents flux de services Web géographiques (tableau 3.1) relatifs aux : -- données vecteurs : Web Feature Service (WFS) ; -- données raster : Web Map Service (WMS), Web Coverage Service (WCS), Web Map Tile Service (WMTS) ; -- métadonnées : Catalog Service for the Web (CSW) ; -- traitements de données : Web Processing Service (WPS). Tableau 3.1 : Services Web géographiques Type de service Web Feature Service (WFS)
108
Description du service Fournit des données géographiques en mode vecteur et les données attributaires associées.
Les systèmes d’information géographique
Commentaires Les données peuvent être sélectionnées et interrogées.
Type de service Web Map Service (WMS)
Web Map Tile Service (WMTS)
Description du service
Commentaires
Fournit des données sous la forme d’images géoréférencées en mode raster.
Les données affichées ne peuvent pas être sélectionnées ou interrogées. Ce service est souvent utilisé pour accéder à un fond de carte ou à des images aériennes ou orthophotos.
Fournit des images géoréférencées sous forme de tuiles raster (voir p. 139).
Service équivalent de WMS ; mais propose des fonds de cartes raster tuilées, ce qui optimise le temps de chargement des données
Fournit des données raster de Web Coverage type « couverture » comme les Service (WCS) MNT (voir chapitre 2, p. 65)
À la différence des WMS, le service permet d‘effectuer des traitements sur les données raster.
Permet d’accéder à des Catalog catalogues de métadonnées Service for the et de les récupérer (on parle de Web (CSW) moissonnage des métadonnées).
Ne s’applique pas aux données géographiques, mais aux métadonnées.
Permet d’accéder à des procédures de traitement Web ou de géotraitement Processing de données géographiques : Service (WPS) service de géocodage, de traitements de données.
Ces services complètent les fonctionnalités de traitement des données géographiques des SIG.
Un intérêt de l’utilisation de données sous forme de service Web est d’avoir des données qui sont mises à jour dans le projet SIG au moment où elles sont actualisées par l’organisme ou l’entreprise qui les diffuse.
• FOCUS : Comment fonctionne un service Web géographique ?
Les services Web géographiques sont basés sur des protocoles de communication http permettant d’accéder aux données via une adresse URL. D’un côté, l’organisme met à disposition ses données via un serveur cartographique. De l’autre, l’utilisateur envoie au serveur cartographique distant, via la fonctionnalité proposée par le logiciel SIG, une requête formulée dans l’URL
Intégration de données géographiques dans les SIG
109
http qui contient tous les arguments nécessaires à la sélection des données à visualiser. Par exemple : http ://cursus.fr/serverSIG/LeJeuDeDonnees/service=WFS&version1.0& request=GetFeature&typeName=Ville est composé de : − l’adresse du serveur où est stocké le jeu de données : cursus.fr/serverSIG/ LeJeuDeDonnees ; − la version du service : service = WFS&version1.0 ; − des entités (ici des villes) à récupérer : − &request=GetFeature&typeName=Ville.
1.4 Les métadonnées pour caractériser, comprendre et échanger l’information géographique L’échange et le partage de données entre utilisateurs et/ou producteurs constituent une pratique très répandue dans l’usage des SIG. Il est aussi courant d’utiliser des données existantes provenant de sources externes afin de les enrichir ou de les analyser. Pour être utilisées, les données doivent nécessairement être accompagnées d’informations qui les décrivent : contexte de leur production, méthodes de recueil, propriétés, conditions d’utilisation… On appelle ces informations les métadonnées, c’est-à-dire des « données sur les données ». Elles permettent de disposer d’une documentation structurée décrivant les jeux de données utilisées. • Quelques questions auxquelles les métadonnées permettent de répondre Les métadonnées permettent de répondre aux questions qu’un utilisateur peut se poser lors de la réutilisation ou du partage des données. Elles répondent à de nombreuses questions de façon très précise, comme :
110
Les systèmes d’information géographique
− Thème/territoire : que contiennent les données ? Quel est le territoire couvert ? − Sources et références : par quel organisme les données ont été acquises et comment (à partir d’une image satellite, à partir d’un recensement de la population, etc.) ? − Propriétés des données : quel est le système de coordonnées du jeu de données ? Quelle est sa résolution spatiale ? À quoi correspondent les champs attributaires ? − Qualité des données : quel est le niveau de précision des données ? Quelle est leur fréquence de mise à jour ? − Droits associés aux données : quels sont les droits d’accès et d’utilisation des données ? Le saviez-vous ?
Dans les métadonnées, le terme de « résolution spatiale » définit à la fois : – un niveau de résolution pour les données raster (voir chapitre 1, p. 25) ; – l’échelle la plus appropriée pour exploiter les données en mode vecteur dans un SIG (appelée l’échelle équivalente). L’information sur la résolution spatiale dans les métadonnées permet de savoir si deux jeux de données sont suffisamment comparables pour que leur mise en relation spatiale soit pertinente dans un projet SIG. Il est fortement conseillé de travailler sur des jeux de données ayant une résolution spatiale similaire.
• Qualité des données Le rôle des métadonnées est donc de fournir à l’utilisateur les informations nécessaires au bon usage du jeu de données, mais aussi de le renseigner sur la qualité des données. La notion de qualité, appliquée à des jeux de données géographiques, est complexe et regroupe différents aspects. Elle concerne à la fois les notions de précision, d’exhaustivité, de cohérence des données et d’incertitude : -- La précision des données s’applique aussi bien à la géométrie des objets et leur localisation, qu’aux attributs qui leur sont associés.
Intégration de données géographiques dans les SIG
111
-- L’exhaustivité concerne les attributs ou entités manquants dans un jeu de données. -- La cohérence concerne l’existence de données aberrantes ou contradictoires dans un jeu de données. -- L’incertitude concerne le niveau de confiance que l’on peut avoir dans les attributs. Le besoin de partager les données et la diversité des formats de production ont conduit les organismes officiels à proposer des normes de description structurées des métadonnées. Ces normes impliquent une description très précise. Le contenu des métadonnées géographiques est basé sur la norme ISO 19115, à laquelle sont aussi associées la norme ISO 19157 pour la description de la qualité des données et la norme ISO 19139 qui spécifie le format informatique (format XML) dans lequel doivent être décrites les métadonnées. • XML : un format standard d’implémentation de métadonnées Les producteurs de données géographiques doivent systématiquement accompagner la livraison de leurs données d’un fichier de métadonnées. Certains logiciels SIG offrent des fonctionnalités qui permettent de renseigner les métadonnées des jeux de données géographiques dans des interfaces de saisie. Ces informations sont utilisées pour générer automatiquement un fichier XML décrivant les métadonnées. Le saviez-vous ?
XML signifie « eXtensible Markup Language ». C’est un format informatique qui permet de décrire les données à l’aide de balises et de règles. Il a été créé pour faciliter l’échange automatisé de données complexes. Ce format est un standard informatique ouvert (voir p. 106-107).
• Les différents niveaux de métadonnées Les métadonnées sont aussi décrites sous une forme textuelle plus facilement compréhensible pour les utilisateurs. Plusieurs niveaux de description sont disponibles en fonction des usages :
112
Les systèmes d’information géographique
-- les métadonnées de découverte, qui décrivent a minima l’information. Elles répondent à la question : où puis-je trouver des données ? -- les métadonnées d’exploration, qui donnent une information plus détaillée. Elles permettent à l’utilisateur de mesurer l’adéquation des données à ses besoins et d’identifier les plus pertinentes ; -- les métadonnées d’exploitation, qui décrivent les modalités d’utilisation des données tant méthodologique, technique que juridique. Pour éviter les erreurs, pensez-y !
• Prendre connaissance des métadonnées avant d’utiliser les données. Vérifiez dans quel but ces données ont été créées au départ et si elles permettent de répondre à la question posée. Par exemple, il est indispensable de savoir si la résolution spatiale des données est adaptée à la question traitée. • Prendre le temps d’évaluer la qualité des données avant de les utiliser. • Bien prendre connaissance des droits d’accès et d’utilisation des données. • Mentionner les sources des données mobilisées lors de la restitution ou la publication d’une analyse ou d’une carte.
2. Intégrer et créer des jeux de données géographiques dans un SIG Les SIG offrent de nombreuses fonctionnalités permettant d’intégrer et de créer de nouveaux jeux de données raster et vecteur.
Intégration de données géographiques dans les SIG
113
2.1 Intégrer l’information géographique en mode vecteur Il existe plusieurs façons de créer des données vecteur : le géocodage, la conversion de coordonnées géographiques ou projetées en entités géographiques et la digitalisation d’objets géographiques. • Géocodage de données localisées De nombreuses données environnementales, socio-économiques, documentaires, sont localisées au moyen de toponymes (nom de lieux, de villes, de hameaux…) ou d’adresses postales (fichiers de clients des entreprises) (figure 3.2a). Ces données ne peuvent pas être intégrées directement dans un SIG, car elles ne disposent pas de coordonnées géographiques ou projetées. Il est donc nécessaire d’affecter à ces adresses ou toponymes des coordonnées dans un système de coordonnées défini. Le géocodage est une opération qui consiste à associer des coordonnées X,Y et une géométrie (généralement ponctuelle) à des données localisées sous forme alphanumérique (toponyme, adresse postale, code postal…). Cette opération s’effectue au moyen d’une fonctionnalité des logiciels SIG, ou via un service Web spécifique appelé géocodeur. La procédure de géocodage s’appuie sur des algorithmes d’appariement textuel dont l’objectif est de faire correspondre les noms de lieu ou les adresses postales contenus dans le tableau de données de départ ne disposant pas de coordonnées géographiques ou projetées (figure 3.2a) avec ceux de la table de géocodage (figure 3.2b). Les attributs des champs correspondant aux toponymes ou adresses des deux tables sont comparés enregistrement par enregistrement. Cette procédure s’appuie donc sur un jeu de données vecteur de référence, souvent appelé table de géocodage (figure 3.2b). La table d’origine à géocoder doit donc être a minima structurée de la même façon que la table de géocodage (par exemple, les noms de rue et le nom de la commune doivent généralement être stockés dans deux champs séparés). La table de géocodage est structurée de la façon suivante : -- Les champs de la table attributaire contiennent pour chaque enregistrement les noms de lieux et/ou les adresses normalisées (par exemple, le nom de la rue, les numéros des adresses dans chaque tronçon de rue). 114
Les systèmes d’information géographique
-- La géométrie des entités géographiques peut être de type ponctuel ou linéaire. Dans le cas d’entités ponctuelles, elles peuvent correspondre aux centroïdes des polygones, pour un géocodage à la commune ou au quartier, ou à des points adresse pour un géocodage à l’adresse. Dans le cas d’entités linéaires, elles correspondent généralement aux tronçons de rue du réseau viaire. Le résultat de la procédure est un jeu de données vecteur composé d’entités ponctuelles représentant la localisation des adresses du fichier d’origine. La figure 3.2 présente un exemple de géocodage qui utilise comme table de géocodage (voir Focus, p. 117) un jeu de données vecteur composé d’entités linéaires (les rues). Dans ce cas, le géocodage des adresses d’origine (correspondant ici à la localisation de délits et de crimes déclarés) est effectué par interpolation des points adresses de début et de fin des tronçons de rue.
Intégration de données géographiques dans les SIG
115
Figure 3.2 : Principe de géocodage d’adresses a. Fichier à géocoder tableau dans lequel chaque enregistrement correspond à une adresse Id. de fait
Code postal
Adresse
N° de voie
Type de faits
Commune Laba Laba Laba
avenue de la République 12326 12326 rue de la Libération 12326 cours des Thermes
13 16 6
Vol avec violence Cambriolage Vol à la tire
f0001 f0002 f0003
b. Exemple de table de géocodage jeu de données vecteur avec entités linéaires Y lat. 32
la R épub liq
ue
33
17 15
en Av
16 1
33 35
des
Cours
de14 2
32 25
Thermes 63
34 24
la Lib ératio n
1
ue
à chaque tronçon de rue correspond un enregistrement 62
R. de
2
11
10
X long.
table attributaire associée Forme ligne ligne ligne ligne ligne
N° gauche N° gauche N° droite N° droite Code début fin début fin postal Commune
Id. voie
Voie type
Voie nom
v001 v002 v010 v034 v035
avenue avenue rue cours cours
République République Libération Thermes Thermes
1 17 10 1 35
2 16 11 2 34
15 33 24 33 63
14 32 25 32 62
12326 12326 12326 12326 12326
Laba Laba Laba Laba Laba
GÉOCODAGE c. Jeu de données vecteur résultat ue
Y lat.
des
n
Cours
Thermes
ératio
de
la Lib
e
R. de
u en Av
ASCHAN, CUNTY, DAVOINE, 2023
la R épub liq
Vol avec violence Cambriolage Vol à la tire
X long.
table attributaire associée Forme
Id. de fait
point point point
f0001 f0002 f0003
Type de faits Vol avec violence Cambriolage Vol à la tire
N° de voie 13 16 6
Adresse
Code postal Commune
avenue de la République 12326 12326 rue de la Libération 12326 cours des Thermes
Laba Laba Laba
Fig. 02, chapitre 3 – Principe de géocodage d’adresses – (110 x 165 mm) – #1
116
Les systèmes d’information géographique
X
Y
10 19 34 8 22 21
• FOCUS : Les tables de géocodage
Les principaux fournisseurs de base de données géographiques, nationaux ou internationaux, mettent à disposition des tables de géocodage de référence qui sont mises à jour régulièrement. En France, la Base adresse nationale (BAN) est la base de données d’adresses officiellement reconnue. Elle contient, en 2023, 25 millions d’adresses sur l’ensemble du territoire national, y compris les collectivités d’outre-mer. Elle est mise à jour quotidiennement, soit par les communes si elles disposent d’une Base adresse locale, soit par un croisement de sources officielles (DGFiP, IGN…). Cette base peut servir de table de géocodage. Les SIG peuvent mettre à disposition des tables de géocodage et des applications en ligne basées sur des IDG (voir p. 107), qui offrent également ce type de service.
On distingue généralement deux façons de procéder à une opération de géocodage. La première est un géocodage en masse qui apparie automatiquement les adresses ou les toponymes à des coordonnées X,Y. Seuls les enregistrements non géocodés sont proposés de façon interactive à l’utilisateur, qui peut intervenir manuellement sur la procédure d’appariement et la valider. La seconde est interactive ou manuelle, où l’utilisateur doit valider systématiquement toutes les propositions d’appariement. Selon que le géocodage s’effectue à l’adresse postale ou au toponyme, les coordonnées renvoyées correspondent à des localisations ponctuelles différentes : -- avec un géocodage à l’adresse, le résultat transmis est des coordonnées X,Y pour chaque adresse postale identifiée. Généralement, ces coordonnées correspondent à la localisation postale du bâtiment pour lequel l’adresse a été collectée (point adresse) ; -- le géocodage au toponyme renvoie comme résultat les coordonnées du centroïde de l’objet graphique considéré : centroïde du polygone représentant les contours des pays, régions, communes, quartiers, etc., ou du segment de ligne représentant l’objet linéaire (rue, tronçon de route ou de rivière), lorsqu’il s’agit de noms de rues, de routes ou de cours d’eau. La précision du géocodage dépend de celle des adresses d’origine : plus l’adresse est complète et conforme au standard, plus le géocodage Intégration de données géographiques dans les SIG
117
sera précis et complet. Généralement, le géocodeur informe pour chaque adresse de la table d’origine le niveau de correspondance obtenue (par exemple, 0 = aucune correspondance ; 100 = correspondance parfaite). Pour éviter les erreurs, pensez-y !
• Préparer en amont la table d’adresses, en vérifiant l’orthographe des adresses ou des toponymes avant de procéder au géocodage. • La structure de la table des adresses à géolocaliser doit correspondre à celle imposée par le géocodeur.
• Intégrer des données provenant des capteurs GPS Les GPS (Global Positioning System) permettent de déterminer en tout point du globe sa position géographique. La démocratisation des GPS et l’intégration de ces systèmes dans des dispositifs mobiles (tels que les smartphones) conduisent à la collecte de nombreuses données géolocalisées in situ (par exemple, des données de mesure collectées sur le terrain ou de traces d’itinéraire). Une fois ces données collectées, il est nécessaire de les intégrer dans un SIG pour les traiter, les analyser ou les combiner avec d’autres jeux de données géographiques. Les données GPS sont stockées dans un format de fichier GPX (GPS eXchange format). Un fichier GPX contient les coordonnées de latitude et de longitude correspondant à la localisation du point enregistré, son altitude, l’horodatage, c’est-à-dire la date (jour, mois, année) et l’heure (heure, minute, seconde) à laquelle le point a été collecté, ainsi que des métadonnées décrivant le contenu du fichier. Un fichier GPX permet de stocker le tracé d’un itinéraire ou de points d’observation. Leur structuration est différente selon que les données collectées correspondent à des points d’observations, aussi appelés des points d’intérêts (WayPoint) ou des séquences de points définies selon des pas de temps ou de distance spécifiés qui correspondent à des traces d’itinéraires (TrackPoint) (tableau 3.2).
118
Les systèmes d’information géographique
Tableau 3.2 : La structuration d’un fichier GPX Type d’objet
WayPoint
TrackPoint
Contenu du fichier Un point (wpt) est défini par ses coordonnées géographiques (lat, lon), son altitude (ele), son nom (name) et sa date (time). Un itinéraire (trkt) est composé de segments (trkseg), définis par des points (trkpt). Chaque point d’itinéraire (trkpt) est caractérisé par ses coordonnées (lat, lon) et son altitude (ele).
Structuration informatique du fichier
… … …
… …
Les SIG proposent des fonctionnalités qui permettent la conversion de fichier GPX en jeux de données vecteur. Les objets géographiques de ces jeux de données vecteur sont de géométrie ponctuelle lorsque les relevés GPS correspondent à des points d’intérêts (WayPoints) et linéaire pour des relevés de traces d’itinéraire (TrackPoints). Le saviez-vous ?
• Le GPS utilise le système de coordonnées géographiques WGS84 (voir chapitre 2, p. 51). Les coordonnées collectées sont toujours définies dans ce système, et sont donc des coordonnées géographiques. • Le GPS permet de déterminer la position géographique d’un point avec une précision inférieure à 5 mètres, mais cette précision varie en fonction des appareils de réception du signal.
• Intégrer des données ponctuelles géolocalisées Dans certains contextes, il est possible de récupérer des tableaux de données correspondant à des valeurs mesurées, issues de capteurs d’enregistrement tels que des sismographes, des pluviomètres, des capteurs de mesures de particules dans l’air, ou des données d’inventaire issues d’observations localisées (relevés d’espèces végétales ou animales, de Intégration de données géographiques dans les SIG
119
lieux de marchés de producteurs locaux…). Les données de ce type sont généralement stockées dans des fichiers en format texte (comme les fichiers .txt ou .csv), mais peuvent aussi être stockées dans un fichier de type tableur. Si, dans le tableau de données d’origine, des coordonnées géographiques ou projetées sont associées à chaque mesure ou observation, les données sont géolocalisées. Ces données peuvent de ce fait être affichées dans un logiciel SIG sous forme d’entités géométriques ponctuelles, puis enregistrées en mode vecteur. En effet, chaque couple de coordonnées X,Y permet de créer une entité de type point et les valeurs mesurées associées à ces points sont stockées dans la table attributaire. Le saviez-vous ?
Les données stockées sous forme de tableau contenant des coordonnées X,Y peuvent être affichées sous forme d’entités ponctuelles dans un SIG. Cet affichage ne signifie pas qu’un jeu de données en mode vecteur existe ou a été créé. Il faudra obligatoirement convertir les données affichées pour qu’elles deviennent un jeu de données vecteur.
Par exemple, le fichier texte comprenant des informations qui décrivent les marchés de producteurs locaux sur un territoire par leur identifiant, leur nom, leurs coordonnées X,Y, le nombre de places à louer pour les producteurs (figure 3.3a), peut aisément être intégré dans un logiciel SIG pour être transformé en un jeu de données vecteur qui localise les marchés de producteurs et les décrit dans la table attributaire (figure 3.3b).
120
Les systèmes d’information géographique
Figure 3.3 : Création d’un jeu de données vecteur à partir d’un fichier texte avec des coordonnées X,Y b. Données XY intégrées dans un SIG : entités, table attributaire Entités ponctuelles
Id;Nom_Marche;X;Y;Nb_Places 01;Hanapepe;-159,588;21,9704;21 02;Kalaheo;-159,527;21,9101;13 03;Hanalei;-159,514;21,9251;22 104;Kaua;-159,492;22,2033;12 105;Koloa;-159,465;22,2042;17 106;Wailua;-159,369;21,8839,34
Hanalei
Wailua Kalaheo Hanapepe
Kaua Koloa
Table attributaire Id 01 02 03 104 105 106
Nom_Marche
X_WGS_84 Y_WGS_84
Nb_Places
Hanapepe Kalaheo Hanalei Kaua Koloa Wailua
-159,588 -159,527 -159,514 -159,492 -159,465 -159,369
21 13 22 12 17 34
21,9704 21,9101 21,9251 22,2033 22,2042 21,8839
ASCHAN, CUNTY, DAVOINE, 2023
a. Fichier texte
Fig. – Lors03,dechapitre cette 3procédure, il est nécessaire de spécifier le système Données vectorielles à partir d’un fichier txt – (110 x 64 mm) – #1 de coordonnées (voir chapitre 2, p. 46) dans lequel ont été collectées les données initiales. En effet, si les coordonnées sont définies dans le système de coordonnées géographiques WGS84 et que l’utilisateur indique qu’il s’agit de coordonnées en Lambert93, alors les objets géographiques ne seront pas correctement localisés (dans l’exemple, il s’agit des marchés de producteurs). Pour connaître le système de coordonnées, il est généralement nécessaire de consulter les métadonnées.
Pour éviter les erreurs, pensez-y !
• Vérifier et renseigner le bon système de coordonnées dans lequel les valeurs X,Y ont été collectées. • Convertir les coordonnées affichées dans le SIG, en un jeu de données vecteur.
• Digitalisation de jeux de données vecteur La digitalisation, ou saisie vectorielle, consiste à créer des jeux de données géographiques vecteur par la saisie de la forme géométrique des objets (polygone, ponctuelle ou linéaire) au moyen d’un outil de saisie (souris, stylet). La création d’un jeu de données vecteur par digitalisation est utile Intégration de données géographiques dans les SIG
121
dans différents contextes : obtenir un jeu de données vecteur relatif à un thème, sur un territoire pour lesquels il n’en existe pas ; disposer de données géographiques plus précises dans leurs tracés que celles déjà existantes ; compléter un jeu de données (par exemple, mettre à jour un jeu de données vecteur décrivant le bâti sur une communauté d’agglomération à la suite de nouvelles constructions sur le territoire) ou encore pour corriger des erreurs topologiques des objets géographiques (voir chapitre 1, p. 36). Le principe de la digitalisation consiste à « dessiner » les contours d’un objet géographique sous forme de polyligne, de point ou de polygone, en se basant sur l’affichage de données déjà existantes, généralement une image raster (par exemple, une photographie aérienne). Le principe est similaire à l’utilisation d’une feuille de calque plaquée sur une image et sur laquelle sont dessinés des objets. Les tracés des objets s’effectuent via la création d’un point ou d’une succession de points, qui constituent les géométries de points, de polylignes ou de polygones. L’exemple déjà évoqué dans le chapitre 1 d’une étude de la propagation du phytoplasme du Stolbur, une bactérie qui provoque le dépérissement des plantes de lavande, et dont le vecteur de transmission est un insecte, permet d’illustrer le principe de la digitalisation d’objets en mode vecteur. Pour cette étude, il serait nécessaire de disposer d’un jeu de données des parcelles de lavande qui pourra être créé par digitalisation à partir d’une image aérienne (figure 3.4). Figure 3.4 : Le principe de digitalisation des données en mode vecteur Données raster (photographie aérienne)
Données vecteur après digitalisation LAVA1
Point de saisie
50 m
Table attributaire associée Id LAVA1 LAVA2 …
122
Chef exploitation
Variété lavande
Boulègue Ventabrun …
Provence Grosso …
Fig. 04, chapitre 3 – Digitalisation – (110 x 64 mm) – #1
Les systèmes d’information géographique
ASCHAN, CUNTY, DAVOINE, 2023
© IGN
LAVA2
• FOCUS : Digitalisation et précision des tracés
La saisie de données en mode vecteur directement à l’écran soulève différentes questions. Un premier ensemble de questions concerne le niveau de généralisation des objets géographiques : − le niveau de précision de l’image support utilisée comme modèle pour digitaliser les objets géographiques ; − la quantité de points à saisir pour créer les lignes et les polygones représentant les objets. La géométrique des objets n’est pas forcément d’autant plus précise que le nombre de points saisis est élevé. Il est surtout important de saisir les points correspondant à l’inflexion géométrique de l’objet, marquant ainsi les irrégularités ou les particularités de l’objet géographique. Un deuxième ensemble de questions concerne la topologie des objets géométriques surfaciques (voir chapitre 1, p. 36), puisque de nombreuses erreurs peuvent se produire lors de la saisie d’objets vectoriels : − continuité topologique des objets : polygone non fermé, polygones adjacents non jointifs, erreurs de raccordement entre les lignes… ; − chevauchements topologiques : polygones adjacents se superposant, des arcs constitutifs d’une ligne se croisant…
Les logiciels SIG proposent des fonctions d’assistance à la saisie vectorielle qui permettent d’assurer la cohérence topologique lors de la construction des objets et d’éviter ces erreurs. Ils proposent aussi des outils qui permettent de détecter les incohérences topologiques et de les corriger. Lors de la digitalisation des objets graphiques, les attributs de la table doivent aussi être renseignés. La spécification des attributs dépend des objectifs attendus lors de l’utilisation du jeu de données créé. A minima, un identifiant unique doit être associé à chaque nouvelle entité digitalisée. Par exemple, pour utiliser les parcelles de lavande dans une étude sur la propagation de la bactérie, chaque parcelle devra ainsi être décrite par des attributs. Dans ce cas, il est utile de renseigner le nom du chef de l’exploitation, l’adresse du siège d’exploitation, la variété de lavande cultivée, la date de plantation des pieds de lavande, le nombre de pieds atteints par la maladie, etc. Une fois le jeu de données créé, il est possible d’enrichir sémantiquement les entités géographiques, soit en associant des données attributaires issues d’autres jeux de données, via une jointure attributaire, soit en créant directement de nouveaux champs (voir chapitre 4, p. 162). Intégration de données géographiques dans les SIG
123
La création de données vecteur par digitalisation nécessite donc non seulement d’identifier les objets qui devront être saisis, mais aussi de préciser leur forme géométrique, le niveau de généralisation et de précision, ainsi que le système de coordonnées utilisé. Il s’agit aussi de définir la structure de la table, c’est-à-dire de préciser les attributs des champs qui doivent être renseignés ainsi que leur type : entier, réel, texte… (voir chapitre 1, p. 31-32). Enfin, la création des métadonnées associées au jeu de données créé est indispensable, en particulier si ces données sont destinées à être partagées. Pour éviter les erreurs, pensez-y !
• Identifier le niveau de précision des objets géographiques à numériser avant de choisir l’image raster qui servira de modèle et de commencer la digitalisation. • Associer systématiquement la saisie des objets graphiques à celle des informations attributaires. Il est plus efficace de saisir les attributs au fur et à mesure de la création des objets graphiques. • Créer les métadonnées pour le jeu de données produit. • Respecter la cohérence topologique des objets graphiques.
2.2 Intégrer l’information géographique en mode raster Les jeux de données raster utilisés en SIG sont issus de deux principales procédures : l’intégration de données collectées par télédétection, et le géoréférencement d’images. • Intégration de données par télédétection Une grande partie des données en mode raster vient de méthodes d’acquisition par télédétection. La télédétection désigne de manière générale l’utilisation de capteurs portés par des satellites, des avions ou des drones pour recueillir des données de différents types à la surface de la Terre, dans l’atmosphère et dans les océans, sur la base de signaux (par exemple, le rayonnement électromagnétique). La télédétection permet 124
Les systèmes d’information géographique
d’acquérir des informations sur un objet ou un phénomène sans contact physique avec l’objet, à la différence de mesures qui s’effectuent sur le terrain, comme la mesure de la qualité de l’eau à partir du prélèvement d’un échantillon. La télédétection permet de produire des images satellite ou radar et des photographies aériennes qui sont intégrées dans les SIG sous forme de jeu de données en mode raster. Les utilisateurs peuvent récupérer les images satellite et radar diffusées par des fournisseurs de données soit sous forme d’images brutes, soit sous forme d’images déjà traitées. C’est le cas de la base de données CORINE Land Cover, qui décrit l’occupation du sol en Europe, créée à partir d’images satellites brutes, et disponible en mode raster et vecteur. Les images et photos brutes nécessitent une première interprétation, et leur traitement s’effectue généralement dans un logiciel de traitement d’image spécialisé, même si les logiciels SIG intègrent souvent des fonctionnalités permettant d’effectuer le traitement d’image. Ces traitements peuvent être de différents types, comme la classification des pixels d’une image satellite ou d’une photo aérienne en fonction de leurs attributs. La classification d’une image provenant du programme Copernicus pourra, par exemple, être utilisée pour déterminer la présence ou non d’algues dans les eaux de baignade. Un résultat d’une telle classification sera alors un raster dont certaines cellules prendront un attribut indiquant la présence d’algues (1), et d’autres un attribut indiquant l’absence d’algues (0). Le saviez-vous ?
Depuis 2014, Copernicus, le programme de l’Union européenne pour l’observation et la surveillance de la Terre, produit une grande quantité d’images satellites et de mesures au sol, en mer et dans l’air. Ces données, en majorité ouvertes et gratuites, sont mises à disposition sous forme de jeux de données en mode raster.
• Géoréférencement d’images L’opération de géoréférencement consiste à attribuer des coordonnées géographiques ou projetées à une image numérique (plans, cartes ou dessins scannés, photo aérienne…). L’image géoréférencée devient un jeu de données de type raster, et peut être superposée à d’autres jeux de Intégration de données géographiques dans les SIG
125
Figure 3.5 : Principe de géoréférencement à partir de l’affichage d’un jeu de données déjà géolocalisé Image à géoréférencer
Jeu de données raster ayant déjà un système de coordonnées défini
© IGN
Y lat.
Point de calage
X long.
Image géoréférencée superposée au jeu de données raster
Y lat.
X long.
Point de calage
de calage déjà saisis Distance d’erreur (EMQ)
126
Fig. 05, chapitre 3 – Principe de géoréférencement – (110 x 165 mm) – #1
Les systèmes d’information géographique
ASCHAN, CUNTY, DAVOINE, 2023
Exemple d’erreur calculée
données raster ou vecteurs. L’image géoréférencée peut aussi servir de fond pour digitaliser des objets visibles sur l’image (par exemple, le bâti à différentes périodes à partir de cartes anciennes) (voir p. 121). Le géoréférencement consiste à affecter à chaque pixel de l’image des coordonnées géographiques ou projetées. À partir de la mise en correspondance de points dont les coordonnées sont connues, avec les pixels de l’image correspondant au même emplacement géographique (figure 3.5), il s’agit d’affecter de façon automatique des coordonnées à chaque pixel au moyen d’une transformation mathématique. L’opération de géoréférencement nécessite : -- D’identifier des points de « référence », appelés points de calage, dont les coordonnées géographiques ou projetées sont connues (voir Focus, p. 128). A priori, au moins trois points de calage sont nécessaires pour effectuer le géoréférencement. Cependant, pour un résultat correct, et en particulier si le document à géoréférencer a des déformations géométriques internes (comme une photographie aérienne ancienne, par exemple), le nombre de points de calage minimum conseillé est plus important. -- De connaître le système de coordonnées dans lequel les coordonnées des points de calage sont définies. L’image géoréférencée sera alors définie dans le même système de coordonnées que celui des points de calage. -- De renseigner les coordonnées des points de calage. Deux méthodes sont proposées dans les SIG : -- Si les coordonnées des points de calage sont connues, il est possible de saisir manuellement et directement les coordonnées de ces points. -- Le géoréférencement peut aussi s’effectuer à partir de l’affichage d’un autre jeu de données raster (par exemple une image correspondant à une photographie aérienne) ou vecteur, en faisant correspondre des points sélectionnés sur l’image à géoréférencer à leur position sur ce jeu de données défini dans un système de coordonnées (figure 3.5). -- D’appliquer une transformation mathématique avec pour objectif de faire coïncider au mieux les coordonnées géographiques ou projetées aux points de l’image. Différents types de transformations peuvent être appliquées (tableau 3.3).
Intégration de données géographiques dans les SIG
127
• FOCUS : Les points de calage
− Les coordonnées géographiques ou projetées des points de calage peuvent être récupérées sur les géoportails, sur des cartes topographiques (grâce à un carroyage disposant d’amorces de coordonnées), ou par des relevés GPS sur le terrain. − Le nombre de points de calage nécessaires pour le géoréférencement varie en fonction de la méthode de transformation utilisée. − Le géoréférencement d’une image s’effectue toujours avec un écart plus ou moins important avec les points de calage. L’Erreur Moyenne Quadratique (EMQ) renseigne sur la précision du géoréférencement effectué (figure 3.5). Cette erreur peut être réduite en appliquant une transformation de degré supérieur.
Tableau 3.3 : Principaux types de transformations qui peuvent être appliqués à l’image Méthodes
Linéaire
Polynomiale d’ordre 1 ou affine
Nombre de points de calage minimum 2 en théorie, privilégier 4 ou 5
Ne déforme pas le raster, mais n’est pas toujours adaptée pour les images scannées.
3 en théorie, privilégier 5
Préserve la colinéarité et permet le changement d’échelle, la translation et la rotation. C’est le degré de transformation minimale à appliquer à une image scannée.
6 ou 10
Permet une distorsion du raster. Le degré de distorsion de l’image est d’autant plus important que l’ordre est élevé. Utile sur des images scannées déformées (carte ancienne, photographie aérienne non rectifiée).
1 en théorie, privilégier 10
Prend en compte des déformations locales. Utile sur des images scannées de mauvaise qualité et déformées.
Polynomiale d’ordre 2 ou 3
Thin Plate Spline (TPS)
128
Avantages/inconvénients
Les systèmes d’information géographique
Lorsque la transformation utilisée déforme le raster, les valeurs des cellules sont alors recalculées au moyen d’une méthode de rééchantillonnage. Trois des principales méthodes de rééchantillonnage sont généralement proposées par les logiciels SIG : plus proches voisins, linéaire, cubique (figure 3.6). Figure 3.6 : Méthodes de rééchantillonnage appliquées aux images géoréférencées Précisions
Descrip�on
Plus proches voisins
La valeur du nouveau pixel correspond à celle du pixel dont le centre est le plus proche dans l’image
Ne crée pas vraiment de nouvelles valeurs (affecta�on de la valeur la plus proche)
Linéaire
La valeur du nouveau pixel est déterminée à par�r des valeurs des 4 pixels dont les centres sont les plus proches
Permet un lissage du raster
Cubique
La valeur du nouveau pixel est déterminée à par�r des valeurs des 16 pixels dont les centres sont les plus proches
Donne un rendu plus con�nu
Calcul des valeurs de pixel
Image d’origine transformée lors de son géoréférencement Pixels u�lisés pour le rééchan�llonnage Image géoréférencée et rééchan�llonnée Exemple de pixel à renseigner
ASCHAN, CUNTY, DAVOINE, 2023
Méthodes
Fig. 06, chapitre 3 – Méthodes de rééchantillonnage appliquées aux images géoréférencées – (110 x 110 mm) – #1
Intégration de données géographiques dans les SIG
129
Pour éviter les erreurs, pensez-y !
• Le système de coordonnées de l’image à géoréférencer doit correspondre à celui des points de référence utilisés pour le calage. • La position des points de calage ne doit pas être co-linéaire, c’est-à-dire que la position des points ne doit pas être alignée en latitude ou en longitude. • Les coordonnées des points de calage doivent toutes être définies dans le même système de coordonnées.
3. Convertir des jeux de données La conversion d’un jeu de données SIG est un processus qui transforme des données modélisées sous une forme numérique particulière (vecteur ou raster) en une autre forme numérique (raster ou vecteur). Les logiciels SIG intègrent différentes fonctionnalités de conversion automatique. Deux cas très fréquemment utilisés sont présentés dans cet ouvrage : la transformation d’un jeu de données vecteur en un jeu de données raster et inversement.
3.1 La rastérisation La rastérisation, souvent mobilisée en SIG, consiste en la transformation d’un jeu de données vecteur, qu’il soit représenté sous forme de point, polyligne ou polygone, en une matrice de cellules afin de constituer un jeu de données raster. Une valeur est alors calculée pour chaque cellule. Celle-ci correspond à l’attribut de l’objet initialement représenté en mode vecteur. Pour des entités surfaciques, la méthode consiste à affecter une valeur à une cellule en fonction de la valeur de l’entité qui superpose la cellule. Si plus d’une entité chevauche la cellule, c’est généralement l’entité correspondant à la plus grande surface de la cellule qui détermine la valeur attributaire de la cellule. Une autre méthode consiste à affecter l’attribut de l’entité, dont le centroïde est situé dans la cellule (figure 3.7). Il convient de définir au préalable la taille de la cellule du jeu de données raster en sortie, en fonction du niveau de précision souhaité. Soit un jeu de données en mode vecteur dont les objets géométriques représentent des zones d’occupation du sol. Chaque zone est caractérisée 130
Les systèmes d’information géographique
par un mode d’occupation du sol (forêt, lac, culture…) (figure 3.7). Le processus de transformation du mode vecteur en mode raster consiste à créer la grille de cellules raster et à affecter la valeur attributaire correspondant à la nature d’occupation du sol de chaque polygone aux cellules correspondantes, selon une des méthodes citées ci-dessus. Figure 3.7 : Principe de conversion d’un jeu de données vecteur d’entités surfaciques en raster Superposition des cellules raster
102 101 103 104
105
106
101
Raster en sortie
·
·
·
·
·
·
101 101 101 102 102 102
·
·
·
·
·
·
101 101 101 102 102 103
·
·
·
·
·
·
101 104 101 103 103 103
·
·
·
·
·
·
104 104 105 105 106 106
·
·
·
·
·
·
104 104 105 106 101 101
·
·
·
·
·
·
105 106 106 101 101 101
Table attributaire du jeu de données vecteur en entrée ID
Code occupation du sol
1 2 3 4 5 6 7
101 102 103 104 105 106 101
Nature Forêt Lac Culture Zone industrielle Zone résidentielle Route Forêt
ASCHAN, CUNTY, DAVOINE, 2023
Vecteur en entrée
Tableau récapitulatif du jeu de données raster obtenu Superficie
Code occupation du sol
Effectif
700 500 400 500 300 500 500
101 102 103 104 105 106
13 10 4 5 4 5
Pour la conversion d’un jeu de données vecteur de polylignes ou de points, l’attribut du segment de ligne ou du point qui intersecte la cellule est retenu pour la caractériser. Les cellules sans intersection avec un segment de ligne ou un point seront définies « sans attribut ». Lors de la conversion en raster, les valeurs prises par les cellules sont du même type (entier, réel ou texte) que le champ du jeu de données vecteur choisi pour la rastérisation. La conversion en raster s’applique donc à des jeux de données vecteur de tout type de géométries (point, ligne, polygone) représentant des phénomènes géographiques aussi bien discrets (par exemple, des bâtiments) que continus (par exemple, l’occupation du sol). Le processus de rastérisation est utile dans différents contextes, comme pour les analyses multicritères (voir chapitre 6, p. 253), qui reposent sur une superposition et mise en relation de jeux de données Fig. 07, chapitre 3 – Rasterisation – (110 x 72 mm) – #1
Intégration de données géographiques dans les SIG
131
en mode raster. Un autre exemple est la conversion d’un jeu de données représentant des courbes de niveaux (isolignes correspondant à des points de même altitude) en un MNT. D’autres types de conversions en raster sont possibles, comme une conversion à partir de données LiDAR (voir chapitre 2, p. 68).
3.2 La vectorisation La vectorisation consiste à créer automatiquement un jeu de données vecteur à partir d’un jeu de données raster. Elle repose sur l’identification des formes créées par un ensemble de cellules contiguës ayant les mêmes valeurs et la transformation de leurs contours en objets géométriques de type points, polylignes et polygones. Le jeu de données vecteur obtenu contient la géométrie des objets, ainsi que leurs identifiants et attributs (figure 3.8). Figure 3.8 : Principe de conversion d’un jeu de données raster en vecteur
101 101 101 102 102 103
101 101 101 102 102 103
101 101 101 103 103 103
101 101 101 103 103 103
104 104 101 103 103 103
104 104 101 103 103 103
104 104 105 105 105 106
104 104 105 105 105 106
104 105 105 106 106 106
104 105 105 106 106 106
105 105 102 102 102 102
105 105 102 102 102 102
Tableau récapitulatif du jeu de données raster en entrée Valeur
Effectif
101 102 103 104 105 106
7 6 7 5 7 4
La valeur de chaque cellule correspond à un mode d’occupation du sol. Par exemple 101=Forêt ; 102=Lac ; 104=Zone résidentielle ; 105=Zone industrielle ; 106=Prairie.
Vecteur en sortie 102
101
103 104 105
106 102
ASCHAN, CUNTY, DAVOINE, 2023
Délimitation de zones de cellules ayant la même valeur
Raster en entrée
Table attributaire du jeu de données vecteur obtenu Identifiant 1 2 3 4 5 6 7
Code 101 106 102 104 105 103 102
La vectorisation Fig. 08, chapitre 3des – jeux de données raster est utile dans différentes situaPrincipe de convertion d’un jeu de données raster en vecteur – (110 x 70 mm) – #1 tions. Les données issues d’images satellite ou de photographies aériennes sont initialement structurées en mode raster, et une classification à partir des attributs des cellules de l’image permettra d’identifier, par exemple, les catégories d’occupation du sol. Une fois le jeu de données raster transformé 132
Les systèmes d’information géographique
en mode vecteur, celui-ci peut facilement être combiné avec d’autres jeux de données vecteur, et faire l’objet de tout type de traitement et analyse qui s’appliquent aux jeux de données en mode vecteur (voir chapitres 5 et 6). Le saviez-vous ?
CORINE Land Cover (CLC) correspond à un inventaire de l’occupation du sol en Europe issu d’images satellitaires. Les données de CLC sont mises à disposition en mode raster et en mode vecteur. Une procédure de vectorisation a ainsi été mise en œuvre pour transformer le jeu de données raster d’occupation du sol créé à partir de l’image satellite brute en un jeu de données vecteur.
4. Stocker des jeux de données géographiques : les formats informatiques Les données modélisées numériquement sont stockées dans des fichiers pour être exploitées par les SIG. Il existe de nombreux formats de fichiers : certains sont propriétaires, d’autres correspondent à des standards reconnus (voir p. 106-107). Il ne s’agit pas de tous les décrire ici, mais de donner des points de repère utiles. Les modalités de stockage des données varient selon qu’il s’agit de jeux de données vecteur ou raster.
4.1 Stocker des jeux de données raster Les fichiers associés aux jeux de données raster stockent d’une part l’image elle-même ou les mosaïques de l’image, c’est-à-dire l’assemblage d’images juxtaposées (voir Focus), et d’autre part les données décrivant les caractéristiques de l’image.
Intégration de données géographiques dans les SIG
133
• FOCUS : Les mosaïques des jeux de données raster
Lorsque le territoire étudié est couvert par plusieurs images raster stockées dans plusieurs fichiers qui se rapporte chacune à l’étendue d’une « scène » pour une image de télédétection ou à une photographie aérienne, il est possible de les assembler dans une mosaïque. Dans l’exemple de la figure 3.9, la mosaïque est composée de trois images raster.
ASCHAN, CUNTY, DAVOINE, 2023
Figure 3.9 : Les mosaïques d’images raster
3 fichiers raster de relief couvrant la zone d’étude
Mosaïque : à l’affichage, la mosaïque apparait comme une seule et même image
09, chapitre – mosaique – (105 x l’emplacement 35 mm) – #1 LaFig. mosaïque stocke3une information sur des différents fichiers raster d’origine sous la forme de « catalogue », avec leur position géographique respective. Il est ainsi possible d’ouvrir un seul fichier « mosaïque » au lieu d’ouvrir chaque fichier un à un. Cela permet par exemple de gérer, via un seul fichier de mosaïque, tous les fichiers raster correspondant à l’espace d’étude. Le format VRT (Virtual Raster Table) est un format fréquemment utilisé pour enregistrer les mosaïques.
Le stockage des données raster n’est pas normalisé et il existe plus d’une centaine de formats, chaque logiciel SIG ayant plus ou moins développé son propre format : ARC Digitized Raster (ADRG), Band Interleaved by Line (DIL) utilisé en imagerie satellitaire, ECW qui est un format compressé, ESRI Grid ou ASCII Grid utilisé par ESRI, GeoTIFF (format TIFF pour les SIG), IMG, JPEG2000… Ces différents formats correspondent aux différents types d’informations qui peuvent être stockés dans les fichiers raster, ainsi qu’aux différents processus de compression des données.
134
Les systèmes d’information géographique
• Les différents types d’informations stockées dans une image raster : fichiers mono ou multicanal Lorsque les fichiers raster stockent une seule information par pixel ou cellule, qu’il s’agisse de valeurs de gris pour une image aérienne en noir et blanc ou des valeurs d’altitude pour un MNT, le fichier est appelé monocanal (figure 3.10a). Quand les données raster correspondent à une information issue d’images aériennes ou satellite qui rassemblent les informations captées dans plusieurs longueurs d’onde du spectre électromagnétique, des formats « multicanaux » peuvent être utilisés. Cela peut également être simplement des données issues d’un scan en couleur RVB (rouge, vert, bleu). L’image colorée qui regroupe les trois couleurs (rouge, vert et bleu) est alors stockée dans un seul fichier (figure 3.10b). Les formats de fichiers multicanaux peuvent éventuellement être utilisés pour stocker une information monocanale.
Intégration de données géographiques dans les SIG
135
Figure 3.10 : Fichier raster monocanal et multicanal a) Fichier raster monocanal
.
b) Fichier raster multicanal
.
En fait, chaque canal est enregistré séparément (de manière transparente pour l’utilisateur) avec les valeurs de chaque couleur associées à chaque cellule.
136
Les systèmes d’information géographique
• Les procédés de compression des données raster Un des enjeux informatiques important lié aux données raster est leur poids en octets. En effet, théoriquement, une valeur doit être enregistrée pour chaque cellule. Ainsi, que l’image ou le fichier raster contienne des valeurs différentes pour chaque cellule, ou qu’elle corresponde à des valeurs toutes identiques (cas improbable d’une image totalement homogène), le poids du fichier sera identique. Pour réduire les poids des fichiers raster, différentes techniques de compression sont utilisées. Elles s’appuient généralement sur l’identification de cellules voisines ayant des valeurs identiques : -- La compression séquentielle (figure 3.11a) se base sur la définition de séquences de cellules identiques. Le fichier informatique stocke ainsi le nombre de cellules successives portant le même code. -- La compression QuadTree (figure 3.11b) se base sur une division successive en zones homogènes du raster selon différents niveaux. Par exemple, les 64 valeurs des cellules composant initialement un raster, peuvent être stockées en utilisant seulement 19 valeurs sur l’exemple de la figure 3.11b (celles associées aux carrés numérotés). Ce procédé permet d’alléger le stockage informatique en enregistrant les informations définies à la résolution la plus fine seulement quand cela est nécessaire.
Intégration de données géographiques dans les SIG
137
Figure 3.11 : Compression séquentielle et QuadTree a. Compression séquen�elle Stockage informa�que Compression séquen�elle Bâ� (2)
Lac (3)
(format standard) 8,8,3
nombre de lignes, (1,1) (3,7) de colonnes, de valeurs 8,8,3
1,3,3,3,3,3,3,3 1,1,3,3,3,3,3,3
(1,2) (3,6)
Sur ce�e ligne la valeur 1 apparait 3 fois et la valeur 3, 5 fois
1,1,1,3,3,3,3,3
(1,3) (3,5)
1,1,1,1,3,3,3,3
(1,4) (3,4)
1,1,1,1,1,1,2,3
(1,6) (2,1) (3,1)
1,1,1,1,1,1,2,2
(1,6) (2,2)
1,1,1,1,1,1,2,2
(1,6) (2,2)
1,1,1,1,1,1,1,2
(1,6) (2,2)
ASCHAN, CUNTY, DAVOINE, 2023
Forêt (1)
b. Compression Quad Tree 000 001
01
002 003 02
•
1
2
•
Niveau de division 1er
1
030 031
•
032 033 30 2 32
01
02
•
30
•
32
33
2e
310 311 312 313 000 001 002 003 33
030 031 032 033
310 311 312 313
3e
• zone hétérogène
Fig.dehors 11, chapitre 3 – compression (110 x 100 auxquels mm) – #1 En des fichiers raster –d’origine, peuvent être appliqués des algorithmes de compression, on trouve également le processus de pyramide qui permet d’optimiser la rapidité de l’affichage du jeu de données raster. Ce processus est basé sur la reconstitution de copies du raster initial à des niveaux de résolution inférieure définis selon différents niveaux d’échelle. Chaque copie appelée pyramide est alors affichée selon son niveau de zoom choisi par l’utilisateur. Les jeux de données raster sont créés pour des niveaux de zoom selon un facteur de réduction de 2 (ex : 1/25 000, 1/50 000, 1/100 000). Chaque raster est divisé en tuiles ou dalles, dont le nombre et la taille varient en fonction du niveau d’échelle. À chaque réduction, le nombre de pixels constitutifs de l’image est divisé par 4 : ainsi un espace couvert par 64 pixels au 1/25 000 le sera par 16 au 1/50 000 et 4 au 1/100 000 (figure 3.12).
138
Les systèmes d’information géographique
Les pyramides sont donc constituées de fichiers raster (portant généralement l’extension .ovr) dont on dégrade la résolution pour en alléger le poids et ainsi fluidifier l’affichage aux différentes échelles. Pour optimiser la performance des processus d’affichage et de traitement de ces données, une image raster peut être découpée en sous-ensemble d’images de taille identique, que l’on appelle « tuiles » ou « dalles ». Figure 3.12 : Principe des pyramides Facteur de réduc�on d’échelle
1/100 000
Nombre de pixels pour une même superficie
Facteur de réduc�on du nombre de pixels
1 ÷2
÷4
1/50 000
4
÷2
1/25 000
÷4
16
ASCHAN, CUNTY, DAVOINE, 2019
Échelle d’affichage
Définitions
• Tuilage : découpage des images raster en sous-ensemble d’images de résolution identique. • Pyramide : réchantillonnage du raster à un niveau de résolution plus basse, pour accélérer l’affichage à des échelles plus petites. • Mosaïque : assemblage d’images raster contiguës pour constituer un jeu de données raster. Cette mosaïque peut faire l’objet d’un tuilage.
Le principe des tuiles et des pyramides est très utilisé aujourd’hui dans les applications cartographiques en ligne, pour augmenter les performances d’affichage et de mise à disposition de données raster « à distance » via des serveurs cartographiques (voir p. 108-109).
Intégration de données géographiques dans les SIG
139
Pour éviter les erreurs, pensez-y !
La mosaïque permet d’assembler plusieurs fichiers raster image en un seul, alors que les tuiles sont créées pour découper les fichiers raster.
4.2 Stocker des jeux de données vecteur • Principe En mode vectoriel, la géométrie des objets, les données attributaires, les liens entre la géométrie des objets et les enregistrements des tables, les systèmes de coordonnées… doivent être stockés. Il existe différentes façons de stocker ces données : dans certains cas, chaque type de données (géométrie, données attributaires…) est stocké séparément dans un fichier spécifique ; dans d’autre cas, elles sont regroupées dans un seul fichier. Nous présentons ici les formats informatiques les plus répandus : des formats propriétaires, devenus des standards de facto, aux formats interopérables (voir p. 106-107).
Le format shapefile : un standard de facto Initialement, chaque logiciel SIG dispose de son propre format informatique pour stocker les données de type vecteur. Le format shapefile est l’un des formats de facto les plus répandus, qui est reconnu par les principaux logiciels SIG. Dans le format shapefile, les données sont stockées dans différents fichiers selon leur nature. Les coordonnées qui décrivent la géométrie des objets sont stockées dans des fichiers binaires, séparément des données attributaires qui les caractérisent ; ces dernières sont stockées dans un fichier dédié. Le lien entre les données du fichier contenant les attributs et celui contenant les géométries des entités géographiques s’effectue via des index d’enregistrements stockés dans un troisième type de fichier. Les informations décrivant le système de projection dans lequel sont définies les données sont stockées elles aussi dans un fichier spécifique différent des autres. D’autres fichiers peuvent être associés, comme ceux décrivant les métadonnées (voir p. 110) ou les index spatiaux (voir p. 150). Chacun de ces fichiers dispose d’une extension spécifique (tableau 3.4). Attention, par abus de langage, on parle souvent de fichier shapefile. Or, pour afficher sous forme de couche d’information géographique un 140
Les systèmes d’information géographique
jeu de données vecteur dans un SIG, le fichier portant l’extension .shp seule ne suffit pas, il faut qu’il soit stocké sur l’ordinateur au même endroit (c’est-à-dire dans le même dossier) que les fichiers .dbf, .shx et .prj. Tableau 3.4 : Les extensions des fichiers associés au format shapefile Extensions des fichiers
*.shp
*.dbf
*.shx
*.prj
Informations stockées
Description
Précisions
Géométrie des objets géographiques
Fichier du shapefile proprement dit Fichier binaire
Format propriétaire, utilisable uniquement par les logiciels SIG
Données attributaires
Format de type DataBaseFile
Lisible avec un tableur ou via un logiciel de base de données de type DBase
Stockage des index des enregistrements contenu dans le fichier *.shp
Fichier binaire
Format propriétaire
Stockage des informations décrivant le système de projection
Stockage des données en ASCII
Lisible par un éditeur de texte Utilisable par d’autres logiciels SIG
Stockage des index spatiaux *.sbn *.sbx
*.xml
Fichiers créés après une requête ou une jointure spatiale Stockage des métadonnées décrivant le shape
Format binaire
Format propriétaire
Lisible avec un éditeur de texte Format XML Interopérable avec un logiciel de géocatalogage
Intégration de données géographiques dans les SIG
141
Le format shapefile est un format dit natif, initialement développé par la société ESRI, éditeur du logiciel commercial ArcGIS. C’est un format propriétaire très ancien, mais qui s’est progressivement imposé aux logiciels SIG pour faciliter la réutilisation et l’échange des données entre les applications : il est donc considéré, aujourd’hui, comme un format standard dit de facto.
Le format mif/mid : un format d’échange Le format mif/mid (Mapinfo Interchangeable Format, figure 3.13), associé au logiciel MapInfo, est un format créé initialement pour faciliter l’import/export des données. C’est un format simple, composé de deux fichiers (*.mif et *.mid) dans lesquels les données sont stockées en ASCII (fichier qui contient du texte non formaté). -- Le fichier *.mif stocke à la fois les informations relatives au système de coordonnées, les noms et caractéristiques des champs attributaires, les coordonnées décrivant les objets graphiques. Il stocke aussi la symbologie des objets (figure 3.13a). -- Le fichier *.mid stocke la sémantique des entités géographiques : les valeurs des attributs sont stockées sous forme d’une succession de lignes où chaque ligne correspond à un objet décrit dans le *.mif. -- Le numéro de la ligne contenu dans le fichier *.mid correspond à l’ordre de déclaration des objets dans le *.mif (figure 3.13b).
142
Les systèmes d’information géographique
Figure 3.13 : Contenu d’un fichier *.mid a. Fichier .mif
Version 300 Charset "WindowsLatin1" Delimiter ","
Métadonnées
CoordSys Earth Projection 3, 104, "m", 3, 46.5, 44, 49, 700000, 6600000 Bounds (-112761336.461, -100805724.411) (114161336.461, 126116948.511)
Système de coordonnées nom du champ type Structure (longueur) table a�ributaire Descrip�ons des données Type de géométrie du premier objet nb de points Coordonnées des points cons�tuant l’en�té surfacique
Columns 5 ID Decimal(10, 0) CODE_COMM Char(3) INSEE_COM Char(5) NOM_COMM Char(50) STATUT Char(20) Data
Center 853546 6491961
Region 1 13 874657 6446085 873927 6446126 874351 6448347 872978 6448945 873144 6449695 873988 6450481 873798 6451952 874898 6452124 875585 6452049 876013 6451517 877160 6450220 877411 6449179 874657 6446085 Pen (1,2,0) Brush (1,0,16777215) Center 875194 6449104
…
b. Fichier .mid Le fichier .mid con�ent l’ensemble des données a�ributaires. Chaque a�ribut est séparé par une virgule. Chaque ligne correspond à un enregistrement. Elles sont présentées dans l’ordre d’appari�on des objets géographiques contenus dans le fichier MIF. Pour le fichier .mif ci-dessus, le début du fichier .mid est : 26,"157","38157","ESTRABLIN","Commune simple" 92,"370","38370","SAINT-BONNET-DE-CHAVAGNE","Commune simple"
…
ASCHAN, CUNTY, DAVOINE, 2023
Style contour fond graphique Centroïde coordonnées Type de géométrie du deuxième objet …
Region 1 18 852411 6489254 851695 6489232 850771 6490322 850304 6490852 850055 6491867 850142 6492626 851001 6493818 852705 6494437 854146 6494282 855178 6494664 857038 6494690 856464 6494225 855881 6492885 854963 6492354 854806 6491257 853329 6491145 852948 6489715 852411 6489254 Pen (1,2,0) Brush (1,0,16777215)
Fig. 13, chapitre 3 – Contenu d’un fichier *.mid – (110 x 165 mm) – #1
Intégration de données géographiques dans les SIG
143
Le format GeoJson : un format interopérable Il existe aujourd’hui d’autres formats numériques plus simples et plus performants, utilisés pour stocker les données géographiques vectorielles, comme le format GeoJson. Le format GeoJson est une extension du format Json (JavaScript Open Notation). Il s’agit d’un format de données dit « ouvert », qui permet de décrire à la fois les objets graphiques, à travers le stockage des coordonnées décrivant les points, lignes et polygones, et les données attributaires sous la forme de propriétés associées aux objets graphiques. Dans le format GeoJson, les données attributaires et graphiques sont rassemblées au sein d’un même fichier. Initialement, les données géographiques sont définies selon le système de coordonnées géographiques WGS84 et exprimées en degrés décimale. Toutefois, les données peuvent aussi être exprimées selon un système de coordonnées projetées. La figure 3.14 décrit la structuration du format GeoJson. Les entités géographiques sont décrites à travers leur type de géométrie « Feature », leurs coordonnées « Coordinate » et la description de leurs attributs « Properties ».
{ "type": "Feature", "geometry": { "type": "Point", "coordinates": [1.627, 48.127] }, "properties": { "name": "Pt1" }
ASCHAN, CUNTY, DAVOINE, 2019
Figure 3.14 : Structure d’un fichier GeoJson. Exemple d’un objet géométrique de type point
Des objets géographiques de géométries différentes peuvent être regroupés au sein d’un même fichier. En revanche, le format Geojson ne gère pas la topologie (voir chapitre 2, p. 73). Il existe un format particulier, le TopoJson, qui intègre la topologie.
Le format KML Avec le développement des globes virtuels et des applications cartographiques Web, l’usage du format KML (Keyhole Markup Language) s’est répandu. Il est aujourd’hui reconnu comme une norme officielle par l’OGC. Le format KML est basé sur le formalisme du langage 144
Les systèmes d’information géographique
XML. Les fichiers KML stockent à la fois les données géométriques et des données attributaires. Ils ont une extension *.kml ou *.kmz pour les fichiers KML compressés. • Les tuiles vectorielles Le tuilage vectoriel est une technique similaire au tuilage des jeux de données raster, mais qui s’applique aux jeux de données vecteur. Il permet de charger en mémoire et d’afficher par petits groupes les données en mode vecteur au fur et à mesure de la navigation cartographique et en fonction du niveau de zoom sélectionné par l’utilisateur. L’ensemble du jeu de données vecteur est divisé en tuiles définies chacune en fonction d’un niveau d’échelle, ce qui permet un affichage plus rapide des objets. Cette technique récente a été mise au point pour développer des applications de systèmes d’information géographique basés sur le Web (ou Web SIG) ou des applications de cartographie interactive. Pour éviter les erreurs, pensez-y !
Bien fournir tous les fichiers correspondant à un jeu de données raster ou vecteur. Le jeu de données n’est pas utilisable dans un SIG si certains des fichiers qui le composent manquent. Par exemple, le format propriétaire shape, largement utilisé pour les jeux de données vecteur est composé au minimum de fichiers : .shp, .dbf, .shx et .prj.
4.3 Stocker des jeux de données vecteur et raster : le format Geopackage Le format Geopackage est un format ouvert, reconnu par l’OGC, qui permet de stocker au sein d’un seul et même fichier plusieurs jeux de données d’information géographique (au lieu de plusieurs fichiers par jeu de données comme dans le format shapefile) de différente nature (par exemple, des données vecteur de géométries différentes), ainsi que leurs métadonnées. Cela permet de centraliser et de mieux organiser les jeux de données utilisés relatifs, par exemple, à un même thème et territoire (figure 1.3, p. 20). Intégration de données géographiques dans les SIG
145
Le format Geopackage, dont l’extension est .gpkg, est défini sur la norme de la base de données SQLite (voir chapitre 5.1, p. 147). À ce titre, il est considéré comme un fichier de base de données. Le saviez-vous ?
• Le format de fichier Geopackage est utilisable par la plupart des logiciels SIG, libres ou non. De plus en plus de producteurs de données fournissent leurs données en format Geopackage. • Un fichier Geojson est un fichier en format texte. Il est donc facilement lisible et modifiable avec un éditeur de texte. C’est un format de fichier particulièrement compatible avec les technologies du Web.
5. SIG et bases de données Dans le domaine des SIG, le terme « base de données » est très souvent utilisé pour désigner un ensemble de jeux de données géographiques organisés dans des dossiers ou simplement pour désigner des données stockées numériquement dans des fichiers plus ou moins structurés. Or, en informatique, on appelle « base de données » un ensemble structuré de données, gérées au moyen d’un système de gestion de bases de données (SGBD). Il existe différents types de SGBD : hiérarchique, relationnel, orienté objet. La plupart des bases de données s’appuient sur un SGBD dit relationnel. Les SGBD relationnels ont été étendus pour intégrer et gérer la dimension géométrique des données géographiques dans les bases de données dites spatiales : on parle alors de SGBD spatial.
5.1 Les systèmes de gestion de bases de données relationnels (SGBDR) Dès lors que les données sont volumineuses et variées, il devient nécessaire de les décrire et de les structurer afin de construire des bases de données performantes. Les SGBD présentent l’avantage de décrire les données indépendamment des applications logicielles, ce qui n’est pas toujours le cas pour les systèmes d’information géographique. 146
Les systèmes d’information géographique
Un SGBD a pour fonction de définir la structure et les propriétés de la base de données, de permettre d’interroger les données, de modifier les enregistrements de la base (insertion, suppression, modification) et de vérifier la cohérence et l’intégrité des données. Il présente l’intérêt de pouvoir gérer des gros volumes de données et permet à différents utilisateurs d’accéder à la base. Il existe de nombreux SGBD relationnels : parmi les plus connus on peut citer Oracle qui est un SGBD commercial, ou PostgreSQL, MySQL ou SQlite qui sont libres et développés en open source. La structuration des données dans un SGBD relationnel s’appuie sur un schéma de modélisation appelé modèle relationnel, qui décrit les données de façon conceptuelle, indépendamment de leur utilisation. • Le modèle relationnel Le modèle relationnel est basé sur une description conceptuelle des objets du monde réel (appelés entités) qui ont des propriétés et sont associés (association) entre eux par des relations. On parle alors de modèle conceptuel entités-association. Par exemple, si on s’intéresse à une base de données gérant le foncier d’une commune, celle-ci devra contenir la description des « parcelles » de la commune (entité 1) et de leurs « propriétaires » (entité 2), mais aussi les liens d’association entre les deux, comme par exemple « possède» ou « appartient » (association) , qui peuvent traduire le fait qu’un propriétaire possède une ou plusieurs parcelles et qu’une parcelle appartient à un ou plusieurs propriétaires. À partir de ce modèle conceptuel, une structure de base de données est mise en place, sous la forme d’un ensemble de relations. Ces relations traduisent à la fois les entités, leurs propriétés et les liens entre les entités. L’ensemble des relations constitue le schéma relationnel. Chaque relation correspond à un ensemble d’enregistrements décrits par des attributs. Par exemple, la relation Propriétaire, qui représente l’ensemble des propriétaires considérés est décrite par le Nom des propriétaires, leur Prénom, leur Adresse.
Intégration de données géographiques dans les SIG
147
Un attribut est caractérisé par son domaine de définition, c’est-à-dire son type, et l’ensemble des valeurs qu’il peut avoir. Un attribut peut être de type alphanumérique ou texte (ou chaîne de caractère), entier, réel, date (voir chapitre 1, p. 31-32). Chaque relation contient une clé primaire, qui correspond à un attribut ou groupe d’attributs identifiant de façon unique chaque objet de la relation. Un attribut identifiant est souvent créé pour servir de clé primaire. Par exemple, comme plusieurs propriétaires peuvent avoir le même nom de famille, la clé primaire sera un attribut contenant un numéro unique permettant d’identifier de manière univoque chaque propriétaire. Des relations peuvent également contenir des clés étrangères, c’est-à-dire un attribut qui fait référence à la clé primaire d’une autre relation (par exemple la relation « parcelle » a pour attribut l’identifiant du propriétaire qui est donc une clé secondaire pour cette relation « parcelle » et la clé primaire de la relation « propriétaire »). Ces clés étrangères permettent de lier les relations entre elles (figure 3.15). Les relations sont formalisées en spécifiant d’abord le nom de la relation suivi de la liste de ses attributs et leurs domaines de définition (notés souvent entre parenthèses). La clé primaire de la relation est identifiée en soulignant le ou les attribut(s) correspondant(s) (figure 3.15a). Ces relations sont stockées dans les bases de données relationnelles sous forme de tables, où les lignes correspondent aux enregistrements et les colonnes aux attributs (figure 3.15b). • Le langage SQL Dans les systèmes de gestion de base de données relationnelles, la création de la base de données et la manipulation (interrogation, modification, suppression, ajout des données) s’effectue au moyen du langage SQL (Structured Query Language) (voir chapitre 4, p. 173).
148
Les systèmes d’information géographique
Figure 3.15 : Relations et tables dans un SGBD a. Formalisation des relations Nom_Relation (attribut1 : type ; attribut2 : type ; attribut3 : type ; … ; attributn : type) Commune (code_insee : caractère ; nom_commune : caractère ; effectif population : entier) b. Exemples des relations et tables « propriétaire » et « parcelle » Relation « propriétaire » Propriétaire (numéro_propriétaire : caractère ; nom : caractère ; prénom : caractère ; Adresse : caractère) Dans la relation Propriétaire, l’attribut « numéro_propriétaire » permet d’identifier de façon unique un propriétaire et la valeur des attributs qui lui sont associés. Cet attribut constitue la clé primaire. Table « propriétaire » Numéro propriétaire
Nom propriétaire
Prénom propriétaire
Adresse propriétaire
1 2 3
Durand Duval Martin
A A B
… … …
Relation « parcelle » Parcelle (numéro_parcelle : caractère ; numéro_section : caractère ; nature : caractère ; revenu_fiscal : entier ; superficie_parcelle : décimal ; adresse_parcelle : caractère ; numéro_propriétaire : caractère) Dans la relation Parcelle, la clé primaire est constituée de deux attributs « numéro_parcelle » et « numéro_section ». Étant donné que le même numéro de parcelle peut être dans plusieurs sections, il est nécessaire d’associer les deux attributs pour identifier de façon unique un enregistrement. Numéro section
Numéro parcelle
Superficie parcelle
Nature parcelle
Revenu fiscal
Superficie parcelle
Adresse parcelle
Numéro propriétaire
A A B
122 300 123
1 000 500 2 000
Friche Forêt Culture
… … …
1 000 500 2 000
… … …
1 2 3
L’attribut numéro_propriétaire se retrouve dans les deux relations Parcelle et Propriétaire. Il constitue une clé primaire dans la table Propriétaire et une clé étrangère dans la table Parcelle. Il permet de faire le lien entre les deux tables.
Intégration de données géographiques dans les SIG
ASCHAN, CUNTY, DAVOINE, 2019
Table « parcelle »
149
5.2 Les systèmes de gestion de bases de données géographiques Les SGBD relationnels sont des outils particulièrement puissants. Cependant, le formalisme proposé est conçu pour des données de types numériques ou alphanumériques, et n’intègre pas les types géométriques (points, polylignes et polygones), ni les opérateurs topologiques (voir chapitre 2, p. 74). Les attributs de localisation sont décrits par des chaînes de caractères (nom ou identifiant des communes par exemple). Il existe des SGBD qui intègrent des fonctions additionnelles pour stocker, gérer, interroger des données rattachées à des objets géographiques et prendre en compte leur géométrie, afin de constituer des bases de données géographiques. On peut citer les plus connus : OracleSpatial, une extension du logiciel SGBD Oracle (propriétaire), ou PostGIS, une extension de PostgreSQL (ouvert) ou encore SpatiaLite, qui est une extension de SQLite. Ce dernier est un logiciel non commercial très utilisé dans le domaine de la géomatique. Les fonctions additionnelles intégrées dans les SGBD géographiques concernent : -- Les types de données spatiales qui font référence aux objets géométriques primitifs (point, polyligne et polygone). Un SGBD géographique intègre le type Geometry qui permet de spécifier la géométrie des objets géographiques. Par exemple, les relations « Autoroute » et « Ville » peuvent être définies de la manière suivante : AutoRoute = (Nom : char (10), Largeur : float, Geometry : linestring) Ville = (Nom : char(10), Pop : integer, Geometry : polygon)
-- L’indexation spatiale, qui permet d’accéder à un sous-ensemble de données géographiques et donc d’améliorer les performances d’exécution des requêtes spatiales. Lorsque l’indexation n’existe pas, l’accès aux enregistrements de la base s’effectue de façon séquentielle (lecture de tous les enregistrements les uns après les autres avant de trouver celui correspondant à la requête). Pour accélérer ce processus de recherche, on construit une sorte de pointeur, appelé index (par défaut, les SGBD créent un index sur chaque clé primaire). Ces index sont organisés selon une structure en arbre qui permet un parcours optimisé des enregistrements. Cette notion est indépendante du modèle relationnel. Appliquée 150
Les systèmes d’information géographique
aux données spatiales, l’indexation ne s’effectue pas sur les attributs des tables, puisque l’on interroge des objets géométriques. L’indexation ne se fait pas sur les objets eux-mêmes, mais sur leur étendue spatiale (figure 3.16). Figure 3.16 : L’indexation spatiale dans les bases de données spatiales Objets géographiques
Enveloppe des objets (étendue spatiale)
Indexation par l’enveloppe R4 R7 R5 R6
R1 R9 R10 R8
R11 R12
R2 R13 R15
R3
R1 R2 R3
R4 R5 R6 R7
R8 R9 R10 R11
R12 R13 R14 R15
ASCHAN, CUNTY, DAVOINE, 2019
R14
L’exécution des opérateurs spatiaux est par exemple plus rapide sur des données indexées spatialement. Ils sont d’abord appliqués aux enveloppes des objets (temps de calcul rapide sur des objets géométriques simples). Les opérateurs topologiques sont ensuite appliqués aux seuls objets géographiques situés à l’intérieur des enveloppes sélectionnées.
Les SGBD géographiques se différencient donc des logiciels SIG courants par le formalisme de la structuration des données. Les fichiers gérés par les SIG (tels que les fichiers shape) reposent sur un système de gestion de fichiers et non pas sur un SGBD. Ils ne sont pas structurés pour optimiser l’interrogation des données, ce qui peut rapidement poser des problèmes lorsque l’on veut intégrer dans une analyse des jeux de données complexes et volumineux. D’un autre côté, les fonctionnalités de visualisation cartographique sont souvent très peu développées, voire absentes, dans les logiciels de SGBD spatial. Il est donc souvent nécessaire de connecter la base de données à un logiciel SIG ou de visualisation cartographique.
Intégration de données géographiques dans les SIG
151
Le saviez-vous ?
Des fonctions présentes dans les SIG sont également disponibles dans les SGBD géographiques : –– Les opérateurs topologiques définis par l’OGC, qui permettent de gérer les relations spatiales (voir chapitre 2, p. 76), notamment pour formuler des requêtes spatiales (voir chapitre 4, p. 178). –– Les fonctions géométriques, qui permettent de calculer les surfaces, longueurs, centroïdes… des objets géographiques (voir chapitre 4, p. 156). –– Les calculs de distance (y compris des zones tampons) et de traitements spatiaux (agrégation spatiale, découpage, intersection, union…) (voir chapitre 5).
Il existe des systèmes de gestion de bases de données non relationnelles, comme par exemple le système appelé NoSQL. Ce système répond aux limites des SGBDR, notamment en termes d’extensibilité, de performance, de souplesse pour gérer de gros volumes de données et répondre au traitement de données de masses non ou semi-structurées. S’il a tendance à se développer dans le domaine des système d’information et du Web, il reste encore très peu utilisé dans le monde des SIG et de la géomatique.
5.3 Connexions entre SIG et systèmes de gestion de bases de données Les collectivités territoriales, entreprises et organisations disposent de bases de données intégrant une dimension géographique exprimée sous la forme d’un attribut textuel (nom de commune, adresse…). Dans ces bases de données, la dimension géographique n’est pas associée à des objets géométriques et ne peut donc pas faire l’objet de traitements spatiaux, de requêtes spatiales ou de visualisations cartographiques. Il peut être intéressant de valoriser cette dimension à travers l’usage d’un SIG, sans pour autant remettre en cause la structuration et les caractéristiques de la base de données existante. Pour cela, les SIG offrent des fonctionnalités permettant d’établir des connexions avec les SGBD, ce qui permet de profiter des avantages offerts par ces deux applications. Cette connexion s’effectue au moyen de programmes informatiques dédiés, appelés Interface de Programmation d’Application (API). 152
Les systèmes d’information géographique
On distingue deux catégories de connexions. La première assure une simple connexion entre les SIG et les bases de données comme les connexions DDE (Dynamic Data Exchange) ou OLE DB (Object Linking and Embedding-DB). Celles-ci sont basées sur des protocoles de communication au moyen de commandes dédiées. Elles servent essentiellement à la visualisation cartographique des données. Ces connecteurs sont utilisés pour accéder à des bases de données non relationnelles. Ils ont pour effet de renvoyer la table sélectionnée, qui est ensuite associée au jeu de données géographiques via une jointure attributaire (voir chapitre 4, p. 165). Le second type concerne les connexions qui offrent la possibilité aux SIG d’interroger directement les données contenues dans une base de données relationnelles. Il s’agit de connexion ODBC (Open DataBase Connectivity) ou JDBC (Java DataBase Connectivity). Elles sont utilisées avec des bases de données relationnelles. Avec une connexion ODBC, les tables de la base de données sont directement liées aux jeux de données géographiques via des jointures. La connexion JDBC est dédiée à des applications développées en Java, notamment dans le cas d’application Web. Elle assure l’interface entre le SIG et la base de données distante. Notions à maîtriser
• Sources et services de données : IGN (Institut national de l’information géographique et forestière) Admin Express – BD TOPO® – BD CARTO® – BD ORTHO® – RGE ALTI® – données de référence – données métier – données géographiques libres – directive INSPIRE – Open Data – Copernicus – CORINE Land Cover – OpenStreetMap (OSM) – métadonnées – qualité des données – interopérabilité – standard de facto (standard de fait) – géocatalogue – Géoportail – Géoservice de l’IGN – services web – Infrastructures de Données Géographiques (IDG) – Web Feature Service (WFS) – Web Map Service (WMS). • Intégration/création/conversion de données : géocodage – table de géocodage – appariement textuel – Base Adresse Nationale (BAN) – GPS – géoréférencement – points de calage – méthodes de rééchantillonnage – digitalisation – rastérisation – vectorisation.
Intégration de données géographiques dans les SIG
153
• Format de fichiers : raster monocanal – raster multicanal – pyramide – mosaïque – tuile/dalle raster – format Shapefile – format mif/mid – format GeoJson – format KML – tuile vectorielle – Geopackage. • Systèmes de gestion de base de données (SGBD) : système de gestion de bases de données (SGBD) relationnel (SGBDR) – clé primaire – clé étrangère – base de données spatiales (SGBD Spatial) – PostgreSQL – JDBC (Java DataBase Connectivy) – langage SQL (Structured Query Language). Pour réviser
1. Citez trois jeux de données produits par l’IGN. 2. Expliquez la différence entre les données et les métadonnées. 3. Quel rôle a joué la directive européenne INSPIRE dans l’accès aux données géographiques ? 4. À quoi correspond l’Open Data ? 5. Décrivez ce qu’est OSM. 6. Qu’est-ce qu’un service Web géographique ? 7. Quelle est la différence entre un WMS et un WFS ? 8. Quelle est la différence entre les procédures de géocodage et d’intégration de données ponctuelles géolocalisées ? 9. Décrivez le contenu d’un fichier GPX. 10. Quelle est la différence entre digitalisation et géoréférencement ? 11. Quelles sont les erreurs à éviter lors de la digitalisation d’information géographique ? 12. Décrivez les grandes étapes du processus de géoréférencement. 13. Quelle est la différence entre la vectorisation et la digitalisation ? 14. Qu’est-ce qu’un SGBD ? 15. Quelle est la principale différence entre un logiciel SIG et un logiciel de SGBD géographique ?
154
Les systèmes d’information géographique
Chapitre 4 Visualisation, interrogation et enrichissement de l’information géographique
Objectifs
• Savoir gérer la visualisation des données et la manipulation de la carte. • Savoir naviguer à travers les données géographiques dans un logiciel SIG. • Connaître les méthodes d’enrichissement sémantique des données vecteur et raster. • Comprendre les principes d’interrogation des données. • Savoir sélectionner les données selon des critères thématiques et/ou spatiaux. • Savoir communiquer sous forme de carte.
Dans les chapitres 1 à 3 ont été présentés les concepts et caractéristiques fondamentaux de l’information géographique et des SIG. La conceptualisation, la modélisation, l’acquisition et l’intégration des données spatiales dans un SIG sont des étapes indispensables, souvent longues et fastidieuses, pour produire des représentations numériques du monde réel. Pour prendre en main les données géographiques numériques dans un logiciel, il faut savoir les manipuler à la fois pour les représenter graphiquement, pour les mettre en relation, ou encore pour les sélectionner selon des critères d’intérêt. Les principes de visualisation, d’interrogation et d’enrichissement des données spatiales sont exposés dans ce chapitre.
1. Visualiser l’information géographique Les données géographiques ont vocation à être visualisées sous forme de cartes et de tableaux. Plusieurs outils intégrés dans les logiciels SIG facilitent cette visualisation.
1.1 Organiser les données dans un document cartographique La décomposition des jeux de données par thématique (cours d’eau, routes, bâtiments, etc.) amène à gérer l’affichage des données sous forme de couches d’information qui se superposent comme des feuilles de papier-calque. Plusieurs jeux de données de différents types (vecteur, raster, tableau, etc.) peuvent être ouverts simultanément dans un logiciel SIG. Les différents jeux de données intégrés dans le logiciel SIG apparaissent généralement sous forme d’une liste dans un gestionnaire de couches (figure 4.1). À partir de cette liste, il est possible de gérer la visibilité ou non de chaque couche, d’organiser l’ordre des couches et de les assembler dans des groupes choisis par l’utilisateur.
156
Les systèmes d’information géographique
L’ordre des couches est généralement choisi, pour des questions évidentes de lisibilité, en plaçant les données de représentation géométrique ponctuelle au-dessus de celles en représentation linéaire, elles-mêmes au-dessus des données en représentation surfacique et des données en mode raster. Si des données vectorielles de type polygone sont superposées à une couche raster, il est utile de ne représenter que les contours des entités, le fond restant transparent (figure 4.1). Figure 4.1 : Organisation et visibilité des couches dans un logiciel SIG
Routes principales Communes Altitude élevée faible
Affichage des couches sous forme de carte
Ordre des couches : - point - ligne - surface - raster
Gestionnaire de couches
ASCHAN, CUNTY, DAVOINE,2019
Écoles
OCUS : La notion de projet, d’espace de travail ou de document • Fcartographique dans les SIG
La majorité des logiciels SIG permettent de garder en mémoire les différents jeux de données qui ont été ouverts en vue d’une analyse, ainsi que les modes de visualisation choisis. Cette information est généralement stockée dans un fichier qui ne contient aucun jeu de données, mais simplement la liste des jeux à utiliser pour le projet et la description des paramètres d’affichage choisis. Cela signifie que ce fichier n’est utilisable par un tiers uniquement si les jeux de données ayant servi à créer le projet sont fournis avec le fichier projet.
Visualisation, interrogation et enrichissement de l’information géographique
157
1.2 Naviguer à travers les données géographiques – les jeux de données à l’écran Les logiciels SIG offrent à l’utilisateur la possibilité de consulter et d’explorer, de façon interactive, les données qu’ils contiennent. L’utilisateur peut visualiser les données contenues dans le SIG en les affichant aussi bien sous forme de cartes, que sous forme de tables attributaires (voir chapitre 1, figure 1.9, p. 30). • Explorer la carte
Via la souris et au moyen de différents outils, l’utilisateur peut interagir avec les cartes et les données. Différentes fonctionnalités sont proposées : -- pour se déplacer dans la carte et zoomer ; -- pour obtenir une vue de l’ensemble de l’espace géographique des couches ; -- pour connaître les coordonnées, les identifiants (nom, code) ou les attributs d’un objet sélectionné ou survolé sur la carte (figure 4.2a) ; -- pour sélectionner graphiquement un objet ou un ensemble d’objets. • Explorer les données attributaires Chaque entité géographique d’un jeu de données en mode vecteur est décrite par un ensemble d’attributs (voir chapitre 1, p. 28-29). Par exemple, les écoles sont décrites par leur nom, leur adresse postale, leur capacité d’accueil, etc. Il est possible de connaître les attributs d’une entité en particulier ou d’afficher sous forme de tableau l’ensemble des attributs de toutes les entités. Il est aussi possible de calculer des paramètres statistiques simples d’un champ et d’afficher la forme de sa distribution statistique (figure 4.2b). Les deux formes de représentation, cartographique et attributaire, sont liées dynamiquement : la sélection d’un objet ou d’un ensemble d’objets sur la carte a pour effet de sélectionner dans le tableau attributaire les enregistrements (c’est-à-dire les lignes) correspondant à ces objets, et inversement (figure 4.2c).
158
Les systèmes d’information géographique
Figure 4.2 : Lien dynamique entre les entités de la carte et les enregistrements Routes principales Communes
a. Affichage des a�ributs d’un objet sélec�onné sur la carte Al�tude : 207 m Routes principales
Al�tude élevée faible
id : R407827 nom : RN 7 longueur : 2,3 id : E1824 nom : Jules Ferry NbEleves: 138 Communes NbClasses : 5 id : C01 nom : Villars CodeDept : 69 Dept : Rhône
Écoles
ASCHAN, CUNTY, DAVOINE,2023
Écoles
Sta�s�ques b. Pour chaque champ Diagramme Moyenne : 141 de distribu�on d’une table a�ributaire, : 14,4 les informa�ons sta�s�ques Écart-type c. Lien dynamique : la sélec�on Min : 125 peuvent être affichées Max : 160 d’un objet sur la carte sélec�onne Nombre : 3 l’enregistrement correspondant Table a�ributaire des Écoles dans la table a�ributaire id nom NbÉlèves NbClasses E1823 Tourre�e 160 6 E1824 Jules Ferry 138 5 E1825 Doisneau 125 5 Table a�ributaire des Communes E1826 Les Gones 110 4 id nom CodeDept Dept C01 Villars 69 Rhône Table a�ributaire des Routes principales C02 Fleuri 69 Rhône id nom longueur C03 Baret 38 Isère R417259 RN25 1,5 C04 Châtenois 38 Isère R407827 RN7 2,3 C05 Saint-Didier 69 Rhône R406987 RN13 3,8 C06 Revest 38 Isère Fig. 02, chapitre 4 – attributs – (110 x 80 mm) – #2
1.3 Personnaliser l’affichage • Afficher différents figurés cartographiques Les logiciels SIG offrent des fonctionnalités permettant de modifier les figurés cartographiques des entités tels que l’épaisseur, le style ou la couleur des lignes et des contours ; la taille, le symbole et la couleur des points ; la trame, la couleur des polygones ; le niveau d’opacité des objets. • Choisir un système de coordonnées pour l’affichage des jeux de données Chaque jeu de données géographiques est enregistré dans un système de coordonnées géographiques ou projetées (voir chapitre 2, p. 46). Par défaut, l’affichage d’un seul jeu de données géographiques se fait dans le système de coordonnées du jeu de données. Si plusieurs jeux de données géographiques utilisés simultanément sont définis dans des systèmes de coordonnées différents (par exemple un premier jeu de données est en Visualisation, interrogation et enrichissement de l’information géographique
159
système de coordonnées géographiques WGS84 et un deuxième en système de coordonnées projetées Lambert93), ils se superposent généralement correctement grâce à un changement de système de coordonnées dit « à la volée ». Cela signifie que le logiciel opère un changement de système de coordonnées des jeux de données pour que leur affichage se fasse dans le même système. Cependant, la projection à la volée est un changement virtuel et ne modifie pas le système de coordonnées d’origine du jeu de données. Dans les faits, il est même possible de choisir un système de coordonnées pour l’affichage qui soit totalement différent des systèmes de coordonnées des fichiers d’origine. Il faut avoir conscience que le temps d’affichage peut être ralenti quand les jeux de données ouverts sont affichés dans des systèmes de coordonnées différents de celui dans lequel ils sont enregistrés. De même, certains traitements et analyses ne fonctionnent que si l’ensemble des jeux de données sont enregistrés dans un même système de coordonnées. Dans le cas où de nombreux traitements sont envisagés sur des jeux de données définis dans différents systèmes de coordonnées, il est préférable de les harmoniser au préalable en les modifiant (voir chapitre 2, p. 59). Le saviez-vous ?
Les logiciels SIG permettent d’afficher des données dans un système de coordonnées géographiques et il est possible de voir qu’un jeu de données est affiché dans le système WGS84, par exemple. Or, théoriquement, cela n’a pas de sens puisqu’il ne s’agit pas d’un système de coordonnées projetées, la carte est en fait affichée en utilisant la projection UTM associée au WGS84 (voir chapitre 2., p. 58).
• Définir des échelles de visibilité Les SIG permettent également de choisir à quelle échelle chaque jeu de données devra être affiché, afin d’améliorer la lisibilité. Il s’agit alors d’une échelle cartographique d’affichage. Par exemple, si une couche d’information géographique contient les écoles, il est possible de décider que les écoles ne s’afficheront qu’à une échelle inférieure au 1/100 000 (figure 4.3).
160
Les systèmes d’information géographique
Figure 4.3 : Affichage cartographique : figurés des entités spatiales et échelles de visibilité 150 m
Écoles
Routes principales
Routes principales
Communes
Communes
Altitude élevée
Altitude élevée
faible
500 m
À partir de l’échelle 1/100 000, faible les écoles n’apparaissent plus sur la carte. Elles sont alors considérées comme une information non pertinente à cartographier à cette échellle.
ASCHAN, CUNTY, DAVOINE,2019
Écoles
Pour éviter les erreurs, pensez-y !
• Respecter l’ordre d’affichage des couches dans le volet navigation. Par exemple, si une couche raster est affichée au-dessus d’une couche vecteur, cette dernière n’est pas visible, sauf si un degré de transparence est appliqué au raster ou que certaines cellules sont affichées sans couleur de fond. • Se rappeler que si les couches ouvertes ne sont pas visibles dans la fenêtre cartographique, cela signifie généralement que l’affichage n’est pas centré sur la portion terrestre couverte par les données. • Si les couches qui décrivent un même territoire ne se superposent pas correctement, cela est généralement dû à une mauvaise définition du système de coordonnées d’un des jeux de données affichés. Il est également possible que des jeux de données définis dans des systèmes de coordonnées différents ne se superposent pas parce que la projection à la volée n’est pas activée (ce qui n’est pas le cas par défaut dans tous les logiciels).
Visualisation, interrogation et enrichissement de l’information géographique
161
2. Enrichir sémantiquement l’information géographique Dans le cadre d’un projet SIG, pour permettre d’élargir le champ d’utilisation des données géographiques d’origine (traitements, analyses, cartographie), il est souvent nécessaire de les compléter en leur associant de l’information statistique ou thématique. On parle d’enrichissement sémantique des données.
2.1 Enrichir des jeux de données vecteur Les jeux de données vecteur se prêtent particulièrement bien à un enrichissement sémantique. Pour compléter les champs d’une table attributaire, il est possible de créer de nouveaux champs ou d’ajouter des champs à partir d’un autre jeu de données. • Par création de nouveaux champs Deux types d’opérations permettent de renseigner ces nouveaux champs (voir chapitre 1, p. 31-32 pour la définition des types de champs et leurs caractéristiques). Le premier type d’opération est fondé sur des calculs appliqués à la géométrie des entités spatiales d’un jeu de données et utilise des fonctions géométriques. Les logiciels SIG peuvent, par exemple, calculer différentes informations dérivées de la géométrie des objets : superficie, longueur, périmètre, coordonnées du centroïde (voir Focus).
• FOCUS : Centroïde d’un objet géographique
Le centroïde d’un objet graphique correspond à son centre géométrique (appelé aussi barycentre) ; ainsi le centroïde d’une polyligne est défini par les coordonnées du point situé à égale distance des extrémités de la polyligne et le centroïde d’un polygone correspond aux coordonnées de son centre géométrique (figure 4.4).
Les fonctions géométriques varient selon les types de géométries des objets graphiques (tableau 4.1). Il est généralement possible de choisir l’unité de mesure et le système de coordonnées dans lesquels les données géométriques sont calculées. 162
Les systèmes d’information géographique
Figure 4.4 : Centroïde d’un objet géographique
Centroïde de polyligne
Centroïde de polygone
En revanche, tous les calculs de surface, de périmètre et de longueur nécessitent la plupart du temps d’utiliser un jeu de données défini dans un système de coordonnées projetées. Quand la zone d’étude est vaste, il est recommandé de prendre avec précaution les calculs de superficie. En effet, lorsque les systèmes de coordonnées projetées utilisés sont basés sur des projections non équivalentes (voir chapitre 2, p. 52-53), les rapports de surface d’un objet à l’autre ne sont pas conservés lors de la projection. Tableau 4.1 : Exemples de mesures géométriques qui peuvent être calculées sur des jeux de données vecteur Forme d’objet
Géométrie calculable
Polygone
Surface Périmètre Coordonnées X et Y du centroïde Nombre de sommets du polygone
Polyligne
Longueur Coordonnées X et Y du début de la polyligne Coordonnées X et Y de la fin de la polyligne Coordonnées X et Y du centroïde Nombre de sommets de la polyligne
Point
Coordonnées X et Y du point
Le second type d’opération consiste à effectuer des calculs à partir du contenu de champs déjà présents dans la table attributaire. On utilise alors des opérateurs mathématiques classiques (addition, soustraction, multiplication, division) ou plus complexes (logarithme, cosinus…). Par exemple, à partir d’un jeu de données où les entités sont les écoles d’un territoire décrites par deux champs, l’un stockant le nombre d’élèves et l’autre le nombre de classes, il est possible de créer un nouveau champ donnant le nombre moyen d’élèves par classe dans l’école. Visualisation, interrogation et enrichissement de l’information géographique
163
Des opérateurs de traitement de chaînes de caractères sont aussi très utiles pour la création du contenu d’un champ à partir de champs déjà existants. Un de ces opérateurs permet, par exemple, d’extraire le nombre de caractères souhaité depuis la gauche ou la droite de la chaîne de caractères. Ainsi lorsque les codes communaux sont stockés sous forme de texte (ce qui est généralement le cas) (voir chapitre 1, p. 31-32), cette fonction permet d’extraire les deux premiers chiffres à gauche du code de chaque commune pour renseigner un nouveau champ avec le code du département dans lequel est localisée la commune (le code communal étant composé de cinq chiffres : les deux premiers indiquent le numéro du département et les trois derniers le numéro de la commune). Le saviez-vous ?
Les logiciels SIG peuvent mobiliser des informations dérivées de la géométrie des objets. Un jeu de données ne doit pas nécessairement être doté d’un champ dans la table attributaire qui précise la superficie de chaque entité géographique pour que cette information soit utilisée dans un calcul pour un nouveau champ attributaire. Une fonction intégrée de la géométrie des entités (comme la superficie, le périmètre ou la longueur) permet, par exemple, de calculer une densité de population uniquement à partir d’un champ décrivant le nombre d’habitants des entités géographiques. Pour éviter les erreurs, pensez-y !
• Définir un type de champ approprié. Par exemple, la définition d’un champ de type entier (voir Focus chapitre 1, p. 31-32) pour stocker des attributs décrivant la superficie en hectares des espaces verts d’une agglomération n’est pas pertinente. En effet, si certains espaces verts ont une superficie inférieure à un hectare, elles apparaîtront avec une superficie nulle. • Définir une longueur de champ appropriée au nombre de caractères alphanumériques des valeurs (voir Focus chapitre 1, p. 31-32). • Essayer d’appliquer un opérateur de traitement de chaîne de caractères sur un champ de type numérique.
164
Les systèmes d’information géographique
• Par appariement des entités/enregistrements et ajout de données statistiques dans la table attributaire L’appariement des enregistrements de deux tables est utilisé pour mettre en correspondance des enregistrements qui proviennent de jeux de données différents. Cet appariement peut être effectué de deux façons différentes. Lorsqu’elle est fondée sur la mise en relation de deux tables ayant un champ attributaire commun, on parle de jointure attributaire. Si ce sont des critères topologiques (voir chapitre 2, p. 72) qui permettent de faire le lien entre les entités de deux jeux de données vecteur, on utilise une jointure spatiale. Selon les caractéristiques des jeux de données sur lesquels porte la jointure, la méthode de jointure choisie ne sera donc pas la même, mais le résultat est toujours l’ajout de champs provenant d’une table à une autre table attributaire. Une jointure est, par exemple, utilisée pour ajouter dans la table attributaire d’un jeu de données vecteur décrivant les communes d’un territoire, des champs contenant des données statistiques provenant du recensement général agricole. Ces champs ajoutés peuvent être, par exemple, le nombre d’exploitations agricoles de chaque commune, la SAU (surface agricole utile) par commune ou le type de production agricole dominante.
Jointure attributaire En général, la jointure attributaire est utilisée pour ajouter des champs contenant des données statistiques à une table attributaire d’un jeu de données vecteur ; il est aussi possible de faire une jointure entre deux tables attributaires de jeu de données vecteur. Pour effectuer l’opération d’appariement entre les enregistrements par jointure attributaire et associer des champs de la table à joindre (figure 4.5b) à la table cible (figure 4.5a), deux conditions préalables doivent être remplies : − Les deux jeux de données doivent posséder pour tout ou partie les mêmes enregistrements, par exemple les communes d’une région. − Les tables attributaires des deux jeux de données doivent partager un champ contenant un attribut commun pour chaque enregistrement dans la table à joindre (figure 4.5c). Ces champs doivent identifier de manière unique les enregistrements dans chacune des tables. Visualisation, interrogation et enrichissement de l’information géographique
165
166
ou
NOM_COM Villars Fleuri Baret Châtenois Saint-Didier Revest
CODE_DEPT 69 69 38 38 69 38
NOM_DEPT Rhône Rhône Isère Isère Rhône Isère
CODE_GEO C06 C08 C01 C02 C05 C10
LIB_COM REVEST TOUVET VILLARS FLEURI SAINT DIDIER LA PLAINE
NB_EXPLOIT 48 9 4 36 7 14
PROD_DOM Vi�culture (appella�on et autre) Polyculture et polyélevage Ovins et caprins Polyculture et polyélevage Vi�culture (appella�on et autre) Polyculture et polyélevage
Les systèmes d’information géographique
NOM_COM Villars Fleuri Baret Châtenois Saint-Didier Revest
CODE_DEPT 69 69 38 38 69 38
NOM_DEPT Rhône Rhône Isère Isère Rhône Isère
CODE_DEP 69 69 Nul Nul 69 38
CODE_GEO C01 C02 Nul Nul C05 C06
LIB_COM VILLARS FLEURI Nul Nul SAINT DIDIER REVEST
NB_EXPLOIT 4 36 Nul Nul 7 48
PROD_DOM Ovins et caprins Polyculture et polyélevage Nul Nul Vi�culture (appella�on et autre) Vi�culture (appella�on et autre)
C06
C05
Saint-Didier Revest
69 38
Rhône Isère
C05 C06
Fig. 05, chapitre 4 – Jointure attributaire – (105 x 170 mm) – #1
Polyculture et polyélevage
Ovins et caprins
36
... ou la production dominante de la commune
Vi�culture (appella�on et autre) Vi�culture (appella�on et autre)
Viticulture (appellation et autre)
7 48
48
d’exploitations par 7 commune... 4
f. Une fois la jointure effectuée, il est possible de représenter ... le nombre sur une carte...
C05 C06
e. Table attributaire résultant de la jointure où seuls les enregistrements présents dans la table cible sont conservés, Id NOM_COM CODE_DEPT NOM_DEPT CODE_GEO NB_EXPLOIT PROD_DOM ainsi qu’une partie seulement des C01 Villars 69 Rhône C01 4 Ovins et caprins champs de la table jointe. C02 Fleuri 69 Rhône C02 36 Polyculture et polyélevage
Id C01 C02 C03 C04 C05 C06
Communes
c. Champ commun contenant un attribut unique pour chaque enregistrement. Il est fréquent que ce champ commun soit un champ d’identifiant unique. Les champs ne portent pas forcément le même nom, mais doivent obligatoirement être de même type.
d. Table attributaire résultant de la jointure où tous les enregistrements sont conservés
CODE_DEP 38 38 69 69 69 69
b. Tableau de données des statistiques agricoles par commune (table jointe)
Id C01 C02 C03 C04 C05 C06 C01
C04 C03
C02
ASCHAN, CUNTY, DAVOINE,2023
a. Table attributaire des Communes (table cible)
Figure 4.5 : Appariement des enregistrements par jointure attributaire
Dans l’exemple des communes d’une région, le code INSEE présent dans les deux tables définit de manière unique chaque commune. Les deux champs communs ne portent pas forcément le même nom, mais doivent obligatoirement être de même type. L’opération de jointure produit une seule table qui associe les champs de la table à joindre à ceux de la table cible. Cependant le résultat peut prendre deux formes : conserver tous les enregistrements de la table cible (figure 4.5d) ou ne garder que les enregistrements communs (figure 4.5e). Par ailleurs, la jointure permet de choisir d’ajouter l’ensemble des champs de la table à joindre à la table cible, ou seulement une partie des champs (figure 4.5e). Un intérêt majeur de la jointure attributaire est de permettre de cartographier ou d’analyser l’organisation spatiale de données d’un tableau statistique sans entité graphique vectorielle associée à l’origine. Ainsi, après avoir joint les champs contenant des données statistiques provenant du recensement général agricole au jeu de données vecteur des communes, il est possible de représenter sur une carte le nombre d’exploitations par commune ou la production agricole dominante de la commune (figure 4.5f). Pour éviter les erreurs, pensez-y !
• La table comprenant les champs contenant les données statistiques doit être mise en forme avant d’effectuer une jointure. Il est notamment important que la première ligne du tableau à joindre contienne les noms des champs. • Identifier la table cible et la table à joindre, afin de ne pas inverser le sens de la jointure. Dans l’exemple du jeu de données vecteur décrivant les communes d’une région et du jeu de données statistiques du recensement agricole, en ajoutant les champs attributaires de la table des communes à la table statistique du recensement agricole, le résultat obtenu sera une table attributaire sans objets graphiques associés. La cartographie des données statistiques du recensement agricole ne serait donc pas possible. • Une jointure entre deux tables doit être effectuée sur un champ commun qui corresponde à un même niveau hiérarchique de l’entité géographique (commune, département, pays, EPCI…). Dans l’exemple de Visualisation, interrogation et enrichissement de l’information géographique
167
la figure 4.5, les enregistrements sont les communes d’une région : l’appariement ne peut donc pas être réalisé à partir des champs décrivant les codes des départements (CODE_DEPT) car plusieurs communes possèdent le même numéro de département ; en revanche il peut être réalisé à partir des champs Id ou CODE_GEO qui identifient de façon unique les communes dans les deux tables (figures 4.5a et 4.5b). • Il est déconseillé d’effectuer une jointure à partir de champs contenant des noms ou des toponymes. Par les multiples possibilités d’orthographe des noms (par exemple, majuscules, minuscules, accents ou non), ils sont source d’erreurs potentielles d’appariement des enregistrements de deux jeux de données (exemple St Didier et Saint-Didier). Une jointure effectuée à partir de d’un champ d’identifiants ou sur un code permet d’éviter les problèmes d’appariements sur les noms. • Les deux champs utilisés pour la réalisation de la jointure doivent être impérativement de même type. Si, par exemple, un des champs contenant les identifiants utilisés pour effectuer la jointure est en format texte et que l’autre est en format numérique (entier ou réel), la jointure est impossible.
Jointure spatiale Si la jointure attributaire peut être effectuée dans d’autres environnements informatiques que les SIG (logiciels de traitements statistiques, de systèmes de gestion de bases de données et tableurs n otamment), la jointure spatiale est spécifique à la gestion de l’information géographique. L’objectif des jointures spatiales est le même que pour les jointures attributaires. Il s’agit d’associer des champs d’une table attributaire d’un jeu de données vecteur (table jointe) à une table attributaire d’un autre jeu de données vecteur (table cible). Les jointures spatiales sont utilisées notamment lorsqu’il n’existe pas de champ commun identifiant de façon unique les enregistrements dans chacune des deux tables attributaires à appareiller ; la jointure attributaire étant alors par définition impossible. La jointure spatiale peut être utilisée lorsque deux jeux de données vecteur contiennent des entités géographiques différentes comme un jeu de données de points décrivant les écoles d’une région et un jeu de données de polygones décrivant les communes dans cette même région. La jointure spatiale étant fondée sur des relations topologiques 168
Les systèmes d’information géographique
(voir chapitre 2, p. 72), celles-ci permettent l’appariement des enregistrements de deux tables attributaires différentes. Elle est donc utilisable uniquement pour mettre en relation deux jeux de données vecteur. Par exemple, les champs d’une table attributaire d’un jeu de données décrivant les communes (table jointe) d’une région pourront être ajoutés à la table attributaire d’un jeu de données décrivant les écoles de cette même région (table cible) en fonction d’une relation topologique de type inclusion : l’appariement se fera alors entre une école et la commune dans laquelle elle est incluse (figure 4.6a). Les champs de la table des communes viendront s’ajouter aux champs de la table attributaire des écoles. Cette jointure permettra ainsi de connaître pour chaque école la commune dans laquelle elle se situe (figure 4.6b). Si l’on inverse le sens de la jointure (le jeu de données des communes devient la cible et le jeu de données des écoles, le jeu de données joint), on utilisera également une relation topologique de type inclusion : l’appariement se fera alors entre une commune et les écoles qui sont incluses dans chaque commune (figure 4.6c). Étant donné qu’une commune peut contenir plusieurs écoles, la jointure aura pour effet de dupliquer l’enregistrement qui caractérise une commune autant de fois que celle-ci possède une école. Pour éviter ce type de redondance, la jointure spatiale est généralement associée à une étape d’agrégation des données. Dans cette étape, des opérateurs mathématiques comme le nombre, la somme ou la moyenne peuvent être mobilisés. Parfois ces calculs se font de manière automatique par défaut. Dans l’exemple, on calcule le nombre d’écoles par commune, le nombre d’élèves et le nombre de classes par commune (figure 4.6b). Pour les champs de format texte, c’est généralement, par défaut, le premier attribut dans la liste qui est rapatrié dans la table cible. Il est donc rarement pertinent de conserver un champ contenant des attributs qualitatifs dans ce type de jointure (par exemple, sur la figure 4.6c, la commune de Revest a deux écoles et seul le nom de l’école Jules Ferry est indiqué suite à la jointure). Le sens de la jointure est donc important et doit être réfléchi en amont de l’opération. Le résultat obtenu n’est pas le même si on ajoute les informations décrivant les écoles à la table des communes ou si on ajoute les informations des communes à la table des écoles. Il existe de nombreux opérateurs topologiques qui peuvent être utilisés pour réaliser un appariement. Les plus fréquents sont : intersecte, se trouve dans, contient (voir chapitre 2, p. 76). Visualisation, interrogation et enrichissement de l’information géographique
169
Figure 4.6 : Principes et résultats de la jointure spatiale a. Deux jeux de données C04
C03
Tourette
J.Ferry
C06
C02
C01
Lévi-Strauss
Doisneau
Communes
Écoles
id C01 C02 C03 C04 C05 C06 id E1823 E1824 E1825 E1826
nom Villars Fleuri Baret Châtenois Saint-Didier Revest
CodeDept 69 69 38 38 69 38
nom Tourrette Jules Ferry Doisneau Lévi-Strauss
NbEleves 160 138 125 110
Dept Rhône Rhône Isère Isère Rhône Isère NbClasses 6 5 5 4
b. Jointure spatiale avec les écoles comme jeu de données cible et les communes comme jeu de données joint id E1823 E1824 E1825 E1826
nom Tourrette Jules Ferry Doisneau Lévi-Strauss
NbEleves 160 138 125 110
NbClasses 6 5 5 4
id C05 C06 C06 C02
nom Saint-Didier Revest Revest Fleuri
CodeDept 69 38 38 69
Dept Rhône Isère Isère Rhône
ASCHAN, CUNTY, DAVOINE,2023
C05
c. Jointure spatiale avec les communes comme jeu de données cible et les écoles comme jeu de données joint id C01 C02 C03 C04 C05 C06
nom Villars Fleuri Baret Châtenois Saint-Didier Revest
CodeDept 69 69 38 38 69 38
Dept Rhône Rhône Isère Isère Rhône Isère
Nombre-id 0 1 0 0 1 2
Somme_NbEleves 0 110 0 0 160 263
Somme_NbClasses 0 4 0 0 6 10
Premier_Nom Nul Lévi-Strauss Nul Nul Tourrette Jules Ferry
Fig. 6, chapitre 4 – Jointure spatiale – (110 x 91 mm) – #1
Pour éviter les erreurs, pensez-y !
• Bien identifier le sens de la jointure. Il est indispensable de bien définir le jeu de données cible et le jeu de données à joindre. • Utiliser l’opérateur topologique approprié. L’opérateur utilisé pour la jointure détermine le résultat de la jointure. • Se rappeler que le résultat d’une jointure est visible uniquement dans la table attributaire du jeu de données cible. Une jointure, même de type spatial, n’a aucun effet sur les objets graphiques.
2.2 Enrichir des jeux de données raster Il est moins aisé d’enrichir les jeux de données raster que les jeux de données vecteur, notamment sans passer par de véritables traitements des données (ce qui ne fait pas l’objet de ce chapitre). Deux méthodes s’apparentant à l’enrichissement sémantique des jeux raster sont abordées ici. 170
Les systèmes d’information géographique
• Par calcul et par combinaison de jeux de données raster Comme dans une table attributaire, il est possible d’effectuer des calculs sur les attributs des cellules d’un jeu de données raster. Pour cela, on utilise ce qui est couramment appelé l’algèbre de cartes ou l’algèbre spatiale. Celle-ci est basée sur des expressions mathématiques ou logiques appliquées aux jeux de données raster (voir p. 169‑170). L’algèbre de cartes permet d’obtenir des nouvelles données à partir d’un seul jeu de données raster ou à partir de plusieurs, par la combinaison des cellules qui se superposent. Par exemple, si un jeu de données raster contient les températures maximales et un autre jeu de données raster contient les températures minimales, il est possible de créer un nouveau jeu de données raster qui correspond à la différence entre les températures maximales et minimales (figure 4.7). Figure 4.7 : Principes et résultats de l’algèbre de cartes
=
T° mini
Écarts T°
Raster 1 en entrée
Raster 2 en entrée
Raster résultat
30
28
22
22
12
9
3
2
18
19
19
20
25
26
20
19
9
9
2
4
16
17
18
15
21
21
18
25
4
5
6
9
17
16
12
16
22
25
28
30
3
6
9
10
19
19
19
20
Températures maximales Valeur 18 19 20 21 22 25 26 28 30
Effectif 1 1 1 2 3 3 1 2 2
-
Températures minimales Valeur 2 3 4 5 6 9 10 12
Effectif 2 2 2 1 2 5 1 1
=
Écarts de températures Valeur 12 15 16 17 18 19 20
Effectif 1 1 3 2 3 4 2
ASCHAN, CUNTY, DAVOINE,2023
-
T° maxi
Fig. 07, chapitre 4 – Algèbre de cartes – (110 x 60 mm) – #1
• Par reclassification de raster
Il peut être nécessaire de modifier les attributs des cellules pour les simplifier ou en changer les valeurs. Pour cela, il est possible de réaliser une reclassification du jeu de données raster. La reclassification consiste à regrouper des valeurs selon un critère (regrouper différents types de cultures, par exemple colza, blé, etc., en une seule classe « culture ») ou selon des classes d’intervalle (définies par des bornes). Par exemple, dans un jeu de données raster où l’attribut de chaque cellule correspond Visualisation, interrogation et enrichissement de l’information géographique
171
à la pente, il est possible de créer des informations sur l’importance de la pente dans une région (1 : faible, 2 : moyenne, 3 : forte) à partir du regroupement des valeurs de pente en pourcentage (faible : 0 à 5 %, moyenne : 5 à 10 %, forte : supérieure à 10 %). La reclassification a pour effet de modifier les attributs des cellules (figure 4.8). Raster en entrée 1,1
2,3
0,2
Raster résultat 1
1,6
1
1
1
Reclassification 6,6
5,1
1,5
0,5 12,3 8,5
0,4
2,3
4,7
6,2
4,3
Valeurs Classes 0 -5 1 5-10 2 10-100 3
1,3
Valeurs de pente
2
2
1
1
1
1
3
2
1
1
2
1
ASCHAN, CUNTY, DAVOINE,2019
Figure 4.8 : Principes et résultats d’une reclassification de raster
Classes de pente
3. Interroger et sélectionner l’information géographique Dans le but de répondre à un questionnement géographique, les SIG permettent d’interroger les données qu’ils contiennent afin de connaître la localisation et la répartition d’objets géographiques répondant à des critères plus ou moins complexes : -- Où sont situées les parcelles constructibles dans le PLUi (plan local d’urbanisme intercommunal) ? -- Comment se répartissent sur le territoire les exploitations agricoles dont la superficie est inférieure à 5 hectares ? -- Quels sont les terrains de sport qui sont situés à moins de 500 mètres d’une école et à plus de 100 mètres d’une route très fréquentée ?
3.1 Les principes généraux d’interrogation des données L’interrogation consiste à sélectionner un sous-ensemble d’entités contenues dans un jeu de données selon des critères spécifiés. On distingue deux types de critères :
172
Les systèmes d’information géographique
-- Les critères thématiques, qui font référence à une ou plusieurs caractéristiques sémantiques des entités géographiques. La sélection s’effectue alors sur une ou plusieurs valeurs des champs de la table attributaire. -- Les critères spatiaux, qui font référence aux caractéristiques spatiales des objets géographiques. Ces caractéristiques peuvent être géométriques (superficie, périmètre…), ou faire référence aux relations topologiques ou de distance entre les entités, c’est-à-dire à la position des objets géographiques les uns par rapport aux autres. -- Les critères thématiques et spatiaux peuvent être combinés. Le processus de sélection de l’information s’appuie sur un langage d’interrogation des données standard qui permet de formuler des requêtes. Le résultat issu d’une requête correspond à la liste des entités géographiques vérifiant les conditions, avec à la fois leurs attributs et leur géométrie complète. Une requête est une expression logique dont le formalisme est généralement basé sur le langage SQL (Structured Query Language).
• FOCUS : Les requêtes SQL
Une requête SQL est composée de trois instructions fondamentales : Select… correspond à la commande de sélection. Elle est suivie de la liste des champs qui seront sélectionnés. Par défaut tous les champs sont affichés. From… spécifie le ou les jeux de données sur lesquels la sélection ou la requête va s’appliquer. Where… décrit les critères de sélection.
Les logiciels SIG disposent d’un assistant de générateur de requêtes permettant à l’utilisateur de construire facilement sa requête. Via ces assistants, les clauses Select et From sont renseignées automatiquement lorsque l’utilisateur sélectionne les jeux de données et les champs attributaires. Seule la clause Where doit être renseignée par l’utilisateur. L’assistant de requêtes proposé par les logiciels permet d’éviter les erreurs de syntaxe.
Visualisation, interrogation et enrichissement de l’information géographique
173
3.2 Les critères d’interrogation des données • Critères sémantiques Une requête attributaire (dite aussi une sélection par attributs) permet de sélectionner des entités d’un jeu de données à partir de critères de sélection portant sur la valeur des attributs d’un ou plusieurs champs de la table attributaire d’un jeu de données vecteur, ou sur les valeurs des cellules d’un jeu de données raster. Dans le cas d’une requête à partir des champs d’une table attributaire d’un jeu de données vecteur, il est possible de combiner plusieurs conditions de sélection au sein d’une même requête. Par exemple, sélectionner les communes dont la population est supérieure à 10 000 habitants et dont le taux de chômage est inférieur à 9 % : Select Communes Where ”population” > 10 000 and ”Chômage” 5
“Population“ > = 5000
1. Dans les PLUi (plan local d’urbanisme intercommunal), AU désigne les zones à urbaniser et U les zones urbaines.
Visualisation, interrogation et enrichissement de l’information géographique
175
Types d’opérateurs ; ! = Like (Comme)
Description
Jeu de données
Cas d’étude
Clause Where dans la requête
Différent, inégalité
Vecteur : Parcelles
Les parcelles non constructibles
“CodePLUi“ ’AU’
Ressemble à
Vecteur : Parcelles
Les parcelles constructibles et urbanisées (contenant un U)
“CodePLUi“ Like ‘% U %‘1
Opérateurs ensemblistes
Between (Entre)
Inclus entre deux valeurs (types de champs nombre)
In / Not In (Dans / Pas dans)
Inclus ou non dans un ensemble de valeurs (types de champs texte ou nombre)
Vecteur : Exploitations agricoles
Les exploitations agricoles entre 5 et 10 ha
“Surface“ BETWEEN 5 AND 10
Raster : Relief
Les cellules correspondant à une altitude entre 500 et 700 mètres
“Valeur“ BETWEEN 500 AND 700
Vecteur : Bâtiments
Les bâtiments qui sont des châteaux, des églises ou des musées
“NomBat“ in (‘Château’, ‘Église’, ‘Musée’)
Opérateurs logiques
And (Et)
Les deux conditions doivent être remplies simultanément
Vecteur : Bâtiments
Les bâtiments publics de plus de 1 000 m²
“TypeBat“ = ‘Public’ AND “Surface“ > 1000
Or (Ou)
Parmi les deux conditions exprimées, au moins une doit être remplie
Vecteur : Bâtiments
Les bâtiments publics et les bâtiments de plus de 1 000 m²
“TypeBat“ = ‘Public’ OR “Surface“ > 1000
1
1. % est un caractère réservé qui désigne une chaîne de caractère quelconque.
176
Les systèmes d’information géographique
Le saviez-vous ?
Les opérateurs arithmétiques (–, +, *, /) permettent d’intégrer dans les conditions de la requête SQL des combinaisons mathématiques pour créer de nouvelles variables. Par exemple, Select * From Communes Where Population/Superficie > 500, sélectionne les communes dont la densité est supérieure à 500 hab./km², alors qu’il n’y a pas de champ densité dans la table attributaire.
Les résultats produits diffèrent selon que la requête est faite à partir d’un jeu de données vecteur ou raster. Une requête effectuée sur un jeu de données vecteur permet d’obtenir soit une sélection visible (en surbrillance) des objets sur la carte et des enregistrements dans la table attributaire, soit un résultat n’affichant que les enregistrements sélectionnés. Par exemple, la figure 4.9a ne montre que les enregistrements sélectionnés. Une requête à partir d’un ou plusieurs jeux de données raster produit un nouveau jeu de données raster où les cellules correspondant au(x) critère(s) de sélection prennent la valeur 1 et les cellules ne correspondant pas au critère de sélection prennent la valeur 0 (figure 4.9b). Figure 4.9 : Résultats d’une requête a. Sélec�on sur vecteur
Communes Al�tude élevée faible Les entités répondant aux critères de la requête (NbEleves > 130) sont affichés en surbrillance sur la carte... ... et dans la table attributaire id nom NbEleves NbClasses E1823 Tourrette 160 6 E1824 Jules Ferry 138 5 E1825 Doisneau 125 5 E1826 Lévi-Strauss 110 4 Ou seuls les enregistrements répondant aux critères s’affichent dans la table attributaire id nom NbEleves NbClasses E1823 Tourre�e 160 6 E1824 Jules Ferry 138 5
b. Sélec�on sur raster Raster en entrée 1,1
2,3
0,2
1,6
0,4
4,3
6,6
5,1
1,5
0,5 12,3 8,5
2,3
4,7
6,2
1,3
Valeurs de pente Critère de sélection : Valeur > 5 Raster en sortie 0
0
0
0
1
1
0
0
0
0
1
1
0
0
1
0
0 : la cellule ne répond pas au critère 1 : la cellule répond au critère
ASCHAN, CUNTY, DAVOINE,2023
Écoles
Routes principales
Fig. 09, chapitre 4 – Sélection – (110 x 82 mm) – #2
Visualisation, interrogation et enrichissement de l’information géographique
177
• Critères géographiques Les requêtes spatiales ou géographiques permettent de sélectionner les entités selon des critères géométriques et/ou topologiques et reposent aussi sur le formalisme SQL. On distingue deux types de requêtes spatiales. Le premier type porte sur des critères géométriques sont basées sur l’utilisation de fonctions géométriques permettant de connaître la surface, la longueur, le périmètre, etc., de l’objet. Leur utilisation s’apparente aux requêtes attributaires. Ces fonctions (area, perimeter, length…) peuvent être intégrées dans la clause conditions de la requête SQL. Par exemple, Select * From Communes Where communes.obj(area) > 100, sélectionne les communes dont la superficie est supérieure à 100 kilomètres carrés. Elle s’applique sur la géométrie de l’objet (communes.obj). Le deuxième type de requêtes spatiales est basé sur l’utilisation d’opérateurs spatiaux, appelés aussi opérateurs topologiques, qui font référence aux relations spatiales entre les objets : critères d’adjacence, d’inclusion, d’intersection, de distance (voir chapitre 2, p. 73). En général, les requêtes spatiales font intervenir au moins deux jeux de données. Il est alors nécessaire d’identifier le jeu de données contenant les objets que l’on cherche à sélectionner et celui contenant les objets par rapport auquel se fait la sélection. Par exemple, si l’on cherche les exploitations agricoles traversées par un sentier de randonnées, ce sont les exploitations agricoles qui constituent le jeu de données à sélectionner (appelé parfois cible) et les sentiers de randonnées le jeu de données par rapport auquel s’effectue la sélection (appelé parfois source ou référence). Le résultat de la sélection se trouve bien entendu dans le jeu de données à sélectionner (cible). Il est possible de faire une sélection sur des critères géographiques sur un seul jeu de données. Dans ce cas, il est nécessaire de décomposer la requête en plusieurs sous-requêtes : des objets sont préalablement sélectionnés (par exemple, l’objet château est sélectionné) et on cherche à sélectionner les objets de ce même jeu de données sur un critère spatial (par exemple tous les sites touristiques à moins de 500 mètres du château dans un jeu de données comprenant des entités qui décrivent des sites touristiques).
178
Les systèmes d’information géographique
• Critères combinés ou mixtes Les critères géographiques et attributaires peuvent être combinés entre eux pour effectuer des requêtes mixtes. Par exemple, dans un jeu de données vecteur, une requête mixte correspond à la sélection des bâtiments qui sont publics (sélection sur un critère attributaire) et qui sont situés à moins de 500 mètres d’un château (sélection selon un critère géographique, après une sélection sur les bâtiments correspondant à un château). En mode raster, des requêtes combinées mobilisent au moins deux jeux de données raster, puisque la sélection de cellules d’un raster est effectuée à partir des attributs des cellules localisées au même endroit (superposées) dans un autre jeu de données raster. De cette façon, il est par exemple possible de sélectionner les zones non forestières situées sur des pentes à plus de 10 % afin d’identifier les secteurs où il y a un risque de glissement de terrain (figure 4.10).
Raster 1 en entrée 1,1
2,3
0,2
1,6
Raster 2 en entrée 1
1
0
6,6
5,1
4,3
1
1
0
0
1,5
0,5 12,3 8,5
1
0
0
0
2,3
4,7
0,4
6,2
1,3
Valeurs de pente
0
0
1
Raster en sortie 0
0
0
0
0
0
0
0
0
Critère de sélection : Raster1.Valeur > 5 ET Raster2.Valeur = 0
0
0
1
1
0
0
0
0
1
Couvert forestier Valeur Signification 0 non forestier 1 forestier
ASCHAN, CUNTY, DAVOINE,2019
Figure 4.10 : Sélection attributaire et spatiale combinée à partir de deux jeux de données raster
0 : la cellule ne répond pas au moins à un des deux critères. 1 : la cellule répond aux deux critères.
Pour éviter les erreurs, pensez-y !
• Les opérateurs topologiques ne peuvent pas être utilisés pour comparer des valeurs attributaires. • Les opérateurs logiques ne peuvent pas être utilisés pour comparer des objets géométriques. • Respecter les règles de syntaxe imposées par le langage SQL. • Connaître la différence entre les opérateurs ET et OU lors d’une sélection sur les attributs.
Visualisation, interrogation et enrichissement de l’information géographique
179
− L’opérateur OU implique qu’au moins une des conditions doit être remplie ; il correspond au OU inclusif (toutes les conditions peuvent aussi être remplies). Pour sélectionner l’ensemble des communes des départements de l’Ain et de la Loire, la syntaxe suivante sera utilisée : Select * From Communes Where “Departement“=‘AIN’ OR “Departement“=‘LOIRE’. L’utilisation de l’opérateur ET n’est pas utilisable ici, puisqu’aucune commune ne prend pour attribut, dans le champ département, à la fois ‘AIN’ et ‘LOIRE’. − L’opérateur ET est donc utilisé uniquement lorsque l’ensemble des conditions doivent être remplies pour une même entité : Select * From “Communes“ Where “Departement“=‘AIN’ AND “Population“>2000, sélectionnera les communes de l’Ain dont la population est supérieure à 2 000 habitants.
• Se rappeler que lors de la réalisation de calculs ou de traitements sur des entités en mode vecteur, seules les entités sélectionnées seront concernées par ces calculs ou traitements. Cela peut être utile dans certains cas…, mais peut parfois entraîner des erreurs si l’utilisateur n’a pas conscience qu’il y a une sélection en cours.
4. Communiquer l’information géographique Les SIG permettent de gérer la donnée géographique, l’observer, l’interroger, l’enrichir, mais également de communiquer l’information. La différence entre la visualisation et la représentation cartographique est liée au public de la carte. Si la visualisation de l’information pour la connaître et la manipuler ne concerne que l’utilisateur du SIG lors du traitement des données, la représentation de l’information nécessite de se placer dans une démarche de communication en respectant des règles de rédaction cartographique. Les règles cartographiques doivent être maîtrisées parallèlement et préalablement à l’utilisation des outils SIG et pour cela, le lecteur peut se référer au Manuel de cartographie [Lambert et Zanin, 2016].
180
Les systèmes d’information géographique
En effet, les SIG n’ont pas de règles de représentation cartographique intégralement préétablies et c’est à l’utilisateur de SIG d’appliquer les bons modes de représentation en fonction des données et en fonction du format de diffusion de la carte finale (voir Focus).
• FOCUS : La carte
Une carte est une représentation de l’espace ou d’un phénomène spatial. Elle peut être vue comme une reconstitution d’une image mentale de la réalité. Une carte est définie par : – un schéma conceptuel issu d’un processus de sélection, de simplification et de schématisation de l’information ; – une légende qui permet de mettre en valeur l’information représentée et de traduire les relations entre les attributs (relations d’association, de différence, d’ordre et de proportion) ; – une échelle de réduction (rapport entre la réalité du terrain et son interprétation sur la carte) ; – un système de projection qui permet de représenter un monde sphérique, la Terre, en trois dimensions sur une surface plane (voir chapitre 2, p. 52). La carte offre une représentation imagée d’un ensemble d’informations géographiques. Elle constitue un support à l’analyse, mais aussi à la production de nouvelles informations géographiques. Sa construction repose sur un langage cartographique et s’inscrit dans un objectif de communication, c’est-àdire faire passer un message pour identifier, comprendre, analyser les phénomènes géographiques. L’information géographique peut donner lieu à une diversité de représentations cartographiques.
4.1 La sélection de l’information à représenter La communication cartographique nécessite de sélectionner l’information pertinente à représenter en fonction de la question posée mais aussi de l’échelle à laquelle on la traite. La création de jeux de données géographiques répond bien entendu à cette même nécessité (voir chapitre 1, p. 19), mais la représentation cartographique de l’information ajoute d’autres contraintes liées à la perception visuelle des représentations graphiques.
Visualisation, interrogation et enrichissement de l’information géographique
181
La sélection de l’information peut se fonder sur un champ qui contient des attributs relevant de la hiérarchisation de l’information (nombre d’habitants des centres urbains, catégories des routes, niveaux hiérarchiques des cours d’eau, etc.). Un jeu de données d’information géographique peut, par exemple, contenir les informations relatives aux routes pour l’ensemble de la France continentale. La représentation du réseau routier de la France à l’échelle du 1:25 000 000 ne permet pas de représenter toutes les routes (départementales, nationales et autoroutes, figure 4.11a), il faut au préalable sélectionner les autoroutes et routes nationales qui structurent le territoire. Cette sélection nécessite de disposer d’un champ qui contient l’information relative à la catégorie de la route (sur la figure 4.11b) et de ne retenir que les routes de type « routes nationales » et « autoroutes ». Figure 4.11 : L’importance de la sélection de l’information pour la représentation cartographique les plus importantes en
Autoroute
Autoroute
Départementale
Source : IGN, ROUTE 120®
0
200
400 km
ASCHAN, CUNTY, DAVOINE,2023
a. Toutes les routes
Fig. 11, chapitre 4 – selection information – (110 x 40 mm) – #1
4.2 La généralisation des tracés Quand les cartes sont tracées, le cartographe adapte le degré de détail de l’information représentée à l’échelle de la carte : c’est la généralisation. Cette opération est assez complexe et lie sélection de l’information pertinente, schématisation des tracés et harmonisation (niveau de détail homogène, conservation des positions relatives des objets dans l’espace). Même si elle est difficile à automatiser, les SIG incluent quelques fonctions de généralisation cartographique (simplification de tracés, agrégation d’objets proches). 182
Les systèmes d’information géographique
L’IGN produit des bases de données à des échelles différentes et donc à des niveaux de généralisation différents (voir chapitre 1, p. 28-29). Par exemple, la base de données ROUTE 500® est la base de données dédiée aux applications cartographiques et routières du 1:200 000 au 1:500 000, alors que la base ROUTE 120® était la base de données dédiée aux applications cartographiques et routières du 1:500 000 au 1:4 000 000. La base ROUTE 120® contenait une sélection des routes les plus importantes avec un tracé simplifié par rapport à la base ROUTE 500®.
4.3 La cartographie de l’information thématique • Les variables visuelles Les différents jeux de données doivent être représentés en utilisant des figurés cartographiques. Certains figurés ont un caractère universel : ainsi les cours d’eau seront plutôt représentés en bleu, les forêts en vert, les voies de chemin de fer par un trait avec des hachures perpendiculaires, les aéroports par un symbole représentant un avion, etc. Ces types de représentations sont proposés dans les systèmes d’information géographique. Dans ce cas, tous les objets géographiques d’un jeu de données sont représentés de la même façon. Les SIG permettent également de faire varier les types de symboles utilisés en fonction des valeurs d’un champ, que ces champs contiennent des valeurs numériques ou du texte. Cela relève de ce qui est couramment appelé la cartographie thématique. Par exemple, les communes du Rhône pourront être représentées par des couleurs différentes en fonction du parti politique de leur maire ou par des teintes de couleur plus ou moins foncée en fonction de la part des emplois dans l’agriculture ou encore par des cercles proportionnels aux nombres d’habitants. Ces représentations thématiques se fondent sur les variables visuelles théorisées par Jacques Bertin (1967) dans son ouvrage La sémiologie graphique. Les variables visuelles doivent être utilisées pour leur capacité à transcrire ces différents types de données et les relations entre attributs qu’elles sous-tendent. L’ouvrage Manuel de cartographie
Visualisation, interrogation et enrichissement de l’information géographique
183
[Lambert et Zanin, 2016] présente en détail les propriétés de chaque variable visuelle. Une version simplifiée, associant ces variables aux types de données et aux relations entre attributs qu’elles permettent de traduire (tableau 4.3), est proposée ici. Les cartes thématiques réalisées avec un environnement SIG doivent respecter les règles de la cartographie et de la sémiologie graphique. Tableau 4.3 : Tableau des variables visuelles en fonction du type de données statistiques et du type de champ attributaire Type de données statistiques
Qualitatives
Quantitatives
Type de champ attributaire
nominales
texte
ordinales
entier
relatives (ou d’intensité)
réel
absolues (ou de stock)
entier ou réel
Relations
Variables visuelles
différence
forme, couleur orientation
ordre
valeur (intensité de la couleur ou gradation harmonique)
proportionnalité
taille
• FOCUS : Les fichiers de style dans les SIG
Dans les SIG, les styles cartographiques définis pour un jeu de données géographiques sont stockés dans un fichier de styles, appelé parfois fichier de couches. Lors d’un projet SIG, il est recommandé de créer des fichiers de styles pour garder la même symbologie et éviter de la refaire. Un fichier de style bien connu est celui qui est fourni avec la base de données d’occupation du sol européenne CORINE Land Cover et qui permet d’afficher la légende standardisée pour représenter l’occupation du sol.
• La discrétisation des données quantitatives relatives Les données quantitatives relatives (ou de rapport) sont issues d’un calcul d’un rapport entre deux valeurs (par exemple, le nombre de pieds de vignes par parcelle agricole ou l’indice de féminité qui est le rapport 184
Les systèmes d’information géographique
entre le nombre de femmes et le nombre d’hommes sur un territoire). Elles donnent lieu à l’utilisation de discrétisation, c’est-à-dire à des méthodes de mise en classe des données. Cette discrétisation est rendue obligatoire par les propriétés physiologiques de perception de la variable visuelle valeur, qui limitent à 7 le nombre de paliers de couleurs ordonnées. Pour des questions de lisibilité, le nombre de classes de couleurs ordonnées ne doit donc pas excéder 7 classes. Les méthodes de discrétisation sont basées sur différents critères : –– Minimisation de la variance intra-classe et maximisation de la variable inter-classe : algorithme de Jenks ou méthode dite des seuils naturels. –– Étendue identique pour chaque classe (exemple : de 10 % en 10 %) : amplitude égale. –– Nombre d’individus (nombre d’enregistrements de la table attributaire) identique dans chaque classe : quartiles ou effectifs égaux. –– Limites de classes basées sur la moyenne et l’écart-type : standardisées. –– Progression géométrique : l’étendue de chaque classe augmente à chacune des classes en fonction d’une raison1. Ces méthodes de discrétisation, qui sont décrites dans Lambert et Zanin [2016], sont généralement proposées par les logiciels SIG. Ils proposent aussi une possibilité de définir manuellement les limites de classes. Dans ce cas, ces limites peuvent être placées là où la série présente les plus fortes dispersions ou bien en fonction de seuils définis préalablement. Le choix de la méthode de discrétisation est basé sur plusieurs critères : –– les propriétés de la distribution (figure 4.12) ; –– la nécessité de comparer la distribution spatiale de plusieurs phénomènes ; –– des objectifs cartographiques (mettre en avant ou non les valeurs extrêmes par exemple).
1. Au sens mathématique du terme : raison d’une suite géométrique.
Visualisation, interrogation et enrichissement de l’information géographique
185
Figure 4.12 : Formes de distribution et discrétisation
Pour éviter les erreurs, pensez-y !
• Sélectionner l’information à représenter sur la carte en fonction du message à faire passer et des objectifs fixés. • Les SIG n’utilisent pas la notion de variables visuelles. Ils proposent un mélange d’appellations entre le type de données et le type de représentation cartographique (il est souvent question de catégories pour les données qualitatives et de quantités pour les données quantitatives). Il revient donc à l’utilisateur du SIG d’identifier lui-même le type de données et d’appliquer les variables visuelles adaptées à chaque type de données. • Utiliser la proportionnalité pour les données quantitatives de stock (effectif ou quantité). Pour les données quantitatives absolues, la taille des cercles doit être proportionnelle aux attributs du champ. Mais attention, un cercle représentant 1 000 habitants est 10 fois plus grand qu’un cercle représentant 100 habitants ; ce qui signifie qu’il ne faut pas utiliser les propositions de classes de taille de cercles où seront associées une taille à la plus petite valeur et une taille à la plus grande valeur indépendamment du rapport de proportionnalité entre le minimum et le maximum.
186
Les systèmes d’information géographique
4.4 La cartographie lissée Les SIG proposent une représentation sous forme de carte lissée, souvent appelée carte de chaleur (heatmap). L’objectif est de simplifier la lecture de l’organisation spatiale du phénomène en repérant les lieux de concentration (voir chapitre 6, p. 243) Sans rentrer dans le détail du lissage (l’ouvrage Manuel de géographie quantitative [Feuillet, Cossart et Commenges, 2019] en présente la méthode, p. 89‑92), l’idée est de transformer l’information spatialement discrète (par exemple, les exploitations agricoles touchées par la grippe aviaire) en information continue dans l’espace (figure 4.13a). Cette transformation produit un jeu de données raster où chaque cellule porte une valeur de densité calculée. La réalisation d’une carte lissée nécessite de définir un rayon, qui est la distance à laquelle un point (ou un polygone) est pris en compte dans le calcul de la valeur de la cellule (voir chapitre 2, p. 97). Il est également possible d’effectuer le calcul à partir d’une quantité associée aux points ou au polygone (par exemple, le nombre de volailles par exploitation, figure 4.13b).
Visualisation, interrogation et enrichissement de l’information géographique
187
Figure 4.13 : Lissage d’un jeu de données ponctuelles (carte de chaleur) a. Lissage sur la localisation des exploitations agricoles touchées par la grippe aviaire (carte de chaleur)
Concentration d’exploitations Élevée Faible
Exploitation agricole touchée par la grippe aviaire
Nombre de volailles 1 Concentration de cas de grippe aviaire Élevée
100
10 000 0
25 km
Faible
ASCHAN, CUNTY, DAVOINE, 2019
b. Lissage pondéré par le nombre de volailles touchées par la grippe aviaire par exploitation
4.5 Les affichages graphiques et les résumés statistiques Les SIG intègrent généralement des fonctions permettant d’afficher les données attributaires sous forme de graphiques simples, comme les diagrammes de distribution et les histogrammes. Les données contenues dans les tables attributaires peuvent aussi faire l’objet de résumés statistiques : calcul de somme, moyenne, écart type, valeur minimale ou maximale d’un champ. Il est également possible de créer des tableaux de contingence ou tableaux des moyennes. Le principe de ces tableaux est d’indiquer pour chaque attribut (ou classe d’attributs) le nombre d’enregistrements et éventuellement d’autres indicateurs statistiques comme la moyenne ou la valeur maximale. Par exemple, l’étude des communes de la région Auvergne-Rhône-Alpes peut donner lieu à la réalisation d’un tableau donnant pour chaque département, le nombre de communes, le nombre d’emplois agricoles dans chaque département, ainsi que le nombre moyen, le minimum et le maximum (voir chapitre 5, p. 197). 188
Les systèmes d’information géographique
4.6 La construction d’un document cartographique Les logiciels SIG distinguent la visualisation de la carte à l’écran de sa réalisation sous forme de document cartographique en vue d’une diffusion. Ils intègrent des fonctionnalités permettant de mettre en page les représentations cartographiques par l’insertion de titre, de légende, d’échelle, d’orientation, d’images, de textes…
• FOCUS : La mise en page
La représentation cartographique ne peut être communiquée avant d’avoir été mise en page (mise en scène selon Lambert et Zanin, 2016). Il s’agit d’ajouter des éléments permettant de donner du sens à la carte et aux données utilisées : titre, légende, sources, auteur, échelle. D’autres éléments optionnels peuvent être ajoutés : carton de situation, orientation, cadre, quadrillage de coordonnées géographiques (graticule), graphiques représentant la forme de la distribution… La mise en page consiste à hiérarchiser et à organiser de façon raisonnée l’ensemble de ces éléments dans le document cartographique, en fonction des objectifs de la carte et de ses usages. Pour éviter les erreurs, pensez-y !
• Dans les logiciels SIG, la carte insérée dans la mise en page conserve souvent un lien dynamique avec la visualisation cartographique : toute modification de visualisation est dans ce cas reportée sur la mise en page. • La carte constitue l’élément essentiel du document cartographique. C’est elle qui doit occuper le plus de place dans la page. • Les libellés des items doivent être adaptés et organisés hiérarchiquement au moyen des fonctionnalités offertes par le logiciel. Les items de la légende sont générés automatiquement à partir des noms des couches ayant servi à la réalisation de la carte, mais il est nécessaire de les modifier pour qu’ils soient plus explicites. La légende issue du processus de construction automatique doit être claire, précise et hiérarchisée.
Visualisation, interrogation et enrichissement de l’information géographique
189
4.7 La gestion des étiquettes Afin d’aider le lecteur à se repérer, à reconnaître l’information ou à interpréter les signes, il peut être utile d’ajouter des écritures sur la carte elle-même sous la forme d’étiquettes (appelées aussi labels) représentant les valeurs des attributs cartographiés ou les toponymes.
• FOCUS : Les étiquettes
Une étiquette est une chaîne de caractères associée à une ou plusieurs entités géographiques et inscrite sur la carte. Les SIG disposent de fonctionnalités de gestion d’étiquettes qui transforment les attributs en labels ou étiquettes, assurent la mise en forme du texte (choix de police ou de couleurs) et les placent sur la carte de façon dynamique. Par exemple, les toponymes sont stockés dans un champ de la table attributaire (le nom de l’école stocké dans un champ « NOM » dans la table École). L’outil de gestion d’étiquettes va permettre d’écrire sur la carte le nom de chaque école. Il est possible également d’appliquer une sélection pour n’afficher que les étiquettes en fonction d’un attribut. Par exemple, on peut choisir d’afficher uniquement les noms des écoles qui ont plus de dix classes. Les étiquettes peuvent être stockées sous la forme d’un jeu de données vecteur. Pour éviter les erreurs, pensez-y !
• La carte ne doit pas être surchargée d’écritures ou de symboles, elle serait illisible et donc inutilisable. • La présence d’étiquettes sur la carte donne au lecteur des clés de lecture. Il existe des règles de placement des toponymes en cartographie. Celles-ci ont été intégrées dans les logiciels de SIG, mais ce placement automatique n’est pas toujours optimisé pour la lecture. Lorsque les étiquettes sont stockées sous la forme d’un nouveau jeu de données, celles-ci peuvent être déplacées.
190
Les systèmes d’information géographique
Notions à maîtriser
• Visualisation, représentation cartographique : échelles de visibilité – projection à la volée – sémiologie graphique – figurés cartographiques – discrétisation – généralisation – cartographie lissée – fichier de styles – mise en page. • Enrichissement sémantique : création de champ – opérateurs mathématiques – opérateurs de traitement de chaînes de caractères – informations dérivées de la géométrie des objets – jointure attributaire – jointure spatiale – algèbre de cartes/algèbre spatiale – reclassification. • Interrogation des données : requête/sélection – requête attributaire – critère sémantique – langage SQL – opérateurs logiques – opérateurs de comparaison – opérateurs ensemblistes – requête spatiale – critères géographiques – opérateurs topologiques/opérateurs spatiaux – distance – topologie. Pour réviser
1. Dressez la liste des jeux de données nécessaires à l’élaboration d’une carte de localisation d’un département français de votre choix. Ordonnez ces jeux de données tels qu’ils devront apparaître dans le gestionnaire de couches et précisez les échelles de visibilité pour les jeux de données pour lesquels cela paraît utile. 2. Décrivez la procédure qui permet d’identifier certains objets sur la base de leurs attributs en mode vecteur. Donnez un exemple pour expliquer l’intérêt de cette opération. 3. Décrivez la procédure qui permet d’identifier certaines cellules sur la base de leurs attributs en mode raster. Donnez un exemple pour expliquer l’intérêt de cette opération. 4. Comment se présente le résultat d’une sélection de cellules dans un jeu de données raster ? 5. Décrivez la procédure qui permet d’ajouter les informations sémantiques suivantes sur un jeu de données décrivant les communes de France (un champ de la table attributaire contient le code INSEE et un autre champ le nombre d’habitants en 2019) :
Visualisation, interrogation et enrichissement de l’information géographique
191
–– la superficie ; –– le périmètre ; –– le code du département ; –– la densité. Précisez pour chaque champ son type et l’opération à mettre en œuvre pour obtenir les valeurs pour chaque commune. 6. Décrivez le jeu de données géographiques nécessaire et la procédure à suivre pour visualiser sous forme de cartes les données d’un tableau statistique dans lequel chaque ligne correspond à une commune du département de l’Isère. Ces communes sont décrites en colonne dans le tableau statistique par : –– leur nom ; –– le nombre d’habitants ; –– la part des personnes âgées de moins de 25 ans dans la population ; –– le parti politique du maire. Pour chaque information thématique, indiquez le type de données statistiques dont il s’agit et quelle variable visuelle vous utilisez. Par quel moyen pouvez-vous faire apparaître le nom des communes sur la carte ? 7. Expliquez l’intérêt d’une carte lissée.
192
Les systèmes d’information géographique
Chapitre 5 Traitements spatiaux de l’information géographique Objectifs
• Connaître les méthodes et outils de traitement spatial appliqués aux jeux de données raster et vecteur. • Connaître les méthodes d’agrégation, d’extraction, de combinaison et de transformation de jeux de données géographiques dans un SIG. • Savoir quels sont les résultats produits par chaque traitement sur les objets graphiques et dans les tables attributaires. • Savoir choisir un traitement spatial en fonction d’un résultat souhaité. • Comprendre l’utilité d’un schéma de traitements.
Ce chapitre présente les diverses méthodes de traitements spatiaux permettant de transformer les jeux de données géographiques pour en créer des nouveaux. Ces méthodes sont mises en œuvre dans les logiciels de systèmes d’information géographiques via des fonctionnalités appelées aussi géotraitements. Les traitements spatiaux, ou géotraitements, englobent les méthodes d’agrégation, d’extraction, de combinaison et de transformation
des données. Dans le cas de traitements spatiaux de jeux de données vecteur, la géométrie des objets est modifiée (par exemple, les limites des entités changent), ainsi que la table attributaire dans sa structure et/ ou dans la valeur des attributs. Dans le cas des jeux de données raster, les traitements spatiaux ont pour effet par exemple de modifier l’étendue ou la résolution du raster ainsi que les valeurs des attributs des cellules. Ces méthodes de traitement spatial sont au cœur des SIG, et sont largement mobilisées lors de la mise en œuvre d’un projet SIG. La modification, la transformation et la création des jeux de données via les traitements spatiaux sont notamment réalisées en vue de la préparation des données pour des analyses ultérieures. Ils sont aussi nécessaires pour répondre à des questions d’analyse spatiale (voir chapitre 6). Il est donc important de les maîtriser et de savoir les combiner pour obtenir le résultat souhaité. Les traitements spatiaux sont par exemple utilisés pour identifier une portion du territoire correspondant à certains critères, comme la partie du littoral qui sera affectée par une augmentation du niveau de la mer d’un mètre ou les résidences touchées par l’inondation d’une rivière. Ce chapitre porte sur les traitements spatiaux qui sont systématiquement présents dans les SIG. On distingue différents types de traitements : ceux permettant d’agréger les données spatiales entre elles ; ceux utilisés pour extraire un sous-ensemble d’un territoire plus vaste ; ceux permettant de combiner et de transformer la géométrie des jeux de données géographiques. Il est fréquent d’enchaîner différents traitements pour mener à bien une analyse. La représentation conceptuelle d’une chaîne de traitements successifs, dont la mise en œuvre est nécessaire à la résolution d’un problème spatial, sera ensuite explicitée.
1. Agréger des entités ou des cellules d’un même jeu de données géographiques L’agrégation est le processus de regroupement d’entités ou de cellules géographiques à un niveau de détail ou d’observation géographique, ou encore de résolution, plus faibles que le niveau auquel les données ont été collectées et structurées. Les objectifs de l’agrégation peuvent varier. 194
Les systèmes d’information géographique
1.1 Pourquoi agréger des entités ou des cellules ? Dans le cas de recensements ou d’enquêtes sur un échantillon de ménages, d’exploitations agricoles, d’entreprises, etc., l’objectif de l’agrégation est d’abord la confidentialité. Par exemple, lors du recensement de la population en France, l’INSEE recueille des données socio-démographiques et socio-économiques au niveau des territoires. Les ménages ne pouvant pas être identifiés à cause du secret statistique1, ces informations sont regroupées avant leur diffusion dans des différents maillages administratifs (commune, département par exemple) ou statistiques (IRIS2). L’agrégation est également utilisée pour générer de nouveaux maillages et de nouvelles données statistiques à un niveau supérieur. En France, par exemple, les données issues du recensement de la population sont publiées au niveau des maillages administratifs classiques (maillage communal par exemple). Pour travailler sur ces données au niveau des EPCI (établissements publics de coopération intercommunale, telles que les communautés de communes), il est nécessaire de passer par l’agrégation des communes appartenant à un même EPCI3. Sur des données raster, l’agrégation peut être utilisée pour homogénéiser les niveaux de résolution de données provenant de différentes sources (voir chapitre 1, p. 25). Cela est utile pour superposer et traiter simultanément deux jeux de données raster dont la résolution à l’origine n’est pas la même (en utilisant l’algèbre de cartes par exemple). Cette méthode peut également être utilisée sur des données raster pour permettre de travailler sur des jeux de données plus légers dont la résolution reste acceptable pour l’étude. Enfin, l’agrégation est parfois employée pour mettre à jour des jeux de données géographiques. Lors de l’évolution du cadastre, sa mise à jour peut nécessiter un regroupement de certaines parcelles par une opération d’agrégation. 1. Le secret statistique est défini par la loi n° 51-711 du 7 juin 1951 modifiée sur l’obligation, la coordination et le secret en matière de statistiques. Il interdit strictement la communication de données individuelles ou susceptibles d’identifier les personnes, issues de traitements à finalités statistiques, que ces traitements proviennent d’enquêtes ou de bases de données (INSEE, 2023). 2. Le maillage des IRIS (Îlots regroupés pour l’information statistique) est produit et diffusé par l’INSEE. Les communes d’au moins 10 000 habitants et la plupart des communes de 5 000 à 10 000 habitants sont découpées en IRIS. Ce découpage, maille de base de la diffusion de statistiques infracommunales, constitue une partition du territoire de ces communes en « quartiers » dont la population est de l’ordre de 2 000 habitants (INSEE, 2022). 3. Depuis 2016, l’IGN met à disposition les limites des EPCI via le produit Admin Express.
Traitements spatiaux de l’information géographique
195
L’agrégation conduit nécessairement à une perte d’information, qu’elle soit faite sur des jeux de données raster ou vecteur. Cette perte d’information se traduit à la fois par une réduction du nombre d’entités ou cellules dans le jeu de données en sortie, par une modification de la géométrie (suppression d’arcs et de sommets) pour des jeux de données vecteur, ainsi que par une modification des données attributaires pour les jeux de données vecteur et raster. Dans les logiciels SIG, il existe différentes possibilités d’agrégation. Les méthodes employées dépendent du modèle de données utilisé, vecteur ou raster. Le terme « agréger » n’est pas systématiquement utilisé dans les logiciels et les appellations peuvent varier (fusionner, regrouper…).
1.2 Agréger spatialement des entités d’un jeu de données vecteur Appliquée à des jeux de données vecteur, l’agrégation consiste à fusionner plusieurs entités (le plus souvent des polygones) en un objet de taille supérieure. Ce processus est généralement subordonné à certaines contraintes : -- l’agrégation s’effectue au sein d’un même jeu de données ; -- les entités à fusionner doivent être caractérisées par une clé d’agrégation, c’est-à-dire un champ ayant des attributs communs (exemple : un champ indiquant l’EPCI auquel appartient la commune) (figure 5.1a) ; -- les entités à fusionner doivent avoir le même type de géométrie (point, ligne ou polygone). L’agrégation la plus classique regroupe des polygones adjacents (c’est-à-dire ayant au moins une limite commune). Dans ce cas, elle se traduit par la dissolution des frontières entre les entités appartenant à la même entité de niveau supérieur. Par exemple, la disparition des limites communales lorsqu’on procède à la fusion des entités d’un jeu de données des communes en fonction de l’appartenance de chaque commune à un EPCI (figure 5.1b). Il est aussi possible d’agréger des entités non adjacentes. Dans ce cas, la procédure renvoie un polygone multi-parties pour les entités géographiques considérées (voir chapitre 1, p. 30). Cette procédure est 196
Les systèmes d’information géographique
par exemple utilisée pour regrouper des communes qui appartiennent à un même département, mais dont certaines sont localisées sur une île (figure 5.1c). L’agrégation peut porter sur une fusion complète de l’ensemble des entités qui composent le territoire. Dans ce cas, aucune clé d’agrégation n’est utilisée (figure 5.1d). L’agrégation se traduit aussi sur les attributs des entités considérées : -- Les attributs quantitatifs sont recalculés en fonction du choix de la clé d’agrégation et du paramètre statistique sélectionné : somme, moyenne, minimum, maximum, fréquence. -- Pour les champs d’attributs qualitatifs, les règles de transfert varient en fonction des options des logiciels SIG (par exemple, le premier attribut de la liste peut être transféré au jeu de données agrégées) (figures 5.1b et 5.1c). -- Certains champs attributaires n’ont aucun sens après une agrégation et doivent être supprimés (par exemple, les noms des communes après agrégation au niveau des EPCI). Si les techniques d’agrégation sont surtout utilisées pour des polygones, il est toutefois possible d’agréger les objets de type ligne. Les réseaux sont souvent modélisés sous forme de tronçons (voir chapitre 1, p. 39) et il est parfois souhaitable de créer un jeu de données où sont regroupés les tronçons qui appartiennent à la même route ou à la même rivière.
• FOCUS : Tableaux récapitulatifs
Il est possible de faire une opération d’agrégation uniquement sur les données de la table attributaire. Dans ce cas, la géométrie n’est pas modifiée. Cette opération correspond à l’expression SQL « Group by » (regrouper par), et nécessite d’utiliser un champ qui sert de clé d’agrégation. Le résultat est un tableau récapitulatif dans lequel il est nécessaire de définir les opérations mathématiques sur les champs numériques (somme, moyenne, minimum, maximum, fréquence). Par exemple, à partir d’un jeu de données de polygones décrivant l’occupation du sol, il est possible de calculer la somme des superficies de chaque type d’occupation du sol. L’agrégation des géométries ayant le même type d’occupation du sol n’a alors pas d’intérêt ni de sens, seule l’agrégation des données statistiques de la table attributaire est pertinente. La clé d’agrégation serait alors le champ décrivant le type d’occupation du sol et l’agrégation mathématique serait la somme des attributs du champ superficie. Traitements spatiaux de l’information géographique
197
Figure 5.1 : Agréger des entités vecteur a. Clés d’agrégations Peuvent servir de clé d’agrégation les champs dont les attributs définissent des regroupements possibles des entités
Table attributaire en entrée Code Commune
Nom Commune
Code EPCI
Nom EPCI
Code Département
Nom Département
58720 58719 58718 58017 58016 17202 17208 17216 17205 17702 17723 …
Norra Harg Östra Trollstad Viby kloster Vikingastad Nykilten Gammelund Rydberg Ardala Varby Lavene Vabara …
587 587 587 580 580 172 172 172 172 177 177 …
Mjölaby Mjölaby Mjölaby Lindköping Lindköping Edshult Edshult Edshult Edshult Varnhem Varnhem …
58 58 58 58 58 17 17 17 17 17 17 …
Kronans län Kronans län Kronans län Kronans län Kronans län Valmro län Valmro län Valmro län Valmro län Valmro län Valmro län …
Vecteur en entrée
Vecteur en entrée
Les communes ne sont pas différenciées. Elles appartiennent tous au même pays.
Agrégation clé d’agrégation : [Code Département] Somme de [Population 2017] Premier de [Nom Département]
Agrégation clé d’agrégation : aucune Somme de [Population 2017]
c. Création de polygones multiples quand les objets géographiques ne sont pas adajcents
d. Fusion de l’ensemble des entités qui composent le territoire
Vecteur en sortie
Vecteur en sortie
Vecteur en sortie
Table attributaire en sortie
Table attributaire en sortie
Table attributaire en sortie Id
Population 2017
172 580 587 177 ...
58 17 ...
01
14 537
Edshult Lindköping Mjölaby Varnhem ...
5 189 4 113 2 355 2 880 ...
Code Nom Dép. Dép.
Population 2017
Kronans län Valmro län ...
Fig. 01, chapitre 5 – Agréger – (110 x 165
Les systèmes d’information géographique
6 468 8 069 ...
mm) – #1
ASCHAN, CUNTY, DAVOINE, 2023
b. Dissolution des frontières entre les entités appartenant à la même entité supérieure
Code Nom Population ComCom ComCom 2017
198
467 598 1 290 2 435 1 678 328 1 984 765 2 112 1 972 908 …
Vecteur en entrée
La nuance de gris de la commune traduit La nuance de gris de la commune traduit la communauté de communes le département auquel elle appartient à laquelle elle appartient
Agrégation clé d’agrégation : [Code ComCom] Somme de [Population 2017] Premier de [Nom EPCI]
Population 2017
Le saviez-vous ?
Les erreurs topologiques (figure 1.10, p. 36) qui peuvent exister dans les entités du jeu de données à agréger (par exemple, les limites de deux polygones voisins qui ne sont pas strictement adjacents) se reportent sur la géométrie des entités géographiques issues de l’agrégation et peuvent impacter leur qualité.
1.3 Agréger spatialement des cellules d’un jeu de données raster Le principe d’agrégation spatiale des cellules d’un jeu de données raster repose sur le regroupement des cellules voisines en des cellules de taille plus grande. Il y a donc une différence fondamentale avec l’agrégation d’un jeu de données vecteur, où l’agrégation se fait en fonction d’un attribut commun. Dans un jeu de données raster, seul le voisinage est pris en compte pour agréger les cellules entre elles. Il s’agit en fait de ce qui est appelé un « rééchantillonnage » du jeu de données dans une résolution plus faible. Le principe de fonctionnement de la procédure d’agrégation des cellules d’un raster repose sur la multiplication de la résolution des cellules du raster d’origine par un facteur défini (figure 5.2), qui doit être un nombre entier supérieur à 1. Par exemple, un facteur de cellule de 2 signifie que la résolution de la cellule du raster de sortie serait 2 fois supérieure à celle du raster d’entrée (par exemple, une résolution d’entrée de 10 mètres multipliée par 2 est égale à une résolution de sortie de 20 mètres, soit une taille de cellule qui passe de 10 mètres carrés à 40 mètres carrés). Le facteur détermine le nombre de cellules d’entrée utilisées pour dériver une valeur pour chaque cellule de sortie. Dans l’exemple donné, un facteur de 2 nécessite 2 × 2 soit 4 cellules d’entrée. La valeur de chaque cellule de sortie est un résumé calculé, comme la somme, la moyenne, la médiane, le minimum ou le maximum des cellules d’entrée qui se situent dans la cellule de sortie (figure 5.2).
Traitements spatiaux de l’information géographique
199
Figure 5.2 : Agréger des cellules d’un raster et résumer les valeurs des cellules 1
5
2
7
4
6
4
3
5
11
12
9
2
6
7
4
Agréga�on
Facteur de cellules : 2 Paramètre sta�s�que calculé : Moyenne
Résolu�on des cellules : 10 m x 10 m Fig. 02, chapitre 5 – Agréger Raster – (110 x 31
Raster résultat 4
4
6
8
Résolu�on : 20 m x 20 m
ASCHAN, CUNTY, DAVOINE, 2023
Raster en entrée Agréga�on par facteur 2
mm) – #1
Pour éviter les erreurs, pensez-y !
• Choisir un champ d’agrégation (clé d’agrégation) pertinent, par exemple ne pas regrouper les communes selon un champ numérique comme le nombre d’habitants. • Vérifier la signification des attributs issus du processus d’agrégation. Les tables attributaires résultantes peuvent contenir des valeurs aberrantes issues de choix par défaut proposés par les logiciels. C’est le cas notamment pour des attributs qualitatifs pour lesquels la valeur du premier attribut peut être affectée dans le champ de la nouvelle table attributaire, alors qu’elle n’a pas de sens au niveau de l’agrégation choisi.
2. Délimiter une partie d’un jeu de données géographiques Il existe plusieurs situations dans lesquelles il est nécessaire de délimiter des portions de territoires. Elles correspondent à des besoins d’analyse très différents : -- Extraire une sous-partie d’un jeu de données en modifiant la géométrie selon une limite définie. -- Délimiter une zone autour d’entités existantes selon une distance- seuil. -- Délimiter le contour d’un ensemble d’entités.
200
Les systèmes d’information géographique
2.1 Extraire/découper Les jeux de données peuvent parfois couvrir un territoire vaste. Afin de travailler sur des jeux de données plus légers, il est fréquent d’extraire des jeux d’origine, la partie des données correspondant au territoire étudié. L’extraction consiste à « découper » les entités d’un jeu de données (A) pour garder uniquement les entités/cellules, ou parties d’entités/cellules, qui sont situées à l’intérieur des limites extérieures d’un autre jeu de données (B). Les limites extérieures des entités du jeu de données B jouent le rôle d’un emporte-pièce souvent appelé pochoir ou masque. Le saviez-vous ?
Contrairement à une sélection spatiale ou attributaire effectué sur un jeu de données vecteur, le fait de « découper » modifie la géométrie des entités. En effet, dans le cas où une partie des entités d’un jeu de données A se situe à l’extérieur de l’emprise de découpage, leur géométrie est alors modifiée en conséquence.
Lors d’un découpage réalisé avec un jeu de données composé de plusieurs polygones, c’est la limite extérieure à l’ensemble des polygones qui sert de pochoir. Il est possible de découper des jeux de données vecteur de points, de polylignes et de polygones. Par exemple, découper un jeu de données vecteur dans lequel les entités correspondent à des zones d’occupation du sol sur l’ensemble de la France métropolitaine, par un jeu de données où les entités sont un ensemble de communes d’un territoire plus réduit, permet d’obtenir un jeu de données comprenant les zones d’occupation du sol situées sur ce territoire (figure 5.3a). Un jeu de données raster peut également être découpé par un jeu de données vecteur ou selon une étendue définie. Par exemple, un jeu de données vecteur dont les entités sont des communes peut être utilisé pour extraire la partie d’un MNT décrivant le relief. Dans ce cas, seuls les cellules dont la superficie est majoritairement située à l’intérieur de la forme de découpe sont conservées (figure 5.3b).
Traitements spatiaux de l’information géographique
201
Figure 5.3 : Découper un jeu de données vecteur ou raster a. Découper un jeu de données vecteur Jeu de données vecteur à découper - A 1 2 3 4 5 6 7 …
Jeu de données vecteur Sup ha 178 568 2 912 2 701 eau 35 926 forêt 2 477 forêt culture 3 219 culture 5 348 … … Type forêt
sur le territoire des communes
Découper A par B
Table des communes 687643 684671 683479 …
Le champ Superficie n’est pas mis à jour par la découpe.
Nom Labasse Perret Veron …
1 2 3 4 5 6 7
b. Découper un jeu de données raster Jeu de données raster à découper - A Table du relief Relief Valeur 1200 1250 1300 …
Forme de la découpe - B Communes
Sup ha 178 568 2 912 2 701 eau 35 926 forêt 2 477 forêt culture 3 219 culture 5 348 Type forêt
Jeu de données raster
100 450 380 …
Seuls les pixels dont la superficie est majoritairement située à l’intérieur de la forme de découpe sont conservés.
Découper A par B
Table des communes 687643 684671 683479 …
Nom Labasse Perret Veron …
Valeur 1200 1250 1300 …
15 100 150 …
ASCHAN, CUNTY, DAVOINE, 2023
Forme de la découpe - B Communes
Fig. 03, chapitre 5 – Découper une couche vecteur ou raster – (110 x 160 mm) – #1
202
Les systèmes d’information géographique
La fonctionnalité de découpage s’applique uniquement sur la géométrie des entités géographiques. L’opération de découpage, qu’elle soit appliquée aux données vecteur ou raster, ne modifie pas le contenu des champs attributaires (sauf dans certains cas d’utilisations spécifiques) ou des attributs des cellules. Le jeu de données vecteur en sortie contient les mêmes champs que la table attributaire du jeu de données vecteur découpé (voir Focus p. 212-213). Par ailleurs, ne sont préservés que les enregistrements (vecteur) ou les attributs des cellules (raster) situés dans la partie découpée (figures 5.3a et 5.3b). Par exemple, dans le cas du découpage d’un jeu de données vecteur de l’occupation du sol par le jeu de données des communes, si un champ décrit la superficie en hectare de chaque entité d’occupation du sol, il est indispensable de vérifier, puis, le cas échéant, de recalculer la superficie après découpage (figure 5.3a). Le saviez-vous ?
Les logiciels offrent la possibilité de définir les paramètres d’une forme géométrique rectangulaire, souvent appelée emprise, qui sert alors à découper un jeu de données vecteur ou raster. Il n’est donc pas indispensable de disposer d’un jeu de données en mode vecteur qui sert de forme de découpe.
2.2 Créer des zones tampons On appelle zone tampon (buffer en anglais), la surface qui entoure un objet et qui est définie selon une distance seuil par rapport aux limites de l’objet lui-même (voir chapitre 2, p. 98). Les zones tampons permettent de définir un périmètre autour des entités géographiques, selon une distance euclidienne dans un jeu de données vecteur ou raster. Dans un jeu de données vecteur, tracées autour de points, les zones tampons seront des cercles ; autour de polylignes et de polygones, ces zones constitueront des polygones de forme variable en fonction des formes initiales (figure 5.4a). Des variantes géométriques de création de zones tampons peuvent être proposées dans certains logiciels de SIG. L’opération de création de zones tampon est utile dans de nombreux cas de figure et trois exemples permettent d’illustrer leur utilisation. Des zones tampon de 500 mètres autour des sites industriels classés ICPE (installations classées pour la protection de l’environnement – sites Seveso) permettent par exemple de calculer le nombre total de résidents à proximité d’un site à risque. Traitements spatiaux de l’information géographique
203
Figure 5.4 : Les zones tampons a. En entrée : jeux de données Antennes relais
Cours d’eau
Sites industriels Seveso
Tables attributaires en entrée Identifiant 101 102 103
Opérateur Ascom Davphon Comtee
Identifiant c01 c02
Nom Pourlabou Grifagnon
Identifiant 2025 2028
Site C21nt25 4av15IN5
Nom Pourlabou Grifagnon
Identifiant 2025 2028
Site C21nt25 4av15IN5
b. En sortie : une zone tampon par entité
Tables attributaires en sortie Identifiant 101 102 103
Opérateur Ascom Davphon Comtee
Identifiant c01 c02
ASCHAN, CUNTY, DAVOINE, 2023
c. En sortie : une seule zone tampon pour l’ensemble des entités
Tables attributaires en sortie Identifiant superficie circonférence 1 138 47
Identifiant superficie circonférence 1 327 73
Identifiant superficie circonférence 1 250 64
Fig. 04, chapitre 5 – Les zones tampons dans une couche vecteur – (110 x 119 mm) – #1
204
Les systèmes d’information géographique
Les zones tampon peuvent être utilisées pour déterminer les zones de non-traitement par les pesticides autour des cours d’eau, représentés par un réseau de lignes. Autour des antennes relais, représentées par des points, des zones tampon sont utilisées pour évaluer le nombre d’habitants vivant à une certaine distance d’une antenne. Dans un jeu de données vecteur, les zones tampon peuvent être créées de façon indépendante autour de chaque entité géographique (figure 5.4b). Cela permet d’obtenir les caractéristiques de chaque zone tampon attachée à chaque entité d’origine. Cependant, selon le paramètre de distance, les zones tampon peuvent se superposer. Dans ce cas, il est possible de les rassembler afin de créer une seule zone tampon pour plusieurs entités (figure 5.4c). Les zones tampon autour d’entités vecteur peuvent également être définies dans un jeu de données raster. Dans ce cas, à partir d’entités vecteurs un jeu de données raster est créé, dans lequel les cellules situées à une distance seuil de chaque entité vecteur (point, polyligne, polygone) auront la même valeur. Si une cellule est située dans une distance seuil de plusieurs entités, elle prend alors la valeur de l’entité la plus proche ; les autres cellules n’ont pas de valeur (figure 5.5).
Traitements spatiaux de l’information géographique
205
Figure 5.5 : Définition de zones tampons raster autour d’objets vecteurs En entrée : jeux de données en mode vecteur Points Lignes
Surfaces
5 km
Tables a�ributaires en entrée Points : stations météo Lignes : cours d’eau (source : Grand Lyon) (source : BD Carthage) Iden�fiant
Nom NEUVILLE RILLIEUX INSA MONTANAY COULON CAILLOUX CRÉPIEUX COLLONGES
7 10 13 16 19 21 25 30
Iden�fiant 10 18
Surfaces : ZNIEFF* (source : INPN) FID
Toponyme Le Rhône La Saône
Nom Prairie du Tupinier Prairies de Len�lly Prairies de Sainte Consorce Gro�e de Tupinier Moyenne vallée de l’Yzeron Parc de Lacroix-Laval Vallon des Planches Ruisseau du bois de la Lune
1470 1541 1542 1543 1544 1545 1546 1547
En sor�e : zones tampons en mode raster Zones tampons d’un km autour d’objets ponctuels, linéaires et surfaciques
Tables a�ributaires en sor�e Effec�f 317 293 317 317 317 317 293 317
Valeur 10 18
Effec�f 47 467 19 841
Valeur 1470 1541 1542 1543 1544 1545 1546 1547
Effec�f 354 1 027 1 214 246 1 304 523 875 241
Les valeurs des cellules correspondent aux iden�fiants des en�tés vecteurs autour desquels ils se trouvent (selon une distance donnée). * Zones naturelles d’intérêt écologique, faunistique et floristique Fig. 05, chapitre 5 – Définition de zones tampons raster autour d’objets vecteur – (110 x 165 mm) – #1
206
Les systèmes d’information géographique
ASCHAN, CUNTY, DAVOINE, 2019
Valeur 7 10 13 16 19 21 25 30
2.3 Créer une enveloppe convexe ou concave autour d’entités vecteur Une enveloppe convexe est le polygone correspondant à la zone la plus petite qui englobe complètement un ensemble d’entités (points, lignes ou polygones), sans que l’angle entre deux arêtes voisines ne dépasse 180° (figure 5.6a). Les entités peuvent être un semis de points, un ensemble de lignes ou de polygones. Définition
Semis de points : un jeu de données représentant, sous forme d’une géométrie de type point, un ensemble d’objets localisés.
Une enveloppe concave d’un ensemble d’entités correspond à la zone la plus petite qui englobe l’ensemble des entités, sans contrainte d’angle maximale des côtés du polygone. À la différence d’une enveloppe convexe, elle n’est pas définie de façon unique mais dépend de l’algorithme utilisé (figure 5.6b). Figure 5.6 : Enveloppe convexe et concave d’un jeu de données de géométrie ponctuelle a. Enveloppe convexe
Jeu de données Vecteur en entrée
ASCHAN, CUNTY, DAVOINE, 2019
b. Enveloppes concaves (deux configurations de conception différentes selon l’algorithme utilisé).
Traitements spatiaux de l’information géographique
207
Cette opération de délimitation par enveloppe convexe ou concave produit par défaut comme résultat une seule entité surfacique (polygone). Il est également possible de créer plusieurs enveloppes selon un attribut commun à plusieurs entités en entrée. Par exemple, si les points représentent un ensemble de lieux fréquentés par une personne au cours d’une année et que, pour chaque lieu, un attribut renseigne le fait qu’il a été fréquenté pour le travail, le loisir ou les achats, il est possible de créer une enveloppe par type d’activité. Par définition, la zone correspondante à l’enveloppe convexe ou concave comprend un certain nombre d’entités ponctuelles situées sur la limite du polygone. Pour éviter cela, il est possible de créer des zones tampon (voir p. 203), qui élargissent la zone qui sert à la création de l’enveloppe convexe. Dans ce cas, l’enveloppe convexe est créée à partir des entités correspondant aux zones tampon des entités ponctuelles. La forme, et donc la surface, le périmètre et la position du centroïde de l’enveloppe convexe d’un ensemble d’objets sont fortement affectés par des objets dont la localisation est extrême. Ce type de traitement spatial est utile dans de nombreux cas de figure, par exemple lors de la définition de l’aire d’extension d’une zone de peuplement à partir de relevés d’observation de vestiges archéologiques ou d’une espèce faunistique ou floristique. L’enveloppe convexe est l’outil de traitement spatial préconisé par l’UICN (International Union for Conservation of Nature) aux collaborateurs pour délimiter les aires d’extension des espèces menacées qui figurent dans la liste rouge1. Pour éviter les erreurs, pensez-y !
• Vérifier et, le cas échéant, recalculer des valeurs de champs contenant des informations sur la géométrie (superficie, périmètre) à la suite d’un découpage. • Identifier correctement le jeu de données à découper et le jeu de données servant de pochoir. • Se rappeler que le découpage se fait uniquement par le contour extérieur des entités vecteur du jeu de données servant de pochoir, et non pas selon l’ensemble des limites géométriques des objets. • Bien choisir l’unité de mesure pour définir la distance des zones tampon. 1. Cette base de données collaborative, qui donne lieu à la cartographie des aires d’extension des espèces menacées, est mise à jour par les contributions d’un réseau de collaborateurs du monde entier.
208
Les systèmes d’information géographique
3. Combiner des jeux de données géographiques Certaines techniques de traitement spatial permettent de créer un nouveau jeu de données à partir de la combinaison d’au moins deux jeux de données. Cette capacité à combiner des jeux de données à partir de sources différentes pour former un nouveau jeu de données est une fonction majeure des SIG. La combinaison de jeux de données se faisant fréquemment sur des zones géographiques qui se superposent, on parle aussi de superposition de jeux de données. Comme pour de nombreuses opérations et analyses effectuées au moyen d’un SIG, il y a des différences entre la façon dont les méthodes de combinaisons de jeux de données sont réalisées à partir de jeux de données vecteur et raster.
3.1 Combiner la géométrie de jeux de données vecteur Quatre opérations de traitement spatial fondées sur la combinaison de jeux de données sont couramment utilisées dans les SIG : l’intersection, l’union, la différence et la différence symétrique. Ces opérations sont basées sur quatre expressions booléennes permettant de combiner de diverses manières les jeux de données. OCUS : Utilisation des expressions booléennes dans les traitements • Fspatiaux
Les expressions booléennes sont facilement compréhensibles avec les diagrammes de Venn, dans lesquels chaque cercle représente un jeu de données (A et B). Les expressions booléennes sous-jacentes dans les traitements spatiaux sont AND (ET), OR (OU), NOT (SAUF) et XOR (OU EXCLUSIF). La figure 5.7 détaille les traitements spatiaux associés à chaque expression. En imaginant que chaque cercle représente une entité géographique d’un jeu de données A et une entité géographique d’un jeu de données B, le diagramme de Venn permet de bien comprendre le résultat (C) des traitements spatiaux Intersection, Union, Différence et Différence symétrique selon la position
Traitements spatiaux de l’information géographique
209
relative des objets de chaque jeu de données (que leurs géométries se super posent ou non, comme pour l’Union). Figure 5.7 : Des opérateurs booléens aux traitements spatiaux
A et B Intersec�on
Opérateur booléen A ou B A sauf B Union
Traitement
A ou B exclusif
Différence
Différence symétrique
Résultat en�té(s) géographique(s) C
1
Nombre d’en�tés géographiques dans le jeu de données C 3 1
Fig. 07, chapitre 5 – Opérateurs booléens – (105 x 82 mm) – #1
ASCHAN, CUNTY, DAVOINE, 2023
En�tés géographiques A B
2
La plupart des opérations de combinaison de jeux de données vecteur impliquent qu’au moins un des deux jeux de données soit de type polygone, mais cette contrainte n’existe pas dans tous les logiciels. L’utilisation des opérations fondées sur la combinaison de jeux de données impacte à la fois la géométrie des entités qui est remodelée, et la table attributaire dont sa structure est modifiée. En revanche, les champs relatifs à la description géométrique des entités (longueurs, surfaces, périmètres, centroïdes, etc.) ne sont pas systématiquement mis à jour automatiquement lors de ce type d’opération. Il est donc impératif de vérifier et, le cas échéant, de recalculer les attributs de tous ces champs.
210
Les systèmes d’information géographique
• Intersection Le terme intersection est utilisé dans les SIG pour désigner une opération qui combine deux ou plusieurs jeux de données vecteur pour ne garder que la partie commune aux jeux de données (représenté par « ET » en logique booléenne) (figure 5.7). Le résultat obtenu est donc un nouveau jeu de données (C) dont les entités géographiques correspondent aux entités ou parties d’entités communes aux deux jeux de données d’origine (A et B). Lors d’une intersection, toutes les entités d’un jeu de données sont découpées par toutes les entités de l’autre jeu de données. La table attributaire du jeu de données C en sortie comprend l’ensemble des champs des deux jeux de données d’origine, ainsi que l’ensemble des entités correspondant à la division des entités du jeu de données A par les entités du jeu de données B (figure 5.8). Il y a autant d’enregistrements qu’il y a de parties communes à A et B (voir Focus p. 212-213). Figure 5.8 : Intersection de jeux de données vecteur Jeu de données vecteur en entrée - A
Jeu de données vecteur Sup ha 178 568 2 912 2 701 eau 35 926 forêt 2 477 forêt culture 3 219 culture 5 348 … … Type forêt
Jeu de données vecteur en entrée - B Communes Table des communes 687643 684671 683479 …
par commune
ASCHAN, CUNTY, DAVOINE, 2023
1 2 3 4 5 6 7 …
Intersecter A et B
Nom Labasse Perret Veron …
Le champ Superficie n’est pas
687643 687643 687643 684671 684671 683479 ... Fig. 08, chapitre 5 – Intersecter – (110 x 84
Nom Code Labasse 1 Labasse 2 Labasse 3 Perret 1 Perret 3 Veron 3 ... ...
Type forêt eau forêt eau eau ...
Sup ha 178 568 2 912 2 701 178 568 2 701 2 701 ...
mm) – #1
Traitements spatiaux de l’information géographique
211
Le saviez-vous ?
L’intersection d’un jeu de données d’entités ponctuelles et d’un jeu de données d’entités surfaciques donne le même résultat qu’une jointure spatiale (voir chapitre 4, p. 168).
Un exemple simple permet d’illustrer l’utilité de cette opération. La chargée de mission environnement d’un territoire souhaite connaître les zones d’occupation du sol dans chacune des communes de son territoire. Pour créer cette information, le technicien SIG superpose deux jeux de données : celui des zones d’occupation du sol et celui des limites communales. L’intersection des deux jeux de données produit un nouveau jeu de données dont les entités sont des zones d’occupation du sol délimitées en fonction des communes (figure 5.8). Si une zone d’occupation du sol est à cheval sur deux communes, elle est découpée selon la limite communale. Ainsi, une entité de départ donne lieu à deux entités dans le jeu de données résultant de l’intersection. Chaque nouvelle entité d’occupation du sol est décrite par les attributs de l’occupation du sol et par ceux de la commune sur laquelle elle est localisée. La somme des superficies par commune pour chaque type d’occupation du sol peut être calculée à partir de ce nouveau jeu de données (voir Focus p. 197). Intersecter et Découper : deux traitements souvent confondus • FetOCUS : pourtant très différents
À première vue, la différence entre les traitements Intersecter et Découper n’est pas forcément évidente. Pourtant, les deux traitements n’ont pas le même but, ne mobilisent pas les jeux de données en entrée de la même manière et produisent des résultats différents, à la fois la géométrie des entités et les attributs (figure 5.9). But : extraire une sous-partie vs extraire les parties communes − « Découper » permet d’extraire une partie des entités d’un jeu de données en fonction de l’emprise spatiale d’un autre jeu de données. − « Intersecter » permet de créer des nouvelles entités qui correspondent aux entités ou parties d’entités qui se superposent dans les deux jeux de données.
212
Les systèmes d’information géographique
Les jeux de données en entrée : un jeu de données qui sert de pochoir vs deux jeux de données qui se superposent − « Découper » nécessite de définir un jeu de données à découper (cible) et un jeu de données qui sert à découper les entités (pochoir ou masque). − « Intersecter » prend en compte de manière indifférenciée les deux jeux de données intersectés, seules les entités ou parties d’entités qui se superposent sont conservées. Les modifications de géométrie : les limites extérieures de l’ensemble des entités vs chaque limite de chaque entité − « Découper » : seules les limites extérieures (contour) des entités du jeu de données pochoir servent à modifier la géométrie des entités du jeu de données, qui est découpé lorsque celles-ci se superposent. Toutes les entités du jeu de données cible comprises à l’intérieur des limites extérieures sont conservées à l’identique. − « Intersecter » : toutes les entités du jeu de données A sont découpées par les entités du jeu de données B. Les tables attributaires : uniquement les champs du jeu de données découpé vs les champs des deux jeux de données intersectés − « Découper » : la structure de la table attributaire du jeu de données dont les entités sont découpées est conservée. Seul le nombre d’enregistrements change en fonction du nombre d’entités incluses dans le pochoir. − « Intersecter » : la table attributaire issue de l’intersection contient tous les champs des jeux de données intersectés. Il y a autant d’enregistrements que d’entités (ou parties d’entités) qui se superposent.
Traitements spatiaux de l’information géographique
213
Figure 5.9 : Des résultats très différents produits par les traitements Découper et Intersecter Jeu de données vecteur en entrée - A
Jeu de données vecteur en entrée - B Communes
Table des communes 1 2 3 4 5 6 7 …
Le sens du découpage est important ! Découper A par B ne donne pas le même résultat que Découper B par A.
Découper A par B
687643 684671 683479 …
Nom Labasse Perret Veron …
Il n’y a pas d’ordre à respecter dans
Intersecter A et B
Jeu de données vecteur
Jeu de données vecteur
le territoire des communes Le contour externe des
ASCHAN, CUNTY, DAVOINE, 2023
Sup ha 178 568 2 912 2 701 eau 35 926 forêt 2 477 forêt culture 3 219 culture 5 348 … … Type forêt
par commune de A sont divisées
de A situées à l’intérieur.
La structure de la table de la table A.
1 2 3 4 5 6 7
214
Sup ha 178 568 2 912 2 701 eau 35 926 forêt 2 477 forêt culture 3 219 culture 5 348 Type forêt
de A et de B.
687643 687643 687643 684671 684671 683479 ...
Nom Code Labasse 1 Labasse 2 Labasse 3 Perret 1 Perret 3 Veron 3 ... ...
Type forêt eau forêt eau eau ...
Fig. 9, chapitre 5 – Découper comparer à intersecter – (110 x 165 mm) – #1
Les systèmes d’information géographique
Sup ha 178 568 2 912 2 701 178 568 2 701 2 701 ...
• Union Un deuxième traitement spatial consiste à unir1 l’ensemble des entités de même type (polygones, polylignes ou points) de deux ou plusieurs jeux de données vecteur en un seul jeu de donnés (représenté par « OU » en logique booléenne) (figure 5.7). Le résultat final (C) est un jeu de données qui rassemble toutes les entités des jeux de données A et B. La table attributaire de C contient l’ensemble des champs des deux jeux de données d’origine (A et B) (figure 5.10). Ce traitement peut être utilisé dans différents cas de figure : –– Il sert à combiner des données couvrant des parties différentes d’un territoire. Par exemple, les données de la BD TOPO® de l’IGN sont diffusées par département et, pour travailler sur un territoire qui est à cheval sur plus d’un département, il est utile d’unir les différents jeux de données provenant de la BD TOPO®. L’union de deux jeux de données de routes de deux départements voisins (routes du département A et routes du département B) permet de créer un seul jeu de données comprenant l’ensemble du réseau routier des deux départements. Étant donné que la structure de chacune des deux tables attributaires est identique, les enregistrements du jeu de données B sont simplement ajoutés à la suite des enregistrements du jeu de données A (figure 5.10a). –– Ce traitement est également utile dans des études chronologiques. Une étude des inondations successives le long d’un cours d’eau est à ce titre illustrative. Le traitement d’images satellitaires, les relevés de terrain et l’analyse d’archives permettent de créer des jeux de données décrivant l’étendue des inondations à différentes périodes. Rassembler les jeux de données décrivant chaque inondation dans un seul jeu de données permet d’obtenir des informations sur l’extension maximale de la zone submersible. –– Des jeux de données géographiques complémentaires, décrivant un même territoire mais provenant de sources différentes, peuvent également être rassemblés dans un même jeu de données. Un exemple est la création d’un nouveau jeu de données C comprenant les événements culturels et sportifs ayant eu lieu depuis 5 ans sur un territoire, à partir d’un jeu de données d’entités ponctuelles (A) qui localisent les événements culturels et d’un jeu de données (B) identifiant la localisation 1. .Certains logiciels utilisent le terme « combiner » pour désigner cette opération d’union.
Traitements spatiaux de l’information géographique
215
Figure 5.10 : Union des jeux de données vecteur a. Union de jeu de données sur une même thématique de départements voisins Résultat : jeu de données - C Jeu de données en entrée - A Table attributaire A Routes de la Loire Routes de la Loire et du Rhône CLASS NUM ID ADM
RTE120 ROUTE 27588 29860 29527 …
N7 A47 D12 …
445 entités
Nationale Autoroute Départementale …
Union A ou B
Jeu de données en entrée - B Table attributaire B Routes du Rhône 27945 28703 29149 …
A89 D50 D30 …
557 entités
Table attributaire C NUM ID RTE120 ROUTE
CLASS ADM
NUM ID RTE120 ROUTE
27588 29860 29527 27945 28703 29149 …
Autoroute Départementale Départementale …
20 km
N7 A47 D12 A89 D50 D30 …
1 002 entités
Source : BD TOPO®, IGN.
CLASS ADM Nationale Autoroute Départementale Autoroute Départementale Départementale …
b. Union de jeu de données sur des thématiques différentes sur un même territoire Résultat : jeu de données - C Jeu de données en entrée - A Table attributaire A Événements culturels Événements culturels et sportifs Type Date ID_Cult Concert Exposition Rencontre …
26/11/2017 été 2016 08/10/2018 …
ASCHAN, CUNTY, DAVOINE, 2023
C120 C145 C170 …
16 entités
Jeu de données en entrée - B Table attributaire B Événements sportifs Enfants Adultes Adultes …
19 entités
Quand il n’y a pas de champs équivalents dans les deux tables les valeurs ne sont pas renseignées.
Type
ID_Sport Participants S612 S307 S429 …
Union A ou B
Tournoi Foot Marathon Match Tennis Des champs peuvent … être associés.
5 km
ID_Cult
Date
Type
C120 C145 C170 S612 S307 S429
26/11/2017 été 2016 08/10/2018 Null Null Null
Concert Exposition Rencontre Tournoi Foot Marathon Match Tennis
35 entités Fig. 10, chapitre 5 – Union – (110 x 165 mm) – #1
216
Les systèmes d’information géographique
Table attributaire C Participants Null Null Null Enfants Adultes Adultes
des événements sportifs. Dans ce cas, les champs et les enregistrements de la table attributaire du jeu de données B s’ajoutent à la table attributaire du jeu de données A. La table attributaire comprend autant de lignes qu’il y a d’événements culturels et sportifs et les champs ne sont pas renseignés pour tous les enregistrements (figure 5.10b). • Différence Enfin, les jeux de données peuvent être combinés pour produire un jeu de données vecteur dont les entités correspondent à une différence entre les entités des jeux de données en entrée. Deux types d’opérations permettent d’obtenir une « Différence géométrique » entre deux jeux de données. Le traitement spatial généralement appelé Différence (représenté par « SAUF » en logique booléenne, figure 5.7, p. 210), produit un jeu de données résultat (C) qui comprend uniquement les parties d’entités de A qui ne se superposent pas avec une entité (ou partie d’entité) de B. Par exemple, à la suite d’une redéfinition du PPRi (plan de prévention des risques d’inondation) dans une communauté de commune, on cherche à identifier les zones AU (à urbaniser) dans le PLUi (plan local d’urbanisme intercommunal) sur lesquelles il n’y a pas de risque d’inondation. Ce résultat peut être obtenu par la superposition des jeux de données décrivant les zones AU du PLUi (jeu de données A) et les zones inondables du PPRi (jeu de données B). La différence exclusive entre les entités des deux jeux de données permettra de ne garder que les entités, ou parties d’entités, qui ne correspondent pas au jeu de données B, c’est-à-dire les zones AU qui ne sont pas inondables (figure 5.12a). Le traitement spatial par une Différence symétrique (représentée par « OU EXCLUSIF » en logique booléenne, figure 5.7, p. 210) produit un jeu de données résultat (C) qui comprend les entités du jeu de données A ou du jeu de données B, mais pas les entités qui se superposent dans les deux jeux de données. La Différence symétrique correspond donc à l’union de deux jeux de données, à l’exclusion d’entités qui se superposent dans les deux jeux de données. Par exemple, pour connaître l’évolution des parcelles agricoles en jachère sur un territoire entre 2015 et 2017, la différence symétrique peut être un outil utile. Le résultat obtenu est un jeu de données dans lequel apparaissent les parcelles qui Traitements spatiaux de l’information géographique
217
étaient en jachère en 2015 et qui ne le sont plus en 2017, ainsi que les parcelles en jachère en 2017, mais qui ne l’étaient pas en 2015. En revanche, les parcelles en jachère en 2015 et en 2017 n’y figurent pas (figure 5.12b). OCUS : Les erreurs de topologie lors de la combinaison de différents • Fjeux de données
Lors de la combinaison de jeux de données composés chacun d’entités de type polygone, le résultat produit fréquemment des polygones de très petite taille. Ceux-ci sont liés à la différence de niveau de généralisation des tracés (voir chapitre 1, Focus p. 28-29), ou de précisions des polygones des deux jeux de données (figure 5.11). Ce problème est particulièrement fréquent lorsque les deux jeux de données combinés proviennent de sources différentes. Ces micro-polygones peuvent généralement être automatiquement supprimés lors de la combinaison, par paramétrage d’une valeur de tolérance (distance à partir de laquelle on considère que deux points correspondent au même point), ou après la création du nouveau jeu de données en supprimant l’ensemble des polygones avec une superficie inférieure à une valeur prédéfinie. Figure 5.11 : Micro-polygones obtenus par un traitement spatial
Micropolygone sans superposition
B
Union ou Intersec�on Micropolygones où A et B se superposent
ASCHAN, CUNTY, DAVOINE, 2023
A
Fig. 12, chapitre 5 – Micropolygones non souhaités obtenus par un traitement spatial de deux jeux de données vecteur – (105 x 67 mm) – #1
218
Les systèmes d’information géographique
Figure 5.12 : Différence et Différence symétrique a. Différence A sauf B Jeu de données vecteur en entrée - A Zones « à urbaniser » Table attributaire A (AU) du PLUi Zonage
Jeu de données vecteur en sortie - C Zones AU qui ne sont pas inondables
AU AU AU AU
500 m
Jeu de données vecteur en entrée - B Zones du plan de prévention des risques Table attributaire B d’inondation (PPRi) Id
Différence exclusive A sauf B
Type
01_103 03 01_211 02
Table attributaire C Zonage
Id 00342 00582 00423 00243
b. Différence symétrique Jeu de données vecteur en entrée - A Parcelles agricoles Table attributaire A en jachère en 2015
500 m
Id Parcel 2015
Surf Parc 2015
Code Cultu 2015
11312 11311 11307 74890 74869 …
0,42 0,96 2,13 0,05 0,93 …
J6P J6P J6P J6S J6S …
Jeu de données vecteur en entrée - B Parcelles agricoles Table attributaire B en jachère en 2017 Id Parcel 2017
Surf Parc 2017
11312 0,42 11303 1,08 11311 0,96 74869 0,93 74890 0,05 … … Source : Registre Parcellaire Graphique (RPG), IGN.
Code Cultu 2017 J6P J6P J6P J6S J6S …
ASCHAN, CUNTY, DAVOINE, 2023
Id 00342 00582 00423 00243
AU AU AU AU
Jeu de données vecteur en sortie - C Parcelles agricoles en jachère en 2015 ou 2017 Parcelles en jachère en 2015, mais pas en 2017 Parcelles en jachère en 2017, mais pas en 2015
Différence symétrique A ou B exclusif
Table attributaire C Id Parcel 2015
Code Cultu 2015
Id Parcel 1 2017
11307 11373 Null Null …
J6P J6P Null Null …
Null Null 11303 11300 …
Code Cultu 1 2017 Null Null J6S J6S …
Fig. 11, chapitre 5 – Différence et différence symétrique – (110 x 165 mm) – #1
Traitements spatiaux de l’information géographique
219
3.2 Combiner des jeux de données raster Les opérations de combinaison de jeux de données raster sont très différentes de celles utilisées pour des jeux de données vecteur. L’utilisation de l’algèbre de cartes est une manière puissante de combiner, à la fois sur les plans spatial et attributaire, les jeux de données raster pour produire un nouveau jeu de données.
• FOCUS : L’algèbre de cartes
L’algèbre de cartes, ou algèbre spatiale, considère la notion de « cartes » comme des jeux de données raster. Les cellules de deux ou plusieurs rasters sont superposées et combinées entre elles en utilisant des opérateurs logiques (ET, OU, SAUF, OU EXCLUSIF) et/ou arithmétiques.
Pour combiner différents jeux de données raster, il est nécessaire de procéder à une harmonisation de la taille, de l’orientation et de l’origine de la grille des cellules (on parle de standardiser les jeux de données). Pour cela, il est nécessaire d’appliquer une méthode de rééchantillonnage du raster (voir chapitre 3, p. 127, figure 3.6). Dans le chapitre 4 (voir p. 171), la présentation des sélections combinées fondées sur l’algèbre de cartes a montré les possibilités d’utiliser la superposition de jeux de données raster pour identifier des lieux correspondant à deux ou plusieurs critères. L’algèbre de cartes peut également être utilisée avec les opérateurs booléens (ET, OU, SAUF, OU EXCLUSIF) pour combiner des jeux de données raster. Par exemple, la superposition des deux jeux de données raster « Pente » et « Types d’occupation du sol » permet de créer un nouveau jeu de données dans lequel les cellules du raster sont définies en fonction des critères recherchés (par exemple, une pente supérieure à 8 % et un type d’occupation correspondant à non forestier). Le jeu de données raster qui résulte de cette opération est composé de cellules qui peuvent prendre deux valeurs : 1 si la cellule correspond à une zone non forestière située sur une pente supérieure à 8 % (non forestier AND pente > 8 %), 0 sinon (voir chapitre 4, p. 179, figure 4.10). Ce type de combinaison de jeux de données raster par l’algèbre de cartes est notamment mis en œuvre dans l’analyse spatiale multicritère (voir chapitre 6, p. 253). 220
Les systèmes d’information géographique
Une deuxième possibilité offerte par l’algèbre de cartes est la combinaison de jeux de données raster en utilisant des opérateurs mathématiques. L’exemple du calcul de l’écart de température sur un territoire à partir de la superposition de deux jeux de données raster décrivant la température maximale (A) et minimale (B) illustre de façon simple une telle opération (voir chapitre 4, p. 171, figure 4.7). Le résultat est un jeu de données raster (C) dont les attributs des cellules correspondent à l’amplitude thermique (l’écart de température).
3.3 Combiner des jeux de données raster et vecteur La superposition d’un jeu de données vecteur, dont les entités sont des polygones, sur un jeu de données raster permet d’obtenir un résumé statistique des valeurs prises par les cellules du raster incluses dans chaque polygone. Le résultat produit est la modification de la table attributaire du jeu de données vecteur. Des champs stockent des informations statistiques (somme, moyenne, minimum, maximum, écart-type, etc.), résumant l’ensemble des valeurs des pixels superposés à chaque entité vectorielle (polygone) (figure 5.13). Les valeurs obtenues sont bien entendu fortement dépendantes de la résolution du raster par rapport à la taille des polygones et de la façon dont le logiciel effectue les calculs (prise en compte des cellules entièrement incluses dans les polygones ou également celles partiellement incluses…). Il est par exemple possible de superposer un jeu de données représentant des communes sur un territoire à un MNT en mode raster pour obtenir l’altitude maximale ou moyenne de chaque commune, calculée à partir des cellules du raster situées à l’intérieur de chaque commune (figure 5.13).
Traitements spatiaux de l’information géographique
221
Figure 5.13 : Superposition et combinaison d’un jeu de données raster et d’un jeu de données vecteur
18
18
19
20
16
17
18
15
17
16
12
16
19
19
19
20
Altitudes
Jeu de données vecteur en entrée
Jeu de données vecteur en sortie Valdor
Valdor Beaulieu
Beaulieu
Bellevue
Bellevue
Communes
Communes
Table attributaire en entrée
Table attributaire en sortie
IdCom
NomCom
IdCom
NomCom
AltMoy
74501 74607 74589
Beaulieu Bellevue Valdor
74501 74607 74589
Beaulieu Bellevue Valdor
17,2 18,8 16,4
AltMax 18 20 20
ASCHAN, CUNTY, DAVOINE, 2019
Jeu de données raster en entrée
Pour éviter les erreurs, pensez-y !
• Effectuer les géotraitements à partir de jeux de données qui sont définis dans le même système de coordonnées, et de préférence dans un système de coordonnées projetées. • Vérifier et, le cas échéant, recalculer des valeurs de champs contenant des informations sur la géométrie (superficie, périmètre) à la suite de la modification de géométrie induite par le traitement spatial. • Se rappeler que les opérations des traitements spatiaux ne sont pas systématiquement symétriques : A B ne produit pas forcément un résultat équivalent à B A, à la fois du point de vue de la géométrie que des données attributaires. • Vérifier la qualité topologique des jeux de données vecteur ; cela est nécessaire pour éviter la création d’objets parasites (micro-polygones ou micro-lignes) lors de la réalisation de certains traitements spatiaux (voir Focus, p. 218). • Se rappeler que Découper et Intersecter produisent des résultats différents ! • Ne pas oublier que, lors de la réalisation de calculs ou de traitements sur des objets vecteurs, seuls les objets sélectionnés seront concernés par ces calculs ou traitements.
222
Les systèmes d’information géographique
4. Le schéma de traitements La résolution d’un problème spatial au moyen d’un SIG nécessite de mobiliser plusieurs jeux de données géographiques de nature et d’origine variées et de mettre en œuvre une succession de traitements spatiaux qui peut être plus ou moins complexe. Chacun de ces traitements s’appuie sur des données dites « d’entrée » pour produire des données dites « de sortie », qui elles-mêmes peuvent être réutilisées comme données d’entrée pour de nouvelles opérations. La succession des données entrées/sorties et des opérations SIG (requêtes, traitements spatiaux, opérations élémentaires comme la création d’un nouveau champ) crée ainsi une chaîne de traitements. Avant de procéder à l’exécution de traitements sur les jeux de données, il est donc utile de formaliser les données à mobiliser et les étapes de traitements à appliquer, sous la forme d’un schéma de traitements (voir Focus p. 224). Celui-ci permet de structurer et d’optimiser la démarche d’analyse et de la reproduire. Un schéma de traitements se présente sous la forme d’un diagramme sagittal (appelé parfois diagramme cartographique). Dans ce schéma, les données à manipuler et les traitements à appliquer sont représentés par différents types de figurés géométriques (rectangles, ellipses, losanges) et les liens entre données et traitements par des flèches. Il peut être complété par un jeu de couleurs permettant de distinguer les données initiales des données produites ou les données en entrée des données en sortie de traitements. Les formats des jeux de données sont précisés (vecteur ou raster), ainsi que les paramètres des traitements (par exemple, la distance d’une zone tampon, les critères d’une requête spatiale…) (figure 5.14).
Jeu de données en entrée (vecteur ou raster) Traitement (paramètres) Jeu de données en entrée (vecteur ou raster)
Jeu de données en sortie (vecteur ou raster)
ASCHAN, CUNTY, DAVOINE, 2019
Figure 5.14 : Forme générale d’un schéma de traitements
Traitements spatiaux de l’information géographique
223
• FOCUS : Le schéma de traitements
Une communauté de commune a mis en place une stratégie de développement du tourisme « vert » et souhaite implanter un « éco-camping » sur son territoire. Plusieurs critères de localisation ont été identifiés pour déterminer les meilleurs emplacements possibles. Le camping doit : − être situé à moins de 4 km (à vol d’oiseau) du centre d’un village ; − être hors zone inondable ; − avoir une pente 3 %) (vecteur) Sélec�on a�ributaire (valeur = 1) Zones à moins de 500 m d’une route na�onale (vecteur)
Zones de pente faible (< 3 %) (vecteur)
Intersecter
Intersecter
Zones à moins de 4 km du centre d’un village et de faible pente (vecteur)
Zones inondables et à moins de 500 m d’une route na�onale (vecteur) Différencier*
Jeux de données en entrée Jeux de données correspondant à des zones ne pouvant pas accueillir le camping Jeux de données correspondant à des zones caractérisées par des critères favorables à l’implanta�on du camping Traitement
Sites favorables à l’accueil du camping (vecteur)
* Pour iden�fier les zones qui sont hors des zones d’exclusion, mais à l’intérieur des zones d’inclusion.
Fig. 15, chapitre 5 – Schéma de traitement – (110 x 165 mm) – #1
ASCHAN, CUNTY, DAVOINE, 2023
Zones à moins de 4 km du centre d’un village (vecteur)
Traitements spatiaux de l’information géographique
225
Pour éviter les erreurs, pensez-y !
• Concevoir le schéma de traitements avant d’effectuer les opérations sur le logiciel SIG. • Bien indiquer sur le schéma de traitements toutes les opérations à mettre en œuvre (par exemple, préciser le sens du découpage en désignant le jeu de données à découper et le jeu de données qui sert de pochoir), ainsi que leurs paramètres (par exemple, la valeur de la distance lors de la création d’une zone tampon). Notions à maîtriser
• Traitement spatial/Géotraitement : Agrégation – tableau récapitulatif – fusion – clé d’agrégation – polygone multi-parties. Découpage – extraction – pochoir/masque. Zone tampon – distance euclidienne. Enveloppe – semis de point – enveloppe convexe – enveloppe concave – aire d’extension. Combinaison – diagramme de Venn – opérateurs booléens – union – intersection – différence – différence symétrique – algèbre de cartes. • Schéma de traitements : jeu de données en entrée – jeu de données en sortie – diagramme sagittal – paramètres des traitements. Pour réviser
1. En vous appuyant sur des exemples, expliquez pourquoi il peut être intéressant d’agréger des entités vecteur d’un jeu de données. 2. À quoi sert une clé d’agrégation ? Donnez un exemple d’utilisation avec effet sur la géométrie et sans effet sur la géométrie. 3. En quoi consiste l’agrégation spatiale d’un jeu de données raster ? 4. Quelle méthode utiliseriez-vous pour créer un jeu de données correspondant à une zone de protection de 500 mètres autour d’un captage d’eau ? 5. Décrivez une méthode d’agrégation qui combine un jeu de données raster et un jeu de données vecteur et montrez son utilité à l’aide d’un exemple. 226
Les systèmes d’information géographique
6. Quelle méthode utiliseriez-vous pour définir l’extension spatiale d’un semis de point représentant la localisation de tweets ? 7. Quelles sont les conditions préalables à la combinaison de jeux de données raster ? 8. Lors d’un processus d’union d’entités géographiques linéaires au sein d’un jeu de données géographiques, vous observez qu’il existe des espaces ou des chevauchements entre entités qui devraient être normalement « raccordées ». Comment pouvez-vous expliquer un tel résultat ? 9. Proposez trois cas d’étude (avec des géométries différentes : point, polyligne, surface) où les zones tampon peuvent être utiles. 10. Quel est le principe des enveloppes convexe et concave ? Les données en entrée utilisées pour créer ces enveloppes doivent-elles être en mode vecteur ou raster ? 11. Expliquez les différences entre les traitements Découper et Intersecter. Réalisez un schéma simple qui montre les résultats de chacun des deux traitements sur la géométrie des objets et dans la table attributaire. 12. Quelle est la différence entre l’utilisation de l’opérateur Intersecte dans une requête spatiale (voir chapitre 4) et le traitement spatial Intersecter ? 13. Dans quels contextes peut-on utiliser l’algèbre de cartes ? 14. Quel est l’intérêt d’élaborer un schéma de traitements avant de procéder aux traitements des données ? 15. À partir des trois jeux de données ci-après (voir tableau 5.1), dessinez les deux schémas de traitements permettant de produire les deux résultats suivants : –– la superficie totale des zones de végétation sur le territoire du SCoT (Schéma de cohérence territorial) de l’Ouest lyonnais qui sont situées à l’intérieur des « réservoirs de biodiversité » ; –– une carte qui identifie les zones de végétation qui sont au moins partiellement incluses dans un réservoir de biodiversité.
Traitements spatiaux de l’information géographique
227
Tableau 5.1 : Description des jeux de données à traiter Noms jeux de données vecteur RB_AURA
VEG_AURA
COM_SCOT_ OL
228
Territoires couverts
Entités
Champs attributaires
Source
Région AuvergneRhône-Alpes
Réservoirs de biodiversité
Identifiant du réservoir
Région AuvergneRhôneAlpes
Région AuvergneRhône-Alpes
Zones de végétation
Identifiant de la zone de végétation
BD TOPO®, IGN
SCoT de l’Ouest lyonnais
Communes
Code de la commune, nombre d’habitants en 2022
Admin Express, IGN, INSEE
Les systèmes d’information géographique
Chapitre 6 Aperçu de l’analyse spatiale avec les SIG
Objectifs
• Connaître le potentiel de l’analyse spatiale dans les SIG. • Comprendre l’importance de la distance dans les analyses spatiales. • Connaître les principes de délimitation des aires d’attraction. • Comprendre ce que mesurent l’autocorrélation spatiale et ses méthodes dérivées (analyses de cluster et interpolation). • Connaître les principales analyses de surface dérivées de l’altitude. • Comprendre le principe de l’analyse multicritère.
Dans le chapitre 5, nous avons présenté les méthodes de traitements spatiaux. Ces traitements spécifiques aux SIG sont utilisés pour transformer les données géographiques et créer des nouveaux jeux de données ou de nouvelles informations, et permettent de répondre à des questions ayant une dimension géographique. Une autre famille de méthodes, non spécifiques aux SIG, mais qui sont couramment mises en œuvre grâce aux SIG, relève de ce que l’on appelle l’analyse spatiale. Il est à noter que les fondements théoriques de nombreuses méthodes d’analyse spatiale sont antérieurs ou parallèles au développement des SIG.
L’analyse spatiale met l’accent sur l’identification de formes et de structures spatiales, sur les relations entre des objets géographiques, sur les processus de changement. Elle s’appuie sur des concepts et des notions, comme la distance, l’autocorrélation spatiale, l’interaction spatiale, la polarisation, la discontinuité. Ces concepts sont exposés dans de nombreux ouvrages [Haggett, 2001 ; Pumain et Saint-Julien, 2010 ; Longley et alii, 2015 ; Heywood et alii, 2011 ; Bavoux et Chapelon, 2014 ; Feuillet et alii, 2019]. L’emploi des méthodes d’analyse spatiale nécessite d’en connaître les concepts, notions et hypothèses avant de les mettre en œuvre dans les SIG. Cet ouvrage ne revient pas sur ces méthodes d’un point de vue théorique, mais permet de comprendre leur mise en application au moyen des SIG dans la mesure où les notions de localisation absolue et relative des objets géographiques analysés, les notions de distance et de topologie, et la notion de combinaison de jeux de données, y sont centrales (voir chapitre 2). De très nombreux types d’analyses spatiales peuvent être réalisés dans les SIG. Dans ce dernier chapitre, nous proposons un aperçu non exhaustif des méthodes d’analyse spatiale utilisées pour comprendre les structures spatiales et les relations dans l’espace. Les modalités de mise en œuvre de ces méthodes sont abordées rapidement dans cet ouvrage, elles peuvent être approfondies en consultant d’autres ouvrages (majoritairement en anglais) [Bolstad, 2016 ; Joost et alii, 2017 ; Smith et alii, 2018]. Définitions
• Traitement spatial ou géotraitement : se réfère aux méthodes de traitements intégrées dans les logiciels SIG qui permettent d’agréger, extraire, combiner, transformer des jeux de données géographiques. Ce sont des traitements fondés sur la localisation et la géométrie des entités. • Analyse spatiale : ce terme est très souvent utilisé dans le contexte des SIG pour décrire les traitements spatiaux. Il est néanmoins à réserver pour définir une approche plus globale qui vise à comprendre les règles générales d’organisation de l’espace géographique et « déceler en quoi la localisation apporte un élément utile à la connaissance des objets étudiés et peut en expliquer les caractéristiques […]. Au lieu de considérer 230
Les systèmes d’information géographique
que ces unités sont des éléments indépendants comme dans l’analyse statistique classique, l’analyse spatiale s’intéresse aux propriétés des objets en tant qu’ils sont localisés » [Pumain et Saint-Julien, 2010, p. 6].
Au-delà des méthodes d’analyse spatiale mises en œuvre dans les SIG, certaines analyses leur sont plus spécifiques. Il s’agit notamment des traitements liés à la troisième dimension de l’information géographique (l’altitude). Enfin, les SIG sont souvent présentés comme des outils d’aide à la décision. Ce chapitre se termine sur l’analyse spatiale multicritère rendue possible grâce aux SIG et qui permet de réaliser des analyses de potentialité ou de susceptibilité, utiles à une prise de décision éclairée.
1. Analyses intégrant la distance Les analyses qui intègrent les distances sont nombreuses et variées. Elles peuvent porter sur des phénomènes géographiques discrets ou continus et donc mobiliser aussi bien des jeux de données vecteur que raster. Très souvent, la distance est un paramètre explicite de l’analyse (un choix de type de distance doit être fait par l’utilisateur). Parfois la distance est un paramètre implicite (la distance est utilisée par un outil, sans que cela ne soit visible par l’utilisateur). Les différents types de relations de distances, décrits au chapitre 2 (voir p. 81) sont aussi utilisés dans les analyses présentées dans ce chapitre.
• FOCUS : Les tableaux de distances dans les SIG
Utilisés de manière sous-jacente lors de nombreux traitements, les différents types de distances (voir chapitre 2, p. 83) peuvent être calculés, stockés et consultés dans les SIG sous forme de tableaux. Dans leur structure, ces tableaux ne constituent généralement pas des matrices de distance au sens strict, dans lesquelles les lignes sont des lieux A et les colonnes des lieux B (figure 6.1a). Il s’agit de tableaux dans lesquels chaque ligne correspond à un couple de lieux (lieu A – lieu B), pour lequel une valeur de distance est enregistrée. Ces tableaux peuvent présenter les distances entre tous les couples de
Aperçu de l’analyse spatiale avec les SIG
231
lieu (figure 6.1b), les distances entre chaque lieu A et le lieu B le plus proche (figure 6.1c), par exemple la distance entre chaque lieu de résidence et l’école la plus proche. Figure 6.1 : Matrice de distances et tableaux de distances Lieux B ( j )
b. Tableau de distances (toutes)
c. Tableau des distances les plus courtes
Lieux A Lieux B Distance ( dij ) (j) (i)
Lieux A Lieux B Distance ( dij ) (j) (i)
B1
B2
B3
B4
B5
A1
25
10
15
18
13
A1
B1
25
A1
B2
Lieux A A2 (i) A3
20
8
12
17
21
A1
B2
10
A2
B2
8
13
22
18
10
15
A1
B3
15
A3
B4
10
A4
16
14
23
11
9
A1
B4
18
A4
B5
9
A5
12
21
17
5
14
A1
B5
13
A5
B4
5
A2
B1
20
A2
B2
8
A2
B3
12
A2
B4
17
A2
B5
21
A3
B1
13
A3
B2
22
A3
B3
18
...
...
...
i : un lieu A quelconque j : un lieu B quelconque dij : chaque case de la matrice contient la distance entre ij A et B peuvent correspondre aux mêmes lieux (par exemple des communes). Dans ce cas les matrices de distances euclidiennes et rectilinéaires sont symétriques (la distance de A à B est égale à la distance de B à A). Les matrices de distances sur un réseau peuvent être dissymétriques (la distance de A à B est différente de la distance de B à A, ex. : route à sens unique).
10
A et B peuvent correspondre à des lieux différents. Par exemple A correspond à un lieu de résidence d’usager et B à un lieu d’offre de service (ex. : école). Dans ce cas, la matrice est orientée avec un lieu de départ et un lieu d’arrivée. C’est le cas de l’exemple présenté dans cette figure.
ASCHAN, CUNTY, DAVOINE, 2023
a. Matrice de distances
Ces tableaux de distances peuvent être mobilisés pour des analyses statistiques simples (par exemple le calcul de la distance moyenne ou minimale au plus proche voisin) ou pour la réalisation de représentations cartographiques (aires d’attraction, carte en oursins). Ils permettent également de calculer des indicateurs d’accessibilité (lieu A pour lequel la distance moyenne à tous les lieux B est la plus faible).
Fig. 01, chapitre 6 – Matrices et tableaux de distance – (110 x 73 mm) – #1
1.1 Aires d’attraction Les SIG sont souvent utilisés pour identifier des aires d’influence, appelées aussi aires d’attraction théoriques ou réelles. Une aire d’attraction définit le rayon d’attraction d’une ville, d’un service, d’un commerce, etc. Les aires d’attraction sont couramment recherchées pour répondre à des problématiques issues de l’aménagement et du géomarketing. Par exemple, les autorités publiques utilisent ce type de méthode dans un but de planification, telle que la carte scolaire qui est utilisée 232
Les systèmes d’information géographique
pour affecter les élèves à un établissement scolaire en France. Dans les études de géomarketing, ces méthodes permettent aussi bien d’évaluer les potentialités de clientèles pour des projets de nouvelles implantations, que de caractériser la population potentiellement attirée par les commerces ou services existants. Définitions
• Aire d’influence : « zone polarisée par un centre, pour un ensemble de relations (aire d’influence d’une ville) ou une catégorie de relations (aire d’influence culturelle ou commerciale, aire de chalandise). La notion d’influence est difficile à préciser. Elle se mesure à partir des fréquences (ou des probabilités) de déplacement des résidents de la périphérie vers le centre à l’occasion de leur recours aux services qu’il offre […] ». • Aire de chalandise : « zone dans laquelle se recrutent les clients d’un commerce, d’un centre commercial ou des commerces et des services d’une ville ». Définitions extraites d’HyperGeo [http://www.hypergeo.eu].
Pour identifier des aires d’attraction sur un territoire au moyen d’un SIG, la première étape est la définition des objets géographiques dont on mesure l’attractivité sur un territoire, par exemple des points de vente de produits locaux. Différentes méthodes peuvent ensuite être mobilisées pour délimiter les aires d’attraction réelles ou théoriques de ces objets géographiques. Les aires d’attraction réelles sont évaluées à partir des flux observés sur une période donnée entre la localisation des usagers (par exemple les clients) et le service (par exemple le commerce). L’extension de l’aire d’attraction d’un point de vente de produits locaux peut être évaluée à partir des lieux de résidence des clients, celle d’une université en fonction de lieux de résidence des étudiants au moment de l’inscription, celle d’un bassin d’emploi en fonction des déplacements domicile-travail. En SIG, la représentation graphique des flux réels sous forme de cartes de flux [Lambert et Zanin, 2016, p. 154‑157] permet d’identifier les aires d’attraction réelles. Les aires d’attraction théoriques sont définies à partir des distances qui séparent les objets géographiques (services ou commerces par Aperçu de l’analyse spatiale avec les SIG
233
exemple) des lieux qui pourront être sous leur influence. La capacité des SIG à mesurer ou calculer des distances entre entités (voir chapitre 2, p. 81) permet ce type d’analyse. Une fois les aires d’attraction théoriques définies (généralement selon les distances les plus courtes), il est possible d’estimer les usagers (ou la clientèle) potentiels en combinant les aires ainsi délimitées avec d’autres jeux de données, décrivant par exemple la répartition de la population par âge sur un territoire. Les aires d’attraction théoriques peuvent être définies en considérant différentes distances telles que la distance euclidienne ou la distance sur un réseau. Les données et la méthode employées varient en fonction du phénomène étudié, des besoins et des moyens (temps, qualité des données…) dont dispose l’utilisateur. • Déterminer des aires d’attraction selon une distance euclidienne Une première méthode simple pour définir les aires d’attraction respectives de chaque service/commerce, modélisées sous la forme d’un semis de points (voir chapitre 5, p. 207), est basée sur la construction de polygones de Thiessen qui utilisent la distance euclidienne. Les polygones de Thiessen sont créés à partir d’un maillage de semis de points, en joignant les points les plus proches par des lignes pour effectuer une triangulation (appelée triangulation de Delaunay1), puis en identifiant les bissectrices qui constituent les arcs des polygones (figure 6.2). Les polygones de Thiessen divisent donc la surface couverte par le semis de points en polygones, chaque point se trouvant à l’intérieur d’un polygone et d’un seul, et chaque polygone contenant un point et un seul. Ainsi, tout emplacement dans un polygone de Thiessen est plus proche du point localisé dans ce polygone que de tout autre point du semis. La distance utilisée pour créer les polygones étant la distance euclidienne, les polygones de Thiessen délimitent donc la zone la plus proche d’un point à vol d’oiseau. Ces polygones délimitent ainsi l’aire d’attraction théorique de chaque point de service/commerce, en faisant l’hypothèse que toute personne résidant à l’intérieur du polygone sera attirée par le point de service le plus proche à vol d’oiseau.
1. La triangulation de Delaunay consiste à mailler un semis de points avec des triangles ayant pour sommets les points de ce semis.
234
Les systèmes d’information géographique
Exemple de construc�on d’un polygone (point Pi)
Pi
Pi
Bissectrice Bissectrice des droites entre Pi et chaque point
Polygone de Thiessen du point Pi
Bissectrices des droites entre l’ensemble des points
Polygones de Thiessen de l’ensemble des points
ASCHAN, CUNTY, DAVOINE, 2023
Figure 6.2 : Principe de construction des polygones de Thiessen
Construc�on des polygones pour l’ensemble des points
Fig. 02, chapitre 6 – Principe de construction des polygones de Thiessen – (110 x 73 mm) – #1
Le saviez-vous ?
L’équivalent des polygones de Thiessen peut être défini en mode raster. À chaque cellule du raster est affecté l’identifiant du point (service, commerce) le plus proche selon une distance euclidienne.
Une étude de cas, souvent considérée comme fondatrice en analyse spatiale, est celle de la recherche de la cause du choléra par le docteur John Snow à Londres au milieu du xixe siècle. Elle permet d’illustrer comment les polygones de Thiessen peuvent être utilisés pour délimiter des zones d’attraction, même si cette méthode n’était pas encore définie à l’époque et qu’elle n’a pas été mobilisée en tant que telle par John Snow. En 1854, John Snow a relevé sur une carte la localisation, immeuble par immeuble, de l’ensemble des personnes mortes du choléra dans le quartier de Soho à Londres. Son hypothèse était que la maladie était transmise par l’eau des pompes du quartier, il a donc localisé les pompes d’eau potable sur la carte où il avait reporté les cas de décès. Les polygones de Thiessen, qui peuvent être créés en mode vecteur (figure 6.3a) ou raster (figure 6.3b), permettent de voir dans quelle Aperçu de l’analyse spatiale avec les SIG
235
Figure 6.3 : Les aires d’attraction définies selon une distance euclidienne a. En entrée, données ponctuelles en mode vecteur : les pompes à eau Oxford (sur le fond de plan du Dr Snow) Oxford Street East Street West
Great Marlborough Street Craven Chapel
Broad Street Dean Street South Soho Bride Lane Pompes à eau
Vigo Street
Coventry Street
250 m Source des données : carte du Dr John Snow, 1854.
b. Polygones de Thiessen autour des pompes à eau dans le quartier de Soho en 1854 : les polygones représentent les aires d’attraction théoriques de chaque pompe En mode raster En mode vecteur
Nombre de morts par adresse 10 5 1 Pompes à eau Polygones de Thiessen
Fig. 03, chapitre 6 – Les pompes à eau du Dr John Snow – (110 x 165 mm) – #1
236
Les systèmes d’information géographique
ASCHAN, CUNTY, DAVOINE, 2023
c. Aires d’attraction des pompes à eau dans le quartier de Soho en 1854 et localisation des personnes mortes du choléra : en croisant des polygones de Thiessen et la répartition des décès on peut calculer pour chaque aire d’attraction le nombre de morts
aire d’attraction des pompes la mortalité par choléra est la plus élevée. L’hypothèse sous-jacente à cette méthode en ce qui concerne l’utilisation des pompes à eau par les habitants est que ceux-ci se rendent à la pompe la plus proche à vol d’oiseau. La forte concentration de morts autour d’une des pompes (celle de Broad Street) a donné au docteur Snow les arguments pour alerter les pouvoirs publics. La fermeture de cette pompe a permis d’enrayer l’épidémie de 1854 dans le quartier de Soho (figure 6.3c). Le saviez-vous ?
• Les polygones de Thiessen sont aussi appelés diagrammes ou polygones de Voronoï, ou encore polygones de Dirichlet. Ces polygones sont utilisés dans de nombreux domaines, notamment en mathématiques, géographie et aménagement, écologie, géologie, géomarketing, climatologie, archéologie. La simplicité du principe explique qu’il a été pensé indépendamment dans différents contextes et que différents termes sont utilisés pour le désigner. • Dans un espace en 3D, l’équivalent est appelé polyèdres de Voronoï.
Dans le cas particulier où la localisation des personnes ou ménages utilisant les services est connue, l’aire d’attraction de chaque service peut alors être définie de manière différente. Il ne s’agit plus de tracer des aires d’attractions comme des polygones, mais de relier par une ligne chaque personne/ménage au point de service le plus proche, selon une distance euclidienne. L’aire d’attraction est alors simplement visualisée au moyen de cartes en oursins (figure 6.4).
Aperçu de l’analyse spatiale avec les SIG
237
Figure 6.4 : Les aires d’attraction sous forme de cartes en oursins
Coordonnées projetées du lieu de résidence de morts du choléra.
Coordonnées projetées de la pompe à eau la plus proche.
• Déterminer des aires d’attraction selon une distance sur un réseau L’analyse de réseau permet aussi de définir des aires d’attraction théoriques, en fonction de la distance sur un réseau. Cette distance est bien sûr une meilleure approximation des distances réelles parcourues par les usagers ou clients. Ces aires d’attractions reposent sur l’hypothèse simple que les usagers se rendent au lieu de service le plus proche, ou qui peut être atteint le plus rapidement, ou à moindre coût (voir chapitre 2, p. 83). Pour déterminer l’aire d’attraction de chaque pompe à eau à Soho, une analyse de distance sur le réseau de rues permet d’affecter chaque tronçon du réseau à la pompe la plus proche (figure 6.5a). Les aires d’attraction des pompes à eau ainsi constituées ne sont donc pas des zones, mais un ensemble de tronçons rattachés à la même pompe. Les informations relatives à un réseau peuvent être stockées sous forme de raster. Chaque cellule a alors pour attribut le coût de franchissement représentant son niveau de friction (voir chapitre 2, p. 83). À partir de ce jeu de données raster et du semis des points de services 238
Les systèmes d’information géographique
(les pompes à eau, par exemple), il est possible de calculer un nouveau jeu de données raster dans lequel chaque cellule a pour attribut l’identifiant du point de service le plus proche selon le coût de déplacement (figure 6.5b). Figure 6.5 : Les aires d’attraction des pompes à eau à Soho (Londres) en 1854, définies selon une distance sur le réseau de rues a. À partir d’un jeu de données vecteur
Données en sortie : Données en entrée : les aires d’attraction des dix pompes le réseau viaire et la localisation des pompes par la distance la plus courte à pied Oxford Street East
Oxford Street West Great Marlborough Street Craven Chapel
Broad Street Dean Street South Soho Bride Lane
Vigo Street Pompes à eau
Coventry Street Réseau viaire
250 m
Données en sortie : les aires d’attraction des dix pompes par la distance la plus courte à pied
ASCHAN, CUNTY, DAVOINE, 2023
b. À partir d’un jeu de données raster Données en entrée : niveau de friction pour le déplacement (raster) et la localisation des pompes (vecteur)
Niveau de friction :
1 pour les rues 1 000 pour les bâtiments
Pompes à eau
Fig. 05, chapitre 6 – Les aires d’attraction définies selon une distance réseau – (110 x 130 mm) – #1
Aperçu de l’analyse spatiale avec les SIG
239
Qu’elles soient définies selon une distance euclidienne ou une distance sur un réseau, il est évident que la délimitation de ces aires reste théorique. Il est possible d’utiliser une modélisation plus complexe comme le modèle d’attraction commerciale de Reilly, qui s’appuie sur plusieurs hypothèses : par exemple, la demande diminue au fur et à mesure que l’on s’éloigne du commerce et elle est proportionnelle à l’importance de l’offre (qui peut être caractérisée par la surface commerciale) [Pumain et Saint Julien, Analyse spatiale. Les interactions, 2010, p. 41‑48]. Ces modélisations plus avancées peuvent être mises en œuvre en utilisant des SIG, mais nécessitent alors très souvent des traitements en amont qui ne relèvent pas des SIG.
1.2 Autocorrélation spatiale, analyses de concentration et interpolation spatiale L’autocorrélation spatiale est une caractéristique fondamentale de nombreux phénomènes géographiques. Elle se mesure par l’intensité de la relation entre la proximité des lieux et leur degré de ressemblance [Pumain et Saint-Julien, 2010] et prend en compte à la fois la position des objets dans l’espace, et donc la distance entre eux, ainsi que leurs attributs. En effet, la majorité des phénomènes ne sont pas répartis de manière aléatoire dans l’espace géographique, mais suivent une structure qui se traduit fréquemment par une ressemblance des phénomènes observés dans des lieux voisins. Par exemple, les températures observées dans deux lieux proches ont plus de chances de se ressembler que les températures de deux lieux éloignés. De même, le revenu moyen des ménages de deux communes voisines a tendance à être du même ordre de grandeur. Cette tendance à la concentration se traduit par une mesure d’autocorrélation spatiale positive1. Cette autocorrélation spatiale, que l’on peut mesurer pour l’ensemble d’un territoire, peut être qualifiée de globale. De nombreuses analyses proposées par les SIG sont pertinentes si, et seulement si, l’existence d’une autocorrélation spatiale globale positive est vérifiée. Avant de mettre en œuvre les analyses, il est donc très fortement conseillé de mobiliser des 1. D’autres structures spatiales existent, qui se traduisent à l’inverse par une ressemblance des phénomènes éloignés. Cette tendance à la dispersion se traduit par une mesure d’autocorrélation spatiale négative.
240
Les systèmes d’information géographique
outils proposés dans les SIG, pour calculer les indices d’autocorrélation comme l’indice de Moran ou de Geary. Il s’agit de vérifier que les valeurs de ces indices sont statistiquement significatives, validant ainsi l’existence d’une organisation spatiale. Cette organisation peut correspondre à des situations de concentrations lorsque les lieux proches se ressemblent davantage que les lieux éloignés pour le phénomène étudié (indice de Moran positif, indice de Geary supérieur à 1). Elle peut, plus rarement, correspondre à une situation de dispersion régulière où les lieux éloignés se ressemblent plus que des lieux proches (indice de Moran négatif, indice de Geary inférieur à 1) [pour une présentation plus détaillée, voir Feuillet, Cossart et Commenges, 2019, p. 112 et 115]. La vérification de l’existence d’une autocorrélation spatiale positive est généralement une première étape dans la réalisation d’autres analyses, telle que l’interpolation de phénomènes continus. • Identifier des concentrations de phénomènes géographiques discrets L’analyse des répartitions spatiales des phénomènes amène souvent à identifier des zones de concentration dans l’espace géographique. Ces concentrations, qui sont souvent appelées clusters, peuvent être mesurées par différentes méthodes qui ont donné lieu à des fonctionnalités proposées par les SIG. Généralement, ces méthodes s’appliquent à des données traduisant des phénomènes discrets dans l’espace, qui peuvent être modélisés aussi bien sous forme d’entités de géométrie ponctuelle que surfacique. Il est plus rare de les utiliser pour des entités linéaires. Le saviez-vous ?
Les concentrations sont traduites en anglais par cluster, terme couramment employé dans la langue française. Un autre vocable rencontré pour désigner ces zones de concentration est hot spots (points chauds). Il est surtout utilisé pour désigner des concentrations d’entités ponctuelles, telles que des zones de concentration d’exploitations agricoles avec un grand nombre de cas de grippe aviaire (voir chapitre 4, p. 187). Le terme de cold spots est parfois utilisé pour désigner des zones de concentration de valeurs faibles (par exemple, des zones où il y a des exploitations sans ou avec peu de cas de grippe aviaire). Aperçu de l’analyse spatiale avec les SIG
241
Les zones de concentration peuvent tout d’abord être identifiées par des indices d’autocorrélation spatiale locale (ou LISA pour Local Indicator of Spatial Association)1. Calculé pour chaque entité, un indice positif signifie que les valeurs observées dans le voisinage de l’entité sont similaires à celles de l’entité. Ainsi, l’indice permet d’identifier des zones de regroupement de valeurs élevées ou faibles. Par exemple, une commune dont le niveau de revenus des ménages est élevé et qui est entourée de communes dont les ménages ont des revenus élevés, aura un indice d’autocorrélation spatiale locale positif au même titre qu’une commune dont le niveau de revenus des ménages est faible et qui est entourée de communes aux revenus des ménages faibles. À l’inverse, un indice négatif signifie que les valeurs observées dans le voisinage de l’entité sont différentes de celles de l’entité : par exemple une commune dont les revenus des ménages sont faibles et qui est entourée de communes dont les revenus des ménages sont élevés. Cela permet de mettre en avant des entités qui enregistrent une valeur remarquable, comparée à ce que l’on constate dans leur voisinage. Un autre indice fréquemment proposé dans les SIG est la mesure statistique de Getis-Ord2. Calculée elle aussi pour chaque entité, elle est positive si les valeurs de l’entité sont élevées et celles du voisinage également, et négative si les valeurs de l’entité sont faibles et celles du voisinage également. Cette mesure ne permet pas de repérer les entités ayant une valeur différente de leur voisinage comme peut le faire l’indice d’autocorrélation spatiale locale. Enfin, il existe un autre type de méthodes qui relève davantage de l’analyse statistique que de l’analyse spatiale, mais qui a pour objectif d’identifier des aires de regroupement d’objets géographiques qui se ressemblent selon plusieurs attributs. Il s’agit de méthodes statistiques multivariées, qui intègrent une contrainte spatiale : on parle souvent de classifications multivariées. Des méthodes de ce type sont proposées par certains logiciels SIG. Dans ce cas, les résultats produits correspondent à des jeux de données vecteur où chaque entité est attribuée à une classe en fonction de ses attributs. Étant donné qu’une contrainte spatiale est imposée, chaque classe est composée d’entités contiguës qui se ressemblent plus entre elles qu’elles ne ressemblent à des entités 1. Pour une présentation plus détaillée, voir Feuillet, Cossart et Commenges, 2019, p. 120-121. 2. Pour une présentation plus détaillée, voir Feuillet, Cossart et Commenges, 2019, p. 123.
242
Les systèmes d’information géographique
éloignées regroupées dans une autre classe. L’ouvrage Manuel de géographie quantitative permet de comprendre les principes de ces méthodes [Feuillet, Cossart et Commenges, 2019, p. 124‑125]. OCUS : Mesures locales de concentration et lissage spatial, • Fquelles différences ?
Les deux types de méthodes ont pour objectif d’identifier des zones de concentration. − Les mesures locales de concentration, l’indice d’autocorrélation spatiale locale et la mesure statistique de Getis-Ord, par exemple, ont pour objectif d’identifier des zones de concentration dans les valeurs fortes ou dans des valeurs faibles (clusters). Les résultats produits sont d’une part, pour chaque entité du jeu de données vecteur, un indice associé à une probabilité permettant de déterminer le degré de significativité de l’indice. Ces valeurs permettent d’affirmer si l’entité fait partie ou non d’un cluster local et le niveau de concentration du cluster. Par ailleurs, le résultat produit une cartographie de clusters. Les mesures locales de concentration sont toujours effectuées à partir d’un champ attributaire des entités, qui sont généralement de géométrie ponctuelle ou surfacique. − L’objectif du lissage spatial, déjà présenté (chapitre 4, p. 180), est de faciliter la lisibilité sur les cartes des structures spatiales. Il n’identifie que les zones de concentration de valeurs élevées (hot spots). Pour chaque cellule du jeu de données raster, la valeur attribuée à une cellule correspond à une estimation de la densité calculée à partir des attributs des entités voisines de la cellule [voir Feuillet, Cossart et Commenges, 2019, p. 124]. Lors d’un lissage spatial, l’estimation de la densité peut être réalisée soit à partir d’un champ attributaire des entités dont la géométrie est ponctuelle ou surfacique, soit directement à partir des entités géométriques, sans tenir compte de leurs caractéristiques sémantiques. Dans ce cas, seules leurs localisations relatives dans l’espace géographique sont prises en compte. L’exemple des personnes mortes du choléra à Soho permet d’illustrer cette nuance. Le lissage peut être réalisé à partir du nombre de personnes mortes du choléra à chaque adresse (pondération de chaque localisation par le nombre de morts à proximité) ou à partir de la localisation des immeubles dans lesquels des personnes sont mortes du choléra, alors que les indices de concentration sont nécessairement calculés à partir du nombre de décès par choléra. Aperçu de l’analyse spatiale avec les SIG
243
• Estimer des valeurs d’un phénomène continu par interpolation spatiale Nous avons vu que l’acquisition de données relatives à des phénomènes spatialement continus est souvent faite par échantillonnage, simplement parce qu’il est impossible de faire des mesures en tout point de l’espace (voir chapitre 1, p. 16 et chapitre 3, p. 124). La qualité de l’air, qui varie de manière continue dans l’espace et dans le temps, est par exemple mesurée à l’aide d’un nombre fini de capteurs. Ainsi à Lyon, la concentration des particules fines d’une taille supérieure à 10 micromètres (PM10 en µg/m3), est mesurée dans 14 stations sur le territoire de la Métropole. L’objectif d’une interpolation spatiale est d’estimer correctement les valeurs d’un phénomène (par exemple, des particules fines dans l’air) là où il n’est pas mesuré, à partir de valeurs relevées à proximité. Cette estimation de valeurs inconnues à partir de valeurs connues est réservée à des phénomènes spatialement continus. Ces phénomènes relèvent principalement du domaine de l’environnement : la température de l’air, la pression de l’atmosphère, les précipitations, l’humidité du sol, la concentration de polluants chimiques dans l’air, le pH de l’eau, la radioactivité du sol, le taux de salinité de l’océan, etc. Définition
L’interpolation spatiale est une méthode qui permet d’estimer les valeurs d’un phénomène spatialement continu en tout lieu d’un territoire, à partir de points de mesures existants sur ce même territoire.
L’interpolation, appliquée aux données spatiales et réalisée au moyen d’un SIG, se traduit généralement par la génération d’un jeu de données raster couvrant le territoire d’étude, où chaque cellule est dotée d’une valeur estimée. Différentes méthodes de calcul, plus ou moins complexes, ont été mises au point pour estimer les valeurs non connues. Toutes ces méthodes sont fondées sur l’hypothèse que la valeur inconnue (non mesurée) dans un lieu ressemble aux valeurs mesurées dans les lieux situés à proximité. Les méthodes d’interpolation mobilisent ainsi des fonctions mathématiques qui prennent en compte la distance entre la cellule dont on cherche à estimer la valeur et les points échantillonnés 244
Les systèmes d’information géographique
dans le voisinage. Les fonctions mathématiques appliquées varient selon les types de pondérations affectées à la distance aux points de mesure (voir chapitre 2, p. 94-98). Il est important de souligner que le phénomène géographique qui fait l’objet d’une interpolation doit nécessairement être caractérisé par une autocorrélation spatiale positive significative. En effet, si un phénomène est réparti de façon aléatoire sur le territoire, l’estimation des valeurs inconnues à partir des valeurs connues proches n’a pas de sens. Pour des phénomènes caractérisés par une autocorrélation spatiale positive très élevée, telle que la température, l’information de la distance aux points échantillonnés et leurs attributs est souvent suffisante pour estimer assez correctement les valeurs dans des lieux sans mesures. Dans ce cas, on parle de méthode d’interpolation déterministe. Or, l’interpolation de certains phénomènes caractérisés par une autocorrélation positive plus faible, comme la concentration de particules fines dans l’air, nécessite l’introduction dans le modèle d’autres variables que la distance aux points échantillonnés et la valeur mesurée, comme la répartition des sources d’émission des particules fines, la morphologie du bâti, les paramètres météorologiques… On parle alors de méthodes non déterministes. Le choix d’une méthode d’interpolation dépend donc principalement du phénomène traité, mais aussi de l’objectif de l’analyse, de la précision souhaitée et de la densité des points de mesures qui constituent l’échantillon utilisé pour l’estimation.
• FOCUS : Utilisations implicites de l’interpolation
Si l’interpolation spatiale peut être mise en œuvre au moyen des SIG par des actions dédiées permettant d’estimer des valeurs inconnues, elle est également utilisée de façon implicite dans certaines procédures de traitement de données géographiques : –– lors de la conversion d’entités géométriques ponctuelles en isolignes. Ce type de conversion est par exemple utilisé pour créer des courbes de niveau de valeurs égales d’altitude (appelées isohypses) à partir de mesures ponctuelles d’altitudes ; –– pour convertir un ensemble d’entités de géométrie ponctuelle en un réseau triangulé irrégulier (TIN) (voir chapitre 2, Focus p. 68).
Aperçu de l’analyse spatiale avec les SIG
245
La qualité des résultats produits par une interpolation est liée à la qualité de l’échantillonnage, qui dépend de la représentativité des points de mesure, de leur densité et de leur répartition sur le territoire. Elle est aussi liée à la connaissance de la variabilité spatiale du phénomène qui détermine le choix de la méthode d’interpolation, de la manière dont la distance est prise en compte dans le modèle (voir chapitre 2, p. 94-98), et, le cas échéant, des autres variables à intégrer (par exemple, les sources d’émissions pour estimer la répartition d’un polluant chimique). Pour connaître les différentes méthodes d’interpolation spatiale, ainsi que les facteurs qui influencent la qualité des résultats, le lecteur peut consulter différentes ressources [Feuillet, Cossart et Commenges, 2019, p. 126‑133 ; Joost, Soutter, Kouamé et Sall, 2017, p. 20‑30 ou Smith, Goodchild et Longley, 2018, p. 387‑424]. Nous rappelons que l’interpolation spatiale est une méthode qui doit être appliquée à des données quantitatives qui représentent des phénomènes continus dans l’espace. Il n’est pas correct d’effectuer une interpolation pour des données décrivant un phénomène spatialement discret, comme la localisation des décès par choléra à Soho étudiée par John Snow.
• FOCUS : Interpolation et lissage spatial, quelles différences ?
Les résultats issus d’une interpolation ou d’un lissage spatial (voir chapitre 4, p. 187-188) sont similaires. Ils produisent des jeux de données raster qui représentent le phénomène interpolé ou lissé sous la forme d’une surface continue. Visuellement, les résultats présentent les mêmes caractéristiques (figure 6.6) Cependant conceptuellement, ces deux méthodes d’analyse spatiale sont diamétralement opposées. L’objectif de l’interpolation est d’estimer des valeurs manquantes dans l’espace. L’objectif du lissage est de simplifier la lecture de l’organisation spatiale du phénomène en mettant en évidence les lieux de concentration. Le lissage est une estimation de la densité du phénomène à partir de sa répartition spatiale (par exemple, la densité estimée du nombre de décès par choléra par hectare à Soho). Ces méthodes s’opposent également par les données utilisées, même si d’apparence elles peuvent se ressembler, puisqu’elles sont souvent réalisées à partir d’entités ponctuelles. La grande différence réside dans la nature du phénomène représenté (voir chapitre 1, p. 16-17) : l’interpolation s’applique
246
Les systèmes d’information géographique
à des phénomènes spatialement continus (par exemple, les précipitations à Lyon en août 2018) et le lissage des phénomènes spatialement discrets (par exemple, le nombre de morts du choléra à Soho, Londres, en 1854 – figure 6.6). Figure 6.6 : Comparaison entre l’interpolation et le lissage Interpola�on
250 m
5 km
Lieu de résidence de morts du choléra Concentra�on des morts du choléra à Soho Élevée Faible
ASCHAN, CUNTY, DAVOINE, 2023
Lissage
Sta�on météorologique du Grand Lyon Précipita�ons cumulées en août 2018 (en mm) :
Densité du phénomène calculée pour une représenta�on cartographique facilitant la lecture de l’organisa�on spa�ale.
15
20
30
40
50
60
70
Es�ma�on des valeurs du phénomène en tout point de l’espace.
Les données correspondent à un phénomène Les données correspondent à un phénomène discret dans l’espace con�nu dans l’espace et les en�tés à des points (ici chaque objet correspond à un lieu de résidence de mesure de ce phénomène (ici des sta�ons où un décès lié au choléra a été constaté). météorologiques qui enregistrent les précipita�ons). Fig. 06, chapitre 6 – Lissage _ Interpolation – (105 x 81 mm) – #1
Pour éviter les erreurs, pensez-y !
• Vérifier que le phénomène est caractérisé par une autocorrélation spatiale positive avant de faire une analyse de cluster/interpolation/ lissage. • Réaliser une interpolation spatiale peut se faire uniquement à partir de points d’échantillonnage qui représentent un phénomène spatialement continu. • Produire un lissage n’est possible que pour un phénomène spatialement discret.
Aperçu de l’analyse spatiale avec les SIG
247
2. Analyses de surface Le relief joue un rôle important dans de nombreux phénomènes géographiques, comme la localisation et la disponibilité de l’eau de surface, le sens et la vitesse d’écoulement de l’eau, la visibilité à partir d’un site… Le relief est généralement représenté sous forme de modèles numériques de terrain (MNT) (voir chapitre 2, p. 65), qui sont souvent des jeux de données raster dans lesquels les cellules ont pour attribut l’altitude. Il existe un large éventail d’analyses possibles à partir des MNT qui, dans les SIG, sont appelées « analyses de surface » ou « analyses de terrain ». Les mesures et modèles dérivés de jeux de données 2,5D ou 3D (voir chapitre 2, p. 64-65) sont généralement calculés à partir des MNT en mode raster, plus adapté pour les analyses que les TIN, les nuages de point en 3D acquis par LiDAR ou les jeux de données vecteur représentant l’altitude par des courbes de niveau. Nous présentons ici trois familles d’analyses qui permettent d’illustrer ces mesures et modèles dérivés des MNT.
2.1 Les analyses de pente, de profil, d’exposition et de volume Une première catégorie concerne les analyses qui s’appuient sur la géométrie de surface et permettent de produire des variables décrivant les caractéristiques morphométriques du relief à partir de calculs fondés sur la comparaison des valeurs d’altitudes prises par des cellules voisines. Les calculs de pente, de profil ou d’exposition des versants (figure 6.7) sont utiles dans beaucoup de domaines, tels que l’aménagement et la gestion du risque. Les variables dérivées du relief sont utilisées dans différents types d’études, par exemple dans une analyse multicritère (voir p. 253) ayant pour objectif d’identifier la localisation optimale d’un nouvel établissement scolaire où la pente ou l’exposition peuvent faire partie des critères déterminants.
248
Les systèmes d’information géographique
Figure 6.7 : Pente dérivée d’un MNT Jeu de données raster en entrée : MNT
Élevée : 623 Faible : 149
Jeu de données raster en sortie : pentes
Élevée : 76 Faible : 0
.
La géométrie de surface permet d’identifier des caractéristiques morphométriques, c’est-à-dire la forme du relief comme les sommets, vallées, cols, crêtes, dépressions, etc. Ces caractéristiques peuvent être mises en évidence par l’ombrage du relief (figure 6.8), qui est une représentation en niveaux de gris des ombres produites par le relief en fonction de la position relative du soleil. Au-delà de la visualisation des ombres, les caractéristiques morphométriques permettent, par exemple, d’estimer la quantité de lumière solaire (rayonnement solaire entrant) reçue par chacune des cellules dans un MNT à un moment donné ou pendant une période donnée, et ainsi en déduire le rayonnement solaire sur un versant. Aperçu de l’analyse spatiale avec les SIG
249
Ce type d’analyse est utile par exemple pour modéliser la fonte des neiges ou les rendements potentiels d’une installation de production d’énergie solaire. Figure 6.8 : Visualisation en 3D : ombrage
Source : RGE ALTI®, IGN.
L’analyse à partir de la géométrie de surface permet aussi de produire des calculs de volume à partir de deux jeux de données raster. Ainsi, l’érosion du sol ou la sédimentation qui se produisent sur une période donnée peuvent être quantifiées pour chaque cellule à partir de deux MNT de très haute résolution à deux dates différentes. La combinaison de jeux de données raster (voir chapitre 4, p. 171) implique qu’ils soient standardisés, c’est-à-dire que chaque cellule de chaque jeu de données raster fasse référence au même emplacement géographique selon la même résolution spatiale (voir chapitre 1, p. 25).
2.2 Les analyses de visibilité Les analyses de visibilité sont utilisées pour identifier ce qui est visible depuis un lieu et, inversement, d’où un lieu est visible. Les lieux sont majoritairement des objets géographiques ponctuels (exemple : point de vigie pour le feu, position d’un individu), mais ces calculs sont aussi possibles pour des objets géographiques linéaires (exemple : une route, une ligne à haute tension). Les analyses de visibilité utilisent les informations d’altitudes pour déterminer pour chaque cellule d’un jeu de données raster si elle est visible d’un point d’observation en prenant en compte les zones cachées 250
Les systèmes d’information géographique
par le relief (figure 6.9). Dans ce cas, le résultat obtenu est un jeu de données raster où les cellules ont pour valeur 0 (non visible) ou 1 (visible). Figure 6.9 : Principe d’une analyse de visibilité
140
Observateur
130
Lignes de
visibilité
120 110
Profil topo
100 90 80
0
200 Visible
400
600
Distance (en mètres) 800
1 000
Non Visible
Les cellules visibles sont faisceau de lignes de mire à 360° de l’observateur. Une de ces lignes de mire est tracée sur la Ligne de mire (profil topographique ci-dessus) Jeu de données raster en entrée : MNT Jeu de données vecteur Jeu de données raster non visibles Visible pour l’observateur 137 74 500 m Source : BD ALTI®, IGN.
ASCHAN, CUNTY, DAVOINE, 2023
70
Non Visible
Fig. 09, chapitre 6 – Principe d’une analyse de visibilité – (110 x 138 mm) – #1
Aperçu de l’analyse spatiale avec les SIG
251
Certaines analyses ne déterminent pas la visibilité d’un seul site, mais de plusieurs. Dans ce cas, chaque cellule du jeu de raster en sortie aura pour attribut le nombre de points visibles. Lors de l’analyse de visibilité d’une ligne (par exemple une ligne à haute tension), les cellules portent généralement l’information sur la proportion (exprimée en pourcentage) de la ligne visible. L’analyse de visibilité a de nombreuses applications, et est particulièrement utile comme une aide à la décision dans le cadre de projets d’aménagement. Le calcul de la visibilité sert ainsi à déterminer dans quelle mesure un projet (une zone industrielle, un champ d’éoliennes, une ligne à haute tension…) modifie le paysage visible depuis un lieu. Il est aussi utilisé pour choisir la localisation d’antenne-relais, en vue d’obtenir une couverture maximale en prenant en compte l’impact du relief sur la portée de l’antenne.
2.3 Les analyses hydrologiques Les modèles et calculs produits en hydrologie constituent une troisième catégorie d’analyse. La plupart des logiciels SIG proposent différentes approches, comme la modélisation des écoulements de l’eau de surface à partir d’un MNT. Ce type de modélisation permet de générer un jeu de données raster dont chaque cellule est décrite par une valeur traduisant la direction et la pente de l’écoulement de surface. Ces directions et pentes sont utilisées pour calculer les lignes de drainage appelées aussi lignes d’écoulement. Les lignes de drainage permettent de modéliser le réseau hydrographique de manière topologique (voir chapitre 1, p. 39), ainsi que les limites des bassins-versants et les sous-bassins versants (figure 6.10), ou encore les lignes de crêtes et les exutoires présents sur un territoire. Pour approfondir les connaissances des analyses de surface, différentes ressources peuvent être consultées [Joost, Soutter, Kouamé et Sall, 2017, p. 38‑43 ; Smith, Goodchild et Longley, 2018, p. 351‑377 ; Bolstad, 2016, p. 413‑436].
252
Les systèmes d’information géographique
Figure 6.10 : Direction de l’écoulement, réseau hydrographique et limites de bassins-versants modélisés à partir d’un MNT Directions de l’écoulement modélisées à partir du MNT* Direction des écoulements Est Sud-Est Sud Sud-Ouest Ouest Nord-Ouest Nord Nord-Est
5 km
Sous-bassins versants et réseau hydrographique modélisés à partir du MNT* Réseau hydrographique supérieur
* Pour produire ces modélisations, plusieurs étapes qui ne sont pas abordées dans cet ouvrage sont nécessaires.
ASCHAN, CUNTY, DAVOINE, 2023
Sous-bassins versants
Source : BD ALTI®, IGN. Fig. 10, chapitre 6 – Directions de l’écoulement, réseau hydrographique et limites de bassins versants modélisés à partir d’un MNT – (110 x 92 mm) – #1
3. Analyse spatiale multicritère Les SIG peuvent être utilisés comme des outils d’aide à la décision lors de la résolution de problèmes intégrant plusieurs critères spatiaux. Dans le chapitre 5, nous avons vu comment une succession de traitements spatiaux permet de définir des zones propices à recevoir un équipement ou un aménagement (un éco-camping dans l’exemple du chapitre 5, p. 225), en fonction de différents critères (proximité par rapport aux commerces, pente, accès…). Cependant, il est souvent intéressant de considérer de façon différenciée les critères qui entrent dans le processus d’analyse en fonction de leur importance relative, et de disposer de moyen d’évaluation permettant une comparaison des différentes alternatives dans l’objectif de retenir la solution considérée comme étant la meilleure. Aperçu de l’analyse spatiale avec les SIG
253
Définition
L’analyse multicritère, ou évaluation multicritère, est une méthode basée sur une modélisation mathématique des approches décisionnelles. Elle permet la comparaison des différentes solutions selon plusieurs critères eux-mêmes évalués et hiérarchisés en fonction de leur importance relative dans le processus de décision ou d’analyse. Par exemple, l’analyse multicritère va permettre d’établir des priorités de choix entre la réalisation d’un équipement sportif, d’une bibliothèque ou d’une salle de musique, en tenant compte de critères liés au budget, aux besoins des usagers, à la disponibilité des terrains, aux coûts de fonctionnement, à l’accessibilité, à l’attractivité…
Résoudre un problème multicritère consiste à trouver la « solution la plus adéquate », compte tenu d’un ensemble de critères hiérarchisés. Selon les acteurs concernés par la décision à prendre, la solution adéquate n’est pas toujours la même, mais l’analyse multicritère a l’avantage de permettre de centrer les discussions sur la définition des critères en amont de la décision. L’analyse spatiale multicritère se réfère à une analyse mise en œuvre dans un contexte spatial : les alternatives d’action ou d’aménagement sont déterminées par une localisation et les critères intervenant dans l’analyse possèdent aussi des dimensions spatiales explicites (critères topologiques ou de distance) ou différencient les lieux entre eux (par exemple, des valeurs de pentes variables). Les méthodes d’analyse multicritère sont bien antérieures au développement des SIG. Elles ont toutefois été rapidement associées à l’usage des SIG pour faciliter la prise de décision multicritère spatiale. Cette approche peut être utilisée pour optimiser la localisation d’un équipement ou identifier et hiérarchiser des zones potentielles propices à la valorisation et à la gestion de ressources territoriales. Elle permet la réalisation de cartes d’aptitudes ou de potentialités (figure 6.11). On peut par exemple réaliser la carte des parcelles propices à un type de culture agricole, les zones potentielles de risque (exemple : glissement de terrain ou avalanche) ou les secteurs favorables à la propagation d’un phénomène (exemple : feu de forêt, voir Focus p. 257).
254
Les systèmes d’information géographique
3.1 Démarche d’analyse spatiale multicritère dans un SIG Réaliser une analyse spatiale multicritère au moyen d’un SIG consiste à 1) identifier les critères qui interviennent dans la résolution du problème spatial ; 2) identifier les données qui permettent de produire les critères ; 3) traduire en jeux de données les critères sélectionnés ; 4) standardiser les jeux de données ; 5) affecter un poids à chacun des critères en fonction de leur importance relative ; 6) combiner les jeux de données entre eux en tenant compte des poids affectés à chacun des critères (figure 6.11). L’analyse multicritère basée sur l’utilisation des SIG peut mobiliser aussi bien des jeux de données vecteur que raster ; chaque jeu de données caractérise un critère. Cependant, elle est plus efficace et pertinente sur des jeux de données raster car les cellules sont combinées entre elles. Cependant, comme évoqué dans le chapitre 5 (voir p. 220), la combinaison de jeux de données raster implique, 1) que chaque cellule de chaque jeu de données raster fasse référence au même emplacement géographique selon la même résolution spatiale (même taille de cellule, ce qui nécessite au préalable que les jeux de données aient été standardisés pour pouvoir être combinés) ; 2) l’utilisation de l’algèbre de cartes (voir chapitre 4, p. 171). L’algèbre de cartes proposée dans les SIG intègre la méthode de combinaison linéaire pondérée (Weighted Linear Combination – WLC), qui est une méthode d’analyse multicritère classique. Cette méthode basée sur le processus dit d’agrégation complète consiste à rassembler tous les critères en un critère unique et à identifier la solution présentant le score le plus important. Appliquée à des jeux de données raster, la méthode WLC consiste à appliquer à chaque couche représentant un critère, un coefficient de pondération et à multiplier la valeur des cellules de chacune des couches par son coefficient respectif, puis à agréger (additionner) ces résultats pour produire une valeur unique. Les cellules du jeu de données résultant ayant les valeurs les plus importantes correspondent alors à la meilleure solution de localisation ou aux zones propices. Il est alors possible de relancer l’analyse en modifiant la pondération des critères et obtenir ainsi plusieurs scénarii.
Aperçu de l’analyse spatiale avec les SIG
255
Figure 6.11 : Principe méthodologique d’une analyse spatiale multicritère Réalisation de carte d’aptitude : application au risque d’éclosion du feu Identifier des critères
Type de Végétation
Distance à une route
Réserve d’eau dans le sol
Exposition au vent dominant*
Type de Végétation (Raster)
Distance au réseau routier (Vecteur)
Réserve d’eau dans le sol (Raster)
Altitude (Raster)
Réserve d’eau dans le sol : faible (1), moyen (2), élevée (3)
Orientation des versants : sous le vent dominant (1) ; au vent dominant (2)
0,2
0,2
Choisir les jeux de données (raster ou vecteur) en entrée
Transformer des jeux de données en fonction des critères sélectionnés Degré Distance à d’inflammabilité/ une route : combustibilité < 50 m (1) ; en fonction du > 50 m (0) type de végétation (5 catégories 1 ; 2 ; 3 ; 4 ; 5)
Hiérarchiser les critères : affecter un poids à chacun des critères en fonction de leur importance relative
0,4
0,2
Combiner les jeux de données entre eux par la superposition des cellules en tenant compte des poids affectés à chacun des critères
Raster en sortie avec un indice global de risque d’éclosion du feu par cellule * définie par l’orientation des versants
Risque d’éclosion Très fort Fort Moyen Faible
ASCHAN, CUNTY, DAVOINE, 2023
Standardiser les jeux de données raster (même résolution et superposition des cellules)
Fig. 11, chapitre 6 – Principe méthodologique d’une analyse spatiale multicritère – (110 x 165 mm) – #1
256
Les systèmes d’information géographique
Le saviez-vous ?
La méthode WLC, intégrée dans l’algèbre de cartes des SIG, est une méthode très ancienne qui présente l’intérêt d’être simple à utiliser. Cependant, si le nombre de critères est important, il peut être difficile d’estimer le poids relatif de chacun d’entre eux. Dans ce cas, on peut être amené à utiliser l’approche de Saaty (1997), qui consiste à comparer tous les critères entre eux par paires et de déduire leur poids total à l’issue de calcul statistique. Il existe une multitude de méthodes d’analyse multicritère plus ou moins complexes, mais qui généralement doivent être utilisées en amont des SIG. OCUS : Exemple d’une analyse spatiale multicritère pour la réalisation • Fd’une carte de potentialités
Une analyse multicritère pourra être mise en œuvre pour estimer le risque d’éclosion du feu sur un territoire. Ce risque pourra être évalué à partir de plusieurs jeux de données raster. Par exemple, un jeu de données décrivant l’inflammabilité de la végétation (selon son inflammabilité/combustibilité), la distance à une route, la réserve d’eau dans le sol (pour évaluer l’état hydrique de la végétation pendant l’été) et un indice d’exposition au vent dominant (définie par l’exposition des versants). Dans chaque jeu de données raster, les cellules correspondent à des indices. Pour caractériser les cellules du jeu de données raster végétation en fonction du niveau d’inflammabilité et de combustibilité, une note est attribuée aux différentes formations végétales, en fonction de la végétation dominante représentée par la cellule du raster (bois et feuillus = 1 ; taillis = 2 ; vignes, oliviers = 3 ; reboisements conifères et maquis fermé > 2 m = 4 ; prairies, steppes, garrigues, maquis ouvert