316 95 15MB
German Pages VIII, 176 [180] Year 2020
Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute
Bettina Klumpe · Jette Schröder Markus Zwick Hrsg.
Qualität bei zusammengeführten Daten Befragungsdaten, administrative Daten, neue digitale Daten: miteinander besser?
Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute Reihe herausgegeben von Frank Faulbaum, Duisburg, Deutschland Stefanie Kley, Hamburg, Deutschland Birgit Pfau-Effinger, Hamburg, Deutschland Jürgen Schupp, Berlin, Deutschland Jette Schröder, Mannheim, Deutschland Christof Wolf, Mannheim, Deutschland
Herausgegeben von Frank Faulbaum Universität Duisburg-Essen Stefanie Kley Universität Hamburg Birgit Pfau-Effinger Universität Hamburg
Jette Schröder GESIS – Leibniz-Institut für Sozialwissenschaften Christof Wolf GESIS – Leibniz-Institut für Sozialwissenschaften
Jürgen Schupp DIW Berlin
Weitere Bände in der Reihe http://www.springer.com/series/11434
Bettina Klumpe · Jette Schröder Markus Zwick (Hrsg.)
Qualität bei zusammengeführten Daten Befragungsdaten, administrative Daten, neue digitale Daten: miteinander besser?
Hrsg. Bettina Klumpe ADM Arbeitskreis Deutscher Marktund Sozialforschungsinstitute e.V. Berlin, Deutschland
Jette Schröder GESIS – Leibniz-Institut für Sozialwissenschaften Mannheim, Deutschland
Markus Zwick Statistisches Bundesamt Wiesbaden, Deutschland
ISSN 2625-9435 (electronic) ISSN 2625-9427 Schriftenreihe der ASI - Arbeitsgemeinschaft Sozialwissenschaftlicher Institute ISBN 978-3-658-31008-0 ISBN 978-3-658-31009-7 (eBook) https://doi.org/10.1007/978-3-658-31009-7 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informa tionen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Springer VS ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Inhaltsverzeichnis Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
Frank Faulbaum Einführende Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
Ralf Münnich Qualität der regionalen Armutsmessung – vom Design zum Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Sandra Hadam, Timo Schmid & Joanna Simm Kleinräumige Prädiktion von Bevölkerungszahlen basierend auf Mobilfunkdaten aus Deutschland . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 Barbara Wawrzyniak Mehr Transparenz und Qualität mit innovativen Small Area Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Hartmut Scheffler Datenzusammenführung und integrierte Analysen in Sozialforschung und Marktforschung: Erkenntnis- und Qualitätsgewinn . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Torsten Tümmler Qualität bei zusammengeführten Daten. Versuch einer systematischen Annäherung . . . . . . . . . . . . . . . . . . . 85 Sebastian Götte & Bettina Klumpe Die ADM Transparenz-Initiative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Jan Goebel Verbindung von Surveydaten und Geodaten. Möglichkeiten, Mehrwert und Probleme am Beispiel des SOEP . . . . 107
2 Inhaltsverzeichnis
Hanna Brenzel, Clara Schartner, Kathrin Gebers, Hannes Taubenböck & Michael Wurm Geokoordinaten als Verknüpfungsmerkmal. Ein Werkstattbericht zur Zusammenführung von Daten der amtlichen Statistik mit Fernerkundungsdaten . . . . . . . . . . . . . . . . . 123 Hendrik Wagenseil Vergleichbar, passgenau, ganzheitlich. Kunden-Mehrwert durch Datenintegration im Geomarketing . . . . . 135 Rainer Schnell Record Linkage als zentraler Baustein der Forschung mit Registern und Big Data-Nutzungen . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Joseph W. Sakshaug Linking Surveys with Big Data. Issues of Consent . . . . . . . . . . . . . . . 167 Adressen der Referentinnen und Referenten . . . . . . . . . . . . . . . . . . 179
Vorwort Die vorliegende Publikation dokumentiert die Beiträge der wissenschaftlichen Fachtagung „Qualität bei zusammengeführten Daten – Befragungsdaten, administrative Daten, neue digitale Daten: Miteinander besser?“, die am 27. und 28. Juni 2019 im Statistischen Bundesamt, Wiesbaden stattgefunden hat. Die Tagung ist die dreizehnte Veranstaltung einer Reihe wissenschaftlicher Fachtagungen, die das Statistische Bundesamt in Zusammenarbeit mit dem ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. und der Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. (ASI) seit dem Jahr 1995 in zweijährigen Abständen durchführt. Die etablierte Veranstaltungsreihe gemeinsamer wissenschaftlicher Fachtagungen ist Themenbereichen gewidmet, die für Marktforscher/ innen, Sozialwissenschaftler/innen und die amtliche Statistik gleichermaßen von Interesse sind. Sie fördert damit den intensiven, persönlichen Informations- und Erfahrungsaustausch zwischen den beteiligten Gruppen und trägt auf diese Weise zum wechselseitigen Verständnis der jeweiligen Forschungsinteressen und -herausforderungen bei. Die inhaltliche Klammer der einzelnen Fachtagungen ist der Aspekt der Förderung und Sicherung der wissenschaftlichen Qualität der empirischen Forschung in akademischen und privatwirtschaftlichen Forschungseinrichtungen sowie bei der Datengewinnung in der amtlichen Statistik. In all diesen Institutionen werden zunehmend Daten aus verschiedenen Quellen zusammengeführt und gemeinsam analysiert – sei es um die Datenerhebung zu vereinfachen oder Analysen effizienter zu gestalten, sei es um neue Fragestellungen zu bearbeiten. Ziel der Tagung im Jahr 2019 war es daher, einen Einblick in aktuelle Anwendungsfälle der Zusammenführung von Daten zu geben sowie die mit der Zusammenführung verbundenen Chancen und Herausforderungen zu beleuchten. Der Dank der Herausgeber gilt Frau Sibylle von Oppeln-Bronikowski und Herrn Prof. Dr. Frank Faulbaum für die Moderation der Veranstaltung, allen Referentinnen und Referenten für ihre Beiträge sowie Frau Bettina Zacharias und Herrn Marco Schwickerath für ihre engagierte Hilfe bei der Erstellung des Bandes. Nicht vergessen werden sollen darüber hinaus alle diejenigen, die durch ihre organisatorische und technische Unterstützung im Hintergrund die Durchführung der Tagung möglich gemacht und zu ihrem Gelingen beigetragen haben. Wir hof-
4 Vorwort
fen, dass auch dieser Band wie seine Vorgänger auf ein positives Echo stoßen wird und wünschen eine anregende Lektüre. Berlin, Mannheim und Wiesbaden im November 2019 Bettina Klumpe
Jette Schröder
Markus Zwick
Einführende Bemerkungen Frank Faulbaum Vorstandsvorsitzender der ASI
1
Ziele der Datenzusammenführung
Die folgenden Ausführungen sollen die Ziele und wichtige Funktionen der Zusammenführung von Daten verdeutlichen. Der Begriff der Datenzusammenführung impliziert die Annahme, dass mehrere, möglicherweise aus unterschiedlichen Datenquellen stammende Datenmengen vorliegen, die Ergänzungen voneinander darstellen (vgl. Abbildung 1). In der Regel dürfte zunächst ein Datensatz vorliegen, der aus verschiedenen Gründen durch weitere Daten ergänzt wird.
Abbildung 1 Ausgangsdatensatz und Ergänzungsdatensatz
Als Missing-Data-Problem betrachtet könnten die neu hinzu gekommenen Daten, wären sie noch nicht erhoben worden, in Bezug auf die Ausgangsdaten als fehlend aufgefasst werden. Die Zusammenführung wäre dann eine Ersetzung fehlender Daten (vgl. Goldstein und Harron 2015; Little und Rubin 2002). Die Verwendung des Begriffs „Datensatz“ sollte nicht darüber hinwegtäuschen, dass dieser nicht immer das Format von © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_1
6
Faulbaum | Einführende Bemerkungen
Datensätzen in Statistik-Paketen haben muss. Grundsätzlich können die Daten nicht nur aus unterschiedlichen Quellen stammen, sondern auch ganz unterschiedlich organisiert sein. Eine statistische Analyse der zusammengeführten Daten erfordert dann möglicherweise einen mehr oder weniger großen Aufwand der Datenaufbereitung. Die Zusammenführung von Daten, ob deterministisch oder probabilistisch, eröffnet einerseits die Möglichkeit von Analysen zusätzlicher Zusammenhänge und damit auch die Möglichkeit, neue statistische Modelle zu überprüfen. Andererseits können hinzugefügte Daten in ihrer Funktion als Hilfsvariablen zur Verbesserung der Schätzer von Populationsparametern beitragen, etwa als Hilfsvariablen für eine nachträgliche Schichtung. Die Zusammenfügung von Daten aus unterschiedlichen Quellen und die Probleme ihrer methodischen und technischen Umsetzung unter Berücksichtigung der Privatheit, der DeAnonymisierungsgefahr und des Datenschutzes sind bereits seit einigen Jahren Thema der Umfrageforschung (vgl. die Beiträge in Harron, Goldstein und Dibben 2015). Ein wichtiges Anwendungsbeispiel ist die Verknüpfung von Umfragedaten mit administrativen Daten (vgl. z.B. Sakshaug et al. 2012; Schnell 2013). Da administrative Daten eine weitgehende Abdeckung der Population darstellen, ergibt sich in diesem Fall die Möglichkeit, die Beiträge abzuschätzen, die Coverage-Fehler und Nonresponse-Fehler zum totalen Umfragefehler (zum Begriff des totalen Umfragefehlers vgl. Faulbaum 2018) beitragen. Neue Impulse für die Zusammenführung von Daten ergeben sich aus den Daten neuer Datenquellen, welche durch technologische Innovationen bereitgestellt werden können. Die technologischen Entwicklungen können dabei nie als abgeschlossen betrachtet werden. Beispiele für Daten neuer Quellen sind Sensordaten, die mit Hilfe von Einrichtungen in Smartphones erhoben werden können, Daten, die satellitengestützt erhoben werden wie GPS-Daten, Google-Earth-Daten, oder Daten, die durch Auswertungen von Reaktionen im Web erhoben werden (Auswertungen des Such- und Reaktionsverhaltens sowie von individuellen Handlungen wie z.B. Transaktionen im mobilen Web). Die Nutzung des Internets der Dinge befindet sich noch in der Startphase. Die Erhebungsverfahren zahlreicher Arten neuer digitaler Daten sind sehr oft nicht-reaktiv. Einige Begriffe der traditionellen Klassifikation nicht-reaktiver Verfahren in Psychologie und Sozialwissenschaft lassen sich ohne Probleme mit leichten Änderungen in der Interpretation auf die neuen digitalen Daten übertragen. Physische Spuren entsprechen den Spuren, die unserer Handlungen im Netz hinterlassen, zur nicht-reaktiven Beobachtung könnte man die GPS-Ortung und die
Qualität bei zusammengeführten Daten
7
unterschiedlichen Arten von Geodaten ebenso zählen wie die Erhebung von Sensordaten. Der Einsatz von Bots und die Beobachtung ihrer Wirkungen könnten als Feldexperimente organisiert werden und die Analyse laufender Berichte findet sich der Analyse von Webstatistiken wieder. Schließlich findet auch die Inhaltsanalyse ihre Anwendungen im Web, etwa bei der Analyse von Websites, Blogs oder von Kommunikationsformen wie Chats, WhatsApp-Mitteilungen etc. Auch die Analyse von Bildinformationen in Instagram wäre ebenfalls ein Beispiel. Zusammenfassend kann die Zusammenführung von Daten folgende Funktionen erfüllen (vgl. Abbildung 1): Verbesserung der Schätzqualität der Zielvariablen (Verbesserung der Anpassungsgewichtung): Diese Verwendung setzt voraus, dass sich die Variablen des Ergänzungsdatensatzes als Hilfsvariablen oder im erweiterten Sinne als Hilfsinformationen zur Optimierung der Schätzung der Zielvariablen des Ausgangsdatensatzes einsetzen lassen. Dies ist nur sinnvoll, wenn ein plausibler und vielleicht sogar statistisch evaluierbarer Zusammenhang zwischen den Hilfsvariablen des Ergänzungsdatensatzes und den Zielvariablen des Ausgangsdatensatzes angenommen werden kann. Wenn es keine plausible theoretische Verbindung gibt, ist die Funktion der Variablen als Hilfsvariablen eher fraglich. Allerdings könnte eine explorative Analyse Korrelationen identifizieren, die dann einer theoretischen Begründung unterzogen werden können. Theoriegesteuerte Ergänzung des Ausgangsdatensatzes: In diesem Fall steht die Erweiterung der Analysefragestellung im Mittelpunkt, etwa durch Bereitstellung zusätzlicher Prädiktoren wie etwa Kontextinformationen (Geoinformationen, Raster und/oder Funkzellinformationen, Informationen über den betrieblichen Kontext etc.) oder zu Einbeziehung Kontrollvariablen. Hier hinein fällt aber auch die Suche nach zusätzlichen Indikatoren für ein theoretisches Konstrukt. Ergänzung des Ausgangsdatensatzes zur Absicherung der Reliabilität und Validität von Messungen: Da die Reliabilität gleich der Korrelation zwischen parallelen Messungen ist (vgl. Lord und Novick 1968), könnten parallele Messungen im Ergänzungsdatensatz zu einer Abschätzung der Reliabilität dienen. Ein Beispiel wäre die satellitengesteuerte Abbildung der Bebauung einer Rasterzelle als Indikator der sozialen Schicht im Vergleich zu in
8
Faulbaum | Einführende Bemerkungen
einer Umfrage erhobenen Schichtindikatoren. Allerdings erfordert die Nutzung von Satellitenbildern ein Rating der Bildinformation, die wiederum fehleranfällig ist und durch eine Interrater-Korrelation abgeschätzt werden sollte. Da die Quadratwurzel aus der Reliabilität gleich der theoretischen Validität ist, hätte man hiermit auch eine Schätzung der Validität.
Abbildung 2 Funktionen neuer digitaler Daten
2
Ergänzende Daten als Indikatoren
Die „neuen digitalen Daten“, die z.T. in unübersehbarer Fülle als „big data“ anfallen, sind zunächst nur Daten und nichts sonst. Ihr Sinn ergibt sich erst entweder aus ihrer Funktion als Hilfsvariablen oder aus ihrer Integration in einen theoretischen Zusammenhang, in dem sie als Messungen von Inhalten angesehen werden können. Dies bedeutet wiederum, dass sie als Indikatoren für theoretische Variablen fungieren, deren Messeigenschaften wie Reliabilität und Validität hinterfragt werden sollten. Abbildung 3 zeigt beispielhaft ein Messmodell für eine theoretische Variable, im Beispiel die Variable „Lebensqualität“, die u.a. über einen Indikator „Lebenszufriedenheit“ gemessen wird. Aller-
Qualität bei zusammengeführten Daten
9
dings ist der Indikator zunächst eine latente Antwortvariable, die als Ergebnis einer Messoperation noch in eine beobachtete empirische Variable überführt werden muss (vgl. Muthén 1984).
Abbildung 3 Messmodell mit „neuen digitalen Daten“
Als Messungen der latenten Antwortvariablen kommen nunmehr neue, auf neuen digitalen Daten beruhende empirische Variablen dazu, wie „Likes“, Ergebnisse von mathematischen Analysen des Gesichtsausdrucks oder auch Geodaten, welche die Attraktivität von Wohngebieten zum Ausdruck bringen. Die funktionalen Zusammenhänge im Modell sollten sowohl in der theoretischen Analyse als auch in den Messverfahren transparent sein. So sollten die Algorithmen zur Gesichtserkennung so transparent wie möglich sein. Abbildung 3 zeigt die Grundstruktur eines Zusammenhangs zwischen theoretischen und empirischen Variablen, die auch bei Daten neuer Datenquellen nicht aus dem Auge verloren werden sollte. Dabei kann sich ein solches Modell auf ganz unterschiedliche, z.T. auf verschiedenen Niveaus aggregierte Daten beziehen. Hat man Messmodelle für die integrative Nutzung von neuen digitalen Daten formuliert, so lassen sich diese in komplexere theoretische Strukturen integrieren, die bei geeigneter methodischer Umsetzung statistisch überpüfbar sind.
10
3
Faulbaum | Einführende Bemerkungen
Schlussbemerkung
„Neue digitale Daten“ haben u.a. die Funktion von Messungen, die den bekannten Qualitätskriterien genügen sollten, welche die Qualität einer Messung belegen können, auch wenn die dazu notwendigen statistischen Analysen nicht leicht vorzunehmen sind. Es scheint aber notwendig, auch für diese Daten praktikable methodische Vorschläge und Ideen dafür zu entwickeln, wie Kriterien der Reliabilität und Validität überprüft werden können. Die oft vorgetragene Behauptung der Objektivität der Daten reicht als Kriterium nicht aus.
Literatur Faulbaum, F. (2019). Total survey error. In J. Blasius & N. Baur (Hrsg.), Handbuch Methoden der empirischen Sozialforschung (2. Auflage) (S. 505-519). Wiesbaden: Springer VS. Goldstein, H. & Harron, K. (2015). Record linkage: A missing data problem. In K. Harron, H. Goldstein, & C. Dibben (Eds.). Methodological developments in data linkage (S.109-124). Chichester, UK: John Wiley. Harron, K., Goldstein, H., & Dibben, C. (Eds.) (2015). Methodological developments in data linkage. Chichester, UK: John Wiley. Little, R.A. & Rubin, D.B. (2002). Statistical analysis of missing data (2nd edition). Hoboken, NJ: John Wiley. Lord, F.M. & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley. Muthén, B.O. (1984). A general structural equation model with dichotomous, ordered categorical, and continuous latent variable indicators. Psychometrika, 49, 115-132. Sakshaug, J.W. et al. (2012). Linking survey and administrative records. Sociological Methods & Research, 41, 535-569. Schnell, R. (2013). Linking surveys and administrative data. German RCL Working Paper No. wp-grcl-2013-03. Schnell, R. (2015). Privacy preserving record linkage. In K. Harron, H. Goldstein, & C. Dibben (Eds.). Methodological developments in data linkage (S. 201-225). Chichester, UK: John Wiley.
Qualität der regionalen Armutsmessung – vom Design zum Modell Ralf Münnich Universität Trier
1
Zur Bedeutung der Qualität in Erhebungen
Mit dem European Statistics Code of Practice (European Statistical System, 2017) hat das Europäische Statistische System einen Verhaltenskodex verabschiedet, der Standards für Statistiken definiert. Gerade im Zeitalter von Fake News und schnellen Statistiken sind einheitliche und nachvollziehbare Standards in den Statistiken unverzichtbar. Selbstverständlich müssen diese Standards geeignet und vor allem nachvollziehbar umgesetzt werden. Der Artikel befasst sich mit Methoden der Qualitätsmessung am Beispiel der Armutsmessung in Deutschland. Dabei spielen verschiedene aktuelle Diskussionen eine zentrale Rolle. Zum einen wird immer noch der Begriff der Repräsentativität in ungeeigneter und unreflektierter Form verwendet. Zum anderen werden immer mehr regionalisierte Statistiken von Staat und Gesellschaft verlangt. Dieser Bedarf liefert automatisch die Notwendigkeit, hochkomplizierte Methoden zu verwenden, und widerspricht oft auch der realen Umsetzbarkeit, welche durch Geheimhaltungsregeln konterkariert wird. Schließlich eröffnen neue digitale Daten und Webportale ungeahnte Möglichkeiten – zumeist unter Auslassung jedweder Angabe zur Qualität der so gewonnenen Statistiken.
1.1
Repräsentativität und Qualitätsmessung
Der Begriff der Repräsentativität ist seit jeher umstritten (eine aktuelle Übersicht kann Gabler und Häder, 2019, entnommen werden). Krug, Nourney und Schmidt (2001, Seite 18) definieren den Begriff wie folgt: © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_2
12
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
Eine Stichprobe gilt als repräsentativ, wenn sie statistisch gesicherte Rückschlüsse auf die Gesamtheit ermöglicht. Hiermit werden bereits einige Voraussetzungen an den Begriff implizit verwendet. Zunächst geht man von einer Zufallsstichprobe aus (siehe auch Kauermann und Küchenhoff, 2011, Seite 10). Weiterhin impliziert ist, dass alle Strukturen der Grundgesamtheit in der Stichprobe enthalten sind. Vielfach wird in diesem Zusammenhang von einem kleinen Abbild der Grundgesamtheit gesprochen. Dies lässt sich jedoch ausschließlich im Sinne eines Zufallsmechanismus präzise definieren. Nähert man sich dem Begriff der Repräsentativität mit Suchmaschinen, so findet man schnell, dass die Proportionen in der Grundgesamtheit sich in der Stichprobe wiederfinden müssen. Hier spiegelt sich die Idee wider, dass eine Stichprobe proportional in Bezug auf wichtige interessierende Merkmale ist. Zum einen stellt sich die Frage, welche Merkmale tatsächlich in diesem Zusammenhang als wichtig eingestuft werden sollten, zum anderen werden in Anwendungen in den seltensten Fällen proportionale Stichproben verwendet. Gerade bei Telefon stichproben sind a priori vergleichsweise wenig Details über die Gesamtheit bekannt, so dass diese Formulierung nicht zielführend wäre. Über diese einfachen Formulierungen hinaus, wird in der Wahrnehmung eine repräsentative Stichprobe oft automatisch als qualitativ hochwertig eingestuft, auch wenn keinerlei Informationen über die Genauigkeit im Sinne von Stichprobenfehlern oder die Präsenz und Auswirkungen von Nichtstichprobenfehlern, insbesondere in Folge von Nonresponse oder Rahmenfehlern, verfügbar sind. Schnell (2019, Seite 163) weist darauf hin, dass bei repräsentativen Stichproben drei technische Fragen positiv beantwortet werden müssen. Neben dem Vorhandensein einer vollständigen Liste der Erhebungseinheiten1 müssen die Inklusionswahrscheinlichkeiten für alle Elemente positiv und berechenbar sein. Auf Basis dieser Formulierung lassen sich statistische Eigenschaften von Schätzverfahren, insbesondere Unverzerrtheit und Effizienz, konkretisieren. Darüber hinaus, und das ist gerade bei Personen- und Haushaltsbefragungen von besonderer Bedeutung, spielt der Mechanismus des Antwortausfalls sowie dessen Ausmaß eine ganz erhebliche Rolle. Gerade in Zeiten, in denen die Response-Quoten immer geringer werden, wird die Frage bedeutsa-
1
An dieser Stelle sei angemerkt, dass Methoden des Indirect Sampling keine vollständige Liste von Erhebungseinheiten benötigen (Lavalée, 2009).
Qualität bei zusammengeführten Daten
13
mer, ob und inwieweit Verfahren der Korrektur von Antwortausfällen noch zu sinnvollen Ergebnissen führen. Gabler und Quatember (2013) geben einen Überblick über die Entwicklung und die aktuelle Diskussion zum Begriff der Repräsentativität. Hierbei weisen sie sowohl auf Stichproben- wie auch Nichtstichprobenfehler hin, welche bei der Umsetzung einer repräsentativen Stichprobe beachtet werden müssen. Ganz zentral in ihrer Darstellung ist die Formulierung eines Mindeststichprobenumfangs, um bestimmte Qualitätsbedingungen für die zu Grunde liegende Schätzstatistik zu erfüllen. Sie gehen hierbei zunächst von (approximativer bzw. asymptotischer) Unverzerrtheit der interessierenden Schätzstatistik aus. Anschließend werden derartige Betrachtungen stets auf Varianzschätzungen bzw. Funktionen dieser, wie etwa auf den relativen Standardfehler oder die Konfidenzintervalllänge der Schätzstatistik, zurückgeführt. Darüber hinaus gehen sie auf die Bedeutung des Stichprobendesigns für die Varianzschätzung ein, bzw. wie diese mit Hilfe des Design-Effekts formuliert wird. Da heutzutage selten nur Schätzwerte für Gesamtheiten benötigt werden, sondern vielmehr auch für zahlreiche Subgruppen, erweitern sie die Betrachtungen auf die Repräsentativität bei Subgruppen. Eine eingehende Darstellung dieser Methoden findet sich etwa in der einschlägigen Stichprobenliteratur (siehe z.B. Särndal, Swensson und Wretman, 1992, oder Lohr, 2010) oder in spezialisierten Werken wie Wolter (2007) oder Shao und Tu (1995). Ebenso muss der Abschlussbericht der Task Force Variance Estimation (siehe European Commission, 2002) bzw. das DACSEIS-Projekt (http://www.dacseis.de) genannt werden. Möchte man eine Statistik mit vorgegebener Mindestqualität erstellen, werden oft zwei Konzepte bemüht, welche aber prinzipiell äquivalent sind. Einerseits kann der maximale Standardfehler SE( ϑ ) einer Statistik ϑ vorgegeben werden. Dies führt dann bei einer Totalwertschätzung für ϑ unter Verwendung des einfachen Urnenschemas zu
σ Vˆ (ϑ ) = N 2 ⋅ ≤ Vmax . n 2
Hieraus kann dann ein Mindeststichprobenumfang n ermittelt werden. Andererseits kann auch eine Berechnung des minimalen Stichprobenumfangs über eine vorgegebene maximale Konfidenzintervalllänge definiert werden. Hier kommt lediglich ein weiterer zu berücksichtigender Korrekturfaktor hinzu. Die Formeln für komplexe Stichproben-
14
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
designs lassen oft derart einfache Darstellungen nicht zu, so dass mit Hilfe des Design-Effektes der Mindeststichprobenumfang korrigiert werden muss. Noch komplizierter können nichtlineare Statistiken sein. Das Grundprinzip bleibt jedoch erhalten. Allerdings benötigt dieser Ansatz stets A-priori-Informationen über die Verteilung des interessierenden Merkmals, also entweder hochkorrelierte Variablen oder eine zuvor durchgeführte Erhebung. Möglicherweise ist es dann sinnvoll, einen Risikoaufschlagfaktor zu verwenden, welcher die Unsicherheit in den Vorinformationen kompensieren soll. Die Bedeutung einer Vorgabe von Mindestqualitätsanforderungen soll das folgende Beispiel zeigen. Dabei werden der Einfachheit halber auf Kreisebene zwei zufällig ausgewählte 0,1%-Stichproben in einem vereinfachten Stichprobendesign gezogen und die regionalen Armutsgefährdungsquoten berechnet. Damit hat man für die Varianz der Schätzfunktion eine Situation, welche sich auf eine Stichprobengröße zwischen Mikrozensus und der Statistics of Income and Living Conditions (SILC) in Deutschland bezieht. Aus Gründen des Datenschutzes mussten die tatsächlichen Werte der Armutsgefährdungsquoten unterdrückt werden. Die grundsätzlichen Verhältnisse und insbesondere deren Unterschiedlichkeit bleiben jedoch erhalten. Man erkennt, dass die aus den beiden Stichproben ermittelten Armutsgefährdungsquoten im Vergleich zueinander ganz erheblich unterschiedlich sind. Jedwede Veröffentlichung auf Kreisniveau wäre in diesem Falle irreführend. Nicht ohne Grund werden in Deutschland von amtlicher Seite her derartige Statistiken nicht veröffentlicht. Aber auch bei wesentlich geringer ausfallenden Unterschieden wäre es stets sinnvoll, bei eigentlichen Schätzwerten Angaben zu deren Qualität zu ergänzen. Allerdings müssen diese auch für die Anwender bzw. Nutzer der Statistiken nachvollziehbar und verstehbar sein.
Qualität bei zusammengeführten Daten
15
Abbildung 1 Simulation zweier 0,1%-Stichproben zur Schätzung der Armutsgefährdungsquoten auf Ebene der Kreise in Rheinland-Pfalz2
1.2
Vorgaben zur Genauigkeit von Statistiken
Auch wenn der European Statistics Code of Practice (European Statistical System, 2017) klare Formulierungen zur Angabe der Genauigkeit von Statistiken in Bezug auf Stichproben- und Nichtstichprobenfehlern tätigt, bleibt eine Festlegung auf entsprechende Maße und deren Quantifizierung aus. Dies liegt nicht zuletzt an der Unterschiedlichkeit der zu betrachtenden Statistiken. Kann man beispielsweise grundlegend verschiedene Statistiken und Skalierungen bzw. unterschiedliche Ausweiseinheiten wie etwa Länder oder Gemeinden bzw. sogar Subgruppen mit Hilfe eines einzigen Maßes und einer Präzisionsanforderung beurteilen? Sicher nicht! Im Rahmen der Gesetzgebung zum deutschen Zensus 2021 haben Burgard, Münnich und Rupp (2020) eingehend untersucht, wie kompliziert eine exakte Festlegung der Präzisionsanforderungen bereits bei einer interessierenden Größe, nämlich dem Bevölkerungsumfang, ist, wenn diese Anforderungen für alle Gemeinden Deutschlands ermittelt werden müssen (siehe auch die Diskussion hierzu in Bleninger et al, 2020). Die beiden kleinsten Gemeinden in 2
Aus Gründen des Datenschutzes muss hier auf eine Legende verzichtet werden. Dunklere Farben kennzeichnen höhere und helle Farben niedrigere Werte der Armutsgefährdungsquoten.
16
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
Deutschland weisen jeweils nur eine Anschrift auf – im Gegensatz dazu steht Berlin mit über 3 Mio. Einwohnern. In Europa ist es üblich, Genauigkeitsanforderungen für amtliche Statistiken in Verordnungen bzw. Gesetzen zu formulieren. So wurde für den Zensus 2011 ein eigenes Zensus-Gesetz verabschiedet, das für den Zensus 2021 ist im Gesetzgebungsverfahren. Die Qualitätsanforderungen zu Europäischen Haushaltsstichproben, insbesondere Labour Force Survey (LFS) und SILC, werden in der EU-Verordnung EU 2019/1700 (European Parliament and the Council, 2019; siehe auch ESSC 2015/27/7/EN) dargestellt. Welche Denkweise steckt aber hinter der Angabe adäquater Präzisionsvorgaben? Eine eingehende Darstellung findet man im Handbook on Precision Requirements and Variance Estimation for ESS Household Surveys (siehe Eurostat, 2013). Konkret findet man folgende Formulierung: The estimated standard error (…) shall not exceed 2 percentage points of the overall proportions and shall not exceed 5 percentage points for the proportions related to the different subgroups of the population, where these subgroups constitute at least 10% of the total population in the scope of the survey. Mit Hilfe geeigneter (approximativ unverzerrter) Schätzfunktionen für die interessierende Statistik sowie der zugehörigen Varianz lassen sich damit sogenannte minimale effektive Stichprobenumfänge ermitteln (siehe Gabler et al., 2008; Williams, 2008). Effektiv bedeutet in diesem Zusammenhang, dass die Inferenz zur Bestimmung von Mindeststichprobenumfängen noch um das Stichproben-Design korrigiert wird, welches sich in der Regel in Haushaltsstichproben auf Grund des sogenannten Klumpungseffekts Varianz erhöhend auswirkt. Man erkennt in der Darstellung ebenso, dass die eigentliche Formulierung für nationale Schätzwerte gilt. Auch hier sind selbstverständlich erhebliche Größenunterschiede in den zu betrachtenden Gesamtheiten der Länder zu verzeichnen. Für Teilgruppen innerhalb von Ländern werden zumeist NUTS-2-Regionen verwendet.3 Ferner findet neben der Festlegung einer gewünschten Genauigkeit auch noch eine Festlegung eines Mindestanteils der zu betrachtenden Population an der Gesamtpopu3
NUTS (Nomenclature des Unités territoriales statistiques) ist eine Systematik zur Klassifizierung räumlicher Bezugseinheiten in der europäischen Amtsstatistik. Sie umfasst insgesamt vier Hierarchieebenen. NUTS-2-Regionen als dritte Ebene sind dabei so definiert, dass sie in der Regel administrativen Einheiten entsprechen, die etwa 800.000 bis 3 Millionen Einwohner enthalten. Siehe dazu Eurostat (2018).
Qualität bei zusammengeführten Daten
17
lation statt. Diese zusätzliche Formulierung verhindert (weitgehend) eine Diskussion um extrem kleine Teilgruppen, wie sie im Rahmen der Planung des Zensus 2021 stattfindet (siehe Burgard et al., 2020, und Bleninger et al., 2020, sowie die dort angegebene Literatur). Gerade im Bereich der Haushaltsstichproben und insbesondere in den Bereichen Arbeitsmarkt (LFS) und Armutsmessung (SILC) werden Qualitätsvorgaben konkretisiert (siehe European Statistical System Committee, 2015, Seite 28 f.). Dabei wird stets von einer angestrebten Genauigkeit ausgegangen, welche man in einen Mindeststichprobenumfang umformulieren muss, mit dessen Hilfe diese Qualität (im Mittel, ggf. mit einem Risikoaufschlagfaktor) erreicht wird. Dies Berechnung muss auf Grundlage der zu dem Zeitpunkt verfügbaren Informationen ermittelt werden. Ausgehend von Kish (1987) und Verma (1991) ermittelt man den Mindeststichprobenumfang ng , SRS für die interessierenden Teilgruppen so, dass er proportional zur Wurzel des Umfangs der relevanten Population N g ist, d.h.
( )
ng ; SRS = f Ng = α ⋅ Ng + β.
Der Parameter β umfasst den in jedem Falle nicht zu unterschreitenden Mindeststichprobenumfang für jede Teilgruppe. α adjustiert den Stichprobenumfang proportional zur Wurzel des Umfangs der interessierenden Teilgruppe für die jeweilige Statistik und orientiert sich an der Bedeutung der Variablen. Kiesl (siehe Bleninger et al., 2020) weist darauf hin, dass es sich hierbei um eine Konkretisierung des Prinzips der vergleichbaren Präzision handelt (siehe auch Krug, Nourney und Schmidt, 2001, Seite 124). Für LFS und SILC sind Parameter auf NUTS-2-Ebene in European Statistical System Committee (2015), Seite 28 f., konkret dargestellt. Hierbei muss darauf hingewiesen werden, dass diese Darstellung auf dem einfachen Urnenschema basiert (Simple Random Sample; SRS). Mit Hilfe des Design-Effekts kann aber ein geeigneter Aufschlagfaktor bestimmt werden.4 4 Dieses Verfahren wird zum Beispiel beim European Social Survey (ESS) angewendet (siehe Lynn et al. 2007). Siehe auch die Draft Regulations des European Statistical System Committee für entsprechende Umrechnungen mit Hilfe konkreter Parameter für ausgewählte Haushaltsstichproben in der EU (European Statistical System Committee, 2015).
18
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
Standardfehler
0.00000 0.00005 0.00010 0.00015 0.00020 0.00025 0.00030
In Abbildung 2 werden für NUTS-2-Regionen in Europa die verschiedenen veröffentlichten Ergebnisse dargestellt. Auf der Abszisse ist die Populationsgröße der Region dargestellt, auf der Ordinate der Standardfehler. Die farbigen Kurven definieren unterschiedliche Qualitätsvorgaben in Abhängigkeit der Populationsgröße der Region für Anteile der interessierenden Variablen in Höhe von 0,05 bis 0,5. Es wurden gemäß EU-Vorgaben für den LFS die Parameterwerte a=7.800 und b=-4.500 verwendet.
0.05 0.10 0.20 0.50
0e+00
1e+07
2e+07
3e+07
4e+07
5e+07
6e+07
Größe N der EU−Region
Abbildung 2 Standardfehler ausgewählter europäischer NUTS-2-Regionen im LFS
Tatsächlich werden jedoch in der Praxis selten präzise Qualitätsvorgaben gemacht. Eurostat (2013) gibt hierzu einen Überblick. So sind beispielsweise vom Italienischen Statistischen Amt ISTAT für designbasierte Verfahren Variationskoeffizienten bis zu 15% für Gebiete und bis zu 18% für Subgruppen formuliert, ansonsten sollen Small-Area-Verfahren (siehe Münnich, Burgard und Vogt, 2013) angewendet werden. Das Kanadische Statistische Amt veröffentlicht Schätzwerte auf Basis des LFS mit einem Variationskoeffizienten bis 16,5% vorbehaltlos und darüber bis 33,3% nur unter Vorbehalt. Liegt der Variationskoeffizient noch höher, soll der Wert gar nicht veröffentlicht werden.
Qualität bei zusammengeführten Daten
1.3
19
Bedeutung der Präzision für die Erstellung von Statistiken
Die Ausführungen zeigen, wie wichtig eine Angabe der Präzision von Statistiken ist. Zudem ist es häufig so, dass bei Vorliegen einer sogenannten repräsentativen Stichprobe die Qualität und Aussagekraft der statistischen Parameter oder Tabellen von den Adressaten nicht in Frage gestellt wird, sondern stattdessen automatisch von einer hohen Präzision ausgegangen wird. Um die mit den ausgewiesenen Werten verbundene Unsicherheit zu verdeutlichen, liegt es deshalb nahe, diese um Angaben zur Präzision zu ergänzen. Hierbei ist es aber auch essentiell, dass diese Präzisionsangaben internationalen Standards entsprechen. Die amtlichen Statistiken in Europa haben sich dabei auf den European Statistics Code of Practice geeinigt. Für die wesentlichen aus Statistiken gewonnenen Kennwerte sollen Genauigkeitsangaben verfügbar sein. Erstaunlicherweise – eigentlich bedauerlicherweise – werden diese aber in der Öffentlichkeit (noch) nicht kommuniziert. Man würde sich in Zukunft wünschen, dass in den Medien neben den eigentlichen Statistiken stets auch Informationen zu deren Präzision zu finden sind. Für Staat und Gesellschaft sind präzise und vergleichbare Statistiken essentiell. Abschließend muss aber auch angemerkt werden, dass in der Praxis und insbesondere im Rahmen von kleinen (Teil-) Stichproben Präzisionsangaben noch um praktische Gegebenheiten erweitert werden müssen, wie etwa Besonderheiten in den Daten. Münnich (2008) zeigt, dass je nach zu Grunde liegender Statistik und insbesondere bei schiefen Verteilungen oder bei Vorliegen von Ausreißern auch die Präzisionsangaben kritisch gesehen werden müssen. Und damit gehören derartige Kenntnisse sicher auch zum Themenkomplex einer Statistical Literacy – etwas, was im Bildungssystem bisher noch zu wenig berücksichtigt ist.
2
Methoden der regionalen Armutsmessung
2.1
Aktuelle Darstellungen
In Europa wird die EU-Statistics on Income and Living Conditions (EUSILC) zur Armuts- und Ungleichheitsmessung herangezogen. Insbesondere werden drei Maße betrachtet: Die Armutsrisikoquote (ARPR – At-Risk-of-Poverty Rate) gibt den Anteil der Bevölkerung an, der sich unterhalb der Armutsgrenze befindet. Diese wird durch 60% des Medianeinkommens quantifiziert. Dabei
20
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
wird das auf alle Personen im Haushalt verteilte verfügbare Nettoäquivalenzeinkommen der Haushalte verwendet. Die Quintile Share Ratio (QSR) ist der Quotient aus dem Durchschnittseinkommen der 20% höchsten und dem Durchschnittseinkommen der 20% geringsten Einkommen. Sie gibt die Spreizung der Einkommensverteilung an. Der GINI-Koeffizient liefert die Einkommensungleichheit einer Population. Details im Rahmen der EU2020-Strategie können in Eurostat (2019) nachgelesen werden. Bei großen zu betrachtenden Populationen können Schätzwerte direkt aus Stichprobenerhebungen gewonnen werden. Bei der deutschen SILC-Stichprobe werden 14.000 Haushalte befragt, was in etwa einer 0,036%-Stichprobe entspricht. In Deutschland wird zur Berechnung der genannten Kennzahl neben der SILC-Stichprobe auch der Mikrozensus verwendet, der einen wesentlich größeren Stichprobenumfang aufweist (1% der Haushalte). Allerdings liegen die Einkommen beim Mikrozensus nur in klassierter Form vor, so dass zwar für die ARPR gute Schätzungen abgeleitet werden können, bei der QSR und beim GINI die oberste Einkommensklasse jedoch zu methodischen Problemen führt, da sie nicht nach oben beschränkt ist. Alternativ werden gelegentlich auch das sozio-oekonomisches Panel (SOEP) oder die Einkommens- und Verbrauchsstichprobe (EVS) herangezogen, die aber andere methodische Probleme aufweisen, auf die hier nicht näher eingegangen werden kann. Möchte man Armutsmaße auf regionaler Ebene bestimmen, wie etwa auf Kreisebene (siehe auch Abbildung 1), dann spielen die tatsächlichen Teilstichprobenumfänge in den jeweiligen Stichprobenerhebungen eine wesentliche Rolle. Diese können schon bei Kreisen zum Teil sehr klein werden. Betrachtet man aber beispielsweise Gemeinden und bezieht sich das Stichprobendesign auf eine höhere regionale Ebene, dann entstehen oft sehr kleine Stichprobenumfänge, die in einzelnen Fällen sogar Null sein können. In Rheinland-Pfalz gibt es beispielsweise 24 Kreise sowie 12 kreisfreie Städte und über 2.000 Gemeinden. Am Beispiel der (nichtlinearen) Statistik ARPR wird die Methodik der Qualitätsmessung demonstriert. Allgemein kann die Armutsgrenze als der α-Anteil des p-Quantils des Einkommensvektors y p dargestellt werden. Somit ergibt sich die ARPR als
(
ARPR= F α ⋅ yp α;p
)
Qualität bei zusammengeführten Daten
21
Als Schätzgröße ergibt sich die ARPR durch die Schätzung des p-Quantils sowie der Verteilungsfunktion F . Letztere kann mit Hilfe der um die Inklusionswahrscheinlichkeiten korrigierten empirischen Verteilungsfunktion geschätzt werden (siehe bspw. Lenau und Münnich, 2016). Man erhält
(
= ARPR Fˆ α ⋅ yˆ p α;p
)
mit = yˆ p inf ( Fˆ ( y ) > p ) y ∈
In der EU ist schließlich α = 60 % und p = 0,5. y0,5 ist der Median. y ist dabei das verfügbare Haushaltsäquivalenzeinkommen. Im designbasierten Ansatz muss schließlich die Varianz der ARPR mit Hilfe der Taylor-Linearisierung ermittelt werden. Verwendet man statt der Einkommensvariable die für die ARPR linearisierte Variable ui* , dann ist
(
) ( )
H RPR α ; p ≈ Vˆ τˆu* ≈ ∑ h =1 N h2 ⋅ Vˆ A
su2*
n ⋅ 1 − h . nh N h ( h)
Dabei erhält man Werte ui* aus 1 α ⋅ Fˆ ' (ARPT) ui* = ⋅ 1 yi ≤ α yˆ p − A RPR α ; p − ⋅ 1 yi ≤ yˆ p − p . Nˆ Nˆ ⋅ Fˆ ' yˆ p
((
)
)
( )
((
)
)
Der zweite Teil der vorangehenden Formel entfällt, wenn die Armutsgrenze nicht geschätzt werden muss. Die Formel für die Varianzschätzung ist auf Basis geschichteter Stichproben dargestellt und liefert eine relativ gute Approximation für den Mikrozensus. Eine eingehende Darstellung der Linearisierung für Armuts- und Ungleichheitsmaße findet man beispielsweise bei Osier (2009) oder unter http://amelia.surveystatistics.net. Da die Varianzschätzung als klassische designbasierte Varianzschätzung für den Horvitz-ThompsonSchätzer in Bezug auf die linearisierten Werte ui* ermittelt wird, kann diese relativ einfach und schnell für beliebige Stichprobendesigns er-
22
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
mittelt werden. Dies setzt jedoch voraus, dass bereits die Linearisierung eines Armutsmaßes durchgeführt wurde. Alternativ, aber nur für ausgewählte Stichprobendesigns, könnten Resampling-Methoden herangezogen werden.
2.2
Vom Design zum Modell
In der aktuellen Diskussion einer regionalen Armutsmessung stellt sich die Frage, inwieweit auch die Armutsgrenze regionalisiert werden muss. Als Argument dafür steht beispielsweise die Tatsache, dass Mieten in Großstädten wie München erheblich höher sind und somit das verfügbare Nettoeinkommen weniger wert ist. Die Ermittlung regionaler (Miet-)Preise stellt jedoch ebenso ein komplexes Schätzproblem dar. Betrachtet man nun wiederum die zuvor eingeführte Methodik zur Armuts- und Ungleichheitsmessung sowie die zu verwendenden Daten und deren Stichprobendesigns, so stellt sich unmittelbar die Frage, ob die resultierenden Schätzwerte noch den eigentlichen Genauigkeitsanforderungen genügen. In Deutschland werden beispielsweise keine Armutsmaße auf Kreisebene veröffentlicht, da die designbasierten Verfahren hierfür meist zu hohe Standardfehler ausweisen. Das liegt tatsächlich an den für die interessierenden Verwaltungsgebiete resultierenden Teilstichprobenumfängen, die oft zu gering ausfallen, um noch akkurate Schätzungen liefern zu können. In derartigen Fällen werden dann speziell für regionale Schätzungen, bei denen zwar ein relativ großer Gesamtstichprobenumfang vorliegt, aber gleichzeitig in den interessierenden Gebieten zu kleine Teilstichprobenumfänge auftreten, sogenannte Small Area-Schätzverfahren angewendet. Eine eingehende Darstellung von Small AreaVerfahren findet man in Rao und Molina (2015) sowie als Übersicht im Handbook of Statistics 29B in den Kapiteln 31 (Lehtonen und Veijanen, 2009) sowie 32 (Datta, 2009). Münnich, Burgard und Vogt (2013) behandeln eingehend den Übergang von designbasierten zu modellbasierten Schätzverfahren im Kontext von Small Area-Methoden. Neben den designbasierten Verfahren aus dem letzten Abschnitt werden bei Small Area-Methoden statistische Modelle herangezogen, die auf dem gesamten Datensatz angewendet werden. Hierin begründet sich auch der Begriff borrowing strength. Als statistische Modelle werden oft Regressionsmethoden bzw. Random Effects-Modelle herangezogen, wobei die jeweilige Region gerne als Random Effect modelliert wird. Zunächst kann man die reinen Modell-Prädiktionen für die regionalen Schätzungen verwenden. Sofern gute Prädiktoren auf der Grund-
Qualität bei zusammengeführten Daten
23
gesamtheit vorliegen, kann man sehr gute Schätzungen erhalten. Derartige Methoden werden in der Armutsmessung von Elbers, Lanjouw und Lanjouw (2003) oder mehr im Survey-Kontext von Molina und Rao (2010) verwendet. Diese Methoden hängen jedoch sehr von der Qualität der Prädiktoren ab. Ferner muss auf Grund von möglichen modellbedingten Verzerrungen eine MSE-Schätzung (mittlerer quadratischer Fehler) verwendet werden, die im modellbasierten Kontext eher problematisch ist (siehe bspw. Datta und Lahiri, 2000). Die eher etablierten Modelle der Small Area-Statistik verwenden ein gewichtetes Mittel zwischen einem designbasierten und einem geeigneten modellbasierten Schätzer. Hierzu gehören das Unit-LevelModell von Battese, Harter und Fuller (1988), welches die Modellierung auf den einzelnen Einheiten durchführt, sowie das Area-Level-Modell von Fay und Herriott (1979). Letzteres verwendet die Informationen auf aggregiertem Niveau, in der Regel auf der Ebene der interessierenden Gebiete. Damit können Daten aus sehr unterschiedlichen Quellen herangezogen werden, wie auch externe Informationen über die zu betrachtenden Gebiete. Die MSE-Schätzung gestaltet sich hier zwar einfacher, ist aber auch nicht unproblematisch. Forscher haben bei den Area-Level-Modellen allerdings weniger Einschränkungen in Sachen Datenschutz zu erwarten als bei Unit-Level-Modellen. In den USA wird für die Armutsmessung das SAIPE-Programm herangezogen. Hierbei werden Area-Level-Informationen zur Verfügung gestellt, so dass dieser Datensatz sehr gerne in Forschung und Lehre verwendet wird (siehe Bell und Franco, 2017). Eine Übersicht zur regionalen Armutsmessung findet man beispielsweise auch in Pratesi und Salvati (2016). Im Buch von Pratesi (2016) werden zahlreiche Aspekte der regionalen Armutsmessung umfassend dargestellt. Weitere Informationen können den Projekten AMELI (http://ameli.surveystatistics. net) sowie SAMPLE (http://www.sample-project.eu/) entnommen werden. Zusammenfassend lässt sich sagen, dass mit der zunehmenden Integration von Modellen in Schätzungen und Prädiktionen die Abhängigkeit von der Gültigkeit der Annahmen klassischer Bewertungskriterien, die bei designbasierten Verfahren verwendet werden, kritisch zu hinterfragen ist. So passiert es gerade bei den beliebten Area-LevelVerfahren, dass MSE-Schätzungen5 zu optimistisch ausfallen und somit die Bewertung gerade im Vergleich zu anderen Verfahren zu positiv ausfallen kann. Nichtsdestotrotz muss unbedingt auf geeignete Quali5
MSE – Mean Squared Error, Mittlerer quadratischer Fehler
24
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
tätskriterien geachtet werden. Zusätzlich sollten aber auch Verfahren zur Modell-Evaluation berücksichtigt werden (siehe auch Tzavidis et al., 2018). Somit wird die Betrachtung der Repräsentativität und der Präzision von Schätzungen geeignet erweitert. Und gerade bei nichtlinearen Statistiken, wie sie in der Armutsmessung üblich sind, sind genauere Überlegungen unerlässlich. Eine zusätzliche Herausforderung stellt dabei der mögliche Einfluss des Stichprobendesigns auf die Schätzungen bzw. Prädiktionen dar (Burgard, Münnich und Zimmermann, 2016).
2.3
Qualitätsmessung im Kontext neuer digitaler Daten
Neue digitale Quellen liefern selbstverständlich viele neue Ideen und Modellierungsmöglichkeiten. Hierbei müssen jedoch erhebliche Unterschiede zwischen verschiedenen Daten herausgestellt werden. Zunächst ist die Frage, ob es sich um strukturierte oder unstrukturierte Daten handelt, relevant. Beispielsweise lassen sich Satelliten-Daten, die einen hohen Strukturierungsgrad aufweisen, sehr gut in Modelle integrieren. So haben Wagner et al. (2017) Spline-Regressionsmethoden für Small Area-Schätzungen in der Forstinventur zur Schätzung von Biomasse eingesetzt. Derartige Methoden können sehr effizient angewendet werden. Twitter-Daten sind beispielsweise weit weniger strukturiert und weisen möglicherweise kaum erkennbare Verzerrungen auf, etwa bei der geographischen Zuordnung. Damit ergeben sich automatisch zusätzliche Herausforderungen für die Modellierung. Pratesi et al. (2016) verwendeten Twitter-Daten zur Small Area-Schätzung erfolgreich in Form von Hilfsinformationen. Neben den zuvor erwähnten Modell-Eigenschaften müssen bei der Verwendung solcher Daten gegebenenfalls in den Modellierungen noch mögliche Verzerrungsbzw. Zufallseffekte in den Hilfsvariablen berücksichtigt werden (siehe bspw. Ybarra und Lohr, 2008, oder Burgard et al., 2019). Bei aufwändigeren Modellierungen, insbesondere bei Verwendung unstrukturierter Daten direkt im Modell, oder Verwendung von Big Data-Quellen ist jedoch Vorsicht geboten, da unbekannte Selektions-Fehler kaum noch abgeschätzt, geschweige denn kompensiert werden können. Zuletzt sei noch erwähnt, dass aktuell geocodierte Modellierungen von besonderem Interesse sind (siehe bspw. Brenzel et al., Seite 123 f.). Geocodierte Daten sind zumeist strukturiert und erlauben sehr tiefgehende Möglichkeiten zur Modellierung. Beispielsweise könnten auch Gitterzelleninformationen ausgewertet werden, die als Units in Small
Qualität bei zusammengeführten Daten
25
Area-Modellen verwendet werden. Bei letzterer Modellierung gelten wiederum die zuvor dargestellten Anforderungen.
3
Zusammenfassung und Ausblick
Ziel der Ausführungen war es, das Problem Repräsentativität und Qualität von Statistiken generell und am Beispiel der regionalen Armutsmessung zu diskutieren. Die Diskussion ist gerade heutzutage und insbesondere für Staat und Gesellschaft von besonderer Bedeutung, um sicherzustellen, dass statistische Informationen mit hoher Qualität und auf solider Basis für Entscheidungsprozesse herangezogen werden. In den amtlichen Statistiken und in internationalen Organisationen, wie IMF, OECD und UN/ECE, sind Verhaltensregeln für hochwertige Statistiken sowie Qualitätsberichte vereinbart und umgesetzt. Von besonderer Bedeutung ist in diesem Zusammenhang natürlich auch die Unabhängigkeit derer, die Statistiken erstellen. Die im amtlichen Bereich etablierten Standards implizieren für den nichtamtlichen Bereich, dass nachvollziehbare Methoden und Qualitätskonzepte für Statistiken grundsätzlich verfügbar sind und entsprechend auch hier angewendet werden sollten. Denkbar und auch sinnvoll wäre eine externe Zertifizierung der verwendeten Methoden in der Praxis von unabhängigen Experten. Dies ist insbesondere dann von zentraler Bedeutung, wenn die Statistiken für eine Gesetzgebung oder gar für die Festlegung finanzieller Transferleistungen, wie etwa Regelsätze im Sozialhilferecht, herangezogen werden. Hierzu muss aber auch die Wissenschaft ihren Teil beitragen. Die aktuelle Entwicklung von Modellen, und gerade in Bezug auf Geocodierungen bis hin zu Big Data, verlangt auch nach Möglichkeiten der Evaluation bzw. der Beurteilung der Ergebnisse, auch im Vergleich sehr unterschiedlicher Methoden. Dies wiederum eröffnet die Frage nach der Verständlichkeit der Methoden und Ergebnisse, also der Umsetzung von Statistical Literacy. Bei allen Diskussionen um Open and Reproducible Research darf nicht vergessen werden, dass auch die Statistiken und die zugehörigen Methoden offen, nachvollziehbar und reproduzierbar sein sollten. Gerade bei der aktuellen Diskussion um eine Nutzung neuer Datenquellen und insbesondere Big Data scheint ein neues Insider-Outsider-Spiel entstanden zu sein. Die sich dahinter befindlichen teilweise rein kommerziellen Gründe konterkarieren die Errungenschaften des Open and Reproducible Research geradezu. Zusammen mit nachvollziehbaren Sta-
26
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
tistiken hoher Qualität sollten diese Errungenschaften unbedingt ausgebaut werden.
Danksagung An dieser Stelle danke ich den Kollegen Professor Dr. Frank Faulbaum sowie Professor Dr. Markus Zwick für die Einladung zur gemeinsamen Tagung von Statistischem Bundesamt, ASI und ADM. Die zu Grunde liegenden Forschungsarbeiten stammen aus verschiedenen Projekten. Ein besonderer Dank geht an das Statistische Bundesamt für die Förderung des Projekts RIFOSS (Forschungsarbeiten zum Zensus und zu der Modernisierung des Haushaltsstichprobensystems) sowie der Europäischen Kommission für die Förderung der Projekte AMELI und InGRID zur Armutsmessung sowie MAKSWELL zur Verwendung von neuen Datenquellen im Kontext von Armut und Well-being. Bedanken möchte ich mich insbesondere auch bei Charlotte Articus für die gemeinsame Forschung, welche die Betrachtungen in diesem Artikel motiviert haben. Ihr sowie auch Hans Kiesl und Jette Schröder danke ich für die zahlreichen wertvollen Hinweise, die die Lesbarkeit des Artikels sehr verbessert haben.
Literaturverzeichnis Battese, G. E., Harter, R. M., & Fuller, W. A. (1988). An Error-Components Model for Prediction of County Crop Areas Using Survey and Satellite Data. Journal of the American Statistical Association, Ausgabe 83, Nr. 401, 28-36. Bell, W. R., & Franco, C. (2017). Small Area Estimation - State Poverty Rate Model Research Data Files. https://www.census.gov/srd/ csrmreports/byyear.html, abgerufen am: 20.10.2019 Bleninger, S., Fürnrohr, M., Kiesl, H., Krämer, W., Küchenhoff, H., Burgard, J. P., Münnich, R., & Rupp, M. (2020). Kommentare und Erwiderung zu: Qualitätszielfunktionen für stark variierende Gemeindegrößen im Zensus 2021. AStA Wirtschafts- und Sozialstatistisches Archiv, 14(1), 67-98. Brenzel, H., Schartner, C., Gebers, K., Taubenböck, H., & Wurm, M. (2020). Geokoordinaten als Verknüpfungsmerkmal – Ein Werkstattbericht zur Zusammenführung von Daten der amtlichen Statistik mit Fernerkundungsdaten. In B. Klumpe, J. Schröder, & M. Zwick (Hrsg.), Qualität bei zusammengeführten Daten – Befragungs-
Qualität bei zusammengeführten Daten
27
daten, Administrative Daten, neue digitale Daten: Miteinander besser? (S. 123-134). Wiesbaden: Springer VS. Burgard, J. P., Esteban Lefler, M. D., Morales, D., & Perez M. A. (2019). A Fay–Herriot model when auxiliary variables are measured with error. TEST, online first. Burgard, J. P., Münnich, R., & Rupp, M. (2020). Qualitätszielfunktionen für stark variierende Gemeindegrößen im Zensus 2021. AStA Wirtschafts- und Sozialstatistisches Archiv, 14(1), 5-65. Burgard, J. P., Münnich, R., & Zimmermann, T. (2016). Impact of Sampling Designs in Small Area Estimation with Applications to Poverty Measurement. In M. Pratesi (Hrsg.), Analysis of Poverty Data by Small Area Estimation (S. 83-108). Hoboken: John Wiley & Sons. Datta, G. S. (2009). Chapter 32 - Model-Based Approach to Small Area Estimation. In Rao, C.R. (Hrsg.), Handbook of Statistics. Sample Surveys: Inference and Analysis (S. 83-108). Volume 29B, CX. Datta, G. S., Lahiri, P. (2000). A unified measure of uncertainty of estimated best linear unbiased predictors in small area estimation problems. Statistica Sinica, Ausgabe 10, 613 - 627. Elbers, C., Lanjouw, J., & Lanjouw, P. (2003). Micro-level estimation of poverty and inequality. Econometrica, Ausgabe 71, Nr. 1, 355-364. European Commission. (2002). Variance estimation methods in the European Union. https://ec.europa.eu/eurostat/ documents/64157/4374310/14-Monographs_off-stat-varianceestimation-methods-EU-2002.pdf/af98a8bc- 688d- 4bba-974843d648c723f4 (abgerufen am 29.10.2019). European Parliament and the Council. (2019). Regulation (EU) 2019/1700 of the European Parliament and of the Council. https://eur-lex. europa.eu/legal-content/EN/TXT/PDF/?uri=CELEX:32019R1700&f rom=EN (abgerufen am 13.02.2020). European Statistical System Committee. (2015). Draft regulation on statistics relating to persons and households. EEA ESSC 2015/27/7/EN European Statistical System. (2017). European Statistics Code of Practice For the National Statistical Authorities and Eurostat (EU statistical authority). Revised edition 2017. https://ec.europa.eu/ eurostat/web/products-catalogues/-/KS-02-18-142 (abgerufen am 28.10.2019). Eurostat. (2013). Handbook on Precision Requirements and Variance Estimation for ESS Household Surveys, https://op.europa.eu/ en/publication-detail/-/publication/f51ba4a6-6587-414d-93d3a8aaff3106e2 (abgerufen am 28.10.2019).
28
Münnich | Qualität der regionalen Armutsmessung – vom Design zum Modell
Eurostat. (2018). Regions in the European Union — Nomenclature of territorial units for statistics NUTS 2016/EU-28, https://ec.europa.eu/ eurostat/de/web/products-manuals-and-guidelines/-/KS-GQ-18007 (abgerufen am 28.10.2019). Eurostat. (2019). Statistics explained: Europe 2020 indicators - poverty and social exclusion, https://ec.europa.eu/eurostat/statistics-explained/pdfscache/29306.pdf (abgerufen am 30.10.2019). Fay, R. E. & Herriot, R. A. (1979). Estimation of Income from Small Places: An Application of James–Stein Procedures to Census Data. Journal of the American Statistical Association, Ausgabe 74, 269–277. Gabler, S., Ganninger, M., Häder, S., & Münnich, R. (2008). Design effects (deff). In Lavrakas, P. J. (Hrsg.), Encyclopedia of Survey Research Methods (S. 83-108). Thousand Oaks: SAGE, CX. Gabler, S. & Häder, S. (2019). Repräsentativität: Versuch einer Begriffsbestimmung. In Häder, S., Häder, M., & Schmich, P. (Hrsg.), Telefonumfragen in Deutschland (S. 35-43). Wiesbaden: Springer VS. Gabler, S. & Quatember, A. (2013). Repräsentativität von Subgruppen bei geschichteten Zufallsstichproben. AStA Wirtschafts- und Sozialstatistisches Archiv, Ausgabe 3-4/2013, 105-119. Kauermann, G. & Küchenhoff, H. (2011). Stichproben. Methoden und praktische Umsetzung mit R. Berlin, Heidelberg: Springer. Kish L. (1987). Statistical design for research. Hoboken: John Wiley & Sons. Krug, W., Nourney, M., & Schmidt, J. (2001). Wirtschafts- und Sozialstatistik. Gewinnung von Daten. Berlin, Boston: De Gruyter. Lavalée, P. (2009). Indirect sampling. Springer Science & Business Media. Lehtonen, R. & Veijanen, A.i (2009). Chapter 31 - Design-based Methods for Domains and Small Areas. In Handbook of Statistics. Sample Surveys: Inference and Analysis (S. 219-249), Volume 29B. Lenau, S. & Münnich, R. (2016). Estimating income poverty and inequality from income classes. In Berger, Y., Burgard, J. P., Byrne, A., Cernat, A., Giusti, C., Koksel, P., Lenau, S., Marchetti, S., Merkle H., Münnich, R., Permanyer, I., Pratesi, M., Salvati, N., Shlomo, N., Smith, D., & Tzavidis, N., Case Studies. InGRID Deliverable 23.1. Lohr, S. L. (2010). Sampling. Design and Analysis, 2. Auflage, Pacific Grove: Duxbury Press. Lynn, P., Häder, S., Gabler, S., & Laaksonen, S. (2007). Methods for achieving equivalence of samples in cross-national surveys: the European Social Survey experience. Journal of Official Statistics, Ausgabe 23 (2007), 107-124.
Qualität bei zusammengeführten Daten
29
Molina, I. & Rao, J.N.K. (2010). Small Area Estimation of poverty indicators. Canadian Journal of Statistics, Ausgabe 38, 369-385. Münnich, R. (2008). Varianzschätzung in komplexen Erhebungen. Austrian Journal of Statistics, Ausgabe 37, Nr. 3&4, 319-334. Münnich, R., Burgard J. P., & Vogt, M. (2013). Small Area-Statistik: Methoden und Anwendungen. AStA Wirtschafts- und Sozialstatistisches Archiv, Ausgabe 3-4/2013, 149-191. Osier, G. (2009). Variance estimation for complex indicators of poverty and inequality using linearization techniques. Survey Research Methods, Ausgabe 3(3), 167-195. Pratesi, M. & Salvati, N. (2016). Introduction on Measuring Poverty at Local Level Using Small Area Estimation Methods. In Pratesi, M. (Hrsg.), Analysis of Poverty Data by Small Area Estimation (S. 1-18). Hoboken: John Wiley & Sons. Pratesi, M. (Hrsg.). (2016). Analysis of Poverty Data by Small Area Estimation, Hoboken: John Wiley & Sons. Rao, J.N.K. & Molina, I. (2015). Small area estimation, 2. Auflage, Hoboken: John Wiley & Sons. Särndal, C.-E., Swensson, B., & Wretman, J. (1992). Model Assisted Survey Sampling, New York: Springer. Schnell, R. (2019). Survey-Interviews: Methoden standardisierter Befragungen. Springer VS, Wiesbaden, 2. Auflage. Shao, J. & Tu, D. (1995). The Jackknife and Bootstrap, New York: Springer. Tzavidis, N., Zhang, L.-C., Luna, A., Schmid, T., & Rojas-Perilla, N, (2018). From start to finish: a framework for the production of small area official statistics, Journal of the Royal Statistical Society, Series A, Ausgabe 181, Nr. 4, 927-979. Verma, V. (1991). Sampling methods. Training handbook, Tokyo: Statistical Institute for Asia and the Pacific (SIAP). Williams, R. L. (2008). Effective Sampling Size. In Lavrakas, P. J. (Hrsg.), Encyclopedia of Survey Research Methods (S. 220-221), Thousand Oaks: SAGE. Wolter, K. M. (2007). Introduction to Variance Estimation, 2. Auflage, New York: Springer. Ybarra, L. M. R. & Lohr, S. L. (2008). Small area estimation when auxiliary information is measured with error. Biometrika, 95. Jg., Nr. 4, 919-931.
Kleinräumige Prädiktion von Bevölkerungszahlen basierend auf Mobilfunkdaten aus Deutschland Sandra Hadam1, Timo Schmid 2 & Joanna Simm1 1 Statistisches Bundesamt 2 Freie Universität Berlin
1 Einleitung Der Zensus gehört zu den elementaren Konzepten der Bevölkerungsstatistik. Das wichtigste Ziel der Volkszählungen ist dabei die Ermittlung der aktuellen Einwohnerzahl in Deutschland zu einem bestimmten Stichtag (Statistisches Bundesamt 2016). Die Relevanz des Zensus ist dabei für politische und gesellschaftliche Entscheidungen unumstritten. Zuverlässige Kenntnisse über die Verteilung der Bevölkerung und die Einwohnerzahl eines Landes auf kleinstmöglicher geografischer Ebene sind für eine solide evidenzbasierte Politikgestaltung unerlässlich. Diese sind beispielsweise für die öffentliche Verwaltung relevant, auf deren Grundlage über die lokale Infrastruktur, Schul- und Verkehrsplanung, Förderung der Bildung und Kultur oder Sozialleistungen entschieden wird. Ehemals fand die Bevölkerungsabbildung ausschließlich mittels traditioneller Daten statt, die auf Primärerhebungen basierten, also einer Totalerhebung. Nach dem Volkszählungsboykott im Jahr 1982 begann in Deutschland ein schrittweises Umdenken von einer Totalerhebung hin zu einem registerbasierten Zensus (Grohmann 2011; Heinzel 2006). Der Zensus wird derzeit alle zehn Jahre durch die amtliche Statistik durchgeführt und ermittelt die Wohnbevölkerung der Bundesrepublik, welche für eine faktengestützte Politikgestaltung jährlich fortgeschrieben werden muss. Als Grundlage dieser jährlichen Fortschreibungen dient die letzte Volkszählung und wird mithilfe von verschiedenen ad© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_3
32
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
ministrativen Daten der Meldebehörden und Standesämter zum Stichtag (31.12.) aktualisiert. Die Qualität der jährlichen Fortschreibungen ist von der Vollständigkeit und Genauigkeit der durch die Ämter und Behörden gelieferten Daten abhängig. Mit steigendem Abstand zur letzten Volkszählung werden die Ergebnisse der Bevölkerungsfortschreibungen ungenauer (Statistisches Bundesamt 2017). Eine bestehende Herausforderung ist das Umdenken von einer statischen hin zu einer dynamischen (zeitlich aktuellen) Bevölkerung. Zeitnahe und detaillierte Informationen darüber, wo sich die Individuen im Tagesverlauf aufhalten, sind nicht nur im Fall von Katastrophen, Epidemien oder Konflikten entscheidend (Deville et al. 2015), sondern spielen bspw. auch bei der Regional- und Verkehrsplanung eine entscheidende Rolle. Diese Dynamik kann mit traditionellen Daten nicht erfasst werden. Durch den Einsatz administrativer Daten zur Ermittlung und Lokalisierung der Einwohnerzahl im registerbasierten Zensus konnten die Auskunftsgebenden zwar teils entlastet werden, allerdings blieben die Herausforderungen in der Abbildung einer dynamischen Bevölkerung und der Bevölkerungsfortschreibung weiter bestehen. Neue digitale Daten haben das Potential diese Herausforderungen zu lösen. Sie sind eine Folge der digitalen Revolution und die daraus entstehenden enormen Datenmengen das Resultat der verschiedenen Kommunikationsarten und werden daher über die drei V definiert: Volume, Velocity und Variety (Daas et al. 2013; Zwick 2016). Im Rahmen der allgemein fortschreitenden Digitalisierung ist auch die amtliche Statistik gefordert, diese neue Datenquellen zu erforschen und einzusetzen und ihre Prozesse und Verfahrensweisen entsprechend auszurichten. Durch die Nutzung solcher Daten wird Potential für eine möglicherweise schnellere, präzisere und kostengünstigere amtliche Statistikproduktion sowie eine eventuelle Entlastung der Auskunftsgebenden gesehen (Wiengarten und Zwick 2017). Darüber hinaus können neue digitale Daten völlig neue Erkenntnisse liefern, was mit traditionellen und administrativen Daten derzeit nicht möglich ist. Diese sollen bzw. können die traditionellen Daten jedoch nicht vollständig ersetzen, sondern sollen zukünftig als sogenannte „blended data“ mit Befragungs- und administrativen Daten verknüpft werden (Wiengarten und Zwick 2017). Beispielsweise können Mobilfunkdaten zu einer dynamischen und zeitnäheren Schätzung der Bevölkerung beitragen. Das Statistische Bundesamt führt daher Machbarkeitsstudien zur Integration von Mobilfunkdaten in die amtliche Statistik durch. Hierbei werden Analysen zur Abbildung der Wohn- und Tagesbevölkerung mittels Mobilfunkda-
Qualität bei zusammengeführten Daten
33
ten durchgeführt. Zu den Nutzungsmöglichkeiten von Mobilfunkdaten für statistische Zwecke existieren bereits diverse wissenschaftliche Studien. De Meersmann et al. (2016) beurteilten beispielsweise die Qualität von Mobilfunkdaten als Quelle für die amtliche Statistik. Deville et al. (2014) nutzten Mobilfunkdaten, um eine dynamische Bevölkerung darstellen zu können. Makita et al. (2013) ermittelten, ob Mobilfunkdaten genutzt werden können, um die Bevölkerung in kleinräumigen Gebieten (Small Area) zu schätzen. Schmid et al. (2017) bestimmten sozio-demografische Indikatoren (etwa Alphabetisierung im Senegal) basierend auf Umfragedaten in Kombination mit Mobilfunkdaten als Hilfsinformation, um die Indikatoren ebenfalls mittels Small-AreaVerfahren (vgl. Tzavidis et al. 2018) auf kleinräumigen Ebenen darstellen zu können. All diese Studien basieren auf sogenannten Call Detail Records (CDRs). Dies sind Einzeldaten zur Art und Weise einer mobilen Kommunikation bzw. Aktivität. Sie entstehen bei jeder vom Mobilfunknutzer getätigten aktiven Kommunikation, wie beispielsweise durchs Telefonieren oder mobile Datenverbindungen, und enthalten Informationen über Ort, Dauer, Art der Aktivität, sowie die ID der SIM-Karte des Mobilfunknutzers und seines Gesprächspartners. Um diese Informationen nutzbar zu machen, wurden verschiedene Methoden zur geografischen Lokalisierung und Verteilung der einzelnen mobilen Aktivitäten verwendet und analysiert. Bedingt wird die Nutzung verschiedener Methoden durch Zusatzinformationen über den Standort der Antenne, deren Frequenz, Höhe, Leistung und Strahlungsrichtung. Je mehr Informationen vorliegen, desto genauer kann die Position der einzelnen mobilen Aktivität geschätzt werden. Aus datenschutzrechtlichen Gründen erhält das Statistische Bundesamt (Destatis) keine Einzeldaten aus dem deutschen Mobilfunknetz, und daher ist eine Verwendung dieser Verfahren in Deutschland nicht direkt möglich. Es werden ausschließlich Aggregatdaten vom Mobilfunkunternehmen zur Verfügung gestellt, welche Informationen über die Anzahl mobiler Aktivitäten für eine bestimmte geographische Einheit und Zeitintervall beinhalten. Um diese Aggregate umfangreich nutzen zu können, wird im Folgenden eine Umverteilungsmethode basierend auf einer nicht-parametrischen Kerndichteschätzung unter Messfehlern (Groß et al. 2017) verwendet. Somit können die Destatis zur Verfügung stehenden Mobilfunkdaten mit den offiziellen Bevölkerungszahlen des Zensus 2011 auf verschiedenen geografischen Ebenen verglichen werden. Der Aufbau des Artikels stellt sich wie folgt dar. In Kapitel 2 werden zunächst die Mobilfunkdaten und erste deskriptive Analysen vorge-
34
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
stellt. Der Kerndichteschätzer unter Messfehlern zur Umverteilung der Bevölkerungszahlen wird im Kapitel 3 „Methodik“ erläutert. Anschließend wird der vorgestellte Algorithmus zur Bestimmung der kleinräumigen Bevölkerungszahlen (Kreise und Gemeinden) basierend auf Mobilfunkdaten im Kapitel 4 angewendet. Kapitel 5 schließt mit einer Zusammenfassung und Ausblick.
2
Beschreibung der Mobilfunkdaten
Zur Erforschung des Themas „Mobilfunkdaten“ für die amtliche Statistik ist Destatis im September 2017 eine Kooperation mit T-Systems International GmbH und Motionlogic GmbH (beide 100% Tochterunternehmen der Deutschen Telekom AG) eingegangen. Die Deutsche Telekom teilt sich den deutschen Mobilfunkmarkt mit Vodafone und Telefónica mit jeweils einem Drittel Marktanteil. Die Konzepte für die geplanten Machbarkeitsstudien wurden gemeinsam mit der Bundesnetzagentur, der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit und in Kooperation mit T-Systems abgestimmt. Mittel- bzw. langfristiges Ziel ist es, die Tages- und Wohnbevölkerung mit Hilfe der Mobilfunkdaten bundesweit valide abbilden und schätzen zu können. Daher befassen sich die ersten Analysen mit der Frage, ob und inwieweit Mobilfunkdaten dazu genutzt werden können, die Bevölkerung valide abzubilden. Zur Überprüfung der Repräsentativität dieser Daten werden die Bevölkerungszahlen des Zensus 2011 als Vergleichsmaßstab herangezogen. Aufgrund datenschutzrechtlicher Regelungen erhält Destatis nur anonymisierte aggregierte Mobilfunkaktivitäten von T-Systems. Der zur Verfügung stehende Datensatz enthält mobile Aktivitäten von Telekom-Kunden für Nordrhein-Westfalen (NRW) für eine statistische Woche aus ausgewählten Tagen aus den Monaten April, Mai und September des Jahres 2017 in einem 24-Stunden-Zeitraum1. Unter einer mobilen Aktivität wird ein Signal mit vordefinierter Aufenthaltsdauer an einem Ort ohne Bewegung verstanden, wobei alle Signalisierungsdaten ausgewertet werden, d.h. Telefonate, SMS und Datenverbindungen. Im Gegensatz zu CDRs entstehen Signalisierungsdaten automatisch, in regelmäßigen Abständen und registrieren lediglich die Ortsangabe des Funkmastes, mit dem ein mobiles Endgerät zu einem bestimmten Zeitpunkt verbunden ist. 1
Ausgeschlossen werden hierbei Ferien- und Feiertage.
Qualität bei zusammengeführten Daten
35
Bei jeder Aktivität eines mobilen Endgerätes, wie beispielsweise das Verfassen einer SMS, verbindet sich dieses über Funkwellen mit der nächstgelegenen Basisstation, welche nur ein bestimmtes Gebiet versorgen, worunter eine Funkzelle verstanden wird. Die Funkzellen bilden zusammen ein mobiles Netzwerk, wobei die Größe der Funkzellen von der erwarteten Anzahl der Nutzer abhängig ist. Somit werden ländliche Gebiete von wenigen großen Funkzellen abgedeckt und städtische Gebiete von mehreren kleinen. Für die Übertragung der Daten zwischen Basisstation und dem mobilen Endgerät werden verschiedene Frequenzen verwendet. Diese finden sich in den Mobilfunkstandards wieder, da jedem Standard (2G bis künftig 5G) ein bestimmter Frequenzbereich zugewiesen wird und sich ihre Nutzungsmöglichkeiten wiederum durch unterschiedliche Reichweiten charakterisieren (Krzossa 2019). In ländlichen Gebieten werden bspw. eher niedrige Frequenzbereiche (wie zum Beispiel 2G) genutzt, da sie aufgrund der größeren Reichweiten größere Gebiete versorgen können. Mit steigender Frequenz sinkt jedoch die Reichweite, weswegen höhere Frequenzen in den städtischen Gebieten ihren Einsatz finden (Krzossa 2019). Die Mobilfunkaktivitäten, welche Destatis zur Verfügung stehen, enthalten die durchschnittlichen Aktivitäten ausgewählter Wochentage und liegen dabei in fünf Tagestypen vor, wobei die Tage von Dienstag bis Donnerstag zusammengefasst werden. Des Weiteren enthalten die Mobilfunkdaten unter anderem Informationen über die soziodemographischen Charakteristiken der Mobilfunknutzer, wie die Altersgruppe, das Geschlecht und die Nationalität der SIM-Karte2. Aufgrund datenschutzrechtlicher Regelungen wurden die Mobilfunkaktivitäten anonymisiert3 und aggregiert, wobei erst Wertangaben ab einer Mindestzahl von 30 Aktivitäten pro Gitterzelle4, im Folgenden auch Grid genannt, an Destatis übermittelt wurden. Die Gitterzellen sind INS-
2 3 4
Hier sind sowohl Vertrags-, Prepaid-, Congstar- wie auch Businesskunden enthalten. Allerdings liegen nur für die Vertragskunden die charakteristischen Merkmale vor. Die Telekom AG anonymisiert die Daten in einem mit der Bundesbeauftragten für den Datenschutz und die Informationsfreiheit (BfDI) abgestimmten Verfahren. Unter einer Gitterzelle versteht man eine geografische Einheit in Form eines Quadrats mit variierenden oder einheitlichen Gitterweiten mit Zell- und Raumbezug. Diese sind unabhängig von nationalen Verwaltungsgrenzen und bilden eine sachbezogene Gebietsabgrenzung. Mehrere Gitterzellen ergeben zusammen ein Raster, worunter ein flächendeckendes Bezugssystem verstanden wird.
36
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
PIRE-konform und sind deckungsgleich zu den Zensus-Gitterzellen des Zensusatlas 20115. Die Anzahl der Mobilfunkaktivitäten hängt von der Lage und Anzahl der Funkmasten in den verschiedenen Gitterzellen ab. Wie bereits erläutert unterscheiden sich je nach Lage der Funkmasten (ländlich oder städtisch) ihre Frequenzen und führen mitunter zu ihrer ungleichmäßigen Verteilung in den verschiedenen Regionen. Demzufolge können in einer vorliegenden Geometrie 5 bis 20 Funkmasten enthalten sein. Infolgedessen werden einige Geometrien zusammenfasst, um die Mindestzahl von 30 Aktivitäten pro Gitterzelle zu gewährleisten. Da die Anzahl mobiler Aktivitäten durch die Verweildauer mobiler Endgeräte bedingt wird, werden je nach Länge der Verweildauer entsprechend lange mobile Aktivitäten gezählt und in den Datensatz einbezogen und kurze mobile Aktivitäten demzufolge außer Acht gelassen. Unter einer Verweildauer wird dabei eine Aufenthaltsdauer eines mobilen Endgerätes an einem Ort bzw. in einer Gitterzelle ohne Bewegung verstanden. Im vorliegenden Datensatz beträgt die Verweildauer zwei Stunden, um kurze mobile Aktivitäten, unter anderem hervorgerufen durch schnelle Wechsel zwischen den Gitterzellen, herauszufiltern und so eine möglichst unverfälschte Darstellung der Wohnbevölkerung mittels Mobilfunkdaten zu gewährleisten. Ziel der ersten Analysen ist es, die Wohn-, Tages- bzw. Arbeitsbevölkerung valide abzubilden. Hierzu werden im Folgenden die mobilen Aktivitäten aller deutschen Mobilfunknutzer der Deutschen Telekom in NRW für eine statistische Woche betrachtet. Abbildung 1 stellt die Anzahl der Aktivitäten nach den zur Verfügung stehenden Wochentagen und dem 24-Stunden-Auswertungszeitraum dar. Die Grafik visualisiert die Veränderungen der Aktivitäten im Tagesverlauf und lässt eine Unterscheidung der Aktivitäten durch eine mögliche Tages- und Wohnbevölkerung zu. Es ist ersichtlich, dass weniger mobile Aktivitäten in der Tagesmitte registriert werden und deutlich mehr Aktivitäten in den Morgen- und Abendstunden zu verzeichnen sind. In den Abendstunden beträgt die Summe der Aktivitäten in NRW ca. 10,5 Millionen bei einer Einwohnerzahl von ca. 17,5 Millionen. Dies lässt auf Veränderungen der Aktivitäten durch die Arbeitsbevölkerung schließen. Alle Wochentage weisen zudem einen ähnlichen Kurvenverlauf auf und lassen in diesem Sinne keine weiteren Aussagen zu möglichen Unterschieden zwischen den Werktagen und des Wochenendes durch eine dynamische Bevölkerung zu. 5
Näheres zum Zensusatlas vgl. hierzu: https://atlas.zensus2011.de/.
Qualität bei zusammengeführten Daten
37
Abbildung 1 Anzahl mobiler Aktivitäten im Tages- und Wochenverlauf. Quelle: eigene Darstellung.
Für einen ersten Zusammenhang mit dem Zensus 2011 wurde weiterhin die Korrelation zwischen den Mobilfunkaktivitäten und den Bevölkerungszahlen des Zensus 2011 auf Basis der Gitterzellen nach Tagestypen und Uhrzeit für NRW ermittelt, wie nachfolgend in Abbildung 2 dargestellt. Die Koeffizienten weisen insgesamt eine hohe Korrelation von 0.8 zwischen mobilen Aktivitäten und Bevölkerungszahlen für Samstag und Sonntag im kompletten Tagesverlauf auf. Wochentags bzw. Werktags sinkt die Korrelation in einem Zeitraum von 5 Uhr früh bis 16 Uhr auf unter 0.7, was auf stärkere Unterschiede zwischen Wohnbevölkerung basierend auf dem Zensus 2011 und dem Standort der Mobilfunkaktivitäten zum angegebenen Zeitraum hindeutet. Daraus kann geschlossen werden, dass sich die Mobilfunknutzer in diesem Zeitraum mit höherer Wahrscheinlichkeit nicht an ihrem Wohn- sondern an ihrem Arbeitsort o.ä. aufhalten. Die Korrelationen zeigen, dass mittels Mobilfunkdaten eine Unterscheidung zwischen Wohn- und Tagesbevölkerung möglich ist. Die hohe Korrelation in den Abendstunden deutet auf eine mögliche Nutzung von Mobilfunkaktivitäten für die Darstellung der Wohnbevölkerung hin. Die niedrige Korrelation in der Tagesmitte kann hingegen durch die Veränderung durch die Tages- bzw. Arbeitsbevölkerung in den Mobilfunkdaten erklärt werden.
38
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
Abbildung 2 Pearson-Korrelationskoeffizienten bezüglich der Zensuswerte und der Mobilfunkaktivitäten im Tages- und Wochenverlauf. Quelle: eigene Berechnung.
Somit können die Wohn- bzw. Arbeitsstandorte der Bevölkerung annähernd lokalisiert werden, welche durch Gebiete mit über- und unterdurchschnittlich aktiven SIM-Karten zu bestimmten Zeitpunkten im Tagesverlauf gekennzeichnet sind. Zur Darstellung der Wohnbevölkerung wurde aufgrund der hohen Korrelation und Plausibilität ein Zeitraum von 20 bis 23 Uhr ausgewählt. Hierbei wird angenommen, dass sich die Mobilfunknutzer in ihrem Wohnort befinden und ihre mobilen Endgeräte gleichzeitig noch mit höherer Wahrscheinlichkeit aktiv sind. In der gängigen Literatur wird häufig ein Zeitraum von 18 Uhr abends bis 6 Uhr früh gewählt. Die Analysen haben aber keine signifikanten Unterschiede zu dem hier gewählten Zeitraum gezeigt, weshalb der 4-Stunden-Zeitraum präferiert wird. Für die weiterführenden Analysen zur Darstellung der Wohnbevölkerung mittels Mobilfunkdaten wird weiterhin eine Umrechnung und Kalibrierung der Mobilfunkaktivitäten durchgeführt, welche im Folgenden näher erläutert wird. Dies ermöglicht zudem einen direkten Vergleich mit den Bevölkerungszahlen des Zensus 2011.
Qualität bei zusammengeführten Daten
3
39
Methodik: Eine nicht-parametrische Kerndichteschätzung
In diesem Kapitel werden kurz die theoretischen Grundlagen einer nicht-parametrischen Kerndichteschätzung beschrieben. Ein weit verbreitetes und simples Verfahren zur Bestimmung einer Dichte stellt das Histogramm dar. Statistisch etwas fortgeschrittener ist die Anwendung von Kerndichteschätzern. Dabei handelt es sich um eine Annäherung der Dichtefunktion f ( x ) einer stetigen mehrdimensionalen Zufallsvariablen X aus den Beobachtungen der Stichprobe X1 mit i = 1, ...,n. Die Methodik gehört – wie das Histogramm – zu den nicht-parametrischen Verfahren, d.h. es gibt keine direkten Annahmen über die Gestalt der Dichtefunktion und es handelt sich um ein datengetriebenes Verfahren. Im Folgenden betrachten wir nur den zwei-dimensionalen Fall mit X i = ( X i1 , X i 2 ) , wobei X i1 und X i 2 Längen- und Breitengrade der Koordinaten der Beobachtungen darstellen. Ein bivariater Kerndichteschätzer an einer Stelle x = ( x1 , x2 ) ist gegeben durch fˆh ( x ) =
1 nh1h2
n
x1 − X i1 x2 − X i 2 , h1 h2
∑K i =1
mit vorab definierten Bandbreiten h1 und h2 für die beiden Dimensionen und einer Kernfunktion K , etwa einem bivariaten Gaußkern. Für weitere Details bezüglich der Wahl der Bandbreite und der Kernfunktion wird auf Wand und Jones (1994) verwiesen. Wie bereits erwähnt stehen die Mobilfunkaktivitäten nur in aggregierter Form für unterschiedlich große Gitterzellen zur Verfügung. So können den einzelnen Aktivitäten keine exakten Längen- und Breitengrade (Koordinaten) zugewiesen werden. Bei einer Kerndichteschätzung müssen die aggregierten Aktivitäten zunächst auf einen Punkt innerhalb der Gitterzelle – etwa dem Mittelpunkt – projiziert werden. Dieser Prozess kann als eine Art zweidimensionales Runden (Messfehler) aufgefasst werden. Bei einer Verwendung eines klassischen Kerndichteschätzers würden an den Mittelpunkten Häufungen entstehen, die durch den Rundungsprozess bzw. durch die fehlenden geografischen Koordinaten der Mobilfunkaktivitäten zu begründen sind. Verzerrte Kerndichteschätzungen sind die direkte Folge. Daher wird eine nichtparametrische Kerndichteschätzung nach Groß et al. (2017) durchgeführt. Bei der Methode handelt es sich um einen Stochastic-Expecta-
40
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
tion-Maximization Algorithmus (SEM, Celeux und Diebold 1985). In der Anwendung des Algorithmus auf die aggregierten Mobilfunkaktivitäten wird durch das wiederholte Anwenden der Kerndichteschätzung und anschließender Stichprobenziehung ein Wert der Dichte ermittelt – eine Art Simulation von Geokoordinaten. Da bei diesem iterativen Ansatz die Modalwerte der Dichte nicht so stark an die Häufungspunkte/ Mittelwerte gekoppelt sind, kann die Methodik als eine Art Kerndichteschätzung unter Einbeziehung von Messfehlern/ Rundungen betrachtet werden. Der Algorithmus lässt sich wie folgt beschreiben (Groß et al. 2017): 1) Berechnung einer naiven Kerndichteschätzung fˆh ( x ) von f ( x ) basierend auf den aggregierten Mobilfunkdaten aus den Gitterzellen. 2) Ziehung von exakten Koordinaten der Mobilfunkaktivitäten aus der geschätzten Dichte fˆh ( x ) , wobei die Anzahl der Mobilfunkaktivitäten je Gitterzelle erhalten bleibt – d.h. Mobilfunkaktivitäten können nicht in andere Gitterzellen „wechseln“. 3) Berechnung der optimalen Bandbreiten h1 und h2 nach Wand und Jones (1994) basierend auf den Mobilfunkaktivitäten mit exakten Koordinaten. 4) Berechnung der naiven Kerndichteschätzung fˆh ( x ) von f ( x ) basierend auf den Mobilfunkaktivitäten mit exakten Koordinaten und den optimalen Bandbreiten h1 und h2 . 5) Wiederholung der Schritte 2-4 insgesamt B (Burn-in) plus N mal. 6) Berechnung einer finalen Dichteschätzung durch Mittelung der N geschätzten Kerndichteschätzungen fˆh ( x ) . Für Berechnung des Algorithmus wurde das R-Paket „Kernelheaping“ (Groß 2018) verwendet. Die Software ermöglicht mit dem Befehl „dshapebivr“ eine Schätzung der Kerndichte der mobilen Aktivitäten und erstellt eine kontinuierliche Karte, anhand der die Dichte (der Mobilfunkaktivitäten) der Regionen in NRW identifiziert werden können. Im zweiten Schritt erfolgt mithilfe des Befehls „toOtherShape“ eine Umrechnung der resultierenden Dichten auf die gewünschte Geometrie (etwa Kreise oder Gemeinden).
Qualität bei zusammengeführten Daten
4
41
Anwendung: Bestimmung von Bevölkerungszahlen in NRW
In diesem Kapitel werden die aggregierten Mobilfunkaktivitäten mit Hilfe der nicht-parametrischen Kerndichteschätzung aus Kapitel 3 in die interessierenden Geometrien umgewandelt, um Vergleiche mit den Bevölkerungszahlen in NRW zu ermöglichen. Ein erster Eindruck der Verteilung der Mobilfunkaktivitäten auf Ebene der Gitterzellen ist in Abbildung 3 (links) zu sehen. Da die Gitterzellen stark unterschiedliche Größen aufweisen, sind visuelle Vergleiche mit anderen Datenquellen, etwa mit den Bevölkerungszahlen des Zensus 2011, nur schwer durchzuführen. Wie in Abbildung 3 (links) deutlich zu erkennen ist, weisen die städtischen Gebiete teilweise sehr kleine Gitterzellen auf, so dass die Anzahl mobiler Aktivitäten nicht mehr eindeutig identifiziert werden kann. Durch die Anwendung der in Kapitel 3 vorgestellten Kerndichteschätzung können die mobilen Aktivitäten von der geographischen Rasterstruktur (Gitterzellen) gelöst werden und die visuellen Unschärfe aufgehoben werden. Mithilfe dieses Verfahrens wird zunächst die Kerndichte der mobilen Aktivitäten basierend auf den zugrunde liegenden Rasterzellen geschätzt und anschließend eine einheitliche Karte mit der Dichteverteilung der mobilen Aktivitäten, wie in Abbildung 3 (rechts) dargestellt, erstellt. Anhand dessen kann die Dichteverteilung der vorliegenden mobilen Aktivitäten räumlich hervorgehoben und somit auch die städtischen Gebiete mit einer hohen Dichte sichtbar gemacht werden. Im vorliegenden Fall wird die Wahrscheinlichkeitsverteilung mobiler Aktivitäten für das Bundesland NRW geschätzt.
Abbildung 3 Mobilfunkaktivitäten: Rasterzellen (links) und Kerndichteschätzung (rechts). Quelle: eigene Berechnung.
42
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
Da die Wohnbevölkerung mittels Mobilfunkdaten abgebildet werden soll, beziehen sich alle bisherigen und folgenden Ergebnisse auf die Mobilfunkaktivitäten an einem statistischen Sonntagabend. Dies wurde auf Basis der Korrelation (Abbildung 1) ausgewählt. Hierzu werden die Schätzergebnisse der Kerndichteschätzung des gewählten Zeitraumes anhand der geografischen Koordinaten auf Kreis- und Gemeindeebene umgerechnet. Da in Deutschland eine hierarchische Struktur von Bundesland, Regierungsbezirk, Kreis bis hin zur Gemeinde vorliegt, wurden die Schätzungen auf diese Ebenen für NRW umgerechnet6. Genauer unterteilen sich diese in 5 Regierungsbezirke, 22 kreisfreie Städte, 31 Kreise und darunter 374 Gemeinden, wobei eine Umrechnung der Kerndichten auf Regierungsbezirksebene aufgrund ihrer Größe keinen direkten Mehrwert liefert. Da die Anzahl mobiler Aktivitäten deutlich niedriger ist als die der Einwohnerzahl vom Zensus 2011, werden die mobilen Aktivitäten anhand der Einwohnerzahlen in NRW kalibriert. Dies ist notwendig um absolute Vergleiche mit dem Zensus vornehmen zu können. Die Kalibrierung setzt sich aus einem Faktor basierend auf dem Verhältnis der Gesamtanzahl der Bevölkerung vom Zensus zur Gesamtanzahl der Mobilfunkaktivitäten zusammen. Ein direkter Vergleich ohne weitere Hochrechnung würde lediglich zum Ergebnis führen, dass die mobilen Aktivitäten niedriger sind als die offiziellen Bevölkerungszahlen. Durch den angewandten Korrekturfaktor werden die Aktivitäten von ca. 9 Mio. auf die Bevölkerung von NRW mit ca. 17,5 Mio. Einwohner hochgerechnet, wie in den folgenden Abbildungen 4 und 5 dargestellt.
Abbildung 4 Zensus 2011 (links) und basierend auf Mobilfunkaktivitäten (rechts) auf Kreisebene. Quelle: eigene Berechnung. 6 Die Gitterzellen lassen sich nicht eindeutig in die hierarchische Struktur einordnen.
Qualität bei zusammengeführten Daten Tabelle 1 Bias Absoluter Relativer [%]
43
Absoluter und relativer Bias zwischen Mobilfunkaktivitäten und Zensus 2011 auf Kreisebene. Quelle: eigene Berechnung. Min.
1st Qu.
Median
3rd Qu.
Max.
-102250
-35757
-4928
29370
163033
-36.3
-10.3
-2.2
9.8
61.2
Zunächst ist in beiden Abbildungen kein offensichtlicher visueller Unterschied zwischen den Mobilfunkaktivitäten und den Bevölkerungszahlen des Zensus 2011 sichtbar. Dies deutet darauf hin, dass die Verteilung der mobilen Aktivitäten denjenigen des Zensus 2011 ähnelt. Die Ermittlung der Differenzen bzw. des Bias in Tabelle 1 und 2 liefert zusätzlich quantitative Informationen darüber, ob und inwieweit die Destatis zur Verfügung stehenden mobilen Aktivitäten mit den Bevölkerungszahlen aus dem Jahr 2011 übereinstimmen. Ein positiver Bias bzw. eine positive Verzerrung deutet auf eine Überschätzung der Bevölkerung mittels Mobilfunkdaten hin und eine negative Verzerrung bedeutet eine Unterschätzung der Bevölkerung mittels Mobilfunkdaten. Im Durchschnitt werden die Bevölkerungszahlen auf Kreisebene (Tabelle 1) deutlich besser geschätzt als auf Gemeindeebene (Tabelle 2).
Abbildung 5 Zensus 2011 (links) und basierend auf Mobilfunkaktivitäten (rechts) auf Gemeindeebene. Quelle: eigene Berechnung.
44 Tabelle 2 Bias Absoluter Relativer [%]
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen Absoluter und relativer Bias zwischen Mobilfunkaktivitäten und Zensus 2011 auf Gemeindeebene. Quelle: eigene Berechnung. Min.
1st Qu.
Median
3rd Qu.
Max.
-107052
-2182.5
1840
5514.5
60079
-73.6
-7.1
31.4
9.8
157.4
Als eine erste gute Schätzung der Bevölkerung mittels Mobilfunkdaten können Schätzergebnisse mit einem Bias von +- 10 Prozent gesehen werden. Alle anderen Ergebnisse sind zu stark verzerrt und unter- oder überschätzen die tatsächliche Anzahl der Bevölkerung deutlich. Im vorliegenden Beispiel werden in 57 Prozent der Kreise die Bevölkerung mit Mobilfunkaktivtäten am Sonntagabend in einem Zeitraum von 20 bis 23 Uhr zufriedenstellend geschätzt und auf Gemeindeebene dagegen nur 33 Prozent. Zudem sind die Über- und Unterschätzungen auf Kreisebene relativ ausgeglichen. Dagegen überwiegt auf Gemeindeebene die Überschätzung der Bevölkerung mittels Mobilfunkdaten. Die Deutsche Telekom ist vor allem in den ländlichen Gebieten stark vertreten und besitzt in den städtischen Gebieten vergleichsweise weniger Marktanteile, woraufhin auch Abbildung 6 hindeutet. Sie zeigt die geographische Differenz bzw. den absoluten Bias aus Tabelle 1 und 2 zwischen den Mobilfunkaktivitäten und den Einwohnerzahlen vom Zensus 2011 auf Kreis- und Gemeindeebene. Sind die Gebiete rot hinterlegt bedeutet dies, dass dort mehr (kalibrierte) mobile Aktivitäten registriert wurden als Einwohner gemeldet sind. Blaue Flächen deuten hingegen auf Regionen hin, in denen weniger (kalibrierte) mobile Aktivitäten registriert wurden als Einwohner gemeldet sind. Im Vergleich zum Zensus 2011 sind die mobilen Aktivitäten in Abbildung 6 auf Kreis- und Gemeindeebene in den ländlicheren Gebieten deutlich höher. Dagegen sind die mobilen Aktivitäten in den urbanen Gebieten deutlich niedriger als die angegeben Bevölkerungszahlen vom Zensus 2011, was unter anderem durch die Marktanteile des Mobilfunkanbieters verursacht werden könnte.
Qualität bei zusammengeführten Daten sind.
45
Abbildung 6: Differenz zwischen Mobilfunkaktivitäten an einem statistischen Sonntag in einem Zeitraum von 20 bis 23 Uhr und zwischen einem statistischen den Abbildung Einwohnerzahlen6 nachDifferenz dem Zensus 2011 auf KreisebeneMobilfunkaktivitäten (links) und Gemeindeebene (rechts).an Quelle: eigene Berechnung.
Sonntag in einem Zeitraum von 20 bis 23 Uhr und den Einwohnerzahlen nach dem Zensus 2011 auf Kreisebene (links) und Gemeindeebene (rechts). Quelle: eigene Berechnung.
5
Zusammenfassung und Ausblick
Die Ergebnisse zeigen vom Grundsatz her, dass die Bevölkerung mit den vorliegenden Mobilfunkdaten teilweise gut abgebildet werden könnte. Beobachtbare Unterschiede in der Bevölkerungsdarstellung mittels Mobilfunkdaten und den Zensuswerten können teilweise durch die zeitliche Differenz zwischen den Mobilfunkdaten aus dem Jahr 2017 und den Zensusdaten aus dem Jahr 2011, aber auch durch das seitens des Datenproviders angewandte Hochrechnungsverfahren hervorgerufen werden. Die Hochrechnung basiert auf den regionalen Marktanteilen der deutschen Telekom am gesamtdeutschen Mobilfunkmarkt. Die Gewichtung der Mobilfunkaktivitäten basiert auf dem Standort bzw. der Postleitzahl des allerersten Signals eines mobilen Endgerätes zu Beginn seiner Aktivitätenkette. Das bedeutet, dass die Hochrechnung aller gezählten Aktivitäten eines mobilen Endgerätes im Tagesverlauf nur durch den Marktanteil der Postleitzahl der ersten gezählten Aktivität bedingt wird. Zudem erfolgt die Hochrechnung nur auf die Gesamtanzahl aller Mobilfunknutzer. Aktuell besitzen rund 80 Prozent der deutschen Bevölkerung ein Mobiltelefon.7 Entsprechend werden 20 Prozent der Bevölkerung nicht in der Hochrechnung berücksichtigt. Durch den Einsatz einer Kerndichteschätzung kann zudem unabhängig von der zugrundeliegenden geographischen Einheit eine Umvertei7
Vgl. https://de.statista.com/statistik/daten/studie/585883/umfrage/anteilder-smartphone-nutzer-in-deutschland/, Zugriff am 08.06.2017.
46
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
lung auf weitere zu interessierende Geometrien erfolgen. Durch dieses Verfahren entsteht allerdings eine zusätzliche Unsicherheit in den Mobilfunkaktivitäten, die sich vor allem dann stärker auswirkt, je kleiner die Geometrien werden. Zudem wurden nur Mobilfunkaktivitäten eines Anbieters in Deutschland analysiert. Die dadurch entstehenden Verzerrungen werden durch die jeweiligen Marktanteile bedingt und sind in der räumlichen Verteilung der Mobilfunkaktivitäten sichtbar. Auch in den soziodemografischen Merkmalen spiegelt sich die Kundenstruktur des Mobilfunkanbieters wieder, welche aufgrund der starken Selektivität nicht näher vorgestellt wurden. Da ist die bundesweite Repräsentativität der Daten essentiell ist, müssen weitere Schritte unternommen werden, um künftig möglichst Daten aller Mobilfunkanbieter in Deutschland zu erhalten. Neben der Bevölkerungsdarstellung mittels Mobilfunkdaten sollte sich eine weitere Forschungsfrage damit auseinandersetzen, inwieweit eine Modellierung von zeitlichen Bevölkerungsfortschreibungen mit Hilfe routinemäßig erhobener Mobilfunkdaten erfolgen kann bzw. inwieweit Mobilfunkdaten als zeitliche Fortschreibung für intra-zensus Perioden genutzt werden können. Dies kann durch eine mögliche Kalibration der Mobilfunkdaten auf den künftigen Zensus 2021 erfolgen. Anhand der damit errechneten Korrekturfaktoren kann anschließend mittels aktuellster Mobilfunkdaten ein regelmäßiges Update der Bevölkerung auch nach soziodemografischen Merkmalen erfolgen und so als eine Ergänzung der jährlichen Bevölkerungsfortschreibung gesehen werden. Neben der hier beschriebenen direkten Nutzung von Mobilfunkdaten können diese auch als Zusatz- oder Hilfsinformationen für andere Statistiken oder Indikatoren genutzt werden. Beispielsweise wurden im Rahmen des ESSnet Projektes „City Data from LFS and Big Data“ Indikatoren der Arbeitskräfteerhebung mittels Small-Area-Verfahren unter Verwendung von Mobilfunkdaten auf kleinräumige Ebenen geschätzt (European Commission 2019). Durch dieses Verfahren konnten für Gebiete ohne Beobachtungen verlässliche Schätzer ausgegeben werden. Gleichzeitig konnte hierdurch die Unsicherheit bei der Schätzung der Erwerbslosenquote auf Ebene von sogenannten „Funktionalen Städtischen Gebieten“ – welche auf ausgewählten Gemeinden und Kreisen basieren – verringert werden. Um diese Verfahren allerdings dauerhaft umsetzen zu können, wird ein uneingeschränkter Datenzugang benötigt. Neue digitale Daten werden vorwiegend in privaten Unternehmen generiert und gehalten. Um sie langfristig in die amtliche Statistikproduktion integrieren zu kön-
Qualität bei zusammengeführten Daten
47
nen, müssen neue Rechtsgrundlagen geschaffen werden, um den Zugang zu privat gehaltenen Daten dauerhaft zu sichern.
Literatur Celeux, G., & Diebolt, J. (1985). The SEM algorithm: A probabilistic teacher algorithm derived from the EM algorithm for the mixture problem. Computational Statistics Quarterly, 2, 73-82. Daas, P. J., Puts, M. J., Buelens, B., & van den Hurk, P. A. (2013). Big data and official statistics. New Techniques and Technologies for Statistics (NTTS) Conference. Brussels. Belgium. De Meersman, F., Seynaeve, G., Debusschere, M., Lusyne, P., Dewitte, P., Baeyens, Y., Wirthmann, A., Demunter, C., Reis, F., & Reuter, H. I. (2016). Assessing the Quality of Mobile Phone Data as a Source of Statistics. European Conference on Quality in Official Statistics. Madrid. Spain. Deville, P., Linarde, C., Martine, S., Gilbert, M., Stevens, F. R., Gaughan, A. E., Blondela, V. D., & Tatem, A. J. (2014). Dynamic population mapping using mobile phone data. Proceedings of the National Academy of Sciences, 111 (45), 15888-15893. European Commission. (2019). Study: City data from LFS and Big Data (Regional Policy: Newsroom). https://ec.europa.eu/regional_ policy/en/newsroom/news/2019/06/26-06-2019-study-city-datafrom-lfs-and-big-data. Zugegriffen: 11. Juli 2019. Grohmann, H. (2011). Volkszählung und Mikrozensus. In H. Grohmann, W. Kramer, & A. Steger (Hrsg.), Statistik in Deutschland (S. 207-221). Berlin, Heidelberg: Springer. Groß, M., Rendtel, U., Schmid, T., Schmon, S., & Tzavidis, N. (2017). Estimating the density of ethnic minorities and aged people in Berlin: Multivariate kernel density estimation applied to sensitive geo-referenced administrative data protected via measurement error. Journal of the Royal Statistical Society: Series A (Statistics in Society), 180(1), 161-183. Groß, M. (2018). Kernelheaping: Kernel Density Estimation for Heaped and Rounded Data. R package version 2.0.0. https://cran.r-project. org/web/packages/Kernelheaping/Kernelheaping.pdf. Zugegriffen: 12 Februar 2018. Heinzel, A. (2006). Volkszählung 2011: Deutschland bereitet sich auf den registergestützten Zensus vor. Berliner Statistik, 7, 321-328.
48
Hadam et al. | Kleinräumige Prädiktion von Bevölkerungszahlen
Krzossa, T. (2019). Nachgefragt: Was genau kann welche Frequenz? (Vodafone Newsroom). https://www.vodafone.de/medien/netz/5gauktion-welche-frequenz-eignet-sich-wofuer. Zugegriffen: 5. April 2019. Makita, N., Kimura, M., Terada, M., Kobayashi, M., & Oyabu, Y. (2013). Can mobile phone network data be used to estimate small area population? A comparison from Japan. Statistical Journal of the IAOS, 29, 223-232. Schmid, T., Bruckschen, F., Salvati, N., & Zbiranski, T. (2017). Constructing socio demographic indicators for National Statistical Institutes using mobile phone data: estimating literacy rates in Senegal. Journal of the Royal Statistical Society: Series A (Statistics in Social Sciences), 180(4), 1163-1190. Statistisches Bundesamt. (2016). Zensus 2011. Qualitätsbericht. Wiesbaden. Statistisches Bundesamt. (2017). Fortschreibung des Bevölkerungsstandes (Bevölkerungsfortschreibung). Qualitätsbericht. Wiesbaden. Tzavidis, N., Zhang, L.-C., Luna, A., Schmid, T., & Rojas-Perilla, N. (2018). From start to finish: a framework for the production of small area official statistics. Journal of the Royal Statistical Society: Series A (Statistics in Social Sciences), 181(4), 927-979. Wand, M., & Jones, M. (1994). Multivariate plug-in bandwidth selection. Computational Statistics, 9(2), 97-116. Wiengarten, L., & Zwick, M. (2017). Neue digitale Daten in der amtlichen Statistik, Wirtschaft und Statistik, Heft 5. Zwick, M. (2016). Big Data und amtliche Statistik. In B. Keller, H.-W. Klein, & S. Tuschl (Hrsg.), Marktforschung der Zukunft – Mensch oder Maschine? (S. 157-172). Wiesbaden: Springer Gabler.
Mehr Transparenz und Qualität mit innovativen Small Area Methoden Barbara Wawrzyniak infas 360 GmbH
1 Einleitung Der Einsatz von Geodaten und regionalisierten Kennziffern ist im Geomarketing ein Grundbaustein und hilft beispielsweise Unternehmen bei einer optimierten Aussteuerung von Marketingaktivitäten oder Standortplanungen. Seit einigen Jahren steigt aber auch in anderen Disziplinen die Nachfrage nach mikrogeographischen Daten, z.B. als Anreicherung an georeferenzierte Umfragedaten. Damit einher geht u.a. die Fragestellung nach einem möglichen Wirkungszusammenhang zwischen Nachbarschaftskontexten und sozialem Handeln (vgl. Müller 2019, S. 211). Diese Analysen erfordern kleinräumige Daten, um einen ökologischen Fehlschluss auf höheren Aggregatebenen zu umgehen (Müller et al. 2017, S. 7), da z.B. auf Gemeindeebene die Heterogenität der Siedlungsstrukturen nicht adäquat abgebildet werden. Um diesen wachsenden Bedarf an qualitativ hochwertigen Daten, die flächendeckend auf möglichst feinräumiger Ebene für ganz Deutschland zur Verfügung stehen sollen, zu decken, bedient sich infas 360 intensiv der Small Area Methoden (SAM). Mit klassischen Schätzmethoden gelangt man bei der Regionalisierung von Daten an Grenzen, da diese die Betrachtung von dem Merkmal ‚Raum‘ nicht ausreichend gewährleisten. Es sind zwar Annäherungen über dichotome Merkmale möglich, wie z.B. das Merkmal „Ost-/ Westdeutschland“, diese Modellierungen lassen sich aber nicht für mikrogeographische Ebenen, wie z.B. dem Ortsteil implementieren. Small Area Methoden liefern einen Beitrag zur Bewältigung dieser Herausforderung. SAM sind keine klassischen Geomarketing-Instrumente, sondern aus der Statistik entliehene Regressionsmodelle mit einem in© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_4
50
Wawrzyniak | Mehr Transparenz und Qualität
tegrierten Mehrebenenmodell, welches gerade für räumliche Analysen bestens geeignet ist. Im Wesentlichen geht es um Methoden zur Schätzung kleinräumiger Daten, bei denen die betroffenen Regionen nur sehr wenige oder gar keine Werte aufweisen. Im klassischen Verständnis handelt es sich bei diesen Modellen um indirekte Schätzverfahren, bei denen neben den direkten Parametern noch andere Hilfsinformationen genutzt werden, wie Werte aus benachbarten oder übergeordneten Ebenen oder aber auch Werte aus früheren Befragungen. Als Spezialist für raumbezogene Daten und Analysen erstellt infas 360 jedes Jahr eine komplette Datenbank bestehend aus Geo- und Sachdaten, die Deutschland flächendeckend bis auf Ebene der postalischen Einzeladresse beschreibt. Basis dieser Datenbank bilden amtliche Geodaten (z.B. Katasterkoordinaten, 3D-Gebäudedaten und Siedlungsblöcke) sowie amtliche Strukturen (z.B. amtliche Stadt- und Ortsteile mit Gemeindestand). In diesem Beitrag wird zum einen die bereitgestellte Datenbasis inkl. Raumordnungsstruktur erläutert und zum anderen wird anhand von zwei Anwendungsfällen aufgezeigt, wie mit der Zusammenführung von (unterschiedlichen) Ausgangsdatensätzen mit Geodaten und der Betrachtung der Lage mittels SAM valide, feinräumige Schätzergebnisse produziert werden. Bevor allerdings die Datenbasis beleuchtet werden kann, muss zuerst erläutert werden, wie ein Ausgangsdatensatz mit den Informationen einer Geodatenbank verbunden werden kann.
2 Geokodierung Unter dem Begriff Geokodierung, Georeferenzierung oder Adressverortung versteht man die Anreicherung von Adressen um geographische Koordinaten sowie deren Validierung und Bereinigung. Zusätzlich werden bei der Geokodierung die Adressen mit Geoschlüsseln versehen, um diese mit Variablen auf verschiedenen Ebenen (Gemeinde, Ortsteil, Siedlungsblock, Straßenabschnitt, Hausumring, Adresse) zu veredeln (vgl. Gladis 2018, S. 137). Durch die Geokodierung wird das Zusammenführen von unterschiedlichen Datensätzen mit Rauminformation erst ermöglicht. Für das Geokodieren wird zum einen eine Referenzdatenbank benötigt und zum anderen eine Software, die den Abgleich zwischen Inputdaten und der Referenzdatenbank übernimmt. Der Abgleich ist eine logische Suche nach dem bestmöglichen 1:1 Treffer von Inputadresse zur Georeferenzdatei. Diese beinhaltet möglichst alle postalischen Ad-
Qualität bei zusammengeführten Daten
51
ressen zu einem bestimmten Zeitpunkt, d.h. alle Postleitzahlen und Postorte zu einem bestimmten Zeitpunkt (Postalischer Gebietsstand) sowie alle Orte und Gemeinden mit Ortsteilen, Straßen, Hausnummern und Hausnummernzusätzen zu einem bestimmten Zeitpunkt (Amtlicher Gebietsstand).
3
Das postalische-amtliche Gliederungssystem (PAGS) als einheitliche Gebiets- und Datenstruktur
Im vorangehenden Abschnitt wurde beschrieben, wie die Geokodierung von Adressdaten umgesetzt wird. Diese ist zwingend notwendig um den Ausgangsdatensatz (z.B. Befragungsdatensätze, Kundendaten) mit weiteren Rauminformationen anzureichern. Sachdaten mit räumlichem Bezug können auf unterschiedlichen Ebenen vorliegen. Allgemein bekannt sind die statistischen Auswertungen auf Gemeindeoder Kreisebene, die vom Statistischen Bundesamt oder aber von den jeweiligen Statistischen Landesämtern für eine Fülle von Themen bereitgestellt werden (z.B. auf regionalstatistik.de, govdata.de etc). Daten, die die Ebenen unterhalb der Gemeinde beschreiben, wie z.B. Stadt-/ Ortsteile werden von wenigen Großstädten bereitgestellt, sind aber flächendeckend nicht verfügbar. Für feinräumige Analysen stellen diese Einheiten aber keinen geeigneten Analyserahmen dar, weshalb Daten auf Ebene des Siedlungsblocks oder gar des Gebäudes von weitaus größerer Bedeutung sind. Um diesen Bedarf decken zu können, hat die infas 360 eine deutschlandweite, flächendeckende Datenbank aufgebaut, die auf amtlichen Strukturen und amtlichen Daten basiert und die um Drittquellen ergänzt wird. Das Bundesamt für Kartographie und Geodäsie (BKG) ist der zentrale Dienstleister des Bundes für topographische Grundlagendaten, Kartographie und geodätische Referenzsysteme. Seine Aufgaben sind unter anderem der Aufbau und Ausbau einer bundesweiten Geodateninfrastruktur, die Bereitstellung amtlicher Geodaten sowie die Einrichtung eines einheitlichen Koordinatensystems in Deutschland. Die vom BKG bereitgestellten amtlichen Strukturen sind ein hierarchisches System, welches das Bundesgebiet in die Ebenen der Bundesländer, Regierungsbezirke, Landkreise und Gemeinden unterteilt (vgl. Eichhorn 2018, S. 60ff).
52
Wawrzyniak | Mehr Transparenz und Qualität
Bundesländer Es gibt bei den Bundesländern sogenannte Stadtstaaten (Berlin, Hamburg und Bremen), die nur aus einer Stadt und ihrem Umland bestehen. Die restlichen 13 Bundesländer werden als Flächenländer bezeichnet. Alle Bundesländer sind flächendeckend, d.h. gemeinsam bilden die 16 Bundesländer die gesamte Fläche Deutschlands ab. Regierungsbezirke Die Ebene unterhalb der Bundesländer sind die Regierungsbezirke. Sie stellen eine Mittelinstanz zwischen den oberen Landesbehörden und dem Landrat als untere Landesbehörde für den Bezirk eines Kreises dar. Regierungsbezirke sind nur in einigen größeren Flächenstaaten eingerichtet. Einige Bundesländer haben die Regierungsbezirke in den letzten Jahren abgeschafft, so beispielsweise 1999 in Rheinland-Pfalz, 2004 in Niedersachsen und 2012 in Sachsen. Mittlerweile existiert diese Gliederungsebene nur noch in fünf Bundesländern: Nordrhein-Westfalen, Hessen, Sachsen (seit 2008 als Direktionsbezirke geführt), BadenWürttemberg und Bayern. Landkreise Die zweite Gliederungsebene bilden die Landkreise, auch Kreise genannt, die nach deutschem Recht einen Gemeindeverband und eine Gebietskörperschaft bilden, die ihr Gebiet nach den Grundsätzen der kommunalen Selbstverwaltung organisieren. Die meisten Bundesländer verwenden offiziell die längere Bezeichnung Landkreis, das Grundgesetz hingegen verwendet nur die in Nordrhein-Westfalen und Schleswig-Holstein übliche Bezeichnung „Kreis“. Die Stadtstaaten unterliegen keiner weiteren Einteilung in Kreise. Neben den Kreisen gibt es noch kreisfreie Städte, die keinem Landkreis angehören. Hier übernehmen die Städte selbst die Aufgaben und Zuständigkeiten des Landkreises. In der Region Hannover wurden die ehemals kreisfreie Stadt Hannover und das Umland zusammengeführt. Die Stadt Hannover hat hierbei viele Rechte einer kreisfreien Stadt behalten und übernimmt dazu Kreisverwaltungsaufgaben. Ähnliche Zusammenschlüsse und damit eine Sonderstellung auf der Ebene der Kreise bilden die Städteregion Aachen und der Regionalverband Saarbrücken. Insgesamt bilden 294 Kreise und 107 kreisfreie Städte eine flächendeckende Gliederungsebene, so dass jedes Bundesland flächenmäßig komplett in seine einzelnen Kreise aufgeteilt werden kann. Die Zahl hat
Qualität bei zusammengeführten Daten
53
in den letzten Jahren durch Gebietsreformen deutlich abgenommen, so waren es 2008 noch 322 Landkreise und 117 kreisfreie Städte. Gemeinden Die Gemeinden stellen die unterste Stufe des Verwaltungsaufbaus in Deutschland dar. Die Struktur der Gemeinden ist sehr heterogen, sodass sich einzelne Gemeinden in Größe (Fläche) und Einwohnerzahlen sehr stark unterscheiden. In einigen Bundesländern, wie Rheinland-Pfalz oder Schleswig-Holstein, sind die Gemeinden häufig so klein, dass sie keine eigenen Verwaltungsbehörden besitzen. Diese Gemeinden sind in Gemeindeverbänden organisiert, die die Verwaltung mehrerer Gemeinden in einer zentralen Stelle zusammenführen. Diese Gemeindeverbände werden in Schleswig-Holstein Ämter genannt, in Rheinland-Pfalz Verbandsgemeinden, in Bayern Verwaltungsgemeinschaften und in Niedersachsen Samtgemeinden.
Abbildung 1 Aufbau der Geodatenstruktur bei infas360 (eigene Darstellung)
54
Wawrzyniak | Mehr Transparenz und Qualität
Stadt- und Ortsteile, Ortslagen Unterhalb der Gemeinde existieren viele diverse Lagebezeichnungen und Gliederungsebenen. Am gängigsten lassen sich die Einheiten dieser Ebene mit den Begriffen Ortsteile oder in Städten Stadtteile bezeichnen, sie können aber auch als Teilorte, Ortslagen, Stadtteile, Stadtbezirke oder Siedlungen bezeichnet werden. In vielen Großstädten existieren weitere Gliederungsebenen. Beispielsweise wird Köln in neun Stadtbezirke und darunter in 86 Stadtteile unterteilt, die lokale Bevölkerung kennt darüber hinaus die noch kleinteiligeren „Veedel“. Diese teils mehrstufige und mit verschiedenen Sammelbegriffen belegte Ebene stellt jedoch eine wichtige raumplanerische und siedlungsgeografische Ebene dar, da sie auf die regionalen und lokalen Gegebenheiten und Besonderheiten Bezug nimmt. In den ländlich geprägten Gebieten werden einzelne Ortschaften voneinander unterschieden und dann meist als Ortsteil oder Ortschaft bezeichnet. Die passende amtliche topografische Ebene ist die Ortslage, die ein topografisch zusammenhängendes Siedlungsgebiet beschreibt. Ortslagen sind jedoch keine Verwaltungseinheiten. Das soziodemografische Problem bei Ortslagen ist die Vergleichbarkeit untereinander, da sowohl das zusammenhängende Siedlungsgebiet einer Großstadt eine Ortslage darstellt wie auch eine einzelne Ortschaft in einer mehrere Orte umfassenden Kleingemeinde. Amtliche Siedlungsflächen Die derzeit räumlich flächendeckend verfügbare Flächenebene sind die amtlichen Siedlungsflächen, auch Siedlungsblöcke genannt. Diese werden vom Bundesamt für Kartographie und Geodäsie (BKG) unter der Objektart ‚SIE02‘ geführt und vermarktet und stammen aus dem DLM. Sie beschreiben vereinfacht die bebauten Flächen einer vom Menschen geprägten Ansiedlung. Die amtlichen Ebenen der Fluren und Flurstücke werden sukzessiv recherchiert und eingepflegt, stehen aber zum Zeitpunkt des Artikels noch nicht flächendeckend so zur Verfügung, dass eine Kommerzialisierung aus Kosten-Nutzen-Aspekten sinnvoll wäre. Die Open Data Bestrebungen der Bundesländer lässt aber hoffen, dass dies nur noch eine Frage der Zeit ist. So sind z.B. die Flurstücke von NRW bereits flächendeckend verfügbar.
Qualität bei zusammengeführten Daten
55
Gebäude- und Adressdaten Die geographisch ‚kleinste‘ Ebene stellen die Gebäude und deren Adressen dar. Da sich in einem Gebäude mehrere Adressen befinden können, spricht man mikrogeografisch bei der Einzeladresse von der feinsten Ebene. Die Herausforderung besteht aktuell darin, die beiden amtlichen Gebäudebestände aus Hausumringen und LOD-1 mit den Adressen der Katasterkoordinaten zu verschneiden, um eine einheitliche amtliche Datenbasis zu schaffen, worauf sich infas 360 in den vergangenen Jahren spezialisiert hat. (Hinweis: Auch die Adressen der amtlichen Katasterkoordinaten, obwohl oder weil mit den Adressen der Deutschen Post AG abgeglichen, haben in sich keinen einheitlichen Gebietsstand, weder amtlich noch postalisch.) Im Ergebnis liegen jährlich für jede einzelne Ebene Daten zur Bebauungsstruktur, zur Siedlungsstruktur und zur Soziodemographie vor. Insgesamt stehen auf den mikrogeografischen Ebenen (alles unterhalb der Gemeinde) rund 700 Variablen zur Verfügung. Auf den makrogeografischen Ebenen (ab Gemeinde aufwärts) sind es sogar noch weitaus mehr, da von den amtlichen Statistikämtern eine Vielzahl an Daten bereitgestellt werden, die über den amtlichen Gemeinde- oder Kreisschlüssel sehr einfach an die Adressdaten der infas 360 angespielt werden können. Ein zusätzlicher Vorteil dieser Datenstruktur ist, dass sich die einzelnen Merkmale sehr einfach von den feineren Ebenen auf die gröberen Ebenen aggregieren lassen.
4
Verbesserung von Schätzergebnissen mit Small Area Methoden
Seit ein paar Jahren etabliert sich in der Forschungslandschaft mit den Small-Area-Methoden ein neues Schätzverfahren, mit dem auch für kleine Gebiete verlässliche Statistiken erstellt werden können. Mit SAM werden feinräumige Datenstrukturen definiert, die Grundlage für Stichprobenverfahren in der regionalen Marktforschung sind bzw. zur Regionalisierung von Befragungsergebnissen herangezogen werden. Mikrogeographie wird so völlig neu definiert. Das Verfahren verspricht es, die regionalisierte, kleinräumige Marktforschung auf ein völlig neues Qualitätsniveau zu heben, ohne dafür den wirtschaftlichen Aufwand in die Höhe zu treiben. Die Modelle, die als SAM bezeichnet werden, sind Spezialfälle des allgemeinen gemischten linearen Regressionsmodells (vgl. Articus 2013, S. 7). Damit sollte für den Anwender bereits an dieser Stelle ersichtlich
56
Wawrzyniak | Mehr Transparenz und Qualität
sein, dass sich diese Modelle nicht für alle Arten von Variablen eignen. Bei den interessierenden, zu schätzenden Merkmalen, sollte es sich um metrische Variablen handeln, wie z.B. Kaufpreise, monatliche Ausgaben für bestimmte Bereiche, Anzahl an Nutzern, Anteile. Was nicht zu modellieren ist, sind Wahrscheinlichkeiten, zu welcher Gruppe ein bestimmtes Objekt gehört. Grundsätzlich lassen sich drei Arten von Small-Area-Modellen ausmachen. Liegen Informationen auf Ebene der einzelnen Erhebungseinheit vor, also auf Mikroebene, so spricht man vom Unit-Level-Modell und verwendet den Battese-Harter-Fuller-Schätzer. Werden Informationen auf aggregierter Ebene verwendet, so spricht man vom Fay-Herriot-Schätzer und einem Area-Level-Modell (vgl. Münnich et al. 2013, S. 163). Das dritte Modell besteht aus einer Kombination der beiden Vorangehenden. Das Verwenden von zusätzlichen Informationen, die nicht direkt mit der Befragung gemeinsam erhoben wurden, ist ein wesentliches Element der SAM und keineswegs gängige Praxis in der klassischen Verwendung von statistischen Verfahren. Durch das Anspielen externer Daten wird nicht nur ein Zusatzgewinn an Informationen erlangt, sondern es ermöglicht auch Informationen aus benachbarten oder ähnlichen Gebieten zu nutzen, um das Modell zu stärken. „In der Small-Area-Literatur wird die Verbesserung der Genauigkeit der Schätzung auf kleinen Gebieten (oder Subgruppen) durch die Verwendung von statistischen Modellen auch mit borrowing strength bezeichnet, also dem Borgen von Informationen aus benachbarten oder ähnlichen Gebieten. Hierbei wird versucht, Gemeinsamkeiten und Unterschiede verschiedener Gebiete oder Teilpopulationen in einem Modell abzubilden und dann dieses Modell für die Vorhersage der Populationskennwerte geeignet zu verwenden.“ (Münnich et al. 2013, S. 151f.).
4.1 Voraussetzungen Für die Verwendung von Small Area Methoden müssen bestimmte Voraussetzungen an die Datenstruktur erfüllt sein, damit eine sinnvolle Berechnung möglich ist. Die verwendeten Ebenen müssen hierarchisch aufgebaut sein, d.h. die Objekte in den unteren Ebenen müssen disjunkt zueinander sein und dürfen somit nur einer Einheit der darüber liegenden Ebene zugeordnet sein. Diese Voraussetzung erfüllt die von infas 360 generierte Datenstruktur. Anschaulich dargestellt ist diese Annahme in Abbildung 2. Zu sehen ist ein beispielhafter Aufbau der Daten, der zur Berechnung von Mietpreisen oder anderer interessierender Merkmale verwendet werden kann. Auf der untersten Ebene befin-
Qualität bei zusammengeführten Daten
57
den sich Wohngebäude, die sich durch zahlreiche Parameter beschreiben lassen: Gebäudetyp (z.B. Einfamilienhaus, Mehrfamilienhaus etc.), Baujahr, Wohnfläche, Vorhandensein einer Solaranlage, Distanz zum nächsten Arzt usw. Diese Gebäude befinden sich in einem Quartier, für das ebenfalls zahlreiche Informationen zur Verfügung stehen: Bebauungsstruktur, Kaufkraft, Anzahl Kinder, Eigentümeranteil usw. Wichtig ist, dass die Gebäude jeweils nur einem Quartier zugeordnet werden, da sie sonst nicht mehr disjunkt sind. Als oberste Ebene ist hier beispielhaft die Gemeinde aufgeführt, für die von amtlicher Seite aus sehr viele Daten bereitgestellt werden.
Abbildung 2 Schematische Darstellung eines hierarchischen Mehrebenenmodells mit möglichen Variablen für die einzelnen Ebenen
Diese Darstellung ist wie bereits erwähnt nur ein Beispiel und kann beliebig modifiziert werden. Die Auswahl der Ebenen für ein Modell hängt von mehreren Faktoren ab und ist keineswegs festgeschrieben, sondern sollte für jede Berechnung neu überdacht werden. Zum einen ist die Datenlage ein wesentliches Kriterium: Welche Variablen liegen auf welcher Ebene vor und welche davon können einen Erklärungsbeitrag leisten? Wie feinräumig soll die Schätzung sein: sehr fein auf Gebäudeebene oder genügt eine gröbere Ebene, wie die Orts- bzw. Stadtteile?
4.2 Vorgehen Beim Berechnen von feinräumigen Daten sollte am Anfang immer die Überprüfung der abhängigen Variable bzw. des interessierenden Merkmals stehen. Dabei sind im Wesentlichen drei Punkte zu beachten:
58
Wawrzyniak | Mehr Transparenz und Qualität
1. Auf welcher Ebene befindet sich das Merkmal und was ist die Zielebene? Liegen die Daten zwar auf Gebäudeebene vor, muss das nicht zwangsläufig die Zielebene sein, eine Aggregation auf den Siedlungsblock genügt eventuell für die Beantwortung der Fragestellung. Erfahrungsgemäß führt eine Schätzung auf einer tieferen Ebene und die anschließende Aggregation auf die Zielebene zu besseren Ergebnissen, da damit die heterogene Struktur der Zielebene besser abgebildet wird. 2. Welches Skalenniveau besitzt das Merkmal? Wie im obigen Abschnitt bereits erwähnt, sind die Small Area Methoden ein Spezialfall des allgemeinen gemischten linearen Regressionsmodells, weshalb das Skalenniveau metrisch sein muss (also entweder Intervall- oder Verhältnisskala). Damit zusammenhängend sollte die Verteilung der Variablen geprüft werden: Spannweite, Minimum und Maximum, Median bzw. Mittelwert und Ausreißer sollten betrachtet werden. Letztere sollten u.U. aus den Analysen ausgeschlossen werden. 3. Mit welchen Variablen hängt das interessierende Merkmal zusammen bzw. wodurch lässt es sich am besten bestimmen? Bei der Auswahl der unabhängigen Variablen kann man sowohl hypothesenbasiert vorgehen oder aber sich auf bereits vorhandene Studien stützen. Einen ersten Anhaltspunkt bietet eine Korrelationsmatrix, in der quasi alle vorhandenen Variablen in Relation zum abhängigen Merkmal gesetzt werden. Bevor die eigentliche Berechnung erfolgt, muss geklärt sein, was die Ausgangsebene und was die Zielebene ist, wie sich die abhängige Variable verteilt und welche möglichen Variablen und Ebenen ins Modell einfließen sollen. Sind diese Punkte geklärt, kann das Mehrebenenmodell programmiert werden. Dies funktioniert mit vielen gängigen Statistiksoftwares, erfahrungsgemäß bietet SAS die dafür geeigneten Befehle an. Für die Implementierung eines Modells kann es durchaus notwendig sein mehrere Optionen durchrechnen zu lassen. Zum einen durch das Einsetzen unterschiedlicher Ebenen, um klären zu können, welche Ebene die Erklärungskraft des Modells erhöht. Zum anderen durch das Einsetzen unterschiedlicher Variablen, ebenfalls zur Identifikation signifikanter Zusammenhänge. Stehen alle Parameter fest, kann mit der Übertragung der Werte von der Analysestichprobe auf die Grundgesamtheit begonnen werden.
Qualität bei zusammengeführten Daten
4.3
59
Fallbeispiel 1: Schätzung von Kaufpreisen
Als Beispiel für die Anwendung eines SAM-Modells wird die Schätzung von Kaufpreisen für Einfamilienhäuser dargestellt. Als Ausgangsbasis bzw. Echtwerte dienen etwa 2,5 Millionen Kaufpreise auf Adressebene (Quelle: u.a. Scout24). Somit ist die Adresse die Ausgangsebene als auch die Zielebene, denn Ziel der Analyse ist die Schätzung von Kaufpreisen für ca. 14,5 Millionen Ein- bis Zweifamilienhäuser deutschlandweit. Als relevante Ebenen erweisen sich der Ortsteil und der Kreis. Die Variablen mit dem höchsten erklärten Anteil sind folgende: auf Ebene des Gebäudes sind es der Gebäudetyp (z.B. freistehendes Einfamilienhaus, Reihenhaus usw.), das Baujahr, die Wohnfläche und die Zentralität. Auf Ebene des Ortsteils fließen die Arbeitslosenquote und der Anteil an Einfamilienhäusern ein und auf Kreisebene wird der Kaufpreis für Bauland (aus amtlicher Basis) genutzt. Als Ergebnis der Analyse erhält man nicht nur die Einflussgröße der einzelnen im Modell eingehenden Variablen und Ebenen, sondern ebenfalls geschätzte Kaufpreise für jedes Einfamilienhaus in ganz Deutschland. Um nun den Vorteil der hier angewendeten SAM-Modelle herauszustellen, werden die daraus resultierenden Schätzergebnisse mit denen einer klassischen Schätzmethode verglichen, bei der die Lage der einzelnen Objekte keine Rolle in der Berechnung der Schätzer spielt. Exemplarisch dafür werden Ergebnisse für zwei Stadtteile in Köln betrachtet, die in ihrer Einkommens- und Siedlungsstruktur unterschiedlich sind. In Abbildung 3 sind die Schätzergebnisse für die Kölner Ortsteile Bickendorf und Bayenthal dargestellt, zum einen über ein lineares Regressionsmodell ohne Lagebetrachtung bzw. ohne Ebenenmodellierung und zum anderen mittels SAM. Vergleicht man nun die Ergebnisse miteinander so stellt man sehr schnell fest, dass die vorhandenen Preisunterschiede zwischen Einfamilienhäusern in den beiden Ortsteilen mit der klassischen Schätzung nivelliert werden. Man erhält also geschätzte Kaufpreise, bei denen zwar die einzelnen Parameter eines Gebäudes, wie Baujahr, Wohnfläche etc. betrachten werden, nicht aber ihre Lage. So werden nicht nur zwischen Bayenthal und Bickendorf die preislichen Unterschiede angepasst, da die Schätzungen deutschlandweit vollzogen werden, führt es dazu, dass ein Einfamilienhaus im östlichen Landkreis Görlitz einen ähnlichen Kaufpreis erhält, wie ein ähnliches Einfamilienhaus in München. Um diesen Verzerrungen entgegenzuwirken, ist es nicht nur sinnvoll, sondern auch dringend anzuraten die Verortung der Objekte im Modell mit zu betrachten.
60
Wawrzyniak | Mehr Transparenz und Qualität
Abbildung 3 Vergleich der Schätzergebnisse der Kaufpreise für Einfamilienhäuser aus einem klassischen, linearen Regressionsmodell und aus einem Mehrebenenmodell
Im rechten Diagramm sind die Ergebnisse aus dem SAM-Modell dargestellt und daran lässt sich sehr gut ablesen, dass es einen nicht zu geringen Preisunterschied zwischen den beiden Ortsteilen gibt, der bei der Schätzung mitbetrachtet und im Modell durch die Einbindung der Ebenen Ortsteil und Kreis aufgefangen wird. Mit SAM wird es also möglich die regionalen Disparitäten zwischen einzelnen Regionen adäquat abzubilden. In Abbildung 4 sind die Schätzergebnisse pro Stadtteil (mittlerer Kaufpreis für Einfamilienhäuser) in Köln dargestellt. Da die Schätzungen für jedes Einfamilienhaus in Köln durchgeführt wurden, wird für jedes davon ein theoretischer Kaufpreis ausgewiesen, wobei die Anzahl der Einfamilienhäuser stark zwischen den Stadtteilen variiert, z.B. gibt es in den innerstädtischen Ortslagen weitaus weniger Einfamilienhäuser als in den Randgebieten.
Qualität bei zusammengeführten Daten
61
Worringen
Roggendorf/Thenhoven Blumenberg
Merkenich
Chorweiler Volkhoven/Weiler
Fühlingen Seeberg
Heimersdorf
Esch/Auweiler
Lindweiler
Pesch
Niehl
Stammheim
Ossendorf
Lövenich
Mauenheim Bickendorf
Vogelsang
Weiden
Mülheim
Bilderstöckchen Nippes
Riehl
Buchheim
Neustadt/Nord
Lindenthal
Humboldt/Gremberg Poll
Gremberghoven
Bayenthal Marienburg
Raderthal Rondorf
Westhoven Ensen
Rodenkirchen
bis 300.000 €
Meschenich Immendorf
Weiß
Eil Finkenberg Porz
Hahnwald
Godorf
Urbach Grengel
Elsdorf Sürth
Mittlere Kaufpreise in Euro
Rath/Heumar
Ostheim
Neustadt/Süd Raderberg
Klettenberg
Brück
Neubrück
Vingst
Altstadt/Süd
Zollstock
Merheim
Kalk Höhenberg
Deutz
Junkersdorf Sülz
Buchforst
Altstadt/Nord
Braunsfeld
Dellbrück Holweide
Neuehrenfeld Ehrenfeld
Müngersdorf
Höhenhaus
Weidenpesch
Bocklemünd/Mengenich Widdersdorf
Dünnwald
Flittard
Longerich
Langel
Zündorf
Wahnheide Wahn
Libur
Lind
über 300.000 € bis 400.000 € über 400.000 € bis 500.000 € über 500.000 € bis 600.000 € über 600.000 € bis 800.000 € über 800.000 € bis 1.000.000 € über 1.000.000 € bis 2.000.000 € über 2.000.000 €
Abbildung 4 Geschätzte mittlere Kaufpreise für Einfamilienhäuser pro Stadtteil in Köln (eigene Darstellung)
62
Wawrzyniak | Mehr Transparenz und Qualität
4.4 Fallbeispiel 2: Regionalisierung von Anteilen am Beispiel der Hundepopulation in Berlin Im zweiten, praxisnahen Beispiel sind die Zielsetzung und Ausgangslage etwas anders: Es geht nicht um die Generierung einer Variablen, die das Gebäude beschreibt, sondern um das Produzieren eines Kennwertes auf Ortsteilebene. Inhaltlich soll die Anzahl an Hunden für jeden Ortsteil deutschlandweit berechnet werden. Da diese Kennziffer nicht flächendeckend existiert, muss sie erst erstellt werden. Zum Abgleichen und Bewerten der Ergebnisse werden Informationen auf der Ebene der Stadtbezirke - eine Ebene über den Ortsteilen – für Berlin genutzt (Statistisches Jahrbuch Berlin 2014, S. 334). Den Ausgangsdatensatz bildet bei dieser Analyse ein Befragungsdatensatz eines Online-Access-Panels mit ca. 10.000 Befragten. Es gaben 2.176 Personen an, mindestens einen Hund zu besitzen (die Antwortkategorien waren: 1 Hund, 2 Hunde, 3 Hunde, mehr als 3 Hunde). Sowohl für die Gesamtstichprobe als auch für die Hundebesitzer lag die Adresse vor. Diese ist essentiell, denn erst durch die Adressangabe wird es möglich die Befragungsergebnisse mit den Geodaten über die Geokodierung zu verknüpfen. Nach der Geokodierung der Befragungsdaten werden diese mit einer Vielzahl an Variablen angereichert, über die sich bereits zusätzliche Erkenntnisse über die Befragung hinaus generieren lassen, wie z.B.: Hundebesitzer leben häufiger in Einfamilienhäusern mit großer Wohnfläche und großem Garten. Sie sind häufiger in Ortschaften anzutreffen mit einem hohen Anteil an Verheirateten mit Kindern und präferieren die Lage außerhalb des Stadtzentrums. Stehen die Befragungsdaten angereichert zur Verfügung kann mit der Analyse der abhängigen Variable (Anzahl Hunde) und der relevanten Ebenen begonnen werden. Für die Ebenen zeigten sich sowohl der Ortsteil, als auch die Kreisebene als relevante Lageinformationen. Als signifikante Variablen auf unterschiedlichen Ebenen zeigten sich folgende Merkmale: Auf der Ebene der Adresse bzw. des Gebäudes: u.a. Nahversorgungsindex, Altersklasse, Distanz zum nächsten Unterzentrum, der Gebäudetyp, das Gebäudevolumen, die Gartenfläche in Klassen. Auf der Ebene des Siedlungsblocks: u.a. Einwohneranteil, Alter 10-15, Mietpreise. Aus den Zensusrasterdaten war die Anzahl der ledigen Personen relevant. Zusätzlich wurden aus der Befragung heraus die Hundeanteile auf der PLZ1-Ebene (erste Ziffer der Postleitzahl) berechnet und im Modell aufgenommen. Für die deutschlandweite Schätzung werden nur Adressen verwendet, für die private Haushalte bekannt sind, das sind ca. 19 Mio. Ad-
Qualität bei zusammengeführten Daten
63
ressen. Es wird für jede Adresse eine geschätzte Anzahl an Hunden geschätzt. Negative Schätzergebnisse werden auf ‚fehlend‘ gesetzt und ‚fehlende Werte‘ über Mittelwerte im Siedlungsblock aufgefüllt. Da eine Mehrebenenschätzung sehr rechenintensiv ist und sehr viel Arbeitsspeicher in Beschlag nimmt, ist eine gleichzeitige Schätzung für 19 Mio. Adressen unter Berücksichtigung ihrer Lage im Ortsteil und Kreis schwer durchführbar. Darüber hinaus ist es für bestimmte Modelle sinnvoll, die Schätzungen nach Stadttypen aufzusplitten: es gibt dann je eine Schätzung für Adressen in Großstädten, in Mittelstädten und in Kleinstädten bzw. Landgemeinden. Als Ergebnis erhält man für jede Adresse, in der auch Haushalte bekannt sind, eine geschätzte Anzahl an Hunden. Diese wird in einem weiteren Schritt auf den Ortsteil aggregiert bzw. summiert und so wird für die ca. 70.000 Ortsteile in Deutschland die Anzahl an Hunden generiert. Beispielhaft werden die Ergebnisse für Berlin dargestellt:
Abbildung 5 Geschätzte Verteilung der Hundeanteile pro Ortsteil in Berlin (eigene Darstellung)
In Abbildung 5 ist eine Karte mit der Verteilung der Hunde über die 96 Ortsteile in Berlin abgebildet. Erkennbar sind höhere Anteile in den Randgebieten Berlins, in denen die Besiedlungsstruktur stärker von Einfamilienhäusern und Grünflächen geprägt ist. Aber auch inner-
64
Wawrzyniak | Mehr Transparenz und Qualität
städtisch scheint es Ortsteile zu geben, deren Siedlungsstruktur und Soziodemographie so gestaltet ist, dass dort häufiger Hundebesitzer anzutreffen sind. Um eine Aussage über die Trefferqualität der Schätzungen machen zu können, reicht es nicht aus, die Gütekriterien der Modelle zu betrachten. Es muss sichergestellt sein, dass mit der durchgeführten Schätzung die ‚Realität‘ bestmöglich abgebildet wird. Eine Möglichkeit dies sicherzustellen, ist der Abgleich mit vorhandenen amtlichen Daten auf höheren oder, wenn vorhanden, auf gleichen Ebenen (für einzelne Großstädte liegen eine Vielzahl an Informationen auf Orts-/Stadtteilebene vor). Für Berlin werden die Anteile der Hunde über die Stadtbezirke hinweg aus dem Statistischen Jahrbuch 2014 genutzt. Tabelle 1
Abgleich der Schätzergebnisse mit den amtlichen Werten für 2013 pro Stadtbezirk in Berlin
Stadtbezirk
Anteil Hunde Small Area Methoden
Anteil Hunde amtlich
Abweichung
Charlottenburg-Wilmersdorf
5,0
7,8
2,8
Friedrichshain-Kreuzberg
2,5
4,3
1,8
Lichtenberg
5,0
7,9
2,9
10,1
10,4
0,3
3,7
5,6
1,9
Neukölln
8,5
8,5
0
Pankow
11,0
9,7
-1,3
Reinickendorf
11,5
10,1
-1,4
9,4
9,0
-0,4
12,7
9,8
-2,9
8,9
8,7
-0,2
11,9
8,2
-3,7
100
100
100
Marzahn-Hellersdorf Mitte
Spandau Steglitz-Zehlendorf Tempelhof-Schöneberg Treptow-Köpenick Gesamt Berlin
In Tabelle 1 sind die aufsummierten Ergebnisse der Hundeschätzung und die amtliche Verteilung der Hunde pro Stadtbezirk dargestellt. Zusätzlich ist die Abweichung der Prozentpunkte abgebildet. Die höchste Abweichung liegt bei 3,7 Prozentpunkten, im Mittel weichen die Schätzwerte auf Stadtbezirksebene um 1,63 Prozentpunkte ab. Die Varianz
Qualität bei zusammengeführten Daten
65
auf Ortsteilebene wird sehr wahrscheinlich etwas höher ausfallen, lässt sich aber aufgrund der fehlenden Datenlage nicht belegen. Ein zusätzlicher Methodenvergleich (hier nicht dargestellt) zeigte allerdings, dass die Schätzung mittels SAM zu den präzisesten Ergebnissen führt.
5
Zusammenfassung: Vorteile und Vergleich zu herkömmlichen Schätzmethoden
Der Vorteil von Small Area Methoden (kurz SAM) gegenüber herkömmlichen Schätzmodellen besteht darin, dass durch die Verwendung der Hilfsvariablen nicht die Menge an empirischen Daten vorliegen muss, die bisherige Schätzverfahren benötigen. Voraussetzung dafür ist aber eine klare, hierarchische Struktur der Daten. Von daher ist für die Schätzung von raumbezogenen Daten die Schachtelung geografischer Ebenen zwingend, d.h., dass die Zielregionen räumlich voneinander abgegrenzt und hierarchisch strukturiert sein müssen. Die Summe der kleinräumigen Gebiete muss also z.B. exakt die Fläche der größeren Einheit sein, über die statistische Daten vorliegen. Die Kernkompetenz bei SAM liegt in der Modellierung der Daten, sprich in der Anwendung der verschiedenen Hilfsvariablen für die jeweiligen Schätzungen. Dabei werden je nach Untersuchungsgegenstand Gemeinsamkeiten und Unterschiede verschiedener Gebiete sowie sinnhafte Korrelationen abgebildet und diese dann für die Vorhersage der Kennwerte angewendet. Dabei werden verschiedene externe Variablen herangezogen und Korrelationen zu den angelegten Fragestellungen gebildet. Mögliche Hilfsvariablen sind z.B. Merkmalsausprägungen aus der Vergangenheit, Werte aus benachbarten oder übergeordneten Subpopulationen und/oder Werte von Hilfsvariablen, die stark mit dem interessierenden Merkmal korrelieren. Die Festlegung des geografischen Rasters ist grundsätzlich flexibel. Da aber die Verfügbarkeit feinräumiger amtlicher Daten stetig wächst, ist eine amtlich-räumliche Struktur zu empfehlen. Die Integration der PLZ-Systematik ist i.d.R. dann zwingend, wenn es um die Verortung von Befragungsdaten geht. Das Bindeglied dazu stellt die Geocodierung dar. infas 360 bedient sich deshalb dem PAGS-System, da es sowohl die postalische als auch die amtliche Struktur bis auf Adressebene eindeutig abbildet.
66
Wawrzyniak | Mehr Transparenz und Qualität
Literatur Articus, C. (2013). Small-Area-Verfahren zur Schätzung regionaler Mietpreise. Diplomarbeit, Universität Trier. Eichhorn, M. (2018). Räumliche Strukturen. In M. Herter, & K. Mühlbauer (Hrsg.), Handbuch Geomarketing (2., neu überarbeitete und erweiterte Auflage) (S. 60-72). Berlin: VDE Verlag Gladis, J. (2018). Geocodierung. In M. Herter, & K. Mühlbauer (Hrsg.), Handbuch Geomarketing (2., neu überarbeitete und erweiterte Auflage) (S. 137-139). Berlin: VDE Verlag Müller, S., Schweers, S., & Siegers, P. (2017). Geocoding and spatial linking of survey data: an introduction for social scientists. (GESIS Papers, 2017/15). Köln: GESIS – Institut für Sozialwissenschaften. http:// nbn-resolving.org/urn:nbn:de:0168-ssoar-52316-9 Müller, S. (2019). Räumliche Verknüpfung georeferenzierter Umfragedaten mit Geodaten: Chancen, Herausforderungen und praktische Empfehlungen. In U. Jensen, S. Netscher, & K. Weller (Hrsg.), Forschungsdatenmanagement, sozialwissenschaftlicher Umfragedaten: Grundlagen und praktische Lösungen für den Umgang mit quantitativen Forschungsdaten (S. 211-229). Opladen: Verlag Barbara Budrich. https://doi.org/10.3224/84742233 Münnich R., Burgard, J.P., & Vogt, M. (2013). Small-Area-Statistik: Methoden und Anwendungen. AStA Wirtschafts- und Sozialstatistisches Archiv, 6 (3-4), S. 149-191. Statistisches Jahrbuch Berlin (2014). Amt für Statistik Berlin-Brandenburg. Wawrzyniak, B. (2018). Small-Area-Methoden. In M. Herter, & K. Mühlbauer (Hrsg.), Handbuch Geomarketing (2., neu überarbeitete und erweiterte Auflage) (S. 381-386). Berlin: VDE Verlag
Datenzusammenführung und integrierte Analysen in Sozialforschung und Marktforschung: Erkenntnis- und Qualitätsgewinn Hartmut Scheffler Geschäftsführer Kantar GmbH
1 Einleitung Die Digitalisierung und die mit den neuen technischen Möglichkeiten einhergehenden Big Data-Entwicklungen haben zu neuen Datenquellen (automatische Verhaltensdaten, Social Media-Daten etc.) auch für Sozialforschung und Marktforschung geführt. Eine selbstverständliche Aufgabe für Marktforscher und Sozialforscher bestand schon immer und besteht erst recht aktuell darin, diese neuen Daten dahingehend zu prüfen, inwieweit sie für die Verhaltens- und Einstellungsmessung verwendbar, vielleicht sogar besser als bisher genutzte Daten verwendbar sind. Eine weitere Aufgabe besteht darin zu prüfen, inwieweit durch Kombination unterschiedlicher Daten ein Qualitätsgewinn der Daten und der daraus abgeleiteten Informationen und/oder ein zusätzlicher Erkenntnisgewinn zu erzielen ist. Dieser Prozess immer neuer, großer Datenmengen, der Analyse der Qualität und Verwendbarkeit der Daten, der Prüfung integrierter Datenanalysemodelle ist schon einige Jahre alt, beschleunigt sich aufgrund der immer neuen Datenmengen und Datenquellen und wird als eine der ganz wesentlichen Aufgaben der Markt- und Sozialforschung in Zukunft nicht wegzudenken sein. Ein Blick auf Erkenntnis- und Qualitätsgewinn durch Zusammenführung und integrierte Analyse von Daten kann deshalb immer nur eine ebenso kritische wie Chancen und Entwicklungen betonende Statusanalyse sein. Ebenso kann es sich aufgrund der unendlichen Vielfalt von Möglichkeiten, von erfolgreichen © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_5
68
Scheffler | Datenzusammenführung und integrierte Analysen
Beispielen im Inland wie global auch immer nur um einen Ausschnitt, um eine kleine aber sehr wohl aussagekräftige und exemplarische Auswahl von Beispielen handeln.
2
Allgemeine Überlegungen zu einem erweiterten Qualitätsbegriff
Die klassischen Qualitätskriterien in der Markt- und Sozialforschung sind Objektivität, Reliabilität und Validität und – methoden- und zielabhängig – auch das Konstrukt der Repräsentativität. Neue Datenquellen, integrierte Datenanalysen, Datenzusammenführung, Automatisierung schaffen schon bezüglich dieser Kriterien einen erkennbaren Qualitätszuwachs. Wenn Verhaltensdaten automatisch gemessen statt – manchmal fehlerhaft – erfragt werden, erhöht das die Validität der Daten (und als Nebeneffekt auch die Aktualität). Wenn in der klassischen Forschung verschiedene Methoden (multiple mode) eingesetzt und die Daten dann zusammengeführt werden, führt dies meistens zu einer erhöhten Response Rate (weil zum Beispiel einzelne Alterszielgruppen mit unterschiedlichen Methoden unterschiedlich gut erreicht werden können). Gleiches kann durch Teilung eines langen Fragebogens in mehrere kürzere Fragebögen und danach vorgenommene Zusammenführung über Ankervariablen erreicht werden: Für den einzelnen Befragten auch noch mit dem Vorteil der Datenminimierung. Diese Qualitätsbegriffe sind weiterhin relevant und speziell das Kriterium der Validität gilt methodenunabhängig als das zentrale Qualitätskriterium aller erhobenen bzw. für Analysen verwendeten Daten. Vor allem in der Marktforschung haben sich aber daneben ganz neue und andere Qualitätskriterien insbesondere aus Kundensicht etabliert, die im Zusammenhang mit dem hier behandelten übergeordneten Thema nicht ignoriert werden dürfen. Es wird erwartet, dass Datenerhebung, Analyse, Erkenntnislieferung preiswerter geschieht, schneller (manchmal auch Realtime) und vor allem, dass die Erkenntnisse und Empfehlungen relevant sind und Impact erzeugen. So wie nicht valide Daten nicht weiter genutzt, analysiert und in Erkenntnisse und Empfehlungen umgesetzt werden sollten, so sind Daten ohne Relevanz und Impact in gleicher Weise auf Kundenseite unnütz. Markt- und Sozialforschung ist damit gefordert, bei allen (neuen) Verfahren der Datenerhebung, der Datenverknüpfung, der Datenanalyse vor allem dieses Duopol aus Validität und Impact nicht aus den Augen zu verlieren.
Qualität bei zusammengeführten Daten
69
Vor dem Hintergrund dieses erweiterten, dieses für viele sogar neuen Qualitätsbegriffes können die Möglichkeiten der Datenzusammenführung und integrierten Datenanalyse augenscheinlich punkten. Wenn man vorhandene Daten nutzt und integriert, ist man in jedem Fall schneller, oft preiswerter und kann alleine dadurch schon Handlungsrelevanz und Impact erzielen (z.B. im Bereich der Customer Experience Forschung). Automatisierung in der Analyse, auch Automatisierung komplexer Modelle schafft ebenfalls einen Schnelligkeitsgewinn, erlaubt die Nutzung und schnelle Auswertung von Realtime-Daten und hat den bereits beschriebenen Impact-Effekt. Dies gilt in gleicher Weise für Datenbanken und DMPs (Data Management Plattform), wie sie mittlerweile bei Agenturen und in Unternehmen üblich werden. Und natürlich können durch mehr Daten und erweiterte Datenanalyse erweiterte Erkenntnisse gewonnen und damit wieder Relevanz und Impact dieser Daten erhöht werden. An dieser Stelle ist über KI oder AI, über selbstlernende Systeme und maschinelles Lernen noch gar kein Wort verloren. Unstrittig – und für die Qualitätsdiskussion von größter Bedeutung – ist mittlerweile die Gültigkeit des Garbage In - Garbage Out. Was auch immer „die Maschine“ lernen und entwickeln kann: bei der Daten“fütterung“ ist der Mensch zum ersten Mal gefordert. Und er ist – soweit die aktuelle Fantasie reicht – ein zweites Mal gefordert bei der Umsetzung der Erkenntnisse in Strategie, in Maßnahmen, in Kreation. Deshalb wird nicht selten vorgeschlagen, AI nicht als Artificial Intelligence, sondern als Augmented Intelligence zu verstehen – also als integrierte Mensch-Maschine-Arbeitsweise. AI und Qualität korrelieren somit nicht automatisch positiv miteinander und weil dies so ist, gilt Gleiches auch für den Zusammenhang zwischen AI und Erkenntnisgewinn. Die fast unendlichen Möglichkeiten hingegen werden immer deutlicher und werden die Qualitäts- und Erkenntnisgewinn-Diskussion befeuern. Zusammengefasst so viel: Die vielen neuen Möglichkeiten infolge neuer Datenquellen, erweiterter Datenintegration und Datenanalyse müssen nicht automatisch zu mehr Qualität und zu mehr Erkenntnissen/Impact führen. Richtig und von entsprechend ausgebildeten Wissenschaftlern und Mitarbeitern eingesetzt, können und werden sie dies aber.
70
Scheffler | Datenzusammenführung und integrierte Analysen
3 Prolog Verschiedene Datenquellen, Datenzusammenführung, integrierte – wenn nicht Analyse, dann doch – Interpretation: Ist das wirklich so neu? Herzlichen Dank an Erich Wiegand, den langjährigen Geschäftsführer des ADM, der auf die Studie „Die Arbeitslosen von Marienthal“ ( Jahoda, Lasarsfeld und Zeisel, 1975) verwiesen hat. „Die Arbeitslosen von Marienthal“ sind ein soziografischer Versuch aus den dreißiger Jahren in Österreich, bei dem eine Unzahl unterschiedlicher Methoden parallel eingesetzt wurden: Qualitative Forschung, quantitative Forschung, Beobachtungsverfahren, Zeitverwendungsbögen, Daten der öffentlichen Statistik, Familienbesuche und Familienprotokolle, Budgetanalysen, psychologische Verfahren. Wo werden heute in vergleichbarer Form Methoden kombiniert und mit vorhandenen Daten z.B. der Statistik verbunden? Aber schon in den dreißiger Jahren wurde ein Grundproblem erkannt: „… grundsätzliche Schwierigkeit … dann die Notwendigkeit, aus der großen Zahl der Merkmale nunmehr die relevanten auszuwählen.“ (Ebenda, Seite 127). Eigentlich ein Luxusproblem und eine der größten Herausforderungen heute, um der in der Regel unstrukturierten Datenmenge qualitätsbewusst und erkenntnisorientiert Herr werden zu können. Also nicht Neues seit den dreißiger Jahren? Jein! Methodenmix und integrierte Interpretation methodenübergreifend gibt es – wenn auch möglicherweise zu selten – schon lange. Ziel heute ist aber auch die integrierte statistische Verarbeitung statt der „nur“ datenübergreifenden Interpretation. Bevor anhand von drei Beispielblöcken gelebte Praxis dargestellt wird, ein wichtiger Hinweis dahingehend, was im Weiteren außen vor gelassen wird, aber natürlich im Themenzusammenhang Bedeutung hat. Es werden sich keine Bewertungen einzelner Methoden oder Datenquellen finden, obwohl dies natürlich im Forschungsprozess essentiell ist. Es wird nicht über die weitere Entwicklung der Digitalisierung, weitere denkbare Datenquellen (z.B. der „verchipte“ Mensch) reflektiert. Das Thema Datenschutz/DSGVO ist fast immer relevant, bleibt aber bei der Darstellung der Beispiele ebenfalls weitestgehend außen vor. Dann wird auch nicht reflektiert, was und inwieweit Mindset-Blockaden oder Silos im Wissenschaftsbereich wie auf Kundenseite bereits existierende Möglichkeiten des Erkenntnisgewinns konterkarieren. Last but not least wird auch nichts über die Voraussetzungen guter Datenzusammenführung und integrierter Analyse gesagt, also über die Auswahl der richtigen Daten und deren Relevanz für Validität, über IT-/Technologie-Voraussetzungen, über die Auswahl der geeigneten Analysemethoden.
Qualität bei zusammengeführten Daten
71
Die „Spielwiese“ für die weiteren Überlegungen und Beispiele ist – ohne jeden Anspruch auf Vollständigkeit – bereits äußerst vielfältig und im Hinblick auf Datenquellen, Datenstruktur, Analysemöglichkeiten äußerst heterogen (siehe Abbildung 1).
Abbildung 1 Die Spielwiese
Viele Marktforschungsinstitute tummeln sich bereits auf dieser Wiese. Die GfK möchte weg von Single Questions hin zu einer daten- und KIgestützten 360-Grad-Sicht. Der Autor selbst kann berichten, dass bei Kantar klassische Trackings weiterentwickelt werden zu Holistic Brand Guidance-Ansätzen, dass verschiedene Datensätze und Datenquellen in einer sogenannten „Engine“ zusammengeführt, Zusammenhänge/ Kausalitäten/Algorithmen gebildet werden und die Ergebnisse auf anwenderfreundlichen Dashboards zur Verfügung stehen. Dies ist bereits Standard in der Markt- und Sozialforschung heute und wird noch viel mehr die Markt- und Sozialforschung morgen bestimmen und treiben.
4
Beispiele aus der klassischen Marktforschung
Abbildung 2 zeigt zum Einstieg vier Beispiele aus drei Branchen, bei denen immer verschiedene Datenquellen kombiniert wurden und über die Ergebnisse und Erkenntnisse ein Impact in Richtung Vermeidung von Fehlinvestitionen, Investitionsempfehlungen z.B. in Marke etc. resultierte.
72
Scheffler | Datenzusammenführung und integrierte Analysen
Abbildung 2
Das klassische Vorgehen in der quantitativen Marktforschung kann am besten illustriert werden am Kantar-Konzept der „Plattform für holistische Markenführung“. Auf der einen Seite der Input von Daten aus ganz verschiedenen Datenquellen – eine davon ist die Primärforschung (Survey Daten). Auf der anderen Seite die Verbindung zur Unternehmensinfrastruktur, häufig einer Datenplattform auf Kunden-/Auftraggeberseite. In der Mitte finden sich dann die Themenfelder, die in dieser Struktur neuartig, qualitativ hochwertiger und mit deutlichem Erkenntnisgewinn bearbeitet werden können: Von Kreation und Content über Kommunikation/Touchpoints hin zu Markenstrategie und Markenwachstum. Ein „Klassiker“ ist dabei zurzeit die Kombination von Mediaspendings, Verkaufsdaten und Survey Daten.
Abbildung 3 Plattform für holistische Markenführung
Qualität bei zusammengeführten Daten
73
Das Beispiel einer Fluggesellschaft: In diesem Unternehmen gab es zu viele Daten bei zu wenig Integration und damit auch zu wenigen gewonnenen relevanten Erkenntnissen. Abverkaufsdaten, Daten zu Search, Social Media-Nutzungsverhalten, Werbeausgaben, Digital AdvertisingDaten, Forschungsdaten: Alles lag vor – aber nebeneinander. Die integrierte Analyse kombinierte diese vorhandenen Daten und erst in dieser integrierten Betrachtung konnte wirklich umfassend analysiert und beantwortet werden, ob zum Beispiel eine Kampagne die vorgegebenen Ziele, die KPIs (Key Performance Indicators) erreicht hatte. Der Blick auf Primärforschungsdaten reichte hier längst nicht aus: Social Media-Verhalten, Search-Verhalten etc. waren zu integrieren. Gleiches gilt für die Beantwortung der Fragen, ob die Kampagnen die gewünschten Interaktionen und Konversionen erreicht haben, ob sie wirklich auf Markenwert eingezahlt haben etc. Die impact-stärkste Erkenntnis für jede Kampagne war diejenige, welchen Sales-ROI die Kampagne unter Betrachtung aller relevanten KPIs erzielen konnte, welche Korrelationen zwischen Kampagne und Markenwert(-Steigerung) bestanden. Über die integrierte Analyse konnten die für Sales und Brand Equity wirksamsten Maßnahmen erkannt werden. Eine weitere, immer häufiger eingesetzte Datenkombination ist die aus quantitativen oder qualitativen Primärforschungsdaten (was Menschen denken und warum) mit digitalen Verhaltensdaten (Search, Social Media, Clickverhalten – was Menschen online tun) und Neuroscience wie zum Beispiel Eyetracking, Facial Recognition, Emotionen über Sprache (was Menschen fühlen). Anwendungsfelder hier sind vor allem Fragen des Touchpoint Management, der Kampagnenoptimierung, der Mediaplanung. Im Bereich Travel und Transport konnte durch Ergänzung von soziodemografischen Daten, Verhaltensdaten und Interessensdaten (alles über Primärforschung bzw. Digital Tracking) um zusätzliche Realtime-Emotionserfassung die Anzahl der Buchungen über die Website des Kunden um 514% alleine durch das darauf aufbauende optimierte Programmatic Targeting gesteigert werden. Die Beispiele und Möglichkeiten sind also offensichtlich. Eines braucht es aber in jedem Fall, um Qualität und Erkenntnisse zu steigern: Die Kombination von Kommunikationsexperten, Forschungsexperten, Experten im Bereich Marke/Marketing und Datenanalyse-/ Data Science-Experten. Erst die Kombination von Spezialwissen im Team wird den Unterschied zu herkömmlichen Vorgehensweisen machen.
74
5
Scheffler | Datenzusammenführung und integrierte Analysen
Beispiele aus der Sozialforschung
In der empirischen Sozialforschung hat in der jüngeren Vergangenheit die Zusammenführung oder Verknüpfung von Befragungsdaten mit (prozessproduzierten) Verwaltungs- bzw. Sozialdaten an Bedeutung gewonnen. Dies geschieht vor allem in Themenfeldern wie der Arbeitsmarkt-, Alters- bzw. Alterssicherungsforschung und der Gesundheitsforschung. Der wesentliche Grund dafür ist, dass auf diesem Weg umfangreichere, detailliertere und nicht zuletzt validere Daten gewonnen werden können als im Rahmen einer Befragung, vor allem wenn es sich um retrospektive Informationen handelt. Bei der Vorgehensweise gibt es dann zwei Versionen: Zum einen das statistische, probabilistische Matchen ähnlicher Untersuchungseinheiten (also ein anonymes Verfahren), zum anderen die Verknüpfung personenbezogener Daten auf individueller Ebene, das sogenannte Record Linkage, für das es einer informierten Einwilligung bedarf. Unabhängig davon, ob mit probabilistischem Matchen oder mit Record Linkage gearbeitet wird: In beiden Fällen können die Vorteile der prozessorientierten Daten mit den Vorteilen der Befragungsdaten kombiniert werden. Die prozessorientierten Daten stellen in der Regel eine Vollerhebung der Grundgesamtheit dar, sind exakte Verhaltensdaten mit hoher Validität und oft – wenn auch nicht immer – zeitnah und aktuell. Die Befragungsdaten können zielgerichtet auf den Forschungsgegenstand hin operationalisiert und vertieft werden. Sie erlauben die Ermittlung von Einstellungen, Bewertungen oder Begründungen und können ebenfalls recht zeitnah und aktuell erhoben werden. Durch die Verknüpfung und die damit einhergehende Kombination der jeweiligen Stärken entsteht ein erweiterter und quantitativ wie qualitativ optimierter Datensatz (z.B. validere Lebenshistorien) u.a. als Grundlage politischer Entscheidungen. Ein wichtiger qualitätsrelevanter Aspekt, dies zeigen auch die beiden folgenden Beispiele, ist die notwendige informierte Einwilligung und das damit verbundene notwendige Prüfverfahren zur Quantifizierung der Auswirkung von Einwilligungs-Selektivität auf die Ergebnisse. Zu diesem bewährten Status in der Sozialforschung zwei Beispiele: Beispiel 1: Sozio-oekonomisches Panel (SOEP) Im SOEP (Auftraggeber DIW Berlin, Datenerhebung durch Kantar) werden – nach individuell erfolgter Einwilligung – die erhobenen Daten der sogenannten IAB-SOEP-Migrationsstichprobe (IAB = Institut für Arbeitsmarkt- und Berufsforschung der Bundesagentur für Arbeit)
Qualität bei zusammengeführten Daten
75
seit einigen Jahren verknüpft mit den Integrierten Erwerbsbiografien (IEBS = Stichprobe der Integrierten Erwerbsbiografien) des IAB. Diese Verknüpfung gibt es künftig nicht nur für die Migrationsstichprobe, sondern ab dem Erhebungsjahr 2019 auch im sogenannten „HauptSOEP“. In 2018 erfolgte im Haupt-SOEP auch eine Verknüpfung der Befragungsdaten mit Kontendaten der Deutschen Rentenversicherung.1 Die IAB-SOEP-Migrationsstichprobe repräsentiert die seit 1995 nach Deutschland eingewanderten Personen sowie Nachkommen von Immigranten, die nach 1975 in Deutschland geboren sind. Dort werden Survey-Daten z.B. zur Haushalts- und Familiensituation, zur Bildungs- und Erwerbsbiographie, zur Migrationshistorie und den Integrationserfahrungen sowie individuelle Eigenschaften und Einstellungen kombiniert mit den IEBS-Informationen des IAB: Beschäftigungsdaten, Dauer der Arbeitslosigkeit, erhaltene Transferleistungen, Teilnahme an Weiterbildungsangeboten, Status der Arbeitssuche, Verdienst/Einkommen – kurz: einem kompletten Abbild der individuellen Arbeitsmarkthistorie. Zusammen erlaubt dies die bestmögliche, detaillierte Analyse des Integrationsprozesses in die Gesellschaft und den deutschen Arbeitsmarkt: Gegenüber getrennten Datensätzen qualitativ hochwertiger und mit erweitertem Erkenntnisinteresse und -gewinn. Bei diesem Beispiel wird wie im zweiten Beispiel mit Record Linkage gearbeitet, so dass für die Datenfusion eine informierte Einwilligung notwendig ist. Die kumulierte Einwilligungsrate liegt – es sind verschiedene Varianten der Einholung getestet worden – bei ca. 60%. Um eine möglichst hohe Einwilligungsrate zu erreichen, wurden umfassende (multivariate) Analysen zu Einflussvariablen auf die Einwilligungsrate (u.a. Interviewer) wie auch zu Ergebnisunterschieden zwischen Personen mit und ohne Einwilligung vorgenommen. Trotz im Ergebnis überwiegend geringer Unterschiede zwischen beiden Personenkreisen ist ein Gewichtungsfaktor zum Ausgleich dieser Unterschiede errechnet worden und es existiert die Empfehlung zur Nutzung dieses Gewichtungsfaktors kombiniert mit dem Design- und Non-Response-Gewicht. Wie unterschiedlich Einwilligungsquoten sein können, zeigt eine SOEP-Analyse zu 22 Studien mit Verknüpfungen von Befragungsdaten und Daten der amtlichen Statistik. Die Einwilligungsquote schwankt zwischen 32% und 93% mit einem Durchschnittswert bei 70%2: Fraglos ein für die Qualität kritisches Merkmal. 1 2
Weitere Informationen zur Migrationsstichprobe siehe SOEP Survey Paper Nr. 291 siehe SOEP Survey Paper Nr. 291, S. 5-7
76
Scheffler | Datenzusammenführung und integrierte Analysen
Beispiel 2: Lebensverläufe und Altersvorsorge (LeA) In der von Kantar Public durchgeführten Studie „Lebensverläufe und Altersvorsorge“ (LeA) (Heien und Krämer 2018) wurden die in persönlich-mündlichen Interviews (CAPI) erhobenen Befragungsdaten von über 10.000 Personen mit umfangreichen Kontendaten der gesetzlichen Rentenversicherung (GRV), z.B. zu Beschäftigungszeiten, Zeiten der Kindererziehung, Pflege oder Arbeitslosigkeit, individuell und nach schriftlicher Zustimmung der Betroffenen veknüpft. Die dabei erreichte Zustimmungsquote von über 90% ist vergleichsweise hoch und erklärt sich durch den im Vorfeld betriebenen großen Aufwand, vor allem bei Fragebogengestaltung und Interviewerschulung, sowie nicht zuletzt durch den Auftraggeber (Deutsche Rentenversicherung Bund), der zugleich die administrativen Daten bereitstellte. Für die Beurteilung der Datenqualität ist eine mögliche Selektivität bei der Einwilligung zur Verknüpfung von Befragungs- und Kontendaten in Bezug auf relevante Merkmale ein wichtiger Indikator. Hinsichtlich dieser Zustimmung zeigten sich bei LeA im Rahmen einer multivariaten logistischen Regression nur geringe Effekte: Alle soziodemografischen Verteilungen blieben weitgehend erhalten, zudem wurden die beobachteten Abweichungen durch eine faktorielle Gewichtung ausgeglichen. Zur beispielhaften Quantifizierung der Steigerung der Datenqualität durch „Record Linkage“ ist mangels bisher nicht vorliegender vertiefender LeA-Analysen auf eine Vorgängerstudie zur „Altersvorsorge in Deutschland“ (AVID) (Heien, Kortmann und Schatz 2007) hinzuweisen. In der auf einer schriftlichen Befragung basierenden AVID zeigte sich für den Vergleich der retrospektiv erhobenen Biografie seit dem 15. Geburtstag von Personen zwischen 40 und unter 60 Jahren und ihren GRV-Kontendaten, dass 7,3% der gewünschten Informationen auf Monatsebene in der Befragung überhaupt nicht erhoben werden konnten (Frommert und Heien 2008). Zudem entsprachen in 6,0% aller Monate die Informationen aus der Befragung nicht den Kontendaten, auch wenn nur relativ grob zwischen Zeiten rentenversicherungspflichtiger Beschäftigung und sonstigen Zeiten unterschieden wurde. Das „Record Linkage“ trägt hier also signifikant zur Qualitätssteigerung bei, indem mehr und bessere Daten zur Verfügung stehen. Datenzusammenführung und integrierte Analysen sind – dies zeigen auch die Beispiele SOEP und LeA – in der empirischen Sozialforschung schon längst Standard und für Qualitätsgewinn und darauf basierend Erkenntnisgewinn nicht wegzudenken.
Qualität bei zusammengeführten Daten
6
77
Beispiele aus Data Analytics
Bisher wurde immer von Markt- und Sozialforschung gesprochen. Warum dieser dritte Blickwinkel in Richtung Data Analytics? Weil immer häufiger Fragestellungen und Aufträge direkt an Data Analytics-Experten (seien es ganze Unternehmen, Unternehmensabteilungen oder einzelne spezialisierte Personen) gerichtet werden und auch immer häufiger Data Analytics-Anbieter entsprechende Anfragen und Aufträge akquirieren. Data Analytics als wichtiger werdender Teil des gesamten Forschungsprozesses wird zunehmend auf Basis bereits existierender Datensätze (einschließlich existierender Primärforschungsdatensätze) an kompetente Dienstleister mit dem Ziel optimalen Erkenntnisgewinnes aus den Daten adressiert. In der Mehrzahl besteht das Erkenntnisinteresse darin, über bereits bewährte Verfahren und zunehmend mehr über Verfahren der KI/AI und Machine Learning Algorithmen für unterschiedlichste Aufgaben zu entwickeln und kontinuierlich/Realtime zu kontrollieren und anzupassen. Die Abbildungen 4 bis 6 zeigen zunächst, wo die Profession steht: Zum einen goldene Zeiten für lernende Algorithmen durch eine Vielzahl von Daten Zum anderen längst noch nicht die Ableitung von Handlungsempfehlungen und die Impactwirkung, die möglich wäre Zum dritten ein zunehmendes Kontinuum aus Verfahren der künstlichen Intelligenz und des Machine Learning (siehe Abbildungen 4 bis 6).
Abbildung 4 Goldene Zeiten für lernende Algorithmen
78
Scheffler | Datenzusammenführung und integrierte Analysen
Abbildung 5 Reich an Daten, aber arm an Handlungsempfehlungen
Abbildung 6 Künstliche Intelligenz und Machine Learning
Für die Data-Analysten liegen in den meisten Fällen Daten über Marken, Unternehmen, Produkte, Menschen im Überfluss vor. Sie stammen aus internen Quellen (Kundendaten, CRM, Transaktionsdaten, Feedbackdaten) und externen Quellen (Social Media, Search). Die Integration dieser Daten, häufig auch schon auf Kunden- und Auftraggeberseite vorhanden, soll das Marketing individueller und damit effizienter machen. Typische Anwendungsfelder sind die Steigerung von Kundenbindung, die Optimierung von Mediaspendings, Optimierung von Abverkauf/Markenstärke/ROI. Durch AI wird basierend auf maschinellem Lernen eine sinnvolle und schnelle Analyse auch größter Datenmengen und unterschiedlichster Datenarten (auch unstrukturierter Daten wie Text, Bild, Voice) ermöglicht. Datenbasiertes Marketing braucht aber – wie schon erwähnt – an zwei Stellen „Human Touch“. Beim Training
Qualität bei zusammengeführten Daten
79
der künstlichen Intelligenz/des maschinellen Lernens und bei der Interpretation und Umsetzung. Vier Beispiele mögen diesen wachsenden Bereich dokumentieren. Beispiel 1: Entwicklung einer holistischen Segmentierung zur Steigerung von Online-Sales (siehe Abbildung 7) In eine holistische Segmentierung fließen, wie der Name schon sagt, unterschiedlichste Datenquellen für optimale Segmentierung der Zielsegmente und damit eine optimale Basis für kundenindividuelles One-to-One-Marketing ein. Mit dieser Segmentierung werden Kundendatenbank und die Einzelfälle in der Kundendatenbank angereichert und es erfolgt zusätzlich eine Projektion der Segmente auf alle Fälle in der Kundendatenbank (nicht nur solche aus der Stichprobe) als Grundlage für gezielte (Marketing-)Aktionen im gesamten Kundenbestand. Je einfacher die Identifizierbarkeit der Marktsegmente ist (zum Beispiel anhand demografischer Informationen), umso leichter ermöglicht dies die gezielte Ansprache ausgewählter Kundensegmente.
Abbildung 7 Typischer Ablauf einer holistischen Segmentierung
80
Scheffler | Datenzusammenführung und integrierte Analysen
Ein konkretes Beispiel
Abbildung 8 Holistische Segmentierung für optimiertes Online-Targeting und Steigerung von Online-Sales
Beispiel 2: Internetreichweitenmodell der AGOF Die AGOF (Arbeitsgemeinschaft Online Forschung) stand bei ihrer Gründung vor der Aufgabe, im Online-Bereich Unique-User definieren zu können. Warum war dies ein Problem? Es gibt sogenannte SingleUser, d.h. ein Nutzer mit einem Browser. Es gibt aber auch Multi-User, d.h. mehrere Nutzer auf einem PC oder einem Laptop mit einem Browser (z.B. Familien). Und dann gibt es Multi-Clients, also ein Nutzer mit mehreren Browsern (z.B. im Büro und zuhause). Die Frage ist nun, wie viele Unique-User zum Beispiel mit einem werblichen Angebot erreicht werden. Abbildung 8 zeigt im Überblick, mit welchen Schritten die für die Media-Planung entscheidende Information herausgearbeitet wurde.
Qualität bei zusammengeführten Daten
81
Abbildung 9 Wer hat genutzt? – Nutzersicht
Beispiel 3: Anreicherung der Kundendatenbank mit Marktforschungsergebnissen Datenbanken, sei es im Finanzdienstleisterbereich, bei Versicherungen, Telekommunikationsunternehmen etc. weisen immer mehr Kundendaten wie Transaktionsdaten oder Produktnutzung auf. Die Verknüpfung von Umfragedaten mit solchen Datenpools geschieht in der Regel über Modellierung und Entwicklung von Wahrscheinlichkeits-Scores (probabilistischer und damit anonymer Ansatz). Abbildung 10 zeigt die Vorgehensweise in den wesentlichen Schritten. Aus der Kundendatenbank wird eine Stichprobe gezogen (repräsentative Stichprobe). Den einzelnen Fällen liegen die Stammdaten und Transaktionsdaten zugrunde. Die Marktforschungsuntersuchung liefert weitere Daten, eine Modellierung erlaubt die Übertragung der Marktforschungsergebnisse mit bestmöglicher Schätzung/Wahrscheinlichkeit in die Kundendatenbank. Der ganze Prozess ist damit anonym, mit den ermittelten Scores und Algorithmen werden optimierte Wahrscheinlichkeiten geliefert. Bei der Ermittlung der Algorithmen werden eine Vielzahl statistischer Verfahren eingesetzt, zum Beispiel aus der multivariaten Statistik multinominale logistische Regressionen oder Diskriminanzanalysen, aus dem Bereich von Entscheidungsbäumen und Entscheidungsregeln C&RT, C 5.0, QUEST, CHAID etc. Die Gütetests zur Bewertung der Schätzverfahren stehen unter einer zentralen Frage: Wie gut sind die Modelle in der Lage, neue, unbekannte Daten zu klassifizieren. Es erfolgt zunächst die Aufteilung der bekannten Fälle in Trainings- und Testdaten, dann die Entwicklung der Modelle auf den Trainingsfällen und die Anwendung der Modelle auf diese Trainingsfälle. Danach erfolgt der Vergleich der Schätzwerte mit
82
Scheffler | Datenzusammenführung und integrierte Analysen
den bekannten/echten Werten („Trefferraten“) mit dem Ergebnis einer bewertbaren Schätzgüte je nach Verfahren. Das Verfahren mit der besten Schätzgüte wird dann auch für neue/unbekannte Daten und Fälle eingesetzt.
Abbildung 10 Anreicherung der Kundendatenbank – Ablauf
Beispiel 4: Mikrogeografische Anreicherung Hier geht es um die Ergänzung vorhandener Datensätze um mikrogeografische Informationen, wie sie verschiedene Dienstleister anbieten. Deshalb wird die Anreicherung einer Stichprobe von Adressen aus der Kundendatenbank (ergänzt um Marktforschungs-Scores oder Algorithmen) mit den mikrogeografischen Informationen der zu testenden Anbieter angereichert. Diese Modelle arbeiten nach dem Prinzip „Gleich und Gleich gesellt sich gern“, also dem Grundprinzip der „Neighbourhoods“. Jedem Haushalt werden anhand seiner Adressen Wahrscheinlichkeiten zum Beispiel für den Besitz bestimmter Eigenschaften wie Haushaltszusammensetzung, Produktnutzung etc. zugeordnet. Durch Schätzmodelle, wie sie oben beschrieben wurden (jetzt allerdings eingesetzt für die Bewertung der mikrogeografischen Lösungen) werden die Treffer der verschiedenen Einzelanbieter für die Fälle in der Stichprobe (bei denen ja die echte Ausprägung bekannt ist) geprüft. In einem konkreten Fall lieferten die Schätzmodelle von drei Anbietern eine Trefferquote von 63%, 67%, 71%, d.h. in der Regel liefern die verschiedenen Anbieter unterschiedlich gute Lösungen.
Qualität bei zusammengeführten Daten
83
Im Idealfall entsteht somit aus den Beispielen 3 und 4 eine Kundendatenbank: Ergänzt um durch Modellierung errechnete und durch Schätzmodelle optimierte Scores und Algorithmen Ergänzt um ebenfalls durch Schätzverfahren optimierte mikrogeografische Anreicherung. All diesen Beispielen aus dem Bereich der Data Analytics ist gemeinsam, dass durch Datenkombination qualitativ anspruchsvollere Datensätze und damit erweiterte Erkenntnismöglichkeiten einerseits bzw. Impact durch optimiertes Marketing andererseits erreicht werden. Eine Vielzahl weiterer Anwendungen sind bereits gang und gäbe und/oder werden in Zukunft an Bedeutung gewinnen. Exemplarisch sei nur genannt die Verknüpfung von Befragungsdaten mit ChatbotsInformationen oder die Kombination von Survey Daten zu Einzelkampagnen mit Metadaten aus Werbespot-Datenbanken zur verbesserten Wirkungsprognose von Spots.
7 Resümee In Zeiten der Digitalisierung werden die Anforderungen an Sozialforschung wie Marktforschung immer anspruchsvoller. Neben der Validität der Daten sind Relevanz und Impact notwendige Bedingungen für eine auch in Zukunft erfolgreiche Markt- und Sozialforschung. Immer neue Datenquellen und mittlerweile unvorstellbare Datenmengen sind Chance und Herausforderung gleichzeitig. Richtig und durch Experten angewendet haben eine Vielzahl von Beispielen gezeigt, wie sowohl Qualitätsgewinn wie Erkenntnisgewinn erreicht werden können. Eine Markt- und Sozialforschung, die die notwendigen Voraussetzungen für diese Aufgaben durch entsprechende Ausbildung und durch entsprechende Kenntnisse erfüllt, wird weiterhin eine differenzierende und einzigartige Dienstleistung liefern können. Voraussetzung für so gehobenen Qualitäts- und Erkenntnisgewinn ist allerdings das Verstehen von Daten und Datenqualität (Welche Daten werden genutzt? Warum diese Daten und andere Daten nicht? Was ist die Aussagekraft der Daten und wo liegen die Grenzen?). Es ist das Verstehen von Analytik (Welche Verfahren? Warum? Erkenntnisgewinn und Grenzen?). Wenn dann noch das Verstehen von Marken, Markenführung, gesellschaftlichen Themen und Zusammenhängen einerseits und von Menschen (Einstellungsrelevanz und Verhaltensrelevanz) dazukommen, dann – und nur dann! – schaffen Datenzusammenführung und integ-
84
Scheffler | Datenzusammenführung und integrierte Analysen
rierte Analysen in Sozialforschung und Marktforschung signifikanten Qualitäts- und Erkenntnisgewinn zur Optimierung politischer Entscheidungen und Unternehmensentscheidungen.
Literatur Frommert, D., & Heien, T. (2008). Generating valid life histories – A comparison of survey and administrative data, Conference on Survey Methods in Multinational, Multiregional, and Multicultural Contexts (3MC), Berlin. Jahoda, M., Lazarsfeld, P. F., & Hans Zeisel, H. (1975). Die Arbeitslosen von Marienthal. Edition Suhrkamp. Heien, T., Kortmann K., & Schatz, C. (2007). Altersvorsorge in Deutschland (AVID) 2005: Alterseinkommen und Biografie. DRV-Schriften 75 & BMAS-Forschungsbericht 365, Berlin. Heien, T., & Krämer, M. (2018). Lebensverläufe und Altersvorsorge der Personen der Geburtsjahrgänge 1957 bis 1976 und ihrer Partner. DRV-Schriften 115 & BMAS-Forschungsbericht 519, Berlin. The request for Record Linkage in the IAB-SOEP Migration Sample. SOEP Survey Papers Nr. 291, Series C. – Data Documentation
Qualität bei zusammengeführten Daten Versuch einer systematischen Annäherung Thorsten Tümmler Statistisches Bundesamt, Wiesbaden
Einführung Amtlichen Statistiken liegt im Regelfall eine einzige Datenquelle zu Grunde. Entweder werden die für die Statistik notwendigen Informationen auf dem Wege einer Primärerhebung gewonnen oder es werden Sekundärdaten – meist Verwaltungsdaten – für die Statistikerstellung genutzt. Inzwischen werden neben Verwaltungsdaten sogenannte Neue Digitale Daten als weitere Sekundärdatenquelle für die Amtliche Statistik verfügbar. Zudem wird durch die Digitalisierung und durch die zunehmende Georeferenzierung von Daten die Zusammenführung von Daten aus unterschiedlichen Datenquellen erleichtert. In diesem Zusammenhang stellt sich die Frage, ob und ggf. wie sich durch die Zusammenführung bestehender Statistiken und Neuer Digitaler Daten, aber auch weiterer Verwaltungsdatenquellen, die Qualität einer Statistik verändert. Dieser Aufsatz versucht, diese Fragestellung systematisch anzugehen und zu beantworten. Dazu werden zunächst die Begriffe „Qualität“ und „Zusammenführung“ definiert, bevor für jedes Qualitätskriterium erörtert wird, welche Chancen und Risiken in der Zusammenführung von Daten bestehen. Anschließend wird untersucht, welche Konsequenzen sich daraus für die Amtliche Statistik ergeben. Der Aufsatz schließt mit einer Zusammenfassung und einem Fazit.
© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_6
86
Tümmler | Qualität bei zusammengeführten Daten
Was heißt „Qualität“ „Qualität“ ist ein sehr schwammiger und abstrakter Begriff, unter dem verschiedene Personen unterschiedliche Dinge verstehen und mit dem man alles und nichts aussagen kann. Klarer wird der Begriff, wenn man sich die Bedeutung des lateinischen Wortstammes qualitas bewusst macht: Eigenschaft, Merkmal, Beschaffenheit. Qualität beschreibt also die Eigenschaften eines Produkts. Damit wird auch deutlich, dass Qualität nicht eindimensional, sondern mehrdimensional ist. Ob die Qualität gut oder schlecht ist, hängt davon ab, in welchem Ausmaß die Eigenschaften eines Produkts die Anforderungen, die an das Produkt gestellt werden, erfüllen. In der Amtlichen Statistik wird Qualität als „fitness for purpose“ verstanden, d.h. die Eigenschaften einer Statistik erfüllen den Bedarf der Nutzerinnen und Nutzer. Dabei können unterschiedliche Nutzerinnen und Nutzer unterschiedliche Bedarfe, also Anforderungen an dieselbe Statistik haben. Die Qualität derselben Statistik kann von unterschiedlichen Nutzerinnen und Nutzern folglich unterschiedlich bewertet werden. Welches die Eigenschaften des Produkts „Statistik“ sind, wird für das Europäische Statistische System durch die Verordnung (EG) Nr. 223/2009 über europäische Statistiken definiert. Dort werden weiterhin die statistischen Grundsätze festgelegt, die für Entwicklung, Erstellung und Verbreitung europäischer Statistiken gelten. Diese Definitionen und Festlegungen werden im Verhaltenskodex für Europäische Statistiken weiter ausgeführt und konkretisiert. Der Verhaltenskodex wurde in seiner ersten Version 2005 von den Leitungen der statistischen Ämter des Europäischen Statistischen Systems unterzeichnet, die sich zu dessen Einhaltung selbst verpflichtet haben. Seitdem wurde der Verhaltenskodex zwei Mal überarbeitet und weiterentwickelt; derzeit gilt die Version vom November 2017. Die Einhaltung des Verhaltenskodex in den nationalen statistischen Systemen wird regelmäßig im Rahmen von Peer Reviews überprüft. Außerdem überwacht das unabhängige „Europäische Beratungsgremium für die Statistische Governance“ (ESGAB) die Umsetzung des Verhaltenskodex. Der Verhaltenskodex beschreibt 16 Grundsätze für das institutionelle Umfeld, die statistischen Prozesse und den statistischen Output. Für jeden Grundsatz bieten drei bis acht Indikatoren vorbildlicher Praktiken und Standards Leitlinien für die praktische Umsetzung. Diese Indikatoren wiederum werden durch den Qualitätssicherungsrahmen (Quality Assurance Framework − QAF) in Form von konkreten Methoden und Instrumenten weiter ausgeführt.
Qualität bei zusammengeführten Daten
87
Institutioneller Rahmen Grundsatz 1 – Fachliche Unabhängigkeit: Die fachliche Unabhängigkeit der statistischen Stellen gegenüber anderen politischen, Regulierungs- oder Verwaltungsstellen sowie gegenüber den Akteuren des Privatsektors ist der Garant für die Glaubwürdigkeit der europäischen Statistiken. Grundsatz 1a – Koordinierung und Zusammenarbeit: Die nationalen statistischen Ämter und Eurostat gewährleisten die Koordinierung aller Aktivitäten für die Entwicklung, Erstellung und Verbreitung von Statistiken auf der Ebene des nationalen statistischen Systems bzw. des Europäischen Statistischen Systems. Die statistischen Stellen kooperieren aktiv innerhalb der Partnerschaft des Europäischen Statistischen Systems, um so die Entwicklung, Erstellung und Verbreitung europäischer Statistiken zu gewährleisten. Grundsatz 2 – Mandat für Datenerhebung und Datenzugang: Die statistischen Stellen haben ein eindeutiges gesetzliches Mandat zur Erhebung von und bezüglich des Zugangs zu Daten aus vielfältigen Datenquellen für statistische Zwecke. Verwaltungen, Unternehmen und private Haushalte sowie die Öffentlichkeit im weiteren Sinne können gesetzlich dazu verpflichtet werden, auf Anforderung statistischer Stellen für statistische Zwecke den Zugriff auf Daten zu gewähren oder Daten zu liefern. Grundsatz 3 – Angemessene Ressourcen: Die den statistischen Stellen zur Verfügung stehenden Ressourcen reichen aus, um den aktuellen statistischen Erfordernissen zu entsprechen. Grundsatz 4 – Verpflichtung zur Qualität: Die statistischen Stellen sind zur Qualität verpflichtet. Sie ermitteln systematisch und regelmäßig Stärken und Schwächen mit dem Ziel der kontinuierlichen Verbesserung der Prozess- und Outputqualität. Grundsatz 5 – Statistische Geheimhaltung und Datenschutz: Die Anonymität der Datenlieferanten, die Geheimhaltung ihrer Angaben, deren ausschließliche Verwendung für statistische Zwecke und die Sicherheit der Daten sind unter allen Umständen gewährleistet. Grundsatz 6 – Unparteilichkeit und Objektivität: Die statistischen Stellen entwickeln, erstellen und verbreiten europäische Statistiken unter Wahrung der wissenschaftlichen Unabhängigkeit und in objektiver, professioneller und transparenter Weise, wobei alle Nutzerinnen und Nutzer gleich behandelt werden.
88
Tümmler | Qualität bei zusammengeführten Daten
Statistische Prozesse Grundsatz 7 – Solide Methodik: Qualitativ hochwertige Statistiken basieren auf einer soliden Methodik. Diese erfordert geeignete Instrumente und Verfahren sowie ein entsprechendes Know-how. Grundsatz 8 – Geeignete statistische Verfahren: Geeignete statistische Verfahren in sämtlichen statistischen Prozessen bilden die Grundlage für qualitativ hochwertige Statistiken. Grundsatz 9 – Vermeidung einer übermäßigen Belastung der Auskunftgebenden: Der Beantwortungsaufwand steht in einem angemessenen Verhältnis zum Bedarf der Nutzerinnen und Nutzer und ist für die Auskunftgebenden nicht übermäßig hoch. Die statistischen Stellen überwachen den Beantwortungsaufwand und legen Ziele für dessen schrittweise Verringerung fest. Grundsatz 10 – Wirtschaftlichkeit: Ressourcen werden effektiv eingesetzt. Statistische Produkte Grundsatz 11 – Relevanz: Die europäischen Statistiken entsprechen dem Bedarf der Nutzerinnen und Nutzer. Grundsatz 12 – Genauigkeit und Zuverlässigkeit: Die Statistiken spiegeln die Realität genau und zuverlässig wider. Grundsatz 13 – Aktualität und Pünktlichkeit: Die Statistiken sind aktuell und werden pünktlich veröffentlicht. Grundsatz 14 – Kohärenz und Vergleichbarkeit: Die Statistiken sind untereinander und im Zeitablauf konsistent und zwischen Regionen und Ländern vergleichbar; es ist möglich, miteinander in Beziehung stehende Daten aus unterschiedlichen Datenquellen zu kombinieren und gemeinsam zu verwenden. Grundsatz 15 – Zugänglichkeit und Klarheit: Die Statistiken werden klar und verständlich präsentiert, in geeigneter und benutzerfreundlicher Weise veröffentlicht und sind zusammen mit einschlägigen Metadaten und Erläuterungen entsprechend dem Grundsatz der Unparteilichkeit verfügbar und zugänglich.
Qualität bei zusammengeführten Daten
89
Was heißt „Zusammenführung“ Der zweite zu klärende Begriff ist „Zusammenführung“. Zusammengeführt werden können verschiedene Quellen von Mikrodaten oder Makrodaten. Unter Mikrodaten werden Einzeldaten auf Ebene von statistischen Einheiten verstanden z.B. Personen oder Unternehmen. Bei Makrodaten handelt es sich um aggregierte Einzeldaten, also die Ergebnisse einer Statistik. Verschiedene Makrodaten können untereinander zusammengeführt und in Bezug gesetzt werden, wie das bspw. in den Volkswirtschaftlichen Gesamtrechnungen geschieht, in die eine Vielzahl von Statistiken eingehen, um etwa das Bruttoinlandsprodukt (BIP) zu berechnen. Makrodaten können zudem Einzeldaten anreichern, indem sie als zusätzliches Merkmal an die Einzeldatensätze angespielt werden. Zwei oder mehr Quellen von Einzeldaten können auf unterschiedliche Art und Weise zusammengeführt werden. Dabei ist das Ziel i.d.R. die vollständigere Abbildung der Grundgesamtheit bzgl. der statistischen Einheiten oder/und bzgl. der Merkmale zu diesen Einheiten. Die zusammenzuführenden Quellen können sich sowohl hinsichtlich der Einheiten als auch der Merkmale vollständig, teilweise oder nicht überlappen. Im letzten Fall ergänzen sie sich vollständig und beinhalten keine gemeinsamen Informationen. Nach der Zusammenführung wird die Grundgesamtheit bzw. der Merkmalskranz im Idealfall vollständig abgedeckt. Im Falle vollständiger oder teilweiser Überlappung auf Ebene der Einheiten erfolgt die Verknüpfung zweier Quellen von Einzeldaten im besten Fall über einen gemeinsamen und eindeutigen Identifikator. Steht ein solcher nicht zur Verfügung, erfolgt eine Verknüpfung identischer Merkmalsträger über Hilfsvariablen wie Adresse, Telefonnummer o.ä. bzw. über andere Merkmale im Rahmen eines record linkage. Bei diesen Arten der Zusammenführung von Daten ist häufig das Ziel das Analysepotential der Daten zu erweitern, indem die Grundgesamtheit bzgl. der statistischen Einheiten oder/und bzgl. der Merkmale und Informationen über diese Einheiten vollständiger abgedeckt wird. Eine besondere Form der Zusammenführung stellt die über Geokoordinaten dar. Über Geokoordinaten können unterschiedlichste, georeferenzierte Informationen zusammengeführt werden, wodurch i.d.R. neue Informationen entstehen, die aus keiner der eingegangenen Quellen alleine ableitbar wären und die i.d.R. auch keine der Quellen intendiert hatte. Ein Beispiel hierzu ist der Krankenhausatlas, der Daten der Krankenhausstatistik mit solchen aus dem Zensus verbindet. Aus der Kom-
90
Tümmler | Qualität bei zusammengeführten Daten
bination lassen sich Aussagen treffen wie „90 % der in städtischen Regionen lebenden Bevölkerung in Deutschland erreichen innerhalb von 15 Minuten das nächste Krankenhaus mit einer Basisversorgung. In ländlichen Regionen schaffen dies nur gut 64 % der Bevölkerung.“1
Chancen und Risiken der Zusammenführung von Daten für die Qualität Im Folgenden werden Chancen und Risiken der Zusammenführung von Daten für die Qualität einer Statistik systematisch anhand der Grundsätze des Verhaltenskodex durchdekliniert. Schwerpunkt bilden dabei die fünf Grundsätze für die Qualität statistischer Produkte. Grundsatz 11 – Relevanz Statistiken haben eine hohe Qualität, wenn sie dem Nutzerbedarf entsprechen. Daten werden i.d.R. deshalb zusammengeführt, weil damit irgendeine Art von Nutzerbedarf (besser) erfüllt werden soll – sei es für ein Forschungsprojekt, den Informationsbedarf eines Ministeriums oder das Interesse der breiten Öffentlichkeit. Dabei sind grundsätzlich zwei Fälle zu unterscheiden: Im ersten Fall werden Daten zusammengeführt und damit können Nutzerbedarfe erfüllt werden, die bisher noch nicht abgedeckt waren. Es entsteht also gewissermaßen eine neue Statistik und der Erfüllungsgrad des Nutzerbedarfs steigt von Null auf einen Erfüllungsgrad größer Null. In diesem Fall handelt es sich also immer um eine Qualitätsverbesserung und die zusammengeführten Daten sind zusammen besser. Ein Beispiel dafür ist der oben bereits genannte Krankenhausatlas, der Nutzerbedarfe erfüllt, die zu erfüllen keine der beiden eingehenden Quellen, Zensus und Krankenhausstatistik, zum Ziel hatte. Im zweiten Fall werden Nutzerbedarfe, die grundsätzlich bereits abgedeckt werden, besser erfüllt. Hier handelt es sich also um eine bestehende Statistik, die durch die Zusammenführung von Quellen verbessert werden soll. Ob das gelingt, hängt davon ab, ob die positiven und negativen Effekte, die sich für die übrigen Kriterien zur Produktqualität ergeben, in der Summe positiv oder negativ zu bewerten sind. Die Daten sind dann zusammen besser, wenn die positiven Effekte die negativen Effekte überwiegen. 1 https://www.destatis.de/DE/Presse/Pressemitteilungen/2019/04/ PD19_163_91.html, abgerufen am 15.07.2019
Qualität bei zusammengeführten Daten
91
Für die Betrachtung der übrigen Qualitätskriterien bildet daher das Szenario einer bestehenden Statistik, die bisher aus einer Datenquelle erstellt wurde und die nun durch Zusammenführung mit einer weiteren Quelle verbessert werden soll, den Ausgangspunkt. Grundsatz 12 – Genauigkeit und Zuverlässigkeit Für das Qualitätskriterium „Genauigkeit und Zuverlässigkeit“ liegt die große Chance der Zusammenführung von Daten darin, die Abdeckung der Grundgesamtheit zu verbessern, indem sich die Quellen bzgl. der statistischen Einheiten ergänzen oder indem jede der beiden Quellen Merkmale zu den Einheiten beiträgt. Durch die Hinzunahme einer weiteren Quelle kann ggf. die Fehleridentifikation und -korrektur verbessert werden, wenn die weitere Quelle neue Informationen enthält, die entweder die Identifikation von Fehlern in der ursprünglichen Quelle ermöglichen oder die die Korrektur von Fehlern verbessern. Das geschieht bspw. im Zensus: Dort werden die Einwohnerzahlen auf Basis der Melderegister ermittelt. Die Informationen in den Melderegistern werden aber durch eine als Stichprobe durchgeführte Primärerhebung überprüft und z.B. um Karteileichen korrigiert sowie durch weitere Merkmale ergänzt. Ein Risiko bei der Verwendung mehrerer Quellen ist ein Genauigkeitsverlust, wenn die Konzepte und Definitionen für Einheiten und Merkmale in den beiden Quellen voneinander abweichen. Solche Probleme sollten im Rahmen einer vorgelagerten Eignungsprüfung untersucht und bewertet werden. Außerdem kann der Prozess der Entstehung von Sekundärdaten zu Verzerrungen, fehlenden Werten o.ä. führen, die für den Produzenten der Daten, z.B. eine Behörde, möglicherweise nicht relevant sind, für die Statistik aber sehr wohl. Ggf. werden an die Statistik vorprozessierte Daten geliefert, bei denen der exakte Prozess der Datenentstehung nicht bekannt ist oder nachvollzogen werden kann. Das erschwert die Bewertung der Genauigkeit solcher Daten. Schließlich ist der Prozess der Datenzusammenführung selbst fehleranfällig. Es können Einheiten verknüpft werden, die nicht identisch sind, und es können Einheiten, die identisch sind, nicht verknüpft werden. Beide Fälle reduzieren die Genauigkeit. Daher sollte der Erfolg des Verknüpfungsprozesses gemessen und ein möglicher Bias durch fehlerhafte Verknüpfungen untersucht werden. Zudem können in den verknüpften Daten Fehler und Widersprüche enthalten sein. Hier ist es wichtig zu wissen, ob es sich um systema-
92
Tümmler | Qualität bei zusammengeführten Daten
tische Fehler handelt oder um zufällige Fehler. Ggf. können „Schlagregeln“ verwendet werden, d.h. welche Werte werden berücksichtigt, wenn das gleiche Merkmal in mehreren Datenquellen vorkommt und dabei unterschiedliche Werte aufweist. Handelt es sich um Quellen, die zu sehr unterschiedlichen Zeiten für die Statistik verfügbar werden, können möglicherweise vorläufige Ergebnisse veröffentlicht werden, die nur Informationen aus einer Quelle enthalten, bevor zu einem späteren Zeitpunkt endgültige Daten veröffentlicht werden, die Informationen aus beiden Quellen enthalten. Vorläufige Ergebnisse sind zwar schneller verfügbar, typischerweise weniger genau als endgültige Ergebnisse. Grundsatz 13 – Aktualität und Pünktlichkeit Aus der Perspektive der Aktualität betrachtet trägt der eben betrachtete Fall der Veröffentlichung vorläufiger Ergebnisse zur Steigerung der Aktualität bei. Wenn eine zusätzliche Datenquelle genutzt werden kann, die frühzeitiger verfügbar ist als die ursprüngliche Quelle, ermöglicht das evtl. die Veröffentlichung aktuellerer, vorläufiger Ergebnisse. Wenn jedoch eine Quelle dazugewonnen werden kann, die später als die ursprüngliche verfügbar ist und entschieden wird, dass nur endgültige Ergebnisse veröffentlichen werden, verringert das die Aktualität der Statistik. Durch die Verarbeitung zweier oder mehrerer Quellen, werden die Datengewinnungs- und Aufbereitungsprozesse komplexer und es müssen ggf. mehrere Datenlieferanten eingebunden werden. In der Tendenz werden die Aufbereitungszeiten dadurch länger, was sich negativ auf die Aktualität auswirken kann. Komplexere Aufbereitungsprozesse bergen zudem ein höheres Risiko von unvorhergesehenen Verzögerungen, die dazu führen können, dass statistische Ergebnisse nicht pünktlich zum vorab angekündigten Zeitpunkt veröffentlicht werden können. Damit verschlechtert sich ggf. die Pünktlichkeit. Grundsatz 14 – Kohärenz und Vergleichbarkeit Gelingt es, durch Zusammenführung von Daten die Genauigkeit derart zu erhöhen, dass die Ausweisung regional oder fachlich tiefer gegliederter Ergebnisse ermöglicht wird, steigert das die Vergleichbarkeit der Daten. Statistiken, die die Realität widerspiegeln, sind ohne Einschränkung vergleichbar. Daher kann eine Erhöhung der Genauigkeit die Vergleich-
Qualität bei zusammengeführten Daten
93
barkeit verbessern, weil beim Vergleich weniger Unsicherheiten in den Ergebnissen berücksichtigen werden müssen. Wird die Genauigkeit jedoch durch unterschiedliche Konzepte und Definitionen in den verwendeten Quellen oder durch unterschiedliche Zeitstände der Daten in den Quellen gemindert, so kann das die zeitliche und räumliche Vergleichbarkeit der Ergebnisse beeinträchtigen. Zudem besteht bei statistikexternen Quellen das Risiko, dass sich Rahmenbedingungen (z.B. Gesetze) und Entstehungsprozesse der Daten verändern. Das kann sich auf die Genauigkeit auswirken und damit auf die zeitliche und regionale Vergleichbarkeit der Ergebnisse. Grundsatz 15 – Zugänglichkeit und Klarheit Die Komplexität der Erstellungsprozesse von Statistiken, die auf mehreren Quellen basieren, kann eine Herausforderung für die Klarheit, also die verständliche und nutzerfreundliche Präsentation von Statistiken, sein. Das ist insbesondere dann der Fall, wenn die Quellen unterschiedliche Konzepte und Definitionen und eine unterschiedliche Ausgangs-Qualität aufweisen. Den Nutzerinnen und Nutzern sollten der Umgang mit diesen Schwierigkeiten und auch die Motivation für die Verwendung der Quellen erläutert werden. Statistische Prozesse Neben den Chancen und Risiken für die Kriterien der Produktqualität berührt die Zusammenführung von Daten auch die Qualitätskriterien der statistischen Prozesse. Da diese direkt oder indirekt die Qualität der statistischen Produkte beeinflussen, wird darauf im Folgenden kurz eingegangen. Bei der Zusammenführung von Daten sollten internationale Standards und Methoden angewandt und ggf. die Kooperation mit der Wissenschaft gesucht werden, um eine solide Methodik sicherzustellen, die Voraussetzung für die internationale Vergleichbarkeit der Ergebnisse ist. Um sicherzustellen, dass nichtamtliche Daten geeignet verwendet und verarbeitet werden, sollte mit den Eignern der Daten eng zusammengearbeitet werden. Ein regelmäßiger und institutionalisierter Austausch trägt zum gegenseitigen Verständnis und zur besseren Bedienung der beiderseitigen Interessen bei und hilft beim Umgang mit Veränderungen in den Rahmenbedingungen der Datenquelle. Explizit sollte dabei das Thema Datenqualität behandelt werden.
94
Tümmler | Qualität bei zusammengeführten Daten
Die Verwendung administrativer und sonstiger Quellen kann zur Verminderung der Belastung von Auskunftgebenden beitragen, wenn dadurch zumindest Teile von Primärerhebungen ersetzt werden können oder die Anzahl der primär Befragten gesenkt werden kann. Der (teilweise) Ersatz kostenintensiver Primärerhebungen durch Sekundärdaten kann zudem die Wirtschaftlichkeit der Amtlichen Statistik verbessern. Institutioneller Rahmen Und schließlich berührt die Zusammenführung von Daten auch den institutionellen Rahmen der Statistik. Der Zugang zu den Daten, die in der Statistikproduktion verwendet werden, muss dauerhaft sichergestellt sein. Ggf. ist daher eine gesetzliche Grundlage notwendig, die das Mandat für den dauerhaften Datenzugang zu Verwaltungsdaten oder zu Daten sonstiger Eigner sichert. Zusätzlich sollten mit den Dateneignern Vereinbarungen zur Zusammenarbeit, zu Lieferterminen, -prozessen und -formaten für die Datenübermittlung abgeschlossen werden, um den gegenseitigen Austausch zu institutionalisieren. Die Verwendung einer neuen Quelle kann zusätzliche personelle, technische oder finanzielle Ressourcen erfordern. Jede neue Datenquelle ist vor Verwendung einer eingehenden Eignungsprüfung zu unterziehen, im Rahmen derer alles, was bislang genannt wurde, untersucht und dokumentiert wird, bevor schließlich die Eignung der Quelle bewertet wird2. Die Wahl der Datenquellen wird ausschließlich basierend auf statistischen Überlegungen getroffen – Stichworte Eignung und Qualitätsverbesserung. Sie erfolgt nicht aufgrund politischer oder sonstiger Einflussnahme. Werden durch Verwendung einer neuen Quelle neue Veröffentlichungsdaten möglich oder notwendig, werden diese vorab angekündigt. Entsteht ein Revisionsbedarf, weil vorläufige Ergebnisse veröffentlicht werden, die dann durch endgültige Ergebnisse revidiert werden, so wird dies ebenfalls vorab angekündigt.
2
Hinsichtlich Verwaltungsdatenquellen wird das in §5a BStatG geregelt.
Qualität bei zusammengeführten Daten
95
Zusammenfassung der Chancen und Risiken Im Kern bietet die Zusammenführung von Daten vor allem drei Chancen: Erstens die Erstellung „neuer“ Statistiken, indem durch die Zusammenführung von Daten neue Informationen entstehen, durch die Nutzerbedarfe erfüllt werden, die bislang nicht abgedeckt waren. Das ist vielleicht das größte Potential, das die Zusammenführung von Daten bietet. Zweitens kann für bestehende Statistiken die Genauigkeit gesteigert werden, wenn durch die Zusammenführung von Daten die Grundgesamtheit besser abgedeckt wird – entweder im Sinne von Einheiten oder im Sinne von Merkmalen, die die Einheiten beschreiben. Drittens kann die Aktualität erhöht werden, wenn eine neue Quelle deutlich früher verfügbar ist und wenn daraus vorläufige Ergebnisse veröffentlicht werden können. Demgegenüber stehen im Wesentlichen drei Risiken der Zusammenführung: Das wichtigste Risiko sind Abweichungen in Konzepten und Definitionen zwischen den verwendeten Datenquellen. Diese sollten jedoch im Rahmen von ausführlichen Eignungsprüfungen untersucht werden, bevor die zusätzliche Quelle verwendet wird. Wenn das geschehen ist und wenn die Eignungsprüfung ergibt, dass die Quelle geeignet ist, bedeutet das auch, dass die Unterschiede aus Sicht der Statistik tragbar und beherrschbar sind. Das zweite Risiko ist der Prozess der Datenentstehung der neuen Quelle. Auch dies sollte im Rahmen der Eignungsprüfung untersucht und bewertet werden. Um den Datenentstehungsprozess zu verstehen sind ggf. intensive Kontakte mit dem Datenlieferanten notwendig. Diese sind auch nötig, damit künftige Veränderungen in Bezug auf die Datenentstehung frühzeitig bekannt und im Idealfall mit der Statistik abgestimmt sind. Das dritte Risiko ist, dass mit der Verknüpfung von Einzeldaten eine neue Fehlerquelle entsteht. Deswegen sollte das Resultat von Verknüpfungen stets genau untersucht werden. Dazu sind ggf. geeignete Kennzahlen zu entwickeln, die schnell erkennen lassen, ob insbesondere systematische Fehler entstehen, und die eine Bewertung der Qualität der Verknüpfung erlauben.
96
Tümmler | Qualität bei zusammengeführten Daten
Konsequenzen für die Amtliche Statistik Solange eine zusätzliche Quelle nicht ohne vorhergehende Eignungsprüfung und -feststellung verwendet wird, sollten die auftretenden Risiken in der Praxis in der Regel gut beherrschbar sein und stellen damit lediglich eine Herausforderung für das Qualitätsmanagement in der Statistik dar. Das statistikübergreifende Qualitätsmanagement muss dafür sorgen, dass vor Verwendung einer neuen Quelle stets eine ausführliche Eignungsprüfung und -feststellung erfolgt. Durch diese soll ein gutes Verständnis der Interessen des Datenlieferanten, der Konzepte und Definitionen und der Abdeckung der Datenquelle (Einheiten, Merkmale), der Merkmalsausprägungen, der Aktualität und der zugrundeliegenden Entstehungsprozesse erreicht werden. Schließlich erfolgt eine Bewertung hinsichtlich Eignung der Quelle für eine bestimmte Statistik. Im Weiteren muss das Qualitätsmanagement in der Statistik darauf ausgerichtet sein, Fehler, die durch die Zusammenführung und Kombination der Quellen entstehen können, zu vermeiden. Fehler, die trotzdem entstehen, müssen identifiziert, quantifiziert und möglichst korrigiert werden. Und schließlich müssen die Auswirkungen der Fehler hinsichtlich der Ergebnisse bewertet und den Nutzerinnen und Nutzern kommuniziert werden. Aus Sicht des statistikübergreifenden Qualitätsmanagements stellt sich die Frage, welche Konsequenzen die Chancen und Risiken für die bestehenden Instrumente des Qualitätsmanagements haben. In diesem Zusammenhang soll auf zwei wichtige Werkzeuge eingegangen werden: Das Qualitätshandbuch der Statistischen Ämter des Bundes und der Länder mit seinen Qualitätsrichtlinien und das Konzept der Qualitätsdatenblätter im Verbund mit seinen Kennzahlen zur Messung der Prozess- und Produktqualität. Das Qualitätshandbuch des Bundes und der Länder hat das Ziel, eine hohe Prozessqualität zu erreichen und damit die Voraussetzung zu schaffen, zuverlässig und nachweislich eine hohe Produktqualität zu erzeugen. Das Qualitätshandbuch beschreibt das Instrumentarium für die Qualitätssicherung im Statistikerstellungsprozess. Der Kern des Handbuchs sind die Qualitätsrichtlinien. Dabei handelt es sich um eine umfassende Sammlung von ca. 350 Qualitätssicherungsmaßnahmen, deren Umsetzung eine hohe Prozessqualität über den gesamten Statistikerstellungsprozess hinweg ermöglicht. Derzeit enthält das Qualitätshandbuch bereits 16 Qualitätsrichtlinien zur Zusammenführung von Daten. Dieses Themenfeld wird grundsätzlich also bereits berücksichtigt, ggf. sind aber Erweiterungen notwendig, die bei der nächsten
Qualität bei zusammengeführten Daten
97
Überarbeitung des Handbuchs integriert werden könnten. Hierzu gibt es bereits Vorarbeiten auf europäischer Ebene, wo „Quality Guidelines for Multisource Statistics - QGMSS“ entworfen wurden. Im Qualitätshandbuch sollte zudem stärker auf Eignungsuntersuchungen eingegangen werden. Auch hierzu gibt es bereits umfangreiche Beschreibungen und Vorarbeiten, die auf europäischer Ebene entstanden sind. Diese beziehen sich zwar auf die Eignung von Verwaltungsdaten, könnten mit wenigen Anpassungen vermutlich aber auch für die Prüfung sonstiger externer Datenquellen verwendet werden. Bei den Qualitätsdatenblättern im Verbund handelt es sich um ein Konzept zur automatisierten Ermittlung von Kennzahlen zur Genauigkeit und zur Prozessqualität. Diese Kennzahlen können jederzeit im Produktionsprozess gemessen werden, wodurch eine Steuerung der Qualität bereits im laufenden Prozess ermöglicht wird. Zudem dienen die Qualitätsdatenblätter dazu, die Genauigkeit der Originaldaten und vor allem der Ergebnisse, die veröffentlicht werden, zu dokumentieren. Für die Qualitätsdatenblätter wurde eine generische Vorlage entwickelt, die etwa 60 Kennzahlen enthält und die den Fachbereichen als Orientierung bei der Entwicklung der eigenen statistikspezifischen Kennzahlen dient. Zum Thema Datenverknüpfung ist bisher lediglich der Indikator „Quote der gemeinsamen Einheiten“ enthalten. In diese generische Vorlage sollten weitere Kennzahlen aufgenommen werden, die geeignet sind, die Qualität der Datenverknüpfungen zu messen, z.B. Kennzahlen, die erkennen lassen, wie viele der Einheiten aus jeder Quelle nicht verknüpft werden konnten. Denkbar wären auch Kennzahlen zur Art der Verknüpfung (z.B. über gemeinsamen Identifikator, Adresse, …). Sinnvoll könnten zudem Kennzahlen sein, die die Beiträge der verschiedenen Quellen zum Gesamtergebnis messen.
Fazit Zusammengeführte Daten sind immer dann zusammen besser, wenn sie entweder nicht abgedeckte Nutzerbedarfe erfüllen oder wenn sie grundsätzlich bereits abgedeckte Nutzerbedarfe besser erfüllen. Trotzdem bringt die Zusammenführung von Daten auch Risiken für die Qualität mit sich, die im Rahmen einer Eignungsprüfung vor Verwendung einer Quelle identifiziert worden sein sollten und die dann im Rahmen des Qualitätsmanagements in der Statistik gezielt behandelt werden können.
98
Tümmler | Qualität bei zusammengeführten Daten
Zu beachten ist bei Verwendung externer Quellen aber unbedingt, dass ein stetiger, enger Austausch mit dem Datenlieferant nötig ist, um über alle Arten von Veränderungen frühzeitig informiert zu sein und um im Idealfall vorab dabei einbezogen zu werden und eigene Interessen einbringen zu können. Das bestehende Instrumentarium für das Qualitätsmanagement in den Statistischen Ämtern des Bundes und der Länder bleibt auch für zusammengeführte Daten gültig. Im Detail gibt es jedoch Bedarf für Ergänzungen und Ertüchtigung. Grundsätzlich wird die Statistikerstellung durch die Zusammenführung wieder einen Schritt komplexer. Außer im Produktionsprozess selbst wird das auch bei der Bewertung der Gesamtqualität einer Statistik relevant. Das ist im bisher üblichen Fall von einer Quelle pro Statistik schon schwierig, weil es bedeutet, dass z.B. mehrere Indikatoren zur Genauigkeit berücksichtigt werden müssen, um eine Gesamtbewertung vorzunehmen. Das wird nun weiter erschwert, weil Indikatoren zur Genauigkeit mehrerer Quellen sowie Indikatoren zur Verknüpfung dazu kommen. Auch hier gibt es also noch Hausaufgaben für das übergreifende Qualitätsmanagement, um den Fachbereichen für diese Bewertung eine Hilfestellung geben zu können.
Literatur Draft „Quality Guidelines for Multisource Statistics - QGMSS“, Version Juli 2018, https://ec.europa.eu/eurostat/cros/system/files/essnet_ sga2_wp1_deliverable_d4.pdf, abgerufen am 25.07.2019 Qualitätshandbuch der Statistischen Ämter des Bundes und der Länder, Version 1.1, März 2018, https://www.destatis.de/DE/Methoden/ Qualitaet/qualitaetshandbuch.pdf?__blob=publicationFile, abgerufen am 25.07.2019 Quality Assurance Framework, Version 2.0, https://ec.europa.eu/eurostat/documents/64157/4392716/ESS-QAF-V1-2final.pdf/bbf5970c1adf-46c8-afc3-58ce177a0646, abgerufen am 25.07.2019 Verhaltenskodex für Europäische Statistiken, 16. November 2017, https://www.destatis.de/DE/Methoden/Qualitaet/verhaltenskodex.pdf?__blob=publicationFile, abgerufen am 25.07.2019 Verordnung (EG) Nr. 223/2009 des europäischen Parlaments und des Rates über europäische Statistiken, https://eur-lex.europa. eu / leg a l- c ont e nt / DE / T X T/ PDF/ ? u r i= C E L E X : 0 2 0 0 9R 0 2 2 3 20150608&from=EN, abgerufen am 25.07.2019
Qualität bei zusammengeführten Daten
99
WiSta „Der Verhaltenskodex für europäische Statistiken (Code of Practice) in überarbeiteter Fassung 2011“, Dorothea Klumpen und Dieter Schäfer, Wiesbaden, 2012
Die ADM Transparenz-Initiative Sebastian Götte1,2 & Bettina Klumpe1 1 ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. 2 Gesellschaft für Markt- und Sozialforschung Weimar mbH
Wenn eine Airline ein neues Flugzeug kauft, dann wird nichts dem Zufall überlassen. Die technischen Daten jeder einzelnen Niete sind von Interesse, umfangreiche Spezifikationshandbücher wechseln die Seiten und die Funktionsfähigkeit jeder Komponente wird unter verschiedensten Bedingungen getestet. Mit gutem Grund: Schon eine Unzulänglichkeit kann im Extremfall Menschenleben kosten, zumindest aber einen teuren Ausfall des Flugzeugs bedeuten. Sicherheit hat in der Luftfahrt mit Abstand höchste Priorität – und Sicherheit basiert auf Vertrauen. Vertrauen braucht schließlich Transparenz. Nun geht es in der Markt-, Meinungs- und Sozialforschung nicht um Menschenleben. Aber auf der Arbeit der Institute basieren Investitionsentscheidungen, sie ist Ratgeber für gesellschaftliche Gestaltung und die Ergebnisse können – leider auch das – Meinungen beeinflussen. Die Verantwortung der Branche ist also immens. Und egal, was das Endprodukt im Einzelfall ist – ein Tabellenband, eine Publikation oder eine Workshopreihe –, der Kern sind immer Daten. Und die müssen stimmen. Daten aber sind etwas sehr Abstraktes. Man sieht ihnen als Laie nicht an, ob sie schief sind, man kann nicht fühlen, wie glatt ihre Oberfläche ist, und man hört auch nicht, ob sie eher schnurren oder rumpeln. Hinzu kommt, dass die Datensätze, auf denen all die schönen Endprodukte beruhen, nur selten mitgeliefert werden. Die Kund*innen müssen also ihren Auftragnehmer*innen sehr viel Vertrauen schenken, müssen glauben können, dass die Daten mit höchster Sorgfalt und mit dem passenden, zeitgemäßen Handwerkszeug erhoben wurden. Und auch hier gilt wieder: Vertrauen braucht Transparenz! Wenn man den Daten ihre Qualität nicht ansieht, dann müssen wir als Daten© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_7
102
Götte, Klumpe | Die ADM Transparenz-Initiative
produzenten so gut wie möglich beschreiben, wie sie erhoben wurden. Nicht zuletzt ist das auch ein Gebot der Wissenschaftlichkeit: Wenn Markt-, Meinungs- und Sozialforschung für sich beanspruchen, empirische Wissenschaften zu sein, dann müssen sie auch das Kriterium der Überprüfbarkeit erfüllen. Und überprüfbar sind nur Studien, von denen man weiß, wie sie durchgeführt wurden.
Die ADM TransparenzStandards sichern Vertrauen und Überprüfbarkeit Hier setzen die ADM TransparenzStandards an. Sie bieten Anbietern und Nutzern von Markt-, Meinungs- und Sozialforschung einen standardisierten Katalog von Kriterien, die für die Beschreibung der Datenerhebung zentral sind. Und damit auch für die Beurteilung der Datenqualität. Sie wollen eine gemeinsame Ebene schaffen, auf der Auftragnehmer und Kunden über die Datenerhebung sprechen können. Denn momentan sieht die Praxis eher so aus: Wer ein Angebot für eine Markt-, Meinungs- oder Sozialforschungsstudie einholt, erhält dieses in genauso vielen unterschiedlichen Strukturen und Detailgraden, wie Anbieter beteiligt sind. Es gibt Institute, die sehr genau beschreiben, wie sie die Daten erheben und auf ihre Güte kontrollieren – und warum sie den gewählten Weg gehen. Aber es gibt auch Anbieter, die die Form der Datenerhebung in ihren Angeboten eher kursorisch behandeln. Gleiches gilt für die Studiendokumentation. Wer in empirischer Forschung noch nicht so erfahren ist, weiß eventuell nicht, welche Informationen für die Beschreibung der Datenerhebung wichtig sind – und vor allem, welche fehlen. Nur zu häufig wird dann als entscheidendes Vergleichskriterium bei der Auswahl von Anbietern der Preis zu Hilfe genommen. Dies birgt die Gefahr, dass eine Studie zwar günstig ist, aber die Fragestellung nicht sauber beantworten kann. Aber welche Kriterien sind wichtig, um ausreichend Transparenz zu gewähren? Hierüber haben sich Vertreterinnen und Vertreter aus ADM Mitgliedsinstituten ein Jahr lang ausgetauscht und diskutiert. Die Diskussionen zeigten, dass sich die Kriterien je nach Methode unterscheiden müssen. Das Ergebnis war also pro Methode ein Set an Kriterien. Es wurde bereits in einer Testphase von Januar bis April 2019 von vielen Instituten des ADM auf Herz und Nieren geprüft, im Kern bestätigt und in Details verbessert. Kriterien existieren für die Methodengruppen:
Qualität bei zusammengeführten Daten
103
quantitative Studien mit Interviewereinsatz (z.B. CATI oder Face-toFace) quantitative Studien ohne Interviewereinsatz (z.B. CAWI oder schriftliche Befragungen) qualitative Studien passive Messungen (inkl. Rekrutierung) Analyse von existierendem (User Generated) Content Mystery Research Für alle Methodengruppen wurden die Kriterien in sieben Arbeitsschritte gegliedert: verwendete Methode Stichprobe Interviewer*innen/Moderator*innen/Tester*innen (falls zutreffend) Erhebungsinstrument Durchführung verwendete Standards Qualitätskontrollen So müssen zum Beispiel bei der Stichprobe die Grundgesamtheit bzw. Zielgruppe angegeben werden, welche Auswahlgrundlagen verwendet werden und wie das Sampling gestaltet wird. Beim eingesetzten Personal geht es vor allem um Schulungsaktivitäten, beim Erhebungsinstrument darum, ob und wie es getestet wurde. Wichtiger Punkt bei der Durchführung ist die Transparenz in Bezug auf Subauftragnehmer. Und der Punkt Qualitätskontrollen umfasst Prüfverfahren, die während und nach der Datenerhebung die Qualität sichern. Auf diese Transparenzkriterien soll an zwei Punkten der Kundenkommunikation eingegangen werden: im Angebot und in der Dokumentation der Studie nach deren Fertigstellung. Die Auftraggeber*innen erhalten also im Vorfeld der Studiendurchführung alle Informationen, um die Geeignetheit und Qualität der geplanten Datenerhebung einschätzen zu können. Und wenn die Studie abgeschlossen wurde, berichtet das Institut im Sinne wissenschaftlicher Transparenz, wie diese Datenerhebung tatsächlich erfolgt ist. Die TranzparenzStandards bedeuten, dass zu allen zutreffenden Kriterien eine Angabe gemacht werden muss. Nur in wenigen Ausnahmefällen kann darauf verzichtet werden. Dies sind zum Beispiel Ausschreibungen mit einem vom Kunden fest vorgegebenen Beurteilungsraster oder Wiederholungsstudien. Es wird also transparent, wel-
104
Götte, Klumpe | Die ADM Transparenz-Initiative
che Strategien und Maßnahmen die einzelnen Institute zur möglichst hochwertigen Auftragserfüllung einsetzen. Bei mehreren Anbietern können diese verglichen, Unklarheiten im Gespräch beseitigt werden. Die Kriterien bieten Ausgangspunkte zum Nachhaken bei Studienangeboten, im Sinne von: „Haben wir uns bei der Zielgruppendefinition richtig verstanden?“, oder „Wie erhalte ich Einsicht in die Ergebnisse der dargestellten Qualitätsprüfungen?“. Die ADM TransparenzStandards unterstützen somit einen konstruktiven Austausch über die geplante Erhebung zwischen Auftraggeber*innen und Auftragnehmer*innen. Es entsteht Augenhöhe.
Transparenz auf verschiedenen Wegen Auf ihrer Mitgliederversammlung im Mai 2019 haben die ADM-Institute mit großer Mehrheit beschlossen, dass die ADM-Transparenzinitiative unter dem Namen ADM TransparenzStandards weitergeführt wird. Damit sind alle Mitglieder verpflichtet, sich nach diesen Standards zu richten. Sie können dies auf zwei Wegen tun: 1. Im Angebot bzw. in der Studiendokumentation wird auf alle die betreffende(n) Methode(n) zutreffenden Kriterien eingegangen. 2. Die Kriterien werden auf den vom ADM zur Verfügung gestellten Beiblättern zu den ADM-TransparenzStandards dargelegt und Angebot bzw. Studiendokumentation beigefügt. Der erste Weg ist häufig der für die Institute einfachere, weil sie in ihren Angeboten und Studiendokumentationen auch bisher schon auf einen Großteil der Kriterien eingegangen sind. Für die (potenziellen) Kunden hingegen ist dieser Weg mit etwas mehr Arbeit verbunden. Zum einen können sie bei mehreren Anbietern nicht so einfach vergleichen wie bei der Verwendung der standardisierten Beiblätter. Zum anderen müssen sie anhand der auf www.transparenzstandards.de veröffentlichten Kriterienlisten prüfen, ob alle Kriterien beantwortet wurden. Deshalb dürfte für viele Kunden der zweite Weg nutzerfreundlicher sein. Aus den Beiblättern erkennen sie sofort, welche Kriterien für die gewählte(n) Methode(n) zutreffen und entsprechend offengelegt werden müssen. Und sie können bei mehreren Angeboten einfach die Beiblätter nebeneinanderlegen und so die Herangehensweise und Sorgfalt bei der Datenerhebung vergleichen. Verwenden die Institute keine Beiblätter, sondern integrieren die TransparenzStandards in ihren Angeboten bzw. Studiendokumentatio-
Qualität bei zusammengeführten Daten
105
nen, müssen sie dezidiert darauf hinweisen, dass sie dies getan haben. Dies können Sie mit der folgenden Formulierung tun: „Als ADM-Institut verpflichten wir uns einer Studientransparenz, die es Ihnen ermöglicht, die Qualität und Wissenschaftlichkeit unserer Arbeit zu beurteilen. Dieses Angebot / Diese Studiendokumentation wurde nach den verbindlichen TransparenzStandards des ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e. V. erstellt. Sie finden die Kriterienliste unter www.transparenzstandards.de.“ Als Kenn- und Markenzeichen der ADM TransparenzStandards stellt der ADM außerdem ein Logo zur Verfügung. Dieses ist auf den Beiblättern bereits abgebildet, kann aber auch von den Instituten im Rahmen ihrer Angebote bzw. Studiendokumentationen verwendet werden. Es soll zukünftig auf den ersten Blick auf erstklassige Transparenz bei der Datenerhebung hinweisen.
Nutzen und Grenzen Für die Nutzer*innen von empirischer Markt-, Meinungs- und Sozialforschung bedeuten die ADM TransparenzStandards einen großen Schritt in Richtung besserer Vergleichbarkeit von Angeboten. Nicht zuletzt fällt damit auch ein Licht darauf, wie komplex und anspruchsvoll empirische Markt-, Meinungs- und Sozialforschung sein kann. So werden Preise sehr viel plausibler als beim Anbieten einer „Black Box“. Die Kund*innen können künftig informierter entscheiden, welche Qualität sie zu welchem Preis erhalten wollen. Am Ende der Studie – also bei der Dokumentation – stellen die ADM TransparenzStandards sicher, dass umfassend offengelegt wird, wie die Daten erhoben wurden. Das ermöglicht die für die Wissenschaftlichkeit der Studien zentrale Überprüfbarkeit und hilft außerdem bei der Interpretation der Daten. Die ADM TransparenzStandards stellen aber nur einen Teil der Qualitätsstandards dar. Sie können nicht verhindern, dass methodisch unsinnige oder qualitativ unzureichende Studien ausgeschrieben werden. Dies müssen Auftraggeber schon im Vorfeld prüfen und die richtige Methode auswählen. Auch hierbei können die Institute unterstützen. Außerdem beschränken sich die ADM TransparenzStandards nur auf einen – allerdings sehr wichtigen – Teil von Markt-, Meinungs- und Sozialforschungsstudien. Natürlich sind diese mehr als nur die Datenerhebung. Zu einer guten Studie gehören die kompetente Beratung, Defi-
106
Götte, Klumpe | Die ADM Transparenz-Initiative
nition der Forschungsziele und Gestaltung der Erhebungsinstrumente ebenso wie eine professionelle Auswertung und Unterstützung bei der Implementation der Ergebnisse. Durch die ADM TransparenzStandards wird insgesamt ein besserer Blick in den „Maschinenraum“ der Markt-, Meinungs- und Sozialforschung gewährt – nicht mehr, aber auch nicht weniger. Denn wenn die Maschine versagt, nützt bekanntlich die beste Zusatzausstattung nichts. Weitere Informationen zu den ADM TransparenzStandards unter auf www.transparenzstandards.de.
Verbindung von Surveydaten und Geodaten Möglichkeiten, Mehrwert und Probleme am Beispiel des SOEP Jan Goebel DIW Berlin / SOEP
1 Einleitung In den letzten Jahren sind mehr und mehr Mikrodaten aus Befragungen georeferenziert verfügbar. Dies bedeutet im Allgemeinen, dass der aktuelle Wohnort der tatsächlich befragten und teilweise auch der zu befragenden Haushalte entweder als direkte Gebäudekoordinate oder als Zellenzugehörigkeit innerhalb eines Rasters für die Wissenschaft nutzbar ist. Dies ermöglicht einerseits neue Analysemöglichkeiten, bedarf andererseits aber auch zusätzlicher Vorkehrungen für den Datenschutz. Denn wie bereits lange bekannt, ist die regionale Verortung bei Mikrodaten die am schwierigsten zu anonymisierende Charakteristik. So ist ein zentraler Punkt des Anonymisierungskonzepts des Mikrozensus die Vergröberung der Regionalinformationen (siehe Müller et al. 1991 oder das jeweilige Datenhandbuch des Scientific Use Files des Mikrozensus) und bei den meisten über die Forschungsdatenzentren (FDZ) verfügbaren Daten sind die Zugangsbeschränkungen umso stärker, je genauer die regionalen Zusatzinformationen sind. So wird zum Beispiel die Einwohnerzahl der Gemeinde in wenige Kategorien eingeteilt und Regionalindikatoren unterhalb der Ebene der Raumordungsregionen (also zum Beispiel Kreise, Gemeinden oder Postleitzahlen) sind fast immer nur an kontrollierten Gastarbeitsplätzen oder gar nur im kontrollierten Fernrechenzugang verfügbar. Der vorliegende Beitrag will die Potentiale in der Verbindung von Geodaten und Surveydaten aufzeigen und beschreibt eine Infrastruktur, die am Sozio-oekonomischen Panel (SOEP) genutzt wird, um die © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_8
108
Goebel | Verbindung von Surveydaten und Geodaten
mit Geodaten verbundenen Surveydaten für die Wissenschaft zugänglich zu machen und gleichzeitig die notwendigen Datenschutzanforderungen sicherzustellen. Dabei wird auf die Erfahrungen, die im Sozio-oekonomischen Panel in den letzten 10 Jahren in diesem Bereich gesammelt wurden, zurückgegriffen. Dies umfasst zum einen die Nutzung der Koordinaten um sozialwissenschaftliche Analysen durch die Beschreibung des regionalen Kontextes zu erweitern, wie es mit den bereitgestellten Daten inzwischen von zahlreichen externen Nutzern praktiziert wurde. Zum anderen aber auch die Möglichkeit Geodaten zur Ziehung von Stichproben für Befragungen zu nutzen, wie es in einem Teilsample des SOEP im Jahr 2018 erstmals praktiziert wurde. Das Sozio-oekonomische Panel (SOEP) ist eine längsschnittliche Befragung von Personen in Haushalten in Deutschland, die bereits seit über drei Jahrzehnten läuft (Goebel et al. 2019). Die erste Befragung wurde 1984 in Westdeutschland durchgeführt und bereits 1990 auf Ostdeutschland ausgeweitet. Im Auftrag des DIW Berlin werden zurzeit jedes Jahr in Deutschland etwa 30.000 Befragte in fast 11.000 Haushalten befragt. Inhaltlich ist die Befragung nicht auf ein spezielles Thema beschränkt, sondern will, wie der Studientitel sagt, das „Leben in Deutschland“ beschreiben. Die Daten geben unter anderem Auskunft zu Fragen über Einkommen, Erwerbstätigkeit, Persönlichkeit, Bildung oder Gesundheit. Weil jedes Jahr die gleichen Personen befragt werden, können langfristige soziale und gesellschaftliche Trends besonders gut verfolgt werden. Seit Ende der 1990er Jahre konnten immer mehr regionale Indikatoren für die wissenschaftliche Nutzung bereitgestellt werden. Eine Nutzung von Kreiskennziffern oder Postleitzahlen ist entweder über einen kontrollierten Fernrechenzugang (SOEPremote) oder über einen speziellen Gastarbeitsplatz am FDZ SOEP möglich. Da das Interesse der Wissenschaft an Daten zur Beschreibung des regionalen Kontextes der Haushalte stetig stieg, wurden diesbezügliche Angebote Schritt für Schritt ausgebaut. Im Rahmen einer Kooperation mit der microm Micromarketing-Systeme und Consult GmbH (microm GmbH) ist es seit 2004 möglich, den SOEP-Haushalten Indikatoren zu ihrer konkreten kleinräumigen Umgebung zuzuspielen. Die microm GmbH stellt seit 1992 mikrogeographische Daten bereit, ursprünglich mit dem Ziel, Unternehmen bei der räumlichen Verortung ihrer Kunden- oder Zielgruppen zu unterstützen. Teile dieser Informationen können auch für sozialwissenschaftliche Fragestellungen von Bedeutung sein. Die microm-Datenbasis ermöglicht es flächendeckend, die circa 41 Millionen bundesdeutschen Haushalte hinsichtlich verschiedenster Kriterien räumlich abzubilden. Die Zuspielung der Indikatoren zur
Qualität bei zusammengeführten Daten
109
kleinräumigen Umgebung der SOEP-Haushalte wird direkt beim Erhebungsinstitut Kantar vorgenommen, das als einzige Institution Namen und Klartext-Adresse vorhält. Die verknüpften Daten werden von Kantar (ohne Klartext-Adressen und Namen) an das FDZ SOEP geliefert. Die dabei zugespielten Daten enthalten auch die für die Zuspielung erforderlichen Geo-Koordinaten, die zur Verknüpfung der Datenquellen notwendig sind. Am FDZ SOEP werden diese Daten wiederum aufgespalten, sodass die inhaltlichen Indikatoren (z. B. Anteil der Migrantinnen und Migranten im Postleitzahlbereich) Wissenschaftlerinnen und Wissenschaftlern an einem üblichen Gastarbeitsplatz zugänglich sind. Diese Zugangsmöglichkeiten beinhalten jedoch keinen Zugriff auf die Koordinaten. Damit Wissenschaftlerinnen und Wissenschaftlern auch das große Potenzial von geografisch referenzierten Koordinaten nutzen können, musste erst eine zusätzliche Infrastruktur aufgebaut werden.
2
Potentiale, Genauigkeit und Konsistenz
Einer der großen Vorteile bei der Integration der räumlichen Komponente über die exakte Verortung der Befragungshaushalte gegenüber der herkömmlichen Vorgehensweise ist es, dass Auswertungen nicht mehr auf administrative Raumeinheiten beschränkt sind. Üblicherweise können Forschende an Gastarbeitsplätzen (oder in anderen gesicherten Umgebungen) die Befragungsdaten zum Beispiel inklusive der Kreiskennziffer oder des amtlichen Gemeindeschlüssels nutzen. Eine Zuspielung von externen Daten verlangt dann, dass diese externen Daten auch auf der verwendeten Regionalebene (Kreise oder Gemeinde) vorliegen. Probleme können entstehen, wenn zum Beispiel unterschiedlich aktuelle Daten mit sich unterscheidenden Gebietsständen vorliegen. Hier müssen zum Teil Annahmen getroffen werden, wie Zeitreihen umgerechnet werden können. Außerdem kann nicht unterschieden werden, ob ein Haushalt im Zentrum der jeweiligen Region oder direkt an der Grenze zur Nachbarregion verortet ist. Das heißt aber, dass der „regionale Kontext“ beschrieben über die administrative Region für beide als identisch angenommen wird. Im Gegensatz dazu, kann über die Gebietsauswahl durch Geo-Koordinaten jeder beliebige Raum definiert und eine Unabhängigkeit von Gebietsstandsveränderungen in den Verwaltungseinheiten erzielt werden. Eine Geokodierung von Adressen kann auf unterschiedlicher Genauigkeitsebene erfolgen. So können lediglich die Mittelpunkte von Post-
110
Goebel | Verbindung von Surveydaten und Geodaten
leitzahlen, Straßenabschnitten oder Rasterzellen genutzt werden, oder es kann die eigentliche Hausadresse verwendet werden. Im SOEP wird (soweit möglich) die Hauskoordinate aus den Postadressen der Befragten genutzt. Damit liegt eine Basisinformation vor, mit deren Hilfe zum Beispiel Indikatoren über einen Umzug, die Distanz eines Umzuges oder die Lage des Haushaltes nach einer Stadt-Land Differenzierung generiert werden kann. Diese generierten Variablen können dann (nach einer datenschutzrechtlichen Prüfung) auch dem regulären Scientific Use File zugespielt werden. (a) Beispielkoordinaten Stadt (Berlin)
(b) Beispielkoordinaten Land
Abbildung 1 Beispielhafte Darstellung von Koordinatenpunkten
Abbildung 1 gibt anhand von fiktiven Koordinaten einen Eindruck über die Genauigkeit der für die Forscher zur Verfügung stehenden Koordinaten. Mit Hilfe dieser Koordinaten kann klar unterschieden werden, ob eine Person innerhalb eines stark oder weniger stark bebauten Gebietes wohnt oder wie weit es bis zum nächsten größeren Waldstück ist. Es ist aber zum Beispiel weder möglich zu unterscheiden, ob jemand in einem Hinterhof wohnt oder nicht, noch ob das Schlafzimmer zur Straße oder zu einer straßenabgewandten Seite des Hauses liegt. Derart genaue Informationen wären zum Beispiel für die Ermittlung der Lärmexposition der Befragten notwendig, können aber mit der Koordinate der Postadresse nicht exakt ermittelt werden. Im Hinblick auf die mit der Geo-Kodierung der Adressen verbundenen Analysepotentiale darf grundsätzlich nicht vergessen werden, dass es sich um die Koordinate der Wohnadresse handelt und Menschen sehr individuelle Mobilitätsmuster aufweisen. Das heißt, die Aufenthaltsdauer an diesem Punkt kann sehr unterschiedlich ausfallen.
Qualität bei zusammengeführten Daten
111
Die von Kantar für die Durchführung der Befragung genutzten Adressen werden mit Hilfe eines automatisiert arbeitenden Programms von microm in Koordinaten übersetzt. Unter Umständen können dabei bestimmte Teile der Adresse nicht in der zu Grunde liegenden Datenbank gefunden werden. In einer solchen Situation werden diese Adressteile entweder angepasst (weil automatisiert Abweichungen in der Schreibweise korrigiert werden) oder für die Geokodierung nicht genutzt. Bei der Geokodierung wird daher ein Rückgabewert für jede Adresse generiert, um nachvollziehen zu können welche Adressteile abgeändert wurden. Abbildung 2 zeigt den prozentualen Anteil der korrigierten Adressen nach Adressbestandteil. (a) nach Surveyjahr
(b) nach Alter der Adressen Straße Postleitzahl Ort
Straße Postleitzahl Ort
2000
2005
2010 Jahr
2015
0
2
4
6
8
10
12
14
Jahre seit dem Adresse bekannt
Abbildung 2 Anteil an erfolgten Adresskorrekturen
Abbildung 2a zeigt dabei die Entwicklung dieser prozentualen Zahlen nach dem Jahr des Zuspielens. Der Straßenname wurde hierbei am häufigsten angepasst, in den ersten Jahren bei etwa 4% der Adressen. Dieser Anteil sank jedoch in den Folgejahren, so dass in den aktuellen Jahren nur noch um die 2% der Adressen betroffen sind. Während der Anteil der Fälle mit einer Änderung des Ortes über die Zeit hinweg sehr stabil ist, ist der Anteil mit einer Anpassung der Postleitzahl von einem schon niedrigen Niveau von unter 2% im Lauf der Jahre noch weiter gesunken. Die im Verlauf zu sehenden Fluktuationen sind auf die Hinzunahme von neuen Stichproben zurückzuführen. Abbildung 2b zeigt jedoch keinen Zusammenhang zwischen dem Alter der Adresse (im Sinne der Anzahl der Jahre seitdem diese Adresse bereits bei der Feldsteuerung genutzt wird) und dem Anteil der notwendigen Anpassungen. Dies verdeutlicht, dass insbesondere die Verbesserung der Datengrundlage zur Geokodierung in den letzten zwei Jahrzehnten zu
112
Goebel | Verbindung von Surveydaten und Geodaten
einer Verringerung der Korrekturen führte. Der Anteil der Korrekturen war in keiner der Zuspielungen seit 2000 mit dem Alter der Adresse korreliert. Eine wissenschaftliche Nutzung der so generierten Koordinaten kann auf unterschiedlichste Art und Weise erfolgen. Grundlegend ist jedoch, dass nun jede Art von geokodierter Information mit der Lage des Wohnhauses in Beziehung gebracht werden kann. Abbildung 3 zeigt drei beispielhafte Nutzungsszenarien. Die Abbildung oben links (Teilabbildung 3a) zeigt den einfachsten Anwendungsfall. Goebel et al. (2015) nutzen die Distanz des Wohnhauses zum nächstgelegenen Atomkraftwerk als Kontrollvariable in ihren Schätzungen der Auswirkungen der Katastrophe von Fukushima auf die Sorgen der Befragten bezüglich der Umwelt. In der Abbildung oben rechts (3b) wird von Lee et al. (2008) verdeutlicht, dass es mit Hilfe von georeferenzierten Wohnadressen möglich ist, für jeden Haushalt (symbolisiert durch Zahlen in der Abbildung) individuelle Nachbarschaften zum Beispiel mit einem einfachen Radius zu bestimmen. Dadurch kann nicht nur der Indikator der jeweiligen Region, in der ein Haushalt wohnt, berücksichtigt werden, sondern auch ob der Haushalt an der Grenze dieser Region liegt. Die Werte der benachbarten Regionen können dann zum Beispiel über eine Distanzfunktion gewichtet in die Beschreibung der sogenannten egozentrierten Nachbarschaft eingehen. Dies haben Goebel und Hoppe (2015) bei ihren Analysen zu den Folgen sozialräumlicher Segregation auf die Armutsdauer umgesetzt. Eine andere Möglichkeit zur Verwendung von externen geokodierten Daten nutzen Falck et al. (2014), um in ihrer Analyse der Frage nachzugehen, ob die Verfügbarkeit des Internets einen Einfluss auf das Abstimmungsverhalten hat. Auf der Grundlage von kleinräumiger DSL-Verfügbarkeit konnten sie für jeden SOEPHaushalt beschreiben, ob er die Möglichkeit hatte, schnelles Internet zu bekommen oder nicht. Diese externe Information nutzen sie als Instrument in ihrer Schätzung und können somit eher einen kausalen Effekt identifizieren.
Qualität bei zusammengeführten Daten
113
(a) Distanz zu AKW (b) Ego-zentrierte Berechnung von Nachbarscha�en
Quelle: Goebel et al. 2015
Quelle: Lee et al. 2008
(c) Instrumentierung von Breitband Internet
Abbildung 3
Beispielhafte Nutzungsmöglichkeiten
Quelle: Falck et al. 2014
114
3
Goebel | Verbindung von Surveydaten und Geodaten
Datenschutz und Zugangsmöglichkeiten
Das SOEP stellt über sein FDZ eine Nutzungsmöglichkeit der Koordinaten (SOEPgeo) der befragten Haushalte seit 2010 zur Verfügung. Die dabei zur Verfügung gestellten Daten umfassen die Befragungswellen seit dem Jahr 2000. Zentraler Teil des entwickelten Datenschutzkonzeptes (siehe Goebel und Pauer 2014) ist dabei, dass die Geo-Koordinaten der SOEP-Haushalte von den Befragungsdaten der Personen und Haushalte grundsätzlich getrennt gehalten werden. Forschende haben zu keinem Zeitpunkt gleichzeitig Zugriff auf Koordinate und Befragungsinformation. Die Erzeugung von neuen inhaltlichen Indikatoren (zum Beispiel die Distanz zur nächsten Haltestelle des ÖPNV) ist nur innerhalb eines speziell geschützten und abgeschotteten Systems möglich. Datennutzende haben daher keinen gleichzeitigen Zugriff auf die SOEP-Erhebungsdaten und die Geo-Koordinaten der SOEP-Haushalte. Die Ergebnisse aus den darauf folgenden Analysen werden nur anonymisiert freigegeben, das heißt, ein Export aus dem System erfolgt grundsätzlich nur nach einer individuellen Prüfung der Ergebnisse, wie Tabellen oder Grafiken. Damit dies umgesetzt werden kann, sind die Forscher gezwungen, ihre Arbeit sequentiell zu organisieren. Hierbei werden alle Zugriffe auf die Daten vollständig protokolliert. Das heißt – im Gegensatz zur Distribution von faktisch anonymisierten Scientific Use Files – ist eine vollständige Kontrolle der Analysen durch das FDZ jederzeit möglich, und es werden keine Mikrodaten weitergegeben. Ein weiterer wesentlicher Bestandteil des Datenschutzkonzeptes von SOEPgeo ist, dass der Zugriff nur während eines Aufenthalts am DIW Berlin und damit von kontrollierten Zugangspunkten möglich ist. Das sequentielle Arbeiten bedeutet für Forschende, dass in einem ersten Arbeitsschritt die „neuen“ Indikatoren (wie zum Beispiel die Distanz zum nächsten AKW) erstellt werden müssen. Bei diesem Arbeitsschritt ist zwar Zugriff auf die Geo-Koordinaten notwendig, nicht aber auf die Befragungsdaten. Entsprechend sind dem Forschenden bei der Erzeugung der inhaltlichen Indikatoren innerhalb eines GeoInformations-Systems (GIS) lediglich die Geo-Koordinaten zugänglich, ohne weitere Informationen über den Haushalt oder Personen in diesem Haushalt. Als zusätzliche Datenschutzmaßnahme enthält der Datensatz der Geo-Koordinaten nicht nur die Koordinaten von SOEPHaushalten, sondern auch Koordinaten, die keinem SOEP-Haushalt zuzuordnen sind: Für jede im SOEP vorkommende Hauskoordinate wird der Datensatz um eine zufällig ausgewählte Koordinate in der Nähe dieser Hauskoordinate ergänzt. Forschende können bei ihrer Arbeit mit
Qualität bei zusammengeführten Daten
115
den Koordinaten daher nicht unterscheiden, welche der Koordinatenpunkte SOEP-Haushalte repräsentieren und welche nicht. Ein Zuspielen der im GIS erzeugten Indikatoren an die Befragungsdaten erfolgt im nächsten Arbeitsschritt und ist nur durch Beschäftigte des FDZ möglich. Forschende haben zu keiner Zeit Zugriff auf den Umsteigeschlüssel. Im darauffolgenden Arbeitsschritt können die Forschenden mit den Befragungsdaten und dem von Ihnen generierten zusätzlichen Indikator (z.B. Distanz in km) arbeiten, haben dann jedoch keinen Zugriff mehr auf die Koordinaten.
Abbildung 4
SOEPgeo am FDZ SOEP (Quelle: Goebel und Pauer 2014)
Zur Umsetzung des Datenschutzkonzeptes von SOEPgeo wurden im DIW Berlin für das FDZ SOEP drei virtuelle Server speziell konfiguriert (ein Schema des Setups findet sich in Abbildung 4). Auf dem ersten Rechner (Rechner A) ist als Einziges die Zuordnung der SOEP-Haushalts-ID (HID) zu den jeweiligen Geo-Koordinaten gespeichert. Dieser Rechner ist dafür verantwortlich, entweder die Geo-Koordinaten (ohne Haushalts-ID-Zuordnung) oder die SOEP-Haushalts-IDs mit den neu erstellten Indikatoren (ohne die entsprechenden Geo-Koordinaten) über
116
Goebel | Verbindung von Surveydaten und Geodaten
vordefinierte Schnittstellen auszugeben. Der zweite Rechner (Rechner B) wird zur Analyse der Geo-Koordinaten genutzt und der dritte Rechner (Rechner C) zur Analyse der SOEP-Befragungsdaten inklusive der aus dem Raumbezug gewonnenen zusätzlichen Indikatoren (ohne GeoKoordinaten). Die Analyse der Geo-Koordinaten und die Analyse der eigentlichen SOEP-Daten erfolgt auf getrennten Systemen im jeweiligen Datenkontext in den Rollen als GIS-Nutzer oder SOEP-Nutzer. Beide Rollen können sich nicht überschneiden und es ist auch nicht möglich, Daten direkt zu übermitteln. Die bisher am SOEP bereitgestellte Infrastruktur erlaubt es Forschenden zwar die Daten zu nutzen, ist aber sehr voraussetzungsvoll. So müssen die Forschenden das nötige Wissen besitzen, wie sie mit Geodaten in einem GIS System arbeiten können, und sie müssen ihre Analysen in zwei aufeinanderfolgende Schritte aufteilen. Auf der Seite des Datenanbieters ist der jeweils anfallende Schritt der manuellen Anspielung und der Prüfung von neu erstellten Indikatoren sehr zeitaufwendig. Beides stellt eine deutliche Einschränkung dar und soll im Rahmen des DFG Projektes „Sozial-Raumwissenschaftliche Forschungsdateninfrastruktur“ (SoRa) in Kooperation mit GESIS – Leibniz-Institut für Sozialwissenschaften, dem Karlsruher Institut für Technologie (KIT) und dem Leibniz-Institut für ökologische Raumentwicklung (IÖR) verbessert werden. Ziel des Projektes ist es, eine Infrastruktur aufzubauen, die es Forschenden ermöglicht, sozialwissenschaftliche und raumwissenschaftliche Forschungsdaten miteinander zu verknüpfen, ohne dass fachspezifisches Wissen über Geodaten beziehungsweise Geoinformationssysteme notwendig ist. Eine schematische Übersicht findet sich in Abbildung 5. Zum einen werden die Daten auf der Ebene der Metadaten miteinander verknüpft, um eine inhaltliche Schnittstelle zwischen den Datenquellen zu schaffen. Zum anderen werden grundlegende Verknüpfungsmöglichkeiten von Geodaten in einer einfach zu bedienenden grafischen Oberfläche vordefiniert und vorgegeben. Da der Forschende nur noch auf der Ebene der Metadaten die zu verknüpfenden Geoindikatoren auswählt, entfallen nicht nur die notwendigen Arbeiten, die bisher auf Rechner B vom Forscher durchgeführt wurden, sondern auch die Notwendigkeit, dass Forschende direkten Zugriff auf die Koordinaten gestattet werden muss. Die Vorteile einer solchen Infrastruktur liegen auf der Hand: Das Wissen über raumbezogene Daten und über die Verwendung von GIS-Software wird weniger relevant für die Nutzung solcher Daten, der manuelle Zuspielungsprozess entfällt und die Datenanbieter werden dadurch deutlich entlastet.
Qualität bei zusammengeführten Daten
117
Allerdings ist ein solches Setup auch mit Nachteilen oder Einschränkungen verbunden. Individuelle von den Forschenden bereitgestellte Geo-Daten sind nicht ohne weiteres automatisch integrierbar und speziellere Anwendungen sind (bisher zumindest) nicht möglich (z.B. Einbeziehung von Distanzmatrizen in Varianzschätzungen).
Abbildung 5 Projekt SORA
4
Geodaten als Ausgangspunkt für die Stichprobenziehung
Eine andere Möglichkeit, von der die Wissenschaft durch die Verbindung von Surveydaten und Geodaten profitieren kann, ist die Möglichkeit Geodaten bereits bei der Stichprobenziehung für eine Befragung zu nutzen. Für die im Jahr 2018 neu in die SOEP-Haupterhebung hinzugefügte Stichprobe wurde ein solches Vorgehen erstmals genutzt. In Kooperation mit dem Bundesinstitut für Bau-, Stadt- und Raumforschung im Bundesamt für Bauwesen und Raumordnung (BBSR) wurde bereits 2015 in einer Machbarkeitsstudie gezeigt, dass es mit den Daten des SOEP grundsätzlich möglich ist, die Bevölkerung in den Programmgebieten des Städtebauförderprogramms „Soziale Stadt“ zu beschreiben. Goebel, Gornig und Strauch (2015) nutzten in einer Machbarkeitsstudie die vom BBSR digitalisierten Grenzen der Stadtfördergebiete, um eine Dummy-Variable als Indikator dafür zu generieren, ob die SOEP-
118
Goebel | Verbindung von Surveydaten und Geodaten
Haushalte sich jeweils in einem Stadtfördergebiet befinden oder nicht. Somit konnten alle Befragungsinformationen des SOEP nach der neuen Variable getrennt ausgewertet werden. Abbildung 6 zeigt einen Überblick über die Gemeinden (grün) mit Stadtfördergebieten (rot) und auf der rechten Seite einen vergrößerten Ausschnitt für das Rhein-MainGebiet. Es zeigte sich jedoch, dass die Anzahl an Haushalten innerhalb von Stadtfördergebieten zu gering war, um tiefer gehende Analysen zu ermöglichen. Daher wurde vereinbart, bei einer nächsten Auffrischungsstichprobe nur Haushalte aus den jeweiligen Fördergebieten zu ziehen. (a) Gemeinden mit Programmgebieten der Sozialen Stadt (b) Ausschnitt Rhein-Main Gebiet
Abbildung 6 Regionale Verteilung der Programmgebiete „Soziale Stadt“
Die typischen Quellen für eine Stichprobenziehung, wie Einwohnermeldeämter, Startadresse mit anschließendem Random Walk oder Ziehung aus den Daten der Integrierten Erwerbsbiographien des Instituts für Arbeits- und Berufsforschung (IAB) konnten hier nicht genutzt werden, da sie entweder nicht georeferenziert waren oder nicht garantiert werden konnte, dass nur Adressen innerhalb der Fördergebiete in die Stichprobe gelangten. Daher wurden bereits vorhandene Geoinformationen genutzt, um das ausführende Feldinstitut mit Gebäudeadressen zu versorgen. Hierfür wurden alle Gebäudekoordinaten des Bundesamtes für Kartographie und Geodäsie (BKG, ca. 22 Mio Punkte, Stand 2017) mit denen
Qualität bei zusammengeführten Daten
119
vom BBSR digitalisierten Grenzen der Fördergebiete „Soziale Stadt“ verschnitten. Ebenfalls zugespielt wurde die Anzahl der Einwohner entsprechend der 100x100m-Kacheln des Zensus, wobei diese Einwohnerzahl auf alle Gebäude innerhalb einer Kachel gleichmäßig verteilt wurde. Ausgewählt wurden alle Gebäude mit einer Einwohnerzahl größer Null innerhalb eines Stadtförderungsgebietes. In einem zweiten Schritt wurden die Gebäude wieder aggregiert um vergleichbar große „Primary Sampling Units“ (PSU) zu generieren mit einem Zielwert von 1000-1500 Personen pro PSU (siehe Abbildung 7). Davon ausgehend wurden 110 PSU nach Gemeindegrößenklasse und Bundesland geschichtet gezogen. Pro gezogener PSU wurden zufällig 80 Gebäudeadressen ausgewählt und an das Feldinstitut übermittelt. Das Feldinstitut ermittelte in einer ersten Begehung alle Adressen anhand der Klingelschilder und wählte mit Hilfe eines festen Algorithmus die Adressen aus, die angeschrieben wurden. Die darauffolgende Kontaktaufnahme für das persönliche Interview erfolgte durch einen hierzu eingesetzten Interviewer. Eine detailliertere Beschreibung des Ziehungsdesigns findet sich in (Steinhauer, Kroh und Goebel 2020).
(a) Genutzte Geodaten
(b) Zuordnung Gebäude zu PSU
Legende: Eingefärbte Flächen bezeichnen PLZ-8 Gebiete der microm GmbH, die rote Grenze beschreibt ein exemplarisches "Soziale-Stadt"-Gebiet. Schwarze Punkte beschreiben Gebäude aus den amtlichen Gebäudekoordinaten und die farbigen sind die Mittelpunkte der 100x100m Raster mit Anzahl der Einwohner nach dem Zensus 2011.
Legende: Hintergrund aus OpenStreet Map, die rote Grenze beschreibt ein exemplarisches "Soziale-Stadt"Gebiet und die farbigen Punkte die Zuordnung der Gebäude zu den jeweiligen gebildeten PSU innerhalb des Gebiets.
Abbildung 7 Nutzung von Gebäudekoordinaten zur Ziehung einer sozialwissenschaftlichen Stichprobe
120
Goebel | Verbindung von Surveydaten und Geodaten
5 Zusammenfassung Die Verbindung von Surveydaten mit Geodaten ermöglicht eine ganze Reihe von neuen Auswertungsmöglichkeiten. Die übliche Genauigkeit der Georeferenzierung von Wohnortadressen ist mehr als ausreichend um viele Fragestellung in den Sozialwissenschaften oder im Bereich Public Health mit einer sehr genauen Beschreibung des regionalen Kontextes oder der Nachbarschaft zu ergänzen. Hierdurch kann ein wichtiger Kontext in der sozialwissenschaftlichen Forschung besser operationalisiert werden (siehe Giesselmann et al. 2019). Die Verbindung von Surveydaten mit der georeferenzierten Adresse des Wohnortes muss jedoch datenschutzrechtlich immer mit hohen zusätzlichen Kontrollen verbunden sein. So ist eine gleichzeitige Nutzung der Koordinaten inklusive der Befragungsdaten derzeit technisch nicht umsetzbar, beziehungsweise nicht so absicherbar, dass noch von faktischer Anonymität gesprochen werden kann. Daher müssen Forschende die Unannehmlichkeiten des getrennten Arbeitens (Koordinaten und Befragungsdaten sind immer getrennt) nach wie vor auf sich nehmen und ihre Ergebnisse individuell kontrollieren lassen. Die Erfahrungen der letzten Jahre am FDZ SOEP zeigen jedoch auch, dass Forschende bereit sind diese Mühen auf sich zu nehmen, da die Analysepotentiale groß sind. Eine Vereinfachung der Nutzung solcher Daten für unabhängige wissenschaftliche Forschung ist daher ein lohnendes Ziel. Die Verbindung von Geodaten und Surveydaten kann aber nicht nur gewinnbringend sein, um den regionalen Kontext und dessen Auswirkungen auf die Individuen zu analysieren. Mit der in 2018 neu zum SOEP hinzugefügten Stichprobe hat das SOEP sich zum ersten Mal in der Stichprobenziehung komplett auf Geodaten gestützt. Das Verfahren hat sich bewährt, um das Ziehungsdesign sehr kleinräumig aussteuern zu können, allerdings ist die Aktualität der zugrundeliegenden Geodaten ein entscheidender Punkt, um die angestrebte hohe Qualität einer geodatenbasierten Stichprobenziehung zu erreichen.
Qualität bei zusammengeführten Daten
121
Literatur Falck, O., Gold, R., & Heblich, S. (2014). E-Lections: Voting Behavior and the Internet. American Economic Review 104, 7, 2238-2265. Giesselmann, M., Bohmann, S., Goebel, J., Krause, P., Liebau, E., Richter, D., Schacht, D., Schröder, C., Schupp, J., & Liebig, S. (2019). The Individual in Context(s): Research Potentials of the Socio-Economic Panel Study (SOEP) in Sociology. European Sociological Review. online first. Goebel, J., Grabka, M. M., Liebig, S., Kroh, M., Richter, D., Schröder, C., & Schupp, J. (2019). The German Socio-Economic Panel (SOEP). Jahrbücher für Nationalökonomie und Statistik 239, no. 2, 345–360. Goebel, J. & Pauer B. (2014). Datenschutzkonzept zur Nutzung von SOEPgeo im Forschungsdatenzentrum SOEP am DIW Berlin. Zeitschrift für amtliche Statistik Berlin-Brandenburg (3), 42-47. Goebel, J., & Hoppe L. (2015). Ausmaß und Trends sozialräumlicher Segregation in Deutschland. Goebel, J., Krekel, C., Tiefenbach, T., & Ziebarth, N. R. (2015). How natural disasters can affect environmental concerns, risk aversion, and even politics: evidence from Fukushima and three European countries. Journal of Population Economics, 28(4), 1137-1180. Goebel, J., Gornig, M., & Strauch, K. (2015). Sozialstruktur, Lebenslagen und Lebenszufriedenheit in den Programmgebieten der Sozialen Stadt: Machbarkeitsstudie zu den Auswertungspotentialen des SOEP im Auftrag des Bundesinstituts für Bau-, Stadt- und Raumforschung. DIW Berlin: Politikberatung kompakt Nr. 103. Berlin: DIW Berlin. Lee, B. A., Reardon, S. F., Firebaugh, G., Farrell, C. R., Matthews, S. A., & O’Sullivan, D. (2008). Beyond the Census Tract: Patterns and Determinants of Racial Segregation at Multiple Geographic Scales. American Sociological Review 73, 5, 766–91. Steinhauer, H. W., Kroh, M., & Goebel, J. (2020). SOEP-Core –2018: Sampling, Nonresponse, and Weighting in the Sample O. SOEP Survey Papers 827, Series C. Berlin: DIW/SOEP Müller, W., Blien, U., Knoche, P., & Wirth, H. (1991). Die Faktische Anonymität von Mikrodaten. Schriftenreihe Forum der Bundesstatistik, Bd. 19. Stuttgart: Metzler-Poeschel.
Geokoordinaten als Verknüpfungsmerkmal Ein Werkstattbericht zur Zusammenführung von Daten der amtlichen Statistik mit Fernerkundungsdaten Hanna Brenzel, Clara Schartner, Kathrin Gebers 1 & Hannes Taubenböck, Michael Wurm 2 1 Destatis 2 DLR
1
Integration statistischer und geographischer Daten
Die Nachfrage nach verlässlichen und relevanten (Geo-)Informationen auf immer kleinräumiger Ebene steigt zunehmend, nicht zuletzt aufgrund europäischer und globaler Monitoringaufgaben und Entwicklungsprogramme. Die UN-Agenda 2030 und ihre Ziele für nachhaltige Entwicklung drängen auf eine engere Integration statistischer und geografischer Informationen. Dies stellt einerseits eine Herausforderung für die Statistik und Geographie dar, andererseits eröffnet es eine einzigartige Chance, das Potential und die Wichtigkeit von raumbezogenen statistischen Daten hervorzuheben (Moström et al. 2019).
1.1
Nutzung von Geoinformationen im Statistischen Verbund
Für die Statistischen Ämter des Bundes und der Länder besteht durch das wachsende Angebot georeferenzierter Statistiken die Chance, diesen öffentlich artikulierten Bedarf zu einem wesentlichen Teil zu decken und sich auch in diesem Bereich als seriöser Datenproduzent und Dienstleister zu positionieren. Die Erreichung des Ziels der amtlichen Statistik, Informationen bereitzustellen, die in demokratischen Gesellschaften zur Willensbildung genutzt werden und die Grundlage für Entscheidungsprozesse darstellen, wird durch die Georeferenzierung © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_9
124
Brenzel et al. | Geokoordinaten als Verknüpfungsmerkmal
statistischer Informationen um eine wesentliche Facette erweitert. Die Georeferenzierung schafft für evidenzbasierte Entscheidungen mit Regionalbezug eine neue, erweiterte Grundlage. Georeferenzierte Daten informieren über Begebenheiten und Bedingungen, welche die Realität der Bürgerinnen und Bürger auf lokaler Ebene darstellen. Insbesondere die höhere räumliche Tiefe der verarbeiteten Daten sowie die höhere Flexibilität durch die Loslösung von bisherigen Gebietseinheiten führt zu verbesserten Entscheidungsfindungsprozessen. Die Novellierung des Bundesstatistikgesetzes (BStatG) im August 2013 stellte die Weichen für die Georeferenzierung im Statistischen Verbund, denn zuvor erlaubte das BStatG nur die Nutzung des Namens der Gemeinde und der Blockseite für die regionale Zuordnung der Erhebungsmerkmale. Seit der Gesetzesanpassung ist auch die Nutzung der geografischen Gitterzelle möglich.1 Abbildung 1 stellt die Meilensteine der Entwicklung der Georeferenzierung im Statistischen Verbund exemplarisch ab diesem Zeitpunkt dar. Zum einen wurde eine hochrangige koordinierende Bund-Länder-Steuerungsgruppe „Analyse und Darstellung georeferenzierter Daten“ (SG Geo) eingerichtet, zum anderen hat das Thema Georeferenzierung im Statistischen Verbund durch die Verabschiedung des strategischen Ziels „alle geokodierbaren Statistiken bis Ende 2019 zu geokodieren“ endgültig Fahrt aufgenommen. Um dieses Ziel zu erreichen, war es notwendig eine einheitliche Definition von geokodierbaren Statistiken zu entwickeln. Statistiken werden demnach als „geokodierbar“ gekennzeichnet, wenn für die auskunftgebende/meldende Stelle oder die statistische Einheit ein regionaler Bezug unterhalb der Gemeindeebene vorhanden ist. Neben den eher technischen Arbeitsschritten war die Schaffung eines Grundverständnisses eine unabdingbare Notwendigkeit, um breitgefächert die Akzeptanz und Bereitschaft für die Geokodierung innerhalb so kurzer Zeit zu erlangen. Kernelemente des Grundverständnisses sind zum einen die Anerkennung von Geokoordinaten bzw. Rasterzellen als selbstverständliches Attribut statistischer Informationen und somit ihre Aufnahme als weiteren Standardraumbezug in den statistischen Produktionsprozess. Zum anderen gilt es, das statistikübergreifende Analysepotential, das weit über kleinräumige (kartographische) Darstellungen einzelner Statistiken hinausgeht, aufzuzeigen. Durch den Aufbau der Infrastruktur und der notwendigen Rahmenbe1
Dabei ist laut §10 BStatG die dauerhafte Speicherung des Raumbezugs statistischer Daten grundsätzlich nicht adressscharf, sondern lediglich bezogen auf das geografischer Gitter mit einer Mindestgitterweite von 100 Metern erlaubt.
Qualität bei zusammengeführten Daten
125
dingungen war es somit möglich, innerhalb kürzester Zeit die geokodierbaren Statistiken zu geokodieren. Bis Ende 2018 lagen bereits 80% der geokodierbaren Statistiken geokodiert vor.
Quelle: Eigene Darstellung. Abbildung 1 Historie der Georeferenzierung im Statistischen Verbund
1.2
Integration statistischer und geographischer Daten im internationalen Kontext
Die Nutzung von Daten aus unterschiedlichsten Datenquellen und für unterschiedliche Zwecke fordert die Integration in ein einheitliches Referenzsystem von harmonisierten Konzepten. Denn nicht nur die Nachfrage nach kleinräumigen Daten steigt, auch die Anforderung nach einer einfacheren Integration von Daten aus verschiedenen Datenquellen gewinnt immer mehr an Bedeutung. Der internationale Zusammenschluss von Statistikerinnen und Statistikern sowie Geographinnen und Geographen der Vereinten Nationen (UN SC und UN GGIM) hat die Herausforderung erkannt und entsprechend ein Rahmenwerk, das sogenannte Global Statistical Geospatial Framework (GSGF), erarbeitet. Dieses Rahmenwerk basiert auf fünf Prinzipien (siehe Abbildung 2). Der Fokus liegt dabei auf der Vergleichbarkeit von statistischem Output, harmonisierte raumbezogene Datenquellen und Methoden sowie Interoperabilität verschiedener Datenquellen und Metadaten unter Berücksichtigung technischer Voraussetzungen und Gegebenheiten. Das
126
Brenzel et al. | Geokoordinaten als Verknüpfungsmerkmal
Rahmenwerk soll somit als Brücke zwischen statistischen und geographischen Informationen, Institutionen und Standards, Methoden, Arbeitsabläufen und Werkzeuge fungieren.
Quelle: http://ggim.un.org/meetings/GGIM-committee/8th-Session/documents/Global-Statistical-Geospatial-Framework-July-2018.pdf (abgerufen am 8.08.2019). Abbildung 2 Global Statistical Geospatial Framework (GSGF) – Grundprinzipien
Das erste Prinzip richtet den Fokus auf die Schaffung einer Infrastruktur, welche die Implementierung des Rahmenwerks erlaubt. Diese Infrastruktur unterstützt zum einen die Erzeugung hochwertiger, standardisierte Standortreferenzen wie physikalische Adressen, Gebäude-IDs oder andere Standortbeschreibungen und zum anderen richtet es den Blick auf eine korrekte Zuordnung von Koordinaten und Standardrasterreferenzen. Das zweite Prinzip unterstützt die Verknüpfung statistischer Einheiten mit geographischen Referenzen, sodass die statistischen Daten auf jeden geographischen Kontext angewendet werden können. Dies unterstützt u.a. die Integration oder Verknüpfung von Daten aus anderen Datenquellen. In Prinzip drei werden Definitionen von geographischen Regionen behandelt, sodass die Kohärenz
Qualität bei zusammengeführten Daten
127
und Vergleichbarkeit der integrierten statistischen und geographischen Daten möglich ist. Allgemeingültige geographische Definitionen stellen sicher, dass statistische Daten einem konsistenten Raumbezug zuordenbar und auf verschiedenen Aggregationsebenen aggregierbar sind. Gleichzeitig wird dadurch sichergestellt, dass Benutzer statistische Informationen in die jeweilige gewünschte Geographie integrieren, analysieren und visualisieren können. Das vierte Prinzip setzt den Fokus auf eine stärkere Standardisierung und Interoperabilität der Daten, was zu einer vereinfachten und effizienteren Erstellung, Integration und Verwendung von georeferenzierten statistischen Daten führt. Durch den Einsatz einer erhöhten Bandbreite von Daten und Technologien, kann ein erhöhtes Spektrum von Informationen für die Entscheidungsfindung verfügbar und zugänglich gemacht werden. Auch die Zusammenarbeit zwischen allen Akteuren kann dadurch erleichtert und verbessert werden. Das fünfte Prinzip richtet den Blick auf den Zugang und das Analysepotential georeferenzierter Statistiken. Beispielsweise die Förderung von Webservices zur maschinenlesbaren und dynamischen Verknüpfung von Daten steht hier im Fokus.2
1.3
Herausforderungen bei der Geokodierung von (amtlichen) Daten
Die statistische Geheimhaltung ist ein zentrales Kernelement der amtlichen Statistik und nimmt daher auch im Rahmen des Geokodierungsprozesses eine wichtige Rolle ein. Da es sich bei den Anschriften, die für die Geokodierung benötigt werden, um sensible Informationen handelt, muss daher entweder eine anonymisierte Nutzung des Geokodierungsdienstes gegeben sein, oder aber die zu geokodierenden Anschriften müssen vor der Einspielung in den Geokodierungsdienst anonymisiert werden. Für den Statistischen Verbund wurde der Geokodierungsdienst des Bundesamtes für Kartographie und Geodäsie (BKG) als Standardwerkzeug festgelegt. Dieser erlaubt seit Dezember 2016 2
Eine ausführliche Darstellung der allgemein formulierten Prinzipien ist im Bericht der „United Nations Expert Group on the Integration of Statistical and Geospatial Information“ nachzulesen (http://ggim.un.org/meetings/ GGIM-committee/8th-Session/documents/Global-Statistical-GeospatialFramework-July-2018.pdf (abgerufen am 8.08.2019, Seite 8). Eine europäische Version ist im Rahmen des ESSnet-Projekts GEOSTAT 3 nachzulesen (https://www.efgs.info/wp-content/uploads/geostat/3/GEOSTAT3_GSGF_EuropeanImplementationGuide_v1.0.pdf (abgerufen am 8.08.2019).
128
Brenzel et al. | Geokoordinaten als Verknüpfungsmerkmal
nicht nur für die Statistischen Landesämter, sondern auch für das Statistische Bundesamt die Möglichkeit der anonymen Nutzung. Neben der statistischen Geheimhaltung der Anschriften im Prozess der Geokodierung ist die Frage der Qualität der Geokodierungsergebnisse entscheidend. Grundvoraussetzung ist dabei die Ertüchtigung und Qualifizierung der verwendeten Daten. So müssen für ein erfolgreiches Geokodierungsergebnis fehlende Anschriften ermittelt werden oder fehlerhafte Anschriften bereinigt werden. Zudem spielt der Stand der zugrundeliegenden Referenzdaten eines Geokodierungsdiensten eine wichtige Rolle. Hier ist insbesondere die Aktualisierung der Referenzdaten zu nennen, denn ein aktueller Datenstand ist eine zwingende Voraussetzung für eine gute Qualität der Geokodierung. Wie wird die Qualität der Geokodierung im Verbund gemessen? Um den Stand der zugrundeliegenden Referenzdaten zu einem späteren Zeitpunkt nachvollziehbar zu machen, muss ein Zeitstempel enthalten sein, der den Zeitpunkt der Geokodierung dokumentiert. Zusätzlich zum Zeitstempel hat eine Unterarbeitsgruppe, die aus Vertreterinnen und Vertretern verschiedener Statistischer Landesämter, verschiedener Querschnitts- und Fachbereiche des Statistischen Bundesamtes und des BKG besteht, ein Qualitätskennzeichen erarbeitet, das sieben Qualitätsstufen ausweist.3 Gemessen wird die Qualität der Verortung, also die erreichte Genauigkeit im Geokodierungsprozess. Die Qualitätskennzeichen sind insbesondere für die wissenschaftliche sowie statistsiche Nutzung der Daten von hoher Relevanz. Denn nur durch die Abbildung und Einordnung der vorliegenden Qualität der Geokodierung können etwaig auftretende Fehler zum Beispiel bei der Verknüpfung verschiedener Datensätze durch die Geokoordinate abgeschätzt werden.
3
Dieses Qualitätskennzeichen wird aus den originären Qualitätsparametern des Geokodierungsdienstes abgeleitet.
Qualität bei zusammengeführten Daten
2
129
Potential durch die Verknüpfung
Mit der Geokoordinate bzw. Rasterzelle ist die Verschneidung und Kombination (Moström et al. 2019) verschiedener Datenquellen auf kleinräumiger Ebene technisch möglich.4 So lassen sich zum Beispiel weitere Informationen generieren, ohne die Befragten zusätzlich zu belasten. Aber auch neue Möglichkeiten der Plausibilisierung können sich durch die Verknüpfung verschiedener Datenquellen ergeben. So wurde im Projekt „GebäuDE-21“ bspw. die Eignung von Fernerkundungsdaten zur Qualitätssicherung des Zensus bei der Erhebung der Gebäude- und Wohnungsinformation untersucht.5 Und nicht zuletzt ergibt sich aus der Verknüpfung verschiedener Datenquellen ein erweitertes Spektrum, relevante Fragestellungen zu beantworten. Der nachfolgende Werkstattbericht soll beispielhaft aufzeigen, inwiefern durch die Kombination von geokodierten amtlichen Daten mit Fernerkundungs- oder Geodaten neues Analysepotential für die amtliche Statistik entsteht.
2.1
Analyse von Stadtstrukturen
Für die Analyse wurden die geokodierten Zensusdaten von 2011 gewählt, die Aufschluss über demographische Strukturen auf kleinräumiger Ebene geben. Abbildung 3 zeigt exemplarisch die Altersverteilung innerhalb der Stadt Wiesbaden. Hierbei ist ein deutlicher Unterschied in der Verteilung der unter 18- und über 65-Jährigen zu erkennen. An diese Gitterzellen können nun z.B. Informationen angespielt werden, die Aufschluss über die Wohnumgebung der Bevölkerung geben. Für die vorliegende Analyse wurden die demographischen Informationen aus dem Zensus 2011 mit verschiedenen Informationen, welche die Gitterzelle und ihre Umgebung auf stadtmorphologischer Ebene beschreiben, verknüpft. Dadurch kann die Umwelt der Gitterzelle und damit die Wohnumgebung der Bewohnerinnen und Bewohner beschrieben werden. Eine Differenzierung innerhalb der Gitterzelle ist nicht möglich, da keine tiefer gegliederten Informationen (Punktkoordinaten) für alle verwendeten Datenquellen vorliegen. Deshalb wird die Umwelt der Bewohnerinnen und Bewohner innerhalb einer Gitterzelle pauschal beschrieben und gewisse Randunschärfen müssen hingenommen werden. Neben dem Potential, das die Verknüpfung verschie4 5
Grundsätzlich erfordert ein solches Vorgehen, dass die durchgeführten Analysen vom Zweck der jeweils zugrundeliegenden einzelstatistischen Rechtsgrundlage aller verwendeten Einzelstatistiken erfasst sind. Siehe: https://www.ioer.de/projekte/gebaeude-21/ (abgerufen am 8.08.2019).
130
Brenzel et al. | Geokoordinaten als Verknüpfungsmerkmal
dener Datenquellen mit sich bringt, soll der vorliegende Werkstattbericht zudem die Herausforderungen und Möglichkeiten verschiedener Datenformen bei der Verknüpfung herausstellen.
Quelle: Zensus 2011, Hintergrundkarte: Google Maps; eigene Darstellung. Abbildung 3 Anteil der Altersgruppen unter 18 und über 65 pro Gitterzelle aus dem Zensus 2011 exemplarisch für Wiesbaden
2.2 Daten Die demographischen Daten aus dem Zensus 2011 sind auf Ebene der Gitterzelle gespeichert. Die Gitterzellen haben eine Größe von 100 mal 100 Metern und sind INSPIRE6 konform. Soweit es der Datenschutz erlaubt, wurden diese Daten auch publiziert.7 Die georeferenzierten Merkmale bestehen unter anderem aus der Altersgruppe, Familienstand, Geburtsland und Geschlecht. Bei den publizierten Daten des Zensus kann es aufgrund der Geheimhaltung zu Abweichungen kommen. Für diese Analyse wurden Daten aller deutschen Städte mit mehr als 100.000 Einwohnern benutzt. In einem ersten Schritt wurden Informationen über Landbedeckung und Landnutzung an die Gitterzellen herangespielt, um die direkte Umgebung der Einwohner zu bestimmen. Hierzu wurde eine Landbedeckungsklassifikation von Weigand et al. (2019) verwendet, um die 6
INfrastructure for SPatial InfoRmation in Europe (INSPIRE) Richtlinien definieren den Aufbau von Geodateninfrastruktur. 7 https://www.zensus2011.de/DE/Home/Aktuelles/DemografischeGrunddaten.html?nn=3065474#Gitter (abgerufen am 8.09.2019)
Qualität bei zusammengeführten Daten
131
Landbedeckung (d.h. es werden Klassen wie z.B. „bebaut“, „Wiese“, „Baum“ etc. unterschieden) innerhalb der jeweiligen Gitterzelle zu beschreiben. Diese Landbedeckungsklassifikation wurde mithilfe eines Random Forest Algorithmus auf der Basis von Sentinel-2-Daten erstellt. Als Trainingsdaten wurden pan-Europäische „Land Use and Coverage Area frame Survey“ (LUCAS) Punkte verwendet. Darauf wurden die optischen Satellitendaten der Sentinel-2-Sensoren mit einer Auflösung von 10 mal 10 Metern im Rasterformat trainiert. Diese räumliche Auflösung erlaubt es, den genauen Anteil der Landbedeckungsklassen innerhalb der Gitterzelle zu bestimmen. Für die Landnutzung wurde der Urban Atlas8 von 2012 verwendet, so wie in Abbildung 4 exemplarisch dargestellt ist. Im Urban Atlas sind große europäische Städte sowie das Umland dieser Städte kartiert. Die Landnutzung dieser Städte ist in 17 Kategorien eingeteilt. Diese Daten sind Vektordaten, d.h. sie beschreiben exakt den Umriss einer Landnutzungsklasse. Die Mindestkartiergröße der Landnutzung ist 0,25 ha im urbanen Raum. Aus dem Urban Atlas wurde für jede Gitterzelle die Distanz zur nächsten öffentlichen Grünfläche berechnet.
Quelle: Urban Atlas 2012, eigene Darstellung. Abbildung 4 Darstellung des Urban Atlas exemplarisch für Wiesbaden
8
https://land.copernicus.eu/local/urban-atlas (abgerufen am 8.08.2019)
132
Brenzel et al. | Geokoordinaten als Verknüpfungsmerkmal
Um die Gebäudestruktur innerhalb der Gitterzelle abbilden zu können, wurde das 3D-Gebäudemodell LoD1 (Level of Detail 1)9 herangezogen. Die LoD1-Daten beschreiben die Gebäude als Klötzchen, ohne Berücksichtigung der tatsächlichen Dachform. Diese stark vereinfachten Abbildungen der Gebäude basieren auf Flurkarten der Vermessungsämter. Davon wurden Kennzahlen der Bebauungsart innerhalb einer Gitterzelle abgeleitet: die Anzahl der Gebäude sowie die durchschnittliche Größe und Höhe innerhalb einer Gitterzelle. Die Urheber dieser Daten sind die Vermessungsverwaltungen der Länder, welche die Daten jährlich aktualisieren. Die Gebäudehöhe wird von einer Laserscannerbefliegung abgeleitet, wovon z.B. in NRW der Mittelwert der Höhe, der in den Hausumring fällt, abgeleitet wird (Meinel et al. 2013), Eine weitere Quelle, die für die Beschreibung einer Nachbarschaft herangezogen wurde, ist OpenStreetMap (OSM). OSM wurde 2004 gegründet, um eine frei zugängliche Weltkarte mithilfe von „Crowdsourcing“ zu erstellen. Freiwillige können ihr Wissen über ihr lokales Umfeld miteinbringen. Diese dezentrale Organisation führt aber auch dazu, dass die Qualität für jeden Einzelfall geprüft werden sollte, bevor diese Daten genutzt werden können. Dorn et al. (2015) beurteilten die Vollständigkeit des Straßennetzwerks basierend auf den Ergebnissen verschiedener Studien als sehr gut. Die Genauigkeit und Vollständigkeit variiert regional und ist im urbanen Raum tendenziell höher. Für den Krankenhausatlas10 des Statistischen Verbunds wurden, nach erfolgreicher Prüfung der Qualität, OSM-Daten zur Berechnung der Fahrzeit zum nächsten Krankenhaus benutzt. Zhang und Pfoser (2019) untersuchten die Qualität von Points of Interest in den OSM-Daten. Die Daten sind zwar nicht vollständig, lassen sich aber z.B. für die Erkennung eines Trends gut benutzen. Auch wenn diese Daten nicht exakt und vollständig sind, eignen sie sich für diese Analyse, u.a. da diese den Fokus auf den urbanen Raum legt. Der große Vorteil von OSM-Daten ist, dass diese Daten eine Fülle von Informationen beinhalten, wie zum Beispiel Informationen über Straßen oder Parks, aber auch Punktinformationen wie zum Beispiel Schulen, Kinderbetreuungseinrichtungen oder Arztpraxen. Diese Informationen sind als Punkte oder Polygone abgespeichert. Mithilfe des Kerndichteschätzers wurde ein Maß der Versorgungsdichte dieser Merkmale errechnet. Im Gegensatz zur Distanz zum nächsten Punkt, 9
Verfügbar für Bundeseinrichtungen: https://www.bkg.bund.de/SharedDocs/ Produktinformationen/BKG/DE/P-2019/190211_LoD1.html 10 https://krankenhausatlas.statistikportal.de/
Qualität bei zusammengeführten Daten
133
wird so nicht nur das nächstgelegene miteinbezogen, sondern die Abdeckung in der Umgebung findet Eingang in die Analyse.
2.3 Ausblick Die für jede Gitterzelle gesammelten Informationen, wie vorausgehend beschrieben, können nun genutzt werden, um Zusammenhänge zwischen der demographischen und der stadtmorphologischen Struktur zu ermitteln. Um die Beziehung dieser Vielzahl an Variablen zu ergründen, ohne sich auf eine Variable als abhängige Variable einzuschränken, wurde in einem ersten Schritt eine explorative Analyse mithilfe der Kanonischen Korrelation durchgeführt. Die Kanonische Korrelation berechnet den Zusammenhang zwischen zwei Gruppen von Variablen (Hotelling 1936). In diesem Fall stellen die Informationen aus dem Zensus 2011 eine Gruppe der demographischen Variablen dar, während die andere Gruppe aus stadtstrukturellen Merkmale besteht, mit Informationen über die Bebauungsart und Infrastruktur. Ziel ist es, daraus multidimensionale Zusammenhänge zwischen den zwei Gruppen abzuleiten, um am Ende die unterschiedliche Verteilung bestimmter Altersgruppen in Städten zu verstehen.
3 Zusammenfassung Die Integration von statistischen und geographischen Informationen schafft ein statistikübergreifendes Analysepotential, das weit über kleinräumige, kartographische Darstellungen einzelner Statistiken hinausgeht. Über die Geokoordinaten bzw. Rasterzellen lassen sich Verknüpfungen mit anderen Statistiken oder externen Daten erstellen, um Informationen aus verschiedenen Quellen gemeinsam zu analysieren. Durch die INSPIRE-Vorgaben liegen eine Reihe an interessanten Informationen vor. Damit erhöht sich das Analysepotential der Daten und neue Fragestellungen können bearbeitet werden. Neben dem Potential, das die Verknüpfung verschiedener Datenquellen mit sich bringt, ergeben sich aber auch Herausforderungen und Hürden, nicht zuletzt durch die verschiedenen vorliegenden Datenformen der jeweiligen Quellen. Ein zentrales Kernelement ist es daher, die unterschiedlichen Datenformen und die Auflösung der verwendeten Informationen passgenau und der jeweils zugrundeliegenden Fragestellung angemessen zu verwenden. Darüber hinaus ist oftmals nicht nur die Information, die unmittelbar innerhalb einer Gitterzelle liegt, von Bedeutung, son-
134
Brenzel et al. | Geokoordinaten als Verknüpfungsmerkmal
dern auch die Umgebung, in der eine Gitterzelle sich befindet. Die im vorliegenden Beitrag vorgestellte Aufbereitungen der räumlichen Datenquellen verdeutlichen diese Herausforderungen beispielhaft. Generell birgt die Aufnahme der Geokoordinate in die amtlichen Statistiken und die dadurch möglich gewordene Verknüpfung mit Geo- und Fernerkundungsdaten ein großes Potential. Ziel muss es daher sein, dieses Potential zu erschließen und ggf. bestehende Hürden – sowohl technischer als auch rechtlicher Art – zu überwinden.
Literatur Dorn, H., Törnros, T., & Zipf, A. (2015). Quality Evaluation of VGI Using Authoritative Data — A Comparison with Land Use Data in Southern Germany. ISPRS International Journal of Geo-Information 4.3, 1657-1671. Hotelling, H. (1936). Relation between two sets of variates. Biometrica. Meinel, G., Schumacher, U., & Behnisch, M. (2013). Flächennutzungsmonitoring V: Methodik-Analyseergebnisse-Flächenmanagement. Rhombos-Verlag. Moström, J., Hedeklint, K., Dysterud, M., Engelien, E., Bloch, Vilni Verner Holst, Tammisto, R. et al. (2019). GSGF Europe – Implementation guide for the Global Statistical Geospatial Framework in Europe – Proposal from the GEOSTAT 3 project, 28.02.2019. Weigand, M., Staab, J., Wurm, M., & Taubenböck, H. (2019). Spatial and Semantic Effects of LUCAS Samples on Fully Automated Land Use/ Land Cover Classification in High Resolution Sentinel-2 Data. Im Begutachtungsprozess. Zhang, L., & Pfoser, D. (2019). Using OpenStreetMap point-of-interest data to model urban change – A feasibility study. PloS one 14.2.
Vergleichbar, passgenau, ganzheitlich Kunden-Mehrwert durch Datenintegration im Geomarketing Hendrik Wagenseil GfK Geomarketing GmbH
Zusammenfassung Geodatenprodukte von Anbietern wie der GfK Geomarketing zielen darauf ab, regionale Unterschiede in der soziodemographischen Struktur, dem Konsumverhalten, Produkt- und Markenpräferenzen sowie Werten und Einstellungen der Verbraucher abzubilden oder aber (Handels-)Standorte in ihrer Bedeutung und Qualität zu bewerten. Derartige Produkte werden i.d.R. durch eine geeignete räumliche bzw. algorithmische Verknüpfung von Daten aus öffentlichen und privaten Quellen (kommerzielle Datenanbieter, Anwender/Kunde) und ggf. eigenen Erhebungen generiert. Aus Sicht von Wirtschaftsunternehmen bieten diese „integrierten“ Datenprodukte in Abhängigkeit von der jeweiligen Fragestellung eine Reihe von Qualitätsvorteilen und damit einen Mehrwert, weil sie unmittelbar zur Entscheidungsvorbereitung nutzbar sind. Folgende Aspekte sind dabei besonders hervorzuheben: Vergleichbarkeit: Insbesondere bei länderübergreifenden Fragestellungen, aber auch in dezentral organisierten Ländern, stellt die heterogene Datenlandschaft den Anwender vor große Herausforderungen. Datensätze zu einem bestimmten Sachverhalt stehen entweder nicht überall zur Verfügung oder unterscheiden sich in ihrer Aktualität, Granularität, Art der Datengenerierung, usw. Die bestmögliche inhaltliche Angleichung der jeweils verfügbaren Daten je Land sowie die Überführung in einheitliche Bezugssysteme/Datenformate erhö© Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_10
136
Wagenseil | Vergleichbar, passgenau, ganzheitlich
hen die Vergleichbarkeit und vereinfachen die nachfolgende Systemintegration. Passgenauigkeit: Viele Eigenschaften von Zielgruppen (Konsumverhalten, Markenpräferenzen u.a.) sind i.d.R. aus anderen Quellen nicht oder nicht in der benötigten Granularität berechenbar. Durch die Verknüpfung spezifischer Befragungen mit räumlichen Informationen lassen sich die Befragungsinhalte regionalisieren und spezifisch auf bestimmte Fragestellungen ausrichten. Ganzheitlichkeit: Viele Unternehmensentscheidungen in Bezug auf Standorte (Filialstandorte, Handelspartner) werden primär auf Basis intern vorliegender Daten, z.B. aus der Finanzbuchhaltung oder dem Controlling getroffen. Durch die Verknüpfung dieser Informationen mit regionalen Nachfragepotenzialen sowie Daten zu Standorten und deren Attraktivität lassen sich objektivere Bewertungen vornehmen und Entscheidungen auf Basis einer ganzheitlichen Problembetrachtung treffen. Ausgehend von typischen Anwenderfragestellungen werden diese drei Qualitätsaspekte anhand von Fallbeispielen vorgestellt und diskutiert.
1
Einleitung
Viele Wirtschaftsunternehmen aus Industrie und Handel beschäftigen sich in ihrem strategischen wie operativen Geschäft mit raumbezogenen Fragestellungen. Dabei geht es um vielfältige Bereiche des unternehmerischen Handelns, wie beispielsweise die Bewertung und Planung von Standorten (Handel), die Bewertung von Handelspartnern (Industrie), die Planung und Durchführung von Marketingkampagnen, die Koordination und Steuerung des Außendienstes, die Markteinführung neuer Produkte oder die Sortimentsgestaltung am Point of Sale. So vielfältig wie die Fragestellungen sind auch die Anforderungen an Geodatenprodukte, die als Entscheidungshilfe in den entsprechenden Geschäftsprozessen Verwendung finden. So erfordern Marketingkampagnen wie die Verteilung von Werbemitteln häufig produktspezifische Nachfragekennziffern mit Bezug zum Wohnort, während zur Bewertung und Planung eines Filialnetzwerkes marken- oder branchenspezifische Potenzialbetrachtungen am Einzelhandelsstandort
Qualität bei zusammengeführten Daten
137
unter Berücksichtigung der Konkurrenzsituation nötig sind. Im Falle länderübergreifender Analysen müssen die Daten zudem in möglichst vergleichbarer Qualität und Aussagekraft in allen betrachteten Märkten vorliegen. Je nach Anwendungsbereich variiert auch die benötigte räumliche Granularität, typische Betrachtungsmaßstäbe reichen von der Ebene der Postleitzahlen bis hin zu Straßenabschnitten, die ggf. noch zu individuell definierten Gebietseinheiten (Einzugs-, Vertriebs-, Verteilgebiete) aggregiert werden. In den meisten Fällen lassen sich die dafür notwendigen Daten aus inhaltlichen oder aufwandtechnischen Gründen nicht direkt in der geforderten räumlichen Granularität messen oder erheben. Stattdessen werden in solchen Fällen oft Modellierungen vorgenommen, wobei Daten aus verschiedenen Quellen über ihren Raumbezug oder auf algorithmische Weise miteinander verknüpft werden. Dabei wird versucht, die unterschiedlichen Eigenschaften der einzelnen Bestandteile vorteilhaft zu nutzen, die sich aus der jeweiligen Methodik der Datengenerierung ergeben. Exemplarisch sei hier die Verknüpfung einer stichprobenartigen Befragung mit regionalen soziodemographischen Informationen genannt, wodurch sich der Befragungsinhalt räumlich darstellen lässt. Nach ihrer Herkunft lassen sich die aus Anbietersicht im Geomarketing typischerweise verwendeten Daten wie folgt gliedern: Proprietäre Daten: Hierbei handelt es sich um anbieterspezifische Daten, beispielsweise Ad-hoc-Befragungen zu ausgewählten Sachverhalten, Messungen zum Konsumverhalten oder zur Mediennutzung aus Panelstudien, aber auch um spezielle Datenbanken, beispielsweise mit mikrogeographischen Informationen oder aber mit Angaben zu Einkaufszentren, Händlerstandorten usw. Externe Daten: In diese Kategorie fallen administrative Daten, die von verschiedenen Behörden teils kostenpflichtig, vielfach aber auch kostenfrei direkt, über Open-Data-Plattformen oder Web-Schnittstellen zur Verfügung gestellt werden. Auch kommerziell vertriebene Daten wie digitale Straßennetze und Analysen von Wirtschaftsforschungsinstituten fallen in diese Kategorie und sind für die Geodatenerstellung relevant. Zunehmend gewinnen auch digitale Daten wie Satellitenbildprodukte oder aber per Webscraping generierte Daten aus dem Internet an Bedeutung. Interne Daten: Daten, die von Unternehmen selbst erhoben werden, beispielsweise im Rahmen von Kassenbefragungen, Außendienstbewertungen, Kundenbindungsprogrammen oder aber in der Buchhaltung und im Finanzcontrolling, werden als interne Daten bezeichnet.
138
Wagenseil | Vergleichbar, passgenau, ganzheitlich
Generell entstehen durch die algorithmische Verknüpfung von Informationen aus diesen Quellen im Ergebnis neue Datenprodukte, zu denen es im Allgemeinen keine absolute und objektive Referenz gibt. Im Folgenden wird für diesen Prozess der Datengenerierung der Begriff Datenintegration verwendet, wenngleich sich dieser in vielen allgemeinen Definitionen (vgl. Wikipedia 2019, Gabler Wirtschaftslexikon 2019) und auch im kommerziellen Sprachgebrauch (vgl. Talend 2019) auf die Vereinheitlichung, Bereinigung und zentraler Ablage beschränkt und die eigentliche Methodik bzw. den eigentlichen Prozess der Informationsgewinnung außen vor lässt. Im folgenden Abschnitt werden die Vorteile, die sich aus der Verknüpfung ergeben, anhand von drei Geodatenprodukten exemplarisch erläutert. Behandelt werden erstens internationale regionale Kaufkraftkennziffern, bei denen der Anspruch nach länderübergreifender Vergleichbarkeit bestmöglich erfüllt sein muss („vergleichbar“). Im zweiten Beispiel werden regionale Zielgruppendaten betrachtet, die einen spezifischen Sachverhalt, z.B. ein Verhaltensmuster oder eine Einstellung von Konsumenten regional darstellen („passgenau“). Im dritten Fall geht es um die Erstellung eines Datensatzes, der Handelsstandorte nach ihrem Potenzial bewertet und dadurch im Vergleich zu rein unternehmensinternen Leistungsdaten eine objektivere Entscheidungsgrundlage bildet („ganzheitlich“). In jedem Beispiel wird sowohl auf die Herkunft der Daten, die Art der Generierung sowie die Prozesse der Verknüpfung als auch das Ergebnis eingegangen.
2
Geodatenprodukte durch Datenintegration
2.1
Internationale Kaufkraftkennziffern
Internationale Geodatenprodukte zielen stets darauf ab, einen bestimmten Sachverhalt länderübergreifend auf regionaler Ebene darzustellen. Die Vergleichbarkeit zwischen den Ländern soll dabei maximiert werden, auch wenn eine absolute Vergleichbarkeit durch die länderspezifische Heterogenität der Grundlagendaten und deren Erstellung nicht erreichbar ist. Die Kaufkraft als hier gewähltes Beispielprodukt verfolgt das Ziel, das verfügbare Einkommen der Einwohner bzw. Haushalte einer Region zu beschreiben, ausgewiesen als Durchschnitt je Einwohner bzw. je Haushalt absolut in Euro oder Landeswährung oder aber als Index im Vergleich zum Landesdurchschnitt. Unter dem verfügbaren Ein-
Qualität bei zusammengeführten Daten
139
kommen wird dabei die Summe der verschiedenen Einkommensbestandteile verstanden, abzüglich der jeweils anfallenden Steuern und Sozialabgaben und zuzüglich ggf. gewährter Transferzahlungen (z.B. Kindergeld, Arbeitslosengeld, Sozialhilfe). Diese Daten kommen beispielsweise bei der Lokalisierung von Zielgruppen zur Anwendung, aber auch bei der Bewertung von Standorten hinsichtlich des Nachfragepotenzials im Einzugsgebiet, der Anreicherung von Kundendatenbanken zur Erstellung von Kundenstrukturanalysen oder der Definition von Vertriebsgebieten. Die geforderte Granularität reicht dabei je nach Fragestellung und Betrachtungsmaßstab bis hin zu Straßenabschnitten, in den meisten Anwendungen kommen Daten auf Ebene von Postleitzahlen zur Anwendung. Die Berechnung erfolgt je Land in einem zweiteiligen Verfahren. Zunächst wird auf nationaler Ebene eine Prognose des verfügbaren Einkommens der privaten Haushalte erstellt. Die wesentliche Datengrundlage dafür bildet die Vermögensrechnung als Teil der Volkswirtschaftlichen Gesamtrechnung (VGR), insbesondere die Angaben zum verfügbaren Nettoeinkommen der privaten Haushalte und der privaten Organisationen ohne Erwerbszwecke zum jeweils aktuellsten verfügbaren Stand. Auch wenn die Rechnungen der VGR in ihrer Qualität wiederum jeweils von den je Land unterschiedlich genau gemessenen oder auch nur geschätzten Grundlagendaten abhängig sind, so stellt diese Rechnung im internationalen Vergleich durch hohe Standardisierungsvorgaben (United Nations et al. 2008, Europäische Union 2014) die bestmögliche Datengrundlage dar, die für diesen Sachverhalt zur Verfügung steht. Zur Homogenisierung werden die Angaben der VGR im Zuge der Produkterstellung u.a. mittels geeigneter Quellen (z.B. Prognosen von Wirtschaftsforschungsinstituten, aktuellere Teilrechnungen der VGR) und Verfahren fortgeschrieben und ggf. von der jeweiligen Landeswährung per Wechselkurs in Euro konvertiert. Weitere Korrekturen bereinigen den Gesamtwert des verfügbaren Einkommens um den Anteil der privaten Organisationen ohne Erwerbszwecke und kürzen den Beitrag von Einkommensmillionären, da relevante Teile davon nicht für Konsumzwecke verwendet werden. Im länderübergreifenden Vergleich liegt der Anteil der Kaufkraft am verfügbaren Einkommen der privaten Haushalte der VGR nach diesen Anpassungen bei ca. 94-98%. In einem zweiten Schritt werden die Verteilung des Einkommens sowie der Einwohner und Haushalte auf regionaler Ebene ermittelt. Dazu werden vor allem regionalstatistische Auswertungen verschiedener Behörden (statistische Ämter, Steuerbehörden, sonstige Behörden) je Land herangezogen, beispielsweise regionale Angaben zum verfügba-
140
Wagenseil | Vergleichbar, passgenau, ganzheitlich
ren Einkommen aus der VGR, Auswertungen zu Nettoeinkünften aus Steuerstatistiken sowie ggf. zu Transferzahlungen, Arbeitsmarktdaten (Beschäftigte nach Branchen und Berufsgruppen, Arbeitslosenquoten) oder sonstige einkommensrelevante Indikatoren (z.B. Bildungsstand). In den meisten Fällen führt aber erst eine Kombination verschiedener Quellen zum gewünschten Ergebnis, z.B. eine Verknüpfung von verfügbarem Einkommen auf grober Ebene mit Arbeitsmarktdaten auf feinräumiger Ebene. Methodisch kommen an dieser Stelle vielfach Verfahren der Regressionsanalyse zur Anwendung, aber auch dimensionsreduzierende Verfahren wie Hauptkomponenten- und Faktorenanalysen oder aber Strukturprojektionen (z.B. Verknüpfung des nationalen Einkommensdurchschnitts je Branche mit der Anzahl Beschäftigten je Branche auf regionaler Ebene). Vor der eigentlichen Zusammenführung sind meist verschiedene Datenbereinigungsschritte nötig, z.B.: Vereinheitlichung des geographischen Bezugs: Regionale Bezugsebenen (z.B. Gemeinden) sind nicht statisch, sondern unterliegen Gebietsveränderungen durch Eingemeindungen, Teilungen oder kompletten Neustrukturierungen. Daten, die auf der gleichen räumlichen Bezugsebene aber zu abweichenden Zeitpunkten erhoben wurden, müssen ggf. entsprechend bereinigt werden. Aktualität: Erhebungen, die bereits mehrere Jahre zurückliegen (z.B. Zensusdaten), müssen ggf. durch geeignete Verfahren fortgeschrieben werden. Granularität: Liegen die Daten nicht in der gewünschten Auflösung vor, muss ggf. eine Disaggregation über Indikatoren vorgenommen werden, z.B. Umverteilung von Rentenzahlungen über Anzahl Rentner, Haushalte über Infrastrukturdichte usw. Eine besondere Herausforderung ergibt sich dadurch, dass die verfügbaren administrativen Daten der verschiedenen Behörden meist nur auf Ebene administrativer Gebietsstrukturen verfügbar sind. Der Raumbezug von Daten, die in Unternehmen vorliegen oder von diesen erhoben werden, ergibt sich jedoch meist über die Postleitzahl (z.B. Kassenbefragungen, CRM-Datenbanken). Zudem ist die Postleitzahl auch maßgeblich für die Anwendung räumlicher Daten für Vertriebs- und Marketingzwecke und damit die regionale Bezugsgröße in der operativen Umsetzung in den Unternehmen. Da Postleitzahlensysteme in vielen Ländern v.a. größere Städte feiner unterteilen, müssen die digital passenden Kartengrundlagen vorliegen und weitere Daten in den Erstellungsprozess integriert werden, die eine Umrechnung von Einwohnern, Haushalten und Kaufkraft auf diese geographische Be-
Qualität bei zusammengeführten Daten
141
zugsebene ermöglichen. Häufig werden zu diesem Zweck feinräumige Zensusdaten integriert, die sich mit Postleitzahlen verknüpfen lassen. Die oben beschriebenen Bereinigungsschritte sind hier durch die meist langen Zeitabstände zwischen den jeweiligen Erhebungen und die in der Regel nicht eindeutige geographische Zuordenbarkeit von besonderer Relevanz. Zusammengefasst stellen Kaufkraftkennziffern ein Geodatenprodukt dar, das überwiegend durch eine Verknüpfung externer Daten gemäß der eingangs vorgestellten Klassifikation entsteht. Ein hohes Maß an Vergleichbarkeit wird durch die einheitliche Definition der berücksichtigten Einkommensbestandteile bzw. deren Festlegung aus der VGR hergestellt.
Abbildung 1 Die Kaufkraft je Einwohner in Europa auf Ebene der zweistelligen Postleitzahlen (Quelle: GfK Geomarketing GmbH 2019).
2.2
Spezifische Zielgruppendaten
Im Gegensatz zu einem eher allgemeinen Sachverhalt wie der Kaufkraft beschreiben spezifische Zielgruppendaten detailliert einzelne Aspekte des Konsumverhaltens, der Produkt- und Markenpräferenzen sowie Werte und Einstellungen der Verbraucher. Auch wenn die grundsätzlichen Anwendungsbereiche denen der Kaufkraft ähnlich sind (z.B. Planung von Marketing- und Werbekampagnen, Potenzialbewertung von Standorten, siehe dazu auch 2.3), so besteht die hauptsächliche Anforderung in diesem Fall darin, die Zielgruppe sehr viel enger zu fassen und Verbraucherverhalten passend zur jeweiligen Unternehmensfragestellung räumlich abzubilden. Beispiele für solche spezifischen Zielgruppendaten sind Käufer von Bio-Produkten, technologieaffine Haus-
142
Wagenseil | Vergleichbar, passgenau, ganzheitlich
halte, preisbewusste Haushalte oder Haushalte mit einer ausgeprägten Affinität zu Elektromobilität. Als wesentliche Grundlage für die Berechnung dieser Zielgruppendaten sind Erhebungen zum betrachteten Sachverhalt nötig. Dies können Ad-hoc-Befragungen sein, wie sie von vielen Marktforschungsinstituten im Einzelauftrag angeboten werden. Eine weitere Quelle stellen gemessene Angaben zum Konsum- und Mediennutzungsverhalten dar, wie sie in Verbraucherpanels durch die regelmäßige aktive Nacherfassung von getätigten Einkäufen oder aber durch die – teilweise bereits passiv gemessene – Mediennutzung erhoben werden. Wesentlich ist hierbei, dass sich der Befragte wahlweise räumlich verorten lässt (z.B. durch Angabe von Postleitzahl oder Wohnort) oder verschiedene Kontrollvariablen zur Soziodemographie mit erhoben werden. Die zweite Grundlage bilden in diesem Fallbeispiel regionale Daten, welche die Einwohner und Haushalte bezüglich ihrer soziodemographischen Struktur (Alters-, Einkommens-, Familien-, Wohnstruktur, Kaufkraft) sowie Werten und Einstellungen und anderen Merkmalen wie Wahlverhalten oder PKW-Bestand charakterisieren. Zahlreiche dieser Daten können mit gewissen Einschränkungen in der räumlichen Auflösung wiederum von externen Quellen entnommen werden (z.B. Fahrzeugstatistiken des Kraftfahrtbundesamtes, Altersstrukturdaten der statistischen Landesämter, Wahlergebnisse u.a.). Viele Geomarketinganbieter nutzen dafür jedoch selbst erstellte und gepflegte Datenbanken, bei denen diese Informationen durch geeignete Verfahren mikrogeographisch bis auf Ebene einzelner Straßenabschnitte oder gar Gebäude enthalten sind (z.B. GfK POINTplus). Die Erstellung solcher Datenbanken wird an dieser Stelle nicht im Detail behandelt, ist aber in der Literatur von verschiedenen Anbietern beschrieben (vgl. z.B. Küppers 2012). Bei der Integration der Verhaltens- und Einstellungsdaten mit den Regionaldaten muss unterschieden werden, ob erstere auf individueller Ebene zur Verfügung stehen und sich per Postleitzahl oder Adresse räumlich verorten lassen oder ob nur auf aggregierte Auswertungen in Form von Kreuztabellen (z.B. Ausgaben nach Altersklassen) zurückgegriffen werden kann. Ist dieser Fall gegeben, so wird auch hier häufig die Methode der Strukturprojektion verwendet (z.B. Verknüpfung von Ausgaben nach verschiedenen Altersklassen mit Altersverteilungen auf regionaler Ebene). Im Folgenden wird das Vorgehen erläutert, das üblicherweise zur Anwendung kommt, wenn sich die/der Befragte räumlich verorten lässt, was im Falle von Panelstudien regelmäßig der Fall ist, da eine längerfristige Berichtserstattung angestrebt wird und
Qualität bei zusammengeführten Daten
143
zu Kommunikations- und Betreuungszwecken meist die exakte postalische Anschrift jedes Panelhaushalts bekannt ist. In diesem Fall werden in einem ersten Schritt die Befragungsteilnehmer datenschutzrechtlich konform über den Prozess der Geokodierung räumlich verortet. Dabei steht in diesem Kontext nicht das Zuordnen einer Koordinate im Vordergrund, sondern die Verknüpfung mit den Gebäuden der mikrogeographischen Datenbank auf Basis der Adresse. Sind die jeweiligen Gebäude identifiziert, in denen die Haushalte leben, können nachfolgend alle der vorab erwähnten regionalen Strukturdaten angereichert werden. Im Ergebnis entsteht so ein Datensatz, der das erfragte oder gemessene Verhalten als Zielvariable enthält (z.B. Käufer Produkt XYZ ja/nein, durchschnittliche Nutzung von Facebook pro Monat, Einstellung zu neuen Technologien usw.) sowie eine große Anzahl von Prädiktoren, die sich aus den (mikro-)geographischen Merkmalen, ggf. angereichert um Stadt-Land-Klassifikationen, Lage im Raum o.ä. ergeben. Mittels verschiedener Verfahren des maschinellen Lernens (z.B. Random Forests, lineare Modelle, additive Modelle, Strukturgleichungsverfahren usw.). wird dann der Zusammenhang zwischen dem Verhalten und den Einflussvariablen mathematisch beschrieben. Dabei werden die Parameter der einzelnen Verfahren z.B. über Kreuzvalidierungen optimiert und das jeweils beste Modell über eine Ausschlussstichprobe von Beobachtungen ermittelt. Das finale Modell wird auf den vollumfänglichen und flächendeckenden Prädiktorendatensatz angewendet. Die regionale Prognose stellt im Ergebnis eine Schätzung des betrachteten Verhaltens dar, das ausgehend von mikrogeographischen Ebenen dann flexibel in übergeordnete geographische Einheiten aggregiert werden kann. Ein Beispiel ist die Affinität für Elektrofahrzeuge (siehe Abbildung 2).
144
Wagenseil | Vergleichbar, passgenau, ganzheitlich
Abbildung 2 Affinität zur Elektromobilität in Deutschland auf Ebene der Stadt- und Landkreise (Quelle: GfK Geomarketing GmbH)
Qualität bei zusammengeführten Daten
145
2.3 Standortpotenziale Die bisherigen Fallbeispiele zeigen Geodatenprodukte, die Verbraucher in ihren Merkmalen und in ihrem Verhalten am Wohnort beschreiben. Viele Handelsunternehmen, aber auch Hersteller, die ihre Produkte über Vertragshändler vertreiben, verfolgen darüber hinaus das Ziel, Standorte von Ladenlokalen hinsichtlich des Potenzials zu bewerten, um daraus Handlungsempfehlungen in Bezug auf die Planung weiterer Filialen (Handel) oder aber die Koordination von Außendienstaktivitäten (Industrie) abzuleiten. Typischerweise werden für solche Fragestellungen zunächst unternehmensinterne Daten aus der Buchhaltung oder dem Controlling für die einzelnen Standorte ausgewertet (z.B. Verkaufszahlen, Umsätze, Mieten, Gehälter). Allerdings lassen sich mit diesen Informationen keine Aussagen bezüglich der Planung neuer Niederlassungen oder der Akquise neuer Handelspartner ableiten und zudem greift eine alleinige Bewertung anhand dieser Kennziffern zu kurz. Letztendlich müssen diese Zahlen stets in Zusammenhang mit einem entsprechenden Standortpotenzial gebracht werden, um objektive und belastbare Schlussfolgerungen tätigen zu können. Bei der Erstellung von Standortpotenzialdaten stellen die bisher beschriebenen Produkte zu Verbrauchern und Zielgruppen als Nachfragepotenzial eine wesentliche Grundlage dar. Darüber hinaus müssen aber weitere Daten einbezogen werden, die eine räumliche Abgrenzung von Einkaufslagen und eine Abschätzung von deren Attraktivität ermöglichen, um letztlich daraus die Anziehungskraft für die Nachfrage aus dem Umfeld, die sog. Potenzialabschöpfung, zu bestimmen. Eine Einkaufslage kann je nach Branche alleine durch einzelne Filialstandorte beschrieben werden (z.B. große Baumärkte, Möbelhäuser, Warenhäuser, Verbrauchermärkte o.ä., meist sog. Frequenzbringer), oder aber durch einen Verbund von Läden, wie er beispielsweise in Shoppingcentern, Fachmarktagglomerationen oder Haupteinkaufsstraßen anzutreffen ist (sog. Frequenznutzer). Um potenzielle Einkaufslagen flächendeckend abzugrenzen, müssen häufig Adressbestände von Filialunternehmen in größerem Umfang zusammengetragen werden. Als Quelle für solche Daten kommen wahlweise anbieterspezifische Datenbanken zur Anwendung (z.B. GfK Handelsdatenbank) oder aber es wird auf externe Adressanbieter zurückgegriffen und/oder eigene Recherchen durchgeführt. Über räumliche Clusteranalysen lassen sich im Falle von Verbundstandorten Lagebereiche bilden und geometrisch abgrenzen (siehe Abbildung 3). Die Attraktivität der Einkaufslagen, die maßgeblich Reichweite und Abschöpfung bestimmen, ergibt sich häufig durch Angaben zu Verkaufsflächen, der Anwesenheit von bestimm-
146
Wagenseil | Vergleichbar, passgenau, ganzheitlich
ten Frequenzbringern (Kaufhaus, Coffeeshops usw.) oder eine Kombination verschiedener Merkmale.
Abbildung 3 Abgrenzung von Einkaufslagen aus Händleradressen per räumlicher Clusteranalyse (Quelle: GfK Geomarketing GmbH 2019).
Zur Verknüpfung der Daten zu Nachfrage (Zielgruppendaten) und Angebot (Standorte mit Lage und Attraktivität) kommen – neben einfachen Abgrenzungen von Marktgebieten ohne Wettbewerbsbetrachtung oder deterministischen Verfahren – vielfach räumliche Interaktionsmodelle zur Anwendung wie z.B. das Gravitationsmodell nach Huff (vgl. Huff 1963). Dieses wird auch im vorliegenden Fall verwendet. Der Vorteil dieses Verfahrens besteht darin, dass für den Wohnort potenzieller Kunden eine Wahrscheinlichkeitsverteilung geschätzt wird und damit der Sachverhalt berücksichtigt wird, dass nahe beieinander gelegene Einkaufsorte um die gleichen Verbraucher konkurrieren und diese üblicherweise auch verschiedene Angebotsorte besuchen. Die Wahrscheinlichkeit p, mit der ein Kunde von seinem Wohnort einen bestimmten Einkaufsort aufsucht, kann als Potenzialabschöpfung des Standorts interpretiert werden (vgl. Beispiel des Olympia-Einkaufszentrums in München in Abbildung 4), so dass sich über die Summe der Abschöpfungen das gesamte Standortpotenzial berechnen lässt. Für eine ausführliche Erläuterung zur Anwendung des Huff-Modells im Geomarketing sei an dieser Stelle auf Baecker-Neuchl & Wagenseil (2015) verwiesen.
Qualität bei zusammengeführten Daten
147
Abbildung 4 Ermittlung der Potenzialabschöpfung eines Standorts (hier Olympia-Einkaufszentrum in München) unter Berücksichtigung der Wettbewerbsbedingungen mittels Huff-Modell. Dunkelblaue Farben bedeuten hohe, hellblaue Farben geringe Abschöpfung (Quelle: GfK Geomarketing 2019).
Durch diese Art der Zusammenführung von spezifischen Nachfragekennziffern und Daten zu Lage, Größe und Qualität von Standorten lassen sich im Ergebnis unternehmensinterne Leistungsdaten mit dem (modellierten) Potenzial verknüpfen. Dies ermöglicht eine objektivere Einordnung bestehender Standorte. So können beispielsweise geringe Umsätze an einem potenzialschwachen Standort akzeptabel sein, an einem potenzialstarken Standort aber ein Hinweis auf nötige Maßnahmen (Verlagerung, Renovierung) sein. Über geeignete statistische Verfahren (z.B. Quantilregression) lassen sich aus der gemeinsamen Betrachtung der Leistung vieler Standorte im Vergleich zum Potenzial auch Zielvorgaben für die weitere Entwicklung und Marktbearbeitung ableiten.
3
Schlussfolgerung
In den hier vorgestellten Beispielen werden Daten aus einer Vielzahl an Quellen und über ganz unterschiedliche Methoden zu neuen Datenprodukten zusammengeführt. Objektive Bewertungen bzw. Validierungen der Ergebnisse scheitern in aller Regel an fehlenden Referenzdaten. Die Qualität dieser Daten bemisst sich daher an den folgenden Kriterien: Mehrwert: Ein Qualitätsgewinn stellt sich ein, sofern sich durch das Produkt ein Nutzen bzw. ein Mehrwert für den Anwender ergibt. Dies ist dann der Fall, wenn spezifische Produktanforderungen, wie sie
148
Wagenseil | Vergleichbar, passgenau, ganzheitlich
hier exemplarisch diskutiert wurden, erfüllt sind und wenn sich darüber hinaus das Resultat gut in operative Geschäftsprozesse integrieren lässt. Selektion der Basisdaten: Der korrekten fachlichen Bewertung der Eingangsdaten kommt bei derartigen Datenverknüpfungen eine hohe Bedeutung zu. Getreu der Maxime „Klasse statt Masse“ sind sorgfältige inhaltliche Vorüberlegungen und Prüfungen nötig, da nur so eine hochwertige Sammlung an Grundlagendaten entsteht, die für den jeweiligen Sachverhalt auch relevant sind. Liegen Referenzdaten auf gröberen geographischen Ebenen vor, so werden diese für den Abgleich feinräumiger Ergebnisse in den Prozess integriert. Qualitätsmanagement im Erstellungsprozess: Durch konsequente, in den gesamten Erstellungsprozess eingebaute Qualitätskontrollen lassen sich frühzeitig Inkonsistenzen in den Basisdaten, aber auch Fehler in der Verknüpfung erkennen und eliminieren, z.B. durch standardisierte Prüfroutinen oder Checklisten. Eine wesentliche Rolle spielen in diesem Kontext aber auch Kollaborationsmethoden wie z.B. die Paarprogrammierung (engl. „pair programming“), die sich aus dem Bereich der agilen Softwareentwicklung auch im Kontext der Datengenerierung anwenden lassen. Dabei geht es nicht nur darum, Programmierfehler zu minimieren, sondern auch die Eingangsdaten sowie das gesamte methodische Vorgehen durch permanente Reflexion zu überprüfen und zu verbessern.
Literatur Baecker-Neuchl, S., & Wagenseil, H. (2015). Das Ganze sehen: Räumliche Analysen zur Ermittlung des Zusammenhangs zwischen Umsatz- und Nachfragepotenzial. In O. Gansser & B. Krol, Marktund Absatzprognosen; Modelle – Methoden – Anwendung (S. 263-281). Springer Gabler, Wiesbaden. Europäische Union. (2014). Europäisches System Volkswirtschaftlicher Gesamtrechnungen ESVG 2010. URL: https://ec.europa.eu/ eurostat/de/web/products-manuals-and-guidelines/-/KS-02-13-269 (Zugriff 25.06.2019) Gabler Wirtschaftslexikon. (2019). Datenintegration. URL: https:// wirtschaftslexikon.gabler.de/definition/datenintegration-31223 (Zugriff am 25.06.2019). Huff, D. (1963). A probabilistic analysis of shopping center trade areas. Land economics, Vol. 39, No. 1, 81-90.
Qualität bei zusammengeführten Daten
149
Küppers, R. (2012). Verfahren der Generierung mikrogeographischer Datenangebote zu Bevölkerung, Haushalten, Wohnungen, Gebäuden, Quartieren und Arbeitsplätzen. In G. Meinel, U. Schumacher, & M. Behnisch (Hrsg.), Flächennutzungsmonitoring IV. Genauere Daten – informierte Akteure – praktisches Handeln (S. 175-182). Berlin: Rhombos, IÖR Schriften 60. Talend. (2019). Was ist Datenintegration? URL: https://de.talend.com/ resources/what-is-data-integration/ (Zugriff am 25.06.2019). United Nations, European Commission, International Monetary Fund, Organisation for Economic Co-operation and Development and the World Bank. (2008). System of National Accounts. United Nations, New York, 2009. Wikipedia. (2019). Informationsintegration. URL: https://de.wikipedia. org/wiki/Informationsintegration (Zugriff am 25.06.2019).
Record Linkage als zentraler Baustein der Forschung mit Registern und Big Data-Nutzungen Rainer Schnell Methodology Research Group, Universität Duisburg-Essen
1
Record Linkage und „Privacy Preserving Record Linkage“ (PPRL)
Record Linkage wird häufig mit anderen Techniken verwechselt, z.B. mit „Statistical Matching“ oder Datenfusion. Seltener wird Record Linkage mit einfachem Ergänzen aus anderen Datenbanken durch einen exakten Schlüssel verwechselt (Table Lookup), wobei sich auch das findet. In untechnischen Veröffentlichungen wird gelegentlich der Begriff „fuzzy matching“ verwendet, wobei dieser keine feste Bedeutung besitzt. Exaktere Bezeichnungen sind die Begriffe „Datenverschneidung“ und „Linked Data“, wobei diese Begriffe sich aber auch nicht auf Record Linkage beziehen. Record Linkage bezeichnet die Zusammenführung von Daten über dasselbe Objekt aus verschiedenen Datenbanken. In der Informatik wird dies manchmal unpräzise als „Data Matching“ bezeichnet. Präziser, aber etwas umständlich wird dort in der Regel „Entity Resolution“ als Begriff für Record Linkage verwendet. Im Gegensatz zu allen anderen genannten Begriffen bezieht sich Record Linkage explizit auf die Erstellung eines Mikrodatensatzes. Das Ziel der Zusammenführung besteht also darin, aus mehreren Datensätzen mit Angaben über tatsächlich identische Objekte (meist Personen) einen Datensatz zu erstellen, der alle vorhandenen Informationen über die Schnittmenge der Objekte der Datensätze enthält. Technisch ist Record Linkage trivial, falls alle Datensätze für die gleiche Person die gleiche eindeutige Identifikationsnummer enthalten. Dies ist z.B. in den skandinavischen Ländern über deren „Person © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_11
152
Schnell | Record Linkage als zentraler Baustein der Forschung
Identification Number“ möglich. In den meisten anderen Ländern gibt es aber entweder keine solchen Nummern, sie sind nicht eineindeutig oder nicht populationsabdeckend (z.B. die Sozialversicherungsnummer in Deutschland), sind nicht in allen Datenbanken enthalten oder stehen nicht für wissenschaftliche Zwecke außerhalb der amtlichen Statistik zur Verfügung (z.B. in den Niederlanden). Liegt keine eindeutige Personennummer vor, dann muss die Verknüpfung über „Quasi-Identifikatoren“ wie Namen oder Geburtsdatum erfolgen. Hierdurch entstehen zwei Probleme: 1. Die in der Regel zur Verfügung stehenden Identifikatoren identifizieren nicht alle Personen eindeutig und 2. die Identifikatoren sind fehlerbehaftet. Das erste Problem wird in der Praxis häufig unterschätzt, weil Populationsdatenbanken selten sind. Namen und Vornamen, Geschlecht und Geburtsdatum sind zwar in vielen Datenbanken vorhanden, reichen aber bei populationsabdeckenden Datenbeständen nicht aus, um eine Person zu identifizieren. Die Hinzunahme des Geburtsortes verbessert das in der Regel, aber der Geburtsort ist in vielen Datenbeständen nicht enthalten und auch dieses Merkmal reicht zusammen mit Namen, Vornamen, Geschlecht nicht aus, um auch nur 98% der Bevölkerung eindeutig zu identifizieren. Dieses Ausmaß an Abdeckung ist zwar für die meisten kommerziellen Zwecke ausreichend, aber nicht für die amtliche Statistik, die Epidemiologie oder andere Anwendungen, bei denen falsch-positive Links oder falsch-negative Links zahlreiche Probleme verursachen können. Wie bei Zensen im Allgemeinen stellen die verbleibenden 2% der Fälle das größte Problem dar: Bei Populationsdaten entsprechen 2% mehr als 1.6 Millionen Einwohnern oder mehr als zwei Geburtsjahrgängen. Für populationsabdeckende Datenbanken benötigt man also mehr als den Standardset von Quasi-Identifikatoren; die meisten Datenbanken enthalten aber kaum gemeinsame zusätzliche Merkmale. Das zweite Problem besteht in der Fehlerhaftigkeit der Angaben in Datenbanken. Dieses Problem wird von Laien in seiner Größe in der Regel meist unterschätzt. Nachnamen verändern sich z.B. durch Hochzeit, Einbürgerungsprozesse oder Titelerwerb, Vornamen z.B. durch wechselnde Verwendung von jeweils anderen Namensbestandteilen in unterschiedlichen Kontexten oder den Gebrauch von Abkürzungen oder Spitznamen. Bei Geburtsdaten gibt es Vertauschungen von Tag und Monat, einfache Ziffernvertauschungen und sozial definierte Geburtstage, die dann mit erhöhter Häufigkeit auftreten. Zusätzlich treten
Qualität bei zusammengeführten Daten
153
Tippfehler, Datenerfassungsfehler, unterschiedliche Transliterationen oder Umsetzungen von Sonderzeichen auf. Schließlich darf nicht vergessen werden, dass in einem erheblichen Umfang Datenbanken auch verpflichtete Angaben häufig entweder nicht oder dann in absichtlich falscher Form enthalten. Eine häufig zitierte Zahl in diesem Zusammenhang basiert auf einem lokalen Zensusabgleich in den USA durch Winkler (2009): Beschränkt man sich auf den exakten Abgleich von Namens- und Geburtstagsangaben, würde man ca. 25% der tatsächlichen Verknüpfungen übersehen (falsch Negative). Um trotz dieses hohen Ausmaßes an Fehlern in Identifikatoren Daten verknüpfen zu können, sind in der Regel möglichst viele verschiedene und stabile Identifikatoren wünschenswert. Notwendig sind zusätzliche Identifikatoren für diejenigen Anwendungen, bei denen eine eindeutige Identifikation unentbehrlich ist (wie bei der Patientenidentifikation im Krankenhaus oder im Justizsystem). Dies kollidiert mit dem weitverbreiteten Wunsch, in Datenbanken nicht mit Namen und Geburtsdatum zu erscheinen. Daher legt auch die Datenschutzgrundverordnung der Europäischen Union die Verwendung von Pseudonymen nahe. Verwendet man exakte Pseudonyme, die für jede Kombination eines bestimmten Namens und eines bestimmten Geburtstages eine eineindeutige Zahl vergeben, dann verliert man alle Fälle mit unvollständigen oder fehlerbehafteten Angaben. Das können gerade die Fälle sein, die besonders interessieren (z.B. in der Medizin: Fälle, die sich nicht zusammenführen lassen, sind oft die Fälle mit ungünstigen Ausgängen, so z.B. bei Neugeborenen, siehe Ford, Roberts und Taylor 2006). Folglich benötigt man Verfahren, die fehlertolerante, möglichst eindeutige Pseudonyme für das Record Linkage verwenden. Dies ist ein sehr aktives Forschungsfeld in der Informatik und wird dort als „Privacy Preserving Record Linkage“ (PPRL) bezeichnet (Vatsalan, Christen und Verykios 2013)
2
Warum Record Linkage?
Die meisten Forschungsergebnisse der empirischen Sozialforschung basieren auf Surveys. Die zahlreichen methodischen Probleme von Surveys sind Gegenstand einer umfangreichen Methodenforschung (Schnell 2019b). Fast alle Probleme von Surveys gehen darauf zurück, dass man Menschen befragt (oder es zumindest versucht). Zu diesen Problemen gehören Erinnerungsprobleme, soziale Wünschbarkeit und
154
Schnell | Record Linkage als zentraler Baustein der Forschung
Interviewer-Effekte, berichtetes Verhalten anstelle tatsächlichen Verhaltens und vor allem Nonresponse (Schnell 1997). Angesichts dieser Probleme scheint es einfacher, auf vorhandene Daten zurückzugreifen. Dies sind zum einen Registerdaten, bzw. administrative Daten zum anderen neue digitale Daten (Big Data). Der Vorteil administrativer Daten besteht vor allem darin, dass diese Datenbestände häufig sehr große Fallzahlen enthalten und idealerweise die gesamte Bevölkerung abdecken. Damit enthalten sie Informationen über Subgruppen, die schwer mit Surveys zu erreichen sind. Schließlich enthalten diese Datenbanken Angaben über tatsächliches Verhalten, nicht Berichte über das Verhalten wie das in Surveys nahezu immer ausschließlich der Fall ist. Registerdaten oder administrative Daten im Allgemeinen besitzen natürlich auch eine Reihe von Nachteilen, da die Datenbanken nicht primär für Forschungszwecke erstellt wurden. Vor allem enthalten die meisten Datenbanken nur sehr wenige Variablen, vor allem keine Informationen über Einstellungen, Motive oder Absichten. Weiterhin unterscheiden sich die Konzepte, auf denen Datenbanken basieren, häufig gravierend von den Forschungskonzepten (ein Beispiel wären unterschiedliche Haushaltsdefinitionen). Ein gravierender Nachteil besteht darin, dass Register eine zeitliche Verzögerung von Monaten, manchmal von Jahren besitzen (Biemer 2017). Es muss beachtet werden, dass die Datenqualität bei nicht für das Register wesentlichen Informationen häufig unzureichend ist. Neben fehlerhaften Angaben sind in der Forschungspraxis vor allem fehlende Angaben in administrativen Daten problematisch.
3 Record-Linkage-Anwendungen Record Linkage wird in vielen Fachgebieten – wenn auch mit unterschiedlicher Geschwindigkeit (Schnell 2019a) – eine zunehmend populäre Forschungstechnik. Sowohl für die praktische Durchführung vieler Surveys sind Record-Linkage-Operationen ebenso unentbehrlich wie für die Analyse neuer Datenquellen (Big Data).
Qualität bei zusammengeführten Daten
155
3.1 Record Linkage administrativer Daten mit Surveydaten Record Linkage administrativer Daten oder anderer Datenquellen ist oft dann besonders nützlich, wenn als andere Datenquelle Bevölkerungssurveys zur Verfügung stehen. Die Kombination dieser verschiedenen Formen von Datenquellen erlaubt Forschungsprojekte, die ansonsten nur schwierig zu realisieren wären. So lassen sich aus der Verbindung mehrerer Register gelegentlich nachträglich Panels konstruieren, z.B. Expositionskohorten in der Epidemiologie. Die Möglichkeiten des Record Linkage für die Konstruktion und Bereinigung von Samplingframes (Schnell 2015) werden häufig übersehen. Dies sind vor allem Operationen zur Erkennung von Duplikaten und zur Erkennung von Overcoverage und Undercoverage. In Hinsicht auf Nonresponse ist Record Linkage für die Entdeckung von Nonresponsebias ebenso unentbehrlich wie für die Imputation mit Hilfsvariablen (z.B. Geodaten) oder durch Registerdaten. Schließlich eignet sich Record Linkage zur Antwortvalidierung durch den Vergleich einzelner Antworten mit Register-Daten, z.B. beim Impfstatus in Surveys oder der Haushaltsdefinition im Zensus. Unkundige unterschätzen oft das Ausmaß, in dem Record Linkage in Surveys tatsächlich verwendet wird. Da vor allem bei komplexen Stichproben die tatsächliche Stichprobenziehung nur selten von Forschenden der empirischen Sozialforschung vorgenommen wird, wird das Ausmaß der tatsächlichen Nutzung von Record Linkage vor allem im Bereich der Stichprobenkonstruktion und Gewichtung häufig unterschätzt. Als Beispiel für solche Anwendungen des Record Linkages bei der Stichprobenkonstruktion zeigt die Abbildung 1 das Datenflussdiagramm des ursprünglichen Designs des Panels Arbeitsmarkt und soziale Sicherung (PASS) des IAB (Schnell 2007). Nur eine der vier RecordLinkage-Operationen (im Diagramm unten rechts) bezieht sich auf den fast immer ausschließlich diskutierten Fall des Record Linkage mit Einwilligung, zumeist für die Validierung von Angaben. Die anderen drei operationalen Verwendungen (Ergänzen von Kontaktinformation, Abgleich von Registern zur Identifikation von Zielpersonen und die Gewinnung zusätzlicher Gewichtungsvariablen) wird selbst in der sozialwissenschaftlichen Literatur zu Record Linkage nicht thematisiert. Für die tatsächliche Durchführung vieler Projekte sind diese von außen kaum erkennbaren Record Linkage-Anwendungen häufig unverzichtbar. Dass diese Anwendungen außerhalb der kommerziellen Institute, die die tatsächliche Datenerhebung durchführen, kaum bekannt sind, führt vermutlich zu einer erheblichen Unterschätzung der Anwendung von Record-Linkage-Anwendungen in den Sozialwissenschaften.
156
Schnell | Record Linkage als zentraler Baustein der Forschung
Town Registry
Record Linkage
Social Benefits Registry
Estimate Overlap
Sample
Sample Append files
Names
Classify Nationality
Phone Numbers
Adresses
Stratify by Nationality
Record Linkage
Record Linkage
CreditRisk
Sample PPR
Compute weights Sampling Frame
Interview get SSN
Record Linkage
Data File
Abbildung 1 Datenflussdiagramm des ursprünglichen Designs für PASS (Schnell 2007)
Qualität bei zusammengeführten Daten
157
3.2 Record Linkage und Big Data Daten sind entweder nützlich oder anonym, aber niemals beides. (Paul Ohm 2010, S. 1704) In Hinsicht auf die Humanwissenschaften ist oft unklar, was mit Big Data gemeint ist. In der Regel werden darunter meist Datensätze unterschiedlicher Herkunft und großem Umfang bezeichnet. Es ist hilfreich, die verschiedenen Formen von Quellen dieser Daten, die neben den traditionellen Daten der empirischen Sozialforschung (Survey- und Experimental-Daten) und den administrativen Daten zunehmend in das Blickfeld der empirischen Sozialforschung und amtlichen Statistik geraten, zu unterscheiden, so vor allem Sensor-, Social-Media und Transaktionsdaten (Schnell 2019a, Abbildung 2). Die meisten Datensätze aus diesen zusätzlichen Datenquellen besitzen drei Eigenschaften: 1. Die Population ist unklar definiert, 2. es sind nur wenige Variablen vorhanden, 3. die Daten wurden nicht für Forschungszwecke erhoben. Die beiden ersten Probleme lassen sich durch die Verwendung mehrerer Datenbanken prinzipiell lösen. Mithilfe der Angaben in Bevölkerungsregistern lassen sich zumindest Propensities berechnen, die für die Gewichtung nicht zufällig gezogener Stichprobenelemente verwendet werden können. Ohne solche zusätzlichen Informationen auf Individualebene wird eine statistische Rechtfertigung für Inferenz auf der Basis von Big-Data-Quellen schwierig. Die individuelle Verknüpfbarkeit (und nur diese) erlaubt ebenfalls eine statistisch vergleichsweise unproblematische Erweiterung des Merkmalskranzes. Anders gesagt: Die Informationsarmut von BigData-Quellen lässt sich nur durch Verknüpfung mit anderen Datenbasen beseitigen. Durch diese beiden Funktionen (Berechnung von Auswahlwahrscheinlichkeiten und Erweiterung des Datenkranzes) wird Record Linkage zentral für alle wissenschaftlich sinnvollen Big-Data-Anwendungen. Dies gilt sowohl für die Sozialwissenschaften als auch für die amtliche Statistik (Schnell 2019a).
158
Schnell | Record Linkage als zentraler Baustein der Forschung Experimentaldaten
Survey-Daten
Administrative Daten
• Beispiele: Psychologische Experimente, klinische Studien • Datenerhebung zum Test einer spezifischen Hypothese • Relativ kleine Stichprobe • Einfache Datenstruktur • Systematische Datensammlung • Bekannte Population
• Beispiele: BHPS, GSOEP, NHANES • Datenerhebung für wissenschaftliche Zwecke • Meist mehr als eine Forschungsfragestellung • Kann zu großen Datensätzen führen. • Kann komplexe Datenstrukturen bedingen • Systematische Datensammlung • Bekannte Population
• Beispiele: Arbeitslosenversicherung, Rentenversicherung, Führerscheinregister • Datenerhebung nicht für wissenschaftliche Zwecke • In der Regel sehr große Datensätze • Kann komplexe Datenstrukturen bedingen • Meist unkontrollierte Datenerhebung • Oft erheblicher Datenaufbereitungsaufwand • Bekannte Population
Sensordaten
‘Social Media’-Daten
Transaktionsdaten
• Beispiele: GPS-Daten, Sportuhren, Straßensensoren • Datenerhebung nicht für wissenschaftliche Zwecke • Oft in kommerziellem Besitz • In der Regel sehr große Datensätze • Meist nur sehr wenige Variablen • In der Regel keine Kovariaten • Häufig unbekannte Population
• Beispiele: Twitter, Facebook, Instagram • Datenerhebung nicht für wissenschaftliche Zwecke • Oft in kommerziellem Besitz • In der Regel sehr große Datensätze • Bedarf häufig aufwändiger Codierung • Meist nur sehr wenige Variablen • In der Regel keine Kovariaten • Häufig unbekannte Population
• Beispiele: Verbindungsdaten, Abrechnungsdaten, Warenkörbe • Datenerhebung nicht für wissenschaftliche Zwecke • Oft in kommerziellem Besitz • In der Regel sehr große Datensätze • Kann komplexe Datenstrukturen bedingen • In der Regel keine Kovariaten • Häufig unbekannte Population
Abbildung 2 Datenquellen der empirischen Sozialforschung (Schnell 2019a, S. 105)
4
Record Linkage und Datenschutz in der Praxis
Record Linkage unter den sozialen und rechtlichen Bedingungen in Deutschland steht vor erheblichen Datenschutzproblemen in der Praxis.
Qualität bei zusammengeführten Daten
159
4.1 Record Linkage mit Einwilligung Man kann versuchen, diese Probleme dadurch zu lösen, dass man die Einwilligung der Befragten einholt. Das ist aus Forschersicht der einfachste und schnellste Zugang, allerdings auch der problematischste. Der Hauptvorteil der administrativen Daten besteht darin, dass nahezu die gesamte Population abgedeckt wird. Die Einwilligung der gesamten Population oder auch nur der Schnittmenge zwischen einer Surveystichprobe und einem Register einzuholen ist schwierig. Bei populationsabdeckenden Projekten wird dies in der Regel unmöglich sein. Trivialerweise ist das Problem der Nichteinwilligung zum Linkage formal identisch zum Nonresponseproblem. Ebenso wie das Nonresponseproblem kann das Einwilligungsproblem kaum zufriedenstellend gelöst werden. Daher sind Projekte mit Record Linkage auf der Basis individueller Einwilligung bei Populationsdaten aussichtslos und bei wissenschaftlichen Studien auf der Basis von Stichproben mit prinzipiell unlösbaren Problemen verbunden
4.2 Record Linkage ohne Einwilligung Record Linkage ohne Einwilligung ist in Deutschland grundsätzlich bei der bestehenden Rechtsgrundlage in einigen Fällen möglich. Dies gilt prinzipiell selbst für Sozialforschungsprojekte. Zum Beispiel erlaubt das Sozialgesetzbuch (SGB X, § 75.1) die Übermittlung von Sozialdaten sofern diese für wissenschaftliche Forschung in bestimmten Feldern notwendig sind und das öffentliche Interesse an der Forschung das Geheimhaltungsinteresse der betroffenen Person erheblich überwiegt. Im Gegensatz zur weitverbreiteten Auffassung ist Datenschutz also nicht ein oberstes Rechtsgut, sondern muss gegen andere Rechtsgüter abgewogen werden. In dieser Hinsicht ist die DSGVO deutlich positiver formuliert, als dies ohne Kenntnis des Textes in der Regel erwartet wird. Die DSGVO enthält zahlreiche Ausnahmen für Forschungszwecke, vor allem die extensive Betonung von Pseudonymisierungen. Gegen Pseudonymisierungen gibt es zwei prinzipielle Bedenken: Erstens die Tatsache, dass die Pseudonymisierungen durch Personen vorgenommen werden müssen, die dann die unverschlüsselten Identifikatoren sehen. Zweitens das Problem, dass Pseudonymisierungen angegriffen werden können. Das erste Argument nimmt keinen Bezug darauf, dass im Rahmen der üblichen Treuhändermodelle (Schnell 2016) eine Trennung von Identifikatoren und inhaltlichen Daten erfolgt, so dass der Treuhänder niemals Zugang zu den inhaltlichen Daten besitzt. Die Umwand-
160
Schnell | Record Linkage als zentraler Baustein der Forschung
lung der direkt personenbezogenen Daten in pseudonymisierte Daten erfolgt in den Treuhändermodellen in den abgeschotteten Abteilungen der Forschungsdatenzentren.1 Selbst in diesen Vertrauensstellen erfolgen die Pseudonymisierungen in der Regel automatisch, so dass selbst das Personal die Identifikatoren entweder nicht oder nur in maskierte Form sieht (z.B. alle Buchstaben werden als ein Symbol angezeigt, alle Ziffern als ein anderes Symbol, Sonderzeichen als ein drittes Symbol). Berücksichtigt man diese gesamte „data situation“ (Elliot et al. 2016), dann erscheint eine missbräuchliche Nutzung durch das Personal innerhalb der Vertrauensstellen zwar prinzipiell möglich, aber sowohl unwahrscheinlich (da der Gewinn gering, die möglichen Verluste aber hoch sind) als auch – in der Regel – weitgehend konsequenzenlos, da das Personal der Forschungsdatenzentren keinen Zugang zu den inhaltlichen Daten besitzt. Das zweite Argument gegen Pseudonymisierungen besteht in deren Angreifbarkeit. Prinzipiell sind alle praktisch verwendbaren Pseudonymisierungsverfahren angreifbar. Dies beruht auf der gewünschten Eigenschaft dieser Verfahren kleine Abweichungen in den Identifikatoren tolerieren zu können. Dadurch sind Ähnlichkeitsberechnungen möglich, die wiederum Rückschlüsse auf Häufigkeitsverteilungen der Identifikatoren zulassen. Moderne Pseudonymisierungsverfahren (Schnell et al. 2009; Niedermeyer et al. 2014) erschweren diese Angriffe aber soweit, dass nur unter idealisierten Bedingungen Angriffe prinzipiell möglich sind, der Aufwand für diese Angriffe aber als sehr hoch betrachtet werden muss.2 Absolute Anonymität wird von der DSVGO aber auch nicht gefordert. Schließlich muss auch hier die gesamte Datensituation berücksichtigt werden: Die Pseudonyme werden in den Vertrauensstellen generiert und dann mit anderen Datenhaltern ausgetauscht. Üblicherweise nimmt man an, dass die Datenhalter untereinander nicht gemeinsam wissentlich gegen ein Datenaustauschprotokoll verstoßen, da es für diese einfacher ist, gleich direkt die unverschlüsselten Daten zu tauschen, als gemeinsam zu versuchen, die Verschlüsse1
2
Die Fälle von Datenskandalen bzw. Data Breaches erwecken häufig den Eindruck, dass auch Daten solcher abgeschotteten Abteilungen der amtlichen Statistik oder Forschungseinrichtungen extern zugänglich geworden seien. Dafür gibt es bislang keine publizierten Belege. Das wichtigste Werkzeug gegen solche Angriffe ist „salting“, hierbei wird die Art der Verschlüsselung in Abhängigkeit von einem stabilen Merkmal (z.B. das Geburtsjahr) verändert (Niedermeyer et al. 2014). Bisher ist kein Verfahren bekannt, dass solcherart variierende Verschlüsselung angreifen kann.
Qualität bei zusammengeführten Daten
161
lung wieder rückgängig zu machen. Ein ähnliches Argument gilt für die Möglichkeit von Insider-Angriffen: Ein direkter Zugriff auf unverschlüsselte Daten ist wesentlich einfacher als der Versuch, eine Verschlüsselung zu brechen. Schließlich ist der mögliche ökonomische Ertrag aus dem Angriff auf eine Forschungsdatenbank verglichen mit anderen Zielen (Krankenhausabrechnungsdaten, Kreditkarteninformationen aus kommerziellen Transaktionen) eher als gering zu betrachten. Entsprechend wurde in Anwendungsfeldern bisher kein erfolgreicher Angriff auf Forschungsdatenbanken in der Literatur berichtet.
4.3
Vermeintliche technische Alternativen zum Record Linkage
In der Diskussion um die Anwendung von Record-Linkage-Verfahren wird von verschiedenen Veto-Spielern gelegentlich auf alternative Verfahren verwiesen, die vorgeblich gleiche Analysen ohne Verzicht auf vollständige Anonymität ermöglichen sollen. Dazu gehören zum Beispiel Differential Privacy (Reiter 2019) für die Bereitstellung der Ergebnisse amtlicher Statistik, die Verwendung von homomorphen Verschlüsselungen für anonymisierte Berechnungen (Yi, Paulet und Bertino 2014) und verteilte Berechnungen für statistische Modelle. Alle drei Ansätze lösen das Problem der Forschung mit Mikrodaten bei unterschiedlichen Datenhaltern nicht. Differential Privacy mag sich für die Veröffentlichung von Forschungsdaten in tabellarischer Form oder begrenzte Einzelabfragen oder selbst für die Berechnung als korrekt bekannter Modelle eignen, für die Herstellung oder Verbreitung von Mikrodatensätzen oder die Entwicklung statistischer Modelle ist dies ein vollkommen ungeeigneter Ansatz. Falls Forschung der Entwicklung von Modellen dient (und damit der Prognose), dann sind Mikrodaten unverzichtbar. Es gibt keine sinnvolle Analyse des Fits eines Modells ohne Rückgriff auf einzelne Fälle. Daher sind Residuenanalysen mit Differential Privacy unmöglich. Dieser Ansatz löst also kein Forschungsproblem, sondern verunmöglicht alle neuen Modellentwicklungen. Differential Privacy ist daher keine harmlose Technik, sondern verunmöglicht die Entdeckung unbekannter Phänomene (z.B. Arzneimittelnebeneffekte) und die Entwicklung neuer statistischer Vorhersagemodelle. Homomorphe Verschlüsselungen erlauben die Berechnung (einfacher) statistischer Maßzahlen oder die Berechnung der Schnittmengen mehrerer Datensätze, ohne dass die Beteiligten die Mikrodaten austauschen. Alle bisher bekannten Secure Multiparty Protokolle besitzen zwei Probleme, die ihre Anwendung für traditionelle Record-Linkage
162
Schnell | Record Linkage als zentraler Baustein der Forschung
Probleme verunmöglichen: Einerseits führen diese Protokolle bei Datensätzen der Größe der amtlichen Statistik oder auch der empirischen Sozialforschung zu Rechenzeiten in unakzeptabler Größenordnung (bei Zensen ergeben sich geschätzte Rechenzeiten von mehreren Jahren), andererseits erfordern diese Protokolle notwendigerweise den wiederholten Austausch von Zwischenberechnungen. Das bedeutet praktisch, dass die Datenbasen untereinander über das Netz verbunden sind. Im Regelfall wird die Trennung der Datenbasen vom Netz zumindest in Deutschland für sensitive populationsabdeckende Daten als notwendige Voraussetzung von Genehmigungsprozessen gesehen. Daher scheiden Secure Multiparty Protokolle zumindest mittelfristig als Problemlösung für Record-Linkage-Aufgaben aus. Bei verteilten Berechnungen statistischer Modelle liegt kein gemeinsamer Datensatz vor, die Datenhalter berechnen auf ihren jeweiligen Datenteilmengen Zwischenergebnisse, die dann von einem gemeinsamen Server zu einem Ergebnis zusammengefasst werden. Das populärste Beispiel für ein solches Berechnungsmodell ist DataShield (www. datashield.ac.uk). DataShield ermöglicht die Analyse von horizontal partionierten Datensätzen also von Mikrodatensätzen mit identischen Variablen, aber unterschiedlichen Objekten (siehe Abbildung 3). Entsprechende Analysen für vertikal partionierte Datensätze, bei denen unterschiedliche Variablen für identische Objekte vorliegen, sind mit DataShield nicht möglich (Wilson et al. 2017). Vertikal partionierte Datensätze sind aber die Ursache dafür, dass Record Linkage notwendig wird. Obgleich die Analyse vertikal partionierter Daten als Zukunftsperspektive seit Beginn des DataShield-Projekts in Aussicht gestellt wurde, ist dies bislang zumindest nicht implementiert. DataShield ist also bislang keine Alternative für Record Linkage mit Mikrodatensätzen.
X
X
Y
X
Y
Y
X
X
(a) unpartioniert
Y
Y
(b) horizontal
(c) vertikal
Abbildung 3 Formen der Par tionierung von Mikrodatensätzen
Qualität bei zusammengeführten Daten
163
Zusammenfassend kann festgehalten werden, dass beim Vorliegen vertikal partionierter Daten und der Notwendigkeit der Analyse von Mikrodaten, es keine Alternative zum Record Linkage gibt. Sollen die Identifikatoren verschlüsselt werden und liegen keine exakten Identifikatoren vor, gibt es technisch keine Alternative zu PPRL.
5
Forschungspolitische Perspektiven
Die gesetzlichen Grundlagen für registerbasierte Forschung sind in Deutschland vollkommen unzureichend (RatSWD 2017). Die Datenschutzgrundverordnung böte demgegenüber dem Gesetzgeber zahlreiche Anknüpfungspunkte für eine forschungsfreundliche Gestaltung der deutschen Gesetzgebung. Dazu gehören vor allem (Schnell 2019a) klare positive Regeln für Datenschutzbeauftragte in Hinsicht auf Forschungsprojekte. Da es sich bei Datenschutzproblemen in der Forschung immer um eine Güterabwägung handelt, benötigt man eine Organisationsform, die einzelne Entscheider von etwaigen individuellen rechtlichen Folgen einer Entscheidung befreit. Hierzu gehört vor allem die Schaffung von Data Privacy Boards, die über die Zulässigkeit eines Linkage-Projekts entscheiden. Aufbau und Funktionsweise sollten dabei denen der Ethikkommissionen ähneln. Neben der Bereitstellung eines Standardverfahrens bestünde der Vorteil solcher Data Privacy Boards vor allem im Haftungsausschluss für Datenschutzbeauftragte nach einer positiven Beurteilung durch ein Data Privacy Board. Diese beiden Mechanismen sind wesentlich für eine Erschließung vorhandener Datensätze für die Forschung. Hierzu bedarf es einer klaren bundesweiten rechtlichen Regelung. Keine der im Bundestag vertretenen Parteien lassen eine forschungsfreundliche Gestaltung der Gesetzgebung erwarten. Die föderale Struktur sowohl der amtlichen Statistik als auch der Bildung und der Gesundheitsfürsorge werden zusätzliche Schwierigkeiten bedingen. Angesichts der Veto-Macht zahlloser kollektiver Akteure dürften rationale Argumentationen wirkungslos bleiben. Damit stellt sich die Frage, wie Forschungsorganisationen und die amtliche Statistik mit diesen Randbedingungen umgehen können. Für die universitäre Forschung bleiben die drei klassischen Möglichkeiten (Hirschman 1970): Exit, Voice, Loyality. In umgekehrter Reihenfolge bedeutet das in diesem Zusammenhang:
164
Schnell | Record Linkage als zentraler Baustein der Forschung
1. Weitermachen wie bisher, 2. Protest, 3. Wechsel der Datengrundlage. Langfristig werden die Kosten, kein bundesweites Record Linkage ohne Einwilligung durchführen zu können, sehr hoch werden. Die Fortsetzung der bisherigen Handhabung des Datenzugangs für die Forschung ist daher keine rationale Strategie. Trotzdem ist dies kurzfristig der wahrscheinlichste Umgang des Gesetzgebers mit den anstehenden Problemen. Die zweite Handlungsoption wäre der öffentliche Protest gegen die bestehenden Regeln. Angesichts dessen, dass wissenschaftliche Forschung in kaum einem Land eine ernstzunehmende Lobby besitzt und ein zu sichtbarer Protest möglicherweise den Zugang zu Forschungsmitteln erschwert, erscheint öffentlicher Protest zwar als notwendiger, letztlich aber nur symbolischer Akt, der auf kein öffentliches Interesse stoßen würde. Damit bliebe nur ein Wechsel des Erhebungslandes. In der Survey Methodology, der Epidemiologie, der Medizin allgemein und nicht zuletzt bei Forschung zu Machine Learning kann man solche Verlagerungen der Forschung bereits sehen. Da in anderen Ländern als in Deutschland der Zugang zu Daten deutlich einfacher ist, erfolgt die Forschung entweder mit den Daten aus anderen Ländern oder gleich in den entsprechenden Ländern. Aus rationaler Sicht einzelner Forscher ist dies der einzig gangbare Weg, wenn man innerhalb seiner eigenen Lebenszeit zu Forschungsergebnissen kommen will. Der resultierende ’Brain Drain’ wird daher kaum zu vermeiden sein. Die Möglichkeit das Land zu verlassen hat weder die sozialpolitische empirische Sozialforschung noch die amtliche Statistik. Allerdings erfährt die amtliche Statistik externe Unterstützung durch die Verpflichtungen, die Deutschland gegenüber der Europäischen Union hinsichtlich regelmäßiger Lieferungen georeferenzierter Daten eingegangen ist. Diese Verpflichtungen sind ohne die Anpassung der deutschen Gesetzgebung an die prinzipiell forschungsfreundlichen Regelungen der Datenschutzgrundverordnung schwer möglich. Daher ist es unverzichtbar, dass zeitnah Standardverfahren für den Datenzugang und das Record Linkage ohne Einwilligung für definierte Forschungszwecke sowie die amtliche Statistik entwickelt und zertifiziert werden. Neben den technischen Lösungen sind dies vor allem organisatorische und administrative Prozeduren. Diese werden nicht
Qualität bei zusammengeführten Daten
165
ohne Vorleistungen der amtlichen Statistik und der empirischen Sozialforschung von allein entstehen. Ebenso wenig ist zu erwarten, dass der Gesetzgeber spontan allein tätig wird. Es genügt daher keinesfalls, wie der RatSWD (2017, S. 12) formuliert „... abzuwarten, in welchem Umfang und in welcher Ausformung der nationale Gesetzgeber von der Öffnungsklausel Gebrauch macht“. Stattdessen ist es erforderlich, den Gesetzgeber darauf hinzuweisen, dass die amtliche Statistik nicht in der Lage sein wird, ihre Aufgaben zu erfüllen, falls die gesetzlichen Regelungen in Deutschland nicht den Möglichkeiten angepasst werden, die die Datenschutzgrundverordnung eröffnet. Vermutlich sind solche forschungspolitischen Aktivitäten für eine erfolgreiche Realisierung von Record-LinkageProjekten in die Praxis der empirischen Sozialforschung und der amtlichen Statistik von größerer Wichtigkeit als die Entwicklung effizienterer oder kryptographisch sicherer Verfahren.
Literatur Biemer, P. (2017). Errors and inference. In I. Foster, R. Ghani, R. S. Jarmin, F. Kreuter, & J. Lane (Hrsg.), Big Data and Social Science: A Practical Guide to Methods and Tools (S. 265–297). CRC Press, Boca Raton. Christen, P. (2012). Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Data-Centric Systems and Applications. Springer, Berlin. Elliot, M., Mackey, E., O’Hara, K., & Tudor, C. (2016). The Anonymisation Decision-Making Framework. UKAN, Manchester. Ford, J. B., Roberts, C. L., & Taylor, L. K. (2006). Characteristics of unmatched maternal and baby records in linked birth records and hospital discharge data. Paediatric and Perinatal Epidemiology 20(4), 329–337. PMID: 16879505. Hirschman, A. O. (1970). Exit, Voice, and Loyalty: Responses to Decline in Firms, Organizations, and States. Harvard University Press, Cambridge. Niedermeyer, F., Steinmetzer, S., Kroll, M., & Schnell, R. (2014). Cryptanalysis of basic bloom filters used for privacy preserving record linkage. Journal of Privacy and Confidentiality 6(2), 59–79. Ohm, P. (2010): Broken Promises of Privacy: Responding to the Suprising Failure of Anonymization. UCLA Law Review 57, 1701-1777.
166
Schnell | Record Linkage als zentraler Baustein der Forschung
Rat für Sozial- und Wirtschaftsdaten (2017). Handreichung Datenschutz. RatSWD, Berlin. Reiter, J. P. (2019). Differential privacy and federal data releases. Annual Review of Statistics and Its Application 6(1), 85–101. Schnell, R. (1997). Nonresponse in Bevölkerungsumfragen: Ausmaß, Entwicklung und Ursachen. Leske+Budrich, Opladen. Schnell, R. (2007). Alternative Verfahren zur Stichprobengewinnung für ein Haushaltspanelsurvey mit Schwerpunkt im Niedrigeinkommens- und Transferleistungsbezug. In M. Promberger (Hrsg.), Neue Daten für die Sozialstaatsforschung: Zur Konzeption der IAB-Panelerhebung ‚Arbeitsmarkt und Soziale Sicherung‘ (S. 33-59), IAB Forschungsbericht 12. Bundesagentur für Arbeit, Nürnberg. Schnell, R. (2015). Linking surveys and administrative data. In U. Engel, B. Jann, P. Lynn, A. Scherpenzeel, & P. Sturgis (Hrsg.), Improving Survey Methods: Lessons from Recent Research (S.273–287). Routledge, New York. Schnell, R. (2016). Privacy-preserving record linkage. In K. Harron, H. Goldstein, & C. Dibben (Hrsg.), Methodological Developments in Data Linkage (S. 201–225). John Wiley & Sons, Chichester. Schnell, R. (2019a). „Big Data“ aus wissenschaftssoziologischer Sicht: Warum es kaum sozialwissenschaftliche Studien ohne Befragungen gibt. In D. Baron, O. Arránz Becker, & D. Lois (Hrsg.), Erklärende Soziologie und soziale Praxis (S. 101–125). Springer, Wiesbaden. Schnell, R. (2019b). Survey-Interviews. Methoden standardisierter Befragungen. Springer VS, Wiesbaden, 2. Auflage. Schnell, R., Bachteler, T., & Reiher, J. (2009). Privacy-Preserving Record Linkage Using Bloom Filters. BMC Medical Informatics and Decision Making 9(41), 1–11. Vatsalan, D., Christen, P., & Verykios, V. S. (2013). A taxonomy of privacy-preserving record linkage techniques. Information Systems 38(6), 946–969. Wilson, R. C., Butters, O. W., Avraam, D., Baker, J., Tedds, J. A., Turner, A., Murtagh, M., & Burton, P. R. (2017). DataSHIELD: New directions and dimensions. Data Science Journal 16, 21. Winkler, W. E. (2009). Record linkage. In D. Pfeffermann & C. Rao, (editors), Handbook of Statistics 29A, Sample Surveys: Design, Methods and Applications (S. 351–380). Elsevier, Amsterdam. Yi, X., Paulet, R., & Bertino, E. (2014). Homomorphic Encryption and Applications. Springer, Cham.
Linking Surveys with Big Data Issues of Consent Joseph W. Sakshaug Institute for Employment Research, Nuremberg University of Mannheim Ludwig Maximilian University of Munich
1 Introduction Sample surveys are ubiquitously used in the academic, government, and commercial sectors to gain insights about diverse populations. The efficiency of surveys, particularly those that are based on random samples, is in their ability to make robust inferences about a population without needing to interview every single member of that population. The possible inferences extend to all data that is collected during the survey interview, regardless of how many questions are asked of the respondents. In fact, the ability to make population-based inferences can be extended to any data that is attached to the survey respondents, regardless of their origin. This notion has given rise to the practice of linking survey respondents to external data not collected during the survey interview, such as administrative records, commercial records, and newer forms of “Big Data”, including social media data and passive data collected from mobile devices. Linking surveys to these data sources has the advantage of enhancing the amount of information for a given respondent, allowing for further and potentially more complex research questions to be addressed. In addition, linkage is considered an efficient and cost-effective practice as it allows for the collection of additional data without posing additional questions to respondents. The act of linkage itself relies on identifying record pairs from two or more databases that belong to the same unit (see Christen 2012 and © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7_12
168
Sakshaug | Linking Surveys with Big Data
Herzog, Scheuren, and Winkler 2007). In a household survey, the unit may be an individual respondent, family, or the household itself. In business surveys, the unit may be an establishment. The record pairs may be directly matched using a unique identifier (e.g. tax ID number), if available, or indirectly matched based on a set of non-unique identifiers (e.g. names, addresses) with classification rules used to define a “likely match/non-match.” While direct matching is relatively straightforward, indirect matching can involve multiple intermediary steps and sometimes subjective decisions have to be made. These decisions can potentially impact the quality of the linkage as well as the inferences that are made from the linked data. The challenge for the linkage technician is therefore to make decisions that optimize the matching process to ensure that the matched pairs indeed belong to the same unit and that the non-matched pairs truly reflect instances where two records do not belong to the same unit. For a detailed review of errors that can occur during the linkage process, the reader is referred to Sakshaug and Antoni (2017). Suboptimal decisions made by the linkage technician are not the only sources of error in linked-data studies. The respondent can also play a role in the quality of the linkage. One of the most documented sources of linkage error – and the primary source of error discussed in this article – is the failure to obtain linkage consent from survey respondents. Prior to linking survey data with an external data source, respondents are often asked for their permission to access and link external records to their interview data. Obtaining linkage consent is required by ethics committees in many cases and some countries require it by law. For instance, in Europe, the EU General Data Protection Regulation (GDPR; http://www. privacy-regulation.eu/) defines consent as: “…any freely given, specific, informed and unambiguous indication of the data subject’s wishes by which he or she, by a statement or by a clear affirmative action, signifies agreement to the processing of personal data relating to him or her.” (https://www.gdpreu.org/the-regulation/key-concepts/ consent/) The GDPR goes on to describe specific procedures on how consent should be obtained, recorded, and withdrawn at a respondent’s request: “Consent should be given by a clear affirmative act establishing a freely given, specific, informed and unambiguous indication of the data subject’s agreement to the processing of personal data relating to him or her, such as
Qualität bei zusammengeführten Daten
169
by a written statement, including by electronic means, or an oral statement. This could include ticking a box when visiting an internet website, choosing technical settings for information society services or another statement or conduct which clearly indicates in this context the data subject’s acceptance of the proposed processing of his or her personal data. Silence, pre-ticked boxes or inactivity should not therefore constitute consent. Consent should cover all processing activities carried out for the same purpose or purposes. When the processing has multiple purposes, consent should be given for all of them. If the data subject’s consent is to be given following a request by electronic means, the request must be clear, concise and not unnecessarily disruptive to the use of the service for which it is provided.” (http://www. privacy-regulation.eu/en/recital-32-GDPR.htm) Surveys which link survey data to multiple external data sets for scientific research should make separate consent requests for each administrative database that is to be linked: “It is often not possible to fully identify the purpose of personal data processing for scientific research purposes at the time of data collection. Therefore, data subjects should be allowed to give their consent to certain areas of scientific research when in keeping with recognised ethical standards for scientific research. Data subjects should have the opportunity to give their consent only to certain areas of research or parts of research projects to the extent allowed by the intended purpose.” (http://www.privacy-regulation. eu/en/recital-33-GDPR.htm) In the next sections, I provide a brief review of linkage consent issues and their implications for survey research. In addition, I describe some methods which have been considered for optimizing linkage consent rates and adjusting for consent bias in surveys.
2
Linkage Consent Rates and Consent Bias
Achieving 100 percent linkage consent from survey respondents is usually not feasible. Inevitably, a subset of respondents decline the request to link their interview data with other data sources. The extent of nonconsent tends to vary from study-to-study with some studies reporting high consent rates and others reporting rather low rates of consent. Reviews of consent rates across surveys linking to administrative records have ranged between 39-97 percent (da Silva et al. 2012) and 24-89 per-
170
Sakshaug | Linking Surveys with Big Data
cent (Sakshaug and Kreuter 2012). Fulton (2012) noted a declining trend for linkage consent rates in the 1990’s/2000’s for some repeated cross-sectional studies in the U.S., suggesting that linkage consent may exhibit a similar declining trend as survey response rates. Respondents tend to report data confidentiality concerns as being the primary reason they do not consent to linkage requests (Sala, Knies, and Burton 2014). There are some studies that report variation in linkage consent rates across multiple consent requests made within a given survey. For example, Thornby et al. (2018) report consent rates ranging between approximately 60-75 percent for nine separate data linkage requests made in the Next Steps: Age 25 UK Cohort Study. Kreuter et al. (2019) report little variation in a smartphone app study involving respondents to the German panel study “Labour Market and Social Security” (PASS). Eligible PASS respondents were invited to take part in an app study that collected extensive app usage and sensor data from their smartphone. Installing the app required permissions for several data package functions (e.g. Mobile phone network quality and location information, Interaction history, characteristics of the social network, etc.). Consent rates across five data function packages ranged from about 76 to 87 percent. Just as survey nonresponse can introduce systematic bias in survey estimates, it is also possible for linkage nonconsent to introduce bias in estimates derived from linked data. Indeed, there is evidence that linkage nonconsent is a systematic phenomenon and is sometimes correlated with variables in either or both data sets subject to linkage. There are numerous studies which find associations between the linkage consent outcome and survey variables with a focus on demographic characteristics (age, sex, education), health conditions, income, among others (e.g. Sala, Burton, and Knies 2012; Knies and Burton 2014; Jenkins et al. 2006; Sakshaug et al. 2012). However, the results are not always consistent across studies as some studies find positive associations with survey variables, while others find negative associations or no associations at all. Differences in study populations, data sources, respondent composition, and survey design features may explain some of this variation. In general, consent models based on survey data tend to explain only a small amount of variation in consent rates, which suggests that unobserved factors likely play a significant role in the linkage consent decision.
Qualität bei zusammengeführten Daten
171
Biases in linked-administrative variables have been reported in some studies (Sakshaug and Kreuter 2012; Sakshaug and Huber 2016). These investigations are carried out by linking the consent indicator from the survey to the administrative data source, allowing for the identification and comparison of administrative records that belong to the consenting and nonconsenting respondents. Sakshaug and Kreuter (2012) found statistically significant consent biases in the administrative variables age and foreign citizenship, but no significant associations with benefit receipt, employment status, income, and registered disability status. The authors also presented nonresponse and measurement error biases for these variables and generally found that they are larger than linkage consent biases. One could interpret this finding to mean that linkage consent biases are less of a problem than more traditional survey biases and that more resources should be allocated to ameliorating nonresponse and measurement error biases than linkage consent biases. Sakshaug and Huber (2016) also found that linkage consent biases tend to be smaller than nonresponse biases.
3
Maximizing Linkage Consent Rates
Although linkage consent biases may be small compared to other types of survey bias, it is still desirable to maximize linkage consent rates in order to furnish data users with a large sample of linked respondents as well as minimize the risk of consent bias. Survey researchers have experimented with different approaches of optimizing linkage consent rates, zeroing in on specific design features that may influence the consent decision. For example, how the consent question is worded or framed can sometimes play a role. Framing the consent request in a way that highlights the potential advantages of linkage (e.g. parsimonious questionnaire, time savings, reduced burden) may make the request rather appealing to survey respondents. However, experimental findings have been mixed with some studies finding a positive effect of benefit wording (Sakshaug and Kreuter 2014; Bates et al. 2012) and others no effect (Pascale 2011; Sakshaug, Tutz, and Kreuter 2013). An alternative approach is to frame the consent request in terms of potential disadvantages (or losses) if consent is not obtained. Kreuter, Sakshaug, and Tourangeau (2016) experimented with this approach by comparing a loss framing argument and a gain framing argument. Respondents in the gain fram-
172
Sakshaug | Linking Surveys with Big Data
ing condition were told at the end of the telephone interview that their survey data would be more valuable if they could be linked to public voting records, whereas respondents in the loss framing condition were told that their survey data would be less valuable if they can’t be linked to voting records. The authors reported a modest increase in the consent rate for the loss framing condition – about 10 percentage points higher – compared to the gain framing condition. Replication attempts have yielded mixed findings. For example, Sakshaug et al. (2019) found no effect of gain/loss framing in a telephone survey, but did find a positive effect of loss framing in a web survey when the linkage consent question was administered at the end of the survey. Sakshaug, Wolter, and Kreuter (2015) found a positive effect of gain framing relative to loss framing in a telephone survey when the framing emphasis was put on the value of the survey responses that were to be collected after (as opposed to the responses collected before) the consent question was asked (at the approximate mid-point of the questionnaire). The placement of the linkage consent question in the questionnaire is another design feature that can influence the consent decision. Survey experiments have found that asking for linkage consent near the beginning or middle of the survey yields modestly higher consent rates than asking at the end of the survey (Sakshaug et al. 2019; Sakshaug, Tutz, and Kreuter 2013; Sakshaug and Vicari 2017; Sala, Knies, and Burton 2014). In one study, Sakshaug et al. (2019) manipulated both the placement (beginning/end) and framing (gain/loss) of the linkage consent question and found that the placement effect held regardless of the framing condition in both telephone and web surveys.
4
Adjusting for Linkage Consent Bias
Despite an optimal design, there will inevitably be a share of respondents who still decline the linkage consent request, and this could introduce systematic bias in linked-data estimates. A small, but growing, literature evaluates methods of statistically adjusting for potential consent bias after the survey has been carried out. Borrowing from the survey nonresponse literature (Little 1986), the method of propensity score weighting is one approach that has been considered for minimizing linkage consent bias. The basic idea of propensity score weighting is to fit a model of a dichotomous response outcome (in our case, consent vs. nonconsent)
Qualität bei zusammengeführten Daten
173
and use the model to estimate the propensity of a response (consent) for each unit. The inverse of the estimated propensity scores are then used to generate weights that can be applied in linked-data analyses. Yang, Fricker, and Eltinge (2019) demonstrate the method in the U.S. Consumer Expenditure Survey where respondents were asked for consent to link their interview data to government administrative records. About 19 percent of respondents objected to the linkage request, which resulted in some statistically significant consent biases for survey estimates of family income, property taxes, and rental value. Applying the propensity score weighting procedure yielded mixed results. The bias in the estimated mean family income was reduced to a statistically insignificant level and the bias in the estimated mean property tax was reduced but was still statistically significant. In contrast, bias increased substantially (four-fold) for the estimated mean rental value and a new statistically significant bias was introduced for an estimate of mean property value. Thus, the propensity score weighting approach succeeded in reducing some biases, failed to reduce others, and exacerbated the bias in some cases. Another statistical adjustment method evaluated in the literature is the use of statistical matching. In contrast to the propensity score weighting example described above, which didn’t require access to the administrative data, statistical matching uses both data sources to identify pairs of records that are “statistically similar” based on a common set of covariates (D’Orazio, Di Zio, and Scanu 2006). Gessendorfer et al. (2018) explored this method in the context of linkage consent by matching survey records from two separate surveys (the National Educational Panel Study and the panel study “Labour Market and Social Security”) to a large administrative database (the Integrated Employment Biographies of the Federal Employment Agency of Germany). The authors generated synthetic nonconsent on the deterministically linked cases in order to evaluate the statistical matching procedure. The evaluation study showed that the statistical matching method does a good job of reducing linkage consent biases in marginal distributions of administrative variables, but that biases in multivariate estimates can sometimes be worsened when the method is applied.
174
Sakshaug | Linking Surveys with Big Data
5 Conclusions In this short article I reviewed some issues related to obtaining linkage consent from respondents in surveys. Along with other sources of linkage error (see Sakshaug and Antoni 2017, for a review), the failure to obtain linkage consent from respondents is a common issue in surveys and will likely remain so well into the future. Additional factors which seem to influence the consent decision but were not discussed in-depth here include mode of data collection and the extent to which survey respondents are fully informed about the linkage procedure (Das and Couper 2014; Jäckle et al. 2018; Sakshaug et al. 2017). It is my view that the demand for linked data will only continue to increase. Linking surveys to external data sources serves an important purpose in society by providing detailed information that can be used to better understand populations as well as evaluate the implications of policies directed at those populations. It is therefore paramount that survey researchers continue to investigate ways of improving the quality of linked data, including monitoring the extent of linkage nonconsent and assessing and correcting for possible biases that may result. There is a relatively small but growing literature that evaluates methods of addressing these consent issues through optimal design and statistical adjustment approaches. However, further work is needed to fully understand the linkage consent decision-making process and equip researchers with the tools needed to address the issue of nonconsent into the future as new and complex data structures continue to emerge as supplements to survey data.
References Bates, N., Wroblewski, M. J., & Pascale, J. (2012). Public Attitudes Toward the Use of Administrative Records in the U.S. Census: Does Question Frame Matter? Technical Report, Survey Methodology Series #2012-04, United States Census Bureau. Christen, P. (2012). Data Matching: Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Springer. da Silva, M. E. M., Coeli, C. M., Ventura, M., Palacios, M., Magnanini, M. M. F., Camargo, T. M. C. R., & Camargo, K. R. (2012). Informed
Qualität bei zusammengeführten Daten
175
Consent for Record Linkage: a Systematic Review. Journal of Medical Ethics, 38(10), 639-642. Das, M., & Couper, M. P. (2014). Optimizing Opt-Out Consent for Record Linkage. Journal of Official Statistics, 30(3), 479-497. D’Orazio, M., Di Zio, M., & Scanu, M. (2006). Statistical Matching: Theory and Practice. Wiley. Fulton, J. A. (2012). Respondent Consent to Use Administrative Data. Unpublished Doctoral Dissertation, University of Maryland. Gessendorfer, J., Beste, J., Drechsler, J., & Sakshaug, J. W. (2018). Statistical Matching as a Supplement to Record Linkage: A Valuable Method to Tackle Nonconsent Bias?. Journal of Official Statistics, 34(4), 909-933. Herzog, T. N., Scheuren, F. J., & Winkler, W. E. (2007). Data Quality and Record Linkage Techniques. Springer. Jäckle, A., Beninger, K., Burton, J., & Couper, M.P. (2018). Understanding Data Linkage Consent in Longitudinal Surveys. Understanding Society Working Paper Series, No. 2018-07. Jenkins, S. P., Cappellari, L., Lynn, P., Jäckle, A., & Sala, E. (2006). Patterns of Consent: Evidence from a General Household Survey. Journal of the Royal Statistical Society: Series A (Statistics in Society), 169(4), 701-722. Knies, G., & Burton, J. (2014). Analysis of Four Studies in a Comparative Framework Reveals: Health Linkage Consent Rates on British Cohort Studies Higher than on UK Household Panel Surveys. BMC Medical Research Methodology, 14(1), 125. Kreuter, F., Haas, G. C., Keusch, F., Bähr, S., & Trappmann, M. (2018). Collecting Survey and Smartphone Sensor Data with an App: Opportunities and Challenges Around Privacy and Informed Consent. Social Science Computer Review, advance online access. Kreuter, F., Sakshaug, J. W., & Tourangeau, R. (2016). The Framing of the Record Linkage Consent Question. International Journal of Public Opinion Research, 28(1), 142-152. Little, R.J.A. (1986). Survey Nonresponse Adjustments for Estimates of Means. International Statistical Review, 54(2), 139–157. Pascale, J. (2011). Requesting Consent to Link Survey Data to Administrative Records: Results from a Split-Ballot Experiment in the Survey of Health Insurance and Program Participation (SHIPP). Study Series Survey Methodology 2011-03. U.S. Census Bureau.
176
Sakshaug | Linking Surveys with Big Data
Sakshaug, J. W., & Antoni, M. (2017). Errors in Linking Survey and Administrative Data. P. Biemer, E. de Leeuw, S. Eckman, B. Edwards, F. Kreuter, L. Lyberg, N.C. Tucker, B. West (eds.), Total Survey Error in Practice (pp. 557-573). Wiley. Sakshaug, J. W., & Huber, M. (2016). An Evaluation of Panel Nonresponse and Linkage Consent Bias in a Survey of Employees in Germany. Journal of Survey Statistics and Methodology, 4(1), 71-93. Sakshaug, J. W., & Kreuter, F. (2012). Assessing the Magnitude of Non-Consent Biases in Linked Survey and Administrative Data. Survey Research Methods, 6(2), 113-122. Sakshaug, J. W., & Kreuter, F. (2014). The Effect of Benefit Wording on Consent to Link Survey and Administrative Records in a Web Survey. Public Opinion Quarterly, 78(1), 166-176. Sakshaug, J. W., & Vicari, B. J. (2017). Obtaining Record Linkage Consent from Establishments: The Impact of Question Placement on Consent Rates and Bias. Journal of Survey Statistics and Methodology, 6(1), 46-71. Sakshaug, J. W., Couper, M. P., Ofstedal, M. B., & Weir, D. R. (2012). Linking Survey and Administrative Records: Mechanisms of Consent. Sociological Methods & Research, 41(4), 535-569. Sakshaug, J. W., Hülle, S., Schmucker, A., & Liebig, S. (2017). Exploring the Effects of Interviewer-and Self-Administered Survey Modes on Record Linkage Consent Rates and Bias. Survey Research Methods, 11(2), 171-188. Sakshaug, J. W., Schmucker, A., Kreuter, F., Couper, M. P., & Singer, E. (2019). The Effect of Framing and Placement on Linkage Consent. Public Opinion Quarterly, 83(S1), 289-308. Sakshaug, J. W., Wolter, S., & Kreuter, F. (2015). Obtaining Record Linkage Consent: Results from a Wording Experiment in Germany. Survey Methods: Insights from the Field, 12. Sakshaug, J., Tutz, V., & Kreuter, F. (2013). Placement, Wording, and Interviewers: Identifying Correlates of Consent to Link Survey and Administrative data. Survey Research Methods, 7(2), 133-144. Sala, E., Burton, J., & Knies, G. (2012). Correlates of Obtaining Informed Consent to Data Linkage: Respondent, Interview, and Interviewer Characteristics. Sociological Methods & Research, 41(3), 414-439.
Qualität bei zusammengeführten Daten
177
Sala, E., Knies, G., & Burton, J. (2014). Propensity to Consent to Data Linkage: Experimental Evidence on the Role of Three Survey Design Features in a UK Longitudinal Panel. International Journal of Social Research Methodology, 17(5), 455-473. Thornby, M., Calderwood, L., Kotecha, M., Beninger, K., & Gaia, A. (2018). Collecting Multiple Data Linkage Consents in a Mixedmode Survey: Evidence from a large-scale longitudinal study in the UK. Survey Methods: Insights from the Field, 14. Yang, D., Fricker, S., & Eltinge, J. (2017). Methods for Exploratory Assessment of Consent-to-Link in a Household Survey. Journal of Survey Statistics and Methodology, 7(1), 118-155.
Adressen der Referentinnen und Referenten Dr. Hanna Brenzel, Statistisches Bundesamt, Gustav-Stresemann-Ring 11, 65189 Wiesbaden E-Mail: [email protected] Prof. Dr. Frank Faulbaum, Arbeitsgemeinschaft Sozialwissenschaftlicher Institute (ASI), Universität Duisburg-Essen, Lotharstraße 65, 47057 Duisburg E-Mail: [email protected] Kathrin Gebers, Statistisches Bundesamt, Gustav-Stresemann-Ring 11, 65189 Wiesbaden E-Mail: [email protected] Dr. Jan Goebel, DIW Berlin, Deutsches Institut für Wirtschaftsforschung, Forschungsdatenzentrum des SOEP, Mohrenstr. 58, 10117 Berlin E-Mail: [email protected] Sebastian Götte, aproxima Gesellschaft für Markt- und Sozialforschung Weimar mbH, Schillerstraße 10, 99423 Weimar E-Mail: [email protected] Sandra Hadam, Statistisches Bundesamt, Gustav-Stresemann-Ring 11, 65189 Wiesbaden E-Mail: [email protected] Bettina Klumpe, ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., Französische Straße 8, 10117 Berlin E-Mail: [email protected] Prof. Dr. Ralf Münnich, Universität Trier, Universitätsring 15, 54296 Trier E-Mail: [email protected] Prof. Joseph Sakshaug, Ph.D., Institut für Arbeitsmarkt- und Berufsforschung (IAB) der Bundesagentur für Arbeit (BA), Regensburger Straße 104, 90478 Nürnberg E-Mail: [email protected] Joanna Simm, Statistisches Bundesamt, (ehemalige Werkstudentin) E-Mail: [email protected] © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert durch Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2020 B. Klumpe et al. (Hrsg.), Qualität bei zusammengeführten Daten, Schriftenreihe der ASI – Arbeitsgemeinschaft Sozialwissenschaftlicher Institute, https://doi.org/10.1007/978-3-658-31009-7
180
Adressen der Referentinnen und Referenten
Clara Schartner, ehemals Statistisches Bundesamt, Gustav-Stresemann-Ring 11, 65189 Wiesbaden E-Mail: [email protected] Hartmut Scheffler, Kantar TNS, Stieghorster Str. 86-90, 33605 Bielefeld E-Mail: [email protected] Prof. Dr. Timo Schmid, Freie Universität Berlin, Garystr. 21, 14195 Berlin E-Mail: [email protected] Prof. Dr. Rainer Schnell, Universität Duisburg-Essen, Forsthausweg 2, 47057 Duisburg E-Mail: [email protected] Dr. Hannes Taubenböck, Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR), Oberpfaffenhofen, 82234 Weßling E-Mail: [email protected] Thorsten Tümmler, Statistisches Bundesamt, Gustav-Stresemann-Ring 11, 65189 Wiesbaden E-Mail: [email protected] Dr. Hendrik Wagenseil, GfK SE, Geodata Science, Geomarketing, Nordwestring 101, 90419 Nürnberg E-Mail: [email protected] Dr. Barbara Wawrzyniak, Infas 360 GmbH, Ollenhauerstraße 1, 53113 Bonn E-Mail: [email protected] Dr. Michael Wurm, Deutsches Zentrum für Luft- und Raumfahrt e.V. (DLR), Oberpfaffenhofen, 82234 Weßling E-Mail: [email protected] Prof. Dr. Markus Zwick, Statistisches Bundesamt, Gustav-StresemannRing 11, 65189 Wiesbaden E-Mail: [email protected]