360 16 17MB
German Pages XXV, 487 [492] Year 2021
Knut Hildebrand Marcus Gebauer Michael Mielke Hrsg.
Daten- und Informationsqualität Die Grundlage der Digitalisierung 5. Auflage
Daten- und Informationsqualität
Knut Hildebrand • Marcus Gebauer Michael Mielke Hrsg.
Daten- und Informationsqualität Die Grundlage der Digitalisierung 5., erweiterte und aktualisierte Auflage
Hrsg. Knut Hildebrand Hochschule Weihenstephan-Triesdorf Freising, Deutschland
Marcus Gebauer Hannover Rück AG Hannover, Deutschland
Michael Mielke Deutsche Bahn AG Frankfurt am Main, Deutschland
ISBN 978-3-658-30990-9 ISBN 978-3-658-30991-6 (eBook) https://doi.org/10.1007/978-3-658-30991-6 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Vieweg © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2008, 2011, 2015, 2018, 2021 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag, noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung: Sybille Thelen Springer Vieweg ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Grußwort Prof. Richard Wang
It is a great honor and privilege to be part of the German monograph „Daten- und Informationsqualität“. This compendium for German readers is a rigorous introduction to information quality (IQ). When Michael Mielke invited me to write this preface, I accepted without reservation. The field of Information Quality has witnessed significant advances over the past two decades. In 1988, Professors Stuart Madnick and Richard Wang at the Massachusetts In stitute of Technology pioneered the Total Data Quality Management (TDQM) program, beginning a journey of research publications with key TDQM members such as Professors Yang Lee, Leo Pipino, and Diane Strong. An applied, multi-disciplinary field such as Information Quality demands interaction and collaboration between practitioners and researchers. As such, in 1996, the MIT TDQM program organized the first International Conference on Information Quality (ICIQ) to encourage the exchange of research ideas and results between researchers and practitioners. In 2002, the MIT Information Quality Program was established by the Center for Technology, Policy, and Industrial Development to conduct research on all aspects of Information Quality, such as managing information as a product, developing information product maps, and adopting information quality practices in organizations. In 2007, the MIT Information Quality Program launched the first Industry Symposium to further interactions and collaborations among practitioners, vendors, and academicians. In addition to presentations and workshops, the Symposium also includes vendor presentations, product announcements, and consultancy methods to complement the annual ICIQ conference. Over the years, the MIT efforts have spawned many conferences, workshops and communities, such as the SIGMOD workshops on Information Quality in Information Systems, the CAiSE workshop on Data and Information Quality, and the German Society for Information and Data Quality that organizes regular conferences, workshops and roundtable meetings. Today, researchers and practitioners have moved beyond establishing Information Quality as a field to resolving IQ problems, which range from defining, measuring, analyzing, and improving IQ to developing tools, methods, and processes for improving the quality of information. As a result, numerous IQ resources are now available for the reader to use. In the industry, vendors such as Acxiom, A.I.D. (France), Deloitte Consulting, V
VI
Grußwort Prof. Richard Wang
EDS, FAST, Firstlogic, FUZZY! Informatik AG (Germany), IBM, Informatica, SAS and Serasa S.A. (Brazil) are actively promoting information quality. We as a community can be proud of what we have accomplished. I want to commend Michael Mielke and Marcus Gebauer for outstanding contributions to the Information Quality Community over the last decade. This first German book that includes „Information Quality“ in its title will attract German MIS and IT academics, students, and industry people to information quality. Richard Y. Wang Cambridge, Massachusetts, USA [email protected] http://mitiq.mit.edu
Editorial
Daten- und Informationsqualität ist im Zeitalter des Internet und der Informationsgesellschaft zunehmend ein entscheidender Faktor für den Erfolg eines Unternehmens. Dabei ist zu beobachten, dass Unternehmen trotz steigender Verfügbarkeit von Informationen nicht unbedingt bessere Entscheidungen treffen. Plakativ ausgedrückt: „Wenn unsere Autos die gleiche Qualität wie unsere Daten hätten, kämen die meisten nicht einmal aus der Garage.“ Die Beobachtung erfolgreicher Unternehmen hat gezeigt, dass der Erfolg maßgeblich vom Vertrauen der Führungskräfte in die Glaubwürdigkeit der zur Verfügung stehenden Informationen abhängt. Erfolgreiche Unternehmen entwickeln daher ihre Business Excellence zunehmend zu einer Business Information Excellence weiter. Obwohl seit Anfang der 1990er-Jahre intensiv am Thema Management der Daten- und Informationsqualität – IQM (Information Quality Management) – geforscht wird, ist es immer noch eine junge Disziplin. Eine Vielzahl von Publikationen, auch zu angrenzenden Themengebieten, ist bereits erschienen, vornehmlich in englischer Sprache. Erst Anfang des 21. Jahrhunderts findet das Thema mehr Beachtung im deutschen Sprachraum. Den Auftakt bildete 2002 die Entwicklung der IQ-Zertifikatskurse von Mielke und Wang, dann 2003 die erste deutsche IQM-Konferenz unter Mitwirkung von Richard Wang gefolgt von offenen Round-Table- Meetings, IQ-Best Practice Day, IQ-Contest, IQ-Challenge u. v. a. m. bis zur Geburtshilfe von IQM-Communities in Europa, Nord- und Südamerika und Australien/Ozeanien. Darin erkennen Sie die Bedeutung, die die deutsche IQM- Gemeinschaft – organisiert in der DGIQ (Deutsche Gesellschaft für Informations- und Datenqualität e. V.) – für die Entwicklung des Themas Informationsqualität mittlerweile international hat. Die Herausgeber und Autoren des vorliegenden Buches befassen sich seit vielen Jahren mit dem Thema und tragen mit ihrem Engagement zu einer lebendigen IQM-Gemeinschaft bei, die spätestens mit der ersten deutschen IQM-Konferenz im Jahr 2003 ihren Start hatte. Seitdem sind viele unserer Kollegen mit dem Wunsch nach einem deutschsprachigen Buch an uns herangetreten. Hierbei sollte der Schwerpunkt vor allem auf ‚What Works‘, also dem Machbaren liegen, um allen Interessierten den Einstieg in das Thema Daten- und Informationsqualität so leicht wie möglich zu machen. Allerdings wollten wir dabei nicht unsere Wurzeln vernachlässigen, die bei den Forschungsarbeiten von Prof. Richard Wang VII
VIII
Editorial
vom Massachusetts Institute of Technology (Cambridge, USA) liegen. So finden sich neben den Praxis-Kapiteln auch Beiträge, in denen die Grundlagenforschung im Mittelpunkt steht. Das Ergebnis unserer Bemühungen halten Sie in Ihren Händen. Gehen Sie mit uns auf eine spannende Reise durch Grundlagen, Methoden und Praxisbeispiele aus dem Themenfeld der Daten- und Informationsqualität. Die Herausgeber Knut Hildebrand Marcus Gebauer Holger Hinrichs Michael Mielke
Editorial zur 4. Auflage
In den vergangenen zehn Jahren hat das Thema „Daten- und Informationsqualität“ vor allem in der Praxis, aber auch in Forschung und Lehre, einen festen Platz gefunden. Erschien die erste Auflage in 2008, so folgten schon 2011 und 2015 Überarbeitungen und Ergänzungen. Die vorliegende vierte Auflage wurde wiederum aktualisiert und erweitert. Das ist sehr erfreulich – für die Leser, die Herausgeber und für die Autoren, die neben dem Beruf die Zeit gefunden haben für ihren Artikel. Vielen Dank! Die Herausgeber Knut Hildebrand Marcus Gebauer Holger Hinrichs Michael Mielke
IX
Editorial zur 5. Auflage
Digitalisierung, Industrie 4.0, Big Data, Künstliche Intelligenz usw. erfordern eine immer höhere Datenqualität – und damit immer mehr spezielles Wissen und Know-how. Hier setzt dieses Buch an, denn das Thema „Daten- und Informationsqualität“ hat in der Praxis, aber auch in Forschung und Lehre, einen festen Platz gefunden. Erschien die erste Auflage in 2008, so folgten schon 2011, 2015 und 2018 Verfeinerungen und Ergänzungen. Die vorliegende fünfte Auflage wurde überarbeitet, aktualisiert und erweitert. Das Buch ist in vier Teile gegliedert. Teil I stellt die theoretischen Grundlagen bereit. Im zweiten Abschnitt werden in zehn Kapiteln Methoden, Techniken und Tools vorgestellt. Teil 3 liefert dem Leser die organisatorischen Aspekte der Informations- und Datenqualität. Im letzten und vierten Teil kommt die Praxis in sechs Kapiteln zu Wort. Wir freuen uns sehr, dass dieser Klassiker sich einer so großen Beliebtheit erfreut. Unser Dank geht an die Autoren und den ausgeschiedenen Herausgeber Holger Hinrichs. Und an all die Leser, Praktiker und Kollegen, die uns mit Worten und Taten unterstützt haben. Herzlichen Dank und viel Erfolg! Die Herausgeber Knut Hildebrand Marcus Gebauer Michael Mielke
XI
Danksagung
Dank gebührt natürlich unseren vielen Co-Autoren, die mit ihrer weitreichenden Erfahrung nicht nur die IQM-Gemeinschaft bereichern, sondern nun auch dieses Buch ermöglicht haben. Allerdings wäre nichts möglich gewesen, wenn nicht unsere Familien geduldig auch dieses Projekt mitgetragen hätten. Sie müssen uns ohnehin schon mit häufig einnehmenden Arbeitgebern teilen. Die Leidenschaft für das Thema Daten- und Informationsqualität erfordert dann nur noch um so mehr Verständnis. Danke an Euch alle. Knut Hildebrand sei an dieser Stelle ein besonderer Dank ausgesprochen. Ohne sein Antreiben wäre dieses Buch nicht möglich gewesen.
XIII
Inhaltsverzeichnis
Teil I Informationsqualität – Grundlagen 1 Was wissen wir über Information?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Florian Engelmann und Christoph Großmann 1.1 Einleitung������������������������������������������������������������������������������������������������������ 3 1.2 Grundlegung ������������������������������������������������������������������������������������������������ 5 1.3 Information im Wissens- und Informationsmanagement������������������������������ 7 1.4 SHANNONsche Informationstheorie ���������������������������������������������������������� 11 1.5 STEINMÜLLERs Informationsmodell�������������������������������������������������������� 13 1.5.1 STEINMÜLLERs System- und Prozessverständnis������������������������ 13 1.5.2 Information als allgemeines Modell ������������������������������������������������ 14 1.5.3 Modell eines Informationssystems unter Einbezug der Semiotik�������������������������������������������������������������������������������������������� 15 1.5.4 Fazit�������������������������������������������������������������������������������������������������� 16 1.6 Information als Produktionsfaktor���������������������������������������������������������������� 17 1.6.1 Perspektive der Produktionstheorie�������������������������������������������������� 17 1.6.2 Produktionsfaktor Information���������������������������������������������������������� 20 1.6.3 Fazit�������������������������������������������������������������������������������������������������� 20 1.7 Zusammenfassung des Beitrages������������������������������������������������������������������ 21 Literatur������������������������������������������������������������������������������������������������������������������ 21 2 Informationsqualität – Definitionen, Dimensionen und Begriffe. . . . . . . . . . . 23 Jan P. Rohweder, Gerhard Kasten, Dirk Malzahn, Andrea Piro und Joachim Schmid 2.1 Einleitung������������������������������������������������������������������������������������������������������ 23 2.2 IQ-Dimensionen und Definitionen���������������������������������������������������������������� 25 2.2.1 Die 15 IQ-Dimensionen im Überblick:�������������������������������������������� 26 2.2.2 Graphische Darstellung der 15 IQ-Dimensionen und 4 IQ-Kategorien ���������������������������������������������������������������������������������� 27 2.2.3 Die 15 IQ-Dimensionen: Definitionen und Beispiele���������������������� 29 2.3 Zusammenfassung und Ausblick������������������������������������������������������������������ 41
XV
XVI
Inhaltsverzeichnis
Literatur������������������������������������������������������������������������������������������������������������������ 42 Teil II Methoden – Techniken – Tools – Regelwerke/Standards 3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Bernd Heinrich und Mathias Klier 3.1 Einleitung������������������������������������������������������������������������������������������������������ 47 3.2 Anforderungen an Datenqualitätsmetriken �������������������������������������������������� 49 3.3 Bisherige Beiträge zur Messung von Datenqualität�������������������������������������� 50 3.4 Metriken und Messverfahren für DQ������������������������������������������������������������ 52 3.4.1 Metrik für die DQ-Dimension Vollständigkeit �������������������������������� 52 3.4.2 Metrik für die DQ-Dimension Fehlerfreiheit������������������������������������ 55 3.4.3 Metrik für die DQ-Dimension Konsistenz���������������������������������������� 58 3.4.4 Metrik für die DQ-Dimension Aktualität������������������������������������������ 59 3.5 Praktische Anwendung der Metrik für Aktualität ���������������������������������������� 61 3.6 Zusammenfassung und Ausblick������������������������������������������������������������������ 62 Literatur������������������������������������������������������������������������������������������������������������������ 63 4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Niels Weigel 4.1 Die Bedeutung des Total Data Quality Management������������������������������������ 68 4.1.1 Vorgehensmodelle���������������������������������������������������������������������������� 68 4.1.2 Datenqualitätsmanagement sichert Ihren Unternehmenserfolg�������� 69 4.2 Phasen eines ganzheitlichen Datenqualitätsmanagements���������������������������� 69 4.2.1 Initiierung des Datenqualitätsprojekts���������������������������������������������� 70 4.2.2 Definition der Datenqualitätsanforderungen������������������������������������ 73 4.2.3 Messung der vorhandenen Datenqualität������������������������������������������ 76 4.2.4 Analyse der Fehlerursachen�������������������������������������������������������������� 79 4.2.5 Verbesserung der Datenqualität�������������������������������������������������������� 81 4.2.6 Permanente Überwachung der Datenqualität������������������������������������ 82 4.3 Anreize für ein Datenqualitätsmanagement�������������������������������������������������� 83 Literatur������������������������������������������������������������������������������������������������������������������ 84 5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln. . . . . . . . . . . . . . . 87 Marcus Gebauer und Ulrich Windheuser 5.1 Datenqualität ������������������������������������������������������������������������������������������������ 87 5.2 Merkmale der Datenqualität ������������������������������������������������������������������������ 89 5.3 Geschäftsregeln�������������������������������������������������������������������������������������������� 92 5.4 Methoden der Datenanalyse�������������������������������������������������������������������������� 93 5.5 Metriken im Detail���������������������������������������������������������������������������������������� 95 5.6 Datenqualität in der Anwendung������������������������������������������������������������������ 97 Literatur������������������������������������������������������������������������������������������������������������������ 100
Inhaltsverzeichnis
XVII
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten Datenqualitätssteigerung. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Marcus Zwirner 6.1 Definition „Datenbereinigung“ �������������������������������������������������������������������� 102 6.2 Ursachenanalyse ������������������������������������������������������������������������������������������ 103 6.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen ���������������� 103 6.4 Methoden des Datenqualitätsmanagements�������������������������������������������������� 107 6.5 Datenqualitätsmaßnahmen im Detail������������������������������������������������������������ 109 6.6 Zusammenfassung���������������������������������������������������������������������������������������� 120 7 Datenintegration und Deduplizierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Jens Bleiholder und Joachim Schmid 7.1 Schritt 1: Schema Matching�������������������������������������������������������������������������� 126 7.2 Schritt 2: Dublettenerkennung���������������������������������������������������������������������� 129 7.2.1 Auswirkungen von Dubletten ���������������������������������������������������������� 130 7.2.2 Entstehung von Dubletten���������������������������������������������������������������� 131 7.2.3 Erkennen von Dubletten������������������������������������������������������������������� 132 7.2.4 Durchführung der Dublettenerkennung�������������������������������������������� 133 7.3 Schritt 3: Datenfusion ���������������������������������������������������������������������������������� 135 7.3.1 Konflikte ignorieren�������������������������������������������������������������������������� 136 7.3.2 Konflikte vermeiden�������������������������������������������������������������������������� 136 7.3.3 Konflikte auflösen ���������������������������������������������������������������������������� 137 7.4 Erweiterungen ���������������������������������������������������������������������������������������������� 139 7.4.1 Strukturierung ���������������������������������������������������������������������������������� 139 7.4.2 Standardisierung ������������������������������������������������������������������������������ 140 7.5 Zusammenfassung���������������������������������������������������������������������������������������� 141 Literatur������������������������������������������������������������������������������������������������������������������ 141 8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Andrea Piro und Marcus Gebauer 8.1 Einleitung und Zielsetzung �������������������������������������������������������������������������� 143 8.1.1 Informationsqualität und Datenarten������������������������������������������������ 144 8.2 Datenarten in der Informationslandschaft���������������������������������������������������� 145 8.3 Beschreibungskriterien��������������������������������������������������������������������������������� 145 8.3.1 Beschreibung der Eigenschaften������������������������������������������������������ 146 8.3.2 Beschreibung des Kontextes ������������������������������������������������������������ 148 8.4 Beispiele für den Praxiseinsatz �������������������������������������������������������������������� 150 8.4.1 Analyseebenen der Informationsqualität������������������������������������������ 150 8.4.2 Visualisierung des IQ-Status������������������������������������������������������������ 151 8.5 Zusammenfassung���������������������������������������������������������������������������������������� 154 Literatur������������������������������������������������������������������������������������������������������������������ 155
XVIII
Inhaltsverzeichnis
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, Entwicklungstendenzen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Christian Maaß und Gernot Gräfe 9.1 Ausgangssituation ���������������������������������������������������������������������������������������� 157 9.2 Charakterisierung algorithmenbasierter Suchmaschinen������������������������������ 159 9.2.1 Funktionsweise algorithmenbasierter Suchmaschinen �������������������� 159 9.2.2 Anfrageabhängige Ranking-Faktoren���������������������������������������������� 159 9.2.3 Anfrageunabhängige Ranking-Kriterien������������������������������������������ 161 9.3 Semantisches Web und semantische Suchmaschinen ���������������������������������� 163 9.3.1 Vision und Grundlagen des semantischen Webs������������������������������ 163 9.3.2 Technische Grundlagen des semantischen Web�������������������������������� 166 9.3.3 Problemfelder und Herausforderungen im Bereich der semantischen Suche�������������������������������������������������������������������������� 166 9.4 Fazit und Ausblick���������������������������������������������������������������������������������������� 168 Literatur������������������������������������������������������������������������������������������������������������������ 169 10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 Gernot Gräfe und Christian Maaß 10.1 Einleitung���������������������������������������������������������������������������������������������������� 171 10.2 Informationsqualität in Entscheidungsprozessen���������������������������������������� 172 10.2.1 Informationen und Kaufentscheidungen �������������������������������������� 172 10.2.2 Informationsqualitätskriterien ������������������������������������������������������ 174 10.3 Ursachen mangelnder Informationsqualität im Internet ���������������������������� 176 10.3.1 Opportunistische Verhaltensspielräume der Anbieter�������������������� 176 10.3.2 Informationsqualität aus der Nachfragerperspektive�������������������� 179 10.3.3 Gründe für Opportunismus im Internet ���������������������������������������� 182 10.4 Fazit und Handlungsempfehlungen������������������������������������������������������������ 187 Literatur������������������������������������������������������������������������������������������������������������������ 190 11 Datenqualitäts-Audits in Projekten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Marcus Gebauer und Michael Mielke 11.1 Einleitung���������������������������������������������������������������������������������������������������� 195 11.2 Abstimmung mit anderen Regelwerken������������������������������������������������������ 197 11.3 Glossar�������������������������������������������������������������������������������������������������������� 197 11.4 Gebrauch der Generischen Checkliste�������������������������������������������������������� 198 11.5 Datenqualitätsbewertung einer Datensammlung���������������������������������������� 200 11.5.1 Anforderungen an das Management���������������������������������������������� 200 11.5.2 Service Level Agreements ������������������������������������������������������������ 201 11.5.3 Organisatorische Spezifikationen�������������������������������������������������� 201 11.5.4 Prozess-Definitionen���������������������������������������������������������������������� 202 11.5.5 Datensammlung, Datenverarbeitung und Datennutzung�������������� 204 11.5.6 Messung, Maßnahmen und Überwachung������������������������������������ 205
Inhaltsverzeichnis
XIX
11.5.7 Technische Anforderungen������������������������������������������������������������ 206 11.5.8 Dokumentation������������������������������������������������������������������������������ 208 11.6 Zusammenfassung�������������������������������������������������������������������������������������� 208 12 Bewertung der Informationsqualität im Enterprise 2.0. . . . . . . . . . . . . . . . . . 211 Sven Ahlheid, Gernot Gräfe, Alexander Krebs und Dirk Schuster 12.1 Einführung�������������������������������������������������������������������������������������������������� 211 12.2 Beurteilung der Informationsqualität einer Enterprise 2.0 Wissensplattform mittels eines hybriden Ansatzes ������������������������������������ 212 12.2.1 Automatische Beurteilung der Informationsqualität �������������������� 213 12.2.2 Implizites Nutzer-Feedback���������������������������������������������������������� 215 12.2.3 Explizites Nutzer-Feedback���������������������������������������������������������� 216 12.2.4 Zusammenwirken der drei Ansätze und Fazit ������������������������������ 217 Literatur������������������������������������������������������������������������������������������������������������������ 218 Teil III Organisation 13 Organisatorische Ansiedlung eines Datenqualitätsmanagements . . . . . . . . . . 225 Jens Lüssem 13.1 Einführung�������������������������������������������������������������������������������������������������� 225 13.1.1 Motivation�������������������������������������������������������������������������������������� 225 13.1.2 Gliederung des Kapitels���������������������������������������������������������������� 226 13.2 Datenqualitätsmanagement – Entwicklungsstufen und Aufgaben�������������� 227 13.2.1 Sicherung der Datenqualität���������������������������������������������������������� 228 13.2.2 Management der Datenqualität������������������������������������������������������ 228 13.3 Datenqualitätsmanagement – Ansiedlung im Unternehmen���������������������� 229 13.3.1 Kopplung von Datenqualitätsmanagement mit anderen Unternehmensbereichen���������������������������������������������������������������� 229 13.3.2 Folgerungen für die Ansiedlung eines Datenqualitätsmanagements���������������������������������������������������������� 231 13.4 Datenqualitätsmanagement in Projekten���������������������������������������������������� 232 13.4.1 Aufgaben des Datenqualitätsmanagements in Projekten�������������� 233 13.4.2 Organisatorische Verankerung des Datenqualitätsmanagements in Projekten�������������������������������������� 233 13.5 Zusammenfassung und Ausblick���������������������������������������������������������������� 234 13.5.1 Zusammenfassung ������������������������������������������������������������������������ 234 13.5.2 Ausblick���������������������������������������������������������������������������������������� 235 Literatur������������������������������������������������������������������������������������������������������������������ 235 14 Organisatorische Maßnahmen für gute Datenqualität. . . . . . . . . . . . . . . . . . . 237 Jürg Wolf 14.1 Messungen, Ursachen und generische Ansätze������������������������������������������ 237 14.1.1 Möglichen Arten von Datenqualitätsmängeln ������������������������������ 237 14.1.2 Datenqualitätsmängel – Entstehung und Bekämpfung������������������ 238
XX
Inhaltsverzeichnis
14.1.3 Vier Generische Ansätze���������������������������������������������������������������� 239 14.1.4 Aus den generischen Ansätzen abgeleitete Strategien������������������ 240 14.2 Strategie A: Transparenz schafft Vertrauen������������������������������������������������ 241 14.2.1 Ansatzpunkt dieser Strategie �������������������������������������������������������� 241 14.2.2 Nutzen dieser Strategie������������������������������������������������������������������ 241 14.2.3 Nachteile und Risiken dieser Strategie������������������������������������������ 242 14.3 Strategie B: Definition von Verantwortlichkeiten �������������������������������������� 242 14.3.1 Ansatzpunkt dieser Strategie �������������������������������������������������������� 242 14.3.2 Positionierung dieser Businessrollen im Modell�������������������������� 242 14.3.3 Nutzen dieser Strategie������������������������������������������������������������������ 244 14.3.4 Nachteile und Risiken dieser Strategie������������������������������������������ 244 14.4 Strategie C: gezielt Abhängigkeiten suchen����������������������������������������������� 244 14.4.1 Ansatzpunkt dieser Strategie �������������������������������������������������������� 244 14.4.2 Gezielte Definition von Master und Slave������������������������������������ 245 14.4.3 Nutzen dieser Strategie������������������������������������������������������������������ 246 14.4.4 Nachteile und Risiken dieser Strategie������������������������������������������ 246 14.5 Strategie D: Daten-Lifecycle auf Basis des Prozesses�������������������������������� 247 14.5.1 Ansatzpunkt dieser Strategie �������������������������������������������������������� 247 14.5.2 Der Prozess und Lebenszyklus������������������������������������������������������ 247 14.5.3 Nutzen dieser Strategie������������������������������������������������������������������ 248 14.5.4 Nachteile und Risiken dieser Strategie������������������������������������������ 248 14.6 Strategie E: Niederschwellige Verbesserungs-Werkzeuge�������������������������� 249 14.6.1 Ansatzpunkt dieser Strategie �������������������������������������������������������� 249 14.6.2 Beispiel eines niederschwelligen Verbesserungs-Werkzeuges������ 249 14.6.3 Die Infrastruktur dieses Werkzeuges �������������������������������������������� 250 14.6.4 Nutzen dieser Strategie������������������������������������������������������������������ 250 14.6.5 Nachteile und Risiken dieser Strategie������������������������������������������ 251 14.7 Vor- und Nachteile aller erwähnter Strategien�������������������������������������������� 251 14.7.1 Der Prozess ist die Vorgabe ���������������������������������������������������������� 251 14.7.2 Das Saatkorn ist der Beginn���������������������������������������������������������� 251 14.7.3 Komplexität des Systems und Datenvolumen ������������������������������ 252 14.8 Vorgehen bei der Umsetzung dieser Strategien������������������������������������������ 252 14.8.1 Kontakt zwischen den Parteien������������������������������������������������������ 252 14.8.2 Management-Unterstützung���������������������������������������������������������� 252 14.9 Schlussfolgerungen und Ausblick�������������������������������������������������������������� 252 Literatur������������������������������������������������������������������������������������������������������������������ 253 15 Informationsmanagementprozesse im Unternehmen. . . . . . . . . . . . . . . . . . . . 255 Klaus Schwinn 15.1 Motivation �������������������������������������������������������������������������������������������������� 255 15.2 Ausgangslage���������������������������������������������������������������������������������������������� 256 15.3 Bewertung �������������������������������������������������������������������������������������������������� 257
Inhaltsverzeichnis
XXI
15.4 Informationsmanagementprozess �������������������������������������������������������������� 259 15.5 Schema einer Informationsplanung������������������������������������������������������������ 261 15.6 Datenlandkarte und Datenarchitektur �������������������������������������������������������� 262 15.7 Geschäftsprozesse und Informationsmanagementprozess�������������������������� 264 15.8 Qualitätsaspekte������������������������������������������������������������������������������������������ 265 15.9 Ökonomische Aspekte�������������������������������������������������������������������������������� 268 15.10 Zusammenfassung�������������������������������������������������������������������������������������� 270 Literatur������������������������������������������������������������������������������������������������������������������ 270 16 Data Governance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Kristin Weber, Boris Otto und Dominik Lis 16.1 Einführung�������������������������������������������������������������������������������������������������� 271 16.2 Gestaltungsbedingungen von Data Governance als Rahmenwerk�������������� 273 16.3 Ein Modell für Data Governance���������������������������������������������������������������� 275 16.3.1 Rollen�������������������������������������������������������������������������������������������� 275 16.3.2 Aufgaben �������������������������������������������������������������������������������������� 279 16.3.3 Zuständigkeiten ���������������������������������������������������������������������������� 283 16.3.4 Gestaltungsvarianten �������������������������������������������������������������������� 284 16.4 Praxisbeispiele und Entwicklungsstränge der Datenqualität���������������������� 286 16.4.1 Herausforderungen der Datenqualität in Industrie 4.0-Szenarien 286 16.4.2 Institutionalisierung des Stammdatenmanagements in der Konsumgüterindustrie������������������������������������������������������������������� 287 16.4.3 Datengetriebene Dienstleistungen im Maschinen- und Anlagenbau������������������������������������������������������������������������������������ 287 16.5 Zusammenfassung�������������������������������������������������������������������������������������� 288 16.6 Ausblick������������������������������������������������������������������������������������������������������ 289 Literatur������������������������������������������������������������������������������������������������������������������ 290 17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Information Lifecycle Management Prozesses. . . . . . . . . . . . . . . . . . . . . . . . . . 293 Saša Baškarada, Marcus Gebauer, Andy Koronios und Jing Gao 17.1 Einleitung���������������������������������������������������������������������������������������������������� 293 17.2 Hintergrund ������������������������������������������������������������������������������������������������ 294 17.2.1 Total Quality Management������������������������������������������������������������ 294 17.2.2 QM-Reifegrad�������������������������������������������������������������������������������� 295 17.2.3 Information Quality Management ������������������������������������������������ 296 17.2.4 Existierende IQM-Reifegradmodelle�������������������������������������������� 297 17.3 Methodologie���������������������������������������������������������������������������������������������� 297 17.3.1 Die Delphi-Methode���������������������������������������������������������������������� 297 17.4 IQM-Reifegradmodell�������������������������������������������������������������������������������� 298 17.4.1 Chaotisch �������������������������������������������������������������������������������������� 299 17.4.2 Reaktiv������������������������������������������������������������������������������������������ 299 17.4.3 Messend���������������������������������������������������������������������������������������� 300
XXII
Inhaltsverzeichnis
17.4.4 Steuernd���������������������������������������������������������������������������������������� 301 17.4.5 Optimierend���������������������������������������������������������������������������������� 301 17.5 Zusammenfassung und Ausblick���������������������������������������������������������������� 302 Literatur������������������������������������������������������������������������������������������������������������������ 302 18 Management der Materialstammdaten in SAP®-Systemen. . . . . . . . . . . . . . . 307 Knut Hildebrand 18.1 Stammdaten – die wichtigsten digitalen Zwillinge������������������������������������ 307 18.2 Stammdatenqualität führt zu Prozessqualität���������������������������������������������� 310 18.2.1 Qualitätseigenschaften������������������������������������������������������������������ 310 18.2.2 Probleme der Datenqualität und ihre Auswirkungen�������������������� 310 18.3 Master Data Life Cycle (MDLC) – der Stammdatenprozess���������������������� 311 18.3.1 Statuskonzept�������������������������������������������������������������������������������� 311 18.3.2 Hindernisse und Problemfälle ������������������������������������������������������ 315 18.3.3 Tools der SAP®������������������������������������������������������������������������������ 316 18.4 Implementierung des MDLC���������������������������������������������������������������������� 317 18.5 Resümee������������������������������������������������������������������������������������������������������ 318 Literatur������������������������������������������������������������������������������������������������������������������ 318 19 Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte von Industrie 4.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 Michael Mielke 19.1 Big Data = Big Data Quality?�������������������������������������������������������������������� 321 19.2 Datenqualität und Industrie 4.0������������������������������������������������������������������ 323 19.3 Übergeordnete Grundsätze und Einordnung der IQM-Grundsätze������������ 325 19.4 Verantwortung für die Daten übernehmen�������������������������������������������������� 327 19.5 Agile DQ-Entwicklung ������������������������������������������������������������������������������ 329 Teil IV Praxisbeispiele 20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet . . 335 Horst Treiblmaier 20.1 Einleitung���������������������������������������������������������������������������������������������������� 335 20.2 Entscheidungsmodell���������������������������������������������������������������������������������� 337 20.2.1 Intention���������������������������������������������������������������������������������������� 338 20.2.2 Nutzen�������������������������������������������������������������������������������������������� 339 20.2.3 Vertrauen���������������������������������������������������������������������������������������� 341 20.2.4 Datenarten�������������������������������������������������������������������������������������� 344 20.2.5 Eingabefehler�������������������������������������������������������������������������������� 346 20.3 Ausblick������������������������������������������������������������������������������������������������������ 346 Literatur������������������������������������������������������������������������������������������������������������������ 347
Inhaltsverzeichnis
XXIII
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und Informationsqualitätsmanagement-Prozess. . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 Reinhard Höhn 21.1 Motivation �������������������������������������������������������������������������������������������������� 349 21.2 Der komponierte DQM-Prozess ���������������������������������������������������������������� 352 21.2.1 Schritt 0: Anlass zur Implementierung eines DQM-feststellen���������������������������������������������������������������������������� 354 21.2.2 Schritt 1: Data Quality Management positionieren und beauftragen������������������������������������������������������������������������������������ 357 21.2.3 Schritt 2: Für das aktuelle DQ-Projekt relevante Enterprise-Architektur erfassen���������������������������������������������������� 361 21.2.4 Schritt 3: Qualität der Daten entsprechend der DQMerkmale erfassen������������������������������������������������������������������������ 368 21.2.5 Schritt 4: Auswirkungen von DQ-Mängeln analysieren���������������� 374 21.2.6 Schritt 5: Ursachen der DQ-Mängel beseitigen���������������������������� 381 21.2.7 Schritt 6: Software-Entwicklung und Betriebsüberführung���������� 388 21.2.8 Schritt 7: Assessment des Reifegrades des Datenqualitätsmanagementprozess������������������������������������������������ 390 21.3 Referenzprozess mit Rollen������������������������������������������������������������������������ 393 21.4 Die DQM-Richtlinie ���������������������������������������������������������������������������������� 397 21.5 Resümee������������������������������������������������������������������������������������������������������ 398 Literatur������������������������������������������������������������������������������������������������������������������ 400 22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem Campus 4.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 401 Abdessalam Ait Salah, Hendrik Thüs und Michael Mielke 22.1 Information als Wettbewerbsfaktor������������������������������������������������������������ 401 22.2 Problemstellung������������������������������������������������������������������������������������������ 402 22.3 Grundlagen�������������������������������������������������������������������������������������������������� 404 22.3.1 Künstliche Intelligenz (KI)������������������������������������������������������������ 404 22.3.2 Maschinelles Lernen���������������������������������������������������������������������� 404 22.3.3 Daten als Grundlagen�������������������������������������������������������������������� 408 22.3.4 Chatbots���������������������������������������������������������������������������������������� 409 22.4 Entwurf und Implementierung von K.I.D.�������������������������������������������������� 410 22.4.1 Genutzte Bibliotheken�������������������������������������������������������������������� 411 22.4.2 Erstellung der Wissensbasis���������������������������������������������������������� 411 22.4.3 Bag-of-Words�������������������������������������������������������������������������������� 413 22.4.4 Beschreibung der Funktionalität���������������������������������������������������� 414 22.4.5 Informationsqualität messen und verbessern in K.I.D. ���������������� 414 22.5 Evaluation �������������������������������������������������������������������������������������������������� 416 22.6 Nutzung im Bahnkontext���������������������������������������������������������������������������� 417
XXIV
Inhaltsverzeichnis
22.7 Ausblick������������������������������������������������������������������������������������������������������ 418 22.8 Zusammenfassung�������������������������������������������������������������������������������������� 418 Literatur������������������������������������������������������������������������������������������������������������������ 418 23 Datenqualitäts-Modell der Volkswagen Financial Services AG. . . . . . . . . . . . 421 Helena Moser 23.1 Einleitung���������������������������������������������������������������������������������������������������� 421 23.2 Das Projekt „Datenqualität Strukturen/Standards und Drittmarktfähigkeit“������������������������������������������������������������������������������������ 423 23.2.1 Warum ist Datenqualität nötig? ���������������������������������������������������� 423 23.2.2 Projektauftrag�������������������������������������������������������������������������������� 423 23.2.3 Projektziel�������������������������������������������������������������������������������������� 424 23.2.4 Ist-Analyse������������������������������������������������������������������������������������ 424 23.2.5 Prozessanalyse������������������������������������������������������������������������������ 425 23.2.6 Sollkonzept������������������������������������������������������������������������������������ 426 23.2.7 Das Datenqualitäts-Modell und deren Zuständigkeiten (Abb. 23.1)������������������������������������������������������������������������������������ 428 23.2.8 Das Datenqualitäts-Modell und sein Regelwerk �������������������������� 432 23.2.9 Monitoring/Reports ���������������������������������������������������������������������� 433 23.2.10 Realisierungs- und Einführungsphase ������������������������������������������ 434 23.3 Fazit������������������������������������������������������������������������������������������������������������ 435 24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return on Investment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437 Frank Block 24.1 Beispiele zur Illustration von DQ-Problemen�������������������������������������������� 438 24.2 Wie wirken sich DQ-Probleme auf Unternehmen aus – Der Zusammenhang zwischen Daten- und Prozessqualität ������������������������������ 439 24.2.1 Beispiel – Call Center�������������������������������������������������������������������� 440 24.2.2 Beispiel – Kundenbeziehungsmanagement (CRM)���������������������� 440 24.2.3 Beispiel – Data Mining Prozess im Marketingumfeld������������������ 441 24.2.4 Beispiel – Direktmailprozess�������������������������������������������������������� 442 24.3 Wie viel kosten schlechte Daten den Unternehmer?���������������������������������� 443 24.4 Der Einfluss von DQ-Indikatoren auf KP-Indikatoren – wie beeinflusst Datenqualität den Unternehmenserfolg?���������������������������������� 445 24.5 Beschreibung eines KPI orientierten DQ-Managementprozesses�������������� 447 24.5.1 Phase 1 – Selektiere zu untersuchende Komponenten������������������ 448 24.5.2 Phase 2 – Mitarbeiterbefragung���������������������������������������������������� 449 24.5.3 Phase 3 – DQ-Assessment������������������������������������������������������������ 451 24.5.4 Phase 4 – Validieren und Quantifizieren���������������������������������������� 452 24.5.5 Phase 5 – DQ-Projekte definieren, Korrekturmaßnahmen durchführen������������������������������������������������������������������������������������ 453 24.6 Fallstudie – Banque Cantonale Vaudoise (BCV)���������������������������������������� 455 Literatur������������������������������������������������������������������������������������������������������������������ 458
Inhaltsverzeichnis
XXV
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data Synchronisation Network (GDSN). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 459 S. Kasper 25.1 Global Data Synchronization Network (GDSN)���������������������������������������� 460 25.2 Bausteine des GDSN zur Optimierung der Artikelstammdatenqualität ���� 465 25.2.1 Data Quality Framework (DQF)���������������������������������������������������� 465 25.2.2 GDSN Package Measurement Rules und Implementation Guide����������������������������������������������������������������������������������������� 470 25.2.3 Data Quality Discussion Group���������������������������������������������������� 471 25.2.4 GDSN-Umsetzungsleitfaden zur technischen Anwendung im Rahmen der Lebensmittelinformations-Verordnung���������������� 473 25.3 Data Quality Gate und Data Quality Excellence���������������������������������������� 476 25.4 Zusammenfassung und Ausblick���������������������������������������������������������������� 476 Literatur������������������������������������������������������������������������������������������������������������������ 477 Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 481
Teil I Informationsqualität – Grundlagen
1
Was wissen wir über Information? Florian Engelmann und Christoph Großmann
1.1
Einleitung
Der Begriff Information stammt aus dem Lateinischen. Von der Antike bis in das 20. Jahrhundert war Information ein kaum verwendetes und unspektakuläres Wort. Zemanek belegt diese Hypothese mit dem Verweis auf ein Häufigkeitswörterbuch der deutschen Sprache aus dem Jahre 1897. Dort kommt in ca. 11 Mio. Wörten nur 55 mal das Wort Information vor (Zemanek 1986, S. 19). Mit Sicherheit kann man behaupten, dass der Informationsbegriff heute sowohl in der Alltagssprache als auch in der Wissenschaftssprache häufig Verwendung findet. Leben wir nicht im Informationszeitalter bzw. in einer Informationsgesellschaft? Könnte also der Information die Eigenschaft eines fächervereinenden, interdisziplinären Begriffs zukommen? Während in der Umgangssprache Unschärfen der Normalfall sind, muss ein wissenschaftliches Begriffssystem möglichst präzise sein. In der betriebswirtschaftlichen Literatur spricht man von Information als Schlüsselgröße (Grochla und Wittmann 1993, S. 1725 ff.), Schlüsselbegriff (Lehner und Maier 1994, S. 1), kritischer Erfolgsfaktor im Wettbewerb (Pietsch et al. 2004, S. 17) oder als Produktions- und Wettbewerbsfaktor (Ziegenbein 2004, S. 21). Je mehr wirtschaftswissenschaftliche Definitionen man aber überprüft, umso mehr Vorschläge erhält man. Häufig verwenden Autoren Theorien aus ganz anderen Wissenschaftszweigen, definieren Information für eigene Zwecke neu oder lassen Information einfach undefiniert. F. Engelmann (*) Ernst & Young GmbH Wirtschaftsprüfungsgesellschaft, Köln, Deutschland E-Mail: [email protected] C. Großmann Oppenweiler, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_1
3
4
F. Engelmann und C. Großmann
In der Wirtschaftswissenschaft verfolgt man bestimmte Zielsetzungen mit Information, wie eine exemplarische Aufzählung wichtiger Perspektiven zeigt: • produktionswirtschaftliche Sicht (Information als Produktionsfaktor, Zwischen- oder Endprodukt) • entscheidungstheoretische Sicht (Information zur Vorbereitung von Entscheidungen und Handlungen) • strategische Sicht (exklusiver Gebrauch von Information um einen Vorsprung zu erlangen) • Sicht der neuen Institutionenökonomie (berücksichtigt u. a. asymmetrische Informationen, veränderbares Wissen, beschränkte Rationalität und Opportunismus). Es gibt also einen latenten Widerspruch in den Anforderungen, wenn ein Begriff universell und präzise zu gleich sein müsste. Falls Information aber unbestimmt oder mehrdeutig sein sollte, welches Ziel wird dann im Rahmen eines Informationsqualitätsmanagements verfolgt? Dies bedarf einer Klärung. Vor dem Hintergrund einer solchen Problematik gibt es mehrere Versuche, innerhalb der Betriebswirtschaftslehre den Begriff allgemeingültig zu fassen. Beispielsweise hat Bode eine Typologie entwickelt, um die unterschiedlichen Ansätze zu strukturieren. Hierzu betrachtet er fünf Dimensionen (Tab. 1.1): Analysiert man Bodes Vorschlag, dann stellt sich die Frage, ob er mit seinen Dimensionen eine Grundlage für einen allgemeingültigen Informationsbegriff geschaffen hat. Das es wesentlich genauer geht, zeigen die 16 Dimensionen der Informationsqualität. Ein wissenschaftliches oder praktisches Problem folgt aus unterschiedlichen Definitionen von Information zunächst nicht, obwohl überschneidende Definitionen zu Kommunikationsproblemen führen können. Eine interdisziplinäre Zusammenarbeit ist momentan also nur schwer möglich. Genauer betrachtet haben die Differenzen tiefergehende Ursachen und sind methodischer Natur, weil aktuelle Problemstellungen ein fächerübergreifendes Verständnis verlangen, kollidieren ganz unterschiedliche wissenschaftliche Methoden. Nach einer Grundlegung über Information und Informationsmanagement sollen hier eine quantitative Methode (Kap. 4) aus der Nachrichtentechnik, eine modelltheoretische Betrachtung (Kap. 5) aus der Informatik und eine klassifikatorische Methode (Kap. 6) aus der Betriebswirtschaftslehre im Zusammenhang mit Information vorgestellt werden (Abb. 1.1). Tab. 1.1 Typologie der Informationsbegriffe in Anlehnung an Bode. (Bode 1997, S. 452) Dimensionen Semiotik Träger Neuheitsgrad Wahrheitsgehalt Zeitbezogenheit
Ausprägungen Syntaktisch Semantisch Ungebunden Subjektiv Wahrheitsabhängig Statisch
Pragmatisch Menschengebunden Objektiv Wahrheitsunabhängig Prozessual
1 Was wissen wir über Information?
5
Abb. 1.1 Information interdisziplinär analysiert. (Steinmüller 1993, S. 224)
1.2
Grundlegung
Eine weitverbreitete Vorstellung über den Aufbau von Information zeigt die Informationsoder Wissenspyramide. Dieses deskriptive Modell verwendet aufeinander aufbauende Ebenen. Information ist das mit Bedeutung versehene Datum. Nach dieser Auffassung lässt sich die höhere Ebene somit auf die Bestandteile der unteren Ebenen der Daten oder Zeichen reduzieren (Abb. 1.2). Die Pyramide verschweigt aber ein Problem, das vor allem im Bereich der Kennzahleninterpretation bekannt ist: Wie kann einem Datum eine allgemeingültige Bedeutung von einem Sender zugewiesen werden? Und wenn das geschehen ist, wie kann dann diese Bedeutung von allen Empfängern gleichermaßen verstanden werden? Dies wäre nur dann eindeutig möglich, wenn die Information vorher allen bekannt ist. Das ist offensichtlich paradox, da der Zugang der Information im einen Fall keine Neuigkeit liefert und im anderen Fall nicht verständlich ist. Weiter wird in der Pyramide der qualitative Unterschied zwischen speicherbaren Daten und verstandenen Informationen bzw. Wissen nicht deutlich. Während die Zeichen oder Daten auf einem materiellen Träger eindeutig verifiziert werden können, ist es zumindest in der Wissenschaft strittig, ob im Gehirn äquivalente Prozesse bei der „Speicherung“ ablaufen. Die neuere Gehirnforschung zeigt nämlich, dass das Gehirn einem Computer
6
F. Engelmann und C. Großmann
Wissensmanagement Wissen Informationsmanagement
Information
Datenmanagement
+ Vernetzung, Kontext, Erfahrungen
+ Bedeutung
Daten
+ Syntax
Zeichen
Abb. 1.2 Wissenspyramide. (Forst 1998, S. 1) Information
Träger - physikalische Gegebenheit - existiert unabhängig davon, ob jemand weib, dass etwas getragen wird - entspricht dem Einzelnen - trägt das Allgemeine in sich
Getragenes - existiert nur im Bewusstsein des Menschen - erfordert eine Abstraktion - entspricht dem Allgemeinen - existiert nur im Einzelne, also nicht an sich
Abb. 1.3 Analyse von Information in Anlehnung an Völz. (Völz 1983, S. 228)
überhaupt nicht ähnlich ist (Brodbeck 2007). Folglich ist zumindest die höchste Ebene „Wissen“ nicht auf ein abgespeichertes Konglomerat von Zeichen, Daten oder Informationen reduzierbar. In der klassischen Zeichenlehre wird dieser qualitative Unterschied zwischen „Träger“ und „Getragenem“ klarer herausgearbeitet. An diesen beiden elementaren Kategorien jeder Information werden die Kernprobleme deutlich, die durch die Wissenspyramide nicht erfasst worden sind (Abb. 1.3): Unter „Träger“ versteht man die materielle Gestalt der Information und das „Getragene“ ist etwas immaterielles, das mit den Gedanken eines Menschen zu tun hat. Dies bedeutet jedoch, dass an einer Stelle der Wissenspyramide ein Übergang zu einem grundlegend anderen Verarbeitungssystem stattfinden muss. Ein handlungsbezogenes Modell von Information muss Hintergrundinformation, vor allem über den Akteur und dessen Ziele mit einschließen. Den Betriebswirt interessieren primär die Zielsetzungen, während sich ein Informatiker wohl zuerst mit Codierungsaspekten beschäftigt. Ein Informationsmodell das beide Anforderungen integriert und den prozessualen Charakter von Information betont, sieht wie folgt aus (Abb. 1.4):
1 Was wissen wir über Information?
7
Abb. 1.4 Modell der Informationsübertragung. (Gitt 2002, S. 144)
1.3
Information im Wissens- und Informationsmanagement
Information als zweckorientiertes Wissen hat in der Betriebswirtschaftslehre schon immer eine wichtige Rolle gespielt (Wittmann 1959, S. 14). Mit den gestiegenen technischen Möglichkeiten wächst aber auch der Koordinationsbedarf für die Beschaffung, Verarbeitung, Übertragung, Speicherung und Bereitstellung von Informationen. Kurz gesagt: Man benötigt ein unternehmsweites Informationsmanagement, weil das Wissen in den Köpfen mehr als die Summe der gespeicherten Daten ist, kann man das Wissensmanagement als eine Erweiterung des Informationsmanagements ansehen. Die Anforderungen einer wissensorientierten Unternehmensführung weichen aber konzeptionell nicht weit von denen eines informationsorientierten Managements ab. Nach Meinung von North handelt es sich bei Informationen um einen Rohstoff für Wissen. Wissen wird quasi aus Informationen „generiert“ und „entsteht als Ergebnis der Verarbeitung von Informationen durch das Bewußtsein“ (North 2005, S. 33). Die Erweiterung auf Wissen bedeutet zunächst nur eine Vergrößerung des Gegenstandsbereiches. Wenn der Kern erhalten bleibt, dann sind in beiden Fällen die Anforderungen ähnlich. Im Zentrum beider Konzepte steht zukünftig nicht mehr die Informationstechnologie, sondern das Benutzen der Technologien, um das Wissen der Mitarbeiter zu erweitern. Fundamental ist vor allem die Funktion von Information als verbindendes Kommunikationsinstrument in kollegialen Netzwerken. So verstanden geht es nicht mehr
8
F. Engelmann und C. Großmann
um einen exklusiven Zugriff auf Informationen, sondern um die Frage der effizienten und effektiven Kommunikation untereinander. Die strategischen Ziele fokussieren die praktischen Handlungen, die bei gekonnter Umsetzung der Ressource Wissen zu strategischen Wettbewerbsvorteilen führen (Abb. 1.5). Idealtypische Konzepte des Informationsmanagements arbeiten unter anderem mit der Annahme, dass es optimale und berechenbare Lösungen für Informationsprobleme gibt. Unter diesen Bedingungen lässt sich ein objektiver Informationsbedarf a priori formulieren. Dieser wird jedoch niemals vom Benutzer (subjektiver Informationsnachfrage) genau nachgefragt, noch vom Betreiber des Informationsangebots exakt zur Verfügung gestellt. Der objektive Informationsstand vor Beginn einer Handlung ergibt sich als Schnittmenge aus allen drei Mengen. Diesen Stand zu optimieren, ist die Aufgabe des Informationsmanagements (Abb. 1.6). Die Ziele der betrieblichen Informationswirtschaft lassen sich wie folgt zusammenfassen (Krcmar 2005, S. 51): • • • •
Ausgleich von Informationsnachfrage und Informationsangebot, Versorgung der Entscheidungsträger mit relevanten Informationen, Gewährleistung einer hohen Informationsqualität, Dokumentation von Willensbildungs- und Willensdurchsetzungsprozess,
Abb. 1.5 Wissenstreppe. (North 2005, S. 32)
1 Was wissen wir über Information?
9
Abb. 1.6 Analyse des Informationsstandes. (Picot et al. 2003, S. 82)
• Gestaltung der Informationswirtschaft als Querschnittsfunktion des Unternehmens, • Einsatz von Informationstechnologie zur Unterstützung der informationswirtschaftlichen Aufgabenerfüllung, • zeitliche Optimierung der Informationsflüsse, • Beachtung des Wirtschaftlichkeitsprinzips. Für die Zweckeignung von Information gibt es unterschiedliche Klassifikationen, die sich jedoch ähnlich sind. Exemplarisch gibt Eschenröder folgende Kriterien an (Abb. 1.7): Für betriebswirtschaftliche Überlegungen ist also ein erweiterter Informationsbegriff notwendig, der eine Vielzahl von Anforderungen erfüllen muss, die im Bereich der Semantik und Pragmatik liegen. Eine Quantifizierung dieser Aspekte ist jedoch mit erheblichen Schwierigkeiten behaftet. Weizäcker spricht von Quantifizierungsgrenzen, weil sich die Bedeutung und Wirkung von Information nur in Bezug auf eine Situtation und zeitlich erst nach erfolgter Information feststellen lässt. „Lediglich in den Fällen, wo öfter gleiche Situationen durch gleiche Informationen beeinflußt werden, läßt sich im voraus und ‚objektiver‘ die Bedeutung und Wirkung angeben“ (Weizsäcker und Maurin 1974, S. 82 f.). Diese Anforderungen relativieren also die Erfolgsaussichten der „objektiven Informationskonzepte“. Das Verstehen und die Zweckmäßigkeit des Inhalts einer Information hängt nämlich sowohl von der Eigenschaft ab, neu zu sein, als auch von der Eigenschaft bekannt zu sein. Weizäcker fasst diese Eigenschaft von Information wie folgt zusammen: „Wenn wir nun annehmen, dass die Erstmaligkeit von 0 auf 100 % ansteigen kann, und wenn wir postulieren, dass zur gleichen Zeit die Bestätigung von 100 auf 0 % abnimmt,
10
F. Engelmann und C. Großmann Zweckeignung von Information
Informationsinhalt
Formale Gestalt der Information
Informationsverhalten
Technologische Einflüsse
Situative Einflüsse
Informationskosten
- Informationsgegenstand
- Prüfbarkeit
- Persönlichkeitstyp
- Informationsumfang
- Informationsgehalt
- Objektivität
- Problemeinstellung
- Erhältlichkeit der Information
- Informationsart
- Operationalität
- Motivation
- Anforderungen an die
- Sensitivität
- Darbietungsform
- kognitive Fähigkeit
Informationsgewinnung und
- Wahrheitsgrad
- vorhand.. Wissen
Informationsaufbereitung
- Kompatibilität
- Rollenverhalten
- Aktualität - Vollständigkeit
Abb. 1.7 Einflussfaktoren einer Zweckeignung von Information. (Eschenröder 1985, S. 49) pragmatische Information
0%
Bestätigung
100 %
100 %
Erstmaligkeit
0%
Abb. 1.8 Pragmatische Information. (Weizsäcker und Maurin 1974, S. 99; Picot et al.2003, S. 83)
dann erhalten wir ein Kontinuum, das das relative Gewicht von Erstmaligkeit und Bestätigung von Situationen darstellt“ (Weizsäcker und Maurin 1974, S. 98). Der pragmatische Gehalt einer Information steigt nun zur Mitte hin an und fällt dann wieder ab, wenn sie zu häufig bestätigt wurde. Dieser Verlauf entspricht der Alltagserfahrung mit Informationen (Abb. 1.8). Zusammengefaßt kann man feststellen, dass die Begriffe Daten, Information und Wissen nicht losgelöst voneinander verstanden werden können. Wissensmanagement betont noch mehr die Rolle des Faktors Mensch als das Informationsmanagement, jedoch ist eine klare Abgrenzung in der Literatur nicht zu finden. Besonders strittig ist die Suche nach Maßstäben und Kriterien für die immateriellen Aspekte von Information oder Wissen. Um dieses Zuordnungsproblem zu lösen, bedarf es im Folgenden einer genaueren Analyse der verschiedenen Informationskonzepte.
1 Was wissen wir über Information?
1.4
11
SHANNONsche Informationstheorie
Shannon führte den ersten quantitativen Informationsbegriff in die wissenschaftliche Diskussion ein. Dieser Bruch einer langen Tradition im Umgang mit Information macht sein Konzept auch heute noch interessant. Zunächst muss aber angemerkt werden, dass der Name „Informationstheorie“ trotz der Bedenken Shannons eingeführt wurde. Shannon arbeitete auf dem Gebiet der Nachrichtentechnik in einer Telefongesellschaft von AT&T: den Bell Laboratories. Seine Motivation war, ein technisches Konzept für eine fehlerfreie Übertragung von Nachrichten (z. B. Telegramme) zu finden. Die Nachrichten sollten aber nicht nur fehlerfrei vor dem Hintergrund einer möglichen Störquelle, sondern auch möglichst schnell und kostengünstig übermittelt werden. Eine solche konfliktäre Zielfunktion stellt bestimmte Anforderungen an die Codierungen, die vor dem Hintergrund verschiedener Kriterien wie der Redundanz des Codes, des Grades der Störeinflüsse und der Kanalkapazität bewertet werden müssen. Shannon war der Meinung, dass man hierfür ein Maß des mittleren Informationsgehalts einer Informationsquelle benötigt. Mit der Konzeption dieser Einheit machte er als Erster „Information“ messbar (Abb. 1.9). Um sein Ziel zu erreichen, betrachtete Shannon Telegrafen als Informationsquellen. Diese Quellen sind nach seiner Meinung als stochastische Prozesse zu interpretieren. Nachrichten bestehen also aus einer Reihe von Zeichen eines endlichen Zeichenvorrates (Alphabet) mit bestimmten Wahrscheinlichkeiten. Kommunikation ist dann die Auswahl einer Nachricht aus mehreren möglichen Nachrichten. Da die Wahrscheinlichkeit eines Zeichens immer von seinem Vorgängerzeichen abhängt, liegt der Spezialfall einer Markoff- Kette vor. In genügend langen Symbolfolgen lassen sich so jedem Symbol i bestimmte Erzeugungswahrscheinlichketen pi zuordnen. Das quantitative Maß für den Informationsgehalt, das von Shannon die Entropie H der Nachrichtenquelle genannt wurde, lautet wie folgt (Shannon und Weaver 1972, S. 50 f.): Die Reduktion auf eine logarithmische Basis war laut Shannon sinnvoll, da jeder Buchstabe eines beliebigen Alphabets mit einer endlichen Anzahl von 0–1-Entscheidungen bestimmt werden kann: „The choice of alogarithmic base corresponds to the choice of a unit for measuring information. If the base 2 is used the resulting units may be called binary digets, or more briefly bits…“ (Shannon und Weaver 1972, S. 32).
Information Source
Receiver
Transmitter MESSAGE
SIGNAL
RECEIVED SIGNAL
Destination MESSAGE
Noise Source
Abb. 1.9 Kommunikationssystem bei Shannon. (Shannon und Weaver 1972, S. 34)
12
F. Engelmann und C. Großmann
Die mathematische Struktur der Entropie lässt sich als Überraschungswert einer Informationsquelle für einen Empfänger deuten. Folgende Extrema des Informationsgehaltes sind denkbar: 1. Je unwahrscheinlicher das Auftreten eines Zeichens ist, umso größer ist der Informationsgehalt. Bezogen auf den gesamten Zeichenvorrat ist dies dann der Fall, wenn alle Zeichen des Alphabets voneinander unabhängig wären. Außerdem müssen alle Wahrscheinlichkeiten pi gleich sein. 2. Hat ein einzelnes Zeichen eines Zeichenvorrats die Wahrscheinlichkeit von 100 % (pi = 1) und die restlichen von 0 %, dann ist der Informationsgehalt des gesamten Zeichenvorrats H = 0, da durch das Senden keine Unsicherheit beim Empfänger beseitigt werden kann. Es ist offensichtlich, dass die Shannonsche Informationstheorie nichts über die Bedeutung einer Nachricht im sprachlich-semantischen Sinne aussagt. Der quantitative Informationsbegriff von Shannon ist ein rein syntaktischer. Rechenberg resümiert über die Informationstheorie aus heutiger Sicht: „Die Deutung einer Nachricht als stochastischer Prozess und ihrer Binärcodierung als Auswahl aus einer Menge von Nachrichten ist für die heutige Informatik überflüssig, ja irreführend. Die Entropie hat als Maß für die syntaktische Information ausgedient, denn sie stellt nicht mehr den Grenzwert der Komprimierbarkeit dar“ (Rechenberg 2003, S. 322). Rechenberg geht aber noch einen Schritt weiter in seiner Kritik: „Der Informationsbegriff, wie er überall sonst verwendet wird, ist (…) ein nichtquantifizierbarer semantischer Informationsbegriff“ (Rechenberg 2003, S. 321). Dieses über eine Kritik an Shannon hi nausgehende Urteil, belegt er zunächst nur mit Beispielen einer euphorischen, aber gescheiterten Aufnahme der Informationstheorie als Fundament anderer Wissenschaftszweige. So wurde diese für die Berechnung des Informationsgehaltes von Sprache, Schrift und Musik verwendet, sollte dazu dienen, den Nachrichtengehalt zu berechnen, den der Mensch über das Auge aufnehmen kann, und schließlich den menschlichen Körper oder Sternenhimmel quantitativ bestimmbar machen (Rechenberg 2003, S. 323). Kann man aber aus Rechenbergs schließen, dass Information überhaupt nicht messbar ist und keine Grundlageneigenschaft für die Wissenschaft hat? Der Physiker Henning widerspricht einer solchen Auffassung, obwohl man tatsächlich zum gegenwärtigen Zeitpunkt behaupten kann, dass der semantische Informationsbegriff unverstanden ist. Messungen in der Quantenmechanik stoßen auf ähnliche Probleme, denn auch in der Physik wird zwischen syntaktischer und semantischer Information unterschieden. „Erstere wird – sozusagen blind – von Gleichungen in der Zeit weitertransportiert, diese Zeitentwicklung ist reversibel. Mikroskopische Irreversibilität resultiert aus der Durchführung von Messungen, also aus dem Entstehen semantischer Bedeutung tragender Information. Der physikalische Informationsbegriff ist demnach dem von Rechenberg propagierten diametral entgegengesetzt…“ (Henning 2004, S. 206 f.). Allerdings gibt es ein Problem: Die Inkonsequenz dieses physikalischen Informationsbegriffs liegt in der Trennung von beobachteter mikroskopischer Welt und dem Beobachter. Es gibt bislang in
1 Was wissen wir über Information?
13
der Physik keine umfassende quantitative Beschreibung, die den Beobachtungsprozess mit einschließt. Daraus ergibt sich jedoch eine spannende Frage für die Forschung. Laut Henning ist die Frage „Was ist die semantische Information, die beim Beobachter entsteht?“ nicht nur entscheidend für kosmologische Fragestellungen, sie würde auch den Zusammenhang zwischen Mikro- und Makrowelt liefern. Damit hätte die Antwort fundamentale Bedeutung für unser Weltbild. Die Shannonsche Informationstheorie liefert diese Antwort nicht. Sie hat aber die Vorteile eines quantitativen Maßes deutlich gemacht und zeigt, dass eine berechenbare Semantik wünschenswert wäre.
1.5
STEINMÜLLERs Informationsmodell
Modellierungen von idealen und realen Sachverhalten spielen in Mathematik, Logik, Wirtschaftsinformatik und Informatik eine besondere Rolle. Für Steinmüller ist Information eine scheinbar losgelöste „dritte Wirklichkeit“, die in einem „Modell-System“ von einem Subjekt konstruiert wird (Steinmüller 1993, S. 178). Am Anfang seiner Ausführungen macht er da rauf aufmerksam, dass eine „nur-technische“ Informatik nicht in der Lage sei, einen sozialen Bezug herzustellen. Aus diesem Grund muss ein erweiterter Informationsbegriff über die formal-syntaktischen Gesichtspunkte hinausreichen. Diesen Anforderungen soll Steinmüllers „modelltheoretischen Informationsbegriff“ gerecht werden. Steinmüller behauptet, dass eine Sprache der angewandten Informatik mit sechs Grundbegriffen auskommt: System, Prozess, Modell, Struktur, Organisation und Funktion (Steinmüller 1993, S. 155). Aus diesen Begriffen lassen sich alle anderen Begriffe zusammensetzen und alle wichtigen Dinge beschreiben bzw. konstruieren. Für die Zwecke dieser Untersuchung sind die ersten drei Begriffe ausreichend. Für Information macht Steinmüller folgenden Vorschlag (Steinmüller 1993, S. 162 f.): • Jede Information ist ein Bild und damit ein spezielles Modell • Jedes Modell ist ein spezielles System • Also: Jede Information ist ein System Um die Idee nachzuvollziehen, soll mit der Erklärung seines System- und Prozessverständnisses begonnen werden. Es gilt dann zu erläutern, wie nach seiner Vorstellung der Information-, Modell- und Systembegriff logisch miteinander verbunden sind.
1.5.1 STEINMÜLLERs System- und Prozessverständnis Steinmüller weist auf die Grenzen des allgemeinen Systemdenkens hin, sowohl in technischer als auch in soziologischer Spielart. Folgende Aspekte konstituieren seine Systemvorstellung:
14
F. Engelmann und C. Großmann
• Ein System ist eine Menge von Elementen und Relationen zwischen den Elementen. • Jedes System hat einen Systemherrn (Berücksichtigung der Systementstehung). • Jedes System ist perspektivisch, weil es u. a. –– konstruiert wurde, –– die Realität reduziert, –– einen spezifischen Blickwinkel einnimmt, –– zweck- und wertrelativ ist, –– Zeit und Raum gebunden ist. • Systeme sind keine Abbilder, sondern das Ergebnis einer gefilterten Verarbeitung: –– Filter der Sinne, –– Filter der Bedürfnisse, –– Filter der Sprache, –– Filter der Erfahrungen, Interessen, Intentionen und Erwartungen. Nach Steinmüller muss die klassische Systemtheorie also um zusätzliche Aspekte ergänzt werden. Unter Einbezug des Menschen bedeutet dies: „System ist eine von einem Subjekt nach einem Zweck ausgewählte Menge von Elementen und Relationen“ (Steinmüller 1993, S. 165). Während System etwas statisches beschreibt, hebt der Prozess den dynamischen Aspekt hervor. So gesehen sind System- und Prozesstheorie miteinander kombinierbar und das oben Ausgeführte gilt analog für den Prozess. Steinmüller hebt bei der Analyse des Prozesses den perspektivischen Gesichtspunkt hervor: „Prozeß ist Betrachterkonstituiert, Aspekt-bezogen, Zweck-spezifisch und Ort-Zeit gebunden …“ (Steinmüller 1993, S. 176).
1.5.2 Information als allgemeines Modell Das Modell ist nach Steinmüller das Bindeglied zwischen Information und System. Seine verbindende Funktion begründet sich wie folgt (Steinmüller 1993, S. 178): Man schafft vereinfachte Modelle über andere (materielle oder ideelle) Systeme, um mit ihnen etwas zu machen, was mit dem Original zu tun (jetzt oder überhaupt) unmöglich, verboten, zu aufwendig oder unzweckmäßig ist. (Steinmüller 1993, S. 178)
Das Modell ist also bereits ein Metasystem. Interpretiert man den Modellbegriff systemtheoretisch, dann kommt man zu dem Ergebnis, dass das „Modell-System“ stets ein „Modell-wovon-wozu-für wen“ ist (Steinmüller 1993, S. 179 f.). Formal kann man vier Elemente mit vier Relationen vorfinden (Abb. 1.10): • das modellerzeugende oder –benützende Subjekt (S), • das für ihn „abbildende“ Modellobjekt (M),
1 Was wissen wir über Information?
15
Subjekt
Subjekt verfügt über
Zwecks Beeinflussung des Adressaten A
Information = Modell
Information über
A
Original
Original
Abb. 1.10 Information ist ein „Modell-wovon-wozu-für wen“. (Steinmüller 1993, S. 199)
Abb. 1.11 Informationssysteme nach Steinmüller. (Steinmüller 1993, S. 194)
• das repräsentierte Original (O), • den möglicherweise beeinflussten Adressaten (A)
1.5.3 Modell eines Informationssystems unter Einbezug der Semiotik Die vorhergehenden Darstellungen haben deutlich gemacht, dass für Steinmüller jedes ideelle Modell in einem gewissen Sinne Information sein kann. Es ist aber auch erklärt worden, dass diese Information nur in einem Kontext verstehbar wird. Alle Teile zusammen bilden deshalb ein Bezugssystem, das man wiederum als Informationssystem auffassen kann (Abb. 1.11). Elemente des Informationssystems: (E1) Informationssubjekt Si (informationserzeugend oder -nutzend) (E2) Informationsmodell Mi (abbildend) (E3) Informationsoriginal Oi (abgebildet) (E4) Informationsadressat Ai (soll beeinflusst werden)
16
F. Engelmann und C. Großmann
Relationen des Informationssystems: (R1) Informationsrelation w → Informationssubjekt bildet eine Struktur aus Informationsoriginal heraus → (S-w-O)i (R2) Informationsvermittlungsrelation m → Informationssubjekt verfügt über eine Information → (S-m-I)i) (R3) Informationsrelation a → Abbildungsfunktion eines Objektes → (M-a-O)i (R4) Beeinflussungsrelation z → Informationssubjekt will den Adressaten beeinflussen → (S-z-A)i Nebenrelationen des Informationssystems: (N1) Informationsbeziehung t → Beziehung des Adressaten zur Wirklichkeit (N2) Informationsbeziehung e → Beziehung des Adressaten zum Modell Es besteht also eine unauflösliche Subjekt-Objekt-Beziehung, dessen Verbindungsglied die modelltheoretische Information darstellt. Jeder Informationsbegriff, der diese Relationen nicht beachtet, wäre also ein verkümmerter (Steinmüller 1993, S. 194 f.). Um das modelltheoretische Informationssystem weiter zu generalisieren, bietet es sich an, die bekannten vier Aspekte der Semiotik einzubauen und zu unterscheiden. Steinmüller erläutert die Aspekte wie folgt: • der syntaktische Aspekt klärt die formale Beziehung im Informationssystem und zum Umsystem, • der semantische Aspekt bestimmt die Bedeutung und Benennung der Information, • der pragmatische Aspekt stellt die Beziehung des Betrachters, Erzeugers, Verwenders bzw. Adressaten zur Information dar, • der sigmatische Aspekt bildet die Existenz-, Raum- und Zeitbeziehung der Information und des Informationssystems zur Wirklichkeit ab (Abb. 1.12).
1.5.4 Fazit Steinmüllers Modell stellt die Verbindung zwischen sozialen und technischen Aspekten her. Im Gegensatz zum quantitativen Informationsbegriff eignet sich das modelltheoretische Verständnis also zur Konstruktion von Informationssystemen, die eine soziale Realität abbilden sollen. Es wurde gezeigt, dass die semiotischen Dimensionen inte griert werden können. Allerdings ist das Konzept von Steinmüller nicht in der Lage, Aussagen über die Wahrheit oder Falschheit dieser konstruierten Informationen zu machen. Abbilder können immer auch falsch sein. Es bleibt unklar, wie Fehler überprüft werden können.
1 Was wissen wir über Information?
17
Abb. 1.12 Semiotisches Kreuz und Informationsmodell. (Steinmüller 1993, S. 205)
1.6
Information als Produktionsfaktor
1.6.1 Perspektive der Produktionstheorie Produktionsfaktorsysteme haben das Ziel, den Verlauf der Produktion bis hin zum Produktionsergebnis abzubilden. Dabei kommt es vor allem darauf an, zu klären, wie die Einsatzfaktoren zu kombinieren sind, damit ein optimales Produktionsergebnis erreicht werden kann. Seidenberg beschreibt dies ähnlich: „Wesentlicher Zweck von Faktorsystemen ist regelmäßig die Trennung bzw. Zusammenfassung der Faktoren unter dem Aspekt der Notwendigkeit oder auch Vorteilhaftigkeit einer getrennten bzw. gemeinsamen produktions- und kostentheoretischen Analyse“ (Seidenberg 1998, S. 13). Besonders bei neueren Produktionsfaktorsystemen wird man mit dem Begriff der Information konfrontiert. Produktionsfaktorsysteme stammen aus der klassischen Volkswirtschaftslehre. In diesen wurde zwischen den Faktoren Arbeit, Boden und Kapital unterschieden. Später passte man die bestehenden Systeme für die Betriebswirtschaftslehre an. Das grundlegende Faktorsystem der Betriebswirtschaftslehre stammt von Gutenberg. In diesem wird zwischen den Elementarfaktoren (menschliche Arbeit, Betriebsmittel und Werkstoffe) und den dispositiven Faktoren unterschieden (Gutenberg 1951, S. 2 ff.).
18
F. Engelmann und C. Großmann
Aufbauend auf dieser Unterteilung wurden in der Folgezeit Produktionsfaktorsysteme unterschiedlich erweitert und klassifiziert. Explizit wird der Faktor Information nur von einigen Systemen mit einbezogen. Die Forschung konzentriert sich auf die industrielle Produktion. Dort haben Informationen natürlich auch eine besondere Bedeutung. Sie werden aber nicht von allen Autoren als eigenständiger Faktor gesehen. Ein Autor der in Information einen eigenständigen Faktor sieht ist Kern. Er unterscheidet bspw. in seinem industriellen Produktionsfaktorsystem zwischen den Faktoren mensch liche Arbeitsleistung, Betriebsmittel, Objektfaktoren, Zusatzfaktoren und Informationen (Kern 1992, S. 16 ff.). Die aufgestellten Klassen lassen sich wie folgt zuordnen. Menschliche Arbeit und Betriebsmittel i. e. S. gehören zu den Potentialfaktoren. Beide sind Nutzungsobjekte, die sich im Produktionsprozess nicht oder nicht wesentlich durch Verschleiß oder Abnutzung verändern. Weiter zu nennen sind die Verbrauchsfaktoren, wie Betriebsmittel zum Verbrauch, Objektfaktoren und Zusatzfaktoren. Die Verbrauchsfaktoren – auch Repetierfaktoren genannt – ändern ihre Qualität im Produktionsprozess. Sie gehen entweder direkt in ein Hauptprodukt ein, sind wesentlicher Bestandteil als Rohstoff in der Produktion oder werden indirekt als Betriebsstoffe verwendet. Die bisherigen Überlegungen zeigen, dass Information als eigenständige Klasse weder den Verbrauchs- noch den Potentialfaktoren eindeutig zugeordnet werden kann. Es stellt sich nun die Frage, ob Information eine eigene Faktorklasse begründen sollte. In der Literatur findet man dazu keine eindeutige Antwort. Es scheint – wenn überhaupt – nur schwer möglich zu sein, allgemeine Eigenschaften für Information zu beschreiben. Seidenberg kommt zu dem Ergebnis, dass Information kein eigenständiger Produktionsfaktor sein kann. Entsprechend seinem Anforderungskatalog an Produktionsfaktoren kann eine separate Klasse Information nicht gerechtfertigt werden (Seidenberg 1998, S. 14 ff.). Sein Anforderungskatalog besteht aus zwei Gruppen: faktorbezogenen und faktorsystembezogenen Anforderungen. Die erste Gruppe besteht aus Gutseigenschaft, Homogenität, Quantifizierbarkeit, Preiseindeutigkeit und causa efficiens. Lediglich causa efficens wird von Information erfüllt. Zur zweiten Gruppe gehört Echtheit, Vollständigkeit, Überschneidungsfreiheit, Allgemeingültigkeit und Flexibilität. Auch diese Anforderungen werden von Information nur bedingt erfüllt (Seidenberg 1998, S. 35 f.). In nachfolgender Abbildung wird ein Beispiel gezeigt, in dem Information einer neuen Faktorklasse hinzugefügt wurde. Dann besteht das Produktionsfaktorsystem aus den fünf Faktoren menschliche Arbeit, Betriebsmittel i. w. S., Objektfaktoren, Zusatzfaktoren und Informationen (Abb. 1.13). Information ist dann aber nicht überschneidungsfrei zugeordnet, sondern in verschiedenen Klassen enthalten: • Informationen als passive, zur Nutzung verwendeter Betriebsmittel können bspw. Herstellungsrezepte für Bier sein. • In der Klasse der Objektfaktoren sind ebenfalls Informationen zu finden. So sind interne Objektfaktoren Kosteninformationen und Durchlaufobjekte. Letztere können z. B. Software darstellen.
1 Was wissen wir über Information?
19
Planung
Organisation Dispositive Arbeitsleistung
Kontrolle
Leitung i.e.S.
Menschliche Arbeitsleistung
Objektbezogene Arbeitsleistung
Geistige Arbeitsleistung Physische Arbeitsleistung materiell passiv
Nutzung Betriebsmittel i. w. S.
immateriell aktiv
Verbrauch
intem
Produktionsfaktoren
Objektfaktoren
extern
Durchlaufobjekte
Direkte Dienstleistungen Fremder Zusatzfaktoren
Indirekte Unterstützungsleistung Umweltbeanspruchung
Informationen
Abb. 1.13 Produktionsfaktorsystem nach Kern. (Kern 1992, S. 17)
• Beratungsleistungen einer Versicherung stellen Zusatzfaktoren dar, welche in der Gruppe direkter Fremder zählen. • Letztlich bilden ein Teil der Informationen eine eigenständige Faktorkategorie im Produktionsfaktorsystem.
20
F. Engelmann und C. Großmann
1.6.2 Produktionsfaktor Information Trotz der oben beschriebenen Problematik, sollen übersichtsartig die produkttheoretischen- und wirtschaftlichen Eigenschaften von Informationen dargestellt werden (Seidenberg 1998, S. 9 ff.): • • • • • • •
Immaterialität Beliebige Kopierbarkeit Verwendungsunabhängiger Verbrauch Lager- und Transportfähigkeit Mangelnde Trennbarkeit Mangelnde Quantifizierbarkeit Problematische Qualitätsbestimmung
Informationen können von außen in das System einfließen oder mit Hilfe anderer Faktoren im Unternehmen eigenständig hergestellt werden. Die Frage ist nun, inwieweit es möglich ist, Informationen als eigenständigen Produktionsfaktor, abzubilden. Dabei ist eine Unterscheidung zwischen Informationen und materiellen Wirtschaftsgütern hilfreich. An dieser Unterscheidung ist zu erkennen, dass die Klassifizierung von Informationen im Faktorsystem eine größere Hürde darstellt (Teubner 2005, S. 61). Es ist unvermeidbar, Information mehreren Klassen zuzuordnen. Eine Anforderung an Faktorsysteme ist aber, dass die einzelnen Objekte sich nur in jeweils eine Klasse einordnen lassen. Dementsprechend gibt es nur zwei mögliche Varianten: Entweder findet man ein Abgrenzungskriterium, um Informationen in eine einschlägige Klasse einzugliedern oder Informationen müssen je nach ihrer Verwendung bzw. Funktion im Produktionsprozess in die verschiedenen Klassen eingegliedert werden. Informationen, die der Faktorklasse Information zugeordnet werden, stellen kein Element der Gruppen der Verbrauchs- bzw. Potentialfaktoren dar. Um sie nun in das System der Produktionsfaktoren zu integrieren, wurde eine neue Klasse aufgestellt. Zu der Faktorklasse Information werden Informationen gezählt, welche als Input oder Output eines dispositiven Entscheidungsprozesses benutzt werden (bspw. Informationsoutput dispositiver Planungsprozesse) (Bode 1993, S. 90 f.).
1.6.3 Fazit Aufgrund der anwachsenden Bedeutung von Informationen, nicht nur in der Betriebswirtschaft, und einer Entwicklung hin zur Informationsgesellschaft gelangt der Produktionsfaktor Informationen stärker in den Fokus. Die zentrale Frage besteht darin, zu klären, welches das am Besten geeignete Faktorsystem ist, falls eine Einordnung von Information gemäß den Anforderungen an Faktorsysteme überhaupt möglich ist. Das hier aufgezeigte Produktionsfaktorsystem stellt eine Möglichkeit der Klassifizierung dar.
1 Was wissen wir über Information?
21
Es ist nicht möglich den Faktor Information einer Klasse eindeutig zuzuordnen, da Informationen sehr unterschiedlicher Natur sein können und sie nur schwer quantitativ zu messen sind. Dementsprechend müssen Informationen hinsichtlich Inhalt und Rolle im Produktionsprozess analysiert werden. Erst dann kann man entscheiden, wie sie in die dementsprechende Faktorklasse richtig eingeordnet werden kann.
1.7
Zusammenfassung des Beitrages
Der vorliegende Beitrag konnte nur einen Denkanstoß zur Diskussion um den Informationsbegriff liefern. Leider wird Information durch seine Omnipräsenz von jedem anders definiert und verwendet. Zwar gibt es in nahezu jedem wissenschaftlichen Fachbereich präzise Informationskonzepte, keines hat aber bislang einen allgemeingültigen Status erreicht. Deshalb kommt es immer wieder zu Missverständnissen, wenn unterschiedliche Prämissen bzw. Methoden der verschiedenen Fachrichtungen miteinander vermischt werden. Hier wurde die Aufmerksamkeit auf die unterschiedlichen Methoden gerichtet, denn es ist falsch, die Methoden eines Wissenschaftszweiges unhinterfragt auf einen anderen Gegenstandsbereich zu übertragen. So konnte der Beitrag drei unterschiedliche Auffassungen von Information und ihren Prämissen deutlich machen.
Literatur Bode, J.: Betriebliche Produktion von Information. DUV, Wiesbaden, 1993. Bode, J.: Der Informationsbegriff in der Betriebswirtschaftslehre. In: Zfbf., Bd. 49, 1997, Verl.Gruppe Handelsblatt, Düsseldorf, S. 449–469. Brodbeck, K.-H.: http://www.fh-wuerzburg.de/fh/fb/bwl/offiziel/bwt/ALT_12_2005/PAGES/pp/2/ brodbeck.htm (Zugriff am 17.05.2007) Eschenröder, G.: Planungsaspekte einer ressourcenorientierten Informationswirtschaft, Eul, Bergisch Gladbach, 1985. Forst, A.: http://www.doculine.com/news/1999/Februar/infowiss.htm(Zugriff am 25.05.2007), 1998 Gitt, W.: Am Anfang war die Information: Herkunft des Lebens aus der Sicht der Informatik, Was ist Information? Herkunft der Information, Naturgesetze über Information, Weitreichende Schlussfolgerungen bezüglich Menschenbild, Evolution und Urknall. Hänssler, Holzgerlingen, 2002. Grochla, E.; Wittmann, W.: Handwörterbuch der Betriebswirtschaft Bd. 2: I – Q. Poeschel, Stuttgart, 1993. Gutenberg, E.: Grundlagen der Betriebswirtschaft. Springer, Berlin [u. a.], 1951. Henning, P. A.: Zum Informationsbegriff der Physik. In: Informatik-Spektrum, Bd. 27, 2004, S. 202–207. Kern, W.: Industrielle Produktionswirtschaft. Poeschel, Stuttgart, 1992. Krcmar, H.: Informationsmanagement: mit 41 Tabellen. Springer, Berlin [u. a.], 2005. Lehner, F.; Maier, R.: Information in Betriebswirtschaftslehre, Informatik und Wirtschaftsinformatik. Vallendar: Lehrstuhl für Wirtschaftsinformatik und Informationsmanagement, Wiss. Hochsch. für Unternehmensführung, 1994.
22
F. Engelmann und C. Großmann
North, K.: Wissensorientierte Unternehmensführung: Wertschöpfung durch Wissen. Gabler, Wiesbaden, 2005. Picot, A.; Reichwald, R.; Wigand, R. T.: Die grenzenlose Unternehmung: Information, Organisation und Management. Gabler, Wiesbaden, 2003. Pietsch, T.; Martiny, L.; Klotz, M.: Strategisches Informationsmanagement: Bedeutung, Konzeption und Umsetzung. E. Schmidt, Berlin, 2004. Rechenberg, P.: Zum Informationsbegriff der Informationstheorie. In: Informatik-Spektrum, Bd. 26, 2003, S. 317–326. Seidenberg, U.: Ist Information als eigenständiger Produktionsfaktor aufzufassen? Siegen, 1998. Shannon, C. E.; Weaver, W.: The mathematical theory of communication. Univ. of Illinois Press, Urbana [u. a.], 1972. Steinmüller, W.: Informationstechnologie und Gesellschaft: Einführung in die Angewandte Informatik, Wiss. Buchges., Darmstadt, 1993. Teubner, A.: Information als Wirtschaftsgut und Produktionsfaktor. In: WISU, Bd. 34, 2005, S. 59–62. Völz, H.: Information: Studie zur Vielfalt und Einheit der Information 2: Theorie und Anwendung vor allem in der Biologie, Medizin und Semiotik. Akad.-Verlag Berlin, 1983. Weizsäcker, E. U. von; Maurin, K.: Beiträge zur Zeitstruktur von Information, Entropie und Evolution, Klett-Cotta, Stuttgart, 1974. Wittmann, W.: Unternehmung und unvollkommene Information: unternehmerische Voraussicht, Ungewissheit und Planung. Westdt. Verlag, Köln [u. a.],1959. Zemanek, H.: Information und Ingenieurwissenschaft. In: Hackl, C.: Der Informationsbegriff in Technik und Wissenschaft. Bd. 18, Oldenbourg Verlag, München, 1986, S. 17–52. Ziegenbein, K.: Controlling. Kiehl, Ludwigshafen (Rhein), 2004.
Florian Engelmann Dipl.-Kfm. arbeitet als wissenschaftlicher Angestellter am Institut für Con trolling und Unternehmensrechnung in der Fakultät für Wirtschafts- und Sozialwissenschaften an der Helmut-Schmidt-Universität, Universität der Bundeswehr Hamburg. Außerdem berät er freiberuflich Unternehmen, insbesondere bei der Optimierung von Management-Informationssystemen (MIS) bzw. Führungsinformationssystemen (FIS) aus betriebswirtschaftlicher Perspektive F. Engelmann studierte Betriebswirtschaftslehre mit dem Schwerpunkt Wirtschaftsinformatik an der Universität der Bundeswehr Hamburg. Bis Ende seines Dienstes als Zeitsoldat war er unter anderem in der Gruppe Weiterentwicklung des Generals der Heeresflieger in den Bereichen Organisation und Planung tätig. Seit 2001 hat er in unterschiedlichen Projekten Führungskräfte des Mittelstandes und Manager in Großunternehmen unterstützt. Zur Zeit ist er Lehrbeauftragter für „Strategisches Management“ und veranstaltet Seminare zum Thema „Informations- und Wissensmanagement für Führungskräfte“. URL: http://www.engelmann.eu. cand. oec. Christoph Großmann studiert an der Helmut-Schmidt-Universität, Universität der Bundeswehr Hamburg, seit dem Herbsttrimester 2004 Betriebswirtschaftslehre. Er arbeitet am In stitut für Controlling und Unternehmensrechnung als studentische Hilfskraft. Zur Zeit schreibt er seine Diplomarbeit im Fach Controlling mit dem Thema „Information als Produktionsfaktor“ und wird voraussichtlich im Frühjahr 2008 sein Studium erfolgreich abschließen. Er hat das Kapitel 6 des Beitrages „Was wissen wir über Information?!“ verfasst.
2
Informationsqualität – Definitionen, Dimensionen und Begriffe Jan P. Rohweder, Gerhard Kasten, Dirk Malzahn, Andrea Piro und Joachim Schmid
2.1
Einleitung
Die Verbesserung und Sicherstellung der Informationsqualität wird in immer mehr Unternehmen als eigenständige Managementaufgabe von großer Wichtigkeit begriffen. IQ- Management ist ein elementarer Baustein in Systemintegrationsprojekten. Aber auch in bestehenden Prozessen mit heterogenen Datenquellen und Informationsnutzern ist eine hohe Informationsqualität die Grundvoraussetzung für funktionierende betriebliche Abläufe. Voraussetzung für ein effektives IQ-Management ist die Bewertung der Informationsqualität (Lee et al. 2006, S. 13 und S. 27). In vielen Unternehmen ist Informationsqualität nur ein gefühlter Wert. Die meisten Anwender bringen ein gewisses Misstrauen den
J. P. Rohweder (*) Roche Diagnostics GmbH, Mannheim, Deutschland E-Mail: [email protected] G. Kasten Deutsche Post, Düsseldorf, Deutschland E-Mail: [email protected] D. Malzahn ACCEL GmbH, Lünen, Deutschland E-Mail: [email protected] A. Piro Hannover, Deutschland E-Mail: [email protected] J. Schmid Stuttgart, Deutschland © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_2
23
24
J. P. Rohweder et al.
Daten gegenüber zum Ausdruck, dies jedoch ohne genaue Angabe der Fehlerart und -häufigkeit. Nicht selten werden kostspielige Projekte angestoßen, um die Informationsqualität zu verbessern, ohne sich vor einer IQ-Maßnahme durch eine Analyse ein genaues Bild über die tatsächlichen Probleme zu verschaffen. Nur auf der Basis einer umfassenden Bewertung der Informationsqualität können die notwendigen Ressourcenentscheidungen herbeigeführt, Ziele gesetzt und der Erfolg des IQ-Management beurteilt werden. Dabei muss die Bewertung der Informationsqualität über Statistiken zur Vollständigkeit und Fehlerfreiheit der Objekte in Datenbanksystemen oder IT-Applikationen hinausgehen. Eigenschaften wie Übersichtlichkeit oder Relevanz beschreiben weitere wichtige Merkmale, die die Qualität von Information bestimmen. Informationsqualität kann in einem umfassenden Sinne definiert werden als der „Grad, in dem … Merkmale eines Datenproduktes Anforderungen genügen“ (Hinrichs 2002, S. 26). Mit Merkmalen von Datenprodukten sind z. B. die Übereinstimmung der Daten mit der Realität (Fehlerfreiheit) oder die Übersichtlichkeit der Darstellung gemeint. Die jeweilige Entscheidungssituation und die Ziele bestimmen die Anforderungen an die Information, und entsprechend findet sich eine Vielzahl von Modellen und Konzepten zur Beschreibung und Bewertung von Informationsqualität in der Literatur (Eppler und Wittig 2000; Naumann und Rolker 2000). Die Vielfalt der Konzepte erschwert dabei die Kommunikation über Themen des IQ-Managements durch Mehrdeutigkeiten in der Begrifflichkeit. Eines der meistzitierten Konzepte zur Beschreibung und Bewertung der Informationsqualität basiert auf einer Umfrage unter IT-Nutzern mit dem Ziel, Merkmale der Informationsqualität aus der Sicht der Anwender zu identifizieren (fit for use Konzept) (Wang und Strong 1996). Mit statistischen Methoden wurden aus über 100 Attributen zur Beschreibung der Qualität von Information die 16 wichtigsten Oberbegriffe für Merkmale von Datenprodukten ausgewählt, die sogenannten IQ-Dimensionen. Dieses IQ-Konzept bildet die Basis für eine Reihe von Veröffentlichungen zu Erhebungsmethoden und IQ- Managementkonzepten, allerdings vorwiegend im englischsprachigen Raum. Gestützt auf das Konzept von Wang und Strong wird im Folgenden ein Katalog von IQ-Dimensionen und Definitionen für Merkmale von Datenprodukten in deutscher Sprache aufgeführt. Ziel ist, die Kommunikation über Themen des IQ-Managements durch eindeutige und einheitliche Begrifflichkeiten zu vereinfachen und zu verbessern. Das vorliegende Kapitel, das die Dimensionen der Informationsqualität möglichst umfassend und durch überschneidungsfreie Begriffe beschreibt, ist das Ergebnis der Arbeit einer Projektgruppe in der DGIQ (Deutsche Gesellschaft für Informations- und Datenqualität). Umfassend bedeutet in diesem Zusammenhang, dass alle beobachteten Phänomene, die die Informationsqualität aus Sicht der Anwender beeinflussen, durch einen oder mehrere der vorgestellten Begriffe beschrieben werden können. Überschneidungsfrei sind Begriffe, wenn jede Veränderung der Informationsqualität aus Anwendersicht durch genau eine IQ-Dimension bzw. eine eindeutige Kombination aus IQ-Dimensionen beschrieben werden kann, es also keine Synonyme oder redundanten Begriffsfelder gibt.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
2.2
25
IQ-Dimensionen und Definitionen
Die Informationsqualität wird anhand von 15 Begriffen, den sogenannten IQ-Dimensionen, definiert. Um die Definitionen der IQ-Dimensionen operational und konkret verständlich zu machen, werden zu der jeweiligen IQ-Dimension Beispiele für Stamm- und Bewegungsdaten beschrieben, die jeweils den Grad der Erfüllung der Anforderung an das Datenprodukt bestimmen. Stammdaten sind der „Datenbestand, auf dem Geschäftsprozesse aufbauen, und der über einen längeren Zeitraum unverändert gültig“ ist (Hildebrand 2006, S. 17). Bewegungsdaten entstehen während einer betrieblichen Transaktion – der Buchung eines Geschäftsvorfalls (Auftrag, Rechnung) – und belegen dieses Ereignis. Die Abstufung der Informationsqualität im Hinblick auf die jeweilige IQ-Dimension kann unendliche viele Ausprägungen annehmen, was insbesondere für Metriken zur Vollständigkeit oder Fehlerfreiheit gilt. Um das relevante Spektrum der Informationsqualität anhand von Beispielen übersichtlich aufzuzeigen, werden deshalb jeweils zwei Ausprägungen je IQ-Dimension betrachtet: • brauchbare Information: Die Informationsqualität wird positiv bewertet, wenn der Nutzer sie für seine Zwecke gebrauchen kann. • inakzeptable Information: Die Informationsqualität wird negativ bewertet, wenn sie so weit unter der Grenze „brauchbar“ liegt, dass der Nutzer die Informationen für seine Zwecke nicht mehr verwenden kann. Die Beispiele zur Erläuterung der Definition der jeweiligen IQ-Dimension beziehen sich auf digitale Zeichen, die elektronisch vervielfältigt werden können, ohne dass dies eine beabsichtigte oder bindende Einschränkung der Anwendung der vorliegenden IQ- Dimensionen ist. Einige der Wang/Strong´schen Begriffe liegen im umgangssprachlichen Gebrauch sehr eng bei einander, so dass die IQ-Dimensionen im gängigen Sprachgebrauch als redundant bzw. sich gegenseitig überschneidend erscheinen. Dieses Problem tritt vor allem bei den Begriffspaaren ‚Hohes Ansehen – Glaubwürdigkeit‘ sowie ‚Relevanz – Wertschöpfung‘ auf. Das Problem der Redundanz von Begriffen kann jedoch durch eine technische Begriffsbestimmung umgangen werden. In diesem Sinne wird Glaubwürdigkeit technisch definiert als eine Eigenschaft, die von der Aufbereitung der Information bestimmt wird, während hohes Ansehen durch wiederholte positive Erfahrungen mit ähnlichen Informationen (z. B. in einer Zeitreihe) erlangt wird. Bei Relevanz und Wertschöpfung gelingt die Abgrenzung nicht so klar, da einer wertschöpfenden Information schwerlich die Relevanz abgesprochen werden kann. Andersherum ist aber eine relevante Information nicht in jedem Fall wertschöpfend, da z. B. viele Suchergebnisse bei Internetrecherchen zwar relevant sind, aber nicht im betrieblichen Prozess mit klarem Wertschöpfungsbeitrag genutzt werden. Die Menge der wertschöpfenden Informationen ist also eine echte Teilmenge aller relevanten Informationen, wodurch das Prinzip der strengen Überschneidungsfreiheit der IQ-Dimensionen an dieser Stelle nur abgeschwächt gilt.
26
J. P. Rohweder et al.
Als Änderung gegenüber dem Konzept von Wang und Strong sind 2 Punkte hervorzuheben. Zum ersten wird Sicherheit (access security) nicht als originäre IQ-Dimension angesehen. Diese Eigenschaft von Information(systemen) hat nämlich keinen Einfluss auf die Qualität von Information aus Sicht des Anwenders, die nicht durch die übrigen 15 IQ-Dimensionen beschrieben werden könnte. Etwas überspitzt könnte man diese Argumentationsweise so formulieren, dass es auch bei der Beschreibung der Nutzungseigenschaften von technischen Geräten nicht darauf ankommt, ob diese durch Patente geschützt sind oder nicht. Zum zweiten wird die ursprünglich als überflüssig erachtete IQ-Dimension „ease of operation“ gesondert aufgeführt, da dieser Aspekt der Informationsqualität von Wang und Strong in vielen späteren Veröffentlichungen als „ease of manipulation“ wieder aufgenommen worden ist. Im nachfolgenden Abschn. 1.2.1 werden die 15 IQ-Dimensionen mit ihren Definitionen aufgelistet. Im Abschn. 1.2.2 werden die 15 IQ-Dimensionen zu 4 Kategorien zusammengefasst und in einer graphischen Darstellung abgebildet, die es erlaubt, die 15 Dimensionen und 4 Kategorien in ihrem inhaltlichen Zusammenhang zu erfassen. Im Abschn. 1.2.3 folgen dann 15 deutsche Begriffe jeweils mit der englischen Bezeichnung der IQ-Dimension und Beispiele zur Beschreibung der Informationsqualität.
2.2.1 Die 15 IQ-Dimensionen im Überblick: 1. Zugänglichkeit (accessibility): Informationen sind zugänglich, wenn sie anhand einfacher Verfahren und auf direktem Weg für den Anwender abrufbar sind. 2. Angemessener Umfang (appropriate amount of data): Informationen sind von angemessenem Umfang, wenn die Menge der verfügbaren Information den gestellten Anforderungen genügt. 3. Glaubwürdigkeit (believability): Informationen sind glaubwürdig, wenn Zertifikate einen hohen Qualitätsstandard ausweisen oder die Informationsgewinnung und verbreitung mit hohem Aufwand betrieben werden. 4. Vollständigkeit (completeness): Informationen sind vollständig, wenn sie nicht fehlen und zu den festgelegten Zeitpunkten in den jeweiligen Prozess-Schritten zur Verfügung stehen. 5. Übersichtlichkeit (concise representation): Informationen sind übersichtlich, wenn genau die benötigten Informationen in einem passenden und leicht fassbaren Format dargestellt sind. 6. Einheitliche Darstellung (consistent representation): Informationen sind einheitlich dargestellt, wenn die Informationen fortlaufend auf dieselbe Art und Weise abgebildet werden. 7. Bearbeitbarkeit (ease of manipulation): Informationen sind leicht bearbeitbar, wenn sie leicht zu ändern und für unterschiedliche Zwecke zu verwenden sind. 8. Fehlerfreiheit (free of error): Informationen sind fehlerfrei, wenn sie mit der Realität übereinstimmen.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
27
9. Eindeutige Auslegbarkeit (interpretability): Informationen sind eindeutig auslegbar, wenn sie in gleicher, fachlich korrekter Art und Weise begriffen werden. 10. Objektivität (objectivity): Informationen sind objektiv, wenn sie streng sachlich und wertfrei sind. 11. Relevanz (relevancy): Informationen sind relevant, wenn sie für den Anwender notwendige Informationen liefern. 12. Hohes Ansehen (reputation): Informationen sind hoch angesehen, wenn die Informationsquelle, das Transportmedium und das verarbeitenden System im Ruf einer hohen Vertrauenswürdigkeit und Kompetenz stehen. 13. Aktualität (timeliness): Informationen sind aktuell, wenn sie die tatsächliche Eigenschaft des beschriebenen Objektes zeitnah abbilden. 14. Verständlichkeit (understandability): Informationen sind verständlich, wenn sie unmittelbar von den Anwendern verstanden und für deren Zwecke eingesetzt werden können. 15. Wertschöpfung (value-added): Informationen sind wertschöpfend, wenn ihre Nutzung zu einer quantifizierbaren Steigerung einer monetären Zielfunktion führen kann.
2.2.2 G raphische Darstellung der 15 IQ-Dimensionen und 4 IQ-Kategorien Die 15 IQ-Dimensionen beschreiben die Informationsqualität umfassend. Jede einzelne IQ-Dimension ist ein kritischer Erfolgsfaktor für das Funktionieren eines Informationssystems, d. h. erst wenn alle IQ-Dimensionen eine hohe oder zumindest ausreichende Qualität aufweisen, ist die Funktionsfähigkeit eines Informationssystems gewährleistet. Z. B. sind vollständige und fehlerfreie Informationen, die jedoch für den Anwender nicht leicht zugänglich sind, ungeeignet für zeitkritische Prozesse. In der Abb. 2.1 wird dies durch die Positionierung der Informationsqualität (IQ) im zentralen Kreis in der Mitte dargestellt: Informationen müssen den vom Nutzer verlangten Zweck erfüllen („fit for use“-Konzept), erst dann sind sie „rund“. Die vom IQ-Kreis ausgehenden vier Dreiecke beleuchten die 15 Dimensionen der Informationsqualität – wie das Licht eines Leuchtturms, das nacheinander in die 4 Himmelsrichtungen scheint. Sie bilden zusammen ein Rechteck. Die geometrische Figur Rechteck weist darauf hin, dass es grundsätzlich keine wichtigen oder weniger wichtigen Dimensionen der Informationsqualität gibt. Mit den 15 Dimensionen können alle denkbaren Qualitätsaspekte von Informationen aus Anwendersicht beschrieben werden. Der Nutzer von Informationen kann die Qualitätsaspekte aus seiner Sicht priorisieren, aber erst, nachdem er über alle 15 Dimensionen nachgedacht hat, also bildlich gesprochen erst, nachdem er sich durch Blicke in alle 4 Himmelsrichtungen orientiert hat. Um die Darstellung übersichtlicher zu gestalten, wurden vier Ordnungsbegriffe für Gruppen von IQ-Dimensionen entwickelt, die sogenannten IQ-Kategorien. In Abb. 2.1 wird dies durch das innere Rechteck dargestellt, welches die 4 Kategorien umschließt, zu
28
J. P. Rohweder et al.
denen sich die 15 Dimensionen der Informationsqualität zusammenfassen lassen. Die Gruppierung der IQ-Dimensionen ist gestützt auf eine Umfrage unter IT-Anwendern, die in 80 % der Fälle dieselben IQ-Dimensionen in Gruppen zusammengefasst haben (Wang und Strong 1996, S. 19). Es gibt die inhärente, systemunterstützte, darstellungsbezogene und zweckabhängige Informationsqualität (siehe Abb. 2.1). Die systemunterstützte IQ- Kategorie umfasst die IQ-Dimensionen Zugänglichkeit und Bearbeitbarkeit. Die IQ- Dimensionen hohes Ansehen, Fehlerfreiheit, Objektivität und Glaubwürdigkeit sind Merkmale, die den Daten bzw. Informationen inhärent sind. Die darstellungsbezogene IQ-Kategorie umfasst die IQ-Dimensionen Verständlichkeit, Übersichtlichkeit, einheitliche Darstellung und eindeutige Auslegbarkeit. Die IQ-Dimensionen Aktualität, Wertschöpfung, Vollständigkeit, Angemessener Umfang und Relevanz beschreiben die Informationsqualität im Hinblick auf die zweckabhängige IQ-Kategorie. Betrachtet man die vier Kategorien, die gebildet wurden, kann man feststellen, dass diese ein Ordnungskonzept repräsentieren – die Gruppierung der IQ-Dimensionen erfolgt anhand von inhaltlichen Zusammenhängen in Bezug auf den Untersuchungsgegenstand zur Beurteilung der Qualität von Information bzw. Daten. Der Zusammenhang zwischen den IQ-Kategorien und den Untersuchungsgegenständen ist in Tab. 2.1 dargestellt. Die systemunterstützten IQ-Dimensionen Zugänglichkeit und Bearbeitbarkeit können nur untersucht werden, indem man sich das datenverarbeitende System und seine Benutzeroberfläche anschaut. Untersuchungsgegenstand für die Bewertung der systemunterstützten Informationsqualität ist also das System zur Informations- bzw. Datenverarbeitung. Die dateninhärenten IQ-Dimensionen hohes Ansehen, Fehlerfreiheit, Objektivität und Glaubwürdigkeit können nur mit einer Untersuchung des Inhaltes der Daten/Informationen eingeschätzt
Abb. 2.1 15 IQ-Dimensionen in 4 IQ-Kategorien
2 Informationsqualität – Definitionen, Dimensionen und Begriffe Tab. 2.1 Jede Kategorie wird einem spezifischen Untersuchungsgegenstand zugeordnet
IQ-Kategorie Systemunterstützt Inhärent Darstellungsbezogen Zweckabhängig
29 Untersuchungsgegenstand System Inhalt Darstellung Nutzung
werden. Darstellungsbezogene Dimensionen wie Verständlichkeit, Übersichtlichkeit, einheitliche Darstellung und eindeutige Auslegbarkeit können nur unter Berücksichtigung der eigentlichen Darstellung, zum Beispiel in Form von Grafiken, Statistiken oder Berichten, beurteilt werden. Die zweckabhängigen Dimensionen Aktualität, Wertschöpfung, Vollständigkeit, Angemessener Umfang und Relevanz können nur unter Berücksichtigung der eigentlichen Nutzung in den Unternehmensprozessen geprüft werden. Soll zum Beispiel die IQ-Dimension Fehlerfreiheit untersucht werden, bewertet man den Inhalt der entsprechend relevanten Daten. Bei einer Untersuchung der Übersichtlichkeit hingegen werden die eigentlichen Inhalte der Daten nicht betrachtet, sondern nur ihre Darstellung. Eine Untersuchung der Qualität in diesen beiden Dimensionen erfordert damit eine Betrachtung von zwei unterschiedlichen Gegenständen: Inhalt und Darstellung. Die vier Untersuchungsgegenstände können gemeinsam als die organische Struktur der Informationsverarbeitung eines Unternehmens bezeichnet werden. Abb. 2.2 zeigt die Zusammenhänge dieser vier Untersuchungsgegenstände in einem Unternehmen. Kern eines jeden Informationssystems sind die Inhalte, die verarbeitet werden. Die Inhalte werden im System bzw. in Systemen verarbeitet und innerhalb des Unternehmens weitergeleitet. Die Inhalte werden mithilfe der Systemfunktionalitäten für die Nutzer in eine Darstellung überführt. Alle Prozesse der Informationsverarbeitung und Bereitstellung laufen im Kontext der Unternehmensprozesse unter Berücksichtigung der Nutzung ab. Die Unternehmensprozesse umfassen damit Systeme, Inhalte und Darstellung. Die Abb. 2.2 soll veranschaulichen, dass die einzelnen gleichwertig zu betrachtenden Untersuchungsgegenstände der Informationsqualität ineinander verschachtelt sind. Gleichzeitig soll die Abb. 2.2 eine Orientierungshilfe für die Entscheidung im Rahmen einer Bewertung von Informationsqualität darstellen.
2.2.3 Die 15 IQ-Dimensionen: Definitionen und Beispiele Im Folgenden werden die 15 IQ-Dimensionen definiert. Die Abschnitte zu den jeweiligen IQ-Dimensionen folgen dabei immer einem gleichen Aufbau: Nach einem deutschen Begriff mit dem englischen Wort aus der Untersuchung von Wang und Strong (Wang und Strong 1996) folgt eine kurze beschreibende, definitorische Begriffsbestimmung. Daran schließen sich jeweils positive und negative Beispiele zur Bestimmung der IQ-Dimension
30
J. P. Rohweder et al.
€ € € €
Abb. 2.2 Die Untersuchungsgegenstände der Informationsqualität
an. In einzelnen Fällen wird die kurze Definition durch eine erläuternde Anmerkung gegen andere Begriffe abgegrenzt bzw. genauer umschrieben. Informationen sind zugänglich, wenn sie anhand einfacher Verfahren und auf direktem Weg für den Anwender abrufbar sind.
2.2.3.1 Zugänglichkeit (accessibility) Stammdaten Nach telefonischem Geschäftsabschluss eines Wertpapierhandelsgeschäfts bearbeitet das Back Office das Geschäft anhand der handgeschriebenen Angaben auf dem Händlerticket. Der Name des Kunden ist nicht lesbar. Nur die Kundennummer steht zur Verfügung. (positiv) Das Kundenstammdaten-System steht dem Back Office zur Verfügung und kann mit einfachem Login aufgerufen werden. (negativ) Das Kundenstammdaten-System steht dem Back Office aufgrund eines Systemfehlers nicht zur Verfügung. Der Name des Kunden kann nur per telefonische Rückfrage im Handel erfragt werden.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
31
Bewegungsdaten Nach Geschäftsabschluss im Front Office erstellt der Händler ein sog. Händlerticket mit Informationen zum Kunden und zu den Geschäftsbedingungen, welches an das Back Office zur Abwicklung weitergeleitet wird. (positiv) Das Händlerticket wird auf elektronischem Weg an das Back Office System weitergeleitet und wird vom Back Office Mitarbeiter als neues Geschäft im System identifiziert und bearbeitet. (negativ) Das Händlerticket soll per Fax an das Back Office weitergeleitet werden. Durch einen Defekt der Telekommunikation erhält das Back Office das Fax nicht. Die Informationen sind damit vorhanden, jedoch im nächsten Prozess-Schritt nicht verfügbar.
2.2.3.2 Angemessener Umfang (appropriate amount of data) Informationen sind von angemessenem Umfang, wenn die Menge der verfügbaren Information den gestellten Anforderungen genügt.
Sowohl die Anzahl der Attribute pro Datensatz als auch die Anzahl der Datensätze selbst sollen für die gestellten Anforderungen einerseits ausreichend, andererseits aber auch nicht überflüssig groß sein. Stammdaten Für eine Rückfrage bei einem Kunden zu einem Auftrag wird ein Kontaktmanagementsystem aufgerufen. (Positiv) Der Mitarbeiter hat die Möglichkeit über die Eingabe der Kundennummer oder des Kundennamens die Telefonnummer angezeigt zu bekommen. (Negativ) Über die Abfrage mit der Kundennummer oder dem Kundennamen erhält der Mitarbeiter alle bislang erfassten Informationen zum Kunden. In der Abteilung für die Vertragerstellung benötigt der Sachbearbeiter umfassende Informationen zum Kunden. (positiv) Im oben genannten Kontaktmanagementsystem stehen alle Informationen zur Verfügung. (negativ) Im Kontaktmanagementsystem fehlen für diesen Prozess wesentliche Informationen zum Kunden. Bewegungsdaten Aus einer Kundendatenbank sollen die Kunden mit besonders hohem Kaufpotential ausgewählt werden. (positiv) Es existieren vergleichsweise viele Kundentransaktionen pro Kunde in der Datenbank, so dass sich aus den Kaufhistorien der einzelnen Kunden Rückschlüsse auf deren Kaufverhalten ziehen lassen. (negativ) Ist das Unternehmen jedoch neu am Markt oder wurden aus anderen Gründen bisher nur einzelne wenige Kundentransaktionen erfasst, dann ist die Anforderung Kauf-
32
J. P. Rohweder et al.
potentialeinschätzung aufgrund der Kaufhistorie nicht zu erfüllen. Die Menge der verfügbaren Information ist im Sinne der Anzahl der verfügbaren Datensätze nicht ausreichend. Anmerkung: Dies muss nicht notwendigerweise eine Verletzung der IQ Dimension Vollständigkeit bedeuten, weil etwa Pflichtfelder leer sind. Wichtig ist hier, dass die vorhandene Information kein umfassendes Bild des Kunden wiedergibt.
2.2.3.3 Glaubwürdigkeit (believability) Informationen sind glaubwürdig, wenn Zertifikate einen hohen Qualitätsstandard ausweisen oder die Informationsgewinnung und verbreitung mit hohem Aufwand betrieben werden.
Für die Glaubwürdigkeit ist maßgebend, inwiefern die aktuell vorliegenden Informationen als vertrauenswürdig und zuverlässig angesehen werden – also durch eine deduktive Qualitätsbeurteilung. Entscheidend dafür ist die Aufmachung der Daten. Hier geht es im Kern um ein gutes Marketing der Informationen. Stammdaten (positiv) Eine vom Statistischen Bundesamt herausgegebene Informationsbroschüre zur Bevölkerungsentwicklung besitzt eine hohe Glaubwürdigkeit, und zwar unabhängig davon, inwieweit die Daten vollständig, fehlerfrei, eindeutig auslegbar, objektiv richtig, aktuell und verständlich sind. (negativ) Aufzeichnungen von Wetterdaten, deren Herausgeber unbekannt ist, haben dagegen eine niedrigere Glaubwürdigkeit. Bewegungsdaten (positiv) Daten aus einem mit großem Aufwand entwickelten Produktionsplanungs- und Steuerungssystem, die den Nutzern am PC zur Verfügung stehen, sind glaubwürdig. (negativ) Lediglich handschriftliche Aufzeichnungen der Mitarbeiter in der Produktion.
2.2.3.4 Vollständigkeit (completeness) Informationen sind vollständig, wenn sie nicht fehlen und zu den festgelegten Zeitpunkten in den jeweiligen Prozess-Schritten zur Verfügung stehen.
Informationen sind pünktlich, wenn sie zu einem festgelegten Zeitpunkt in einem bestimmten Prozessschritt zur Verfügung stehen. Durch diese Integration der Zeitdimension in die Definition der Vollständigkeit ist eine eigenständige, zusätzliche Dimension Pünktlichkeit nicht erforderlich.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
33
Vollständigkeit lässt sich in unterschiedlichen Ausprägungen beschreiben; so kann die Vollständigkeit z. B. für ein Schema, eine Tabelle oder eine Spalte ermittelt werden. Dabei ist es essentiell festzulegen, gegen welche Menge die Vollständigkeit verprobt wird. Stammdaten (positiv): In der Vertriebsdatenbank eines Unternehmens ist für jedes Bundesland – wie verlangt – mindestens ein Vertriebsbeauftragter festgelegt. (negativ): Obwohl der Vertrieb des Unternehmens nach Bundesländern strukturiert ist, lässt sich für ein Bundesland kein Vertriebsbeauftragter ermitteln. Bewegungsdaten (positiv): Die monatliche Materialbestellung bei den Lieferanten erfolgt erst dann, wenn die Bedarfsmeldungen aller Filialen vorliegen. Dadurch wird sichergestellt, dass der Materialfluss in den Filialen nicht abreißt, bzw. dass fehlende Bedarfsmeldungen schnell identifiziert werden. (negativ): Die monatliche Materialbestellung erfolgt immer zum Stichtag, unabhängig davon, ob alle Filialen ihren Bedarf gemeldet haben. Dies kann zu dem Problem führen, dass in Filialen eine Materialunterdeckung entsteht, die nur durch aufwändige Nachbestellungen, Materialaustausch etc. behoben werden kann.
2.2.3.5 Übersichtlichkeit (concise representation) Informationen sind übersichtlich, wenn genau die benötigten Informationen in einem passenden und leicht fassbaren Format dargestellt sind.
Stammdaten Darstellung der Basis-Adressdaten eines Personenstammsatzes. (positiv) Brauchbare Verdichtung, gute Übersichtlichkeit analog dem Satzaufbau einer Visitenkarte: Martin MustermannBahnhofstr. 116 98999 X-Stadt Tel.: 0110-8877663 [email protected] (negativ) Zu starke Verdichtung durch Darstellung in einem fortlaufenden String: „MartinMustermannBahnhofstr.11698999X-Stadt01108877663m.musterm@tel.com“. Mit Zusatzinformationen überfrachtete Darstellung der strukturierten Adresse: ANREDE Herr GESCHLECHT VORNAME Martin NACHNAME Mustermann TITEL STRASSENADRESSE Bahnhofstr. HAUSNUMMER 116a usw.
34
J. P. Rohweder et al.
Bewegungsdaten Währungs-Wechselkursentwicklung der letzten drei Monate. (positiv) Übersichtliche Darstellung in Candle-Stick-Chart (dadurch auf einen Blick: Eröffnungskurs, Schlusskurs, Höchst- und Niedrigstkurs sowie Richtung zwischen Eröffnungs- und Schlusskurs je Handelstag). (negativ) Zu starke Verdichtung durch Darstellung aller im Handelssystem realisierten Wechselkurse in einer einzigen Kurve (dadurch verschwimmt die Darstellung zu einem Band mit wechselnder Breite, Zeit- und Datumslinien erschweren die Lesbarkeit). Unübersichtliche Darstellung wegen mangelnder Verdichtung: Darstellung der Wechselkurse in einer Tabelle über mehrere Seiten oder Darstellung in vier gleichfarbigen Kurven übereinander (Eröffnungskurs, Schlusskurs, Höchstkurs, Niedrigstkurs). Durch Kurvenüberschneidungen wirkt diese Darstellung unübersichtlich.
2.2.3.6 Einheitliche Darstellung (consistent representation) Informationen sind einheitlich dargestellt, wenn die Informationen fortlaufend auf dieselbe Art und Weise abgebildet werden.
Eine einheitliche Darstellung bedeutet, dass ein Sachverhalt im selben Format, Layout und mit demselben Wertevorrat beschrieben wird, unabhängig vom Zeitpunkt (gestern, heute, letztes Jahr) und dem Datenerfasser. Das heißt, insbesondere, dass die Darstellung die selbe sein soll, auch wenn die Datenerfasser an verschiedenen Standorten arbeiten, aus unterschiedlichen Kulturkreisen stammen oder verschiedene Systeme zur Datenerfassung und Speicherung nutzen. Stammdaten Darstellung des Geschlechts einer Person. (positiv) Wertemenge: m, w (negativ) Wertemenge: w, f, m; wobei w = weiblich und f = female Bewegungsdaten Darstellung von Datumsangaben. (Positiv) „01.10.2007“ „02.10.2007“ „03.10.2007“ „04.10.2007“ „05.10.2007“
(Negativ) „1.10.2007“ „02.10.07“ „3.OKT 2007“ „4.Oktober 2007“ „FR, 05-10-07 12:00“
2.2.3.7 Bearbeitbarkeit (ease of manipulation) Informationen sind leicht bearbeitbar, wenn sie leicht zu ändern und für unterschiedliche Zwecke zu verwenden sind.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
35
Bearbeitbarkeit ist vom Grundsatz her wertneutral zu betrachten, d. h. eine gute Bearbeitbarkeit birgt einerseits die Gefahr der gewollten oder ungewollten Verfälschung, andererseits aber auch die Möglichkeit der leichten Anpassung und universellen Verwendung. Die Informationsqualität in Bezug auf die leichte Bearbeitbarkeit ist also nur dann positiv zu bewerten, wenn sowohl eine leichte Änderbarkeit für berechtigte und eine nicht allzu leichte Manipulierbarkeit/Verfälschung für unberechtigte Datennutzer gegeben ist. Daher beziehen sich die nachfolgenden Beispiele im Positivfall auf leichte Verwendbarkeit, im Negativfall auf gewollt erschwerte Verwendbarkeit, durch die ein Schutz vor ungewollter Verfälschung erreicht werden soll. Stammdaten (positiv) Die E-Mail-Adresse ist als mailto:-Link angegeben. Hier kann wahlweise der Link angeklickt und der E-Mail-Client gestartet werden oder die E-Mail- Adresse kann kopiert und an anderer Stelle eingefügt werden. (negativ) Die E-Mail-Adresse ist als Grafik angegeben, um sich vor E-Mail-Adressen- sammelnden Robots zu schützen. Hier muss die E-Mail-Adresse für beide o. g. Anwendungsfälle abgetippt werden. Bewegungsdaten (positiv): Bei der Bestellung über das Internet wird dem Kunden ein Vorschlag für die Konfektionierung des bestellten Produkts gemacht. Der Kunde kann alle Vorschlagswerte nach seinem Bedarf überschreiben, das System selber prüft, ob die Kundenvorschläge realisierbar sind. (negativ): Bei der Bestellung über das Internet wird neben Benutzerdaten und Passwort je Transaktion eine PIN abgefragt. Durch alleiniges Wissen der Benutzerdaten ist damit eine Transaktion nicht manipulierbar bzw. eine Bestellung nicht auslösbar.
2.2.3.8 Fehlerfreiheit (free of error) Informationen sind fehlerfrei, wenn sie mit der Realität übereinstimmen.
In Informationssystemen abgelegte Daten sind meist zwangsläufig eine Vergröberung der Realität. Übereinstimmung mit der Realität wird daher an dieser Stelle als Widerspruchsfreiheit zur Realität verstanden. Die Genauigkeit selbst ist ebenfalls Teil der Fehlerfreiheit. Eine ungenau erfasste Adresse, z. B. Prime Minister, Downing Street 12, führt durch den Fehler in der Hausnummer nicht zwangsläufig dazu, dass ein Brief nicht zugestellt werden kann. Stammdaten (negativ) Bundestag, 11111 Bärlin (positiv) Deutscher Bundestag, 11011 Berlin
36
J. P. Rohweder et al.
Bewegungsdaten (positiv) Bei jedem Verkauf eines Produktes wird die verkaufte Menge korrekt erfasst, so dass das Warenlager verlässlich automatisch wieder aufgefüllt werden kann. (negativ) Eingabefehler im Warenwirtschaftssystem führen zu Abweichungen vom tatsächlichen Warenbestand, was zu Lieferengpässen wegen fehlender Nachbestellung führt.
2.2.3.9 Eindeutige Auslegbarkeit (interpretability) Informationen sind eindeutig auslegbar, wenn sie in gleicher, fachlich korrekter Art und Weise begriffen werden.
Dabei ist maßgebend, dass die Informationen in geeigneter Sprache und Symbolen ausgedrückt und so klar formuliert sind, dass sie auf dem Weg vom Datensammler über alle Umwandlungsprozesse bis zum Nutzer stets in gleicher, fachlich korrekter Art und Weise begriffen werden. Stammdaten Die Laufzeit von Briefen kann beschrieben werden als Differenz zwischen dem Einlieferungsdatum und dem Auslieferungsdatum, ausgedrückt in jeweils vollen Tagen, unter Berücksichtigung des spätesten Entsorgungszeitpunktes der Einlieferungsstelle, ohne Berücksichtigung von Tagen ohne Zustellung. (positiv) Die „Laufzeit von Briefen“ ist eindeutig auslegbar, wenn die Merkmale (z. B. Einlieferungsdatum, Tag, Einlieferungsstelle) die internen Kundenanforderungen vollständig berücksichtigen, diese fehlerfrei definieren und dabei so klar beschreiben, dass alle Mitarbeiter dies in gleicher Weise begreifen. (negativ) Wären z. B. die „Tage ohne Zustellung“ oder die „spätesten Entsorgungszeitpunkte“ nicht eindeutig definiert und beschrieben, wäre die Laufzeit von Briefen nicht eindeutig auslegbar. Bewegungsdaten (positiv) Die in einem Aufgabenbereich eingesetzte Arbeitszeit könnte verschieden ausgedrückt sein: 1,5 Std oder 1 h 30 min oder 90 min oder auch − 1,75 Std oder − 1 h 45 min. Auch wenn diese Arbeitszeit mit einem negativen und damit offensichtlich falschen Wert angezeigt wird, ist dieser Wert immer noch eindeutig auslegbar. (negativ) Die Erfassung der in einem Aufgabenbereich eingesetzten Arbeitszeit erfolgt in Tagen, wobei nicht definiert ist, ob es sich um die kalendarische Dauer von Beginn bis Ende der Arbeit oder die netto eingesetzten Arbeitstage handelt.
2.2.3.10 Objektivität (objectivity) Informationen sind objektiv, wenn sie streng sachlich und wertfrei sind.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
37
Die Informationen müssen frei von Vorurteilen und unbefangen sein. Dies trifft grundsätzlich auf Rohdaten zu. Eine Bewertung und Messung von Objektivität kann nur in Kenntnis des Daten generierenden Prozesses vorgenommen werden. Im Umkehrschluss lässt sich Objektivität durch das Fehlen subjektiver Einflüsse definieren. Stammdaten Informationen über Herkunftsländer von Kunden im Kundenstammdatensatz. (positiv): Im Feld Land ist nur das Land in seiner offiziellen Bezeichnung enthalten: „Deutschland“ oder „Ghana“. Einträge wie „Sicher“ oder „Unsicher“ sind dann objektiv, wenn diese Einschätzung durch einen unabhängigen Sachverständigen anhand von festgelegten Kriterien vorgenommen wird. (negativ): Das Land wird um einen Zusatz wie „Entwicklungsland“, „Förderungswürdig“, „Sicher“ oder „Unsicher“ ergänzt. Dies ist nicht objektiv, wenn die Einschätzung auf Basis einer subjektiven Meinung des Informationsgebers getroffen wurde. Bewegungsdaten Für eine Wetterprognose werden die Wetterdaten der letzten Jahre an einem bestimmten Standpunkt benötigt. (positiv): Eine Übersicht enthält nur die Temperaturangaben. (negativ): Wetterdaten mit dem Zusatz „gutes Wetter“ oder „schlechtes Wetter“, wenn der Zusatz eine rein persönliche Präferenz wiedergibt, z. B. Schneefall = „schlechtes Wetter“.
2.2.3.11 Relevanz (relevancy) Informationen sind relevant, wenn sie für den Anwender notwendige Informationen liefern.
Notwendigkeit ist in diesem Zusammenhang nicht als mathematisch zwingende Bedingung für den Erfolg einer Entscheidung zu sehen. Vielmehr geht es darum, die Notwendigkeit der jeweiligen Information für eine Verbesserung der Zielerreichung zu beschreiben. Das heißt, auch wenn eine Information nur mit einer gewissen Wahrscheinlichkeit zu einer besseren Entscheidung führt, so ist diese Information für sich allein betrachtet doch notwendig, um diese Verbesserung zu erreichen. Die Abgrenzung zur IQ-Dimension „Wertschöpfung“ (value-added) liegt darin, dass Informationen relevant sein können, aber nicht unbedingt immer einen konkret quantifizierbaren, monetären Wertschöpfungsbeitrag leisten. Stammdaten Personendaten, die in CRM-Systemen (Customer Relation Management System) als Kontakt zu Firmenkunden dienen. (positiv) Der Vorname „Franz“ ist relevant für die Dublettenvermeidung im CRM-System. (negativ) Sehr geringe bzw. keine Relevanz hat die Augenfarbe „graugrün“.
38
J. P. Rohweder et al.
Bewegungsdaten Zeitangabe aus Logistikprozess oder Produktion. (positiv) Eine hohe Relevanz hat die sekundengenaue Bestimmung des Zeitpunktes für den Start einer Rakete zur ISS (Internationale Raumstation). (negativ) Sehr geringe bzw. keine Relevanz hat die sekundengenaue Zeitangabe zum Anlieferungszeitpunkt von Rohstofflieferungen.
2.2.3.12 Hohes Ansehen (reputation) Informationen sind hoch angesehen, wenn die Informationsquelle, das Transportmedium und das verarbeitenden System im Ruf einer hohen Vertrauenswürdigkeit und Kompetenz stehen.
Ein hohes Ansehen ist das Ergebnis von länger andauernden positiven Erfahrungen mit einer Informationsquelle (inkl. Transport und Weiterverarbeitung) – quasi eine induktive Qualitätsbeurteilung. Das Ansehen spielt vor allem dann eine Rolle, wenn andere Dimensionen der Informationsqualität wie z. B. Fehlerfreiheit nicht oder nur unzureichend gemessen werden können. Stammdaten (positiv): Die aus einer Call-Center-Applikation übernommenen Telefonnummern genießen ein hohes Ansehen, wenn die Erfahrung gemacht wurde, dass in dem System nur Telefonnummern gespeichert werden, unter denen die entsprechende Person erreicht wurde. (negativ): Die aus einem Webportal übernommenen Telefonnummern haben kein hohes Ansehen, da erfahrungsgemäß Interessenten in dieses Pflichtfeld häufig fiktive Telefonnummern eintragen. Bewegungsdaten (positiv): Bei Rechnungen, die von Abteilung Y erstellt werden, könnte die Gesamtsumme der Rechnung ein hohes Ansehen haben, da dort manuell berechnete Rabatte von einer weiteren Person geprüft werden und dadurch bisher Rechenfehler immer entdeckt wurden. (negativ) Bei Rechnungen, die von Abteilung X erstellt werden, könnte die Gesamtsumme der Rechnung ein niedriges Ansehen haben, da dort Rabatte manuell abgezogen werden und es dabei in der Vergangenheit immer wieder zu Rechenfehlern kam.
2.2.3.13 Aktualität (timeliness) Informationen sind aktuell, wenn sie die tatsächliche Eigenschaft des beschriebenen Objektes zeitnah abbilden.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
39
Bei Aktualität von Information wird auf die Zeitdimension der Anpassung von Informationen an Änderungen in der realen Welt abgehoben. In diesem Sinne besteht ein enger Zusammenhang mit der Dimension Fehlerfreiheit. Pünktlichkeit (der Informationsbereitstellung) wird hingegen als Zeitdimension der Vollständigkeit betrachtet und nicht als eigenständige IQ-Dimension angesehen. Wenn sich die Nutzung der Informationen im Laufe der Zeit verändert, kann das eine Änderung der Anforderungen an die Information zur Folge haben. Dies stellt jedoch keine Änderung der Informationsqualität dar. Stammdaten Organisations-Kürzel in Controlling-Reports. (positiv): Perfekte Aktualität wäre gegeben, wenn die Organisationskürzel nach jeder Änderung in den Report-Formularen vor der Nutzung an die geänderte Realität angepasst sind. Alle generierten Analysen und Reports, die die Entscheidungsträger nutzen, berücksichtigen zum Zeitpunkt der Reporterstellung die durchgeführte Organisationsänderung. (negativ): Inakzeptabel wäre es, wenn die Anpassung geschäftskritischer Stammdaten so erfolgen würde, dass entsprechende Reports und Analysen nicht termingerecht erstellt werden könnten. Bewegungsdaten (positiv): Währungswechselkurse werde in einem Händlerinformationssystem alle 1–3 Sekunden an die geänderten Marktdaten angepasst. Dies erlaubt die Nutzung der Wechselkursinformation für kurzfristige Kauf- oder Angebotsentscheidungen. (negativ): Die Währungswechselkurse werde in einem Händlerinformationssystem mit 30 Sekunden Verspätung an die geänderten Marktdaten angepasst. Die Wechselkursinformationen können nicht mehr für kurzfristige Kauf- oder Angebotsentscheidungen herangezogen werden.
2.2.3.14 Verständlichkeit (understandability) Informationen sind verständlich, wenn sie unmittelbar von den Anwendern verstanden und für deren Zwecke eingesetzt werden können.
Stammdaten (positiv) Der Wohnort eines Kunden, an den Ware gesendet werden soll, ist als Adresse „Enge Gasse 17, 49152 Frankheim“ erfasst. (negativ) Wohnort eines Kunden, an den Ware gesendet werden soll, ist als GPS- Koordinate „642.85/156.50“ erfasst. Bewegungsdaten (positiv) Ein Produkt wird im Klartext „Deckenleuchte ,matt‘, 40 Watt,“ beschrieben. (negativ) Ein Produkt wird über eine Referenznummer „324-454-001“ beschrieben, die erst zusammen mit dem Produktionsdatum verständlich wird.
40
J. P. Rohweder et al.
2.2.3.15 Wertschöpfung (value-added) Informationen sind wertschöpfend, wenn ihre Nutzung zu einer quantifizierbaren Steigerung einer monetären Zielfunktion führen kann.
Der Wertschöpfungsbeitrag von Information hängt direkt davon ab, dass die Nutzung der Information (Entscheidung) einen konkreten Wert im Sinne einer monetären Zielfunktion (Gewinn, Umsatz) hat. Der Wertschöpfungsbeitrag der Information bemisst sich dann an der Differenz zwischen dem Wert der Zielfunktion, der ohne die Information erreichbar wäre, und dem Wert, der durch die Nutzung der Information erreichbar ist. Da Informationen auch falsch genutzt oder (irrtümlich) ignoriert werden können, ist der Wertschöpfungsbeitrag einer Information auch dann gegeben, wenn sie nicht genutzt wird. Siehe auch die Anmerkung zu Relevanz (relevancy). Stammdaten Angaben zu Personen, die potenzielle Kunden sind, in Bezug auf die Zielfunktion Umsatz: (positiv) Der Nachname hat eine hohe Wertschöpfung, da durch die personalisierte Ansprache bei Direktmarketing der Erfolg (z. B. Bestellwahrscheinlichkeit, Umsatz) deutlich gesteigert werden kann. (negativ) Geschlechtsangaben haben eine niedrige Wertschöpfung, wenn gleichzeitig Anrede (Herr/Frau) und Vorname bekannt sind. Bewegungsdaten Dokumentation eines Gesprächs in einem Call-Center in Bezug auf die Zielfunktion Reklamationsbearbeitung für Umsatz/Kundenretention: (positiv) Die Wertschöpfung eines Gesprächsprotokolls zu einer Produkt-Reklamation ist hoch, wenn durch die Reaktion auf die Reklamation ein Kunde gehalten werden kann. (negativ) Die Wertschöpfung eines Gesprächsvermerks, in dem nur Datum und Uhrzeit vermerkt sind, ist ohne Vermerk des Gesprächsinhalts, Name und Kontaktdaten des Anrufers sehr gering.
2.2.3.16 Vollständigkeit der IQ-Dimensionen Die genannten 15 IQ-Dimensionen beschreiben die Anforderungen an Information aus Anwendersicht vollumfänglich. Es gibt jedoch einige Aspekte der Informationsqualität, die von Anwendern als sehr wichtig eingestuft werden, aber auf den ersten Blick scheinbar nicht durch die genannten IQ-Dimensionen abgedeckt werden. Hierzu zählt das Thema Dubletten bzw. Redundanzen (mehrfach vorhandene und veraltete Datensätze). Dass Dubletten und Redundanzen per se keine relevanten oder wertschöpfenden Daten für den Informationsnutzer darstellen, liegt auf der Hand. Dieser Aspekt wird durch die IQ-Dimension Wertschöpfung abgedeckt. Meist enthalten die Datensätze einer Dublettengruppe keine identischen Werte, obwohl sie dasselbe reale Objekt
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
41
beschreiben. Dieser Umstand erschwert das Auffinden von Dubletten und rührt daher, dass einige dieser Datensätze in einem oder mehreren Datenfeldern eine der IQ-Dimensionen Fehlerfreiheit (z. B. Tippfehler), Aktualität (z. B. neue Adresse nach Umzug), einheitliche Darstellung (z. B. „J.S.Bachstr.“ vs „Johann-Sebastian-Bach-Str.“) oder Vollständigkeit verletzen. Als weiteres Thema ist die Sicherheit in vielerlei Hinsicht ein wichtiger Aspekt bei der Beurteilung von Informationen und Informationssystemen. Allerdings können alle Teilaspekte von Sicherheit als technische Hilfsmittel angesehen werden, die zu einer Qualitätssteigerung in einer oder mehreren der 15 IQ-Dimensionen führen und somit auch durch diese erschöpfend bewertet und beschrieben werden können. Z. B. stellt die Sicherheit vor unbefugtem Zugriff durch exklusive Kennworte eine Voraussetzung für die Wertschöpfung durch die exklusive Nutzung der Information dar. Dieser Aspekt der Sicherheit wird also durch die IQ-Dimension Wertschöpfung erklärt. Die folgenden datenschutzrechtlichen Sicherheitsaspekte stellen Voraussetzungen für die Verfügbarkeit von Daten her bzw. sicher, sind aber keine eigenständigen IQ-Dimen sionen. Zum ersten stellt die Sicherheit vor unbefugtem Zugriff von personenbezogenen Daten die gesetzliche Voraussetzung für die Speicherung derartiger Daten dar. Und nur durch die Speicherung kann die Zugänglichkeit sichergestellt werden. Zum zweiten wird die Sicherheit vor Datenverlust zum Beispiel durch Notfallkonzepte für Serverfarmen erhöht und damit die dauerhafte Zugänglichkeit von Daten gewährleistet werden.
2.3
Zusammenfassung und Ausblick
Informationsqualität ist ein hochkomplexes Thema, das je nach Anwendungssituation und Problemstellung durch unterschiedliche Begriffe beschrieben werden kann. In dem vorliegenden Beitrag wird ausgehend von den Anforderungen der Informations-Nutzer (fitfor-use Konzept) ein schlüssiges, umfassendes und überschneidungsfreies Konzept zur Beschreibung von Informationsqualität anhand von 15 IQ-Dimensionen vorgeschlagen. Ziel ist, die Kommunikation über Themen des IQ-Managementes durch eindeutige und einheitliche Begrifflichkeiten zu vereinfachen und zu verbessern. Durch Beispiele werden die Definitionen operationalisiert, ohne dass durch die Vorgabe von Metriken eine Einschränkung auf messbare IQ-Dimensionen erfolgt. Dieses Konzept stellt eine Grundlage des Managements von Informationsqualität in Unternehmen dar. Voraussetzung für den sinnvollen Einsatz der IQ-Dimensionen ist, dass die Anforderungen an die Informationsqualität vom jeweiligen Anwender genau definiert werden. Einen allgemeingültigen Vorschlag hierzu kann es nicht geben, da jedes Unternehmen und sogar jede Organisationseinheit eines Unternehmens sehr unterschiedliche Anforderungen an Informationen hat. Eine prozessübergreifende Sicherstellung einer guten IQ kann nur erreicht werden, wenn die jeweiligen Datenkonsumenten/verwender/nutzer an den Schnittstellen ihre relevanten IQ-Dimensionen genau mit ihren Anforderungen unterlegen und diese auch aktuell halten. Damit hat man die Möglichkeit, die Messgegen-
42
J. P. Rohweder et al.
stände zur Bewertung der IQ klar zu strukturieren und kann damit sogar ein Benchmarking innerhalb eines Unternehmens durchführen. So kann innerhalb des Prozessablaufes über verschiedene Organisationseinheiten hinweg eine steigende oder fallende IQ nachvollzogen werden. Die 15 IQ-Dimensionen und 4 IQ-Kategorien basieren auf Ergebnissen einer Umfrage unter IT-Nutzern in den USA im Jahr 1996 und können deshalb einen Praxisbezug für sich in Anspruch nehmen. Allerdings haben sich die technischen Umfeldbedingungen in den letzten 11 Jahren grundlegend geändert und damit auch die Anwendungsmöglichkeiten für Informationssysteme. Vor diesem Hintergrund erscheint es sinnvoll, eine erneute Erhebung unter IT-Nutzern durchzuführen, um zu prüfen, ob das vorliegende Konzept immer noch umfassend ist und alle relevanten Aspekte der Informationsqualität aus Anwendersicht widerspiegelt. Es wäre dann auch wünschenswert, eine Umfrage unter deutschsprachigen IT-Nutzern durchzuführen, um die gewählte Begrifflichkeit durch statistische Methoden abzustützen.
Literatur Eppler, M. J.; Wittig, D.: Conceptualizing Information Quality: A Review of Information Quality Frameworks from the Last Ten Years. In: Proceedings of the International MIT Conference on Information Quality, Cambridge, 2000. Hildebrand, K.: Stammdatenqualität – der Schlüssel für optimale Geschäftsprozesse. In: ISreport, 10. Jg., 2006, Heft 11, S. 17–19 Hinrichs, H.: Datenqualitätsmanagement in Data Warehouse-Systemen. Diss., Oldenburg, 2002 Lee, Y. W.; Pipino, L. L.; Funk, J. D.; Wang, R. Y.: Journey to Data Quality. MIT Press, Cambridge, 2006 Naumann, F.; Rolker, C.: Assessment Methods for Information Quality Criteria. In: Proceedings of the International MIT Conference on Information Quality, Cambridge, 2000. Wang, R. Y.; Strong, D. M.: Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of Management Information Systems, 12. Jg., 1996, Heft 4 (Spring), S. 5–34
Dr. Jan P. Rohweder Von 2002 bis 2015 leitete Dr. Rohweder das Kunden-Database-Management der Roche Diagnostics Deutschland GmbH, Mannheim, und verantwortete mit einem Team von 14 Mitarbeitenden das Qualitätsmanagement der Kundenstammdaten im Vertrieb Deutschland. In dieser Zeit hat er Methoden für die Messung der Qualität von Stammdatenbeständen sowie Controlling-Konzepte für das Management von Informationsqualität entwickelt. Er war Vorstand der dgiq und häufiger Referent auf Fachkonferenzen zum Thema Informationsqualität. Seit 2015 ist er verantwortlich für das Qualitätsmanagement-System der Roche Diagnostics Deutschland GmbH, das zertifiziert ist nach der ISO-Norm 13485 für Unternehmen im Markt für Medizinprodukte.
2 Informationsqualität – Definitionen, Dimensionen und Begriffe
43
Gerhard Kasten ist seit 35 Jahren bei der Deutschen Post tätig. Er war in verschiedenen Funktionen auf lokaler und regionaler Ebene für die Qualität und Wirtschaftlichkeit der Brief- und Paketsortierung und der Briefzustellung verantwortlich. Dabei arbeitete er bei der Einführung eines Total Quality Management Konzeptes und verschiedener Qualitätsmeßsysteme mit, sowie bei Qualitätsprüfungen von Briefsortierzentren und Zustellstützpunkten. Seit Anfang 2000 wirkt er als „Gruppenleiter Datenqualitätsmanagement“ mit seinem Team an der Sicherstellung der Datenqualität von IT-Systemen des Briefdienstes mit. Er war über 10 Jahre Mitglied der Deutschen Gesellschaft für Informations- und Datenqualität DGIQ e.V. Dirk Malzahn studierte an der Ruhr-Universität Bochum Mathematik, Elektrotechnik und Informatik. Nach seinem Abschluss als Diplom-Mathematiker war er 10 Jahre lang für die Elektrobandsparte der ThyssenKrupp AG tätig, zuletzt als Leiter IT/Organisation. Seit Juli 2001 berät er Unternehmen unterschiedlicher Größenordnung und Branchen in den Bereichen Qualitätsmanagement und Prozessoptimierung. Dirk Malzahn leitet die Bereiche Qualitätsmanagement und Forschung bei der OrgaTech GmbH, Lünen und ist Geschäftsführer des Tochterunternehmens ACCEL GmbH. Er ist seit vielen Jahren Dozent an der Technischen Akademie Esslingen zum Thema Softwarequalität und hat einen Lehrauftrag an der Fakultät für Informatik der Fachhochschule Dortmund. Mit seinem Schwerpunktthema Qualität ist Dirk Malzahn auf den maßgeblichen nationalen und internationalen Tagungen präsent, und arbeitet aktuell an mehreren Fachbuchprojekten in Deutschland, Australien und den USA mit. Dirk Malzahn lebt mit seiner Frau und seinen beiden Töchtern in Bochum. Andrea Piro studierte Soziologie, Politik und Medienwissenschaften mit dem Schwerpunkt Organisationssoziologie an der Heinrich-Heine-Universität in Düsseldorf. Bereits während ihres Studiums arbeitete sie an einem Datenqualitätsprojekt einer Bank mit. Nach dem Studienabschluss arbeitete sie sieben Jahre im Datenqualitätsmanagement einer Landesbank. Seit 2008 ist sie Corporate Data Quality Manager in einem renommierten deutschen Rückversicherungsunternehmen. Schwerpunkte ihrer Arbeit sind das Prozess-Risikomanagement, das Daten-qualitätsmanagement und das strategische Risikomanagement. Joachim Schmid ist Leiter der Software-Entwicklungsabteilung bei der FUZZY! Informatik AG und verantwortlich für die Entwicklung von Werkzeugen für Datenqualitätsmanagement. Er studierte Informatik an der Universität Karlsruhe. Nachdem er bei T-Systems als Berater in Data Warehouse Projekten tätig war, wechselte er 1999 zur FUZZY! Informatik AG. Hier war er zunächst für Qualitätssicherung und Standards zuständig und maßgeblich an der Weiterentwicklung des FUZZY! DataCare® Process, einem Vorgehensmodell für Datenqualitätsprojekte, beteiligt. Joachim Schmid ist einer von weltweit 10 Absolventen des IQ-2 Kurs für Information Quality Professionals am MIT in Boston und Mitglied in der Deutschen Gesellschaft für Informations- und Datenqualität e.V. (dgiq).
Teil II Methoden – Techniken – Tools – Regelwerke/ Standards
3
Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement Bernd Heinrich und Mathias Klier
3.1
Einleitung
Für eine ökonomische Betrachtung der Datenqualität (DQ) und insbesondere die Planung von DQ-Maßnahmen unter Kosten-Nutzen-Aspekten sind DQ-Metriken unverzichtbar (vgl. z. B. Heinrich und Klier 2006; Naumann 2007; Pipino et al. 2002). Deswegen wird im Folgenden die Fragestellung aufgegriffen, wie DQ zweckorientiert und adäquat quantifiziert werden kann. Dazu werden Metriken entwickelt und vorgestellt, die zum einen eine quantitative Analyse der zum Messzeitpunkt vorhandenen DQ ermöglichen sollen, um Handlungsbedarfe zu identifizieren. Zum anderen sollen Auswirkungen auf die DQ, wie z. B. zeitlicher Verfall oder die Durchführung von DQ-Maßnahmen, zielgerichtet – durch Vergleich des DQ-Niveaus zu zwei oder mehreren Messzeitpunkten – untersucht werden können. Die Identifikation und Klassifikation von DQ-Dimensionen wird in einer Vielzahl von wissenschaftlichen und praxisorientierten Veröffentlichungen thematisiert (vgl. z. B. Wang und Strong 1996; English 1999; Eppler 2003; Helfert 2002; Hinrichs 2002; Lee et al. 2002; Jarke und Vassiliou 1997; Redman 1996). Nachfolgend werden die DQ- Dimensionen Vollständigkeit, Fehlerfreiheit, Konsistenz und Aktualität näher untersucht und mit entsprechenden Metriken versehen. Diese Dimensionen werden zum einen in wissenschaftlichen Veröffentlichungen besonders intensiv diskutiert. Zum anderen spielen die genannten Dimensionen aber auch in der Praxis eine wichtige Rolle: So fanden sich Vollständigkeit, Fehlerfreiheit, Konsistenz sowie Aktualität beispiels-
B. Heinrich (*) · M. Klier Institut für Wirtschaftsinformatik, Produktionswirtschaft und Logistik, Universität Innsbruck, Innsbruck, Deutschland E-Mail: [email protected]; [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_3
47
48
B. Heinrich und M. Klier
weise in einer Studie von Helfert, die unter 25 größeren Unternehmen in Deutschland, Österreich und der Schweiz durchgeführt wurde, allesamt unter den fünf meist genannten DQ-Dimensionen wieder (vgl. Helfert 2002). Neben der Selektion von betrachteten DQ-Dimensionen wird zudem im Folgenden die „fachliche“ DQ fokussiert, die hinsichtlich der Spezifikation des Datenmodells weitgehend automatisiert und objektivierbar gemessen werden soll (vgl. spezifikationsorientierte DQ bzw. Konformitätsqualität nach (Juran 1999) und (Seghezzi 1996)). Inwiefern den Anforderungen der Datenverwender bei der Spezifikation des Informationssystems Rechnung getragen wurde, ist dagegen den Bereichen Anforderungsmanagement und Bedarfsanalyse zuzurechnen und kann vor allem mittels Fragebögen und Interviews untersucht werden. Dieser Aspekt wird hier ebenso wie beispielsweise die Qualität der Datenrepräsentation, die eher auf die „technische“ DQ im Sinne von Datenformat und Datenspeicherung abzielt, nicht weiter betrachtet. Die Zusammenhänge zwischen DQ-Metriken und der Planung von DQ-Maßnahmen im Rahmen eines ökonomisch orientierten DQ-Managements lassen sich anhand des DQ-Regelkreises graphisch veranschaulichen (siehe Abb. 3.1): Den Regler, über den in den Regelkreis eingegriffen werden kann, stellen die DQ- Maßnahmen dar. Die Durchführung von DQ-Maßnahmen soll dabei eine Verbesserung der DQ – gemessen anhand der Metriken – zur Folge haben, wodurch ein entsprechender ökonomischer Nutzen resultiert. Ausgehend von einem bestimmten DQ-Niveau kann umgekehrt ebenfalls mithilfe der Metriken ex ante bzw. ex post die Steigerung der DQ durch entsprechende Maßnahmen abgeschätzt bzw. gemessen werden. Werden ökonomische Maßstäbe zugrunde gelegt, muss jedoch die Auswahl der DQ-Maßnahmen unter Berücksichtigung von Kosten-Nutzen-Gesichtspunkten erfolgen (vgl. z. B. Campanella 1999; Feigenbaum 1991; Machowski und Dale 1998; Shank und Govindarajan 1994). Beispielsweise würde man bei zwei zu bewertenden, sich ausschließenden Maßnahmen, aus denen
Abb. 3.1 Datenqualitätsregelkreis
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
49
(annähernd) der gleiche ökonomische Nutzen resultieren würde, nur die kostengünstigere in Betracht ziehen. Im nächsten Abschnitt werden zunächst die allgemeinen Anforderungen an DQ- Metriken formuliert, bevor im darauf folgenden Abschnitt ein kurzer Überblick über ausgewählte Ansätze zur Quantifizierung von DQ gegeben wird. Im Anschluss daran werden Metriken für die vier oben genannten DQ-Dimensionen entwickelt sowie deren Eigenschaften diskutiert. Bevor abschließend die Ergebnisse zusammengefasst und weiterer Forschungsbedarf identifiziert werden, soll eine kurze Anwendung der Metrik für Aktualität im Customer Relationship Management eines Mobilfunkanbieters einen Einblick geben, wie die Metriken im Rahmen eines ökonomisch orientierten DQ-Managements genutzt werden können.
3.2
Anforderungen an Datenqualitätsmetriken
Um eine wissenschaftliche Fundierung zu gewährleisten und gleichzeitig eine praktische Anwendung zu ermöglichen, werden nachfolgend Anforderungen an DQ-Metriken definiert (in Teilen ähnliche Anforderungen finden sich auch bei (Even und Shankaranarayanan 2005 und Hinrichs 2002): • [Normierung] Um die Interpretierbarkeit und Vergleichbarkeit der Metrikergebnisse zu gewährleisten, ist eine geeignete Normierung der Metrikergebnisse zu fordern. • [Kardinalität] Um eine Analyse der zeitlichen Entwicklung der Metrikergebnisse (DQ-Niveau) und eine ökonomische Bewertung von Maßnahmen zu unterstützen, ist die Kardinalität der Metriken erforderlich (vgl. Bamberg et al. 2007). • [Sensibilisierbarkeit] Um das DQ-Niveau zielgerichtet messen zu können, ist es notwendig, dass die Metriken für eine konkrete Anwendung sensibilisiert und für den jeweiligen Zweck, welcher der Messung zugrunde liegt, konfiguriert werden können. • [Aggregierbarkeit] Um bei Zugrundelegung eines relationalen Datenbankschemas einen flexiblen Einsatz zu ermöglichen, soll die Metrik Ergebnisse auf Attributwert-, Tupel-, Relationen- sowie Datenbankebene liefern können. Dabei muss jedoch die Aggregierbarkeit der Metrikergebnisse auf einer Ebene zur nächst höheren Ebene gewährleistet sein. • [Fachliche Interpretierbarkeit] In der praktischen Anwendung reicht in der Regel die bloße Normierung und Kardinalität der Metriken nicht aus. Vielmehr müssen die resultierenden Metrikergebnisse auch fachlich interpretierbar und reproduzierbar sein. Auf Basis dieser Anforderungen lassen sich existierende Beiträge (beispielsweise Ballou et al. 1998; English 1999; Helfert 2002; Hinrichs 2002; Lee et al. 2002; Naumann et al. 2004; Redman 1996; Wang et al. 1995) analysieren. Im folgenden Abschnitt wird kurz auf ausgewählte Beiträge eingegangen.
50
3.3
B. Heinrich und M. Klier
Bisherige Beiträge zur Messung von Datenqualität
In der Literatur findet sich eine ganze Reihe von Ansätzen zur Quantifizierung von DQ, die sich neben den jeweils fokussierten DQ-Dimensionen vor allem in den zugrunde liegenden Messverfahren unterscheiden (vgl. z. B. Ansätze in Wang et al. 1995). So existieren nach (Helfert 2002) sowohl Verfahren, die auf der subjektiven Qualitätseinschätzung der Datenverwender beruhen, als auch Ansätze, die auf einer direkten Analyse des Datenbestands oder einer prozessorientierten Betrachtungsweise basieren. In der Folge werden ausgewählte Ansätze vorgestellt. Am Massachusetts Institute of Technology (MIT), das den Begriff des „Total Data Quality Managements“ geprägt hat, wurde zur Messung der DQ die AIM Quality (AIMQ)-Methode entwickelt (vgl. z. B. Lee et al. 2002). Diese besteht aus drei Komponenten. Die erste ist das Product-Service-Performance-Model, das eine vorgefertigte Menge von DQ-Dimensionen in vier Quadranten aufteilt. Unterschieden wird dabei zum einen auf Grundlage der Messbarkeit des Kriteriums. Dabei wird differenziert, ob die Konformität hinsichtlich einer formalen Spezifikation (z. B. Vollständigkeit) oder einer subjektiven Erwartung des Datennutzers (z. B. Interpretierbarkeit) bestimmt werden kann. Zum anderen wird nach der Qualität des Datenprodukts (z. B. Fehlerfreiheit) und des Services (z. B. Rechtzeitigkeit) unterschieden. Die Messung der DQ erfolgt dann, basierend auf obigem Modell, mittels eines zweiten Bestandteils in Form einer Befragung der Endanwender nach deren Qualitätseinschätzungen. Als dritte Komponente von AIMQ werden mit Benchmark-Gap- und Role-Gap-Analyse eine anwendungsunabhängige sowie eine anwendungsabhängige Qualitätsanalyse der Messergebnisse vorgeschlagen. Problematisch bei der AIMQ-Methode ist, dass die Messung der DQ in der Regel auf einer subjektiven Qualitätseinschätzung basiert und anhand von Befragungen vorgenommen wird. Dieses Vorgehen ermöglicht in der Regel keine automatisierte, objektivierbare und beliebig reproduzierbare Analyse der DQ bzw. der erhaltenen Ergebnisse der Messung. Zudem ist eine zielgerichtete und fokussierte Messung der DQ auf den konkreten Anwendungszweck und -kontext hin nicht explizit vorgesehen, auch wenn diese durch die Befragung der Datennutzer in der Role-Gap-Analyse natürlich implizit berücksichtigt wird. Da die Auswertung der Befragungsergebnisse über alle Datennutzer erfolgt, werden jedoch deren subjektive Qualitätseinschätzungen und somit die Anwendungskontexte vermischt. Dies kann zu Bewertungsproblemen führen, da die Nutzer in der Regel unterschiedliche Zielsetzungen verfolgen. Ein anderes hier zu nennendes Verfahren ist der Ansatz von Hinrichs. Dieser entwickelt Metriken für ausgewählte DQ-Dimensionen, um die Qualität eines Datenbestandes bewerten zu können (vgl. Hinrichs 2002). Das zugrunde liegende Verfahren zur Quantifizierung der DQ ist dabei sehr aussichtsreich, da eine objektivierbare, zielgerichtete Bewertung angestrebt und eine weitgehend automatisierte Messung ermöglicht wird. Allerdings können beim Praxiseinsatz durchaus auch Probleme auftreten, da die vorgestellten Metriken nur schwer interpretierbar sind, was eine Begründung und Erklärung der M essergebnisse in der Diskussion beispielsweise mit der Fachseite erschweren dürfte. So basieren einige
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
51
Metriken, wie z. B. diejenige für die DQ-Dimension Fehlerfreiheit, auf der Bildung von Quotienten der Form
1 Abstandsbewertung + 1′
wobei die Abstandsbewertung aus dem Intervall [0; ∞] angibt, inwieweit ein Attributwert im Informationssystem von der entsprechenden Ausprägung der Realwelt-Entität abweicht. Dadurch wird zwar der Wertebereich der Metrik auf das Intervall [0; 1] beschränkt, jedoch geht durch die Quotientenbildung die Interpretierbarkeit der resultierenden Werte verloren (vgl. im Detail Heinrich et al. 2007). Zudem hängt die Größenordnung der Werte stark vom verwendeten Abstandsmaß und dessen Eigenschaften ab, was zusätzlich eine Vergleichbarkeit der Ergebnisse erschwert. Der Ansatz von Helfert unterscheidet grundsätzlich – basierend auf den Ausführungen von (Seghezzi 1996 und Juran 1999) – die beiden Qualitätsfaktoren Designqualität und Ausführungsqualität (vgl. Helfert 2002). Dabei bezeichnet die Designqualität den Grad der Übereinstimmung zwischen den Anforderungen der Datennutzer und der entsprechenden Umsetzung in der Spezifikation des Informationssystems. Die Ausführungsqualität, die Helfert schwerpunktmäßig betrachtet, drückt dagegen aus, in welchem Maße diese Spezifikation durch das Informationssystem (tatsächlich) eingehalten wird. Diese Unterscheidung ist im Hinblick auf die Messung der DQ sinnvoll, da somit die (subjektive) Einschätzung der Konformität zwischen dem spezifizierten Datenangebot und dem Datenbedarf des Nutzers von der (objektivierbaren) Analyse der Übereinstimmung von vorhandenem und spezifiziertem Datenangebot getrennt wird. Den zentralen Aspekt bei Helfert stellt die Integration des DQ-Managements in die Metadatenverwaltung dar, die ein weitgehend automatisiertes und werkzeugunterstütztes Management der DQ ermöglichen soll. Die Qualitätsanforderungen sind dabei durch eine Regelmenge repräsentiert. Die Analyse der DQ basiert dann hauptsächlich auf der (automatisierten) Überprüfung derartiger Regeln, d. h. anhand der Analyse werden Qualitätsaussagen im Sinne von
Widerspruchsfreiheit = 1 −
Anzahl verletzterBedingungen Anzahl spezifizierter Bedingungen
abgeleitet. Derartige Qualitätsaussagen sollen in aggregierter Form als Größen zur Quantifizierung der DQ Verwendung finden und somit Auskunft über die Qualität des Datenbestands geben. Insgesamt stellt Helfert in seinen Ausführungen jedoch keine konkreten Metriken vor, sondern hat vielmehr den Anspruch, ein ganzheitliches, proaktives DQ-Management auf einer konzeptionellen Ebene zu beschreiben. Neben den wissenschaftlichen Ansätzen sollen auch die beiden bekannten Konzepte von English und Redman aus der Praxis genannt werden. English verfolgt dabei die Total Quality data Management-Methode (vgl. English 1999), die an die Konzepte des Total Quality Managements angelehnt ist. Dabei führt er Vorgehensmuster zur Messung der Datendefinitions- und Architekturqualität (das Informationssystem betreffend) sowie der
52
B. Heinrich und M. Klier
Qualität der Datenwerte und der Datenrepräsentation an. Obwohl das Verfahren in einer Reihe von Praxisprojekten Verwendung gefunden hat, gibt es hier kein allgemeines, dokumentiertes Vorgehen zur Quantifizierung der DQ. Vielmehr wird der gesamte DQ- Regelkreis auf einer konzeptionellen Ebene betrachtet. Redman verfolgt im Gegensatz zu English einen stark prozessorientierten Ansatz und kombiniert Messverfahren für gezielt ausgewählte Abschnitte im Informationsfluss mit dem Konzept der statistischen Qualitätskontrolle (vgl. Redman 1996). Konkrete Metriken zur Quantifizierung der DQ werden dabei allerdings nicht entwickelt. Da die bestehenden Ansätze die zuvor definierten Anforderungen jedoch nicht oder nicht vollständig erfüllen – auch infolge unterschiedlicher Zielsetzungen, da sie zum Teil beispielsweise die subjektive Qualitätseinschätzung der Datenverwender fokussieren –, wird im Folgenden ein eigener Ansatz vorgestellt, der einen Beitrag zur wissenschaftlichen Fundierung sowie zur praktischen Einsetzbarkeit von DQ-Metriken leisten will.
3.4
Metriken und Messverfahren für DQ
Die im Folgenden vorgestellten Metriken für die Dimensionen Vollständigkeit, Fehlerfreiheit, Konsistenz und Aktualität werden – orientiert an der Anforderung der Aggregierbarkeit – jeweils für die Attributwert-, Tupel-, Relationen- sowie Datenbankebene definiert. Dabei wird jede Metrik „bottom up“ entwickelt – d. h. eine Metrik auf Ebene n + 1 (z. B. Vollständigkeit auf Tupelebene) basiert auf der entsprechenden Metrik auf Ebene n (Vollständigkeit auf Attributwertebene).
3.4.1 Metrik für die DQ-Dimension Vollständigkeit Unter Vollständigkeit wird hier die Eigenschaft verstanden, dass die Attribute im Informationssystem mit Werten belegt sind, die (semantisch) vom Wert NULL abweichen. NULL ist dabei kein erforderlicher oder definierter Attributwert, sondern lediglich ein Platzhalter für die Nichtbefüllung. Die Metriken auf Attributwert-, Tupel- sowie Relationenebene sollen dabei in Anlehnung an Hinrichs (vgl. Hinrichs 2002) definiert werden. Zusätzlich wird darauf eingegangen, welche Probleme bei der praktischen Anwendung der Metrik auftreten können und wie diesen zu begegnen ist. Auf Datenbankebene muss die Metrik zudem anders ausgestaltet werden, um eine objektivierbare Messung zu ermöglichen. Auf Attributwertebene wird die Metrik für Vollständigkeit QVollst.(w) folgendermaßen definiert, wobei w einen Attributwert im Informationssystem symbolisiert:
aquivalent 0 falls w = NULL oder w zu NULL (semantisch) QVollst. ( w ) : = sonst 1
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
53
Die Qualität eines Attributwertes wird also hinsichtlich Vollständigkeit mit dem Minimalwert von null bewertet, falls das entsprechende Attribut nicht befüllt ist oder einen zu NULL (semantisch) äquivalenten (Default-)Wert enthält (z. B. Dummy-Wert). Ansonsten ergibt sich der Wert der Metrik auf Attributwertebene zu eins. Probleme bei der Metrik können dann auftreten, wenn ein Attributwert nicht aus Mangel an verfügbaren Daten mit NULL belegt ist, sondern, weil der entsprechende Wert in der Realwelt gar nicht existiert (z. B. Name des Ehepartners bei ledigen Personen). In diesem Fall wäre das entsprechende Attribut mit dem Wert NULL in der Tat richtig belegt und die Bewertung hinsichtlich Vollständigkeit müsste den Wert eins und nicht den Wert null liefern. Schwierigkeiten dieser Art können umgangen werden, indem Indikatoren dafür eingeführt werden, dass der entsprechende Wert in der Realwelt nicht existiert. So kann beispielsweise das Attribut Name des Ehepartners (automatisiert) mit „nicht verheiratet“ belegt werden, falls bei der Erfassung des Familienstandes ledig angegeben wird. Somit ist das entsprechende Attribut in der Datenbank befüllt und die obige Metrik liefert auf Attributwertebene den korrekten Wert eins. Vor der ersten Anwendung der Metrik müssen die Daten somit hinsichtlich der vorgestellten Problematik untersucht und ggf. auftretende Schwachstellen beseitigt werden. Hierbei wäre beispielsweise an eine Vervollständigung des Datenbestands mit Indikatoren zu denken, sofern dies technisch sowie fachlich möglich und sinnvoll ist und keine Seiteneffekte auf Ergebnisse anderer Metriken besitzt. Im Folgenden wird, basierend auf den obigen Ausführungen zur Attributwertebene, die Metrik auf Tupelebene formuliert. Sei hierbei T ein Tupel mit den Attributwerten T.A1, T.A2, …, T.A|A| für die Attribute A1, A2, …, A|A| und gi ∈ [0; 1] die relative Wichtigkeit von Ai in Bezug auf Vollständigkeit. Dann ergibt sich unter Verwendung der Metrik auf Attributwertebene die Metrik auf Tupelebene als gewichtetes arithmetisches Mittel: A
∑ QVollst . ( T ⋅ Ai ) gi
QVollst . ( T ) : = i =1
A
∑ gi
i =1
Die Vollständigkeit eines Tupels wird folglich basierend auf der Vollständigkeit der enthaltenen Attributwerte berechnet. Dabei ist es möglich, diese je nach Zielsetzung mit Gewichtungen gi zu versehen. Dies ist insofern sinnvoll, da je nach zugrunde liegendem Zweck in einem Anwendungskontext die Attribute von unterschiedlicher Bedeutung sind. So sind z. B. für die Durchführung von Mailingkampagnen Attribute wie Name, Vorname, Adresse oder E-Mail besonders relevant, wohingegen bei telefonischen Kampagnen vor allem die Telefonnummer und nicht Adresse und E-Mail von Bedeutung sind. Im nächsten Schritt wird die Metrik auf Relationenebene definiert. Sei hierbei R eine nicht leere Relation oder ein mehrelementiger View. Dann ergibt sich die Vollständigkeit der Relation R auf Basis des arithmetischen Mittels der Vollständigkeitsbewertungen für die einzelnen Tupel Tj aus R (j = 1, 2, …, |T|) wie folgt:
54
B. Heinrich und M. Klier T
QVollst . ( R ) :=
∑ QVollst . ( T j ) j =1
T
Durch die Verwendung des arithmetischen Mittels werden dabei alle Qualitätsbewertungen auf Tupelebene gleich gewichtet und aufsummiert. Jedem enthaltenen Tupel kommt somit die gleiche Bedeutung zu. Dies ist deswegen sinnvoll, da in der Regel in einem Anwendungskontext die einzelnen, bereits selektierten Tupel (bspw. verschiedene Kundentupel in einer Marketingkampagne) nicht in unterschiedlicher Art und Weise behandelt oder genutzt werden. Sollte dies im Einzelfall notwendig sein, so sind ebenfalls Gewichtungsfaktoren nach obigem Muster denkbar. Für die Definition der Metrik für Vollständigkeit auf Datenbankebene sei D eine Datenbank, die sich als disjunkte Zerlegung der Relationen Rk (k = 1, 2, …, |R|) darstellen lässt – d. h., die gesamte Datenbank lässt sich in paarweise überschneidungsfreie Relationen Rk zerlegen, so dass jedes Attribut des Informationssystems in genau einer der Relationen enthalten ist (eine mathematische Formulierung dieses Sachverhaltes ist D = R1 ∪ R2 ∪ … ∪ R|R| ∧ Ri ∩ Rj = ∅ ∀i ≠ j). Weiter sei gk die relative Wichtigkeit der Relation Rk in Bezug auf die Dimension Vollständigkeit. Dann wird die Vollständigkeit der Datenbank wiederum auf Basis der Vollständigkeit der Relationen Rk (k = 1, 2, …, |R|) definiert: R
QVollst . ( D ) :=
∑ QVollst . ( Rk ) gk
k =1
R
∑ gk
k =1
Über die Gewichtungsfaktoren gk ∈ [0; 1] ist es dabei im Vergleich zu Hinrichs, bei dem sich die Vollständigkeit der Datenbank als ungewichtetes arithmetisches Mittel ergibt, möglich, die relative Wichtigkeit der einzelnen Relationen gemäß der jeweiligen Zielsetzung zu berücksichtigen. Das Vorgehen von Hinrichs hat zur Folge, dass hinsichtlich der verfolgten Zielsetzung kaum relevante Relationen genauso stark in die Berechnung eingehen wie besonders wichtige Relationen. Zudem ist für den Fall, dass das ungewichtete arithmetische Mittel Verwendung findet, die Quantifizierung der Vollständigkeit auf Datenbankebene von der betrachteten Zerlegung der Datenbank abhängig. So kommt beispielsweise der Relation Rk mit k ≠ 2 bei der disjunkten Zerlegung {R1, R2, R3, …, R|R|} ein relatives Gewicht von 1/|R| zu, wohingegen dieselbe Relation bei Verwendung der disjunkten Zerlegung {R1, R2', R2'', R3 …, R|R|} mit R2' ∪ R2'' = R2 und R2' ∩ R2'' = ∅ nur mit dem Faktor 1/(|R| + 1) eingeht. Die Messung der Vollständigkeit mit Hilfe der Metrik kann in der Regel einfach mittels entsprechender SQL-Abfragen und bei Bedarf für den kompletten Datenbestand durchführt werden. Im nächsten Abschnitt wird eine Metrik für die DQ-Dimension Fehlerfreiheit vorgestellt.
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
55
3.4.2 Metrik für die DQ-Dimension Fehlerfreiheit Unter Fehlerfreiheit wird hier die Eigenschaft verstanden, dass die Attributwerte im Informationssystem den zugehörigen Ausprägungen der modellierten Realwelt-Entität entsprechen – d. h., dass die im Informationssystem abgelegten Werte mit den tatsächlichen, realen Werten übereinstimmen. Nach Würthele existieren bei der Messung der Fehlerfreiheit grundsätzlich zwei Möglichkeiten: Beim „Alles oder Nichts“-Ansatz wird bei der Überprüfung ausschließlich zwischen fehlerfrei (Attributwert stimmt vollständig mit der Ausprägung der modellierten Realwelt- Entität überein) und nicht fehlerfrei (es existiert mindestens eine Abweichung) differenziert (vgl. Würthele 2003). Im Gegensatz dazu wird beim Toleranz-Ansatz der Umfang der Übereinstimmung (beziehungsweise der Abweichung) zwischen Attributwert und Ausprägungen der modellierten Realwelt-Entität gemessen und ist damit als Analyseergebnis zulässig. So kann berücksichtigt werden, ob die entsprechenden Attributwerte nur geringfügig oder in größerem Umfang von den realen Ausprägungen abweichen. Bei der im Folgenden entwickelten Metrik kann je nach verwendetem Abstandsmaß der „Alles oder Nichts“- oder der Toleranz-Ansatz Berücksichtigung finden. Die Vorteile der vorgestellten Metrik im Vergleich zu bisherigen Ansätzen liegen dabei vor allem in der Kardinalität und Interpretierbarkeit begründet. So können die resultierenden Werte grundsätzlich als prozentualer Wert für die Fehlerfreiheit des untersuchten Datenbestands verstanden werden. Im Weiteren wird die Metrik für Fehlerfreiheit dabei aus Platzgründen nur auf Attributwertebene vorgestellt. Sie kann jedoch analog zur Metrik für Vollständigkeit ebenfalls für die anderen Ebenen formuliert werden. Sei wI ein Attributwert im Informationssystem und wR der entsprechende Attributwert in der Realwelt. Sei zudem d(wI, wR) ein domänenspezifisches, auf das Intervall [0; 1] normiertes Abstandsmaß zur Bestimmung der Abweichung zwischen wI und wR. Mögliche Abstandsmaße sind beispielsweise folgende: • Der domänenunabhängigen Abstandsfunktion
0 falls wI = wR d1 ( wI ,wR ) := sonst 1
• liegt der „Alles oder Nichts“-Ansatz zugrunde. Somit lassen sich zwei Fälle unterscheiden: Entweder der Attributwert im Informationssystem stimmt mit der Ausprägung der entsprechenden Realwelt-Entität überein (Abstand entspricht null) oder die Abweichung wird mit dem Maximalwert von eins festgelegt. • Ein Abstandsmaß, das speziell bei numerischen Attributwerten eingesetzt werden kann, ist die Abstandsfunktion
wI − w R d2 ( wI , wR ) := max wI , wR
{
α
}
,
56
B. Heinrich und M. Klier
die den Wert null ebenfalls nur bei vollständiger Übereinstimmung annimmt. Allerdings kann über den Parameter α ∈ IR+ – je nach untersuchtem Attribut und verfolgter Zielsetzung der Messung – beeinflusst werden, wie stark die Metrik auf relative Abweichungen von wI und wR reagieren soll. So kann es beispielsweise im Fall einer Marketingkampagne bei der Untersuchung des Attributs PLZ notwendig sein, dass kleine Abweichungen relativ stark ins Gewicht fallen, da hierdurch eventuell das Kundenanschreiben nicht mehr zugestellt werden kann – hier ist α < 1 zu wählen. Soll die Abstandsfunktion dagegen „toleranter“ gegenüber kleinen Abweichungen sein, ist α > 1 angebracht – wie z. B. beim Attribut Hausnummer, da die Zustellung hier trotzdem noch möglich ist. Bei Verwendung dieser Abstandsfunktion muss allerdings beachtet werden, dass die Normierung des Maßes auf das Intervall [0; 1] nur dann gegeben ist, wenn die Werte wI und wR gleiche Vorzeichen haben. Andere Abstandsmaße d(wI, wR), die es ermöglichen, die Ähnlichkeit von Zeichenketten zu bestimmen, können auf Basis von Editierabstand, Hamming-Distanz und N- Grammen gebildet werden, wobei hier zum Teil eine Normierung auf das Intervall [0; 1] notwendig ist: • Der Editierabstand dEdit.(wI, wR) ist als kleinste Menge elementarer Operationen definiert, mit denen eine Zeichenkette in eine andere transformiert werden kann, wobei Einfügen und Löschen von einzelnen Zeichen ebenfalls als elementare Operationen zu betrachten sind. Wird zusätzlich das Ersetzen von Zeichen erlaubt, spricht man von der Levenshtein-Metrik dLev.(wI, wR), die durch Hinzunehmen der Transposition (Vertauschung benachbarter Symbole) als weitere zulässige Operation zur so genannten Damerau-Levenshtein-Metrik dDa.−Lev.(wI, wR) ausgebaut werden kann, die speziell zur Tippfehlerkorrektur entworfen wurde. Bei Verwendung dieser Abstandsmaße muss der resultierende Wert noch auf das Intervall [0; 1] normiert werden. Diese Normierung kann dadurch erfolgen, dass die Werte durch das Maximum der Längen der beiden Zeichenketten wI und wR dividiert werden. • Die Hamming-Distanz dHam.(wI, wR) summiert die Anzahl der Positionen, in denen sich die beiden Zeichenketten wI und wR unterscheiden. Definitionsgemäß existiert die Hamming-Distanz dabei nur für Zeichenketten gleicher Länge – bei Strings unterschiedlicher Länge kann jedoch der jeweils kürzere mit „Dummy-Zeichen“ aufgefüllt werden, die als nicht übereinstimmend gelten. Für zwei gleich lange Strings wI und wR mit |wI| = |wR| = m ergibt sich die auf das Intervall [0; 1] normierte Hamming-Distanz zu:
dHam. ( wI , wR ) :=
{i ∈ {1, 2, … m} | w [i ] ≠ w [i ]} I
m
R
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
57
• N-Gramme betrachten das gemeinsame Auftreten von Substrings in den zu vergleichenden Zeichenketten. Ein N-Gramm ist dabei ein zusammenhängender Teil einer Zeichenkette und hat die Länge N. Für die Zeichenketten wI und wR werden dabei jeweils alle enthaltenen N-Gramme gebildet und in entsprechenden Mengen abgelegt. Danach wird die Anzahl der in beiden Mengen gleichermaßen enthaltenen N-Gramme ins Verhältnis zur Anzahl der insgesamt in NG(wI) und NG(wR) enthaltenen N-Gramme gesetzt. So ergibt sich die Abstandsfunktion, deren Wertebereich auf das Intervall [0; 1] beschränkt ist, zu: dN −Gramm ( wI , wR ) := 1 − 2 ⋅
NG ( wI ) NG ( wR ) NG ( wI ) + NG ( wR )
Basierend auf einem Abstandsmaß d(wI, wR) kann die Metrik für Fehlerfreiheit auf Attributwertebene folgendermaßen definiert werden:
QFehl . ( wI , wR ) : = 1 − d ( wI , wR )
Die Fehlerfreiheit eines Attributwertes wird somit mit dem Maximalwert von eins bewertet, falls der Attributwert im Informationssystem mit der modellierten Ausprägung der Realwelt-Entität (vollständig) übereinstimmt und das verwendete Abstandsmaß d(wI, wR) den Wert null liefert. Bei einer Abweichung zwischen wI und wR fällt der Wert der Metrik je nach verwendetem Abstandsmaß geringer aus. Allgemein ist bei Verwendung der Metrik für Fehlerfreiheit zu berücksichtigen, dass im Vorfeld möglicherweise (automatisierte) Data-Cleansing-Maßnahmen durchgeführt werden müssen. Dabei ist es insbesondere notwendig, dass eindeutig interpretierbare Abkürzungen über den gesamten Datenbestand hinweg „glatt gezogen“ und vervollständigt werden, damit die zugrunde liegenden Abstandsmaße und somit die darauf basierende Metrik richtig ausgewertet werden. Ein Beispiel für eine solche Maßnahme ist das Ersetzen der Abkürzung „Str.“ durch „Straße“. Nur durch Transformationen dieser Art kann sichergestellt werden, dass die Abstandsmaße korrekte Attributwerte auch als solche identifizieren und angemessene Ergebnisse liefern. Die Messung der Fehlerfreiheit kann dann direkt auf Basis obiger Metrik in Verbindung mit entsprechenden Abstandsmaßen zur Bestimmung der Fehlerfreiheit auf Attributwertebene erfolgen. Hierbei ist man in der Regel gezwungen, auf Stichproben zurückzugreifen und statistische Verfahren anzuwenden (vgl. z. B. Helfert 2002), da ein Abgleich zwischen den Attributwerten im Informationssystem und den tatsächlichen Ausprägungen der Realwelt-Entität erforderlich ist. Dieser Abgleich ist normalerweise nicht ohne weiteres technisch, automatisiert und mit akzeptablem Kostenaufwand für den gesamten Datenbestand durchführbar. Im Falle einer Stichprobe können jedoch bei ausreichend großem Umfang zumindest Schätzer für den Qualitätswert QFehl.(wI, wR) ermittelt und Rückschlüsse auf den gesamten Datenbestand gezogen werden. Im nächsten Abschnitt wird eine Metrik für die DQ-Dimension Konsistenz erläutert.
58
B. Heinrich und M. Klier
3.4.3 Metrik für die DQ-Dimension Konsistenz Unter Konsistenz ist die Eigenschaft der Widerspruchsfreiheit des Datenbestandes zu verstehen. Die Überprüfung basiert dabei im Folgenden auf logischen Zusammenhängen, die für die betroffene Datenmenge gelten sollen und durch die Regelmenge ℜ repräsentiert werden. Regeln, die auf statistischen Zusammenhängen beruhen und somit nur bestimmten Signifikanzniveaus genügen (d. h. im betrachteten Datenbestand ist der statistische Zusammenhang nicht notwendigerweise exakt und vollständig erfüllt), werden im Weiteren nicht betrachtet. Die Datenmenge ist demnach konsistent, wenn sie ℜ entspricht vice versa. Die Vorteile der im Weiteren vorgestellten Metrik liegen insbesondere in der Interpretierbarkeit, die durch Vermeidung der Quotientenbildung und die Wahrung der Kardinalität gewährleistet ist. Die resultierenden Werte der Metrik (auf Relationen- und Datenbankebene) sind dabei als prozentualer Anteil der untersuchten Datenmenge zu verstehen, der hinsichtlich der Regelmenge ℜ konsistent beziehungsweise regelkonform ist. Im Gegensatz zu anderen Ansätzen wird dabei auf Attributwert- und Tupelebene keine Priorisierung und Gewichtung innerhalb der Regelmenge vorgenommen, sondern lediglich zwischen konsistent und nicht konsistent im Sinne einer 0-1-Entscheidung differenziert. Dies entspricht dem obigen Verständnis von Konsistenz auf Basis logischer Zusammenhänge und verbessert die Ergebnisinterpretation. Im Weiteren wird die Metrik für Konsistenz nur auf Attributwert- und Tupelebene vorgestellt. Sie kann jedoch analog zur Metrik für Vollständigkeit ebenfalls auf Relationenund Datenbankebene definiert werden. Sei w ein Attributwert im Informationssystem und ℜ eine ℜ -elementige Menge von Konsistenzregeln, die auf das entsprechende Attribut angewendet wird. Dabei liefert jede Konsistenzregel rs ∈ ℜ (s = 1, 2, …, ℜ ) den Wert null, falls der entsprechende Attributwert der Konsistenzregel genügt. Andernfalls ergibt die Auswertung der Regel den Wert eins:
0 falls w der Konsistenzregel rs genugt rs ( w ) := 1 sonst
Daraus ergibt sich die Metrik zur Bewertung der Konsistenz eines einzelnen Attributwertes: ℜ
QKons. ( w, ℜ ) := ∏ (1 − rs ( w ) ) s =1
Diese nimmt den Wert eins an, falls der Attributwert alle in der Regelmenge ℜ spezifizierten Konsistenzregeln erfüllt (d. h. rs(w) = 0 ∀rs ∈ ℜ ). Umgekehrt ist der resultierende Wert der Metrik auf Attributwertebene null, falls mindestens eine der spezifizierten Regeln verletzt ist (d. h. ∃rs ∈ ℜ : rs(w) = 1). Als Konsistenzregel sind dabei unter anderem formalisierte Geschäftsregeln oder domänenspezifische Funktionen denkbar. Hierbei ist z. B. an Konsistenzregeln gedacht, die den Wertebereich eines Attributs überprüfen
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
59
(z. B. 1067 ≤ PLZ, PLZ ≤ 99998, PLZ ∈ {0, 1, …, 9}5 oder Familienstand ∈ {„ledig“, „verheiratet“, „geschieden“, „verwitwet“}). Auf Tupelebene ergibt sich folgendes: Sei T ein Tupel und ℜ die Menge der vorhandenen Konsistenzregeln rs (s = 1, 2, …, ℜ ), die auf das Tupel und die enthaltenen Attributwerte angewendet wird. Dann ergibt sich die Konsistenz des Tupels in Analogie zur Konsistenz auf Attributwertebene zu: ℜ
QKons. ( T , ℜ ) := ∏ (1 − rs ( T ) ) s =1
Das Ergebnis der Metrik hängt dabei zum einen von Konsistenzregeln ab, die lediglich einen einzelnen Attributwert betreffen. Zum anderen können auch Regeln einfließen, die sich auf mehrere Attributwerte oder das ganze Tupel beziehen. Die Metrik auf Tupelebene wird dabei dahingehend „bottom up“ entwickelt, dass diese auch alle Konsistenzregeln und damit auch die Bewertung der Konsistenz auf Attributwertebene umfasst. Falls somit ein Attributwert eines Tupels nicht konsistent bezüglich der Regeln auf Attributwertebene ist, so wird das betrachtete Tupel auch auf Tupelebene als nicht konsistent bewertet. Sind im Gegensatz dazu die Konsistenzregeln für alle einzelnen Attributwerte eines Tupels erfüllt, so müssen zudem auch alle Konsistenzregeln auf Tupelebene erfüllt sein, damit die Konsistenz gewährleistet ist. Ist anderenfalls mindestens eine Regel, die mehrere Attributwerte des Tupels (gleichzeitig) betrifft, nicht erfüllt, so erfolgt (insgesamt) eine Bewertung als nicht konsistent. Zusammenfassend wird ein Tupel somit nur dann als konsistent hinsichtlich der Regelmenge ℜ betrachtet, falls alle Regeln erfüllt werden (rs(T) = 0 ∀rs ∈ ℜ ). Ansonsten ergibt sich QKons.(T, ℜ ) zu null, egal ob eine Regel oder mehrere verletzt werden (∃rs ∈ ℜ : rs(T) = 1). Als Konsistenzregeln auf Tupelebene sind dabei neben denen, die bereits auf Attributwertebene zulässig sind, zusätzlich attributübergreifende Regeln und Zusammenhänge wie z. B. (Aktuelles Datum – Geburtsdatum < 16 Jahre) ⇒ (Familienstand = „ledig“) denkbar. Die Messung der Konsistenz kann wiederum direkt mit Hilfe obiger Metrik in Verbindung mit entsprechenden SQL-Abfragen zur Prüfung der Konsistenzregeln erfolgen. Die Regeln auf Attributwert- und Tupelebene können dabei unter anderem unter Einbeziehung der Fachseiten auf Basis von Wertebereichen, Geschäftsregeln und logischen Zusammenhängen generiert werden. Im folgenden Abschnitt wird die Metrik für die DQ-Dimension Aktualität entwickelt.
3.4.4 Metrik für die DQ-Dimension Aktualität Unter Aktualität wird hier die Eigenschaft der Gegenwartsbezogenheit des Datenbestandes verstanden, d. h., inwiefern die im System erfassten Werte den aktuellen Gegebenheiten in der Realwelt entsprechen und nicht veraltet sind. Die Überprüfung basiert dabei – im Gegensatz zur Fehlerfreiheit – auf wahrscheinlichkeitstheoretischen Betrachtungen, um eine automatisierte Messung zu ermöglichen. Aktualität kann in diesem Zusammen-
60
B. Heinrich und M. Klier
hang als jene Wahrscheinlichkeit interpretiert werden, mit welcher die untersuchten Datenwerte noch aktuell sind. In dieser Interpretierbarkeit liegt auch der Vorteil der entwickelten Metrik im Vergleich zu existierenden Metriken, bei denen eine (wahr schein lichkeitstheoretische) Interpretation der resultierenden Werte nicht möglich ist bzw. nicht vorgenommen wird. Die Metrik für Aktualität wird nur für die Attributwertebene vorgestellt, ist jedoch – analog zu oben – auch auf den anderen Ebenen definiert. Sei A ein Attribut, w ein entsprechender Attributwert im Informationssystem und Alter(w, A) das Alter des Attributwertes, das sich aus dem Zeitpunkt der Messung und dem Zeitpunkt der Datenerfassung errechnen lässt. Des Weiteren sei Verfall(A) die (ggf. empirisch ermittelte) Verfallsrate von Werten des Attributs A. Diese gibt den Anteil an Datenwerten des entsprechenden Attributs an, der durchschnittlich innerhalb einer Zeiteinheit inaktuell wird. Dann stellt sich die Metrik für Aktualität auf Attributwertebene wie folgt dar:
QAkt. ( w, A ) := exp ( −Verfall ( A ) ⋅ Alter ( w, A ) )
Unter der Annahme, dass die Gültigkeitsdauer der zugrunde liegenden Datenwerte exponentialverteilt mit dem Parameter Verfall(A) ist, stellt der Wert QAkt.(w, A) dabei die Wahrscheinlichkeit dar, mit welcher der vorliegende Attributwert w noch den aktuellen Gegebenheiten entspricht. Bei der Exponentialverteilung handelt es sich um eine typische Lebensdauerverteilung, die sich insbesondere im Rahmen der Qualitätssicherung bewährt hat. Bei Attributen wie z. B. Geburtsdatum oder Geburtsort, die sich in der Realwelt nie ändern, gilt Verfall(A) = 0 und die Metrik für Aktualität ergibt sich somit grundsätzlich zu eins:
QAkt. ( w, A ) = exp ( −Verfall ( A ) ⋅ Alter ( w, A ) ) = exp ( − 0 ⋅ Alter ( w, A ) ) = exp ( 0 ) = 1
Zudem wird die Aktualität von Attributwerten, die zum Betrachtungszeitpunkt neu erfasst werden – d. h. Alter(w, A) = 0 – ebenfalls mit eins bewertet:
QAkt. ( w, A ) = exp ( −Verfall ( A ) ⋅ Alter ( w, A ) ) = exp ( −Verfall ( A ) ⋅ 0 ) = exp ( 0 ) = 1
Die erneute Erfassung eines Attributwertes wird somit als Aktualisierung eines bereits vorhandenen Attributwertes interpretiert. Insgesamt ist festzuhalten, dass das Metrikergebnis und damit auch die DQ für ein bestimmtes, festes Alter umso geringer sind, je höher beim entsprechenden Attribut die Verfallsrate ist. Umgekehrt nimmt bei zunehmendem Alter die Wahrscheinlichkeit, dass der entsprechende Attributwert noch gültig ist, und somit das Metrikergebnis für die Aktualität auf Attributwertebene ab. Für die praktische Anwendung der Metrik ist es notwendig, für jedes Attribut den Parameter Verfall(A) der Wahrscheinlichkeitsverteilung festzulegen. Dieser ist als Verfallsrate zu verstehen und gibt an, welcher Datenanteil bezogen auf das jeweilige Attribut innerhalb einer Zeiteinheit inaktuell wird. Eine Verfallsrate von 0,2 drückt beispielsweise aus, dass
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
61
im Laufe einer Periode von 100 Attributwerten des entsprechenden Attributs im Durchschnitt 20 Werte inaktuell werden. Dabei kann entweder auf Erfahrungswerte, statistische Werte (bspw. veröffentlichte Scheidungsraten des Statistischen Bundesamts als Grundlage zur Schätzung der Verfallsrate des Werts „verheiratet“ des Attributs „Familienstand“) zurückgegriffen oder mittels eigener Stichprobenuntersuchungen eine Schätzung vorgenommen werden. Betrachtet man z. B. eine Stichprobe vom Umfang M und misst für die entsprechenden Ausprägungen der Realweltobjekte die Änderungs- beziehungsweise Verfallszeitpunkte zu (u = 1, 2, …, M), dann ergibt sich ein im Sinne der Statistik erwartungstreuer Schätzer für den Verfallsparameter der zugehörigen Exponentialverteilung zu M
. ∑ zu u =1 M
Die Umsetzung der Messung hinsichtlich der DQ-Dimension Aktualität ergibt sich somit aus obiger Metrik in Verbindung mit den Schätzern für die Verfallsparameter und den Metadaten bezüglich des Zeitpunktes der Datenerfassung. Der nächste Abschnitt skizziert die Anwendung der Metrik für Aktualität im Rahmen des Customer Relationship Managements eines Mobilfunkanbieters.
3.5
Praktische Anwendung der Metrik für Aktualität
Die praktische Anwendung der Metriken erfolgte im Rahmen des Kampagnenmanagement- Prozesses eines Mobilfunkanbieters. DQ-Probleme traten dabei u. a. bei der Kundenansprache auf. Diese führten bspw. bei Mailingkampagnen dazu, dass oftmals keine korrekte und individuelle Kundenansprache möglich war, was sich in geringeren Erfolgsquoten niederschlug. Am Beispiel der Vermarktung einer Tarifoption gestaltet sich die Anwendung der Me trik für Aktualität auf Tupelebene wie folgt: Zunächst gilt es, die relevanten Attribute und deren relative Wichtigkeit im Rahmen der Kampagne zu bestimmen. Dies waren die Attribute „Name“, „Vorname“, „Kontakt“ und „Produkt“ mit den zugehörigen Gewichtungen von 0,9, 0,2, 0,8 und 1,0. Demzufolge war insbesondere der aktuelle Tarif des Kunden („Produkt“) relevant, da eine Inanspruchnahme der Tarifoption nur für spezielle Tarife möglich war; der (korrekte) Vorname des Kunden hatte demgegenüber bspw. weniger Gewicht. Anschließend musste aus dem gegenwärtigen Zeitpunkt und dem Zeitpunkt der Datenerfassung bzw. der letzten Aktualisierung das Alter jedes einzelnen Attributwerts automatisiert berechnet werden. Im nächsten Schritt konnte dann, basierend auf empirisch bzw. mittels Stichprobentests ermittelten Verfallsparametern für die einzelnen Attribute, der Wert der Metrik auf Attributwertebene bestimmt werden. Für ein konkretes Beispiel siehe Tab. 3.1: Hier ergibt sich der Wert der Metrik auf Tupelebene durch Aggregation der Ergebnisse auf Attributwertebene unter Berücksichtigung der relativen Wichtigkeiten gi zu:
62
B. Heinrich und M. Klier
QAkt. ( T , A1 ,…, A4 ) =
0, 99 ⋅ 0, 9 + 1 ⋅ 0, 2 + 0, 74 ⋅ 0, 8 + 0, 82 ⋅ 1 ≈ 0, 863. 0, 9 + 0, 2 + 0, 8 + 1
Demzufolge liefert die Metrik für Aktualität für das Beispieltupel T einen Wert von 86,3 % – d. h. das Tupel ist für den speziellen Anwendungsfall (Vermarktung einer Tarifoption) zu 86,3 % aktuell. Derartige Werte können nun im Kampagnenmanagement genutzt werden. Bspw. wurden so aufgrund von Erfahrungswerten diejenigen Kunden, die einen Wert kleiner als 20 % hatten, erst gar nicht angeschrieben. Auswertungen von früheren Kampagnen hatten beim Mobilfunkanbieter gezeigt, dass bei derartigen Kunden eine Erfolgsquote von nahezu 0 resultiert. Neben diesem kurzen Beispiel für die Anwendung der Metrik, bei dem die Kosten für die Kampagne gesenkt wurden, konnten eine Reihe weiterer DQ-Analysen durchgeführt werden, um Kosten zu sparen oder den Nutzen zu erhöhen. Insgesamt konnte beim Mobilfunkanbieter durch die Anwendung der Metriken ein direkter Zusammenhang zwischen den Ergebnissen der DQ-Messung und den Erfolgsquoten von Kampagnen hergestellt werden. Dies hatte zur Folge, dass der Prozess der Kundenselektion für die Kampagnen deutlich verbessert werden konnte. Zudem konnten der Einsatz von DQ-Maßnahmen auf Basis der Metriken gezielter erfolgen und der damit einhergehende ökonomische Nutzen besser abgeschätzt werden. Der folgende Abschnitt fasst die Ergebnisse zusammen und würdigt diese kritisch.
3.6
Zusammenfassung und Ausblick
Im Beitrag wurde die Fragestellung aufgegriffen, wie DQ adäquat quantifiziert werden kann. Ziel war dabei, Metriken für die DQ-Dimensionen Vollständigkeit, Fehlerfreiheit, Konsistenz und Aktualität vorzustellen, die eine objektivierbare, zielgerichtete und weitgehend automatisierbare Messung auf den Ebenen Attributwert, Tupel, Relation und Datenbank ermöglichen. Dabei wurde im Gegensatz zu bestehenden Ansätzen der Fokus insbesondere auf die Anforderung der Kardinalität der Metriken gelegt, um eine Untersuchung von DQ-Maßnahmen unter Kosten-Nutzen-Gesichtspunkten zu unterstützen. Die Metriken ermöglichen somit eine Quantifizierung der DQ und bilden die Basis für eine ganze Reihe ökonomischer Analysen. So können zukünftige Auswirkungen auf die DQ, wie z. B. zeitlicher Verfall oder die Durchführung von DQ-Maßnahmen, untersucht und Tab. 3.1 Ermittlung der Aktualität anhand der entwickelten Metrik (Beispiel) Ai gi Alter(T.Ai,Ai) (in Jahren) Verfall(Ai) (in 1/Jahr) QAkt.(T.Ai,Ai)
Name 0,9 0,5 0,02 0,99
Vorname 0,2 0,5 0,00 1,00
Kontakt 0,8 1,5 0,20 0,74
Produkt 1,0 0,5 0,40 0,82
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
63
damit ex ante Planungswerte mit ex post Messwerten verglichen werden. Dies sowie die Eignung der Metriken konnte in Zusammenarbeit mit Unternehmen bereits für ausgewählte Fälle auch unter praktischen Gesichtspunkten verdeutlicht werden (vgl. Heinrich und Klier 2006; Heinrich et al. 2007). Zukünftig ist darüber hinaus an modellbasierten Ansätzen zur ökonomischen Planung von DQ-Maßnahmen zu arbeiten, für deren Operationalisierung Metriken und Messverfahren für DQ unbedingt erforderlich sind. Daneben sind die vorgestellten Metriken zu erweitern und zu verbessern: Beispielhaft ist hier die Metrik für Konsistenz zu nennen, für die neben logischen Zusammenhängen ebenfalls auch eine fundierte Formulierung für statistisch ermittelte Zusammenhänge erforderlich ist. Darüber hinaus stellen die Weiterentwicklung der Metrik für Aktualität für den Fall, dass die Annahme einer exponentialverteilten Gültigkeitsdauer nicht gerechtfertigt ist, sowie Ansätze zur Aggregation der Bewertungen für die einzelnen DQ-Dimensionen zu einem Gesamtqualitätswert weiteren Forschungsbedarf dar.
Literatur Ballou, D. P.; Wang, R. Y.; Pazer, H.; Tayi, G. K.: Modeling in-formation manufacturing systems to determine information product quality. In: Management Science 44 (1998) 4, S. 462–484. Bamberg, G., Baur, F., Krapp, M.: Statistik. Oldenburg 2007. Campanella, J.: Principles of quality cost. Milwaukee 1999. English, L.: Improving Data Warehouse and Business Information Quality. New York 1999. Eppler, M. J.: Managing Information Quality. Berlin 2003. Even, A.; Shankaranarayanan, G.: Value-Driven Data Quality Assessment. In: Proceedings of the 10th International Conference on Information Quality. Cambridge 2005, S. 221–236. Feigenbaum, A. V.: Total Quality Control. New York 1991. Heinrich, B.; Klier, M.: Ein Optimierungsansatz für ein fort-laufendes Datenqualitätsmanagement und seine praktische Anwendung bei Kun-denkampagnen. In: Zeitschrift für Betriebswirtschaft 76 (2006) 6, S. 559–587. Heinrich, B.; Kaiser, M.; Klier, M.: Metrics for measuring data quality – foundations for an economic oriented management of data quality. In: Proceedings of the 2nd International Conference on Software and Data Technologies. Barcelona 2007. Helfert, M.: Planung und Messung der Datenqualität in Data-Warehouse-Systemen. Dissertation. Bamberg 2002. Hinrichs, H.: Datenqualitätsmanagement in Data Warehouse-Systemen. Dissertation. Oldenburg 2002. Jarke, M.; Vassiliou, Y.: Foundations of Data Warehouse Quality – A Review of the DWQ Project. In: Proceedings of the 2nd International Conference on Information Quality. Cambridge 1997, S. 299–313. Juran, J. M.: How to think about Quality. In: Juran, J. M.; Godfrey, A. B. (Hrsg.): Juran’s Quality Handbook. New York 1999, Kap. 2, S. 1–18. Lee, Y. W.; Strong, D. M.; Kahn, B. K.; Wang, R. Y.: AIMQ: a meth-odology for information quality assessment. In: Information & Management 40 (2002) 2, S. 133–146. Machowski, F.; Dale, B. G.: Quality costing: An examina-tion of knowledge, attitudes, and perceptions. In: Quality Management Journal 5 (1998) 3, S. 84–95.
64
B. Heinrich und M. Klier
Naumann, F.: Aktuelles Schlagwort: Datenqualität. In: Informatik Spektrum 30 (2007) 1, S. 27–31. Naumann, F.; Freytag, J.-C.; Leser, U.: Completeness of inte-grated information sources. In: Information Systems 29 (2004) 7, S. 583–615. Pipino, L.; Lee, Y.; Wang, R.: Data quality assessment. In: Communications of the ACM 45 (2002) 4, S. 211–218. Redman, T. C.: Data Quality for the Information Age. Norwood 1996. Seghezzi, H. D.: Integriertes Qualitätsmanagement – das St. Galler Konzept. München 1996. Shank, J. M.; Govindarajan, V.: Measuring the cost of quality: A strategic cost management perspective. In: Journal of Cost Management 8 (1994) 2, S. 5–17. Wang, R. Y.; Strong, D. M.: Beyond accuracy: What data quality means to data consumers. In: Journal of Management Information Systems 12 (1996) 4, S. 5–33. Wang, R. Y.; Storey, V. C.; Firth, C. P.: A Framework for analysis of data quality research. In: IEEE Transaction on Knowledge and Data Engineering 7 (1995) 4, S. 623–640. Würthele, V. G.: Datenqualitätsmetrik für Informationsprozesse. Norderstedt 2003.
Prof. Dr. Bernd Heinrich studierte Wirtschaftsinformatik an der Universität Regensburg mit den Schwerpunkten Information Engineering, Bankinformatik und Operations Research und promovierte danach von 1999 bis 2002 an der Universität St. Gallen/Schweiz im Bereich Kundenbeziehungsmanagement. Während der Promotionszeit war er unter anderem im Kompetenzzentrum „Bankenarchitekturen im Informationszeitalter“ tätig, wo er sich zusammen mit Unternehmen, wie beispielsweise der Credit Suisse oder der Dresdner Bank, mit der fachkonzeptionellen und prozessualen Gestaltung des Multichannel-Vertriebs von Banken beschäftigte. Von 2002 bis 2008 war er am Lehrstuhl für Betriebswirtschaftslehre, Wirtschaftsinformatik, Informations- & Finanzmanagement von Prof. Dr. H. U. Buhl an der Universität Augsburg beschäftigt. Hier leitete er die Forscherteams „Kundenzentrische Informationssysteme“ und „Semantik-basierte Planung von Prozessmodellen“ (SEMPRO). Daneben führte er eine Reihe von anwendungsorientierten Forschungsprojekten bei der Siemens AG, der Fujitsu Siemens Computers GmbH, der HypoVereinsbank AG sowie der Allianz AG durch. Im Jahre 2007 habilitierte er sich zum Thema „Gestaltung von Informationssystemarchitekturen: Optimierungsmodelle und -algorithmen für die Planung und Bewertung von Datenqualitätsmaßnahmen, Prozessrestrukturierungen und Kommunikationsstandards“. Seit 2009 leitet er als Universitätsprofessor den Bereich Wirtschaftsinformatik II an der Leopold-Franzens-Universität Innsbruck. Schwerpunktmäßig befasst er sich mit den Themen Datenqualitätsmanagement, Semantische Prozessplanung, IT-Portfoliomanagement sowie der Einführung von Kommunikationsstandards. Dr. Mathias Klier studierte bis 2005 Wirtschaftsmathematik an der Universität Augsburg und vertiefte sich in den Fächern Optimierung und Operations Research. Parallel zu seinem Studium sammelte er praktische Erfahrungen in der Finanzdienstleistungs- und Mobilfunkbranche. Für seine Diplomarbeit mit dem Titel „Messung von Datenqualität und ökonomische Bewertung von Datenqualitätsmaßnahmen – ein dynamisches Optimierungsmodell am Beispiel eines Mobilfunkanbieters“ erhielt er im Jahr 2007 den Förderpreis der Vodafone-Stiftung für Forschung im Bereich Markt-/Kundenorientierung. Von 2005 bis 2009 war er als wissenschaftlicher Mitarbeiter am Lehrstuhl für Wirtschaftsinformatik, Informations- und Finanzmanagement von Prof. Dr. H. U. Buhl an der Universität Augsburg tätig. Während dieser Zeit leitete er unter anderem eine Forschergruppe und führte angewandte Forschungsprojekte durch (z. B. bei der MLP Finanzdienstleistungen AG). Im Jahre 2008 promovierte er zum Thema „Gestaltung kundenzentrischer Informationssysteme – Beiträge zur Planung und Bewertung von Datenqualitätsmaßnahmen und Kommunikationsstandards“. Seit 2009 ist er am Institut für Wirtschaftsinformatik, Produktionswirtschaft und Logistik
3 Datenqualitätsmetriken für ein ökonomisch orientiertes Qualitätsmanagement
65
der Leopold-Franzens-Universität Innsbruck beschäftigt und habilitiert dort im Bereich Wirtschaftsinformatik bei Prof. Dr. Bernd Heinrich. Im Rahmen seiner Forschungsaktivitäten beschäftigt er sich schwerpunktmäßig mit dem Finanzdienstleistungs- und Mobilfunkbereich und interessiert sich vor allem für die Themengebiete Kundenbeziehungsmanagement, Datenqualität, Online Social Networks und Einführung von Kommunikationsstandards.
4
Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode Niels Weigel
Daten- und Informationsqualität ist ein Thema von enormer Reichweite. In den meisten Organisationen werden Problem und Schwierigkeiten mit dem vorhandenen Qualitätsniveau meist nur reaktiv erkannt und behandelt. Dass die mangelhafte Datenqualität nicht nur ein Problem spezieller Branchen ist, sondern sich übergreifend in der gesamten Wirtschaft präsentiert, zeigt eine kleine Übersicht, öffentlich bekannt gewordener Datenqualitätsprobleme. • Im September 1999 verlor die NASA ihren Mars Climate Orbiter nach mehr als 9 Monaten Flugzeit auf Grund einer fehlerhaften Übersetzung von englischen Maßeinheiten nach metrischen Maßeinheiten in einem Bereich der Navigationssoftware. (Isbell und Savage 1999) • Am 24. Juli 2002 wurden neun Minenarbeiter der Quecreek Kohlemine in Western Pensylvania durch einen Wassereinbruch aus einem alten Querstollen für drei Tage eingesperrt. Untersuchungen ergaben, dass die alten Karten nicht vollständig aktualisiert wurden. (MSHA 2003) • Im Dezember 2005 versuchten Broker der Mizuho Securities 610.000 Aktien zum Wert von jeweils 1 Yen zu verkaufen. Gewünscht war der Verkauf von 1 Aktie im Wert von 610.000 Yen. Es handelte sich um einen Eingabefehler. (BBC 2005) Die Behandlung von Daten und Informationen analog zu Produkten in der Fertigungsindustrie ermöglicht es, die dort entwickelten Methoden zur Qualitätssicherung und zum Qualitätsmanagement auch auf die Daten und Informationen anzuwenden. Unterliegen N. Weigel (*) MEE Center of Excellence Database & Data Management, SAP SE, Freiberg am Neckar, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_4
67
68
N. Weigel
Informationen einem strengdefinierten Produktionsprozess, so kann deren Qualität überwacht werden.
4.1
Die Bedeutung des Total Data Quality Management
Der Begriff Total Data Quality Management enthält zusätzlich zu der „Datenqualität“ zwei wichtige Beschreibungen, die die grundlegenden Gedanken sehr gut darstellen. Unter dem Begriff „Management“ versteht man die Steuerung des Ergebnisses. Er leitet sich von seiner lateinischen Bedeutung „manum agere = an der Hand führen“ ab. Generell beinhaltet er einen Prozess, bei dem durch aktives Handeln unter Nutzung von Ressourcen erwünschte oder geplante Ergebnisse erzielt werden oder erzielt werden sollen. Das bedeutet, dass man mit allen Aktivitäten auf ein gemeinsames Ziel hin arbeitet. „Total“ wird im Deutschen häufig mit „ganzheitlich“ übersetzt und soll ausdrücken, dass die Datenqualität nicht mehr ein beliebiges Produkt einzelner Aktivitäten im Unternehmen ist, sondern gezielt vom gesamten Unternehmen getragen werden muss. Daraus ist ersichtlich, dass eine Total Data Quality Management Initiative in einem Unternehmen nicht nur Einfluss auf die Datenqualität selbst hat, sondern weitreichende Auswirkungen auf das gesamte Unternehmen hat. Datenqualität ist als ein elementarer Bestandteil der Unternehmensstrategie zu betrachten, und muss sich als solcher auch im organisatorischen Aufbau des Unternehmens wiederfinden.
4.1.1 Vorgehensmodelle In der Praxis haben sich verschiedene Vorgehensmodelle für Datenqualitätsprojekte eta bliert. Ihre grundlegenden Wurzeln haben sie in den schon lange bekannten Methoden des Qualitätsmanagements, wie zum Beispiel Six Sigma zum Prozessmanagement in der Fertigungsindustrie. Aus diesen Methoden wurden für die speziellen Belange des Datenqualitätsmanagements Ableitungen von verschiedenen Pionieren gelegt. Einer der Pioniere des Total Data Quality Management ist Professor Richard Wang, der am MIT in Boston bereits 1988 begann, die Informationen und Daten ähnlich wie die Produkte in der Fertigungstechnik zu betrachten. Informationssysteme, die in den Unternehmen für die Verarbeitung von Daten und Informationen verantwortlich sind, sind dabei analog zu den Fertigungsstraßen in der Industrie zu betrachten. Dort werden qualitätssichernde Maßnahmen auch nicht nur am Ende des Produktionsprozesses ergriffen, sondern schon an einer Vielzahl von Stellen innerhalb des gesamten Herstellungsprozesses implementiert. Aus dieser Analogie „Daten wie ein Produkt betrachten“ ergaben sich aus den Arbeiten von Richard Y. Wang, Yang Lee, Elisabeth Pierce, Leo Pepino, Stuart Maddick et al. einige grundlegende wichtige Theorien. Beispiele hierfür sind die Definition der 3C (Collector, Custodian, Customer), den drei Arten von Informationsverarbeitern, die entsprechend unterschiedliche Anforderungen an die Datenqualität besitzen
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
69
(Wang und Strong 1996) oder die einfache Visualisierung von Daten- bzw. Prozessflüssen aus der Datenqualitätssicht in den sogenannten Information Product Maps (IP Maps) (Balou et al. 1998). Sehr früh beschäftigte sich auch Tom Redman mit einem allgemeinen Ansatz zum Datenqualitätsmanagement. Dabei griff er die Qualitätsmerkmale von Deming auf und entwickelte daraus im Rahmen seiner praktischen Arbeit bei AT&T Bell Labs die für die Datenqualität relevanten Methoden (Redman 1996). Einen vergleichbaren Ansatz dazu propagiert Larry English (English 1999) in seiner Theorie des Total Information Quality Management (TIQM). Er zieht für die Planung einer Datenqualitätsinitiative die klassischen Methoden von Six Sigma heran. Nach seinen Arbeiten durchlaufen Datenqualitätsprojekte die verschiedenen Phasen Define-Measure-Analyse-Improve-Control, kurz auch als DMAIC bezeichnet. Weitere Modelle, teilweise auch in Abwandlung von den oben beschriebenen Basismodellen finden sich für spezielle Anwendungsgebiete wie zum Beispiel für das Business Intelligence Umfeld (Moss 2004; Helfert 2002) oder allgemeines Enterprise Knowledge Management (Loshin 2001). Auch wenn diese Methoden zunächst unterschiedlich ausgeprägt sind und je nach Autor mal mehr Fokus auf die Werkzeuge, die Daten oder die Prozesse legen, haben sie doch alle einen gemeinsamen Nenner.
4.1.2 Datenqualitätsmanagement sichert Ihren Unternehmenserfolg Der Erfolg eines Unternehmens hängt elementar von der Qualität der im Unternehmen vorhandenen und genutzten Daten ab. Unternehmerische Planungen, strategische Entscheidungen, Kundenbeziehungen und Marketingaktivitäten im CRM-Umfeld stehen und fallen mit der Güte der zugrundeliegenden Datenbanken. Data Warehouse Systeme bilden die Grundlage für Geschäftsentscheidungen und liefern die Basis für Auswertungen. Fehlerhafte Daten liefern hier falsche Ergebnisse und führen somit zu falschen Entscheidungen. Die Sicherstellung der Datenqualität ist ein häufig immer noch unterschätzter Punkt in den Planungen der Unternehmen. Punktuelle Datenbereinigungen, die häufig ereignisgetrieben durchgeführt werden, erzielen nur kurzfristige Wirkung. Eine wirklich effektive Datenqualitätssteigerung, die auch nachhaltig den Erfolg eines Unternehmens sichert, basiert auf den Techniken des Total Data Quality Management (TDQM). Dabei werden die im Unternehmen vorhandenen Daten entlang ihres gesamten Lebenszyklus (Data Lifecycle) analysiert und qualitätsgesichert.
4.2
Phasen eines ganzheitlichen Datenqualitätsmanagements
Unabhängig davon, woher der Anstoß zu einem Projekt zur Einführung des ganzheitlichen Datenqualitätsmanagements kommt, werden sich die einzelnen Projektschritte gleichen. Der ursprüngliche Auslöser für ein Datenqualitätsmanagement kann in der Fachabteilung
70
N. Weigel
Abb. 4.1 Der FUZZY! DataCare® Process als Vorgehensmodell für Datenqualitätsprojekte
liegen, die in der Zwischenzeit leidgeprüft ständig immer nur augenscheinlichen Datenqualitätsmängeln hinterher jagt. Oder in der IT, die wieder von allen anderen Abteilungen beschuldigt wird, dass „ihre“ Daten wieder so schlecht sind, dass eine Marketing-Kampagne nicht erfolgreich verlief. Ebenso kann aus der Finanzabteilung der Anstoß kommen, da eine zentrale Sicht auf alle Lieferantendaten nicht möglich ist oder die Reports nicht den Anforderungen entsprechen, weil das zugrunde liegende Datenmaterial unzureichend ist. Die Initiative kann aber auch aus dem Führungsgremium kommen, da hier in der Zwischenzeit das Bewusstsein wächst, dass die Erfüllung unterschiedlicher rechtlicher Regularien im Unternehmen nur mit einer transparenten, guten Datenbasis möglich ist (Abb. 4.1). Ein Vorgehensmodell für Datenqualitätsprojekte, das sich im praktischen Einsatz bewährt hat, soll hier nun vorgestellt werden. Grundsätzlich muss sich ein Unternehmen, das sich für TDQM entschieden hat, die Projektschritte kombinieren, die für seine spezielle Aufgabenstellung notwendig sind. Die Vorgehensmodelle können nur eine Art Leitfaden darstellen, an denen sich die Unternehmen orientieren können.
4.2.1 Initiierung des Datenqualitätsprojekts Wie in allen Qualitätsmanagement-Projekten ist auch im TDQM die Vorbereitung und Initiierung des Projekts die wichtigste Phase. Nur wenn vor dem eigentlichen Kick-Off des Projekts alle vorbereitenden Aufgaben erledigt und die Rahmenbedingungen abgestimmt wurden, sind die Grundlagen für ein erfolgreiches Projekt geschaffen. Definition der Datenqualitätsstrategie Die Datenqualitätsstrategie beschreibt, wie in dem Unternehmen die Qualität der Daten in Zukunft betrachtet werden soll. Die Bedeutung der Datenqualität für und der Einfluss auf das Unternehmen wird verbal beschrieben. Jeder Mitarbeiter kann daraus ablesen, warum gerade er einen Beitrag zur Datenqualität im Unternehmen leisten muss. Ebenso kann er auf der anderen Seite auch sehen, wie er
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
71
von guter Datenqualität profitieren wird. Die vorhandene Datenqualität muss als ein wertvoller Beitrag zum Unternehmenserfolg formuliert werden und als solcher auch in der Unternehmensstrategie verankert werden. Wie dieser Beitrag sichergestellt wird, ist Inhalt der Datenqualitätsstrategie.
Definition der Zielsetzung Um den Erfolg des Datenqualitätsmanagements messen zu können, müssen konkrete Ziele formuliert werden. Es wird klar beschrieben, wohin die Reise zur Datenqualität gehen soll. Dabei gilt es zunächst auch, sich auf bestimmte Bereiche zu fokussieren und festzulegen, welche Daten, Systeme, Anwendungen oder Geschäftsprozesse in erster Priorität betrachtet werden sollen. Die Erfahrung zeigt, dass es für ein Unternehmen unmöglich ist, alle Datenqualitätsprobleme sofort anzugehen. Eine Analyse aller vorhandenen Daten würde das Projektteam zunächst erschlagen, da vermutlich eine sehr große Menge von unbewerteten Datenfehlern identifiziert wird. Es gilt also zunächst einen Fokus auf die wichtigsten, geschäftskritischsten Daten zu legen. Deren Bereinigung und Überwachung wird definitiv einen direkten Nutzen für das Unternehmen bringen. Eine einfache Befragung von Schlüsselpersonen im Unternehmen kann genutzt werden, um einen ersten Eindruck der vorhandenen Probleme zu erlangen. Dabei sollte die Fragestellung so gewählt sein, dass der Befragte sowohl seine subjektive Bewertung zu der vorhandenen Qualität einbringen kann, als auch eine Bewertung zu dem Einfluss der vorhandenen Datenqualität auf seine tagtägliche Arbeit und auf den Unternehmenserfolg. Mit diesen Informationen, gesammelt in verschiedenen Unternehmensbereichen und auf verschiedenen Hierarchieebenen, kann eine erste Priorisierung durchgeführt werden, um festzulegen, welche Informationen eine „gefühlte schlechte Datenqualität“ und dazu aber auch noch eine „hohe Relevanz für den Unternehmenserfolg“ besitzen. Rollen im Datenqualitätsmanagement Innerhalb des Datenqualitätsmanagements sind vielfältige Rollen und Positionen zu besetzen. Das gilt nicht nur in einer späteren Projektphase, wenn erste Erkenntnisse zu dem aktuellen Status vorliegen und durch entsprechende organisatorische Maßnahmen die Qualität langfristig gesteigert wird, sondern auch in der frühen Phase der Projektteamzusammenstellung (Abb. 4.2). Der Sponsor des gesamten Datenqualitätsmanagements ist unter anderem verantwortlich für den Aufbau einer entsprechenden Datenqualitätsstrategie innerhalb seines Unternehmens und die Definition der entsprechenden Kennzahlensysteme. Er muss einen Überblick über das gesamte Unternehmen besitzen und verstehen, welchen Einfluss schlechte Datenqualität auf das gesamte Unternehmen hat. Er kennt die elementare Bedeutung der betrachteten Daten für die Geschäftsprozesse und kann ebenso die Wichtigkeit und Relevanz der Geschäftsprozesse für den Unternehmenserfolg abschätzen. Er fällt Entscheidungen, verfügt über finanzielle Mittel zur Beschaffung von notwendigen Ressourcen und besitzt die Weisungsbefugnis über die im Projekt beteiligten Mitarbeiter.
72
N. Weigel
Sponsor Datenqualitätsbeauftragter
Prozessexperte
Datenanalyst
Datenverwalter Finanzen
Datenverwalter Marketing
Abb. 4.2 Rollen des Datenqualitätsmanagement
Der Sponsor muss eine übergreifende Strategie für ein unternehmensweites Datenqualitätsmanagement entwickeln, in das Unternehmen hineintragen und permanent vorantreiben. Die Erstellung und Publikation der unternehmensweiten Datenqualitätsvision gehört ebenfalls zu seinen Aufgaben. Der Sponsor muss dafür sorgen, dass alle organisatorischen Veränderungsmaßnahmen, die sich aus dem Datenqualitätsprojekt ergeben auch wirklich in dem Unternehmen umgesetzt werden. In vielen Projekten unterliegt diese Aufgabe dem CIO des Unternehmens. Die eigentliche Verantwortung für die laufende Überwachung und Verbesserung der Datenqualität unterliegt dann dem Datenqualitätsbeauftragten. In sein Aufgabengebiet fällt die Definition von firmeninternen Datenstandards. Er steuert die Anpassungen der IT-Infrastruktur passend zu den Anforderungen des Datenqualitätsmanagement. Diese Position des Data Quality Officer findet sich immer häufiger in den Unternehmen, die sich das Thema Datenqualitätsmanagement auf die Agenda geschrieben haben. Eine wichtige operative Rolle nimmt der Datenverwalter ein, der durch seine tägliche Arbeit tiefe Kenntnisse über unterschiedliche Daten im Unternehmen erlangt hat. Bei aufkommenden Fragen bezüglich der Qualität dieser Daten ist er unmittelbar einzubinden. Durch seine Erfahrung im Unternehmen formuliert er gemeinsam mit den Fachbereichen die bekannten Geschäftsregeln und fachliche Wertebereiche für einzelne Daten. Dieser Datenverwalter arbeitet in den ersten Phasen des Datenqualitätsprojekts eng mit dem Datenanalysten zusammen, der zunächst die vorhandenen Daten des Unternehmens
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
73
durchleuchtet und versucht einen ersten Status Quo im Bezug auf die aktuell vorhandene Datenqualität zu ermitteln. Auffälligkeiten innerhalb der Daten, die er aufgrund statistischer Analysen ermittelt und hinter denen er entsprechende Datenqualitätsregeln vermutet, diskutiert er mit dem Datenverwalter. Weitere wichtige Rollen, die in dem Datenqualitätsmanagement involviert sind und zu Projektstart auch identifiziert und benannt werden müssen, sind die Qualitätsbeauftragten des Unternehmens, die Prozessverantwortlichen, die Prozess- oder Anwendungsdesignverantwortlichen, die Datenbankadministratoren, der Datenschutzbeauftragte sowie externe Datenlieferanten. Alle diese Rollen müssen dem Datenqualitätsmanagement zuarbeiten und für Rückfragen jederzeit zur Verfügung stehen.
4.2.2 Definition der Datenqualitätsanforderungen Gemäß dem Grundsatz „You can only improve what you can measure!“ gilt es in einem Datenqualitätsprojekt zunächst alle Anforderungen an die Daten aufzunehmen und in entsprechende Datenqualitätsregeln umzuformulieren. Diese Datenqualitätsregeln (oder auch Business Rules) sind die Anforderungen unterschiedlicher Nutzer der Informationen. Es ist zu beachten, dass für ein und dasselbe Datenobjekt durchaus unterschiedliche Anforderungen an die Qualität der Daten existieren. Die Anforderungen an die Aktualität, Vollständigkeit und Fehlerfreiheit eines Interessentendatensatzes und von dessen Adressund Kommunikationsdaten in einem Unternehmen werden innerhalb einer Organisation in verschiedenen Bereichen zu unterschiedlichen Zeitpunkten häufig wechseln. Das Marketing stellt für die Durchführung seiner Mailing-Kampagnen an alle drei IQ-Dimensionen hohe Anforderungen, schließlich soll das Werbematerial den Interessenten auch erreichen. Der Vertrieb dagegen hat vielleicht primär ein viel höheres Interesse an einer korrekten Telefonnummer, da der Außendienstmitarbeiter den Weg zum Interessenten schon kennt und diesen bei einer Verzögerung auf jeden Fall anrufen möchte. Für die kaufmännische Abwicklung ist es wiederum enorm wichtig, dass die Firmierung aktuell und korrekt ist. Um nun zu einer bestimmten Information alle Anforderungen aufnehmen zu können, müssen unterschiedliche Wege eingeschlagen werden. Externe Rechtliche Anforderungen Für eine Vielzahl von Prozessen und daran beteiligten Daten werden durch den Gesetzgeber Vorgaben gemacht, die die Inhalte der Daten, die Form der Verarbeitung oder aber auch die Verfügbarkeit der Daten und den Zugriff auf die Daten festlegen. Eines der größten Aufgabengebiete liegt hier zum Beispiel in der korrekten Archivierung von Daten im Unternehmen in Bezug auf die unterschiedlichen Aufbewahrungsfristen von steuerrechtlich oder vertraglich relevanten Dokumenten. Hier ist zu beachten, dass der Zugriff und damit die Verfügbarkeit von Informationen vom Gesetzgeber vorgegeben ist. Ebenso gibt es in einer Vielzahl von Branchen und Geschäftsprozessen bestimmte Informationen und Daten, die als Pflichtangaben erhoben und gespeichert werden müssen. Dies betrifft zum Beispiel die Legitimationsdaten, also Ausweisdaten, von Kunden einer Bank bei der Kontoneuanlage.
74
N. Weigel
Externe Referenzinformationen Unternehmen, die auch außerhalb der Bundesrepublik Deutschland Geschäfte tätigen, werden in dem immer stärker aufkommenden Bereich Compliance vom Gesetzgeber verpflichtet, ihre Kundenbeziehungen zu überwachen und nur mit solchen Geschäftspartnern zu agieren, die nicht auf entsprechenden Embargooder Denied Person Listen stehen. Die Geschäftsführung muss hierzu nachweisen, dass sie in den Prozessen entsprechende Maßnahmen zur Vermeidung illegaler Geschäfte ergriffen hat. Zusätzlich zu diesen Negativlisten, gibt es natürlich auch je nach Anwendungsfall eine ganze Palette von Referenzlisten, die auf der Inhaltsebene vorgeben, wie die Daten, die in einem Unternehmen gespeichert werden, aussehen müssen. So werden zum Beispiel von der Nomenclature Générale des Activités Economiques dans l’Union Européene für Europa offizielle Branchencodes vorgegeben, die gerade beim Austausch von Informationen verwendet werden sollten. Sie stellen also ebenfalls Anforderungen an die genutzten Daten dar. Unternehmenseigene Standards Neben diesen offiziell bekannten Datenqualitätsanforderungen, die sich sehr häufig branchenspezifisch als allgemeine Vorlagen in Projekten verwenden lassen, dürfen natürlich die vielfältigen, in jedem Unternehmen individuell gestalteten eigenen Standards in entsprechende Datenqualitätsregeln umgewandelt und erhoben werden. Das Auffinden und Dokumentieren dieser individuellen Standards ist häufig Aufgabe des Datenanalysten. Dabei greift er zunächst auf die in den Unternehmen häufig unterschiedlich gut ausgeprägten Dokumentationen zurück. Beschreibungen der Geschäftsprozesse, Datenmodelle, Schnittstellenbeschreibungen, Arbeitsanweisungen und Schulungsunterlagen dienen ihm als Quelle für mögliche Datenqualitätsregeln. Zusätzlich lässt sich aber auch in den vorhandenen Daten häufig eine Vielzahl von impliziten Datenqualitätsregeln identifizieren. Hierzu werden die Methoden des Data Profiling und des Data Mining angewandt, um auf den vorhandenen Daten eine ausführliche Analyse und Auswertung durchzuführen. Mit den entsprechenden Werkzeugen lassen sich auch aus größten Datenmengen Auffälligkeiten und Datenfehler erkennen, die sich dann gemeinsam mit dem zuständigen Fachbereichsmitarbeiter oder Datenverwalter (Data Steward) in zusätzliche Datenqualitätsregeln umformulieren lassen. Technische Anforderungen (System, Anwendung, Datenbank) Zusätzlich zu den aufgeführten fachlichen und rechtlichen Anforderungen existieren noch eine ganze Reihe von technischen Anforderungen an die Daten, die sich meist aus Limitierungen der benutzten IT-Systemen ergeben. Auch wenn immer mehr Standardisierungen in technische Systeme Einzug nehmen, sind immer noch eine Vielzahl von unterschiedlichen Rahmenbedingungen für die in heterogenen Systemlandschaften verwendeten Anwendungen oder Datenbanken zu beachten. Gerade der Austausch von Informationen zwischen verschiedenen Systemen stellt eine häufige Quelle für Datenqualitätsprobleme dar. Deshalb ist es beson-
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
75
ders wichtig, in der frühen Projektphase alle systemtechnischen Anforderungen aufzunehmen und zu dokumentieren. Hier gewinnt das Thema Metadaten-Management zunehmend an Bedeutung. Eine saubere, zentrale Dokumentation und Verwaltung der „Daten über die Daten“ bringt einen erheblichen Mehrwert. So kann zum Beispiel schon frühzeitig erkannt werden, dass in verschiedenen Systemen unterschiedliche Datentypen verwendet werden oder die Bezeichnungen von Daten variieren werden, da Feldbezeichnungen unterschiedlich lang sein können. Umsetzten der fachlichen Anforderungen in technische Datenqualitätsregeln Für die Anwendung von Datenqualitätsregeln gilt es in den meisten Fällen von den Fachbereichen aufgestellte oder formulierte Anforderungen in meist sehr technische Aussagen zu übersetzten. Die eigentliche Messung der vorhandenen Datenqualität erfolgt im Allgemeinen auf entweder in Tabellenform vorliegenden Daten oder auf Datenströmen. Eine der größeren Herausforderungen des Datenqualitätsmanagements liegt hierbei darin, das in den Unternehmen häufig vorherrschende Datenqualitäts-Esperanto aufzulösen. Fachliche Formulierungen aus den Geschäftsbereichen wie zum Beispiel „Eine natürliche Person muss immer ein formal korrektes Geburtsdatum besitzen“ müssen von dem Datenanalysten bei der Implementierung der Datenqualitätsregeln in technische Formeln wie „If pflag =„N“ then FORMAT(DOB)=YYYY-MM-DD“ umgesetzt werden. Oder umgekehrt wird der Datenanalyst beim Data Profiling erkennen, dass die Spalte P_SCHL_X neben der Ausprägung „Herr“, „Frau“, „Firma“ noch in wenigen Fällen Werte wie „M“, „W“ und „unb.“ enthält. Den Anwender der Frontend-Applikation, von dem er den gültigen Wertebereich für dieses Datenfeld erfahren möchte, muss er aber nach den möglichen Werten der Drop-Down-Liste im Datenfeld „Anrede“ auf der CRM-Maske fragen. Zentrale Bereitstellung der Datenqualitätsanforderungen im Unternehmen Die in der ersten Phase ermittelten Datenqualitätsregeln spiegeln die gesamten Anforderungen des Unternehmens an die Datenqualität wieder. Diese umfassen die Geschäftsprozessregeln des Unternehmens, aber auch standardisierte oder rechtliche Vorgaben für Informationen. Die zentrale Verwaltung, Dokumentation und Bereitstellung dieser Regeln gehört zu den größten Herausforderungen, stellt aber auch einen wichtigen Meilenstein im gesamten Datenqualitätsmanagement dar. Die gemeinsame Abnahme der definierten Datenqualitätsregeln sollte den letzten Schritt in dieser Projektphase darstellen. Im Laufe des Projekts wird der Datenanalyst, der zum Beispiel im Data Profiling Auffälligkeiten in den Daten entdeckt, diese mit dem Datenverwalter abstimmen und dafür dann eine entsprechende Datenqualitätsregel aufstellen und prüfen. Erst nach Prüfung der Ergebnisse aus seinen Tests wird die Regel dann für die weitere Verarbeitung freigegeben (Abb. 4.3).
76
N. Weigel
Abb. 4.3 Data Profiling und Regeldefinition
4.2.3 Messung der vorhandenen Datenqualität Nach der klaren und eindeutigen Formulierung der Datenqualitätsanforderungen in Form von Datenqualitätsregeln werden diese nun auf die zu analysierenden Daten angewandt. Ermittlung der objektiven Datenqualitätszahlen Mit Hilfe dieser Datenqualitätsregeln erfolgt dann die eigentliche Messung der Datenqualität. Die gemeinsam festgelegten Regeln werden auf den gesamten Datenbestand angewandt. Üblicherweise wird ermittelt, wie viele Datensätze diesen Regeln widersprechen. Durch die Verwendung unterschiedlicher Metriken kann nun eine Qualitätszahl für die entsprechende Regel ermittelt werden (Abb. 4.4). Für die meisten IQ-Dimensionen lassen sich einfache Metriken definieren. Für die Vollständigkeit wird zum Beispiel ein einfacher Quotient aus der Anzahl der gefüllten Datenfelder und der Anzahl der vorhandenen Datensätze gebildet. Dabei ist zunächst die Definition der Grundgesamtheit, das bedeutet, die Menge der Datensätze, für die eine bestimmte Datenqualitätsregel angewandt werden soll, von elementarer Bedeutung. In den meisten Fällen werden die implementierten Datenqualitätsre-
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
77
Abb. 4.4 15 IQ-Dimensionen
geln nicht auf komplette Tabellen angewandt, sondern nur auf einen relevanten Teil oder Ausschnitt einer Tabelle. Zu diesem Zweck werden hier häufig verschiedene Sichten oder Views auf die Tabellen generiert, die dann nur die relevanten Daten herausfiltern. So wird zum Beispiel für die Datenqualitätsregel „Eine natürliche Person muss immer ein gültiges Geburtsdatum besitzen“ auf die Geschäftspartner-Stammdatentabelle eine View generiert, die auf Grund eines Kennzeichens nur die Menschen herausfiltert. Nur auf diese Teilmenge wird dann entsprechend auch die Datenqualitätsregel angewandt. Durchführung der Datenqualitätsmessung Nach der zentralen Implementierung der Datenqualitätsregeln kann die Anwendung der Regeln auf den Datenbestand und damit die eigentliche Datenqualitätsmessung in die einzelnen Fachbereiche verlegt werden. Durch entsprechende Projektorganisation und Zugriffsrechte, können mit den verfügbaren Werkzeugen, die zentral definierten Datenqualitätsregeln von den einzelnen Mitarbeitern in ihrer Projektsicht angewandt und durchgeführt werden. So kann zum Beispiel durch eine entsprechende User-Verwaltung die Messung der Datenqualität auch für sensible Daten in einem gemeinsamen unternehmensweiten System implementiert und durchgeführt werden. Die Finanzbuchhaltung kann ihre rechnungsspezifischen Daten prüfen, die Personalabteilung die Qualität ihrer Mitarbeiterdaten und die Produktion ihre Produktionsdaten. Jeder Bereich kann nur seine Messungen sehen, das Datenqualitätsmanagement jedoch hat Zugriff auf alle Teilprojekte und kann die Gesamtdatenqualität des Unternehmens überblicken.
78
N. Weigel
Fehlerlisten und Review der Regeln Neben den reinen Messergebnissen interessiert natürlich auch ein Aufstellung der fehlerhaften Daten zu jeder Datenqualitätsregel. Basierend auf diesen ermittelten Datenqualitätsfehlern wird der Datenanalyst auch eine Review- Phase für die Datenqualitätsregeln aufsetzten. Dies dient der eigentlichen Qualitätssicherung der Regeln und damit einer endgültigen Freigabe der implementierten Regeln. Gemeinsam mit dem Fachbereich wird der Datenanalyst die Ergebnislisten durchgehen und sich aus dieser optischen Kontrolle eine Abnahme der Datenqualitätsregeln einholen. Die Fehlerlisten können sehr unterschiedliche Formate besitzen. So kann eine Aufteilung nach Datenqualitätsregeln erforderlich sein oder eine konsolidierte Darstellung auf Datensatzebene, so dass jeder Datensatz nur einmal aufgeführt wird, egal ob er einer oder mehreren Datenqualitätsregeln widerspricht. Ebenso kann eine Gruppierung der Fehlerlisten nach Sachbearbeitern oder Teams notwendig sein. Alle diese Aspekte müssen bei der Aufbereitung von Fehlerlisten beachtet werden. Entscheidend hierfür ist die Frage nach der weiteren Verarbeitung der Listen im Unternehmen. Wiederholbarkeit der Messung Die zentrale Verwaltung der Datenqualitätsregeln ermöglicht eine Nutzung und Anwendung dieser Regeln an verschiedenen Stellen im Unternehmen. Für eine laufende Überwachung der Datenqualität durch regelmäßig wiederkehrende Messungen auf dem Datenbestand ist es von Bedeutung, dass die definierten Regeln so flexibel gestaltet sind, dass sie ohne Aufwand auf unterschiedliche Datenstände angewendet werden können. Neben der interaktiven Messung der Datenqualität durch einzelne Mitarbeiter, die sicherlich in der ersten Phase wichtig ist, muss das System auch entsprechend aufgebaut sein, dass automatisierte Messungen der Datenqualität im Hintergrund möglich sind. Eine Einbindung der Datenqualitätsmessung in umfangreichere Abläufe ist von großer Bedeutung. Aufnahme der subjektiven Datenqualitätszahlen Einige der IQ-Dimensionen stellen keine rein technisch messbare Größe dar, sondern beruhen auf subjektiven Einschätzungen, die zum Beispiel im Rahmen ausführlicher Assessments von Mitarbeitern ermittelt werden können. Ein gutes Beispiel hierfür ist die IQ-Dimension „Hohes Ansehen“ – einer Information werden in dieser Dimension höhere Qualitätsmesswerte zugeordnet, wenn sie nach Einschätzung der befragten Anwender eine hohe Vertrauenswürdigkeit besitzt. Darstellung der Datenqualität Eine der wichtigen Aufgaben des Datenqualitätsmanagement liegt darin, die in der Messung ermittelten Datenqualitätszahlen unterschiedlichen Interessengruppen in der von diesen gewünschten aussagekräftigen Form zu präsentieren. Dazu sind sowohl die Darstellungsformen als auch der Detaillierungsgrad zu beachten. Das Top-Management sieht die Datenqualität im Unternehmen als eine der wichtigen Kennzahlen für die gesamte Unternehmenssteuerung an, will aber eben auch nur diese eine Zahl in dem monatlichen Bericht oder im Management-Dashboard sehen. In der mittleren Managementebene ist der Wunsch nach etwas mehr Detaillierung größer, da sich die verschiedenen Bereiche vergleichen möchte. Auf der Fachbereichsebene ist ein sehr hoher Detaillierungs-
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
79
grad erwünscht. Hier ist neben der ersten Sicht auf die gemessene Datenqualität, häufig der Wunsch vorhanden, im Bedarfsfall durchaus auf die einzelnen Komponenten, aus denen sich eine Gesamtbewertung zusammensetzt, zugreifen zu können. Daraus haben sich verschiedene Modelle für die Berechnung der verschiedenen Datenqualitätskennzahlen entwickelt. In sie fließen neben den technisch ermittelten objektiven Datenqualitätszahlen auch subjektive Einschätzungen oder Meinungen ein. Ein gut strukturiertes mehrdimensionales Datenqualitätskennzahlenmodell ermöglicht ähnlich einem Data Warehouse auch eine Vielzahl von Sichten und Darstellungen. Egal wie umfangreich eine Visualisierung im Unternehmen implementiert wird, Ziel der Datenqualitätsmessung soll die Transparenz bezüglich der vorhandenen Datenqualität sein. Dann endlich werden harte Fakten die endlosen Diskussionen bezüglich der Datenqualität beenden.
4.2.4 Analyse der Fehlerursachen Die Messung der Datenqualität zeigt einem Unternehmen, wie gut die gesammelten Daten den Anforderungen im Hinblick auf die Qualität entsprechen. Sinn und Zweck des Datenqualitätsmanagement soll es nun sein, die gefundenen Datenfehler nicht einfach nur zu bereinigen, sondern auf langfristige Sicht dafür zu sorgen, dass die entsprechenden Fehler nicht wieder auftreten können. Dazu gilt es herauszufinden, was die eigentlichen Ursachen für die Datenfehler sind. Daten, Prozesse, Menschen Mögliche Ursachen für Datenqualitätsmängel können vielfältig sein. Diese finden sich nicht nur in den Daten selbst, sondern sehr häufig auch in den, die Daten verarbeitenden Anwendungen und Prozessen oder aber auch in den Mitarbeiter, Kunden, Lieferanten, … also all denen, die die im Unternehmen anfallenden Daten bearbeiten. Aus diesem Grund muss die Fehlerursachenanalyse sich auch auf alle drei Bereiche erstrecken und sich keineswegs nur auf die Daten selbst beschränken (Abb. 4.5). Eine Vielzahl von Fehlerursachen wird sich erst durch intensive Diskussionen mit einzelnen Mitarbeitern im Unternehmen ermitteln und bewerten lassen. Die IT-Abteilung wird wertvolle Informationen zu den eigentlichen technischen Systemen geben können und auch zu historischen Anwendungen und Verarbeitungen geben können. Aussagen wie: „Das kann nicht sein, da haben wir eine Plausibilitätsprüfung in das System eingebaut“ finden sich genauso schnell wie: „Ach je, der letzte User war MIGR, die Daten kommen alle aus der Datenmigration nach der Übernahme des Geschäftsbereichs“. Hier ist das Expertenwissen der Mitarbeiter nicht zu unterschätzen und muss aktiv eingefordert werden. Ähnliches gilt natürlich für die Analyse der Datenerfassung, die häufig als Fehlerquelle für Daten identifiziert wird. Daher ist es hilfreich sich den Prozess der Datenerfassung genau erklären zu lassen und dann auch noch einmal live zu beobachten, wie Daten wirklich erfasst werden. Häufig gibt es erhebliche Unterschiede zwischen den vorgeschriebenen und den aus praktikablen oder zeitlichen Aspekten gewählten Wegen, wie Daten in das System gelangen.
80
N. Weigel
Abb. 4.5 Fehlerquellen: Daten, Prozesse, Menschen
Dokumentation Zur Dokumentation der verschiedenen Fehlerursachen können unterschiedliche Hilfsmittel zum Einsatz kommen. Eine der möglichen Fehlerursachen kann in dem technischen Datenmodel begründet sein. Häufig füllen großformatige Darstellungen der benutzten Datenbanken, deren darin enthaltenen Tabellen und Relationen die Wände der Projekträume. Trotzdem kann es hilfreich sein, für die innerhalb des Datenqualitätsprojekts verwendeten Datenquellen ein separates ER-Diagramm, unter Verwendung der entsprechenden Metadaten, aufzustellen. Vergleicht man dieses mit den bereits vorhandenen Dokumentationen, lassen sich sehr häufig Unterschiede zwischen Theorie und Praxis erkennen. Um die Verarbeitungsschritte der Daten innerhalb der Anwendungen sauber zu dokumentieren und zu protokollieren, können Datenflussdiagramme verwendet werden. Diese werden in verschiedenen Detaillierungsstufen genutzt und können schon erste Hinweise geben, wenn bei der Verarbeitung der Daten innerhalb eines Systems Probleme auftreten. Um bei anwendungsübergreifenden Prozessen eine Transparenz zum Datenaustausch zu erhalten, können Schnittstellenanalysen durchgeführt werden, um auszuschließen, dass gleiche Informationen in unterschiedlichen Systemen unterschiedlich genutzt werden. Neben diesen allgemeinen Verfahren zu der Dokumentation von Anwendungen und Daten, kann noch die sogenannte Information Product Map (IPMap) verwendet werden, mit denen die Verarbeitung von Daten in einem Informationsverarbeitungssystem graphisch dargestellt werden kann (Balou et al. 1998). Planung und Konzeption der Verbesserungsschritte Nach der Analyse und Dokumentation der einzelnen Fehlerursachen, gilt es nun die nächsten Verbesserungsschritte zur
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
81
Steigerung der Datenqualität zu planen. Häufig ergibt sich eine Vielzahl von Datenqualitätsproblemen in unterschiedlichen Ausprägungen. Zunächst erscheint rein intuitiv ein Beginn mit der Korrektur und Bereinigung der häufigsten Fehler sinnvoll. Es sollte jedoch in Betracht gezogen werden, dass die reine Anzahl an Fehlern immer nur ein Aspekt für die Priorisierung bei der Datenqualitätsverbesserung ist. Wichtiger ist in Betracht zu ziehen, wie groß der Einfluss eines Datenfehlers auf das Unternehmen wirklich ist. Zusätzlich ist in Betracht zu Ziehen, welche Kosten und Aufwände durch den Datenfehler selbst und durch die Bereinigungsaufwände entstehen. Die Aufstellung einer Kosten-Nutzen- Rechnung für die Bereinigung oder die Nicht-Beseitigung eines Datenfehlers gehört zu der Konzeption der Verbesserungsschritte, genauso wie die detaillierte Ausarbeitung der einzelnen Aktivitäten mit möglichen Alternativen.
4.2.5 Verbesserung der Datenqualität Nach der Analyse der Datenfehler gilt es, im darauffolgenden Schritt die Ursachen zu bekämpfen und für die Verbesserung der Datenqualität zu sorgen. Hierbei können einmalige Bereinigungen für die initiale Optimierung sorgen. Zugleich gilt es aber, permanente qualitätssichernde Maßnahmen, zum Beispiel durch Prozessoptimierung oder Integration von qualitätssichernden Werkzeugen direkt in die Anwendungen, zu ergreifen. Bei allen aufgeführten Alternativen ist genau zu bewerten, welcher Weg der für das Unternehmen sinnvollste ist. Datenbereinigung Die eigentliche Bereinigung der identifizierten Datenfehler ist einer der möglichen Schritte, die vorhandene Datenqualität zu verbessern. Als einmalige Aktivität implementiert, werden die aufgedeckten Datenfehler korrigiert und in den entsprechenden Tabellen gemäß den Anforderungen abgelegt. Dies kann durch automatisierte Prozesse erfolgen, wo dies mit entsprechender Werkzeugunterstützung möglich ist. In anderen Fällen kann es notwendig sein, dass die Bereinigung durch Mitarbeiter manuell erfolgen muss. Eine permanente Sicherstellung von guter Datenqualität erfordert eine Integration von Datenqualitätsmessungen und Datenqualitätsverbesserungsmodulen direkt in die Geschäftsprozesse oder Anwendungen. Getreu dem Bestreben, Qualitätsmängel bereits an der Stelle der Entstehung zu identifizieren und zu korrigieren, müssen entsprechende Datenqualitätstools bereits bei der Datenerfassung eingesetzt werden. Die verschiedenen Toolhersteller bieten dazu schon heute eine Vielzahl von sogenannten Links oder Connectoren, die eine einfache und direkte Integration in annähernd alle Standard- Anwendungssysteme ermöglichen. (Mathes et al. 2004). Systemoptimierung Neben der reinen Bereinigung der Daten gilt es natürlich auch die Informationssysteme an sich zu betrachten und zur Steigerung der Datenqualität zu verbessern. Dies kann eine Anpassung und Veränderung des benutzten Datenmodells sein. Die Einführung von selbstdefinierten Normen für die Bezeichnung von Datenfeldern glei-
82
N. Weigel
cher Bedeutung in unterschiedlichen Tabellen kann ebenso die Verständlichkeit steigern, wie die intensive Nutzung und Implementierung von verschiedenen Constraints oder Schlüsselbeziehungen, die die strukturelle Qualität der Daten sicherstellen. Dazu müssen eventuell die verwendeten Applikationen selbst und vor allem die Abbildungen der Geschäftsprozesse in den Systemen angepasst und überarbeitet werden. Dadurch kann sichergestellt werden, dass bei der Verarbeitung von Daten auf dem Weg von der Datenerfassung bis zur Datenspeicherung oder gar weiter zur Datennutzung keine Fehler entstehen. Die Weitergabe von Daten über eigentliche Systemgrenzen hinweg stellen auch sehr häufig Fehlerquellen dar. Deshalb ist für die Datenqualitätssteigerung auch auf die Gestaltung der verwendeten Schnittstellenprogramme ein besonderes Augenmerk zu legen. Geschäftsprozessoptimierung Die Geschäftsprozesse bilden das Gerüst eines Unternehmens. Meist sind dies eingespielte Prozesse, die auf Grund ihrer Komplexität häufig nur ungern verändert werden. Trotzdem kann es im Sinne der Sicherstellung guter Datenqualität notwendig sein, auch in die Kernprozesse eines Unternehmens einzugreifen. Die Geschäftsprozesse bestimmen wie die Daten verarbeitet werden. Anpassungen und Optimierungen von Geschäftsprozessen können notwendig sein, um identifizierte Datenqualitätsfehler langfristig zu beseitigen. Schulung von Mitarbeitern Ein weiterer wichtiger Punkt für die Verbesserung der Datenqualität liegt in der intensiven Schulung der Mitarbeiter. Neben den Versuchen, die Mitarbeiter durch möglichst viele technische Maßnahmen bei der Arbeit mit den Daten zu entlasten, ist es ebenso wichtig, sie durch entsprechende Arbeitsanweisungen für ihre täglichen Aktivitäten zu unterstützen. Durch entsprechende Schulungsmaßnahmen können die Mitarbeiter außerdem dazu informiert werden, wie sie mit den entsprechenden Daten umgehen müssen und warum ihre tägliche Arbeit durchaus zu einer unternehmenswichtigen guten Datenqualität beitragen kann.
4.2.6 Permanente Überwachung der Datenqualität Die bisher beschriebenen Phasen eines Datenqualitätsprojekts führen dazu, dass im Unternehmen endlich ein einheitliches Verständnis herrscht was unter dem Begriff Datenqualität überhaupt verstanden wird. Durch Implementierung entsprechender Regeln kann wiederholt eine Ermittlung des aktuellen Stands der Datenqualität durchgeführt werden. Die Fehlerursachen wurden identifiziert und analysiert. Entsprechende Verbesserungsmaßnahmen wurden etabliert. Nun gilt es den einmalig erreichen hohen Qualitätsgrad nicht wieder absinken zu lassen, sondern durch regelmäßige Messungen mit denselben Datenqualitätsregeln eine permanente Überwachung zu realisieren. Aus diesen automatisierten Datenqualitätsmessungen können automatische Berichte generiert werden, die dann im Unternehmen publiziert die zeitliche Veränderung der Datenqualität zum Beispiel im Intranet darstellen.
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
83
Durch entsprechende Überwachungsmechanismen können bei Erreichen vorher festgelegter Schwellwerte unterschiedliche Aktivitäten angestoßen werden. Diese können von der einfachen Benachrichtigung von Systemverantwortlichen per SMS oder E-Mail bis hin zur Aktivierung von automatisierten Folgeprozessen reichen. Die fortlaufende Überwachung der Datenqualität ermöglicht es dem Unternehmen auch jederzeit Auskunft über den aktuellen Status zu liefern.
4.3
Anreize für ein Datenqualitätsmanagement
Eine der wichtigsten Aufgabenstellungen auf dem Weg zur Information Excellence ist es, das Thema Datenqualität nicht als eine alleinstehende, einmalige Aktion zu betrachten, sondern entsprechende organisatorische Maßnahmen zu ergreifen, die ein ganzheitliches Datenqualitätsmanagement unterstützen. Was sich ein Unternehmen also von einem ganzheitlichen Datenqualitätsmanagement erwarten kann, lässt sich in Anlehnung an Thomas Redman (1996) folgendermaßen formulieren: Diejenigen, die erfolgreich ein Datenqualitätsprojekt durchlaufen haben, werden den Einfluss von schlechter Datenqualität verstehen. Sie werden weiterhin bemüht sein, die Qualität ihre Daten zu erhöhen, weil sie verstanden haben, dass qualitativ hochwertige Daten einen echten Mehrwert für ihr Unternehmen darstellen und nicht nur eine lästige Pflichtaufgabe.
Diejenigen, die erfolgreich ein Datenqualitätsprojekt durchlaufen haben, werden organisatorische Maßnahmen ergreifen, um entsprechende Verantwortungsbereich für die Datenqualität zu etablieren. Sie werden die Daten und Informationen, die in ihrem Unternehmen genutzt werden, als einen echten Unternehmenswert betrachten. Ein Hauptaugenmerk wird auf der Erzeugung und Verwaltung von qualitativ hochwertigen Daten liegen. Alle im Unternehmen, die Daten erfassen, werden sich an der Qualität der von ihnen erfassten Daten messen lassen müssen.
Diejenigen, die erfolgreich ein Datenqualitätsprojekt durchlaufen haben, werden ein perfektes Verständnis für ihre Geschäftsprozesse haben. In dem Unternehmen ist es vollkommen transparent, wer der Kunde ist und wie seine Anforderungen an die Prozesse und Daten sind. Für die Messung und Überwachung der Datenqualität sind stabile regelmäßige Prozesse etabliert. Zu den wichtigsten Daten können permanent Aussagen über deren Qualitätszustand gemacht werden. Auftretende Probleme können frühzeitig erkannt werden und man kann proaktiv dagegen ankämpfen.
84
N. Weigel
Es gibt also eine ganze Reihe von guten Gründen, warum sich ein Unternehmen Gedanken zum Datenqualitätsmanagement machen sollte. Dabei gilt es aus den Erfahrungen Anderer zu profitieren und sich auf bewährte Prozesse und Methoden zu verlassen. Damit schaffen es die Unternehmen, am Markt wettbewerbsfähig zu bleiben oder sich um einen entscheidenden Schritt von den anderen Marktteilnehmern abzuheben.
Literatur Balou, D., Wang, R., Pazer, H. & Tyi, G., Modeling Information Manufacturing Systems to Determine Information Product Quality, 1998, In: Management Science (44:4), April 1998, S. 462–484 Probe into Japan share sale error, 9. Dezember 2005, http://news.bbc.co.uk/2/hi/business/4512962. stm (Zugriff am 30.5.2007) English, L., Improving Data Warehouse and Business Infomration Quality, Wiley Computer Publishing, New York, 1999, ISBN 0-47125-383-9 Helfert, M., Proaktives Datenqualitätsmanagement in Data-Warehouse-Systemen, Logog Verlag, Berlin 2002 Isbell, D. & Savage, D.: Mars Climate Orbiter Failure Board Releases Report, Numerous NASA Actions Underway in Response, 10. November 1999, http://www.spaceref.com/news/viewpr.html?pid=43 (Zugriff am 30.05.2007) Loshin, D., Enterprise Knowledge Management – The Data Quality Approach, Academic Press, 2001, ISBN 0-12-455840-2 Mathes, T., Bange, C., Keller, P., Datenqualitätsmanagement – 13 Werkzeuge zur Steigerung der Datenqualität, Oxygon Verlag, München, 2004, ISBN 3-937818-08-1 Mine Safety and Health Administration: MSHA Issues Quecreek Investigation Report, 12. August 2003 http://www.msha.gov/Media/PRESS/2003/NR030812.htm (Zugriff am 30.05.2007) Moss, L., TDWI Data Cleansing: Delivering High-Quality Warehouse Data, The Data Warehousing Institute, February 2004 Redman, T. C., Data Quality for the Information Age, Artech House Computer Science, Boston, 1996, ISBN 0-89006-833-6 Wang, R., Strong, D., Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of management Information Systems, 12 (1996) 4, S. 5–33
Niels Weigel is a member of the MEE Center of Excellence for Database and Data Management, and works closely with SAP customers on their broader Information governance initiatives and how SAP’s solutions support these business transformations. Working for about 20 years in several Software Vendor organizations, he has a broad experience on the market demands and requirements for solutions as well as project frameworks to solve the Enterprise Information Management challenges. After studying Aerospace Engineering at the University of Stuttgart, finishing with his diploma thesis on „Fuzzy logic for adaptive position control and guidance of a solar airship“, he identified new challenges in the area of International Data Quality Management at FUZZY! Informatik AG. After initial work in design and development of software solutions, he was leading the Consulting Services organization. As Head of Business Development he was responsible for the Product Management and was also setting up the FUZZY! DataCare Process, a methodology for successfully implementing Data Quality projects within an organization. After the acquisition of FUZZY! Informatik AG by Business Objects followed by the acquisition of Business Objects by SAP in 2007
4 Datenqualitätsmanagement – Steigerung der Datenqualität mit Methode
85
he joined the Solution Management Team for Enterprise Information Management at SAP and took over responsibility for SAP’s International Address Cleansing solutions and for the Data Quality Monitoring and Assessment solution SAP Information Steward. Niels has successfully completed the IQ-2 Certified Information Quality Professional course at the MIT, Boston. He appeared on several international Information Quality Conferences (ICIQ, AusIQ), the German SAP User Group Conference DSAG) and spoke at the University of Arkansas at Little Rock in the series „Distinguished Lecturers In Information Quality“.
5
Strukturierte Datenanalyse, Profiling und Geschäftsregeln Marcus Gebauer und Ulrich Windheuser
5.1
Datenqualität
In heutigen Diskussionen zum Thema Datenqualität wird häufig der Begriff der Informationsqualität synonym verwendet. Dies ist für die pragmatische Anwendung nicht von entscheidender Bedeutung, jedoch bestehen ein paar grundsätzliche, auch für das Verständnis der Datenqualität, wichtige Unterschiede. Aber auch die Autoren verwenden die Begriffe synonym. Die Abb. 5.1 stellt den Zusammenhang zwischen Daten und Information dar. Grundsätzlich können Informationen eines Unternehmens in solche, die formell strukturiert sind, und solche, die informell existieren, unterschieden werden. Betrachten wir im Weiteren die fassbaren ‚Formellen Informationen‘, so bestehen diese immer aus zwei Teilen, den Daten und dem dazugehörenden Kontext. Ohne einen Bezug zu einem Kontext sind Daten wertlos, sie gehorchen immer einem Zweck innerhalb eines Prozesses. Erst vor dem Hintergrund einer zielgerichteten Nutzung werden aus Daten Informationen abgeleitet.
M. Gebauer (*) IT-GMO, Hannover Re AG, Hannover, Deutschland E-Mail: [email protected] U. Windheuser WestLB AG, Düsseldorf, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_5
87
88
M. Gebauer und U. Windheuser
Abb. 5.1 Daten und Informationen (nach www. dmsbasics.de)
Formelle Informationen Kontext Prozess Zweck
Datenqualität Datenqualitätsmerkmale
Datenqualitätsmetrik
Daten • Format • Stabilität • Struktur • Verarbeitung • Inhalt • Business
Gesamtheit unterschiedlicher Qualitätsmerkmale Einzelaspekt der Datenqualität
Objektive, messbare Größe, die in Bezug auf unterschiedliche Ausprägungen eines Qualitätsmerkmals sensitiv
Abb. 5.2 Datenqualitätspyramide
Somit ist natürlich auch die Qualität von Daten nur im Kontext ihrer Nutzung beurteilbar. In diesem Sinne kann dann auch der Begriff der Informationsqualität synonym verwendet werden. Als pragmatische Definition der Datenqualität bietet sich folgende an:
Datenqualität ist die Gesamtheit der Ausprägungen von Qualitätsmerkmalen eines Datenbestandes bezüglich dessen Eignung, festgelegte und vorausgesetzte Erfordernisse zu erfüllen.
Als verkürzendes Schlagwort haben sich der Begriff Zweckeignung oder der englische Ausdruck Fitness for Use eingebürgert. Nun ist die oben genannte Definition sehr eingängig, dennoch bleibt die Aufgabe, diese mit Leben zu füllen, eine Operationalisierung herbeizuführen. Anhand der in Abb. 5.2 dargestellten Datenqualitätspyramide lassen sich drei Stufen erfolgreicher Operationalisierung erschließen.
5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
89
Datenqualität lässt sich als Obermenge aller Datenqualitätsmerkmale verstehen, die die zweite Ebene der Pyramide bilden. Zur Evaluierung der Datenqualitätsmerkmale sind Datenqualitätsmetriken notwendig. Sie bilden das Qualitätsmaß, mit dem eine quantitative Aussage möglich ist. Diese Qualitätsmetriken bilden die operationelle Basis zur Bestimmung der Datenqualität. Bis hierher ist die Datenqualitätspyramide eine rein technische Vorgehensbeschreibung. Im Folgenden werden die Begriffe DQ-Merkmale und DQ-Metriken detaillierter erläutert.
5.2
Merkmale der Datenqualität
Ein bekannter Ansatz zur Strukturierung der DQ-Merkmale ist der nach Larry English (English 1999). Er unterscheidet die folgenden drei Hauptmerkmale mit ihren insgesamt 10 Untermerkmalen: • Qualität der Datendefinition –– Datenspezifikation –– Geschäftsregeln –– Integritätsbedingungen • Inhaltliche Datenqualität (Korrektheit der Datenwerte) –– Vollständigkeit –– Eindeutigkeit –– Einhaltung der Geschäftsregeln –– Genauigkeit und Fehlerfreiheit • Qualität der Datenpräsentation –– Rechtzeitige Bereitstellung –– Angemessenheit des Formats –– Verständlichkeit des Formats Die Betrachtung der Datendefinitionsqualität ist der Einstieg und gleichzeitig die Basis für die weiteren Betrachtungen. Ohne vernünftige Definition ist z. B. eine nachvollziehbare Qualifizierung der inhaltlichen Qualität nicht möglich. Bei der Analyse eines Datenbestandes ist also zunächst auf die Metadaten, bestehend aus Pflichtenheft, Systemdokumentation, Datenmodell, etc. zu achten. In diesen sollten sich verständliche und vollständige Informationen zu den Datenobjekten finden. Die Datenspezifikation beschreibt die einzelnen Objekte wie z. B. Tabellen und Felder in ihrer absoluten fachlichen Bedeutung und Modellierung im System bzw. in der Datenbank. Es geht um Fragen wie „Welche Dinge der realen Welt (Produkte, Kunden, Verträge, …) finden sich im System? Wie und mit welchen Ausprägungen sind sie verschlüsselt?“, um klarzustellen, mit welcher „Sprache“ im System gearbeitet wird. Qualitätsaussagen zur Datenspezifikation drehen sich hierbei um „Existenz, Verfügbarkeit
90
M. Gebauer und U. Windheuser
und Aktualität einer Dokumentation“, „Vollständigkeit der beschriebenen Objekte“ und „Verständlichkeit der Beschreibung“. Die Betrachtung der Geschäftsregeln geht noch einen deutlichen Schritt weiter. Geschäftsregeln beschreiben Abhängigkeiten und Beziehungen der modellierten Objekte untereinander. Drücken sich diese Abhängigkeiten im Datenmodell aus, so können diese in Form von Referenziellen Integritäten geprüft werden. Aber nicht alle Beziehungen können in einem System ausmodelliert werden. Diese sind implizit vorhanden, wenn beispielsweise die Programmlogik darauf aufbaut. Plausibilitätsprüfungen an einer manuellen Eingangsschnittstelle sind ein weiterer Hinweis auf die Existenz und Nutzungsmöglichkeit von Geschäftsregeln. Qualitätsaussagen hierzu b ehandeln offensichtlich die Güte des Datenmodells und die Existenz, Vollständigkeit und Richtigkeit von Plausibilitätsprüfungen am Dateneingang. Oftmals leiden solche Qualität sichernden Maßnahmen unter höher gewichteten Performance-Anforderungen. Die inhaltliche Datenqualität ist bei akzeptabler Datendefinitionsqualität leicht prüfbar. Über die Datenspezifikation gelangt man leicht zu Kriterien zur Korrektheit (Vollständigkeit, Eindeutigkeit und Genauigkeit) der Datenwerte eines isoliert betrachteten Feldes. Mithilfe der Geschäftsregeln lassen sich Unplausibilitäten im Verhältnis zu anderen Feldinhalten und über die Integritäten Unstimmigkeiten zu in Beziehung stehenden anderen Datensätzen aufdecken. Im Unterschied zu den anderen Hauptmerkmalen lässt sich die inhaltliche Datenqualität automatisiert und reproduzierbar messen, wenn die bekannten Spezifikationen und Geschäftsregeln zur eindeutigen Aufdeckung von Datenfehlern genutzt werden. Die Qualität der Datenpräsentation ist durch Fragen der (zeitlichen) Verfügbarkeit, Angemessenheit des Formats und Verständlichkeit geprägt. Was nützen sauber dokumentierte und inhaltlich zu 100 % korrekte Daten, wenn diese für den Nutzer zu spät oder gar nicht verfügbar sind. Weitere Probleme können z. B. die Darstellung von rein technischen Sichten (Feldnamen und Feldinhalte) sein, die für den Endanwender erst durch Studium und Auswendiglernen von Schlüsseltabellen zu fachlichen Inhalten werden. Die Anforderungen an die Präsentationsqualität sind also überwiegend durch die Anwender getrieben und nicht durch technische Gegebenheiten der Anwendung. Daher ist eine Feststellung dieser Qualität nur durch eine direkte Einbeziehung der Anwender möglich. Als Sonderfall ist sicherlich noch zu betrachten, dass auch nachgelagerte Systeme, die über eine Schnittstelle mit Daten versorgt werden, Anforderungen an die Datenpräsentation haben. Diese sind eher technisch orientiert. Über Transformationsmethoden können Daten umgeschlüsselt und damit dem lesenden System „verständlich“ gemacht werden. Daher ist Datenpräsentation in diesem Kontext nicht kritisch. Wichtiger sind vielmehr die Aspekte der korrekten Datendefinition. Ein alternativer Ansatz zur Strukturierung der DQ-Merkmale ist der nach Richard Wang(Wang 1996). Wie in den vorangegangenen Abschnitten beschrieben unterscheidet English drei Bereiche, nach denen Datenqualität betrachtet werden kann. Dieses Modell ist insoweit recht pragmatisch, als dass es sich an den Erfordernissen eines zu implemen-
5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
91
tierenden Datenmodells orientiert. Metainformationen zu Datenfeldern werden hier in dem Bereich der Datendefinition hinterlegt. Im Ansatz nach Richard Wang lassen sich zwei grundsätzliche Unterschiede erkennen. Zum einen legt Wang stärker den Datennutzer und damit das Thema Informationsqualität in den Vordergrund, zum anderen unterliegen in seinem Modell Metadaten den gleichen Anforderungen der Datenqualität wie Daten. Dies hat den Vorteil, dass keine akademische Diskussion über den Unterschied zwischen Metadaten und Daten geführt werden muss. Es sei bereits jetzt angemerkt, dass es letztlich in der Anwendung unerheblich ist, nach welchem Modell vorgegangen wird. In der praktischen Durchführung kommt es auf die Vollständigkeit der Überprüfung aller Bereiche an. Wang definiert Merkmale in vier Datenqualitätskategorien, die sich wiederum in insgesamt 16 Datenqualitätsdimensionen unterteilen. • Intrinsisch –– Exaktheit –– Objektivität –– Glaubwürdigkeit –– Reputation • Kontextbezug –– Vollständigkeit –– Zeitgerechtigkeit –– Wert steigernd –– Relevanz –– Informationsmenge • Repräsentation –– Interpretierbarkeit –– Konsistenz –– Durchgängigkeit –– Verständlichkeit • Verfügbarkeit –– Bearbeitbarkeit –– Zugang –– Zugangssicherheit Intrinsisch bedeutet, dass Informationen Qualität aus sich heraus haben können. Exaktheit ist wie beschrieben allerdings nur eine Form, wenn auch eine, die objektiv bestimmbar ist. Die anderen drei Dimensionen repräsentieren die mehr subjektive Beurteilung von Daten in deren Nutzung. Im Sinne der Informationsqualität werden Daten immer innerhalb eines bestimmten Kontextes betrachtet. So müssen sie relevant, zeitgerecht, in geeigneter Menge vorliegen und vollständig sein und im Sinne eines Betrages auch Wert steigernd sein. Im Gegensatz hierzu findet sich die Zeitgerechtigkeit im Modell nach English in der Datenrepräsentation.
92
M. Gebauer und U. Windheuser
Die Kategorien der Repräsentation und der Verfügbarkeit betonen mehr die Bedeutung der IT-Systeme. Um die Informationsqualität zu beurteilen, sind die subjektive Kundensicht und die objektive Sicht, wie Daten im System hinterlegt sind, zu betrachten. Es ist notwendig beide Sichtweisen zu betrachten, da nur so die Qualität der Daten und Informationen umfassend betrachtet werden kann.
5.3
Geschäftsregeln
In den vorangegangen Abschnitten ist bereits deutlich geworden, dass die Prüfbarkeit von Datenqualität eng mit der Kenntnis von Geschäftsregeln zusammenhängt. Die Definition von geeigneten Metriken ist ohne Geschäftsregeln überhaupt unmöglich. Betrachten wir z. B. den einfachen Fall, dass in einem Kundenstammdatensystem die Adresse stets vollständig angegeben sein muss. Dies ist mindestens durch die Verwendungsnotwendigkeit im Schriftverkehr begründet und daher durch eine Geschäftsregel motiviert. Die resultierende Vollständigkeits-Metrik ist der Anteil der Kunden mit vollständig gefüllter Adresse. Dies lässt sich leicht auf die Betrachtung von Gültigkeitsbereichen, Plausibilitäten und Integritäten fortsetzen. Die Datenqualitätspyramide kann also um eine 4. Ebene ergänzt werden (s. Abb. 5.3). Der Ansatz über Geschäftsregeln ist plausibel, jedoch nicht problemfrei. Denn: • Geschäftsregeln sind selten dokumentiert: In den Dokumentationen unserer Systeme finden wir sicherlich Beschreibungen der Felder. Aber eine Beleuchtung des fachlichen Hintergrunds, warum ein Objekt definiert ist wie es ist fehlt in der Regel. Beschreibun-
Datenqualität Qualitätsmerkmale
Qualitätsmetriken
Geschäftsregeln
Abb. 5.3 Erweiterte Datenqualitätspyramide
Gesamtheit unterschiedlicher Qualitätsmerkmale Einzelaspekt der Datenqualität Objektive, messbare Größe, die in Bezug auf unterschiedliche Ausprägungen eines Qualitätsmerkmals sensitiv reagiert
Verschiedene Geschäftsobjekte werden in einen fachlich logischen Zusammenhang gebracht
5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
93
gen von Zusammenhängen zu anderen Datenobjekten werden ebenfalls nur selten zu finden sein. • Geschäftsregeln werden nicht konsequent angewendet: Existieren z. B. Handlungsanweisungen, wie Daten zu pflegen sind, so werden diese oftmals umgangen. Dies geschieht teilweise bewusst, wie die Nutzung von Default-Werten oder der Ausprägung „Sonstige“, oder unbewusst, da in der täglichen Arbeit eben Fehler passieren. –– Geschäftsregeln sind oft nur unscharf formuliert: Geschäftsregeln sind in der Regel (umgangs-)sprachlich dokumentiert und dadurch unscharf. Teilweise sind sie veraltet und daher nicht vollständig korrekt oder generisch formuliert und nur durch die Anwendung von Zusatzwissen anwendbar. Insgesamt sind Geschäftsregeln nicht direkt für eine systembezogene Nutzung geeignet und müssen durch Zusatzmaßnahmen für die Nutzung im Datenqualitäts-Management veredelt werden.
5.4
Methoden der Datenanalyse
Die oben geschilderten Probleme mit der Bekanntheit und Exaktheit von Geschäftsregeln können mit Methoden der Datenanalyse gelöst werden. Die dahinter liegende Idee ist dabei, dass das in den Daten einer Datenbank versteckte Wissen dazu genutzt wird. Auch wenn die Datenqualität eines Datenbestandes verbesserungswürdig ist, so wird dieser dennoch erfolgreich in der Praxis eingesetzt und besitzt damit eine zumindest akzeptable Datenqualität. Somit ist das indirekt in einer Datenbank gespeicherte Wissen nicht falsch. Im Folgenden wollen wir beschreiben, wie mit einfachen Mitteln der Datenanalyse Geschäftsregeln gefunden werden können. Die geschilderten Beispiele stammen aus der Praxis (ein Projekt zur Kundendaten-Qualitätsanalyse). Die einfachste Art ist die Häufigkeitsauszählung von kategorischen Variablen. In Abb. 5.4 links oben ist zu erkennen, dass die dritte Ausprägung von links nur sehr selten vorkommt. Dies ist verdächtig und sollte weiter verfolgt werden. Eine Durchsicht der Dokumentation ergibt, dass das betrachtete Feld die „Anrede des Kunden“ und „Fräulein“ die auffällige Ausprägung ist. Es stellt sich heraus, dass dieser Kunde vor langer Zeit eingerichtet wurde (als die Ausprägung „Fräulein“ noch erlaubt war), zwischenzeitlich deaktiviert, aber nun wieder aktiviert worden ist. Ergebnis: Die Verschlüsselung ist fehlerhaft und muss korrigiert werden. Die Geschäftsregel lautet: Die Ausprägung „Fräulein“ ist als Anrede nicht mehr zugelassen. Bei der Betrachtung von kontinuierlichen Variablen sollte der Fokus auf die Ränder der Verteilung gelegt werden. In Abb. 5.4 links unten wird gezeigt, dass in einem Datumsfeld die meisten Ausprägungen im Zeitraum 1900 bis heute angesiedelt sind, nur am linken Rand treten auffälligerweise Ausprägungen zu Anfang des 19. Jahrhunderts auf. Eine Betrachtung der Metadaten zeigt, dass es sich um das Feld „Geburtsdatum des Kunden“ handelt, welches zunächst den logischen Schluss einer Fehlverschlüsselung zulässt. Erst
94
M. Gebauer und U. Windheuser
01.02.1998
01.01.1998
01.01.1800
01.01.1950
Abb. 5.4 Beispiele für Datenanalyse
ein weiteres Nachlesen in der Feldbeschreibung zeigt, dass damit auch das Gründungsdatum eines Firmenkunden gemeint ist, welches durchaus im 19. Jahrhundert liegen kann. Ergebnis: Die gefundenen Auffälligkeiten sind also keine Fehler. Es ist jedoch zu empfehlen, die Feldbezeichnung zu erweitern, z. B. zu „Geburts- bzw. Gründungsdatum“. Die korrekte Geschäftsregel lautet: Ein Geburtsdatum vor dem 01.01.1900 ist bei natürlichen Personen (in Abgrenzung zu juristischen Personen) unplausibel. Die isolierte Betrachtung eines Feldes erlaubt, wie wir oben gesehen haben, nur die Erkennung von Fehlern am Rand einer Verteilung, jedoch nicht inmitten dieser. Die Betrachtung der rechten Seite von Abb. 5.4 zeigt einen Zugang, dieses Manko zu umgehen. Und zwar können durch Gegenüberstellen zweier (in diesem Fall Datums-)Felder ggf. Muster erkannt werden, die wiederum zu Ausreißervermutungen führen. In dem gezeigten Beispiel liegen die Datenpunkte größtenteils auf der Hauptdiagonalen oder darunter. Nur ein Datenpunkt liegt oberhalb der Diagonalen und kann als Ausreißer angenommen werden. Eine fachliche Prüfung kommt zu folgendem Ergebnis: Der Ausreißer stellt den prozessual nicht möglichen Fall dar, dass einem Kunden ein Kredit ausgezahlt wurde, bevor dieser bewilligt worden ist. Ergebnis: Der Fehler ist im Stammdatensystem zu korrigieren. Die Geschäftsregel lautet: Das Kapitalauszahlungsdatum liegt nie vor dem Kapitalgenehmigungsdatum. Die Chronologie der Beispiele zeigt, dass das Hinzuziehen von weiteren Feldern bei der Erkennung von Fehlern hilft. Die Methoden der Visualisierung sind allerdings auf eine geringe Zahl von Feldern beschränkt. Sollen mehr als 3– 4 Felder gleichzeitig betrachtet werden, so müssen weiterführende Analysemethoden eingesetzt werden. In der Praxis hat
5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
95
sich dabei die Data Mining-Methode der Regelinduktion besonders bewährt. Die Dimensionsgröße (= Anzahl der gleichzeitig betrachteten Felder) ist theoretisch unbeschränkt. Das Resultat der Regelinduktion sind klar formulierte „if-then“-Regeln, die direkt als Abfragen auf einer Datenbank angewendet werden können und auch für einen Laien leicht verständlich sind (natürlich vorausgesetzt, ihm ist die Bedeutung der Feldbezeichner bekannt). Beispiel für das Ergebnis einer Regelinduktion (hier auf Basis von Wertpapierstammdaten):
IF Wertpapierstatus = „Nicht abgelaufen“ AND Wertpapierart = „Aktie“ THEN Zinssatz = < leer > ; SUPPORT = 40 %, CORRECTNESS = 99,5 % ◄ Methoden der Regelinduktion erkennen solche Zusammenhänge automatisch, auch oder gerade wegen einer gewissen Unschärfe-Toleranz. Die oben genannte Regel hat einen Anwendungsbereich von 40 % der Grundgesamtheit, d. h. der Bedingungsteil der Regel trifft auf 40 % der gesamten Daten zu, und eine Korrektheit von 99,5 %, d. h. die Einschränkung auf „Nicht abgelaufene Aktien“ bewirkt, dass das Zinssatzfeld fast immer leer ist. Die Regel hat also eine Unschärfe von 0,5 %. Genau solche Unschärfen sollen aber bei DQ-Analysen aufgedeckt werden. Ergebnis: Die identifizierte Unschärfe ist zu korrigieren. Die Geschäftsregel ergibt sich aus der „if-then“-Regel selbst: Bei nicht abgelaufenen Aktien ist das Zinssatzfeld leer.
5.5
Metriken im Detail
In den voran gegangenen Abschnitten wurde der Zusammenhang zwischen Metriken und Geschäftsregeln erläutert und beispielhaft belegt. Außerdem wurde dargestellt, wie mit Mitteln der Datenanalyse Geschäftsregeln ermittelt werden können. Im Folgenden wird nun ausgeführt, wie verschiedene Regeltypen im Sinne von Metriken genutzt werden können. Grundsätzlich können drei Regeltypen unterschieden werden, die der Überprüfung verschiedener Aspekte von Datenqualität dienen. Die Regeln können in Messprojekten einzeln oder gemeinsam verwendet werden. Dabei ziehen unterschiedliche Messprojekttypen typischerweise auch die Verwendung unterschiedlicher Regeltypen nach sich: • Key Rules zur Überprüfung der die Tabellen verbindenden Felder gefolgt von • Matching Rules zur Überprüfung, inwieweit die Tabellen überhaupt zueinander passen, gefolgt von • Content Rules zur Überprüfung der Konsistenz der Inhalte der Datenzeilen, auch der unterschiedlicher Tabellen, die zueinander passen.
96
M. Gebauer und U. Windheuser
Alle Regeln erzeugen numerische Messergebnisse, die sich über selbst definierbare arithmetische Ausdrücke zu Qualitätsmetriken kombinieren lassen. Außerdem erzeugen alle Regeln auf Wunsch Fehlerlisten, die jeweils genau den Ausschnitt aus der analysierten Datentabelle beinhaltet, der eine gegebene Regel verletzt. Beide Outputs – Metriken und Fehlerlisten – sind für die Validierung von Regeln und die Bewertung von Messergebnissen wesentlich. Die Regeln können hierarchisch in einer Baumstruktur hinterlegt werden, wobei die gleiche Regel in mehr als einem Zweig des Baums vorkommen kann. Dies ermöglicht es, verschiedene Sichten auf die Regeln zu definieren, etwa nach Priorität, betroffenen organisatorischen Bereichen, betroffenen Daten nutzenden Systemen oder auch fachlichen Gesichtspunkten. Die Baumstruktur wird im Reporting gespiegelt, so dass auch die Messergebnisse nach den definierten Sichten ausgewertet werden können (s. u.). Key Rules dienen zur Überprüfung von Schlüssel- und allgemeiner Multiplizitäts- Eigenschaften einzelner oder zusammengesetzter Felder. Vorzugeben ist die zu überprüfende Feldkombination sowie die erlaubten Multiplizitäten für gleiche Ausprägungskombinationen. Matching Rules dienen zur Überprüfung eines Matchings zwischen zwei Tabellen. Vorzugeben ist die Bedingung, über die die Tabellen zueinander in Beziehung stehen, sowie die erlaubten Multiplizitäten. Content Rules dienen zur Überprüfung von Dateninhalten. Die Überprüfung von Dateninhalten erfolgt stufenweise, wobei die Einschränkungen an die Inhalte mit jeder Stufe schärfer werden. Diese Messstufen sind nicht zu verwechseln mit den 16 Dimensionen der Datenqualität wie sie zum Beispiel in (Wang 1999) beschrieben sind. Dabei besteht nicht die Anforderung, dass die Datenfelder in der Prüfung alle Stufen bis zur höchsten durchlaufen müssen. Wird ein Datensatz auf einer Stufe als Fehler erkannt, durchläuft er die übrigen Stufen nicht weiter. Dies vermeidet, dass bei der Validierung der Regel, Fehler auf Fehlerlisten mehrfach betrachtet werden. Im Falle eines Geburtsdatums, dessen exakte Ausprägung sich häufig nur bei Überprüfung gegen Aktenlage bestimmen lässt, und gerade nicht automatisiert, kann die Stufe der Exaktheit nicht erreicht werden. Die einzelnen Stufen sind: • Completeness – die Überprüfung auf korrekte Füllung und Nicht-Füllung • Format – die Überprüfung eines Feldinhalts auf Konsistenz mit einem vorgegebenen Muster • Range – die Überprüfung eines Feldinhalts auf Zugehörigkeit zu einem vorgegebenen Wertebereich • Plausibility – die Überprüfung von ein- oder mehrdimensionalen Relationen zwischen Feldern eines Datensatzes • Accuracy – die Überprüfung ein- oder mehrdimensionaler funktionaler Abhängigkeiten zwischen Feldern eines Datensatzes
5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
5.6
97
Datenqualität in der Anwendung
Wie wir bereits im vorangegangenen Abschnitt dargestellt haben, lassen sich systematische, metrikbasierte Datenqualitätsmessungen ganz allgemein zur Beurteilung verschiedener Anforderungen aus dem Datenmanagement verwenden. Grundsätzlich unterscheiden wir die Messprojekttypen • Typ a: Prüfung auf Konsistenz innerhalb eines Datenbestandes, • Typ b: Prüfung von Daten haltenden Systemen gegen führende Systeme oder externe Referenzbestände, • Typ c: Prüfung von Daten haltenden Systemen untereinander und • Typ d: Prüfung von Datenmigrationen Abb. 5.5 stellt die Informations- und Datenlandschaft eines Unternehmens mit den zugehörigen Abgleichen auf Datenebene dar. Ebene 0 spiegelt die Gesamtlage wider, auf Ebene 1 werden die vorhandenen Informationen in sogenannte Informationsgruppen gegliedert, denen wiederum auf der Ebene 2 Datenbestände zugeordnet werden, die die Grundlage der Informationen bilden. In der letzten Schicht sind die Messprojekttypen auf diesen Datenbeständen dargestellt. Grundsätzlich ist die Wahl der Informationsgruppen hochgradig unternehmensspezifisch und die Anzahl der Gruppen beliebig. Wir haben hier einen nicht untypischen Fall der Informationslandschaft als Beispiel genommen, wie er in Banken anzutreffen ist. So finden wir dort als Beispiel Stammdaten und Bewegungsdaten, wobei diese sich wieder in die entsprechenden Untergruppen aufteilen können. Auch diese Unterteilung ist wieder rein subjektiv. Im Grunde ist dieses Herunterbrechen die Kernaufgabe des Datenmanagements, die sich allerdings an den fachlichen Bedürfnissen orientiert. Auf der untersten Gliederungsebene (z. B. Kunde, Mitarbeiter) sind den Informationsgruppen in der Regel Datenbestände zugeordnet. Diese bilden die Ebene 2 und auf ihnen erfolgen letztendlich die Prüfungen. In der Ebene 2 finden wir drei unterschiedliche Typen Datenbestände. Dies ist zum einen der Referenzbestand (Bestand 0), der häufig durch eine externe Datenquelle gebildet wird. Unter Unständen kann dies jedoch auch ein physischer Ordner sein, in dem Daten ‚auf Papier‘ gehalten werden. Unternehmen definieren zudem einen führenden Bestand (Bestand 1), der neben den offiziellen Daten des Referenzbestandes auch interne unternehmensspezifische Daten/Informationen enthalten kann (Abb. 5.6). Die nachgelagerten Bestände (Bestand 2) greifen dann auf diesen führenden Bestand zu und halten ihrerseits wiederum zusätzliche Informationen, die für die Nutzer dieser Systeme in ihrer täglichen Arbeit notwendig sind. Die beschriebene Vorgehensweise der zusätzlichen Speicherung erzwingt eine disziplinierte Umgangsweise mit Daten, ist jedoch operativ notwendig, begründet in den anwendungsspezifischen Anforderungen unterschiedlicher Fachbereiche. Abb. 5.6 macht noch mal die verschiedenen Abgleichvarianten beispielhaft anhand inhaltlicher Daten-Ausprägungen in den unterschiedlichen Bestandstypen deutlich. Abgleiche unter den drei Bestandstypen (grüne, rote Pfeile) umfassen Prüfungen zum einen
InformationsGruppe N
• • •
InformationsGruppe IIBewegungsdaten
InformationsGruppe IStammdaten
WertpapierStammdaten
PersonenStammdaten
Bestand M: Nachgelagerter Bestand
Derivate
• • •
Kredite
• • •
Bestand 2: Nachgelagerter Bestand
Bestand 1: Führender Bestand
Bestand 0: Referenzbestand
Ebene 2: Zugeordnete Datenbestände
Wertpapier
• • •
Mitarbeiter
Kunde
Ebene 1: Informationsgruppen (Hierarchien)
Abb. 5.5 Informationsgruppen und Ebenen der Datenqualität
Gesamtbestand
Ebene 0
Abgleich mit führendem Bestand
KonsistenzPrüfung führender Bestand
Abgleich mit Referenzbestand
Messungen
98 M. Gebauer und U. Windheuser
5 Strukturierte Datenanalyse, Profiling und Geschäftsregeln
99
Abb. 5.6 Abgleichvarianten
auf inhaltliche Identität oder Korrektheit logischer Ableitung. Information und Daten, die im Führenden Bestand zusätzlich gehalten werden, unterliegen der internen Konsistenzprüfung. Im Beispiel wird ein offiziell vergebener Branchenschlüssel mit einem intern abgeleiteten verglichen. Die Darstellung macht deutlich, dass sich aus technisch logischer Sicht die Abgleiche nicht unterscheiden. Die eigentliche Arbeit erfolgt auf der inhaltlichen Ebene, die im Wesentlichen von den prozessualen Gegebenheiten geprägt ist. Bei Ablösungen von Systemen wird regelmäßig die Qualität der neuen Software in Testzyklen auf Basis der Erfahrungen mit dem alten System oder der Erwartung an das neue System überprüft. Diese Tests werden mittlerweile durch ausgereifte Testsysteme unterstützt, mit deren Hilfe die Realität abbildende Testfälle abgearbeitet werden. Diese Testzyklen stellen sicher, dass die neue Software in ihren neuen und alten Funktionalität korrekt arbeitet. Dies bedeutet allerdings in der Regel nicht, dass die Daten und Informationen, die durch das System repräsentiert werden, nach der Migration auch wiedergefunden werden können. Diese gehen schlicht auf dem Weg von einem zum anderen System ‚verloren‘, da • die den Systemen zugrunde liegenden Datenmodelle unterschiedlich sind, –– dadurch gleiche Sachverhalte unterschiedlich verschlüsselt werden und –– Informationen in unterschiedlicher Granularität abgelegt werden. • das Datenmodell des Altsystems über seine Lebensdauer hinweg unkontrolliert angepasst wurde oder • Wissen über das Altsystem und des zugehörigen Datenmodells nicht mehr oder nur eingeschränkt vorhanden ist.
100
M. Gebauer und U. Windheuser
Somit kann auch der Erfolg von Datenmigrationen mit den im vorangegangenen Abschnitt beschriebenen Methoden anhand der vorgefundenen Datenqualität beurteilt werden. In der Regel müssen die genutzten Datenqualitätsregeln hierbei angepasst werden. Reine Datenqualitätsmessungen sind für viele Bereiche eine operativ notwendige Maßnahme. Nur eine hohe Datenqualität erlaubt es Unternehmen z. B. regulatorischen Anforderungen zu genügen oder auch Business Intelligence erfolgreich zu betreiben. Insofern ist die Überprüfung der Datenqualität immer zielgerichtet durchzuführen und sollte keinem Selbstzweck folgen. Deming (Deming 1986) hat dies bereits in den 50er Jahren in einer seiner Regeln deutlich formuliert. Mitarbeiter werden, wenn sie quantitative Datenqualitätsziele erreichen müssen, diese, koste es was es wolle, zu erreichen suchen. Dies kann im schlechtesten Falle am Ende bedeuten, dass Unternehmen Geld für diese Messungen und Maßnahmen ausgeben, ohne dass irgendjemand davon profitiert.
Literatur Deming, J. Edwards; ‘Out of the crisis’; MIT Press, Cambridge, Massachusetts, 1986 English, Larry P.; ‘Improving Data Warehouse and Business Information Quality’, Wiley & Sons, New York, 1999 Wang, Richard Y.; Strong, Diane M.; ‚Beyond Accuracy: What Data Quality Means to Data Consumers’, Journal of Management Information Systems, 1996, Vol. 12, No. 4, pp. 5–34
Dr. Marcus Gebauer studierte Physik an der Universität Dortmund und der Humboldt-Universität zu Berlin und promovierte dort im Gebiet der Elementarteilchenphysik im Jahre 1997. Von 1997 bis 2001 war er in der WestLB Systems GmbH verantwortlich für Software-Produkte und -Projekte im Wertpapierumfeld. Danach leitete er bis 2009 als Datenqualitätsbeauftragter den Bereich Datenqualitätsmanagement der WestLB AG. Sein Verantwortungsbereich umfasste den gesamten WestLB-Konzern, der auf allen Kontinenten mit Handelsaktivitäten vertreten ist. Seit Oktober 2009 zeichnet Dr. Gebauer verantwortlich für den Bereich ‚Governance, Management und Organisation‘ des IT-Bereiches der Hannover Re AG. In dieser Aufgabe ist er verantwortlich für die globale Ausrichtung der IT. Außerdem ist er Gründungsmitglied und Vorstandsvorsitzender der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ e. V.). Dr. Gebauer berät internationale Unternehmen und Organisationen in den Themen Daten- und Informationsqualität, Business Intelligence, Risk Management, Compliance und allen sachverwandten Gebieten. Er ist Mitglied des Advisory Boards der FinScore AG (Lausanne/Schweiz), Advisor der ‚School of Computer & Information Science‘ der University of South Australia (Adelaide/Australien) und Mitbegründer des EIDIQ ‚European Institute for Data and Information Quality‘. Dr. Ulrich Windheuser ist Gruppenleiter im Geschäftsbereich Information Technology der WestLB AG, Düsseldorf. In der Vergangenheit hat er sich als interner Unternehmensberater intensiv mit den Themen Data Mining und Datenqualitäts-Management, dort speziell mit Datenqualitäts-Messungen beschäftigt. Er hat zahlreiche Datenqualitäts- und Datenanalyse-Projekte in Kooperation mit verschiedenen Fachbereichen durchgeführt. Als Besonderheiten sind die Mitwirkung an einer Veröffentlichung eines Data Mining-Buches, die Eigenentwicklung eines Datenqualitäts-Messinstruments und die Konzeption und Durchführung von Datenqualitäts-Seminaren hervorzuheben. URL: http://www.westlb.de.
6
Datenbereinigung zielgerichtet eingesetzt zur permanenten Datenqualitätssteigerung Marcus Zwirner
Sind Datenfehler mit Hilfe der in den vorangegangenen Kapiteln beschriebenen Methoden und Techniken identifiziert worden, ist die Datenqualität damit (leider) noch nicht automatisch verbessert. Man hat zwar nun einen qualifizierten Überblick über die tatsächliche Situation und die existierenden Fehlerkonstellationen, aber die Korrektur steht noch bevor und stellt in einem Datenqualitätsprojekt oftmals eine besondere Herausforderung dar, da hierfür mitunter ein nicht unbedeutender Aufwand erbracht werden muss. Dank der vorherigen ausführlichen Datenqualitätsanalyse und -messung ist man nun jedoch in der Lage, • gezielt zu analysieren, wodurch die Datenfehler entstanden sind, • zu definieren, welche Maßnahmen ergriffen werden müssen, um die Fehlerquellen zu beseitigen und die Datenfehler zu bereinigen und • die verschiedenen Datenfehler und die notwendigen Maßnahmen zu priorisieren und in einen entsprechenden Projektplan zu überführen. In diesem Kapitel wird schwerpunktmäßig das Vorgehen für effektive Korrekturmaßnahmen thematisiert, daneben aber auch die Methoden für ein Datenqualitätsmanagement und die Aspekte beschrieben, die zu berücksichtigen sind, um die für den jeweiligen Einzelfall sinnvollste Datenqualitätsmaßnahme ergreifen zu können.
M. Zwirner (*) SAP Deutschland SE & Co. KG, Freiberg a. N., Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_6
101
102
6.1
M. Zwirner
Definition „Datenbereinigung“
Bevor die verschiedenen Aspekte eines Datenbereinigungsprojektes vertieft werden, zunächst eine Definition des Begriffs „Datenbereinigung“. Bei Wikipedia [http://de.wikipedia.org/wiki/Datenbereinigung] ist beispielsweise folgende Definition zu finden: Zur Datenbereinigung (engl. data cleansing oder data scrubbing) gehören verschiedene Verfahren zum Entfernen und Korrigieren von Datenfehlern in Datenbanken oder anderen Informationssystemen. Die Fehler können beispielsweise aus inkorrekten (ursprünglich falschen oder veralteten), redundanten, inkonsistenten oder falsch formatierten Daten bestehen. Wesentliche Schritte zur Datenbereinigung sind die Duplikaterkennung (Erkennen und Zusammenlegen von gleichen Datensätzen) und Datenfusion (Zusammenführen und Vervollständigen lückenhafter Daten). Die Datenbereinigung ist ein Beitrag zur Verbesserung der Informationsqualität. Allerdings betrifft Informationsqualität auch viele weitere Eigenschaften von Datenquellen (Glaubwürdigkeit, Relevanz, Verfügbarkeit, Kosten …), die sich mittels Datenbereinigung nicht verbessern lassen. Anders formuliert: Unter einer Datenbereinigung wird üblicherweise eine einmalige oder wiederholte (aber nicht permanente) Aktion zur Wiederherstellung einer korrekten Datenbasis verstanden. Selbst bei regelmäßig wiederholten Bereinigungsaktionen handelt es sich aber immer wieder um eine nachträgliche Korrektur bereits entstandener Datenfehler. Dieses Vorgehen kann im Einzelfall (z. B. bei relativ statischen Daten) durchaus sinnvoll und ausreichend sein. Bei kritischen Datenfehlern und hochdynamischen Daten liegt in solchen punktuellen Ansätzen jedoch oftmals ein Problem: Sie helfen i. d. R. nur temporär (kurzfristig) und verursachen einen erhöhten (Bereinigungs-) Aufwand und das u. U. sogar wiederholt. Zur Verdeutlichung folgendes Beispiel: Überträgt man seine Kontakte z. B. aus Microsoft Outlook® auf sein Mobiltelefon und stellt später fest, dass eine Telefonnummer nicht mehr aktuell ist, wird sehr häufig die Telefonnummer nur auf dem Mobiltelefon geändert. Nach einer erneuten Übernahme der Kontaktdaten aus Microsoft Outlook® ist die Änderung im Telefon u. U. wieder mit den ursprünglichen, veralteten Daten überschrieben und damit verloren (falls man bei der Synchronisation nicht entsprechende Einstellungen vornimmt). Die Korrektur der Telefonnummer muss erneut vorgenommen werden (nach einer u. U. wiederholten aufwändigen Recherche).
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
6.2
103
Ursachenanalyse
Ein solches Vorgehen ist sicherlich nicht effektiv und stellt die Datenqualität vor allem nicht dauerhaft sicher. Idealerweise werden deshalb ergänzend zur Datenbereinigung auch Maßnahmen ergriffen, die die erneute Entstehung von Datenfehlern möglichst verhindern. Deshalb bedarf es vor einer Bereinigung einer genauen Analyse der Fehlerursachen, in der auch die bestehenden Prozesse und Datenflüsse untersucht werden müssen, um die Maßnahmen zielgerichtet durchzuführen. Im oben aufgeführten Beispiel mit der Telefonnummer ließe sich dann erkennen, dass die eigentliche Bereinigung besser im führenden Quellsystem (in diesem Beispiel Microsoft Outlook®) durchzuführen ist und sich durch die (regelmäßige oder bei Bedarf auch im Zusammenhang mit der Datenbereinigung außerplanmäßige) Synchronisation der Daten auf das Mobiltelefon dort ebenfalls auswirkt. Gleichzeitig könnte sich ein Bedarf für die Änderung der bisherigen Prozesse ergeben. Da es sich in der Praxis nicht als effektiv erweisen würde, eine neue Telefonnummer zunächst im Quellsystem (Microsoft Outlook®) zu erfassen, dann eine Synchronisation auf das Mobiltelefon durchzuführen, um damit endlich den Anruf tätigen zu können, wäre eine Lösungsmöglichkeit, auch eine Synchronisation in umgekehrter Richtung (vom Mobiltelefon nach Microsoft Outlook®) vorzunehmen (in der Praxis wird heute deshalb auch eine Synchronisation in beide Richtungen ermöglicht).
6.3
ewertungskriterien für Datenfehler B und Korrekturmaßnahmen
Die Ursachen für Datenfehler können vielfältig sein. Angefangen beim Datenmodell und den Anwendungen, mit denen die Daten bearbeitet werden, über die Datenflüsse und bestehenden Prozesse, bis hin zu den beteiligten Anwendern „lauert“ überall der „Fehlerteufel“. Speziell der menschliche Einflussfaktor ist hierbei nicht zu vernachlässigen. Neben den allzu menschlichen Schwächen, wie z. B. Hör- und Tippfehler, können auch mangelnde Sorgfalt oder kriminelle Absichten zu Datenfehlern führen. Und schließlich darf auch der Erfindungsreichtum der Anwender nicht vergessen werden, wenn es darum geht, die Daten so „hinzubiegen“, dass die realen Geschäftsprozesse auch mit den durch Anwendungen gelegentlich eingeschränkten Möglichkeiten abgebildet werden können. Da wird beispielsweise schon mal ein Datenfeld, das eigentlich für den Ortsteil vorgesehen ist, für eine Telefonnummer „missbraucht“, da diese wichtige Empfängerinformation anderweitig nicht auf einen Lieferschein gedruckt werden kann. Entsprechend vielfältig können auch die Maßnahmen sein, die ergriffen werden müssen, um die bestehenden Fehler zu korrigieren und das Entstehen neuer Fehler zu verhindern oder zumindest das Risiko dafür zu reduzieren.
104
M. Zwirner
Aus diesem Grund ist es unabdingbar, die notwendigen und möglichen Verbesserungsmaßnahmen zu konzipieren und zu bewerten. Oftmals wird man nämlich nicht in der Lage sein, alle auf Basis der erkannten Datenfehler identifizierten möglichen und notwendigen Maßnahmen gleichzeitig umzusetzen. Um eine Bewertung der existierenden Datenfehler (und davon abgeleitet der notwendigen Maßnahmen) vornehmen zu können, bieten sich die nachfolgend aufgeführten Kriterien an: • Bedeutung der Daten Hier gilt es zu bewerten, welche Bedeutung die betroffenen Daten für das Unternehmen und die Geschäftsprozesse haben und welche Konsequenzen sich aus Datenfehlern ergeben. Mögliche Konsequenzen können beispielsweise sein: –– Imageschaden, da Fehler in den Kundendaten in Mailingaktionen zu einer fehlerhaften Ansprache führen oder die Zielgruppe nicht eindeutig identifiziert werden kann und somit Cross-Selling-Potenziale nicht genutzt werden können. –– Fehlentscheidungen (strategisch wie auch operativ), da die für eine Entscheidung herangezogenen Informationen unvollständig und fehlerhaft und die „Verlässlichkeit“ der Entscheidungsbasis nicht bekannt ist. –– Erhöhtes Risiko, da ein Kunde mehrfach im Bestand ist (Dublette) und damit mehrfach ein Kreditlimit eingeräumt bekommt. –– Schlechtere Einkaufskonditionen, da der Umsatz mit bestimmten Lieferanten nicht genau bekannt ist, wenn diese mehrfach im Lieferantenstamm existieren. –– Zusatzaufwände für –– die Bearbeitung eines Geschäftsvorfalls, –– die Erstellung von Auswertungen und Analysen –– die Entwicklung und den Betrieb eines Systems, da Datenfehler immer erst adhoc korrigiert werden müssen. –– Akzeptanz- und Vertrauensverlust eines Systems, da die Informationen nicht verlässlich sind oder erscheinen. –– Fehlplanungen, da fehlerhafte Zahlen eine falsche Planungsbasis ergeben, was dann wiederum zu einer fehlerhaften Preiskalkulation und Rentabilitätsrechnung führen kann. • Grundlage der Anforderungen an die Datenqualität Hier wird bewertet, welche Bedeutung eine Quelle hat, in der Anforderungen an die Datenqualität direkt oder indirekt definiert sind und welche Konsequenzen bei Mißachtung der Anforderungen drohen. Mögliche Grundlagen sind: –– Gesetzliche Anforderungen, wie z. B. Basel II oder SOX (Sarbanes-Oxley Act), bei denen die Richtigkeit und Verlässlichkeit von Finanzdaten unabdingbar sind und in denen auch entsprechende Kontrollmechanismen gefordert werden.
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
105
–– Aufsichtsrechtliche Anforderungen, wie z. B. die Meldung von Groß- und Millionenkrediten von Banken an das BaFin (Bundesanstalt für Finanzdienstleistungsaufsicht) gemäß KWG (Gesetz über das Kreditwesen). –– Offizielle, öffentliche Standards, wie z. B. Adressierungsrichtlinien der Post –– Strategische Entscheidungen eines Unternehmens, die beispielsweise Themen wie –– Optimierung der Geschäftsprozesse zur Kostenreduzierung oder Serviceverbesserung –– Forcierung einer CRM-/Marketing-Strategie –– Image-Kampagnen zur Kundenbindung und Neukundengewinnung zum Ziel haben. –– Projektspezifische Anforderungen, die sich aus einem Projektauftrag ergeben. –– Firmeninterne Standards, die sich z. B. aus Arbeitsanweisungen ergeben. • Art der Fehler Bei der Art der Fehler gilt es zu klassifizieren, ob es sich bei den Fehlern um eher technische oder fachliche Fehler handelt. Technische Fehler können beispielsweise sein: –– Widersprüche gegen eine logische, aber nicht in der Datenbank definierte referentielle Integrität (z. B. Adresse, die einem nicht existierenden Lieferanten zugeordnet ist) Fachliche Fehler sind z. B.: –– Inhaltlich falsche, widersprüchliche oder unplausible Werte (z. B. E-Mail-Adresse ohne gültige Top-Level-Domain) Die Fehlerkategorie lässt bereits Rückschlüsse auf die Art der möglichen Bereinigungsmaßnahmen und die Verantwortung für die Durchführung der Korrektur zu. So lassen sich technische Fehler oftmals nicht manuell durch einen Fachbereich bereinigen, da die zur Verfügung stehenden Anwendungen diese Art von Änderungen nicht unterstützen. • Art der möglichen Bereinigungsmaßnahmen Die Art der möglichen Bereinigungsmaßnahme hängt primär vom Fehlerfall und der zur Verfügung stehenden Anwendungen ab. Grundsätzlich gibt es die Optionen –– manuelle Bereinigung –– maschinelle Bereinigung und –– eine Mischform aus den beiden erstgenannten Varianten. Eine manuelle Bereinigung wird entweder dann vorgenommen, wenn die Fehleranzahl und damit der manuelle Aufwand gering ist, oder wenn es keine einfachen Regeln gibt, nach denen ein gültiger Wert maschinell ermittelt und automatisiert korrigiert werden kann. Die maschinelle Bereinigung kommt meistens dann zum Tragen, wenn es sich um eine (sehr) große Anzahl von Fehlern handelt und diese nach spezifizierbaren Regeln oder durch Abgleich gegen Referenzverzeichnisse automatisiert korrigiert werden können. Die Bereinigung selbst kann dann entweder über ein Anwendungsprogramm, das
106
M. Zwirner
ggf. speziell für diese Bereinigung realisiert werden muss, oder mit Hilfe von Datenbankmitteln (z. B. SQL) erfolgen. Die Mischform aus manueller und maschineller Bereinigung kommt dann zur Anwendung, wenn ein Großteil der Daten nach einfachen Regeln maschinell korrigiert werden kann und identifizierbare Sonder- oder Zweifelsfälle einer manuellen Bearbeitung und Entscheidung bedürfen. • Änderungshäufigkeit der Daten Die Änderungshäufigkeit der Daten ist ein Indiz dafür, wielange es nach einer Bereinigung der Datenfehler dauern kann, bis wieder eine größere Anzahl von Fehlern entstanden ist und damit erneut eine Bereinigung notwendig wird. Um bei hoch dynamischen Daten eine häufige und aufwändige Bereinigung zu vermeiden, ist eine entsprechende Datenqualitätsstrategie zu wählen, die dieser Dynamik Rechnung trägt. Hierzu gehören neben der initialen Bereinigung auch Überlegungen, wie Datenfehler künftig am besten vermieden werden. Andererseits kann es bei eher statischen Daten genügen, diese initial zu bereinigen und ggf. in größeren zeitlichen Abständen regelmäßig zu überprüfen und bei Bedarf eine erneute Bereinigung durchzuführen. • Anzahl der Datenfehler Ein wichtiger Aspekt für die Beurteilung der Datenqualitätssituation ist sicherlich die Anzahl der vorhandenen Datenfehler. Eine große Anzahl von Fehlern stellt i. d. R. ein entsprechend großes Problem dar, sowohl in der Auswirkung, als auch für die Bereinigungsmaßnahmen. Setzt man an dieser Stelle mit Datenqualitätsmaßnahmen an, kann umgekehrt aber auch ein entsprechend großer positiver Effekt erzielt werden. Es muss allerdings berücksichtigt werden, dass bei einer großen Fehleranzahl manuelle Bereinigungen i. d. R. nicht mehr wirtschaftlich sinnvoll möglich sind. Die Fehleranzahl darf allerdings nicht alleine betrachtet werden, da es immer auch die Auswirkungen der Datenfehler zu bewerten gilt (siehe oben „Bedeutung der Daten“). Sollte man bei der Bewertung allerdings zu dem Schluss kommen, dass die Anzahl der Fehler hoch ist, die Auswirkungen jedoch gering sind, muss man u. U. auch den Datenbestand grundsätzlich in Frage stellen. • Maßnahmen zur Vermeidung neuer Fehler Häufig werden in Datenqualitätsprojekten zunächst einmal Maßnahmen zur (einmaligen) Bereinigung der festgestellten Datenfehler geplant. Wenn man allerdings bedenkt, wie aufwändig solche Maßnahmen z. T. sind und dass sie u. U. künftig nochmals notwendig werden, wenn die Fehlerquellen nicht beseitigt werden, stellt sich die Frage, ob es nicht effektivere Maßnahmen gibt. Hierzu zählen vor allem solche Maßnahmen, durch die die Entstehung neuer Datenfehler möglichst verhindert werden. Bei der Projektplanung gilt es –– zu prüfen, ob für den einzelnen Fehlerfall eine permanente Fehlervermeidung erforderlich ist oder ob es ausreicht, einmalig oder regelmäßig wiederholt eine Bereinigung durchzuführen und
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
107
–– diejenigen Maßnahmen zu identifizieren, die für den jeweiligen Fehlerfall geeignet und wirtschaftlich sinnvoll umsetzbar sind. • Aufwand für Datenqualitätsmaßnahmen Last but not least gilt es in einem Datenqualitätsprojekt selbstverständlich auch den Aufwand für Datenqualitätsmaßnahmen zu bewerten. Einerseits können mit wenig Aufwand „Quick wins“ erzielt werden, die einen kurzfristig erzielbaren Nutzen bringen. Andererseits kann es auch sehr aufwändig sein, bestimmte Fehler bzw. Fehlerquellen zu beheben, insbesondere dann, wenn ein hoher manueller Anteil an der Korrektur notwendig ist. Sollte man sich allerdings aus Aufwandsgründen dafür entscheiden, bestimmte Maßnahmen nicht durchzuführen, muss man sich der Konsequenzen daraus bewusst sein und diese im weiteren Verlauf stets berücksichtigen (z. B. bei der Verlässlichkeit von Auswertungen und Analysen).
6.4
Methoden des Datenqualitätsmanagements
Nachdem die verschiedenen Datenfehler und die zur ihrer Korrektur und ggf. künftigen Vermeidung notwendigen Maßnahmen bewertet sind, gilt es zu entscheiden, wie im weiteren Projektverlauf vorangegangen wird. Grundsätzlich gibt es für ein Datenqualitätsmanagement (DQM) folgende unterschiedliche Vorgehensweisen: • „Laissez faire“ Kommt man zu der Erkenntnis, dass bestimmte Datenfehler –– unkritisch sind und/oder –– nur so selten vorkommen, dass dadurch keine nennenswerten negativen Auswirkungen zu erwarten sind, kann das Ergebnis lauten, dass keine besonderen Maßnahmen zu ergreifen sind, um die Fehler zu beheben. Der Aufwand ist in solchen Fällen an anderer Stelle sinnvoller investiert. Die Datenfehler bleiben erhalten oder werden u. U. im Rahmen der täglichen Arbeit „nebenbei“ behoben, wenn zufällig ein solcher Fall bearbeitet wird. • Reaktives Vorgehen Bei einem reaktiven Vorgehen wird ein bestimmtes Datenqualitätsproblem genau dann durch eine einmalige Bereinigungsaktion behoben, wenn es auffällt. Diese Bereinigung kann manuell oder maschinell durchgeführt werden. Maßnahmen zur künftigen Vermeidung dieser Fehlerkonstellation werden ebenso nicht ergriffen, wie Überwachungsmechanismen eingeführt. Man geht dabei davon aus, dass die Datenfehler, falls sie in der Zukunft erneut auftreten, irgendwann durch ihre Auswirkungen wieder auffallen und man dann wieder darauf reagieren kann (z. B. durch
108
M. Zwirner
eine erneute Bereinigungsaktion). Demzufolge helfen solche reaktiven Maßnahmen immer nur punktuell und temporär. Aufgrund der mangelnden Überwachung und des damit verbundenen Risikos, dass Datenfehler erst spät erkannt werden, sollte diese Methode nur dann gewählt werden, wenn die Auswirkungen solcher Datenfehler überschaubar und vertretbar sind. • Proaktives Datenqualitätsmanagement Bei einem proaktiven Datenqualitätsmanagement werden neben einer initialen Bereinigung der Datenfehler auch Maßnahmen zur –– Beseitigung der Fehlerquellen, –– fortlaufenden Überwachung (Monitoring) der Datenqualität, –– Verhinderung neuer Datenfehler im laufenden Betrieb (präventive Maßnahmen) und/oder –– regelmäßigen Bereinigung neu entstandener Datenfehler ergriffen. Erst dann kann man eigentlich von einem echten Datenqualitätsmanagement sprechen. Diese Variante ist sicherlich die aufwändigste Methode, weshalb sie auch nicht für alle Arten von Datenfehlern gewählt wird. Auf der anderen Seite wird dadurch der Erfolg des Datenqualitätsprojekts jedoch am besten und vor allem auch dauerhaft sichergestellt. Bei der Wahl der Methode wird sehr häufig die Bedeutung und die Änderungshäufigkeit der Daten als Entscheidungskriterium herangezogen. Je höher die Bedeutung und je dynamischer die Daten sind, umso wichtiger ist ein proaktives Datenqualitätsmanagement (siehe Abb. 6.1). Daneben können aber auch weitere Kriterien für die Auswahl der geeigneten Methode herangezogen werden (siehe hierzu auch Abschn. 4.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen). Sowohl beim reaktiven Vorgehen, wie auch ganz besonders beim proaktiven Datenqualitätsmanagements empfiehlt es sich, in der Unternehmens-Organisation dauerhaft ein Datenqualitäts-Team zu etablieren, das Abb. 6.1 Methoden des Datenqualitätsmanagement (DQM) in Abhängigkeit der Änderungshäufigkeit und Bedeutung der Daten
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
• • • •
109
die einzelnen Maßnahmen des aktuellen Datenqualitätsprojekts koordiniert und überwacht, in künftigen Projekten die Datenqualitätsaspekte einbringt und beratend tätig ist, systematisch Fehler durch reproduzierbare Datenanalysen ermittelt und eigenständig Datenqualitätsmaßnahmen initiieren kann.
6.5
Datenqualitätsmaßnahmen im Detail
Bei einem proaktiven Datenqualitätsmanagement gibt es eine Vielzahl möglicher Maßnahmen, mit deren Hilfe • • • •
die vorhandenen Datenfehler bereinigt werden, die Fehlerursachen behoben werden, präventiv Datenfehler in der Zukunft vermieden werden und die Datenqualität effektiv und dauerhaft sichergestellt wird.
In diesem Abschnitt werden diese Maßnahmen detailliert beschrieben. In einem Datenqualitätsprojekt werden zumeist mehrere der nachfolgend beschriebenen Maßnahmen – z. T. kombiniert, teilweise auch unabhängig voneinander – ergriffen, da nicht für alle Fehlerarten dieselbe Vorgehensweise sinnvoll ist. Systemoptimierungen Unter Systemoptimierungen sind all diejenigen Maßnahmen zusammenzufassen, die die Datenhaltung und Programme, mit denen die Daten verarbeitet werden, unmittelbar betreffen. Hierunter fallen: • Anpassungen des Daten- bzw. Datenbankmodells Sind Datenfehler darauf zurückzuführen, dass das vorhandene Daten(bank)modell die Darstellung von Informationen und/oder deren logische Beziehung nicht korrekt ermöglicht, muss das Daten(bank)modell angepasst werden. Beispiel: Sieht das Datenmodell nicht vor, dass zu einer Person mehrere Adressen oder mehrere Telefonnummern gespeichert werden können, müssen mehrere Datensätze für ein und dieselbe Person mit unterschiedlichen Adressen und/oder Telefonnummern angelegt werden (siehe Tab. 6.1). Da die Personendaten auf diese Weise redundant existieren, sind Datenqualitätsprobleme durch abweichende oder widersprüchliche Informationen vorprogrammiert (z. B. unterschiedliche Schreibweisen des Namens, wie im vierten Datensatz in Tab. 6.1). Ebenso ist es i. d. R. dann auch nicht möglich, die verschiedenen Datensätze korrekt zu klassifizieren (z. B. Erstwohnsitz, Zweitwohnsitz oder private Telefonnummer, geschäftliche Telefonnummer etc.), was eine effektive Nutzung erschwert oder gar ver-
110
M. Zwirner
Tab. 6.1 Beispiele für vervielfältige Personendatensätze Name Marcus Zwirner Marcus Zwirner Marcus Zwirner Markus Zwirner Marcus Zwirner …
Adresse Tübinger Str. 53 70178 Stuttgart Tübinger Str. 53 70178 Stuttgart Tübinger Str. 53 70178 Stuttgart Postfach 150211 70075 Stuttgart Eglosheimer Str. 40 71636 Ludwigsburg …
Telefon-Nr. 0711-901198- 38 0711-901198- 22 0151 2345678
Anmerkung Besuchsadresse mit Tel.-Nr. Besuchsadresse mit Fax-Nr. Besuchsadresse mit Mobil-Nr. 0711-901198- Postfachadresse mit 38 Tel.-Nr. 07141-4433-38 ehem. Adresse mit Tel.-Nr. …
…
hindert. Im schlechtesten Fall existiert zwischen den einzelnen Datensätzen zu ein und derselben Person noch nicht einmal eine Beziehung, so dass u. U. gar nicht zu erkennen ist, dass sich die ganzen Datensätze auf eine einzelne Person beziehen. Ebenso lassen sich eine ganze Reihe von Datenqualitätsprüfungen auch direkt über ein Datenbanksystem abbilden. Hierfür können Mechanismen wie referentielle Integrität und Constraints verwendet werden, über die Beziehungen und Abhängigkeiten zwischen verschiedenen Objekten und zulässige Wertebereiche definieren werden können. Damit lassen sich Datenfehler durch oftmals einfache Anpassungen des Daten(bank)modells künftig automatisch verhindern, ohne dass aufwändige Anpassungen der Anwendungsprogramme erforderlich wären. Beispiel: Adressen können nur erfasst werden, wenn sie einem bestimmten, bereits existierenden Kunden oder Lieferanten zugeordnet werden. Außerdem muss der Name eines Kunden oder Lieferanten immer gefüllt sein, bei einer natürlichen Person zusätzlich noch der Vorname. • Anpassungen von Anwendungs- und Schnittstellenprogrammen Resultieren Datenfehler aus Programmfehlern, sind diese zu beheben, um nach einer Datenbereinigung nicht nochmals dieselben Fehler entstehen zu lassen. Zusätzlich kann es erforderlich sein, in den Anwendungsprogrammen – speziell, wenn sie zur Erfassung von Daten durch Anwender dienen – neue oder ergänzende Plausibilitätsprüfungen zu integrieren. Die Basis dafür können die Datenqualitätsregeln sein, die für die Datenqualitätsmessung verwendet wurden. Darüber können –– Formatprüfungen (z. B. für Telefon- und Handelsregisternummern, Datumswerte, E-Mail-Adressen etc.) –– Prüfungen gegen Wertebereichstabellen oder Referenzverzeichnisse (z. B. für Anreden, Titel, Rechtsformen, Branchenschlüssel, Telefonvorwahlen etc.) und –– Prüfungen von Datenfeldkombinationen und –abhängigkeiten (z. B. bei Firmen muss eine gültige Rechtsform erfasst werden oder Handelsregisternummer und das Amtsgericht, bei dem der Handelsregistereintrag vorgenommen wurde, sind immer gemeinsam zu erfassen)
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
111
abgedeckt werden (ergänzende Informationen siehe auch unten unter „Einbinden von qualitätssichernden Werkzeugen“). Damit wird der Anwender direkt beim Erfassen der Daten unterstützt und ggf. auf ungültige oder unplausible Informationen hingewiesen, bevor die Fehler in der Datenbank gespeichert werden. Zu diesem Zeitpunkt ist eine Korrektur i. d. R. sehr viel einfacher, schneller und kostengünstiger möglich, als bei einer nachträglichen Bereinigung, da bei der Erfassung der Daten die Unterlagen zum Geschäftsvorfall noch vorliegen oder u. U. sogar ein telefonischer Kontakt zum Kunden oder Lieferanten besteht, wodurch in Zweifelsfällen durch eine einfache und schnelle Rückfrage für Klärung gesorgt werden kann, während bei einer nachträglichen Bereinigung aufwändig recherchiert, evtl. die Unterlagen zum Geschäftsvorfall gesichtet und im Extremfall der Kunde oder Lieferant kontaktiert werden muss. Neben reinen Plausibilitätsprüfungen spielt jedoch auch die „Gebrauchstauglichkeit“ (Usability) einer Anwendung eine wichtige Rolle für das fehlerfreie Arbeiten von Anwendern. Hierunter fallen u. a. –– eine möglichst übersichtliche Gestaltung von Erfassungsmasken (z. B. hinsichtlich der Ausrichtung und Gestaltung von Eingabefeldern) –– eine möglichst intuitive Dialogführung (z. B. hinsichtlich der Reihenfolge der Eingabefelder oder der verschiedenen Bearbeitungsschritte) –– effektive Suchfunktionen, um z. B. in umfangreichen Wertebereichstabellen (z. B. Berufs- und Berufsgruppenbezeichnungen) effektiv und schnell den gewünschten Eintrag zu finden. Werden diese Aspekte in Anwendungsprogrammen vernachlässigt, werden Datenfehler geradezu provoziert. Entspricht z. B. die Reihenfolge der Eingabefelder für Namensinformationen nicht der „natürlichen“ Reihenfolge (Anrede, Titel, Vorname, Nachname) kommt es dadurch zu Vertauschungen zwischen den verschiedenen Datenfeldern. Oder es führt dazu, dass bei umfangreichen Wertebereichstabellen der gesuchte Eintrag nicht effektiv und schnell gefunden werden kann (siehe auch unten unter „Einbinden von qualitätssichernden Werkzeugen“) und deshalb irgendein anderer Wert oder ein pauschaler Eintrag (z. B. „sonstige“) gewählt wird. Dieses Phänomen zeigt sich für unterschiedliche Daten immer wieder. Zumeist handelt es sich dabei um Pflichtfelder, die bei der Erfassung der Daten mit zulässigen Werten gefüllt sein müssen, für den aktuellen Geschäftsvorfall aber keine entscheidende Bedeutung hat. Aus Zeitgründen oder mangels genauer Information werden dann häufig Standardwerte eingetragen. Bei einer Datenanalyse zeigen sich solche Phänomene dann dadurch, dass ein bestimmter Wert in einem solchen Datenfeld statistisch überdurchschnittlich häufig vorkommt (z. B. der Wert „01.01.1901“ als Geburtsdatum). Bei Schnittstellenprogrammen, die die Daten zwischen verschiedenen Systemen oder Anwendungsprogrammen übertragen, gibt es darüber hinaus noch die zusätzlichen Anforderungen, dass
112
M. Zwirner
–– Wertebereiche für dieselbe Information idealerweise einheitlich über Systemgrenzen hinweg verwendet werden oder aber bei unterschiedlichen Wertelisten (z. B. Geschlecht „m, w, u“ vs. „0, 1, 2“) zumindest eine korrekte Umsetzung gewährleistet ist und –– die Schnittstellen in Bezug auf die übertragenen Informationen vollständig sind, um auch im Zielsystem alle Daten zur Verfügung zu haben, die für die Weiterverarbeitung von Bedeutung sind. Andernfalls besteht die Gefahr, dass Datenfelder „missbraucht“ werden, um Informationen auszutauschen, für die es keine andere fachlich korrekte Möglichkeit gibt (siehe Beispiel mit der Telefonnummer im Ortsteilfeld im Abschnitt „4.3 Bewertungskriterien für Datenfehler und Korrekturmaßnahmen“). Geschäftsprozessoptimierung Auch nicht optimal ablaufende Geschäftsprozesse können die Ursachen für Datenqualitätsprobleme sein. Häufig treten Datenfehler dann auf, wenn • Prozesse über Organisationsgrenzen hinweg gehen und damit Schnittstellen existieren, an denen ein erhöhtes Risiko für Fehler gegeben ist, oder • für einzelne Prozessschritte nicht alle Informationen oder Unterlagen vorliegen, die für eine fehlerfreie Bearbeitung erforderlich wären. Hinzu kommt, dass das Bewusstsein, was die Daten für das Unternehmen bedeuten und was im weiteren Verlauf des Lebenszyklus der Daten damit gemacht wird, nicht immer in ausreichendem Maße vorhanden ist. Beispiel: Ein Vertriebsmitarbeiter erfasst bei der Neuanlage eines Interessenten zunächst nur die Daten, die für die Erstellung eines Angebots notwendig sind (also in erster Linie den Namen und die Adresse) und darüber hinaus evtl. noch ein paar „soft facts“ als Freitext, die ihm evtl. für die Gewinnung des Auftrags wichtig erscheinen (z. B. p ersönliche Vorlieben und Hobbys des Interessenten). Kommt es dann zum Auftrag, ist es für die Auftragsabwicklung primär erforderlich, die Auftragsdaten (z. B. Bestellinformationen und Zahlungsbedingungen) schnellstmöglich zu erfassen, um den Auftrag kurzfristig abwickeln zu können. Will dann später das Marketing eine Kapagne durchführen, bei der die Zielgruppe über das Alter und Berufsgruppen selektiert werden soll, stehen die notwendigen Daten nicht oder nur unformatiert in einem Freitextfeld (weil z. B. durch den Vertriebsmitarbeiter dort erfasst) zur Verfügung. Da die Zielgruppe nicht korrekt ermittelt werden kann, ist der Erfolg der Marketingkampagne fraglich und Folgeaufträge (z. B. über Cross-Selling) gefährdet. Für die Optimierung der Geschäftsprozesse gibt es auch zur Vermeidung von Datenfehlern die klassischen Ansätze, bei denen • die zur Verfügung stehenden Ressourcen (sowohl in Bezug auf Personal, wie auch Arbeitsmittel und Informationen),
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
113
• die räumliche Situation verschiedener Organisationseinheiten, die an einem Prozess beteiligt sind, • die Schnittstellen zwischen verschiedenen Beteiligten an einem Prozess, • die Bearbeitungszeiten für die einzelnen Prozessschritte, sowie • die Wartezeiten zwischen einzelnen Prozessschritten, zu untersuchen und ggf. zu optimieren sind. Der Ansatz, die Geschäftsprozesse zu optimieren, um Datenfehler zu vermeiden, kann aufgrund u. U. erforderlicher organisatorischer Änderungen aufwändig sein, bietet aber gleichzeitig die Chance, als Nebeneffekt zur Reduzierung der Fehlerquote, Durchlaufzeiten und Prozesskosten zu reduzieren und die Produktivität zu erhöhen. Datenbereinigungen Bei einer Datenbereinigung handelt es sich um eine initiale einmalige oder regelmäßige Aktion zur Wiederherstellung einer korrekten Datenbasis. Hierunter fallen beispielsweise • Korrekturen von Formatierungen (z. B. Umformatierung von Datumswerten, Telefonnummern, Handelsregisternummern, siehe auch Tab. 6.2) • Standardisierung oder Normierung von Daten (z. B. Rechtsformen von Firmen, Telefonnummern, Handelsregisternummern, Titel und akademische Grade, siehe auch Tab. 6.3) • Strukturierung von Daten (z. B. Auftrennung von Telefonnummern in Ländervorwahl, Ortsvorwahl, Rufnummer und ggf. Durchwahl oder separieren von Anrede, Titel, Vorund Nachname einer Person, siehe auch Tab. 6.4) • Erweiterung von Wertebereichstabellen (z. B. für akademische Titel, Berufsbezeichnungen oder Branchenschlüssel), die auch für Plausibilitätsprüfungen oder Dropdown- Listen bei der Erfassung der Daten verwendet werden können • Korrektur fehlerhafter Daten (z. B. Adressen) • Identifikation und Bereinigung von Dubletten (mehrfach vorhandene Datensätze). Grundlage für die Bereinigungen sind die bei der Datenqualitätsmessung verwendeten Datenqualitätsregeln und festgestellten Datenfehler. Über die Datenqualitätsregeln wurde definiert, welche Bedingungen die Daten erfüllen müssen, um als korrekt zu gelten. Die Herausforderung bei der Bereinigung besteht jedoch oftmals darin, bei den fehlerhaften Daten die für den Einzelfall gültigen und korrekten Werte zu ermitteln. Tab. 6.2 Korrektur von Formatierungen am Beispiel von Datumswerten
Altes Datumsformat 19. Dez. 66 19/12/1966 19-12-1966 1966-12-19
Neues Datumsformat 19.12.1966 19.12.1966 19.12.1966 19.12.1966
114
M. Zwirner
Tab. 6.3 Standardisierung von Daten am Beispiel eines akademischen Grades
Ursprünglicher Grad Dipl.Betr.Wirt Dipl.-Betriebsw. Dipl.Betriebswirt Dipl.-Betriebswirt …
Standardisierter Grad Diplom-Betriebswirt Diplom-Betriebswirt Diplom-Betriebswirt Diplom-Betriebswirt …
Tab. 6.4 Strukturierung von Daten am Beispiel von Telefonnummern Alter Wert (unstrukturiert) (0711) 901198-0 0711/901198-0 0049-711-90 11 98 − 0 +49(0)711 981190-0 +49.711.981190.0 …
Neue Struktur Ländervorwahl 0049 0049 0049 0049 0049 …
Ortsvorwahl 0711 0711 0711 0711 0711 …
Rufnummer 901198 901198 901198 901198 901198 …
Durchwahl 0 0 0 0 0 …
Das ist dann verhältnismäßig einfach, wenn die Information aus einem anderen (verlässlichen) Datenfeld abgeleitet werden kann (z. B. die Anrede aus dem Geschlecht, sofern das Geschlecht korrekt angegeben ist, was seinerseits bei Bedarf noch über den Vornamen verifiziert werden kann). Ist eine solche Ableitung nicht möglich, können u. U. noch Referenzverzeichnisse he rangezogen werden, mit deren Hilfe korrekte Werte ermittelt werden können (z. B. Telefonverzeichnis, Orts- und Straßenverzeichnisse, Firmenreferenzdaten-banken etc.). Falls auch keine geeigneten Referenzverzeichnisse zur Verfügung stehen, bleibt oftmals nur die Möglichkeit, Annahmen zu treffen und nach bestimmten Regeln plausible Werte zu ermitteln, auch mit dem Risiko, dass die Annahme und die Regel für den Einzelfall nicht zutrifft (z. B. bei einem unrealistisch hohen Wert für die Anzahl der Personen, die in einem Haushalt leben, kann ein definierter Maximalwert oder ein Wert, der „unbekannt“ repräsentiert, vergeben werden). Das kann auch bedeuten, dass fehlerhafte und unbrauchbare Informationen (z. B. alphanummerische Werte in einem nummerischen Feld) gelöscht werden. Hierbei gilt es selbstverständlich, die Auswirkungen auf mögliche Folgeprozesse genau abzuschätzen. Lässt sich dieses nicht ausreichend verlässlich umsetzen, bleibt letztlich nur eine aufwändige Einzelfallrecherche übrig (z. B. bei der Ermittlung des Geburtsdatums einer Person, das nicht von anderen Daten abgeleitet oder über Referenzdaten ermittelt werden kann, da ein Einwohnermelderegister nicht ohne weiteres öffentlich zugänglich ist). Welche der aufgeführten Varianten angewandt wird, hängt vom jeweiligen Fehlerfall, der Bedeutung der Daten und dem für die Bereinigung erforderlichen Aufwand ab. Grundsätzlich ergibt sich daraus die Unterscheidung nach maschinellen, halb- maschinellen und manuellen Bereinigungen. Wie bereits im Abschn. 4.3 Bewertungskrite-
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
115
rien für Datenfehler und Korrekturmaßnahmen unter „Art der Bereinigungsmöglichkeit“ ausgeführt, sollten maschinelle oder halb-maschinelle Bereinigungen insbesondere bei einer großen Anzahl von Fehlern präferiert werden. Voraussetzung dafür ist allerdings, dass die fehlerhaften Daten nach spezifizierbaren Regeln oder durch Abgleich gegen Referenzverzeichnisse korrigiert werden können. Beim Abgleich gegen Referenzverzeichnisse ist allerdings darauf zu achten, dass einerseits die Qualität (insbesondere in Bezug auf Vollständigkeit und Aktualität) der Referenzdaten dazu geeignet ist, eine Bereinigung vorzunehmen (andernfalls entstehen u. U. neue und zusätzliche Datenfehler), und andererseits immer dann, wenn kein eindeutiger Schlüssel für die Identifikation oder Zuordnung eines Referenzdateneintrags zu den zu bereinigenden Daten existiert (z. B. eine Sozialversicherungsnummer oder Umsatzsteuer- Identifikationsnummer), ein fehlertolerant arbeitender Abgleichalgorithmus verwendet wird, der auch Ähnlichkeiten erkennt. Ein solcher Ähnlichkeitsalgorithmus ermöglicht, auch bei (geringfügigen) Abweichungen in der Schreibweise zwischen eigenem Datenbestand und Referenzverzeichnis den gewünschten Eintrag zu erkennen und damit deutlich höhere Trefferquoten und maschinelle Bereinigungsraten zu erzielen. Wird kein solcher Algorithmus genutzt, führen selbst geringfügige Abweichungen in der Schreibweise (u. U. bereits Unterschiede in der Groß-/Kleinschreibung oder der Darstellung von Umlauten) dazu, dass kein passender Eintrag in den Referenzdaten gefunden wird, wodurch wiederum keine maschinelle Korrektur möglich ist. Für solche fehlertolerant arbeitenden Abgleiche empfiehlt es sich, professionelle Abgleichprogramme von Software-Anbietern einzusetzen, die z. T. für spezielle Einsatzzwecke noch zusätzliche Speziallogiken beinhalten und zudem individuell für die eigenen Einsatzzwecke und Anforderungen konfiguriert werden können (u. a. über welche Datenfelder ein Abgleich erfolgen soll und welche Fehlertoleranzgrade dabei verwendet werden sollen). Klassische maschinelle oder halb-maschinelle Bereinigungen auf Basis von offiziellen Referenzdaten sind • Postalische Adressvalidierung und – korrektur durch Abgleich gegen Adress-Referenzdaten mit Postleitzahl-, Orts- und Straßenverzeichnissen • Dublettenidentifikation und –bereinigung (siehe Abb. 6.2) oder • Abgleich gegen Referenzdatenbanken (z. B. Firmenreferenzdatenbank, Umzugsdaten, Telefonverzeichnis, Anti-Terror-/Sanktionslisten usw.). Diese Häufung im Bereich des Adress-/Stammdatenmanagements ergibt sich aufgrund der vielfältigen öffentlich verfügbaren Referenzdatenverzeichnisse in diesem Umfeld. Grundsätzlich gelten die Ausführungen aber auch für Daten aus anderen Anwendungsbereichen, für die geeignete Referenzdaten verfügbar sind (z. B. für Bankverbindungen). Die Referenzdaten müssen dabei nicht immer öffentlich zugänglich sein, sondern können durchaus auch unternehmensintern aufgebaut und gepflegt werden. Es müssen dabei jedoch dieselben Qualitätskriterien (Vollständigkeit, Aktualität) erfüllt werden wie bei öf-
116
M. Zwirner
Abb. 6.2 Beispiel einer Dublettenliste
fentlich zugänglichen Daten, damit sie für maschinelle Bereinigungen verwendet werden können. Bei fehlertoleranten Abgleichen, insbesondere bei der Dublettenidentifikation, sollten vorab noch alle Möglichkeiten ausgeschöpft werden, die eine Standardisierung der Daten erlauben. Durch eine solche Standardisierung können die fehlertoleranten Algorithmen zielgerichteter, insbesondere auf solche Daten, die nicht vorab standardisiert werden konnten, angewandt werden, wodurch sich mehr und qualitativ bessere (sicherere = verlässlichere) Treffer ergeben. Ohne Standardisierung muss mit mehr Fehlertoleranz gearbeitet werden, was wiederum das Risiko erhöht, unerwünschte ähnliche Treffer zu erzielen. Je höher der Übereinstimmungsgrad zwischen den Daten ist, umso eher lassen sich die Ergebnisse maschinell weiterverarbeiten. Bei größeren Abweichungen vermindert sich die Verlässlichkeit eines Treffers, was bei Unterschreiten eines definierten Ähnlichkeitsgrads, dann dazu führt, dass ein solcher Treffer allenfalls noch manuell verarbeitet werden kann, um eine potentiell fehlerhafte Korrektur zu vermeiden. Beispiel: Vor einer Dublettenidentifikation empfiehlt es sich, durch einen Abgleich gegen Adressreferenzdaten (PLZ-, Orts- und Straßenverzeichnisse) eine Adressvalidierung und –standardisierung vorzunehmen, bei der z. B. die zuvor vorhandenen unterschiedlichen Schreibweisen einer „Johann-Sebastian-Bach-Str.“ auf eine einheitliche Schreibweise korrigiert werden. Dadurch kann beim nachfolgenden Dublettencheck die Fehlertoleranz weitgehend auf die Namensinformationen reduziert werden. Und Datensätze, die sich zuvor nur durch unterschiedliche Schreibweisen in den Adressdaten unterschieden haben, können dadurch u. U. sogar als 100 %-ig identisch erkannt und gruppiert und möglicherweise maschinell zusammengeführt werden.
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
117
Aber auch bei Ausnützung aller zur Verfügung stehende Mittel (insbesondere von Referenzverzeichnissen) lassen sich nicht alle Fehler maschinell korrigieren. Es kommt immer wieder vor, dass beim Abgleich gegen Referenzdaten kein oder bei Verwendung von fehlertoleranten Abgleichalgorithmen kein ausreichend passender Treffer gefunden wird. Solche Fälle lassen sich dann allenfalls noch manuell verifizieren und ggf. korrigieren. Aus diesem Grund sind auch bei maschinellen Bereinigungen immer ausreichend Ressourcen für manuelle Nacharbeiten einzuplanen. Bei der Konzeption und Durchführung der Bereinigungsmaßnahmen sollte außerdem berücksichtigt werden, dass diese künftig evtl. nochmals wiederholt werden müssen, vor allem wenn keine Maßnahmen ergriffen werden, die die Entstehung von neuen Datenfehlern vermeiden (siehe auch nachfolgenden Abschnitt „Einbinden von qualitätssichernden Werkzeugen“). Einbinden von qualitätssichernden Werkzeugen Einmalige oder regelmäßige Bereinigungen dienen immer nur zu einer nachträglichen Korrektur bereits entstandener Datenfehler. Werden ausschließlich diese Maßnahmen ergriffen, muss man deshalb für einen gewissen Zeitraum (bis zur nächsten Bereinigung) mit den seit der letzten Bereinigungsaktion neu entstandenen Fehlern leben. Insbesondere bei sehr kritischen und hochdynamischen Daten ist das möglicherweise ein Zustand, der nicht akzeptabel ist. Für solche Fälle sind Maßnahmen zur Datenqualitätssicherung für den laufenden Betrieb zu realisieren, durch die permanent und präventiv die Entstehung neuer Datenfehler vermieden werden. Grundsätzlich eignen sich dafür all die Funktionalitäten, die auch zur initialen Bereinigung realisiert werden oder im Abschnitt „Systemoptimierungen“ unter dem Begriff „Gebrauchstauglichkeit“ beschrieben sind. Im Gegensatz zu den Bereinigungsmaßnahmen werden die Funktionalitäten hier nun allerdings zur „Echtzeit-“ und Einzelsatz-Prüfung in alle Anwendungen integriert, über die Daten neu erfasst oder geändert werden. Dies kann einerseits in Form eines individuellen Plausibilitäten-Moduls erfolgen, durch das die Prüfungen analog der Datenqualitätsregeln aus der Datenqualitätsmessung realisiert werden, wodurch beispielsweise • Formatprüfungen (z. B. bei Telefonnummern) • Prüfungen gegen Referenzverzeichnisse oder Wertebereichstabellen und • Prüfungen von Datenfeldkombinationen und – abhängigkeiten ermöglicht werden. Andererseits lassen sich auch hierfür wieder professionelle Lösungen von Software- Anbietern nutzen, die verschiedene Spezialfunktionalitäten (z. B. für die Validierung von Adressen) und Lösungen für fehlertolerante Abgleichalgorithmen bieten. Die fehlertolerant arbeitenden Funktionen bieten dabei gleich in mehrerlei Hinsicht interessante und hilfreiche Ansätze. Einerseits können damit beispielsweise Prüfungen realisiert werden, mit denen Dubletten vermieden werden können. Andererseits erlauben
118
M. Zwirner
solche Routinen auch effektive Suchverfahren für die Anwender. Dadurch lassen sich bestehende Datensätze schneller finden, was dann auch dazu genutzt werden kann, die Daten nicht erst vollständig eingeben zu müssen, um hinterher festzustellen, dass ein entsprechender Satz bereits existiert und die Neueingaben wieder verworfen werden. Außerdem können damit auch effektive Suchverfahren in umfangreichen Wertebereichstabellen (z. B. Berufsbezeichnungen) realisiert werden, damit der gewünschte Eintrag nicht erst langwierig in den zugehörigen Dropdown-Listen gesucht und ausgewählt werden muss, sondern über eine Freitexteingabe direkt gefunden werden kann. Mit Hilfe solcher Prüfroutinen erhält ein Anwender bei der Eingabe von fehlerhaften Daten unmittelbar Rückmeldung in Form von qualifizierten Fehlermeldungen und kann direkt darauf reagieren und den Fehler korrigieren, bevor dieser in der Datenbank gespeichert wird. Teilweise besteht dabei auch die Möglichkeit, automatisch Datenfehler korrigieren oder Datensätze vervollständigen zu lassen. Dies kann beispielsweise dann erfolgen, wenn durch Abgleiche gegen Referenzdaten die korrekten Werte eindeutig und ausreichend sicher erkannt werden können (z. B. bei einer Adressprüfung, wodurch die Schreibweise eines Straßennamens korrigiert und die Postleitzahl ermittelt werden kann). Wichtig ist es, solche „Live-Prüfungen“ vor allem auch dort einzusetzen, wo andere Maßnahmen nicht oder nur eingeschränkt umgesetzt werden können. Dies ist z. B. bei Internet-/E-Business-Anwendungen der Fall, wo keine echte Möglichkeit besteht, die Anwender so zu schulen, dass Datenfehler auf diese Weise weitgehend verhindert werden. Etablieren eines Monitoringprozesses Bei einem proaktiven Datenqualitätsmanagement sind neben der Bereinigung von Datenfehlern und der Vermeidung neuer Datenfehler durch präventive Maßnahmen auch regelmäßige, fortlaufende Maßnahmen zur Überwachung und nachhaltigen Aufrechterhaltung der Qualität des Datenbestands unabdingbar. Dieser Monitoringprozess gliedert sich in zwei Teilbereiche: • regelmäßige (automatisierte) Messungen mit den definierten Datenqualitätsregeln und • regelmäßige Validierung und Bereinigung der bestehenden Datenbasis. Die regelmäßigen Messungen, bei denen die für die erste Datenqualitätsmessung definierten Datenqualitätsregeln wiederholt auf die (geänderten) Daten angewandt werden, dienen dazu, eine Kontrolle und historische Darstellung der Datenqualitätsentwicklung zu erhalten (Beispiel einer möglichen Darstellung siehe Abb. 6.3). Dadurch lassen sich frühzeitig neuen Mängel erkennen, so dass kurzfristig darauf reagiert werden kann (idealerweise bevor die Fehler gravierende Auswirkungen hatten), oder bei wiederholt auftretenden Fehlern mögliche Schulungsmaßnahmen ableiten. Die regelmäßige Validierung und Bereinigung der bestehenden Datenbasis bezieht sich speziell auf Abgleiche gegen Referenzverzeichnisse. Bei jeder Aktualisierung eines verwendeten Referenzverzeichnisses müssen die Änderungen darin auch in der eigenen Da-
119
Abb. 6.3 Darstellung einer Datenqualitätsentwicklung
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
120
M. Zwirner
tenbasis nachgezogen werden. Je nach Bereitstellungsform der Referenzverzeichnisse erfolgt dies durch einen vollständigen Gesamtabgleich oder durch die Verarbeitung von Differenzen-/Deltabeständen. Beispiele für solche Referenzdatenaktualisierungen sind • postalische Adressvalidierungen • Adressaktualisierungen auf Basis von Umzugsdaten oder • regelmäßige Dublettenprüfungen.
Schulung von Mitarbeitern Es soll an dieser Stelle nicht verschwiegen werden, dass Datenqualitätsmaßnahmen nicht immer aufwändig sein und durch den Einsatz von Software umgesetzt werden müssen. Eine durchaus effektive und kurzfristig umsetzbare Variante können Schulungen von Mitarbeitern sein. Darin werden die Mitarbeiter zum einen für das Thema „Datenqualität“ sensibilisiert und zum anderen werden die wichtigsten Datenqualitätsregeln erläutert, damit diese bei der täglichen Arbeit berücksichtigt werden können. Idealerweise werden solche Schulungen noch durch Arbeitsanweisungen flankiert, die bei Bedarf auch als Nachschlagewerk dienen können. Eine solche Maßnahme ist natürlich nur dann geeignet, wenn möglichst alle Anwender dadurch erreicht werden und eine gewisse Fehlerquote, die auch durch Schulungen nicht verhindert werden kann, in Kauf genommen wird. Wie bereits im Abschnitt „Einbinden von qualitätssichernden Werkzeugen“ erwähnt, ist diese Variante bei Internet-/E-Business-Anwendungen sicherlich nicht umsetzbar.
6.6
Zusammenfassung
Leider gibt es nicht für jede Fehlerkonstellation, für jedes Unternehmen, für jedes Umfeld das eine Patentrezept, wie mit Datenfehlern am besten umzugehen ist. Hierfür sind konzeptionelle Überlegungen anzustellen, die zunächst einmal Aufwand bedeuten. Dieser Aufwand macht sich allerdings im Lauf eines Datenqualitätsprojekts bezahlt, da dadurch die für den Einzelfall effektivste Methode und Bereinigungsmaßnahme identifiziert werden kann und damit ineffektive und wiederholt aufwändige Tätigkeiten vermieden werden können. Wichtig ist dabei außerdem, sich bewusst für eine Vorgehensweise zu entscheiden, auch wenn das im Ausnahmefall u. U. einmal bedeuten mag, dass bestimmte Datenfehler nicht bereinigt werden. Mit Hilfe der in diesem Kapitel beschriebenen Bewertungskriterien lassen sich für solche Fälle dann aber wenigstens die Konsequenzen bewerten und künftig entsprechend berücksichtigen.
6 Datenbereinigung zielgerichtet eingesetzt zur permanenten …
121
Marcus Zwirner verfügt über langjährige internationale Erfahrung in der Konzeption und Durchführung von Datenqualitätsprojekten und referiert regelmäßig auf unterschiedlichen Veranstaltungen zum Thema Datenqualitätsmanagement. Bei der SAP Deutschland SE & Co. KG stellt er als Principal Consultant den Erfolg der Kundenprojekte rund um die Themen „Datenqualität“, „Datenintegration“ und „Datenmigration“ und die reibungslose Einführung der Datenqualitätslösungen der SAP sicher.
7
Datenintegration und Deduplizierung Jens Bleiholder und Joachim Schmid
In Unternehmen liegen viele Daten heutzutage immer seltener vollständig an einem einzigen physikalischen Ort vor, sondern sind weltweit verteilt. Dies liegt zum einen an der immer besser gewordenen Infrastruktur, die eine solche Verteilung auf einfache Art und Weise ermöglicht, und zum anderen an der Tatsache, dass viele Unternehmen weltweit tätig sind. So fallen Daten weltweit an, werden aber jeweils lokal – vor Ort – gespeichert. Daher müssen oft mehrere Datenquellen genutzt werden, um einen aktuellen, vollständigen und genauen Überblick über die vorhandenen Daten zu gewinnen. Datenintegration hilft, indem sie Daten aus mehreren Quellen zusammenführt und einheitlich darstellt. Diese integrierten Daten können genutzt werden, um sich einen Überblick über das Unternehmen zu verschaffen, z. B. wenn Unternehmen fusionieren und nur noch eine Kundendatenbank bestehen bleiben soll, oder wenn zu einem Kunden die Daten aus den verschiedenen Fachabteilungen zusammengeführt werden sollen. Anhand eines solchen Beispiels, der Integration von Kundendaten zu Kfz- und Lebensversicherungen erläutern wir im Folgenden einzelne Techniken. Bei der Integration von Daten werden Probleme dadurch verursacht, dass die Quellen a) verteilt, b) autonom und c) heterogen sind. Während die physische Verteilung der Daten, d. h. die Aufteilung auf mehrere Rechner an mehreren Standorten, aufgrund der heutzutage immer besseren Vernetzung das geringere Problem darstellt, verursachen Autonomie und Heterogenität größere Probleme bei der Integration von Daten. Die Autonomie der Quellen (alle Quellen werden unabhängig voneinander erstellt und gepflegt, z. B. von
J. Bleiholder (*) Fachgebiet Informationssysteme, Hasso-Plattner-Institut, Potsdam, Deutschland E-Mail: [email protected] J. Schmid Stuttgart, Deutschland © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_7
123
124
J. Bleiholder und J. Schmid
verschiedenen Personen oder verschiedenen Organisationen, auch innerhalb eines Unternehmens) bedingt dabei die Heterogenität der Quellen. Die Literatur (z. B. Leser und Naumann 2006) unterscheidet zwischen verschiedenen Ausprägungen von Heterogenität, die jeweils unterschiedlich problematisch sind. Technische Heterogenität (Datenquellen werden auf unterschiedlicher Hardware, mit unterschiedlicher Software betrieben) stellt heutzutage nur noch ein geringes Problem dar. Schwieriger stellt sich die Situation bei struktureller Heterogenität (gleiche Sachverhalte der Welt werden unterschiedlich modelliert), oder semantischer Heterogenität (modellierte Sachverhalte überlappen teilweise) dar. Techniken des Schema Matchings, im Folgenden vorgestellt, helfen hier. Bei der Integration müssen jedoch nicht nur die Heterogenitäten auf Schemaebene überwunden werden, sondern auch Heterogenitäten auf Datenebene (die gespeicherten Daten überlappen). Kundendaten sind, wie in unserem Beispiel, mehrfach vorhanden und unterscheiden sich möglicherweise. Bei der Überwindung der Datenheterogenität helfen Techniken der Dublettenerkennung sowie der Datenfusion. Bei der technischen Durchführung wird zwischen virtueller und materialisierter Inte gration unterschieden. Bei virtueller Integration verbleiben die Ursprungsdaten am ursprünglichen Ort, in den Datenquellen. Es wird lediglich eine einheitliche, integrierte Sicht auf die Daten ermöglicht. Bei materialisierter Integration hingegen werden die Daten aus den Quellen an einen zentralen Ort „kopiert“. Dem Vorteil der Materialisierung (Vollzugriff auf den gesamten Datenbestand bei niedrigen Anfrageantwortzeiten) steht der Nachteil entgegen, dass die Daten nicht so aktuell sind wie bei virtueller Integration, die Anfragen immer mit den aktuellen Daten der Quellen beantwortet. Nachteile bei virtueller Integration hingegen sind höhere Antwortzeiten und eine kompliziertere Anfrageplanung. Im Folgenden werden wir kurz einen Integrationsprozess vorstellen, bevor wir dann im Anschluss in den folgenden Abschnitten die Probleme der einzelnen Schritte des Integrationsprozesses beschreiben und Lösungsmöglichkeiten aufzeigen. Datenintegration – ein Prozess Für den weiteren Verlauf des Kapitels nehmen wir einen dreistufigen Datenintegrationsprozess an, wie er schematisch in Abb. 7.1 zu sehen ist. Daten werden aus unterschiedlichen Datenquellen ausgelesen und bei Bedarf vorverarbeitet. In einem ersten Schritt („Schema Matching“, siehe Abb. 7.1) werden die unterschiedlichen Repräsentationen der Daten in den Quellen angeglichen. Insbesondere wird durch Verfahren des Schema Matchings eine Abbildung erstellt, die jeweils semantisch äquivalenten Attributen einer Quelle die entsprechenden Attribute der anderen Quelle(n) zuordnet. Das Ergebnis dieses Schrittes ist eine vereinheitlichte Darstellung der in den Quellen gespeicherten Objekte. In Schritt 2 („Dublettenerkennung“) werden unterschiedliche Repräsentationen ein und desselben Objektes, sog. Dubletten, erkannt. Diese werden in einem dritten Schritt („Datenfusion“) zu einer einzigen Repräsentation zusammengefügt, wobei mögliche Datenkonflikte aufgelöst und die Repräsentation bereinigt wird. Die nächsten drei Abschnitte beschäftigen sich jeweils mit einem dieser Schritte. Mögliche
7 Datenintegration und Deduplizierung
125
Abb. 7.1 Datenintegration als Prozess
Anwendung
Visualisierung/Export Schritt 3:
Datenfusion
Schritt 2:
Dublettenerkennung
Schritt 1:
Schema Matching Vorverarbeitung
Datenquellen
Tab. 7.1 Datenquelle 1 (Lebensversicherung) Vorname Jan Janine Helga Martin Peter Jens
Name Marten Marten Martens Jahn Maier Müller
Adresse Göthestr. 12 Gothenstr. 12 Göthestr. 12 Buschweg 23 Mozartweg 2 Händelstr. 1
Ort Berlin Berlin Berlin Hamburg Hamburg Köln
Geb.-Datum 01.12.1952 21.05.1977 01.01.1954 05.01.1966 16.09.1982 24.03.1970
Summe 50.000 100.000 100.000 75.000 100.000 50.000
Erweiterungen des Prozesses, insbesondere der Schritt der Vorverarbeitung, werden abschließend in Abschn. 5.4 dargestellt. Zur Veranschaulichung dient das folgende Beispiel aus der Versicherungsbranche. In unserem beispielhaften Versicherungsunternehmen existieren zwei Sparten: Kfz-Ver sicherungen und Lebensversicherungen. Beide speichern Kundendaten, wie in Tab. 7.1 und 7.2 zu sehen. Wie leicht zu erkennen ist, überlappen sich die Quellen nur teilweise, sowohl in den Informationen über die Kunden (Name und Anschrift wird von beiden gespeichert, Geburtsdatum und Kfz-Informationen nur von jeweils einer Quelle), als auch in den Personen, die erfasst sind (Jan und Janine Marten sind in beiden Quellen vorhanden, während Helga Martens nur in der ersten Quelle zu finden ist). Die Integration beider Quellen soll einen einheitlichen Überblick über alle Kunden der Versicherung bieten, z. B. wie in Tab. 7.5 am Ende des Kapitels zu sehen. Ziel der Datenintegration ist es sowohl Schema- als auch Datenheterogenität zu überwinden.
126
J. Bleiholder und J. Schmid
Tab. 7.2 Datenquelle 2 (Kfz-Versicherung) Name Janine Marten Jan Marten Martin Jahn Peter Maier Maja Peters Jens Müller
7.1
Straße Schillerplatz 3 Goethestr. 12 Buschweg 23a Mozartweg 2 Bachstr. 65 Händelstr. 1
Wohnort Berlin Berlin AHmburg Köln Köln Köln
Führerschein 3/4.6.1996 3/2/1.12.1970 3/1.1.1987 3/16.9.1982 A/23.8.2004 3/25.3.1988
Kfz-Typ VW Polo Audi A2 Ford Focus Twingo Citroen 2CV VW Golf 3
Schritt 1: Schema Matching
Ziel des ersten Schrittes ist die Überwindung der Schemaheterogenität, d. h. die Angleichung der unterschiedlichen Darstellungen der Objekte in den verschiedenen Datenquellen. Dazu wird ein Mapping erstellt, eine Abbildung, die jedem Attribut der einen Quelle, das entsprechende, semantisch äquivalente Attribut der anderen zuordnet. Ein solches Mapping ist in Abb. 7.2 dargestellt. Dort verbinden Linien die jeweils einander zugeordneten Attribute.
Vorname
Name
Name
Straße
Adresse
Ort
Wohnort
Abb. 7.2 Mapping zwischen den beiden Quellen
Geb.-Datum
Führerschein
Summe
Kfz-Typ
7 Datenintegration und Deduplizierung
127
Solche einfachen Schemata wie in unserem Beispiel sind leider nur selten in der Praxis anzutreffen. Die Erstellung eines Mappings wird erschwert durch kryptische oder zu kurze Attributnamen, große Schemata mit mehreren hundert oder tausend Tabellen und Attributen oder durch das Auftreten von Synonymen (verschiedene Worte für dasselbe Konzept) und Homonymen (gleiche Worte für verschiedene Konzepte). Von anderen erstellte und daher unbekannte Schemata, oder Schemata in Fremdsprachen sind weitere Probleme, die in der Praxis auftreten. Maschinelle Unterstützung bei der Erstellung eines Mappings wäre hilfreich, obgleich eine vollständige Automatisierung wohl nicht möglich ist. Die (semi-)automatische Erstellung solch eines Mappings bezeichnet man als Schema Matching. Das Problem des Schema Matchings stellt sich demnach wie folgt dar: Problem (Schema Matching)
Gegeben zwei Tabellen, finde eine Abbildung von einer Tabelle auf die andere, welche die jeweils semantisch äquivalenten Attribute der beiden Tabellen aufeinander abbildet.
Mögliche Erweiterungen des Problems sind das Finden von (einer oder mehreren) Abbildungen zwischen mehr als zwei Tabellen, das Finden von 1:m und n:m Beziehungen, oder der Umgang mit Verschachtelungen, wie sie z. B. in XML Dokumenten zu finden sind. In Abb. 7.2 ist bereits eine 2:1 Beziehung zwischen „Vorname/Name“ in Quelle 1 und „Name“ in Quelle 2 zu sehen. Während aktuelle Schema Matching-Techniken 1:1 Beziehungen mittlerweile mit relativ großer Zuverlässigkeit finden, bestehen bei 1:n oder n:m Beziehungen noch Verbesserungsmöglichkeiten. Einen guten Überblick über vorhandene Verfahren bieten (Rahm und Bernstein 2001). Schema Matching Verfahren zur Bestimmung von 1:1 Mappings lassen sich grob in zwei Klassen einteilen: Schemabasierte Verfahren nutzen lediglich die Informationen der Schemaelemente um ein Mapping zu erstellen, während instanzbasierte Verfahren vorhandene Daten mit einbeziehen. Das allgemeine Vorgehen ist jedoch in beiden Fällen identisch: Zwischen je zwei Attributen aus unterschiedlichen Quellen wird deren Ähnlichkeit mit Hilfe eines Ähnlichkeitsmaßes bestimmt. Die jeweils ähnlichsten Attributkombinationen werden dann zu einem Mapping kombiniert und als Vorschlag einem Experten zur endgültigen Entscheidung vorgelegt. Dabei ist zu beachten, dass das so entstandene Mapping nicht unbedingt korrekt ist, da u. U. mehrere Attribute einer Tabelle auf dasselbe Attribut der anderen Tabelle abgebildet werden. Auch die Optimalität eines solchen Mappings ist nicht gegeben. Zur Wahl eines globalen, möglichst guten Mappings bei bekannten Attributkombinationen und deren Ähnlichkeiten gibt es mehrere Ansätze, u. a. das Maximum Weighted Matching-Verfahren und das Stable-Marriage-Verfahren (siehe dazu auch Melnik et al. 2002).
128
J. Bleiholder und J. Schmid
Schemabasierte Verfahren verwenden Ähnlichkeitsmaße ausschließlich auf den Schemaelementen (Attributnamen), um äquivalente Attribute zu finden. Ein mögliches Ähnlichkeitsmaß ist die Levenshtein-Distanz (Levenshtein 1965, auch als Edit-Distanz bezeichnet, siehe genauer Abschn. 7.2.3.1). Bei der Verwendung der Levenshtein-Distanz als Ähnlichkeitsmaß werden die Attributnamen paarweise miteinander verglichen. Daher würden z. B. die „Name“-Spalten der beiden Tabellen aufeinander abgebildet, aber auch „Vorname“ und „Name“ könnten aufeinander abgebildet werden, da sie eine hohe Ähnlichkeit nach der Levenshtein-Distanz aufweisen. Des Weiteren sind z. B. auch „Ort“ aus Tab. 7.1 und „Wohnort“ aus Tab. 7.2 ähnlicher als alle weiteren Kombinationen von „Ort“ mit Attributen der zweiten Tabelle. Zur Verfeinerung des Ähnlichkeitsmaßes können auch Synonym-/Homonym-Listen verwendet werden, oder der Tabellenname mit berücksichtigt werden. Mit diesen Erweiterungen kann man sich vorstellen, dass auch „Ort“ und „Wohnort“ aufeinander abgebildet werden. Der CUPID-Matcher (Madhavan et al. 2001) ist ein Beispiel für einen solchen schemabasierten Matcher. Instanzbasierte Verfahren setzen das Vorhandensein von Daten voraus und nutzen diese Daten um ein Mapping zu erstellen. Hierbei sind grundsätzlich zwei unterschiedliche Vorgehensweisen denkbar: Vertikale Matcher betrachten die Daten eines Attributs; Attributen mit ähnlichen Daten wird ein höherer Ähnlichkeitswert zugewiesen als Attributen mit unterschiedlichen Daten. Da sowohl die Spalte „Adresse“ als auch die Spalte „Straße“ gleiche bzw. ähnliche Werte aufweisen, ist eine korrekte Identifizierung dieses Mappings möglich. Anhand einer anderen Attributkombination („Geb.-Datum“ und „Führerschein“) kann man gleichzeitig auch die Schwierigkeiten bei solch einem Verfahren verdeutlichen. Da im Attribut „Führerschein“ auch das Ausstellungsdatum des Führerscheins enthalten ist, wird ein Ähnlichkeitsvergleich mit dem Attribut „Geb.-Datum“ eine recht hohe Ähnlichkeit ergeben, obwohl beide Attribute semantisch verschieden sind. Ein weiteres Beispiel für diese Homonym-Problematik auf Datenebene wären Attribute, die Fax-, bzw. Telefonnummern enthalten. Ein vertikaler instanzbasierter Matcher könnte diese nicht voneinander unterscheiden. Bei diesem Problem setzen horizontale instanzbasierte Matcher wie z. B. DUMAS (Bilke und Naumann 2005) an. Der Vergleich von Attributen basiert auf Ähnlichkeiten von Zeilen der beteiligten Tabellen, also auf Dubletten. Die grundlegende Idee ist es, das Wissen um Dubletten aus verschiedenen Tabellen auszunutzen, um Attribute genau dann aufeinander abzubilden, wenn die Werte in den Dubletten übereinstimmen. So können in unserem Beispiel mit Hilfe der Dubletten zu den Personen „Jan Marten“ und „Jens Müller“, Name und Anschrift korrekt aufeinander abgebildet werden. Korrekterweise würden auch die Attribute „Geb.-Datum“ und „Führerschein“ nicht miteinander in Beziehung gebracht werden, da die Werte der Attribute in den Dubletten unterschiedlich sind. Zur Bestimmung eines Mappings müssen dabei aber nicht alle vorhandenen Dubletten bekannt sein, es reichen schon einige wenige gefundene Dubletten aus, um ein einigermaßen brauchbares Mapping zu erstellen. Ein noch besseres Ergebnis erzielen Matcher, die mehrere der bekannten Techniken kombinieren, oder die Kombination der Ergebnisse von mehreren existierenden Matchern.
7 Datenintegration und Deduplizierung
129
In diesem ersten Schritt der Datenintegration wird somit entschieden, wie die Objekte repräsentiert werden und auf welcher Abstraktionsebene Objekte betrachtet werden. Es wird auch entschieden, welche Attribute einen Kunden charakterisieren und welche nicht. Mit Hilfe des Mappings können die Daten der Quelltabellen in eine einzige Tabelle transformiert werden, die dann im nächsten Schritt zur Dublettenerkennung genutzt wird.
7.2
Schritt 2: Dublettenerkennung
Durch das vorausgegangene Schema Matching wurde eine einheitliche Darstellung der Objekte erreicht. Anschaulich gesprochen sind wir nun in der Lage, die Datensätze aller Quellen in einer Tabelle zusammenzuführen (Outer Union, siehe Tab. 7.3). Nun wird es i. d. R. aber so sein, dass in den zusammenzuführenden Datenbeständen dieselben Objekte mehrfach enthalten sind. In unserem Beispiel kann eine Person sowohl eine Lebensversicherung als auch eine Kfz-Versicherung abgeschlossen haben. Dies hat zur Folge, dass ein Realweltobjekt (im Beispiel: eine Person) durch mehrere Datensätze repräsentiert wird, z. B. Jan Marten durch die Datensätze mit den IDs 1 und 8. Datensätze, die dasselbe Realweltobjekt beschreiben, heißen Dubletten. Die Menge aller Datensätze, die dasselbe Realweltobjekt beschreiben wird als Dublettengruppe bezeichnet.
Dubletten entstehen nicht nur durch Zusammenführen von Datenbeständen, sondern sind auch innerhalb eines Datenbestandes zu finden, wenn bei Neuanlage und Änderung von Datensätzen nicht die erforderlichen Gegenmaßnahmen getroffen wurden.
130
J. Bleiholder und J. Schmid
Tab. 7.3 Beide Beispieldatenquellen, in einer Tabelle zusammengefasst (Outer Union) ID Quelle Name 1 LV Jan Marten 2 LV Janine Marten 3 LV Helga Martens 4 LV Martin Jahn 5 LV Peter Maier 6 LV Jens Müller 7 KFZ Janine Marten 8 KFZ Jan Marten 9 KFZ Martin Jahn 10 KFZ Peter Maier 11 KFZ Maja Peters 12 KFZ Jens Müller
Straße Göthestr. 12
Geb.Wohnort Datum Summe Führerschein Kfz-Typ Berlin 1.12.1952 50.000 ⊥ ⊥
Gothenstr. 12
Berlin
21.5.1977 100.000 ⊥
⊥
Göthestr. 12
Berlin
1.1.1954
100.000 ⊥
⊥
Buschweg 23
Hamburg 5.1.1966
75.000 ⊥
⊥
Mozartweg 2
Hamburg 16.9.1982 100.000 ⊥
⊥
Händelstr. 1
Köln
50.000 ⊥
⊥
24.3.1970
Schillerplatz 3 Berlin
⊥
⊥
Goethestr. 12
Berlin
⊥
⊥
VW Polo 3/2/1.12.1970 Audi A2
Buschweg 23a Mozartweg 2
Hamburg ⊥
⊥
3/1.1.1987
Köln
⊥
⊥
3/16.9.1982
Bachstr. 65
Köln
⊥
⊥
A/23.8.2004
Händelstr. 1
Köln
⊥
⊥
3/25.3.1988
3/4.6.1996
Ford Focus Twingo Citroen 2CV VW Golf 3
Das Problem der Dublettenerkennung stellt sich demnach wie folgt dar: Problem (Dublettenerkennung)
Gegeben eine Tabelle mit unterschiedlichen Repräsentationen von Realweltobjekten, erzeuge eine Spalte mit ID-Werten so, dass gleichen Realweltobjekten gleiche ID-Werte zugewiesen werden.
7.2.1 Auswirkungen von Dubletten Die Tatsache, dass einige Objekte durch mehrere Datensätze repräsentiert werden, macht es bereits unmöglich, die Anzahl der Objekte durch einfaches Zählen der Datensätze zu bestimmen. Sie liegt irgendwo unterhalb der Anzahl der Datensätze, der genaue Wert ist unbekannt. Werden an einem Datensatz, zu dem es Dubletten gibt, Änderungen vorgenommen, führt dies zu Inkonsistenzen, da in den Dubletten noch die alten Werte gespeichert sind. Ähnlich verheerend ist der Effekt beim Löschen eines Datensatzes einer Dublettengruppe. In diesem Fall wird durch das Löschen des Datensatzes das repräsentierte Objekt nicht vollständig aus dem Bestand entfernt, da die Dubletten weiterhin im Datenbestand vorhanden sind.
7 Datenintegration und Deduplizierung
131
Diese IT-technischen Auswirkungen der Existenz von Dubletten können auf Unternehmensebene eine ganze Reihe unangenehmer Konsequenzen haben: • Werden in der Lagerverwaltung Teile mehrfach geführt, so wird bei Unterschreitung des Mindestbestands in einer der Dubletten eine Bestellung ausgelöst. Die mehrfache Bevorratung des Mindestbestands kann z. B. im Anlagenbau zu erheblichen Mehrkosten führen. • Verteilen sich die Bestellmengen zugekaufter Teile auf mehrere Dubletten, so können bei Bestellungen Mengenrabatte nicht genutzt werden. • Das mehrfache Anschreiben von Interessenten kann außer zu erhöhten Produktionsund Versandkosten auch zu mehrfacher Gewährung von Rabatten oder gar zur Verärgerung des Kunden wegen uneinheitlicher oder gar unpassender Kundenansprache führen. • Fehleinschätzung von Kunden, deren Umsätze sich auf mehrere Datensätze verteilen. Neben höheren Kosten ist – in der Außenwirkung – mit Dubletten meist auch ein Verlust an Reputation verbunden, der sich in einer Minderung von Umsatzchancen niederschlagen kann. Um beides zu vermeiden, müssen Dubletten entdeckt und entfernt werden.
7.2.2 Entstehung von Dubletten Eine bedeutende Eigenschaft von Dubletten ist, dass sie zwar dasselbe Objekt repräsentieren, die einzelnen Dubletten sich aber in einigen Datenfeldern durch unterschiedliche Werte voneinander unterscheiden. Vor allem in den Werten, durch die das Objekt eindeutig beschrieben wird, unterscheiden sich die einzelnen Datensätze voneinander. Dies sind meist die Namensfelder, also Datenfelder, die in Textform die Bezeichner der Objekte enthalten. Dubletten, die in den Namensfeldern identische Werte haben, sind leicht zu erkennen und werden in vielen Fällen durch Standardtechniken verhindert. Etwa durch ein UNIQUE-Constraint auf einer Datenbanktabelle. Sobald aber keine Identität in den Namensfeldern vorliegt, greifen diese Techniken nicht mehr. So kommt es, dass durch Tippfehler oder Hörfehler, z. B. bei der Eingabe im Callcenter, Kunden mehrfach angelegt werden, durch Hinzufügen, Weglassen oder Abkürzen zusätzlicher Bestandteile Adressen unterschiedlich erfasst werden („Frankfurt am Main“, „Frankfurt“, „Frankfurt a. M.“), oder durch Vertauschen der Reihenfolge Bauteile mehrmals angelegt werden („Hartmetall-Anbohrer“, „Anbohrer, Hartmetall“). Neben mangelnder Sorgfalt der Mitarbeiter spielt bei personenbezogenen Daten auch die bewusste Variierung der Angaben durch Kunden oder Interessenten eine zunehmende Rolle, sei es wegen eines Betrugsversuchs oder zum Schutz der Privatsphäre bei Webformularen mit zu vielen Pflichtfeldern. Auch Fehler in Unternehmensprozessen können die Ursache für Dubletten sein: Wenn beispielsweise beim Fahrzeugwechsel die Daten über die Versicherung des
132
J. Bleiholder und J. Schmid
ltfahrzeugs nicht korrekt gelöscht werden. Oder wenn ein Interessent nach VertragsabA schluss sowohl als Neukunde, als auch weiterhin als Interessent geführt wird.
7.2.3 Erkennen von Dubletten Da Dubletten sich in den Werten, die das Objekt eindeutig beschreiben nur ähnlich sind, kommt es bei der Entdeckung von Dubletten darauf an, ähnliche Werte zu erkennen. Dazu werden Ähnlichkeitsmaße benötigt, die für je zwei Inhalte eines Datenfeldes einen Wert für ihre Ähnlichkeit errechnen.
7.2.3.1 Ähnlichkeitsmaße In den meisten Fällen werden Objekte durch Namensfelder – also Strings – eindeutig benannt. Zur Ermittlung der Ähnlichkeit von Strings gibt es eine ganze Reihe von Algorithmen, teilweise spezialisiert für einzelne Anwendungsbereiche. Algorithmen zur Bestimmung von phonetischer Ähnlichkeit werden schon seit fast 90 Jahren eingesetzt wie beispielsweise Soundex oder Metaphone. Sie eignen sich zum Erkennen von Strings mit ähnlicher Aussprache (z. B. Maier, Meyer, Mayr), haben aber u. a. den Nachteil, dass sie sprachspezifisch sind. Der wohl bekannteste Algorithmus zur Entdeckung von vertauschten oder hinzugefügten Buchstaben ist die Edit-Distanz von Levenshtein (Levenshtein 1965). Dieser Algorithmus ermittelt die minimale Anzahl des Hinzufügens, Löschens oder Vertauschens von Buchstaben, um einen String in einen anderen zu überführen. • Edit-Distanz (Jan, Janine) = 3 (3 Buchstaben hinzufügen) • Edit-Distanz (Göthestr, Gothenstr) = 2 (1 Buchstaben vertauschen, 1 Buchstaben hinzufügen) Teilt man die Edit-Distanz durch die Länge des längeren Strings erhält man ein gutes Maß für die Ähnlichkeit der beiden Strings. Neben einigen Erweiterungen und Spezialisierungen der Edit-Distanz gibt es eine Reihe weiterer Ähnlichkeitsmaße für Strings: a) den Algorithmus von Jaro und Winkler (Winkler 1999), der insbesondere Vertauschungen von Buchstaben anspricht, und b) n-Gramm-Verfahren, bei denen zu einem String alle Teilstrings der Länge n betrachtet werden. Zum Prüfen der Ähnlichkeit wird bei n-Gramm- Verfahren die Anzahl gemeinsamer Teilstrings ermittelt. Diese allgemein gehaltenen Algorithmen müssen aber im konkreten Anwendungsfall um anwendungsspezifisches Wissen ergänzt werden. So sollte z. B. dem Umstand Rechnung getragen werden, dass es im Datenfeld „Vorname“ eine spezifische Ähnlichkeit zwischen einem Namen und der dazu passenden Initiale gibt, z. B. „Peter“ ~ „P.“. Im Nachnamensfeld haben die beiden Strings „Lüdenscheid“ und „Müller-Lüdenscheidt“ trotz vieler fehlender Buchstaben eine große Ähnlichkeit, da im Wesentlichen nur eine Komponente eines Doppelnamens fehlt und dies ein durchaus üblicher Erfassungsfehler ist. Dieser Umstand spielt vor allem dann eine Rolle, wenn auf einem Personenbestand
7 Datenintegration und Deduplizierung
133
eine Haushaltsbildung durchgeführt werden soll, d. h. wenn erkannt werden soll, welche Personen in einem Haushalt leben. Ein Beispiel für anwendungsfallspezifische Ähnlichkeitsmaße sind Datumsangaben. Sind sowohl Datenerfasser aus dem angelsächsischen wie aus dem deutschen Sprachraum mit der Erfassung von Datumsangaben betraut, dann ist eine Vertauschung von Tages- und Monatsangabe ein durchaus üblicher Erfassungsfehler, dem durch ein geeignet angepasstes Ähnlichkeitsmaß Rechnung getragen werden sollte. Das heißt, dass der „05.06.07“ verglichen mit dem „06.05.07“ zwar nicht als identisch, aber doch mit einem höheren Ähnlichkeitswert bewertet wird als bei einem Vergleich mit dem „09.08.07“. Ist bei der Erfassung von Geburtsdaten nur das Alter der Person erkannt, so wird häufig das Geburtsjahr errechnet und als Tagesdatum der 1.1. eingegeben. In diesen Fällen sollte das Ähnlichkeitsmaß den 1.1. als „ähnlich“ zu allen anderen Tagen des angegebenen Jahres und des Vorjahres annehmen.
7.2.3.2 Ähnlichkeit auf Datensatzebene Nicht jedes Datenfeld spielt bei der Dublettenerkennung eine Rolle. Für all diejenigen Datenfelder, die bei der Dublettenerkennung verwendet werden, muss ein adäquates Ähnlichkeitsmaß gewählt werden. Bei einem Vergleich zweier Datensätze werden diese Ähnlichkeitsmaße auf die entsprechenden Felder angewandt. Um zu einem Gesamtwert für die Ähnlichkeit der beiden Datensätze zu kommen, müssen die Werte der einzelnen Datenfelder verdichtet werden. Dies geschieht in den meisten Fällen durch ein gewichtetes Mittel, d. h. jedem für die Dublettenerkennung verwendeten Datenfeld wird ein Gewicht zugewiesen, mit dem das Ähnlichkeitsmaß multipliziert wird. Die sich so ergebenden Produkte werden aufsummiert. Bei der Wahl der Gewichte empfiehlt sich eine Normierung auf 100 %. Eine exakte Übereinstimmung der beiden Datensätze in Bezug auf die ausgewählten Datenfelder entspricht dann einer „100 %-Dublette“. In manchen Anwendungsbereichen lassen sich mehrere Definitionen für Dubletten finden, die sich in den relevanten Datenfeldern oder den Gewichten zur Berechnung des Mittels unterscheiden. Die Möglichkeit gleichzeitig nach Dubletten unterschiedlicher Definitionen zu suchen und ggf. die Suche zu beenden, wenn mit irgendeiner der Definitionen eine Dublette gefunden wurde, hat entscheidende Auswirkungen auf die Performance eines Systems zur Dublettenerkennung.
7.2.4 Durchführung der Dublettenerkennung Für die Erkennung aller Dubletten in einem Datenbestand, müsste jeder Datensatz mit jedem anderen Datensatz verglichen werden. Dies bedeutet, dass die Laufzeit mit der Anzahl der Datensätze quadratisch wächst, denkbar ungünstige Voraussetzungen für eine Dublettenerkennung in großen Datenbeständen. Bessere Laufzeiteigenschaften hat der von Hernandez und Stolfo vorgeschlagene Sorted-Neighbourhood-Algorithmus (Hernandez und Stolfo 1995). „Sorted Neighbourhood“ heißt so viel wie „sortierte Nachbar-
134
J. Bleiholder und J. Schmid
schaft“ und beschreibt damit bereits das Charakteristische dieses Verfahrens: der Datenbestand wird so sortiert, dass potenzielle Dubletten nahe beieinander stehen, so dass nur noch die „Nachbarschaft“ nach Dubletten durchsucht werden muss. Vor Beginn des Verfahrens muss zuerst ein Sortierschlüssel definiert werden, der die oben beschriebene Sortierung sicherstellt. Dafür werden Bestandteile der für die Dublettenerkennung wichtigen Datenfelder konkateniert, z. B. die ersten drei Buchstaben des Nachnamens gefolgt von den ersten beiden Buchstaben des Ortes und der Straße. Der Algorithmus beginnt mit der Erzeugung des Sortierschlüssels für jeden Datensatz. Anschließend wird der Datenbestand anhand des Sortierschlüssels sortiert. Bei geschickter Wahl des Schlüssels sind jetzt Dubletten dicht beieinander angeordnet. Zur Dublettenerkennung muss daher jeder einzelne Datensatz nur mit einem kleinen „Fenster“ von Datensätzen verglichen werden, die in der Sortierreihenfolge kurz vor oder nach ihm stehen. Eine Fenstergröße von etwa 20 ist in vielen Fällen ausreichend. Dadurch ist beim Sorted-Neighbourhood- Algorithmus eine wesentlich geringere Anzahl von Vergleichen notwendig. Tab. 7.4 zeigt den Datenbestand des Beispiels erweitert um die Spalte Sortierschlüssel. Als Sortierschlüssel wurden die Anfangsbuchstaben des Vornamens, des Nachnamens, der Straße und des Wohnortes gewählt. Damit ergibt sich für „Jan Marten, Göthestr. 12, Berlin“ der Sortierschlüssel „JMGB“. Nach der Sortierung gemäß dem Sortierschlüssel liegen die Dublettengruppen mit den ID-Paaren (1,8), (6,12) und (4,9) dicht beieinander. In diesem Fall wäre eine Fenstergröße von 3 Datensätzen ausreichend. Entscheidend für die Güte des Algorithmus ist die Wahl des Sortierschlüssels. Hier liegt auch die Schwäche dieses Verfahrens: unterscheiden sich zwei Datensätze nur in einem Buchstaben und ist dieser Bestandteil des Sortierschlüssels, dann werden i. d. R. diese beiden Datensätze so weit auseinander sortiert, dass sie außerhalb des Fensters der zu vergleichenden Datensätze liegen und daher nicht miteinander verglichen werden. Hätten wir in unserem Beispiel den Sortierschlüssel so definiert, dass er mit dem ersten Buchstaben des
Tab. 7.4 Gemäß Sortierschlüssel sortierte Tabelle (Sorted-Neighbourhood) Dublettengruppe 1 2 3 2 4 4 3 5 5 6 7 8
ID 3 1 2 8 6 12 7 9 4 11 5 10
Quelle LV LV LV KFZ LV KFZ KFZ KFZ LV KFZ LV KFZ
Sortierschlüssel HMGB JMGB JMGB JMGB JMHK JMHK JMSB MJBA MJBH MPBK PMMH PMMK
Name Helga Martens Jan Marten Janine Marten Jan Marten Jens Müller Jens Müller Janine Marten Martin Jahn Martin Jahn Maja Peters Peter Maier Peter Maier
Straße Göthestr. 12 Göthestr. 12 Gothenstr. 12 Goethestr. 12 Händelstr. 1 Händelstr. 1 Schillerplatz 3 Buschweg 23a Buschweg 23 Bachstr. 65 Mozartweg 2 Mozartweg 2
Wohnort … Berlin Berlin Berlin Berlin Köln Köln Berlin AHmburg Hamburg Köln Hamburg Köln
7 Datenintegration und Deduplizierung
135
Wohnortes beginnt, dann wäre das Dublettenpaar (4,9) „auseinander“ sortiert worden. Die Werte für den Wohnort unterscheiden sich durch einen Buchstabendreher am Wortanfang. Als Abhilfe dafür haben Hernandez und Stolfo mit Multipass eine Erweiterung ihres Algorithmus vorgeschlagen. Dabei werden mehrere Sortierschlüssel mit unterschiedlicher Strukturierung verwendet. Nacheinander werden für jeden dieser Sortierschlüssel die drei Schritte des Sorted-Neighbourhood-Algorithmus durchgeführt. Durch die unterschiedlichen Sortierschlüssel stehen bei jedem Durchlauf andere Datensätze nebeneinander, was die Chancen erhöht, neue Dubletten zu entdecken. Die hierbei entdeckten Dublettengruppen werden durch die Bildung der transitiven Hülle zusammengeführt. Bei der Bildung der transitiven Hülle wird vorausgesetzt, dass wenn D1 eine Dublette zu D2 sowie D2 eine Dublette zu D3 ist, auch D1 eine Dublette zu D3 ist und somit alle drei eine Dublettengruppe bilden.
7.3
Schritt 3: Datenfusion
Sind die Schemata der beteiligten Tabellen angepasst, sowie Dubletten und Dublettengruppen bekannt, bleiben zuletzt noch reine Datenkonflikte übrig, die behandelt werden müssen. Reine Datenkonflikte liegen vor, wenn unterschiedliche Repräsentationen desselben Realweltobjektes (lt. Dublettenerkennung) unterschiedliche Werte für gleiche Attribute (lt. Mapping) aufweisen. Die Gründe für die Existenz solcher Datenkonflikte sind vielfältig, einige wurden in Abschn. 7.2.2 bereits genannt.
136
J. Bleiholder und J. Schmid
Bei Konflikten wird in der Regel zwischen Widersprüchen (unterschiedliche Werte) und Unsicherheiten (ein Wert im Konflikt mit Null-Werten) unterschieden. Unsicherheiten treten bevorzugt in den Attributen auf, die nicht im Mapping enthalten sind und sind generell einfacher zu handhaben. Dabei wird in der Regel eine „nicht bekannt“-Semantik der Null-Werte vorausgesetzt. Der letzte Schritt im Integrationsprozess, der Schritt der Datenfusion, behandelt beide Konfliktarten in Daten und erzeugt ein für den Nutzer und den jeweiligen Anwendungsfall sinnvolles Ergebnis. In den meisten Fällen ist solch ein Ergebnis ein Ergebnis ohne Widersprüche. Das Problem der Datenfusion stellt sich demnach wie folgt dar: Problem (Datenfusion)
Gegeben eine Tabelle mit markierten Dublettengruppen, erzeuge eine bereinigte Tabelle, die keine Widersprüche, und idealerweise genau eine Repräsentation pro Realweltobjekt enthält.
Sind die Dublettengruppen durch eine ID als eigenes Attribut bestimmt, besteht die Aufgabe darin, dieses ID-Attribut zu einem Primärschlüssel werden zu lassen. Bei der Behandlung von Konflikten gibt es eine Reihe von Strategien, die verfolgt werden können. Im Folgenden werden einige davon vorgestellt.
7.3.1 Konflikte ignorieren Die sicherlich einfachste, aber auch nicht unbedingt befriedigendste, Strategie ist es, die Konflikte einfach zu ignorieren und dem Nutzer z. B. alle unterschiedlichen Repräsentationen zugänglich zu machen und ihm damit die Entscheidung selbst zu überlassen, welche Repräsentationen weiterverwendet werden sollen. Die gewünschte Eigenschaft des ID-Attributs als Primärschlüssel wird dabei nicht erreicht. Zusätzlich bereitgestellte Metainformationen, z. B. über die Herkunft der Daten oder die Wahrscheinlichkeit der Korrektheit der Daten ermöglichen dem Nutzer eine bessere Entscheidung, entbinden ihn dabei aber nicht von der Entscheidung, welche der möglichen Repräsentationen weiter verwendet werden soll. Die relationalen Operatoren „Outer Union All“ und „Full Outer Join“ sind einfache Beispiele für Datenfusionsverfahren bei denen Konflikte ignoriert werden.
7.3.2 Konflikte vermeiden Fortgeschrittenere Strategien versuchen, Konflikte auf einfache Art zu vermeiden. Dies kann z. B. dadurch geschehen, dass in der Ergebnistabelle nur widerspruchsfreie, kon-
7 Datenintegration und Deduplizierung
137
sistente Realweltobjekte enthalten sind. Entfernt man exakte Dubletten (Dubletten, die in allen Werten übereinstimmen) und Dubletten, die nur Unsicherheiten aber keine Widersprüche enthalten, sind dies am Ende die Dublettengruppen der Größe 1, die also nur einen Datensatz enthalten. Ein Beispiel für solch eine Vorgehensweise ist das CONQUER- System (Fuxman et al. 2005), bei dem SQL-Anfragen an Daten so umformuliert werden, dass ein konsistentes Ergebnis zurückgegeben wird. Dieses Verfahren ist allerdings nicht für alle Klassen von SQL-Anfragen anwendbar. Das konsistente Ergebnis im Beispiel besteht aus allen Datensätzen, außer den Dublettengruppen 2, 3 und 5 („Jan Marten“, „Janine Marten“ und „Jens Müller“). Diese Datensätze enthalten Widersprüche und sind daher nicht im Ergebnis enthalten. Eine weitere Strategie der Konfliktvermeidung ist die Rückgabe eines einzigen, bestimmten Datensatzes aus einer Dublettengruppe. Diese Strategie wird oft als „Survivor“-Strategie bezeichnet und wird ob ihrer Einfachheit häufig in bestehenden Tools zur Datenreinigung verwendet. Das häufigste Auswahlkriterium ist hier die Herkunft der Daten. Eine vorher zu bestimmende Datenquelle wird bevorzugt behandelt und als Ergebnis wird der Datensatz einer Dublettengruppe zurückgegeben, der aus dieser Quelle stammt. Eine andere Möglichkeit, den überlebenden Datensatz zu bestimmen, ist das Alter der Daten. Sofern bekannt, z. B. als Zeitstempel in einem weiteren Attribut hinterlegt, kann so der jeweils aktuellste Datensatz zurückgegeben werden. Auch anhand der Daten selbst kann die Entscheidung für einen Datensatz getroffen werden. So kann im obigen Beispiel der Datensatz mit dem längsten Namen, oder der höchsten Versicherungssumme überleben. Eine solche datenspezifische Auswahl sollte jedoch mit Sorgfalt und abhängig vom jeweiligen Anwendungsfall angewendet werden. Liegen keine Metadaten vor, ist die Übernahme eines vorhandenen Wertes und das Ignorieren von Null-Werten (Strategie der Informationsübernahme) z. B. unter Verwendung der SQL-coalesce-Funktion möglich.
7.3.3 Konflikte auflösen Um die Nachteile ignorierender (Widersprüche bleiben bestehen) und vermeidender (nicht alle Daten werden berücksichtigt) Strategien zu vermeiden, müssen Konflikte aufgelöst werden, indem alle vorhandenen Daten berücksichtigt werden und daraus ein neuer Datensatz zusammenfügt wird. In gewissem Sinne ist dies die natürliche Erweiterung der vermeidenden Strategien, die Erweiterung um das Einbeziehen aller Werte. Bei der Konfliktlösung können unterschiedliche Strategien grob in zwei Gruppen unterteilt werden: Entscheidende Strategien übernehmen einen in den Daten bereits vorhandenen Wert, während sich vermittelnde Strategien auch für einen noch nicht vorhandenen Wert entscheiden können. Ein Beispiel für die erste Gruppe ist die Mehrheitsentscheidung, die Entscheidung für den am häufigsten auftretenden Wert. Die Intuition hinter dieser Strategie ist, dass die Mehrheit sich selten irrt, und dass ein Wert, der signifi-
138
J. Bleiholder und J. Schmid
kant häufiger auftritt, mit hoher Wahrscheinlichkeit der richtige ist. Ein Beispiel für eine vermittelnde Strategie ist die Mittelwertbildung. Zu beachten ist, dass bei der Konfliktlösung sowohl vertikal als auch horizontal partitioniert werden kann, d. h. die Konfliktlösung ist sowohl spalten- als auch zeilenabhängig. Spaltenabhängig im Sinne, dass für jede Spalte eine andere Art der Konfliktlösung verwendet wird, und zeilenabhängig im Sinne, dass für unterschiedliche Abschnitte (z. B. alle Kunden aus Berlin, alle Kunden aus Hamburg, etc.) Konflikte unterschiedlich gelöst werden (Tab. 7.5). Konfliktlösende Strategien können auf einfache Art und Weise mittels Gruppierung und Aggregation umgesetzt werden. Dabei werden die Repräsentationen der Objekte nach der im Schritt „Dublettenerkennung“ vergebenen ID gruppiert und spaltenweise Konfliktlösungsfunktionen auf Repräsentationen mit gleicher ID angewendet. Einzelne Strategien, wie z. B. Mittelwertbildung können in einem Datenbanksystem recht einfach mit Hilfe bereits bestehender Aggregationsfunktionen nachgebildet werden. Andere, wie z. B. die Mehrheitsentscheidung, erfordern mehr Aufwand und den Einsatz von Erweiterungen des Datenbanksystems, wie z. B. die SQL-Erweiterungen für OLAP-Anwendungen oder die Möglichkeit benutzerdefinierte (Aggregations-)Funktionen verwenden zu können. Im letzteren Fall sind prinzipiell beliebig komplizierte und mächtige Funktionen möglich, die auch zusätzliche Informationen nutzen können. So ist es z. B. denkbar, taxonomisches Wissen zur Konfliktlösung auszunutzen, indem bei zwei in Konflikt stehenden Werten der speziellere oder das kleinste gemeinsame Oberkonzept (lowest common ancestor) gemäß einer Taxonomie verwendet wird. Bei einem Konflikt im Attribut „Wohnort“ zwischen den Werten „Hamburg“ und „Berlin“ könnte dieser durch den Wert „Deutschland“ aufgelöst werden.
Tab. 7.5 Fusionierte Quellen, unter Angabe der verwendeten Konfliktlösungsfunktion Name choose(Kfz) Janine Marten Jan Marten Martin Jahn
Wohnort Straße longest choose(LV) Schillerplatz 3 Berlin
Geb.Datum newest 21.5.1977
Summe average 100.000
Führerschein coalesce 3/4.6.1996
Kfz-Typ coalesce VW Polo Audi A2 Ford focus Twingo ⊥ Citroen 2CV VW Golf 3 ⊥
Berlin Hamburg
1.12.1952 5.1.1966
50.000 75.000
3/2/1.12.1970 3/1.1.1987
Peter Maier Peter Maier Maja Peters
Goethestr. 12 Buschweg 23a Mozartweg 2 Mozartweg 2 Bachstr. 65
Köln Hamburg Köln
⊥ 16.9.1982 ⊥
⊥ 100.000 ⊥
3/16.9.1982 ⊥ A/23.8.2004
Jens Müller
Händelstr. 1
Köln
24.3.1970
50.000
3/25.3.1988
Helga Martens
Göthestr. 12
Berlin
1.1.1954
100.000
⊥
7 Datenintegration und Deduplizierung
139
Weitere Details zu Strategien zur Konfliktbehandlung beschreiben (Bleiholder und Naumann 2006). Dort wird auch die Umsetzung in einem integrierten Informationssystem beschrieben. Die im HumMer-System (Naumann et al. 2006) verwendete Fuse-By- Technik bietet hier eine einfache Möglichkeit komplexe und mächtige Konfliktlösungen für Datenkonflikte zu spezifizieren.
7.4
Erweiterungen
Die Ergebnisse der Schritte Dublettenerkennung und Datenfusion hängen stark davon ab wie gut die Daten in den einzelnen Datenfeldern strukturiert und standardisiert sind. Sowohl die Strukturierung als auch die Standardisierung der Daten lassen sich durch geeignete Verfahren („data scrubbing“) verbessern. Diese Verfahren erhöhen zum einen die Treffergenauigkeit bei der Dublettenerkennung, zum anderen erweitern sie die Möglichkeiten der Datenfusion. Zusätzlich verbessert sich die Datenqualität hinsichtlich der IQ-Dimensionen Übersichtlichkeit, Fehlerfreiheit, Aktualität und der Einheitlichkeit der Darstellung. In den folgenden beiden Abschnitten wird kurz auf Strukturierung und Standardisierung eingegangen. (Schmid 2004) enthält eine ausführlichere Beschreibung der Datenqualitätsprobleme, die sich dadurch beheben lassen.
7.4.1 Strukturierung Eine schlechte Strukturierung liegt dann vor, wenn es falsch zugeordnete oder eingebettete Werte gibt. Falsch zugeordnete Werte sind im falschen Datenfeld abgelegt. Wenn sich beispielsweise der Vorname im Nachnamensfeld und nicht im Vornamensfeld befindet, somit quasi in der Spalte verrutscht ist. Eingebettete Werte sind Werte, die zusammen mit anderen in einem einzigen Datenfeld stehen. Wenn z. B. neben dem Nachnamen auch noch die Anrede und der Titel im Nachnamensfeld zu finden sind. Beide Fälle führen bei der Dublettenerkennung zu Problemen. Im Falle der falsch zugeordneten Werte führt ein datenfeldweiser Vergleich der Datensätze dazu, dass „Äpfel mit Birnen“ oder wie im Beispiel erwähnt Vornamen mit Nachnamen verglichen werden. Im Falle der eingebetteten Werte treten zwei Probleme auf. Fehlt einer der in diesem Datenfeld gespeicherten Werte (z. B. der Titel) nur in einem der Datensätze, führt dies zu einem geringeren Ähnlichkeitswert, und zwar egal ob es sich um einen maßgeblichen Bestandteil handelt oder nicht. Sind in beiden Datensätzen alle Werte vorhanden, aber in unterschiedlicher Reihenfolge, so führt dies bei einigen Ähnlichkeitsmaßen zu starken Abwertungen. Zur Verbesserung der Strukturierung werden die Inhalte der Datenfelder geparst, in ihre Bestandteile zerlegt, klassifiziert und den passenden Datenfeldern zugeordnet. Zur Klassifikation und Zuordnung zu den passenden Datenfeldern werden in den meisten Fällen Referenzdaten wie eine Liste aller Titel und anwendungsfallspezifische Regeln benötigt.
140
J. Bleiholder und J. Schmid
7.4.2 Standardisierung Standardisierung von Datenfeldern zielt darauf ab, dass semantisch identische Inhalte identisch dargestellt werden. Dies meint im Grunde nichts anderes als eine hohe Informationsqualität in Bezug auf die IQ-Dimension Einheitliche Darstellung. Die folgenden Ortsnamen bezeichnen alle dieselbe Stadt (Tab. 7.6): Die oben erwähnten Ähnlichkeitsmaße würden beim paarweisen Vergleich nicht unerhebliche Unterschiede messen. Und selbst auf Ortsnamen spezialisierte Ähnlichkeitsmaße würden keine Gleichheit feststellen. Praktischer ist hier, noch vor der Dublettenerkennung, eine Standardisierung der Datenwerte durchzuführen. Dazu wird im Rahmen eines Data Profiling u. a. eine Häufigkeitsverteilung der Werte in den einzelnen Datenfeldern durchgeführt. Zur Beseitigung der hierbei entdeckten Datenqualitätsmängel in Bezug auf die Dimension Einheitliche Darstellung gibt es mehrere Möglichkeiten. Bei Datenfeldern mit überschaubaren Wertemengen wie z. B. Anrede oder Titel, sollte eine unternehmensweit gültige Wertemenge festgelegt und umgesetzt werden. Im aktuell zu bearbeitenden Datenbestand kann dies durch einige UPDATE-Kommandos geschehen. Für eine unternehmensweite Umsetzung müssen alle Prozesse und Systeme betrachtet werden, in denen dieses Datenfeld vorkommt. Ähnlich verhält es sich, wenn die Unterschiede lediglich die Formatierung betreffen, z. B. bei Telefonnummern oder Datumsangaben. Auch hier muss möglichst ein unternehmensweites Format definiert werden. Im konkreten Einzelfall kann eine Umformatierung ein hilfreicher Schritt vor der Dublettenerkennung sein. Bei Datenfeldern mit sehr großer Wertemenge kann in einigen Fällen auf Referenzdatensysteme zurückgegriffen werden, z. B. bei Adressen, Bankverbindungen, Telefonnummern, Anti-Terrorlisten. Für diese Anwendungsbereiche gibt es ein Verzeichnis der gültigen Werte in diesem Bereich. So kann beispielsweise von der Deutschen Post ein Verzeichnis aller Postleitzahlen, Ortsnamen und Straßennamen bezogen werden. Ein Referenzdatensystem basiert auf einem solchen Verzeichnis und führt darauf eine fehlertolerante Suche aus, quasi eine „Ähnlichkeitssuche“. Wird beispielsweise an ein Referenzdatensystem auf Basis postalischer Verzeichnisse eine Adresse übergeben, so sucht das System die ähnlichste Adresse und gibt diese aus. Dabei kann es sein, dass Ein- und Ausgabe identisch sind. In diesem Fall hat nur eine Validierung stattgefunden. Wenn Ein- und Ausgabe aber unterschiedlich sind, hat eine Standardisierung oder gar eine Korrektur stattgefunden.
Tab. 7.6 Nicht standardisierte Ortsnamen
Frankfurt a. M. Frankfurt a. Main Frankfurt (Hessen) Frankfurt-Niederrad
7 Datenintegration und Deduplizierung
141
Der Einsatz von Referenzdatensystemen führt daher nicht nur zu einer Verbesserung in der IQ-Dimension Einheitliche Darstellung, sondern auch zur Verbesserung der Fehlerfreiheit und – bei entsprechender Aktualisierungsrate der Referenzdaten – auch zur Verbesserung der Aktualität.
7.5
Zusammenfassung
Datenintegration bezeichnet das Zusammenführen von Daten aus mehreren Quellen, wobei sowohl Schema- als auch Datenheterogenitäten überwunden werden. Ein integrierter Datenbestand erlaubt es dem Nutzer auf einheitliche Art und Weise auf einheitlich strukturierte Daten zuzugreifen. Neben der Feststellung von äquivalenten Schemaelementen (Schema Matching) und äquivalenten Objektbeschreibungen (Dublettenerkennung) ist die Lösung von Datenkonflikten (Datenfusion) Teil des hier anhand eines Beispiels illustrierten Datenintegrationsprozesses. Für jeden Teilschritt werden prototypisch Lösungsmöglichkeiten aufgezeigt und erläutert, sowie erste Verweise in relevante Literatur gegeben. Datenintegration im Allgemeinen und die hier vorgestellten Techniken führen dabei in der Regel zu einer Verbesserung der Informationsqualität bezüglich der IQ-Dimensionen Zugänglichkeit, Vollständigkeit, Übersichtlichkeit, Fehlerfreiheit und Einheitliche Darstellung.
Literatur Bilke, A. und Naumann, F. Schema Matching using Duplicates. In: Proceedings of ICDE, 2005, S. 69–80. Bleiholder, J. und Naumann, F. Conflict Handling Strategies in an Integrated Information System. In: Proceedings of IIWeb workshop, 2006. Fuxman, A., Fazli, E. und Miller, R. J. ConQuer: Efficient Management of Inconsistent Databases. In: Proceedings of SIGMOD, 2005, S. 155–166. Hernandez, M. und Stolfo, S. The Merge/Purge Problem for Large Databases. In: Proceedings of SIGMOD, 1995, S. 127–138. Leser, U. und Naumann, F. Informationsintegration – Architekturen und Methoden zur Integration verteilter und heterogener Datenquellen. dpunkt, Heidelberg, 2006. Levenshtein, V. Binary Codes Capable of Correcting Spurious Insertions and Deletions of Ones. In: Problems of Information Transmission, 1965, 1, S. 8–17. Madhavan, J., Bernstein, P. und Rahm, E. Generic Schema Matching with CUPID. In: Proceedings of VLDB, 2001, S. 49–58. Melnik, S., Garcia-Molina, H. und Rahm, E. Similarity Flooding: A Versatile Graph Matching Algorithm and its Application to Schema Matching. In: Proceedings of ICDE, 2002, S. 117–128. Naumann, F., Bilke, A., Bleiholder, J., und Weis, M. Data Fusion in Three Steps: Resolving Schema, Tuple, and Value Inconsistencies. In: Data Engineering Bulletin. 29(2), 2006, S. 21–31. Rahm, E. und Bernstein, P. A. On Matching Schemas Automatically. Technischer Bericht, Microsoft Research, 2001.
142
J. Bleiholder und J. Schmid
Schmid, J. The Main Steps to Data Quality In: Advances in Data Mining, 4th Industrial Conference on Data Mining, ICDM 2004, Revised Selected Papers, Springer, S. 69–77. Winkler, W. The State of Record Linkage and Current Research Problems. Statistics of Income Division, Internal Revenue Service Publication R99/04, 1999.
Dipl.-Inform. Jens Bleiholder studierte in Karlsruhe und Amherst und schloss 2003 sein Informatikstudium an der Universität Karlsruhe ab. Danach arbeitete er als wissenschaftlicher Mitarbeiter am Lehrstuhl für Informationsintegration der Humboldt-Universität zu Berlin, seit September 2006 im Fachgebiet Informationssysteme des Hasso-Plattner-Instituts in Potsdam. Er beschäftigt sich mit Themen aus den Bereichen Datenqualität und Datenintegration und im Rahmen seiner Promotion speziell mit der Fusionierung mehrerer Datenquellen. Die dabei auftretenden Datenkonflikte können auf verschiedene Arten behandelt, im besten Falle sogar aufgelöst werden, so dass der anfragende Nutzer ein konsistentes Ergebnis erhält. Darüber hinaus stellt sich nicht nur die Frage wie eine solche Fusionsanfrage gestellt, sondern auch wie sie optimiert werden kann. Dipl.-Inform. Joachim Schmid ist Leiter der Software-Entwicklungsabteilung bei der FUZZY! Informatik AG und verantwortlich für die Entwicklung von Werkzeugen für Datenqualitätsmanagement. Er studierte Informatik an der Universität Karlsruhe. Nachdem er bei T-Systems als Berater in Data Warehouse Projekten tätig war, wechselte er 1999 zur FUZZY! Informatik AG. Hier war er zunächst für Qualitätssicherung und Standards zuständig und maßgeblich an der Weiterentwicklung des FUZZY! DataCare® Process, einem Vorgehensmodell für Datenqualitätsprojekte, beteiligt. Joachim Schmid ist einer von weltweit 10 Absolventen des IQ-2 Kurs für Information Quality Professionals am MIT in Boston und Mitglied in der Deutschen Gesellschaft für Informations- und Datenqualität e. V. (dgiq).
8
Definition von Datenarten zur konsistenten Kommunikation im Unternehmen Andrea Piro und Marcus Gebauer
Probleme in der Informationsqualität (IQ) treten in den unterschiedlichsten Bereichen eines Unternehmens auf und werden durch die unterschiedlichsten Bereiche verursacht. Daher ist es um so wichtiger, diese Probleme klar und eindeutig kommunizieren zu können. Insbesondere wenn Kollegen fachübergreifend IQ-Probleme beheben wollen, kann dies schwierig sein. Erst wenn klar ist, worüber geredet wird, und häufig sind dies Datenfelder und ihr Inhalt, kann das Problem eindeutig beschrieben und gelöst werden. Dieses Kapitel zeigt Möglichkeiten einer effektiven Kommunikation zur Lösung dieser Probleme auf. Wir schlagen eine Strukturierung von Informationen mit festgelegten Begriffen und Definitionen vor. Eingangs werden Kriterien zur Beschreibung von Daten und deren Kontext dargestellt. Da eine Begriffsdefinition in einer Unternehmenspraxis zeit- und kostenintensiv sein kann, erfolgt im Anschluss ein Vorschlag, wie mit einer Auswahl an Beschreibungskriterien Daten und deren Kontext für IQ-Zwecke strukturiert werden können.
8.1
Einleitung und Zielsetzung
In fast jedem Unternehmen gibt es eine Schwierigkeit. Im Rahmen von Projekten oder Problemanalysen müssen verschiedene Fachbereiche und IT-Verantwortliche über ihre Informationen, IT-Lösungen, Prozesse und Datenflüsse sprechen. Hat jeder Bereich für sich A. Piro (*) Hannover, Deutschland E-Mail: [email protected] M. Gebauer Department: IT-GMO, Hannover Re AG, Hannover, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_8
143
144
A. Piro und M. Gebauer
noch eine klare Vorstellung über die einzelnen Themen, so ist die gemeinsame Kommunikation hierüber oft sehr schwierig. Grund sind die unterschiedlichen Sichtweisen auf Informationen. Diese führen zu unterschiedlichen Bewertungen und eben auch zu unterschiedlichen Bezeichnungen und Beschreibungen des Gegenstandes Information. Die Granularität von Ordnungsbegriffen und die Ordnungsbegriffe selbst sind von den unterschiedlichen Bereichen des Unternehmens abhängig. Eine Kommunikation miteinander ist ohne Verständnisprobleme meist nicht möglich. Das kostet oft Zeit und Nerven. Die Lösung dieses Problems ist die Entwicklung und Anwendung einer gemeinsamen Sprache über Informationen im Unternehmen. So wird eine Kommunikation über Bereichs- und Prozessgrenzen hinweg möglich. Bei der hohen Anzahl unterschiedlicher Informationen und Daten in den Prozessen eines Unternehmens, ist eine einheitliche und klare Begriffsdefinition und Strukturierung der Datenarten, wie in diesem Kapitel vorgeschlagen, sinnvoll und notwendig. Grundlage des Vorschlages ist die Struktur der Informationslandschaft gemäß DMSBASICS (Tremba 2005).
8.1.1 Informationsqualität und Datenarten Insbesondere im Umfeld des IQ-Managements ist eine einheitliche Sprache unerlässlich. Informationen und Daten spielen in der Strukturierung von IQ-Problemen zur sinnvollen Adressierung abgeleiteter Maßnahmen eine entscheidende Rolle. Die Elemente der Ordnung sind übergreifende Begriffsdefinitionen, die ein einheitliches Verständnis der Datenarten sicherstellen. Diese bilden das Raster, in dem Informationen abgelegt, gefunden, erzeugt und gelenkt werden. Dies ist eine wichtige Voraussetzung dafür, dass die Verwendung der Struktur funktioniert. Das Ziel des hier vorgestellten Vorschlages ist es, die Begriffe zur Beschreibung von Daten in eine eindeutige und im gesamten Unternehmen genutzte Ordnung zu bringen. Um unterschiedliche IQ-Probleme mit fehlenden, fehlerhaften oder inkonsistenten Daten, die unter Umständen aus unterschiedlichen Abteilungen zentral gemeldet werden, übersichtlich und anschaulich darstellen zu können, müssen die genannten Probleme strukturiert werden. Die genannten betroffenen Daten1, sind dabei ein Merkmal, nach denen strukturiert werden kann. Die folgenden Definitionen stellen die Bedeutung der Bestimmung der Datenart in der Problemanalyse heraus. Die Bestimmung der bei einem Problem betroffenen Datenart ist entscheidend für das Verständnis des Problems selbst. Dazu wird die Verwendung einer Strukturierung von Informationen mit festgelegten Begriffen und Definitionen vorgeschlagen. Für die Zielsetzung, Informationsprobleme zu bewerten, werden nicht alle Beschreibungskriterien zwingend benötigt. Eine Auswahl bleibt dem Nutzer vorbehalten, der sich an den fachlichen Anforderungen in seiner Organisation orientiert. Es handelt sich hierbei um die Angabe der Daten, in denen die Probleme sichtbar werden.
1
8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
8.2
145
Datenarten in der Informationslandschaft
Daten spielen in den Geschäftsprozessen eines Unternehmens eine zentrale Rolle. Sie werden informationstechnologisch klar strukturiert und besitzen immer einen offiziellen und formellen Charakter. Neben den Daten hat auch der Kontext, in dem Daten leben, diesen offiziellen und formellen Charakter. Er ist durch den verfolgten Zweck und den dazugehörenden Prozess charakterisiert. Erst durch den Kontext, in dem Daten leben und benutzt werden, werden hieraus nutzbare Informationen. Ohne Kenntnis des Kontextes ist letztendlich keine Bewertung der Informationsqualität möglich (Strong et al. 1997). Die Merkmale von Daten und deren Kontext führen uns zur Strukturierung der Datenarten. Daten sind das inhaltliche Element einer Information und der Kontext ist das beschreibende Element. Daten benötigen also zu ihrer Interpretation immer einen Kontext. Allerdings scheinen Daten häufig aus sich heraus deutbar und verständlich zu sein. Dieses implizite Verständnis eines Datenfeldinhaltes kann erhebliche Probleme in der Informationslandschaft verursachen. Die Nummer „1802“ kann eine interne Durchwahlnummer oder eine Kundennummer sein. Erst mit dem Wissen um den Kontext werden Daten verständlich und für das gesamte Unternehmen nutzbar.
8.3
Beschreibungskriterien
In diesem Abschnitt stellen wir Beschreibungskriterien vor, mit denen die Definition der Datenarten erfolgt. Beschrieben werden dabei die inhärenten Eigenschaften der Daten und der Kontext, in dem ein Datum sich befindet. • Die Eigenschaften von Daten werden durch Format, Struktur, Inhalt, Stabilität, Verarbeitung und dem Business Object beschrieben. • Die Kontextinformationen von Daten bilden die Angaben zu den Prozessen, in denen das Datum benötigt wird und zu verschiedenen Verwendungszwecken. Daten können nach den in Tab. 8.1 aufgeführten Kriterien, eindeutig oder mehrfach beschrieben werden. Die Kriterien Format, Inhalt, Struktur, Business Object und Stabilität sind nur einmalig zu vergeben. Ein Datum kann z. B. nur ein bestimmtes Format haben. Die Kriterien Verarbeitung, Zweck und Prozess können das Datum durch MehrfachnenTab. 8.1 Beschreibungskriterien für formelle Informationen
Eigenschaften Format Struktur Inhalt Stabilität Verarbeitung Business object
Kontext Prozess Zweck
146
A. Piro und M. Gebauer
nungen beschreiben, da ein Datum bspw. in verschiedenen Prozessen zum Einsatz kommen kann.
8.3.1 Beschreibung der Eigenschaften Die Eigenschaften von Daten lassen sich anhand von sechs Kriterien beschreiben. Je mehr Kriterien zur Beschreibung genutzt werden, desto genauer kann das Datenfeld beschrieben werden und desto eindeutiger ist seine Identifizierung möglich.
8.3.1.1 Format Mit dem Format wird ein Datum IT-technisch spezifiziert. Ein Datenfeld kann alphanumerisch, numerisch, integer, floating point, etc. definiert sein, wobei auch die Länge eines Feldes ein beschreibendes Merkmal ist. 8.3.1.2 Struktur Das Kriterium Struktur unterscheidet Daten nach drei grundsätzlichen Kriterien. Strukturierte Daten sind Daten, zu denen strukturgebende Informationen – Metadaten – vorhanden sind, durch die die Daten definiert sind. Diese Metadaten können unter anderem Auskunft geben über: • Format des Datums, • Erlaubte Werte für das Datum, • Semantische Bedeutung. Semistrukturierte Daten sind Daten, die in einzelnen Bestandteilen strukturiert sein können, in der Gesamtheit jedoch keine spezifische, eindeutige Struktur aufweisen. Vielfach entstehen semistrukturierte Daten dort, wo Textfelder in Datenbanken mit unterschiedlichen strukturierten Daten gefüllt werden. Folgende fiktive Beispiele geben einen Eindruck hierüber. 1. Textfeld = „Mustermann; Heinz; Musterstadt; 12345; 0123 2312312“ 2. Textfeld = „23451; Rainer Dück; 0123 2561432“ Hierbei kann es durchaus sein, dass beide Einträge in einer Datenbank vorkommen, da unterschiedliche Mitarbeiter für die Eingabe verantwortlich sind. Jedes einzelne Element kann dabei einer Struktur folgen, die Gesamtheit ist in der Struktur jedoch nicht einheitlich. Aus unstrukturierten Daten ist die Informationsgewinnung stark von der Interpretation durch den Informationsempfänger abhängig. Das heißt nicht, dass unstrukturierte
8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
147
Daten nicht auch strukturierte Informationen enthalten können, in der Regel sind diese allerdings nicht direkt und eindeutig erkennbar. Ein Beispiel für unstrukturierte Daten sind E-Mails.
8.3.1.3 Inhalt Das Kriterium Inhalt unterscheidet Daten danach, ob sie den eigentlichen Inhalt (d. h. Bestandteil der Informationen) beschreiben, also Sachverhalte beinhalten, um die es tatsächlich geht, oder diese lediglich beschreiben. Wir unterscheiden hier zwischen Inhaltsdaten und Metadaten (siehe Tab. 8.2). Eine allgemeingültige Unterscheidung zwischen Metadaten und „normalen“ Daten gibt es nicht. Metadaten werden in unserem Beispiel als Daten verstanden, mit deren Hilfe andere Daten beschrieben werden können. Inhaltsdaten definieren wir als Daten, die das Objekt direkt bezeichnen. Beispielsweise beschreibt der Name einer Niederlassung inhaltlich direkt die entsprechende Niederlassung. Metadaten ordnen die Inhaltsdaten einer festgelegten Struktur zu. Zum Beispiel die Nummer der Niederlassung. Hier wird das Objekt einem Ordnungsbegriff (Schlüssel) zugeordnet, der die Niederlassung nicht inhaltlich beschreibt, sondern für sämtliche Informationen zur Niederlassung steht. 8.3.1.4 Stabilität Die Stabilität unterscheidet die Daten nach der (relativen) Zeitdauer, in der die Daten unverändert bleiben. In der Regel werden fixe und variable Daten, auch Stamm- und Bewegungsdaten genannt, unterschieden. Stammdaten Stammdaten, auch fixe Daten genannt, sind Daten, die sich nach ihrer Eingabe in ein System selten ändern. Daher müssen sie nicht jedes Mal neu eingegeben werden. In der Regel werden sie dauerhaft zentral gespeichert und prozessbedingt ausgelesen. Hierzu gehören beispielsweise Mitarbeiternamen, Organisationsnummern, Kontonummern oder Artikelbezeichnungen. Bewegungsdaten Bewegungsdaten, auch variable Daten genannt, sind Daten, die sich in einem Geschäftsprozess häufig ändern. Solche Daten müssen für jeden Geschäftsvorfall entweder eingegeben werden oder aus vorhandenen Daten abgeleitet bzw. berechnet werden. Beispiele hierfür sind Bestellmengen, Wertpapierkurse oder Kontensalden.
Tab. 8.2 Eine Niederlassung wird mit einem Meta- und Inhaltsdatum beschrieben Feldname Niederlassungsnummer Niederlassungsname
Feldinhalt NL001 Niederlassung München
Inhalt Metadatum Inhaltsdatum
148
A. Piro und M. Gebauer
8.3.1.5 Verarbeitung Das Kriterium der Verarbeitung unterscheidet nach der Stellung der Daten im Datenverarbeitungsprozess: • Eingabedaten • Speicherdaten • Ausgabedaten Eingabedaten sind Daten, die in das System eingepflegt werden. Zum Beispiel: Name eines Neukunden, Bestellmengen oder der Betrag einer Transaktion. Speicherdaten sind Daten, die das System bereits gespeichert hat. Zum Beispiel: Daten, die nach ihrer Eingabe ins System in diesem verbleiben und nicht nur für eine einmalige Berechnung verwendet werden. Zum Beispiel: Name und Anschrift eines Kunden, Bestellmenge eines Artikels durch einen Kunden. Ausgabedaten sind Daten, die vom System bereits prozessiert wurden. Zum Beispiel: Ergebnisdaten einer Kostenkalkulation. Die Eigenschaft „Verarbeitung“ ändert sich für ein Datum im Prozessablauf. Somit sind Doppelnennungen, je nach dem zu welchem Zeitpunkt das Datum betrachtet wird, möglich.
8.3.1.6 Business Object Daten können einem Business Object2 (BO) zugeordnet werden, da sie ein Objekt beschreiben. Das BO verknüpft Daten mit ihrer fachlichen Verwendung und damit auch der Verantwortung für den Inhalt. Ein Geschäftsvorfall (Gesamtprozess) benötigt für seine Abwicklung immer Informationen aus mehreren BO. Das Beispiel in Abb. 8.1 zeigt, dass eine Geschäftsabwicklung im Versandhandel Informationen der BOs Kunde, Produkt und des verantwortlichen Mitarbeiters benötigt. Die Zuordnung eines Datenfeldes zu einem Business Object sollte immer eindeutig und dauerhaft vorgenommen werden. So beschreiben Kundennummer, Kundenname und Adresse in unserem Beispiel das BO „Kunde“. Die Produktbezeichnung beschreibt das BO „Produkt“. Die Personalnummer das BO „Mitarbeiter“. Die Zuordnungen können auf verschiedene Weise vorgenommen werden. Wichtig ist, dass die Zuordnung einmal festgelegt, dokumentiert und allgemeingültig ist.
8.3.2 Beschreibung des Kontextes Eine sinnvoll eingesetzte und notwendige Information ist niemals losgelöst von einem festgelegten Kontext. Informationen ohne Kontext finden in einem Unternehmen keine sinnvolle Verwendung. Die Kriterien „Prozess“ und „Zweck“ beschreiben gemeinsam den Wir verwenden hier den in der Literatur gängigen englischen Ausdruck.
2
8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
149
BO Produkt KennNr. Bezeichnung Material ...
BO Kunde Kd.Nr. Name Adresse KontoNr. ...
Vertragserstellung Name Kunde Adresse KennNr KennNr. Bezeichnung Material Name Mitarbeiter
BO Mitarbeiter Name PersonalNr. Adresse Alter ...
Abb. 8.1 Nutzung von Informationen aus verschiedenen Business Objects in einem Prozess
Kontext, in dem sich ein Datum befindet. Erst durch die Einbettung der Information in die Prozesse und in die Zweckbestimmung erhalten die Informationen einen Wert für das Unternehmen. Im Folgenden werden die beiden Kriterien anhand von Beispielen genauer erläutert.
8.3.2.1 Prozess Das Kontext-Kriterium Prozess kann aus zwei verschiedenen Fragestellungen entstehen. Zum einen kann die Frage „In welchem Prozess wird das Datum generiert?“ zum anderen kann die Frage „In welchem Prozess wird die Information genutzt?“ gestellt werden. Wir konzentrieren uns auf die Frage nach der Nutzung im Prozess, da wir diesen Aspekt später bei der Bewertung von Informations-Problemen verwenden. Bei einer Definition gemäß der Nutzung in einem Prozess sind Doppelnennungen sehr wahrscheinlich. Eine bestimmte Information kann in n Prozessen genutzt werden. Beispiel
Die „Stückeanzahl“ einer Wertpapiertransaktion dient sowohl der Geschäftsabwicklung, der Bewertung der Bestände, der Verbuchung als auch der Erstellung von Auswertungen für die Steuerung des Unternehmens. Generiert wird die Information jedoch nur einmal im Prozess „Geschäftsabschluss“. ◄ Die Struktur kann den Prozessen und Sub-Prozessen der Ablauforganisation entsprechend herunter gebrochen werden. Auf die Differenzierung gemäß der Sub-Prozesse sollte
150
A. Piro und M. Gebauer
evtl. verzichtet werden, um nicht zu komplex zu werden und um unempfindlicher gegenüber Änderungen der Ablauforganisation zu sein.
8.3.2.2 Zweck Im Kontext-Kriterium Zweck sind generell Mehrfachnennungen zu erwarten. Die meisten Daten dienen immer unterschiedlichen Zwecken innerhalb der Gesamtprozesse eines Unternehmens. Eine Kundennummer wird für die Rechnungsabwicklung genauso benötigt wie für die Erstellung einer Übersicht aller Aufträge eines Kunden für die Marketingabteilung. Für das Datenfeld „Kundennummer“ mit dem Eintrag „123654“ kann eine komplette Beschreibung anhand aller Kriterien wie folgt aussehen (Tab. 8.3).
8.4
Beispiele für den Praxiseinsatz
Sind die relevanten Beschreibungskriterien unternehmensintern identifiziert und definiert, können diese für die Analyse und Visualisierung des Status der Informationsqualität eingesetzt werden.
8.4.1 Analyseebenen der Informationsqualität Die Beschreibung der Datenarten gemäß der vorgestellten Kriterien ist für die Beschreibung eines IQ-Problems hilfreich. Die Analyseebenen eines IQ-Problems bilden das erkannte Problem, die Auswirkungen und die zugrunde liegenden Ursachen (Abb. 8.2) ab. Tab. 8.3 Komplette Beschreibung eines Datums für die weitere Analyse Kundennummer – „123654“ Kriterium Format Struktur Inhalt Stabilität Verarbeitung
Nennungen Einmalig Einmalig Einmalig Einmalig Mehrfach
Business object Prozess (der Nutzung)
Einmalig Mehrfach
Zweck
Mehrfach
Beschreibung Numerisch Strukturiert Metadatum Stammdatum Eingabedatum Speicherdatum Kunde Geschäftsanbahnung Geschäftsabschluss Geschäftsabwicklung Buchung & Überwachung und weitere Reklamationsbearbeitung Kundenanfragen beantworten Übersicht aller Kundengeschäfte erstellen und weitere
8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
151
Abb. 8.2 Analyseebenen der Informationsqualität
Das Problem beschreibt den erkannten Sachverhalt, der im Unternehmen als Fehler identifiziert wird. Die Beantwortung der Frage nach der Datenart, welche fehlerhaft ist oder Probleme bereitet, ist hierbei von entscheidender Bedeutung. Die Angabe des eigentlichen Datums ist ebenso wichtig wie die Nennung des Kontextes, in dem sich das Datum befindet. Für die Beschreibung des Problems sind insbesondere die Kriterien Inhalt, Verarbeitung, Stabilität und Business Object relevant. Die Auswirkung beschreibt den Zustand, der sich auf Grund des erkannten Problems tatsächlich oder voraussichtlich ergibt. Die Auswirkungen sollten belegt werden oder, wenn sie nicht gemessen wurden, mindestens auf Basis von Erfahrungswerten angegeben werden. Die Analyse der Auswirkungen ist für die Einschätzung des Risikos, welches verursacht wird, und damit zur Festlegung der Behebungspriorität, notwendig. Für einen ersten Eindruck über die Auswirkungen des Problems, eignen sich die Beschreibungskriterien Verwendungszweck und Prozess (wenn das Kriterium den Prozess beschreibt, in denen das Datum genutzt wird). Die Ursache eines Problems ist immer auf mehreren Ebenen beschreibbar, wobei es immer mehrere Ursachen geben kann, die ein Problem verursachen. Auf dem Weg zur Lösungsfindung, kann eine Beschreibung der Datenarten sehr hilfreich sein.
8.4.2 Visualisierung des IQ-Status Anhand der Beschreibungskriterien der Datenarten ist es möglich, unstrukturierte Meldungen zu IQ-Problemen übersichtlich darzustellen, die Positionierung und Gewichtung von Problemen abzuleiten und den gesamten Stand der IQ für ein Unternehmen transparent zu machen. Jedes Kriterium ist als übersichtliche Managementinformation nutzbar. Diese Darstellung dient einer einheitlichen Kommunikation im Unternehmen und als Lageplan und Basis für die notwendigen nächsten Schritte zu Verbesserung der Informa tionsqualität. Als Beispiel gehen wir von 20 identifizierten IQ-Problemen in einem Unternehmen aus. Die Meldungen hierzu sind noch unstrukturiert und in unterschiedlichem Detaillierungsgrad dargestellt. Die Tab. 8.4 zeigt beispielhaft identifizierte Probleme sortiert nach ihrem Eingangsdatum. Die Liste der Problemmeldungen, ist unstrukturiert und in diesem Zustand weder bearbeitbar noch aussagekräftig. Es ist nicht erkennbar, welche Datenarten im Unternehmen
152
A. Piro und M. Gebauer
Tab. 8.4 Liste festgestellter IQ-Probleme (Meldeeingang) Nr Datum Melder 1 19.02. Rechtsabteilung
Beschreibung Fehlende Informationen über Namensänderungen und Fusionen der Firmenkunden 2 24.02. Poststelle Bei Umzug des Mitarbeiters innerhalb des Unternehmens, werden die Raumdaten nicht aktualisiert 3 02.03. Einkauf Zeichnungsberechtigter für Kostenstellen nicht gepflegt, oder nicht mehr im Unternehmen 4 30.03. Personal Bonuszusagen zu spät in den Systemen 5 29.04. Vorstandsstab Fehlende Kundeneinträge 6 01.05. Einkauf Konditionen der Händler nicht im Verzeichnis 7 17.05. Rechnungswesen Kostenstellen fehlen 8 18.05. Verkauf Artikelliste ist unvollständig 9 30.05. Rechnungswesen Fehlende Buchungen der ausländischen Niederlassungen 10 24.06. Marketing Adressverteiler für Publikationen fehlerhaft 11 28.06. Steuerung Kundennummer wird nicht geliefert 12 21.07. Verkauf Doppelte Kundenstämme im Kundesystem 13 24.08. IT-Abteilung Probleme mit den IT-Berechtigungen der Mitarbeiter 14 25.08. Personal Adressänderungen der Mitarbeiter werden nicht gepflegt 15 27.08. Marketing Broschürenversand: Kundenadresse fehlerhaft 16 23.09. Verkauf Liefertermine können nicht angegeben werden 17 24.09. Rechnungswesen Fehlende Artikelnummern 18 11.12. Steuerung Kundenportfolien sind unvollständig 19 12.12. Steuerung Kostenstellen sind nicht mehr aktuell 20 13.12. Steuerung Falsche Zuordnung der Kostenstellen zum ergebnisverantwortlichen Bereich
die größten Probleme verursachen. Jeder der genannten Problemmeldungen bedarf einer Kurzrecherche anhand der Beschreibungskriterien, resp. der Rückfrage beim meldenden Bereich, um zu klären, welche Datenfelder fehlen oder fehlerhaft sind und somit zu den genannten Problemen führen. Nach erfolgter Recherche ist die Beschreibung der Datenarten möglich und somit können die Sachverhalte übersichtlich zusammen gefasst den IQ-Status im Unternehmen beschreiben. In unserem Beispiel ergibt die genauere Analyse, dass es sich tatsächlich um 23 IQ- Problemmeldungen handelt. Die Meldungen 10 und 15 aus dem Marketing sind inhaltlich identisch. Die Meldungen 1, 5, 8 und 12 beinhalten jeweils zwei Problemmeldungen3. Im einzelnen werden folgende Datenfelder in den Meldungen angesprochen: Artikelbezeichnung, Artikelnummer, Auftragsvolumen, Bonusbetrag, Buchung (Zahlungseingang), Händler konditionen, IT-Berechtigungen, Kompetenzträger, Kostenstellen, Kundenadresse, Kundenname, Kundennummer, Liefertermin, Raumdaten und Rechtsform des Kunden. Hier gehen wir davon aus, dass in solchen Fällen mehr als ein Feld betroffen ist. Beispielsweise Name- und Adressfeld.
3
8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
153
Unter Verwendung der Kriterien Business Object, Stabilität und Prozesse in eine übersichtliche Darstellung gebracht, ergibt sich aus den erkannten IQ-Problemen in den verschiedenen Auswertungen in Abb. 8.3 bis Abb. 8.5 folgendes Bild. Betrachten wir bei der Auswertung die betroffenen BOs, so ist zu erkennen, dass die meisten erkannten Probleme sich im BO Kunde wiederfinden (Abb. 8.3). Ein solches Ergebnis kann zu dem Schluss führen, die Kundenstammdaten führenden Systeme zu überprüfen und die Erfassungs- und Pflegeprozesse hierzu zu überarbeiten und zu optimieren. Auf jeden Fall sollte die Problemlösung dieses BO hoch priorisiert angegangen werden. Das Bild, welches die Auswertung nach Business Object zeichnet, wird durch die Analyse des Kriteriums Stabilität in Abb. 8.4 noch unterstützt. Kundendaten sind meist Stammdaten. Unser Beispielunternehmen hat deutlich weniger Probleme im Umfeld seiner Bewegungsdaten. Ein wichtiger Indikator für die Priorisierung einer Behebung sind die Auswirkungen von IQ-Problemen im Unternehmen. Die Auswertung nach den Kernprozessen des Unternehmens ergibt zum einen, dass alle Kernprozesse des Unternehmens betroffen sind (Abb. 8.5). Dies macht eine unternehmensweite IQ-Aktivität sichtbar erforderlich. Zum anderen ist erkennbar, welche Prozesse am häufigsten betroffen sind. Die IQ-Probemmeldungen zu den Prozessen Geschäftsanbahnung, Geschäftsabwicklung und Buchung & Überwachung bieten sich als die Problemfelder an, mit denen eine weiterführende Analyse, d. h. eine Messung der IQ-Probleme, beginnen sollte.
Abb. 8.3 Das Business Object Kunde ist in unserem virtuellen Fall am häufigsten von IQ-Pro blemen betroffen
154
A. Piro und M. Gebauer
Abb. 8.4 Die Auswertung zeigt: Auffällig häufig liegen die Probleme in den Stammdaten begründet Prozesse
16 14
13
12 10
11
10 7
8 6 4
5
5
s es oz pr gs un
isi
U nt er stü tz
g un Bu
ch
R
Ü d un
ch es
ko st
be rw
eu er u
ac hu
ng
ng
ng kl u ic ab w äf ts
ch es G
G
G
es c
hä
fts
äf ts
an
ba hn u
ab sc hl u
ng
ß
2 0
Abb. 8.5 In allen Prozessen des Unternehmens haben IQ-Probleme Auswirkungen
8.5
Zusammenfassung
Wir haben in unserem Vorschlag gezeigt, wie durch die Anwendung einheitlicher Begriffsdefinitionen der Kommunikationsprozess im Unternehmen vereinfacht werden kann. Neben der Verwendung in Prozessdokumentationen, Datenflussbeschreibungen, bietet es sich an, eine solche Begriffswelt auch für die Beschreibung von IQ-Problemen zu nutzen.
8 Definition von Datenarten zur konsistenten Kommunikation im Unternehmen
155
Vor allem in der Kommunikation verschiedener Bereiche, z. B. zwischen Fach- und IT-Abteilung, ist eine einheitliche Begriffswelt nützlich, da sie ein gemeinsames Verständnis für IQ-Probleme schafft. Wie unser Beispiel gezeigt hat, können mit einfachen Auswertungen auf Basis der neuen Begriffsdefinition weitergehende Erkenntnisse über die Ursachen von Problemen erzielt werden. Nur so ist eine unternehmensweit einheitliche Darstellung des IQ-Status erreichbar. Vor allem die übersichtlichen Visualisierungsmöglichkeiten der einzelnen Problemschwerpunkte geben Hinweise auf notwendige weitere Analyserichtungen und strategische Entscheidungen. Eine einheitliche Begriffsfindung und -verwendung ist in den meisten Unternehmen schwer umzusetzen, da es – besonders in großen Unternehmen – bereichspezifische Besonderheiten gibt. Viele „Alleingänge“ einzelner Bereiche in einem Unternehmen sind eine Frage der Unternehmenskultur. Für dieses Konzept ist eine Sensibilisierung der Mitarbeiter und des Managements notwendig. Diese muss vermitteln, dass alle im Unternehmen an ein und den selben Unternehmensprozessen teilhaben, die selben Daten nutzen und schlussendlich die selben Unternehmensziele haben. Eine einheitliche Begriffswelt unterstützt diesen kulturellen Gedanken. Insgesamt ist die Beschreibung der Datenarten bei allen Informationen möglich. Welche Kriterien herangezogen werden und welche Daten letztendlich in die Beschreibungen eingehen, muss im jeweiligen Unternehmen festgelegt werden.
Literatur http://www.dmsbasics.de (Zugriff am 24.04.2005) Strong, D.M., Lee, Y.W. und Wang, R.Y.: Data quality in context. Commun. ACM 40, 5 (1997), pp. 103–110
M. A. Andrea Piro studierte Soziologie, Politik und Medienwissenschaften mit dem Schwerpunkt Organisationssoziologie an der Heinrich-Heine-Universität in Düsseldorf. Bereits während ihres Studiums arbeitete sie an einem Datenqualitätsprojekt einer Bank mit. Nach dem Studienabschluss arbeitete sie sieben Jahre im Datenqualitätsmanagement einer Landesbank. Seit 2008 ist sie Corporate Data Quality Manager in einem renommierten deutschen Rückversicherungsunternehmen. Schwerpunkte ihrer Arbeit sind das Prozess-Risikomanagement, das Daten-qualitätsmanagement und das strategische Risikomanagement. Dr. Marcus Gebauer studierte Physik an der Universität Dortmund und der Humboldt-Universität zu Berlin und promovierte dort im Gebiet der Elementarteilchenphysik im Jahre 1997. Von 1997 bis 2001 war er in der WestLB Systems GmbH verantwortlich für Software-Produkte und -Projekte im Wertpapierumfeld. Danach leitete er bis 2009 als Datenqualitätsbeauftragter den Bereich Datenqualitätsmanagement der WestLB AG. Sein Verantwortungsbereich umfasste den gesamten WestLB-Konzern, der auf allen Kontinenten mit Handelsaktivitäten vertreten ist. Seit Oktober 2009 zeichnet Dr. Gebauer verantwortlich für den Bereich ‚Governance, Management und Organisation‘ des IT-
156
A. Piro und M. Gebauer
Bereiches der Hannover Re AG. In dieser Aufgabe ist er verantwortlich für die globale Ausrichtung der IT. Außerdem ist er Gründungsmitglied und Vorstandsvorsitzender der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ e. V.). Dr. Gebauer berät internationale Unternehmen und Organisationen in den Themen Daten- und Informationsqualität, Business Intelligence, Risk Management, Compliance und allen sachverwandten Gebieten. Er ist Mitglied des Advisory Boards der FinScore AG (Lausanne/Schweiz), Advisor der ‚School of Computer & Information Science‘ der University of South Australia (Adelaide/Australien) und Mitbegründer des EIDIQ ‚European Institute for Data and Information Quality‘.
9
Suchmaschinen und Informationsqualität: Status quo, Problemfelder, Entwicklungstendenzen Christian Maaß und Gernot Gräfe
Beide Autoren haben Ihre Arbeiten zur Informationsqualität im Forschungsprojekt THESEUS fortgeführt, das unter dem Förderkennzeichen 01MQ07014 vom BMWi gefördert wurde.
9.1
Ausgangssituation
Das Thema Informationsqualität wird in den vorangegangenen Beiträgen umfangreich betrachtet. Die dabei geführte Diskussion zielt vordergründig auf organisatorische Dimensionen der Datenqualität, die strukturierte Datenanalyse oder Datenmanagementprozesse im Unternehmen ab. Dabei liegt ein Großteil der zur Unterstützung von Entscheidungsprozessen herangezogenen Informationen in Datenbanksystemen bzw. in einem Data Warehouse vor. Auf Basis verschiedener Analysetools (z. B. Online-Analytical-Processing) lassen sich diese Informationen dann systematisch auswerten. Allerdings können Entscheidungen nicht allein aufgrund der unternehmensintern vorliegenden Informationen getroffen werden. Vielmehr gilt es auch die aus der Unternehmensumwelt relevanten Informationen zu verarbeiten, die zum Teil über das Internet zugänglich sind. Im Gegensatz zu unternehmensinternen Datenbanksystemen handelt es sich beim Internet um ein schwach strukturiertes und offenes Netzwerk, weshalb die im Unternehmenskontext eingesetzten C. Maaß (*) Flyeralarm GmbH, Würzburg, Deutschland E-Mail: [email protected] G. Gräfe Energy Management, Siemens AG, Nürnberg, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_9
157
158
C. Maaß und G. Gräfe
Analysetools kaum weiterhelfen, um Informationen mit hoher Qualität herauszufiltern. In dieser Situation spielen Suchmaschinen eine wichtige Rolle, um Informationen zu identifizieren und anhand verschiedener Kriterien in Form einer Suchergebnisseite zu sortieren. Konservative Schätzungen gehen davon aus, dass über Suchmaschinen zwischen 70 und 85 % aller Informationsrecherchen im Internet erfolgen (Förster und Kreuz 2002, S. 68). Teilweise beziffert man diesen Wert sogar auf über 90 % (Schulz et al. 2005, S. 20). Ungeachtet dieser herausragenden Stellung von Suchmaschinen kann konstatiert werden, dass die Qualität der Suchergebnisse oftmals nur gering ist. So liegt der Anteil relevanter Treffer, in Abhängigkeit der verwendeten Suchbegriffe, oft nur zwischen 20 und 45 % (Machill und Welp 2003). Ursächlich hierfür ist vor allem der Umstand, dass die gegenwärtig dominierenden Suchmaschinen zur Bewertung der Seiteninhalte vordergründig auf strukturelle Kriterien abstellen, wie z. B. die Linkstruktur von Webseiten. Die eigentlichen Informationen auf den Webseiten werden nicht inhaltlich interpretiert. Folglich sind viele der gefundenen Webseiten inhaltlich nicht relevant. Der Begriff Informationsqualität bezieht sich in diesem Beitrag damit ausschließlich auf die Relevanz der Suchergebnisse oder anders formuliert auf die Frage, inwieweit Suchmaschinen dazu in der Lage sind, die aus der Perspektive des Nutzers relevanten Suchergebnisse als erstes anzuzeigen. Vor diesem Hintergrund werden in jüngerer Zeit immer häufiger Diskussionen über das so genannte semantische Web geführt, mit dem man die Vision einer um semantische Informationen angereicherten Version des vorhandenen World Wide Web verfolgt. Im semantischen Web soll es für Suchmaschinen möglich sein, Suchanfragen nicht nur anhand der eingegebenen Zeichenkette zu bearbeiten. Stattdessen würde über die reine Zeichenkette hinaus die inhaltliche Bedeutung der Suchwörter bei der Bearbeitung einer Suchanfrage berücksichtigt. Im Vergleich zu herkömmlichen Suchmaschinen wäre insofern mit einer Verbesserung des Status quo zu rechnen, d. h. die Informationsqualität der Suchergebnisse könnte sich signifikant verbessern. Bislang konnten sich semantische Suchmaschinen jedoch nicht etablieren. Vielmehr muss diagnostiziert werden, dass viele Autoren der Vision des semantischen Webs sehr kritisch gegenüberstehen. Stellenweise werden die in diesem Kontext diskutierten Ideen als „akademisch“ und „realitätsfern“ deklariert. In Anbetracht der kontrovers verlaufenden Diskussion soll in diesem Beitrag hinterfragt werden, inwieweit semantische Suchdienste zu einer Verbesserung der Informationsqualität auf den Suchergebnisseiten führen können und welche Vor- und Nachteile mit ihnen im Vergleich zu den gegenwärtig dominierenden Suchmaschinen einhergehen. Zu diesem Zweck gilt es zunächst die Funktionsweise und die Problemfelder algorithmenbasierter Suchmaschinen aufzuzeigen. In diesem Zusammenhang soll insbesondere geklärt werden, wie algorithmenbasierte Suchmaschinen (wie z. B. Google oder Yahoo) auf die Qualität von Webseiten und damit indirekt auf die Informationsqualität schließen. Sodann wendet sich der Beitrag der Diskussion semantischer Suchmaschinen zu und hinterfragt deren praktische Relevanz im Allgemeinen und deren Beitrag zur Erhöhung der Informationsqualität im Speziellen. Ein Fazit schließt den Beitrag ab.
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, …
9.2
159
Charakterisierung algorithmenbasierter Suchmaschinen
9.2.1 Funktionsweise algorithmenbasierter Suchmaschinen Algorithmenbasierte Suchmaschinen nutzen zur Informationsbeschaffung und -auswertung Roboterprogramme. Sie analysieren automatisch die im Web auffindbaren Seiten. Indem sie selbstständig den dort platzierten Hyperlinks folgen, können sie in einem vergleichsweise kurzen Zeitraum einen großen Teil des Webs analysieren und für anschließende Suchanfragen erschließen. Die auf diesen Seiten vorgefundenen Hyperlinks sowie die dort vorgefundenen Seiteninformationen werden dazu in einer speziellen Datenbank gespeichert, dem so genannten Index. Auf ihn greift die Suchmaschine im Zuge einer Suchanfrage zurück und gleicht die eingegebenen Suchbegriffe mit dem dort gespeicherten Datenbestand ab, um die Ergebnisliste zu generieren. Bei der Generierung der Suchergebnisseite werden die im Index gesammelten Informationen genutzt, um eine Rangfolge der Webseiten in Bezug auf ihre Relevanz zu bilden. Die eigentliche Analyse und Bewertung der Index-Informationen erfolgt anhand verschiedener Kriterien, die sich in zwei Bereiche einteilen lassen (Lewandowski 2005; Maaß und Scherm 2007): • Anfrageabhängige Ranking-Faktoren (vgl. Abschn. 9.2.2), • Anfrageunabhängige Ranking-Faktoren (vgl. Abschn. 9.2.3).
9.2.2 Anfrageabhängige Ranking-Faktoren Bei anfrageabhängigen Ranking-Faktoren erfolgt die Sortierung der Suchergebnisliste anhand des verwendeten Suchbegriffs, wobei zur Bestimmung der Relevanz eines Webdokuments auf Verfahren des Information Retrieval zurückgegriffen wird. Beim „traditionellen“ booleschem Retrieval werden die eingegebenen Suchanfragen nach dem Prinzip der Exaktheit bearbeitet. Demnach wird ein Dokument immer dann als relevant erachtet, wenn der Suchbegriff in der identischen Schreibweise, d. h. als gleiche Zeichenkette, auf einer Webseite identifiziert werden konnte. Dieses Prinzip der Dokumentenbewertung hat sich in der Vergangenheit jedoch als manipulationsanfällig erwiesen. So haben z. B. die Bereitsteller von Webseiten häufig gesuchte Suchbegriffe – selbst wenn sie nicht im Zusammenhang mit der eigentlichen Webseite standen – gezielt auf der betreffenden Webseite versteckt, um bessere Platzierungen in den Ergebnislisten von Suchmaschinen zu erzielen. Um solchen Manipulationsversuchen vorzubeugen, ermitteln Suchmaschinen deshalb die so genannte „Keyword density“ (Maaß und Scherm 2007). Bei dieser Prüfkennziffer wird die Anzahl aller Wörter der Webseite ins Verhältnis zu dem gesuchten Begriff gesetzt, um potenziellen Manipulationsversuchen entgegenzuwirken. Es ist allerdings als problematisch anzusehen, dass die Suchmaschinenbetreiber – die ihre Sortierkriterien als Betriebsgeheimnis ansehen – in der Regel keine genaue Auskunft darüber geben,
160
C. Maaß und G. Gräfe
welchen Wert die „Keyword density“ annehmen darf. Deshalb stehen die Entwickler bei der inhaltlichen Aufarbeitung und Optimierung von Webseiten vor einem Trade-off: Einerseits interpretieren Suchmaschinen eine hohe Dichte der Schlüsselwörter als Indikator für relevante Webseiten. Andererseits erachtet man einen zu hohen Wert der „Keyword density“ als Manipulationsversuch (Lexikon Suchmaschinenoptimierung 2006). Ein weiterer wichtiger anfrageabhängiger Einflussfaktor ist darin zu sehen, ob das betreffende Suchwort durch entsprechende HTML-Tags (Hypertext Markup Language) hervorgehoben wird. So werden z. B. die als Überschriften deklarierten Textteile höher als herkömmliche Textpassagen bewertet. Dem liegt die Annahme zugrunde, dass die in den Überschriften verwendeten Schlüsselwörter wichtige Seiteninhalte umschreiben und daher für die Beurteilung der inhaltlichen Relevanz der Seite besonders geeignet sind. Tab. 9.1 zeigt vor diesem Hintergrund die wichtigsten anfrageabhängigen Ranking- Faktoren im Überblick. Tab. 9.1 Anfrageabhängige Ranking Faktoren. (in Anlehnung an Lewandowski 2005) Ranking-Kriterium Dokumentspezifische Wortgewichtung (Keyword Density) Wortabstand
Erläuterung Relative Häufigkeit des Vorkommens eines Wortes in Abhängigkeit von der Anzahl der Wörter im gesamten Dokument Bei Anfragen mit mehreren Suchbegriffen wird im Text einer Webseite der Abstand der Suchbegriffe voneinander berücksichtigt Reihenfolge der Suchbegriffe bei In der Suchanfrage werden die am Beginn stehenden einer Suchanfrage mit mehreren Begriffe höher gewichtet als weiter hinten stehende Begriffen Be-griffe Metatags Vorkommen der Suchbegriffe in den Metatags einer Webseite Stellung der Suchbegriffe innerhalb Vorkommen der Suchbegriffe am Beginn eines Dokumentes des Dokumentes wird höher gewertet als späteres Auftreten Hervorhebung von Begriffen durch Hervorgehobene Begriffe (fett, kursiv) sowie HTML-Elemente Schlüsselwörter in den Überschriften und Seitentitel werden höher bewertet Groß-/Kleinschreibung Dokumente, in denen die Suchbegriffe in exakt der eingegebenen Form, inklusive der Groß- bzw. Kleinschreibung der einzelnen Zeichen des Wortes vorkommen, werden bevorzugt Inverse Dokumenthäufigkeit Relative Häufigkeit des Vorkommens eines Wortes in Dokumenten des gesamten Index; seltene Begriffe werden bevorzugt Ankertext Vorkommen der Suchbegriffe im Linktext eines Dokumentes, welches auf das Zieldokument verweist Sprache Dokumente, die in der Sprache des bei der Suchanfrage benutzen Länderinterfaces verfasst sind, werden höher bewertet Geo-Targeting Seiten, die ihren „Standort“ in der Nähe des Benutzers haben, werden bevorzugt
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, …
161
Ein grundlegendes Problem bei anfrageabhängigen Ranking-Faktoren ist darin zu sehen, dass algorithmenbasierte Suchmaschinen in der Regel nicht zwischen Synonymen (sinnverwandte Wörter) oder Homonymen (gleich lautende Wörter mit unterschiedlicher Bedeutung) im Zuge einer Recherche unterscheiden können. Folglich verweisen die Suchergebnislisten häufig auf vollkommen unterschiedliche Dokumente. So finden sich zu der Suchanfrage „Morgenstern“ z. B. Informationen zum gleichnamigen Schriftsteller, zu Himmelskörpern und zu mittelalterlichen Waffen – eine Bewertung bzw. Interpretation der Suchergebnisse in Bezug auf deren Inhalt wird insofern nicht vorgenommen. Daneben wird die Analyse der Informationen im Internet dadurch erschwert, dass zahlreiche Inhalte im Web nicht für Suchmaschinenroboter zugänglich sind. Das gilt zum einen für so genannte Rich Internet Applications. Dabei handelt es sich um Internet- Anwendungen, die von ihrer Handhabung her klassischen Desktop-Anwendungen ähneln und grundsätzlich sehr anwenderfreundlich sind. Allerdings sind die dort vorzufindenden Informationen in der Regel nicht im HTML-Text, sondern in einer separaten Datei gespeichert. Damit sind sie – wie das z. B. bei Flash-Anwendungen der Fall ist – für Suchmaschinen nicht zugänglich. Zum anderen bestehen bei der Indexierung von dynamischen Webseiten Probleme, da sie erst während des Seitenbesuchs für einen bestimmten Anwender generiert und zusammengestellt werden. Solche dynamischen Seiten sind vor allem bei Onlinehändlern vorzufinden. Dort werden die Inhalte einer Seite erst im Zuge des Besuchs einer Seite zusammengesetzt. Somit ist es für Suchmaschinenroboter nicht möglich, dynamisch generierte Webseiten ex-ante zu indizieren. Aus diesen Ausführungen geht hervor, dass bei anfrageabhängigen Ranking-Faktoren die Bedeutungsinhalte der Informationen nicht ausgewertet werden. Gleichzeitig haben sich anfrageabhängige Ranking-Faktoren als manipulationsanfällig erwiesen. Um diesen Problemen zu begegnen, werden daher in der Praxis anfrageabhängige und anfragunabhängige Ranking-Faktoren kombiniert.
9.2.3 Anfrageunabhängige Ranking-Kriterien Bei anfrageunabhängigen Ranking-Kriterien wird die Relevanz und Qualität einer Webseite unabhängig von der Suchanfrage beurteilt. Beispiele für diese Kriterien finden sich in Tab. 9.2. Dazu zählt z. B. die Seitengröße, deren Aktualität oder die Anzahl der Klicks der Nutzer auf ein bestimmtes Dokument. Im Vordergrund steht bei den anfrageunabhängigen Ranking-Kriterien die Analyse der Linkstruktur, um auf die allgemeine Relevanz und Qualität von Webseiten zu schließen. Dem liegt die Annahme zugrunde, dass auf relevante und qualitativ hochwertige Webseiten besonders viele Hyperlinks verweisen. Im Gegensatz dazu sind Seiten mit inferioren Inhalten häufig überhaupt nicht verlinkt. Nicht zuletzt aus diesem Grund haben vor allem kommerzielle Webseiten ein Interesse daran, auf möglichst vielen Seiten verlinkt zu sein, da in diesem Fall die Linkpopularität und damit auch die Platzierung auf den Suchergebnisseiten steigt. Neben verschiedenen legalen Möglichkeiten die Linkstruktur zu verbes-
162
C. Maaß und G. Gräfe
Tab. 9.2 Anfrageunabhängige Rankingfaktoren. (in Anlehnung an Lewandowski 2005) Ranking-Kriterium Erläuterung Verzeichnisebene Je höher das Dokument innerhalb der Hierarchie seiner Website steht, desto höher wird es bewertet Anzahl Je mehr Links auf das Dokument verweisen, desto bedeutender wird es eingehender Links angesehen Linkpopularität Der Wert für die Autorität/Qualität eines Dokumentes wird aufgrund der Verlinkungsstruktur berechnet. Links, die von Webseiten kommen, die diesen allgemeinen Kriterien entsprechend sehr wichtig sind, werden höher gewichtet als Links von weniger bedeutsamen Seiten Klickhäufigkeit Dokumente, die von vielen Benutzern einer Suchmaschine angesehen werden, nachdem die Suchmaschine diese Dokumente in ihre Suchergebnisliste präsentiert hat, werden höher bewertet Aktualität Aktuelle Dokumente werden höher bewertet als ältere. Der Suchmaschinenroboter berücksichtigt zu diesem Zweck das angegebene Datum des letzten Updates einer Webseite Dateiformat Dokumente im Standardformat HTML werden höher bewertet als solche in anderen Formaten (PDF, Word, usw.) Größe der Site Dokumente von umfangreichen Webangeboten werden höher bewertet als solche von kleinen Sites
sern, wird zu diesem Zweck jedoch häufig auf zweifelhafte Methoden und „Optimierungsmaßnahmen“ zurückgegriffen, die oft gegen die Richtlinien der Suchmaschinenbetreiber verstoßen. Die folgenden drei „Methoden“ sind dabei besonders häufig in der Praxis anzutreffen und führen bei Aufdeckung in der Regel zu negativen Bewertungen und/oder einem Ausschluss der Webseite aus dem Datenbestand von Suchmaschinen: • Linkfarmen • Doorway-Pages • Cloaking Bei Linkfarmen handelt es sich um Ansammlungen von Webseiten, auf denen gezielt zahlreiche Hyperlinks platziert werden, um auf die vorderen Plätze der Suchergebnisseite zu gelangen. Suchmaschinen können solche Linkfarmen in der Regel jedoch identifizieren und setzen bei einem Manipulationsverdacht die betreffenden Webseiten auf eine Sperrliste. Diese Seiten und ihre Links werden anschließend bei der Ermittlung eines Rankings nicht mehr berücksichtigt. Doorway-Pages werden auch als Brücken- oder Weiterleitungsseiten bezeichnet. Diese Seiten werden suchmaschinengerecht aufgearbeitet und verfügen in der Regel über keine Inhalte. Ihr Zweck besteht ausschließlich darin, möglichst hohe Platzierungen in den Trefferlisten zu erzielen. Dieses Ziel lässt sich bei Brückenseiten wesentlich einfacher als bei der Originalseite erreichen, da bei der Aufarbeitung des Quellcodes keine Rücksicht auf die Darstellung der Inhalte genommen werden muss. Aus diesem Grund ist es bei solchen Seiten relativ einfach, wesentlich mehr Schlüsselwörter und Hyperlinks als auf der Originalseite zu
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, …
163
platzieren. Klickt ein Anwender auf der Suchergebnisseite auf den Link solcher Brückenseiten, wird er automatisch auf die eigentliche Webseite weitergeleitet. Streng genommen ist darin jedoch ein irreführendes und wettbewerbswidriges Verhalten zu sehen, da den Anwendern durch die optimierte Seite falsche Inhalte vortäuscht werden. Ähnlich verhält es sich auch beim so genannten Cloaking. Hier versuchen die Betreiber von Webseiten durch spezielle Softwarelösungen auf dem Webserver des Seitenanbieters zu erkennen, ob es sich bei dem Besucher um Menschen oder Suchmaschinenroboter handelt. Letztgenannte werden dann auf eine für sie optimierte Seite weitergeleitet, auf der – analog den zuvor skizzierten Doorway-Pages – in der Regel zahlreiche Hyperlinks und ausgewählte Schlüsselwörter platziert werden. Aufgrund des Einsatzes solcher Techniken in Kombination mit Doorway-Pages wurde Anfang des Jahres 2006 das Unternehmen BMW kurzfristig aus dem Index der Suchmaschine Google gelöscht (Ihlenfeld 2006). Aus diesen Ausführungen geht hervor, dass auch anfrageunabhängige Ranking- Kriterien nur bedingt geeignet sind, um auf die Informationsqualität von Inhalten zu schließen. Die oben dargestellten Kriterien stellen keinen inhaltlichen Bezug zu der Suchanfrage her. Trotzdem haben sie eine große Bedeutung bei der Bewertung der Relevanz innerhalb einer Trefferliste. Mit semantischen Suchmaschinen wird nun der Anspruch erhoben, eine entsprechende inhaltliche Auswertung vorzunehmen und somit die Informationsqualität bei Suchanfragen im Internet zu erhöhen.
9.3
Semantisches Web und semantische Suchmaschinen
9.3.1 Vision und Grundlagen des semantischen Webs Mit dem semantischen Web wird die Vision einer um semantische Informationen angereicherten Version des World Wide Web verfolgt, um den Automatisierungsgrad bei der Verarbeitung von Wissen und damit auch die Informationsqualität im Zuge von Suchanfragen zu erhöhen: „The Semantic Web is not a separate Web but an extension of the current one, in which information is given well-defined meaning, better enabling computers and people to work in cooperation“ (Berners-Lee et al. 2001). Mit semantischen Informationen sind hier Metadaten gemeint, die die eigentlichen Inhalte in einem maschinenlesbaren Format beschreiben. Auf dieser Grundlage ist es denkbar, natürlichsprachige Fragen an das Web zu stellen und entsprechende Antworten zu erhalten (John 2006, S. 5). Im Gegensatz zu algorithmenbasierten Suchmaschinen würden Suchanfragen somit nicht anhand der Zeichenketten der Suchwörter oder struktureller Kriterien wie der Linkstruktur beurteilt. Vielmehr sollen semantische Suchmaschinen die Bedeutungsinhalte der indizierten Webseiten analysieren und mit diesen Informationen sehr viel genauer die relevanten Seiten für eine spezifische Suchanfrage in der Ergebnisliste präsentieren. Vor diesem Hintergrund stellt sich die Frage, auf welchem Wege Mensch und Computer ein gemeinsames Verständnis über ein bestimmtes Themengebiet und dessen
164
C. Maaß und G. Gräfe
Informationsinhalte aufbauen können. An dieser Stelle setzt die Diskussion um Ontologien an. Mit ihrer Entwicklung wird der Anspruch erhoben, ein gemeinsames Vokabular über einen bestimmten Ausschnitt der Realität zu bilden. Entsprechend führt Gruber aus: „An ontology is an explicit specification of a shared conceptualization“ (Gruber 1995). Um ein Verständnis für Ontologien zu entwickeln, ist es hilfreich, zunächst auf andere Formen der Wissensrepräsentation, wie z. B. Taxonomien und Thesauren einzugehen. Bei erstgenannten handelt es sich um kontrollierte Vokabulare mit hierarchischen Beziehungen untereinander. Im Beispiel in Abb. 9.1 ist die betrachtete Person zugleich Student und Akademiker. Darüber hinausgehende Zusammenhänge werden jedoch nicht erfasst. So lässt sich mit Hilfe einer Taxonomie z. B. nicht der Sachverhalt abbilden, dass es sich bei dem englischsprachigen Wort „Ph.D Student“ um ein Synonym für das Wort „Doktorand“ handelt. An dieser Stelle setzen Thesauren an, die neben der Kategorisierung auch die Abbildung von Zusammenhängen zwischen verschiedenen Begriffen über vordefinierte Relationen ermöglichen. Auf diesem Wege lassen sich Wörter mit unterschiedlicher Schreibweise oder unterschiedliche Begriffe mit ähnlicher Bedeutung in Verbindung bringen. Ein solcher Thesaurus wird beispielsweise auch in der Textverarbeitungssoftware Microsoft Word verwendet, um dem Autor Vorschläge für alternative Formulierungen zu unterbreiten. Analog dieser Vorgehensweise können Thesauren auch dazu verwendet werden, um sinnverwandte Wörter im Zuge von Suchanfragen zu berücksichtigen.
Abb. 9.1 Formen der Wissensrepräsentation im Überblick. (in Anlehnung an Ullrich et al. 2003, S. 8)
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, …
165
Sämtliche Eigenschaften von Taxonomien und Thesauren lassen sich auch durch Ontologien abbilden. Sie erfassen darüber hinaus die semantischen Zusammenhänge zwischen den verschiedenen Objekten. Ein solcher Zusammenhang besteht z. B. zwischen einem Autor und einem von ihm verfassten Text, der sich wiederum auf ein bestimmtes Thema bezieht (vgl. Abb. 9.1). Die wesentliche Stärke von Ontologien im Gegensatz zu anderen Formen der Wissensrepräsentation ist darin zu sehen, dass sie neues Wissen aus den vorhandenen Inhalten ableiten können. Dies setzt voraus, dass zuvor bestimmte Regeln (Relationen) spezifiziert werden, anhand derer mit Hilfe einer Ontologie automatisch logische Schlussfolgerungen gezogen werden können. Eine solche Regel auf abstraktem Niveau könnte z. B. lauten (vgl. Abb. 9.1): Wenn eine „Person“ ein „Dokument“ zu einem „Thema“ verfasst, kennt die „Person“ folglich dieses „Thema“. Aufgrund einer solchen Relation kann die Ontologie nun automatisch die Schlussfolgerung ziehen, dass Student A über Kenntnisse zum Thema Softwarelizenzierung verfügt, ohne dass dieser konkrete Sachverhalt irgendwo explizit dokumentiert ist. Mit dem semantischen Web wird somit der Brückenschlag „von einem Netz aus Verweisstrukturen zu einem Netz aus Inhaltsstrukturen vollzogen“ (Hansen und Neumann 2005, S. 508). Der zu erwartende Anstieg der Informationsqualität bei Suchanfragen ist bei der Verwendung von Ontologien vor allem darauf zurückzuführen, dass Inhalte automatisch strukturiert
Abb. 9.2 Steigende Informationsqualität durch semantische Verarbeitungsprozesse. (John 2006, S. 15)
166
C. Maaß und G. Gräfe
und in ein bestimmtes Modell der Wissensrepräsentation eingeordnet werden (vgl. Abb. 9.2). Auf dieser Grundlage ließen sich Suchanfragen realisieren, wie z. B. „Welche Personen verfügen über Kenntnisse zum Thema Softwarelizenzierung?“. Die in diesem Kontext bestehenden technischen Herausforderungen werden im weiteren Verlauf ausführlich behandelt.
9.3.2 Technische Grundlagen des semantischen Web Um im weiteren Verlauf die praktische Relevanz semantischer Suchmaschinen und deren Beitrag zur Verbesserung der Informationsqualität herausarbeiten zu können, gilt es zunächst auf die grundlegenden Standards für semantische Suchmaschinen einzugehen. Das ist auch insofern von Bedeutung, da das W3C (World Wide Web Consortium) zu diesem Zweck neue Standards entwickelt hat. Die vorhandenen Internetstandards genügten den besonderen Anforderungen in diesem Kontext nicht. So sind sie – wie z. B. die Auszeichnungssprache HTML – „lediglich“ darauf ausgerichtet zu spezifizieren, wie Inhalte von Webseiten im Webbrowser dargestellt werden sollen. Die Weiterverarbeitung dieser Informationen durch Maschinen ist nur sehr eingeschränkt möglich. An dieser Stelle setzt XML (Extensible Markup Language) an. Dieser Standard zielt auf die Erstellung von maschinen- und menschenlesbaren Dokumenten, wobei er in den letzten Jahren besonders als Datenaustauschformat an Bedeutung gewonnen hat. Allerdings lassen sich auf Basis von XML noch keine semantischen Informationen abbilden. Um diese Lücke zu schließen, wurde der RDF-Standard verabschiedet (Resource Description Framework), der auf einer XML-Syntax aufbaut und bei dem es sich vereinfacht ausgedrückt um eine Wissens- bzw. Repräsentationssprache handelt, die der Beschreibung von Inhalten auf Grundlage so genannter RDF-Tripples dient (Struckenschmidt und van Harmelen 2005). Ein solches Tripple besteht aus einem Subjekt, Prädikat und Objekt und ermöglicht es Maschinen, logische Schlüsse über die auf diesem Wege abgebildeten Zusammenhänge zwischen Subjekten und Objekten zu ziehen. Abb. 9.3 zeigt den Aufbau eines solchen RDF-Triples anhand eines konkreten Beispiels.
9.3.3 P roblemfelder und Herausforderungen im Bereich der semantischen Suche Wenngleich das Potenzial semantischer Suchmaschinen auf dem ersten Blick viel versprechend erscheint, konnten sie sich in der Praxis bislang noch nicht durchsetzen. Das liegt Subjekt (Ressource)
The secret agent
Abb. 9.3 Aufbau eines RDF-Triples
Prädikat (Eigenschaft)
is named
Objekt (Wert)
James Bond
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, …
167
unter anderem an dem hohen Modellierungsaufwand, der mit der Erstellung von Ontologien verbunden ist. In diesem Kontext wird weiterhin der geringe Standardisierungsgrad von RDF-Aussagen kritisiert (Diestelkamp und Birkenhake 2005). Während in HTML z. B. eindeutig definiert ist, dass es sich bei dem Tag um eine Überschrift ersten Grades handelt, findet die Interpretation einer RDF-Aussage erst während der Implementierung statt. Das W3C-Konsortium hat in diesem Zusammenhang nur generische Vorschriften gemacht. Ein weitaus größeres Problem ist jedoch darin zu sehen, dass die im Web vorzufindenden Dokumente zunächst mit Metainformationen angereichert und dann mit einer entsprechenden Ontologie verknüpft werden müssen, um semantische Suchanfragen realisieren zu können. In Anbetracht der rasanten Veränderungsgeschwindigkeit der im Web vorzufindenden Inhalte – pro Woche entstehen etwa 320 Mio. neue Webseiten (Lewandowski 2006) – bereitet das erhebliche Probleme. Grundsätzlich kann die Anreicherung der Inhalte automatisch oder manuell erfolgen. Im erstgenannten Fall werden Metadaten automatisch aus den Dateien extrahiert, wobei auf unterschiedliche technologische Verfahren zurückgegriffen wird. Ein Beispiel hierfür stellt die Analyse von Bilddateien aufgrund ihrer Farbzusammensetzung oder der Umrisse der gezeigten Motive dar, um auf diesem Wege ähnliche Inhalte zu identifizieren. Einen solchen Ansatz verfolgen z. B. die Bildersuchmaschine Retrievr (http://labs.systemone.at/ retrievr/). Verfahren aus dem Bereich des Text-Mining spielen in diesem Zusammenhang ebenfalls eine wichtige Rolle. Diese Verfahren beschäftigen sich mit der Verarbeitung und Auswertung von unstrukturierten Daten – z. B. in Form von Texten auf Webseiten – und nutzen linguistische Methoden der Spracherkennung. Diese Technologien sind jedoch bei weitem noch nicht ausgereift. Vielmehr besteht Einstimmigkeit darüber, dass eine automatische Auswertung der Informationsinhalte nur dann zufriedenstellende Ergebnisse liefert, wenn es um eine schnelle und ungenaue Einschätzung geht. „For applications that need near-perfect solutions, human analysts have to be involved to correct errors made by automatic techniques“ (Liu et al. 2005). An den gegenwärtigen Verfahren im Bereich des Text-Mining wird z. B. kritisiert, dass sie grammatikalische Unterschiede zwischen verschiedenen Sprachen außer Acht lassen. Auch ironische oder sarkastisch formulierte Sätze entziehen sich bislang der maschinellen Verarbeitbarkeit. In Anbetracht der Problemfelder bei der automatischen Extrahierung von Metadaten erstaunt es kaum, dass auch manuelle Verfahren der Metadatenanreicherung nach wie vor eine wichtige Rolle spielen. In diesem Fall werden die Inhalte durch die Anwender manuell ausgezeichnet. Sie verschlagworten („taggen“) und kommentieren die betreffenden Dateien, woraus ein Beziehungsnetzwerk aus Schlagwörtern und Inhalten entsteht. Eine solche Form der Auszeichnung ist auch für Web 2.0 Anwendungen typisch, bei denen die Anwender eigene Inhalte im Web veröffentlichen. Populäre Beispiele hierfür stellen z. B. Flickr (www.flickr.com) und YouTube (www.youtube.com) dar. Dabei werden jedoch keine hierarchischen Strukturen – wie z. B. bei einer Ontologie – zugrunde gelegt, wie bestimmte Themen zusammenhängen. Vielmehr können die Anwender eigene Tags vergeben, zwischen denen dann Relationen berechnet werden. Solche Relationen beziehen sich auf die Häufigkeit, mit der einzelne Begriffe in Kombination miteinander verwen-
168
C. Maaß und G. Gräfe
det wurden. Auf Basis dieser so genannten Folksonomies wird dann z. B. auf ähnliche Inhalte geschlossen. Diese Vorgehensweise hat den Vorteil, dass Tags die individuelle Sicht der Anwender erfassen. Allerdings führen unterschiedliche Schreibweisen und subjektive Kombinationen von Tags zu mehr oder weniger diffusen Folksonomies. Dies führt immer wieder zu Fehlern, wenn es z. B. um die Suche nach verwandten Themen und Inhalten geht. Um die hier skizzierten Probleme zu lösen, beschäftigt sich die Informatik gegenwärtig mit der Frage, inwieweit die beiden hier skizzierten Ansätze zusammengeführt werden können, um die Vorzüge semantischer Technologien mit den Ansätzen zur Annotierung von Inhalten im Web 2.0 zu kombinieren (Schuster und Rappold 2006, S. 197). Dabei geht es z. B. um die automatische Extrahierung von Metadaten, um das Tagging zu vereinfachen oder die Community in den Prozess der Ontologieentwicklung zu integrieren (Wu et al. 2006). Neben den nach wie vor gegebenen technischen Herausforderungen muss jedoch konstatiert werden, dass darüber hinaus noch ein wesentlich profaneres Problem besteht. So ist im Kontext semantischer Suchmaschinen eine erhebliche Gefahr darin zu sehen, dass es zu Manipulationsversuchen bei den Metadaten kommt, um eine bessere Platzierung in den Suchergebnislisten zu realisieren. Damit handelt es sich allerdings um kein spezielles Problem semantischer Suchmaschinen. So werden z. B. auch bei herkömmlichen Webseiten Metadaten in den Kopf von Webseiten integriert, die auch von „traditionellen“ Suchmaschinen ausgewertet werden. Allerdings kam es in diesem Zusammenhang in der Vergangenheit immer wieder zu Manipulationsversuchen, indem z. B. populäre Schlüsselwörter im Kopfelement der Webseite integriert wurden, um möglichst viele Anwender auf die Webseite zu kanalisieren. Das hat dazu geführt, dass diese Metadaten kaum noch von den führenden Suchmaschinen beachtet werden (Maaß und Scherm 2007). Aus dem gleichen Grund werden die Erfolgsaussichten semantischer Suchmaschinen in Frage gestellt, da sie im hohen Umfang auf qualitativ hochwertige Metadaten angewiesen sind: „Dem Missbrauch semantischer Informationen zur Förderung des Umsatzes von zweifelhaften Waren hat auch das Semantic Web nur wenig entgegenzusetzen. Aus dem Tag-Abuse in HTML wird RDF-Abuse“ (Diestelkamp und Birkenhake 2005).
9.4
Fazit und Ausblick
Im Unternehmenskontext wird seit geraumer Zeit über Themen wie das Datenqualitätsmanagement und verschiedene Ansatzpunkte zur Steigerung der Informationsqualität diskutiert. Die dabei eingesetzten Analysetools stoßen jedoch an ihre Grenzen, wenn es um die Datenauswertung in schwach strukturierten und offenen Netzwerken wie dem Internet geht. In so einem Kontext sind vielmehr algorithmenbasierte Suchmaschinen als zentrale Instrumente zur Befriedigung von Informationsbedürfnissen anzusehen. Das kommt vor allem in den großen Benutzerzahlen zum Ausdruck, die Suchmaschinen wie Google und Co. aufweisen. Das bedeutet allerdings nicht, dass solche Suchmaschinen automatisch
9 Suchmaschinen und Informationsqualität: Status quo, Problemfelder, …
169
Suchergebnisse mit einer hohen Informationsqualität generieren. Vielmehr muss diagnostiziert werden, dass die gegenwärtigen Suchtechnologien die semantische Bedeutung von Suchanfragen nicht interpretieren können. Somit wird das Poten-zial aller verfügbaren Inhalte im Internet, die zur Beantwortung einer Suchanfrage beitragen könnten, durch die bestehenden Technologien nicht annähernd ausgeschöpft. Erschwerend kommt hinzu, dass es regelmäßig zu Manipulationsver-suchen kommt, um die Sortierung der Suchergebnisseiten zu beeinflussen. Vor diesem Hintergrund wird seit geraumer Zeit über das Potenzial semantischer Suchmaschinen diskutiert, die zu einer Verbesserung des Status quo beitragen sollen. Im Zuge der Diskussion dieser Suchmaschinen stellte sich jedoch heraus, dass sie den hohen Erwartungen nur bedingt gerecht werden. Dieser Umstand ist vor allem darauf zurückzuführen, dass bislang nur wenige Inhalte im Web mit semantischen Informationen angereichert sind. Gleichzeitig fehlt es an allgemein akzeptierten Ontologien. Semantische Suchmaschinen – die das gesamte Web abdecken – erscheinen insofern noch in weiter Ferne. Das bedeutet aber nicht, dass semantische Technologien keinen Mehrwert bieten. So wiegen die oben skizzierten Probleme in einem klar abgrenzbaren Bereich – z. B. innerhalb eines Unternehmens – weitaus weniger problematisch, da die Anwender hier in der Regel ein gemeinsames Grundverständnis über einen bestimmten Ausschnitt der Realität haben und gleichzeitig nur auf ausgewählte Informationen angewiesen sind. In so einem Kontext gestaltet sich der Prozess der Ontologieentwicklung wesentlich einfacher, da es nur bestimmte Themen abzudecken gilt und häufig auch nur bestimmte Inhalte ausgewertet werden müssen. Folglich haben semantische Suchmaschinen in abgegrenzten Bereichen durchaus das Potenzial, zu einer Verbesserung des Status quo bei der Informationsrecherche beizutragen.
Literatur Berners-Lee, T./Hendler, J./Lassila, O.: The Semantic Web. In: Scientific American 284, 2001, Heft 5, S. 34–43. Diestelkamp, E./Birkenhake, B.: Die Semantic Web Ernüchterung. In: Magazin für Typo3 und Open Source Technologien, 2005. Förster, A./Kreuz, P.: Offensives Marketing im E-Business, Berlin, 2002. Gruber, T. R. (1995): Toward principles for the design of ontologies used for knowledge sharing. In: International Journal of Human-Computer-Studies, Vol. 43, 1995, Heft 5–6, S. 907–928. Hansen, H./Neumann, G.: Wirtschaftsinformatik 2, 9. Aufl., Stuttgart, 2005. Ihlenfeld, J.: Google setzt BMW vor die Tür. In: Golem – IT-News für Profis, URL: http://www. golem.de/0602/43155.html (Zugriff am 08.05.2007), 2006. John, M.: Semantische Technologien in der betriebswirtschaftlichen Praxis, Berlin, 2006. Lewandowski, D.: Web Information Retrieval: Technologien zur Informationssuche im Internet, Frankfurt am Main, 2005. Lewandowski, D.: Aktualität als erfolgskritischer Faktor beim Suchmaschinenmarketing. In: Information, Wissenschaft und Praxis, 57. Jg., 2006, Heft 3, S. 41–48.
170
C. Maaß und G. Gräfe
Lexikon Suchmaschinenoptimierung (2006), URL: http://www.lexikon-suchmaschinenoptimierung.de/k.htm (Zugriff am 08.05.2007). Liu, B./Hu, M./Cheng, J.: Opinion Observer: Analyzing and comparing opinions on the web. In: Proceedings of the 14th international World Wide Web conference, May 10–14, 2005, Chiba, Japan. Maaß, C./Scherm, E.: Suchmaschinen-Marketing – Ansatzpunkte und Stolpersteine. In: Das Wirtschaftsstudium 36. Jg. (2007), Nr. 6, S. 822–825. Machill, M./Welp, C.: Wegweiser im Netz, Gütersloh, 2003. Schulz, W./Held, T./Laudien, A.: Suchmaschinen als Gatekeeper in der öffentlichen Kommunikation, Düsseldorf, 2005. Schuster, M./Rappold, D.: Social Semantic Software – was soziale Dynamic im Semantic Web auslöst. In: Pellegrini, T./Blumauer, A. (Hrsg.): Semantic Web – Wege zur vernetzten Wissensgesellschaft, Berlin, 2006, S. 189–199. Struckenschmidt, H./van Harmelen, F.: Information sharing on the semantic web, Berlin, 2005. Ullrich, M./Maier, A./Angele, J.: Taxonomie, Thesaurus, Topic Map, Ontologie – ein Vergleich, Ontoprise White Paper, Karlsruhe, 2003. Wu, X./Zhang, L./Yu, Y.: Exploring social annotations for the semantic web. In: Proceedings of the 15th International Conference on World Wide Web, New York, 2006, S. 417–426.
Dr. Christian Maaß ist seit Anfang 2014 bei der Flyeralarm GmbH tätig. Er ist Chief Product Officer und verantwortet die Bereiche Produktentwicklung, eCommerce und Online Marketing. Vor seinem Einstieg bei Flyeralarm verantwortet er unter anderem den eCommerce Bereich von Bertelsmann sowie die Unternehmensentwicklung von Otto. Parallel zu seiner Berufstätigkeit hat Christian Maaß mehrere Bücher über Suchmaschinen, E-Business und Produktentwicklung in der Internetindustrie geschrieben. Er studierte und promovierte an den Universitäten in Chicago, Paderborn und Hagen. URL: www.flyeralarm.de. Dr. rer. pol. Gernot Gräfe hat an der FernUniversität Hagen und der Universität Paderborn Wirtschaftswissenschaften studiert und im Bereich des strategischen Marketings promoviert. Von 2001 bis 2004 arbeitete er als wissenschaftlicher Mitarbeiter der Universität Paderborn und von 2004 bis 2010 als Business Developer und Consulting Line Manager der Siemens AG im Cooperative Computing and Communication Laboratory (C-LAB). Dort beschäftigte sich Gernot Gräfe mit dem Thema der Informationsqualität in Entscheidungsprozessen. Dies umfasste private (Kauf-) Entscheidungen und auch unternehmerische (Investitions-) Entscheidungen. Besondere Berücksichtigung fand dabei der elektronische Informationsaustausch im Web 2.0. Seit 2010 ist Gernot Gräfe in den Geschäftsbereichen Siemens Smart Grid Services im Business Develop-ment und Siemens Energy Automation im Vertrieb tätig. In diesem Zusammenhang beschäftigt er sich unter anderem mit der Frage der Informationsqualität in Customer Relationship Management Systemen. URL: www.siemens.com.
Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
10
Gernot Gräfe und Christian Maaß
Beide Autoren haben Ihre Arbeiten zur Informationsqualität im Forschungsprojekt THESEUS fortgeführt, das unter dem Förderkennzeichen 01MQ07014 vom BMWi gefördert wurde.
10.1 Einleitung Bei Kauf- und Verkaufsentscheidungen ist das Internet eine bedeutende Informationsquelle für Anbieter und Nachfrager. Während Anbieter ihre Produkte und Dienstleistungen sehr gut kennen und dazu Informationen bereitstellen, sehen sich Nachfrager oft mit einem Informationsdefizit konfrontiert. Sie haben unvollständige Kenntnisse über die Anbieter, ihre Produkte, Preise und weitere Geschäftsbedingungen und informieren sich daher im Internet. Die unausgewogene Informationsverteilung zwischen beiden Parteien wird als Informationsasymmetrie bezeichnet (Kaas 1991, S. 360; Kleinaltenkamp 1992, S. 812; Rohrbach 1997, S. 49). Einige Autoren gehen aufgrund der zunehmenden Internetpenetration und den damit verbundenen Zugangsmöglichkeiten zu Informationen von einer verbesserten Markttransparenz aus (Gampenrieder und Riedmüller 2001, S. 178, 181; Meffert 1999, S. 412; North 1999, S. 15). Folgt man dieser These, müssten die Nachfrager im Internet nahezu vollständig G. Gräfe (*) Energy Management, Siemens AG, Nürnberg, Deutschland E-Mail: [email protected] C. Maaß Flyeralarm GmbH, Würzburg, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_10
171
172
G. Gräfe und C. Maaß
informiert sein und das Risiko informationsbedingter Fehlentscheidungen wäre gering. Dieser These stehen jedoch aktuelle Beobachtungen zur Qualität der Informationen im Internet entgegen. Auf der Verkäuferseite kommt es z. B. zu Manipulationsversuchen. Durch Optimierungen ihrer Webseiten beabsichtigen Verkäufer möglichst viele potenzielle Nachfrager auf die eigene Seite zu lenken (Maaß und Scherm 2007). Ein Beispiel hierfür stellt der Automobilbauer BMW dar, der Anfang des Jahres 2006 aufgrund von Manipulationsversuchen aus dem Index der Suchmaschine Google gestrichen wurde. Mit ähnlichen Problemen werden auch Online-Händler konfrontiert. Bei Amazon kommt es immer wieder zu Manipulationen von Kundenrezensionen, um den Verkauf bestimmter Bücher positiv zu beeinflussen oder die Produkte von Konkurrenten zu diffamieren (Merschmann 2007). Nachfrager suchen im Internet jedoch nach qualitativ hochwertigen Informationen, die zu einer guten Kaufentscheidung beitragen. Die tatsächliche Informationsqualität in einer Entscheidungssituation ergibt sich aus dem Verhalten der Informationsbereitsteller und -empfänger. Beide Parteien haben in diesem Zusammenhang einen großen Verhaltensspielraum. Insbesondere die Bereitsteller von Informationen können diesen Spielraum opportunistisch ausnutzen, um die Informationsasymmetrien zwischen ihnen und den Nachfragern zu erhöhen. Dies führt zu der grundlegenden Frage, inwieweit Informationen im Internet überhaupt Kaufentscheidungen unterstützen können, wenn die Anbieter von Informationen die Informationsqualität offenbar gezielt beeinflussen, um ihre eigenen Interessen durchzusetzen. Zur Beantwortung dieser Frage wird erörtert, anhand welcher Kriterien die Informationsqualität jeweils aus Sicht der Informationsbereitsteller und -empfänger zu beurteilen ist. Mit Hilfe der dabei identifizierten zwölf Informationsqualitätskriterien wird herausgestellt, inwieweit die Anbieter und Nachfrager die Informationsqualität beeinflussen können. Dies bietet eine konzeptionelle Grundlage, um die Besonderheiten des Internets beim Austausch von Informationen zwischen Anbietern und Nachfragern und damit dessen Potenzial zur Unterstützung von Kaufentscheidungsprozessen herauszuarbeiten.
10.2 Informationsqualität in Entscheidungsprozessen 10.2.1 Informationen und Kaufentscheidungen Informationen beeinflussen Entscheidungen. Unter Berücksichtigung des ökonomischen Prinzips beabsichtigen Akteure ihren Nutzen zu maximieren. Daraus ergibt sich für jede einzelne Entscheidung die Absicht, die bestmögliche Auswahl zu treffen. Als qualitativ hochwertig sollen somit die Informationen bezeichnet werden, die Entscheidungen verbessern. Es gilt daher den Zusammenhang zwischen Informationen und Entscheidungen zu betrachten (Abb. 10.1). Durch Interpretation wird eine aus Zeichen und Daten bestehende Nachricht zur Information. Durch die Einbindung der Information in den situativen Kontext, wird die Information zu einem Bestandteil des Wissens. Auf der Grundlage des Wissens trifft der Akteur eine Entscheidung, deren Ergebnis ein gewisser Nutzen ist.
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet Bereitsteller: -Form d. Bereitstellung Empfänger: -Zugriffsmöglichkeit -Interpretation
Nachricht (Zeichen&Daten)
Empfänger: -Neuigkeit -Glaubwürdigkeit
Bereitsteller: -Zeitpunkt d.Bereitstellung -Aktualität Empfänger: -Zeitpunkt des Zugriffs -Inhaltliche Relevanz
Information
Wissen
173
Bereitsteller: -Wahrheit des Informationsinhalts -Informationsumfang Empfänger: -Informationswert
Entscheidung
Nutzen
Abb. 10.1 Informations- und Entscheidungsprozess
In der Theorie sind vollkommene Märkte denkbar, in denen alle Parteien vollkommen informiert sind. In der Praxis sind unvollkommene Märkte die Regel. Sie sind daran zu erkennen, dass wegen unvollkommener Informationsübertragung für homogene Güter unterschiedliche Preise oder für Güter mit unterschiedlichen Qualitäten gleiche Preise bezahlt werden (Hopf 1983, S. 61). Als Ursache werden Probleme bei der Bewertung von Leistungsunterschieden betrachtet. Dabei handelt es sich um Informationsasymmetrien zwischen Anbietern und Nachfragern, die auch durch den oben idealtypisch skizzierten Informations- und Entscheidungsprozess nicht kompensiert werden können. Die Informationsasymmetrie ist in Abhängigkeit von den Eigenschaften der gehandelten Leistung unterschiedlich groß. In diesem Zusammenhang werden Such-, Erfahrungs- und Vertrauenseigenschaften einer Leistung unterschieden (Nelson 1970, 1974, S. 730; Darby und Karni 1973, S. 68 f.). Basis dieser Eigenschaftstypologie ist die Frage, zu welchem Zeitpunkt und in welchem Umfang die Bewertung der Leistungsmerkmale durch Kunden möglich ist bzw. von diesen vorgenommen wird. Die Sucheigenschaften einer Leistung sind vor dem Kauf feststellbar. Folglich kann ein potenzieller Kunde die Sucheigenschaften eines Kaufgegenstandes durch Inspektion selbstständig feststellen und Informationen des Anbieters zu diesen Eigenschaften überprüfen. Es besteht keine Informationsasymmetrie zwischen Anbieter und Nachfrager, wenn, und dabei handelt es sich um einen theoretischen Grenzfall, ein Gut ausschließlich durch Sucheigenschaften gekennzeichnet ist und der Nachfrager alle relevanten Informationen durch eine Inspektion des Kaufgegenstandes gewinnt. Sucheigenschaften sind z. B. die Qualität eines Stoffs oder die Stabilität eines Möbelstücks. So genannte Erfahrungseigenschaften einer Leistung lassen sich erst während oder nach der Nutzung beurteilen. Zeitlich gesehen erfolgt diese Feststellung erst nach dem Vertragsschluss. Falls eine Leistung ausschließlich durch Erfahrungseigenschaften gekennzeichnet ist, kann ein potenzieller Nachfrager vor einem Kauf keine eigenen Informationen sammeln. Erfahrungseigenschaften sind z. B. die Haltbarkeit eines Produktes oder der Geschmack eines Essens. Ausprägungen von Vertrauenseigenschaften sind vor und nach Vertragsschluss und Nutzung nicht oder nur zu prohibitiv hohen Kosten feststellbar. Aus diesem Grund können Nachfrager diese Leistungseigenschaften weder selbst ermitteln, noch Informationen über diese Eigenschaften überprüfen. Eine Vertrauenseigenschaft ist z. B. die Angabe eines Herstellers von Lebensmitteln, dass alle Zutaten aus biologischem Anbau stammen.
174
G. Gräfe und C. Maaß
10.2.2 Informationsqualitätskriterien Ausgangspunkt für die Herleitung von Informationsqualitätskriterien ist der vorgestellte Prozess aus Nachricht, Information, Wissen, Entscheidung und Nutzenstiftung der Entscheidung (Abb. 10.1). Damit eine Information zur Verbesserung einer Kaufentscheidung beitragen kann, muss dieser Prozess als Interaktion zwischen Anbieter und Nachfrager komplett durchlaufen werden. Demnach ist zur Identifizierung von Kriterien, die für die Informationsqualität Bedeutung haben, auf jeder Prozessstufe nach Merkmalen zu suchen, die für einen effektiven und effizienten Ablauf erforderlich sind. Diese Merkmale sind in Abb. 10.1 aufgeführt. Sie sind intuitiv verständlich und plausibel zu begründen.1 Von der Nachricht zur Information Damit der Informations- und Entscheidungsprozess zwischen einem Anbieter im Internet und einem potentiellen Nachfrager reibungslos verläuft, muss der Anbieter eine aus Zeichen und Daten bestehende Nachricht bereitstellen. Die Form der Bereitstellung ist ein bedeutsames Informationsqualitätskriterium, weil sich der Inhaber einer Information eben auch dafür entscheiden kann, bestimmte Informationen nicht oder nur eingeschränkt z. B. für bestimmte Benutzergruppen bereitzustellen. Die Bereitstellung von Informationen ist im Internet vergleichsweise günstig und technisch problemlos zu realisieren. Der potentielle Nachfrager muss eine Zugriffsmöglichkeit auf diese Nachricht haben. Hat der Nachfrager einen Internetzugang, so ist der infrastrukturelle Zugang zu Informationen im Internet einfach und günstig. Dies gilt besonders im Vergleich zu papierbasierten Informationsträgern. Einschränkungen gibt es eventuell durch Serverprobleme und falsche Links. Das größte Zugriffsproblem erwächst allerdings aus der erforderlichen Suche, wenn ein Nachfrager nicht weiß, wo eine bestimmte Information zu finden ist. Der Entscheider kann dann mit Suchmaschinen nach gewünschten Informationen suchen, wird aber sicherlich nicht alle zur Verfügung stehenden Informationen finden (Rese und Gräfe 2002, S. 334 f.). Außerdem können bei eingeschränkter Bereitstellung fehlende Zugriffsrechte dazu führen, dass Nutzer zu bestimmten Informationen keinen Zugang haben. Des Weiteren muss die Nachricht für den Nachfrager verständlich sein, sodass sie durch Interpretation tatsächlich zur Information wird. Dies macht deutlich, dass es für den Einsatz einer Information im Entscheidungsprozess von Bedeutung ist, dass eine Nachricht den Bedürfnissen und Fähigkeiten des Verwenders entspricht (Augustin 1990, S. 62). In dieser Hinsicht bietet die Informationsbereitstellung im Internet gute Möglichkeiten, um auf die individuellen Bedürfnisse einzugehen. Dazu trägt bei, dass das Internet im Vergleich zu anderen Medien eine Vielzahl von Darstellungsmöglichkeiten erlaubt und integrieren kann (z. B. grafische Animationen, Filme, Links zu anderen Seiten).
Zu einer ausführlichen Herleitung und Diskussion der folgenden Informationsqualitätskriterien (Gräfe 2005, S. 21–40).
1
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
175
Von der Information zum Wissen Damit die Information zum Wissen des Informationsempfängers beiträgt, muss die Information eine Neuigkeit für den Empfänger sein. Der (Neuheits-)Wert einer Information ergibt sich aus dem Grad der Abweichung vom Erwarteten (Rost 1989, S. 30). Darüber hinaus muss einem Nachfrager eine Information glaubwürdig erscheinen, damit er diese bei der Entscheidungsfindung berücksichtigt (Wathen und Burkell 2002, S. 134; Bovee et al. 2001, S. 315). Für die Abwägung der Glaubwürdigkeit sind sehr viele Kriterien denkbar (Abschn. 8.3.2). Unglaubwürdige Informationen werden von den Informationsempfängern im Entscheidungsprozess nicht berücksichtigt. Vom Wissen zur Entscheidung Damit das Wissen auch tatsächlich zur Entscheidungsfindung beitragen kann, muss der Zeitpunkt der Bereitstellung einer Information durch den Anbieter vor der Entscheidung des Nachfragers liegen. Zudem muss das Kriterium der Aktualität erfüllt sein. Die Aktualität bezieht sich auf die zeitliche Differenz zwischen der Informationsbeschreibung und dem Zeitpunkt, zu dem die Information zur Verfügung steht. Die Differenz darf in Abhängigkeit von der Entscheidungssituation nicht zu groß sein, damit die Information einen Beitrag zur Entscheidungsfindung leisten kann (Augustin 1990, S. 59). Eine nicht aktuelle Nachricht könnte zu einer Fehlentscheidung beitragen. Der Nachfrager muss die Möglichkeit nutzen, vor der Entscheidung auf die verfügbaren Informationen zuzugreifen. Nur wenn der Zeitpunkt des Zugriffs so gewählt ist, kann die Information zu einer besseren Entscheidungsfindung beitragen. Das Kriterium der inhaltlichen Relevanz bewertet, ob eine Information das Potenzial hat, eine Entscheidung zu beeinflussen. Damit das um eine Information erweiterte Wissen einen Beitrag zur Entscheidungsfindung leisten kann, muss die Information für den Nutzer relevant sein (Augustin 1990, S. 58; Snavely 1967, S. 227). Von der Entscheidung zum Nutzen Damit eine Entscheidung unter Berücksichtigung einer Information zu einem höheren Nutzen führt, muss das Kriterium der Wahrheit des Informationsinhalts erfüllt sein. Nur korrekte Informationen können die Entscheidungsqualität verbessern (Caldwell und O’Reilly III 1983, S. 200). Wahrheit wird an der Realität geprüft. Informationen, die nicht der Realität entsprechen, werden als falsch bezeichnet. Bei der Erörterung der Glaubwürdigkeit wurde das Kriterium der Wahrheit bewusst nicht berücksichtigt. Eine Nachricht muss nicht unbedingt richtig sein, um von Empfängern derselben als wahr empfunden, geglaubt und dann auch Bestandteil des Wissens zu werden. Daraus folgt, dass das Wissen, also die Summe der Vorstellungsinhalte, nicht unbedingt wahr sein muss. Der Nachfrager muss es ,nur‘ für wahr halten (Picot et al. 2001, S. 119 f.; Scheuble 1998, S. 12–14). Als Informationsempfänger wird der Nachfrager häufig nicht prüfen können, ob eine Information tatsächlich wahr ist oder nicht.
176
G. Gräfe und C. Maaß
Trotzdem ist die Wahrheit einer Information ein wichtiger Aspekt der Informationsqualität. Es gibt zur Kategorie der Wahrheit mehrere philosophische Ansätze. Gemäß der hier verwendeten Korrespondenztheorie der Wahrheit ist etwas wahr, wenn es dem entspricht oder mit dem übereinstimmt, über das eine Aussage getroffen wird (Russel 1966, S. 289; Scheuble 1998, S. 12, FN 6). Es wird somit gefordert, dass die Erkenntnis mit dem Erkenntnisobjekt korrespondiert. Zudem muss der Anbieter umfangreich über alle vermeintlich relevanten Eigenschaften informieren. Mit Informationsumfang ist nicht nur die Menge der bereitgestellten Informationen gemeint. Vielmehr wird erfasst, ob Informationsbereitsteller beabsichtigen, umfassend über alle vermutlich relevanten Sachverhalte zu informieren. Nicht umfassend informieren bedeutet, dass bewusst Informationen über Mängel verschwiegen werden. Genau in diesem Hinterfragen der Informationsabsicht liegt der Unterschied zum Kriterium Bereitstellung. Letzteres bezeichnet lediglich die Entscheidung über Informationsbereitstellung an sich. Taylor nennt dieses Informationsqualitätskriterium „comprehensiveness“ (Taylor 1986, S. 63). Verhaltenswissenschaftliche Untersuchungen haben ergeben, dass gezieltes Nichtbereitstellen von bestimmten Informationen Fehlentscheidungen der Nachfrager auslösen können, durch die der unvollständig informierende Anbieter profitiert (Kivetz und Simonson 2000; Slovic und MacPhillamy 1974). Als letztes Kriterium ist der Informationswert zu betrachten. „Da Information ein knappes Gut ist, sollte ihre Verwendung ökonomisch rational erfolgen“ (Picot et al. 2001, S. 69). Für die Nachfrager sollte demnach der Nutzen einer zusätzlichen Information größer sein als die damit verbundenen Kosten. Mit Informationsnutzen wird die Veränderung des Zielerreichungsgrades bezeichnet, die durch die Berücksichtigung einer zusätzlichen Information bei der Entscheidungsfindung herbeigeführt werden kann (Marschak 1960, S. 80; Wild 1971, S. 322 f.). Informationskosten entstehen durch die Suche, Beschaffung und Verwendung (Speicherung, Verarbeitung, Übermittlung) von Informationen im Vorfeld einer Entscheidungsfindung (Kortzfleisch 1973, S. 555). Es sind pagatorische Kosten, aber auch Zeit, Mühe und Opportunitätskosten aus denen sich die Informationskosten zusammensetzen (Kaas 1991, S. 358). Übersteigt der Informationsnutzen die Informationskosten ergibt sich ein positiver Informationswert. Wären die Informationskosten dagegen größer als der -nutzen (d. h. negativer Informationswert), dann hätte der Informations- und Entscheidungsprozess dazu beigetragen, dass die Nachfrager ein geringeres Nutzenniveau durch ihre Entscheidung realisieren.
10.3 Ursachen mangelnder Informationsqualität im Internet 10.3.1 Opportunistische Verhaltensspielräume der Anbieter Die hergeleiteten Informationsqualitätskriterien lassen sich entweder von den informationsbereitstellenden Anbietern (Tab. 10.1) beeinflussen oder betreffen die Qualitätswahrnehmung der informationsempfangenden Nachfrager (Tab. 10.2). In Tab. 10.1 sind die
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
177
Tab. 10.1 Informationsqualitätskriterien der Anbieter und ihre Ausprägungen IQ-Kriterien der Anbieter Form der Bereitstellung Zeitpunkt der Bereitstellung Aktualität Wahrheit des Informationsinhalts Informationsumfang
Verhaltensmöglichkeiten der Anbieter (Informationsbereitsteller) Allgemein Eingeschränkt Keine Vor der Ent. allgemein Aktuell
Vor der Ent. eingeschränkt Aktuell u. nicht aktuell Wahr u. beabsichtigt nicht interpretierbar
Wahr u. beabsichtigt interpretierbar Umfassend/ausgewogen
Nach der Entscheidung Nicht aktuell
Keine
Wahr u. beabsichtigt Falsch falsch interpretierbar Nicht umfassend/einseitig
Tab. 10.2 Informationsqualitätskriterien der Nachfrager und ihre Ausprägungen IQ-Kriterien der Nachfrager Zugriffs-möglichkeit Zeitpunkt des Zugriffs Interpretation Neuigkeit Glaubwürdig-keit Inhaltliche Relevanz Informationswert
Verhaltensmöglichkeiten der Nachfrager (Informationsempfänger) Zugriff Kein Zugriff Zugriff vor der Zugriff nach der Kein Zugriff Entscheidung Entscheidung Richtig Falsch Keine Vollkommen neu Bestätigend oder Vollkommen widersprüchlich bekannt Glaubwürdig Nicht glaubwürdig Inhaltlich relevant Inhaltlich nicht relevant Positiv (Nutzen > Negativ (Nutzen < Kosten) Kosten)
Kriterien aufgelistet, die durch Bereitsteller beeinflusst werden. Für jedes Kriterium sind dort zudem die Ausprägungen aufgeführt, die das jeweilige Merkmal annehmen kann. Die Sortierung der Ausprägungen orientiert sich daran, ob Bereitsteller ihre Nachfrager tatsächlich informieren oder eher täuschen. Anbieter entscheiden über die Form der Bereitstellung von Informationen. Sie bestimmen inwiefern sie Informationen allgemein, eingeschränkt oder nicht bereitstellen. Im Internet ist es einfach möglich, Informationen allgemein zugänglich oder aber eingeschränkt bereitzustellen. Eine Einschränkung erfolgt beispielsweise, wenn der Zugang zu bestimmten Informationen durch Passwörter geschützt ist. Die unüberschaubar große und weiter wachsende Menge an Informationen im Internet unterstreicht die grundsätzliche Bereitschaft der Nutzer zur Informationsbereitstellung. Neben vergleichsweise geringen Kosten für die Präsentation von Informationen im Internet sind die Multimedialität und die globale Präsenz weitere Eigenschaften der Informationsbereitstellung im Internet. Je größer ein Anbieter die Wahrscheinlichkeit einschätzt, mit dem Informationsangebot neue Kunden zu gewinnen, desto mehr wird dieser Anbieter in seinen Internetauftritt investieren.
178
G. Gräfe und C. Maaß
Die Bereitstellungsentscheidung umfasst auch den Zeitpunkt der Bereitstellung von Informationen. Anbieter können sich dafür entscheiden, bestimmte Informationen erst dann bereitzustellen, wenn die Nachfrager bereits ihre Kaufentscheidungen getroffen haben. Beabsichtigen Anbieter Informationen schnellstmöglich bereitzustellen, so ist das Internet dafür ein gutes Medium. Bereitgestellte Informationen sind binnen Sekunden weltweit verfügbar. Deshalb dürfte auch die Aktualität der verfügbaren Informationen zumindest technisch keine Probleme bereiten. Die Geschwindigkeit der Informationsverbreitung im Internet erlaubt eine hohe Aktualität der verfügbaren Informationen. Trotzdem lassen sich dort sehr viele veraltete Informationen finden (Kuri 2004). Anbieter können grundsätzlich aktuelle und veraltete Informationen bereitstellen. Sie haben die Möglichkeit veraltete Informationen durch aktuelle auszutauschen oder aber von vorn herein nur veraltete Informationen anzubieten. Erschwerend kommt hinzu, dass die Feststellung der Aktualität einer Internetseite oftmals schwieriger ist als bei traditionellen Informationsquellen, da bereits das Veröffentlichungsdatum häufig nicht erkennbar ist (Alexander und Tate 1999, S. 14; Kuri 2004). Das Kriterium Wahrheit des Informationsinhalts bietet für Anbieter einen großen opportunistischen Handlungsspielraum. Sie können wahr und beabsichtigt interpretierbar aber auch wahr und beabsichtigt nicht interpretierbar informieren. Letzteres würde bedeuten, dass z. B. bestimmte Informationen im Kleingedruckten versteckt werden. Wahr und beabsichtigt falsch interpretierbar zu informieren kann z. B. durch die Informationsdarstellung erreicht werden. Experimente zeigen, dass der objektiv gleiche Sachverhalt allein durch die Darstellungsweise sehr unterschiedlich wahrgenommen werden kann (Tversky und Kahneman 1974, S. 1128 f.). Es handelt sich nicht um individuelle, sondern um systematische Wahrnehmungsverzerrungen (Tversky und Kahneman 1981, S. 457). Diese so genannten Framing-Effekte können Anbieter vorhersehen und deshalb zu ihrem Vorteil einsetzen (Bell et al. 1988, S. 15). Somit können sie richtig informieren, aber gleichzeitig das Ziel verfolgen, dass Nachfrager diese Informationen falsch interpretieren und eine Fehlentscheidung treffen. Als letzte Verhaltensmöglichkeit können die Anbieter falsch informieren. Kommt es zur Bereitstellung von falschen Informationen, verbinden Anbieter damit die Hoffnung, im Vergleich zu anderen Wettbewerbern für die Nachfrager als der vorteilhaftere Transaktionspartner zu erscheinen. Dieser potenzielle Vorteil ist den Gefahren und Konsequenzen einer möglichen Entdeckung gegenüberzustellen. Konsequenzen entstehen dann, wenn Nachfrager falsche Informationen erkennen sollten und sich deshalb gegen eine Transaktion mit dem Anbieter entscheiden und ihre Entdeckung eventuell sogar anderen Nachfragern mitteilen. Möglicherweise stellen sich auch rechtliche Konsequenzen ein. Immerhin gibt es rechtliche Vorschriften für die Informationsbereitstellung im traditionellen Handel und auch im Internet. Informationen sind im Internet jedoch flüchtig und leicht austauschbar (Alexander und Tate 1999, S. 16). Deshalb ist es schwierig, die Bereitstellung von falschen Informationen zu beweisen, wenn Anbieter in der Zwischenzeit die Internetseiten geändert haben.2 Häufige Fehler bei der Informationsbereitstellung von Onlinehändlern betreffen fehlende oder unvollständige nachvertragliche Informationen (Lau 2003). Ein Test bei acht bekannten Onlinehänd2
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
179
Darüber hinaus können Anbieter im Internet umfassend und ausgewogen oder aber nicht umfassend und einseitig informieren. Mit dem Informationsumfang nehmen Anbieter zusätzlich Einfluss auf das Entscheidungsverhalten der Nachfrager. Anbieter werden über die Merkmale ihres Angebotes, bei denen sie Vorteile im Wettbewerb vermuten, möglichst umfassend informieren. Bei Merkmalen, die für einen Anbieter im Vergleich mit Wettbewerbern eher einen Nachteil darstellen, wird dieser vermutlich keine oder nur wenige Informationen zur Verfügung stellen. Durch dieses Informationsverhalten können die Anbieter großen Einfluss auf das Entscheidungsverhalten der Nachfrager nehmen (Kivetz und Simonson 2000, S. 443 f.; Slovic und MacPhillamy 1974). Zusammenfassend können zwei Fälle unterschieden werden: Anbieter mit Informationsabsicht wollen im Sinne einer ehrlichen Informationsbereitstellung interpretierbare und wahre Informationen allgemein zugänglich zur Verfügung stellen. Hingegen beabsichtigen Anbieter durch falsche, nicht aktuelle oder keine Informationsbereitstellung Desinformation. Sie versuchen durch die Zurückhaltung von Informationen oder die Bereitstellung von falschen Informationen Vorteile zu erlangen.
10.3.2 Informationsqualität aus der Nachfragerperspektive In Tab. 10.2 sind die Informationsqualitätskriterien aufgeführt, die die Qualitätswahrnehmung der Nachfrager beeinflussen. Jedes Kriterium kann unterschiedliche Ausprägungen annehmen. Links bzw. rechts stehen jeweils die Ausprägungen, die in der Wahrnehmung der Nachfrager die Informationsqualität hoch bzw. gering erscheinen lassen. Das Kriterium der Glaubwürdigkeit hat in der Tab. 10.2 die größte Bedeutung. Dieses Kriterium ist eine Art Filter, mit dem sich Nachfrager vor dem Einfluss von falschen Informationen schützen. Bei Sucheigenschaften ist die Gefahr von falschen Informationen über diese Eigenschaften gering, da die Nachfrager die Gütereigenschaften vor dem Kauf überprüfen können. Glaubwürdigkeit ist immer dann wichtig, wenn Nachfrager die Richtigkeit einer Information nicht selbstständig verifizieren können. Mangelnde Glaubwürdigkeit betrifft daher hauptsächlich Informationen über Erfahrungs- und Vertrauenseigenschaften einer Leistung. Nachfrager können falsche Informationen über Erfahrungseigenschaften erst nach dem Kauf erkennen. Falsche Informationen über Vertrauenseigenschaften werden selbst nach dem Kauf nicht aufgedeckt. Herausgefilterte unglaubwürdige Informationen werden von Nachfragern nicht berücksichtigt und nehmen deshalb keinen Einfluss auf das Entscheidungsverhalten (Wathen und Burkell 2002, S. 134). Die Bewertung von Informationen und deren Glaubwürdigkeitsbeurteilung ist schwierig, da Informationen selbst den Charakter von Erfahrungseigenschaften haben (Bacharach und Board 2000, S. 5; Hopf 1983, S. 75; Picot et al. 2001, S. 69). lern und vier Versand- und Kaufhäusern zeigte, dass alle Anbieter z. B. bei der Informationsbereitstellung im Internet gegen Vorschriften des Gesetzes zur Regelung des Rechts der Allgemeinen Geschäftsbedingungen verstießen (Stiftung Warentest 2003, S. 57).
180
G. Gräfe und C. Maaß
Beispielsweise stellt sich oft erst nach einer Entscheidung heraus, ob die dabei verwendeten Informationen qualitativ hochwertig waren oder aber zu einer Fehlentscheidung beigetragen haben. Als konkrete Kriterien zur Beurteilung der Glaubwürdigkeit einer Information werden Thema, Inhalt, Titel, Konsistenz, interne Validität, Plausibilität der Argumente und die Argumentation mit Zahlen und Beispielen genannt (Rieh 2002, S. 154; Wathen und Burkell 2002, S. 136). Mit steigender Expertise des informationsempfangenden Nachfragers zu einem bestimmten Thema, steigt die Wahrscheinlichkeit und Fähigkeit Informationen fachlich begründet als (nicht) glaubwürdig zu bewerten (Olaisen 1990, S. 94; Tseng und Fogg 1999, S. 43). Bei Texten sind z. B. Autor, Verlag und das Wissen über Rezensionsprozesse entsprechende Merkmale zur Beurteilung (Olaisen 1990, S. 95; Rieh 2002, S. 146). In einer anderen Untersuchung wird festgestellt, dass die Merkmale Herkunft, Objektivierbarkeit, Generierungsmodus, Form, Alter und Zeitbezug Einfluss auf die Akzeptanz- bzw. Glaubwürdigkeitsbeurteilung haben (Grotz-Martin 1983, S. 154–171). Wichtige Merkmale einer Informationsquelle im Internet sind Art der URL Domäne, Art und Reputation der Quelle und Ansehen des Autors (Rieh 2002, S. 154). Allerdings ist es trotz der Pflicht zur Anbieterkennzeichung (Impressumspflicht) im Internet oft schwierig herauszufinden und zu überprüfen, wer der Autor eines bestimmten Dokuments ist (Alexander und Tate 1999, S. 7, 11). Häufig wird der Autor eines Dokuments nicht genannt. Das Gleiche gilt für die Identität der Betreiber einer Webseite und die Absichten ihrer Informationsbereitstellung (Alexander und Tate 1999, S. 18, 26). Dies erhöht die Unglaubwürdigkeit der Informationen im Internet, da Nachfrager nicht überprüfen können, ob bestimmte Informationen herstellerunabhängig sind. Die Diskussion des Kriteriums Glaubwürdigkeit zeigt, wie schwierig dieses für informationssuchende Nachfrager zu bewerten ist. Für sie besteht die Gefahr von Fehleinschätzungen. Bei den verbleibenden Informationsqualitätskriterien der Nachfragerperspektive sind die Handlungsspielräume für die Informationsempfänger kleiner. Aus diesem Grund ist auch die Gefahr von Fehlverhalten im Umgang mit diesen Kriterien geringer. Die Zugriffsmöglichkeit auf eine Information und auch der Zeitpunkt des Zugriffs vor der Entscheidung sind Kriterien, die erfüllt sein müssen, damit Informationen im Entscheidungsprozess berücksichtigt werden können. In Abhängigkeit davon, welche Informationen insgesamt zur Verfügung stehen, wird die Menge der zugreifbaren Informationen variieren. In Bezug auf die Interpretation ist fraglich, ob Informationsverwender die verfügbaren Informationen richtig interpretieren. Es besteht die Möglichkeit, dass Anbieter gezielt versuchen, Fehlinterpretationen durch die Art der Informationsbereitstellung hervorzurufen. Bekannt sind im Internet z. B. die Angebote von Originalverpackungen ohne Inhalt bei eBay. Dabei soll durch die Formulierung oder ausschließlich durch die Verwendung von OVP als Abkürzung zusätzlich zur Produktbezeichnung beim Käufer der Eindruck entstehen, dass es sich um einen originalverpackten Artikel handelt. Tatsächlich wird aber nur die Verpackung angeboten (Kossel 2004, S. 91; Mielke 2004, S. 98).
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
181
Beim Merkmal der Neuigkeit besteht nicht die Gefahr, dass sich Informationsempfänger falsch verhalten. Sofern eine Information neue Aspekte beinhaltet, könnte es vorteilhaft sein, diese Information bei der Entscheidungsfindung zu berücksichtigen. Beinhaltet die Information dagegen keine neuen Aspekte, kann sie vernachlässigt werden. Eine Bewertung des Kriteriums inhaltliche Relevanz sollte sich an den Nutzenvorstellungen der Nachfrager orientieren. Durch eine hohe Bedeutung in der Nutzenvorstellung erhält eine bestimmte Eigenschaft eines Produktes bzw. die Information darüber ihre Relevanz in der Entscheidungssituation. Nur relevante Informationen sollten bei der Entscheidungsfindung berücksichtigt werden. Eine experimentelle Studie kommt zu diesem Ergebnis: Informationen mit sinkender Relevanz haben abnehmenden Einfluss auf die Beurteilung von Alternativen, sodass von einer Diskontierung der irrelevanten Informationen gesprochen werden kann (Beach et al. 1978, S. 6–9, 13).3 Andere Studien zeigen allerdings, dass vorhandene irrelevante Informationen in einer Entscheidungssituation die Entscheidungsqualität verringern können (Manis et al. 1978) und dass kein positiver Zusammenhang von Informationsrelevanz und Entscheidungsqualität besteht (Streufert 1973, S. 225). Porat & Haas finden dagegen einen solchen positiven Zusammenhang zwischen relevanten Informationen und der Entscheidungsqualität (Porat und Haas 1969, S. 102). Diese unterschiedlichen Ergebnisse können auf Schwierigkeiten bei der Verarbeitung einer erhöhten Menge von relevanten Informationen in unterschiedlichen Entscheidungssituationen zurückgeführt werden. Hinweise auf die große Informationsmenge im Internet sind in Bezug auf die Relevanz differenziert zu bewerten. Die reine Informationsmenge lässt nicht darauf schließen, inwieweit mit der Menge automatisch die Anzahl der relevanten Informationen wächst. Die inhaltliche Relevanz kann im Internet durch kundenindividuelle (Informations-) Angebote erhöht werden. Diese Personalisierung von Informationen wird durch die Zwei-Wege- Kommunikation im Internet möglich (Dastani 1998, S. 233; Merz 1999, S. 98; Shapiro und Varian 1999, S. 34). Oftmals können Nutzer eigene Profile anlegen und dort ihre Interessen eintragen, um dann zukünftig Informationen zu diesen Themen zu erhalten. Darüber hinaus kann der Nutzer selbstständig im Internet navigieren, um gezielt nach relevanten Informationen zu suchen. Allerdings wurde bereits darauf hingewiesen, dass das Finden von relevanten Informationen Schwierigkeiten bereitet. Abschließend ist das Kriterium Informationswert aus der Perspektive der Nachfrager zu interpretieren. Ein positiver Informationswert entsteht, wenn die Kosten der Informationsbeschaffung geringer sind als der Nutzenzuwachs durch die Berücksichtigung einer Information bei der Entscheidungsfindung. Allerdings ist eine Bewertung des Informationswertes bereits vor der eigentlichen Informationsnutzung kaum möglich. Für das Internet wird festgestellt, dass die Informationskosten sinken (Biswas 2004, S. 727). Dadurch werden Nachfrager im Internet mehr Informationen beschaffen und bei ihren Entschei Dieses kann als Hinweis verstanden werden, dass inhaltliche Relevanz auf einem Kontinuum zwischen relevant und nicht relevant abgebildet werden sollte. Die dichotome Unterscheidung zwischen „relevant“ und „nicht relevant“ in Tab. 10.2 ist demnach eine starke Vereinfachung.
3
182
G. Gräfe und C. Maaß
dungen berücksichtigen. Allerdings wächst mit der Größe der verfügbaren Informationsmenge tendenziell die Schwierigkeit, Informationen zu identifizieren, die alle zuvor genannten Qualitätskriterien erfüllen (Morehead und Rouse 1985, S. 392; Ruthven et al. 2003). Dadurch kann selbst bei sinkenden Informationskosten im Internet nicht davon ausgegangen werden, dass die Informationsbeschaffung kostenlos ist. Die Diskussion der einzelnen Kriterien macht deutlich, dass insbesondere das Kriterium der Glaubwürdigkeit für die Qualitätsbeurteilung der Nachfrager wichtig ist. Der nächste Abschnitt wird zeigen, dass diese Feststellung zusätzliche Bedeutung erhält, weil gerade bei der Informationsbereitstellung im Internet ein Glaubwürdigkeitsdefizit festzustellen ist.
10.3.3 Gründe für Opportunismus im Internet 10.3.3.1 Das strategische Kalkül der Anbieter Als Bestandteil ihrer Vertriebsaktivitäten werden Anbieter Informationen bereitstellen. Sie müssen sich in den entsprechenden Käufermärkten bekannt machen und als möglichst attraktive Transaktionspartner darstellen (Kleinaltenkamp 1992, S. 818; Raffée 1969, S. 105; Hilke 1989, S. 39; Nelson 1974, S. 729). Das Ziel der Informationsbereitstellung ist der Abschluss einer Transaktion. Anbieter werden mit gezielter Informationsgabe versuchen, die Kaufentscheidung der Konsumenten zu beeinflussen, um den eigenen Erfolg zu erhöhen (Kivetz und Simonson 2000, S. 428 f.). Bestehende Informationsdefizite der Nachfrager sind in diesem Zusammenhang für die meisten Anbieter von Vorteil. Überwiegend sind Anbieter nicht an vollständiger Markttransparenz interessiert, was besonders für solche gilt, die im direkten Leistungsvergleich mit anderen Wettbewerbern unterlegen sind (Raffée 1969, S. 105 f.). Im Wettbewerb wird nur der Anbieter mit dem objektiv besten Angebot an vollständiger Markttransparenz interessiert sein. Im Rahmen der Informationsgabe entscheiden die Anbieter darüber, welche Informationen sie zur Verfügung stellen. Anbieter werden Vor- und Nachteile verschiedener Informationsstrategien abwägen, um die für sich nutzenmaximierende Alternative auszuwählen. Bei der Informationsbereitstellung ist vor dem Hintergrund einer asymmetrischen Informationsverteilung mit opportunistischem Verhalten der Anbieter gegenüber den Nachfragern zu rechnen (Kaas 1991, S. 358; Kaas 1992, S. 889 f.).4 Bei asymmetrischer Informationsverteilung können Anbieter darauf hoffen, dass opportunistisches Verhalten von den schlechter informierten Nachfragern nicht erkannt wird. Konkret bedeutet dies, dass für Anbieter ein Anreiz bestehen kann, falsch zu informieren (Hopf 1983, S. 76) bzw. Informationen schlechter Qualität bereitzustellen. Wegen der grundsätzlichen Beobachtbarkeit von Sucheigenschaften besteht in Bezug auf diese Eigenschaften zwischen Anbietern und Nachfragern keine unüberwindbare Informati Opportunistisches Verhalten bedeutet, dass ein Akteur seine eigenen Interessen mit List und Tücke verfolgt (Williamson 1985, S. 47). 4
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
183
onsasymmetrie. Nachfrager können grundsätzlich alle Informationen einholen, die sie über Sucheigenschaften benötigen, wobei dies im Internet nur für digitalisierbare Sucheigenschaften gilt. Möglicherweise beschaffen Nachfrager auf Grund von Informationskosten nicht alle inspizierbaren Informationen. Daraus resultiert zwar eine Informationsasymmetrie, die aber von Anbietern nur schwer opportunistisch ausgenutzt werden kann. Sie können nicht mit Sicherheit vorhersehen, welche Informationen Nachfrager beschaffen und wo möglicherweise Informationsasymmetrien entstehen. Deshalb ist nicht zu erwarten, dass Anbieter über Sucheigenschaften falsch informieren. Die Gefahr der Aufdeckung wäre zu hoch und würde eher zum Nachteil der Anbieter sein (Ford et al. 1990, S. 434; Nelson 1974, S. 730). Bei Erfahrungseigenschaften besteht vor dem Kauf eine Informationsasymmetrie zwischen Anbietern und Nachfrager, die sich erst durch die Überprüfung nach der Transaktion reduziert. Bei Vertrauenseigenschaften bleibt diese Informationsasymmetrie auch nach dem Kauf bestehen. Demnach würde eine opportunistische Informationsbereitstellung der Anbieter von den Nachfragern im Falle von Erfahrungseigenschaften erst nach dem Kauf bzw. bei Vetrauenseigenschaften überhaupt nicht erkannt. Vor diesem Hintergrund ist die Wahrscheinlichkeit einer falschen Informationsbereitstellung durch die Anbieter bei Erfahrungs- und Vertrauenseigenschaften höher als bei Sucheigenschaften. Diese Feststellung hat Konsequenzen für den Informationsaustausch im Internet.
10.3.3.2 D er Wandel von Sucheigenschaften zu Erfahrungseigenschaften Im Gegensatz zur Produktpräsentation in einem Geschäft ist das Internet auf eine audiovisuelle Darstellung beschränkt. Im Internet stehen daher (nur) digitale Repräsentationen eines Produktes zur Verfügung. Für die meisten physischen Güter gilt, dass sie aus Such-, Erfahrungs- und Vertrauenseigenschaften bestehen, die nicht digitalisierbar sind (Illik 1998, S. 16). Ursache dafür sind die technischen Gegebenheiten. Demnach hat die Produktpräsentation im Internet den Nachteil, dass eine direkte Bemusterung und Inspektion bei vielen Produkteigenschaften nicht möglich ist, sodass sich der Nachfrager auf die virtuelle Darstellung des Anbieters verlassen muss (Biswas 2004, S. 728; Rohrbach 1997, S. 79, 86 f.). Sucheigenschaften wurden aber zuvor als solche bezeichnet, weil sie vor dem Kauf direkt am Objekt überprüft werden können. Deshalb können falsche Informationen zu Sucheigenschaften bereits vor einer Kaufentscheidung aufgedeckt werden. Aus der Produktpräsentation im Internet folgt hingegen, dass nichtdigitalisierbare Sucheigenschaften nicht durch persönliche Inspektion der Nachfrager verifiziert werden können. Falls ihnen Informationen über Sucheigenschaften zur Verfügung gestellt werden, die sie bei der Abwicklung einer Transaktion im Internet aber erst nach dem Kauf überprüfen können, nehmen diese Eigenschaften die Merkmale von Erfahrungseigenschaften an (Gräfe 2003, S. 142; Petrovic et al. 2003, S. 56; Rese und Gräfe 2002, S. 341 f.; Rohrbach 1997, S. 196). Die Informationsasymmetrie zwischen Anbietern und Nachfragern in Bezug auf nichtdigitalisierbare Sucheigenschaften im Internet steigt. Daraus ergibt sich, dass im Internet Erfahrungseigenschaften eine dominante Rolle spielen.
184
G. Gräfe und C. Maaß
Dem strategischen Kalkül der Anbieter folgend (s. o.) unterscheidet sich der Austausch von Informationen zu Erfahrungseigenschaften wesentlich von Situationen, in denen Nachfrager Informationen vor einer Transaktionsentscheidung überprüfen können. Falsche Informationen, die zu Erfahrungseigenschaften bereitgestellt werden, können Nachfrager erst nach Abschluss einer Transaktion erkennen. Nachfrager werden deshalb die Glaubwürdigkeit der Informationen abwägen. Die Diskussion des Informationsqualitätskriteriums Glaubwürdigkeit hat jedoch die Schwierigkeiten aufgezeigt, die Nachfrager bei dieser Beurteilung haben. Daher kann die Bereitstellung von falschen Informationen für opportunistisch agierende Anbieter vorteilhaft sein. Sie können durch die Bereitstellung solcher Informationen eventuell einen ungerechtfertigten Vorteil im Wettbewerb erreichen. Die Chancen dafür sind im Internet höher als im traditionellen Handel.
10.3.3.3 Weitere Besonderheiten im Internet Neben dem Wandel von Such- zu Erfahrungseigenschaften gibt es weitere Gründe, die opportunistisches Verhalten im Internet fördern. Im Vergleich zum traditionellen Handel ist für Nachfrager die Rechtsunsicherheit im Internet höher, die Beratungsmöglichkeiten sind begrenzt und es gibt keinen persönlichen Kontakt zwischen Anbietern und Nachfragern (Schmalen 2001, S. 473 f.). Es gibt zwar institutionelle Reglementierungen, die zur Anpassung an die aktuellen Entwicklungen im Internet auch verändert werden (Clay und Strauss 2002, S. 246; Petrovic et al. 2003, S. 53). Durch langwierige Gesetzgebungsverfahren entstehen dabei aber immer wieder Lücken. Die Wirkung von gesetzlichen Regelungen ist zudem zwiespältig. Nelson macht dies an gesetzlichen Regelungen zu betrügerischer Werbung deutlich (Nelson 1974, S. 749). Ohne ein Gesetz zum Verbot von falschen Aussagen würde kein Verbraucher den Anbieterinformationen Glauben schenken. Da Gesetze Falschaussagen verbieten, vertrauen Verbraucher den Anbieterinformationen und erst dadurch entsteht für Anbieter der Anreiz, sich durch Falschaussagen einen Vorteil im Wettbewerb zu verschaffen und die Nachfrager zu täuschen. Nur wenn die Strafandrohungen für Gesetzesverstöße so hoch sind, dass selbst solche Anbieter vor falschen Aussagen zurückschrecken, die von einer geringen Aufdeckungswahrscheinlichkeit ausgehen, dann erfüllen die Gesetze effektiv ihren Zweck (Nelson 1974, S. 749). Zudem ist die praktische Anwendung von Gesetzen im Internet problematisch. Nutzer können Angaben zu ihrer Identität verschweigen oder eine falsche Identität annehmen. Bereits ausländische Email-Adressen sind schwieriger zu verfolgen (Kossel 2004, S. 92). Kommt es trotzdem zu rechtlichen Konflikten, so ist z. B. das Durchsetzen von Ansprüchen schwierig und kostspielig. Dies gilt besonders dann, wenn die beteiligten Parteien bei länderübergreifenden Transaktionen aus unterschiedlichen Rechtsräumen kommen (Ockenfels 2003, S. 296). Außerhalb des Internets haben herstellerunabhängige und persönliche Kommunikationskanäle bei Kaufentscheidungen eine hohe Glaubwürdigkeit (Backhaus 1999, S. 664). Der Zusammenhang zwischen Informationsquelle und qualität erklärt sich dadurch, dass Individuen im Umgang mit traditionellen Medien Wissen und Erfahrungen über Informa-
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
185
tionsquellen sammeln, die ihnen bei einer späteren Entscheidung über die Qualität einer Information aus diesen Quellen behilflich sind (Rieh 2002, S. 146). In Bezug auf die Informationsquellen im Internet ist fraglich, inwiefern dieses Erfahrungswissen für dortige Informationsquellen ausreichend verbreitet ist. Auf der einen Seite bilden sich Internetseiten heraus, die eine gute Reputation besitzen. Auf der anderen Seite wird die Qualitätsbeurteilung erschwert, da im Internet jeder Nutzer sehr einfach Informationen veröffentlichen kann und regelmäßig neue Quellen hinzukommen bzw. alte Quellen verschwinden. Zudem gibt es im Internet keinen persönlichen vertrauensstiftenden Kontakt zwischen Sender und Empfänger (Graf und Gründer 2003, S. 60; Ockenfels 2003, S. 296; Rohrbach 1997, S. 91 f.). Bei der Informationsvermittlung in einem Gespräch hat dieser Aspekt große Bedeutung (Wathen und Burkell 2002, S. 140). Darüber hinaus besteht im Internet Unsicherheit über die technische Funktionsfähigkeit der Informations- und Kommunikationssysteme (Petrovic et al. 2003) und die Zuverlässigkeit von Zahlungssystemen (Graf und Gründer 2003, S. 61). Zusätzlich wird die unpersönliche Abwicklung von Transaktionen als Grund für Kreditkartenbetrug im Internet angeführt (Clay und Stauss 2002, S. 260). Ein weiteres Problem betrifft die Frage, wie Transaktionspartner mit den Daten umgehen, die sie während einer Transaktion erhalten (Clay und Stauss 2002, S. 260; Petrovic et al. 2003, S. 56). Es gibt aber auch Besonderheiten im Internet, die die Eignung des Mediums zum Austausch von Informationen vor einer Kaufentscheidung sehr positiv beeinflussen. Wie bereits erwähnt handelt es sich beim Preis um eine digitalisierbare Sucheigenschaft. Folgerichtig haben sich im Internet zahlreiche Preisvergleichsseiten etabliert, die zu einer erhöhten Preistransparenz im Markt beitragen. Deutsche Seiten sind z. B. http://www.geizkragen.de und http://www.guenstiger.de. Grundsätzlich ist bei Such- und Erfahrungseigenschaften davon auszugehen, dass es Quellen für neutrale Informationen gibt. Als neutrale Informationsquellen werden an der Transaktion unbeteiligte Parteien (unabhängige Organisationen) bezeichnet, die kein durch ein Einkommensmotiv getriebenes Interesse an einer Einflussnahme im Entscheidungsprozess der Nachfrager haben. Im Gegensatz zu Anbietern profitieren neutrale Informationsgeber nicht vom Zustandekommen einer Transaktion. Deshalb ist die Glaubwürdigkeit ihrer Informationen hoch.5 Nachfrager sammeln bei der Verwendung von Gütern Informationen, die bei Entscheidungen über zukünftige Transaktionen die Informationsausstattung verbessern. Wenn zwischen den Nachfragern ein Informationsaustausch stattfindet, sind die Erfahrungen von anderen Nachfragern geeignete neutrale Informationen (Nelson 1974, S. 747; Raffée
5 Neutrale Informationsquellen sind von ‚Trusted third parties‘ zu unterscheiden. ‚Trusted third parties‘ übernehmen Aufgaben im Rahmen des Zustandekommens von Transaktionen, indem sie beispielsweise die Identität der Transaktionspartner garantieren (Schoder und Müller 1999, S. 6 f.; Zerdick et al. 2001, S. 230). Auf diese Weise sind ‚Trusted third parties’ aktiv in die Transaktionsabwicklung involviert, während neutrale Informationsquellen ausschließlich Informationen bereitstellen.
186
G. Gräfe und C. Maaß
1969, S. 166–170; Simon 1981, S. 592). Potenzielle Käufer können von anderen Nachfragern dadurch bereits vor ihrer eigenen Kaufentscheidung Informationen über Erfahrungseigenschaften erhalten. Die Glaubwürdigkeit dieser Informationen ist hoch (Cox 1967, S. 606), da Nachfrager als Informationsgeber nicht durch kommerzielle Interessen zur Bereitstellung von Informationen motiviert werden (Kroeber-Riel und Weinberg 1999, S. 500). Das Internet ist eine sehr gute Plattform, um Informationen zwischen Nachfragern auszutauschen. Bereits vor den Entwicklungen zum Web 2.0 haben sich entsprechende Foren etabliert (z. B. http://www.dooyoo.de; http://www.epinions.com), in denen Nachfrager Meinungen, Empfehlungen und Erfahrungsberichte zur Verfügung stellen (Henning- Thurau et al. 2004). Allerdings entsteht oder besteht dennoch die Gefahr von Fehlentscheidungen. Im Zeitverlauf können sich die Transaktionsbedingungen und die Qualität der Kaufgegenstände ändern, sodass vergangene Erfahrungen ihre Gültigkeit verlieren. Zudem sind die Beurteilungen der Nachfrager subjektiv. Neben den Nachfragern stellen auch unabhängige Organisationen Informationen bereit. Es handelt sich beispielsweise um Informationen von Verbraucherministerien, Verbraucherberatungen und Testinstituten (Ford et al. 1988, S. 240 f.; Hornung 1978, S. 49–52). Durch aufwendige Analysemethoden erreichen diese Informationen verglichen mit Informationen von Nachfragern einen höheren Grad an Objektivität. Neben dem Vorteil der Glaubwürdigkeit neutraler Informationsquellen können Nachfrager zudem ihre Informationskosten reduzieren, wenn durch die Stiftung Warentest beispielsweise ein Alternativenvergleich übersichtlich aufbereitet wurde. Sie brauchen dann nicht eine Vielzahl von Geschäften aufzusuchen oder Produktinformationen auf verschiedenen Seiten im Internet selbstständig zusammenzutragen. Es ist jedoch zu berücksichtigen, dass Nachfrager eventuell nicht mit Sicherheit beurteilen können, ob vermeintlich neutrale Informationsquellen wirklich neutral und unabhängig sind. Haben Anbieter Einfluss auf eine Informationsquelle, die trotzdem den Anschein einer neutralen Informationsquelle erwecken kann, so besteht die Gelegenheit Nachfrager mit scheinbar glaubwürdigen Informationen zu manipulieren. Aus diesem Grund sollten Nachfrager im Rahmen ihrer Möglichkeiten die Neutralität einer solchen Informationsquelle überprüfen und bei Zweifeln die Informationen bei der Entscheidungsfindung nicht berücksichtigen. Zur Verbreitung ihrer Informationen nutzen unabhängige Informationsquellen unter anderem das Medium Internet. Für Nachfrager verbessern sich dadurch die Zugriffsmöglichkeiten auf diese Informationen. Zum Teil sind diese Informationen jedoch kostenpflichtig. Mit Informationen von anderen Nachfragern und unabhängigen Organisationen können Nachfrager Anbieterinformationen vergleichen und Fehlinformationen eventuell schon vor dem Kauf erkennen. Dies stellt für falsch informierende Anbieter eine Gefahr der Entdeckung dar und möglicherweise tendieren sie deshalb zur Bereitstellung von qualitativ hochwertigen Informationen.
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
187
10.4 Fazit und Handlungsempfehlungen Bei vielen Kaufentscheidungen werden Informationen aus dem Internet berücksichtigt. Die Informationsqualität im Internet ergibt sich aus dem Verhalten der beteiligten Parteien. Zur Analyse des Verhaltens lassen sich aus einem generischen Informations- und Entscheidungsprozess zwölf Informationsqualitätskriterien herleiten. Diese sind dazu geeignet den Handlungsspielraum von Anbietern und Nachfragern beim Informationsaustausch zur Anbahnung einer Transaktion im Internet zu untersuchen. Insbesondere die opportunistischen Verhaltensmöglichkeiten der Anbieter können damit antizipiert werden. Aus der Analyse ergeben sich drei wichtige Ergebnisse: 1) Durch die mangelnde Überprüfbarkeit von nichtdigitalisierbaren Sucheigenschaften bei der Produktpräsentation im Internet, werden Käufe von Gütern mit Sucheigenschaften dem Charakter nach zu Entscheidungen, die dem Kauf von Gütern mit Erfahrungseigenschaften entsprechen. Im Internet werden hauptsächlich solche Situationen vorzufinden sein. 2) Beim Kauf von Gütern mit Erfahrungseigenschaften ist die Informationsausstattung der Nachfrager im Vergleich zu Kaufentscheidungen, bei denen Sucheigenschaften ausschlaggebend sind, deutlich schlechter. Würden Nachfrager falsche Informationen über Sucheigenschaften im traditionellen Handel bemerken, könnten sie von dem Kauf Abstand nehmen. Fallen falsche Informationen bei Transaktionen im Internet erst nach dem Kauf auf, so entstehen zumindest Transaktionskosten für die Reklamation und Rücksendung der Waren. 3) Weil nichtdigitalisierbare Gütereigenschaften im Internet zu Erfahrungseigenschaften werden, sinkt die Glaubwürdigkeit der Anbieterinformationen zu diesen Eigenschaften. Gerade Anbieter von nicht wettbewerbsfähigen Produkten können die mangelnde Überprüfbarkeit ihrer Informationen nutzen, um sich einen ungerechtfertigten Vorteil im Wettbewerb zu verschaffen. Vor diesem Hintergrund wird die Glaubwürdigkeit das wichtigste Informationsqualitätskriterium im Internet. Diese Argumente führen aus der Perspektive der Informationsverwender zu der Feststellung eines Mangels an Glaubwürdigkeit in Bezug auf Anbieterinformationen im Internet (Gräfe 2003, S. 142 f.). Für die gleiche Wirksamkeit der Produktpräsentation müssten Nachfrager der medialen Darstellung im Internet größeres Vertrauen entgegenbringen, als bei der realen Präsentation im stationären Handel erforderlich wäre (Rohrbach 1997, S. 87). Der Mangel an persönlichen Kontakten im Internet erschwert jedoch die Entwicklung einer dafür erforderlichen Vertrauensbasis (Graf und Gründer 2003, S. 60; Ockenfels 2003, S. 296; Rohrbach 1997, S. 91 f.). Daraus ergeben sich für die Anbieter folgende Handlungsempfehlungen: Als geeignet für eine elektronische Vermarktung gelten standardisierte Produkte, die sich gleichzeitig gut beschreiben lassen (Benjamin und Wigand 1995, S. 67). Außerdem eignen sich Güter mit digitalisierbaren Eigenschaften. Beispielsweise ist die Abfrage in einer Online- Datenbank ein digitales Gut, das mit all seinen Eigenschaften digital abgebildet und verteilt werden kann (Illik 1998, S. 15 f.). Aus der Sicht der nicht opportunistisch agierenden Anbieter eignen sich Produkte, deren Eigenschaften basierend auf einer Darstellung im
188
G. Gräfe und C. Maaß
Internet nicht überprüft werden können, aufgrund der zu erwartenden Informationsausstattung der Nachfrager weniger für den Vertrieb über das Internet. Es ist schwierig sich glaubhaft von opportunistisch informierenden Anbietern zu differenzieren. Sie können die Glaubwürdigkeit ihrer Informationen steigern, indem sie aktiv die Aufdeckungswahrscheinlichkeit von falschen Informationen erhöhen. Dazu sollten sie selber Informationen von neutralen Informationsquellen bereitstellen und den Informationsaustausch zwischen Nachfragern fördern. Sind Anbieter nicht nur im Internet, sondern zusätzlich auch im traditionellen Handel mit Geschäften präsent, so kann dieser Umstand zu einer Erhöhung der Aufdeckungswahrscheinlichkeit führen. Nachfrager können in den Geschäften Informationen über Sucheigenschaften der Transaktionsgüter sammeln bzw. Anbieterinformationen zu diesen Eigenschaften überprüfen, die im Internet nicht feststellbar sind. Haben Anbieter einen Vorteil im Wettbewerb, dann sollten sie die Vergleichbarkeit ihres Angebots mit den Angeboten der Wettbewerber erhöhen. Damit reduziert sich die Qualitätsunsicherheit der Nachfrager. Des Weiteren können Anbieter zur Differenzierung Signale aussenden, die für täuschungswillige Opportunisten zu teuer sind (Kaas 1992, S. 893; Kleinaltenkamp 1992, S. 817). Gütesiegel wie z. B. DIN Normen oder das DEKRA Gütesiegel für Gebrauchtwagen sind solche Signale. Je höher die Güterqualität eines Anbieters ist, desto einfacher und zu geringeren Kosten wird es möglich sein, ein entsprechendes Gütesiegel zu bekommen. Für Anbieter mit betrügerischer Absicht gilt das nicht. Damit diese die Gütesiegel nicht kopieren, müssen vertrauenswürdige unabhängige Parteien die Einhaltung der Bedingungen überwachen, die mit Gütesiegeln verbunden sind. Insbesondere für Anbieter, die noch keine Reputation im Markt aufgebaut haben, erleichtern Gütesiegel den Markteintritt (Clay und Stauss 2002, S. 259). Auch eine Marke ist ein differenzierendes Signal. Die Bildung einer Marke erfordert irreversible Investitionen in Form von Zeit und Geld (Klein und Leffler 1981, S. 626–630). Um den Wert dieser Investition dauerhaft zu erhalten, werden Markenanbieter darum bemüht sein, eine hohe Qualität ihrer Produkte sicherzustellen. Betrügerische Transaktionen würden dagegen zu einer Zerstörung der Marke führen. Selbstbindungen sind eine weitere Möglichkeit, mit der Anbieter eines qualitativ überlegenen Produktes ihren Wettbewerbsvorteil signalisieren können. Durch eine vertraglich festgelegte erfolgsabhängige Entlohnung, durch Konventionalstrafen oder durch Garantien übernehmen Anbieter ganz oder teilweise das Risiko für die Erreichung des vereinbarten Ergebnisses (Kaas 1992, S. 893 f.; Kleinaltenkamp 1992, S. 817. Neben der Risikoverteilung signalisiert eine solche Selbstbindung die zugesicherte Qualität. Anbieter würden sich durch eine umfangreiche Garantiegewährung selbst schaden, wenn sie anschließend qualitativ schlechte Güter verkaufen. Nachfrager können davon ausgehen, dass Selbstbindungen für weniger gute Anbieter zu teuer sind (Kaas 1992, S. 894). Rückgaberechte stärken zusätzlich die Position der Nachfrager und reduzieren ihr wahrgenommenes Risiko vor einer Kaufentscheidung (Rohrbach 1997, S. 81). Aus der Perspektive der Nachfrager entsteht allerdings das Problem der Anonymität und Distanz zwischen ihnen und den Anbietern im Internet. Reagieren Anbieter beispielsweise auf Reklamationen per Email nicht, so sind sie möglicherweise auf Grund einer örtlichen Distanz persönlich schwer zu errei-
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
189
chen. Die aus einer Garantie resultierenden rechtlichen Ansprüche, sind dann schwierig geltend zu machen. Grundsätzlich sollten Nachfrager die Qualität der im Internet verfügbaren Informationen in Frage stellen. Dazu sind die beschriebenen Informationsqualitätskriterien geeignet. Handelt es sich um Informationen, die Anbieter zur Verfügung stellen, so ist insbesondere die Glaubwürdigkeit dieser Informationen fraglich. Es gilt die Gefahr zu reduzieren, durch Informationen unzureichender Qualität Fehlentscheidungen zu treffen. Sofern Nachfrager die Wahrheit bzw. Glaubwürdigkeit und andere Qualitätskriterien einer Information nicht vor dem Abschluss einer Transaktion überprüfen können, sollten sie die Rahmenbedingungen der Transaktion im Internet analysieren. Zunächst sei die Aufdeckungswahrscheinlichkeit für falsche Informationen genannt. Je höher diese ist, desto geringer ist die Wahrscheinlichkeit, dass Anbieter falsche Informationen bereitstellen. Aus diesem Grund sollten Nachfrager bemüht sein, die Aufdeckungswahrscheinlichkeit zu erhöhen. Sie sollten unterschiedliche Informationsquellen nutzen, um sich vor einer Kaufentscheidung zu informieren. Anbieterinformationen sollten gezielt mit Informationen aus anderen Quellen verglichen werden. Das Internet bietet Möglichkeiten, um produkt- und anbieterbezogene Informationen zu verbreiten und mit anderen Nachfragern auszutauschen. Zudem kann auf unabhängige Informationsquellen zugegriffen werden. Ein solcher Informationsaustausch ist besonders bei standardisierten Produkten Erfolg versprechend. Bei sehr differenzierten oder individualisierten Produkten werden dagegen weniger Informationen verfügbar sein. Demnach sollten im Internet eher standardisierte und nicht stark differenzierte Produkte erworben werden. Die Qualität der Anbieterinformationen hängt weiterhin davon ab, wie wertvoll ein Kunde aus der Perspektive eines Anbieters zukünftig ist. Bei einer erwarteten langfristigen Geschäftsbeziehung sind Anbieter bemüht, sich durch die Bereitstellung von Informationen und Produkten hoher Qualität eine positive Reputation aufzubauen. Scheint für Anbieter und Nachfrager sicher, dass beide in Zukunft viele weitere profitable Transaktionen miteinander vereinbaren wollen, so ist die Güte der Anbieterinformationen hoch. Aus diesem Grund sollten sich Nachfrager als möglichst wertvolle Kunden mit langfristigem Geschäftsinteresse präsentieren. Im Internet gibt es allerdings Beispiele für Anbieter, die sich eine gute Reputation über einen längeren Zeitraum aufbauen, um anschließend in größerem Umfang Kunden betrügen zu können. Andere Anbieter wechseln nach einem Betrug ihre Identität, um sich ihrer schlechten Reputation zu entledigen. Deshalb sollten Nachfrager tendenziell große und bekannte Anbieter wählen. Einem großen Unternehmen dürfte es im Vergleich zu einem privaten Verkäufer schwerer fallen, im Internet die Identität zu wechseln. Es ist weiterhin vorteilhaft, Anbieter zu wählen, die sich ihre gute Reputation über einen sehr langen Zeitraum aufgebaut haben. Für solche Anbieter ist der zukünftige Einsatz ihrer Reputation beim Abschluss von Transaktionen vermutlich wertvoller, als der Gewinn aus einer betrügerischen Transaktion, die zum Verlust der Reputation führen würde. Es ist weiterhin ratsam, die richtige Identität eines Anbieters vor dem Abschluss einer Transaktion zu prüfen. Ehrliche Anbieter werden sich dem nicht widersetzen. Auch bei hoher Reputation des Anbieters sollten Nachfrager mit ihrer Zahlung nicht in Vorleistung gehen oder aber auf die Einbindung eines unabhängigen Treuhänders bestehen.
190
G. Gräfe und C. Maaß
Literatur Alexander, J.E./Tate, M.A.: Web Wisdom – How to Evaluate and Create Information Quality on the Web. Lawrence Erlbaum Associates, Mahwah, 1999. Augustin, S.: Information als Wettbewerbsfaktor. Verlag Industrielle Organisation, Verlag TÜV Rheinland, Zürich, 1990. Bacharach, M./Board, O.: The Quality of Information in Electronic Groups, Discussion Paper No. 25, University of Oxford, 2000, URL: http://ora.ouls.ox.ac.uk/objects/uuid:67d7b4f9-6f9b-43dab376-7deeba425418 [Zugriff am: 10.02.2010]. Backhaus, K.: Industriegütermarketing, 6. Aufl., Vahlen, München, 1999. Beach, L.R./Mitchell, T.R./Deaton, M.D./Prothero, J.: Information Relevance, Content and Source Credibility in the Revision of Opinions. In: Organizational Behavior and Human Performance, Vol. 21 (1978), pp. 1–16. Bell, D.E./Raiffa, H./Tversky, A.: Descriptive, Normative, and Prescriptive Interactions in Decision Making. In: Bell, D.E./Raiffa, H./Tversky, A. (Eds.): Decision Making: Descriptive, Normative, and Prescriptive Interactions. Cambridge University Press, Cambridge, 1988, pp. 9–30. Benjamin, R.I./Wigand, R.T.: Electronic Markets and Virtual Value Chains on the Information Superhighway. In: Sloan Management Review, Vol. 36 (Winter 1995) No. 2, pp. 62–72. Biswas, D.: Economics of information in the Web economy: Towards a new theory? In: Journal of Business Research, Vol. 57 (2004) No. 7, pp. 724–733. Bovee, M./Srivastava, R.P./Mak, B.: A Conceptual Framework and Belief-Function Approach to Assessing Overall Information Quality. In: Pierce, E.M./Katz-Haas, R. (Eds.): Proceedings of the 6th International Conference on Information Quality at MIT, 2001, pp. 311–328. Caldwell, D.E./O’Reilly III, C.A.: The Impact of Accurate Information on Job Choice and Turnover Decisions. In: Academy of Management Proceedings, (1983), pp. 200–203. Clay, K./Strauss, R.P.: Institutional Barriers to Electronic Commerce: An Historical Perspective. In: Ingrim, P./Silverman, B. (Eds.): The New Institutionalism in Strategic Management, Vol. 19 (2002), pp. 245–271. Cox, D.F.: Risk Taking and Information Handling in Consumer Behavior. In: Cox, D.F. (Ed.): Risk Taking and Information Handling in Consumer Behavior. Harvard University, Boston, 1967, pp. 604–639. Darby, M.R./Karni, E.: Free Competition and the Optimal Amount of Fraud. In: Journal of Law & Economics, Vol. 16 (1973) No. 1, pp. 67–88. Dastani, P.: Online Mining. In: Link, J. (Hrsg.): Wettbewerbsvorteile durch Online Marketing. Springer, Berlin, 1998, S. 219–241. Ford, G.T./Smith, D.B./Swasy, J.L.: An Empirical Test of the Search, Experience and Credence Attributes Framework. In: Advances in Consumer Research, Vol. 15 (1988), pp. 239–243. Ford, G.T./Smith, D.B./Swasy, J.L.: Consumer Skepticism of Advertising Claims: Testing Hypotheses from Economics of Information. In: Journal of Consumer Research, Vol. 16 (1990) No. 4, pp. 433–441. Gampenrieder, A./Riedmüller, F.: Marktforschung via Internet. In: Hermanns, A./Sauter, M. (Hrsg.): Management-Handbuch Electronic Commerce, 2. Aufl., Vahlen, München, 2001. Graf, N./Gründer, T.: eBusiness: Grundlagen für den globalen Wettbewerb. Deutscher Taschenbuch Verlag, München, 2003. Gräfe, G.: Incredible Information on the Internet: Biased Information Provision and a Lack of Credibility as a cause of Insufficient Information Quality. In: Eppler, Martin J./Helfert, M. (Eds.): Proceedings of the 8th International Conference on Information Quality at MIT, 2003, pp. 133–146.
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
191
Gräfe, G.: Informationsqualität bei Transaktionen im Internet: Eine informationsökonomische Analyse der Bereitstellung und Verwendung von Informationen im Internet, Dt. Univ.-Verl., Wiesbaden, 2005. Grotz-Martin, S.: Informations-Qualität und Informations-Akzeptanz. In: Hauschildt, J./Gemünden, H.G./Grotz-Martin, S./Haidle, U.: Entscheidungen der Geschäftsführung: Typologie, Informationsverhalten, Effizienz. Mohr, Tübingen, 1983, S. 144–173. Henning-Thurau, T./Gwinner, K.P./Walsh, G./Gremler, D.D.: Electronic Word-of-Mouth via Consumer-Opinion Platforms: What Motivates Consumers to Articulate Themselves on the Internet? In: Journal of Interactive Marketing, Vol. 18 (Winter 2004) No. 1, pp. 38–52. Hilke, W.: Werbung und Wettbewerb aus betriebswirtschaftlicher Sicht. In: Röper, B. (Hrsg.): Wettbewerb und Werbung. Duncker u. Humblot, Berlin, 1989, S. 35–55. Hopf, M.: Informationen für Märkte und Märkte für Informationen, Barudio & Hess, Frankfurt a. M., 1983. Hornung, G.: Konsumenteninformation und Wettbewerb: Wirkungen verbesserter Markttransparenz der Konsumenten auf den Wettbewerb im Einzelhandel bei sachlicher Homogenität der Produkte und räumlicher Heterogenität, Haag und Herchen, Frankfurt a. M., 1978. Illik, J.A.: Electronic Commerce – eine systematische Bestandsaufnahme. In: HMD (Handbuch der modernen Datenverarbeitung), 35. Jg. (Febr. 1998) Nr. 199, S. 10–24. Kaas, K.P.: Marktinformationen: Screening und Signaling unter Partnern und Rivalen. In: Zeitschrift für Betriebswirtschaft, 61. Jg. (1991) Nr. 3, S. 357–370. Kaas, K.P.: Kontraktgütermarketing als Kooperation zwischen Prinzipalen und Agenten. In: Schmalenbachs Zeitschrift für betriebswirtschaftliche Forschung, 44. Jg. (1992) Nr. 10, S. 884–901. Kivetz, R./Simonson, I.: The Effects of Incomplete Information on Consumer Choice. In: Journal of Marketing Research, Vol. 37 (Nov. 2000) No. 4, pp. 427–448. Klein, B./Leffler, K.B.: The Role of Market Forces in Assuring Contractural Performance. In: Journal of Political Economy, Vol. 89 (Aug. 1981) No. 4, pp. 615–641 Kleinaltenkamp, M.: Investitionsgüter-Marketing aus informationsökonomischer Sicht. In: Schmalenbachs Zeitschrift für betriebswirtschaftliche Forschung, 44. Jg. (1992) Nr. 9, S. 809–829. Kortzfleisch, H.v.: Information und Kommunikation in der industriellen Unternehmung. In: Zeitschrift für Betriebswirtschaft, 43. Jg. (1973) Nr. 8, S. 549–560. Kossel, A.: Zuschlag ohne Rückschlag: Betrüger bei eBay erkennen und meiden. In: c’t, (2004) Nr. 4, S. 90–95. Kroeber-Riel, W./Weinberg, P.: Konsumentenverhalten, 7. Aufl., Vahlen, München, 1999. Kuri, J.: Verfallsdatum überschritten – überholte Informationen im Internet, 2004, Heise, URL: http://www.heise.de/newsticker/meldung/Verfallsdatum-ueberschritten-ueberholte-Informationen-im-Internet-95321.html [Zugriff am 10.05.2010]. Lau, O.: Die 10 häufigsten Fehler der Online-Händler, 2003, Heise, URL: http://www.heise.de/ newsticker/meldung/Die-10-haeufigsten-Fehler-der-Online-Haendler-81953.html [Zugriff am 10.05.2010]. Maaß, C./Scherm, E.: Suchmaschinen-Marketing – Ansatzpunkte und Stolpersteine. In: Das Wirtschaftsstudium, 75. Jg. (2007), Nr. 6, S. 822–825. Manis, M./Fichman, M./Platt, M.B.: Cognitive Integration and Referential Communication: Effects of Information Quality and Quantity in Message Decoding. In: Organizational Behavior and Human Performance, Vol. 22 (1978), pp. 417–430. Marschak, J.: Remarks on the Economics of Information. In: Contributions to Scientific Research in Management, Cowles Foundation Paper 146, 1960, pp. 79–98. Meffert, H.: Marketing – Entwicklungstendenzen und Zukunftsperspektiven. In: Die Unternehmung, 53. Jg. (1999) Nr. 6, S. 409–432.
192
G. Gräfe und C. Maaß
Merschmann, H. (2007): Guerilla-Marketing bei Amazon, Spiegel, URL: http://www.spiegel.de/ netzwelt/web/0,1518,476359,00.html [Zugriff am 10.05.2010]. Merz, M.: Electronic Commerce, dpunkt-Verl., Heidelberg, 1999. Mielke, K.: Drei, zwei, eins… – Ärger? Spezielle Rechtsfragen rund um Internet-Auktionen. In: c’t, (2004) Nr. 4, S. 96–103. Morehead, D.R./Rouse, W.B.: Computer Aided Searching of Bibliographic Data Bases: Online Estimation of the Value of Information. In: Information Processing & Management, Vol. 21 (1985) No. 5, pp. 387–399. Nelson, P.J.: Information and Consumer Behavior. In: Journal of Political Economy, Vol. 78 (1970) No. 2, pp. 311–329. Nelson, P.J.: Advertising as Information. In: Journal of Political Economy, Vol. 82 (1974) No. 4, pp. 729–754. North, K.: Wissensorientierte Unternehmensführung: Wertschöpfung durch Wissen, 2. Aufl., Gabler, Wiesbaden, 1999. Ockenfels, A.: Reputationsmechanismen auf Internet-Marktplattformen. In: Zeitschrift für Betriebswirtschaft, 73. Jg. (2003) Nr. 3, S. 295–315. Olaisen, J.: Information quality factors and the cognitive authority of electronic information. In: Wormell, I. (Ed.): Information Quality: definitions and dimensions. Taylor Graham, London, 1990, pp. 91–121. Petrovic, O./Fallenböck, M./Kittl, C./Wolkinger, T.: Vertrauen in digitale Transaktionen. In: Wirtschaftsinformatik, 45. Jg. (2003) Nr. 1, S. 53–66. Picot, A./Reichwald, R./Wigand, R.T.: Die grenzenlose Unternehmung, 4. Aufl., Gabler, London, 2001. Porat, A.M./Haas, J.A.: Information Effects on Decision-Making. In: Behavioral Science, Vol. 14 (March 1969) No. 2, pp. 98–104. Raffée, H.: Konsumenteninformation und Beschaffungsentscheidung des privaten Haushalts. Poeschel, Stuttgart, 1969. Rese, M./Gräfe, G.: Erhöhte Markttransparenz durch das Internet? Eine informationsökonomische Analyse des Anbieterverhaltens bei der Bereitstellung von Informationen. In: Die Unternehmung, 56. Jg. (2002) Nr. 5, S. 333–354. Rieh, S.Y.: Judgment of Information Quality and Cognitive Authority in the Web. In: Journal of the American Society for Information Science and Technology, Vol. 53 (Jan. 2002) No. 2, pp. 145–161. Rohrbach, P.: Interaktives Teleshopping: Elektronisches Einkaufen auf dem Informationhighway, Dt. Univ.-Verl. Gabler, Wiesbaden, 1997. Rost, D.: Werbung im Wettbewerb. In: Röper, B. (Hrsg.): Wettbewerb und Werbung. Duncker u. Humblot, Berlin, 1989, S. 21–33. Russell, B.: An Inquiry into Meaning and Truth, 7th Impression. Allan and Unwin, London, 1966. Ruthven, I./Lalmas, M./Rijsbergen, K.v.: Incorporating User Search Behavior into Relevance Feedback. In: Journal of the American Society for Information Science and Technology, Vol. 54 (April 2003) No. 6, pp. 528–549. Scheuble, S.: Wissen und Wissenssurrogate: eine Theorie der Unternehmung, Dt. Univ.-Verl., Wiesbaden, 1998. Schmalen, H.: Grundlagen und Probleme der Betriebswirtschaft, 11. Aufl., Schäffer-Poeschel, Stuttgart, 2001. Schoder, D./Müller, G.: Disintermediation versus Intermediation auf elektronischen Märkten am Beispiel ,Trusted Third Parties‘- Eine empirisch gestützte Einschätzung. In: Tagungsband zur „Wissenschaftlichen Jahrestagung 1999 des Verbandes der Hochschullehrer für Betriebswirtschaft e.V.“, Wiesbaden 1999.
10 Bedeutung der Informationsqualität bei Kaufentscheidungen im Internet
193
Shapiro, C./Varian, H.R.: Information Rules: A Strategic Guide to the Network Economy. Harvard Business School Press, Boston, 1999. Simon, H.: Informationstransfer und Marketing: Ein Survey. In: Zeitschrift für Wirtschafts- und Sozialwissenschaften, 101. Jg. (1981) Nr. 6, S. 589–608. Slovic, P./MacPhillamy, D.: Dimensional Commensurability and Cue Utilization in Comparative judgment. In: Organizational Behavior and Human Performance, Vol. 11 (April 1974) No. 2, pp. 172–194. Snavely, H.J.: Accounting Information Criteria. In: Accounting Review, Vol. 42 (April 1967) No. 2, pp. 223–232. Stiftung Warentest: Test Spezial Internet, 2003. Streufert, S.C.: Effects of Information Relevance on Decision Making in Complex Environment. In: Memory & Cognition, Vol. 1 (1973) No. 3, pp. 224–228. Taylor, R.S.: Value-Added Processes in Information Systems. Ablex Publishing Corporation, Norwood, 1986. Tseng, S./Fogg, B.J.: Credibility and Computing Technology. In: Communications of the ACM, Vol. 42 (May 1999) No. 5, pp. 39–44. Tversky, A./Kahneman, D.: Judgment under Uncertainty: Heuristics and Biases. In: Science, Vol. 185 (1974) No. 4157, pp. 1124–1131. Tversky, A./Kahneman, D.: The Framing of Decisions and the Psychology of Choice. In: Science, Vol. 211 (Jan. 1981) No. 4481, pp. 453–458. Wathen, C. N./Burkell, J.: Believe It or Not: Factors Influencing Credibility on the Web. In: Journal of the American Society for Information Science and Technology, Vol. 53 (Jan. 2002) No. 2, pp. 134–144. Wild, J.: Zur Problematik der Nutzenbewertung von Informationen. In: Zeitschrift für Betriebswirtschaft, 41. Jg. (1971) Nr. 5, S. 315–334. Zerdick, A./Picot, A./Schrape, K./Artopé, A./Goldhammer, K./Heger, D.K./Lange, U.T./Vierkant, E./López-Escobar, E./Silverstone, R.: Die Internet-Ökonomie – Strategien für die digitale Wirtschaft, European Communication Council Report, 3. Aufl., Springer, Berlin, 2001.
Dr. rer. pol. Gernot Gräfe hat an der FernUniversität Hagen und der Universität Paderborn Wirtschaftswissenschaften studiert und im Bereich des strategischen Marketings promoviert. Von 2001 bis 2004 arbeitete er als wissenschaftlicher Mitarbeiter der Universität Paderborn und von 2004 bis 2010 als Business Developer und Consulting Line Manager der Siemens AG im Cooperative Computing and Communication Laboratory (C-LAB). Dort beschäftigte sich Gernot Gräfe mit dem Thema der Informationsqualität in Entscheidungsprozessen. Dies umfasste private (Kauf-) Entscheidungen und auch unternehmerische (Investitions-) Entscheidungen. Besondere Berücksichtigung fand dabei der elektronische Informationsaustausch im Web 2.0. Seit 2010 ist Gernot Gräfe in den Geschäftsbereichen Siemens Smart Grid Services im Business Development und Siemens Energy Automation im Vertrieb tätig. In diesem Zusammenhang beschäftigt er sich unter anderem mit der Frage der Informationsqualität in Customer Relationship Management Systemen. URL: www.siemens.com. Dr. Christian Maaß ist seit Anfang 2014 bei der Flyeralarm GmbH tätig. Er ist Chief Product Officer und verantwortet die Bereiche Produktentwicklung, eCommerce und Online Marketing. Vor seinem Einstieg bei Flyeralarm verantwortet er unter anderem den eCommerce Bereich von Bertelsmann sowie die Unternehmensentwicklung von Otto. Parallel zu seiner Berufstätigkeit hat Christian Maaß mehrere Bücher über Suchmaschinen, E-Business und Produktentwicklung in der Internetindustrie geschrieben. Er studierte und promovierte an den Universitäten in Chicago, Paderborn und Hagen. URL: www.flyeralarm.de.
Datenqualitäts-Audits in Projekten
11
Marcus Gebauer und Michael Mielke
11.1 Einleitung Datenqualität leidet zumeist schon in der Entstehung der Daten und ihrer zugrunde liegenden Datenhaushalte. Datenqualität ist üblicherweise der letzte Bereich, der in Projekten berücksichtigt wird, wenn diese Projekte in Schwierigkeiten geraten. Daher ist es notwendig, Datenqualität in den verschiedenen Stadien eines Projektes strukturell zu verankern. Was geschieht nun typischerweise in Projekten? • Anforderungen an das neue System, Datenhaushalte und Prozesse sind nicht klar definiert • Datenflüsse sind sowohl in der System- und Prozesslandschaft als auch in manuellen Schnittstellen zwischen Geschäftbereichen unbekannt • Daten- und Prozessverantwortlichkeiten und Dateneigentümer sind nicht definiert • Projekte werden nur durch IT-Experten geführt, auch wenn die Projekte geschäftsbezogen sind
M. Gebauer (*) Department: IT-GMO, Hannover Re AG, Hannover, Deutschland E-Mail: [email protected] M. Mielke Deutsche Bahn AG, Leiter Arbeitsgebiet Innovation & Digitalisierung, Frankfurt am Main, Deutschland Fachhochschule Kiel, Fachbereich Informatik und Elektrotechnik, Kiel, Deutschland E-Mail: [email protected]; [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_11
195
196
M. Gebauer und M. Mielke
• Spezifizierung der Rollen eines Datenerfassers, Datenbearbeiters und Datennutzers fehlen • Projekte werden nicht für die spätere Produktionsphase betrieben. Sie scheinen so etwas wie ein Eigenleben zu führen • Wechselwirkungen in der bestehenden System- und Prozesslandschaft sind unbekannt Das hier dargestellte Datenqualitätsaudit in Projekten wird mittels einer Generischen Datenqualitäts-Checkliste für Neue Datenhaushalte, die einen Satz von Anforderungen vorgibt, durchgeführt. Sie erlaubt es dem Assessor, den Status des neuen Datenhaushaltes in Bezug zu Datenqualität zu bestimmen. In diesem Sinne liefert die hier beschriebene Checkliste eine Risikoanalyse, mit deren Hilfe zu bearbeitende Bereiche herausgefunden werden können. In manchen Punkten geht die Checkliste über den eigentlichen Zweck von Projekten neuer Datenhaushalte hinaus. Dies ist immer dann der Fall, wenn Anforderungen an die Produktivphase des Datenhaushaltes bereits in der Projektphase implementiert werden sollen. Zweck Es ist der Zweck der hier vorgestellten Generischen Datenqualitäts-Checkliste für Neue Datenhaushalte ein proaktives Management der Datenqualität sicherzustellen. Jede neue Datensammlung wird einer Bewertung bezüglich ihrer technischer Spezifikationen, Datenhaltung und ihrer Management-Prozesse vor der eigentlichen Implementierung unterzogen. Die Generische Datenqualitäts-Checkliste bietet ein Rahmenwerk neue Datenhaushalte so früh wie möglich noch in ihrer Entstehungsphase zu bewerten. Nutzergruppe sind Datenqualitätsmanager genauso wie Projektleiter von IT- und Fachprojekten. Ziel der Checkliste ist es, die wesentlichen Handlungsfelder mit einem Risiko für die Datenqualität frühzeitig zu identifizieren. Nur so kann einem aufkommenden Risiko rechtzeitig begegnet werden. Struktur In diesem Kapitel stellen wir in einzelnen Abschnitten die Bereiche vor, in denen Datenhaushaltsprojekte und bestehende Datenhaushalte bewertet werden. Insgesamt werden sieben Bereiche untersucht:
• • • • • • •
Anforderungen an das Management Service Level Agreement Organisations-Spezifizierungen Prozessdefinitionen Daten-Sammlung, -Bearbeitung und -Nutzung Datenqualitätsmanagement, -messungen, -maßnahmen und -monitoring Technische Anforderungen
11 Datenqualitäts-Audits in Projekten
197
In jedem Abschnitt werden die Gründe für die Anforderungen kurz beschrieben und die Punkte der Checkliste dargestellt.
11.2 Abstimmung mit anderen Regelwerken Eine Generische Datenqualitäts-Checkliste für Neue Datenhaushalte muss mit dem Willen des Top-Managements implementiert werden. Es gibt viele Gründe, Datenqualität in Projekten niedriger zu priorisieren. Zur Umsetzung bedarf es daher einer starken Management-Entscheidung. Dabei muss die detaillierte Ausgestaltung mit den Regularien jeder IT-Organisation und jedes Prozessmanagements abgestimmt sein.
11.3 Glossar Viele der in diesem Abschnitt verwendeten Begriffe sind mittlerweile Allgemeingut. Dennoch sind an dieser Stelle einige nochmals spezifiziert. Des Weiteren sind in vielen Fällen die englischen Begriffe immer noch geläufiger als entsprechende Übersetzungen ins Deutsche. Auch diese seien hier erwähnt. Content Rule Datenqualitäts-Metrik
Messbarer Ausdruck einer Geschäftsregel. Objektive, messbare Funktion, welche sensitiv für Messungen in den betrachteten Qualitätsattributen ist. Geschäftsregel Die Anforderungen der Datennutzer werden mittels sogenannter Geschäftsregeln beschrieben. Eine Geschäftsregel verbindet hierbei verschiedene Geschäftsobjekte und hilft Daten und Informationen in richtige und falsche zu differenzieren. Key Rule Messbarer Ausdruck einer Geschäftsregel mit Bezug zu Schlüsseldefinitionen in Datenbanken. Matching Rule Messbarer Ausdruck einer Geschäftsregel zur Bestimmung eines Übereinstimmungsgrades verschiedener Datentabellen. PDCA Kreislauf PDCA = Plan-Do-Check-Act. Ein Kreislauf zur ständigen Verbesserung, meist für fortwährende Prozesse adaptiert. Referentielle Integrität Datenbankinterne Spezifizierung von Abhängigkeiten unter Tabellen. Verwandte Begriffe sind Entitäten-, Domänen- und Nutzer-Definierte-Integrität. SQL Structured Query Language: Grundlegende Auswertungssprache relationaler Datenbanken. Der Vollständigkeit halber sei an dieser Stelle erwähnt, dass die Begriffe Daten und Informationen, obschon ein Unterschied besteht, hier synonym verwendet werden.
198
M. Gebauer und M. Mielke
11.4 Gebrauch der Generischen Checkliste Wer nutzt die Checkliste? Gegenstand dieser Checkliste sind Neue Datensammlungen. Sie sollte durch den Projektleiter abgearbeitet werden, wenn das Projekt neue Datensammlungen entwickelt oder alte signifikant verändert. Im Idealfall wird er dabei durch ein Datenqualitätsteam unterstützt. Diese Checkliste sollte jedoch auch im Falle bereits existierender Datensammlungen für eine kontinuierliche Überwachung genutzt werden. Der Rhythmus der Nutzung ist abhängig von der Nutzung der Daten und sollte in Abstimmung mit dem Datenqualitätsbeauftragten abgestimmt sein. Wann wird die Checkliste genutzt? Es ist nicht möglich für die Anwendung der Checkliste einen präzisen Kalender anzugeben. Mit dem Folgenden ist jedoch eine Richtschnur gegeben. • Projektleiter sollten sich der spezifizierten Anforderungen bewusst sein bevor ein entsprechendes Projekt startet, um hiermit verknüpfte Aktivitäten einplanen zu können. • Innerhalb eines Projektplanes können Projektleiter und Datenqualitäts-Beauftragter Meilensteine definieren, wann diese Checkliste zur Anwendung kommen soll: –– Nach der Erstellung des Business Case. –– Nach der Erstellung des Projektplanes. –– Nach der Spezifizierung der technischen Anforderungen. –– Nach der Spezifizierung der prozessualen Anforderungen. –– Nach der Spezifizierung der organisatorischen Erfordernisse. –– Nach jedem Schritt, der mit den Anforderungen dieser Checkliste verknüpft ist. –– In der Testphase des Projektes. –– Am Ende des Projektes im Projekt-Review. • Die Checkliste wird immer dann angewendet, wenn ein wesentlicher Teil des Projektes geändert wird und zuvor spezifizierte Anforderungen hiervon betroffen sind. Hierunter fallen z. B. Änderungen des Projektzieles, der technischen Umgebung oder der Organisation. Grundsätzlich sollte die Checkliste regelmäßig im Projekt abgearbeitet werden, um Risiken frühzeitig erkennen zu können. Wie wird die Checkliste genutzt? Zu jedem spezifizierten Zeitpunkt nutzt der Projektleiter die Checkliste, um die Erfüllung der Anforderungen zu überprüfen. In diesem Kapitel beschreiben wir nur die Vorgehensweise und die Frageelemente der Generische Datenqualitäts-Checkliste für Neue Datenhaushalte. Um diese handhabbar zu machen, hat der Autor diese in eine elektronische Anwendung übertragen. Die folgende Abbildung zeigt die Gesamtübersicht mit Bewertungsergebnis. Abb. 11.1 zeigt exemplarisch ein Bewertungsergebnis, in dem sieben DQM-Elemente einbezogen wurden. Jedem dieser DQM-Elemente wurde ein Gewicht zugeordnet, wel-
11 Datenqualitäts-Audits in Projekten
199
ches in der Gesamteinstufung berücksichtigt wird. Die Gesamteinstufung selbst richtet sich nach individuell zu spezifizierenden Schwellen. In dem in der Abbildung dargestellten Beispiel sind diese Schwellen bei 70 und 90 % gesetzt worden. Für jedes DQM-Element wird ein Satz von Fragen (Abb. 11.2) spezifiziert, die in einer fünfstufigen Skala auf ihre Erfüllung bewertet werden. Alle Bewertung jenseits der Einstufung ‚++‘ ist als Schwachstelle anzusehen, die bearbeitet werden muss.
Abb. 11.1 Gesamtübersicht der Bewertungsergebnisse des DQ-Audits
Abb. 11.2 Antworten zu den DQM-Elementen werden in einer fünfstufigen Skala bewertet
200
M. Gebauer und M. Mielke
Die fünf genutzten Stufen sind wie folgt vorgegeben: + + Die Vorgehensweise ist nachvollziehbar, aktuell dokumentiert und wird angewendet/ist wirksam + Die Vorgehensweise ist nachvollziehbar und wird weitestgehend angewendet +/− Die Vorgehensweise ist weitestgehend nachvollziehbar und wird meistens vangewendet − Die Vorgehensweise ist in der Praxis zumeist wirksam − − Die Vorgehensweise ist lediglich dokumentiert/vielleicht wirksam In der Durchführung der Checkliste muss nicht unbedingt jede Frage beantwortet werden. Unter Umständen sind Elemente für das begutachtete Projekt nicht relevant. In diesem Fall ist das Weglassen von Fragen zu begründen und dies auch zu dokumentieren.
11.5 Datenqualitätsbewertung einer Datensammlung 11.5.1 Anforderungen an das Management Projekte sind vielfachen Regelungen unterworfen, zu denen zum Beispiel Datenschutzund Datensicherheit, Business Continuity etc. gehören. Es wird als selbstverständlich angenommen, dass Projektleiter über diese Regelungen Bescheid wissen. Da auch Datenqualität eine Führungsaufgabe ist, müssen sich Projektleiter auch der hieraus erwachsenden Anforderungen für ihr Projekt bewusst sein. Diese Datenqualitätsanforderungen sind auf den gesamten Lebenszyklus eines Projektes anzuwenden. Neben den speziellen Datenqualitätsanforderungen gibt es natürlich auch andere Anforderungen an Projekte, die zur Datenqualität beitragen. Diese seien hier mit einbezogen, gerade auch um den Aspekt Datenqualität zu betonen. Checkliste • Das Projekt spezifiziert klar seine Aufgaben, die Geschäftssicht, die Vision und ein Szenario der implementierten Veränderung.1 • Geschäfts- und technische Experten werden durch das Projekt konsultiert. • Alle Prozessbeteiligten kommen zu einer gemeinsamen Übereinkunft über die Datenfelder, die im Datenhaushalt gespeichert werden sollen. • Der Projektleiter kennt die grundlegenden Anforderungen an und für Datenqualität. • Ressourcen wie Budget, Personal und Zeit werden für das Thema Datenqualität im Projekt eingeplant. Die folgenden Fragen sollten beantwortet werden: Was wollen wir tun? Welche sind die treibenden Faktoren? Was ist hinterher neu? Was ist hinterher besser? Was ist der Nutzen und wer profitiert von diesem Projekt? Wer ist der Treiber? et cetera. 1
11 Datenqualitäts-Audits in Projekten
201
• Datenqualitätsverantwortliche Mitarbeiter werden in der Planungsphase des Projektes konsultiert und haben den Projektplan freigegeben. • Das Projekt erstellt einen Datenqualitäts-Aktivitätsplan. • Unter Anwendung der Datenqualitäts-Checkliste führt der Projektleiter regelmäßig eine Bewertung des Projektes durch. Dies ist durch Spezifizierung eines Meilensteines im Projektplan terminiert.
11.5.2 Service Level Agreements Datenqualität sollte ein wesentlicher Bestandteil von Service Level Agreements sein. Erst durch die Überprüfung der zweckbezogenen Nutzbarkeit von Informationen kann eine echte Qualitätsaussage in Bezug zu einer Datenlieferung getroffen werden. Die rein technische Bereitstellung, auch wenn diese garantiert wird, reicht nicht aus. Die benannten Parameter sind teilweise nicht unabhängig. Insbesondere ist eine Qualitätsaussage immer abhängig von den Erwartungen des Kunden. Diese Erwartungen sind mess- und nachvollziehbar in einem SLA zu dokumentieren. So kommen wir zu folgender Checkliste. Checkliste • Ein SLA ist schriftlich formuliert und durch die Prozessbeteiligten bestätigt. • Das SLA beschreibt die Datenfeldlieferung textlich, logisch (Beschreibung von Abhängigkeiten), chronologisch und im Kontext. • Das SLA spezifiziert die Datenqualitätsanforderungen an die Organisation, Prozesse, Datenqualitätsmessungen und an abgeleitete, hier beschriebene Aktivitäten.
11.5.3 Organisatorische Spezifikationen Um eine durchgängig hohe Qualität in Datensammlungen zu gewährleisten, müssen bestimmte Rollen spezifiziert werden. Idealerweise können diese Rollen auf Datenfeld-Ebene spezifiziert werden. Da dies unter Umständen mit hohen Aufwänden verbunden ist, kann dies auch in den Informationsgruppen geschehen,2 denen die Datenfelder angehören. Dateneigner Der Dateneigner ist verantwortlich für alle Belange ein Datenfeld oder eine Informationsgruppe betreffend. Er trägt Sorge dafür, dass die Daten und Informationen auch im wechselnden Umfeld stets aktuell bleiben. Datenfelder, welche zur gleichen logischen Information gehören, werden in entsprechenden Informationsgruppen zusammengefasst. Eine Adresse ist eine solche Informationsgruppe, zu der Daten wie ‚Straße‘, ‚Hausnummer‘, ‚Postleitzahl‘ und ‚Ort‘ gehören. 2
202
M. Gebauer und M. Mielke
Datenerfasser Der Datenerfasser ist die Quelle der Daten, die im weiteren Verlauf prozessiert und genutzt werden. Er gibt Daten ein und pflegt diese. Die Basis guter Datenqualität wird hier gelegt. Die Eingabe falscher Daten kann häufig nur mit großem Aufwand an Zeit und Geld korrigiert werden. Der Datenerfasser spielt so eine entscheidende Rolle in der Datenlieferkette und im Management der Datenqualität. Datenverarbeiter Der Datenverarbeiter prozessiert die Daten respektive überwacht die Ver- und Bearbeitung der Daten. Er hat die Integrität der Daten und Informationen unter Berücksichtigung der Anforderungen der Datennutzer sicherzustellen. Datenkunde Der Datenkunde ist der Nutzer der gesammelten und prozessierten Daten. Er ist für die Spezifizierung der Anforderungen an die Daten und Informationsgruppen verantwortlich. Jeder, der Informationen nutzt, die aus Daten abgeleitet werden, ist ein Datenkunde. Checkliste • Die Rollen Dateneigner, Datenerfasser, Datenverarbeiter und Datenkunde sind spezifiziert und unter den Prozessbeteiligten abgestimmt. • Die Aufgaben und Verantwortlichkeiten der zuvor spezifizierten Rollen sind klar beschrieben und abgestimmt. • Die Prozessbeteiligten, zumindest die Personen, die die zuvor genannten Rollen übernehmen, haben an einer Datenqualitätsschulung teilgenommen. • Dateneigner, Datenerfasser, Datenverarbeiter und Datenkunde treffen sich regelmäßig, um die Anforderungen an die Datenqualität der Informationsgruppen abzustimmen.
11.5.4 Prozess-Definitionen Kernursachen schlechter Datenqualität sind häufig begründet in der Prozesslandschaft. Entweder sind Prozesse unbekannt, nicht beschrieben oder beschriebene Prozesse werden nicht gepflegt und dementsprechend auch nicht gelebt. All diese Gründe führen zu einem – schlechte Datenqualität. Daher kommt der Spezifizierung und Implementierung von Prozessen im Projekt eine entscheidende Rolle zu und ist ein wesentlicher Teil der Projektarbeit. Prozesse Es ist essentiell, die folgenden Prozesse zu implementieren und zu dokumentieren. Sie sollten explizit in einem Datenqualitätsplan beschrieben und durch das Projekt implementiert werden. Datensammlung Der Prozess der Datensammlung beschreibt wie und welche Daten gesammelt/erfasst werden und welche Abhängigkeiten diese untereinander besitzen. Insbesondere sind hierbei die Beziehungen zu bereits existierenden Datenhaushalten zu berück-
11 Datenqualitäts-Audits in Projekten
203
sichtigen. Die Beschreibung des Datensammlungs-Prozesses umfasst auch technische Aspekte (z. B. Backup-Prozeduren). Es ist entscheidend, dass wichtige Prozessbeteiligte den Datensammlungs-Prozess beeinflussen können. So ist z. B. der Beitrag eines Konten-Sachbearbeiters im Kodierungsprozess eines Kunden wichtig für die Qualität der codierten Daten. Datenbearbeitung und Datenkorrektur Niemals kann vollends die Entstehung falscher Daten, sei es nun durch Erfassung oder Bearbeitung, vermieden werden. Daher muss ein Prozess zur Bearbeitung und Korrektur der Daten implementiert werden. Dies umfasst den Zugang, die Zugangsautorisierung und die Berücksichtigung von Datenschutzrichtlinien. Datenqualitäts-Prozess Der Datenqualitäts-Prozess beschreibt wie Datenqualität überwacht und gemessen wird und wer für die Schritte Definieren, Messen, Bewerten und Verbessern des PDCA-Zyklus verantwortlich ist. Für jeden Schritt wird für den PDCA-Zyklus spezifiziert Wer, Wann, Wo und Wie entsprechende Aktionen durchzuführen sind. Die Interaktion mit bereits vorhandenen, vertrauenswürdigen Informationen wird sichergestellt. Änderungs-Prozess Veränderung z. B. auf gesetzlicher Seite, neue Systeme, neue Datenelemente, Erweiterungen von Datenbanken, Daten-Migrationen können zu neuen Anforderungen an Datensammlungen führen. Projekte neuer Datenhaushalte müssen Teil einer organisationsweiten Change-Management Regelung sein. Veränderungen in Datenhaushalten müssen allen Prozessbeteiligten bekannt gemacht werden. Insbesondere Veränderungen in führenden Referenz-Datenbeständen, welche direkten Einfluss auf eine Datensammlung haben, sind zu beobachten. Eskalation Ein Eskalationsprozess garantiert allen Prozessbeteiligten einen gesicherten Weg, mit aufkommenden Datenqualitätsproblemen kontrolliert umzugehen. In diesem Eskalationsprozess ist beschrieben, wie im Falle von Datenqualitätskonflikten eine Entscheidung unter den Prozessbeteiligten herbeigeführt wird. Prozesskontrolle Alle Prozesse sind Gegenstand einer ständigen Verbesserung. So müssen dementsprechend Mechanismen entwickelt werden, mit deren Hilfe die Prozesse überwacht und verbessert werden können. Checkliste Die nachfolgende Checkliste gilt für die zuvor beschriebenen Prozesse. Sollen Prozesse nicht implementiert werden, so hat der Projektleiter dies zu begründen. • Der Prozess erfüllt die spezifizierten Anforderungen. • Der Prozess ist beschrieben und dokumentiert und die Dokumentation für die relevanten Personen verfügbar.
204
M. Gebauer und M. Mielke
• Die Prozessdokumentation wird gepflegt. • Aus Gründen der Verständlichkeit wird der Prozess mittels geeigneter Werkzeuge visualisiert. • Der Prozess ist mit den Beteiligten abgestimmt. • Ein Prozesseigner ist bestimmt und den Prozessbeteiligten bekannt.
11.5.5 Datensammlung, Datenverarbeitung und Datennutzung Um Datenredundanzen zu vermeiden, muss jeder neue Datenhaushalt gegen bereits existierende führende Referenz-Datenhaushalte geprüft werden. Führende Datenhaushalte können sowohl aus internen als auch aus externen Quellen stammen. Die Implementierung und Spezifizierung glaubwürdiger Systeme und Datenhaushalte ist für einen unternehmensweiten Datenhaushalt essentiell. Hierdurch werden Redundanzen vermieden, die Pflege vereinfacht und die Kosten der Datenhaltung reduziert. Checkliste Datensammlung • Existierende führende Referenz-Systeme sind die einzige Quelle für diese Daten. • Referenz-Systeme werden als Datenquelle überall dort genutzt, wo es angemessen erscheint. • Datenerfasser sind ausreichend geschult und sie sind sich ihrer Bedeutung für die Datenqualität bewusst. • Kritische Daten sind spezifiziert und werden im Vier-Augenprinzip erfasst. • Es erfolgt eine Qualitätskontrolle für die Datenerfassung. • Datenfehler können leicht an der Quelle korrigiert werden. • Fehler, Abweichungen oder fehlende Daten werden im Quellsystem bzw. Quelldatenbestand entfernt, korrigiert oder ersetzt. • Der Datenerfasser stellt sicher, dass der Referenzdatenbestand die Anforderungen des Datennutzers erfüllt. • Daten werden in angemessener Zeit gespeichert. Datenverarbeitung • Datenbearbeiter sind ausreichend geschult, um mit dem Datenbestand/dem System zu arbeiten. • Veränderungen von Dateninhalten können auf die Quelle dieser Änderungen zurückverfolgt werden. • Unternehmensweite Konsistenz der Daten und Information ist gewährleistet. • Prozesse zur Speicherung, Transformierung und Anreicherung von Daten sind klar beschrieben.
11 Datenqualitäts-Audits in Projekten
205
Datennutzung • Datennutzer haben ihre Anforderungen an die Qualität der Daten klar spezifiziert. • Datennutzer können erkennen, ob ihre Anforderungen erfüllt werden. • Es gibt einen Kommunikationsplan für die Entwicklungs- und Implementierungsphase neuer Datenhaushalte • Datenerfasser, Datenverarbeiter und Datennutzer sind sich über Messkriterien zur Überwachung der Datenqualität einig. • Datenerfasser, Datenverarbeiter und Datennutzer tauschen sich regelmäßig aus. • Datennutzer geben klare Rückmeldung an den Dateneigner (resp. Eigner des Datenhaushaltes).
11.5.6 Messung, Maßnahmen und Überwachung Auch wenn Datenmodelle und Datenelemente in der frühen Phase ihres Lebenszyklus sehr gut beschrieben sind, ist das Management der Datenqualität, deren Messung und die Abstimmung hierüber essentiell für den Datenhaushalt in der Zukunft. Das Verständnis für Daten und ihren logischen Abhängigkeiten untereinander geht mit der Zeit verloren oder es ändert sich schlicht. Daher sind Anforderungen an Datenqualitätsmessungen so früh wie möglich in der Projektphase neuer Datenhaushalte zu spezifizieren. Dabei sind sie gleichzeitig flexibel zu halten, um zukünftige Anforderungen berücksichtigen zu können. Die Anforderungen an die Datenqualität muss nachvollziehbar beschrieben und Messungen wiederholbar sein. Datenqualitätsmessungen sind eng mit den Anforderungen der Datennutzer korreliert und können selbst für gleiche Datenbestände von Nutzer zu Nutzer unterschiedliche Resultate ergeben. So sind die Datenqualitätsanforderungen aus einem betrieblichen Blickwinkel in sogenannten Geschäftsregeln zu formulieren. Datenqualitätsmanagement umfasst die Datenqualitätsmessung, die Ableitung von Maßnahmen, seien sie nun reaktiv oder aktiv, die Fehlerverifizierung, die Formulierung von Maßnahmen und die Überwachung, ob die eingeleiteten Maßnahmen wirksam waren. Alle beschriebenen Aktivitäten sind gleichermaßen auch auf Metadaten anwendbar. Metadaten beschreiben bis zu einem gewissen Grade die Anforderungen an Datenelemente und sind so ein partielles Kriterium für die Qualität eines Datenelements. Checkliste Datenqualitätsüberprüfung • Häufigkeit von Datenüberprüfungen, -Analysen und – Profilings sind spezifiziert und dokumentiert. • Datenüberprüfungen, -Analysen und – Profilings werden unter Berücksichtigung ihrer Nutzung regelmäßig durchgeführt. • Daten werden bei der Eingabe und bei Weitergabe validiert. • Abstimmungen zu führenden Referenzsystemen werden regelmäßig durchgeführt.
206
M. Gebauer und M. Mielke
• Validierungen und Abstimmungen sind mit Bezug zu den Fragen Wer, Wo, Wann und Wie etwas getan werden muss beschrieben. • Datenqualitätsmessungen –– Datenqualitätsmessungen werden auf Basis von Geschäftsregeln regelmäßig durch- geführt. –– Geschäftsregeln zur Durchführung der Messungen sind spezifiziert. –– Geschäftsregeln werden bei Datenüberprüfungen und Datenbereinigungen an der Quelle angewendet. –– Ein Standardsatz an Datenqualitätsmetriken ist spezifiziert. • Datenbestände werden regelmäßig einem Daten-Profiling unterzogen. Maßnahmen und Überwachung • Datenerfasser, Datenbearbeiter und Datennutzer verifizieren und bearbeiten Datenqualitätsprobleme. • Auf Datenqualitätsprobleme folgen reaktive und präventive Maßnahmen. • Messung, Verifizierung und Überwachung der Datenqualität sind teile eines implementierten PDCA-Zyklus. • Abgeleitete reaktive und präventive Maßnahmen werden dokumentiert. • Abgeleitete reaktive und präventive Maßnahmen werden in ihrer Umsetzung verfolgt und auf ihre Effektivität überprüft.
11.5.7 Technische Anforderungen Alle Datenbestände sollten integriert und konsistent aufeinander abgestimmt sein. Wo möglich, ist ein übergreifendes Datenmodell zu erstellen, welches die Wechselwirkungen und Abhängigkeiten unter den Datenbeständen beschreibt. Es ist essentiell, dass die logischen Abhängigkeiten der Datenbestände untereinander bekannt und beschrieben sind. Checkliste Systeme
• System, die auf Datenbestände angewiesen sind, werden mit jedem neuen Release in Bezug auf Datennutzung getestet. • Notwendige Veränderungen im Datenbestand werden im neuen Release explizit dokumentiert. Datenmodell und Metadatenmodell • Unternehmensweit gültige Datenelemente sind konsistent spezifiziert. • Datenänderungen werden nachvollziehbar dokumentiert.
11 Datenqualitäts-Audits in Projekten
207
• Daten werden in ihrer Struktur durch Metadaten beschrieben und diese Beschreibung ist verfügbar. • Referenz-Datenbestände sind implementiert gegen die sich andere Datenbestände abgleichen können. • Für jedes Datenfeld wird Vollständigkeit, Format, Wertebereich, Plausibilität und Exaktheit spezifiziert. • Daten sind in angemessener Weise normalisiert. • Abgeleitete Variablen werden genauso behandelt wie die zugrunde liegenden Original- Variablen. Datenflussdiagramm • Ein detailliertes Datenflussdiagramm, das alle Schnittstellen und Bestände eines Prozesses aufzeigt, ist verfügbar und aktuell. • Die kritischen Punkte und Einschränkungen im Datenfluss sind bekannt und werden kontinuierlich überwacht. Verbindung zu anderen Datenbeständen • Verbindungen und Abhängigkeiten zu anderen Datenbeständen sind bekannt, dokumentiert und diese Dokumentation ist verfügbar. • Redundante Sammlung und Speicherung von Daten, für die es bereits führende Referenzsysteme gibt, wird vermieden. • Wenn redundante Sammlung und Speicherung von Daten notwendig ist, werden diese Daten regelmäßig abgestimmt. Schnittstellen • Datenstrukturen in Schnittstellen sind klar spezifiziert, beschrieben und unter den Prozessbeteiligten abgestimmt. • Schnittstellen sind bevorzugt elektronisch, manuelle Schnittstellen müssen begründet werden. • Prozesse, in denen manuelle Schnittstellen involviert sind, sind nachvollziehbar zu beschreiben und unter den Prozessbeteiligten abzustimmen. • Schnittstellen sind in Bezug zu logischen, zeitlichen und kontextuellen Anforderungen zu beschreiben. Datenzugang • Daten sind leicht zugänglich. • Daten sind durch Nutzung von Standardwerkzeugen zugänglich (z. B. ODBC-, JDBC-Schnittstellen).
208
M. Gebauer und M. Mielke
• Der Datenzugriff wird durch eine Authentifizierung überwacht und jeder Zugang nachvollziehbar registriert. • Der Datenzugriff ist unter Berücksichtigung des Datenschutzes beschränkt. Datenbearbeitung • • • • •
Load/Update/Delete Prozesse (manuelle wie automatische) sind klar beschrieben. Falsche Daten können leicht korrigiert werden. Daten können leicht bearbeitet werden. Bearbeitung von Daten wird verfolgt, Log-Dateien werden gehalten. Log-Dateien werden gespeichert und regelmäßig revisioniert.
11.5.8 Dokumentation Alle Anforderungen an die Generische Datenqualitäts-Checkliste für Neue Datenhaushalte müssen in schriftlicher Form niedergelegt werden. Daneben gibt es viele andere Dokumente, in denen für die Datenqualität wichtige Aspekte reglementiert sind. Checkliste Aus Sicht der Datenqualität sollten die folgenden Dokumente verfügbar sein: • • • • • • •
Business Case Projektplan Service Level Agreement Prozess-Beschreibungen Organisationsmodell Datenqualitäts-Aktivitätsplan Technische Dokumentation
11.6 Zusammenfassung Die Generische Datenqualitäts-Checkliste für Neue Datenhaushalte liefert einen Satz von Anforderungen, welche es dem Assessor erlauben, neue Datenbestände in Bezug auf Datenqualitätsanforderungen zu bewerten. Acht Bereiche werden hierbei berücksichtigt: • • • • • •
Anforderungen an das Management Service Level Agreement Organisatorische Spezifikationen Prozess-Definitionen Datensammlung, Datenverarbeitung und Datennutzung Messung, Maßnahmen und Überwachung
11 Datenqualitäts-Audits in Projekten
209
• Technische Anforderungen • Dokumentation Nicht alle Anforderungen werden in allen Datenbeständen Anwendung finden. Es ist immer die Aufgabe des Assessors die ‚richtigen‘, anwendbaren Fragen zu stellen. In einigen Punkten gehen Anforderungen an Projekte über die eigentlichen Projektziele hinaus. Dies ist immer dann der Fall, wenn bereits in der Projektphase der Grundstein zukünftiger Datenqualität im Datenbestand gelegt werden soll.
Marcus Gebauer studierte Physik an der Universität Dortmund und der Humboldt-Universität zu Berlin und promovierte dort im Gebiet der Elementarteilchenphysik im Jahre 1997. Von 1997 bis 2001 war er in der WestLB Systems GmbH verantwortlich für Software-Produkte und -Projekte im Wertpapierumfeld. Danach leitete er bis 2009 als Datenqualitätsbeauftragter den Bereich Daten qualitätsmanagement der WestLB AG. Sein Verantwortungsbereich umfasste den gesamten WestLB-Konzern, der auf allen Kontinenten mit Handelsaktivitäten vertreten ist. Seit Oktober 2009 zeichnet Dr. Gebauer verantwortlich für den Bereich ‚Governance, Management und Organisation’ des IT-Bereiches der Hannover Re AG. In dieser Aufgabe ist er verantwortlich für die globale Ausrichtung der IT. Außerdem ist er Gründungsmitglied und Vorstandsvorsitzender der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ e.V.). Dr. Gebauer berät internationale Unternehmen und Organisationen in den Themen Daten- und Informationsqualität, Business Intelligence, Risk Management, Compliance und allen sachverwandten Gebieten. Er ist Mitglied des Advisory Boards der FinScore AG (Lausanne/Schweiz), Advisor der ‚School of Computer & Information Science‘ der University of South Australia (Adelaide/Australien) und Mitbegründer des EIDIQ ‚European Institute for Data and Information Quality‘. Prof. Michael Mielke studierte Wirtschafts- und Organisationswissenschaften an der Helmut Schmidt Universität in Hamburg (1989) sowie Accounting & Finance an der University of Texas in Houston (1994). Seine Schwerpunkte liegen in den quantitativen Methoden der BWL, im Operations Research und in der Managementberatung. Als international tätiger Berater hat er sich bis Ende 2002 vor allem auf komplexe IT-Großprojekte im Bankenumfeld konzentriert. Seit 2003 ist er im Inhouse Consulting der DB AG in verschiedenen Führungspositionen tätig. Als Arbeitsgebietsleiter Cluster: Digitalisierung & Innovation fokussiert er sich aktuell auf Data Analytics, AI, Robotic und Entrepreneurship. Das Thema Information Quality verbindet seine Interessen aus IT und Management- beratung. Er arbeitet mit dem IQ Program des Massachusetts Institute of Technology und dem Gründervater des IQM Richard Wang seit 2002 eng zusammen und hat die IQM-Bildungsangebote maßgeblich geprägt. Er ist Gründer der deutschen IQ Community und Wegbereiter u. a. für IQ Communities in Canada, Brasilien und Chile und engagiert sich als Autor in der DIN ISO 8000. Er berät Unternehmen, Organisationen u. a. in Themen der Daten- und Informationsqualität, Smart Data und Innovation, ist aktiv in die Forschung eingebunden und lehrt u. a. an der FH Kiel. 2008 wurde er gemeinsam mit Marcus Gebauer für herausragende Leistungen in der Informationsqualität durch das MIT TDQM Program geehrt. 2013 erhielt er mit seinem Team den Deutschen Bildungspreis für Innovation, 2015 den E-Learning Award für Konzeption und Umsetzung einer mobilen Lern- und Arbeitsplattform auf Basis von Informationsobjekten, die er gemeinsam mit der RWTH Aachen entwickelt. Mit dem Thema Dienstleistungs-innovation beschäftigt er sich seit 2007, mit seinem Team entwickelte er das Raum- und Methodenkonzept Inno-Lab und wurde 2015 mit dem Corporate Startup Award für Entrepreneurship für die Qualifikationsmaßnahme Startup-Safari ausgezeichnet.
210
M. Gebauer und M. Mielke
Mit dem Campus 4.0 hat er in Frankfurt am Main, eine Arbeits-, Innovations- und Qualifikationsumgebung geschaffen, in der unterschiedlichste Professionen gemeinsam Lösungen für die Digitalisierung entwickeln und anwenden. Siehe auch: http://prime.rwth-aachen.de/ http://www.m-mielke.net
Bewertung der Informationsqualität im Enterprise 2.0
12
Sven Ahlheid, Gernot Gräfe, Alexander Krebs und Dirk Schuster
12.1 Einführung Die Entwicklungen zum Web 2.0 haben das World Wide Web (WWW) grundlegend verändert. Nachdem die meisten Nutzer im WWW zunächst „nur“ nach Informationen suchten stellen Nutzer inzwischen sehr ausgiebig Informationen über sich selbst oder ihnen vertraute Themen in Blogs und Communities bereit. Facebook und Wikipedia sind zwei prominente Webseiten. Ihre Attraktivität entstammt allein den Informationen, welche die Nutzer selber zur Verfügung stellen. Um unternehmensinterne Wissensmanagementsysteme zu verbessern und zu erweitern wurde dieser Ansatz unter dem Schlagwort Enterprise 2.0 von Unternehmen aufgegriffen (Koch und Richter 2008). Im Idealfall würden demnach die Mitarbeiter selbständig eine in ihrem Unternehmen verfügbare Informationsplattform mit allen Informationen füllen, die für Ihre Arbeitskollegen wichtig sind. Für die Akzeptanz und den Erfolg eines Enterprise 2.0 Projektes ist die Qualität der bereitgestellten Informationen entscheidend. Im Web 2.0 wurde die gute Qualität der bei Wikipedia verfügbaren Informationen mehrfach dokumentiert (Giles 2005). Dieser Erfolg Die vorliegende Forschungsarbeit entstand im Rahmen des vom Bundesministerium für Wirtschaft und Technologie (BMWi) unter dem Förderkennzeichen 01MQ07014 geförderten Forschungsprogramms THESEUS. S. Ahlheid (*) · A. Krebs · D. Schuster Atos IT Solutions and Services GmbH, C-LAB, Paderborn, Deutschland E-Mail: [email protected]; [email protected]; [email protected] G. Gräfe Siemens AG, Energy Management, Nürnberg, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_12
211
212
S. Ahlheid et al.
wird von den intrinsisch motivierten Nutzern getragen, die aus persönlichem Interesse freiwillig mitarbeiten. Unter ihnen befindet sich eine sehr große Gruppe, die sehr regelmäßig Artikel erstellt und überarbeitet.1 In Unternehmen wird die Anzahl der Mitwirkenden im Vergleich zum Internet sehr viel geringer sein und zudem sind diese weniger intrinsisch motiviert (Rheinberg 2006). Arbeitsbezogene Tätigkeiten sind eher extrinsisch z. B. monetär motiviert. Daher sollten Enterprise 2.0 Projekte nur geringen Aufwand der Mitarbeiter zur Bereitstellung und Nutzung von Informationen beanspruchen. Hinsichtlich der Informationsqualität ergibt sich daraus eine große Herausforderung: Es ist ein Verfahren zur Bewertung der Qualität der verfügbaren Informationen zu wählen, das den Nutzern die Qualität einer Informationseinheit sehr schnell transparent macht ohne sie bei der Bewertung der gesamten Informationsbasis zu sehr in Anspruch zu nehmen. In diesem Beitrag wird ein hybrider Ansatz zur Bewertung der Informationsbasis diskutiert. Dieser Ansatz besteht aus drei Verfahren: 1. Explizites Feedback wird vom Nutzer einer Information durch Fragen wie z. B. „War diese Information hilfreich“ oder „Bewerten Sie diesen Artikel“ eingefordert. 2. Implizites Feedback wird durch eine Analyse des Nutzerverhaltens gewonnen. Informationen die zum Beispiel sehr häufig verlinkt sind und sehr häufig angesehen werden wird eine gute Informationsqualität zugeschrieben. 3. Die automatische Informationsqualitätsbewertung umfasst Algorithmen die aus Attributen der Informationseinheit (z. B. Länge des Beitrags, Verlinkungen) und des Autors (z. B. Beruf, Organisationszugehörigkeit) Aussagen zur Informationsqualität ableitet.
12.2 B eurteilung der Informationsqualität einer Enterprise 2.0 Wissensplattform mittels eines hybriden Ansatzes Die Beurteilung der Informationsqualität im Kontext des Web 2.0 durch explizites Nutzer- Feedback leidet unter Defiziten, die in verschärfter Form bei Anwendungen des Enterprise 2.0 auftreten. Gründe hierfür sind die vergleichsweise kleine Community in einem Unternehmen und die geringe Eigenmotivation, mit starken Beziehungen zwischen den MitarbeiterInnen und rechtliche Beschränkungen (Arbeitsgesetz, Regeln zum Datenschutz). Folglich sind wichtige Voraussetzungen für ein explizites Nutzer-Rating-System bei Anwendungen des Enterprise 2.0 nur in geringerem Maße vorhanden. Daher schlagen wir vor, sowohl explizites als auch implizites Nutzer-Feedback sowie eine automatisierte Bewertung von Informationsqualität in einem hybriden System zu kombinieren. Ziel ist dabei für jeden dieser Ansätze geeignete Dimensionen der Informationsqualität2 zu identifizieren, die von dem jeweiligen Ansatz beurteilt werden. Dabei Bereits Ende 2006 verfügte Wikipedia auf den englischsprachigen Seiten über eine Community von 46.000 Nutzern, die im laufenden Monat mindestens fünf Beiträge editierten hatten (Wikimedia Foundation 2006). 2 Wie beziehen uns hier und im Folgenden auf die im Kap. A.2 vorgestellten Dimensionen der Informationsqualität. 1
12 Bewertung der Informationsqualität im Enterprise 2.0
213
verfolgen wir nicht das Ziel für die verschiedenen Komponenten disjunkte Mengen von Qualitätsdimensionen zu identifizieren. Stattdessen gilt es die Ansätze zu kombinieren, um ein umfassendes Rating der Informationsqualität zu erhalten. Diese Kombination kann sehr einfach als gewichteter Mittelwert oder deutlich aufwendiger über ein lernendes Verfahren erreicht werden.
12.2.1 Automatische Beurteilung der Informationsqualität Der vermutlich älteste Ansatz zur automatischen Beurteilung von Informationsqualitätsdimensionen aufgrund formal zugänglicher charakteristischer Merkmale eines Textes ist das Konzept der Lesbarkeitsindizes, z. B. der Flesch-Kincaide Grade-Level. Hierbei werden strukturelle Daten (etwa die Satzlänge, Silbenzahl pro Wort) ermittelt, um die Verständlichkeit des Textes für eine Zielgruppe abzuschätzen (DuBay 2004). Ein spezifischerer Ansatz schätzt mit Hilfe einer linguistische Analyse (Wortartbestimmung, Nominal- und Verbalphrasenanalyse, Co-Referenz-Analyse, oder WordNet-basierte Bestimmung von lexikalischen Wortbeziehungen wie Polysemien und Hyperonymen) die Kohäsion eines Textes ab um Metriken zur Verständlichkeit zu erhalten (Dufty et al. 2004; Graesser et al. 2004). Verwandt hiermit ist ein Konzept, bei dem auf Basis lexikalischer Kohäsionen über eine graphentheoretische Analyse die Textqualität bewertet wird (Antiqueira et al. 2007). Nicht ganz überraschend ist die Wikipedia Gegenstand einer Reihe von Studien zur Bewertung der Informationsqualität durch quantitative Metriken. Lih schlägt vor, die Anzahl der Bearbeitungen eines Artikels und die Anzahl der verschiedenen Nutzer als „einfaches Maß für die Reputation eines Artikels“ zu nutzen und bezieht diese auf Zitationen der Wikipedia in Presseorganen (Lih 2004). Zwar ist nicht klar, ob der in Lihs Artikel verwendete Begriff „Reputation“ identisch mit der gleichnamigen Dimension der Informationsqualität ist, er wird sich wahrscheinlich auf eine Kombination von Dimensionen der Kategorie „Intrinsische Datenqualität“ beziehen. Etwa zur gleichen Zeit wie Lihs Beitrag begann Wikipedia mit der Entwicklung von Kriterien für hochwertige („exzellente“) Artikel. Stvilia et al. führten eine Faktoranalyse auf einer Auswahl von exzellenten und zufälligen Artikeln durch, um die Qualitätskriterien zu identifizieren, die das Qualitätsmodell der „exzellenten Artikel“ erklären (Stvilia et al. 2005). Die resultierenden Dimensionen sind (in Klammern die entsprechenden Dimensionen der Datenqualität): „Kompetenz/Reputation“ (Objektivität, Glaubwürdigkeit, Reputation und präzise Darstellung), „Vollständigkeit“ (Vollständigkeit), „Komplexität“ (Verständlichkeit), „Informationsgehalt“ (Relevanz, Mehrwert, Vollständigkeit), „Konsistenz“ (konsistente Darstellung, Genauigkeit), „Zeitnähe“ und „Volatilität“. Eine ähnliche Untersuchung, die zusätzlich Bezüge zum Coh-Metrix-Ansatz in (Dufty et al. 2004) hat, wurde von Blumenstock durchgeführt, der mehr als 100 Artikeleigenschaften auf vier verschiedenen Ebenen für einen Beispielsatz bestehend aus etwa 11.000 zufälligen bzw. exzellenten Artikeln extrahierte (Blumenstock 2008): äußere Eigenschaf-
214
S. Ahlheid et al.
ten (wie Worte, Sätze, Silben etc.), strukturelle Eigenschaften (z. B. Links, Abbildungen, Kategorien etc.), Lesbarkeits-Metriken sowie Wortarten. Die Ergebnisse zeigen, dass allein die Wortzählung schon mit hoher Genauigkeit „exzellente Artikel“ zu klassifizieren vermag. Allerdings erscheint es zweifelhaft, ob diese Ergebnisse in anderen Kontexten als Wikipedia angewandt werden können. Aufgrund der Regeln bei Wikipedia besteht die Tendenz Artikel in Richtung einer moderaten Größe zu entwickeln: Längere Artikel sollen geteilt werden. Bei kürzeren Artikeln wird bereits bei ihrer Nominierung zu „guten Artikeln“ ihre mangelnde Länge vermerkt. Entsprechend der Klassifizierung bei Wikipedia ist ein „guter Artikel“ die Vorstufe eines „exzellenten Artikels“ (Wikimedia Foundation 2009b, c). Kurze Texte in Wörterbuchart werden ins Wictionary verlegt. Ein weiterer Ansatz, der in seiner Methode sogar noch spezifischer auf Wikipedia- Strukturen setzt, ist die von Hammwöhner et al. durchgeführte Analyse. Sie stützen sich auf die Konsistenz der Verknüpfungen von Artikeln und Kategorien in verschiedenen Sprachen (unter Ausnutzung der Sprachlinks, die in den verschiedenen Sprachversionen von Wikipedia vorhanden sind) um Qualitätsaspekte zu identifizieren (Hammwöhner et al. 2007). Untersuchungen, die anhand von Nachrichtenartikeln durchgeführt wurden, verweisen auf zwei Aspekte (Ng et al. 2006; Tang et al. 2003): Zum einen dominieren bei der Wahrnehmung der Qualität eines Dokumentes individuelle Unterschiede stark, andererseits bieten die durch eine Textanalyse erhaltenen Dokumenteigenschaften ausreichend Informationen für einen Klassifikator, um insbesondere Qualitätseigenschaften zu prognostizieren, solange die Klassifikation der Dokumente konsistent durchgeführt wird (z. B. durch den gleichen Beurteiler). Zusammenfassend ist festzustellen, dass obwohl es derzeit noch kein allgemein bewährtes Verfahren zur automatischen Beurteilung der Informationsqualität gibt, Charakteristiken einer Reihe verschiedener Ansätze in der Literatur bekannt sind (siehe auch Ghose und Ipeirotis 2010; Cao et al. 2011; Willemsen et al. 2011; Hu et al. 2012; Korfiatis et al. 2012; Li et al. 2013; Ludwig et al. 2013). Um einen automatischen Klassifikator zu erstellen, sollten die folgenden Richtlinien beachtet werden: • Aufgrund der Ergebnisse von Ng et al. und Tang et al. sollte das Ziel nicht in einem „allgemeinen Qualitätsmerkmal“ liegen. Es sind die Qualitätsdimensionen zu betonen, die verschiedene Individuen mit geringer Varianz beurteilen (Ng et al. 2006; Tang et al. 2003). • Verlinkungen und andere strukturelle Daten, die (eventuell auch nur einen Mangel an) bestimmte(n) Qualitätsaspekte(n) zeigen, sollten herangezogen werden (Hammwöhner et al. 2007; Lih 2004). • Etablierte Erkenntnisse im Kontext von Lesbarkeitsindizes, aber auch die Arbeiten von Dufty et al., Stvilia et al. und Blumenstock suggerieren die Verwendung von Dokumenteigenschaften aus der statistischen oder linguistischen Analyse als Input für einen Klassifikator, um verschiedene Qualitätsaspekte mit Betonung auf „Verständlichkeit“ und „übersichtliche Darstellung“ zu identifizieren (Dufty et al. 2004; Stvilia et al. 2005; Blumenstock 2008).
12 Bewertung der Informationsqualität im Enterprise 2.0
215
12.2.2 Implizites Nutzer-Feedback Die Grundannahme zum impliziten Nutzer-Feedback besteht in der Vermutung, dass ein Konsument eine Information umso vielfältiger und intensiver nutzen wird, je bedeutsamer (interessant, relevant) sie für ihn ist. In der Literatur ist das implizite Feedback detailliert erforscht worden, um Methoden für die Objektsuche zu verbessern (Agichtein et al. 2006; Yanbe et al. 2007), oder um zeitintensives explizites Nutzer-Feedback wie z. B. Bewertungen und Fragebögen zu ersetzen (Nichols 1997). Oard und Kim schlagen vor, die Informationsqualität anhand der Benutzeraktivitäten zu beurteilen und teilen die verschiedenen Aktivitäten gemäß der Klassifikation von (Nichols 1997) in vier Verhaltenskategorien ein (Oard und Kim 2001): • Examination Diese Kategorie beinhaltet die direkten konsumierenden Aktivitäten eines Benutzers. Die Autoren weisen dieser Kategorie die Aktivitäten „listening“, „selecting“ und „viewing“ zu, die im Kontext des Internets oft als „click stream“ zusammengefasst werden. • Retaining Die zweite Kategorie setzt sich aus allen Aktivitäten zusammen, die die zukünftige Objektnutzung zum Ziel haben. Oard und Kim nennen diese Aktivitäten „bookmark“, „delete“, „print“, „purchase“, „save“ und „subscribe“. Der Aktivität „delete“ wird dabei, im Gegensatz zu allen anderen zuvor genannten Aktivitäten, eine negative Bewertung der jeweiligen Information impliziert. • Reference Diese Kategorie beschäftigt sich mit den Verknüpfungen zwischen unterschiedlichen Informationen. Oard und Kim weisen dieser Kategorie die Aktivitäten „cite“, „copy- and-paste“, „forward“, „link“, „quote“ und „reply“ zu. • Annotation In dieser Kategorie fassen Oard und Kim Aktivitäten zusammen, mit denen ein Benutzer bestimmte Information z. B. durch Hervorhebungen und Sortierungen bearbeitet und durch Bewertungen ergänzt. Die Aktivitäten „mark up“, „organize“, „publish“ und „rate“ sind in dieser Kategorie zu finden. Selbstverständlich lassen sich weitere Aktivitäten in die vier Kategorien aufnehmen. Zum Beispiel kann der Kategorie „Examination“ auch „mouse-clicks“ und „scrolling“ zugeordnet werden (Claypool et al. 2001), ebenso die Lesezeit (Cooper 2001) oder das Drucken eines Dokuments (Kim et al. 2000). Nach (Joachims et al. 2007) ist die Analyse der Klicks auf ein Objekt eine guter Indikator für die Relevanz des Dokuments. In der gleichen Weise kann die Kategorie „Annotation“ durch Tagging ergänzt werden (Golder und Hubermann 2006). Dabei können Empfehlungssysteme, die auf der investierten Nutzerzeit basieren, genauso korrekt sein wie Systeme, die auf explizitem Nutzer-Feedback basieren (Konstan et al. 1997).
216
S. Ahlheid et al.
Lawrence et al. verwenden die Verbindung zwischen Informationen für eine Einschätzung der Relevanz der Informationsqualitätsdimension (Lawrence et al. 1999). Auch der von Google verwendete Page Rank-Algorithmus, der auf der gewichteten Linktopologie basiert, belegt die Brauchbarkeit einer solchen Analyse. Die Aktivität „bookmarking“ verdient eine besondere Erwähnung: Rucker und Polanco haben ein Empfehlungssystem entwickelt, das auf den Bookmarks der Benutzer basiert (Rucker und Polanco 1997). Keine andere Aktivität des impliziten Feedbacks korreliert so stark mit den Interessen des Benutzers wie das bookmarking (Seo und Zhang 2000), so dass Suchmaschinen, die auf Empfehlungen von Bookmarks basieren, eine Alternative zu algorithmenbasierten Suchmaschinen darstellen können (Graefe et al. 2007). Die Bewertungsaktivität in der Kategorie „Annotation“ ist eine Zusammenfassung aller Arten des expliziten Feedbacks. Im Rahmen des impliziten Feedbacks ist nur die Tatsache, dass ein Benutzer bewertet, nicht jedoch der Inhalt der Bewertung, von Interesse, wobei davon ausgegangen wird, dass sich ein Benutzer vor der Bewertung einer Information mit ihr beschäftigt hat (White 2004; Kelly 2004).
12.2.3 Explizites Nutzer-Feedback Auf den ersten Blick erscheint es trivial, ein explizites Nutzer-Feedback oder Bewertungssystem für eine Enterprise 2.0 Wissensplattform zu entwickeln. Allerdings sind in diesem Zusammenhang einige Randbedingungen zu beachten: • Rentabilität Web 2.0-basierte Wissensplattformen sind in der Regel spendenfinanzierte, gemeinnützige Projekte, oder bauen auf ein werbefinanziertes Geschäftsmodell. Beide Formen lassen sich innerhalb eines Unternehmens nicht realisieren. Letztlich wird bei jedem Unternehmensprojekt die Rentabilität hinterfragt. Da Nutzen und Einnahmen, die durch eine solche Plattform generiert werden, nur schwer direkt messbar sind, ist es umso wichtiger, die (direkten und indirekten) Kosten für den Betrieb einer solchen Plattform niedrig zu halten. Auch ohne explizite Richtlinien seitens des Managements wird jeder beitragende Mitarbeiter die Zeit rechtfertigen müssen, die er für die Plattform aufwendet, und mit anderen unmittelbar Ertrag generierenden Aktivitäten vergleichen. • Gesetze und Bestimmungen Das Nutzer-Feedback könnte als eine Art Mitarbeiterbeurteilung betrachtet werden. Abhängig von jeweils geltenden Gesetzen, Betriebsvereinbarungen oder Tarifverträgen wird es Einschränkungen in Bezug auf die Sammlung, Speicherung und Darstellung solcher Bewertungen geben. Diese Einschränkungen beziehen sich auch auf die Speicherung der Seitenaufrufe durch Mitarbeiter, um implizites Nutzer-Feedback zu erhalten. Global operierende Unternehmen unterliegen hier besonderen rechtlichen Herausforderungen.
12 Bewertung der Informationsqualität im Enterprise 2.0
217
• Begrenzte Nutzer-Anzahl Im Vergleich zu erfolgreichen Web 2.0-Projekten wie Wikipedia, Facebook oder YouTube ist die Anzahl der potenziellen Nutzer im Unternehmenskontext, selbst bei den größten Unternehmen, eher begrenzt. Zusätzlich ist die starke fachliche Fraktionierung der Informationen auf einer solchen Plattform zu berücksichtigen. Jede einzelne Information ist nur für einen kleinen Teil der Mitarbeiter relevant. Ein Einkäufer wird vermutlich die Qualität der Informationen im Kontext der Produktentwicklung nicht beurteilen können. • Abneigung, Schikane Da die Mitarbeiter vom Unternehmen und ihrem Arbeitsplatz wirtschaftlich abhängig sind, kann eine Zurückhaltung bestehen die Meinung frei zu äußern. Die Beziehung zu Kollegen und Vorgesetzten kann davon beeinflusst werden. Andererseits könnte die Qualitätsbewertung auch zum Mobbing genutzt oder als solches verstanden werden. Umgekehrt kann sich der spezielle Unternehmenskontext auch begünstigend auf Enterprise 2.0 auswirken. Insbesondere wird kaum Vandalismus (Wikimedia Foundation 2009d) auftreten. Beim expliziten Nutzer-Feedback werden Antworten der Nutzer statistisch ausgewertet. Hierbei wirkt sich die zuvor diskutierte geringe Anzahl der Nutzer im Kontext des Enterprise 2.0 negativ aus, so dass eine möglichst hohe Antwortquote anzustreben ist. Daher empfiehlt es sich Fragen in Anzahl und Umfang zu begrenzen. Sie sollten leicht zu verstehen und ebenso leicht zu beantworten sein. Dies trägt auch zur Verringerung der Varianz in den Antworten bei, was wiederum den notwendigen Stichprobenumfang verringert. Fragen zu Tatsachen („Enthält der Artikel genug Referenzen?“) anstatt zu Eindrücken („Erscheint Ihnen der Artikel plausibel?“) dienen dem gleichen Ziel. Dem Problem von Zurückhaltung und Schikane kann eine sorgfältig gestaltete Darstellung der Ergebnisse entgegen wirken. Schließlich ist es für ein Unternehmen notwendig, Anreizsysteme für die Nutzung der Plattform zu entwickeln, die auch den expliziten Bewertungsmechanismus einschließen. Entsprechend der Theorie der rationalen Wahl müssen Anreize dem individuellen Nutzen dienen, um wirksam zu sein (Garnefeld et al. 2012). Zum Beispiel könnte die Aktivität von Mitarbeitern in die Leistungsbeurteilung einfließen. Auch die Gestaltung der Plattform (im Sinne der Usability) kann einen derartigen Anreiz darstellen, wenn sie die tägliche Arbeit in besonderem Maße erleichtert, etwa indem sie die Strukturierung von Informationen im persönlichen Arbeitsbereich (Nutzerprofil) unterstützt.
12.2.4 Zusammenwirken der drei Ansätze und Fazit Im Verlauf der obigen Diskussion der Untersuchungen zur automatischen Bewertung, zum impliziten und expliziten Nutzer-Feedback sowie zu den Beschränkungen im Kontext des Enterprise 2.0 konnten wir für jeden Mechanismus eine Beschränkung auf eine spezifische
218
S. Ahlheid et al.
Teilmenge der Dimensionen des Informationsqualitätsmodells feststellen. Wir haben gesehen, dass die automatische Bewertung vor allem in den Aspekten „Verständlichkeit“, „konsistente Darstellung“ sowie ggf. „Aktualität“ anwendbar ist. Implizites Nutzer-Feedback betont mit der Kategorie „Examination“ ebenso die Dimensionen „Interpretation“ und „Verständlichkeit“ und mit den Kategorien „Retaining“, „Reference“ und „Annotation“ die Dimensionen „Glaubwürdigkeit“, „Reputation“, „Relevanz“ und „Mehrwert“. Im Gegensatz dazu kann der explizite Ansatz vom Grundsatz her Bewertungen für jede Dimension liefern, aufgrund der genannten Einschränkungen wird es jedoch sinnvoll sein, die Anzahl der abgefragten Dimensionen zu reduzieren. Sowohl die automatische als auch die Komponente zum impliziten Nutzer-Feedback liefern keine direkte Metrik für die Qualität sondern lediglich Merkmale der Informationseinheit. Das ist die Aufgabe der zugehörigen Klassifikatoren die hierfür in der Regel trainiert werden müssen. Nicht zuletzt aufgrund von Veränderungen im Unternehmen werden immer wieder neue Trainingsdaten benötigt. Das explizite Nutzer-Feedback dient also dazu Qualitätsbewertungen für Dimensionen zu bekommen, die keine ausreichende Abdeckung durch die beiden anderen Methoden haben. Zudem wird explizites Nutzer- Feedback als Trainingsdaten für die Klassifikatoren verwendet.
Literatur Agichtein, E./Brille, E./Dumais, S.: Improving web search ranking by incorporating user behavior information. In: Proceedings of the 29th annual international ACM SIGIR Conference on Research and Development in Information Retrieval, August 6–11, 2006, Seattle, Washington. Antiqueira, L./Graças, M./Nunesm, V./Oliveira, O. N./Da F. Costa, L.: Strong correlations between text quality and complex networks features. In: Physica, A, 373, 2007, S. 811–820. Blumenstock, J. E.: Automatically Assessing the Quality of Wikipedia Articles. School of Information, Paper 2008-021, 2008. Cao, Q./Duan, W./Gan, Q.: Exploring determinants of voting for the „helpfulness” of online user reviews: A text mining approach. In: Decision Support Systems, 50 (2), 2011, S. 511–521. Claypool, M./Le, P./Wased, M./Brown, D.: Implicit interest indicators. In: Proceedings of the 6th International Conference on Intelligent User Interfaces, Santa Fe, New Mexico, United States, January 14–17, 2001, IUI ’01, ACM, New York, NY, 2001, S. 33–40. Cooper, M. D.: Predicting the relevance of a library catalog search. In: Journal of the American Society for Information Science and Technology, 52 (10), 2001, S. 813–827. DuBay, W. H.: The Principles of Readability. Impact Information, Costa Mesa, Calif., 2004. Dufty, D./McNamara, D./Louwerse, M./Cai, Z./Graesser, A.: Automatic Evaluation of Aspects of Document Quality. In: Proceedings of the 22nd Annual International Conference on Design of Communication: The engineering of quality documentation, 2004. Garnefeld, I./Iseke, A./Krebs, A.: Explicit Incentives in Online Communities: Boon or Bane? In: International Journal of Electronic Commerce, 17 (1), 2012, S. 11–38. Ghose, A./Ipeirotis, P.: Estimating the helpfulness and economic impact of product reviews: Mining text and reviewer characteristics. In: IEEE Transactions on Knowledge and Data Engineering, 23 (10), 2010, S. 1498–1512. Giles, J.: Internet encyclopedias go head to head. In: Nature, 43, 2005, S. 900–901.
12 Bewertung der Informationsqualität im Enterprise 2.0
219
Golder, S./Huberman, B.: The Structure of Collaborative Tagging Systems. In: Journal of Information Science 32 (2), 2006, S. 198–208. Graefe, G./Maaß, C./Heß, A.: Alternative Searching Services: Seven Theses on the Importance of “Social Bookmarking”. In: The Social Semantic Web 2007: Proceedings of the 1st Conference on Social Semantic Web (CSSW), GI Edition, Lecture Notes in Informatics, 2007, S. 11–21. Graesser, A. C./McNamara, D. S./Louwerse, M. M./Cai, Z.: Coh-metrix: analysis of text on cohesion and language. In: Behavior Research Methods 36 (2), 2004, S. 193–202. Hammwöhner, R./Fuchs, K.-P./Kattenbeck, M./Sax, C.: Qualität der Wikipedia – Eine vergleichende Studie. Internationales Symposium Informationswissenschaft, ISI 2007, Köln, 2007. Hu, N./Bose, I./Koh, N. S./Liu, L.: Manipulation of online reviews: An analysis of ratings, readability, and sentiments. In: Decision Support Systems, 52 (3), 2012, S. 674–684. Joachims, T./Granka, L./Pan, B./Hembrooke, H./Radlinkski, F./Gay, G.: Evaluating the accuracy of implicit feedback from clicks and query reformulations in Web search. ACM Transactions on Information Systems, 25 (2), 2007. Kelly, J. D.: Understanding Implicit Feedback and Document Preference: a Naturalistic User Study. Doctoral Thesis, UMI Order Number: AAI3117613, Rutgers University, 2004. Kim, J./Oard, D. W./Romanik, K.: Using implicit feedback for user modeling in internet and intranet searching. University of Maryland, CLIS, Technical Report 00–01, 2000. Koch, M./Richter, A.: Enterprise 2.0– Planung, Einführung und erfolgreicher Einsatz von Social Software in Unternehmen. Oldenburg Wissenschaftsverlag, München, Germany, 2008. Konstan, J./Miller, B./Maltz, D./Herlocker, J./Gordon, L./Riedl, J.: GroupLens: applying collaborative filtering to Usenet news. Communications of the ACM 40 (3), 1997, S. 77–87. Korfiatis, N./Garcia-Bariocanal, E./Sánchez-Alonso, S.: Evaluating content quality and helpfulness of online product reviews: The interplay of review helpfulness vs. review content. In: Electronic Commerce Research and Applications, 11 (3), 2012, S. 205–217. Lawrence, S./Bollacker, K./Giles, C. L.: Indexing and retrieval of scientific literature. In: Proceedings of the Eighth International Conference on Information and Knowledge Management (Kansas City, Missouri, United States, November 02–06, 1999), S. Gauch, Ed. CIKM ’99, ACM, New York, NY, 1999, S. 139–146. Li, M./Huang, L./Tan, C.-H./Wie, K.-K.: Helpfulness of online product reviews as seen by consumers: Source and content features. In: International Journal of Electronic Commerce, 17 (4), 2013, S. 101–136. Lih, A: Wikipedia as Participatory Journalism: Reliable Sources? Metrics for evaluating collaborative media as a news resource. 5th International Symposium on Online Journalism, April 16–17, 2004. Ludwig, S./de Ruyter, K./Friedman, M./Brüggen, E. C./Wetzels, M./Pfann, G.: More than words: The influence of affective content and linguistic style matches in online reviews on conversion rates, In: Journal of Marketing, 77 (1), 2013, S. 87–103. Ng, K. B./Kantor, P./Strzalkowski, T./Wacholder, N./Tang, R./Bai, B./Rittman, R./Song, P./Sun, Y.: Automated judgment of document qualities: Research Articles. In: American Society for Information Science & Technology, 57 (9), 2006, S. 1155–1164. Nichols, D.: Implicit ratings and filtering. In: Proceedings of the 5th DELOS Workshop on Filtering and Collaborative Filtering, Budapest, Hungary 10–12, ERCIM, 1997. Rheinberg, F.: Intrinsische Motivation und Flow-Erleben. In: Heckhausen, J./Heckhausen, H. (Hrsg.): Motivation und Handeln, 3. Aufl., Heidelberg, 2006, S. 331–354. Rucker, J./Polanco, M. J.: Siteseer: personalized navigation for the Web. In: Communications of the ACM, 40 (3), 1997, S. 73–76.
220
S. Ahlheid et al.
Seo, Y./Zhang, B.: Learning user’s preferences by analyzing Web-browsing behaviors. In: Proceedings of the 4th International Conference on Autonomous Agents (Barcelona, Spain, June 03–07, 2000), AGENTS ’00, ACM, New York, NY, 2000; S. 381–387. Stvilia B./Twidale, M. B./Smith, L.C./Gasser, L.: Assessing information quality of a community- based encyclopedia. In: Proceedings of the International Conference on Information Quality – ICIQ 2005, S. 442–454. Tang, R./Ng, K. B./Strzalkowski, T./Kantor, P. B.: Automatically Predicting Information Quality in News Documents. In: Proceedings of Human Language Technology – North American Chapter of the Association for Computational Linguistics, 2003. White, R. W.: Implicit Feedback for Interactive Information Retrieval. Doctoral Thesis, Glasgow University, 2004. Wikimedia Foundation. http://stats.wikimedia.org/EN/TablesWikipediansEditsGt5.htm. Wikimedia Foundation. http://en.wikipedia.org/wiki/Wikipedia:Good_article_criteria (letzte Änderung vom 29. August 2014, 12:51h) and http://en.wikipedia.org/wiki/Wikipedia:Featured_article_criteria (letzte Änderung vom 25. January 2014, 16:41h). Wikimedia Foundation. http://en.wikipedia.org/wiki/Wikipedia:Splitting (letzte Änderung vom 26. August 2014, 16:35h). Wikimedia Foundation. http://en.wikipedia.org/wiki/Wikipedia:Guide_for_nominating_good_articles (letzte Änderung vom 3. August 2014, 00:34h). Wikimedia Foundation. http://en.wikipedia.org/wiki/Wikipedia:Vandalism (letzte Änderung vom 5. September 2014, 19:55h). Willemsen, L. M./Neijens, P. C./Bronner, F./de Ridder, J. A.: “Highly recommended!” The content characteristics and perceived usefulness of online consumer reviews. In: Journal of Computer- Mediated Communication, 17 (1), 2011, S. 19–38. Yanbe, Y./Jatowt, A./Nakamura, S./Tanaka, K.: Can social bookmarking enhance search in the web? In: Proceedings of the 2007 Conference on Digital Libraries, June 18–23, 2007, Vancouver, BC, Canada, 2007, S. 107–116.
Sven Ahlheid M.A. hat an der Universität Paderborn International Business Studies und an der renommierten Pontifícia Universidade Católica do Rio de Janeiro Marketing studiert. Seit 2006 arbeitet er im C-LAB, einer Forschungs- und Entwicklungskooperation der Universität Paderborn mit dem internationalen IT-Dienstleister Atos (bis 2010 mit der Siemens AG). Von 2008 bis 2011 war Sven Ahlheid für das Arbeitspaket Information Quality innerhalb des Anwendungsfalls ALEXANDRIA des vom Bundesministerium für Wirtschaft und Energie (BMWi) geförderten THESEUS-Forschungsprogramms verantwortlich. Der Schwerpunkt seiner Arbeit lag im Bereich der automatischen und nutzerbasierten Messung sowie Verbesserung von Informationsqualität. Hierbei beschäftigte er sich insbesondere mit der Analyse impliziten Nutzer-Feedbacks für die Bestimmung der Qualität von Informationen im Web 2.0 und Enterprise 2.0. Seit 2012 arbeitet er im Atos-internen Projekt Zero E-MailTM, einem internationalen Change-Projekt mit dem Ziel der Verbesserung der internen Kommunikations- und Kollaborationsprozesse sowie des Wissens-managements. In 2013 hat er die Verantwortung für das Projekt in Deutschland übernommen. Dr. rer. pol. Gernot Gräfe hat an der FernUniversität Hagen und der Universität Paderborn Wirtschaftswissenschaften studiert und im Bereich des strategischen Marketings promoviert. Von 2001 bis 2004 arbeitete er als wissenschaftlicher Mitarbeiter der Universität Paderborn und von 2004 bis 2010 als Business Developer und Consulting Line Manager der Siemens AG im Cooperative Computing and Communication Laboratory (C-LAB). Dort beschäftigte sich Gernot Gräfe mit dem Thema der Informationsqualität in Entscheidungsprozessen. Dies umfasste private (Kauf-) Ent-
12 Bewertung der Informationsqualität im Enterprise 2.0
221
scheidungen und auch unternehmerische (Investitions-) Entscheidungen. Besondere Berücksichtigung fand dabei der elektronische Informationsaustausch im Web 2.0. Seit 2010 ist Gernot Gräfe in den Geschäftsbereichen Siemens Smart Grid Services im Business Develop-ment und Siemens Energy Automation im Vertrieb tätig. In diesem Zusammenhang beschäftigt er sich unter anderem mit der Frage der Informationsqualität in Customer Relationship Management Systemen. Dr. rer. oec. Alexander Krebs hat an der Universität Paderborn ein Studium der Betriebswirtschaftslehre mit den Schwerpunkten Marketing und Wirtschaftsinformatik absolviert. Danach war er als wissenschaftlicher Mitarbeiter am Lehrstuhl für Betriebswirtschaftslehre, insb. Marketing, an der Universität Paderborn und der Ruhr-Universität Bochum beschäftigt, wo er zu den Determinanten eines regelwidrigen Verhaltens beim wirtschaftlichen Leistungsaustausch promoviert hat. Seit 2007 arbeitet Alexander Krebs als Management Consultant im Cooperative Computing and Communication Laboratory (C-LAB) – einer Kooperation der Universität Paderborn mit dem internationalen IT-Dienstleister Atos (bis 2010 mit der Siemens AG). Als stellvertretender C-LAB Leiter verantwortet er dort die Arbeitsgruppen Business Development und Usability Engineering. Das C-LAB positioniert sich dabei an der Schnittstelle zwischen Wissenschaft und Industrie und transferiert innovative Informations- und Kommunikationstechnologien aus der Forschung in die Praxis. Seit Beginn seiner Tätigkeit im C-LAB befasst sich Alexander Krebs mit dem Themengebiet Informationsqualität. Im Rahmen des vom Bundesministerium für Wirtschaft und Energie (BMWi) geförderten THESEUS-Forschungsprogramms leitete er die C-LAB Arbeiten im Use Case ALEXANDRIA, in dem u. a. unterschiedliche Ansätzen für eine umfassende Messung und Erhöhung der Informationsqualität auf Web 2.0-Wissensplattformen entwickelt wurden. Gegenwärtig liegt der Fokus auf dem Transfer der gewonnenen Ergebnisse in die Atos-interne Zero E-MailTM Initiative. Diese hat das Ziel, das tägliche unternehmensinterne E-Mail-Aufkommen durch die Nutzung von alternativen Enterprise 2.0-basierten Kommunikationsformen signifikant zu reduzieren. Dr. Dirk Schuster studierte an den Universitäten Erlangen, Kiel und Uppsala Mathematik und Physik und wurde 1992 mit einer Arbeit aus der Operatortheorie im Bereich der mathematischen Analysis promoviert. Nach einer Tätigkeit als wissenschaftlicher Mitarbeiter an der Universität Paderborn entwickelte er lichttechnische Software bei einem High-Tech-Startup für die Automobilindustrie. Seit 2001 ist er bei Siemens, seit 2010 bei Atos, in verschiedenen Softwareprojekten, unter anderem für Fluggesellschaften, für die technische Lösung verantwortlich. Seit 2008 ist er als Senior Software Architect im Cooperative Computing and Communication Laboratory (C-LAB) tätig. Das C-LAB ist eine Kooperation der Universität Paderborn mit dem internationalen IT-Dienstleister Atos (bis 2010 mit der Siemens AG). Das C-LAB positioniert sich an der Schnittstelle zwischen Wissenschaft und Industrie und transferiert innovative Informations- und Kommunikationstechnologien aus der Forschung in die Praxis. Im Forschungsprogramm Theseus war er mit der Konzeption und Entwicklung von Software zur automatischen Bewertung der Informationsqualität auf einer Web 2.0-Informationsplattform im Internet ( http://www.c-ab.de/projekte/abgeschlossende_projekte/2011/theseus/).
Teil III Organisation
Organisatorische Ansiedlung eines Datenqualitätsmanagements
13
Jens Lüssem
13.1 Einführung Für die meisten Unternehmen im deutschsprachigen Raum ist Daten- bzw. Informationsqualität ein junges Thema – ein Thema, das in den letzten Jahren in vielen Organisationen an Bedeutung gewonnen hat. Dies zeigt die Vielzahl der Aktivitäten, die mit dem Thema Datenqualität (DQ) verknüpft sind. In den letzten Jahren werden vermehrt DQ-Werkzeuge am Markt angeboten, immer mehr Beratungsunternehmen spezialisieren sich auf dieses Thema. Viele Unternehmen haben erkannt, dass das Thema organisatorische Veränderungen nach sich ziehen wird, und stehen vor der Entscheidung, ein so genanntes Datenqualitätsmanagement einzuführen und organisatorisch anzusiedeln. Insbesondere Untenehmen des Dienstleistungssektors haben bei diesem Schritt in der Regel keine „Vorbilder“, wie sie bei Produktionsunternehmen in Form von zentralen Qualitätsabteilungen häufig zu finden sind. Die „richtige“ Verankerung des Datenqualitätsmanagements stellt für Unternehmen einen wichtigen Erfolgsfaktor für die nachhaltige Schaffung einer angemessenen Datenqualität dar (English 1999; Olson 2003).
13.1.1 Motivation In den vergangenen Jahren wurde eine Reihe von Studien zum Themenkomplex „Datenqualität“ veröffentlicht (Mathes et al. 2005). Die Ergebnisse dieser Studien ergeben J. Lüssem (*) Fachhochschule Kiel, Informatik und Elektrotechnik, Grenzstraße 3, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_13
225
226
J. Lüssem
f olgendes Bild von den meist genannten Hindernissen auf dem Weg zu einem funktionierenden Datenqualitätsmanagement (aufgelistet in absteigender Relevanz): 1. Die Unterstützung des Managements für ein (starkes) Datenqualitätsmanagement ist kaum vorhanden oder fehlt gänzlich. 2. Die Probleme der (organisatorischen) Realisierung eines Datenqualitätsmanagements können nicht behoben werden. 3. Datenqualitätsmanagement findet in Projekten nicht in ausreichender Weise Berücksichtigung. 4. Für ein umfassendes Datenqualitätsmanagement existiert kein schlüssiger Busi ness Case. 5. Ein Datenqualitätsbewusstsein hat sich bei den Mitarbeitern des Unternehmens noch nicht ausgebildet. 6. Im Unternehmen existieren nur unzureichende Konzepte zum Datenqualitätsma nagement. Für den Aufbau eines funktionsfähigen Datenqualitätsmanagements werden also als Hindernisse neben einer unzureichenden Managementunterstützung vor allem (organisatorische) Realisierungsprobleme genannt. Diese beiden Hindernisse sind direkt mit der organisatorischen Ansiedlung eines Datenqualitätsmanagements im Unternehmen verknüpft. Als drittgrößtes Hindernis werden Probleme bei der Berücksichtigung von Datenqualität genannt. Auch an dieser Stelle spielt die angemessene organisatorische Verankerung des Datenqualitätsmanagements in Projekten der Unternehmen eine entscheidende Rolle. Auch aus dem fünften Punkt, in dem das mangelnde Datenqualitätsbewusstsein bei den Mitarbeitern des Unternehmens thematisiert wird, lassen sich weitere Handlungsempfehlungen ableiten.
13.1.2 Gliederung des Kapitels Das Kapitel folgt dem in der Motivation aufgezeigten Pfad und beginnt mit der Entwicklungslinie des Qualitätsmanagements, anhand derer aufgezeigt wird, dass die organisatorische Ansiedlung einer Qualitätsabteilung (mit-)bestimmt wird von der Ausrichtung der zugeordneten Aufgaben. Eine isolierte Betrachtung der organisatorischen Ansiedlung des Datenqualitätsmanagements ohne eine gleichzeitige Analyse der thematisch angrenzenden Organisationseinheiten erscheint nicht sinnvoll und zielführend. Daher liegt der Fokus des darauf folgenden Abschnitts auf den Organisationseinheiten, die mit dem Datenqualitätsmanagement verbunden sind. Im nächsten Abschnitt wird auf die Rolle eines Datenqualitätsmanagements in Pro jekten eingegangen. Diese beeinflusst zumindest indirekt die Verankerung des Daten qualitätsmanagements innerhalb der Organisation. Der Trend zu projektorientierter Arbeit in Unternehmen, der weiterhin (ungebremst) zunimmt, wird Auswirkungen auf die Aus-
13 Organisatorische Ansiedlung eines Datenqualitätsmanagements
227
richtung eines Datenqualitätsmanagements und damit auch auf dessen organisatorische Ausrichtung haben. Der letzte Abschnitt geht – neben einer kurzen Zusammenfassung – auf zukünftige Entwicklungen im Bereich des Datenqualitätsmanagements ein und gibt eine Prognose hinsichtlich der möglichen Auswirkungen auf dessen Ansiedlung im Unternehmen.
13.2 Datenqualitätsmanagement – Entwicklungsstufen und Aufgaben Aufgaben und organisatorische Ansiedlung eines Datenqualitätsmanagements sind kaum voneinander zu trennen (Argyris und Schön 1978; Schreyögg 2003). Dies wird anhand des folgenden Schaubilds (Abb. 13.1), das sich auf Qualitätssicherung bzw. -management in Produktionsuntenehmen bezieht, deutlich (Dippold et al. 2005; Heinrich und Lehner 2005; Krcmar 2004). Aus der Abb. 13.1 wird deutlich, dass in Unternehmen zunächst zentrale Abteilungen dominierten, die sich um Qualitätssicherung und -kontrolle kümmerten. Eine Beteiligung weiterer Unternehmensbereiche war in diesem Entwicklungsstadium nicht vorgesehen. Erst relativ spät haben sich umfassendere Qualitätskonzepte etabliert, die es erforderten, dass sich neben den zentralen Qualitätsabteilungen weitere Abteilungen (im besten Fall: jeder Mitarbeiter des Unternehmens) mit dem Thema Qualität beschäftigen (Brunner und Wagner 2004; Pfeifer 2001). Die damit verbundenen – notwendigen – organisationalen Lernprozesse haben sich leider als äußerst komplex erwiesen, so dass Übergänge zu ganzheitlichen Qualitätskonzepten häufig mehrere Jahre dauern können (Argyris und Schön 1978).
Abb. 13.1 Entwicklungsstufen des Qualitätsmanagements
228
J. Lüssem
13.2.1 Sicherung der Datenqualität In Analogie zu den zentralen Qualitätsabteilungen in Produktionsunternehmen haben sich in den letzten zwei Jahrzehnten – zunächst insbesondere in Unternehmen der Dienstleistungsbranche – zentrale Organisationseinheiten etabliert, die mit der operativen Sicherstellung der Datenqualität betraut sind. Die konkreten Aufgaben reichen hier üblicherweise von einer Kontrolle der (geforderten) Datenqualität bis hin zur Herstellung der (geforderten) Datenqualität.1 Diese Aufgaben kann man als eher reaktiv bezeichnen. Eine Beschränkung auf derartige reaktive Aufgaben mag auf ein deutlich verkürztes Verständnis von Datenqualität im Unternehmen hindeuten. Ebenfalls in Analogie zu den aufgezeigten Entwicklungsschritten des Qualitätsmanagements (s. Abb. 13.1) werden diese zentralen Abteilungen auch bei der Etablierung ganzheitlicher Datenqualitätsmanagementkonzepte weiterhin aufrechterhalten.
13.2.2 Management der Datenqualität Erst mit der Übernahme von steuernden – und damit wenigstens teilweise proaktiven – Aufgaben kann von einem wirklichen Datenqualitätsmanagement gesprochen werden. Üblicherweise werden zumindest die folgenden Aufgabenbereiche von einem Datenqualitätsmanagement verantwortet: • Erstellung von Vorgaben und Richtlinien zur Datenqualität • Auswahl (und Anwendung2) von Methoden und DQ-Werkzeugen zur –– Identifikation von Datenqualitätsmängeln –– Messung der Datenqualität (bspw. entlang von Prozessen) –– Verbesserung der Datenqualität • Erstellung von Datenqualitätsberichten • Koordinierung von Regelkreisen zur Datenqualität Bereits anhand der Auflistung der wichtigsten Aufgabenbereiche eines Datenqualitätsmanagements wird deutlich, dass eine derartig aufgestellte Organisationseinheit eine Vielzahl von Schnittstellen in das jeweilige Unternehmen besitzen muss, um wirksam werden zu können. Das Wort „geforderten“ ist eingeklammert, da in den Unternehmen, in dem ein derartiges Verständnis von Datenqualität vorherrscht, in vielen Fällen noch keine konkreten Anforderungen an Datenqualität definiert werden. 2 Die Anwendung von DQ-Werkzeugen kann ggf. in die Fachabteilungen oder die IT-Abteilung verlagert werden und ist nicht automatisch Bestandteil des Aufgabenportfolios des Datenqualitätsmanagements. 1
13 Organisatorische Ansiedlung eines Datenqualitätsmanagements
229
13.3 Datenqualitätsmanagement – Ansiedlung im Unternehmen Die folgende Abbildung gibt zum einen Aufschluss über die wichtigsten Ursachen unzureichender Datenqualität und damit zum anderen Hinweise auf die an ein Datenqualitätsmanagement angrenzenden Unternehmensbereiche, die einen Einfluss auf die Datenqualität haben. In diesem Unternehmenskontext muss ein Datenqualitätsmanagement etabliert werden, das vor allem in der Lage ist, zentrale Vorgaben bzw. Richtlinien zu erstellen, DQ-Werkzeuge zu etablieren und eine Koordinierungsfunktion auszuüben. Bevor auf eine adäquate Ansiedlung eines Datenqualitätsmanagements in Unternehmen eingegangen werden kann, soll zunächst das Zusammenspiel des Datenqualitätsmanagements mit anderen relevanten Unternehmensbereichen eingegangen werden.
13.3.1 Kopplung von Datenqualitätsmanagement mit anderen Unternehmensbereichen Aus Abb. 13.2 wird deutlich, dass es diverse Berührungspunkte zwischen Fachbereichen und Datenqualitätsmanagement existieren. Exemplarisch sei nur die Definition von Anforderungen (der Datennutzer) an die Datenqualität genannt. Falls mehrere Fachbereiche Anforderungen an die gleichen Daten stellen, kommt an dieser Stelle dem Datenqualitätsmanagement neben der Beratung der Fachbereiche eine Koordinations- und Moderationsrolle zu. Diese in Abb. 13.3 angedeutete Kopplung kann nur durch einen stetigen Austausch zwischen Fachabteilungen und Datenqualitätsmanagement gewährleistet werden. Da der Koordinationsfunktion an dieser Stelle eine besondere Bedeutung zukommt, ist es empfehlenswert, das Datenqualitätsmanagement nicht direkt in einer der an diesen Prozessen beteiligten Fachabteilungen anzusiedeln.3 Der IT-Abteilung kommt als Instanz, die Verantwortung für die Verarbeitung der Daten besitzt, ebenfalls eine herausragende Bedeutung zu. Insbesondere betrifft dies die folgenden Funktionen (s. auch Abb. 13.4): • IT-Architektur (Verantwortung für die Designprinzipien und Ausgestaltung der IT-Landschaft des Unternehmens) • Schnittstellenmanagement (Verantwortung für die Konzeption und Umsetzung von Schnittstellen zwischen den IT-Systemen des Unternehmens) • Systemadministration (Verantwortung für das reibungslose Funktionieren der IT-Systeme im Unternehmen) Falls es im Wesentlichen nur einen Unternehmensbereich gibt, der die im Unternehmen erzeugten Daten nutzt, kann eine dortige Ansiedlung des Datenqualitätsmanagements sinnvoll sein.
3
230
J. Lüssem
Abb. 13.2 Ursachen unzureichender Datenqualität Abb. 13.3 Kopplung des Datenqualitätsmanagements mit Fachabteilungen
Fachabt. I
Fachabt. II
DQM
Fachabt. III Single Point Of Contact (SPOC)
Die in der obigen Abbildung skizzierte Kopplung muss – sowohl in der Linie als auch in Projekten – sehr stark ausgeprägt sein, um wirksam werden zu können. An dieser Stelle sollen mit Prozess- und Qualitätsmanagement zwei weitere Organisationseinheiten Erwähnung finden, die starke Berührungspunkte mit dem Datenqualitätsmanagement haben (s. Abb. 13.5). So führen in vielen Fällen schlecht definierte Prozesse in letzter Konsequenz zu Datenqualitätsproblemen – beispielsweise müssen aufgrund schlecht definierter Prozessschritte in vielen Fällen manuelle Workarounds eingesetzt werden, die dazu führen
13 Organisatorische Ansiedlung eines Datenqualitätsmanagements Abb. 13.4 Kopplung des Datenqualitätsmanagements mit der IT-Abteilung
231
Schnittstellenmanagement
IT-Architektur
DQM
Systemadministration Single Point Of Contact (SPOC)
Abb. 13.5 Kopplung des Datenqualitätsmanagements mit Prozess- und Qualitätsmangement
DQM
Prozessmanagement
Qualitätsmanagement Single Point Of Contact (SPOC)
können, dass die Datenqualität innerhalb des gesamten Prozesses absinkt. (Gaitanides et al. 1994). Eine unzureichende Qualitätssicherung bei Softwareprodukten kann dazu führen, dass die Datenqualität auf den betroffenen Prozessstrecken absinkt.
13.3.2 Folgerungen für die Ansiedlung eines Datenqualitätsmanagements Aus dem oben Gesagten lassen sich die folgenden zentralen Aussagen hinsichtlich der organisatorischen Ansiedlung eines Datenqualitätsmanagements treffen: • Das Datenqualitätsmanagement sollte als eigenständige Organisationseinheit im Unternehmen etabliert werden.
232
J. Lüssem
• Eine Ansiedlung in einem Fachbereich ist in der Regel als nicht sinnvoll einzustufen – Ausnahme: der Fachbereich ist im Wesentlichen einziger Nutzer der Daten. • Eine Ansiedlung im IT-Bereich kann zu Zielkonflikten innerhalb des IT-Bereichs führen (z. B. im Rahmen der Umsetzung von Projekten – Kosten vs. Qualität). Falls diese Zielkonflikte im Sinne des Unternehmens aufgelöst werden können, stellt eine derartige Verankerung eine gute Alternative dar. • Eine Ansiedlung im Stab der Unternehmensleitung stärkt die Durchsetzungskraft eines Datenqualitätsmanagements und liefert damit ebenfalls eine sinnvolle organisatorische Verankerung. Allerdings kann diese exponierte Stellung auf Dauer zu Konflikten mit den oben erwähnten angrenzenden Bereichen führen. • Um eine enge Kopplung mit den Fachbereichen und dem IT-Bereich zu gewährleisten, sollte über adäquate organisatorische Strukturen nachgedacht werden. Eine derartige Möglichkeit stellt das Konzept der dezentralen Datenqualitätskoordinatoren dar. Diese Koordinatoren können im Verbund mit dem zentralen Datenqualitätsmanagement eine DQ-Organisation bilden, die eng verwoben mit den einzelnen Unternehmensbereichen ist.4
13.4 Datenqualitätsmanagement in Projekten Die größten Veränderungen in Unternehmen werden durch Projekte induziert (Gaulke 2004; Gray und Larson 2006; Kerzner 2003). Veränderungen bedeuten in dem Projektkontext u. a.: • Änderungen von Geschäftsprozessen (ggf. inkl. organisatorischer Veränderungen) • Integration neuer IT-Systeme (inkl. der Erstellung neuer Schnittstellen) • Ersatz alter IT-Systeme (inkl. Datentransfer zwischen altem und neuem IT-System) Bereits anhand dieser knappen Aufzählung lässt sich in Verbindung mit Abb. 13.2 ableiten, dass eine Einbindung des Datenqualitätsmanagements in Projekte erforderlich sein wird, wenn der oben beschriebene umfassende, proaktive Ansatz gewählt wird. Zunächst werden mögliche Aufgaben des Datenqualitätsmanagements in Projekten betrachtet, im Anschluss daran wird auf die Form der Einbindung des Datenqualitätsmanagements eingegangen.
Falls eine derartige DQ-Organisation geschaffen wird, verbleibt in der Regel die Richtlinien- und Methodenkompetenz bei dem zentralen Datenqualitätsmanagement. Die dezentralen Datenqualitätskoordinatoren sind für die operative Sicherstellung einer angemessenen Datenqualität verantwortlich und berichten an den zentralen DQ-Bereich. 4
13 Organisatorische Ansiedlung eines Datenqualitätsmanagements
233
13.4.1 Aufgaben des Datenqualitätsmanagements in Projekten Die Aufgaben eines Datenqualitätsmanagements in Projekten lassen sich nicht von den im ersten Abschnitt dargestellten (Linien-) Aufgaben entkoppeln. Vielmehr sollte sichergestellt sein, dass die Verantwortung für Datenqualität durchgängig wahrgenommen wird. Daher lässt sich das folgende Aufgabenspektrum für ein Datenqualitätsmanagement in Projekten ableiten: • Erstellung von Richtlinien und Vorgaben für Projekte • Wahrnehmung von Review-Tätigkeiten im Rahmen der Qualitätssicherung für Projekte • Bereitstellung von Checklisten für Projektleiter, QS-Teilprojektleiter und Projektmitarbeiter • Beratung bei Problemstellungen, die Einfluss auf die Datenqualität haben können • Koordination von auf das jeweilige Projekt bezogenen DQ-Regelkreisen • Behebung von DQ-Problemen in Legacy Systems, d. h. Koordination (und ggf. Durchführung) von Datenbereinigungen in abzulösenden IT-Systemen
13.4.2 Organisatorische Verankerung des Datenqualitätsmanagements in Projekten Um die oben beschriebenen Aufgaben effektiv und effizient wahrnehmen zu können, ist eine geeignete organisatorische Einbindung des Datenqualitätsmanagements in Projekte erforderlich. Die Art der Einbindung ist abhängig von den konkreten Aufgaben, die in dem jeweiligen Projekt zu leisten sind (Abb. 13.6). In Abb. 13.5 sind mit Review-Board, PM-Office und Teilprojektleitung drei mögliche Verankerungen des Datenqualitätsmanagements in Projekten aufgezeigt: • Eine Verankerung des Datenqualitätsmanagements im Review-Board ist insbesondere für die Projekte angebracht, die für Belange der Datenqualität von großer Bedeutung sind. Dies können bspw. Projekte sein, in denen neue Prozesse und Verantwortlichkeiten für Daten(-bestände) etabliert werden. In diesem Fall kann ein Datenqualitätsmanagement seine Bedürfnisse frühzeitig adressieren und das Projekt auf eventuelle zukünftige Fehlentwicklungen rechtzeitig hinweisen. • Eine Verankerung des Datenqualitätsmanagements in einer Teilprojektleitung ist insbesondere bei Projekten sinnvoll, in denen große Datenbestände Änderungen erfahren (bspw. bei Migrationsprojekten). In der Verantwortung für ein Teilprojekt Datenqualität kann durch die Organisationseinheit Datenqualitätsmanagement eine adäquate Planung, Steuerung und Koordination der durchzuführenden Arbeitspakete erfolgen.
234
J. Lüssem
Abb. 13.6 Organisatorische Einbindung des Datenqualitätsmanagements in Projekte
Neben den oben beschriebenen Verankerungen in Projekten kann das Datenqualitätsmanagement eine Beratungsfunktion für Auftraggeber, Projektausschuss bzw. Projektleitung wahrnehmen.5
13.5 Zusammenfassung und Ausblick 13.5.1 Zusammenfassung Die adäquate Ansiedlung von Datenqualitätsmanagement in Unternehmen spielt vor dem Hintergrund der wachsenden Bedeutung von Daten- bzw. Informationsqualität eine entscheidende Rolle. Wenn sich Unternehmen nicht auf die reaktiven Aufgaben der Kontrolle und Sicherung von Datenqualität beschränken wollen, sondern ein aktives Management der Qualität von Daten benötigen, erscheint es erforderlich, die mit einem Datenqualitätsmanagement verbundenen Aufgaben breit im Unternehmen zu verankern, um nachhaltig ein Bewusstsein für Datenqualität zu fördern.
Eine enge Begleitung aller in einem Unternehmen durchgeführten Projekte wird sich aus Ressourcengründen nicht umsetzen lassen. Die Beratung von Schlüsselpersonen in Projekten stellt daher eine sinnvolle Alternative oder Ergänzung dar. 5
13 Organisatorische Ansiedlung eines Datenqualitätsmanagements
235
Neben einer zentral angesiedelten Organisationseinheit, die sich eher auf konzeptionelle und koordinierende Tätigkeiten konzentriert, schaffen dezentral im Unternehmen etablierte Stellen die notwendigen Verbindungen in die gesamte Organisation. Die Einbindung in Projekte muss vor dem Hintergrund der Linienaufgaben des Datenqualitätsmanagements erfolgen, um zu vermeiden, dass sich zwei unterschiedliche Niveaus hinsichtlich des Umgangs mit Datenqualität etablieren. Dies hätte eine Verlagerung der DQ-Tätigkeiten von Projekten in die Linie oder umgekehrt zur Folge.
13.5.2 Ausblick Zukünftig werden Unternehmen im Zuge der zunehmenden Virtualisierung der Wertschöpfungsketten ein stärkeres Datenqualitätsmanagement benötigen, um die in dem Unternehmen befindlichen Glieder der Wertschöpfungskette abzusichern. Um dies zu gewährleisten, muss sich ein Datenqualitätsmanagement zukünftig mehr auf die Konzeption und die Durchführung von DQ-Assessments (Lee et al. 2006), in denen für einen definierten Bereich der Status bzgl. der Datenqualität (bspw. Aussagen über Verantwortlichkeiten, Prozesse, Kontrollmechanismen) ermittelt wird, wie auch auf die Anwendung quantitativer Methoden zur Messung von Datenqualität fokussieren. Weitere Adjustierungen hinsichtlich der organisatorischen Ansiedlung des Datenqualitätsmanagements können sich durch die Entwicklung neuer IT-Architekturkonzepte (z. B. service-orientierte Architekturen) und damit der einhergehenden stärkeren Verschmelzung von IT und Business ergeben.
Literatur Argyris, C., Schön, D.: Organizational Learning: A Theorie of Action Perspective. Addison-Wesley, Reading, 1978. Brunner, F. J., Wagner, K. W.: Taschenbuch Qualitätsmanagement, 3. Auflage. Carl Hanser Verlag, München, 2004. Dippold, R., Meier, A., Schnider, W., Schwinn, K.: Unternehmensweites Datenmanagement, 4. Auflage. Vieweg Verlag, Braunschweig, 2005 English, L. P.: Improving Data Warehouse and Business Information Quality. John Wiley & Sons, New York, 1999. Gaitanides, M., Scholz, R., Vrohlings, A., Raster, M.: Prozeß-management. Carl Hanser Verlag, München, 1994. Gaulke, M.: Risikomanagement in IT-Projekten, 2. Auflage. Oldenbourg Wisschaftsverlag, München, 2004. Gray, C.F., Larson, E.W.: Project Management. McGraw-Hill, New York, 2006. Heinrich, L. J., Lehner, F.: Informationsmanagement, 8. Auflage. Oldenbourg Verlag, München, 2005. Kerzner, H.: Projektmanagement. mitp-Verlag, Bonn, 2003 Krcmar, H. Informationsmanagement, 4. Auflage. Springer Verlag, Berlin, 2004.
236
J. Lüssem
Lee, Y. W., Pipino, L. L., Funk, J. D., Wang, R. Y.: Journey to Data Quality. MIT Press, Cambridge, 2006. Mathes, T., Bange, C., Keller, P.: Software im Vergleich: Datenqualitätsmanagement. Oxygon Verlag, München, 2005. Olson, J. E.: Data Quality. Morgan Kaufmann, San Francisco, 2003. Pfeifer, T.: Qualitätsmanagement, 3. Auflage. Carl Hanser Verlag, München, 2001. Schreyögg, G.: Organisation, 5. Auflage. Gabler Verlag, Wiesbaden, 2003.
Prof. Dr. rer. nat. Jens Lüssem M.A. studierte Mathematik, Physik und Informatik an der Ecole Polytechnique in Paris und der Universität Bonn, an der in angewandter Informatik promovierte. Nach einer Tätigkeit bei dem Bundesaufsichtsamt für das Kreditwesen mit den Tätigkeitsschwerpunkten Prüfung interner Modelle und Basel II, wechselte er zur HSH Nordbank AG, bei der er zunächst als Risikomanager, später als Prozessverantwortlicher für die Einführung neuer Finanzprodukte und derzeit als Datenqualitätsmanager tätig ist. 2005 nahm der den Ruf auf die Professur für intelligente Informationssysteme und Wissensmanagement an der Fachhochschule Braunschweig/ Wolfenbüttel an. Dort lehrt er im Schwerpunkt Data Mining, Projektmanagement und Software-Qualität. Prof. Dr. Lüssem engagiert sich in der Gesellschaft für Informatik (GI) und der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ). Ferner ist er Mitbegründer und Präsident des European Institute for Data and Information Quality (EIDIQ)
Organisatorische Maßnahmen für gute Datenqualität
14
Jürg Wolf
14.1 Messungen, Ursachen und generische Ansätze Datenqualität kann nicht delegiert, verordnet und im Nachhinein nur schwer in ein Software-Produkt integriert werden. Maßnahmen für eine gute Datenqualität müssen bereits beim Design einer Applikation oder eines Prozesses getroffen werden. Für den Benutzer sind die meisten der zu treffenden Maßnahmen unsichtbar, ähnlich einem Eisberg, der nur 10 % seiner Masse aus dem Wasser herausragen lässt, und das ist eigentlich auch gut so, da das Thema Datenqualität nicht alleine dem Benutzer aufgebürdet werden kann. Dieser Artikel zeigt, welche organisatorischen Maßnahmen getroffen werden können, um die Datenqualität in einer Datenbank dauerhaft zu steigern.
14.1.1 Möglichen Arten von Datenqualitätsmängeln Datenqualitätsmängel können aus organisatorischer Sicht ihre Quelle in jedem Schritt des Grundablaufes der klassischen IT-Funktionen haben: Bei der Eingabe, der Verarbeitung und bei der Ausgabe (EVA-Prinzip) sowie der technischen Speicherung der Daten (siehe Abb. 14.1). Zusätzlich zu diesen technischen Mängelquellen (zentraler Bereich der Grafik) kommen noch mögliche menschliche Quellen (Bereiche an den Enden) dazu: die Erhebung und die Interpretation. Tabelle 14.1 gibt anhand von Beispielen einen Überblick über verschiedene Ursachen von Datenqualitätsmängeln.
J. Wolf (*) Hallwil, Schweiz E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_14
237
238
J. Wolf
Abb. 14.1 Das organisatorische DQ-Modell mit Fehlerarten und Ansätzen
Tab. 14.1 Ursachen für Datenqualitätsmängel und ausgewählte Beispiele DQ-Mängel Prozessfehler
Anwenderfehler
Programmierfehler
Kundenfehler (Datenbezüger)
Mögliche Ursachen (Auswahl) Doppelerfassungen Daten werden zu einem zu frühen oder zu späten Zeitpunkt verlangt Ergebnisse, welche den Empfänger nicht erreichen Ungenügende Erhebung Tippfehler Verlegenheitseinträge Mehrfachvergabe von Schlüsseln Datensätze verschwinden oder man kann nicht mehr darauf zugreifen Auswertungen werden missverständlich umgesetzt Ungenügende oder fehlerhafte Speicherung von Daten Falsch oder ungenau angeforderte Daten und Auswertungen Missverständliche Definitionen
14.1.2 Datenqualitätsmängel – Entstehung und Bekämpfung Ausgehend von diesen möglichen Ursachen können einige generische Ansätze beschrieben werden, welche die Datenqualität verbessern. Ausgangspunkt ist dabei Abb. 14.1, welche den Zusammenhang zwischen Fehlerquellen und den Fehlerarten aufzeigt. Für jede dieser Fehlerarten kann ein generischer Ansatzpunkt gefunden werden, der nachhaltig zur Behebung von Datenqualitätsmängeln beitragen kann. Die vier generischen Ansätze sind: 1. 2. 3. 4.
Verantwortung, Messen und Publizieren Freiheit und Führung Standards setzen und durchsetzen Durchgängige Definitionen festlegen
14 Organisatorische Maßnahmen für gute Datenqualität
239
Zu jedem dieser generischen Ansätze können nun Maßnahmen definiert werden, welche in groben Zügen aufzeigen, wie eine schlechte Datenqualität bekämpft werden kann.
14.1.3 Vier Generische Ansätze 14.1.3.1 Ansatz 1: Verantwortung, Messen und Publizieren Nach Peter Drucker kann man nur lenken, was man messen kann.1 Dabei muss bedacht werden, dass es umso wichtiger ist, die Prozessperspektive speziell zu berücksichtigen je unternehmenskritischer die Qualität der Daten ist. Darum muss für jeden Prozess- und/ oder Datenbereich jemand die Verantwortung übernehmen, die Datenqualität zu messen und die Resultate den Beteiligten zugänglich zumachen. Bleibt nur noch die Frage, wer denn alles zu den Beteiligten gehört. Sicher müssen der Process Owner, der Anwender, der Programmierer und der Kunde mit einbezogen werden. Es kann aber durchaus sein, dass der Anwender wiederum als Kunde einer vorgelagerten Verarbeitung auftritt und somit nicht der Urheber der Daten ist und der Kunde nicht der Endkunde ist. Dann müssen auch diese in den Kreis der Betroffenen aufgenommen werden, bis die gesamte relevante Verarbeitungskette, wie in Abb. 14.2 dargestellt, abgedeckt ist. 14.1.3.2 Ansatz 2: Freiheit und Führung Die Softwareentwicklung bescherte uns die Grafischen Benutzerschnittstellen (GUI – Graphical User Interface), aber die Kommandozeile konnte auch durch das modernste GUI immer noch nicht eliminiert werden – hauptsächlich, weil es Benutzer mit verschiedenen Systemkenntnissen und Ansprüchen gibt. Analog dazu gibt es auch verschiedene Benutzer von datenbankbasierter Software und Workflowsystemen: Im Normalfall, wenn der Standardprozess passt, genießt der Benutzer die Führung durch die Software, aber bei Sonderfällen muss der Benutzer eine Möglichkeit haben, den Eingabe- oder Verarbeitungsprozess der
Abb. 14.2 Die Prozesskette unter Einbezug aller beteiligen Applikationen Originalzitat in Englisch von Peter F. Drucker aus (Wikiquote, 2015): „If you can’t measure it, you can’t manage it“.
1
240
J. Wolf
Realität anzupassen. Besteht diese Eingriffsmöglichkeit nicht, werden alle Fälle, die nicht dem Standardablauf entsprechen, eine schlechte Datenqualität aufweisen.
14.1.3.3 Ansatz 3: Standards setzen und durchsetzen Die Entwicklung von Software durchläuft meistens standardisierte Phasen und wird nach standardisierten Verfahren getestet. So ist die mittel- bis langfristige Qualität der Daten die mit dieser Software erstellt, verarbeitet, gespeichert und ausgegeben werden, mit Sicherheit besser, als wenn die Software „wild“ erstellt wurde - die Art und Weise wie eine Software entworfen, hergestellt und ausgebreitet wird, hat einen maßgeblichen Einfluss auf die Datenqualität in späteren Jahren. Ähnlich ist es mit Standards bezüglich Prozessen, Eingabeformaten etc.: was einheitlich erfasst wurde, kann einheitlich verarbeitet und ausgewertet werden. 14.1.3.4 Ansatz 4: Durchgängige Definitionen festlegen Zur Datenqualität tragen nicht nur die Daten eingebenden und verarbeitenden Personen und Organisationen bei – der Kunde hat in dem ganzen Thema die wichtigste Aufgabe, indem er zuerst einmal definieren muss, was ihm wichtig ist. Somit muss zwischen dem Datenlieferanten und dem Kunden ein gemeinsames Verständnis für das entwickelt werden, was am Ende erwartet wird. Diese direkte Kommunikation ermöglicht den beteiligten Parteien, gemeinsam das Ziel der gewünschten Da tenqualität zu erreichen. Dadurch kann ein gemeinsames Verständnis für Begriffe, Definitionen, Prozesse und Resultate erarbeitet werden, welches die Kommunikation wesentlich vereinfacht.
14.1.4 Aus den generischen Ansätzen abgeleitete Strategien Aus den in Abbildung aufgeführten generischen Ansätzen und den daraus abgeleiteten Maßnahmen können nun verschiedene Strategien entwickelt werden. Tabelle 14.2 gibt Tab. 14.2 Generische Ansätze und Strategien Generischer Ansatz: Strategien Strategie A: Transparenz schafft Vertrauen Strategie B: Definition von Verantwortlichkeiten Strategie C: gezielt Abhängigkeiten suchen Strategie D: Daten-Lifecycle auf Basis des Prozesses Strategie E: Niederschwellige Verbesserungs-Werkzeuge
Ansatz B: Ansatz A: Freiheit & Verantwortung Führung ✓
Ansatz C: Ansatz D: Standards Definitionen ✓
✓ ✓
✓ ✓
✓
✓
✓ ✓
14 Organisatorische Maßnahmen für gute Datenqualität
241
einen Überblick über insgesamt 5 mögliche Strategien, welche im Folgenden detailliert vorgestellt werden. Wie Tab. 14.2 zeigt, wirken die meisten der aufgelisteten Strategien auf mehrere generische Ansätze. Umgekehrt kann die Umsetzung eines generischen Ansatzes Elemente verschiedener Strategien umfassen. Somit ist die Umsetzung eines einzelnen Feldes dieser Tabelle nicht möglich, da es sich immer um mehrere vernetzte Abhängigkeiten handelt.
14.2 Strategie A: Transparenz schafft Vertrauen 14.2.1 Ansatzpunkt dieser Strategie Als organisatorische Transparenz lassen sich folgende Punkte auflisten: • Die verwendeten Begriffe, Definitionen, Annahmen und Grundlagen für die Datenqualitätsmessungen werden dokumentiert und offengelegt. • Umfang, Methode und Periodizität der durchgeführten Messungen wird klar definiert und laufend kommuniziert. • Die Resultate der Datenqualitätsmessungen sind immer für alle beteiligten Personen einsehbar. Zudem wird nur das gemessen, wofür ein Kunde (Kunde im Sinne von Auftraggeber) einen Auftrag gibt und allenfalls dafür bezahlt. Andernfalls verkommt die ganze Übung zu einer Selbstbeschäftigung der durchführenden Stelle. Neben den jeweils aktuellen Zahlen zur Datenqualitätsmessung sollte auch ein Verlauf über einen größeren Zeitraum dauernd abrufbar sein, damit die Entwicklung der Datenqualität verfolgbar ist. Die Messungen sollten zentral durchgeführt werden. Ist die durchführende Stelle auch noch weitgehend neutral gegenüber den Beteiligten der beobachteten Daten, so ist dies ein weiterer Pluspunkt für eine breit anerkannte Messung. Daneben sorgt die technische Transparenz für eine öffentliche Dokumentation, eine zentrale Messung und eine dauernd freie Verfügbarkeit der Resultate. Idealerweise erfolgt dies durch eine Publikation der der Resultate auf dem Intranet.
14.2.2 Nutzen dieser Strategie Unter allen Beteiligten existiert eine gemeinsame Basis darüber, was, wo und wie gemessen wird. Von dieser Basis aus können gemeinsame Aktionen und Verbesserungen viel einfacher gestartet und koordiniert werden. Durch das Gespräch mit dem Kunden ergibt sich auch eine Sensibilisierung aller Beteiligten für das Thema, was für sich alleine schon eine Verbesserung der Datenqualität ergibt. Sind auch noch entsprechende öffentlich verfügbare Messungen vorhanden, ergibt
242
J. Wolf
sich daraus relativ schnell ein Wettbewerb, der alle Beteiligten anspornt, da nun die Qualität der eigenen Arbeit sichtbar ist.
14.2.3 Nachteile und Risiken dieser Strategie Transparenz wird nicht überall gerne gesehen, da sie anderen Abteilungen einen Einblick in die eigene Organisation, deren Strategie, Effektivität und Effizienz gibt. Damit öffnet man für sich selbst und den eigenen Mitarbeiter eine Angriffsfläche für Kritik. Aus diesem Grund muss diese Strategie in jedem Fall von allen Beteiligten befürwortet werden, damit sie umgesetzt werden kann.
14.3 Strategie B: Definition von Verantwortlichkeiten 14.3.1 Ansatzpunkt dieser Strategie Wer sich nicht verantwortlich fühlt für etwas, verbessert auch nichts daran. Also muss es im Interesse aller sein, wenn sich die verschiedenen Stellen im Datenverarbeitungsprozess in Form von Rollen benennen lassen. Folgende Businessrollen haben sich als nützlich erwiesen: Der Process Owner, der Data Owner, der Data Definition Owner, der Data Consumer und der Data Provider.
14.3.2 Positionierung dieser Businessrollen im Modell In Abb. 14.2 wird die Positionierung und Zuordnung dieser Businessrollen im Modell sichtbar. Nachfolgend werden die einzelnen Rollen erklärt (Abb. 14.3).
14.3.2.1 Der Process Owner Der Process Owner kennt den gesamten Ablauf von der Erfassung bis zur Verwendung und ist verantwortlich dafür, dass ein Prozess definiert (und dokumentiert) wird. Er legt fest, in welchem Prozessschritt welche Daten erfasst und verändert werden. Normalerweise umfasst seine Verantwortung alles, was mit dem Prozess zu tun hat inklusive Zeitvorgaben, Prozessverbesserungen etc. Für die Beurteilung der Datenqualität hat er auch für entsprechende Werkzeuge zur Messung, Publizierung und Verbesserung der Datenqualität zu sorgen, da er ohnehin eine integrative Funktion innehat. 14.3.2.2 Der Data Owner Der Data Owner ist der Eigentümer der Daten und ist dadurch verantwortlich für die Verwendung der Daten – von der Erfassung bis zur Eliminierung und somit auch für die Themen Datenschutz und Datensicherheit. Während der Process Owner den Fokus eher
14 Organisatorische Maßnahmen für gute Datenqualität
243
Abb. 14.3 Positionierung der Rollen im Modell der Fehlerarten
auf der Informationserfassung hat, ist der Fokus des Data Owners eher auf der Informationsverarbeitung und -verwendung indem er in der Regel auch die Geschäftsregeln erstellt, welche ein wichtiges Werkzeug bezüglich der Identifikation der Datenqualität sind. Zusätzlich muss er dafür sorgen, dass die Messbereiche und -methoden definiert werden. Sehr oft ist der Data Owner identisch mit dem Data Consumer oder dem Process Owner – kann aber auch völlig außerhalb dieses Modells stehen. Für die korrekte Benennung des Data Owners gibt es keine starren Regeln, sondern nur Hinweise. (Loshin 2001; S. 33–37) beschreibt insgesamt 11 Möglichkeiten, wer der Data Owner sein könnte: Der Datenersteller, der Datenverwender, der Datenverarbeiter, das Unternehmen als Ganzes, der Auftraggeber für die Datenerstellung, der Entdecker von Daten, der Zusammensteller von Datensammlungen, der Leser, der Besitzer, der Lizenznehmer und Jedermann (Public Domain).
In der täglichen Praxis werden wohl kaum alle dieser möglichen Data Owner in Frage kommen – die Auflistung zeigt aber, dass die korrekte Identifizierung des Data Owner nicht einfach ist und somit sorgfältig erfolgen sollte.
14.3.2.3 Der Data Definition Owner und Data Consumer Der Data Definition Owner ist meistens identisch mit der Stelle, die die Daten verwendet, dem Data Consumer welcher der eigentliche Nutznießer der Daten ist. Er definiert, welche Daten in welcher Qualität, Granularität und in welchem Format und allenfalls auf welchem Medium geliefert werden müssen. Werden die gleichen Daten von mehreren Stellen konsumiert, wird die Rolle des Data Definition Owner von einem dieser Verwender wahrgenommen indem er die anderen Data Consumer entsprechend koordiniert.
244
J. Wolf
14.3.2.4 Der Data Provider Der Data Provider ist zuständig für die zeitgerechte Beschaffung und Lieferung der benötigten Daten nach der Definition des Data Definition Owner. Hier ist denn auch der klassische Ansatzpunkt für viele Verbesserungsmaßnahmen zu finden. Initiativen zur Verbesserung der Datenqualität dürfen aber nicht nur hier ansetzen. Fehlen vom Data Consumer sowohl Format, Qualität als auch Zeitpunkt, wird es schwierig, den unausgesprochenen Anforderungen gerecht zu werden.
14.3.3 Nutzen dieser Strategie Schon alleine durch die formale Regelung von Verantwortlichkeiten wird Transparenz (siehe dazu auch Strategie A) und Ordnung in das System gebracht. Wird die vereinbarte Verantwortung auch wahrgenommen, liegt ein großes Potential in dieser Strategie. Im Idealfall werden die aufgelisteten Geschäftsrollen auch als Autorisierungsrollen implementiert, so dass sehr einfach eine Übereinstimmung zwischen Aufgaben, Kompetenzen und Verantwortung erreicht wird.
14.3.4 Nachteile und Risiken dieser Strategie Definition, Koordination, Implementation und Wartung von solchen Geschäfts- und Autorisierungsrollen ist immer ein Zusatzaufwand und bedingt Konsens und eine Verwaltung. Das alles erhöht die Komplexität des Systems und die Abhängigkeit zu anderen Prozessen oder kreiert neue Prozesse, welche wiederum der Problematik der Datenqualität unterliegen. Diesem Umstand kann begegnet werden, indem mehrere ähnliche Applikationen zu Applikationsgruppen oder Prozesse zu Prozessgruppen zusammengefasst werden und somit für diese Gruppen Prozesse, Geschäfts- und Autorisierungsrollen definiert werden können.
14.4 Strategie C: gezielt Abhängigkeiten suchen 14.4.1 Ansatzpunkt dieser Strategie Informationen, welche lediglich dokumentarisch irgendwo abgelegt sind, veralten viel schneller, als wenn sie in einer technischen, juristischen oder finanziellen Abhängigkeit eingeflochten sind. Solche Abhängigkeiten zur Realität und deren Prozessen können für die meisten Datenbanken gezielt zur Validierung von Informationen verwendet werden. Dabei reicht es teilweise schon, die Herkunft einer Information zu kennen. Beispiel 1 zeigt, was die Herkunft einer Information über deren Qualität aussagen kann:
14 Organisatorische Maßnahmen für gute Datenqualität
245
Beispiel 1 – die vertrauenswürdigere Information
Vor Ihnen steht auf zwei separaten Blättern Papier die Information, dass ein entfernter Bekannter ein Auto einer bestimmten Marke fährt. Die Informationen sind nicht übereinstimmend, könnten aber plausibel sein. Sie sind sich zudem sicher, dass er nur ein Auto besitzt. Das erste Papier ist ein aktueller Ausdruck der Webseite dieses Bekannten, auf der er angibt, dass er Fahrzeug A fährt. Das zweite Papier ist ein Ausschnitt von der Parkplatzliste seines Arbeitgebers, auf welchem steht, dass unter seinem Namen das Fahrzeug B für den Parkplatz Nummer 15 angemeldet ist. Die vertrauenswürdigere Information ist sicher diejenige, welche aus der Parkplatzliste stammt. Wieso? Immerhin stammt doch die andere Information direkt vom Bekannten selbst. Das Problem liegt hier darin, dass es keinerlei Konsequenzen hat, wenn auf seiner Webseite noch das vorletzte Auto aufgeführt ist – vielleicht hat er einfach vergessen, dass er diese Information jemals da hingestellt hat und hat sie deshalb nie aktualisiert. Dagegen wird bei zugewiesenen Parkplätzen einer Firma im Normalfall ein Auto nach einer ersten Mahnung sehr schnell entfernt, wenn es nicht dort hingehört. Also hat es direkte Konsequenzen, wenn die Information nicht korrekt ist – der Autohalter wird möglichst schnell sein neues Auto in der Parkplatzliste nachtragen lassen, um nicht zu riskieren, dass es abgeschleppt wird. ◄
14.4.2 Gezielte Definition von Master und Slave Redundanzen bergen normalerweise die Gefahr von Doppelspurigkeiten und Widersprüchen in sich. Daher müssen solche Redundanzen periodisch abgeglichen werden. Dazu wird für jede redundant vorliegende Information ein „Master“ (die vertrauenswürdigere Quelle) bestimmt und dessen Informationen an andere Datenbanken verteilt, welche als „Slave“ oder „Spiegel“ betrieben werden. Dadurch müssen die gespiegelten Daten nicht mehr an mehreren Orten gepflegt werden, sondern nur noch in der Datenbank, in der die benötigte Datenqualität sichergestellt werden kann. Von hier aus werden sie an alle anderen interessierten Applikationen verteilt. Ist ein Master nicht eindeutig definierbar, weil beispielsweise Daten annähernd gleicher Qualität von gleich vertrauenswürdigen Quellen bezogen werden, dann muss im schlimmsten Fall ein eigener Master definiert werden, der von diesen Quellen gespeist wird und von nun an die qualitätsgeprüfte Referenz ist. Dieses Vorgehen hat nichts mit Datenintegration oder einem Data Warehouse zu tun, sondern ist als gezielter Datenaustausch zwischen gleichberechtigten Datenbanken zu verstehen. Jede der gezielt verteilten Datenbanken hat für einen ganz klar umrissenen Bereich eine Masterfunktion.
246
J. Wolf
Beispiel 2 – das Personalverzeichnis einer größeren Firma
Für diese Informationssammlung gibt es vom Telefonverzeichnis bis zur Gehaltsabrechnung verschiedenste Abnehmer. Abbildung 14.4 zeigt den Datenaustausch zwischen verschiedenen Applikationen: Die Personaldatenbank ist der geeignete Master für Personendaten, da von hier aus auch die Gehaltszahlungen ausgehen. Eine schlechte Datenqualität im Personenstamm wird hier vermutlich zuerst bemerkt. Für die Telefonnummern ist es aber besser, die Daten direkt von der Telefonzentrale zu beziehen, da eine falsche Telefonnummervergabe hier zuerst bemerkt wird. ◄
14.4.3 Nutzen dieser Strategie Durch das gezielte Einbinden von Informationen einer Datenbank in technische oder buchhalterische Abläufe werden Abhängigkeiten geschaffen, welche durch eine Rückkopplung aus der Realität eine „dauernde Validierung“ haben.
14.4.4 Nachteile und Risiken dieser Strategie Abhängigkeiten sind hier nicht nur erwünscht, sondern bergen auch Risiken in sich: So ist bei jeder Schnittstelle ein Koordinationsaufwand zu berücksichtigen. Auch steigt mit jeder Schnittstelle die Komplexität und die Fehlermöglichkeiten der gesamten Infrastruktur. Sind noch verschiedene Technologien zu berücksichtigen, so kann dieser Ansatz auf der organisatorischen Ebene zu einer Komplexität führen, die irgendwann nicht mehr überblickbar ist. Lösungsmöglichkeiten bieten hier Proxyserver oder Data Warehouses/Data Marts auf denen die verschiedenen Datenquellen zusammengeführt und von dort zentral den Daten-
Abb. 14.4 Der Datenfluss zwischen den Applikationen aus Beispiel 2
14 Organisatorische Maßnahmen für gute Datenqualität
247
beziehern zur Verfügung gestellt werden. Die Masterfunktion ist aber immer noch bei den einzelnen Applikationen – der Proxyserver übernimmt nur die Verteilfunktion der Daten.
14.5 Strategie D: Daten-Lifecycle auf Basis des Prozesses 14.5.1 Ansatzpunkt dieser Strategie Im Fokus der Organisation von Unternehmen gibt es laut (Müller-Stewens und Lechner 2003, S. 450) eine Verschiebung von der Aufbauorganisation zur Ablauforganisation, respektive zum Prozess. Ebenso ist es heute aus Sicht der Datenorganisation und Datenqualität weniger wichtig, wer zuständig ist für Kundengewinnung, Bestell- oder Mahnwesen: im Gegenzug ist es wichtiger geworden, welchen Prozess ein Datensatz vom Zeitpunkt der Ersterfassung bis zur Eliminierung durchläuft.
14.5.2 Der Prozess und Lebenszyklus Die Abfolge von einzelnen Phasen kann als Lifecycle (Lebenszyklus)2 des Datensatzes beschrieben werden. Die Definition und Unterteilung dieser Phasen erfolgt mit Hilfe des Wissens darüber, wo und unter welchen Umständen eine Information entsteht oder verändert wird und wo sie am zweckmäßigsten erfasst und verarbeitet wird. Beispiel 3 veranschaulicht diesen Zusammenhang. Beispiel 3 – der Lifecycle eines Kundendatensatzes:
Eine Person interessiert sich für ein Produkt einer Firma und wünscht darum einen Katalog. Dafür sind nur Name und Adresse im System zu erfassen. Weitere Informationen wie beispielsweise die Bonität sind zu diesem Zeitpunkt der Kundenbeziehung weder praxisgerecht noch notwendig. Im Lifecycle ist diese Adresse nun im Lifecycle- Status „Interessent“. Als Mussfelder existieren hier die nur erwähnten Felder. Alles andere ist optional oder nicht sichtbar. Wird nun aus der Katalogbestellung eine Produktbestellung, geht der Datensatz vom Status „Interessent“ in den Status „Besteller“ über, bei der weitere Felder wie z. B. der Ansprechpartner zu Mussfeldern werden können. Parallel zur Kommissionierung der Bestellung läuft die Abklärung der Bonität. Nur wenn das Resultat positiv ist, kann der Status auf „Kunde“ geändert werden, da das Feld „Bonität“ ein Testkriterium für den Phasenwechsel ist von nun an ein Mussfeld ist. Idealerweise ist das System so eingerichtet, dass ein Versand von Artikeln nur an Adressen in diesem Status möglich ist.
2
Siehe auch (Kotler und Bliemel 2001, S. 571 ff.) zum Produktlebenszyklus.
248
J. Wolf
Ist die Abklärung der Bonität negativ, wird der Status auf „Unerwünscht“ gesetzt, die Kommissionierung wird wieder rückgängig gemacht und an den abgewiesenen Kunden eine entsprechende Mitteilung versendet. ◄ Durch die Implementierung eines solchen Lifecycle-Konzeptes ist es möglich, viele Probleme mit leeren Datenfeldern, respektive mit unter Zwang gefüllten (und damit wertlosen) Feldern, einfach und wirkungsvoll zu lösen. In Tab. 14.3 ist für Beispiel 3 dargestellt, wann welche Felder als Mussfelder (X) definiert sind, wann als optionale Felder (?) und wann sie überhaupt nicht auf der Bearbeitungsmaske des Systems erscheinen (–).
14.5.3 Nutzen dieser Strategie Durch die Implementierung eines solchen Lifecycle-Modells lässt sich sehr effektiv und effizient die Einschränkung von Datenbankmanagementsystemen aufbrechen, ein Feld für immer als Mussfeld oder für immer als optionales Feld definieren zu müssen. Durch das Lebenszykluskonzept lässt sich ein Datenbankfeld für einzelne Phasen als Mussfeld definieren, während es in anderen Phasen nicht zwingend gefüllt sein muss.
14.5.4 Nachteile und Risiken dieser Strategie Auch bei diesem Vorgehen wird die Komplexität des Gesamtsystems erhöht. Zudem wird die Flexibilität in der Geschäftslogik mit einer erhöhten Komplexität in der Benutzerschnittstelle durch die Lifecycle-Prüfungen erkauft. Existieren zu einer Datenbank mit diesem Konzept zudem Schnittstellen von anderen Applikationen oder gibt es Benutzer, welche unter Umgehung der normalen Benutzerschnittstelle auf die Datenbank schreiben können, dann muss über entsprechende Mechanismen wie z. B. Datenbanktrigger mit Validierungslogik sichergestellt werden, dass die Datenmanipulationen der Logik des aktuellen Lifecycle-Status entsprechen. Tab. 14.3 Mussfelder und optionale Felder im Lebenszyklus eines Datensatzes Name, Adresse Bestellungen Bonität Kundenkategorie … Grund für Unerw. Datum für Unerw. …
Interessent X – – – … – – …
Besteller X X ? – … – – …
Kunde X X X X … – – …
Unerwünscht X X X ? … X X …
14 Organisatorische Maßnahmen für gute Datenqualität
249
14.6 Strategie E: Niederschwellige Verbesserungs-Werkzeuge 14.6.1 Ansatzpunkt dieser Strategie Manche Verantwortliche wissen um die Datenqualität in ihrem Bereich. Spätestens aber bei der allgemeinen Ausweisung des Datenqualitätswertes sehen es aber auch andere. Das heißt aber noch lange nicht, dass der jeweilige Verantwortliche auch willens oder gar fähig ist, diesen Zustand zu ändern. Damit er dies tut, müssen ihm auch entsprechende Werkzeuge in die Hand gegeben werden.
14.6.2 Beispiel eines niederschwelligen Verbesserungs-Werkzeuges In Anlehnung an die inzwischen weit verbreiteten „Cockpits“ werden zentrale Elemente aller Messungen und auch der Einstiegspunkt für Veränderungen auf einer zentralen Webseite dargestellt. Davon ausgehend sind Detaillisten abrufbar, aus denen wiederum ein direkter Start des Verbesserungsprozesses möglich ist. Die hier vorgestellte Applikation wurde im Rahmen der Inventar-Applikation für Hardware und Software der Firma UBS verwirklicht.
14.6.2.1 Schritt 1 – Einstieg über die Management-Sicht Der Einstieg in das System bildet die Management-Sicht aus Abb. 14.5, welche in Balkenform die gemessenen Werte jeweils per Messdatum anzeigt. Nun kann der Verantwortliche auf den blauen Link seines Bereiches klicken und erhält darauf eine Detail-Fehlerliste mit den Fehlern zum jetzigen Zeitpunkt im EXCEL-Format. 14.6.2.2 Schritt 2 – Detaillisten für das Fehlertracking Diese Detailliste kann nun in EXCEL nach Belieben sortiert, erweitert und über die Autofilter Funktion von EXCEL eingeschränkt werden. Wie in Abb. 14.6 ersichtlich, ist im EXCEL-Arbeitsblatt die Software Component ID mit einem Link hinterlegt. Dieser Link führt direkt auf das „Web-Stammblatt“ dieser Software-Komponente mit all seinen Attributen und Verbindungen zu anderen Entitäten.
Stream
Anzahl Attrib. Attrib. Indikator SWC geprüft fehlerh. Wert 11
154
0
100.0%
Chief Financial Officer
110
1540
20
98.7%
Clients & Products
355
4970
7
99.9%
Asset Management
Indikator 80%
Abb. 14.5 Schritt 1 – Die Management-Sicht in Balkenform
Zielwert 95%
100%
250
J. Wolf
Abb. 14.6 Schritt 2 – Die Detailliste in EXCEL
Abb. 14.7 Schritt 3 – Korrektur der Information und Speichern
14.6.2.3 Schritt 3 – Die Verbesserung der Datenqualität Nun kann in den Bearbeiten-Modus gewechselt werden in dem die Daten unmittelbar verbessert, ergänzt und abgespeichert werden können (Abb. 14.7). Der ganze dargestellte Ablauf dauert im Normalfall zwischen 1 und 3 min, sofern die verantwortliche Person die notwendigen Informationen gleich zur Hand hat.
14.6.3 Die Infrastruktur dieses Werkzeuges Durch den Einsatz von Web-Applikationen in Verbindung mit Standardprogrammen wie EXCEL entstehen zwar Medienbrüche vom Browser zu EXCEL und wieder zurück in den Browser. Diese Medienbrüche bürden dem Benutzer aber nicht Mehrarbeit auf, sondern führen den Benutzer dank Hyperlinks in gewohnten Werkzeugen nahtlos von einem Programm zum nächsten. Im Hintergrund ist die Infrastruktur sogar noch weiter aufgesplittet. Diese Tatsache wird dem Benutzer aber komplett verborgen, indem die Datenqualitätsseiten über HTML- Frames in die Applikationswebsite eingebunden werden. Zudem sind die Datenbanken von i-SAC und dem Datenqualitäts-Tool komplett voneinander getrennt. Eine redundante Datenhaltung liegt hier aber nicht vor, da eine klare Trennung zwischen den aktuellen Daten in i-SAC und den komprimierten Stichtagsdaten im Datenqualitätstool vorliegt.
14.6.4 Nutzen dieser Strategie Verantwortliche können sich aus diesem Thema ab sofort nicht mehr herausreden mit Ausflüchten wie „ich weiß nicht wie“, „es ist mir zu aufwändig“ oder „ich bin zwar verant-
14 Organisatorische Maßnahmen für gute Datenqualität
251
wortlich, aber ich kann nichts daran ändern“. Stehen möglichst einfache Mutationsmöglichkeiten bereit, können Verantwortliche einen fehlerhaften Zustand schnell ändern – und werden dies dann auch tun.
14.6.5 Nachteile und Risiken dieser Strategie In diesem Fall wurde für dieses Cockpit eine komplett neue und separate Applikation geschaffen, welche wiederum der Problematik der Entwicklung, Dokumentation, Unterhalt und Datenqualität untersteht. Zudem kann sie nicht sicherstellen, dass die gespeicherten Daten mit der Realität übereinstimmen. Es ist aber denkbar, dass solche Messdimensionen über Korrekturfaktoren einfließen.
14.7 Vor- und Nachteile aller erwähnter Strategien 14.7.1 Der Prozess ist die Vorgabe Alle erwähnten Strategien und die daraus abgeleiteten Maßnahmen müssen in Einklang mit dem jeweiligen Prozess stehen. Das beste Werkzeug nützt nichts, wenn es nicht in einen Prozess integriert und dieser Prozess bekannt ist. Denn ist der Prozess ungeeignet oder unbekannt, wird ein neues Datenqualitätsproblem geschaffen, anstelle der Lösung eines solchen. Neben der Umsetzung dieser Ansätze und Strategien ist daher eine umfassende Sicht auf das Problem, den Prozess und die Firmenkultur zu wahren, soll eine „Verschlimmbesserung“ verhindert werden. Geeignete Kommunikationsmaßnahmen müssen daher rechtzeitig definiert, geplant und umgesetzt werden.
14.7.2 Das Saatkorn ist der Beginn Bei der in Kap. 2.7 beschriebenen Lösung wurde zuerst mit drei Bereichen (Submodellen) der Inventardatenbank der UBS begonnen: Governance, Software-Komponenten und IT-Service-Monitoring. Nachdem ein positiver Trend in der Datenqualität dieser Bereiche festgestellt wurde und dieser Erfolg bei den Verantwortlichen anderer Bereiche bekannt wurde, wurde das System laufend erweitert. Zwei Jahre später sind insgesamt drei Bereiche im Software Inventar, zwei Bereiche im Hardware Inventar sowie ein applikationsinternes Messsystem bezüglich Aktualität in Betrieb. Ein gutes, funktionierendes Messsystem mit einfachen Verbesserungsprozessen ist somit die beste Werbung für die Notwendigkeit – und vor allem der Erreichbarkeit – einer hohen Datenqualität.
252
J. Wolf
14.7.3 Komplexität des Systems und Datenvolumen Jede der beschriebenen Strategien erhöht die Komplexität des einzelnen Systems, aber auch der ganzen Systemlandschaft. Teilweise werden auch neue Abhängigkeiten zwischen den Systemen geschaffen und die bestehenden Abhängigkeiten verstärkt. Daher ist es unumgänglich, nicht gleich eine Maximal-Lösung zu planen, sondern einfach zu beginnen um das große Ziel in mehreren kleinen Schritten zu erreichen. Zudem werden durch diese Strategien immer mehr oder weniger neue Daten in irgendeiner Form produziert. Diese Daten unterliegen wiederum den Regeln und Anforderungen der Datenqualität, womit die Datenqualitätszahlen ebenfalls dauernd hinterfragt und überprüft werden müssen.
14.8 Vorgehen bei der Umsetzung dieser Strategien 14.8.1 Kontakt zwischen den Parteien Die Umsetzung der hier erläuterten Strategien ist je nach aktuellem Stand der bisherigen Maßnahmen ein kleineres oder größeres Projekt bezüglich Ressourcen, Implementierungsaufwand, Prozessumsetzung, Schulung und Firmenkultur. Daher sollte der Kontakt zwischen allen beteiligten Parteien gepflegt werden und die vorgenommenen Änderungen müssen eindeutig und stufengerecht kommuniziert werden. Zusätzlich empfiehlt es sich, die angepeilten Änderungen in kleine Pakete einzuteilen und diese in Abständen von zirka zwei bis drei Monaten ins produktive Umfeld einzuführen. In diesem Zeitraum haben alle Beteiligten den Sinn und die Auswirkungen dieses Schrittes verstanden und sind jeweils bereit für den nächsten Schritt.
14.8.2 Management-Unterstützung Entscheidend für das Erreichen einer verbesserten Datenqualität ist die Unterstützung durch das Management. (Loshin 2001) hat ein Verfahren beschrieben, wie die Kosten von schlechter Datenqualität errechnet und kommuniziert werden können – mit dem Ziel, die benötigten Ressourcen zu bekommen.
14.9 Schlussfolgerungen und Ausblick Alle der hier dargestellten Strategien können parallel implementiert werden, teilweise bedingen sie sich sogar gegenseitig. So ist es beispielsweise unmöglich, einen Lifecycle zu definieren (Strategie D), wenn keine Verantwortlichkeiten bekannt sind (Strategie B). Somit stellt sich bei dem Verantwortlichen für die Datenqualität nicht die Frage, welche
14 Organisatorische Maßnahmen für gute Datenqualität
253
dieser generischen Ansätze umgesetzt werden sollen, sondern eher die Frage, in welcher Reihenfolge und in welchem Zeitrahmen sie sinnvoll umgesetzt werden. Der von Vielen gehegte Wunsch, die Datenqualität schnell und ohne großen Aufwand mittels einer Software „ab Stange“ zu lösen, wird sich auf absehbare Zeit aus verschiedenen Gründen nicht erfüllen: • Software „ab Stange“ ist problemlos in der Lage, notwendige technische Checks durchzuführen, stößt aber an Grenzen, wenn Abläufe mit nicht-technischen Abhängigkeiten geprüft werden müssen. • Die wichtigsten Maßnahmen, mit denen die Datenqualität verbessert werden kann, liegen nicht im technischen, sondern im organisatorischen Bereich. • Eine Inventardatenbank stellt andere Anforderungen an die Datenqualität als eine Logistiksteuerung oder ein Online-Shop. Eine generische Lösung für alle möglichen Anwendungen ist deshalb heute noch undenkbar. Wo Standardsoftware mit Erfolg eingesetzt werden kann, ist in den Bereichen Data Profiling, Data Cleansing, Datenintegration und bei der Visualisierung – z. B. mittels eines Cockpits. Der Hauptaufwand liegt jedoch jenseits der technischen Maßnahmen: Hinterfragen von bestehenden Einstellungen, Abläufen und Schnittstellen – im Extremfall sogar ein Kulturwechsel bei allen Beteiligten. Erst dann haben automatisierte Datenbank-Checks, deren Visualisierung und andere technische Maßnahmen überhaupt eine Chance, die angestrebten Ziele zu erreichen. Zudem muss mittels Stichproben oder Feedback-Mechanismen eine Verbindung zwischen den Daten und der Realität zur Validierung erfolgen. So führt die Verbesserung der Datenqualität in eine kontinuierliche Maßnahme, bei der viel Überzeugungsarbeit – und auch ein bisschen Technik – anfällt.
Literatur Kotler, Philip; Bliemel, Friedhelm; 2001; Marketing Management, Schäffer-Poeschel Verlag Stuttgart; ISBN 3-7910-1689-X Loshin, David; 2001; Enterprise Knowledge Management, The Data Quality Approach; Morgan Kaufmann; ISBN: 0-12-455840-2 Müller-Stewens, Günther; Lechner, Christoph; 2003; Strategisches Management; 2. überarbeitete und erweiterte Auflage; Schäffer-Poeschel Verlag, Stuttgart; ISBN 3-7910-2051-X Wikiquote-Artikel; 2015; „Peter F. Drucker“ URL: http://de.wikiquote.org/w/index.php?title=Peter_F._Drucker&oldid=201475 Wolf, Jürg;Strategien zur Hebung der Datenqualität in Datenbanken; URL: http://akad.flyout.net/dl/ DA/Diplomarbeit/Strategien%20zur%20Hebung%20der%20Datenqualitaet%20in%20Datenbanken.pdf, 2007 Wolf, Jürg; Würthele, Volker; Thut, Peter; 2005, Messung und Visualisierung von Datenqualität, Vortrag an der 3. GIQMC 13.–14.10.2005 URL: http://www.dgiq.de/downloads.php?ddetail=1&did=22 und http://www.datenqualitaet-praktisch.de/index.php?op=ViewArticle&articleId=8&blogId=1
254
J. Wolf
Jürg Wolf Nach beruflichen Anfängen in der Bauplanung und dem Umgang mit CAD-Software begann sich Jürg Wolf autodidaktisch in der IT auf verschiedenen Gebieten aus- und weiterzubilden. Jürg Wolf ist seit mehreren Jahren auf der praktischen Seite des Datenqualiätsmanagements tätig und hat zuletzt für die IT-Inventar-Datenbank der Schweizer Grossbank UBS ein webbasiertes Messsystem für Datenqualität erstellt. 2006 hat er berufsbegleitend die Ausbildung zum Betriebsökonom FH bei der AKAD abgeschlossen. Die Diplomarbeit zeigt 9 strategische Möglichkeiten auf, wie die Datenqualität in Datenbanken verbessert werden kann. Seit Mitte 2007 ist Jürg Wolf für alle Daten eines Schweizer Vermögensverwalters verantwortlich.
Informationsmanagementprozesse im Unternehmen
15
Klaus Schwinn
15.1 Motivation In vielen Organisationen werden Datenqualitätsprojekte nachwievor taktisch lanciert. Anhand eines konkreten, punktuellen Problems werden Qualitätsprobleme erkannt und ebenso konkret und punktuell zu lösen versucht. Nachhaltige Qualitätsverbesserungen sind i. d. R. so nicht zu erzielen. Hierfür ist strategisches Denken und Handeln erforderlich, d. h. das Denken in Lösungsräumen (Mehrdimensionalität) und Wirkungszusammenhängen. Nachhaltige Qualitätsverbesserungen für die Gesamtorganisation sind nur erreichbar, wenn der Informationsmanagementprozess als Ganzes gesehen und in die Prozesslandschaft der Organisation integriert wird. Hierfür kann durchaus ein konkretes, punktuelles Problem den Anstoss geben. Die Frage ist, ob die Verantwortlichen den Willen und die Fähigkeit haben, über das konkrete Problem hinaus die Informationsmanagementprozesse der Organisation ganzheitlich zu organisieren und damit die Basis für ein nachhaltiges Informationsqualitätsmanagement zu legen. In diesem Beitrag soll anhand eines Beispiels, das auf konkreten Erfahrungen aus verschiedenen Beratungsprojekten beruht, aufgezeigt werden, wie aus einer spezifischen, eingeschränkten Problemstellung eine ganzheitliche Sichtweise auf das Daten- bzw. Informationsmanagement entwickelt werden kann. Die Begriffe Daten und Informationen werden in diesem Beitrag als Synonyme verwendet, da sie hinsichtlich der Daten- bzw. Informationsmanagementprozesse gleich zu behandeln sind.
K. Schwinn (*) Credit Suisse, Zürich, Schweiz E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_15
255
256
K. Schwinn
15.2 Ausgangslage In dem Unternehmen, das wir hier betrachten wollen, wird seit einigen Jahren ein umfangreiches Data Warehouse System betrieben, das verschiedenen Reporting- und Analysezwecken dient. Einige Veränderungen im Unternehmen verlangen eine Neupositionierung des Data Warehouse Systems und zukünftiger Projekte in diesem Umfeld. Es soll ein Review des Data Warehouse Systems durchgeführt werden, der eine Bewertung hinsichtlich der Architektur, der Informationsqualität und der Wirtschaftlichkeit erlaubt. Auf der Basis dieser Bewertung sollen Empfehlungen für eine mögliche Neupositionierung und die zukünftige Ausrichtung des Data Warehouse Systems formuliert werden. Eine erste Analyse zeigt, dass das Data Warehouse von den Benutzern als relativ unflexibel und unergonomisch beurteilt wird. Bei der Geschäftsleitung ist sogar die Meinung vorherrschend, das ganze System sei zu teuer, müsste abgeschaltet und ggf. ersetzt werden. Der Nutzen kann von kaum einem Anwender qualifiziert und schon gar nicht quantifiziert werden. Ohne eine Nutzenquantifizierung kann aber naturgemäß auch keine Kosten-/Nutzen-Relation hergestellt werden, was die Rechtfertigung von hohen Kosten und zusätzlichen Investitionen erschwert. Die weitere Untersuchung der Situation zeigt auch, dass an vielen Stellen des Unternehmens Berichts- und Analysesysteme entstanden sind, die das Data Warehouse nicht als Datenquelle nutzen, sondern die ihre jeweilige Datenbasis mit eigenen Mitteln erstellen und hierzu eigene Schnittstellen in die operativen Systeme entwickelt haben. Es existiert kein zentrales Data Dictionary oder Glossar, das die Datensemantik verbindlich festlegt, ebenso wenig sind Datenverantwortliche oder Dateneigentümer bestimmt. So erfolgt auch die Dateninterpretation und das Datenqualitätsmanagement jeweils nach eigenen Regeln. Was bei diesem Unternehmen auf der Datenseite fehlt, ist auf der Prozessseite vorhanden. Es gibt eine Prozesslandkarte, die einen Überblick über die Unternehmensprozesse erlaubt. Die wesentlichen Geschäftsprozesse sind mit ihren Abhängigkeiten im Detail beschrieben und die Prozessverantwortlichen sind definiert. Die Abb. 15.1 zeigt die Prozesslandkarte des Unternehmens, wie sie im Auftrag der Geschäftsleitung erstellt wurde. Aus der Sicht des Informationsmanagements fallen hier sofort zwei Aspekte auf: 1. In der Prozesslandkarte sind die Managementprozesse gegenüber den Kernprozessen sehr prominent dargestellt. Das mag einerseits daran liegen, dass der Auftrag zur Erstellung der Prozesslandkarte aus der Geschäftsleitung kam. Andererseits zeigt es aber auch, dass in diesem Unternehmen den Managementprozessen eine große Bedeutung beigemessen wird. Managementprozesse sind aber per se sehr informations-intensiv, d. h. für deren effektive Unterstützung ist die Verfügbarkeit qualitativ guter Informationen essenziell. 2. Umso verwunderlicher ist es daher, dass Informationen in der Darstellung als relevante Unternehmensressource nicht auftauchen. Die klassischen Betriebsmittel wie Personal, Finanzen, Anlagen und Material sind dagegen aufgeführt. Dies dokumentiert einen deutlichen Mangel an Sensibilität für die Notwendigkeit eines professionellen Informations- und Datenmanagements.
15 Informationsmanagementprozesse im Unternehmen
257
Abb. 15.1 Prozesslandkarte des betrachteten Unternehmens
Die Ausgangslage lässt sich folgendermaßen zusammenfassen: • Es wird einerseits ein kosten-intensives Data Warehouse System betrieben, von dem in der Organisation kaum jemand beurteilen kann, welchen Nutzen es für das Gesamtunternehmen stiftet und nicht nur für einzelne Anwender, die auch auf anderen, weniger kostspieligen Wegen zu ihren Daten kommen könnten. • Andererseits wurde konzeptionell und organisatorisch wenig unternommen, die vorhandene Prozessfokussierung durch eine Datensicht zu ergänzen und so den Zusammenhang zwischen den Management- und Geschäftsprozessen sowie den Informations- und Datenmanagementprozessen herzustellen.
15.3 Bewertung Data Warehouse Systeme sind in besonderer Weise geschäftsgetrieben, wobei Informationen sowie die Managementprozesse, die auf Datenanalysen angewiesen sind, im Mittelpunkt stehen. Zentral für den Erfolg von Data Warehouse Implementierungen ist die Qualität und der Geschäftsnutzen der zur Verfügung gestellten Daten, und zwar nicht nur für die einzelne Anwendung, sondern für das Unternehmen insgesamt.
258
K. Schwinn
Da in dem betrachteten Unternehmen eine Prozesslandkarte erstellt wurde und ein ausgeprägtes Bewusstsein für die Bedeutung von Prozessen vorhanden ist, scheint die Eta blierung von Datenmanagementprozessen und die Erstellung einer Datenlandkarte als Teil einer Informationsstrategieentwicklung ein Erfolg versprechender Ansatz zu sein. Als Ausgangspunkt hierfür dient zunächst die vorhandene Prozesslandkarte, die auch auf der Geschäftsleitungsebene bekannt ist. Um die Sensibilität für die Bedeutung des Produktionsfaktors „Daten/Informationen“ zu verstärken, wird die Prozesslandkarte mit dieser Ressource entsprechend ergänzt (vgl. Abb. 15.2) und mit der Geschäftsleitung besprochen. Die erweiterte Prozesslandkarte macht deutlich, dass Informationen im Unternehmen betriebsnotwendige Ressourcen darstellen, wie die klassischen Betriebsressourcen auch.1 Das bedeutet, dass es auch einen zugehörigen Managementprozess geben muss. Dieser ist aber nicht unabhängig von den Management- und Geschäftsprozessen, sondern wird von diesen ausgelöst und gesteuert.
Abb. 15.2 Prozesslandkarte und Informationsmanagement
Je nach Branche des Unternehmens sind die Ressourcen von unterschiedlicher Bedeutung. In der Finanzindustrie z. B. besteht das Ergebnis des Leistungserstellungsprozesses im Wesentlichen aus Information. Information ist einerseits Ressource, andererseits Produkt. 1
15 Informationsmanagementprozesse im Unternehmen
259
15.4 Informationsmanagementprozess
Controlling Informations Planung
InformationsBeschaffung
Informations Organisation
Qualitätsmanagement
Daten Abb. 15.3 Informationsmanagementprozess
Informations Nutzung
Strategie
Unternehmensziele
Die folgende Abb. 15.3 zeigt den Informationsmanagementprozess in seiner idealen Form auf dem höchsten Abstraktionsniveau (Dippold et al. 2005). Das Informationsmanagement besteht aus den Teilprozessen Informationsplanung, Informationsbeschaffung, Informationsorganisation, Informationsnutzung und Informationsentsorgung. Der gesamte Informationsmanagementprozess orientiert sich hierbei an den Unternehmenszielen und der Unternehmensstrategie. Das Management der Ressource „Information“ unterscheidet sich von der Logik her kaum vom Management der anderen betrieblichen Ressourcen. Informationsplanung bedeutet vor allem die Abstimmung zwischen dem objektiven Informationsbedarf, dem Informationsangebot und der Informationsnachfrage (vgl. hierzu auch den nächsten Abschnitt). Bei allen strategischen, dispositiven oder operativen Entscheidungen müssen die Auswirkungen auf den Daten- und Informationshaushalt des Unternehmens beachtet werden. Wenn z. B. neue Dienstleistungen oder Produkte an den Markt gebracht werden sollen, eine neue Marktstrategie umgesetzt werden soll, neue Kundensegmente erschlossen werden sollen, usw. ist jeweils zu planen, welche Informationen neu entstehen, welche notwendig sind um das Geschäft zu steuern (beispielsweise ein neues Kennzahlensystem), wer die Adressaten dieser Informationen sein werden, wie und wo die Informationen zu beschaffen sind, ggf. zu welchem Preis, usw.
Informations Entsorgung
260
K. Schwinn
Die Informationsbeschaffung umfasst sämtliche Aktivitäten der Erkennung und Sammlung von Informationen. Nach der Informationsplanung müssen die benötigten Informationen entweder intern im Unternehmen oder extern beschafft werden. Die Beschaffung der Informationen hat grundsätzlich unter dem Gesichtspunkt der Wirtschaftlichkeit und in Abstimmung mit dem Informationsbedarf zu erfolgen. Die Beschaffung oder Aufbewahrung aller verfügbaren Informationen, unabhängig von einem konkreten Bedarf, führt zur Gefahr eines „Information Overloads“. Eine wesentliche Aufgabe der Informationsbeschaffung ist die Auswahl der Informationsquellen, die sowohl innerhalb als auch ausserhalb des Unternehmens angesiedelt sein können. Schon bei der Auswahl sind auch Qualitätsaspekte zu berücksichtigen. Die Organisation der Daten und Informationen ist i. d. R. der komplexeste Teilprozess. Hier findet das eigentliche Datenmanagement statt. Es muss aufgrund eines Datenmodells die Semantik der Daten und ihre logische Struktur im Gesamtkontext des Unternehmens festgelegt und beschrieben werden, die Daten- und Informationsobjekte werden in technischen Prozessen bearbeitet, veredelt und in Datenbanken oder Dokumentmanagementsystemen persistent gespeichert, Probleme des Datenschutzes, der Datensicherheit, der Verteilung und des Zugriffs müssen gelöst werden, u. v. m. Die Nutzung der Informationen wird den hierzu berechtigten Personen und Systemen ermöglicht. Die Qualität der Informationen wird durch die Nutzer kontinuierlich geprüft. Durch die Nutzung der Informationen können wieder neue Daten- und Informationsanforderungen entstehen. Auch die Entsorgung von Informationen ist zu planen und durchzuführen. Daten verbrauchen sich zwar nicht, wie sich etwa Anlagen und auch Kapital verbrauchen, im Gegenteil, je häufiger sie genutzt werden, desto wertvoller werden sie sogar häufig, aber trotzdem werden auch sie irgendwann einmal obsolet. Da die Speicherung, aber viel mehr noch die irrelevante Nutzung veralteter Daten Kosten verursacht und Risiken birgt, sollten sie rechtzeitig entsorgt werden. Die Kriterien, wann dieser Zeitpunkt gekommen ist, sollten möglichst schon bei der Planung oder Beschaffung festgelegt werden. Das Qualitätsmanagement sollte in jedem Unternehmen ein etablierter Prozess sein. Dieser begleitet in seiner besonderen Ausprägung als Informationsqualitätsmanagement auch die Informationsprozesse im Unternehmen. Ein Informationsmanagement ohne ein korrespondierendes Qualitätsmanagement sollte es nicht geben, so wie umgekehrt ein isoliertes Informationsqualitätsmanagement ohne institutionalisierte Informationsmanagementprozesse nur Stückwerk bleiben kann. Wie jeder andere Prozess und jede andere Ressource im Unternehmen unterliegt auch das Informationsmanagement einem strikten Controlling. In entsprechenden Kennzahlen werden Kosten, Aufwand, Nutzung und Nutzen des Informationsmanagements erfasst, berichtet und ggf. Korrekturmassnahmen eingeleitet.
15 Informationsmanagementprozesse im Unternehmen
261
15.5 Schema einer Informationsplanung In der Informationsplanung wird festgelegt, welche Informationen im Unternehmen gegenwärtig und zukünftig, in welcher Form und zu welchem Zweck benötigt werden. Objektiv stimmen in den wenigsten Organisationen der Informationsbedarf, die Informationsnachfrage und das Informationsangebot überein. Abbildung 15.4 veranschaulicht eine solche Situation schematisch. Feld 4 zeigt den Informationsstand, den das Unternehmen hat, und den Grad, inwieweit der Informationsstand dem Informationsbedarf, der Informationsnachfrage und dem Informationsangebot entspricht. Feld 1 zeigt die erforderlichen Informationen, die nachgefragt, aber nicht angeboten werden, weil die Daten intern nicht gespeichert oder extern nicht beschafft werden können. Feld 2 symbolisiert die objektiv erforderlichen Informationen, die zwar angeboten, aber aus Unkenntnis der Verfügbarkeit oder aus Unkenntnis der Notwendigkeit nicht nachgefragt werden. Feld 3 steht für jene Informationen, die angeboten und auch nachgefragt werden, für deren Nutzung aber eigentlich kein unternehmensrelevanter Bedarf besteht. Das Ziel einer Informationsplanung ist es, den Informationsstand des Unternehmens (Feld 4) weitgehend mit Informationsbedarf, -angebot und -nachfrage in Deckung zu bringen. Die Grundlage für die Informationsplanung bildet die Informationsbedarfsanalyse. Die Erstellung einer Datenlandkarte kann hierfür ein visuelles Hilfsmittel sein.
Abb. 15.4 Informationsbedarf, -angebot und -nachfrage
262
K. Schwinn
15.6 Datenlandkarte und Datenarchitektur Wie die Datenlandkarte einer Organisation aussehen kann, zeigt generisch die Abb. 15.5. Sie stellt Indikatoren dar, zu welchem Zweck Daten in welchem Detaillierungsgrad und über welche Aufbewahrungszeit zu speichern sind und wie komplex das Reporting und die Datenanalysen sein werden. Diese Darstellung kann dafür verwendet werden, sowohl die Ist-Situation wie auch die Soll-Situation zu beschreiben und daraus eine Gap-Analyse zu entwickeln. Sie ist darüber hinaus ein gutes Kommunikationsinstrument mit Fachabteilungen. Der nächste Schritt besteht darin, aus der Analyse abzuleiten, welche Datenspeicher für welche Daten benötigt werden und wie die Hierarchie dieser Datenspeicher aussieht. Die Abbildung zeigt die Zuordnung der Daten und Anwendungen zu dedizierten Datenspeichern. Operative Geschäftsprozesse werden über operative Snapshot Datenbanken abgewickelt. Daten werden ständig verändert, eine Historie wird nicht geführt, es finden einfache Abfragen auf einzelnen Entitäten statt. Auf der nächsten Stufe der Datenspeicherung, dem Operational Data Store (ODS), werden Daten und ihre kurzfristigen Veränderungen im Detail gespeichert. Für die mittel- und langfristige Speicherung von aggregierten oder auch detaillierten Daten zur komplexeren Auswertung und Analyse dient das Data Ware-
Abb. 15.5 Datenlandkarte eines Unternehmens
15 Informationsmanagementprozesse im Unternehmen
263
house und ggf. dezidierte Data Marts. Vor allem dort, wo spezifische Sichten, bestimmte Aggregationen oder sehr komplexe Analysen unterstützt werden müssen, sollten Data Marts zur Verfügung gestellt werden. Das Data Warehouse dient als Data Hub für die Data Marts. Eine Sonderrolle spielen jene Daten, die aus regulatorischen Gründen im Detail über lange Fristen archiviert werden müssen (Abb. 15.6). Diese Landkarte sollte in eine Datenarchitektur übertragen werden. Die Architektur besteht einerseits aus einer logisch-semantischen und andererseits aus einer technischen Architektur. Die logisch-semantische Architektur unterteilt die Daten einerseits in Kerndaten des Gesamtunternehmens und applikations-spezifische Daten, sowie andererseits in Bestandes- und Bewegungsdaten. Die Datenstrategie und -architektur legen die zukünftige Datenspeicherung und -nutzung verbindlich fest. Eine entsprechende Informationsplanung sieht den schrittweisen Übergang in eine solche Architektur vor, d. h. jedes Projekt, ob es sich um eine neue Anwendung oder die Erweiterung einer bestehenden handelt, leistet seinen Beitrag zur Umsetzung der Datenstrategie. Die Informationsplanung und das entsprechende Controlling sind eine ständige Managementaufgabe.
Abb. 15.6 Datenlandkarte und Datenspeicher
264
K. Schwinn
15.7 Geschäftsprozesse und Informationsmanagementprozess Nachdem es gelungen ist, eine erste grobe Datenlandkarte des Unternehmens zu erstellen, daraus eine Datenarchitektur abzuleiten, das Data Warehouse zusammen mit einigen Data Marts zu positionieren und die Etablierung eines Informationsmanagementprozesses anzustoßen, müssen im nächsten Schritt konkrete Geschäfts- und Managementprozesse mit dem Informationsmanagement-prozess verknüpt werden. Als Beispiel wählen wir hier das Produkt-Lifecycle-Management, wie es in der folgenden Abbildung dargestellt ist (Abb. 15.7). Der Lifecycle eines Produktes (oder einer Dienstleistung) durchläuft von der Produktidee über die Markteinführung und den Verkauf bis zum Zeitpunkt, an dem das Produkt wieder aufgegeben und vom Markt genommen wird, verschiedene Stufen mit unterschiedlicher Intensität und Dauer.2 Für jede dieser Phasen bestehen Anforderungen an Informationen, die vom Informationsmanagement bereit gestellt werden müssen. Diese Informationsbereitstel-
Abb. 15.7 Produkt-Lifecycle- und Informations-Lifecycle-Management Dies hängt sehr vom Produkt bzw. der Dienstleistung ab. Manche Produkte wie beispielsweise komplexe Medikamente haben vor der Markteinführung sehr lange und kostspielige Entwicklungsphasen zu durchlaufen. 2
15 Informationsmanagementprozesse im Unternehmen
265
lung sollte möglichst geplant und proaktiv geschehen, um das Produkt-Lifecycle-Management effizient zu unterstützen. Hierzu ist es notwendig, das Informationsmanagement aktiv und frühzeitig in die Geschäfts- und Managementprozesse mit einzubeziehen. Nur so kann das Infomationsmanagement rechtzeitig den jeweiligen Informationsbedarf abschätzen und so die Bereitstellung der richtigen Informationen zum richtigen Zeitpunkt bei den richtigen Adressaten planen. Der Informationsmanagementprozess referenziert auf den im Unternehmen standardisierten Produktmanagementprozess. Damit ist gewährleistet, dass Daten für das Controlling, das Reporting und die Ermittlung von Kennzahlen für die Geschäftsleitung verbindlichen und nachvollziehbaren Prozessen unterliegen und zukünftig aus einer konsistenten und qualitätsgesicherten Datenquelle stammen. Der Informationsmanagementprozess ist entsprechend dem Beispiel aus Abbildung mit allen Geschäfts- und Managementprozessen zu verbinden, die Einfluss auf den Informationshaushalt des Unternehmens haben. Dies gilt nicht nur bei der Bereitstellung neuer Informationen, sondern auch bei der Änderung bestehender. Das Anforderungs- und Changemanagement sind daher integrierter Bestandteil des Informationsmanagements. Die aufbauorganisatorischen Aspekte, die mit diesen Prozessen zusammenhängen, sollen hier nicht vertieft werden. Es versteht sich aber von selbst, dass es eine Organisation innerhalb des Unternehmens geben muss, die für die Ressource „Information“ gemäß den definierten Prozessen die Verantwortung hat, ähnlich wie es eine Personalabteilung für das Personal oder eine Finanzabteilung für die Finanzen gibt.
15.8 Qualitätsaspekte Qualitätsmanagement ist der Oberbegriff für alle Tätigkeiten, Führungsaufgaben und Methoden, die zur Planung, Sicherung, Verbesserung und Prüfung der Qualität eines (Dienstleistungs-) Produktes gehören (Projekt Magazin 2007). In dem betrachteten Unternehmen gibt es einen definierten QM- und Verbesserungsprozess (siehe auch Prozesslandkarte in Abb. 15.2), der auch für das Informationsqualitätsmanagement angepasst und angewendet werden kann. Das wichtigste Hilfsmittel für den Informationsmanager ist hierbei der Qualitätsplan. Er beschreibt die produktbezogenen Ergebnisse der Qualitätsplanung, indem Kriterien und quantitative Ziele (Metriken) sowie die Methoden zu ihrer Erreichung festgelegt werden. Der Qualitätsplan enthält somit die für die Qualität ausschlaggebenden Merkmale sowie die Methoden, mit denen sie gemessen und bewertet werden. Das entscheidende Qualitätsmaß ist die Erfüllung der Anforderungen der Informationsnutzer. Ein Qualitätsplan für das Data Warehouse System kann beispielsweise auch in Form einer Balanced Scorecard (Information Scorecard) gemeinsam mit den Nutzern erstellt werden.
266
K. Schwinn
Als Teil des Datenqualitätsmanagements im Unternehmen wird das Konzept der „Information Product Map (IPM)“3 eingeführt. Das Prinzip ist relativ einfach. Es geht davon aus, dass die Zwischen- oder Endergebnisse eines Datenverarbeitungsprozesses Produkte darstellen, die im Unternehmen in unterschiedlicher Form genutzt werden. Jedes Informationsprodukt hat einen oder mehrere Adressaten und muss im Sinne des Unternehmenszweckes einen definierbaren Nutzen stiften. Solche Informationsprodukte sind z. B. • • • • • • • •
Berichte auf unterschiedlichen Medien Rechnungen an Kunden Kundenreports Statistiken Datenbanken oder Datenwürfel, die Daten zu Analysezwecken zur Verfügung stellen Spreadsheets Bilanzen Ergebnisse einer Ad-hoc-Abfrage Kategorien für Informationsprodukte können sein:
• Standard: Rechnungen, standardisierte periodische Geschäftsberichte, standardisierte Excel-Sheets, Gehaltsabrechnungen, usw. • Ad-hoc: Ergebnisse von Ad-hoc-Datenabfragen oder -analysen • Storage: Datenbanken, Datenspeicher, Datenverzeichnisse, Dateien, usw. • Freie Formate: Bücher, Geschäftsberichte, … Jedes Informationsprodukt wird mit Qualitätskriterien und -metriken versehen, um sicherzustellen, dass die erwartete Qualität erfüllt wird und die Qualitätsziele permanent überprüft werden können. Informationsprodukte, deren Qualität nicht definiert und nicht überprüft wird, machen keinen Sinn. Diese Produkte entstehen durch Produktionsprozesse, die sich wie ein herkömmlicher Produktionsprozess eines materiellen Produktes beschreiben lassen. Das Ergebnis dieser Prozessbeschreibung ist eine Information Product Map (IPM), die Auskunft gibt über die Herkunft der Rohdaten, die Bearbeitung dieser Daten, Medienbrüche, involvierte Stellen, Systeme und Prozesse, sowie Qualitätskontrollen und Nutzung des Informationsproduktes. Die folgende Abbildung zeigt eine (vereinfachte) Information Product Map, die den Produktionsprozess von drei Informationsprodukten für drei verschiedene Adressaten (Information Consumer) beschreibt. Sie zeigt, aus welchen Datenquellen die Daten entnom-
Das Konzept der Informationsprodukte und der Information Product Map stammt vom Massachussetts Institute of Technology (MIT) und wurde von Prof. R. Wang im Zusammenhang mit seinen Arbeiten auf dem Gebiet „Data Quality Management“ entwickelt. Die Definition nach Wang: „An information product (IP) is a collection of data element instances that meets the specified requirements of data consumers.“ (Wang et al. 2002). 3
15 Informationsmanagementprozesse im Unternehmen
267
men werden, wo Konvertierungen vorgenommen werden, welche (Zwischen-)Speicher genutzt werden, wo im Prozess Qualitätssicherungen vorgenommen werden und für wen die Informationsprodukte bestimmt sind. Diese Prozesse lassen sich auf verschiedenen Abstraktionsebenen darstellen. Als oberste Ebene kann das Kontextdiagramm eines Systems angesehen werden (Abb. 15.8). Die Ziele dieses Ansatzes lassen sich wie folgt zusammenfassen: • Design: Die Methode eignet sich hervorragend, um den Produktionsprozess von Informationsprodukten unabhängig von einer bestimmten Technologie zu entwerfen. Hierbei wird eine Business Perspektive eingenommen und weniger eine IT-Perspektive. Bei Änderungen in der Organisation, der Prozesse oder der Informationsprodukte kann anhand der IP-Map’s eine Impactanalyse (Ursache-Wirkung) durchgeführt werden, was das Changemanagement erheblich vereinfacht und verbessert. • Transparenz: Die IP-Map schafft, wie jedes gute Modell, Transparenz. Der Produktionsprozess ist für den Nutzer des Informationsproduktes nachvollziehbar, dadurch steigt die Glaubwürdigkeit der Informationen.
Abb. 15.8 Information Product Map
268
K. Schwinn
• Redundanz: IP-Map’s decken Redundanzen in den Prozessen auf. Die Eliminierung solcher Redundanzen führt zu Synergien und erhöht in der Regel die Qualität des Resultates. • Medienbrüche: Die IP-Map deckt Medienbrüche im Prozess auf. Medienbrüche, beispielsweise manuelle Eingaben in einem ansonsten automatisierten Ablauf, sind häufig mit Risiken für die Qualität und Nachvollziehbarkeit des Ergebnisses verbunden. Medienbrüche sollten minimiert und dort, wo sie unvermeidlich sind, Qualitätssicherungsmaßnahmen eingebaut werden. • Informationsqualität: Die Informationsqualität wird insgesamt erhöht, da die Nachvollziehbarkeit und damit die Glaubwürdigkeit steigt. Durch die Methode der IP-Map ist es einfacher, die Endbenutzer der Informationsprodukte frühzeitig in die Entwurfsphase des Prozesses einzubeziehen, was i. d. R. die Qualität und die Effizienz des Entwurfs verbessert. • Dokumentation: Wenn alle Informationsprodukte nach derselben Methode (IP-Map) entworfen und dokumentiert sind, steigt die Qualität der Dokumentation insgesamt. Die Dokumente werden miteinander vergleichbar, wodurch die oben genannten Effekte bzgl. Transparenz, Redundanz, Medienbrüche und Informationsqualität eintreten. Die Dokumentation ist zuverlässig und dient daher beim Entwurf zusätzlicher Informationsprodukte als Basis, um Redundanzen zu vermeiden und bereits Vorhandenes zu nutzen. • Wirtschaftlichkeit: Die IP-Map deckt mögliche Ineffizienzen (oder Redundanzen; siehe oben) im Prozess auf, liefert Ansatzpunkte zum Reengineering und vermag so die Wirtschaftlichkeit des Informationsmanagements im Unternehmen zu verbessern. Da die Methode unabhängig von einer eingesetzten Technologie ist, können hiermit alle IP-Prozesse dokumentiert werden. Es können Alternativen aufgezeigt, bewertet und berechnet werden, was Wirtschaftlichkeitsanalysen vereinfacht.
15.9 Ökonomische Aspekte Zum Schluss sollen noch die ökonomischen Aspekte des Data Warehouse Systems betrachtet werden. Ein Data Warehouse System ist immer ein Teil der IT-Infrastruktur einer Organisation. Die Wirtschaftlichkeit von Infrastrukturen basiert auf der „Economy of Scale“4, d. h. je besser die Nutzung des Systems ist, desto niedriger ist im Allgemeinen die „Total Cost of Ownership“. Mit dem Grad der Nutzung des Data Warehouse Systems steigen oder fallen die Kosten, die der einzelne Anwender verursacht und die die Kostenstellen zu tragen haben. Betriebswirtschaftlich bedeutet „Economy of Scale“ soviel wie Fixkostendegression. Da jede In frastruktur Fixkosten unabhängig von ihrer Nutzung verursacht, wird durch eine verbesserte Nutzung der Infrastruktur (Skaleneffekt), der Fixkostenanteil je Einheit (z. B. Informationsprodukt, Nutzer) gesenkt.
4
15 Informationsmanagementprozesse im Unternehmen
269
Die Kosten der Datenspeicherung und der Datennutzung in einem Unternehmen werden durch folgende Faktoren wesentlich bestimmt: • Die Datenmenge, die sich ergibt aus der Granularität der Daten, deren Aufbewahrungsdauer und der Datenproliferation5 • Die Anzahl und die Komplexität der Prozesse und Schnittstellen, die unterhalten werden müssen • Die Komplexität des Reportings und der Datenanalyse • Die Technologie, die für die Datenprozesse, -speicherung und -nutzung verwendet wird • Der Aufwand, der für Datenbereinigung und -korrekturen betrieben werden muss. Der Nutzen, den das Data Warehouse System als Teil der IT-Infrastruktur stiftet, ist im Wesentlichen das Resultat von folgenden drei Effekten: 1. Eine verbesserte Informationsversorgung in qualitativer, zeitlicher und räumlicher Hinsicht. 2. Ein geringeres Risiko und eine erhöhte Qualität bei der Informationsversorgung durch etablierte und weitgehend automatisierte Datenprozesse. 3. Eine spürbare operative Kostensenkung durch Reduktion der Schnittstellen und der Prozesse sowie durch Ausnutzung von Skaleneffekten einer verfügbaren und skalierbaren Infrastruktur. Die in diesem Beitrag gezeigte Vorgehensweise hat für das Unternehmen folgende qualitative und quantitative Vorteile: • Die Datenproliferation nimmt tendenziell ab • Die Anzahl von Schnittstellen und Prozessen wird reduziert • Die Anzahl von potenziellen Fehlerquellen und damit notwendigen Datenkorrekturen wird reduziert • Die Speicherung der Daten erfolgt nach klaren Prinzipien und innerhalb einer Gesamtarchitektur • Die zu verwendenden Werkzeuge und Prozesse können standardisiert und für verbindlich erklärt werden • Die „Economy of Scale“ der vorhandenen Infrastruktur wird verbessert, die „Total Cost of Ownership“ sinkt.
Datenproliferation: gleiche Daten in verschiedenen Systemen, unkontrollierte Redundanz (Dippold 2005).
5
270
K. Schwinn
15.10 Zusammenfassung Das geschilderte Beispiel zeigt, wie aus der eingeschränkten Aufgabenstellung des Reviews einer Data Warehouse Implementierung ein Gesamtkonzept für das Informationsmanagement eines Unternehmens entwickelt werden kann. Die Ergebnisse sind etablierte Informations- und Datenmanagementprozesse, implementierte Methoden des Datenqualitätsmanagements wie die Information Product Map, eine dokumentierte Datenlandkarte und Datenarchitektur, eine verbesserte Nutzung der vorhandenen Infrastruktur und damit eine Verbesserung der Wirtschaftlichkeit im Informationsmanagement des Unternehmens. Damit hat das Unternehmen einen strategischen Ansatz für das Informationsmanagement und damit auch für das Informationsqualitätsmanagement gefunden.
Literatur Dippold, R.; Meier, A.; Schnider, W.; Schwinn, K.: Unternehmensweites Datenmanagement – Von der Datenbankadministration bis zum Informationsmanagement. 4. Auflage Vieweg, Wiesbaden 2005 http://www.projektmagazin.de/glossar/ (Zugriff am 20.07.2007) Wang, R.; Allen, T.; Wesley, H.; Madnick, S.: An Information Product Approach for Total Information Awareness; Working Paper 407-02; November 2002, MIT Soan School of Management
Dipl.-Ökonom Klaus Schwinn hat ca. 20 Jahre Erfahrung im Datenmanagement von großen Unternehmen. Klaus Schwinn studierte Mathematik und Wirtschaftsinformatik an der Technischen Universität in Darmstadt sowie Wirtschaftswissenschaften an der FU Hagen. Nach einigen Jahren als freier Mitarbeiter im Rechenzentrum einer deutschen Großforschungseinrichtung wechselte er von der technisch-wissenschaftlichen in die kommerzielle Datenverarbeitung. Ab 1987 war er Mitarbeiter im Datenmanagement des damaligen Schweizerischen Bankvereins in Basel (heute UBS AG) und hier in verschiedenen Positionen u. a. verantwortlich für die Evaluierung von 4GL-Sprachen und CASE-Werkzeugen. Später übernahm Klaus Schwinn die Verantwortung für die Datenarchitektur, die Datenadministration und das Datenbankmanagement der Bank. Ab 1995 war er als Business Area Manager bei einem grossen Schweizer Systemintegrator verantwortlich für den Bereich Business Intelligence, den er zu einem der führenden Kompetenzzentren in der Schweiz entwickelte. Nach einem Engagement bei einem führenden internationalen Beratungshaus war er von 2003–2007 in der Geschäftsleitung bei der UFD AG in Basel verantwortlich für den Bereich Datenmanagement mit den Arbeitsschwerpunkten Datenarchitektur, unternehmensweites Daten- und Informationsmanagement, Datenqualitätsmanagement, Data Warehousing und Business Intelligence. Seit Dezember 2007 ist er als Sektorleiter verantwortlich für das Software-Engineering Data Warehouse & MIS bei der Credit Suisse in Zürich. Klaus Schwinn war Co-Founder und Chairman einer Europäischen Repository Benutzervereinigung. Zu seinen Veröffentlichungen gehört u. a. auch das Buch „Unternehmensweites Datenmanagement“, das sich im deutschsprachigen Raum als Klassiker etabliert hat und im April 2005 in der 4. Auflage erschienen ist. Er ist u. a. Mitglied bei der Deutschen Gesellschaft für Informations- und Datenqualität.
Data Governance
16
Kristin Weber, Boris Otto und Dominik Lis
16.1 Einführung Unternehmen müssen ihr Geschäftsmodell laufend anpassen und weiterentwickeln: Globale Marktpräsenz erfordert weltweit harmonisierte Geschäftsprozesse, Kunden verlangen individuell auf ihre Bedürfnisse zugeschnittene Produkte, und Dienstleistungen werden nach den Prinzipien industrieller Abläufe erbracht. Diese Anforderungen betreffen zum einen die Unternehmensstrategie und die Architektur der Geschäftsprozesse. Zum anderen sind Daten von hoher Qualität eine Grundvoraussetzung, um den Anforderungen gerecht zu werden. Beispiele verdeutlichen die Bedeutung von hoher Datenqualität für den Erfolg von Unternehmen: • Künstliche Intelligenz. Künstliche Intelligenz (KI) steht für eine Vielzahl von Technologien mit dem Ziel, Systeme zu entwickeln, welche durch kontinuierliche Erfahrungszyklen in der Lage sind, komplexe Anwendungsprobleme zu lösen. Daten erweisen
K. Weber (*) FHWS – Hochschule für angewandte Wissenschaften Würzburg-Schweinfurt, Würzburg, Deutschland E-Mail: [email protected] B. Otto Technische Universität Dortmund, Dortmund, Deutschland E-Mail: [email protected] D. Lis Abteilung Datenwirtschaft, Fraunhofer ISST, Dortmund, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_16
271
272
•
•
•
•
•
K. Weber et al.
sich als wesentliches Kernelement bei KI-Verfahren, da sich dieVerwertungsmöglichkeiten von KI auf die Verwendung von großen und qualitativ hochwertigen Datenmengen stützen. Plattformökonomie. Die Durchdringung digitaler Plattformen führt nicht nur im Unternehmenskontext, sondern auch in vielen gesellschaftlichen Lebensbereichen zu tief greifenden Veränderungen. Digitale Plattformen ermöglichen neue Formen der Vernetzung und Zusammenarbeit zwischen Akteuren wie Herstellern, Zulieferern, Drittanbietern oder intelligenten Devices. Insbesondere das Potenzial der Wertschöpfung auf Basis von Daten wird grundlegend durch digitale Plattformen aufgezeigt und die Sicherstellung der Datenqualität trägt wesentlich zur Nutzung von Datenbeständen bei. Unternehmensvernetzung. In vielen Branchen sinkt die Fertigungstiefe einzelner Unternehmen, was zu einer verstärkten Vernetzung und zu einem intensiven elektronischen Datenaustausch führt. Ohne ein gemeinsames Verständnis über die auszu tauschenden Daten sowie einen hohen Qualitätsstandard ist die Integration von Wertschöpfungsketten nicht denkbar. Kundenmanagement. Zur Steigerung der Kundenzufriedenheit und des Kundenservice müssen sämtliche Daten, die im Unternehmen zu einem Kunden existieren, verfügbar sein. In der Praxis erfordert das häufig die Bereitstellung von Daten aus unterschiedlichen Informationssystemen, z. B. aus Systemen für das Customer Relationship Management (CRM) und aus Data-Warehouse-Systemen. Für die Erstellung maßgeschneiderter und individueller Angebote und Dienstleistungen ist eine vollständige Sicht auf einen Kunden notwendig, welche häufig erst durch die Aggregation unterschiedlicher interner und externer Datenquellen möglich ist. Damit diese Kundendatenintegration überhaupt funktioniert, müssen in den beteiligten Systemen die Daten in gleich hoher Qualität gehalten werden. Unternehmenssteuerung. Entscheidungs- und Führungsprozesse in Unternehmen sind durch wachsende Mengen an Informationen, kurze Entscheidungszyklen und zunehmende Komplexität der Entscheidungsbereiche gekennzeichnet. Damit die richtige, eindeutige Information zur rechten Zeit in geeigneter Form und Granularität verfügbar ist, bedarf es eines Datenqualitätsmanagements über die Grenzen einzelner Systeme und Organisationseinheiten hinweg. Behördliche und gesetzliche Auflagen. Die Zahl an Vorgaben und Richtlinien, die Unternehmen hinsichtlich ihrer Datenbestände zu beachten haben, steigt kontinuierlich. Um der damit verbundenen Nachweispflicht nachzukommen, müssen Unternehmen die erforderlichen Daten bereitstellen können. Initiativen zur Durchsetzung gesetzlicher Auflagen werden häufig rein reaktiv angegangen. Die Einführung der Datenschutz- Grundverordnung (DSGVO) zeigte als prominentes Beispiel die Notwendigkeit auf, dass die Bewirtschaftung von Daten vielmehr proaktiv und zielgerecht gesteuert werden muss.
Hohe Datenqualität ist für das gesamte Unternehmen wichtig und nicht nur für einzelne Fachbereiche. Probleme mangelhafter Datenqualität treten in unterschiedlichen Bereichen
16 Data Governance
273
auf, angefangen bei ineffizienter Beschaffung über ein fehlendes Verständnis über Sy nonyme und Homonyme einzelner Datenobjekte bis zu Verzögerungen bei der Einführung neuer Produkte (Russom 2006; DalleMule und Davenport 2017). Dies ist nicht verwunderlich, weil einige wenige Datenobjekte, z. B. Material, Kunde und Lieferant, in den meisten Geschäftsprozessen eines Unternehmens verwendet werden. Datenqualität ist aus Sicht der Datennutzer zu betrachten: „we define ‚data quality‘ as data that are fit for use by data consumers“ (Wang und Strong 1996). Hohe Datenqualität bedeutet also, dass die Daten für den jeweiligen Einsatzzweck der Datennutzer brauchbar sind. Datenqualitätsmanagement (DQM) bezeichnet vor diesem Hintergrund das qualitätsorientierte Management der Daten und umfasst die Verarbeitung, Speicherung, Pflege und Darstellung hochqualitativer Daten. DQM ist eine Querschnittsfunktion, dessen Aufgaben verschiedene Unternehmensbereiche tangieren. DQM ist oft nicht als eigene Organisationseinheit in der Aufbauorganisation eines Unternehmens verankert, sondern wird verteilt wahrgenommen. Damit ein Unternehmen DQM trotzdem zielgerichtet betreiben kann, muss es Verantwortlichkeiten organisations- bzw. bereichsübergreifend zuordnen. Das dafür erforderliche Rahmenwerk wird als Data Governance bezeichnet. Data Governance bezeichnet die Gesamtheit der Verantwortlichkeiten und Entscheidungsprozesse für das qualitätsorientierte Management der Unternehmensressource (Stamm-)Daten.
Häufig konkretisiert sich Data Governance in Rollen, Kompetenzen, Richtlinien und Vorgaben für den Umgang und die Pflege von Daten gemäß den betriebswirtschaftlichen Zielsetzungen des Unternehmens. Obwohl schon etliche Jahre zu Data Governance geforscht wird, steckt die Umsetzung in der Praxis häufig noch in den Kinderschuhen (Algmin und Zaino 2018). Der vorliegende Beitrag entwirft ein Modell für Data Governance, welches Unternehmen bei der organisatorischen Verankerung von DQM unterstützt. Im Folgenden werden mit Rollen, Aufgaben und Zuständigkeiten die drei Gestaltungselemente des Modells vorgestellt. Der nachfolgende Abschnitt soll zunächst das Verständnis von Data Governance klarstellen. Daran schließt sich die Darstellung des Data Governance-Modells an, bevor Hinweise für die Umsetzung in der Praxis gegeben werden.
16.2 G estaltungsbedingungen von Data Governance als Rahmenwerk Für die Entwicklung eines Data Governance-Modells für Datenqualitätsmanagement ist eine Abgrenzung des Gestaltungsbereichs erforderlich. Datenmanagement ist Teil des Informationsmanagements und umfasst Aufgaben des Datenqualitätsmanagements (Klin-
274
K. Weber et al.
genberg und Weber 2020). DQM beinhaltet aber auch Aufgaben außerhalb des Infor mationsmanagements. So sollen beispielsweise Rollen geschaffen werden, die in den Fachbereichen anzusiedeln sind (Otto 2011a; Thomas 2014; Henderson und Earley 2017). Zudem werden Daten im Unternehmen zunehmend als Anlagegut erachtet (Martijn et al. 2015) und „gehören“ damit den Fachbereichen bzw. dem gesamten Unternehmen. Governance beschreibt generell die Art und Weise, in der Organisationen sicherstellen, dass Strategien entwickelt, überprüft und umgesetzt werden. Corporate Governance setzt den institutionellen Rahmen für Unternehmen. Daraus werden zumeist konkrete Vorgaben und Leitlinien abgeleitet, die wiederum auf die verschiedenen Unternehmensbereiche übertragen werden. Data Governance bezieht sich auf das Datenqualitätsmanagement, also das qualitätsorientierte Datenmanagement. Welche Aspekte von Data Governance für eine Organisation relevant sind, hängt von Rahmenbedingungen und den Anforderungen für den Umgang mit Daten ab. Im Folgenden wird unter Data Governance ein Rahmenwerk verstanden, welches die Aufgaben und Verantwortlichkeiten zur Förderung des DQM im Unternehmen definiert. Das Rahmenwerk beinhaltet drei Gestaltungselemente (Weber et al. 2009): • Data Governance benennt die Aufgaben, die im DQM zu erfüllen sind. Hierzu gehören z. B. die Entwicklung einer Datenqualitätsstrategie sowie die Definition von Datenmanagementprozessen. • Data Governance identifiziert die bei den Aufgaben beteiligten Rollen. Zu den Rollen des DQM gehören sogenannte Datenstewards, die mit der Umsetzung von Datenqualitätsstandards betraut sind. • Data Governance legt die Zuständigkeiten fest, mit denen die Rollen in der Aufgabenerfüllung involviert sind. Die drei wesentlichen Gestaltungselemente bilden eine Matrix wie in Abb. 16.1 dargestellt.
Aufgaben des DQM
Rollen des DQM
Zuständigkeiten des DQM (Zuordnung von Rollen zu Aufgaben)
Abb. 16.1 Gestaltungselemente von Data Governance (eigene Darstellung)
16 Data Governance
275
Data Governance bildet also den Rahmen für den ordnungsmäßigen Umgang mit Daten zur Erfüllung der Ziele des DQM. Data Governance betrachtet hingegen nicht die konkrete operative Ausführung der Aktivitäten des DQM, wie bspw. der Datenbeschaffung und Datenpflege. Die Konkretisierung des Rahmenwerks durch die Detaillierung der Gestaltungselemente wird als Data Governance-Modell bezeichnet.
16.3 Ein Modell für Data Governance 16.3.1 Rollen Rollen nehmen die Aufgaben des Datenqualitätsmanagements wahr und treffen Entscheidungen innerhalb ihres Verantwortungsbereiches. Es gibt Einzelrollen, die einzelnen Stellen im Unternehmen zugeordnet werden, und Gremien, die sich aus mehreren Einzelrollen zusammensetzen. Als gemeinsamer Nenner kristallisieren sich fünf Rollen und zwei Gremien heraus, die in den meisten Unternehmen für DQM benötigt werden (vgl. (Weber 2009, S. 106 ff.; Otto et al. 2011). Abb. 16.2 zeigt die Zuordnung der Rollen zu den drei Entscheidungsebenen strategisch, taktisch und operativ. Um den Entscheidungsraum und -horizont der Verantwortlichen klar abzugrenzen, ist für alle Rollen eine Zuordnung zu Ebenen sinnvoll. Die Zuordnung veranschaulicht zudem die Bedeutung der Rollen im Unternehmen (vgl. von Solms und von Solms 2008, S. 3; Weber et al. 2008) Strategische Ebene
Auftraggeber (Sponsor, CDO)
Strategischer Datensteward
Datenqualitätskomitee
Taktische Ebene KonzernDatensteward
DatenstewardTeam
Operative Ebene Fachliche Datenstewards Legende: Einzelrolle
Gremium
Technische Datenstewards
ist Mitglied in
steht in Beziehung mit
Abb. 16.2 Rollen des DQM (in Anlehnung an Weber 2009, S. 106)
276
K. Weber et al.
Die Rollen der strategischen Ebene treffen datenbezogene Entscheidungen mit organisationsweiter Relevanz und werden Mitgliedern der obersten Managementebene zugeordnet (z. B. Vorstand, Leiter Zentraleinkauf). Die Entscheidungen auf dieser Ebene haben langfristigen oder grundlegend gestaltenden Charakter. Zwei Beispiele für derartige Entscheidungen sind die Verabschiedung einer Datenqualitätsstrategie und eine Änderung an der Organisationsstruktur. Die Rollen der taktischen Ebene unterstützen die ausführende, operative Ebene und bereiten die Entscheidungen für die strategische Ebene vor. Sie erarbeiten Konzepte, Verfahren und Templates für das DQM, unterbreiten Vorschläge für Standards und Richtlinien und beaufsichtigen die Durchführung von Maßnahmen und Projekten. Die Rollen und Gremien der operativen Ebene beschäftigen sich im Tagesgeschäft mit DQM. Sie setzen die auf den oberen Ebenen getroffenen Entscheidungen um, führen Maßnahmen und Projekte durch. Sie sind für einen Teilbereich des DQM umsetzungsverantwortlich. Strategische Ebene Auf der strategischen Ebene finden sich der Auftraggeber (Sponsor), die strategischen Datenstewards und das Datenqualitätskomitee. Der Sponsor unterstützt das DQM als Mitglied der Unternehmensleitung. Es kann sich dabei um eine bestehende Rolle im Unternehmen handeln, wie den Chief Executive Officer (CEO), Chief Financial Officer (CFO) oder Chief Information Officer (CIO) des Unternehmens. Immer mehr Unternehmen ernennen jedoch mit dem Chief Data Officer (CDO) eine für das Datenmanagement verantwortliche Person auf der obersten Leitungsebene (Lee et al. 2014), da sich die Aufgaben und Prozesse des klassischen Datenmanagements durch die Digitalisierung und die gestiegene Bedeutung der Daten ausweiten. Gartner schätzte 2016, dass 90 % aller Großunternehmen bis 2020 einen CDO haben werden (Bennett 2016). Der Chief Data Officer leitet das unternehmensweite Datenmanagement und ist für Datenqualitätsmanagement, Data Governance und den Aufbau einer Datenkultur zuständig. Er verantwortet die gesamte datenbezogene Wertschöpfungskette und unterstützt Business Intelligence durch Data Mining, Data Analytics und Data Science. Das Top-Management berät der CDO in datenbezogenen Fragestellungen. Egal ob CDO oder CxO: der Sponsor gibt die strategische Ausrichtung des DQM vor, er budgetiert das DQM und hat für die wesentlichen Entscheidungen ein Vetorecht. Der strategische Datensteward (auch Dateneigner oder Data Owner) hat die strategische Verantwortung für einen Teil der Datenobjekte und für diese die höchste Entscheidungsbefugnis. Der Leiter Kundenservice könnte bspw. der strategische Datensteward für Kundendaten sein, der Leiter Produktion der Strategische Datensteward für Produktstammdaten. Die strategischen Datenstewards vertreten diese Datenobjekte in den Sitzungen des Datenqualitätskomitees. Als Vertreter der Fachbereiche sind sie meistens einem oder mehreren fachlichen Datenstewards vorgesetzt. In ihrem Verantwortungsbereich nehmen sie folgende Aufgaben wahr:
16 Data Governance
277
• Datenobjekte strategisch verantworten, vor allem ihre Struktur, Definition, Dokumentation, Datenqualität, Bewertung und Verbesserung • Entscheidungen des Datenqualitätskomitees durch- und umsetzen • autonome Entscheidungen zu Datenpflegeprozessen, Datendefinitionen, Standards, Richtlinien, Geschäftsregeln etc. treffen • Konflikte lösen Das Datenqualitätskomitee ist das zentrale Entscheidungsgremium für bereichsübergreifende Fragestellungen, wie z. B. welchem Fachbereich die fachliche Verantwortung (entspricht der Rolle des strategischen Datenstewards) für Materialstammdaten übertragen wird (Einkauf, Produktion oder Logistik?) oder ob Kundenstammdaten zukünftig in einem zentralen MDM-System erfasst und gepflegt werden sollen. Das Datenqualitätskomitee verantwortet die Umsetzung der Datenqualitätsstrategie. Die Datenqualitätsstrategie ist das übergeordnete Leitbild zur Bedeutung von Datenqualität im Unternehmen und dessen Beitrag zu den Unternehmenszielen. Das Komitee ist für die Festlegung von Standards zuständig, z. B. für Datenmanagementprozesse und für die Messung der Datenqualität. Es macht zudem Vorschläge für Projekte zur Verbesserung der Datenqualität und überwacht das entsprechende Projektportfolio. Mitglieder im Datenqualitätskomitee sind der Sponsor, der Konzern-Datensteward und die strategischen Datenstewards. Es ist das zentrale Diskussions-, Informations- und Entscheidungsgremium für DQM im Unternehmen. Den Vorsitz hat zumeist der Konzern- Datensteward inne, der in dieser Rolle auch zu Sitzungen einlädt und Entscheidungen und Beschlüsse festhält. Das Datenqualitätskomitee bildet das Bindeglied zwischen der taktischen Ebene und der Unternehmensleitung. Taktische Ebene Die Rollen der taktischen Ebene sind der Konzern-Datensteward und das Datensteward- Team. Sie treffen die kurz- bis mittelfristigen Entscheidungen des Datenqualitätsmanagements, führen Datenqualitäts-Projekte durch und unterstützen die Rollen der operativen Ebene. Der Konzern-Datensteward (auch Data Quality Officer, Data Quality Manager) hat die zentrale Rolle des Datenqualitätsmanagements. Bei ihm laufen alle Fäden zusammen. Er koordiniert konzernweit alle Rollen und Aktivitäten rund um das DQM und ist auf der taktischen Ebene für DQM verantwortlich. Je nach organisatorischer Ausgestaltung berichten ihm die fachlichen und technischen Datenstewards als fachlichen Vorgesetzten. Zumindest steht er aber als Ansprechpartner und Coach zur Seite. Er agiert in enger Kooperation mit den strategischen Datenstewards bzw. den Prozess- und Systemverantwortlichen. Im Gegensatz zu den meisten anderen Rollen führt der Konzern-Datensteward diese Rolle in Vollzeit aus. Er setzt die Entscheidungen und Beschlüsse des Datenqualitätskomitees in die Praxis um, koordiniert die dazugehörenden Projekte, er leitet oder überwacht sie. Er gibt die wesentlichen Messgrößen für die Datenqualität vor und überprüft, inwieweit Maßnahmen zur Erhöhung der Datenqualität zur Zielerreichung b eitragen. Er besitzt ausgeprägte Kompetenzen in allen Aspekten des DQM und verfügt über umfassendes Wissen über betriebliche Abläufe.
278
K. Weber et al.
Unternehmen, die einen Chief Data Officer ernannt haben, brauchen möglicherweise keinen Konzern-Datensteward mehr. Sie haben bereits auf strategischer Ebene eine Person benannt, die in Vollzeit unternehmensweit für DQM verantwortlich ist und die anderen beteiligten Rollen koordinieren kann. Hier vereinen sich die Rollen des Sponsors mit der des Konzern-Datenstewards. Größere Unternehmen etablieren spezielle Abteilungen zur Bündelung der Aufgaben des DQM. Diese Abteilung ist für die unternehmensweite Koordination, Leitung, Unterstützung und Überwachung aller Aktivitäten, Aufgaben und Entscheidungen und aller daran beteiligten Mitarbeiter des DQM zuständig. In so einem Fall leitet der Konzern- Datensteward (oder der CDO) diese Abteilung. Wie viele Mitarbeiter diese Abteilung hat, hängt entscheidend von der Datenqualitätsstrategie und dem dort definierten Umfang und der Reichweite des DQM ab. Bei größeren Unternehmen (mehr als 10.000 Mitarbeiter) mit unternehmensweiter Ausrichtung des Datenqualitätsmanagements finden sich Angaben zwischen vier und zwölf Vollzeit-Mitarbeitern (Weber 2009, S. 125 f.). Im Datensteward-Team treffen sich die fachlichen und technischen Datenstewards regelmäßig, um Erfahrungen auszutauschen und über aktuelle Probleme zu diskutieren. Der Konzern-Datensteward leitet die Sitzungen des Teams. Je nach Anzahl und geografischer Verteilung der Datenstewards sind sie alle Mitglieder im Datensteward-Team. Das Datensteward-Team trifft sich häufiger als das Datenqualitätskomitee, z. B. einmal pro Woche oder alle zwei Wochen. Das Datensteward-Team ist ein Gremium, das je nach Aufgabenstellung Informations-, Beratungs-, Entscheidungs- oder Ausführungscharakter hat. Operative Ebene Der operativen Ebene sind fachliche und technische Datenstewards zugeordnet. Datenstewards werden jeweils für einen bestimmten Verantwortungsbereich benannt, z. B. ein bestimmtes Stammdatenobjekt, einen Fachbereich, ein IT-System oder eine Region. Sie sind Treuhänder und kümmern sich im Auftrag des Unternehmens um die Datenqualität der ihrem Verantwortungsbereich zugehörigen Datenobjekte. Datenstewards sind einerseits wichtige Inputgeber für fachliche und technische Anforderungen. Andererseits setzen sie die getroffenen Entscheidungen in ihrem Verantwortungsbereich um und sorgen für die Einhaltung von Standards und Richtlinien. Fachliche Datenstewards sind Mitarbeiter des Fachbereichs. Üblicherweise sind sie entweder einem Geschäftsbereich (z. B. einer Sparte), einem Hauptgeschäftsprozess (z. B. Einkauf, Vertrieb, Produktion) oder einem bestimmten Stammdatenobjekt (z. B. Lieferantenstammdaten, Kundenstammdaten) zugeordnet. Für ihren Verantwortungsbereich detaillieren die fachlichen Datenstewards die unternehmensweiten Datenqualitätsstandards, welche vom Datenqualitätskomitee vorgegeben werden. Ihr Aufgabenbereich kann die Entwicklung von Geschäftsregeln für Daten umfassen, die Entwicklung von Datenmodellen, die Implementierung von Datenmanagementprozessen sowie die Umsetzung der Messgrößen für Datenqualität. Fachliche Datenstewards kennen die betriebswirtschaftliche Terminologie in ihrem Verantwortungsbereich und wissen, welche Datenobjekte in welcher Form in welchen Geschäftsprozessen verwendet werden. Sie bringen diese Expertise in Vorschläge für unternehmensweite Standards und Richtlinien ein.
16 Data Governance
279
Tab. 16.1 Rollen und Gremien des DQM im Überblick (in Anlehnung an Weber 2009, S. 107) Rolle/Gremium Auftraggeber
Beschreibung Der Auftraggeber verkörpert die Unterstützung des Datenqualitätsmanagements durch die Unternehmensleitung. Er ist der strategische Leiter des Datenqualitätsmanagements. Datenqualitätskomitee Das Datenqualitätskomitee ist das strategische Entscheidungsgremium des Datenqualitätsmanagements. Es hat die Aufsicht über die Umsetzung und Einhaltung der Datenqualitätsstrategie und kontrolliert die Datenqualitätsmaßnahmen. Strategische Die strategischen Datenstewards haben die strategische Verantwortung Datenstewards und höchste Entscheidungsbefugnis für einen Teil der Datenobjekte. Sie besitzen die notwendige Kompetenz, um Entscheidungen des Datenqualitätskomitees in die Organisation zu tragen. Konzern-Datensteward Der Konzern-Datensteward hat die operative Leitung und Verantwortung für Datenqualitätsmanagement. Er koordiniert alle Mitarbeiter des Datenqualitätsmanagements. Datensteward-Team Das Datensteward-Team repräsentiert die Datenstewards des Unternehmens. Es trifft sich regelmäßig, um Erfahrungen auszutauschen und über aktuelle Probleme zu diskutieren und sie zu lösen. Fachliche Fachliche Datenstewards kümmern sich in ihrem Verantwortungsbereich Datenstewards um die Qualität der Datenobjekte aus fachlicher Sicht. Sie repräsentieren als Experten die Interessen ihres Fachgebiets. Technische Technische Datenstewards beschäftigen sich innerhalb ihres Datenstewards Verantwortungsbereiches mit der informationstechnischen Umsetzung der fachlichen Vorgaben des Datenqualitätsmanagements.
Den Gegenpart zu den fachlichen bilden die technischen Datenstewards, die sich mit Fragen der Datenarchitektur und der Systemunterstützung für DQM beschäftigen. In Analogie zum fachlichen Datensteward kann ein technischer Datensteward einem Geschäftsbereich zugeordnet sein, einem Geschäftsprozess oder einem bestimmten Informationssystem. Für ihren Verantwortungsbereich liefern technische Datenstewards standardisierte Datendefinitionen und -formate und sie dokumentieren die Quellsysteme für Datenobjekte sowie die Datenflüsse zwischen den Informationssystemen. Ins Datenqualitätskomitee bringen sie Anforderungen der Informationstechnik an das DQM ein und prüfen und begleiten die technische Umsetzung von Datenqualitätsmaßnahmen. Tab. 16.1 zeigt alle Rollen und Gremien noch einmal mit einer Kurzbeschreibung im Überblick.
16.3.2 Aufgaben Data Governance legt den Rahmen fest, in dem das Datenqualitätsmanagement abläuft. Dazu definiert Data Governance, neben den zuständigen Rollen, die wesentlichen Aufgaben bzw. Entscheidungsbereiche im Datenqualitätsmanagement. Nicht Bestandteil von Data Governance ist jedoch die Festlegung einzelner Teilaufgaben. Die Detaillierung der Aufgabenbereiche liegt in der Verantwortung der zugeordneten Rollen.
280
K. Weber et al.
Die nachfolgende Beschreibung der einzelnen Aufgaben orientiert sich an bestehenden Ansätzen des Datenqualitäts- und Stammdatenmanagements sowie Data Governance Frameworks (u. a. Weber 2009; Otto et al. 2011; Lee et al. 2014; Thomas 2014; Abraham et al. 2019; Seiner 2019). Damit die Aufgaben unternehmensweit wahrgenommen werden können, ist eine Verankerung in einzelnen Geschäfts- und Fachbereichen oder der IT- Organisation allein ungenügend. Vielmehr ist eine Verankerung auch auf strategischer und Prozessebene erforderlich, weswegen im vorliegenden Modell die DQM-Aufgaben gemäß der drei Ebenen der Unternehmensarchitektur Strategie, Prozesse/Organisation und Informationssysteme gegliedert werden (z. B. Otto und Österle 2016). Grundsätzlich bestimmt die Strategie die Organisation und die Geschäftsprozesse, die wiederum durch Informationstechnik unterstützt werden (Österle 1995). Abb. 16.3 gibt einen Überblick über die wesentlichen Aufgaben sowie die Zuordnung zu den drei Architekturebenen. Den drei Ebenen werden die sechs Aufgaben des Datenqualitätsmanagements zugeordnet: Datenqualitätsstrategie, Führungssystem, Organisation, Datenmanagementprozesse, Datenarchitektur und Systemarchitektur.
Strategie Datenqualitätsstrategie
Prozesse und Organisation Führungssystem
Organisation des DQM
Datenmanagementprozesse
Informationssysteme lokal
global
Datenarchitektur
Systemarchitektur
Abb. 16.3 Aufgaben des DQM (in Anlehnung an Otto et al. 2011, S. 10)
16 Data Governance
281
Strategieebene Die strategische Ebene richtet das DQM an den Unternehmenszielen aus und zeigt den Beitrag des DQM zu diesen Zielen auf. Die strategische Verankerung ist wichtig, um der Unternehmensleitung zu zeigen, dass DQM kein Kosten- oder Hygienefaktor ist, sondern wesentlich zu den Unternehmenszielen beiträgt. Die Datenqualitätsstrategie hebt die wirtschaftliche Relevanz von Daten hervor und gibt den Rahmen für den Umgang mit Daten innerhalb des Unternehmens vor. Beispielsweise könnte in einem Strategiedokument stehen, dass das Unternehmen die Unternehmensdaten als „Assets“ betrachtet und diese umsatzsteigernd und gewinnbringend einsetzen möchte. Das Strategiedokument ist eine Art Absichtserklärung der Unter nehmensleitung, sich um das Datenqualitätsmanagement zu kümmern. Auf diesem Bekenntnis der Unternehmensleitung basiert auch die Bereitstellung von finanziellen Ressourcen, um z. B. Mitarbeiter zu beschäftigen, die sich um den gewinnbringenden Einsatz der Daten kümmern. Die Datenqualitätsstrategie beinhaltet strategische Leitlinien für das DQM, also z. B. den Grundsatz, dass jeder Mitarbeiter für die Qualität der von ihm erstellten Daten verantwortlich ist oder dass Transparenz und Offenheit einem Silodenken vorzuziehen sind. Das Dokument gibt somit auch Hinweise zur Datenqualität und Datensicherheit. Es legt den Betrachtungsbereich des DQM fest, also welche Daten und welche Bereiche des Unternehmens betroffen sind bzw. im Fokus der Maßnahmen liegen. Aus der Datenqualitätsstrategie folgen die entsprechende organisatorische Aufstellung des Unternehmens sowie die Definition und Anpassung von Prozessen. Darüber hinaus trifft die Datenqualitätsstrategie Aussagen zu den wichtigsten Maßnahmen und Projekten zur Verbesserung der Datenqualität im Unternehmen und zeigt einen langfristigen Umsetzungsplan auf („Roadmap“). Prozesse und Organisation Das Führungssystem für DQM zielt darauf ab, die strategischen Ziele der Datenqualitätsstrategie zu operationalisieren, d. h. in konkrete Zielsetzungen für einzelne Geschäftsoder Funktionsbereiche im Unternehmen zu übersetzen. In der Praxis hat sich bewährt, diese Ziele in die Anreizsysteme des Unternehmens zu integrieren, bspw. durch Aufnahme in die Zielvereinbarungen von Führungskräften wie Prozess- und Fachbereichsverantwortlichen (oder den strategischen Datenstewards). Im Führungssystem ist festgelegt, wie die Datenqualität und – ebenso wichtig – die Wirkung von hochqualitativen Daten gemessen wird, welche Zielgrößen gelten und welche Messverfahren angewendet werden. Die Darstellung der Ist- und Sollwerte erfolgt häufig mittels „Data Quality Scorecards“ (Klingenberg und Weber 2017). Außerdem beinhaltet das Führungssystem einen Revisionsprozess und trifft Aussagen über Eskalations- und Sanktionierungsmechanismen bei Nichteinhaltung einzelner Sollwerte. Auf der Prozess- und Organisationsebene wird DQM in der Organisation verankert. Das erfolgt durch die Zuordnung von Mitarbeitern zu den o. g. Rollen wie den fachlichen und technischen Datenstewards und durch die Etablierung der Gremienstruktur. Hierbei
282
K. Weber et al.
ist zu beachten, dass für die Besetzung der Rollen einzelne Mitarbeiter nicht notwendigerweise vollständig von ihren bisherigen Aufgaben befreit werden müssen. Beispielsweise werden die Rollen der fachlichen und technischen Datenstewards in der Regel mit Mitarbeitern besetzt, die weiterhin ihre operativen Aufgaben wahrnehmen. Das ist auch insofern notwendig, damit die erforderliche Expertise in einzelnen Geschäftsprozessen, Anwendungssystemen etc. dauerhaft vorgehalten werden kann. Jedoch werden zentrale Rollen wie der Konzern-Datensteward häufig durch Mitarbeiter wahrgenommen, die hundertprozentig von ihren bisherigen Aufgaben freigestellt sind. Bei den Datenmanagementprozessen sind die Datennutzungs- von den so genannten „Datenproduktionsprozessen“ zu unterscheiden. Zur Verbesserung der Datenqualität in der Nutzung der Daten müssen die Anforderungen der Nutzer identifiziert werden. Auf dieser Basis sind anschließend die Datenproduktionsprozesse bzw. Datenbereitstellungsprozesse zu modellieren. In den meisten Fällen handelt es sich dabei um Datenanlage- und Datenpflegeprozesse, z. B. die Erfassung von Logistikdaten zu einem bestimmten Artikelstammdatum. Data Governance hat für diese DQM-Aufgaben Vorgaben zu machen und Standards zu setzen, die definieren, wie Datenqualität in den Prozessen einzuhalten ist. Beispielsweise kann bei Unternehmen im Maschinen- und Anlagenbau eine Vorgabe lauten, dass der Status „As built“ im Produktlebenszyklus erst dann gesetzt werden darf, wenn sämtliche Produktdaten vollständig erfasst sind und alle Geschäftsregeln dafür erfüllt sind. Data Governance muss also auch Aussagen treffen, in welchem Umfang die Datenmanagementprozesse in die operativen Geschäftsprozesse (z. B. Produktentwicklung, Beschaffung) eingebettet sind. Informationssysteme Aus den Geschäftsprozessen leiten sich die Anforderungen an die Datenarchitektur ab. Zur Gestaltungsaufgabe von Data Governance gehört bspw. festzulegen, welche Datenobjekte konzernweit gültig sind und daher einheitlich interpretiert werden müssen, welche Attribute zentral gelten und welche lokal ausgestaltet werden dürfen sowie wie die wichtigsten Datenobjekte definiert sind. Damit umfasst die Datenarchitektur eines Unternehmens sowohl das Datenmodell als auch die umfassende Strukturierung (z. B. nach Regionen, Sparten oder Hauptprozessen) und Definition der wichtigsten Datenobjekte. Die Datendefinitionen werden häufig in sogenannten fachlichen oder Metadaten-Katalogen abgelegt (z. B. Brockmann 2018), für welche in der Praxis auch der englische Begriff „Business Data Dictionary“ verwendet wird. Auf Basis der logischen Strukturierung der Daten in der Datenarchitektur, beschreibt die Systemarchitektur im DQM-Kontext, welche Datenobjekte in welchen Systemen gehalten werden. Von entscheidender Bedeutung ist dabei die Festlegung, welche Systeme für welche Datenobjekte bzw. für welche Attribute als so genannte „führende“ Systeme eingesetzt werden. Beispielsweise kann eine Enterprise-Resource-Planning-System (ERP-System) für die Verwaltung von Materialstammdaten führend sein und dabei auch originär den zugehörigen Primärschlüssel (z. B. die Materialnummer) verwalten. Aber Geometriedaten können in anderen Systemen, z. B. in der Konstruktionsabteilung des
16 Data Governance
283
Unternehmens, vorgehalten werden. Darüber hinaus muss Data Governance auf der Ebene der Informationssysteme Aussagen treffen, welche Datenqualitätsvorgaben bei der Entwicklung bzw. Änderung von Systemen zu beachten sind und welche Systeme zur Verbesserung der Datenqualität eingesetzt werden.
16.3.3 Zuständigkeiten Neben der Identifikation und Besetzung von Rollen sowie der Benennung der wesentlichen Aufgaben im DQM, ist es Zweck von Data Governance, die Verknüpfung von Rollen und Aufgaben herzustellen. Dabei werden einzelnen Rollen bestimmte Zuständigkeiten für Aufgaben zugeordnet. Gemäß der Darstellung in Abbildung 1 entsteht auf diese Weise eine Zuständigkeitsmatrix. Für die Ausprägung der Zuständigkeiten steht eine Reihe von praxisbewährten Konzepten zur Verfügung. Zu den bekanntesten gehört der RACI-Ansatz, der auch im COBIT1 Framework für IT-Governance und IT-Management verwendet wird. RACI ist ein Akronym für die vier Arten von Zuständigkeit: responsible (verantwortlich), accountable (rechenschaftspflichtig), consulted (befragt) und informed (informiert). Für die Aufgaben des DQM bedeutet das: • Umsetzungsverantwortliche Rollen (R) führen die Aufgaben durch bzw. detaillieren die Art und Weise, wie die Aufgaben durchgeführt werden. Sie sind für das „Machen“ zuständig. Beispielsweise ist der fachliche Datensteward im Einkauf dafür verantwortlich, dass für alle Lieferantenstammdaten die sogenannte D-U-N-S-Nummer zur eindeutigen Identifikation von Geschäftspartnern gepflegt ist. • Rechenschaftspflichtige Rollen (A) genehmigen bestimmte Entscheidungen oder Ergebnisse einzelner Aufgaben. Beispielsweise gibt der Konzern-Datensteward die Richtlinien für Datenpflegeprozesse frei, die ein fachlicher Datensteward in einem bestimmten Geschäfts- oder Fachbereich implementieren möchte. • Befragte Rollen (C) bringen ihr spezielles Fachwissen in Entscheidungen an. Beim Entwurf der Datenarchitektur werden z. B. ein Enterprise Architect und technische Datensteward für das ERP-System als Experten hinzugezogen. • Schließlich werden informierte Rollen (I) über die Ergebnisse bestimmter Aufgaben sowie über getroffene Entscheidungen in Kenntnis gesetzt. Verabschiedet das Datenqualitätskomitee bspw. eine neue Geschäftsregel zur Messung der Datenqualität, so werden die für die Implementierung verantwortlichen Systembetreuer darüber informiert. Unterschiedliche Auffassungen existieren darüber, wie viele „A“- bzw. „R“-Zuordnungen pro Matrixzeile, also pro Aufgabe, vorgenommen werden dürfen. In der Theorie finden sich verstärkt Tendenzen, jeweils nur eine „A“-Zuordnung zuzulassen, wohinge1
https://www.isaca.org/resources/cobit.
284
K. Weber et al. Rolle
Aufgabe
Auftraggeber
Datenqualitätskomitee
Strateg. Datenstewards
KonzernDatensteward
DatenstewardTeam
Fachliche Datenstewards
Technische Datenstewards
Datenqualitätsstrategie
A
C
C
R
I
I
I
Führungssystem
I
A
R
C
I
I
I
Organisation
I
A
C
R
C
I
I
A
R
C
C
DatenmanagementProzesse
I
Datenarchitektur Systemarchitektur
I
A
C
R
C
A
C
C
R
Legende: R = Responsible, A = Accountable, C = Consulted, I = Informed
Abb. 16.4 Illustratives Beispiel für eine RACI-Matrix (eigene Darstellung)
gen in der Praxis zumeist nur eine „R“-Zuordnung, aber stattdessen mehrfache „A“-Zuordnungen verwendet werden. Dieser Auffassung liegt die Überlegung zu Grunde, dass es nur eine Rolle geben sollte, die mit der konkreten Umsetzung betraut ist. Mehrfache „A“-Zuordnungen hingegen dokumentieren eine eher kooperative Koordination der Entscheidungsfindung. Welche Art von Zuständigkeit welcher Rolle für welche Aufgaben im DQM übertragen wird, ist für jedes Unternehmen verschieden. Ein Beispiel für eine gefüllte RACI-Matrix mit den Aufgaben und Rollen des DQM zeigt Abb. 16.4.
16.3.4 Gestaltungsvarianten Auf Basis der vorgestellten Aufgaben und Rollen kann jedes Unternehmen ein eigenes, individuelles Data Governance-Modell erstellen. An dieser Stelle sollen ein paar Überlegungen und Einflussfaktoren auf die Gestaltung des Modells vorgestellt werden. Somit sollen Unternehmen eine konkretere Vorstellung davon haben, welche Data Governance- Varianten möglich sind. Einflussfaktoren auf die Ausgestaltung von Data Governance untersuchen z. B. Abraham et al. (2019). Sie unterscheiden externe und interne Einflussfaktoren. Externe Faktoren sind demnach gesetzliche Anforderungen, Marktschwankungen, Branche und Land. Interne Faktoren sind Unternehmens- und IT-Strategie, Produktvielfalt, organisatorische Verankerung der Entscheidungsrechte, Grad der Geschäftsprozessharmonisierung, IT- Architektur, Unternehmenskultur sowie Unterstützung des Top Managements. Die Einflussfaktoren wirken auf (Otto 2011b): 1. die Ziele von Data Governance und damit auf die Auswahl und Ausgestaltung der Aufgaben des DQM, 2. die Platzierung der Entscheidungsbefugnisse, also die Verortung der Rollen in der Aufbauorganisation, 3. den Grad der Zentralisierung bzw. die Organisation der Zusammenarbeit sowie 4. die Auswahl und Ausgestaltung der Rollen des DQM.
16 Data Governance
285
Beispielhaft zeigt sich die unterschiedliche Ausgestaltung an der Rolle des Chief Data Officers. Die Bezeichnung „Chief X Officer“ impliziert immer eine Zuordnung zur obersten Managementebene als Teil der Unternehmensführung. Hier kann der CDO seine unternehmensweite Verantwortung und Führungsrolle für das strategisch wichtige Datenmanagement im Rahmen der Digitalisierung wahrnehmen. Damit grenzt sich der CDO von der Rolle des Konzern-Datenstewards ab. Der Konzern-Datensteward ist meist der mittleren oder unteren Managementebene zugeordnet und ist für die Finanzierung und für strategische Entscheidungen auf den Auftraggeber angewiesen. Ist ein CDO im Unternehmen vorhanden, so ist er gleichzeitig Sponsor und Konzern-Datensteward. Als Teil der Unternehmensführung berichtet der CDO an den CEO. Je nach Bedeutung der Daten im Unternehmen und damit der Zielsetzung von Data Governance sind auch andere Berichtswege möglich (Weber 2018). Werden Daten vorrangig im Marketing und Vertrieb genutzt, könnte der CDO an den Chief Marketing Officer berichten. Ist das Thema Industrie 4.0 oder digitale Produktion ein wesentlicher Treiber fürs Datenmanagement, könnte der CDO dem Chief Technology oder Operating Officer zugeordnet sein. Werden Daten eher aus technischer Sicht betrachtet, ist auch der Berichtsweg Richtung CIO möglich. Beim Grad der Zentralisierung und der Organisation der Zusammenarbeit sind folgende Überlegungen anzustellen. Als zwei Extrema können eine zentrale und eine dezentrale Ausprägung von Data Governance unterschieden werden. Bei der zentralen Variante werden sämtliche Entscheidungsrechte in einer zentralen Stelle, z. B. beim CDO oder Konzern-Datensteward, gebündelt. Bei der dezentralen Gestaltung werden die Befugnisse auf verschiedene organisatorische Stellen im Unternehmen verteilt. Bspw. treffen die fachlichen Datenstewards eigenverantwortlich Entscheidungen für die ihnen zugewiesenen Datenobjekte. Bei einer zentralen Ausgestaltung des Data Governance-Modells finden sich die „A“ und „R“ am häufigsten bei strategischen oder taktischen Rollen und weniger bei den operativen. Die zentrale Platzierung von Entscheidungsbefugnissen tritt tendenziell häufiger bei eher kleinen Unternehmen mit konservativen Wettbewerbsstrategien und formalen Entscheidungsprozessen auf. Die dezentrale Platzierung passt eher zu großen Unternehmen mit offensiven Wettbewerbsstrategien und verteilten Entscheidungsprozessen. Die Zusammenarbeit kann eher hierarchisch oder kooperativ erfolgen. In erstem Fall erfolgt die Koordination in vertikaler Richtung. Kompetenzen werden „nach unten“ delegiert und die Ausführung einzelner Aufgaben wird anschließend „von oben“ überprüft. Bei der kooperativen Koordination werden Entscheidungen im Konsens getroffen. Pro bleme werden nicht per Dekret, sondern in Zusammenarbeit unterschiedlicher Kompetenzträger gelöst. Im Data Governance-Modell drückt sich eine kooperative Zusammenarbeit durch viele „C“ und ggf. sogar mehrere „A“ aus oder dadurch, dass die „A“ und „R“ eher bei Gremien und weniger bei Einzelrollen zu finden sind. Mit einer unternehmensindividuellen Ausprägung des Data Governance-Modells wird gewährleistet, dass die in der Datenqualitätsstrategie artikulierten Ziele erreichbar sind und die Aufgaben des DQM bestmöglich erfüllt werden können.
286
K. Weber et al.
16.4 Praxisbeispiele und Entwicklungsstränge der Datenqualität Die adäquate Bewirtschaftung von Daten im Sinne des DQM stellt für Unternehmen unabhängig von aktuellen technologischen Entwicklungen weiterhin eine Herausforderung dar. Die folgenden Praxisbeispiele aus eigenen Projekterfahrungen zeigen, dass neben der Bewältigung klassischer Aufgaben im Kontext interner (Stamm-)Daten weitere neue Aspekte berücksichtigt werden müssen. Daten erweisen sich zunehmend als grundlegendes Kernelement für neue digitale Geschäftsmodelle oder datengetriebene Dienstleistungen. Diese Entwicklung führt dazu, dass die Bedeutung der Datenqualität zunimmt. Neben der Betrachtung vorhandener Datenbestände zur Unterstützung interner Prozesse werden zunehmend externe Daten zur Verbesserung der Entscheidungsbasis herangezogen.
16.4.1 Herausforderungen der Datenqualität in Industrie 4.0-Szenarien Die Produktionsumgebung in der Automobilindustrie gehört zu den Domänen mit dem höchsten Automatisierungsgrad. Durch den Einsatz von Robotern und Automatisierungssystemen in der Fertigung stellt dieser Bereich beträchtliche Datenmengen her. Im Zuge einer Digitalisierungsstrategie ergriff ein Automobilhersteller die Initiative, das Kerngeschäft für den Paradigmenwechsel Industrie 4.0 bereit zu machen. Problemstellung: Die Fertigungsebene stellt eine datenintensive Umgebung dar. Im Zuge der Produktionsschritte eines Autos werden durch verschiedene Systeme Millionen von Status- und Prozessdaten generiert, welche insbesondere dem Wartungspersonal bei der Beurteilung von Komponenten- oder Maschinenzuständen zugutekommen. In den letzten Jahrzehnten wurden verschiedene IT-Systeme für die Überwachung und Erkenntnisgewinnung entlang des Herstellungsprozesses integriert. Während der Zustand über Maschinen und Prozesse sehr detailliert verfolgt werden kann, mangelt es hinsichtlich der generierten Daten in der komplexen IT-Landschaft an Transparenz. Die Verknüpfung von Stammdaten mit hochvolumigen Echtzeitdaten aus der Produktion bringt etablierte statische Datenmanagement-Aktivitäten an ihre Grenzen. Im Falle eines unerwarteten Ausfalls ist der daraus resultierende Wartungsprozess durch die unterschiedliche Datenhaltung sehr zeitaufwändig. Zielsetzung: Der Zielzustand sieht vor, die Transparenz zu Daten aus dem Shopfloor zu erhöhen und insbesondere für Analysezwecke nutzbar zu machen. Ansatz: Im Fokus der Digitalisierungsinitiative stand zunächst die Erarbeitung einer Blaupause, wie Daten die Digitalisierung in der Produktion und Industrie 4.0-Szenarien unterstützen können. Dazu gehörte die Identifikation relevanter Fokusthemen des Datenmanagements und die stärkere Verankerung von Daten als Schlüsselressource in der Produktion für mehr Transparenz und Analysemöglichkeiten. Zu den zentralen Bestandteilen gehören die Entwicklung einer durchgängigen Datenarchitektur, die Erfassung relevanter Daten und fachlicher Anforderungen an die Daten für den Shopfloor (Datenqualitätsanfor-
16 Data Governance
287
derungen), sowie die Festlegung von Verantwortlichkeiten für generierte Daten entlang des Produktionszyklus. Diese Blaupause dient auch als Basis für einen ersten Entwurf der Datenstrategie, welche mit relevanten Stakeholdern aus fachlichen und technischen Domänen abgestimmt wurde. Als Werkzeug für die Erfassung von Shopfloor-Daten, Ownership zu Daten und Workflows diente ein Datenkatalog, welches zunächst prototypisch in einem Anwendungsfall instanziiert wurde. Im weiteren Verlauf des Projekts werden die Konzepte auf andere Anwendungsfälle angewandt und stetig weiterentwickelt.
16.4.2 Institutionalisierung des Stammdatenmanagements in der Konsumgüterindustrie Das Praxisbeispiel beschreibt ein Szenario des amerikanischen Pharmazie- und Konsumgüterhersteller Johnson & Johnson. Im Zuge der Wachstumsstrategie von Johnson & Johnson wurden Anfang der Jahrtausendwende mehrere Akquisitionen zur Erweiterung der Geschäftsgebiete und der Vergrößerung von Marktanteilen getätigt. Problemstellung: Durch die Unternehmenskäufe litten die Zusammenführung und Harmonisierung der Geschäftsprozesse, sodass keine Richtlinien und Vorgaben für zentrale Geschäftsobjekte und Stammdaten existierten. Dies führte zu fehlerbehafteten Geschäftsprozessen, deren Ursache häufig schlechte Datenqualität war. Die Datenqualitätsprobleme spiegelten sich in wesentlichen Geschäftsaktivitäten wie z. B. bei der Rechnungserstellung (fehlerhafte Rechnung) oder Bestellvorgängen (Verzögerung durch Störung des Informationsflusses) wider. Die Beschwerden von Kunden hinsichtlich der von Johnson & Johnson übermittelten Produktdaten häuften sich. Zielsetzung: Im Fokus der Institutionalisierung des Stammdatenmanagements lag insbesondere die Vermeidung von Geschäftsprozessfehlern. Eines der wesentlichen Ziele war es, ein gemeinsames Verständnis hinsichtlich der wichtigsten Geschäftsobjekte und ihrer Verwendung im Unternehmen herzustellen. Ansatz: Johnson & Johnson etablierte eine unternehmensweite Abteilung für das Stammdatenmanagement. Zu den Zielen der Abteilung gehörte insbesondere die Sicherstellung der Datenqualität und die Unterstützung der Geschäftsprozesse mit qualitativ hochwertigen Daten. Neben dem Aufbau von klaren Verantwortlichkeiten, Rollen und Standards für Daten, dienten Six-Sigma-Werkzeuge aus dem Qualitätsmanagement von physischen Gütern als Unterstützung zur Aufrechterhaltung einer hohen Datenqualität.
16.4.3 Datengetriebene Dienstleistungen im Maschinenund Anlagenbau Der folgende Fall beschreibt die Entwicklung einer neuartigen datengetriebenen Dienstleistung eines Industrieunternehmens im Maschinen- und Anlagenbau (Lis und Otto 2020). Im Fokus der Betrachtung sind industrielle Anlagen zur Materialverarbeitung
288
K. Weber et al.
und -herstellung. Der Anwendungsfall veranschaulicht neuartige Herausforderungen, welche sich insbesondere durch die Interaktion im inter-organisationalen Kontext ergeben. Problemstellung: Die etablierte Praxis führt zu einer Diskontinuität des Informationsflusses von produzierten Maschinen, sobald diese installiert sind und in den Betrieb gehen. Der Hersteller ist für die Weiterentwicklung und Produktmodifikation zur Verbesserung der Anlage an der Maschinennutzung und dem allgemeinen Zustand der Maschine inte ressiert. Allerdings sind diese Informationen nur beschränkt zugänglich. Bei anfallenden technischen Problemen werden Wartungs- und Instandhaltungsdienste a posteriori angestoßen. Sowohl für den Betreiber als auch für den Hersteller erweist sich die Praxis der Durchführung häufig als sehr zeitintensiv. Zielsetzung: Das Industrieunternehmen zielt darauf ab, die langjährige Produktexpertise und Erfahrungswerte der Herstellung von Anlagen mit digitalen Dienstleistungen zu verknüpfen. Das Angebot an datengetriebenen Dienstleistungen soll das etablierte Geschäftsmodell ergänzen. Der Zielzustand stellt einen datengetriebenen und hybriden Ansatz dar, welcher Produkt- und Datenexpertise verbindet und darauf abzielt, Ausfaller eignisse früh zu identifizieren und schnellere Reaktionszeiten für den Betreiber zu gewährleisten. Ansatz: Im Geschäftsbereich des Anwendungsfalls sind keine organisatorischen Strukturen für DQM etabliert. Es wird daher eine Richtlinie für den Umgang mit Daten erarbeitet und verantwortliche Unternehmensbereiche für Berührungspunkte mit den Daten werden identifiziert (Analyse, Service, Instandhaltung). Auf der Grundlage der Analysen können den Kunden verschiedene Dienstleistungen angeboten werden (z. B. Dashboards zur Maschinennutzung, spezifische Betriebsberichte, Prozess- und Optimierungsempfehlungen, Instandhaltungsplanung). Zusätzlich werden neue externe Datenquellen (z. B. Wetterdaten) als neue Parameter in die Analyse einbezogen. Während die technische Infrastruktur derzeit in der Verantwortung der IT-Abteilung liegt, erfordert das neu geschaffene Dienstleistungsangebot unterschiedliche Perspektiven auf die Daten und dementsprechend eine engere Zusammenarbeit in interdisziplinären Teams. Die n ebeneinander existierenden physischen und digitalen „Datenprodukte“ bzw. Dienstleistungen erfordern und verbinden das Fachwissen aus den Bereichen Daten, Technik und Wirtschaft. Im Hinblick auf die Daten, welche für die Analysen relevant sind, bedarf es Kontrollmechanismen zur Sicherstellung der Datenqualität beim Transfer vom Kunden zum Hersteller.
16.5 Zusammenfassung Data Governance ist kein Selbstzweck und auch keine bürokratische Übung. Um Data Governance erfolgreich umzusetzen, müssen sich Unternehmen zunächst klar darüber werden, welches Ziel sie damit verfolgen und welche Reichweite Data Governance haben soll. Ein guter Ausgangspunkt ist die Identifikation von Geschäftstreibern für das Datenqualitätsmanagement, wie z. B. neue gesetzliche Anforderungen. Diese Geschäftstreiber sichern
16 Data Governance
289
einerseits die notwendige Unterstützung durch das Top Management, helfen aber auch den Nutzen von Data Governance anhand eines hochpriorisierten Themas aufzuzeigen. Data Governance bietet einen Rahmen für das Datenqualitätsmanagement. Genauer gesagt, weisen Unternehmen mit Hilfe von Data Governance Rollen Zuständigkeiten für Aufgaben des Datenqualitätsmanagements zu. Typische Rollen sind der Auftraggeber, das Datenqualitätskomitee, die strategischen Datenstewards, der Konzern-Datensteward, das Datensteward-Team sowie fachliche und technische Datenstewards. Die Aufgaben des Datenqualitätsmanagements umfassen die drei Ebenen der Unternehmensarchitektur Strategie, Organisation und Prozesse sowie Informationssysteme. So müssen z. B. eine Datenqualitätsstrategie entwickelt, Datenmanagementprozesse modelliert und die Datenarchitektur gestaltet werden. Die Zuordnung von Zuständigkeiten geschieht mit Hilfe des RACI-Ansatzes. Diese drei Gestaltungselemente der Data Governance ergeben eine Ma trix – das Data Governance-Modell. Die unternehmensspezifische Ausprägung des Data Governance-Modells ist von verschiedenen Einflussfaktoren, wie bspw. Größe, Corporate Governance oder Wettbewerbsstrategie des Unternehmens, abhängig. Die Einflussfaktoren wirken u. a. auf die Platzierung von Entscheidungsbefugnissen und die Art der Zusammenarbeit. Um die im Data Governance-Modell definierten Strukturen umzusetzen, ist es wichtig, die richtigen Personen im Unternehmen einzubeziehen. Alle Betroffenen müssen frühzeitig informiert und aktiv in die Erstellung des Modells einbezogen werden. Die späteren Datenstewards können im Projekt bereits eine Schlüsselrolle einnehmen, da sie die Anforderungen am besten kennen. Die im Modell identifizierten Rollen müssen mit Personen besetzt werden, die die Kompetenz besitzen und die richtigen Fähigkeiten haben, um Veränderungen bewirken zu können und sich durchzusetzen. Nur mit einem Kompensationsmodell, welches die Einhaltung der definierten Regeln für höhere Datenqualität fördert, wird die Initiative langfristig Erfolg haben. Schließlich sollte das Modell regelmäßig überprüft und bei veränderten Gegebenheiten angepasst werden.
16.6 Ausblick Die rapide Fortschreitung der Digitalisierung führt dazu, dass mit Hilfe von neuartigen Verfahren der Künstlichen Intelligenz vielfältige Anwendungsszenarien realisiert werden können. Unternehmen versprechen sich durch die steigende Verfügbarkeit von Daten, den technischen Möglichkeiten zur Speicherung, Verarbeitung und Analyse großer Datenmengen neue wirtschaftliche Verwertungsmöglichkeiten. Allerdings wird in diesem Kontext häufig die Notwendigkeit der Datenqualität vernachlässigt. Goodfellow et al. (2016) definierten als Richtlinie, dass ein KI-Algorithmus zur Erreichung einer menschlichen Leistungsfähigkeit mit mindestens 10 Millionen beschrifteten Datensätzen pro zu identifizierender Kategorie trainiert werden muss. Die Richtlinie zeigt, dass für die Anwendbarkeit und Gebrauchsfähigkeit von KI-Verfahren eine hohe Anzahl von (Trainings-)Daten erforderlich und von Nutzen ist. Die Menge an Daten ist zwar in
290
K. Weber et al.
den letzten Jahren stark angestiegen, allerdings sind die Daten für viele Fragestellungen und Anwendungsszenarien aufgrund einer mangelnden Datenqualität nicht verwertbar oder durch verteilte Datensilos nicht verfügbar. Ein weiterer Trend, der sich im Bereich der Datenqualität herauskristallisiert, ist die automatisierte Analyse und Qualitätsoptimierung von Daten mittels Methoden des Maschinellen Lernens.
Literatur Abraham R, Schneider J, vom Brocke J (2019) Data governance: A conceptual framework, structured review, and research agenda. International Journal of Information Management 49:424–438 Algmin A, Zaino J (2018) Trends in Data Governance and Data Stewardship: A 2018 DATAVERSITY® Report. DATAVERSITY Bennett J (2016) Why Only Half of CDOs Are Poised for Success. In: Smarter With Gartner. https:// www.gartner.com/smarterwithgartner/half-of-cdos-succeed/. Accessed 16 Sep 2018 Brockmann H-C (2018) Effizientes und verantwortungsvolles Datenmanagement im Zeitalter der DSGVO. Datenschutz und Datensicherheit-DuD 42:634–639 DalleMule L, Davenport TH (2017) What’s your data strategy? Harvard Business Review 95:112–121 Goodfellow I, Bengio Y, Courville A (2016) Deep Learning. MIT Press, London Henderson D, Earley S (eds) (2017) DAMA-DMBOK: data management body of knowledge, Second edition. Technics Publications, Basking Ridge, New Jersey Klingenberg C, Weber K (2020) Informations- und Datenmanagement. In: Handbuch IT- Management – Konzepte, Methoden, Lösungen und Arbeitshilfen für die Praxis, 7. Auflage. Hanser, München, pp 225–280 Klingenberg C, Weber K (2017) Kundendatenqualität im Zeitalter der digitalen Transformation. IT-Governance 11:7–13 Lee Y, Madnick SE, Wang RY, et al (2014) A cubic framework for the chief data officer: Succeeding in a world of big data. MIS Quarterly Executive 13:1–13 Lis D, Otto B (2020) Data Governance in Data Ecosystems - Insights from Organizations. In: 26th Americas Conference on Information Systems (AMCIS) Proceedings. Salt Lake City Martijn N, Hulstijn J, de Bruijne M, Tan Y-H (2015) Determining the effects of data governance on the performance and compliance of enterprises in the logistics and retail sector. In: Conference on e-Business, e-Services and e-Society. Springer, pp 454–466 Österle H (1995) Business Engineering. Prozeß- und Systementwicklung: Band 1: Entwurfstechniken, 2. Springer-Verlag, Berlin Heidelberg Otto B (2011a) Data Governance. Business Information Systems Engineering 53:235–238. https:// doi.org/10.1007/s11576-011-0275-1 Otto B (2011b) A morphology of the organisation of data governance. In: ECIS. p 1 Otto B, Kokemüller J, Weisbecker A, Gizanis D (2011) Stammdatenmanagement: Datenqualität für Geschäftsprozesse. HMD – Praxis der Wirtschaftsinformatik 48:5–16 Otto B, Österle H (2016) Corporate Data Quality: Voraussetzung erfolgreicher Geschäftsmodelle. Springer Gabler, Berlin Heidelberg Russom P (2006) Master Data Management: Consensus-Driven Data Definitions for Cross- Application Consistency. The Data Warehousing Institute, Seattle
16 Data Governance
291
Seiner RS (2019) The Non-Invasive Data Governance Framework. In: The Data Administration Newsletter. https://tdan.com/the-non-invasive-data-governance-framework-the-framework-structure/24945. Accessed 5 Mar 2020 Thomas G (2014) The DGI Data Governance Framework. The Data Governance Institute von Solms SH (Basie), von Solms R (2008) Information Security Governance. Springer Publishing Company, Incorporated Wang RY, Strong DM (1996) Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems 12:5–34 Weber K (2009) Data Governance-Referenzmodell – Organisatorische Gestaltung des unternehmensweiten Datenqualitätsmanagements. Universität St. Gallen Weber K (2018) Die Rolle des Chief Data Officers für die Digitalisierung. BI Spektrum, Online Themenspecial Weber K, Cheong LK, Otto B, Chang V (2008) Organising accountabilities for data quality management – A data governance case study. In: Dinter B, Winter R, Chamoni P, et al. (eds) Synergien durch Integration und Informationslogistik. Gesellschaft für Informatik, St. Gallen, pp 347–359 Weber K, Otto B, Österle H (2009) Data Governance: Organisationskonzept für das konzernweite Datenqualitätsmanagement. In: Wirtschaftsinformatik Proceedings. Karlsruhe, pp 589–598
Prof. Dr. Kristin Weber ist Professorin an der Fakultät Informatik und Wirtschaftsinformatik der Hochschule für angewandte Wissenschaften Würzburg-Schweinfurt (FHWS). Der Schwerpunkt ihrer Lehrtätigkeit liegt im IT-Management und der IT-Organisation, speziell Informations- und Datenmanagement, IT-Governance und Information Security Management. Aktuelle Forschung beschäftigt sich mit dem „Faktor Mensch“ in der Informationssicherheit. Prof. Weber studierte Wirtschaftsinformatik an der Universität Leipzig und der Jönköping International Business School (Schweden). Während ihrer Promotion an der Universität St. Gallen erforschte sie im Kompetenzzentrum Corporate Data Quality Lösungsansätze zur Verbesserung der unternehmensweiten Datenqualität. Sie arbeitete in internationalen Projekten als Master Data und SAP R/3 Consultant, u. a. bei Lodestone Management Consultants in Zürich. Prof. Dr. Kristin Weber ist Autorin, Referentin und Beraterin für die Themenstellungen Data Governance, IT-Governance, Datenqualität, Stammdatenmanagement, Security Awareness und ISMS. http://bixlab.fhws.de Prof. Dr.-Ing. Boris Otto ist Inhaber der Audi-Stiftungsprofessur Supply Net Order Management an der Technischen Universität Dortmund und geschäftsführender Institutsleiter des Fraunhofer-Instituts für Software- und Systemtechnik ISST, ebenfalls in Dortmund. Zudem ist er Mitglied des Verwaltungsrats der CDQ AG in St. Gallen, Schweiz. Seine Forschungsschwerpunkte sind indus trielles Informationsmanagement, Daten- und Datenqualitätsmanagement sowie Digital Business Engineering. Dominik Lis ist wissenschaftlicher Mitarbeiter und Referent der Institutsleitung am Fraunhofer-Institut für Software- und Systemtechnik ISST in Dortmund. Nach seinem Studium der Wirtschaftswissenschaften an der Hochschule Düsseldorf und der Tecnológico de Monterrey in Mexiko, absolvierte er sein Masterstudium der Wirtschaftsinformatik an der Universität Duisburg-Essen und der Griffith University in Brisbane (Australien). Schwerpunkte seiner Forschung sind das Datenmanagement und Data Governance im Hinblick auf die Themenbereiche Datenökonomie, digitale Ökosysteme und datengetriebene Geschäftsmodelle.
IQM-Reifegradmodell für die Bewertung und Verbesserung des Information Lifecycle Management Prozesses
17
Saša Baškarada, Marcus Gebauer, Andy Koronios und Jing Gao
17.1 Einleitung Heutige Organisationen produzieren und speichern mehr Informationen als je zuvor. Der resultierende Informationsüberfluss, zusammen mit einem Mangel an Qualitätssicherung für das Information Lifecycle Management, führt zu einem unsicheren Status der Informationsqualität in vielen Organisationen. Weiterhin hat sich herausgestellt, dass das Bewerten, Verbessern und Steuern der Informationsqualität ein offenkundig schwieriges Unterfangen ist. Dieses Kapitel stellt ein Modell zur Bewertung und Verbesserung der Information Quality Management Capability Maturity (IQM-Reifegrad) vor. Es wird ein Satz von Kriterien vorgestellt, der aus Literaturrecherche und Fallstudien abgeleitet wurde. Die Reifegradindikatoren werden validiert und in einem mehrstufigen Reifegradmodell durch eine Delphi-Studie gruppiert. Das abgeleitete IQM-Reifegradmodell hilft Organisationen ihre bestehenden Praktiken im IQM zu bewerten und potentielle Lücken und Verbesserungsstrategien zu ermitteln. Gartner Research berichtet, dass Organisationen, die auf ein echtes Management von Informationen (IM) verzichten, Wettbewerbsnachteile zu erwarten haben (Logan und Newman 2006). Eine zunehmende Zahl von Organisationen beginnt daher die Wichtigkeit des Informationsmanagements und der Informationsqualität (IQ) für eine effektive Entscheidungsfindung und ein erfolgreiches Geschäft zu erkennen. Heutige Unternehmen S. Baškarada (*) · A. Koronios · J. Gao Adelaide, South Australia E-Mail: [email protected]; [email protected]; [email protected] M. Gebauer Department: IT-GMO, Hannover Re AG, Hannover, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_17
293
294
S. Baškarada et al.
haben gerade in der nahen Vergangenheit signifikante Veränderungen durchgemacht. Technologisch neue Möglichkeiten, Informationen zu sammeln und zu erzeugen, haben geradezu zu einer Informationsflut geführt (Lyman und Hal 2003), von der sich Unternehmen Geschäftsvorteile versprochen haben. Dennoch hat diese Informationsfülle nicht notwendigerweise zu besser informierten Organisationen oder effektiveren Entscheidungsprozessen geführt. Unternehmen managen mehr Informationen als je zuvor und nehmen konsequenterweise allmählich resultierende IQ-Fragen war. Obgleich es ein zunehmendes Bewusstsein für IQ-Fragen gibt, stellen viele Organisationen fest, dass es schwierig ist, die eigenen Fähigkeiten im IQM zu bewerten. Das heißt, viele Organisationen sind sich nicht sicher, wie gut sie ihre Informationen managen, ihre Informationsqualität sicherstellen können und wie gut ihre eigene Praxis in der Informationsqualität verglichen mit anderen Organisationen ist. Dieses Kapitel stellt ein IQM- Reifegradmodell zur Bewertung und Verbesserung von IM- und IQM-Prozessen und zur Steigerung IQM-Kompetenzen in Organisationen vor.
17.2 Hintergrund Dieser Abschnitt präsentiert einen kurzen Überblick der relevanten Theorien, wobei das Total Quality Management (TQM), Quality Management Maturity und die IQM- Literatur berücksichtigt wird. Darüber hinaus werden auch bestehende IQM-Reifegradmodelle betrachtet.
17.2.1 Total Quality Management Die Erstellung qualitativ hochwertiger Produkte und die Erbringung ebensolcher Dienstleistungen werden im heutigen Geschäftsumfeld als Grundlage von Erfolg und Dauerhaftigkeit angesehen (Zeithaml et al. 1990). Weiterhin hat Feigenbaum argumentiert, dass Qualität die wichtigste Kraft für Erfolg und Wachstum in nationalen und internationalen Märkten ist (Feigenbaum 1986). Walter Shewhart wird von vielen als der Begründer der heutigen Qualitätsbewegung angesehen, hat er doch statistische Control-Charts und den Shewhart-Kreislauf für eine kontinuierliche Verbesserung entwickelt (Shewhart 1925). Er schlug für Qualität zwei Aspekte vor; den objektiven Aspekt (z. B. Übereinstimmung mit der Spezifizierung), bezogen auf inhärente Charakteristiken des Produktes/Services, und den subjektiven Aspekt (z. B. Bedienbarkeit oder Einfachheit), bezogen auf subjektive (durch Nutzer/Kunden definierte) Qualitätscharakteristiken. Nach Shewhart können subjektive Aspekte von höherem kommerziellen Interesse sein, obwohl objektive Aspekte üblicherweise gemessen werden (Shewhart 1931) . Philip Crosby definiert Qualität als Übereinstimmung mit den Anforderungen, wobei er den Grad der Übereinstimmung als Unterschied zwischen zwei Stati beschreibt, dem gewünschten Status und dem tatsächlichen (Crosby 1979). So können zum Beispiel Kundenerwartungen als der gewünschte
17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Informati …
295
Status und das Produkt oder die Dienstleistung als tatsächlicher Status angesehen werden. Er bahnte ebenso der Idee der Quality Management Maturity den Weg. J. Juran definiert Qualität als „fitness for use“/„Zweckeignung“ (Juran 1974), und führte die Idee der Qualitätstrilogie ein: Qualitätsplanung, Qualitätskontrolle und Qualitätsverbesserung (Juran 1988). W. Edwards Deming definierte Qualität als den vorhersagbaren Grad von Uniformität und Verlässlichkeit (Deming 1982). Er legte dar, dass der Kunde der wichtigste Teil der Produktionskette sei, und dass Verbesserungen in der Qualität sowohl zu Verbesserungen in der Produktivität als auch im Wettbewerb führen (Deming 1982). Kaoru Ishikawa wird die Idee einer unternehmensweiten Qualitätskontrolle in Japan zugeschrieben (Ishikawa 1986). Er führte Qualitätskreisläufe und verschiedene andere Werkzeuge ein, um Wurzelursachen von Qualitätsproblemen zu verstehen. Eines dieser Werkzeuge, das Ursache-Wirkungs-Diagramm, ist auch als Ishikawa- oder Fishbone-Diagramm bekannt. Zahlreiche andere Forscher haben über die Jahre eine große Zahl „Kritischer-Erfolgs-Faktoren“ (CSF – Critical Success Factors) für ein TQM vorgeschlagen. Motwani führte eine vergleichende Analyse von sechs empirischen Studien auf CSF für TQM (Motwani 2001). Er gruppierte ähnliche Konstrukte, wobei er zum Schluss sieben primäre Faktoren erhielt: Top Management Bekenntnis, Qualitätsmessung und -benchmarking, Prozessmanagement, Produktdesign, Mitarbeiterschulung und -befähigung, Lieferanten-Qualitätsmanagement und Einbeziehung des Kunden und dessen Zufriedenheit.
17.2.2 QM-Reifegrad Die Idee eines QM-Reifegrades stammt ursprünglich von Crosby aus dem Jahr 1979 (Crosby 1979). Er schlug fünf Stufen einer Quality Management Maturity für Organisationen vor: Unsicherheit, Erwachen, Aufklärung, Weisheit und Gewissheit (Original: uncertainty, awakening, enlightment, wisdom, certainty), welche von verschiedenen Faktoren abhängen, zu denen Management-Verständnis und -Einstellung, Problembehandlung, Qualitätsverbesserungsaktionen und ähnliches mehr gehören. Seine Ideen wurden von IBM weiterentwickelt und in der Software-Entwicklung angewandt (1985) (Radice et al. 1985). Das Software Engineering Institute (SEI) an der Carnegie Mellon University (CMU) und das Verteidigungsministerium der Vereinigten Staaten von Amerika (US DOD – United States Department of Defense) trieben die Quality Maturity Idee weiter voran, in dem sie ab 1986 das Capability Maturity Modell (CMM) entwickelten (Paulk et al. 1993). CMM wird seitdem durch das US DOD extensiv in der Bewertung seiner Software- und Systementwickler genutzt. Die aktuelle CMM-Version 1.1 wurde im Fe bruar 1993 bereitgestellt. CMM ist eine Methodologie, die genutzt wird, den Softwareentwicklungsprozess einer Organisation zu konsolidieren und zu verfeinern, in dem ein Rahmen zur kontinuierlichen Prozessverbesserung implementiert und zur Bestimmung der aufzuwenden Mittel herangezogen wird. CMM umfasst fünf Reifegrade (Maturity Level), welche den entwick lungsmäßigen Weg eines zunehmend strukturierten und methodisch reiferen Softwareent-
296
S. Baškarada et al.
wicklungsprozesses darstellen. Dem Erfolg von CMM folgend wurden zahlreiche Reifegradmodelle, einschließlich des CMM-Nachfolgers CMMI (Capability Maturity Model Integration), für eine breite Palette von Anwendungsbereichen entwickelt (CMMI 2002).
17.2.3 Information Quality Management Nach der Informationstheorie, welche größtenteils in den Bell Labs in den 1940er entwickelt wurde, dienen Informationen der Reduzierung von Unsicherheit (Shannon 1948; McEliece 2002; Avery 2003). Die Tatsache voraussetzend, dass Entscheidungsqualität eine Funktion der Informationsqualität ist, kann die Entscheidungsfindung in Organisationen durch die Qualität dabei eingesetzter Informationen beeinflusst werden (Stephenson 1985; Strong et al. 1992). Konsequenterweise kommen Organisationen zu der Sicht, dass qualitativ hochwertige Informationen eines ihrer wichtigsten Güter sind (Wang und Strong 1996; Agarwal und Venkatesh 2002). Zahlreiche Forscher haben versucht, IQ zu definieren und deren Dimensionen zu charakterisieren. Was die Spezifizierung von IQ erschwert, ist die Tatsache, dass die Qualität von Information, die für einen Nutzen ausreichend ist, dies für einen anderen nicht mehr ist, da verschiedene Informationskunden unterschiedliche Qualitätsanforderungen haben können (Giannoccaro et al. 1999). Die Verbesserung von IQ ist weiterhin eine schwierige Aufgabe, da die Verbesserung einer IQ Dimension eine andere beeinflussen kann. So kann zum Beispiel die Verbesserung der Zeitgerechtigkeit (Timeliness) zu Kosten der Exaktheit (Accuracy) gehen (Ballou und Pazer 1985). Danach wurde ein IQ-Problem definiert als jedwede Schwierigkeit, die entlang einer oder mehrerer Qualitätsdimensionen entdeckt wird, und die Information insgesamt oder größtenteils für einen Zweck ungeeignet macht (Strong et al. 1997). Das Total Data Quality Management (TDQM) Rahmenwerk adaptierte Prinzipien des Total Quality Management (TQM) im IQM, indem eine Korrelation zwischen traditioneller Produktfertigung und der Fertigung eines Informationsproduktes (IP) gezogen wurde (Wang 1998). Daher kann die Qualität eines erzeugten IP direkt durch die Qualität der im Informationssystem implementierten Prozesse beeinflusst werden. Konsequenterweise ist es daher wichtig sicherzustellen, dass Prozesse in jeder Stufe des Lebenszyklusses einer Information deren Qualität nicht negativ beeinflussen. Überdies hat die TDQM-Methodologie den Qualitätsverbesserungskreislauf aus der verarbeitenden Industrie zur Verbesserung der IQ adaptiert (Tab. 17.1). Dieser „Plan, Do, Check, Act“ Kreislauf von Deming (Deming 1982) wird in der IP-Qualitätsverbesserung Tab. 17.1 Analogie zwischen Produktfertigung und IP-Fer tigung nach (Wang 1998)
Produktfertigung Input Rohmaterialien Prozess Montageband Output Physisches Produkt
Informationsfertigung Rohdaten Informationssystem Informationsprodukt (IP)
17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Informati …
297
angewandt, da IQ-Verbesserungen von kontinuierlicher Rückmeldung in den Prozess abhängig sind, in dem das IP produziert wird.
17.2.4 Existierende IQM-Reifegradmodelle In den vergangenen Jahren wurden eine Reihe IQM-bezogener Reifegradmodelle vorgeschlagen. Caballero et al. stellen das Konzept eines Informationsmanagementprozesses (IMP) dar und berücksichtigen das Informationssystem (IS) als ein Satz von IMPs (Caballero et al. 2004). Anschließend wird das Reifegradmodell auf jedes IMP angewandt. Kyung-Seok beschreibt einige Reifegradstufen in Bezug auf IM, wobei er zeigt, dass ein höherer Reifegrad im IM zu einer verbesserten Informationsqualität führt (Kyung-seok 2005). English passte Crosbys Qualitätsreifegitter auf den Bereich der IQ an (English 1999). Das in diesem Kapitel vorgestellte IQM-CMM wurde an der Universität von Süd- Australien (UniSA) im Strategic Information Management Laboratory (SIM Lab) entwickelt(Baškarada et al. 2006). Es fundiert auf Crosbys Qualitätsreifegitter, welches fünf Stufen beinhaltet, wobei jede Stufe eine Evolution im IQM-Reifegrad bildet. Durch Trennung von IQ-Zielen in einer Anzahl an Stufen sollte es einfacher sein inkrementell partielle IQ-Ziele zu erreichen.
17.3 Methodologie Das IQM-CMM wurde in zwei Stufen entwickelt. In der ersten Stufe wurde eine Reihe von IQM-Reifegradindikatoren mit Hilfe von Fallstudien und extensiver Literaturrecherche entwickelt. Annähernd zwei dutzend Interviews wurden in fünf großen australischen Organisationen, zu denen verschiedene Regierungsabteilungen und Verteidigungsorganisationen gehörten, durchgeführt. Hierbei wurden die Reifegradindikatoren aus drei Perspektiven betrachtet: organisatorisch, sozial und technologisch. Die zweite Stufe beinhaltete eine Delphi-Studie über vier Iterationen, in welcher die individuellen Reifegradindikatoren validiert und in Stufen gruppiert wurden. An der Delphi-Studie waren 20 IQ-Experten, sowohl von der praktischen als auch von der akademischen Seite, beteiligt. Dies umfasste auch Mitglieder der International Association for Information and Data Quality (IAIDQ) und der Deutsche Gesellschaft für Informations- und Datenqualität (DGIQ).
17.3.1 Die Delphi-Methode Die Delphi-Methode wurde in den 1950er durch die Rand Corporation entwickelt, um den Einfluss von Technologie in der Kriegsführung vorherzusagen (Benarie 1988; Woundenberg 1991). Der Name selbst geht auf das Orakel von Delphi Pythia zurück (Woundenberg
298
S. Baškarada et al.
1991; Parke und Wormell 1956). Die Delphi-Methode ist eine Technik, um neue Aspekte zu erkennen und Teilnehmer von Studien zu einem Konsens ihrer Meinungen zu bringen (Delbecq et al. 1975; Paliwoda 1983; Cho et al. 1991). Sie wird auch eher genutzt, um neue Theorien und Hypothesen zu finden als diese zu testen (Kaynak und Macaulay 1984). Die Methode gebraucht eine Reihe von Fragebögen, in welcher jede folgende Fragerunde die vorhergehende zusammenfasst (Fontana und Frey 1994). In jeder nachfolgenden Runde sind die Teilnehmer aufgefordert ihre Meinung aufgrund der Ergebnisse der vorangegangenen Runde neu zu überdenken, um so einen Konsens in der Gruppe zu erzielen (Delbecq et al. 1975; Rowe et al. 1991). Dementsprechend ist die Delphi-Methode dort nützlich wo wertende Information zur Lösung komplexer Probleme notwendig ist. In der letzten Runde werden die Ergebnisse zur Überprüfung an eine Expertenrunde versandt (Prendergast und Marr 1994). Es wurde schon argumentiert, dass die Delphi-Methode exaktere Vorhersagen macht als solche unstrukturierter Gruppen (Rowe und Wright 1999). Der Hauptaspekt an Delphi-Studien ist deren Anonymität, kontrollierte Rückmeldung, statistische Auswertung der Gruppenrückmeldung und die Zusammenstellung eines Expertenausschusses zur unabhängigen Beurteilung der Ergebnisse. Daher kann auch die Auswahl des Ausschusses nicht zufällig erfolgen. Sie orientiert sich am Expertenwissen, das für das zu untersuchende Thema notwendig ist (Deitz 1987; Martino 1983). Darüber hinaus sollten Teilnehmer unterschiedlichen Hintergrundes ausgewählt werden, so dass ein holistisches Ergebnis erzielt werden kann (Delbecq et al. 1975; Rowe et al. 1991; Keeney et al. 2001). So werden valide und verlässliche Ergebnisse durch einen Konsens des Urteils von Experten erreicht (Bardecki 1984; Parente et al. 1984). Nach Fowles (Fowles 1978) sollte die Expertenrunde nicht weniger als sieben Teilnehmer haben, andere geben einen Bereich von zehn bis 50 an (Day und Aaker 1990; Mitchell und McGoldrick 1994; Dalkey 1969; DeLoe 1995; Miller 1993; Prendergast und Marr 1994). Dagegen behauptet Delbecq (Delbecq et al. 1975) auf der anderen Seite, dass es keine bestimmte Anzahl sein muss, solange es genug Teilnehmer gibt, um ausreichend urteilen zu können.
17.4 IQM-Reifegradmodell Das IQM-Reifegradmodell (IQM-CMM) umfasst fünf aufeinander aufbauende Stufen (Tab. 17.2), welche einen evolutionären Pfad strukturierterer und methodisch reiferer IQM Prozesse darstellt. Jede Stufe hängt von einer Anzahl Reifegradindikatoren ab, welche wiederum von einer Reihe von Bewertungskriterien abhängen. Das vollständige IQM- CMM beinhaltet über 50 Reifegradindikatoren, und das Bewertungsinstrument verwendet ungefähr fünf Bewertungsmaße pro Indikator. Insgesamt ergeben sich ungefähr 250 Bewertungsmaße. Bei mehr als 50 Reifegradindikatoren des IQM-CMM präsentieren wir in diesem Kapitel nur eine Zusammenfassung auf grobem Niveau. Wir nutzen drei Qualitätsstufen pro Bewertungskriterium: nicht zufriedenstellend, teilweise zufriedenstellend und voll zufriedenstellend (Tab. 17.3).
17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Informati …
299
Tab. 17.2 IQM-CMM Beschreibung auf höherer Ebene (durch die Autoren entwickelt) Reifegrad-Niveau Stufe 5 OPTIMIEREND Stufe 4 STEUERND Stufe 3 MESSEND Stufe 2 REAKTIV Stufe 1 CHAOTISCH
Beschreibung IQM-Durchführungsüberwachung Kontinuierliche IQM-Verbesserung IQM-Governance Kontinuierliche IQ-Verbesserung IQ Zustands-Überwachung (IQ-Messung) Information Lifecycle Management Grundlegendes Informations-Management IQ-Schwächen sind bekannt Totales Chaos!
Tab. 17.3 IQM-CMM System der Bewertungskriterien (durch die Autoren entwickelt) Wertung Nicht zufriedenstellend Teilweise zufriedenstellend Voll zufriedenstellend
Beschreibung Es gibt keine Dokumentation und es gibt nur eine begrenzte oder keine Evidenz, eine Umsetzung zu bestätigen Es gibt eine Dokumentation, die Umsetzung ist jedoch durch ad-hoc- Prozesse inkonsistent Komplett dokumentiert, konsistent umgesetzt, effektiv und effizient angewendete Industrie-Best-Practices, mit Ergebnissen über den Erwartungen
17.4.1 Chaotisch Die erste Stufe beinhaltet per definitionem keine Reifegradindikatoren. Organisationen, die die Bewertungskriterien der zweiten Stufe nicht erfüllen, werden als „Chaotisch“ klassifiziert. Solche Organisationen mögen einige grundlegende IM-Prozesse haben, diese sind jedoch nicht dokumentiert, standardisiert oder konsistent umgesetzt. Desweiteren versuchen „Chaotische“ Organisationen nicht, die Qualität der Informationen, die sie managen, zu bewerten oder zu verbessern. Unter Umständen ignorieren sie sogar IQ-Probleme und -Schwächen. Bereiche im Reifegradprozess • keine
17.4.2 Reaktiv Organisationen der zweiten Stufe sind sich der IQ-Schwächen bewusster. Dennoch reagieren sie nur auf IQ-Probleme, wenn diese auftauchen. „Reaktive“ Organisationen besitzen dokumentierte, standardisierte und konsistent umgesetzte grundlegende IM-Prozesse, obgleich sie vielleicht nicht über explizite IQM-Initiativen verfügen. Solche Organisationen haben die
300
S. Baškarada et al.
Interessenvertreter (Informations-Lieferanten, -Stewards, -Eigner und -Nutzer) und Informationsnotwendigkeiten identifiziert und haben ein konzeptionelles, logisches und physische Datenmodell entwickelt. Speichermanagement-Regularien stellen sicher, dass kritische Informationen regelmäßig gesichert und archiviert werden, dass replizierte Information geeignet verwaltet wird und dass Informationen regelmäßig daraufhin geprüft werden, ob diese gelöscht werden können. Regelungen der Zugangskontrolle stellen sicher, dass nur autorisiertes Personal Zugriff auf Informationssysteme hat. Prüfungsketten stellen sicher, dass Zugriffs-Aktivitäten chronologisch geloggt werden. Zusätzlich garantieren Sicherheitsregularien adäquate Klassifizierung, Übertragung und Löschung sensitiver Informationen. Bereiche im Reifegradprozess • • • • • • • • •
Management der Interessenvertreter Analyse der Anforderungen an Informationen Informationsmodellierung (konzeptionell, logisch, physisch) Speicherung redundanter Informationen Archivierung und Wiederbeschaffung von Information Informationszerstörungsmanagement Zugangskontrolle Prüfungsketten Informationssicherheit
17.4.3 Messend Organisationen der dritten Stufe beginnen, ihre Informationen als ein Produkt in allen Phasen des Lebenszyklusses zu managen. Solche Organisationen haben den Informationsfluss dokumentiert und managen die Informationslieferketten entsprechend. Des Weiteren sind Konfigurationsmanagement-Prozesse, welche sicherstellen, dass jede Änderung aufgezeichnet und rückgängig gemacht werden kann, implementiert. Eine konsistente Darstellung wird durch nutzen des gleichen ‚Look and Feel‘ für alle Informationsprodukte erreicht. „Messende“ Organisationen haben zusätzlich Metadaten-Registries eingeführt, was bedeutet, dass Metadaten getrennt von ‚normalen‘ Daten gesteuert werden. Relevante IQ-Dimensionen sind identifiziert und IQ-Anforderungen wurden durch die Interessen vertreter spezifiziert. Hieraus entstehen qualitative und quantitative IQ-Metriken und regelmäßige IQ-Bewertungen. Am wichtigsten ist aber, dass ein Projekt-Manager für die IQM-Anstrengungen verantwortlich ist. Dieser gewährleistet mit Schulungsprogrammen, dass das gesamte Personal die notwendigen Fertigkeiten besitzt. Bereiche im Reifegradprozess • Information als Produkt • Informationslieferketten
17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Informati …
• • • • • • •
301
Konfiguration und Visualisierung des Informationsprodukts Meta-Informationen IQ-Anforderungsanalyse IQ-Metriken IQ-Bewertung IQ-Team und -Projektmanagement IQM-Aufklärung, -Schulung und -Mentoring
17.4.4 Steuernd Organisationen der Stufe vier besitzen strikte Regelungen bezüglich der Rollen und Pflichten, Sicherstellung der Verantwortlichkeiten und geben Anreize und Belohnungen für das IQM. „Steuernde“ Organisationen führen IQ-Benchmarks innerhalb der Organisation und extern gegen ihre Wettbewerber und die Weltmarktführer durch. Konsequenterweise wird IQ strategisch gesteuert, diese wird also mit den Strategien der Organisation und Key Performance Indikatoren (KPI) in Einklang gebracht. Solche Organisationen verbessern IQ kontinuierlich durch die Adressierung von Wurzelursachen von Problemen. Überdies haben „Steuernde“ Organisationen eine Informationsarchitekur entwickelt und dokumentiert, welche die Informationsintegration und Interoperabilität maximiert. Bereiche im Reifegradprozess • • • • • • • • • •
IQM-Governance IQM-Verantwortung, -Belohnung und -Anreiz IQ-Benchmarking Strategisches IQM IQ-Revisions-Management IQ-Firewall Master Data Management Wurzelursachen-Analyse von IQ-Problemen IQM Kosten-Nutzen-Analyse Geschäftsprozess-Überarbeitung zur Verbesserung der IQ
17.4.5 Optimierend Organisationen auf Stufe fünf sind weltführend in IQM. Sie überwachen die Güte ihrer IQM-Anstrengungen durch in- und externes Benchmarking kontinuierlich. Analyse, Bewertung, Berichtswesen und Verbesserung werden kontinuierlich verbessert und stets mit den Zielen der Organisation in Einklang gebracht. Das IQM und die damit verbunden Regeln und Metriken selbst sind Gegenstand ständiger Verbesserung.
302
S. Baškarada et al.
Bereiche im Reifegradprozess • • • •
IQM-Benchmarking IQM-Analyse und -Berichtswesen IQM-Metriken Kontinuierliche Verbesserung des IQM
17.5 Zusammenfassung und Ausblick Heutige Organisationen sammeln und speichern mehr Informationen als je zuvor. Dennoch mögen all diese Informationen nicht zu einem strategischen und operativen Vorteil führen, bis sie durch Analyse Wissen erzeugen. Auf der anderen Seite ist Voraussetzung zur Erzeugung von Wissen, dass die genutzte Information von hoher Qualität ist. Als Folge beginnen Organisationen, IQ als wichtige Grundvoraussetzung für ihren Geschäftserfolg zu erkennen. In diesem Kapitel haben wir das IQM-Reifegradmodell IQM-CMM vorgestellt, welches Organisationen hilft, ihre IQM-Kompetenz zu bewerten und Verbesserungs- Strategien zu entwickeln. IQM-CMM unterstützt die gezielte, zweckorientierte Sammlung, Speicherung und Nutzung von Information. In der Folge werden die IQ, die Entwicklung der Organisation und die Entscheidungsfindung verbessert.
Literatur Agarwal, R. & Venkatesh, V.: Assessing a firm’s web presence: A heuristic evaluation procedure for the measurement of usability. In: Information Systems Research, 2. Jg., 2002, Heft 13, S. 168–178. Avery, J.: Information Theory and Evolution. World Scientific Publishing Co. Pte. Ltd., Singapore, 2003. Ballou, D. P. & Pazer, H. L.: Modeling Data and Process Quality in Multi-Input, Multi-Output Information Systems. In: Management Science, 3. Jg., 1985, Heft 31, S. 150–162. Bardecki, M. J.: Participants’ Response to the Delphi Method: An Attitudinal Perspective. In: Technological Forecasting and Social Change, 3. Jg., 1984, Heft 25, S. 281–292. Baškarada, S., Koronios, A. & Gao, J.: Towards a Capability Maturity Model for Information Quality Management: A TDQM Approach. In: 11th International Conference on Information Quality (ICIQ-06), 2006, MIT, Cambridge, Massachusetts, USA, November 10–12. Benarie, M.: Delphi and Delphi Like Approaches with Special Regards to Environmental Standard Setting. In: Technological Forecasting and Social Change, 2. Jg., 1988, Heft 33, S. 149–158. Caballero, I., Gómez, Ó. & Piattini, M.: Getting Better Information Quality by Assessing and Improving Information Quality Management. In: The Ninth International Conference on Information Quality (ICIQ-04), 2004, MIT, Cambridge, Massachusetts, November 5–7. Cho, Y. Y., Jeong, G. H. & Kim, S. H.: A Delphi Technology Forecasting Approach Using a Semi- Markov Concept. In: Technological Forecasting and Social Change, Jg., 1991, Heft 40, S. 273–287. CMMI: Capability Maturity Model® Integration (CMMI), Version 1.1. Carnegie Mellon Software Engineering Institute, Pittsburgh, 2002.
17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Informati …
303
Crosby, P.: Quality is Free. McGraw-Hill, New York, 1979. Dalkey, N. C.: Delphi Method: An Experimental Study of Group Opinion. The Rand Corporation, Chicago, IL, 1969. Day, G. S. & Aaker, D. A.: Marketing Research. John Wiley & Sons, New York, NY, 1990. Deitz, T.: Methods for Analysing Data from Delphi Panels. In: Technological Forecasting and Social Change, Jg., 1987, Heft 31, S. 79–85. Delbecq, A. L., Ven, A. H. V. d. & Gustafson, D. H.: Group Techniques for Program Planning: A Guide to Nominal Group Delphi Process. Scott-Foresman, Glenview, IL, 1975. DeLoe, R. C.: Explorig Complex Policy Questions Using The Policy Delphi: A Multi-Round, Interactive Survey Method. In: Applied Geography, 1. Jg., 1995, Heft 15, S. 53–68. Deming, W. E.: Out of the Crisis. MIT Press, Cambridge, 1982. English, L. P.: Improving Data Warehouse and Business Information Quality. Wiley Computer Pu blishing, New York, Chichester, Weinheim, Brisbane, Singapore, Toronto, 1999. Feigenbaum, A. V.: Total Quality Control. McGraw-Hill, New York, NY, 1986. Fontana, A. & Frey, J. H.: Interviewing: The Art of Science. Sage, London, 1994. Fowles, J.: Handbook of Futures Research. Greenwood Press, London, 1978. Giannoccaro, A., Shanks, G. & Darke, P.: Stakeholder Perceptions of Data Quality in a Data Warehouse Environment. In: Australian Computer Journal, 4. Jg., 1999, Heft 31, S. 110–117. (Zugriff am 25th of August 2006), 2003. Ishikawa, K.: Guide to Quality Control. Asian Productivity Organization, Tokyo, 1986. Juran, J. M.: Quality Control Handbook. McGraw-Hill, New York, NY, 1974. Juran, J. M.: Juran on Planing for Quality. Free Press, New York, 1988. Kaynak, E. & Macaulay, J. A.: The Delphi Technique in the Measurement of Tourism Marketing Potential. In: Tourism Management, Jg., 1984, Heft, S. 87–101. Keeney, S., Hasson, F. & McKenna, H. P.: A Critical Review of the Delphi Technique as a Research Methodology for Nursing. In: International Journal of Nursing Studies, Jg., 2001, Heft 38, S. 195–200. Kyung-seok, R.: A study on data quality management maturity model. In: Advanced Communication Technology, 2005, ICACT 2005. The 7th International Conference on Advanced Communications Technology, 2005, S. 598–603 Vol. 1. Logan, D. & Newman, D.: From IM to EIM: An Adoption Model. Gartner Research, 2006. Martino, J. P.: Technological Forecasting for Decision Making. American Elsevier, New York, NY, 1983. McEliece, R. J.: The Theory of Information and Coding. Cambridge University Press, Cambridge, UK, 2002. Miller, M. M.: Enhancing Regional Analysis with the Delphi Method. In: Review of Regional Studies, 2. Jg., 1993, Heft 23, S. 191–212. Mitchell, V. M. & McGoldrick, P. J.: The Role of Geodemographics in Segmenting and Targeting Consumer Markets: A Delphi Study. In: European Journal of Marketing, Jg., 1994, Heft 28, S. 54–72. Motwani, J.: Measuring Critical Factors of TQM. In: Measuring Business Excellence, 2. Jg., 2001, Heft 5, S. 27–30. Paliwoda, S. J.: Predicting the Future using Delphi. In: Management Decision, 1. Jg., 1983, Heft 21, S. 31–38. Parente, F. J., Anderson, J. K., Myers, P. & O’Brin, T.: An Examination of Factors Contributing to Delphi Accuracy. In: Journal of Forecasting, 2. Jg., 1984, Heft 3, S. 173–182. Parke, H. W. & Wormell, D. E. W.: The Delphi Oracle. Basil Blackwell, Oxford, 1956. Paulk, M. C., Curtis, B., Chrissis, M. B. & Weber, C. V.: Capability Maturity Model for Software, Version 1.1. Software Engineering Institute/Carnegie Mellon University, 1993.
304
S. Baškarada et al.
Prendergast, G. & Marr, N.: Towards a Branchless Banking Society? In: International Journal of Retail & Distribution Management, 2. Jg., 1994, Heft 22, S. 18–26. Radice, R. A., Harding, J. T., Munnis, P. E. & R.W. Phillips: A Programming Process Study. In: IBM Systems Journal, 2. Jg., 1985, Heft 24, S. 297–307. Rowe, G. & Wright, G.: The Delphi Technique as a Forecasting Tool: Issues and Analysis. In: International Journal of Forecasting, Jg., 1999, Heft 15, S. 353–375. Rowe, G., Wright, G. & Bolger, F.: Delphi: A Re-evaluation of Research and Theory. In: Technological Forecasting and Social Change, Jg., 1991, Heft 39, S. 235–251. Shannon, C. E.: A Mathematical Theory of Communication. In: The Bell Systems Technical Journal, Jg., 1948, Heft 27, S. 379–423, 623–656. Shewhart, W. A.: The Application of Statistics as an Aid in Maintaining Quality of a Manufactured Product. In: Journal of the American Statistical Association, Jg., 1925, Heft 20, S. 546–548. Shewhart, W. A.: Economic Control of Quality of Manufactured Product. van Nostrand, New York, NY, 1931. Stephenson, B. Y.: Management by Information. In: Information Strategy: The Executive’s Journal, 4. Jg., 1985, Heft 1, S. 26–32. Strong, D. M., Lee, Y. W. & Wang, R. Y.: Decision Support for Exception Handling and Quality Control in Office Operations. In: Decision Support Systems, 3. Jg., 1992, Heft 8, S. 217–227. Strong, D. M., Lee, Y. W. & Wang, R. Y.: Data Quality In Context. In: Communications of the ACM, 5. Jg., 1997, Heft 40, S. 103–110. Wang, R. Y. A.: A Product Perspective on Total Data Quality Management. In: Communications of the ACM, 2. Jg., 1998, Heft 41, S. 58–65. Wang, R. Y. & Strong, D.: Beyond Accuracy: What Data Quality Means to Data Consumers. In: Journal of Management Information Systems, 4. Jg., 1996, Heft 12, S. 5–34. Woundenberg, F.: An Evaluation of Delphi. In: Technological Forecasting and Social Change, Jg., 1991, Heft 40, S. 131–150. Zeithaml, V. A., Parasuraman, A. & Berry, L. L.: Delivering Quality Service: Balancing Customer Perception and Expectations. Free Press, New York, NY, 1990.
Saša Baškarada has more than 10 years of experience in ICT and is currently employed as a researcher at the Strategic Information Management Laboratory (http://sim.unisa.edu.au), University of South Australia. He is also providing advice to several large Australian Defence organisations in the areas of Information Quality Management and Strategic Information Management. Saša has published numerous book chapters as well as peer reviewed journal and conference papers. Dr. Marcus Gebauer studierte Physik an der Universität Dortmund und der Humboldt-Universität zu Berlin und promovierte dort im Gebiet der Elementarteilchenphysik im Jahre 1997. Von 1997 bis 2001 war er in der WestLB Systems GmbH verantwortlich für Software-Produkte und -Projekte im Wertpapierumfeld. Danach leitete er bis 2009 als Datenqualitätsbeauftragter den Bereich Daten qualitätsmanagement der WestLB AG. Sein Verantwortungsbereich umfasste den gesamten WestLB-Konzern, der auf allen Kontinenten mit Handelsaktivitäten vertreten ist. Seit Oktober 2009 zeichnet Dr. Gebauer verantwortlich für den Bereich ‚Governance, Management und Organisation‘ des IT-Bereiches der Hannover Re AG. In dieser Aufgabe ist er verantwortlich für die globale Ausrichtung der IT.
17 IQM-Reifegradmodell für die Bewertung und Verbesserung des Informati …
305
Außerdem ist er Gründungsmitglied und Vorstandsvorsitzender der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ e. V.). Dr. Gebauer berät internationale Unternehmen und Organisationen in den Themen Daten- und Informationsqualität, Business Intelligence, Risk Management, Compliance und allen sachverwandten Gebieten. Er ist Mitglied des Advisory Boards der FinScore AG (Lausanne/Schweiz), Advisor der ‚School of Computer & Information Science‘ der University of South Australia (Adelaide/Australien) und Mitbegründer des EIDIQ ‚European Institute for Data and Information Quality‘. Andy Koronios Jing Gao
Management der Materialstammdaten in SAP®-Systemen
18
Knut Hildebrand
18.1 Stammdaten – die wichtigsten digitalen Zwillinge Stammdaten sind die digitalen Zwillinge von Objekten der realen Welt, z. B. von Material. Durch die rasch fortschreitende digitale Transformation (Digitalisierung) und der damit einhergehenden zunehmenden Vernetzung bekommt die Qualität der Materialstammdaten eine noch höhere Bedeutung als bisher. Technische und organisatorische Herausforderungen wie Supply Chain Management, IoT, Industrie 4.0, Big Data usw. erfordern zwingend eindeutige Prozesse für die Erstellung, Pflege und Löschung von Stammdaten. Ein bewährtes Konzept für die weit verbreitete Standardsoftware von SAP (R/3, ERP und S/4HANA) ist der Master Data Life Cycle. Stammdaten (Geschäftsobjekte) sind der Datenbestand, auf dem Geschäftsprozesse aufbauen, und der über einen längeren Zeitraum erhalten bleibt, z. B. Kunden oder Artikel. Daher ist ihre Datenqualität außerordentlich wichtig. Stammdaten ändern sich nicht während einer betrieblichen Transaktion – der Buchung eines Geschäftsvorfalls –, aber sie steuern ihn und fließen in die Belege (Bewegungsdaten) ein, die diesen Prozessschritt dokumentieren. Stammdaten ändern sich jedoch sehr wohl im Laufe ihres Lebens, da sich die einzelnen Attributswerte weiterentwickeln können. Beispielsweise die Anschrift oder Rechtsform eines Lieferanten oder die Dispositions-Parameter eines Materials. Grundsätzlich kann man zwei Arten von Stammdaten unterscheiden. • Originäre Stammdaten, die selbst erstellt werden und deren Pflege bis zur Löschung in eigener Verantwortung geschieht, z. B. die eigenen Materialien.
K. Hildebrand (*) Fakultät WF, Hochschule Weihenstephan-Triesdorf, Freising, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_18
307
308
K. Hildebrand
• Referenzdaten, die aus übergeordneten Systemen übernommen werden, etwa von Behörden (z. B. Zolltarifnummer) oder der Konzernmutter (Kontenpläne); sie sind dort originäre Stammdaten. Ferner lassen sich Stammdaten nach der Verwendung differenzieren (Hildebrand 2018): • Zentrale bzw. globale Stammdaten, die konzernweit genutzt werden, d. h. sie kommen in einer Vielzahl von Prozessen vor. Die Hoheit darüber liegt in einem zentralen Stammdatensystem, von wo aus die Verteilung erfolgt. Vorteilhaft ist dabei, dass somit Dubletten weitgehend vermieden werden können. Ein Beispiel dafür ist in SAP die Grunddatensicht eines Materials, die die Materialnummer, Materialbezeichnung, Basismengeneinheit und weitere unternehmensweit gültige Daten enthält. • Prozessspezifische bzw. lokale Stammdaten, die in der Regel in einem Prozess/einer Organisationseinheit benutzt werden und die dafür verantwortlich ist. Beispielsweise die werksspezifischen Dispositions-Parameter eines Materials oder die Mindestauftragsmenge eines Vertriebsbereichs (Abb. 18.1). Stammdaten sind folglich die Daten, die Informationsobjekte beschreiben, die über einen längeren Zeitraum gelten und die in andere Objekte eingehen. Solche Objekte sind etwa andere Stammdaten (Bsp.: Konditionen, Einkaufsinfosätze), Formulare/Doku mente, Belege (Auftrag, Rechnung usw.) und Geschäftsprozesse, Datenbanken und Excel- Tabellen, Schnittstellen (EDI, XML), Berichte/Auswertungen, Bildschirmmasken oder Merkmale in einem Data Warehouse. So gesehen sind Stammdaten der wichtigste Teil, der Kern eines Informationssystems, sie sind die Datenquellen, deren Attribute an anderen Stellen benutzt werden, z. B. um Funktionen zu parametrisieren oder um Prozesse zu steuern (Abb. 18.2).
Zentrale/globale Stammdaten
Produktion
Stammdaten, die in mehr als einem Prozess verwendet werden.
Prozessspezifische/lokale Stammdaten
Einkauf
Vertrieb
Stammdaten, die nur in einem Prozess benutzt werden.
Abb. 18.1 Zentrale und prozessspezifische Stammdaten
18 Management der Materialstammdaten in SAP®-Systemen
309
Abb. 18.2 Stellung der Stammdaten mit abhängigen Objekten im Informationssystem
Stammdaten spielen nicht nur innerhalb eines Informationssystems eine große Rolle. Im Zeitalter der weltweiten Vernetzung und unternehmensübergreifenden Systemintegration erfolgt ihre Verwendung auch in anderen Systemen, beispielsweise: • • • • • • • • • • • • • •
Enterprise Resource Planning (ERP) Office Applikationen (Excel) Supplier Relationship Management (SRM) Customer Relationship Management (CRM) Supply Chain Management (SCM) Advanced Planer and Optimizer (APO) Internet Applikationen (Shops) Business Warehouse (BW), Data Warehouse (DW) Product Lifecycle Management (PLM) Computer Integrated Manufacturing (CIM) Behörden (Finanzamt, Statistiken, Zoll) Industrie 4.0 Internet of Things (IoT) Social Media
310
K. Hildebrand
18.2 Stammdatenqualität führt zu Prozessqualität 18.2.1 Qualitätseigenschaften Eine funktionierende Informationsproduktion verlangt mindestens folgende Qualitätseigenschaften: Daten müssen korrekt, aktuell, relevant, zeitnah und periodengerecht verbucht, konsistent, vollständig sowie redundanzfrei sein (siehe Kap. 2). Ferner sind gerade in heterogenen, unternehmensübergreifenden Informationssystem-Architekturen und Datenbank-Applikationen weitere Eigenschaften wichtig: • • • • •
Verfügbarkeit (Availability), Zuverlässigkeit des Datenzugriffs (Zugänglichkeit, Lesbarkeit), Update-Frequenz (Timeliness), Antwortzeit und Genauigkeit.
Dies betrifft Stammdaten, Belege (Bewegungsdaten), Bestandsdaten und Daten- Aggregationen (z. B. im Data Warehouse). Im Wesentlichen tauchen Datenqualitätsprobleme bei den Stammdaten und den aus ihnen entstehenden Belegen auf; Datendefekte wirken sich auf Geschäftsprozesse aus und führen zu Geschäftsproblemen (Ebner und Brauer 2011). Bestandsdaten und Statistiken/Verdichtungen/Aggregationen sind letztlich daraus resultierende Daten, die Hauptqualitätsprobleme liegen jedoch in den Stammdaten.
18.2.2 Probleme der Datenqualität und ihre Auswirkungen Da die Stammdaten – Artikel, Kunden, Lieferanten, Preise usw. – in allen Geschäftsprozessen (in den Belegen), Auswertungen, administrativen und dispositiven Anwendungen vorkommen, beeinflusst die Qualität der Stammdaten unmittelbar alle Abläufe, Bestände, Erlöse und Kosten bis hinein in die Unternehmensberichterstattung, man denke nur an Compliance/Sarbanes-Oxley Act (SOX). Qualitativ hochwertige Stammdaten sind damit der zentrale Erfolgsfaktor für alle Anwendungen. Dies soll an einem Beispiel aus der Logistik verdeutlicht werden. Typische Fehler im Materialstamm sind: falsche Dispo- Parameter, Losgrößen, Wiederbeschaffungszeiten, Sicherheitsbestände usw. Die Folgen können sein (Hildebrand 2004): • • • • •
Bestände: zu hoch/zu gering (ebenso die Bestandswerte in der Bilanz) Dispo-Lauf: zu viele/frühe/späte Bedarfe, Bestellungen, Aufträge Falsche Aussagen der Verfügbarkeitsprüfung bzgl. Menge und Termin Falsche Preise, Texte, Lagerungsdaten usw. Supply Chain: falsche Einstellungen werden global weitergereicht
18 Management der Materialstammdaten in SAP®-Systemen
311
Die mit den Stammdaten erzeugten Belege (Aufträge, Bestellungen, Warenein- und -ausgänge, Umlagerungen usw.) bilden die Geschäftsvorfälle und -prozesse ab. Sie enthalten die Informationen, die im Rahmen der Verfügbarkeitsprüfung, der Bestandsführung oder der Disposition täglich bzw. jederzeit herangezogen werden. Schlechte Belege aufgrund inkorrekter Stammdaten führen zu weiteren Fehlern in den Prozessen, Beständen und Auswertungen. Mögliche Folgen sind: • Bestände: falsche Aussagen bzgl. Materialverfügbarkeit (Menge und Termin), Inventurdifferenzen, fehlerhafte Bedarfe • Dispo-Lauf: falsche Ergebnisse • Kennzahlen: falsche Aussagen, z. B. Bestandscontrolling • Kunde, Lieferant: Unzufriedenheit durch falsche Information • Prognose: Fehler aufgrund falscher Verbrauchswerte in der Vergangenheit • Distribution: Lieferung/Versand/Warenausgang nicht möglich • Produktion: Folgeproduktion (Stücklistenmaterial) nicht möglich
18.3 Master Data Life Cycle (MDLC) – der Stammdatenprozess 18.3.1 Statuskonzept Um die nötige hohe Qualität der Stammdaten zu erhalten, ist die organisatorische Implementierung des Stammdatenmanagements im Unternehmen erforderlich. Dazu gehört der Prozess, der sich mit der Materialanlage (Ankündigung), Pflege und Löschung (Abkündigung) befasst: der Master Data Life Cycle (MDLC). Eine zentrale Rolle spielt hierbei der Materialstatus in SAP®. Mit diesem Attribut lassen sich die Status im Leben des Materials abbilden. Der Materialstatus kann im Materialstammsatz in den einzelnen Werks-Sichten (Einkauf, Verkauf usw.) unterschiedlich ausgeprägt sein. Als Standardeinstellung ist er nicht gesetzt, d. h. das Feld ist nicht gefüllt (Leerzeichen/Blanks). Dann unterliegt dieses Material keiner Einschränkung. In der Sicht „Grunddaten 1“ gilt der Status mandantenweit über alle Organisationseinheiten (für alle Werke) hinweg (Abb. 18.3). Mit diesem Status wird beispielsweise gesteuert, ob ein Material disponiert, beschafft oder gefertigt werden darf. Die Feinsteuerung übernimmt der zweistellige Schlüssel, der die Art der Sperre definiert und die Reaktion (Warnung, Fehler) des Systems festlegt (Abb. 18.4). Zum Materialstatus gehört ferner das Datum, ab dem er gültig ist. Neben der mandantenweiten Einstellung kann der Materialstatus werksspezifisch gesteuert werden. Hierzu wird in der jeweiligen Werkssicht – Einkauf, Kalkulation 1, Disposition 1, Arbeitsvorbereitung (AV), Fertigungshilfsmittel oder Qualitätsmanagement – der Status für jedes betroffene Werk gesetzt (Abb. 18.5). Dadurch kann der Materialstatus an zwei Stellen, nämlich auf Mandantenebene (MARA-MSTAE) und auf Werksebene (MARC-MMSTA) eingestellt werden, so dass im
312
K. Hildebrand
Abb. 18.3 Werksübergreifender Materialstatus als Steuerungsinstrument. (© SAP®)
Abb. 18.4 Einstellung des Materialstatus. (© SAP®)
Abb. 18.5 Werksspezifischer Materialstatus. (© SAP®)
Rahmen der Anlage- und Löschprozesse global und lokal (Werksebene) differenziert werden kann. Das ist etwa sinnvoll, wenn bestimmte Länder/Werke spezielle Einstellungen benötigen. Unterscheiden sich die Status zwischen Grunddaten (mandantenweit) und Werk, reagiert das SAP®-System folgendermaßen:
18 Management der Materialstammdaten in SAP®-Systemen
313
1 . Fehlermeldung (Error) geht vor Warnung 2. MARA-MSTAE geht vor MARC-MMSTA Darüber hinaus kann der Materialstatus im Vertrieb (Vertriebsstatus) benutzt werden, um die Behandlung in den Vertriebsbelegen (z. B. kein Verkauf) zu steuern (Abb. 18.6). Dieser Status kann für alle Vertriebslinien übergreifend (MARA-MSTAV) gelten (also mandantenweit), oder für spezifische Vertriebslinien (MVKE-VMSTA). Eine Vertriebslinie ist bei SAP® die Kombination aus Verkaufsorganisation und Vertriebsweg. Unterscheiden sich die beiden Status (Abb. 18.7), reagiert das SAP®-System folgendermaßen: 1 . Fehler (Error) schlägt Warnung 2. MARA-MSTAV schlägt MVKE-VMSTA Beispielsweise könnte der Materialstatus für ein selbst erstelltes Fertigerzeugnis (FERT) folgende Bedeutungen haben (Tab. 18.1). Angewandt auf den MDLC ergibt sich dann die Reihenfolge wie in Abb. 18.8 dargestellt. Das lässt sich auf andere Materialarten übertragen, als weiteres Beispiel zeigt Abb. 18.9 die Status bei Handelsware (HAWA). Das Konzept des MDLC kann auch auf andere Stammdaten übertragen werden. Für Debitoren gibt es beispielsweise Sperrdaten für (alle oder ausgewählte) Buchungskreise
Abb. 18.6 Materialstatus im Vertrieb/Vertriebsstatus. (© SAP®)
Abb. 18.7 Materialstatus im Vertrieb/Vertriebsstatus. (© SAP®)
K. Hildebrand
314 Tab. 18.1 Materialstatus der Materialart Fertigerzeugnis in SAP® S1 S2 S3 ’S4’ blank S5 S6 S7 S8
Materialstamm ist global angelegt Stückliste/Arbeitsplan ist angelegt Kalkulation ist möglich Alle Sichten (global+lokal) sind gepflegt, das Material ist einsetzbar (eigentlich der Status „ “, also keine Einschränkung) Abverkauf: Warnung im Prozess Fehler/Warnung bei Planung, Einkauf, Produktion, Verkauf Immer Fehlermeldung! Sonderfälle nach dem logischen Löschen (Retouren)
Abb. 18.8 Stammdatenprozess-Steuerung durch die Materialstatus in SAP®. (Materialart Fertigerzeugnis)
Abb. 18.9 Stammdatenprozess-Steuerung durch die Materialstatus in SAP®. (Materialart Handelsware)
18 Management der Materialstammdaten in SAP®-Systemen
315
oder Vertriebsbereiche. Ebenfalls können Kreditoren mit einer Buchungs- oder Einkaufssperre versehen werden.
18.3.2 Hindernisse und Problemfälle Im Anlageprozess, der Erstanlage, können beispielsweise fehlende Zusatzdaten (EANCodes), Sprachen, Einheiten oder die Verwendung der falschen Materialart zu Verzögerungen führen. Ein Hinweis am Rande: Bei der Neuanlage ist zu prüfen, ob ein bestehender Stammsatz gelöscht (Sortimentsbereinigung usw.) werden kann, um so die große Menge an Materialien zu beherrschen und Dubletten zu verhindern. Bei der Datenübernahme aus einem Altsystem, der Datenmigration, ist es unabdingbar, dass die Stammdaten vorher im abgebenden System analysiert, harmonisiert, bereinigt und korrigiert werden. Hierzu gehören die Prüfung der Schlüsselintegrität und der referenziellen Integrität, die domänenspezifische Konsistenzprüfung und Nachbearbeitung sowie die Suche und Verschmelzung von Duplikaten. Neben den technischen Aspekten sollten betriebswirtschaftliche Zusammenhänge berücksichtigt werden, um Daten von der Übernahme auszuschließen. Damit kann die Anzahl der zu migrierenden Datensätze um bis zu 80 % reduziert werden (Engel 2011). Solche Ausschluss-/Findungsregeln können etwa sein: • • • • •
Materialien ohne Stückliste oder Arbeitsplan oder Bestand Materialien ohne (aktuelle) Belege Materialien mit Löschkennzeichen Stammdaten nicht benutzt/gebraucht, veraltet, nicht vollständig Belege ohne Stammdaten
Ferner ist zu berücksichtigen, ob bei der Migration noch offene Prozesse existieren, etwa bei der Stammdatenanlage/-pflege. Den Pflegeprozess (Änderungsdienst) führt die globale oder lokale – je nach Sicht im Stammsatz – Datenpflege aus. Probleme ergeben sich, wenn die Updates nicht zeitnah zur Verfügung gestellt bzw. ausgeführt werden. Der Löschprozess wird im SAP®-Standard durch ein Lösch-Kennzeichen (Löschvormerkung) gesteuert, das eigentlich besser als Archivier-Kennzeichen zu bezeichnen ist. Dies kann auf Mandantenebene (MARA-LVORM), auf Werksebene (MARC-LVORM) oder im Vertrieb (MVKE-LVORM) gesetzt werden. Das Lösch-Kennzeichen merkt einen Datensatz vor zum physischen Löschen in der Datenbank, hat aber in der Regel nur informativen Charakter. Daher werden im Statuskonzept des MDLC die Status S5 und folgende benutzt. Für das Löschen von Materialien kann es mehrere Gründe geben: • Das Material wurde nie benutzt, es ist falsch angelegt worden • Das Material liefert zu wenig Deckungsbeitrag
316
K. Hildebrand
• Es gibt ein Folgematerial als Ersatz • Das Material ist veraltet und wird nicht mehr gebraucht. Häufig findet man eine activity rate im Materialstamm von 80 % oder weniger, d. h. ca. 20 % der Materialstammdaten werden nicht (mehr) genutzt. Die Auswahl der nicht genutzten Materialstammsätze kann durch einen individuellen Report erfolgen, der Löschvorschläge generiert. Abhängig von der Erfüllung bestimmter Regeln – beispielsweise zwei Jahre keine Bewegung, keine Bestände, keine Änderungsbelege, seit 12 Monaten nicht benutzt und unvollständig gefüllt usw. – wird der Status SX „veraltet“ automatisch gesetzt; dies entspricht dem Status S6 oder S7 bei manueller Löschung. Wenn dann weitere 12 Monate keine Aktivität zu verzeichnen ist, wird gelöscht. Allerdings gilt dies nicht für alle Materialien, sondern ist etwa abhängig von der Materialart. Es ist daher darauf zu achten, dass z. B. Ersatzteile – meist eine eigene Materialart – durchaus viele Jahre keine Bewegung haben und nur sehr wenig Bestand; hier wäre eine Löschung eher nicht sinnvoll. Typische Löschhindernisse sind: gültige abhängige oder verteilte Stammdaten (APO, Stücklisten usw.). Ebenso stören noch vorhandene Bestände (SAP kennt sehr viele Bestandsarten) oder offene Belege, z. B. Planaufträge, Aufträge, Bestellungen, Lieferungen, Reservierungen, Prüflose, Chargen. Häufige Ursachen dafür sind organisatorische Änderungen (Werke, Lagerorte, Kostenstellen), die die finale Bearbeitung der Belegpositionen unmöglich machen, und falsch eingestellte Parameter (z. B. Dispositions-Parameter nicht auf „ND“ gesetzt). Eine mögliche Lösung dieser Probleme besteht darin, dass man allgemeine Regeln ab dem Status S5 (Abverkauf) programmtechnisch implementiert: • Zeitabhängiges Löschen der Belege, d. h. Bestellungen, Aufträge ÄLTER ALS x Tage werden gelöscht • Zeitunabhängiges Löschen der Belege, wenn Sicherheitsbestand und Meldebestand = 0 werden Planaufträge und Bestellanforderungen gelöscht • Setzen aller Rest-Bestellpositionen auf „endgeliefert“ • Absagen von Auftragspositionen usw.
18.3.3 Tools der SAP® Für die Erfassung und Pflege der Stammdaten bietet die SAP® das Tool SAP® MDG (Master Data Governance) an. Neben vordefinierten Workflows können eigene Abläufe für die Stammdatenpflege modelliert werden. Somit lassen sich unternehmensspezifische Freigabeprozesse definieren; die Daten verbleiben bis zur endgültigen Freigabe in der sogenannten staging area, so dass es keinen Konflikt geben kann mit den Daten des Produktivsystems. Ferner lassen sich eigene Sichten definieren, so dass die feste Aufteilung der Attribute wie in der Anlagetransaktion mm01 (Dispo1, Dispo2 usw.) aufgelöst werden kann zugunsten
18 Management der Materialstammdaten in SAP®-Systemen
317
betriebsspezifischer Konzepte. Beispielsweise können Dispositions- und AV-Felder so konfiguriert werden, wie es der betrieblichen Organisation entspricht. Für die Prüfung und Auswertung der Datenqualität steht der SAP® Information Steward zur Verfügung. Den fachlichen Datenqualitätsverantwortlichen (Data Stewards) wird damit die Möglichkeit gegeben, Datenqualitätsprobleme frühzeitig zu erkennen und zu analysieren. Es entsteht Transparenz, die Ursachen können gezielt untersucht und angegangen werden und über entsprechende Kennzahlen wird der Erfolg der betrieblichen Data Governance sichtbar.
18.4 Implementierung des MDLC Neben der beschriebenen technischen Umsetzung durch die Materialstatus muss im Unternehmen die organisatorische Implementierung des Anlage-, Pflege und Löschprozesses erfolgen. Dazu gehören die Abteilungen und Stellen (global und lokal), z. B. Master Data-Verantwortliche (Data Stewards), Koordinatoren, Key User. Ferner die Stammdatenprozesse, ggf. unterstützt durch Workflows mit Leitfäden, Eskalationsprozeduren, Überwachungsprogrammen, Kontroll-Reports (Monitoring). Es sind die nötigen Aktivitäten (Muss, Kann, Warnung, Fehler usw.) je Status zu definieren, mit Verantwortlichen und Beteiligten. Grundlage dafür sind die betriebswirtschaftliche Bedeutung und die logistischen Auswirkungen. In der Praxis bewährt hat sich die zentrale Anlage der wichtigsten Grunddaten; dies gewährleistet eine einheitliche Behandlung und Dubletten werden vermieden. Lokale Daten (Werksebene) können dagegen dezentral gepflegt werden. Der Auslauf- bzw. Löschprozess muss wiederum zentral gesteuert sein, vor allem wegen der Abhängigkeiten zwischen Materialien, Stücklisten und Beschaffungsvarianten (Sonderbeschaffungsschlüssel). Es ist das Bewusstsein zu schaffen für Organisation und Prozesse. Es muss Prozessverantwortliche über alle Stufen und Schritte geben. Wichtige Prozessschritte sind mit Kennzahlen zu überwachen. Beispielsweise die Kennzahl für die Dauer (Lead time) von der Initialisierung bis zur fertigen Anlage eines Stammsatzes, auch für einzelne Schritte, oder für den Löschprozess. Hierzu einige Hinweise für die Prozessunterstützung: • • • • • • • •
Prüfungen schon bei der Eingabe durchführen Anlegevorgänge möglichst hoch automatisieren Systemunterstützung implementieren (MDG) Sicherstellung der Statusfolge im MDLC auf der Zeitachse, auch bei Zurückweisung, Nacharbeit oder Abbruch Global verantwortliche Experten für jeden Datenobjekttyp festlegen Datenhoheit und organisatorische Zuständigkeit definieren Definition von Regeln, die globale Gültigkeit haben Koordination der Schnittstellen, z. B. zu APO/SCM
318
• • • • • •
K. Hildebrand
Kontrolllisten/-reports und Überwachungsprogramme Stammdatencheckprogramme mit Plausibilitätsprüfungen (zu Bereinigungszwecken) Schulung der Stammdatenpfleger, restriktive Vergabe der Berechtigungen Reihenfolge bei der Archivierung/Löschung beachten Residente Belege (inkl. Finanzbuchhaltung) beachten Bei höherer Systemintegration Verschiebungen der Datenentstehung berücksichtigen
Im Rahmen des Stammdatenmanagements sind zwei kritische Themen in der Praxis immer wieder zu finden. Zum einen tauchen oft Probleme auf, wenn ein Material in einer Fremdsprache global angelegt wird. Ein Konzept für Sprachprobleme muss berücksichtigen, wie man dieses Material wieder findet (in welchen Sprachen muss ich wonach suchen) und wie es am besten in die anderen Sprachen übersetzt wird. Eine Lösung wäre, es grundsätzlich im MDLC zuerst in der Unternehmenssprache (meist Englisch) einzuführen. Zum anderen existiert fast überall das Problem der Organisationsstrukturen. Hiermit ist gemeint, dass Änderungen in der Aufbauorganisation sich unmittelbar auf die Stammdaten, Geschäftsprozesse und Kennzahlen auswirken (Abb. 18.2). Das ist bei SAP® und anderer Software insofern problematisch, da sich die Elemente der Aufbauorganisation (Werke, Verkaufsorganisationen usw.) als Fremdschlüssel – und zwar als Teil des zusammengesetzten Primärschlüssels – in den Stammdaten wiederfinden. Änderungen nicht additiver Art, also beispielsweise Löschung oder Verschmelzung von Werken/Lagerorten – müssen sehr genau bedacht werden, vor allen hinsichtlich der Abhängigkeiten (referenzielle Integrität) und Auswertungen im Zeitverlauf (Hildebrand 2002).
18.5 Resümee Das Management der Materialstammdaten steht in einer immer stärker vernetzten Welt vor großen Herausforderungen. Für eine hohe Stammdatenqualität ist es unverzichtbar, die Stammdatenprozesse zu vereinheitlichen und gegebenenfalls zu synchronisieren. Dazu wurde das Konzept des Master Data Life Cycle vorgestellt. Dieses Konzept wurde vom Verfasser in der Praxis in großen und mittelständischen Unternehmen implementiert, angepasst sowie weiterentwickelt und hat sich bewährt.
Literatur Ebner, Verena; Brauer, Berthold: Fallstudie zum Führungssystem für Stammdatenqualität bei der Bayer CropScience AG, in: HMD Praxis der Wirtschaftsinformatik, 48 Jg. (2011), Heft 279, S. 64–73. Engel, Michael: Wirtschaftliche Aufbereitung komplexer Stammdaten in globalen Projekten, in: HMD Praxis der Wirtschaftsinformatik, 48 Jg. (2011), Heft 279, S. 46–55.
18 Management der Materialstammdaten in SAP®-Systemen
319
Hildebrand, Knut: Organisatorische Implementierung im Informationssystem: Das Problem der Organisationsstrukturen bei der Konfiguration von Softwaresystemen, in: Spitta, Thorsten; Borchers, Jens; Sneed, Harry M. (Eds.), Software Management 2002: Progress through Constancy. GI-Conference Software Management 2002, November 2002, Hamburg, GI-Edition Lecture Notes in Informatics, Vol. P-23, Gesellschaft für Informatik, Bonn 2002, S. 56–62. Hildebrand, Knut: Datenqualität im Supply Chain Management, in: Dadam, Peter; Reichert, Manfred (Hrsg.), Informatik 2004 – Informatik verbindet, Band 1, Beiträge der 34. Jahrestagung der Gesellschaft für Informatik e. V. (GI), 20.–24. September 2004, Ulm, Gesellschaft für Informatik, Bonn 2004, S. 239–243. Hildebrand, Knut: Management von Logistik-Stammdaten in SAP. Organisatorische und technische Konzepte für Material, Kunden und Lieferanten, in Konzernstrukturen, in: HMD Praxis der Wirtschaftsinformatik, 55. Jg. (2018), Heft 319, S. 76–90, http://link.springer.com/article/10.1365/ s40702-017-0374-6.
Prof. Dr. rer. pol. Knut Hildebrand ist ein Befürworter der betriebswirtschaftlichen IT-Beratung – Projekte müssen sich rechnen! Dem abgeschlossenen Studium der Volkswirtschaftslehre und Angewandten Informatik folgte die Promotion zum Dr. rer. pol. in Betriebswirtschaftslehre an der Universität Mannheim. Mehrere Jahre Tätigkeit als Unternehmensberater für Warenwirtschaftssysteme und SAP®-Software. 1996 nahm er den Ruf auf die Professur für BWL, insbesondere Wirtschaftsinformatik, an die Hochschule für Wirtschaft in Ludwigshafen/Rhein an. Von 2001 bis 2010 lehrte er Betriebliche Informationsverarbeitung im Fachbereich Wirtschaft im Schwerpunkt Internationale BWL, im Studiengang Energiewirtschaft und im Master-Studiengang BWL an der Hochschule Darmstadt. Seit dem Wintersemester 2010 forscht und lehrt er Informationsmanagement und Logistik an der Hochschule Weihenstephan-Triesdorf (University of Applied Sciences) in den Studiengängen Management erneuerbarer Energien und Forstingenieurwesen. Prof. Hildebrand ist seit über 35 Jahren in der betrieblichen IT tätig, u. a. als zertifizierter Berater für SAP®-Software, Schwerpunkt SD und MM, und Supply Chain Management (SCM). Er implementierte in vielen Projekten erfolgreich SAP® ERP und ist Autor/Herausgeber von über 30 Büchern zu IT-Themen, Management-Trainer, Dozent und Berater. Wissenschaftlich war er u. a. tätig in der Deutschen Gesellschaft für Informations- und Datenqualität (DGIQ). http://www.hildebrand.info/.
Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte von Industrie 4.0
19
Michael Mielke
19.1 Big Data = Big Data Quality? Das Internet der Dinge, Industrie 4.0 und Big Data sind in aller Munde. Die Digitalisierung des Lebens schreitet mit großen Schritten voran. Die aktuelle EMC Studie1 spricht von 200 Mrd. Dingen die vernetzt werden, eine nie dagewesene Datenmenge erzeugen und mit Hilfe von Big Data Analytics zu neuen Erkenntnissen führen sollen, so zumindest die Hoffnung. Wie viel dieser Daten können und wollen wir aber auswerten? Wie wird es um die Qualität der Daten bestellt sein? Positiv gesehen wird die Qualität automatisch erzeugter Daten aus Sensoren und Maschinen „besser“ sein als manuell von Menschen erfasste Daten, sofern die Sensoren nicht defekt sind oder die ermittelten Messwerte nicht durch fehlerhafte Software verfälscht werden. Der Anteil der manuell erzeugten Daten an der Gesamtheit aller verfügbaren Daten wird sinken, ob dadurch Datenqualitätsmanagement zu einem vernachlässigbaren Randthema wird – getreu dem Motto: Nur noch wenige Daten sind von mangelnder Qualität – ist jedoch zu bezweifeln. In einer stark vernetzten und maximal digitalisierten Welt werden nicht nur enorme Datenmengen erzeugt, sondern auch automatisiert ausgewertet und dienen u. a. Maschi The EMC Digital Universe study – with research and analysis by IDC. The 2014 report projects the growth of the digital universe through 2020.
1
M. Mielke (*) Deutsche Bahn AG, Leiter Arbeitsgebiet Innovation & Digitalisierung, Frankfurt am Main, Deutschland Fachbereich Informatik und Elektrotechnik, Kiel, Deutschland E-Mail: [email protected]; [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_19
321
322
M. Mielke
nen zur automatisierten Steuerung. Autonomes Fahren ist so möglich, aber eben auch der aktuelle automatische Computerhandel an Börsen, und das ist erst der Anfang einer zunehmend automatisierten Welt. Auch hier gilt wie schon zu Beginn der Daten- Informationsqualität: Garbage-in-Garbage-out. Die Folgen schlechter Datenqualität und damit in Folge schlechter Informationsqualität sind jedoch dramatischer. Eine falsche Adresse im CRM-System ist für den Kunden und das Unternehmen ärgerlich, verursacht Kosten und schlimmstenfalls verärgerte Kunden. Mangelhafte Sensordaten, Geodaten und/oder Fehler in der Berechnung entsprechender Aktionen können beim autonomen Fahren lebensgefährlich sein. Im Computerhandel können Kurse einbrechen und Vermögenswerte vernichtet werden, wie uns der Hochfrequenzhandel in jüngster Zeit gezeigt hat. Daten- und Informationsqualität ist eine wesentliche Voraussetzung für Industrie 4.0 und Internet der Dinge und wird damit zu einer Managementfunktion. In den letzten 15 Jahren haben wir in der DQ/IQ Community häufig mit der Relation – Hohe Datenqualität erzeugt oder bedingt eine hohe Entscheidungsqualität – für das Thema DQ/IQ geworben. Die jüngsten Ergebnisse der Hirnforschung zeigen, dass Menschen den Verstand nur wenig für die eigenen Entscheidungen einsetzen, die Entscheidung wird vielmehr „automatisch“ sozusagen „aus dem Bauch heraus“ getroffen. Dabei bedienen wir uns unserer Erfahrungen und wenden zumeist unbewusst Heuristiken an. Der Verstand wird erst nach der Entscheidung hinzugezogen, meist um die getroffene Entscheidung zu begründen. Dieses Verhalten zeigt sich nicht nur beim täglichen Einkauf und der Entscheidung für oder gegen ein bestimmtes Getränk, sondern auch bei komplexen unternehmerischen Entscheidungen. Dementsprechend verbessert also die postulierte Relation von Datenqualität und Entscheidungsqualität höchstens die Heuristiken, die wir im Entscheidungsprozess verwenden, nicht aber die Entscheidungsfindung selbst. Maschinen jedoch entscheiden anders, sie sind so programmiert, dass sie definierten Regeln folgen. Hier trifft unsere Relation von Datenqualität und Entscheidungsqualität maximal zu. Mangelhafte Datenqualität führt zu keiner Aktion, System-Absturz oder Fehlverhalten des Systems. In Anbetracht der zunehmenden Vernetzung von Systemen können gefährliche Kettenreaktionen ausgelöst werden. Hier liefern uns die Beispiele des Hochfrequenzhandels einen ersten Eindruck. Der Börsencrash vom 06. Mai 2010, der fast eine Milliarde Dollar Marktkapital vernichtet hat und die Börsen über Monate in Atem hielt, zeigt dies eindrucksvoll. Die zugrunde liegenden Daten waren noch nicht einmal falsch, sie wurden nur von den Maschinen „falsch“ interpretiert. Spiegel Online schrieb dazu 2010 unter der Headline: „Mysteriöser Wall-Street-Crash: Die Spur führt nach Kansas2 Ihre Computer handelten automatisch, als bestimmte Werte erreicht wurden – eine Kettenreaktion, die zur Eskalation führte. „Wenn es je einen Fall gab, der den Bedarf an stärkerer Regulierung verdeutlicht“, schreibt der Börsen-Blog BloggingStocks, „dann ist es dieser““.
2
Spiegel Online Wirtschaft, 17.05.2010 von Marc Pitzke, New York.
19 Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte v …
323
19.2 Datenqualität und Industrie 4.0 Datenqualität ist eine Kerndisziplin im Themenfeld Industrie 4.0. Das BMBF weist in seiner Richtlinie zur Förderung im Themenfeld Industrie 4.0 vom 30.09.2014 ausdrücklich im Kapitel Datenmanagement auf diesen Umstand hin3: Geeignete domänenübergreifende Datenmodelle zur Planung, Simulation, Beschreibung und Bewertung anwenderspezifischer CPPS-Lösungen sind bereitzustellen (Ist- und Soll-Zustand des Produktionsunternehmens). Die Vernetzung der unterschiedlichen Komponenten, Systeme und Prozesse ist interdisziplinär abzubilden. Akquisition, Identifikation, Auswertung und Bereitstellung entscheidungsrelevanter Informationen über die jeweiligen Systemgrenzen hinweg sind mittels geeigneter Methoden (z. B. Big Data, Datenauswertung parallel zu deren Bereitstellung im realen Prozess in Echtzeit) zu entwickeln. Datenqualität und -konsistenz sind in dieser verteilten Systemumgebung (z. B. ERP, APS, MES, PLM) sicherzustellen. Notwendig ist die Entwicklung von Methoden und Werkzeugen, die neue Lösungen zu Industrie 4.0 in der jeweiligen Produktionsumgebung durch den Einsatz neuer Technologien (Systems Engineering, Mobile Computing, App-Entwicklung, proaktiv Sensorik und Aktorik ansteuern, etc.) ermöglichen.
Das Bundesministerium für Wirtschaft und Energie (BMWi) rief in diesem Jahr einen Wettbewerb „Smart Data“ aus, um Forschungs- und Entwicklungsaktivitäten (FuE- Aktivitäten) zu fördern und den zukünftigen Markt um Big Data für die deutsche Wirtschaft nachhaltig zu erschließen. Dabei soll der Schwerpunkt auf die Entwicklung innovativer Dienste und Dienstleistungen gelegt werden, um eine frühzeitige breitenwirksame Nutzung voranzutreiben. Zahlreiche namhafte Hochschulen und Projektpartner des Wettbewerbs haben daraufhin ein Memorandum zu Smart Data verfasst und wie folgt definiert: Smart Data = Big Data + Nutzen + Semantik + Datenqualität + Sicherheit + Datenschutz = utzbringende, hochwertige und abgesicherte Daten Der Blick ins Memorandum lohnt, Sie finden es im Internet unter http://smart-data.fzi.de/memorandum/ Smart Data geht über Big Data hinaus, ist zentrales Thema für Anwender und Anbieter und dient der Schaffung wirtschaftlichen Nutzens, im Memorandum eindrucksvoll erläutert: „Smart Data ist kein Selbstzweck, sondern Voraussetzung zur Lösung weitergehender gesellschaftlicher und wirtschaftlicher Herausforderungen, wie ein modernes Energie- Management unserer Stromnetze, die Einführung von Industrie 4.0-Szenarien, sowie ein modernes, leistungsstarkes und dennoch kosteneffizientes Gesundheitswesen:
Bundesministerium für Bildung und Forschung, Bekanntmachung vom 27.06.2014 zur Förderung im Themenfeld Industrie 4.0.
3
324
M. Mielke
• Energienetze: Insbesondere Smart Grids mit intelligenten hochvernetzten Verbrauchern und Erzeugern funktionieren nur mittels Smart Data. Selbst einfache Energiemessdaten ohne Wissen über z. B. Messfehler, Mess-Orte und Energieart lassen sich nicht mehr zweifelsfrei verarbeiten. Ohne semantische Annotationen, belegbare Datenqualität und die Wahrung der Privatsphäre sind keine zuverlässigen und kostengünstigen Energienetze der Zukunft realisierbar. • Industrie 4.0: Rückkopplungen großer Datenmengen aus dem Feld in den Produktionsprozess erlauben selbstverbessernde Prozesse. Durch Datenverarbeitungen in Realzeit werden adaptive Fertigung und unmittelbare Reaktion auf Nachfrageänderungen möglich. Über die explizite Semantik in Smart Data werden verlässliche Geschäftsentscheidungen auf Analyseergebnissen möglich. • Gesundheitsbereich: Es werden erhebliche Mengen an komplexen und zunehmend strukturierten Daten generiert. Einer Studie von McKinsey4 zufolge wird für die USA ein jährliches Einsparpotential der Healthcare Kosten von 300–450 Mrd. US$ durch die Nutzung von Big Data Technologien prognostiziert. • Medien: Etwa ein Drittel aller Datenbestände sind schon in der Cloud gespeichert, dieser Anteil wächst im Laufe dieses Jahres auf 40 % an. Vor allem private Anwender werden zunehmend diese praktische Auslagerung ihrer Daten nutzen. Fast die Hälfte der 2020 in der Cloud abgelegten Daten werden aus dem Unterhaltungsbereich kommen, sagt IDC in ihrer Studie voraus.5 “ Informationsqualitätsmanagement (IQM) ergänzt das zur erfolgreichen Führung einer Organisation notwendige Managementsystem. Gleichwohl orientiert es sich an vergleichbaren Grundsätzen wie a) geeignete und beherrschte Prozesse, b) ausgebildete und motivierte Mitarbeiter, c) abgestimmte verfügbare Systeme, Werkzeuge, Ziele und d) eine kundenorientierte Geschäftsführung, die Vorbild für die Organisation ist, Ziele definiert, Risiken managt, Mitarbeiter zu Höchstleistungen motiviert und setzt die konsequente Umsetzung dieser Prinzipien in der Organisation voraus. Gerade angesichts der technischen und wirtschaftlichen Entwicklungen ist es daher notwendig, die nachfolgend beschriebenen Grundsätze konsequent im Unternehmen zu etablieren.
McKinsey&Company „The big-data revolution in US health care: Accelerating value and innovation“, April 2013 by Basel Kayyali, David Knott, and Steve Van Kuiken. 5 International Data Corporation (IDC), The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things, April 2014. 4
19 Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte v …
325
19.3 Ü bergeordnete Grundsätze und Einordnung der IQM-Grundsätze Geeignete und beherrschte Prozesse Ergänzende Anforderungen aus der Perspektive des IQM: • Etabliertes Qualitäts-, Projekt- und Prozessmanagement mit Abbildung der Informationsflüsse, der Anforderungen an die Qualität der Informationen in den jeweiligen Prozess-Schritten unter Berücksichtigung der jeweiligen Anspruchsberechtigten. Grundsatz (1): Wer braucht welche Informationen zu welchem Zeitpunkt und in welcher definierten Qualität. –– Eine systematische, den Anforderungen der Leistungsprozesse entsprechende, offene Kommunikations- und Fehlerkultur, die eine transparente Darstellung von Informationen und Strukturen ermöglicht. –– Die Basis eines funktionierenden IQM Systems ist die Identifikation der Informationserfasser, Informationsbearbeiter und Informationsnutzer in einer Organisation. Zusätzlich ist es notwendig, diese in die Prozesse der Organisation einordnen zu können, ihre Anforderungen an die Qualität der Informationen zu ermitteln und messen zu können. Grundsatz (2): Erst kommt der Messwert, dann die Bewertung, diese bietet genauso wie ein Fehler in erster Linie die Chance etwas zu verbessern. –– Die Etablierung einer offenen Fehlerkultur und Transparenz gegenüber Messungen ist eine zentrale Voraussetzung, um die Verfolgung von Zielen in einer Organisation nachhaltig ermöglichen zu können. Hierzu ist eine Organisationskultur notwendig, die den Messwert neutral erfasst, kommuniziert, Bewertungen sachorientiert tätigt und Abweichungen als Chance zur Verbesserung begreift. Ausgebildete und motivierte Mitarbeiter Ergänzende Anforderungen aus der Perspektive des IQM: • Die Mitarbeiter einer Organisation müssen in der Nutzung der Kommunikations- und Informationssysteme ausreichend unterwiesen sein, einen Überblick über die vorhandene Systemwelt haben sowie die Prozesse zur Nutzung der ITK kennen und anwenden. Grundsatz (3): ITK-Systeme sind allen Mitarbeitern zugänglich, können und werden von diesen konsequent genutzt. –– Mitarbeiter in einer Organisation benötigen im Rahmen ihrer Aufgaben und prozessualen Verantwortung Zugang zu ITK-Systemen und -Informationen. Zugang in diesem Sinne bedeutet auch, dass die Mitarbeiter ausreichende Kenntnis darüber haben, auf welche ITK-Systeme sie zugreifen können und welche Informationen in welcher Form sie von diesen Systemen erhalten können. Die Informationen müssen so bereitgestellt werden, dass sie von den Mitarbeitern möglichst ohne zusätzlichen Aufwand (Konvertierung) genutzt werden können.
326
M. Mielke
Grundsatz (4): Nur wer die eigenen IQ-Ziele mitbestimmen, messen und überwachen kann, wird sie erreichen oder übertreffen. –– Die Mitarbeiter in einer Organisation sollen weitest möglich an der Bestimmung der IQ-Ziele, der Bestimmung der Messverfahren und der Überwachung der Zielerreichung beteiligt werden. Dies schließt zum Beispiel auch den Zugang zu den Messwerten und ggf. entsprechenden Reports ein. Abgestimmte, verfügbare Systeme, Werkzeuge und Ziele Ergänzende Anforderungen aus der Perspektive des IQM: • Eine Organisation, die das Informationsmanagement nicht auf ITK-Systeme und die Verwaltung von ITK-Budgets reduziert, gleichwohl ihre ITK-Systeme, die Anforderungen der Nutzer umfänglich kennt und das Management in der Entwicklung der Organisation berät. Grundsatz (5): Welche Informationssysteme nutzen und benötigten die Organisation zur Leistungserbringung jetzt und in Zukunft. –– Eine Organisation, in der ITK-Systeme, Werkzeuge und Prozesse aufeinander abgestimmt sind, Redundanzen vermieden werden und Informationsintegrität höchste Priorität hat. –– Eine Organisation muss ihre ITK-Systeme, deren Schnittstellen, die beteiligten Datenbanken und deren Interaktion vollständig kennen. Die Abbildung in Form einer Systemlandschaft, also eines ITK-Bebauungsplanes, ist die Mindestanforderung. Diese ist im Zuge der kontinuierlichen Verbesserung des IQM-Systems zu einer Informationsprodukt-Landkarte weiterzuentwickeln. Die Organisation muss ihre Anforderungen an die Informationssysteme aus der Organisationsstrategie regelmäßig ableiten, ihre ITK-Landschaft hinsichtlich der veränderten Anforderungen bewerten und einen Maßnahmenplan zur Erreichung der künftigen Anforderungen erstellen. Grundsatz (6): Abgestimmte, bekannte, zugängliche und eindeutige Informationsobjekte und -quellen sowie Berechnungslogiken –– Eine Organisation, die den Austausch von Informationen, den Wissenstransfer von Experten und die Entwicklung von Werkzeugen auf Grundlage des IQ-Grundsatzes (6) aktiv fördert. –– Eine Organisation muss die in ihren Prozessen benötigten Informationsobjekte identifizieren, eindeutig beschreiben, die Quellsysteme für diese benennen und die jeweiligen Berechnungs- und Verarbeitungsregeln definieren. Dieses IQ-Repository ist allen Mitarbeitern im Rahmen der Compliance-Richtlinie zugänglich zu machen. Grundsatz (7): Das Wissen und die Fähigkeiten aller Mitarbeiter nutzen und die Zusammenarbeit für eine hohe Informationsqualität fördern. –– Eine Organisation muss allen Mitarbeitern im Rahmen der prozessualen Notwendigkeiten Zugang zu Interaktionsplattformen, Wissensmanagement-Systemen, etc. geben, um die Zusammenarbeit zur Verbesserung der Informationsqualität in der gesamten Organisation zu ermöglichen. Damit die Kenntnisse und Fähigkeiten der
19 Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte v …
327
gesamten Organisation genutzt werden können, ist so weit wie möglich auf Hierarchien und umfangreiche Freigabeprozesse innerhalb der Interaktionsplattform zu verzichten. Kundenorientierte Geschäftsführung, die Vorbild für die Organisation ist, Ziele definiert, Risiken managt und Mitarbeiter zu Höchstleistungen motiviert. Ergänzende Anforderungen aus der Perspektive des IQM: • Eine Geschäftsführung, die der Qualität der Informationen einen hohen Stellenwert beimisst und dies in der Unternehmenspolitik, -strategie und in der Definition der Unternehmensziele hinreichend zum Ausdruck bringt. Grundsatz (8): Informationsqualität ist ein Führungsthema und spiegelt sich in der Haltung aller Mitarbeiter und der Leitung wider. –– Eine Organisation, welche die Risiken, die mit mangelnder Informationsqualität für den Erfolg der Organisation verbunden sind, identifiziert hat und aktiv managt. –– IQM ist auf der Führungsebene einer Organisation hinreichend zu verankern. Es ist Aufgabe aller Führungskräfte, sich der Thematik anzunehmen und sie durch gutes Vorbild in die Organisation zu tragen. Die Führung einer Organisation muss für ein hohes Vertrauen in die Information in der Organisation und das Vertrauen Dritter in Informationen aus der Organisation sorgen. Grundsatz (9): Aktiv die IQ-Risiken für eine Organisation ermitteln, steuern und überwachen –– Eine Organisation, die ihre technischen, prozessualen und organisatorischen Schnittstellen kontinuierlich analysiert und die Qualität der Informationen in beiden Richtungen aktiv managt. –– Die Führung einer Organisation muss die Risiken, die mit mangelnder Informationsqualität für die Organisation verbunden sind ermitteln, steuern und überwachen. Für alle nicht steuerbaren Risiken ist jeweils eine Restrisikodeklaration durch die Führung der Organisation zu erstellen und zu unterzeichnen. Die Organisation ist über die Risiken mangelnder Informationsqualität ausreichend zu informieren. Grundsatz (10): Alle Schnittstellen hinsichtlich der Qualität der Informationen aktiv managen. –– Die Organisation muss alle Schnittstellen, an denen Daten/Informationen ausgetauscht werden, identifizieren, die Anforderungen an die Qualität der Daten/In formationen definieren, Service-Level vereinbaren und die Einhaltung dieser überwachen.
19.4 Verantwortung für die Daten übernehmen Im Unternehmen verfügen wir zumeist über klassische relationale Datenbanken mit definiertem Aufbau und bekannten Strukturen, für die wir eine Vielzahl an Methoden zur Aufbereitung, Reinigung, Anreicherung und natürlich Analyse haben. Diese Daten liegen in
328
M. Mielke
unserer unmittelbaren Verantwortung und wir haben unmittelbar Zugang. Wir müssen sie zu jedem Zeitpunkt im Griff haben, Metadaten und Metadatenmanagement inklusive. Auch ein unternehmensweites Data Repository sowie Daten- und Informationsmanagement sind notwendiger Standard für den Erfolg. Wir müssen den Fokus umkehren, nicht alle Datenfelder in allen unseren Datenbanken müssen mit den „richtigen“ Werten gefüllt sein. Das wäre zwar „schön“ im Sinne eines klassischen Datenmanagement, aber nicht zwingend zweckmäßig. Die Frage, der unbedingt nachgegangen werden sollte, ist die des unternehmerischen Risikos. Welche Informationen und damit welche Daten sind für das Business in höchstem Maße relevant? Auf welche Informationen können wir zu keinem Zeitpunkt verzichten oder welche sind gar unternehmenskritisch? Identifizieren wir diese und stellen sicher, dass die Anforderungen an die Daten und Informationen definiert sind. Prüfen wir die Konformität regelmäßig und nach Möglichkeit automatisch. Teilen wir die Ergebnisse der Prüfung mit den Nutzern. Hier können wir Prinzipien der Social-Collaboration Plattformen nutzen, indem jeder User in seinem Kontext die Grundqualität der Daten verbessern kann, sei es durch die Möglichkeit, die Daten zu verändern oder dem Data-Owner entsprechendes Feedback zu geben. Eine große Bundesbehörde hat hierzu z. B. ein Wiki-System für ein öffentlich zugängliches Data-Repository und ein Ticket-System zum Feedback für „fehlerhafte“ Datensätze eingeführt und konnte die Qualität ihrer Daten deutlich steigern. Ein klassischer Ansatz des Datenqualitätsmanagement ist, die Probleme an der Wurzel in den operativen Prozessen zu fassen und dort auch vorrangig zu beheben. Dieser Ansatz ist immer dann fruchtbar, wenn Sie unmittelbaren Einfluss auf die Entstehung, Änderung und Nutzung der Daten haben. Genau hier stößt der Ansatz auch auf seine Grenzen, denn im Big Data Umfeld entstehen große Datenmengen außerhalb Ihrer Einflussmöglichkeiten. Gleichzeitig er öffnen sich neue Handlungsfelder, wie z. B. intelligente Analyse und Korrekturverfahren, pragmatische, agile und nutzerbezogene Verfahren zu entwickeln und zu erproben. Allen gemeinsam ist der Bedarf an „aussagekräftigen“ Metadaten oder gar besser an Metainformationen, da diese die Rückkoppelung von Nutzungsdaten enthalten. Der Gedanke folgt einem einfachen Prinzip, das wir aus den Social-Collaboration Plattformen kennen: Daten, die erfolgreich mehrfach genutzt wurden, erscheinen uns in ihrer Qualität als zumindest brauchbar. Beispiele wie z. B. die Buchbewertungen bei Amazon mit dem Hinweis X Besucher fanden diesen Hinweis hilfreich, gekoppelt mit ihrem eigenen Kaufverhalten sind ein schöner Beleg für das Prinzip. Einige Unternehmen beginnen ihre ITK-Organisation grundlegend zu überdenken. Sie haben die Notwendigkeit erkannt, sich vom Technologiemanagement zum Informationsmanagement in der ITK weiterentwickeln zu müssen. Sie wollen ihre Rolle als Business- Enabler, als Partner für die Geschäftsentwicklung, aktiv gestalten. Dieser Veränderungsprozess geht einher mit einer veränderten Sicht der Geschäftsbereiche auf ihre Produkte und Leistungen. So sehen sich z. B. Immobiliengesellschaften nicht mehr als Verwalter von Immobilien bzw. Vermieter von Flächen, sondern als Dienstleistungspartner, die Arbeits- und Lebens-
19 Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte v …
329
konzepte anbieten. Wurden bisher Flächen vermietet, werden heute gleich auch noch die entsprechenden Möblierungskonzepte sowie Verwaltungs- und Nutzungssysteme, Organisationsmodelle etc. auf den Kunden abgestimmt zur Verfügung gestellt. Das ist mehr als frühere Ansätze des „Alles-aus-einer-Hand“, da alle Komponenten wie z. B. ITK, Organisations- und Arbeitsmodelle, Möblierung und baufachliche Rahmenbedingungen aufei nander abgestimmt und kundenindividuell bereitgestellt werden. Diesem Blickwinkel folgend erscheinen Werbeslogans von EDEKA „…wir lieben Lebensmittel…“ oder REAL „…einmal hin alles drin…“ in einem neuen Bild; hier entwickeln sich gerade Handelsunternehmen zu Versorgungsdienstleistern. Da ist es nur zu folgerichtig, dass sich die klassische ITK zu einem Informationsmanagement entwickelt, bei dem die Bereitstellung von Information Vorrang vor Technologie- und Budgetmanagement hat.
19.5 Agile DQ-Entwicklung Das Konzept oder zumindest die Prinzipien der agilen Softwareentwicklung6 können einen Weg aufzeigen mit den unsicheren Anforderungen der Nutzer an Informationen erfolgreich umzugehen. Die Idee ist, identifizierte DQ-Probleme basierend auf dem Konzept von Scrum auf den Grund zu gehen, sie zu beseitigen und möglichst künftig zu vermeiden. Scrum, eine agile Methode der Softwareentwicklung bei unsicheren Anforderungen, basiert auf den Erkenntnissen von Ken Schwaber and Jeff Sutherland7, die sie im Scrum Guide anschaulich beschrieben haben. Übertragen wir diese Philosophie auf das IQM, so wird aus dem Product-Owner ein Data-Owner, das Entwicklungsteam wird zum Information Quality Ability (IQA) Team, welches sich um die im Data-Quality-Requests (DQR) Backlog (das Pendant zum Product Backlog) dokumentierten Anforderungen kümmert. Der Information Quality Manager fungiert als Scrum Master. Auch hier ist ein klassischer Sprint mit entsprechender Sprintplanung denkbar. Die Rolle des Data-Owner wäre umfangreicher zu gestalten, die Bereitstellung eines Ticketingsystems zur Erfassung von Anforderungen an Daten/Informationen zu empfehlen. So kann der Data-Owner aus diesen DQR Einträge im Backlog definieren und priorisieren. Ausgangspunkt ist ein klassisches Geschäftsprozessmodell mit der Annahme, dass die jeweiligen Prozesse gegliedert in Managementprozesse, operative Prozesse und Supportprozesse in den jeweiligen Businessbereichen Finanzen, Einkauf, Produktion etc. vorhanden sind und hinsichtlich der geschäftskritischen Daten/Informationen analysiert, risikobewertet, dokumentiert und überwacht werden. Dies setzt neben der Kenntnis der Prozesslandschaft ein ITK-Management voraus, in dem Datenerfassungs-, -veränderungs-
6 7
http://agilemanifesto.org/iso/de/. https://www.scrum.org/Portals/0/Documents/Scrum%20Guides/2013/Scrum-Guide-DE.pdf.
Production
Data Quality Dimension that is defined and measured
Business Process were Quality of Data is critical for success
Purchasing Model Portfolio
Distribution Model Demand & Competion
Market Model
Customer Satisfaction
creating an output that is of value to the customer
Business oriented financial & managerial Key Performance Indicators
Funding & Revenues
Goods & Services
Vision Mission & Strategy Culture
Abb. 19.1 Zusammenhang zwischen Businessarchitektur und Data Quality Dimensionen
Support Processes
Operational Processes
Management Processes
Operational structure
Financial Model
Generic Organizational Process Architecture
Customer Demand
Organizational structure
Market Share
330 M. Mielke
Business oriented Process Performance Indicators
19 Prinzipien erfolgreichen Informationsqualitätsmanagements im Lichte v …
331
und Nutzungsprozesse bekannt und eine Zuordnung von Daten/Informationen zu den jeweiligen Geschäftsprozessen möglich ist, wie in Abb. 19.1 illustriert. Folgen wir diesen Gedanken, so lässt sich die Intelligenz und Kapazität der Organisation mit Hilfe von Werkzeugen der Social-Collaboration nutzen und bündeln um sowohl Anforderungen an Informationen zu definieren wie auch Probleme transparent zu machen und deren Beseitigung zu organisieren. In einem weiteren Schritt kann dann ein Wissensspeicher aufgebaut und allgemein zugänglich gemacht werden. Die Zusammensetzung des IQA-Teams ist variabel. Die Besetzung erfolgt vorrangig selbstgesteuert und orientiert sich neben der Fachkenntnis an Verfügbarkeit und Erfahrung. Die Auswahl bzw. das Auffinden geeigneter Kollegen könnte über Profilseiten, Blogs etc. (so wie in Social- Collaboration Plattformen durchaus üblich) erfolgen. Um die Bewertung einer einzelnen Person zu vermeiden (dies ist typischerweise eine zentrale Forderung der Mitarbeitervertretung), könnte alternativ die Problemlösung bewertet werden. Das entspricht auch der Scrum Philosophie, in der nicht der Einzelne für Erfolg/Misserfolg die Verantwortung trägt, sondern immer das gesamte Team.
Prof. Michael Mielke studierte Wirtschafts- und Organisationswissenschaften an der Helmut Schmidt Universität in Hamburg (1989) sowie Accounting & Finance an der University of Texas in Houston (1994). Seine Schwerpunkte liegen in den quantitativen Methoden der BWL, im Operations Research und in der Managementberatung. Als international tätiger Berater hat er sich bis Ende 2002 vor allem auf komplexe IT-Großprojekte im Bankenumfeld konzentriert. Seit 2003 ist er im Inhouse Consulting der DB AG in verschiedenen Führungspositionen tätig. Als Arbeitsgebietsleiter Cluster: Digitalisierung & Innovation fokussiert er sich aktuell auf Data Analytics, AI, Robotic und Entrepreneurship. Das Thema Information Quality verbindet seine Interessen aus IT und Management- beratung. Er arbeitet mit dem IQ Program des Massachusetts Institute of Technology und dem Gründervater des IQM Richard Wang seit 2002 eng zusammen und hat die IQM-Bildungsangebote maßgeblich geprägt. Er ist Gründer der deutschen IQ Community und Wegbereiter u. a. für IQ Communities in Canada, Brasilien und Chile und engagiert sich als Autor in der DIN ISO 8000. Er berät Unternehmen, Organisationen u. a. in Themen der Daten- und Informationsqualität, Smart Data und Innovation, ist aktiv in die Forschung eingebunden und lehrt u. a. an der FH Kiel. 2008 wurde er gemeinsam mit Marcus Gebauer für herausragende Leistungen in der Informationsqualität durch das MIT TDQM Program geehrt. 2013 erhielt er mit seinem Team den Deutschen Bildungspreis für Innovation, 2015 den E-Learning Award für Konzeption und Umsetzung einer mobilen Lern- und Arbeitsplattform auf Basis von Informationsobjekten, die er gemeinsam mit der RWTH Aachen entwickelt. Mit dem Thema Dienstleistungs-innovation beschäftigt er sich seit 2007, mit seinem Team entwickelte er das Raum- und Methodenkonzept Inno-Lab und wurde 2015 mit dem Corporate Startup Award für Entrepreneurship für die Qualifikationsmaßnahme Startup-Safari ausgezeichnet. Mit dem Campus 4.0 hat er in Frankfurt am Main, eine Arbeits-, Innovations- und Qualifikationsumgebung geschaffen, in der unterschiedlichste Professionen gemeinsam Lösungen für die Digitalisierung entwickeln und anwenden. Siehe auch: http://prime.rwth-aachen.de/ http://www.m-mielke.net
Teil IV Praxisbeispiele
Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
20
Horst Treiblmaier
20.1 Einleitung In den vergangenen zwei Jahrzehnten wandelte sich das Internet von einer Spielwiese für technikbegeisterte Computerspezialisten zu einem vielseitig einsetzbaren weltweiten Netzwerk für Privatpersonen und Unternehmen. Maßgeblichen Anteil daran besaß die rasante Entwicklung des World Wide Web (WWW), das, durch die Möglichkeit multimediale Inhalte zu vermitteln, für einen großen Teil der Bevölkerung industrialisierter Länder zu einem wesentlichen Bestandteil des täglichen Lebens wurde. Dass diese Entwicklung noch lange nicht abgeschlossen ist, zeigt die derzeitige Diskussion zum Thema Web 2.0 bzw. 3.0. Waren es in den letzten Jahren die hohen Umsatzzuwächse im E-Commerce und multimedial gestaltete Webseiten in Kombination mit aufwändigen Applikationen, die für ständig steigende Nutzerzahlen im World Wide Web sorgten, so wird dieser Innovationsschub nunmehr durch eine Vielzahl von Anwendungen fortgesetzt, die sich durch die zunehmende Vernetzung der Nutzer untereinander auszeichnen. Gemeinsam ist allen Kommunikations- und Transaktionsprozessen im Internet, dass eine Vielzahl von Daten ausgetauscht werden, beginnend mit Informationen über den sendenden Rechner (z. B. IP-Adresse, MAC-Adresse), die im HTTP-Protokoll zwingend vorgesehen sind, bis hin zu persönlichen Informationen, die als Nutzlast in Datenpaketen übermittelt werden. Dieser permanente Datenaustausch im Internet stellt die notwendige Basis für alle darauf aufbauenden Anwendungen dar und rückt meist nur im Zusammenhang mit der Problematik des Datenschutzes ins Bewusstsein der Öffentlichkeit. Generell
H. Treiblmaier (*) Logistikum – School of Management, University of Applied Sciences Upper Austria, Steyr, Österreich E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_20
335
336
H. Treiblmaier
lässt sich dazu festhalten, dass die Nutzer dazu tendieren die Gesamtzahl über sie gespeicherten Datensätze drastisch zu unterschätzen (Borking 1998). Betrachtet man den Prozess der Datensammlung und -speicherung im Internet aus Sicht der Unternehmen, so sind die Vorteile im Vergleich zur Realwelt offensichtlich: durch die einfache und kostengünstige Erhebung des Nutzungs- und Einkaufsverhaltens entfällt die Notwendigkeit zu aufwändigen Kundenbefragungen. Durch das Vorhandensein der Daten in digitaler Form kommt es zudem zu keinerlei Medienbrüchen beim Prozess der Datenspeicherung. Dennoch ist es in vielen Fällen notwendig bzw. wünschenswert darüber hinausgehende detaillierte Informationen über Nutzer bzw. Kunden einzuholen, die auf mehr oder weniger freiwilliger Angabe persönlicher Daten beruhen. Häufig findet dieser Prozess im Rahmen einer Anmeldung (z. B. für eine Community) statt. Davon unabhängig wird das Internet aufgrund der oben beschriebenen Vorteile für eine Vielzahl von Befragungen durch Markt- und Meinungsforscher verwendet. Dieser Beitrag widmet sich nicht dem Prozess der nicht-reaktiven Datenweitergabe, d. h. jener Datensammlung, die sich weitgehend unabhängig vom Bewusstsein der Internetnutzer abspielt, sondern behandelt die Weitergabe jener persönlichen Daten, die von Unternehmen durch online-Formulare abgefragt werden. Im Gegensatz zu reinen Nutzungsdaten können Unternehmen durch direkte Befragungen ihrer Kunden auch psychografische oder soziodemografische Merkmale oder Kaufintentionen erheben. Demgegenüber steht die vergleichsweise leichte Möglichkeit auf Nutzerseite durch bewusste Falscheingaben die Qualität dieser Daten zu mindern. Welche Bedeutung korrekte demografische und sozioökonomische Daten für Unternehmen besitzen, zeigen derzeit laufende Forschungsprojekte (z. B. von Microsoft) deren Ziel es ist, aus dem Nutzungsverhalten auf persönliche Daten rückzuschließen. Die daraus entstehenden rechtlichen Probleme sind allerdings noch weitgehend ungeklärt (Marks 2007). Zudem besitzen derartige Verfahren naturgemäß eine gewisse „Unschärfe“, da mit wahrscheinlichkeitstheoretischen Ansätzen gearbeitet wird. Aus Sicht der Unternehmen ist es demzufolge erstrebenswert, korrekte Daten zu erhalten, die von Internetnutzern freiwillig gegeben werden. In diesem Beitrag wird zunächst ein Entscheidungsmodell vorgestellt, das den Dateneingabeprozess aus Sicht der Nutzer in verschiedene Stufen gliedert. Auf jeder Stufe müssen bestimmte Kriterien erfüllt sein, um eine korrekte Angabe persönlicher Daten zu gewährleisten. Sofern vorhanden, werden die einzelnen Schritte mit empirischen Ergebnissen aus einer Internetnutzer- und einer Unternehmensbefragung unterlegt. Die Gliederung des kognitiven Gesamtprozesses der Datenweitergabe in einzelne, von einander klar trennbare Teilschritte ermöglicht Unternehmen eine kritische Evaluation ihrer derzeit stattfindenden Datenerhebung. Im Gegensatz zu zahlreichen anderen Beiträgen in diesem Buch geht es in dem folgenden Artikel somit nicht um eine ex post Bereinigung vorhandener Datensätze, sondern um eine kritische ex ante Evaluation möglicher negativer Einflussfaktoren auf die Qualität der zu erhebenden Datenbestände.
20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
337
20.2 Entscheidungsmodell Eine Betrachtung der derzeit vorhandenen Literatur zum Thema der Datenweitergabe im Internet weist vor allem Bedenken der Nutzer hinsichtlich des Datenschutzes und der Datensicherheit als wesentliche Determinanten der Datenweitergabe aus. Bei näherer Betrachtung wird jedoch deutlich, dass der Entscheidungsprozess über die Weitergabe persönlicher Daten (und nur um diese geht es in diesem Beitrag) zahlreiche Stufen umfasst. Eine schematische Übersicht wird in 1 gezeigt. Als Ergebnis des Prozesses werden entweder korrekte Daten (linke Seite) oder inkorrekte Daten (rechte Seite) weitergegeben. Die Richtung der Pfeile deutet an, dass die Eingabe inkorrekter Daten unumkehrbar ist oder, mit anderen Worten, dass sich die Internetnutzer auf jeder Stufe erneut für eine korrekte Eingabe entscheiden müssen. Die zentrale Abb.in 20.1 ist der Nutzer, symbolisch dargestellt in der linken oberen Ecke. Alternativ ist allerdings auch denkbar, dass ein Softwareagent oder Bot (symbolisiert durch den Computer in der rechten oberen Ecke) Eingaben in online-Formulare tätigt, die von Seiten der Unternehmen nicht von Angaben natürlicher Personen unterschieden werden können. Ein Beispiel für solch einen Softwareagenten war der mittlerweile nicht mehr aktive „Superbot.tk“, der es Internetnutzern ermöglichte frei erfundene Personenprofile anzulegen, die in Folge automatisiert in beliebige online-Formulare eingetragen wurden. Das Ziel des Projektes mit dem markanten Wahlspruch „Machines will eat itself“, war es, die gezielte Suche nach Kundendaten durch die automatisierte Generierung nutzloser Daten ad absurdum zu führen und gleichzeitig auf die Problematik der permanenten Datenerhebung aufmerksam zu machen (Alken 2003). Vergleichbare Initiativen beschäftigen sich mit dem automatisierten Austausch von Cookies zwischen Internetnutzern (www.cookiecooker.de/), oder mit dem Erzeugen beliebiger Barcodes zum Anbringen auf Kundenkarten, um damit das eigene Einkaufsverhalten zu verschleiern (Carlson 2001). Die automatisierte Falscheingabe wird im Laufe des Beitrags nicht weiter behandelt, d. h. die folgenden Abschnitte behandeln ausschließlich die bewussten Entscheidungen der Internetnutzer. Es soll an dieser Stelle allerdings noch darauf hingewiesen werden, dass eine derzeit gebräuchliche Technik zur Verhinderung automatisierter Eingaben darin besteht, die Angaben der (nicht registrierten) Nutzer durch die manuelle Eingabe verzerrter (d. h. nicht maschinenlesbarer) Codes verifizieren zu lassen. Bei den folgenden Überlegungen geht es zudem lediglich um persönliche Daten, deren Weitergabe nicht entscheidend für den erfolgreichen Abschluss einer Transaktion ist, wie es etwa bei der Zustelladresse für einen Internetkauf der Fall ist. Die einzelnen Entscheidungsschritte individueller Nutzer (Intention, Nutzen, Vertrauen, Datenart, Eingabefehler) werden auf den folgenden Seiten im Detail behandelt.
338
H. Treiblmaier
Abb. 20.1 Entscheidungsmodell der online-Datenweitergabe
20.2.1 Intention In einem ersten Schritt gilt es abzuklären, ob Internetnutzer überhaupt eine grundsätzliche Intention besitzen, korrekte Daten einzugeben. Auf zahlreichen Sites im Internet wird die Nutzung eines Dienstes oder die Teilnahme an einer virtuellen Gemeinschaft von einer vorhergehenden Registrierung abhängig gemacht. Dabei werden meist auch persönliche Daten abgefragt. In vielen Fällen sind die Nutzer solcher Dienste oder Gemeinschaften allerdings gar nicht gewillt ihre persönlichen Daten preiszugeben. Ein gängiges Beispiel dafür ist das Anlegen einer zusätzlichen E-Mail-Adresse, die vorrangig dann weitergegeben wird, wenn die Gefahr einer unautorisierten Weitergabe durch den Empfänger einer Nachricht besteht. Eine alternative Möglichkeit besteht mittlerweile in dem Anlegen einer
20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
339
E-Mail-Adresse, die nur für kurze Zeit gültig ist und zum Registrieren auf wenig vertrauenswürdigen Websites genutzt werden kann (10 Minute Mail 2007). Auch bei virtuellen Communities, in denen die Teilnehmer häufig eine andere Identität annehmen, stellt sich die Frage, ob überhaupt eine Intention der Nutzer zur Weitergabe ihrer Daten besteht und welche Kontroll- bzw. Anreizmechanismen existieren, um eine bewusste Falscheingabe persönlicher Daten zu verhindern. Bestehende Strategien von Unternehmen inkludieren beispielsweise die Verweigerung der Eingabe der E-Mail-Adresse eines Gratismail-Services bei der Anmeldung zu einer Community (z. B. www.orf. at), oder die Überprüfung von Adressdaten anhand eines Referenzdatenbestandes unmittelbar nach der Eingabe.
20.2.2 Nutzen Besitzen Internetnutzer die Intention zur Weitergabe korrekter Daten, so stellt sich in einem nächsten Schritt die Frage, welchen konkreten Nutzen sie aus der Weitergabe ziehen, d. h. welchen Gegenwert sie für ihre persönlichen Daten erhalten. Abbildung 20.2 zeigt in Säulendiagrammen die Wahrnehmung einiger möglicher Vorteile von Individualisierungsmaßnahmen aus Kundensicht, wobei die Bandbreite der Zustimmung zu den jeweiligen Aussagen von 0 (Trifft nicht zu) bis 100 (Trifft zu) reicht. Die Daten stammen dabei aus einer online-Kundenbefragung, die im Jahr 2004 in Kooperation mit AON Österreich durchgeführt wurde. Insgesamt 405 Personen beteiligten sich an dieser Befragung, wobei es keinen Anreiz für die Teilnahme gab. Es sei an dieser Stelle festgehalten, dass die Befragung anonym durchgeführt wurde und nur einige wenige demografische Daten auf freiwilliger Basis erhoben wurden. Es stand den Befragten frei, die Antwort zu verweigern. Dennoch muss ein Bias aufgrund der Selbstselektion der Befragungsteilnehmer in Betracht gezogen werden. Die Visualisierung der Antworten zeigt deutlich das breite Spektrum an Kundeneinstellungen gegenüber unterschiedlichen Vorteilen auf, die eine Weitergabe persönlicher Daten mit sich bringt. Allen Optionen ist gemeinsam, dass das Antwortspektrum den gesamten zur Verfügung stehenden Bereich abdeckt, d. h. dass zu jeder Option Nutzer existieren, welche diese gänzlich ablehnen bzw. völlig zustimmen. In keinem der Fälle sind die Antworten normalverteilt (Kolmogorov-Smirnov-Test: p < 0,05). Zunächst einmal ist der Zugriff auf interessante Inhalte aller Art, der in vielen Fällen eine Registrierung bei einer Site zwingend voraussetzt, ein potenzieller Anreiz zur korrekten Datenweitergabe (Mittelwert: 65,09; Standardabweichung: 32,12). Auch die Möglichkeiten Preise zu gewinnen (MW: 60,10; SA: 35,99) oder Zeit zu sparen (MW: 69,61; SA: 33,14) werden als interessante Gegenleistungen für die eigenen Daten wahrgenommen. Interessanterweise erhielt der letztgenannte Anreiz die höchste Zustimmungsrate aller möglichen Optionen, wodurch sich zeigt, dass die Höhe der zu erwartenden Gegenleistung nicht allein die Einstellung der Nutzer bestimmt.
340
H. Treiblmaier Möglichkeit Preise zu gewinnen
Zugriff auf interessante Inhalte 160
160
140
140
91-100
81-90
71-80
Höhere Zufriedenheit mit dem Unternehmen
Hilfe bei Kaufentscheidungen 160
140
140
120
120
Intervalle
66
50
59
91-100
81-90
20
71-80
13
61-70
18
51-60
23
41-50
40
0
57 35
20 91-100
64
60
31-40
42
16
81-90
21-30
1-10
11-20
21
36
71-80
26
51-60
27
20
41-50
40
42
49
80
1-10
46
61-70
60
100
21-30
80
11-20
Häufigkeit
100
31-40
Häufigkeit
61-70
10
Intervalle
160
0
36
23
Intervalle
100
81-90
40
34
1-10
91-100
81-90
71-80
61-70
0
51 23
20
10 51-60
16
31-40
9 21-30
1-10
0
11-20
13
20
69
67 52
40
29
28
60
31-40
46
46
80
21-30
56
51-60
100
41-50
100
Häufigkeit
120
41-50
Häufigkeit
140
120
80
Reduzierte Kommunikation
160
152
11-20
Zeitersparnis
40
71-80
Intervalle
140
60
40
15
10
Intervalle
160
43 29
61-70
1-10
91-100
81-90
71-80
0
23
51-60
19
20 61-70
51-60
15 41-50
40
40
41-50
38
69
60
11-20
15 31-40
1-10
0
20
19
20
43
41
39
21-30
40
80
31-40
56
60
100
21-30
Häufigkeit
80
11-20
Häufigkeit
100
117
120
91-100
119
120
Intervalle
Abb. 20.2 Vorteile von Individualisierungsmaßnahmen aus Kundensicht (n = 405). (Treiblmaier 2006)
20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
341
Etwas geringer ist die Zustimmung der Konsumenten, wenn es darum geht, die Vorteile individualisierter Kommunikation zu beurteilen. So ist es beispielsweise denkbar, dass durch Weitergabe persönlicher Daten unerwünschte kommunikative Maßnahmen reduziert werden, da die Unternehmen besser über die Wünsche ihrer Kunden Bescheid wissen. Dies wird jedoch von den Konsumenten uneinheitlich gesehen (MW: 55,45; SA: 31,81). Ebenso divergent sind die Meinungen, wenn es darum geht, die Unterstützung individualisierter Kommunikation bei Kaufentscheidungen (MW: 46, 51; SA: 34,02) oder die Erhöhung der generellen Zufriedenheit mit dem Unternehmen durch Individualisierungsmaßnahmen (MW: 54, 65; SA: 32,15) zu beurteilen. Aus Sicht der Unternehmen ist es daher notwendig, kritisch zu hinterfragen, welcher Gegenwert den Kunden für die von Ihnen gegebenen Daten geboten wird. Es zeigt sich, dass konkrete Vorteile, wie etwa der Zugriff auf interessante Inhalte, die Möglichkeit Preise zu gewinnen oder die Zeitersparnis durch das Wegfallen wiederholter Dateneingabe als wichtiger eingeschätzt werden als der vergleichsweise abstrakte Nutzen, der sich aus individualisierter Kommunikation ergibt.
20.2.3 Vertrauen Die große Bedeutung des Vertrauens für Transaktionsprozesse im Internet spiegelt sich in einer Vielzahl von praxisrelevanten und wissenschaftlichen Publikationen wider, die in den vergangenen Jahren erschienen sind. Eine gleichzeitige Suche nach den beiden Begriffen „Trust“ und „Internet“ in der weitverbreiteten Datenbank ABI/Inform bringt nicht weniger als 2487 Suchtreffer hervor (Suchkriterium: „Citation and Abstract“). Dies ist nicht verwunderlich, wenn man sich vor Augen hält, wie häufig Transaktionen im Internet ohne persönlichen Kontakt der daran beteiligten Personen stattfinden. Das wesentliche Kriterium des Vertrauens verlagert sich weg von einer physischen Person hin zu vergleichsweise abstrakten Merkmalen wie etwa der Marke, Gütesiegeln, Berichten unabhängiger Dritter oder (Sicherheits-)Standards. Zusätzlich spielen die Menge der vorhandenen Information über die eigenen Produkte und Dienstleistungen und die Notwendigkeit der ordentlichen Vertragserfüllung eine große Rolle (Urban et al. 2000). Betrachtet man die Rolle des Vertrauens etwas differenzierter, so zeigt sich, dass sowohl das Internet als auch die datenempfangende Organisation zwei wesentliche Determinanten der Datenweitergabe darstellen. Die Möglichkeit, dass die Daten beim Transfer durch unbefugte Personen abgefangen und missbräuchlich verwendet werden, ist beim elektronischen Datenverkehr naturgemäß ungleich größer als bei anderen Kommunikationsformen. Dazu kommt, dass zahlreiche Internetnutzer über potenzielle Schutzmaßnahmen (z. B. verschlüsselte Datenübertragung) nur unzureichend informiert sind. Doch selbst wenn die Übertragung sicher durchgeführt werden kann, stellt sich für viele Nutzer die Frage nach der ordnungsgemäßen Verwendung der persönlichen Daten durch die Unternehmen. Missbräuchliche Datenverwendung beinhaltet sowohl die Weitergabe an Dritte
342
H. Treiblmaier
Abb. 20.3 Einfluss des Vertrauens in das Unternehmen und die technische Verbindung auf die Bereitschaft zur Datenweitergabe (n = 405). (Treiblmaier 2006)
als auch die Nutzung der Daten für Zwecke, die nicht den Bestimmungen der Allgemeinen Geschäftsbedingungen des Unternehmens entsprechen. In Abbildung 20.3 wird gezeigt, welchen Einfluss das Vertrauen in das Unternehmen und das Internet für die Weitergabe verschiedener Datenarten besitzt. Beispielhaft wurde nach dem Namen (N), der Wohnadresse (W), den Hobbies (H) und der Kreditkartennummer (K) gefragt. Die Zustimmung wurde mit einer Skala von 1 (unwahrscheinliche Datenweitergabe) bis 100 (sehr wahrscheinliche Datenweitergabe) gemessen. Die in der Abbildung gezeigten Werte zeigen die Mediane der Befragung. Gibt es bereits gute persönliche Erfahrungen mit dem Unternehmen und liegt eine technisch sichere Verbindung vor (V01), so ist die Bereitschaft zur Weitergabe des Namens (Median: 88) und der Wohnadresse (81) vergleichsweise hoch. Demgegenüber ist die Skepsis bei den Hobbies beträchtlich höher (54) und die Weitergabe der Kreditkartennummer (19) wird sogar in diesem Szenario von einem überwiegenden Teil der Befragten als unwahrscheinlich eingestuft. Die Änderungen der Medianwerte in den übrigen Szenarien (V02: gute persönliche Erfahrungen mit dem Unternehmen, keine technisch sichere Verbindung; V03: unbekanntes Unternehmen, technisch sichere Verbindung; V04: unbekanntes Unternehmen, keine technisch sichere
20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
343
Verbindung) sind ebenfalls in Abb. 20.3 dargestellt. Dabei fällt auf, dass die Änderungen dieser Werte beim Schritt hin zu einem unbekannten Unternehmen (V01- > V03) stärker ausfallen als beim Wegfall einer technisch sicheren Verbindung (V01- > V02). Eine Ausnahme bildet hierbei die Kreditkartennummer, die in beiden Fällen den tiefstmöglichen Median von 1 erreicht. Im Fall eines unbekannten Unternehmens und einer unsicheren Verbindung (V04) ist nur mehr ein kleiner Anteil der Befragungsteilnehmer bereit überhaupt Daten zu übermitteln. Allerdings soll an dieser Stelle darauf hingewiesen werden, dass das tatsächliche Verhalten von Internetnutzern in vielen Fällen von ihren Einstellungen zur eigenen Privatsphäre abweicht (Berendt et al. 2005). Um das Vertrauen der Internetnutzer zu gewinnen beziehungsweise zu halten, ist es notwendig, dass Unternehmen ihre Datenschutzbestimmungen und die von ihnen vorgenommene Datenverwendung klar kommunizieren. Die derzeit auf vielen Websites vorkommenden „Privacy Disclaimer“ sind meist sehr umfangreich und schwer verständlich und werden daher von Nutzern nur selten verwendet. Pollach (2006) zeigt anhand einer umfassendennhaltsanalyse von 50 Websites aus den Bereichen Einzelhandel, Reisen, Nachrichten und Internet (z. B. Suchmaschinen) auf, welche Informationen in solchen Datenschutzerklärungen üblicherweise zu finden sind. Bei einer durchschnittlichen Länge von 2.157 Wörtern gaben nahezu alle Unternehmen (96 %) eine Kontaktmöglichkeit an (E-Mail-Adresse: 62 %, Postadresse: 56 %, E-Mail-Formular: 36 %, Telefonnummer: 34 %). 90 Prozent der Erklärungen sind durch einen Klick auf einen Link auf der Startseite zu erreichen. Allerdings geben 44 % der Unternehmen keine Auskunft, wann die Datenschutzerklärung zum letzten Mal aktualisiert wurde. Demgegenüber stehen 86 % der Unternehmen, die erklären, dass ihre Bestimmungen Änderungen unterliegen und nur 20 % geben an, diese Änderungen im Vorhinein auf der Website bekannt zu geben. Lediglich 68 % der untersuchten Unternehmen geben Auskunft darüber, welche Kontrollmöglichkeiten Kunden über ihre eigenen Daten besitzen (z. B. Aktualisierung oder Löschen). Nahezu alle Unternehmen (49) behandeln Cookies in ihren Datenschutzerklärungen, aber nur 35 davon führen die Möglichkeit an Cookies zu deaktivieren oder zeigen die Konsequenzen einer solchen Maßnahme auf. Ein großes Informationsdefizit besteht bei Angaben zur Datenweitergabe an Dritte und „Partner“ (meist als „affiliates“ bezeichnet, wobei dieser Begriff in der Regel nur unzureichend definiert ist). Kein Hinweis zur Weitergabe aggregierter Daten an Dritte findet sich auf 38 % der Websites (bzw. auf 12 % der Sites für persönliche Daten). Noch weniger transparent ist die Datenübermittlung an Partner. Hier fehlt diese Information auf 66 % (aggregierte Information) bzw. 48 % (persönliche Information) der Sites. Das Platform for Privacy Preferences Project (P3P) des World Wide Web Konsortium (W3C) erlaubt es Unternehmen, die Art und Weise in der sie personenbezogene Daten nutzen, auf ihrer Website anzugeben. Bei Anwendung eines entsprechenden P3P-Agenten besteht für Internetnutzer die Möglichkeit, diese Angaben automatisiert mit ihren eigenen Präferenzen zu vergleichen. Allerdings bietet P3P für die Nutzer keinen zuverlässigen Schutz, da es lediglich auf Angaben des Unternehmens basiert (Delaney et al. 2003). Beispiele für andere Initiativen, die sich mit dem Identitätsmanagement im Internet beschäf-
344
H. Treiblmaier
tigen, sind CardSpace (früher: InfoCard) von Microsoft und das Higgins Project, das am Berkman Center for Internet and Society (Harvard Law School) entwickelt wurde. Das Vertrauen in das Internet ist aus Sicht der Unternehmen noch schwieriger sicherzustellen, da es sich großteils der direkten Einflusssphäre entzieht und zudem viele Internetnutzer über unzureichendes technisches Wissen verfügen. Vor allem bei der Übertragung sensibler Daten ist es daher notwendig, auf das Vorhandensein einer gesicherten Verbindung während des Datentransfers explizit hinzuweisen.
20.2.4 Datenarten In einem nächsten Schritt stellt sich die Frage, inwieweit sich die Internetnutzer des Wertes und des Risikopotenzials ihrer Daten bewusst sind. Die Idee, persönliche Daten gezielt zu verkaufen, ist dabei keineswegs neu (Scheeres 2001). Umgekehrt sammeln Adresshändler in der Realwelt bereits seit vielen Jahren detaillierte Kundenprofile, um Unternehmen eine zielgruppenspezifische Ansprache zu ermöglichen. Besonderes Augenmerk wird hierbei auf potenzielle Kaufinteressen gelegt, die weit über grundlegende demografische Daten hinausgehen. So finden sich beispielsweise in einem Fragebogen der Lifestyle GmbH, einem Unternehmen der Schober Information Group (www.schober.com), unter anderem Fragen zu Hobbies, Sport, Freizeit, Urlaub, Auto, persönlicher Gesundheitsfürsorge, privaten Finanzen, Einkaufen und Wohnen (Lifestyle GmbH 2006). Aus Sicht der Kunden hat bereits Abb. 20.3 gezeigt, dass sehr wohl zwischen verschiedenen Datenarten (z. B. Name vs. Kreditkartennummer) hinsichtlich ihres „Risikopotenzials“ differenziert wird. In Abb. 20.4 werden einander das subjektiv empfundene Risikopotenzial (von 0 % „risikolos“ bis 100 % „sehr riskant“) und der Anteil jener Unternehmen, welche diese Datenarten tatsächlich erheben, gegenübergestellt. Die Kundendaten stammen dabei aus der oben bereits erwähnten Kundenbefragung, jene der Unternehmen aus einer ebenfalls im Jahr 2004 durchgeführten Befragung unter österreichischen Unternehmen mit Webpräsenz. Insgesamt wurden 924 Unternehmen kontaktiert, von denen 111 die Bögen retournierten (Rücklaufquote: 12,01 %). Von diesen gaben insgesamt 39 Unternehmen an, Kundendaten über das Internet zu erheben. Deutlich zeigt sich, dass die am häufigsten erhobenen Daten (Name, Telefonnummer, Wohnadresse und E-Mail-Adresse) von den Internetnutzern als vergleichsweise riskant angesehen werden. Die beiden „riskantesten“ Datenarten (Kreditkartennummer und Einkommen/Gehalt) werden nur von wenigen der befragten Unternehmen tatsächlich erhoben. Es soll hier allerdings explizit auf die Zusammensetzung der Stichprobe mit vielen Klein- und Mittelbetrieben verwiesen werden, die das Internet eher als Kommunikations- denn als Transaktionskanal nutzen. Interessant ist auch, dass aus der unbefugten Weitergabe der Kreditkartennummer ein tatsächlicher finanzieller Schaden erwachsen kann, wohingegen sich die kritische Einschätzung der Datenart „Einkommen/Gehalt“ eher mit dem Schutz der Privatsphäre erklären lässt.
20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
345
Abb. 20.4 Wahrgenommenes Risikopotenzial und Erhebungshäufigkeit verschiedener Datenarten (n1 = 405, Kundenbefragung, Liniendiagramm; n2 = 39, Unternehmensbefragung, Säulendiagramm)
Das für Unternehmen interessante Einkaufsverhalten der Nutzer findet sich im mittleren Bereich und wurde von den befragten Unternehmen zum Zeitpunkt der Befragung kaum erhoben. Als vergleichsweise wenig riskante Daten wurden all jene Merkmale empfunden, die man vergleichsweise leicht über eine Person in Erfahrung bringen kann, wie beispielsweise der Beruf, das Alter und das Geschlecht. Das Wissen um die Wahrnehmung persönlicher Daten und die dahinter stehenden Gründe kann Unternehmen helfen, gezielt Daten zu erheben und mögliche Befürchtungen der Internetnutzer durch gezielte Informationspolitik abzuschwächen. Neben einer grundsätzlichen Sparsamkeit in der Erhebung der Daten empfiehlt es sich für Unternehmen auf die von ihnen beabsichtigte Datenverwendung hinzuweisen. Interessant sind in diesem Zusammenhang die als vergleichsweise riskant eingestuften Kontaktdaten wie etwa die Telefonnummer, die leicht in öffentlichen Verzeichnissen einsehbar sind (Geheimnummern ausgenommen). Die Ergebnisse legen den Schluss nahe, dass Internetnutzer bei Datenerhebungen auch von einer späteren Verwendung dieser Daten ausgehen und einen möglichen Eingriff in die eigene Privatsphäre fürchten.
346
H. Treiblmaier
20.2.5 Eingabefehler Als letzte Stufe im Entscheidungsprozess der Eingabe soll die Möglichkeit einer unabsichtlichen Falscheingabe nicht unerwähnt bleiben. Selbst wenn all jene oben diskutierten Faktoren (Intention, Nutzen, Vertrauen, Datenart) vorhanden sind, beziehungsweise positiv beurteilt werden, so besteht doch die Möglichkeit, dass aufgrund von Tippfehlern oder der Auswahl falscher Elemente (etwa bei Dropdown-Listen) inkorrekte Daten eingegeben werden. Erschwerend kommt bei online-Formularen dazu, dass der Eingabeprozess in der Regel ohne zusätzliche Unterstützung (z. B. für Rückfragen) stattfindet. Wie oben bereits erwähnt, besteht für Unternehmen die Möglichkeit, durch vorgegebene Optionen und Kontrollmaßnahmen im Browser (Client) beziehungsweise nach Abschicken der Daten durch Abgleich mit existierenden Datenbanken, Falscheingaben zu verhindern.
20.3 Ausblick Der in diesem Beitrag skizzierte mehrstufige Entscheidungsprozess der Weitergabe persönlicher Daten zeigt, dass es verschiedene Einflussfaktoren gibt, die sich unmittelbar auf die Qualität der Daten auswirken. Ebenso werden die Möglichkeiten deutlich, die ein Unternehmen besitzt, um eine hohe Datenqualität bestmöglich sicherzustellen. Technische Lösungen, wie etwa die Eingabe eines nicht maschinenlesbaren Codes, erlauben es, automatisierte Falscheingaben zu verhindern. Ist erst gewährleistet, dass die Eingabe tatsächlich von einer natürlichen Person erfolgt, so muss sichergestellt werden, dass die Kunden wirklich die Intention besitzen korrekte Daten einzugeben. Dies hängt stark mit dem dadurch erzielbaren Nutzen für die Konsumenten zusammen. Daher empfiehlt es sich für Unternehmen kritisch zu hinterfragen, welche Gegenleistung den Kunden für ihre Daten geboten werden. Selbst wenn all diese Kriterien gegeben sind, stellen das Vertrauen in das Unternehmen (d. h. in die zweckgemäße Verwendung der erhobenen Daten) und das Internet (d. h. die sichere Übermittlung der Daten) wesentliche Kriterien dar. In dieser Stufe ist es für die Unternehmen notwendig, ihren Kunden klar zu kommunizieren, welche Richtlinien hinsichtlich der Speicherung und Verwendung der Daten existieren (Privacy Policies). Zusätzlich besteht bei besonders sensiblen Daten (z. B. Kreditkartennummer) die Möglichkeit, die Kunden auf das Vorhandensein sicherer Verbindungen gesondert hinzuweisen. In allen Fällen sollte an deutlich sichtbarer Stelle der Website ein entsprechender Hinweis (Disclaimer) auffindbar sein, um das Vertrauen der Konsumenten zu stärken. Die Ergebnisse der vorliegenden Studien haben zudem gezeigt, dass die Konsumenten zwischen dem Risikopotenzial verschiedener Datenarten unterscheiden. So werden etwa Daten, welche die Möglichkeit zu einem finanziellen Schaden inkludieren (Kreditkartennummer), Daten die generell als privat angesehen werden (Einkommen) und Daten, die eine direkte Kontaktaufnahme erlauben (Telefonnummer, Wohnadresse, E-Mail-Adresse, Name) als wesentlich riskanter eingestuft als beispielsweise Familienstand, Beruf, Alter oder Geschlecht. Auch hier empfiehlt es sich für Unternehmen klar zu differenzieren und
20 Ein Entscheidungsmodell zur Weitergabe persönlicher Daten im Internet
347
vor allem bei den als sensibel wahrgenommenen Datenarten deutlich die Gegenleistung und den Schutz der betreffenden Daten zu kommunizieren. Selbst wenn die Voraussetzungen aller oben angeführten Prozessschritte erfüllt sind und die Kunden korrekte Daten eingeben wollen, besteht die Möglichkeit ungewollter Falscheingaben. Hier bietet sich für Unternehmen die Möglichkeit, clientseitig eine Vorkontrolle zu übernehmen (z. B. Erkennen einer korrekten E-Mail-Adresse durch Überprüfung, ob das „@“-Zeichen vorhanden ist) beziehungsweise nach Übermittlung der Daten eine vergleichende Prüfung mit vorhandenen Datenbeständen durchzuführen (z. B. bei Adressdaten). Die in diesem Beitrag angestellten konzeptionellen Überlegungen zeigen in Kombination mit den empirischen Befragungsergebnissen, dass es notwendig ist, bereits bei der Datenerhebung Qualitätskriterien zu berücksichtigen und dass eine ex post Qualitätskon trolle vorhandener Datenbestände nicht ausreichend ist. Neben der grundsätzlichen Frage nach der Notwendigkeit der Erhebung einzelner Daten, ist es notwendig die Wünsche der Kunden ernst zu nehmen und vor der Erhebung persönlicher Daten ein Vertrauensverhältnis durch eine existierende Kundenbindung aufzubauen.
Literatur 10 Minute Mail: This E-Mail Address Will Self-Destruct in 10 Minutes. 2007. http://www.10minutemail.com/10MinuteMail/index.html (Zugriff am 10.05.2007) Alken, F.: Machines Will Eat Itself. Netzspannung.org, 2003. Berendt, B., Günther, O., und Spiekermann, S.: Privacy in E-Commerce: Stated Preferences Vs. Actual Behavior. In: Communications of the ACM, 48. J., 2005, Heft 4, S. 101–106. Borking, J.: 2008 – Ende Der Privatheit?. In: Der Neue Datenschutz. Datenschutz in der Informationsgesellschaft von morgen. H. Bäumler (Ed.), Hermann Luchterhand Verlag GmbH, Neuwied, 1998, S. 283–293. Carlson, R.: Rob’s Giant Bonuscard Swap Meet. http://epistolary.org/ rob/bonuscard/ (Zugriff am 2 Mai 2007) Delaney, E.M., Goldstein, C.E., Gutterman, J., und Wagner, S.N.: Automated Computer Privacy Preferences Slowly Gain Popularity. In: Intellectual Property & Technology Law Journal, 15. Jg., 2003, Heft 8, S. 17. Lifestyle GmbH. Marktanalyse und Konsumentenbefragungen (Fragebogen). Lifestyle Institut für Marktanalyse und Konsumentenbefragungen GmbH, 2006. Marks, P.: New Software Can Identify You from Your Online Habits. In: New Scientist, 2007, http:// www.newscientisttech.com (Zugriff am 24 Mai 2007) Pollach, I.: Privacy Policies as a Means of Uncertainty Reduction in WWW Interactions. In: Journal of Organizational and End User Computing, 18. Jg., 2006, Heft 1, S. 23–49. Scheeres, J.: My Shoe Size? It'll Cost You. http://www.wired.com, 2001 (Zugriff am 17 Juli 2007) Treiblmaier, H.: Datenqualität und individualisierte Kommunikation. Gabler, Wiesbaden, 2006. Urban, G.L., Sultan, F., und Qualls, W.J.: Placing Trust at the Center of Your Internet Strategy. In: MIT Sloan Management Review, 42 Jg., 2000, Heft 1, S. 39–48.
348
H. Treiblmaier
Dr. Horst Treiblmaier Seine Forschungsinteressen liegen in den Bereichen Kundenbeziehungsmanagement, Datenqualität und Analyse von Websites, wobei er sich vor allem mit den kommunikationspolitischen Auswirkungen von Informationssystemen beschäftigt. Im Rahmen seiner Ha bilitation untersuchte er die Einstellung von AnwenderInnen von Web-Informationssystemen hinsichtlich der Weitergabe personenbezogener Daten. Horst Treiblmaier ist Autor und Koautor von mehr als 70 wissenschaftlichen Publikationen, die unter anderem in folgenden Zeitschriften veröffentlicht wurden: Wirtschaftsinformatik, Communications of the AIS, Journal of Electronic Commerce Research, International Journal of Electronic Business Management, Schmalenbach Business Review, Electronic Markets, Transactions on Advanced Research, International Journal of Technology, Policy and Management und International Journal of Mobile Communications.
Der Aufbau einer Organisationsrichtlinie für den Daten- und Informationsqualitätsmanagement-Prozess
21
Reinhard Höhn
Im folgenden Kapitel wird ein Prozessmodell mit Vorlagen, Checklisten und Mustern für das Datenqualitätsmanagement vorgeschlagen, das die methodischen Empfehlungen aus mehreren Quellen komponiert. Entlang dieses Prozessmusters wurde der Status mehrerer Unternehmen unterschiedlicher Branchen erhoben, deren Bedarf für ein systematisches Datenqualitätsmanagement diskutiert und das Prozessmodell situationsgerecht angepasst. Das Ergebnis der Reflexion wurde in den meisten Projekten durch den zukünftigen Datenqualitätsmanager als initiale Datenqualitätsmanagement-Richtlinie verfasst. Ziel dieses Artikels ist es, die Lessons Learned dieser Projekte zu einem Verfahren für die Konzeption eines unternehmensindividuell anpassbaren Datenqualitätsmanagement-Prozesses zu konsolidieren. Aus der Konzeption wird als Nebeneffekt der Aufbau einer DQM-Richtlinie gewonnen, die auch die Methodenempfehlungen aus diesem Buch im DQM-Prozess verortet. Der Lesbarkeit zuliebe, wird immer nur der Begriff „Daten“ genannt, auch wenn „Daten- und Information“ manchmal sogar „Wissen“ treffender wäre. Wenn also von „Daten- Qualitätsmanagement“, abgekürzt DQM, gesprochen wird, ist „Daten- und Informationsqualitätsmanagement“ gemeint.
21.1 Motivation Viele Unternehmen haben vereinzelte DQ-Maßnahmen im Laufe Ihrer Historie implementiert und praktizieren diese auch regelmäßig, aber für die Implementierung eines systematischen DQM-Prozesses „… ließ das Tagesgeschäft keine Zeit“. Einige davon R. Höhn (*) Darmstadt, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_21
349
350
R. Höhn
e ntschließen sich von Zeit zu Zeit ihre Wissensträger zusammenzuziehen, um die auf die unterschiedlichen Abteilungen verteilten DQ-Erfahrungen zu vergleichen und zu Lessons Learned zusammenzuführen. Besser als eine „lose“ Sammlung von Erfahrungen, ist eine systematische und unternehmensweit homogene Darstellung eines DQM-Prozesses. Die Konzeption eines eigenen DQM-Prozesses wird erleichtert, durch Empfehlungen in Normen, Gesetzen und Behördenvorgaben, Lehrbüchern, Erfahrungsberichten anderer Unternehmen und Case Studies. In Vorgehensmodellen zur Softwareentwicklung wie RUP, V-Modell 97, V-Modell XT sind zwar generell Methoden zur Datenmodellierung empfohlen, aber Datenqualitätsmerkmale kommen nicht vor. In agilen Ansätzen Scrum, Crystal, XTrem-Programming, ist Datenmodellierung nicht einmal erwähnt. In Architekturframeworks, wie z. B. im Enterprise Architecture Framework TOGAF, sind Daten als Architektursicht aufgeführt. In dem Standard für IT-Service-Leistungen, ITIL Edition2010 und auch im neuen ITIL v4, sowie im weit verbreiteten Standard zur Prüfung der Reifegrade von IT-Prozessen, COBIT 5, ist DQM kein Thema. Gesetze wie GmbHG, GoBS, DSGV, SGB, stellen nur normativ Ansprüche an Datenqualität, geben aber keine deskriptive Hilfe. Wie kommt man nun zu einem, für die situative Lage eines Unternehmens, akzeptablen DQM-Prozess? Man kann: 1 . die Prozesselemente aus gegebenen Quellen auswählen, 2. zu einem konsistenten Prozess komponieren, 3. zwischen den betroffenen Stakeholdern abstimmen, 4. mit Unterstützung dieser Stakeholder exemplarisch implementieren, 5. und iterativ verbessern. Für die Nutzung bestehender Quellen bieten sich die folgenden fünf Ansätze an. Erster Ansatz: Die noch Normengruppen ISO25012 und ISO 8000 sind eine nützliche aber sehr teure Quelle. Sie werden aber, soviel lässt sich prognostizieren, den DQM- Prozess nicht bis auf die Ebene der Anwendung von Methoden und die Ableitung von Rollen herunterbrechen. Von der Normenreihe ist maximal zu erwarten: 1 . eine Typisierung der Datenqualitätsmerkmale, ISO25012 2. eine Einbettung in die kundenbezogene Unternehmenszielsetzung 3. eventuell ein mit der ISO9001 abgestimmter Prozessrahmen zum Plan-Do-Check-Act Verbesserungszyklus 4. eine Methoden-Benennung, aber keine Anwendungserklärung für Methoden 5. Dokumentationsempfehlung, analog zu der Normenreihe ISO29119 für das Testmanagement, 6. Querverweise auf andere mitgeltende ISO Normen, wie z. B. zur System-Entwicklung ISO15288, Anforderungsdefinition ISO29148, Software-Spezifikation ISO12207, Improvement ISO15504, Governance ISO38500 etc. Die Normenreihen haben einen großen Nachteil: sie sind sehr teuer, unüberschaubar verzahnt mit anderen Normenreihen, ohne didaktisch motivierten Aufbau und damit
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
351
schwer an das Organisationspersonal zu vermitteln. Eine komplette Normenkonformität ist schon alleine bezüglich der ISO-Normen in Kürze nicht herzustellen. Ansatz zwei: Zieht man Gesetzestexte zu Rate, findet man viele Gesetze mit Bezügen zur Datenqualität, siehe (Thom), z. B. in den Sozialgesetzbüchern und im Arbeitsrecht zum Datenschutz und zur Datensicherheit, im Gesellschaftsrecht mit Berichtspflichten zur korrekten Darstellung der Unternehmenslage, im Sinne der Transparenz, nicht zu vergessen die Datenschutz-Grundverordnung. Für Töchter ausländischer börsennotierter Unternehmen sind sogar internationale Gesetze zu beachten, wie z. B. im Sarbanes Oxley Act, der die Nachvollziehbarkeit der Unternehmensentscheidungen durch eine Überwachungsbehörde fordert. Ansatz zwei ist der umständlichste Weg. Man müsste zu allen Rechtssparten die entsprechenden Juristen in der Rechtsabteilung erstens verfügbar haben, für ein DQM-Konzeptionsprojekt, das juristisch lückenlos ist. Ohne Gesetzescharakter, aber mit der Rechtsnatur von unbedingten Empfehlungen und mit Bezug zur Daten-Qualität, werden von nationalen Behörden Handbücher zu Architektur-Dokumentationen FEAF, NAF, DOMEA, EIF und zur Projektabwicklung V-Modell-XT, PMBOK, PRINCE, u. a. herausgegeben. Hinzu kommen in der Branche vereinbarte Normen, die fast Vorschriften- Charakter haben, wie z. B. MaRisk, Basel, EDIFACT, SCOR, KKS, INCOSE etc. Diese Normen vollständig auszuwerten und anzuwenden, ist für das einzelne Unternehmen kurzfristig nicht möglich. Ein DQM-Prozess wäre damit noch nicht gewonnen. Ein dritter Ansatz ist es, Best Practice Veröffentlichungen prominenter Unternehmen, zu verwenden. Allen voran darf man IBM nennen, die mit internen Betriebs- und Service- Handbüchern den Fundus zu ITIL beigetragen haben und Data Governance-Briefings auflegen. IBM hat auch einen wesentlichen Anteil am The Open Group Architecture Framework, TOGAF, das ein Daten-Architektur-Konzept enthält. Software-Hersteller, besonders aus dem Bereich Business Intelligence, wie SAP, Microsoft, Oracle, SAS, NCR-Teradata, Dataflux bieten Data Governance Konzepte an. Hin und wieder schaffen es die Hersteller gemeinsame Empfehlungen zu verfassen, wie z. B. zum Cross-Industry Standard Process for Data Mining, CRISP-DM (IBM-2012), (Chapman) und wie zu dem TOGAF Vorgehensmodell ADM. Für den vierten Ansatz, einen eigenen DQM-Prozess zu konzipieren, kann man ausgearbeitete Vorschläge aus der Lehrbuch-Literatur verwenden, wie z. B. in (Batini), (Sadiq), (Thome), (Apel), (Crosby) oder (Hildebrand). Oder man geht einen Schritt zurück, und leitet individuell den eigenen DQM-Prozesses aus der Unternehmenszielsetzung ab, wie das z. B. musterhaft in einer Reihe von Büchern zu Habilitationsprojekten mit dem Business Engineering Modell von (Österle) bezüglich mehrerer Datenqualitäts-affiner Themen vorgeführt wurde: z. B. Date Warehouse Strategie (Jung), Knowledge Management System (Riempp), Content Management System (Christ) und auch Daten Qualitäts-Management (Otto). Die genannten Lehrbücher haben ihre Wurzel in Lehr- und Forschungstätigkeit und sind daher von Haus aus auf Vermittlung der Inhalte gepolt. Sie haben deshalb den höchsten didaktischen Beitrag unter den hier genannten Ansätzen zu bieten. Ein fünfter Ansatz ist, nach Beratungsunternehmen zu suchen, die sich auf das Gebiet Daten-Qualitätsmanagement spezialisiert haben. Einige gewähren einen Einblick in ihr Beratungsspektrum und dessen Tiefe, indem sie ihre Lehrunterlagen öffentlich verfügbar
352
R. Höhn
machen. Ein nützlicher Beitrag stammt z. B. von McGilvray, die in (Sadiq, S. 41 ff.) einen Aufsatz zu ihrem umfangreichen 10 Schritte umfassenden DQM-Prozess namens POSMAD vorstellt und in einem Handbuch (McGilvray) detailliert darstellt. Verwertbare Empfehlungen findet man auch in dem Data Management Book of Knowledge, DMBOK, der Beratergruppe DAMA-International (Mosley). Ebenfalls zu erwähnen sind die Schulungsunterlagen der International Association for Information and Data Quality, IAIDQ, die allerdings nicht frei verfügbar sind, sondern erst mit einem Zertifizierungsseminar zum Information Quality Certified Professional ausgehändigt werden.
21.2 Der komponierte DQM-Prozess Keine der genannten Quellen ist vollständig und keines der Konzepte ist 1:1 auf eine Unternehmenssituation kopierbar. Es bleibt für das DQM-Team eine anspruchsvolle Anpassungs- und Motivationsaufgabe zu bewältigen, mit • Einer Selektion brauchbarer Konzepte, Methoden, Muster aus den Quellen, • deren Kombination zu einem homogenen und konsistenten Prozess, • und der Förderung der Akzeptanz, aus dem Angebot der oben genannten Quellentypen aller fünf Ansätze. Aus mehreren Projekten unterschiedlicher Branchen – 12 Banken und Versicherungen, 4 Behörden, 4 Trainings- und Beratungsunternehmen, 6 Industrie-Unternehmen – wurde zusammengefasst folgender Bedarf an den DQM-Prozess angemeldet. Inhaltlich wurde verlangt, 1. den gesamten Lebenszyklus, von der Strategischen Verankerung eines DQM, über Projektierung, Entwicklung und den Betrieb bis zur Demission der Daten abzudecken, 2. einen Entscheidungspunkt einzubeziehen, ob im jeweils vorliegenden Falle DQ- Maßnahmen besser iterativ oder nach Phasenstruktur organisiert werden sollten, 3. die Themen Business Intelligence Architektur, Wertschöpfungsrelevanz, semantische Ebenen von Daten-Information-Wissen einzubeziehen. Bezüglich der Tiefe der Beschreibung wurde an die im Folgenden vorgestellte Prozess- Komposition der formale Anspruch gestellt, weniger Prinzipien aufzustellen, sondern konkret umsetzbar darzustellen: 1. den gesamten Lebenszyklus, von der Begründung eines DQM (Warum) bis zur Demission, 2. alle semantischen Ebenen von Daten, Informationen und Wissen abzudecken (Woran), 3. in einer Tiefe, die Aktivitäten beschreibt und zu Abläufen reiht (Was), 4. auch die zur Wahl stehenden Methoden (Wie) aufzählt, 5. woraus die Zuteilung zu einer Rolle (Wer) abgeleitet werden kann.
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
353
Die sogenannten W-Fragen der Prozessorganisation haben eine lange Tradition zuerst (Nordsieck), (Kosiol, S. 40), dann (Bleicher) u. a. und später auch (Zachmann), und ohne W’s (Schulte-Zurhausen, S. 52). Das Wann und das Wo sind erst für die Projektierung der Maßnahmen relevant. Das vorgestellte Prozess-Raster ist selbstverständlich nur ein Prozess-Vorschlag, der auf die Unternehmenssituation angepasst werden muss. Der Life-Cycle des DQM, das Prozessmodell, beginnt immer mit einem Anlass (Schritt 0); ein Anlass der so bedeutsam für das Unternehmen ist, dass man den großen Aufwand nicht scheut, ein DQM zu implementieren (Abb. 21.1). Für alle Beteiligten ist es wichtig den Anlasse zu kennen, weil davon abhängen: • der Regelungsbedarf bis zur Ausstattung der Prozessschritte mit Methoden, • der Fokus des DQM auf die erste Domäne, • die organisatorische Verankerung, die Zuständigkeit.
Abb. 21.1 Der DQM-Referenzprozess mit den wichtigsten Produkten
354
R. Höhn
Der erste DQM-Durchlauf nach der neuen Richtlinie, das erste Praktizieren, einer neuen Organisationsform ist eine Bewährungsprobe. Diese endet mit der Erfahrung, ob die Richtlinie, die Praktiken, die Toolkonfiguration, Rollenqualifikation für die Verwendung in anderen Domänen weiterentwickelt werden müssen. Die einzelnen DQM-Schritte sind in diesem Prozessmodell zwar als Phasendurchlauf zusammengesetzt, erlauben aber fall-abhängig • inkrementieren (fokussieren) z. B. auf Domänen, Regionen, Produktlinien, • iterieren z. B. der einzelnen DQM-Prozessprodukte, • springen im Prozess, z. B. Prozessschritte auslassen, zurückspringen, zusammenfassen oder aufteilen von Prozessschritten, • partizipative Teilnahme von Stakeholdern, • freigeben von Prozessschritten, z. B. ohne Freigabeprozedur, oder mit lockere Freigaberegeln oder mit strenger Abnahme nach Lieferung und Leistungsverträgen, Anmerkung: zur Konstruktion des Referenzprozesses wurden Aktivitäten von (McGilvray), (Thome), (ITIL) und (Baskarada) zu einem Lebenszyklus zusammengeführt und mit Methoden aus (Batini), (Naumann), (Redman), (Hildebrand) ausgestattet.
21.2.1 Schritt 0: Anlass zur Implementierung eines DQM-feststellen Die Reaktion auf gravierende Datenqualitätsmängel ist der häufigste anzutreffende Grund, DQM von ad-hoc-Initiativen Einzelner auf eine systematisch konzipierte Form zu heben. Oft steht die drohende Bestrafung durch eine Behörde, wegen Verletzung von Meldepflichten, unvollständigen Produktangaben, am Anfang. Interne Anlässe sind z. B. Produktionsausfall, Nachlassen der Produktqualität, Überschreitung erlaubter Toleranzen, Beschwerden von Kunden. Auf der Suche nach Schuldigen, z. B. bei Kundenbeschwerden, wenn Imageschaden durch investigativen Journalismus entstehen oder wenn Behörden Strafgebühren verordnen, wird auch die Qualität der dem Unternehmenshandeln zugrunde liegenden Daten unter die Lupe genommen. Die DQ-Aktivitäten werden neu-bewertet und steigen im Handlungsranking auf einen höheren, mitunter sogar Strategie-relevanten Platz. Eine ganz andere Anlasskategorie ist gegeben, wenn andere Unternehmen ein Interesse am Erwerb von im Unternehmen generierten Erfahrungsdaten haben, wenn also die Daten selbst plötzlich zum vermarktbaren Produkt werden. Dann muss gleich eine gesamte Wertschöpfungskette mit dem Produkt „interessante Daten“ aufgebaut werden. DQM hat dann sogar die Rolle der Produkt-Qualitätssicherung und ist dann zu integrieren, wie in einem Industriebetrieb, das Total Quality Management, TQM, (Juran). Mitunter entsteht dann sogar ein neuer Produktbereich im Unternehmen oder sogar eine Ausgliederung als eigenes Unternehmen.
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
355
Abb. 21.2 Die Alignment Reifegrade der Gartner Group wie in (Teradata) dargestellt und in eigener Übersetzung
Der dritte, eher seltene Beweggrund, mehr in die Förderung der Datenqualität zu investieren, ist die allgemeine Meinung der Belegschaft „ob die Datenqualität gut ist“, „ob das Datenqualitätsmanagement zufrieden stellende Arbeit leistet“. Eine vierte Anlasskategorie betrifft die Reifung im Strategie-Lebenszyklus des Unternehmens. Die Reife der IT-Praxis, bezogen auf die Positionierung im Wettbewerb, hat die Gartner Group als Alignment-Reifegrade dargestellt (Abb. 21.2). Vom Reifegrad 0, die IT sorgt für die Abwicklung der IT-Services, bis zum Reifegrad 5, die IT-Maßnahmen sind so innovativ, dass sie dem Unternehmen die Spitzenposition, Lead, im Wettbewerb sichert. Für diese vierte Kategorie von Anlässen sich mit DQ zu befassen, hat die Firma NCR/ Teradata einen interessanten Fragebogen veröffentlicht (Fowler). Dieser ist für BIS generell aufgestellt worden und mit dem Hintergedanken, das Vertriebsgespräch mit dem Management zu unterstützen. Der Fragebogen kann aber auch artfremd für DQM gute Einstiegsdienste leisten und zwar für die Erhebung eines Meinungsbildes der IT-Anwender. Wenn man zu dem Meinungsbild die Differenzierung nach Entscheider und Operative Ebene mit erhebt, kann die Auswertung belegen, ob die Führungsebene ein falsches Bild von dem operativen Nutzen hat (Abb. 21.3). Da Betriebsblindheit, Terminzwänge und Leistungsdruck manchmal den Blick auf die eigene Leistung verzerren, ist auch der Vergleich „Selbstbild der IT zu ihren Services“ mit dem „Fremdbild der Anwender“ aufschlussreich. Das Meinungsprofil für die Services zum Business Intelligence System (BIS), bzw. DQM-Leistung soll sich in einer Soll-Kurve und in einer Ist-Kurve (grün) niederschlagen. Die Abweichungen von Soll zu Ist kann man mit den beliebten Ampelfarben einfärben, z. B. rot = unbedingt verbessern, grün = besser als erforderlich, gelb = im Rahmen der Akzeptanz. An Stelle der von der Gartner Group inspirierten Alignment-Reifegrade können auch andere Reifegrad-Definitionen verwendet werden, wie z. B. die Capability Level aus der ISO15504. Diese Spalten sind hier ergänzt worden. Als Anhaltspunkte zur Einschätzung ob die Services stattfinden sollen ausgewählte Basispraktiken in der letzten Spalte dienen.
356
R. Höhn
Abb. 21.3 Fragebogen zum Alignment des BIS-Service, mit DQ-Zufriedenheit in Anlehnung an (Fowler)
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
357
Für das Thema DQM sind zwar hauptsächlich die kursiv gesetzten Positionen 8, 10, 13, 15, 18–24 relevant. Man wird auch im Vergleich mit den im Buch in Kap. 2 dargestellten DQ-Merkmalen erkennen, dass die Liste unvollständig ist. Als fünfte Anlasskategorie ist noch das Outsourcing-Vorhaben zu nennen. Ein Unternehmen, das die IT-Leistung von einem externen Service abgewickelt wissen möchte, muss im Service-Vertrag, im Service-Level-Agreement, SLA, auf die Einhaltung von Daten- Qualitätsvorgaben und deren transparente Überwachung bestehen. Für DQ- Verstöße werden Strafzahlungen, DQ-Pönalen, vereinbart. Der Nutzen einer solchen Befragung liegt nicht alleine in der Auslotung des Handlungsbedarfes, sondern mindestens genauso wichtig, in dem sozialen Akt der Auseinandersetzung mit dem Thema BIS oder kleiner DQM. Man stellt sich gegenseitig unterschiedliche Auffassungen vor, verteidigt diese oder zeigt Bereitschaft zur Reflektion oder Ablehnung, stellt sich dem sozialen Akt eines Changes, äußert Bedenken und klärt nebenbei Fachbegriffe. Wenn der Anlass die nötige Handlungsnot transportiert, sich der Wille zur Verbesserung des DQM gebildet hat, dann ist es die Aufgabe von Top-Führungsebene, Vorstand, Unternehmensleitung, Sektionsleitung im Ministerium, etc. das DQM neu oder erstmals zu positionieren.
21.2.2 Schritt 1: Data Quality Management positionieren und beauftragen Ein umfassend organisiertes DQM kann nur mit der Rückendeckung der obersten Führungsebene geleistet werden. Eine Ebene tiefer angesiedelt, Ressortleiter, Divisionsleitung, werden die Liniengrenzen überschreitenden Qualitätsmängel nur mühsam erschlossen. In der überwiegenden Mehrzahl der Organisationen herrscht die Schuldzuweisungs-Mentalität über die Fehlerkultur. Je stärker die öffentliche Aufmerksamkeit ist, desto größer wird der Rechtfertigungsdruck auf das Unternehmen. Die mehr oder weniger verdeckte Sanktion von DQ-Mängeln führt zu einer lähmenden Zuschreibungs-Oszillation aus Schuldzuweisung, Empörung, Schuld-Rückweisung. Der Stellenwert der dem DQM-Team eingeräumt wird, ist von der Unternehmensleitung schriftlich in einer „Data Quality Policy“ zu fixieren. Nicht genug damit, die Bedeutung des DQM und die unbedingte Rückendeckung durch die Unternehmensleitung muss der Belegschaft unmissverständlich vermittelt werden. Die Position des DQM-Teams wird erst mit abteilungsübergreifenden Befugnissen ausgestattet, glaubwürdig. Mit der Positionierung des Themas Datenqualität im Organisationsgefüge, in der Agenda der Unternehmensstrategie wird die Koordination, Steuerung der DQM-Maß nahmen erforderlich. Um hier chaotischen Wildwuchs zu verhindern, ist ein Prozesskonzept in einer DQM-Richtlinie für alle Unternehmensmitglieder, nachvollziehbar und unternehmensweit homogen praktizierbar, darzulegen. Folgende Aktivitäten sind zur Positionierung bzw. Initialisierung des DQM empfehlen:
358
R. Höhn
Aktivität 1.1 Positionieren des Data Quality Management • Business Bedeutung der Datengüte, Wertschöpfungsbezug (Porter), Unternehmens- Reichweite • Alignment-Vorgaben, Compliance-Rahmen, Architektur-Standards, Improvement- Auflagen, Entscheidungs-Mechanismen, Praktiken nach (COBIT) • Priorisierung der Domänen • Data Policy Muster (Redman) Aktivität 1.2 Erstellen der Data Quality Management Richtlinie • Bedarfserhebung und Begründung, Anforderung an die Datenqualität • Priorisierungsregeln, Bewertung der Ziele, z. B. nach Position in der Wertkette • Agreements der Stakeholder Aktivität 1.3 Planen des Data Governance Projekts • DQM-Leistungen, Termine, Budget, Rollen, Sachmittel • DQM-Projektplan • DQM-Kommunikationsplan, Belegschafts-Information Die Data Governance Policy, die eine Beauftragung des DQM-Initial-Teams durch den Vorstand regeln soll, muss eine Anbindung an die Unternehmens-Governance und an die IT-Governance leisten: • Ein Unternehmen ist mit einer Vision von einem Unternehmensgründer aufgebaut worden. • Die Gründer vermitteln als Handlungs-Leitbild eine Mission. • Damit wird ein Umfeld und ein Umwelt-Ausschnitt relevant, die beide das unternehmerische Handeln beeinflussen und den Handlungsrahmen für das Management – die Business-Governance – bestimmen. Eine nützliche Hilfe in Form von Basispraktiken und Aktivitäten kommt von dem IT-Governance-Framework COBIT 5.0. Aus (COBIT 5.0) kann man fünf wesentliche, sich ergänzende nicht ganz überschneidungsfreie Governance-Gestaltungskomponenten herausgreifen: 1. Businessausrichtung oder IT-Alignment, das sicherstellen soll, dass die IT im Sinne der Unternehmensstrategie handelt, für Methoden für die Bestimmung eines IT- Alignment siehe (Krcmar), (Ward), siehe COBIT 5-Prozesse APO01, APO02. 2. Erst wenn die Unternehmensstrategie klar ist, können die bei der Umsetzung einzuhaltenden Gesetze festgestellt werden, die Gesetzeskonformität oder Compliance,
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
359
wozu auch der Risikoschutz, Nachhaltigkeit und Transparenz gehören, siehe COBIT 5-Prozesse APO12, APO13, MEA03. 3. Etwas schwächer als die Gesetzestreue ist die Verpflichtung zu Branchenarchitekturen. Hierzu gehören Datenformate, wie z. B. Swift, Prozessstrukturen, wie z. B. des Supply Chain Council, Norm-Bauteile wie Metrische Gewinde oder auch alle Unternehmenskomponenten einschließende Architekturkomponenten, wie z. B. TOGAF, siehe COBIT 5-Prozess APO03. 4. Zur Governance Konzeption gehört eine Form der Verbesserung, das Improvement, das Bekenntnis zum KVP in einzelnen Bereichen oder das TQM über das gesamte Unternehmen. Für die Verbesserung der IT-Prozesse hat sich COBIT durchgesetzt, für die Verbesserung der Systementwicklung konkurrieren ISO Normen, wie die ISO15504 und ISO 12207 gegen CMMI, siehe COBIT 5-Prozesse MEA. 5. Alle Themen müssen entschieden werden und mit Hilfe welcher Gremien, Arbeitsgruppen wie demokratisch Entscheidungen erarbeitet werden, ist ebenfalls eine Gestaltungskomponente der Governance, die Entscheidungs-Mechanismen, (Weill) Die Reihenfolge der Konzeption dieser Governance-Komponenten ist nicht beliebig. IT-Governance folgt der Unternehmens-Governance und Data Governance ist in IT- Governance und Unternehmens-Governance integriert. Governance in diesem Sinne stellt einen Handlungsrahmen für das Management dar. Die Managementaufgaben sind davon getrennt. In vielen Unternehmen, und besonders in Beratungskreisen, wird der Governance- Begriff weiter gefasst, nämlich Top-Management-Aufgaben inkludierend. Eine diesbezügliche Alternative zeigt das Data Governance Modell von IBM. Hier sind ergänzend zu den IBM Data Governance Elementen die Verweise auf die oben aufgeführten Governance-Gestaltungskomponenten fett eingetragen (Abb. 21.4). Die von IBM unter dem Begriff Governance subsummierten Management-Aufgaben, auch Management-Funktionen genannt, folgen einem Regelkreis, wie z. B. in (Staehle, S. 81): • Zielsetzung und Planung, • Organisation, mit der Bereitstellung von Ressourcen Betriebsmittel, ausführendem Personal, disponierendem Personal, • Umsetzung, Steuerung, als Faktorkombination der Ressourcen (Gutenberg) zur Abwicklung von Prozessen, zur Herstellung von Produkten (Output) aus Vorprodukten (Input), • Kontrolle, die den Regelkreis schließt durch den Vergleich der Ergebnisse mit der Zielsetzung um daraus neue Zielsetzung für die Folgeperiode zu gewinnen. Wie umfassend die Governance an das DQM-Team vorgegeben wird, ist abhängig von der Unternehmenskultur. Wenn das DQM-Team nur den Handlungsrahmen entsprechend der oben aufgezählten Governance-Komponenten vorgegeben bekommt und die Manage-
360
R. Höhn
Abb. 21.4 Umfang der Data Governance nach IBM, mit eigenen Ergänzungen zu Governance Konzept-Komponenten z. B. aus COBIT
mentfunktionen selbst ausgestalten kann, ist die Identifikation mit dem DQM-Prozess stärker, das Umsetzungsengagement größer. Aus der IBM-Übersicht in Kombination mit der Empfehlung einer DQM-Policy aus (Redman) und eigenen Ergänzungen, ist die folgende Checkliste für eine DQM-Policy oder einen DQM-Auftrag der Unternehmensleitung an das zukünftige DQ-Team zusammengestellt worden (Abb. 21.5). Der Aufbau der Richtlinie, die mit Prozessschritt 1 erstellt werden soll, kann erst am Ende dieses Artikels vorgestellt werden, wenn der Prozess im Einzelnen dargestellt ist und die Methoden vorgestellt sind, da dies ja der Inhalt der Richtlinie sein soll. Weitere Hinweise in diesem Buch zur Gestaltung von Schritt 1 des DQM-Prozesses: (Hildebrand, Kap. 13 und 16) und die Normen ISO38500, ISO9001, COBIT. Mit der Positionierung des DQM durch die Führungsebene des Unternehmens, der Bestimmung der Aufgaben des DQM in der DQM-Richtlinie und der Ernennung der Perso-
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
361
Abb. 21.5 Checkliste für eine DQM-Policy
nen, welche die initialen Rollen besetzen, beginnt die DQM-Arbeit mit der Feststellung der von DQ-Mängeln betroffenen Architektur-Elemente.
21.2.3 Schritt 2: Für das aktuelle DQ-Projekt relevante Enterprise-Architektur erfassen Um Datenqualitätsmerkmale zu erfassen, muss man die Verteilung der Datenhaltungssysteme in der „Unternehmensarchitektur“ kennen und deren Tabellen, Spalten, Felder. Um Datenqualitätsmängeln auf die Spur zu kommen, muss man außerdem die Software- Komponenten, die auf diese Datenhaltungssysteme zugreifen, kennen. Aber auch Hardware-Komponenten, Netze, Haustechnik, Produktionsanlagen, Logistische Anlagen etc. können die Ursachen von DQ-Mängeln sein. Deshalb ist auch eine Erfassung der Zuordnung der Rechner, Netzkomponenten etc. zu den Softwarekomponenten erforderlich. Wenn das Unternehmen keine Erfassung der Unternehmensgegenstände – Datenhaltung, Software, Hardware pflegt, ist das DQM-Team einem Ratespiel ausgesetzt: „Wer könnte wissen, welche Software-Komponenten an der Qualitätsreduktion beteiligt sein könnte?“, „Wer weiß, wen man dazu befragen könnte?“, „Wer weiß, wer das EXCEL- Sheet xyz verfasst hat?“. Effizienter ist die Pflege einer Konfigurationsdatenbank, CMDB, entsprechend der Empfehlung aus ITIL (Ebel) mithilfe eines Konfigurationsmanagementsystem, CMS. Eine CMDB ist mehr als eine Registratur der IT-Objekte, das leistet schon ein Asset Management System. In der CMDB werden zusammen mit den IT-Objekten auch die wechselseitigen Beziehungen der IT-Komponenten, die Versionen
362
R. Höhn
und Varianten und ihre Änderungshistorie erfasst. Damit wird eine Auswirkungsanalyse oder Impact-Analysis, von Änderungen (Changes) bei unerwünschten Zuständen, sogenannte Incidents, ermöglicht. DQ-Mängel sind Incidents im Sinne von ITIL. Last but not least, sind die Ursachen von DQ-Mängeln in den Geschäftsprozessen, in der Qualifikation des Personals, in der fehlerhaften Ausstattung mit Betriebsmitteln zu finden. Das DQM-Team muss, um die Fehler beseitigen zu können, wissen, in welchem Ausschnitt der Unternehmensarchitektur die Ursache zu suchen ist. Das weithin bekannte The Open Group Architecture Framework, TOGAF, Ergebnis der Zusammenarbeit prominenter IT-Unternehmen, z. B. Oracle, IBM, Microsoft, SAP, liefert eine IT-Taxonomie für die Bezeichnung von Architektur-Elementen zu Organisation, Datenhaltung, Software und Hardware. Für den Prozess der Dokumentation der Unternehmensarchitektur wird ein Vorgehensmodell namens Architecture Development Method, ADM vorgeschlagen. Für die Verwaltung der Architektur-Komponenten der gesamten Organisation wird ein Datenbank-Modell vorgeschlagen, dass Software-Hersteller als Spezifikation für ein Enterprise Architecture Management System, EAMS, verwenden. TOGAF empfiehlt alle Veränderungen an der Enterprise-Architektur über eine Rolle Enterprise-Architect, EA, zu steuern. Einige Unternehmen räumen dem EA ein Veto-Recht für alle Entwicklungsprojekte ein. Der EA und seine Domänenexperten müssen zu jeder Anforderung einer Architektur-Änderung prüfen, ob der betroffene Architektur-Ausschnitt so gut dokumentiert ist, dass daraus die Auswirkungen einer Änderung auf andere Architektur-Komponenten beurteilt werden können. TOGAF ist keiner Branche oder Behörde verpflichtet. In der folgenden Grafik sind die TOGAF-views dargestellt, die Themen, die in einer Dokumentation der Unternehmens- Architektur beschrieben werden sollen (Abb. 21.6). Für die Methoden der Beschreibung macht TOGAF Vorschläge, wie z. B. zu der view „Logische Datenkomponenten“ in der Gruppe „Daten“ UML-Klassendiagramme oder ERM. Es ist offensichtlich, wenn sich ein Unternehmen für ein Framework entschieden hat, dann muss auch das DQM-Team seine Daten-Dokumentation den Regeln des Frameworks entsprechend, konform halten. Das umfasst die drei Daten-Views. Sind die Dokumente der Daten-Views nicht EAF-konform, oder noch nicht vorhanden, muss nachdokumentiert werden. Der DQ-Manager hat hier im Verbund mit dem EAM ein Veto-Recht zur Projektfreigabe, sodass immer ein aktueller Dokumentations-Status der Daten-Architektur- Wirklichkeit entspricht. Den meisten Unternehmen dauert das zu lange und sie iterieren sich lieber zu einer neuen Architektur. Anmerkung: Andere verbreitete Standards, mit Vorgaben an die Dokumentationsstruktur über den System-Lebenszyklus sind der bei IBM entstandene „Urtyp“, die Zachmann Informationssysteme Architektur, ZISA, die vielen anderen Architekturframeworks als Blaupause gedient hat, das Federal Enterprise Architecture Framework, FEAF, der ameri kanischen Behörden, das European Interoperability Framework, EIF, und das NATO-Architektur Framework, NAF. Eine mit viel Fleiß zusammengetragene Übersicht von mehr als 50 Frameworks gibt es in (Mathes). In allen genannten Frameworks ist eine Architektur-Sicht, (auch Perspektive, Viewpoint oder View genannt) für „Daten“ enthalten.
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
363
Abb. 21.6 Beschreibungssichten einer Unternehmens-Architektur nach dem Vorschlag von TOGAF 9.0
Es haben sich auch einige Technische Normen etabliert, die präzisieren was unter Unternehmensarchitektur oder Enterprise-Architecture zu verstehen ist, z. B. ISO42010, oder für Modellierung und Dokumentation Symbole und Regeln, beispielhaft erwähnt, die ISO26262, ISO19505, ISO19510, ISO19759. Normen und Standards werden in den sogenannten „agilen Konzepten“, Scrum, ScrumBan, Crystal, XTrem Programming, ignoriert. Für die Erschließung der Unternehmensarchitektur ist, dem TOGAF-Modell entsprechend eine Reihenfolge zu empfehlen: Aktivität 2.1 Erfassen der Betriebswirtschaftlichen Architektur • Prozesse, Prozessmodell mit Informationen, Rollen, Organisationsstruktur • Org-Einheiten, Teams, Rollen, Befugnisse, Berechtigungen, DQ-Aufgaben, • Verstehen der Anforderungen und Nutzen von Kunden und Anwendern, Arbeitsplatztypenanalyse, • Oder Informationsbedarfsanalyse: Inhalte, Präsentation der Inhalte, Formate, Quellen Aktivität 2.2: Erfassen der Datenarchitektur • Daten-Spezifikationen, Datenmodelle, Semantik, Trigger, DB-Procedures, Alerter, Schwellenwerte, Konsistenzbeziehungen, Mapping-Regeln, Wertebereiche, Informa tions-Annotation
364
R. Höhn
• Definieren des Daten-Lifecycle, Informations-, Wissens-Lifecycle, CRUD-Operationen • Interviewform POSMAD-Lifecycle nach McGilfray, Daten-Lebenszyklus nach Redman Aktivität 2.3 Erfassen der Software-Architektur • Software-Domänenmodell, Software-Bebauungsplan Aktivität 2.4 Erfassen der Technologie/Infrastruktur • Lokation und Anlagen, Tools, Netzplan, Komponentenspezifikation Aktivität 2.5 Entwerfen des Daten-Assessment-Plans • Assessment-Methode, Lokationen, Termine, Personen, Systeme, Prozesse, Daten Steht ein Softwareprojekt, ein Software-Change, eine Datenanforderung an, dann müssen vorher die Geschäftsprozesse der betroffenen Unternehmensbereiche kartografiert sein: das Minimum der Geschäftssystem-Dokumentation sind Prozessdiagramme. Die derzeit am weitesten verbreiteten Darstellungsmethoden sind die Programmflussdiagramme, PFD, nach DIN66001, UML-Activity Charts, ARIS-EPK und BPMN. DIN- PFD haben bei Fachanwendern einen hohen Vertrautheitsgrad. BPMN hat seine große Bedeutung durch die Standardisierung der OMG und der Verwendung als Prozessschicht in der Service Oriented Architecture, SOA und der Ausführbarkeit durch Prozess-Server. Die Darstellung eines Prozesses als Ereignisgetriebene Prozesskette, ARIS-EPK, hat seine weite Verbreitung der Verwendung in der SAP-Spezifikation zu verdanken, aber auch dem erstmals eingeführten ARIS-Sichtenkonzept. Das Sichtenkonzept erlaubt die vier Sichten Datensicht, Funktionssicht, Organisationssicht, Steuerungssicht zu einem Prozessmodell zu integrieren. In dem Buch Wirtschaftsinformatik hat (Scheer) bewiesen, dass sein ARIS-Sichtenkonzept eine komplette betriebswirtschaftliche Beschreibung eines Unternehmens leisten kann. Gegenüber BPMN hat eine ARIS-EPK den großen Vorteil, die Prozesssicht mit der Datensicht als ERM zu verknüpfen. Großer Vorteil für das DQM deshalb, weil zu einem Datenqualitätsmangel direkt aus dem Diagramm abgelesen werden kann, welcher Prozessschritt bedroht ist. Außerdem kann an jeden Prozessschritt auch die Organisationssicht angebunden werden, was hilft die vom DQ-Mangel betroffene Rolle, der Anwender, die Organisationseinheit festzustellen (Seidlmeier). Im folgenden Beispiel-Diagramm (Achtung logischer Ablauffehler enthalten) erkennt man, dass jede Sicht in einer Bahn repräsentiert werden kann (Abb. 21.7). Es ist direkt ablesbar, wenn die Daten des Kundenauftrags falsch sind, ist der Prozessschritt „Auftrag erfassen“ gefährdet und betroffen ist die Rolle bzw. die Organisationseinheit „Verkauf“ und der Mitarbeiter „Müller“. Bezüglich der Dokumentation der Daten-Architektur, empfiehlt TOGAF drei Views: die externe Datensicht, unglücklicherweise Entitäten genannt, die logische Datensicht
365
Abb. 21.7 Beispiel eines ARIS-EPK
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
366
R. Höhn
und die interne oder physische Datensicht (Kemper, S. 23). Zur externen Sicht gehört die Beschreibung für den Anwender: Masken, Report-Aufbau, Datenanforderungen. Datenanforderungen sind in den meisten Lehrbüchern zum Requirements-Engineering vernachlässigt, Ausnahme ist das geschätzte Buch von (Robertson, S. 425) und (Rupp, S. 408 ff.). Datenanforderungen werden i. d. Regel in Datenkatalogen beschrieben (Abb. 21.8). Die folgende Abbildung ist eine Empfehlung für einen Datenkatalog. Die Spalten bedeuten: • Begriff akzeptierter Fachbegriff aus einer Definition, Norm, Gesetz, • Feldname Begriff wie er in der Maske angezeigt wird, oder in einem Report als Spaltenname, • DB-Name Eventuell wird vor der Nutzungsfreigabe noch die Referenz zum Attributname im Datenhaltungssystem aufgenommen, • Feldlänge, Datentyp, Format (Audio, Video, Bild, …), • Index (b-Tree, hash, Bitmap), Schlüssel-Eigenschaft (PK, FK), • NULL-Erlaubnis (optional) oder Pflichtfeld (mandatory), • Plausibilitätsregeln, z. B. Syntax, Wertebereich, • Fehlercode, Verweis auf Katalog der Fehlermeldungen, Je nach dem Typ des Datenverwaltungssystems sind weitere Spalten denkbar. Z. B. bei Data Warehouse-Systemen sind noch Angaben zur Berechnung von Kennzahlen, zu Aggregationsvorschriften, Additivität, Update-Regeln wichtig. Bei Data Minining Anwendungen gehören Präsentationselemente, Art der Grafik, Symbol-Bibliotheken, Färbungen, Hervorhebungen, Lineaturen zu den Anwenderanforderungen (Hichert), (Stapelkamp), (Munzner). Auf der semantisch höheren Ebene der Wissensmanagementsysteme sind Angaben zur Darstellung von Regeln, Verlinkungen, Annotationen, Korrelationen erwünscht (Daconta).
Abb. 21.8 Wichtigste Spalten des Datenkataloges
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
367
Abb. 21.9 Anforderungssyntax in (Höhn 2019) in Anlehnung an (Rupp)
Auch funktionale Anforderungen stehen im Interesse des DQM-Teams. Das folgende Beispiel einer funktionalen Anforderung folgt der sehr nützlichen Syntax-Empfehlung von (Rupp, S. 219). Es macht deutlich, dass schon in einer einzigen funktionalen Anforderung sehr viele Datenelemente angesprochen werden (Abb. 21.9). Alle in der funktionalen Anforderung auftauchenden Datenelemente sollten im Datenkatalog erfasst werden. Damit ist naheliegend, dass auch pro Datenelement ein oder mehrere Daten-Quali tätsmerkmale zu erfassen sind. Der Sinn sorgfältiger Anforderungserhebung ist die Vermeidung von Missverständnissen durch Interpretationsspielräume, Vagheiten oder Ambiguitäten genannt. Einige Produkte, besonders aus dem Bereich Web-Anwendungen, können sich Vagheiten leisten und diese auch auf dem Wege mehrerer Iterationen zu beseitigen. Andere Anwendungen, z. B. Buchhaltungssysteme, Steuerungssysteme für Fahrzeuge, dürfen sich den Luxus mangelnder Präzision von Anforderungen nicht erlauben. Wer Lust hat, kann sich in der als Buch erschienenen Dissertation von (Kamsties) von der Schwierigkeit Vagheiten aus Anforderungen herauszuhalten, überzeugen. Der dort erfasste linguistische Aufwand kann allerdings in der Praxis nicht betrieben werden, aber die vorgestellte Anforderungssyntax von (Rupp) und der Datenkatalog sind mit wenig Mühe praktizierbar. Die Schwierigkeit liegt aber nicht nur in der einzelnen Anforderung, sondern im konsistenten Verbund aller Anforderungen eines Lastenheftes. Ein mit einer Anforderung festgelegter oder zu definierender Begriff, z. B. der Name des Datenelementes, muss auch in allen anderen Anforderungen mit genau dieser Definition verwendet werden. Selbst wenn man den hier vorgestellten Empfehlungen zur Präzisierung von Spezifikationen von Anforderungen, um DQ-Fehler zu vermeiden, folgt, gibt es immer noch genug Missverständnisse. Wer glaubt, dass man sich mit einer Minimalsyntax von User Storys (Cohn) zu einer einheitlichen konsistenten Bedeutung der Datenelemente hiniterieren kann, der induziert Datenqualitätsmängel.
368
R. Höhn
Weitere Hinweise in diesem Buch zur Gestaltung von Schritt 2 des DQM-Prozesses: (Hildebrand, Kap. 15) und die Normen ISO42010, ISO26262, ISO19505, ISO19510, ISO19759, ISO29148, TOGAF. Wenn die von DQ-Mängeln betroffenen Architektur-Elemente erkannt sind, das entspricht analog der Impact-Analysis von ITIL, wird die Abweichung der Datenelemente von der DQ-Vorgabe durch Messung ermittelt.
21.2.4 Schritt 3: Qualität der Daten entsprechend der DQ-Merkmale erfassen Datenqualität ist nicht nur ein Bedürfnis der Anwender. In Gesetzbüchern GmbH-Gesetz, Sarbanes Oxley Act, Sozialgesetzbücher 1–13, Datenschutz Grundverordnung, sind Vorgaben an Datenqualität gemacht, mit besonderem Bezug zu Transparenz (Korrektheit, Objektivität, Glaubwürdigkeit, Relevanz, Aktualität, …) und Datensicherheit (Datenschutz, Identitätsschutz, Zugriffsschutz, …). Datenqualität ist damit auf die Anforderungsebene der Compliance gehoben. Voraussetzung der Erfassung der Datenqualität, ist ein homogener definierter Satz an Datenqualitätsmerkmalen mit Messvorschriften, und Bewertungsmaßstab der Qualität. Datenqualitätsmerkmale sind auch in den Normenreihen ISO25012 und ISO8000 vorgeschlagen. Die Merkmale wurden im Buch bereits ausführlich beschrieben (Hildebrand, Kap. 2 und 3). Auch in anderen renommierten Quellen sind nützlich reflektierte Empfehlungen (Batini), (Sadiq), Wang). So sehr eine Unternehmens-übergreifend einheitliche Definition zu empfehlen ist, so schwer ist eine unternehmensweit einheitliche Interpretation zu erreichen und eine homogene Anwendung umzusetzen. Es ist deshalb sehr zu empfehlen, die Definition und Interpretation der DQ-Merkmale in gemeinsamen Arbeitsgruppen zu erarbeiten. Vorbereitende Aktivität: Definition der Datenqualitätsmerkmale mit Anwendungsbeispielen in der DQM-Richtlinie. Voraussetzung für die Prüfung der Datenqualität sind Vereinbarungen des DQM-Teams mit den Anwendern, welche DQ-Merkmale berücksichtigt werden sollen, wie diese definiert sind und wie sie anzuwenden sind. Um ein gemeinsames Verständnis zu den einzelnen Datenqualitätsmerkmalen in der Organisation zu fördern, ist die Erstellung von DQ-Charakteristiken in Form eines DQ-Merkmale-Steckbrief zu empfehlen (Abb. 21.10). Die folgende Grafik gibt einen formalen Vorschlag für die Beschreibung eines DQ-Merkmales, am Beispiel des DQ-Merkmales „Zeitnähe“. Ein paar Hinweise zu Anwendung der Attribute zu dem Datenqualitätsmerkmale- Steckbrief: Qualitätsmerkmal: unternehmensweit eindeutiger Name, eventuell erlaubte Synonyme Definition: widerspruchsfreie, zirkelfreie, gleichbedeutende Aussage (Definiens), für die der Begriff (Definiendum) steht, Verwendung von definierten Begriffen
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
369
Abb. 21.10 Datenqualitätsmerkmale-Steckbrief für das DQ-Merkmal „Zeitnähe“
Erklärung:
Messziel: Indikator: Messobjekt: Messaufgabe: Messgröße: Skala 1: Skala 2:
Skala 3:
Messungen:
Beispiele zur Anwendung, Beispiele zur Abgrenzung gegenüber anderen DQ-Merkmalen, Hinweise auf Verwechselungsmöglichkeiten, eventuell weitere Aufteilung in Teilmerkmale Freigabe erreichen, Genehmigung erhalten, Meldepflicht erfüllen, verhindern, dass ein Prozess stoppt, Frühwarnsignal erhalten beobachtbare Eigenschaft, messbare und interpretierbare Beob achtung Gegenstand der beobachtet bzw. gemessen wird Handlungsanleitung zur Messung am Gegenstand, Verwendung eines vorgeschriebenen Messwerkzeugs messbare Größe, die der beobachteten Eigenschaft entspricht Einheiten und möglichen Ausprägungen der Größe Sekundärskala, z. B. Gruppen von Skalenabschnitten, im Beispiel ist die Likert-Skala angegeben mit den 0 = egal, ++ = alles Bestens, -- = unerwünscht, Aggregationen Handlungsempfehlungen: bis Wert X1 dulden, wenn Wert größer als X1 und kleiner X2 moderat handeln, bei Überschreitung des Wertes X2 schnell handeln Position der Daten im Verarbeitungs-Lebenslauf, Ebene der Daten in der BIS-Architektur, CRUD-Operation, FIP-Schema nach Redman (siehe weiter unten Aktivität 5.1)
Anmerkung zur Erklärung zur Interpretation, Hinweis auf Verwechselbarkeiten mit anderen Merkmalen: Nicht alle Datenqualitätsmerkmale sind für alle Datenkategorien
370
R. Höhn
gleich bedeutsam. Auch innerhalb einer Datenkategorie gibt es bezogen auf die dort einzuordnenden Attribute immer noch unterschiedliche Notwendigkeiten. Eine Differenzierungshilfe für Datenkategorien sind die semantischen Stufen, in (Schreyögg, S. 6) Informationsstufen genannt, und später von (North, S. 37) zur Wissenstreppe erweitert. Mit jeder semantischen Anreicherung kommen zu den Daten Informationen über die Bedeutung der Daten, sogenannte Annotationen, hinzu. Das folgende Beispiel ist eine eigene Darstellung in Anlehnung an die Informationsstufen, mit eigenen beispielhaften Ergänzungen (Abb. 21.11). Da Annotationen wieder Daten sind, genauer Metadaten, müssen weitere zu prüfende Daten-Qualitätsmerkmale aufgenommen werden: • auf der Stufe der Daten bezieht sich die DQ-Prüfung auf die Inhalte, • auf der Stufe der Information sind zusätzlich die Annotationen zum Kontext, die Kontextdaten, der DQ-Prüfung zu unterziehen, z. B. Metadaten wie Spaltenname in Tabellen, Dokumentnamen, Schlüsselreferenzen, etc., • auf der Stufe des Wissens sind es Verlinkungsdaten, Regeln, logische Bezüge, in die DQ-Prüfung einzubeziehen sind.
Abb. 21.11 Semantischen Stufen Anlehnung an Rehäuser
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
371
Auf der Semantischen Stufe „Wissen“ können noch mehrere Bedeutungsstufen differenziert werden. Diese Arten der feiner abgestuften semantischen Anreicherung hat (Daconta, S. 157) übersichtlich dargestellt und zwar aufsteigend nach der Stärke des semantischen Gehaltes sortiert (Abb. 21.12). Ohne hier weiter in die Tiefe gehen zu können, wird deutlich, das DQM auf allen semantischen Ebenen unterschiedliche DQ-Merkmale erfordert. Für das DQM bedeutet dies, dass Datenqualität besonders bei Lösungen aus Wissensmanagement und Data Mining, nicht auf den Inhalt der Datenfelder eingeschränkt werden kann. Das bedeutet außerdem, dass das DQM-Team befähigt werden muss, auch auf den höheren semantischen Ebenen Datenqualität prüfen zu können. Hinzu kommt ein drittes Anforderungselement, der Qualitätsbedarf des Anwenders. Bezüglich des gleichen Attributes können die unterschiedlichen Anwender unterschiedliche Bedarfe anmelden. Diese triadische Beziehung der Datenqualitätsanforderung ist in einer Grafik aus (Batini, S. 177), gut dargestellt. Sie wurde hier um den Eintrag unterschiedlicher Anwender mit unterschiedlichen Ansprüchen ergänzt (Abb. 21.13). Bezüglich des Attributes „Währungsdaten“ hat der Anwender „Controller“ ein besonderes Interesse am DQ-Merkmal „Aktualität“, mit einer Ausprägung von „monatlich“. Der Projektleiter ist bezüglich des gleichen Attributes mit einer Aktualität „wöchentlich“ zufriedengestellt. Das bedeutet allgemein, es ist nicht einfach mit der Zuordnung von Datenqualitätsmerkmalen zu Daten getan, sondern je nach Anwendung ist ein anderer Anspruch sicherzustellen. Was dem einen Anwender mit zu viel Genauigkeit die Arbeit erschwert, hat bei einem anderen Anwender, bei zu wenig Genauigkeit, das Verhindern seiner Arbeit zur Folge.
Abb. 21.12 Semantischen Stufen (Daconta, S. 157)
372
R. Höhn
Abb. 21.13 Die Triade des Datenqualitätsbedarfes (Batini) mit eigenen Ergänzungen
Das Beispiel macht auch deutlich, dass es nicht genügt zu einer funktionalen Anforderung eine Datenanforderung aufzunehmen, sondern – das ist ein phänomenologischer Unterschied zwischen Funktion und Qualität – zu einem Datenqualitätsmerkmal ist auch ein Akzeptanzbereich von Messwerten zu erfassen. Funktionen sind binär, verfügbar oder nicht, Qualitäten sind skaliert vorhanden. Die Zuordnung kann man unternehmensweit durch eine allgemeinere Regelung, welche Datenkategorien grundsätzlich mit welchem DQ-Merkmal zu begleiten sind, erleichtern. Das hat den Vorteil, dass eine Qualitätssicherung schon bei der Anforderungser hebung prüfen kann, ob die Daten der Datenkategorien schon mit empfohlenen DQ-Merkmalen und schon mit einem Akzeptanz-Wertebereich berücksichtigt wurden. Fehlen diese QS-Angaben, muss eine für die Qualitätssicherung nachvollziehbare Begründung angegeben sein. Andernfalls wird die Anforderung, der Anforderungskatalog, das Fachkonzept nicht freigegeben. Eine entsprechende Disziplin darf man übrigens auch für User Stories fordern. Die folgende Tabelle „Datenkategorien-DQ-Merkmale Zuordnung“ ist nur als Beispiel für eine solche Pauschal-Regel zu verstehen, als Anregung, nicht alle DQ-Merkmale über alle Attribute zu legen. Zudem dient sie dazu, mit den Anwendern die minimale Notwendigkeit der Ausprägung abzustimmen. Als Kriterium dient die Angabe wenigstens einer Konsequenz pro Attribut, die bei einem Qualitätsmangel eines DQ-Merkmales droht. Es ist denkbar der Tabelle eine 3. Dimension Anwendergruppe zuzufügen. Beispiel: In der ersten Zeile steht die Datenkategorie „Stammdaten“. In den Spalten stehen wichtige DQ-Merkmale. Die rot angekreuzten Felder sagen aus, alle Stammdaten
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
373
sollten grundsätzlich auf Korrektheit und Aktualität geprüft werden (Pflicht). Die schwarz angekreuzten Felder empfehlen noch die DQ-Merkmale Mehrwertbezug und Vollständigkeit (Abb. 21.14). Folgende Aktivitäten sind für die Anwendung von DQ-Merkmalen und das DQ- Assessment empfohlen: Aktivität 3.1 Prüfen der Daten Spezifikationen (Meta-Daten Qualität) • Datenmodelle, Trigger, DB-Procedures, DB-Rules, Business Rules, DB-Verteilung Aktivität 3.2 Prüfen der Daten Integrität • Konsistenz, Schlüsselbeziehungen, • Mapping-Regeln, Konsistenz zwischen Datenbanken, • Synchronisation, Externe Integrität Aktivität 3.3 Prüfen der einzelnen Daten-Qualitätsmerkmale • Prüfen der Glaubhaftigkeit, Objektivität, (Nachvollziehbarkeit, Ableitung) • Prüfen der Daten Akkuratheit (Korrektheit): korrekte Inhalte, Wertebereiche, Semantik, Schwellenwerte, Daten Duplikate (Identitätstreue) • Prüfen von Mehrwert und Relevanz für das Business • Prüfen der Daten Aktualität, Datenverfalls (Decay), Zeitnähe (Timeliness, Availability) • Prüfen der Datenmenge, Granularität (Abdeckung, Coverage)
Abb. 21.14 Datenkategorien-DQ-Merkmale Zuordnung
374
R. Höhn
• Prüfen der Interpretierbarkeit, Verständlichkeit, (Daten Nutzung, Ease of Use, Maintainability) • Prüfen der Darstellungskonsistenz, Darstellungs-Genauigkeit (Präsentationsqualität) • Prüfen der Verfügbarkeit (Daten-Verarbeitung, Transactability) • Prüfen der Zugriffs-Sicherheit und Datenschutz (Perception, Relevance, Trust) Aktivität 3.4 Auswerten der Statistiken Weitere Hinweise in diesem Buch zur Gestaltung von Schritt 3 des DQM-Prozesses: (Hildebrand, Kap. 2, 3–11) und die Normen ISO25012-x, ISO8000-xx. In der Regel werden viele DQ-Mängel erkannt, ohne schon die Ursachen für diese Mängel entdeckt zu haben. Die Behebung der unterschiedlichen Datenqualitätsmängel verursacht mitunter hohe Kosten und Belastungen des Tagesgeschäftes. Deshalb muss eine sorgfältige Priorisierung vor der Einleitung von Behebungsmaßnahmen stehen.
21.2.5 Schritt 4: Auswirkungen von DQ-Mängeln analysieren In vielen Unternehmen hat sich die reaktive Fehlerbehebung etabliert. Sie wollen sich nicht auf die Implementierung eines systematischen DQM-Prozesses einlassen und verzichten auf eine Qualitäts-Systematik mit Qualitätsmerkmalen. Dennoch werden Fehler entdeckt und es muss über die Fehlerbehebung befunden werden. Dazu ist das Risiko der Duldung abzuschätzen und die Maßnahmen zu priorisieren. Ein Datenqualitätsmangel wird nicht geduldet, wenn die wirtschaftlichen Folgen groß sind. Folgende Aktivitäten sind zur Beurteilung und Priorisierung von DQ-Maßnahmen zu empfehlen: Aktivität 4.1 Erfassen der Anekdoten • Anekdotenprotokoll z. B. in Anlehnung an (McGilvray), oder Erfahrungserzählung die als Narrativ dienen kann Aktivität 4.2 Feststellen der Geschäftsprozessauswirkungen schlechter Daten • Bezug der Nutzung zu Unternehmensziele und Strategien • Prozess-Swimlane-Diagramm, BPMN, ARIS-EPK, mit Datenangaben, IUM Aktivität 4.3 Feststellen der Kosten schlechter Datenqualität • Umsatzeinbußen, Risiken, Opportunitätskosten, TCO nach Daten-Ereignissen Aktivität 4.4 Analysieren des Kostens-Nutzens-Portfolios • Vier-Felder Matrix Kosten (niedrig-hoch), Nutzen (hoch-niedrig) • Vier-Felder Matrix Akzeptanz (niedrig-hoch), Risiko (hoch-niedrig)
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
375
• Wenn Daten einen Unternehmenswert (Produkt) darstellen ist Markattraktivitätsportfolio und Informations-Intensitätsportfolio (Porter) und die Matrix-Kombination relevant, z. B. (Pfeifer) • ROI Aktivität 4.5 Priorisieren der Daten-Qualitätsmaßnahmen • Priorisierung von Alternativen, z. B. mit Nutzwertanalyse nach (Zangemeister) Die Unternehmen üben sich oft im Gebrauch von Erzählungen zu Fehlhandlungen, die noch weit in der Vergangenheit liegen. Einige sind lehrreich und können als Metapher für zukünftiges Handeln dienen. Die Idee kommt aus Wissensmanagement-Konzepten (Stories) und wurde von (McGilvray) auf DQM adaptiert und Anekdote genannt. Wenn mit der Erzählung sogar eine Aussage mit Bezug zur Unternehmenskultur transportiert wird, spricht man von einem Narrativ. Die Anekdote leistet mehr als eine formale Richtlinie, die meist nur den betrieblichen Wertebezug darstellt. Sie versucht auch Aspekte der Un ternehmenskultur, Soziallage und Emotionen der Betroffenen, Handlungs-Rationalität widerzuspiegeln. Die Anekdote wird z. B. vom Data Steward mit prosaischen Fähigkeiten per Interview aufgenommen, in einer Wissensdatenbank oder einem Wiki gesammelt, zum Wiederauffinden indiziert und firmenintern publiziert. Das folgende Formular zur Erfassung von Anekdoten (Abb. 21.15) ist die Erweiterung einer Idee von (McGilvray). Dichotome Portfolio-Matrizen sind weithin bekannt. Jedes Betriebswirtschaftslehrbuch stellt die Marktattraktivitätsmatrix, auch Boston Consulting Portfolio Matrix genannt, vor. Die Matrix wird von den zwei Dimensionen Marktanteil und Marktentwicklung aufgespannt, jeweils mit den Ausprägungen hoch-niedrig, was zu einer Vier- Felder-Matrix führt (Welge, S. 477 ff.) oder (Müller-Stewens, S. 284 ff.). Wenn es sich bei der assistierten Datenqualität um Daten zu Produkten handelt, dann wird dasjenige Produkt bevorzugt (priorisiert), dass die höchste Vermarktungschance verspricht. Um IT-Entscheidungen generell zu unterstützen, hat Porter, der Erfinder der Wertkettenanalyse (Porter 1986) eine Informations-Intensitätsmatrix vorgeschlagen. Diese hat eine Dimension der Wertketten-Informationsintensität, damit ist gemeint, wieviel Information/Daten/Wissen ist zur Herstellung eines Produktes erforderlich. Beispiel: Zement – wenig, Baumschule – viel, Zeitung – viel. Die zweite Dimension ist der Informationsgehalt des Produktes für den Anwender. Beispiel: Zement – niedrig, Baumschule – niedrig, Zeitung – hoch. Gärtner und Zementhersteller würden sich eventuell gegen die Einordnung von Porter wehren. In (Hanker) ist vorgeschlagen worden, IT-Maßnahmen generell anhand der Stoßrichtung der Unternehmensinformatik zu priorisieren. Als Beispiel liefert (Hanker, S. 386) 20 typische Stoßrichtungen, die er anhand einer Dimension Ausrichtung, mit den dichotomen Ausprägungen intern-extern einteilt. Für die Portfoliomatrix kommt als zweite Di-
376
R. Höhn
Abb. 21.15 Anekdoten-Formular in Anlehnung an (McGilvray)
mension der Strategie-Schwerpunkt hinzu, mit den Ausprägungen Unternehmensstra tegie und Wettbewerbsstrategie. Für die DQ-Maßnahmen kann eine Zuordnung der Stoßrichtungen über die Datenarchitektur erreicht werden. Beispiel: Setzt die Unternehmensleitung auf Wettbewerbsstrategie und interne Verbesserung, z. B. durch die Stoßrichtung Mitarbeiterkompetenz, dann muss die Datenqualität einen Fokus unter anderem auf die Kompetenzbiografien der Mitarbeiter legen (Abb. 21.16). (Pfeiffer, S. 146) hat in seiner Habilitationsschrift zur IT-Strategie-Konzeption eine Portfolio-Matrizen Kombination, die Verschränkung zweier Portfoliomatrizen zu einer Matrix, vorgeschlagen, um eine Ausgewogenheit zwischen Betriebswirtschaftlicher Sicht und IT-Sicht zu gewinnen, siehe auch (Krüger). Also eine Kombination aus Marktattrakti-
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
377
Abb. 21.16 Informatik-Stoßrichtungen (Hanker)
vitätsmatrix und Informations-Intensitätsmatrix zu einer IT-Strategie-Matrix. Die Kombination oder Verschränkung wird über die Linearisierung, die eindimensionale Anordnung der Matrizenfelder, zu einer zweidimensionalen Portfolio-Matrix erreicht. Die Einzelmatrizen könnten auch aus anderen Paaren von Dimensionen aufgespannt werden, z. B. an den, auch für die Priorisierung von Datenqualitätsmaßnahmen nützlichen Kriterien, Kosten-Nutzen oder Risiko-Akzeptanz. Das Kombinationsverfahren soll an diesen beiden Dimensionspaaren, also an vier Priorisierungskriterien, beispielhaft dargestellt werden (Abb. 21.17). Zur Interpretation der Grafik: Die Kreise in den Matrizenfeldern stehen für Software-Komponenten an denen DQ-Maßnahmen verrichtet werden sollen, zum Beispiel steht „GIS“ für das Projekt „Geografie-Informationssystem aufbauen“: 1. Position in der Kosten-Nutzen-Matrix: Die Kosten der DQ-Maßnahmen sind hoch und der Nutzen ist hoch, weshalb „GIS“ mittelhoch priorisiert, im mittelgrau schraffierten Feld positioniert ist. 2. Position in der Risiko-Akzeptanz-Matrix: Das Risiko der DQ-Maßnahmen ist niedrig und die Akzeptanz ist hoch, weshalb „GIS“ im dunkelgrau schraffierten Feld positioniert ist. 3. Die Linearisierung entlang gleich schraffierter Felder führt zu zwei Skalen mit den Ausprägungen {niedrig, mittel, hoch} 4. Die zwei Skalen werden zu einer neuen Portfoliomatrix Risiko-Nutzen-Matrix zusammengesetzt.
378
R. Höhn
Abb. 21.17 Portfolio-Matrizen Kombination
5. Gleich schraffierte Felder der neuen Matrix verlangen nach gleicher Priorität. Die Namen der Prioritäten heißen bei Pfeiffer IT-Standard-Strategien. Auf die vierte in (Pfeiffer) vorgeschlagene Standard-Strategie, die Moderate, wird hier verzichtet. Für Datenqualitätsmaßnahmen reicht es, von Prioritäten zu sprechen und diese auf die drei Ampelfarben zu reduzieren (rot = handeln, gelb = fallweise entscheiden, grün = dulden). Man kann sich leicht vorstellen, dass auch diese Kombi-Portfolio-Matrix wieder linearisiert werden kann und damit für weitere Kriterien zur Verfügung steht, um höherdimensionale Kriterien-Kombinationen zu bewältigen. Aufwändiger als die Portfolio-Matrizen-Methode ist die Nutzwertanalyse nach (Zangemeister), die einen Alternativen-Vergleich nach einem Kriterien-Satz leistet. Von jedem Stakeholder werden Kriterien eingebracht und diese Kriterien zur Bewertung der Entscheidungsalternativen werden von allen Stakeholdern gemeinsam durch Gewichtung in Beziehung gesetzt. Die Summe aller Gewichte wird auf 100 normiert. Jedem einzelnen Kriterium muss für jede Alternative auf einer normierten Nutzen-Skala ein Wert (0 … 10) zugeordnet werden, der dem Vergleich der Alternativen entspricht. Die Alternative, die ein Kriterium besser erfüllt als eine andere, bekommt den höheren Wert.
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
379
Folgende Schritte werden zu einer Nutzwertanalyse durchlaufen: 1. K.O.-Kriterien definieren, schlechte Alternativen ausschließen, mit nachvollziehbarem Protokoll der Ausschlussentscheidung 2. Auswahlkriterien bestimmen, Protokoll und korrekter Erklärung der Auswahlkriterien, Begründung abgelehnter Kriterien, nach einer Woche Reflexionszeit Feedback einholen, Änderungen verteilen, Rückläufe abwarten, festlegen nächster Termin 3. Auswahlkriterien gewichten, Gewichte der Auswahlkriterien (Qualitäten) festlegen, auf Summe = 100 normieren, Protokollieren der Argumente. Bei Streit, statt Gewichtsfindung im Dialog, die Anzahl betroffenen Aktivitäten im Prozessdiagramm zählen 4. Erfüllungsgrad der einzelnen Alternativen bzgl. jeden Kriteriums ermitteln, Skalen der Qualitäten festlegen, mit Werten von 0 bis 10, Erfüllungsgrad dem Skalenwert zuordnen. 5. Leistungspunkte pro Kriterium und Alternative berechnen, (Nutzenbeitrag) 6. Leistungssummen, der Nutzwert der Alternativen, und Rangfolge der Alternativen ermitteln. 7. Wenn die Nutzwerte zu nahe beieinander liegen (Faustwert 5 %) Sensitivitätsanalyse durchführen, d. h. leichtes Variieren von Gewichten und prüfen ob die Alternativen- Nutzwerte dann klarer voneinander getrennt sind. Im Beispiel wurden fiktiv ermittelt, welche DQ-Merkmale einen Nutzwert für die Alternativen der Verwaltung der DQ-Messungen beitragen. Als Verwaltungsalternativen wurden ausgewählt: • Alternative 1: wichtige Tabellen werden um Spalten für die Mitführung von DQ- Merkmalen ergänzt • Alternative 2: Jeder Tabelle wird eine DQ-Merkmale-Tabelle zugeordnet. • Alternative 3: Jeder Fach-Domäne wird eine DQ-Merkmale-Tabelle zugeordnet. • Alternative 4: Alle DQ-Merkmale werden für alle Spalten einer Datenbank in einer Tabelle gepflegt. Im folgenden Beispiel wird die Nutzwert-Einschätzung fiktiv auf die Annotations- Varianten aus dem folgenden Schritt 5 der DQ-Merkmale-Messungen angewendet (Abb. 21.18). Es wird also unterstellt, dass die DQ-Merkmale unterschiedlich verwaltet werden können. Die Kriterien sind also die DQ-Merkmale selbst und die Stakeholder sind die bevorzugten Interessenten am jeweiligen DQ-Merkmal. Beispiel: die Diskussion der Stakeholder „Nutzer“ hat ergeben, dass sie die „Korrektheit“ lieber direkt in der betroffenen Tabelle mitpflegen möchten (8 Punkte auf der Skala von 1–10), die „Aktualität“ aber lieber in einer zentralen Tabelle für die ganze Datenbank wünschen (höchster Skalenwert der Zeile). Die Priorisierung sollte, wie bei der NWA sichtbar, alle Stakeholder-Gruppen einbeziehen, um weitgehende Unterstützung bei der Umsetzung der DQ-Maßnahmen zu erreichen. Da nicht alle Betroffenen gleichzeitig berücksichtigt werden, müssen Vertreter von Stakeholder- Gruppen ernannt werden. Bei beiden Verfahren, Portfolio-Methode und
Abb. 21.18 Nutzwertanalyse nach (Zangemeister)
380 R. Höhn
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
381
Nutzwertanalyse, handelt es sich also nicht nur um rein technische Methoden, sondern auch um einen höchst sensiblen sozialen Akt. Denn, mit der Höher-Priorisierung eines Kriteriums, fühlen sich unmittelbar die Vertreter eines anderen Kriteriums herabgesetzt. Wird z. B. die Gewichtung einer Maßnahme als Risiko-arm eingeschätzt, kann der für die Verfügbarkeit zuständige System-Administrator seine Arbeitsleistung als nicht genügend gewürdigt erleiden. Je nachdem was alles an Unternehmensrealität in die Kriterien projiziert wird, ist ein Moderator mit starken Mediationsfähigkeiten gefordert, in der Regel ist das der DQM-Teamleiter. Weitere Hinweise in diesem Buch zur Gestaltung von Schritt 4 des DQM-Prozesses: (Hildebrand, Kap. 12, 14, 24) und die Normen ISO 31000, ISO 31010. Auf der Basis der umsichtigen, alle Stakeholder beteiligenden Priorisierung, besonders der Einschätzung der Belastungen der operativen Prozesse, kann die Beseitigung der DQ-Mängel und der Ursachen der DQ-Mängel angegangen werden.
21.2.6 Schritt 5: Ursachen der DQ-Mängel beseitigen Um die Ursachen der DQ-Mängel herauszufinden, kann man sich zunächst auf einen Architekturausschnitt konzentrieren, deshalb ist Schritt 2 so wichtig. Die Reihenfolge muss meistens rückwärts im Lebenslauf der Verarbeitung durchlaufen werden. Der Start liegt bei derjenigen Daten-Komponente, in der der DQ-Mangel erhoben wurde. Wenn z. B. eine Bilanz fehlerhaft ist, muss der Verarbeitungsweg zurückverfolgt werden, bis zur einzelnen Transaktion im Buchhaltungssystem und eventuell sogar noch weiter, zu externen Systemen, die Referenzdaten geliefert haben, wie z. B. eine Währungsumrechnung. (Redman) nennt das Tracking. Die Mitführung der begleitenden Informationen zur Verarbeitung, die Functions of Information Processing, (FIP) nennt er FIP-Schema. In demselben Sinne nützlich, aber begrenzt auf die Darstellung der Verarbeitungsschritte zwischen Operativen Datenhaltungssystemen und Data Warehouse, ist das ETL-Prozessdiagramm (Kimball 2004). Für einen Data Mining Prozess sind die Verarbeitungsschritte im CRISP-Handbuch (CRISP) umfassend dargelegt. Folgende Aktivitäten sind zur Beseitigung der DQ-Mängel zu empfehlen: Aktivität 5.1 Aufdecken der Verarbeitungsspur der Hauptfälle • Redmans Tracking-Schema mit FIP-Schema nach Redman • ETL-Schema und ETL-Workflow-Grafik Aktivität 5.2 Feststellen der Ursachen und Auswirkungen • Ursache-Wirkungsdiagramm zu den priorisierten DQ-Mängeln Aktivität 5.3 Aufstellen des Verbesserungsplans • Annotation der Datengüte, z. B. Empfehlung aus (Batini) • Fehlerbaum-Analyse nach (Leser) mit Maßnahmen
382
R. Höhn
• Organisatorische DQ-Maßnahmen einleiten: DQ-Rollen benennen, instruieren, schulen, Verantwortlichkeiten für die Früherkennung ernennen • Einrichten von Kontrollen, Frühwarnindikatoren in DQ-Tools und Monitoring Aktivität 5.4 Aufstellen des Kommunikationsplan und berichten der DQ-Maßnahmen • Kontrollen und Monitoring-Ergebnisse kommunizieren Aktivität 5.5 Beheben aktueller Fehler und kommunizieren der Fehlerbehebung Im folgenden Bild ist das FIP-Schema kombiniert mit dem Tracking-Schema von (Redman) dargestellt. In den Spalten sind die relevanten Verarbeitungsschritte mit ihrem Ergebnis erfasst, dem Attribut-Wert nach der Verarbeitung. Wenn ein Fehler erkannt wurde, ist der Attributwert fett hervorgehoben. Im folgenden Beispiel aus der Buchhandlung werden 6 Attribute über 3 Verarbeitungsschritte verfolgt und als FIP-Schema dargestellt (Abb. 21.19). (Redman) empfiehlt die folgenden Verarbeitungsfunktionen (FIP = Function of Information Processing) zu verwenden:
Abb. 21.19 Fehler-Tracking kombiniert mit dem FIP-Schema nach (Redman)
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
• • • • • • • • •
383
Verbinden (associate), Normalisieren, Denormalisieren Filtern, Ersetzen (filter), Auswählen Start-Stop (prompt), Trigger-Information des Starts, Stopp-Regel Warten (delay) Verzweigen (regulate), Parallelisieren, Verteilen auf Rechnereinheiten Speichern (store), Eingeben, Ablegen Senden (transmit), ISO/OSI-Verpacken, Verschlüsseln Aggregieren, Summieren, Kennzahlen berechnen Formatieren, Format transformieren, Aufrunden, Abrunden
Eine weitverbreitete Methode zur Ursachenfindung kommt aus der Six-Sigma Welt, z. B. (Juran), das Ursache-Wirkungsdiagramm, auch Fishbone-Diagramm oder nach dem Namen des Erfinders Ishikawa-Diagramm genannt (Abb. 21.20). In dem Vorschlag von Ishikawa werden 7 Ursachengruppen zur Analyse von Komponenten empfohlen, hier aus (Zollonds, S. 118), eine Ebene tiefer für DQM gegliedert: Man könnte allerdings die kategorielle Sichtweise der 7M auch durch eine prozessuale Sichtweise ersetzen. Das heißt, die Datenverarbeitungsschritte in der Folge des Prozesses von links nach rechts aufführen und zu jedem Prozessschritt die Ursachenkategorien zu erfassen. Abweichend vom FIP-Schema werden auch die manuellen Arbeitsschritte erfasst, was sehr zu empfehlen ist. Die Rolle Qualitätssicherung der Softwareentwicklung setzt Zeitpunkte (Milestone, Checkpoint, Quality -Gate) zur Freigabe von Folgeaktivitäten in einem V-Vorgehensmodell fest. Ein Vorschlag zur Fehlervermeidung, ist, zu diesen Zeitpunkten auch die Daten und
Abb. 21.20 Ursachengruppen des Ishikawa-Diagrammes
384
R. Höhn
Abb. 21.21 Fehlerbaum aus (Leser, S. 319)
Datenstrukturen auf Fehlermöglichkeiten zu prüfen. Hier ist die Systematik häufig vorkommender Datenfehler in (Leser, S. 319) sehr nützlich (Abb. 21.21). Besonderes Augenmerk verdient der Wechsel von Datenstrukturen, Änderungen des Datenschemas. Das ist der Fall, wenn der Lebenszyklus die Ebenen eines Business Intelligence Systems umfasst, dann werden Datenstruktur-Änderungen erforderlich. Ein Beispiel hierfür sind Buchungsvorgänge, die als operative Daten in einer Relationalen Datenbank gehalten werden, anschließend in flache Tabellen mittels ETL-Tools extrahiert werden und danach in ein Starschema des OLAP-Systems transformiert werden, eventuell eine weitere Transformation in ein Reporting-Schema erfahren. Jedem Schritt liegt ein Mapping zwischen Struktur vorher zu Struktur nachher zugrunde. Und jedes Mapping ist Quelle für Fehler. Hier hilft eine Schema-Mapping-Systematik (Leser, S. 135), Fehler aus schlechtem Mapping zu erkennen. Anmerkung: Hinzu kommen Fehlerquellen für die semantische Ebene „Wissen“, wie Fehler im Annotieren, falsche Taxonomie-Ebenen (Wissens- Schemaebene) einrichten, Inhalt der falschen Taxonomie-Ebene (Wissens- Datenebene) zuordnen, Link zwischen Informationen (Wissens-Datenebene) falsch setzen, falschen Link-Typ verwenden (Wissens-Schemaebene). Für die kritischen Daten empfiehlt (Batini, S. 54) eine Datenqualitätsmerkmale- Annotation der Spalten der Tabellen. Dazu wird zu jedem Attribut das vom Anwender dringlich erwünschte Datenqualitätsmerkmal als Ergänzungsspalte in der Tabelle selbst mitgeführt und der Datenqualitätsmesswert zu dem gemessenen Attributwert eingetragen. Ein Beispiel zeigt Variante 1 in der Abbildung unten. Diese Variante hat den Nachteil, wenn sich der Anwender für weitere Qualitätsmerkmale entscheidet, im Nachhinein alle bestehenden Tabellen anpassen zu müssen. Ein weiterer Nachteil ist, dass die Historie der Messungen nicht mitgeführt wird, sondern immer nur der letzte Messwert eingetragen ist (Abb. 21.22).
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
385
Abb. 21.22 Varianten 1 und 2 der DQ-Annotation der Tabellen
Variante 2 lagert die DQ-Attribute in eine eigene Tabelle pro DB-Tabelle aus. Das erhöht die Anzahl der Tabellen einer DB auf maximal die doppelte Anzahl. Wenn sich der Anwender für weitere Qualitätsmerkmale entscheidet, müssen „nur“ die DQ-Merkmal- Tabellen angepasst werden. Mit der Variante 3 hat immer noch jede Tabelle eine DQ-Merkmale-Tabelle zugeordnet. Diese hat aber nicht mehr für jedes DQ-Merkmal eine eigene Spalte. Es gibt stattdessen eine Spalte für den Wert einer DQ-Merkmale-Messung eines DB-Feldes und eine Spalte mit einer Kennzeichnung, für welches DQ-Merkmal der Wert der Messung steht. Der Vorteil ist, mit jedem neuen Merkmal, dass zu einer Spalte der DB-Tabelle mitgeführt werden soll, sind nur neue Zeilen in die DQ-Merkmale-Tabelle aufzunehmen. Die Variante 4 führt alle DQ-Merkmale-Tabellen in einer einzigen Tabelle zusammen (Abb. 21.23). Deshalb hat sie eine weitere Spalte gegenüber Variante 3, zur Identifizierung einer Tabelle. Ein DQ-Wert ist jetzt mit Tabellen-ID, Spalten-ID und DQ-Merkmal- Kennzeichen zu identifizieren. Beispiel: in der Variante 4 findet man in der vierten Zeile der Spalte „Tabelle“ den Verweis auf Tabelle 1 und deren Spalte 5. Die Variante 5 ist die flexibelste Variante, da jederzeit neue Merkmale aufgenommen werden können ohne die Tabellenstruktur anpassen zu müssen. Ein neues Merkmal ist einfach eine neue Zeile mit ihrer Verknüpfung zu der betroffenen Tabelle. Aber, Variante 5 hat die längste Antwortzeit bei DQ-Auswertungen zu verbuchen (Abb. 21.24). Anmerkung zur Historie der DQ-Merkmale-Messwerte: Zu den aktuellen Attributwerten wird üblicherweise die Historie der Attributwerte in eigenen Tabellen gepflegt. Damit sind DQ-Merkmale-Messungen sowohl in der aktuellen Tabelle zu pflegen und auch für die historischen Attributwerte in der Historientabelle abzulegen. In der aktuellen Tabelle liegt immer ein 1:1-Verhältnis von Attributwert zu DQ-Merkmale-Wert vor, da eine Änderung der Datenqualität eines DQ-Merkmales immer auch eine Änderung des Attributwertes bedingt und umgekehrt. Der Attributwert vor der Änderung wird zusammen mit seinem DQ-Wert in der historischen Tabelle eingetragen.
386
R. Höhn
Abb. 21.23 Varianten 3 und 4 der DQ-Annotation der Tabellen
Abb. 21.24 Variante 5 der DQ-Annotation der Tabellen
Wenn die am DQ-Mangel beteiligten Software-Komponenten ausgemacht sind, kann entweder über die installierten Berechtigungskonzepte oder über das EA-Managementsystem oder über die Prozesskarten des Unternehmensbereiches ermittelt werden, wer von Korrekturmaßnahmen betroffen ist. Zur terminlichen Abstimmung der umzusetzenden Maßnahmen mit den Betroffenen ist ein Kommunikationsplan aufzustellen. Der Kommunikationsplan dient ebenso zur Unterrichtung der Betroffenen über den Fortschritt der Korrekturmaßnahmen bis zum Abschluss und der Freigabe. Im folgenden Beispiel eines Kommunikationsplanes wurde eine eher seltene Matrixform gewählt mit beteiligten Rollen als Spalten und zu kommunizierende Themen als Zeilen. In den Feldern stehen Angaben zur Kommunikationsform.
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
387
Die grau angelegten Felder weisen auf die Autorenrolle hin. So ist z. B. der Verfasser des Fehlerbehebungsprotokolls der „DQ-Steward“. • Felder: Kommunikationsmedium, z. B. in der vierten Zeile zu dem Kommunikationsthema „exemplarische Fehlerbehebung“ wird vom DQ-Steward ein „Protokoll“ erstellt, • Felder: Kommunikationsform, z. B. per E-Mail versenden an die Leitung des betroffenen Fachbereichs, den zuständigen Software-Entwickler und die betroffenen Anwender, • Felder: Periodizität, z. B. e = ereignisbezogen. Der hier vorgeschlagene Kommunikationsplan kann auch linearisiert in einem Issue- Tracker oder Trouble-Ticket-System, wie z. B. das derzeit sehr beliebte Jira, abgebildet werden (Abb. 21.25). Weitere Hinweise in diesem Buch zur Gestaltung von Schritt 5 des DQM-Prozesses: (Hildebrand, Kap. 14) und die Bücher (Leser), (Date), (Kemper). Einige Qualitätsursachen können schon im Entwicklungsprojekt der Software verhindert werden. Je später ein Fehler oder DQ-Mangel im Lifecycle einer IT-Lösung entdeckt wird, desto teurer werden die Fehlerbehebungsmaßnahmen. Es sollte deshalb angestrebt werden, schon in der Anforderungserhebung sehr vollständig die Datenqualität aufzunehmen. Besser noch, ist es den gesamten Lifecycle einer Enterprise-Architektur-Komponente mit DQM zu begleiten.
Abb. 21.25 Das Beispiel eines Kommunikationsplanes
388
R. Höhn
21.2.7 Schritt 6: Software-Entwicklung und Betriebsüberführung Änderungen an der Unternehmens-Architektur können nur in Ausnahmen ohne Planung, ohne Konzeption durchgeführt werden. Der Regelfall ist, dass nach dem Erkennen eines Änderungsbedarfes eine Änderungsanforderung, oder nach ITIL ein Request for Change (RfC) erstellt wird. Der RfC muss so viel Information enthalten, dass die Organisationsform der Änderungsarbeiten beschlossen werden kann. Bei Änderungen mit großen Auswirkungen in der Unternehmensarchitektur, wird i. d. Regel ein Phasenprojekt mit Fachkonzeption, Software-Entwurf, Realisierung und Implementierung, entschieden, z. B. nach V-Modell-XT (Höhn 2008). Kleine gut abgrenzbare Änderungen können agil abgewickelt werden. Reparaturen ohne Auswirkungen können direkt durchgeführt werden. Voraussetzung dieser Einschätzung ist allerdings ein sorgfältig formulierter RfC. Da die Fachanwender für diese Sorgfalt ungeübt sind, muss ein CR-Manager (CRM) die Information einholen und den RfC präzisieren. Das DQM-Team (DQT) darf hier beanspruchen, die Datenspezifikation und die Daten-Qualität mitzuführen. Dem DQM-Team könnte sogar ein Veto-Recht bei mangelnder Datenspezifikation eingeräumt werden. Mit der Vollständigkeitsbeurteilung des CRM kann das Release-Management die Änderungsarbeiten in andere bereits bestehende Projekte und Änderungsarbeiten einplanen. Bei großen Projekten, besonders bei Ausschreibungsprojekten, wird ein Fachkonzept/ Lastenheft mit einem Datenkatalog und externen Datensichten, z. B. Reports, erstellt. Die Software-Ingenieure oder Entwickler leiten daraus die logische Sicht ab, dargestellt als Datenmodelle und als Datenstruktur-Mappingmodelle. Das DQM-Team hat hier ein Mitspracherecht und sogar ein Freigaberecht. Man erinnere sich an die in Schritt 5 empfohlene Mapping-Analyse. Mit der Umsetzung der Spezifikationen durch die Programmierer werden mehrere Testarten, Funktionstest mit Korrektheitsprüfung (FAT), Systemintegrationstest (SIT) mit Regressionsprüfung, Nutzer-Akzeptanz-Test (UAT) mit Ergonomie-Prüfung, erforderlich. Das DQM-Team muss seine Expertise aus Fehlern der Vergangenheit in die Tests und das Testen einbringen, z. B. durch beisteuern spezieller Testdaten und Datenqualitäten. Dazu gehört auch zu prüfen, ob die Datenqualitätswerte in den begleitenden DQ-Tabellen erfasst werden, wie in Schritt 5 vorgeschlagen. Die getestete Software und die Erstdaten übernimmt das Deployment und testet das Ausrollen in die Betriebsumgebung auf einer Konsolidierungs-Umgebung mit einer exakten Kopie der Betriebsumgebung. Mit dem Auftrag des Release Management werden die geänderten, getesteten Softwarekomponenten mit Erstdaten kontrolliert in die Betriebsumgebung implementiert. Der CRM prüft für den Anwender die Vollständigkeit (review) und gibt den Betrieb für den Anwender frei. Folgende Aktivitäten sind zur Begleitung der Entwicklungsprojekte durch das DQM zu empfehlen: Aktivität 6.1 Integrieren der DQ-Anforderungen in den Entwicklungsprozess
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
389
• Interview-Bogen für Daten-Anforderungen • Präsentation des Datenqualitätsmodells mit Anwendungsbeispielen • Zuordnung der DQ-Anforderungen Aktivität 6.2 Auswählen der Test-Daten und der Daten-Qualitätskriterien, • Kontextbildung, DQ-Annotation, Aktivität 6.3 Auswerten der Tests und ausüben des Vetorecht bei Fehlern Aktivität 6.4 Integrieren in das Change-Management (meistens nach ITIL-Transition) Die folgende Abbildung stellt ein kombiniertes Vorgehensmodell, oder Stage Gate Model, für die Abwicklung von Softwareprojekten dar (Höhn 2008, S. 104, 134 ff.). Am Anfang steht eine Anforderung, ein Request for Change nach ITIL. Ein Change Request Manager hat die Aufgabe, die Vollständigkeit der Anforderung herzustellen und zu beurteilen, wie komplex ein Projekt werden könnte. Zur Projekttypisierung werden oft die Kriterien Anzahl der zu beteiligenden Mitarbeiter, regionale Verteilung, Sicherheit, Behördenbeteiligung, Finanzieller Umfang, Abnahmepflichten, Hardware-Komponenten. Vom Projekttyp hängt die Vorgehensweise, das Vorgehensmodell ab, mit dem die Anforderung bearbeitet wird. Der nach ITIL gestartete Prozess wird als V-Modell, Agil oder als Reparatur nach ITIL fortgesetzt (Abb. 21.26). Das „Einklinken“ des DQM in den Software-Entwicklungsprozess sollte spätestens bei der Erstellung des Fachkonzeptes bzw. bei der Präzisierung des RfC erfolgen. Da sich das alles stark nach schwergewichtigem Wasserfall anhört, sei ergänzt, dass der Umfang in mehrere Inkremente aufgeteilt werden kann. Wie groß diese Inkremente sein
Abb. 21.26 DQ-Maßnahmen in den Entwicklungsprozess integriert
390
R. Höhn
können, hängt wie, schon erwähnt, von der Vollständigkeit des RfC und vom Wissen um den betroffenen Architektur-Ausschnitt und der Auswirkungsreichweite in der Architektur ab. Die beliebten User Stories sind dafür nicht geeignet. Die Zeitpunkte der Qualitätssicherung sind hier Quality Gate (QG) genannt. Gleichbedeutende Namen in anderen Vorgehensmodellen sind: Checkpoint und Milestone in RUP, Entscheidungspunkt im V-Modell XT. Zur Entlastung der Darstellung sind die Folgepfeile weggelassen. Mit (EA) und (DQT) sind der Enterprise-Architekt und das Datenqualitäts- Management-Team der betroffenen Domäne in der Qualitätssicherung verortet. Weitere Hinweise in diesem Buch zur Gestaltung von Schritt 6 des DQM-Prozesses: (Hildebrand, Kap. 21–23) und die Normen ISO12207, ISO12232, ISO15288 und V-Modell XT Von Zeit zu Zeit sollte sich das DQM einer Selbstprüfung unterziehen, die Erfahrungen eines Geschäftsjahres bezüglich DQM auswerten, DQM Verbesserungsvorschläge auszuarbeiten. Ein geeignetes Instrument dafür ist ein Reifegrad-Assessment des Daten- Qualitäts-Management-Prozesses.
21.2.8 Schritt 7: Assessment des Reifegrades des Datenqualitätsmanagementprozess Bezüglich eines Reifegrad-Assessments sind hauptsächlich zwei Arten bemerkenswert, die stufenweise (staged) und die kontinuierliche (continuous) Reifung. Das Capabilty Maturity Modell Integrated, CMMI, (Chrissis), (Kneuper) und das alte Capability Maturity Modell, CMM, stellen in ihren Handbüchern beide Varianten vor, registrierten aber bisher nur die mit der Staged Presentation assessierten Unternehmen. Die Motivation sich der langen Assessierung zu unterziehen – pro Reifegrad gibt das SEI 2 Jahre an, startend bei RG 2 – liegt in Akkreditierung als Lieferant für Behörden. Dadurch hat die Continuous Presentation nur wenig Umsetzung erfahren. Wer als Unternehmen den Reifegrad 2 erreichen will, muss einen Satz von Prozessen, in CMMI v1.3 Prozessgebiete genannt, nachweisen. Für den Reifegrad 2 sind das unter anderem Anforderungsmanagement, Projektplanung, Projektsteuerung, Messung und Analyse, Qualitätssicherung, Konfigurationsmanagement. Wer eines dieser Gebiete nicht nachweisen kann, bekommt den Reifegrad 2 nicht zugesprochen. Die ISO 15504 vertritt die kontinuierliche Variante und ist damit flexibler. Erstens stellt die ISO15504 ein von allen Prozessarten losgelöstes Reifegradmodell, das Process Assessment Model, PAM, zur Verfügung und kann damit auf beliebige Prozessreferenzmodelle angewendet werden. In der Norm ISO15504-5 ist das RGM auf das Prozessreferenzmodell, PRM, für Software-Entwicklung der ISO12207 angewendet worden. Das wird heute noch bei einigen Experten unter dem alten Namen SPICE kommuniziert. Mit der Norm ISO15504-6 ist die Anwendung auf System-Entwicklung mit Norm ISO12232 umgesetzt worden und die ISO15504-8 ist die Anwendung auf ISO20000 für IT-Services. COBIT 5 hat die ISO15504 für „IT-Prozesse“ umgesetzt.
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
391
Ein weiterer Vorteil ist, dass nicht dem Unternehmen insgesamt ein Reifegrad zugeschrieben wird, sondern jeder Prozess des PRM alle Fähigkeiten-Grade, oder Capability Level (CP) genannt, annehmen kann. Die Fähigkeiten-Grade sind über sogenannte Prozessattribute, PA, wie folgt definiert: Capability Level 1 Capability Level 2 Capability Level 3 Capability Level 4 Capability Level 5
PA 1.1 Prozessdurchführung PA 2.1 Management d Prozessdurchführung PA 2.2 Management der Arbeitsprodukte PA 3.1 Prozessdefinition PA 3.2 Prozessanwendung PA 4.1 Prozessmessung PA 4.2 Prozesssteuerung PA 5.1 Prozessinnovation PA 5.2 Prozessoptimierung
Die Capability Level bauen additiv aufeinander auf, d. h. der höhere Level muss auch alle Prozessattribute der niedrigeren Level nachweisen. Zu jedem Prozess sind in PRM eine Reihe von Basispraktiken (Base Practices), Arbeitsprodukten (Workproducts), mitunter auch Rollen, empfohlen. Für alle Prozesse, sind unabhängig vom PRM zu jedem Capability Level gleiche zusätzliche Allgemeine Praktiken empfohlen. Ein Assessor prüft zu jedem Prozessgebiet, ob die prozesstypischen Basispraktiken und die für den Fähigkeiten-Grad typischen allgemeinen Praktiken angewendet werden. Der zweite große Unterschied gegenüber CMMI ist, dass ein Unternehmen selbst entscheiden kann welchen Prozess es in welchem Fähigkeiten-Grad betreiben will. Für einige Unternehmen ist z. B. Konfigurationsmanagement absolut belanglos, weil sie ihren Betrieb samt CMS an einen Dienstleister vergeben haben. Die relevanten Prozesse aus einem Prozessreferenzmodell sind mit den Fähigkeiten Graden zu einer Reifegrad-Adäquanz- Matrix, RAM, aufgespannt. In den Feldern wird pro Prozess eingetragen, bis zu welchem Grad ein Prozess „gereift sein“ soll. Das folgende Beispiel ist ein Auszug aus einer RAM eines Ingenieur-Beratungsbetriebes (Abb. 21.27). Die Feldeinträge bedeuten F = full, L = largeley, P = partial, N = not, erfüllt, mit den Prozentsätzen bestätigender Stichproben zur Erhebung der Praktiken: 0–15 % (N), >15–50 % (P), >50–85 % (L), >85–100 % (F). Als Prozessreferenzmodell ist die ISO12207 zugrunde gelegt worden. Im Beispiel ist ENG.4, der 4. Prozess aus der Prozessgruppe Engineering namens Software Requirements Analysis, der Prozess ist bis zum CP2 voll erfüllt (F) und für den darauf aufsetzenden Fähigkeiten-Grad CP3 ist das Prozessattribut PA3.1 nicht erfüllt (N). Damit ist der Prozess auf Fähigkeiten-Grad 3. Ziel ist aber Fähigkeiten-Grad CP 3 zu erreichen. Der dritte Vorteil der ISO15504-Methodik ist, dass man sogar pro Projekt oder Unternehmensbereich eine eigene Adäquanz-Matrix aufstellen kann. Das ist z. B. relevant, wenn das Unternehmen als Projektmitglied einer ARGE mit CL4 agieren können muss, innerhalb des Unternehmens aber mit CL2 auskommt. Anmerkung die Normenreihe ISO15504 ist 2015 durch mehrere Normen ISO 330nn ersetzt worden.
392
R. Höhn
Abb. 21.27 Beispiel einer Reifegrad-Adäquanz-Matrix eines Ingenieursbetriebes
Wünschenswert wäre also die flexible Fähigkeiten-Grad Bestimmung a la ISO15504. Da kein ISO-offizielles PRM zur Verfügung steht, empfiehlt es sich, die derzeit umfangreichste Sammlung von Basispraktiken des IQM-CMM von (Baskarada) mit der ISO15504- bzw ISO330xx-Methodik zu nutzen. Der Vollständigkeit zu liebe sei erwähnt, in der Neuauflage 2019 von CMMI wird die Möglichkeit der kontinuierlichen Darstellung stärker unterstützt und CMMI wird nun auch von der ISACA verwaltet. Die ISACA hat wieder mit der neuen Auflage von Cobit 2019 auf CMMI gesetzt. Folgende Aktivitäten sind für das DQM-Assessment zu empfehlen: Aktivität 7.1 Konzipieren des DQM-Assessment • Nach IQM-CMM (Baskarada) oder Eigenentwicklung nach ISO15504, • Prozessbereiche-Checkliste, Reifegrad-Adäquanz-Matrix Aktivität 7.2 Durchführen eines DQM-Assessment • Stichproben-Befragungen, Auszählung und Bewertung,
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
393
Aktivität 7.3 Auswerten und berichten des DQM-Assessment • Reifegrad Verbesserungsempfehlungen • Mit Verbesserungs-Vorschlägen, Maßnahmenliste Weitere Hinweise in diesem Buch zur Gestaltung von Schritt7 des DQM-Prozesses: (Hildebrand, Kap. 17) und die Normen ISO8000-x, ISO15504-x, ISO330xx, ISO25012. Mit Schritt 7 sind alle Lifecycle-Schritte besprochen und es können die Aktivitäten den Rollen zugeordnet werden und die DQM-Richtlinie zusammengestellt werden.
21.3 Referenzprozess mit Rollen Der Entwurf der DQM-Richtlinie wird nach dem Auftrag der Unternehmensleitung von einem initialen DQM-Team gestartet. Das DQM-Team beginnt mit der Beschreibung des DQM-Prozesses. Hier wurde vorgeschlagen mit 4 der 7 W-Fragen der Prozessorganisation (Kosiol) u. a. zu beginnen: • das Was, die Verrichtungstätigkeit, die Aktivitäten • das Woran, der Verrichtungsgegenstand, die Datenstrukturen, Datenelemente einer Domäne • das Wie der Verrichtungsmethode, z. B. Prozesse und Techniken in Normen • und von der Methode abhängig ist das Womit der Verrichtung, die Muster, Tools, Anleitungen, Checklisten, die Sachmittel. Der DQM-Prozess ist arbeitsteilig zu organisieren. Mit den 4 W-Fragen kann eine Zuordnung von Rollen zu den Aktivitäten diskutiert werden. Die im Prozess zusammenarbeitenden typischen Rollen des DQM mit ihren wichtigsten Aufgaben sind: • Projektsponsor, CEO, mit dem Erstellen der DQM-Policy, Budget bereitstellen, DQ als TOP der Strategie-Agenda pflegen, • Company DLC-Manager, CDO Chief Data Officer, DQ-TL DQM-Teamleiter Data Quality Manager, mit den Aufgaben: Projekt definieren, DQM-Prozessgestaltung, Aufbau-Organisation, DQM-Tool-Evaluieren, Methoden-Festlegung, Unternehmensweite Daten homogenisieren, Assessments des DQM-LC, DQ-SLA umsetzen • Data Steward, Datenexperte, Data-Manager, Domänenexperte, DQ-Team-Mitglied DQT, mit den Aufgaben: Information Strukturen Definitionen Inhalte der Domänen pflegen zu Themenbereichen, • Enterprise Architecture Manager (=) EAM, CMDB-Manager, mit den Aufgaben: Integration der Datenarchitektur in die Enterprise Architektur, Integration mit Business- Architektur, SW-Bebauungsplan und Infrastruktur, Organisation, Kultur, Sicherheitspraktik
394
R. Höhn
Weitere im Text nicht behandelte Rollen mit DQM-Bezug: • IT-Leiter, CIO, mit den Aufgaben: Erlaubnisse für Tools, Prozesse, Datenzugriffe veranlassen • Fachbereichsleiter, FBL, mit den Aufgaben: Fachanwender freistellen, Zugang zu Fachinformationen freigeben • System-Ingenieur SE, Software-Entwickler SWE, mit den Aufgaben: DQ- Daten modellieren, Anwendung der Tools und Methoden zur Datenqualität, Auswertungen und DQ-Berichte, Metadatenverwaltung, • Datenbankadministrator DB-AD, mit den Aufgaben: Implementieren und DQ- Monitoring und Profiling der Datenbanken, Releasewechsel, Update, Archivierung • Content-Redakteur CON-R, mit den Aufgaben: Erstellen der Inhalte der Web-Pages, Definitionen der Fachbegriffe, Pflege Fachlexikon • Data Scientist DAT-S, mit den Aufgaben: Statistik, Data Mining, Machine Learning, Hypothesen generieren, komplexe Zusammenhänge finden Die folgende Tabelle zeigt ein Beispiel, des im Kick-Off-Meeting zu diskutierenden Vorschlag der Aufgabenverteilung (Abb. 21.28). Um Kompetenzstreit zu vermeiden, sollte angestrebt werden, zu jeder Aktivität eine verantwortliche durchführende Rolle (D) zu benennen. Die Abkürzungen DEMI oder auch RACI bedeuten: D = Durchführen E = Entscheiden M = Mitarbeiten I = Informieren
oder oder oder oder
R = responsible A = accounting C = contributing I = informated
Aus der DEMI-Matrix, oder RACI-Matrix, lässt sich nun die Rollenbezeichnung von oben mit Prozess-Inhalt füllen. Der Richtlinienentwurf mit dem DQM-Prozess und den Rollen-Entwürfen, muss bereits vor dem Kick-off-Meeting verteilt werden, um den Teilnehmern die Zeit zu geben, die ihnen zugedachten Aufgaben zu reflektieren. Der DQM-Prozess, die Rollendefinitionen, die vorgeschlagenen Methoden sollten unbedingt als „erster diskutabler Vorschlag“ angekündigt werden und der Kick-off-als Workshops organisiert werden, mit dem Ziel ein Agreement im DQM-Team zu erreichen. Was nicht funktionieren wird, ist eine Anweisung! Das Meeting dient dann • der Klärung offener Fragen und Missverständnisse, • dem Erheben des Ausbildungsbedarfes der einzelnen Rollen, • und dem Einholen der Rollen-Zugeständnisse und der Abgrenzung der Rollenaktivitäten. Erfahrungsgemäß muss der Abstimmung der Prozess-Schnittstellen, die Lieferbeziehungen zwischen den Prozessschritten, viel Zeit eingeräumt werden. Jede Rolle will ge-
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
Abb. 21.28 Der DQM-Referenzprozess mit einer möglichen RACI-Rollenzuordnung
395
396
R. Höhn
hört werden, jede Rolle will wissen was die anderen Rollen denken: „Was darf die im Prozess folgende Rolle von mir als Output meiner Aktivität erwarten?“, „Was brauch ich von der Rolle vor mir im DQM-Prozessverlauf als Input meiner Aktivität?“ Diskussionen zur Organisationsgestaltung werden häufig zur Plattform einer Aussprache für emotionale Altlasten, wie Anerkennungsmangel, Verantwortungsentzug, ungerecht empfundene Sanktionen, Festhalten an alten Gewohnheiten, Unsicherheiten bezüglich der eigenen Fähigkeiten. Abhängig von der gelebten Unternehmenskultur und der Disposition des ernannten DQ-Managers, ist die Situation oft nur mittels Sozialtechnik und externe Intervention lösbar. Die folgende Vorlage hat sich für diese Diskussion der Rollen und als Bestandteil der DQM-Richtlinie bewährt (Abb. 21.29). Sie beantwortet die Fragen: • wofür trage ich die Verantwortung, • welche Befugnisse und Kompetenzen werden mir zugesprochen, • welche Aufgaben (Aktivitäten) habe ich im DQM-Prozess zu erledigen, bei welchen Aufgaben muss ich mitarbeiten, eventuell: wen muss ich worüber wie informieren, • welche Tools, Formulare, Methoden muss ich dafür einsetzen, • welche Qualifikation, Zertifizierung, Weiterbildung, wird von mir erwartet. Mit den vorangegangenen Ausführungen zum DQM-Prozess, den durchzuführenden Aktivitäten, den empfohlenen Methoden und Formularen zur Unterstützung der Aktivitä-
Abb. 21.29 Muster einer Rollendefinition, am Beispiel des DQ-Managers
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
397
ten und den Rollen für die Ausführung der Aktivitäten, sind alle Bausteine für eine „Organisationsrichtlinie Daten-Qualitätsmanagement“ zusammengestellt.
21.4 Die DQM-Richtlinie Leitgedanke des Aufbaus der DQM-Richtlinie ist die Reihenfolge der Bestimmung der W’s und die Gruppierung der Aktivitäten zu 7 Prozessschritten. Es ist ein mühsames Unterfangen für das initiale DQM-Team, die Richtlinie aufzustellen, „gegen“ schon „historisch gewachsene“ Praktiken, die teilweise ad-hoc, teilweise geplant, manchmal unsichtbar abgewickelt werden. Um die nötige Akzeptanz zu erreichen, sind die Träger dieser bestehenden DQM-Maßnahmen unbedingt einzubeziehen. Die praktizierten Methoden und Formulare sind sehr wahrscheinlich in einer überarbeiteten Form, oftmals sogar 1:1, gut zu integrieren. Das folgende Inhaltsverzeichnis ist die Konzept-Empfehlung, gewonnen aus dem in diesem Artikel durchlaufenen Prozessmodell. Eine Richtlinie sollte immer mit dem Anlass beginnen, • mit einer Begründung, warum die Richtlinie erstellt wurde, • einer Erklärung, für wen die Richtlinie erarbeitet wurde und welche Reichweite die Richtlinie haben soll, • einen Status, in welchem Fertigstellungsgrad sich die ausgelegte Richtlinie befindet. Meistens muss sich eine Richtlinie auf Quellen beziehen, diese sollten dann auch am Anfang genannt werden, um den Lesern der Richtlinie nachschlagen, vertiefen zu ermöglichen: • in sogenannten mitgeltenden Dokumenten, wie z. B. Projekthandbuch, Auftrag der Unternehmensleitung für ein DQM, alte Versionen von Dokumenten zur DQM- Organisation, etc., • in Behördliche Normen, wie Gesetze, Verordnungen, etc., • in Technischen Normen wie DIN, ISO, VDI, Kammern, etc., konkret z. B. die ISO9001, • und nicht zuletzt auch in Standard-Lehrbüchern, Ausbildungsprogramme, Zertifikats- Handbüchern. Auf die Quellen sollte außerdem an den entsprechenden Stellen der Richtlinie verwiesen werden. Für den weiteren Aufbau der DQM-Richtlinie ist das 3-Schichten-Modell von (Österle), im Kap. 16 von Otto und Weber auf DQM angewendet, ein guter Ratgeber: • Einbindung des DQM in die Unternehmensstrategie, Darstellung der DQM-Strategie mit den Kernpunkten zum Wettbewerb und der Position des DQM im Führungssystem des Unternehmens,
398
R. Höhn
• Überblick und ausführliche Beschreibung des DQM-Prozesses, • Definition der Rollen und Stellen des DQM und deren Vernetzung in der Organisationsstruktur und auch in externe Organisationen, wie z. B. Mitarbeit in Normungs-Gremien, Interessengruppen, etc., • Grobe überblicksmäßige Software-Architektur und Datenarchitektur, deren regionale Verteilung, aber nicht tiefer gegliedert als bis auf Domänen-Niveau. Im Anhang der DQM-Richtlinie sind die Formulare, deren Verwendungsverpflichtung in der Prozessbeschreibung dargestellt wird, und nützliche Tabellen. Daraus ergibt sich folgender Vorschlag (Abb. 21.30) für das Inhaltsverzeichnis der DQM-Richtlinie: Es gibt selbstverständlich in der gängigen Literatur weitere ergänzende und auch konkurrierende Vorschläge. Um diese gegeneinander abzuwägen, braucht es eine gesunde Diskussionskultur. Die DQM-Richtlinie ist nicht nur eine von der Unternehmensleitung genehmigte, also freigegebene Organisationsrichtlinie, sondern auch eine Schulungsunterlage. Die Autoren der Richtlinie sind an vorderster Stelle zur Vermittlung der Inhalte, als Trainer und als interner Beratungsservice, geeignet. Die Umkehrung gilt auch; um den Inhalt der Richtlinie zu vermitteln, sollte man wesentlich an der Richtlinie beteiligt sein.
21.5 Resümee Die unternehmensweite homogene Umsetzung durch das DQM-Team kann nur mit Unterstützung der Unternehmensleitung erreicht werden. Deshalb ist das DQM-Team entweder als Stabsfunktion der Unternehmensleitung direkt zu unterstellen oder mit DQ-bezogenen abteilungsübergreifenden Rechten auszustatten. DQM sollte nicht den ad-hoc-Initiativen einzelner Mitarbeiter überlassen bleiben, das bringt allerhöchstens den Fähigkeiten-Grad 1. Sondern, DQM muss sorgfältig konzipiert und das akzeptierte Konzept über ein traditionelles Projektmanagement unternehmensweit implementiert werden. Das Implementierungsprojekt sollte, um die unternehmensweite Homogenisierung aber auch die effiziente Umsetzung der DQ-Maßnahmen zu erreichen, einen Satz von Musterbeispielen, Formatvorlagen, Checklisten, Lehrmaterialien, Prozess-Richtlinien, vorbereiten. Der Dokumentationssatz soll als Grundlage einer Minimal-Ausstattung (muss-Methoden und Formulare) gemeinsam akzeptiert sein, ergänzt um freiwillige Verwendung (kann-Methoden und Formulare): • DQM-Prozessdefinition, mit Festlegung der Standard-Aktivitäten und der Übergabe- Verantwortung zwischen den Rollen • Merkblätter zur Definition und Interpretation der wichtigsten DQ-Merkmale • Anleitungen für die Anwendung von Methoden, z. B. • Muster und Checklisten für die Arbeitsschritte • Rollendefinition, mit Aufgaben, Befugnissen, Berichtspflichten
21 Der Aufbau einer Organisationsrichtlinie für den Daten- und …
Abb. 21.30 Vorschlag für eine DQM-Organisationsrichtlinie
399
400
R. Höhn
DQM muss über den gesamten System- oder Software-Lifecycle implementiert werden, d. h. bei Software-Projekten mit Phasenstruktur, sind in jeder Phase zukünftig DQ-Merkmale einzubeziehen. In einer Fachkonzeptionsphase im Datenkatalog, z. B. als Daten-Qualitätsanforderungen. Ein Thema das in User Stories völlig ignoriert wird. Im Sinne des TQM der ISO 9001 sollte sich das DQM-Team kontinuierlich reflektieren, Verbesserungsvorschläge auswerten und zeitnahe umsetzen. In größeren Zeitabständen, z. B. alle 3 Jahre, sollte ein externes DQM-Reifegrad-Assessment diese Reflektion unterstützen.
Literatur Höhn, R., Höppner S., Das V-Modell XT, Heidelberg 2008 Höhn, R., Integrata Seminarunterlage 2010-v2019-11 Anforderungsanalyse, Stuttgart 2019 Kimball, R., The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data, Wiley 2004. Porter, M. E., Wettbewerbsstrategie, Frankfurt 1988 Porter, M. E., Wettbewerbsvorteile, Frankfurt 1986 Probst, G., Raub, S., Romhardt, K., Wissen Managen, Wiesbaden 1998
Dipl.-Math. Reinhard Höhn, Jahrg.1950, hat nach der Ausbildung zum Konstrukteur für Verfahrenstechnik, für die Friedrich Uhde GmbH an der Konstruktion von Polyurethananlagen gearbeitet. Nach dem Studium der Mathematik, Physik und BWL an der J. Wolfgang v. Goethe Universität Frankfurt erstellte er Systemanalysen zur Instandhaltung, Umweltverträglichkeitsprüfungen und Feasibility-Studies im Rahmen der Genehmigungsverfahren für KKW bei Lahmeyer International und für Entwicklungsprojekte bei UCI. Er war ab 1991 Projektleiter von IT-Migrationsprojekten bei Integrata-AG und ab 1995 für Ausschreibungen, unter anderem Los EDV des LKW-Mautsystems in Österreich, bei AI Informatics. Ab 2005 arbeitete als Produktmanager für Wissensmanagement, für die KMA, Wien, und als Lektor an der Fachhochschule der Wirtschaftskammer Wien. Reinhard Höhn ist Mitglied der GI, Fachgruppe WI-VM. Heute arbeitet er als Seminare-Entwickler und Trainer für die Integrata AG für die Themen Vorgehensmodelle, Business Intelligence Lösungen, Datenqualität, Wissensmanagement.
Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem Campus 4.0
22
Abdessalam Ait Salah, Hendrik Thüs und Michael Mielke
22.1 Information als Wettbewerbsfaktor Informationen sind ein wichtiger Produktionsfaktor geworden. Wir sammeln täglich riesige Mengen an Informationen, der globale „Daten- und Informationsbestand“ verdoppelt sich etwa alle 18 Monate; gleichzeitig wird der Eindruck erweckt, dass die Qualität der Informationen nicht in gleichem Maße besser wird. Dies bestätigt auch eine Studie des Grimme-Instituts von 2012 (Im Blickpunkt 2012). Denkt man etwa an die Entwicklung neuer Technologien, die Entdeckung neuer Absatzkanäle oder das Erkennen von Bedarfen bevor diese entstehen, so wird deutlich, dass ein Informationsvorsprung Wettbewerbsvorteile schafft. Aus diesem Grund wird der Einsatz moderner Technologien und Informationsverarbeitung im Bereich der IT stärker als bisher im Hinblick auf den Unternehmenserfolg gewertet, so wie wir es in der Produktion herkömmlicher Güter schon seit langem konsequent machen. Nicht das Eigentum oder der unmittelbare Besitz an den klassischen Produktionsfaktoren ist heute entscheidend für den Erfolg eines Unternehmens, sondern das Wissen um die Probleme des Kunden und wie diese kosten- und qualitätsoptimal gelöst werden können (Mielke 2006). A. A. Salah Deutsche Bahn AG, DB Training, Learning & Consulting, Frankfurt am Main, Deutschland E-Mail: [email protected] H. Thüs Deutsche Bahn AG, Themencluster Digitalisierung & Innovationsmanagement (HD.L 4(D)), Frankfurt am Main, Deutschland E-Mail: [email protected] M. Mielke (*) Deutsche Bahn AG, Frankfurt am Main, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_22
401
402
A. A. Salah et al.
In der Wirtschaft hat sich der Kundenservice in den letzten Jahren massiv verändert. Durch die Digitalisierung und ihre Auswirkung auf das alltägliche Leben, stiegen die Ansprüche und Bedürfnisse der Kunden. Dies stellt die Wirtschaft und die Unternehmen vor eine große Herausforderung (Braun 2013). Die ständige Konnektivität mit dem Internet sowie auch die voranschreitende Vernetzung verschiedener Endgeräte beeinflusst das Verhalten und die Erwartungen der Kunden massiv. Wir sind nahezu rund um die Uhr mit dem Internet verbunden. Mit unserem Smartphone können wir schnell Informationen suchen und bereitstellen. Ob der Preisvergleich im Supermarkt oder auch das Feedback auf den jeweiligen Unternehmensseiten, wenn etwa der Kundenservice nicht so gut war. Um diesen Ansprüchen gerecht zu werden, haben Unternehmen weitere Kontaktkanäle eröffnet, damit ein umfassendes Serviceangebot sichergestellt werden kann, denn eine Differenzierung im Wettbewerb erfolgt nicht allein über den Produktwettbewerb, sondern ebenso über die Serviceleistungen. Diese werden somit zu einem immer wichtigeren Erfolgsfaktor für Unternehmen. Einer dieser Kanäle ist die automatisierte Bereitstellung von Informationen durch Chatbots. Der Einsatz von Chatbots ermöglicht Kunden Suchanfragen jederzeit (24/7) und überall zu stellen und bei geeigneter Informationsqualität auch die gewünschten Informationen schnell zur Verfügung stellen zu können. Hier setzt unser Ansatz mit dem Chatbot K.I.D. (Künstliches Intelligentes Dialogsystem) an. Wir gehen davon aus, dass einige Aufgaben im Alltag, wie auch im Berufsleben zukünftig von Robotern (auch von Softwarerobotern) übernommen werden (Schulte et al. 2018), welche mit Menschen interagieren und kommunizieren können.
22.2 Problemstellung Wir sind ständig online, mit Familie, Freunden und Kollegen vernetzt und das Smartphone ist unser Begleiter. Der schnelle „Blick“ ins Internet, die Preisrecherche im Supermarkt usw. gehören zum alltäglichen Handeln. Wir können und wir wollen jederzeit Zugriff auf für uns relevante Informationen haben. Diese Nachfrage an Informationen können Unternehmen nicht allein mit Hotlines und/oder Call-Centern befriedigen. Es sind weitere Kommunikationskanäle hinzugekommen wie z. B. Videos, die zeigen wie Produkte genutzt werden. Sehr beliebt sind die Videos von Baumärkten, die demonstrieren wie Produkte z. B. eingebaut oder gehandhabt werden. Call-Center können nur wenige Unternehmen 24/7 kosteneffizient bereitstellen. Die Belastung für die Mitarbeiter ist hoch, zumal häufig relativ einfache sich wiederholende Fragen durch Kunden gestellt werden. Zusätzlich muss noch organisatorisch gewährleistet sein, dass alle Mitarbeiter im Call-Center gleichartige Antworten auf vergleichbare Fragen geben. Hier kann der Einsatz von Chatbots hilfreich sein, da diese nie müde werden die gleichen Fragen zu beantworten, 24/7 zur Verfügung stehen und mit Unterstützung von maschinellem Lernen darüber hinaus auch in der Lage sind zunehmend komplexere Fragen zu beantworten. So werden durch die Nutzung eines Chatbots Mitarbeiter entlastet und erhalten die Chance sich mit den komplexeren Fragen und Problemen der Kunden zu beschäftigen (Schulte et al. 2018). Eine solche Effizienzsteigerung führt nicht nur zu einem zeitlichen Gewinn, sondern auch zu einer deutlichen Kostensenkung. Auch ist eine Steigerung der
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
403
Kundenzufriedenheit in Folge einer höheren Kundeninteraktion und der Zeitersparnis zu erwarten. Aber kann ein Chatbot auch eine hohe Informationsqualität (IQ) seiner Antworten gewährleisten und wie kann in diesem Zusammenhang IQ definiert und gemessen werden? Ausgehend von den Grundsätzen für erfolgreiches Informationsqualitätsmanagement (IQM) (Mielke 2014) betrachten wir hier insbesondere die folgenden Grundsätze: IQM-Grundsatz 1 Wer braucht welche Informationen, zu welchem Zeitpunkt, in welcher definierten Qualität und wie geschäftskritisch sind diese? Die Basis eines funktionierenden IQM Systems ist die Identifikation der Informationserfasser, Informationsbearbeiter und Informationsnutzer in einer Organisation. Zusätzlich ist es notwendig diese in den Prozessen der Organisation einordnen zu können, ihre Anforderungen an die Qualität der Informationen zu ermitteln und zu messen. IQM-Grundsatz 6 Abgestimmte, bekannte, zugängliche, transparente und eindeutige Informationsobjekte und -quellen sowie Berechnungs-/Erstellungslogiken sollen bereitgestellt werden. Eine Organisation muss die in ihren Prozessen benötigten Informationsobjekte identifizieren, eindeutig beschreiben, die Quellsysteme für diese benennen und die jeweiligen Berechnungs- und Verarbeitungsregeln definieren. Dieses IQM-Repository ist allen Mitarbeitern, im Rahmen der Compliance Richtlinie, zugänglich zu machen. Wir fokussieren uns in diesem Ansatz dabei auf die folgenden Dimensionen (Jan et al. 2015): • Zugänglichkeit (1) Informationen sind zugänglich, wenn sie anhand einfacher Verfahren und auf direktem Weg für den Anwender abrufbar sind. • Angemessener Umfang (2) Informationen sind von angemessenem Umfang, wenn die Menge der verfügbaren Information den gestellten Anforderungen genügt. • Relevanz (11) Informationen sind relevant, wenn sie für den Anwender notwendige Informationen liefern. • Verständlichkeit (14) Informationen sind verständlich, wenn sie unmittelbar von den Anwendern verstanden und für deren Zwecke eingesetzt werden können. In Abschn. 22.4.5 werden wir darstellen, wie wir diese Grundsätze und IQ-Dimensionen im Chatbot umgesetzt haben, was wir messen und wie wir versuchen die von uns ausgewählten Dimensionen umzusetzen.
404
A. A. Salah et al.
22.3 Grundlagen 22.3.1 Künstliche Intelligenz (KI) Die künstliche Intelligenz zu definieren ist unmöglich (Görz und Schneeberger 2010). Grundsätzlich lässt sich sagen, dass es keine allgemeingültige Definition von KI gibt, weil sich diese stetig mit der Zeit ändert. Deshalb wird hier versucht, sich dem Begriff KI kategorisch zu nähern. In der Literatur wird zwischen starker und schwacher KI unterschieden: • Starke KI kennen wir aus der Science-Fiction. Dabei handelt es sich um eine Maschine, die Probleme aller Art lösen kann. Sie verfügt über alle kognitiven Fähigkeiten eines Menschen, dazu gehören sowohl Denken, Handeln als auch das Spüren von Emotionen. Aufgrund ihrer Komplexität ist starke KI bisher noch reine Fantasie und sie wird es über Jahrzehnte oder Jahrhunderte auch noch bleiben. • Mit schwacher KI haben wir es hingegen im Alltag zu tun. Sie beschreibt Algorithmen, die teilweise sehr komplex sind. Diese können eine spezielle Aufgabe lösen, deren Lösungswege sie vorher selbstständig erlernt haben. Sie haben kein eigenes Bewusstsein und zeigen kein Verständnis oder Emotionen. Beispiele hierfür sind: Navigationssysteme, Spracherkennung oder autonomes Fahren. Im weiteren Verlauf dieses Artikels wird KI mit schwacher KI assoziiert, da sie die einzige relevante Form im kommerziellen Umfeld ist. Nun stellt sich als erstes die Frage, was der Unterschied zwischen einer KI und einem simplen Programm ist. Ein simples Programm besteht aus einer Reihe komplexer Anweisungen. Sie definieren, was genau passieren soll, wenn das Programm ausgeführt wird oder – innerhalb des Programms – wenn bestimmte Bedingungen erfüllt oder Ereignisse ausgelöst werden. Ein solches System wird als regelbasiert bezeichnet. Bei einem KI-basierten Programm gibt der Entwickler nicht vor, was dieses bei jedem Schritt macht, sondern schreibt einen Algorithmus, welcher in der Lage ist, aus Daten zu lernen. Anhand des Gelernten kann das Programm selbst Entscheidungen treffen. KI- Systeme sind damit weitaus mächtiger als regelbasierte, da sie auf unbekannte Situationen und Fälle reagieren können. Künstliche Intelligenz ist als Oberbegriff zu verstehen, welcher aus vielen Unterthemen besteht. Als Beispiele sind hier Data Mining, Computer Vision oder Robotik zu nennen (Görz und Schneeberger 2010). Ein weiteres Unterthema, Maschinelles Lernen, wird durch das folgende Unterkapitel beschrieben.
22.3.2 Maschinelles Lernen Maschinelles Lernen ist das vielversprechendste Feld der künstlichen Intelligenz. Darunter fallen alle Algorithmen (Nasrabadi 2007), die Daten analysieren, aus diesen lernen und basierend darauf Entscheidungen und Vorhersagen treffen. Ziel des Maschinellen Lernens
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
405
ist es, den Lernvorgang so zu automatisieren, dass die Aufgabe bei möglichst geringem Aufwand für den Nutzer zufriedenstellenderfüllt wird (Alpaydin 2020). Die Aufgabe A besteht in der Regel darin, zu einer gegebenen Eingabe eine bestimmte Ausgabe zu erzeugen. Hierbei ist die Eingabe durch eine Ansammlung bestimmter Merkmale gegeben, zum Beispiel durch einen Vektor oder eine Matrix aus mehreren Zahlen oder durch einen Satz aus mehreren Wörtern. Formal kann ein solches Modell also als Funktion fθ betrachtet werden, welche die Menge der möglichen Eingaben X in Abhängigkeit ihrer Parameter θ auf die Menge der möglichen Ausgaben Y abbildet:
fq : X ® Y
Die zum Training des Algorithmus notwendigen Beispiele sind daher eine Menge von Paaren aus Modelleingaben mit den zugehörigen korrekten Ausgaben:
( x,yˆ ) Î X ´ Y
Das Ziel der Optimierung ist es, eine Kosten- oder Fehlerfunktion zu minimieren. Diese gibt für die aus der Eingabe x eines Trainingsbeispiel resultierende Ausgabe y ein Maß für die Abweichung von der korrekten Ausgabe yˆ an:
E : Y ´Y ® R
Das Programm muss also für die Trainingsbeispiele den Fehler des Modells mit den aktuellen Parametern berechnen und diese dann so anpassen, dass sich der Fehler verkleinert. Dadurch kommt es zu einer Verbesserung der ausgegebenen Problemlösungen.
22.3.2.1 Künstliche neuronale Netze Künstliche neuronale Netze (Artificial Neuronal Networks; ANN) beschreiben Modelle des maschinellen Lernens, welche in ihrem Aufbau dem menschlichen Gehirn nachempfunden sind (Simon 1998). Sie bestehen in Anlehnung an dieses aus einer Menge von in Schichten angeordneter künstlicher Neuronen, welche durch gerichtete und gewichtete Kanten miteinander verbunden sind. Die folgende Abbildung zeigt ein einfaches neuronales Netz mit drei Schichten (Abb. 22.1). An der Eingabeschicht kann jeweils der Input für das vom Netzwerk zu lösende Pro blem angelegt werden. Dieser wird dann über eine beliebige Anzahl versteckter Schichten entlang der Kanten durch das Netzwerk propagiert. Gibt es mehrere versteckte Schichten, so spricht man von einem tiefen neuronalen Netz. Die berechnete Problemlösung liegt zum Schluss an der Ausgabeschicht an. Die künstlichen Neuronen in jeder Schicht gewichten dabei die Eingaben ihrer eingehenden Kanten mit den entsprechenden Kantengewichten und bilden die Summe der Ergebnisse. Diese Summe wird in eine Aktivierungsfunktion eingesetzt, welche bestimmt, ob bzw. wie stark das Neuron aktiviert wird. Der Aufbau eines künstlichen Neurons ist in Abb. 22.2 dargestellt.
406
A. A. Salah et al.
Abb. 22.1 Aufbau eines künstlichen neuronalen Netzes
Abb. 22.2 Aufbau eines künstlichen Neurons
Je stärker ein Neuron aktiviert wird, desto größer ist sein Einfluss auf die Neuronen in der darauffolgenden Schicht. Meistens werden für die Aktivierungsfunktion nichtlineare Funktionen wie die Sigmoid-Funktion (Formel 22.1) verwendet, damit auch nichtlineare Zusammenhänge zwischen Netzwerkeingabe und Netzwerkausgabe modelliert werden können. f( x) =
1 1 + exp ( - x )
(22.1)
Seien also x = (x1…xm) die Ausgaben der Neuronen der vorhergehenden Schicht, wjk das Gewicht der Kante, welche das j-te Neuron der vorhergehenden Schicht mit dem k-ten Neuron der aktuellen Schicht verbindet, und ϕ die Aktivierungsfunktion. Dann lässt sich die Ausgabe yk des k-ten Neurons der aktuellen Schicht durch die folgenden Funktionen darstellen:
yk = f ( uk ) m
uk = åw jk x j j =1
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
407
Ausschlaggebend für eine korrekte Ausgabe sind also die Kantengewichte. Optimiert man diese für Eingaben eines bestimmten Problems, dann kann ein solches ANN für Eingaben zu dem Problem mit relativ geringem Aufwand mögliche Lösungen berechnen. Eine verbreitete Methode für diese Optimierung ist der Backpropagation-Algorithmus, der im Folgenden beschrieben wird.
22.3.2.2 Backpropagation Backpropagation ist ein Algorithmus zum Trainieren von tiefen neuronalen Netzen (Erb 1993). Solch ein Algorithmus optimiert schrittweise die Gewichte in einem neuronalen Netz mit Hilfe von Trainingseingaben und den dazugehörigen gewünschten Ausgaben. In jeder Iteration wird dabei eine Trainingseingabe in das Netzwerk eingegeben und im ersten Schritt vorwärts durch das Netzwerk bis zur Ausgabeschicht propagiert. Ausgehend von einer Fehlerfunktion, wie beispielsweise der squared error-Funktion wird dann ein Gradientenabstieg entlang desselben Netzwerks durchgeführt, sodass der Fehler mini1 miert wird. Der Faktor vereinfacht dabei lediglich eine spätere Ableitung. 2 1 2 E ( y,yˆ ) = ( y - yˆ ) 2 Der Gradientenabstieg basiert auf der Idee, dass sich der Wert der Fehlerfunktion verringert, wenn man die Gewichte in Richtung des negativen Gradienten der Fehlerfunktion anpasst. Man folgt also der negativen Steigung der Funktion, um ein Minimum zu erreichen. Die Gewichte in jeder Schicht werden dabei jeweils mit Hilfe des zurückpropagierten Fehlers aus der vorhergehenden Schicht angepasst. Um es Maschinen zu ermöglichen, menschliche Sprache zu verstehen, setzt man Neuronale Netze und Natural Language Processing in Kombination ein. 22.3.2.3 Natural Language Processing Ein Computer bzw. eine Software kann menschliche Sprache nicht verstehen. Soll ein Programm nun nicht wie gewohnt mit Klicks, Tastenkombinationen oder Fingertippen bedient werden, sondern rein durch die Sprache des Menschen (natural language) gesteuert werden, bedarf es Natural Language Processing (NLP) (Bird 2009), was dem Computer ermöglicht menschliche Sprache zu verstehen und zu analysieren. Die Schwierigkeit hierbei ist jedoch, dass die Bedeutung einer Aussage der menschlichen Sprache oft nicht in den verwendeten Wörtern liegt, sondern in der Semantik, welche wiederum abhängig von Grammatik, Intention und kulturellem Hintergrund des Sprechers ist. Nimmt man zum Beispiel die beiden Sätze „wie kann ich einen Raum reservieren“ und „was muss ich tun, um einen Trainingsraum zu buchen“ so spielt der Satzbau eine entscheidende Rolle. Den Sinn erkennen wir Menschen intuitiv, aber einer Maschine muss dies antrainiert werden. Um dies zu ermöglichen verwendet NLP verschiedene Methoden und Ergebnisse aus den Sprachwissenschaften und kombiniert sie mit moderner Informatik und künstlicher Intelligenz mit dem Ziel, eine möglichst weitreichende Kommunikation zwischen Mensch und Computer über Sprache zu ermöglichen.
408
A. A. Salah et al.
22.3.3 Daten als Grundlagen Wie alle Modelle aus dem Bereich des maschinellen Lernens braucht auch ein Chatbot eine Grundlage, auf der er arbeiten und aus der er mögliche Antworten generieren kann. Hierbei ist es in erster Linie wichtig, dass möglichst viele Daten zugrunde liegen, mit denen der Chatbot lernen und aus denen er sein Wissen ziehen kann. Eine Überladung mit zu vielen Daten ist hier nicht gegeben, die Qualität der Antworten nimmt mit zunehmender Wissensbasis weiter zu. Die Menge an Daten an sich ist allein noch nicht ausschlaggebend für die Qualität der generierten Antworten. Die Qualität der zugrundeliegenden Daten ist hierbei von großer Bedeutung. Was bedeutet nun aber der Begriff Qualität der Daten? Die Daten sollten in erster Linie strukturiert vorliegen. Ohne eine Struktur kann die Semantik der Aussagen durch den Algorithmus nicht erkannt und zugeordnet werden. Die Struktur muss hierbei genau definiert sein, so dass die möglichen strukturellen Abweichungen innerhalb einzelner Aussagen möglichst gering sind und keine Fehler in der Ausgabe produzieren. Ein großer Aspekt in der Datenqualität ist die Aktualität der Daten. Ist eine Information nicht mehr gültig, so muss sie möglichst zeitnah aus dem Wissensschatz entfernt werden oder – alternativ – wird sie nicht mehr erneuert und verfällt damit automatisch. Dieser zweite Weg impliziert, dass Informationen ein Ablaufdatum erhalten und aktuelle Informationen stetig erneuert werden müssen. Das Vorhandensein von Daten in verschiedenen Sprachen kann unter Umständen auch Auswirkungen auf die Qualität haben, da diese Informationen im Vorfeld möglichst automatisiert übersetzt werden müssen und hierbei geschehen erfahrungsgemäß Fehler, die sich wiederum negativ auf das Lernen des Chatbot-Algorithmus auswirken können. Um eine möglichst breite Wissensbasis aufzubauen, ist es möglich, das Lernen des Chatbots mit einer Suchmaschine zu koppeln, so dass vorhandene Fragen mit den Ergebnissen der Suchmaschine beantwortet werden können. Die Suchmaschine operiert beispielsweise auf einer Menge an unstrukturiert vorhandenen Dokumenten, Webseiten oder Datenbanken und generiert hieraus Ergebnisse, die thematisch mit der Eingabe in Verbindung gebracht werden. Der Chatbot kann diese Suchergebnisse als Unterstützung verwenden, so dass diese dem Nutzer des Bots präsentiert werden. Wichtig ist hierbei jedoch, dass auf das Präsentieren solcher Ergebnisse nach dem Feedback des Nutzers gefragt wird, ob diese Antwort hilfreich war. Diese Antwort hilft dem Algorithmus des Bots, neue Inhalte zu lernen und damit vorhandenes Wissen zu verbessern. Bei erneuter Fragestellung kann diese Antwort nun direkt aus der eigenen Datenbank bezogen werden, es wird somit eine Verbindung zwischen der Frage und dem Ergebnis der Suchmaschine erstellt. Nachdem hier die Grundlagen definiert wurden, geht das nun folgende Kapitel auf das eigentliche Thema Chatbots ein und erläutert, wie diese Grundlagen eingesetzt werden.
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
409
22.3.4 Chatbots Zu dem Begriff des Chatbots gibt es, ähnlich wie bei dem Begriff KI, keine eindeutige Definition, eher eine grundlegende Beschreibung: Das Wort Chatbot setzt sich aus dem englischen Verb to chat (plaudern) und der Abkürzung des Begriffes robot zusammen. Chatbots gehören zur Familie der Software-Agenten und sind virtuelle Berater, die in der Lage sind auf Basis natürlicher Sprache eine Interaktion zwischen Menschen und Computer zu führen. Ein Chatbot kann zwei wichtige Aufgaben in der Kommunikation übernehmen: Er kann eingegebene Texte (oder Sprache zu Text konvertiert) von Nutzern verstehen und den Kontext eines Gesprächs mit dem Anwender verfolgen. Er kann Daten, die von Nutzern eingegeben wurden, sammeln und bearbeiten, um das bestmögliche Ergebnis auszugeben. Chatbots lassen sich generell in zwei Kategorien unterteilen (Abb. 22.3): • Regelbasiert Um eine richtige Antwort auf Fragen von Benutzern liefern zu können, greift der Chatbot auf den Algorithmus zurück, der auf Basis der implementierten Datenbank die passende Antwort gibt. Bei regelbasierten Chatbots besteht das Risiko, dass sie anders formulierte Sätze oder falsch geschriebene Wörter nicht erkennen können. Falls ein Bot so programmiert ist, dass er nur den Satz „Wie buche ich einen Raum“ verstehen kann, um Informationen über Raumbuchung bereitzustellen, der Benutzer stattdessen aber den Satz „Was muss ich tun, um einen Trainingsraum zu reservieren“ eintippt, ist der Bot nicht in der Lage dies zu verstehen oder zu erkennen. Deshalb entspricht ein regelbasierter Chatbot nicht den eingangs beschriebenen Anforderungen. • Selbstlernend Selbstlernende Chatbots funktionieren nach dem Prinzip der künstlichen Intelligenz und sind effektiver als regelbasierte Chatbots. Sie sind so programmiert, dass sie menschliche Sprache verstehen können, egal ob Sätze unterschiedlich formuliert sind oder Rechtschreibfehler enthalten. Diese Art ist intelligent genug, um Fragen und
Abb. 22.3 Schema eines regelbasierten Chatbots
410
A. A. Salah et al.
Abb. 22.4 Schema eines selbstlernenden Chatbots
ntworten zu verstehen, also einem Gespräch zu folgen. Deshalb werden in der Praxis A häufiger selbstlernende Chatbots als regelbasierte verwendet, um so einen besseren „Menschenersatz“ zu schaffen (Abb. 22.4). • Bei selbstlernenden Chatbots unterscheidet man zwischen zwei verschiedenen Arten: Suchbots und generative Bots: –– Suchbots verwenden heuristische Methoden, um eine Antwort aus einer Bibliothek von vordefinierten Replikaten auszuwählen. Diese Chatbots verwenden den Text der Nachricht und den Kontext des Dialogs, um eine Antwort aus einer vordefinierten Liste auszuwählen. –– Generative Bots können ihre eigenen Antworten erstellen und reagieren nicht immer auf eine der vordefinierten Optionen. Dies macht sie intelligent, weil diese Bots jedes Wort der Eingabe studieren und eine Antwort generieren.
22.4 Entwurf und Implementierung von K.I.D. Der im Campus 4.0 von DB Training entwickelte webbasierte Chatbot K.I.D. (Künstliches Intelligentes Dialogsystem) ist in der Lage, häufig gestellte Fragen selbstständig zu beantworten. Durch das eigenständige Lernen kann er sich ständig wechselnden Anforderungen anpassen. Mit Hilfe von neuronalen Netzen und Natural Language Preprocessing ist K.I.D. in der Lage, die Benutzereingaben zu verstehen und aus diesen zu lernen. Der Service steht dabei rund um die Uhr zur Verfügung, ermöglicht eine Kommunikation in Echtzeit und entlastet beispielsweise Mitarbeiter im Kundenservice. Dadurch gewährleisten wir eine Kostensenkung, ohne die Servicequalität zu beeinträchtigen und werden gleichzeitig den Anforderungen unserer Kunden gerecht (Abb. 22.5).
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
411
Abb. 22.5 Entwurf
22.4.1 Genutzte Bibliotheken Der Bot ist in Python und Vue.js mit Hilfe von NLTK (Natural Language Toolkit) und TensorFlow implementiert. NLTK ist eine freie Bibliothek für die Erstellung von Python-Programmen zur Verarbeitung von Daten in der Domäne der menschlichen Sprache. TensorFlow ist ein von Google ursprünglich für den internen Gebrauch entwickeltes Framework für maschinelles Lernen und Künstliche Intelligenz. Es ist unter einer Open-Source-Lizenz veröffentlicht und kann beispielsweise im Umfeld der Spracherkennung oder Bildverarbeitung eingesetzt werden.
22.4.2 Erstellung der Wissensbasis Eine Grundlage für Chatbots ist die Bereitstellung einer Wissensbasis. Im Folgenden wird gezeigt, welche Art von Daten diesem Chatbot zur Verfügung gestellt werden müssen. Da es sich hier um einen Proof of Concept handelt, benötigen wir keine großen Datensätze, daher verwenden wir eine JSON-Datei, welche die eigentliche Datenbank ersetzt. Hierfür wird immer folgendes Format verwendet:
412
A. A. Salah et al.
{"intents": [ {"tag": "greeting", "patterns":["hey", "Hallo","Na du "], "responses":["na wie kann ich dir helfen", "Hey","hi "], },{ "tag": "bye", "patterns": ["Bye","Bis spaeter","Ciao","Mach s gut"], "responses": ["Bis spaeter ","Ich wuensche Dir einen sch oenen Tag ","Tschuess, komm bald wieder! ","Auf Wiedersehen! ","Mach's gut!"] }, { ..... } ]} In der JSON-Datei liegen alle möglichen Fragen, die der Benutzer wahrscheinlich stellen wird, sowie deren Zuordnung zu einer Gruppe von geeigneten Antworten. Das Tag in der Datei zeigt die Gruppe an, zu der jede Eingabe gehört. Diese Daten werden mit NLP-Techniken bearbeitet, um sie später in ein neuronales Netz zu speisen: • Eingabe in Wörter aufteilen (Word token) Beispiel: Ich wuensche dir einen schoenen Tag →[ich, wuensche, dir, einen, schoenen, tag] Sonderzeichen entfernen Beispiel:
[ wie,kann,ich,einen,raum,buchen, ?] ® [ wie,kann,ich,einen,raum,buchen]
• Wörter auf ihren Stamm bringen (Word Stemming) Beispiel:
machen ® mach aufeinanderfolgenden ® aufeinanderfolg
Am Ende dieses Prozesses wird für jede Eingabe der sogenannte Bag-of Words-Vektor berechnet. Die Umwandlung dieser Wörter in numerische Merkmale wird als Vektorisierung bezeichnet.
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
413
22.4.3 Bag-of-Words Hier geht es darum, die Eingabe eines Benutzers einem Vektor zuzuordnen. Die Elemente dieser Vektoren sind rein binär und bestehen aus 1 und 0 (Brownlee 2019). Wie diese Zuordnung funktioniert, wird anhand eines Beispiels mit folgenden Eingaben deutlich gemacht: • • • •
It was the best of times it was the worst of times it was the age of wisdom it was the age of foolishness
Für dieses Beispiel wird jede Zeile als ein separates Dokument und die kompletten vier Zeilen als der gesamte Korpus behandelt. Nun kann eine Liste aller Wörter dieses Modellvokabulars ohne Berücksichtigung von Groß- und Kleinschreibung erstellt werden.
[it,was,the,best,of ,times,worst,age,wisdom,foolishness ]
Damit entsteht ein Vokabular aus 10 Wörtern aus einem Korpus mit 24 Wörtern. Der nächste Schritt ist die Bewertung jedes Dokuments. Das Ziel besteht darin, jedes Freitextdokument in einen Vektor zu verwandeln, der als Input für ein maschinelles Lernmodell verwendet werden kann. Da das Vokabular aus 10 Wörtern besteht, kann ein Vektor mit fester Länge von 10 Elementen verwendet werden. Jeder dieser Positionen wird ein Wort der obigen Liste zugewiesen. Die einfachste Bewertungsmethode besteht darin, das Vorhandensein eines Wortes mit Hilfe der booleschen Werte zu markieren, 0 für fehlend, 1 für vorhanden.
{it = 1, was = 1, the = 1, best = 1, of = 1, times = 1, worst = 0, age = 0, wisdom = 0, foolishness = 0} Als binärer Vektor würde dies wie folgt aussehen:
, , , , , ,0,0,0,0 ] [111111 Die anderen drei Dokumente würden wie folgt aussehen:
• it was the worst of times = [1, 1, 1, 0, 1, 1, 1, 0, 0, 0] • it was the age of wisdom = [1, 1, 1, 0, 1, 0, 0, 1, 1, 0] • it was the age of foolishness = [1, 1, 1, 0, 1, 0, 0, 1, 0, 1] Nachdem nun alle Daten verarbeitet wurden, werden diese mit einem neuronalen Netz trainiert. Am Ende der Trainingsphase entsteht ein Classifier, welcher in der Lage ist, eine Eingabe zu erkennen und zu klassifizieren.
414
A. A. Salah et al.
22.4.4 Beschreibung der Funktionalität Wie alle Bot-Programme besteht der im Campus 4.0 entwickelte Bot aus einer Pipeline von Komponenten, die einen weitestgehend linearen Ablauf der Interaktion ermöglichen. Erster und wichtigster Schritt für die Klassifikation, ist die Analyse der Eingabe durch NLP. Dabei werden die Benutzereingaben in Wörter aufgeteilt und analysiert. Unter anderem spielt der Faktor Beziehungen zwischen den Worten und Strukturen eine große Rolle. Da der Rechner Wörter der natürlichen Sprache nicht verstehen kann, wird die Eingabe mit Hilfe von Bag-of-Words als Vektor dargestellt. Dieser wird als Eingabe für ein trainiertes neuronales Netz verwendet. Dadurch wird die Eingabe klassifiziert und es erfolgt die Suche nach der passenden Antwort in der Datenbank. Hierbei wird unterschieden, ob es sich um eine Basis-Eingabe, wie zum Beispiel eine Begrüßung oder um eine fachliche Frage handelt. Wurde die entsprechende Antwort in der Datenbank gefunden, wird diese ausgegeben. Daraufhin bittet der Chatbot um ein kurzes Feedback bezüglich der Richtigkeit der Antwort. Erhält der Bot ein positives Feedback, wird die Anfrage als beendet angesehen. Sollte das Feedback negativ ausfallen, gelangt die Frage zum Admin des jeweiligen Fachbereichs. Dieser kann die Antwort dann nachbessern und neue Fragen in die Datenbank aufnehmen. Falls der Chatbot keine Antwort auf eine Frage liefert, weil er diese nicht kennt, entschuldigt er sich und nimmt die Eingabe in seine Datenbank auf. Der Admin erhält eine Nachricht mit der Aufforderung, die neu hinzugefügten Fragen in der Datenbank zu beantworten. So erweitert sich der Wissenstand vom Chatbot stetig, während die gestellten Fragen gleichzeitig helfen den Analyseprozess der Inputtexte zu verbessern, sodass K.I.D. zukünftig Fragen noch besser verstehen und beantworten kann.
22.4.5 Informationsqualität messen und verbessern in K.I.D. Für einen Chatbot wie K.I.D. ist es schwer, Fragen automatisiert anhand ihres rein textuellen Inhalts in verschiedenen Kategorien oder in Qualitätsklassen zu gliedern. Für den Bot ist eine Frage entweder mit einer gewissen Reliabilität zu beantworten oder sie ist nicht zu beantworten. Die Reliabilität hängt hierbei von verschiedenen Faktoren ab. Beispielsweise wie einfach oder komplex eine Frage gestellt wurde. Ist die Frage eventuell mehrdeutig gestellt und kann fehlinterpretiert werden? Ist die Semantik oder der Hintergrund der Frage dem System schon bekannt? Gibt es eine oder womöglich mehrere Antworten auf die Frage? Mit einigen Metriken kann man sich der Fragestellung nach der Qualität von Fragen und Antworten nähern. Die Länge der Frage bzw. Eingabe des Nutzers ist ein Indikator für die Komplexität. Die aktuelle Version von K.I.D. ist bisher nicht in der Lage komplexe Fragen zu entschlüsseln und diese zu beantworten. Um diese Situation zu vermeiden bittet K.I.D. den Benutzer am Anfang der Konversation darum, seine Fragen möglichst kurz und präzise zu formulieren (siehe Abb. 22.6).
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
415
Abb. 22.6 Begrüßung von K.I.D
Abb. 22.7 Visualisierung des Antwortprozesses
Abb. 22.8 Feedbackaufforderung an den Nutzer
Sind diese Voraussetzungen erfüllt, so kann K.I.D. innerhalb von drei Sekunden eine Antwort liefern. Währenddessen wird dem Benutzer visuell kenntlich gemacht, dass die Frage bearbeitet und nach einer passenden Antwort in der Datenbank gesucht wird (siehe Abb. 22.7). Nach Erhalt der Antwort wird der Benutzer gebeten, ein Feedback zu hinterlassen, ob die Antwort hilfreich war (siehe Abb. 22.8). Mit diesem Feedback ist die Evaluierung der Informationsqualität in gewisser Weise möglich, indem der Admin diese Rückmeldungen nutzt, um Korrekturen vorzunehmen (Abb. 22.9). Fragen, die eine negative Rückmeldung bekommen haben, werden in einer Tabelle gespeichert, um vom Administrator auf Korrektheit sowie Gültigkeit geprüft und ggf. angepasst zu werden. Zusätzlich werden Fragen, die stets positive Rückmeldungen erhalten in einer separaten Tabelle gespeichert. Sobald ein Benutzer eine inhaltlich ähnliche Frage stellt wird zuerst in dieser Tabelle gesucht, ist die Antwort dort nicht vorhanden wird in der gesamten Datenbank gesucht. In Anlehnung an das vorangegangene Kap. 2 wollen wir noch auf die vier genannten Dimensionen eingehen, um Potenziale zur Verbesserung eines Chatbots aufzuzeigen. In der ersten Dimension Zugänglichkeit ist gefordert, dass ein Chatbot direkt seine Antwort liefert, ohne dass lange Rechenzeiten vonnöten sind. K.I.D. liefert seine Antwort nach etwa 3 Sekunden, sollte sich das Antwortzeitverhalten verschlechtern, so ist dies ein Anzeichen für notwendige Verbesserungen, beispielsweise durch das Herunterbrechen von komplexen Fragen in einfache Fragen, so dass die Beantwortungszeit komplexer Fragen bestenfalls schneller vonstatten geht. Ob eine Antwort einen angemessenen Umfang besitzt, kann durch eine einfache Metrik gemessen werden. Bekommt der Nutzer eine Antwort präsentiert und stellt eine Anschlussfrage an seine erste Frage (mit ähnlicher Fragestellung), so ist davon auszugehen, dass die Antwort nicht ausreichend war und sie deshalb nicht den angemessenen Umfang
416
A. A. Salah et al.
Abb. 22.9 Feedback- Dashboard
besaß. Zusätzlich kann die oben bereits beschriebene Funktion der Rückmeldung des Nutzers ein Indiz dafür sein, dass eine Antwort nicht ausreichend war. Diese Funktion ist wiederum auch ein Indiz für die Dimension Relevanz. Gibt ein Nutzer die Rückmeldung, dass die Antwort hilfreich war, so ist davon auszugehen, dass die Relevanz gegeben ist. Stellt er wiederum eine zweite Frage mit gleichem Inhalt, nur anders formuliert, so kann man davon ausgehen, dass die Antwort nicht so war, wie es der Nutzer sich gewünscht hätte. Die Relevanz der Antwort ist dann höchstwahrscheinlich nicht gegeben. Wenn ein Nutzer eine Antwort erhalten hat und mit dieser zufrieden war, so wird er keine weiteren Fragen in diesem thematischen Bereich stellen. Sollte die Antwort verständlich sein und sollten die vorangegangenen Dimensionen positiv erfüllt sein, so sollte der Nutzer eine thematisch anders gelagerte Frage stellen oder er sollte die Kommunikation einstellen, da seine Frage beantwortet wurde. Zusätzlich kann die bereits mehrfach erwähnte Feedback-Funktion genutzt werden, um weitere Indizien für diese Dimension zu erhalten.
22.5 Evaluation Der User-Test fand online statt. Die Tester waren neue Mitarbeiter der DB Training. Der Test dauerte 15 bis 30 Minuten. Der Prototyp des Chatbots wurde als Server gestartet und den Probanden online zur Verfügung gestellt. Weiterhin erhielten sie folgende Aufgaben: • Von der Liste mit 10 Fragen, wähle 5 zufällig aus. • Stelle dem Chatbot mindestens 3 Fragen der oben ausgewählten in unterschiedlichen Formulierungen und bewerte dessen Antworten
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
417
Abb. 22.10 Testergebnisse
Um die Usability zu bewerten, sollten die Probanden einen Fragebogen mit folgenden Fragen beantworten: • Wie freundlich ist der Chatbot (Persönlichkeit)? • Wie präzise und passend sind die Antworten? • Wie menschlich ist der Chatbot? Nachdem die Testphase abgeschlossen war, wurden alle Fragebogen ausgewertet und analysiert. Dabei haben wir festgestellt, dass folgende Probleme während des Tests aufgetreten sind: • Es wurden Fragen gestellt, die fachlich mit dem Thema nichts zu tun haben. • Es wurden Fragen gestellt, die nicht präzise genug sind (z. B. Wo ist die Kantine?) • Tester haben nicht abgedeckte Formulierung verwendet (z. B. An wen muss ich mich wenden, wenn ich Visitenkarten brauche?) Trotz der genannten Probleme ist das Feedback überwiegend positiv ausgefallen. Die Idee von K.I.D. findet bei unseren Kollegen großen Anklang. Der Test hat Potenziale zur Weiterentwicklung gezeigt und neue Ideen für neue Features aufgeworfen. Mithilfe der gewonnenen Ergebnisse wird der Chatbot weiter verbessert (Abb. 22.10).
22.6 Nutzung im Bahnkontext Aufgrund der hohen Flexibilität des Chatbots lässt sich dieser leicht in andere Arbeitsbereiche und Abteilungen integrieren. Durch das Einspeisen eines neuen Datensatzes kann der Chatbot schnell an die neuen Anforderungen angepasst werden. Demnach sind die Einsatzgebiete des Chatbots nahezu unbegrenzt und er kann überall dort eingesetzt werden, wo Kommunikation zwischen Menschen stattfindet.
418
A. A. Salah et al.
22.7 Ausblick K.I.D. ist ein modularer Chatbot, der flexibel einsetzbar ist und unter den Mitarbeitern der DB Training Anklang findet. Seine aktuelle Implementierung im Campus 4.0 mit Hilfe einer eigens erstellten Datenbank lässt sich leicht auf andere Systeme übertragen beziehungsweise mit vorhandenen Suchmaschinen verknüpfen. Damit kann eine größtmögliche Abdeckung von verschiedenen Bereichen realisieren. Solch eine Kopplung mit einer Suchmaschine öffnet weitere Möglichkeiten um andere Quellen, wie beispielsweise Share points oder externe sowie interne Webseiten nach relevanten Informationen zu durchsuchen. Im Ausblick steht unter anderem die Einbettung des internen DB Navigators, der der Bereitstellung von Dokumenten und Prozessen dient, als auch die Einbettung des DB IT Helpdesks. Die genannten und beschriebenen Dimensionen sollen zukünftig nicht nur theoretisch als Indizien geführt werden, sondern es soll auch praktisch überprüft werden, ob diese Anhaltspunkte wirkliche valide Indizien für die genannten Dimensionen sind. Aktuell befindet sich zudem ein Spracherkennungsmodul in Entwicklung, um K.I.D. zukünftig ohne Eintippen einer Anfrage rein mit menschlicher Sprache bedienen zu können. Hier wurde bewusst auf eine Verwendung bereits vorhandener Spracherkennungssoftware (z. B. Google) verzichtet. Besonders firmeninterne Daten sollen nicht auf Servern Dritter gespeichert werden, weshalb eine eigene Implementierung angestrebt wird. K.I.D. wird in naher Zukunft auf der Website des Campus 4.0 gehostet, dort wird er DB-Mitarbeitern und externen Besucher zur Verfügung stehen, um Fragen aller Art über den Campus zu beantworten, dies schließt sowohl Fragen zu Raumbuchungen als auch zu Produkten ein.
22.8 Zusammenfassung An allererster Stelle des Aufgabenbereichs von K.I.D. steht die Unterstützung der Mitarbeiter während ihres Arbeitsalltags. Mit dieser Arbeit wird bewusst gemacht, wie viel Potenzial hinter der KI-gesteuerten Unterstützung steckt. Wir werden in naher Zukunft immer mehr mit Softwareagenten zu tun haben, die auf künstlicher Intelligenz basieren. Nicht nur am Arbeitsplatz, sondern auch im Alltag, wie es ja teilweise mit Siri oder Alexa schon der Fall ist.
Literatur Ethem Alpaydin. Introduction to machine learning. MIT Press, 2020. Steven Bird, Ewan Klein und Edward Loper. Natural Language Processing with Python, O’Reilly and Associates, 2009. Alexander Braun. Chatbots in der Kundenkommunikation. Springer-Verlag, 2013.
22 Informationsqualität und Digitale Assistenzsysteme: Ein Laborbericht aus dem …
419
Jason Brownlee. “A Gentle Introduction to the Bag-of-Words Model”. In: Deep Learning for Natural Language Processing, Develop Deep Learning Models for your Natural Language Problems, https://machinelearningmastery.com/gentle-introduction-bag-words-model/, 2019. Randall J Erb. “Introduction to backpropagation neural network computation”. In: Pharmaceutical research 10.2 (1993), S. 165–170. Günther Görz und Josef Schneeberger. Handbuch der künstlichen Intelligenz. Walter de Gruyter, 2010. Im Blickpunkt: Informationsqualität im Internet, Ministerium für Bundesangelegenheiten, Europa und Medien des Landes Nordrhein Westphalen (2012). https://imblickpunkt.grimme-institut.de/ wp/wp-content/uploads/2014/12/IB-Informationsqualitaet-im-Internet.pdf Jan P. Rohweder, Gerhard Kasten, Dirk Malzahn, Andrea Piro, Joachim Schmid. Informationsqualität – Definitionen, Dimensionen und Begriffe. In: Hildebrand, Knut; Gebauer, Marcus; Hinrichs, Holger; Mielke, Michael (Hrsg.), Daten- und Informationsqualität: Auf dem Weg zur Information Excellence, 3. Aufl., Springer Vieweg, Wiesbaden 2015, S. 25–46. Michael Mielke. „Informationsqualität im Jahre 2020“, 2006. dgiq e.V. 2006. Michael Mielke: Datability? Weniger Begriffe – mehr Mut und Anpacken bitte! HMD Praxis der Wirtschaftsinformatik 51(6): 853–864 (2014). Nasser M Nasrabadi. “Pattern recognition and machine learning”. In: Journal of electronic imaging 16.4 (2007), S. 049901. https://spie.org/Publications/Journal/10.1117/1.2819119?SSO=1 Tim Schulte, Dirk Zimmermann und Claudia Müller. Einsatzmöglichkeiten von Chatbot- Interaktionen im schriftlichen Kundenservice. In: Hess, S. & Fischer, H. (Hrsg.), Mensch und Computer 2018 – Usability Professionals. Bonn: Gesellschaft für Informatik e.V. und German UPA e.V., S. 395–404 (2018). DOI: https://doi.org/10.18420/muc2018-up-0281 Haykin Simon. Neural networks: a comprehensive foundation. Prentice Hall, 1998.
Datenqualitäts-Modell der Volkswagen Financial Services AG
23
Helena Moser
23.1 Einleitung Im Rahmen der Vertriebsaktivitäten und der umfangreichen rechtlichen und regulatorischen Anforderungen u. a. Basel II hat die Volkswagen Financial Services AG (nachfolgend VW FS AG) beschlossen, dem Thema Datenqualität und Datenqualitätsmanagement, insbesondere unter dem Blickwinkel der Konzern Leitlinien Kundennähe, Schaffung von Werten und Höchstleistung, eine hohe Priorität einzuräumen. Die VW FS AG möchte sich dem Thema Drittmarkt/Drittmarktfähigkeit öffnen. Einzelne Dienstleistungen bzw. Prozesse bis hin zu komplexen Geschäftsbereichen sollen drittmarktfähig gemacht werden, um die VW FS AG in die Lage zu versetzen, als Serviceprovider für diese Prozesse am Markt aufzutreten. Deshalb hat die Datenqualität neben der rechtlichen und regulatorischen Komponente eine herausgehobene Stellung. Die Volkswagen Financial Services AG Die VW FS AG ist verantwortlich für die Koordination der weltweiten Finanzdienstleistungsaktivitäten des Volkswagen Konzerns. Über Beteiligungen und Dienstleistungsverträge ist die VW FS AG weltweit mit Gesellschaften in 36 Ländern verbunden. Ziel ist die Ausschöpfung aller Finanzdienstleistungs- Potenziale entlang der automobilen Wertschöpfungskette im Volkswagen Konzern. In der nachfolgenden Auflistung soll ein grober Überblick über die derzeitigen Leistungen der VW FS AG geben werden (Stand März 2007).
H. Moser (*) Volkwagen Bank GmbH, Braunschweig, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_23
421
422
H. Moser
Finanzdienstleistungen: Kredit/Leasing • Europas führender automobiler Finanzdienstleister in einem skalengetriebenen Geschäftsmodell (29 Länder weltweit, 18 in Europa) • 4,5 Mio. Verträge (inkl. Versicherung) • ‚State-of-the-Art‘-Produktportfolio Versicherungsgeschäft • Europas größter automobiler Versicherungsmakler • Skalengetriebenes Geschäftsmodell • Weltweit 1,8 Mio. Verträge im Bestand • Innovationsführer bei den Kfz-Versicherungs- und Paketprodukten Paketlösungen • Verbindung von Kredit/Leasing mit Versicherung/Service zu einer festen Rate • ‚Cost of Ownership‘ im Verkauf immer wichtiger Finanzdienstleistungen: Händlerfinanzierung • Finanzierung von Beständen bei Konzernhändlern in Höhe von 7 Mrd. € • Unternehmensfinanzierung für Händler • Entscheidender Erfolgsfaktor für ein funktionierendes Franchise-Netz Flottenmanagement • Volkswagen Leasing ist Europas größtes ‚captive‘ Flottenmanagement-Unternehmen • LeasePlan ist Europas größtes/weltweit zweitgrößtes Mehr-Marken-Flotten-Management-Unternehmen (in 28 Ländern vertreten) • 1,6 Mio. Fahrzeuge werden verwaltet (‚Captive‘- und Mehr-Marken-Geschäft) ‚Captive‘-Geschäft: Volkswagen Leasing ‚Non-Captive‘-Geschäft: LeasePlanCorporation (LPC) Direktbank-Geschäft • Die VW Bank als eine der größten deutschen Direktbanken ermöglicht der VW FS AG kostengünstige Refinanzierungskonditionen durch Kundeneinlagen • Eine breite Produktpalette fördert die Kundenloyalität und -bindung • Die VW Bank hat 641.000 Kunden mit Einlagen in Höhe von 8,8 Mrd. € Dieser Beitrag informiert, wie die VW FS AG das Thema Datenqualität positioniert hat und mit praktikablen Ansätzen die Datenqualität halten und verbessern will. Zum Thema Datenqualität wurde ein unternehmensweites Projekt initiiert. Die Projektphase und Ergebnisse werden in diesem Betrag vorgestellt.
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
423
23.2 D as Projekt „Datenqualität Strukturen/Standards und Drittmarktfähigkeit“ 23.2.1 Warum ist Datenqualität nötig? Die Geschäftspartnerstammdaten (wie Name, Anschrift, Geburtsdatum, etc = Bestandsdaten) werden für die VW FS AG und deren Tochtergesellschaften in einem zentralen Geschäftspartnersystem (nachfolgend ZGP) angelegt und gespeichert. Die so genannten „Bewegungsdaten“ (Vertragsdaten) werden in den Vertragsführenden Systemen geführt. Wird ein Geschäftspartner im ZGP nicht korrekt erfasst oder die Prüfung, ob der Geschäftspartner bereits angelegt ist, unterlassen, entsteht eine Dublette. Das heißt, ein Kunde ist im Unternehmen mehrfach vorhanden, vielleicht mit abweichenden Namen, Geburtsdatum oder Adresse. Im Rahmen von Cross Sell Maßnahmen wird er so eventuell mit einem Produkt beworben, das er bereits besitzt. Die Folgen sind unnötige Portokosten, erhöhter Arbeitsaufwand und fehlerhafte Auswertungen. Die Auswirkungen schlechter Datenqualität sind weitreichend. Eine unzureichende Datenqualität erhöht das Risiko von Fehlentscheidungen (Analyse und Report-Ergebnisse), vermindert die Schlagkraft in Marketing und Vertrieb, verhindert eine korrekte Berichterstattung (Basel II, MAK) und führt schließlich zu verärgerten Kunden.
23.2.2 Projektauftrag Der Auftrag besteht aus zwei Themenblöcken, die nach der Zieldefinition in ein unternehmensweites Projekt unter dem Titel „Datenqualität Strukturen/Standards und Drittmarktfähigkeit“ zusammengefasst wurden.
23.2.2.1 Erster Themenblock Erarbeitung der notwendigen Prozesse, Standards, Verantwortlichkeiten und ggf. Strukturen zur dauerhaften Verbesserung der Datenqualität. 23.2.2.2 Zweiter Themenblock Analyse und Bewertung der existierenden Kundendatenhaltungs-Lösung nach den Kriterien 1. der Abbildbarkeit der Anforderungen z. B.: Datenschutz, Datennutzung, Risiko Management, Basel II, Geldwäschegesetz, Marketing, Vertriebssteuerung/-reporting und unterschiedlicher Geschäftsfelder (Bank, Leasing, Versicherungen) bei einer gemeinsamen Haltung der Kundendaten in einem System. 2. der Zweckmäßigkeit vor dem Hintergrund der gesellschaftsrechtlichen Struktur des FS-Teilkonzerns im Vergleich zu anderen Lösungen.
424
H. Moser
3. einer möglichen Nutzung der zentralen Kundendatenhaltung für die Kunden Dritter im Zusammenhang mit der Durchführung von Dienstleistungen für diese Unternehmen durch uns.
23.2.3 Projektziel Schaffung von Zuständigkeiten über ein zentrales Datenqualitätsmanagement und dezentralen Daten Owner eines Geschäftsbereiches zur Entwicklung und Optimierung qualitätssichernder Standards für Kunden- und Produktdaten zur Verbesserung der Datenqualität in der VW FS AG Deutschland. Die User werden in der Datenanwendung (Anlage, Änderung und Historisierung) unterstützt.
23.2.4 Ist-Analyse 23.2.4.1 Drittmarkt Um den aktuellen Status in Bezug auf Drittmarkt/Drittmarktfähigkeit und Datenqualität/ Datenqualitätsmanagement zu analysieren und aktuelle Entwicklungen aufzunehmen, wurden Interviews mit für dieses Thema relevanten Ansprechpartnern, i. d. R. Führungskräften, durchgeführt. Zusätzlich wurde das im Rahmen von Datenqualität wichtige Thema Drittmarkt/Drittmarktfähigkeit untersucht. Die Interviews ergaben zu diesem Thema, dass die unterschiedlichen Gesprächspartner auch unterschiedliche Auffassungen über die Definition Drittmarkt sowie die Erwartungen und Anforderungen an eine Drittmarktfähigkeit hatten. Im Wesentlichen lassen sich hierbei folgende Auffassungen unterscheiden: • Drittmarkt als Aktivität außerhalb der FS AG • Drittmarkt als Aktivität außerhalb der eigenen Gesellschaft (Bank) • Drittmarkt als Aktivität mit Dritten (analog heutiger Kooperationsmodelle Allianz, ADAC) Innerhalb des Projektes wurde eine, den Anforderungen der VW FS AG entsprechende Definition erarbeitet.
23.2.4.2 Datenqualitätsanspruch Hinsichtlich eines Datenqualitätsanspruchs können aus den Interviews folgende, wesentliche Ansprüche an die Datenqualität abgeleitet werden: • Übergreifende Beschreibung von Datenfeldern, einheitliches Mapping der Felder • Definition einer Dateneigentümerschaft der vorgehaltenen Daten
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
425
• Festlegung von Hierarchien innerhalb der vorgehaltenen Daten • Schutz von Daten über eingeschränkte Datensichten geregelt durch ein Benutzerberechtigungskonzept Um einen einheitlichen Qualitätsanspruch an die Datenerfassung, sowie an die Datenhaltung zu gewährleisten, muss ein einheitlicher Terminus innerhalb der Systemlandschaft erzielt werden, um versehentliche Missverständnisse innerhalb der Kommunikation zwischen verschiedenen Projektteams auszuschließen. Festgestellt werden konnte, dass der Datenqualitätsanspruch in den Fachbereichen oft an zweiter Stelle steht und die Verarbeitung von Daten nicht unter Qualitätsaspekten sondern unter Kostenaspekten gesehen wird. Anstatt Datenfelder richtig zu füllen werden z. B. 0-Werte eingetragen, um Prozesse schnell und kostengünstig zu gestalten. Die Auswirkungen des „Missbrauchs“ der Datenfelder werden von den bearbeitenden Abteilungen nicht berücksichtigt/verfolgt und sind oftmals nicht bewusst (Datenschutzrechtlich kritisch, Auswirkungen z. B. im Basel II, Reports, Marketing).
23.2.4.3 Verantwortlichkeiten Es besteht keine definierte Verantwortlichkeit für neu erfasste Daten. Speziell im Bereich der Fehlerbehebung ist keine klar definierte Zuständigkeit erkennbar. Datenqualitätsprobleme werden bedingt von denjenigen bereinigt, die das Qualitätsdefizit entdecken. Auskunftsgemäß sind jedoch einige dieser Defizite speziell im Bereich der Datenauswer tungen nicht zu klären, da keine fachliche Verantwortung für die Daten vorliegt. Verantwortlichkeiten liegen nur im Rollen- und Berechtigungskonzept des ZGP Systems. 23.2.4.4 Kunden Im Wesentlich kann die Definition Kunde unabhängig von den einzelnen Produkten und Geschäftsprozessen organisatorisch wie folgt abgegrenzt werden: • Konzernexterne (Externe) • Konzerninterne (Gesellschaften und Mitarbeiter der VW AG) • Unternehmensinterne (Mitarbeiter der FS AG) Je nach Art und Geschäftszweck der Fachabteilung ergeben sich hierbei unterschiedliche Adressaten und Kundenkreise.
23.2.5 Prozessanalyse Im Rahmen des Projektes wurden die Inputkanäle, deren Kern-Geschäftsprozesse und die Überführung der Daten in das Zentrale Geschäftspartner System für die Geschäftsfelder der
426
H. Moser
• VW Bank GmbH • VW Leasing GmbH • Volkswagen Versicherungsdienst GmbH (VVD) betrachtet. In Bezug auf das Stammdatenmanagement können drei Kernprozesse unterschieden werden: • Neuanlage eines Kunden • Änderung eines Kunden • Historisierung eines Kunden Dabei ergeben sich basierend auf dem vom Kunden nachgefragten Dienstleistungs- Spektrum (Bank, Leasing, Versicherung) individuelle Anforderungen an das Stammdatenmodell bzw. das daraus resultierende Datenqualitätsmanagement. Grundsätzlich kann festgehalten werden, dass aufgrund hoher rechtlicher sowie aufsichtsrechtlicher Anforderungen, die durch die Bank zu haltenden Stammdaten die höchste Komplexität bzw. den höchsten Detaillierungsgrad besitzen, gefolgt von Leasing und Versicherung. Weiterhin wurden die möglichen Wege der Stammdatenanlage, -änderung und -löschung untersucht und mit den Arbeitsanweisungen im Organisationshandbuch verglichen.
23.2.6 Sollkonzept Es wurde ein Datenqualitäts-Modell erarbeitet, dass ein zentrales Datenqualitätsmanagement (DQM) und dezentrale Verantwortlichkeiten (Data Owner) für Datenqualitätsstandards (DQS), die für unterschiedliche Geschäftsbereiche spezifisch sein können, ermöglicht. Der Data Owner bildet die Brücke zwischen den Qualitätsansprüchen/-erfordernissen der Geschäftsbereiche, den Datennutzer und den Prozess-Usern. Der User erhält eine technische Unterstützung, die kundenspezifisch die Datenqualitätsansprüche vom Data Owner anzeigt. Grundlage ist ein Ranking und Regelwerk. Transparente Datenqualitätsstandards und ein Ranking ermöglichen kostengünstige Prozesse. Im Sollkonzept wurden Datenqualitätsziele beschrieben und eine Infrastruktur mit Verantwortlichkeitsbereichen und Kompetenzen für bestimmte Daten vorgeschlagen.
23.2.6.1 Ausrichtung Datenqualität Durch die Etablierung der Strukturen und Standards soll die Datenqualität der Kundenstammdaten gesteigert werden. Darüber hinaus wird damit der Kundenservice verbessert bzw. rechtliche und regulatorische Rahmenbedingungen eingehalten. Das entwickelte Datenqualitäts-Modell (nachfolgend DQ-Modell) berücksichtigt die Dateneigentümerschaften, Datenhaltungs- und Datennutzungsrechte und bildet so die Grundlage für drittmarktfähige Prozesse. Das DQ-Modell dient der
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
427
• Reduzierung der Abbrüche von maschinellen Neuanlageprozessen (z. B. hoher Dublettenaufbau durch Fehlerfassung, Sondergruppen) • Einhaltung der Datenschutzbestimmungen • Einhaltung der Kooperationsverträge, z. B bezüglich Werbeaktionen • Sicherstellung der internen Steuerungsfähigkeit (Entscheidungen basieren auf aus Datensicht korrekten Reports) • Erfüllung der aufsichtsrechtlichen und legislativen Anforderungen, unter anderem: –– KWG § 25a, Abs. 1 –– KWG § 24c –– MaRisk –– Basel II –– Geldwäschegesetz § 14 –– GoB • Verbesserung der Kundenzufriedenheit (Mehrfachansprachen und fehlerhafte Ansprachen werden vermieden) • Verbesserung der Vertriebsleistung/Stärkung der Vertriebsfähigkeit der VW FS AG • Begrenzung von Betriebsrisiken (z. B. Betrugsfälle, Imageschäden) • Reduzierung der Prozesskosten (z. B. Insolvenzrecherche, Dubletten) • Reduzierung von Korrekturmaßnahmen (Bestandsbereinigung)
23.2.6.2 Ausrichtung Drittmarktfähigkeit Um Drittmarktfähigkeit zu erreichen, müssen unterschiedliche Voraussetzungen erfüllt werden, die nachfolgend beschrieben werden: Strategische Ebene • Klarer Fokus was wir wollen/was wir können • Konzentration auf Kernkompetenz • Vorgabe klarer Rahmenbedingungen für den Outsourcer Operative Ebene • • • • •
Prozesse schlank und standardisiert Einfach gestaltete Prozesse End-to-End Sicht auf Prozesse Schaffung klarer Zuständigkeiten und Verantwortlichkeiten Klar definierte Schnittstellen (In-/Outsourcer) Technische Ebene
• Zukunftsfähige Plattform • Offenes System (Schnittstellen müssen leicht programmierbar sein) • Mehrmandantenfähigkeit
428
H. Moser
• Nutzerfreundliche selbsterklärende Menüführung • Leistungsstarke Reportingengine Steuerung • Klare Definition Service-Level Agreements. Vereinbarung nachvollziehbarer, messbarer Key-Performance-Indikatoren • Implementierung entsprechender Reporting- und Controlling Instrumente Rechtliche/Regulatorische Ebene • Einhaltung aller notwendigen rechtlichen Anforderungen insbesondere KWG, Datenschutz, GWG, Compliance • Einhalten aller aufsichtsrechtlichen Anforderungen insbesondere aus MaRisk, Basel II, SolvV
23.2.6.3 Aufbau-/Ablauforganisation Ein Qualitätsmanagementmodell umfasst in der Aufbau- und Ablauforganisation, die Zuständigkeiten, Prozesse und Mittel für die Qualitätssicherung. Es stellt sicher, dass in allen Bereichen geeignete Prozesse, Richtlinien, Pläne sowie Test- und Prüfverfahren etabliert sind, die die geforderte Datenqualität gewährleisten. Hierzu ist eine ständige Überprüfung, Analyse und Verbesserung der gewählten Maßnahmen und durchzuführenden Prozesse erforderlich. Die zur Erreichung von Datenqualität notwendigen Aktivitäten wurden hier auf der operativen Ebene beschrieben.
23.2.7 D as Datenqualitäts-Modell und deren Zuständigkeiten (Abb. 23.1) 23.2.7.1 Datenqualitätsmanagement (zentrales DQM) Aufbauorganisatorisch sollten die Aufgaben des Datenqualitätsmanagement in der Zuständigkeit einer zentralen Einheit bestehen. Das DQM koordiniert die Wünsche von verschiedenen Interessenvertretern, z. B. Externe Kunden: • „Endkunden“ • Kooperationen (Partner, Kunden) • Drittmarkt (Kunden, Kunden der Kunden)
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
429
Abb. 23.1 Das Datenqualitäts-Modell
Interne Kunden: • • • • • • •
Client Service Projekte Produktmanagement Management Marketing/CRM Interne Revision Finanzen/Meldewesen (Tab. 23.1).
23.2.7.2 Data Owner (dezentral) Unter dem Data Owner wird die umfassende Verantwortung eines Fachbereichs für Datenqualitätsstandards und Dateninhalte verstanden. Der Data Owner hat die fachliche
430
H. Moser
Tab. 23.1 Kernaufgaben zentrales DQM Aufgabe Qualitätsplanung
Rechte • Rechtliche und regulatorische Vorgaben aufnehmen • Anforderung an die Stammdatenqualität festlegen
Pflichten • Ganzheitliche Sicht zur Berücksichtigung und Einhaltung der rechtlichen und aufsichtsrechtlichen Anforderungen • Abstimmung mit den betroffenen Einheiten, Bedürfnisse und Erwartungen erfassen • Vorgaben transformieren, Qualitätsmerkmale auswählen, klassifizieren und gewichten • Kommunikation – Weitergabe von Informationen, die die Kundendaten betreffen Qualitätslenkung • Maßnahmen zur Erreichung • Prozesskenntnis der Prozesskonformität • Messen der Stammdaten- und ergreifen Prozessqualität Qualitätssicherung • DQ-Maßnahmen zur • Strukturelle Unterstützung der Risikominimierung ergreifen Qualitätsplanung und -lenkung • Risikoanalyse • Fehleranalyse • Überwachung und Weiterentwicklung des DQ-Modells Qualitätsverbesserung • Vorgabe Qualitätsverbesserung • DQ-Controlling • Prüfen von Anfragen/Vorschläge • Initiierungsbefugnis zur von Data Owner und Client Owner Umsetzung centerübergreifender DQ- Maßnahmen Organisation • Regelungsgeber • Erkennen und Nutzen von Synergien zwischen den verschiedenen DO (Framework)
Kompetenz, Dateninhalte auf Produktebene zu definieren. Die Dateneigentümerschaft hat verpflichtenden Charakter. Den Dateneigentümern entstehen Rechte und Pflichten (Tab. 23.2).
23.2.7.3 Client Owner (dezentral) Unter dem Client Owner (CO) wird die rechtliche Eigentümerschaft für bestimmte Kunden oder Kundenkreise verstanden. Der CO kann die Nutzungshoheit über diese Kunden oder Kundenkreise bestimmen. Durch Einbeziehung der Client Owner in unternehmensweite Standards entstehen Rechte und Pflichten (Tab. 23.3). 23.2.7.4 Client Service (Benutzergruppen) Benutzergruppen sind Gruppen, die über ein Rollen- und Berechtigungskonzept nach Vorgabe der Client Owner die Nutzungsrechte an einem Kunden haben (Tab. 23.4).
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
431
Tab. 23.2 Kernaufgaben Data Owner Aufgabe Konkrete Umsetzung DQM Konzept
Qualitätslenkung
Rechte • Entwicklung/Optimierung Datenqualitätsstandards unter Berücksichtigung der fachlichen Bedürfnisse in Abstimmung mit dem DQM und Client Services • Arbeitsanweisungen entwickeln • Qualitäts-Prozesse mitgestalten • Definition von Feldinhalten
Pflichten • Umsetzung der Vorgaben des zentralen DQM • Kommunikation
• Qualitätsprüfungen: Überwachung der Einhaltung der Qualitätsstandards auf Client Service Ebene für eigene Daten Ownerschaft • Kenntnis der Produkte, um Risiken zu erkennen • Überwachung und Weiterentwicklung des DQ-Modells
Qualitätssicherung
• Qualitätssicherungsmaßnahmen vorgeben, um Risiken zu bekämpfen
Qualitätsverbesserung
• Verbesserungsprojekte umsetzen lassen (z. B. Bestandsbereinigung vornehmen lassen) • Vorgaben gegenüber Client Service • Kommunikation und bzgl. Datenqualitätsstandards, Teilnahme im DQ Zirkel Dateninhalte • Einbeziehen des DQM und Mitteilungspflicht
Organisation
Tab. 23.3 Kernaufgaben Client Owner Aufgabe Umsetzung DQM Konzept
Rechte • Bestimmung Vorgaben und Überwachung von Nutzungsrechten
Pflichten • Überwachung der Einhaltung der Rollenkonzepte auf Client Service Ebene • Informationspflicht bei Änderung/Anpassung von Nutzungsrechten
Qualitätsverbesserung • Verbesserungsprojekte umsetzen lassen (z. B. Bestandsbereinigung „seiner“ Kunden vornehmen lassen) Organisation • Vorgaben bzgl. Berechtigungsgruppen/Nutzer
23.2.7.5 Freigabe- und Eskalationsprozesse Der Eskalationsprozess beschreibt die Kommunikationswege sowie den Eskalationszeitrahmen und die Ansprechpartner beim Auftreten eines DQ-Problems. Der Eskalationsprozess tritt vor allem dann ein, wenn zur Klärung eines DQ-Problems keine Lösung (z. B. zwischen zwei Daten Ownerschaften) gefunden werden kann. Jede Eskalations-
432
H. Moser
Tab. 23.4 Aufgaben Client Service Aufgabe Umsetzung DQM Konzept
Rechte • Kann Anforderungen stellen bzgl. benötigten Standards, etc. • Data Input, Neuanlage/ Änderungen von Kundendaten
Pflichten • Umsetzung Vorgaben zentrales DQM und DO • Information an DO und zentrales DQM bei Inplausibilitäten, fehlenden Feldern/ Standards, etc.
ebene hat die Aufgabe, schnellstmöglich die Ursache zu beseitigen. Sollte dies nicht möglich sein, so ist das Thema unverzüglich in die nächste Ebene zu eskalieren. Der Eskalationsprozess basiert auf drei definierten Eskalationsstufen: 1 . Adressierung & Klärung (über vorgeschriebene. Kommunikationswege), 2. Ersteskalation und 3. Krise (Vorstandsbeschluss) Weiterhin ist in den Freigabe- und Eskalationsprozessen die Budgetverantwortung definiert. Diese Prozesse ermöglichen dem DQM, den Daten Owner und den Operativen Bereiche eine effiziente Klärung und Bereinigung von DQ-Problemen.
23.2.8 Das Datenqualitäts-Modell und sein Regelwerk Das Regelwerk beschreibt, wie jedem Kunden der gültige Datenqualitäts-Standard zuordnet und anzeigt wird. Der dezentrale Data Owner (fachliche Zuständigkeit) definiert die Qualitätsstandards. Jeder Kunde wird einer Data Ownerschaft und somit bestimmten Qualitätsstandards zugeordnet. Diese Zuordnung ermittelt sich aus den Produkten, die der Kunde in Anspruch nimmt bzw. in Beziehung steht (z. B. Kontoinhaber, Vollmachtnehmer, gesetzlicher Vertreter). Unter Beziehungen werden im Projekt Kunden im „weiteren Sinne“ verstanden, z. B. gesetzl. Vertreter, Vollmachtnehmer, Kontoinhaber, Bürge, Fahrzeughalter, abweichender Kontoinhaber, Ehegatte, Bankbevollmächtigte. Ein Kunde kann Produktkombinationen unterschiedlicher Gesellschaften (z. B. Finanzierung/Leasing und Versicherung) haben. Es besteht ein Zusammenhang (1:1 Beziehung Kunde und Data Ownerschaft) zw. Produkt einer Gesellschaft sowie Produkt eines Kunden. Für die Eindeutigkeit der Daten Ownerschaft ist das generelle Ranking (Gesellschaften Bank, Leasing, VVD) und die Produkte und Beziehungen einer Gesellschaft ausschlaggebend. Aus der Produktklassifizierung/-schlüssel und dem zuständigen Geschäftsbereich ergibt sich die eindeutige Data Ownerschaft und somit die für den Kunden geltenden Qualitätsstandards. Diese Qualitätsstandards werden, wo erforderlich, auf Feldebene beschrieben und im System abgebildet.
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
433
Sofern bei einem Bestandskunden ein Produkt und/oder eine Beziehung hinzu kommt bzw. sich verändert, wird der Qualitätsstandard geprüft und ggf. angepasst. Dieser Prozess erfolgt maschinell und wird als Wanderung bezeichnet. Welche Veränderungen zur maschinellen Anpassung der Anzeige einer Data Ownerschaft und deren Qualitätsstandards führen, wurden in Produkt- und Beziehungstabellen definiert (neue Vertragsabschlüsse, bestehender Vertrag wird z. B. inaktiv). Eine Anzeige des Standards erfolgte in der ersten Projektphase bei den Prozessen: Geschäftspartner -Suche, -Anlegen, -Änderung und -Historisierung der Daten (Abb. 23.2).
23.2.9 Monitoring/Reports Es muss sorgfältig entschieden werden, mit welcher Methode man die Daten qualitativ verbessern möchte. Man unterscheidet dabei zwischen Korrekturmaßnahmen (Fehlererkennung und -korrektur) und Präventivmaßnahmen (Prozesskontrolle und Verbesserung, Prozess Design). Das nachträgliche Bereinigen von Daten im Rahmen eines Data-Cleansing-Prozesses ist zwar eine weit verbreitete Methode, die aber sehr kostenintensiv ist und gänzlich versagt, wenn Daten nicht vorhanden sind, widersprüchlich oder falsch sind. Deshalb und gemäß den Anforderungen aus der Interviewphase wird in diesem Sollkonzept zur Datenqualität auf die Präventivmaßnahmen eingegangen, also auf Verfahrenskontrolle und Verbesserung. Die Präventivmaßnahmen folgen der Aufbau- und Ablauforganisation. Die Datenqualitätsmessung besteht aus folgenden vier Grundelementen (Abb. 23.3):
1.
Gesellschaft
Kundengruppe
Bank
1a) 1b) 1c)
2.
Leasing
2a) 2b)
3.
VVD
3)
4.
Drittmarkt/Kooperationspartner
4)
Abb. 23.2 Zuordnung der Qualitätsstandards über ein Regelwerk
Abb. 23.3 Grundelemente der Datenqualitätsmessung
434
H. Moser
Durch das Reporting und die Visualisierung über Dashboards wird für das zentrale DQM und die Daten Owner deutlich, wo Standards nicht erreicht werden, wo Ausnahmen/ Besonderheiten vorliegen und wo Handlungsbedarf und Problemlösungen gefragt sind. Die neuen Zuständigkeiten formulieren und adressieren auf dieser Basis die notwendigen Maßnahmen. Dies erfolgt im Rahmen ihrer definierten Aufgaben und wird unterstützt durch den festgelegten Eskalationsprozess. Die Datenqualitätsmessung erfolgt einerseits aufgrund von automatisierten regelmäßigen Qualitätskontrollen, bzw. andererseits aufgrund von Ad-hoc Anfragen, die sowohl von Seiten des zentralen DQM als auch auf Anforderung von anderen Geschäftsbereichen, respektive Daten Owner erfolgen kann. In regelmäßigen, kurzen Abständen wird die Qualität relevanter Datenfelder (Pflichtfelder und weitere vom zentralen DQM festgelegte relevante Felder) gemessen. Hier soll eine Messung erfolgen, deren Ergebnis eine Aussage darüber treffen lässt, mit welcher Qualität und bis zu welchem Grad Felder gefüllt sind und gefüllt werden. Eine weitere wichtige Messung ist die permanente Auswertung der Dubletten. Hier wird unterschieden, welche Dubletten zu der Dublettenmenge „gewollte Dubletten“ gehört und welche Dubletten „echte“ Dubletten sind, die aus Datenqualitätssicht unbedingt bereinigt werden müssen. Bei der Messung der Dubletten spielen das Entstehungsdatum und vor allem auch der Entstehungsort eine große Rolle, um die Ursachen und die verursachenden Bereiche herauszufinden. Ad-hoc Messungen ergeben sich meist aus aktuellen Anlässen, die sich entweder aus dem Tagesgeschäft, aus Projekten oder sonstigen Ereignissen ergeben, die es nötig machen Qualitätsaussagen bezügliche bestimmter Daten zu machen.
23.2.10 Realisierungs- und Einführungsphase Der Aufbau des Regelwerkes erfolgt im DataWarehouse. Hier erfolgt die Zuordnung des Kunden zu einer Daten Ownerschaft. Die generierte Information wird in den ZGP transportiert und den Anwendern angezeigt. Neben der IT-Realsierung werden in dieser Phase u. a die Tests, die Kommunikation, Schulung erarbeitet und durchgeführt, die Arbeitsanweisungen eingeführt, die Reports und Kennzahlen für das Monitoring aufgebaut, der Change Prozess verstärkt und der Support ausgeplant. Go live der ersten Phase erfolgte im Herbst 2007, bis Ende des Jahres fanden der Support und Change Requests (stetige Optimierung) statt. In der ersten Projektphase wurden ausschließlich für bestimmte Kundenstammdaten Qualitätsstandards definiert und sowohl in der Bestandbearbeitung als auch in der Inputdatenbearbeitung (Neuanlage eines Kunden) angezeigt. Der Fokus liegt hier auf den kritischen Datenfeldern, so dass bereits früh mit einer verbesserten Datenqualität zu rechnen ist. In den Folgephasen werden weitere Kundengruppen, weitere Datenfelder auch aus den operativen Systemen (Vertragssysteme) untersucht.
23 Datenqualitäts-Modell der Volkswagen Financial Services AG
435
23.3 Fazit Das Projekt startet bewusst mit der Schaffung von Zuständigkeiten, da so Verantwortlichkeiten, Standards, Prozesse und ein Bewusstsein für Datenqualität aufgebaut werden, die präventiv wirken. Datenqualitätsprobleme sind adressierbar und werden im Vorfeld verhindert bzw. Fragestellungen geklärt. Maßnahmen, die der Bereinigung schlechter Datenqualität dienen, laufen zum Teil parallel, zum Beispiel getrieben aus den Anforderungen Basel II oder der allgemeinen Dublettenproblematik. Mit den Projektphasen wurde weiterhin ein pragmatischer und ressourcengetriebener Ansatz gewählt, um den neu benannten Data Owner und der zentralen Zuständigkeit DQM die Möglichkeit zu geben, in die Thematik und ihre Aufgaben rein zuwachsen und auch die einzelnen Entwicklungsstufen (Projektphasen) mit den Anwender zu erproben. Auch diese Vorgehensweise unterstützt den Prozess des Datenqualitätsbewusstseins. Datenqualität ist eine Daueraufgabe. Im Rahmen einer unternehmensweiten Studie wurden weitere Betätigungsfelder zur Optimierung der Datenqualität formuliert, die sukzessiv über die aufgebauten Zuständigkeiten aufgegriffen werden und neben den neuen Daueraufgaben über Teilprojekte in die Realisierung gehen. Eine notwendige Maßnahme zur Unterstützung des Datenqualitätsmanagements ist die Sensibilisierung aller Mitarbeiter, insbesondere der Datenerzeuger bzw. der Fachbereiche für dieses komplexe Thema. Ein Datenqualitätsbewusstsein wird verstärkt durch konkrete Maßnahmen bspw. die Einführung von Incentives für hohe Datenqualität oder die Aufnahmen von Datenqualitätszielen in die Balance Scorecard. Auch durch eine Offenlegung von tatsächlichen Qualitätsproblemen und deren Auswirkungen kann ein stärkeres Bewusstsein für die Problematik geschaffen werden. Allen, die sich der Thematik stellen, wünsche ich viel Erfolg! (Helena Moser, Projektleiterin in 2007)
Helena Moser ist 1965 geboren. Ihr beruflicher Werdegang beginnt mit der Bankausbildung und der Weiterbildung zur Bankfachwirtin bei der Norddeutschen Landesbank. Nach einer Zeit als Kunden-beraterin wechselte sie in den strategischen Bereich Produktmanagement und verantwortete den Jugendmarkt. Seit 1991 ist sie bei der Volkswagen Financial Services AG in Braunschweig tätig und arbeitete an der Entwicklung und Umsetzung neuer Geschäftsfelder. Sie baute den Bereich Direkt-marketing in der Volkswagen Bank mit auf und übernahm bis Ende 2000 die Leitung. In ihrer Zeit als Projektmanagerin erwarb sie detaillierte Kenntnisse und Erfahrungen aus der Leitung geschäftsfeld-übergreifender Projekte wie CRM, Datenschutz, Data Mining Tool, Kundenwertsteuerungs-Modell und Datenqualität. Insbesondere nach der Leitung des operativen Bereiches Forderungsmanagement der Volkswagen Bank interessierte sie sich zunehmend für die menschliche Psyche, deren Wirkungsweise und die Einflüsse auf das Verhalten. In 2014 absolvierte sie die Systemische Coach-Ausbildung nach den Standards der European Coaching Association, erwarb den Abschluss zur Kommunikations-psychologin, ist zertifiziert als Personality Profiler Coach, Gehirn-Trainerin und SCRUM Master für agile Projektverfahren. Sie ist als Kommunikationstrainerin und Coach tätig.
Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return on Investment
24
Frank Block
Häufig ist nicht klar, welche Beziehungen zwischen Datenqualitätsindikatoren (DQI, Definition folgt weiter unten) und Key Performance Indicators (KPI, s. Abschn. 1.3 für weitere Details) eines Unternehmens oder einer Organisation bestehen. Dies ist insbesondere deshalb von Bedeutung, da die Kenntnis dieser Beziehungen maßgeblich die Ausprägung eines Datenqualitätsprojekts beeinflusst. Sie ist als Entscheidungsgrundlage unabdingbar und gibt Antworten auf folgende Fragen: • Was kostet unserem Unternehmen/unserer Organisation1 schlechte Datenqualität? Können wir uns das leisten? • Was bringt die Verbesserung der Datenqualität um 30 % in einem gegebenen Informationsgebiet? • Was kostet die Verbesserung der Datenqualität? Stimmt der Business-Case für das Datenqualitätsprojekt? • Wie müssen die verschiedenen DQ-Projekte priorisiert werden? • Wie sieht die DQ-Roadmap für unser Unternehmen aus, d. h. wann muss was in Sachen DQ geschehen, damit es optimal für die Erreichung der Unternehmensziele ist? Erst wenn bekannt ist, wie die verschiedenen DQI mit den Unternehmens-KPI zusammenhängen, ist es möglich zu verstehen, welche DQI verbessert werden müssen, um einen gewünschten Effekt auf die Unternehmensperformanz zu erreichen. Es kann z. B. aus Im Folgenden wird der Begriff Unternehmen stellvertretend für Organisationen genereller Art verwendet (Firmen, Ämter, etc.), die durch und für ihre Tätigkeiten Daten produzieren bzw. benötigen. 1
F. Block (*) FinScore AG, Renens, Schweiz E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_24
437
438
F. Block
technischer Sicht sinnvoll erscheinen, sämtliche Datendefekte in einem bestimmten Informationsgebiet zu eliminieren, d. h. eine perfekte Datenqualität zu erzielen. Aus einer unternehmerischen Perspektive hingegen mag dies völlig irrelevant, bzw. sogar kontraproduktiv sein, da eventuell die benötigten Ressourcen nicht im Einklang mit den zu erwartenden Verbesserungen stehen, d. h. der resultierende Business Case negativ ausfällt. Um zu vermeiden, dass eine technische Sichtweise auf Datenqualität dominiert und bestimmt, welche DQ-Projekte mit welcher Priorität durchgeführt werden, wird im Folgenden eine Vorgehensweise erläutert, die es erlaubt mit Fokus auf den Unternehmenserfolg bei der Erstellung der DQ-Roadmap vorzugehen. Zunächst wird anhand einiger Beispiele erläutert, wie sich DQ-Probleme auf Unternehmen auswirken und inwiefern Performanzfaktoren beeinträchtigt werden. Im Hauptteil dieses Kapitels wird ein Prozess beschrieben, der ein KPI-orientiertes DQ-Management ermöglicht. Datenqualitätsindikatoren (DQI)
Datenqualität wird als ein mehrdimensionales, hierarchisches Konzept verstanden. Um DQ messbar zu machen, wird jeder Dimension eine Masszahl bzw. ein DQ- Indikator (DQI) zugeordnet. Ein DQI kann wiederum mehrere Unterdimensionen enthalten. Durch Aggregationsregeln ist es möglich von DQ-Unterdimensionen auf DQ-Hauptdimensionen zu schließen. Das im Verlaufe dieses Kapitels genannte DQI-Modell beruht auf dem „Product and Service Performance Model for Information Quality“ Ansatz (Wang 2002) in dem ein Haupt-DQI wie Brauchbarkeit eingeführt wird, das wiederum aus den Unter-DQI Glaubwürdigkeit, Manipulierbarkeit und Reputation der Daten oder Datenquellen sowie Einfachheit des Datenzugriffs besteht.
24.1 Beispiele zur Illustration von DQ-Problemen Im täglichen Geschäftsleben ist man sehr häufig mit verschiedenen Aspekten der Datenqualität konfrontiert. Je nach eigener Rolle im Unternehmen verändert sich die Wahrnehmung von Qualität. Generell jedoch gilt: Der Begriff Datenqualität erhält erst durch die Anwendung von Daten einen Sinn. Daten, die nie verwendet werden, sind aus der Qualitätsperspektive irrelevant. Also verleihen in erster Linie die Datennutzer dem Begriff Qualität einen Inhalt. Typische Aussagen von Mitarbeitern, die sich bei der Begegnung mit Qualitätsproblemen ergeben, sind z. B. • Die Daten in meinem Bericht sind nicht realistisch, vielleicht fehlen noch Validierungsregeln. Außerdem stimmen sie nicht mit den Werten aus dem Controlling überein. • Es gab ein Missverständnis bei den Datentransformationsregeln. • Ich wollte die aktuellen Finanzzahlen. Dies hier aber sind die Forecasts. • Das Dashboard Layout entspricht nicht meinen Bedürfnissen.
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
439
Dies kann sehr schnell zu Frustsituationen bei den Mitarbeitern führen: • • • • •
Meine Daten sind falsch… Ich verstehe diese Daten nicht, ich kann sie nicht interpretieren. Diese Applikation funktioniert nicht richtig. Mir fehlen noch Informationen für die Erfüllung meiner Aufgaben…. Unser Data Warehouse taugt nichts!
Je nach Rolle des Mitarbeiters kann die Auswirkung schlechter DQ mehr oder weniger gravierend sein. Im DQ-Kontext werden verschiedene Rollen unterschieden: • Senior Manager: hat leitende Aufgaben, beaufsichtigt ein Team von Mitarbeitern, das sich normalerweise eines Portfolios von Datenquellen und Applikationen bedient. • Daten-/Applikationsnutzer: nutzen Daten – meistens durch Anwendung von Applikationen – für ihre tägliche Arbeit. Häufig produzieren Personen in dieser Rolle auch wiederum neue Daten (Dateneingabe) oder transformieren bestehende Daten (Datenaggregation). • Daten-/Applikationsverantwortlicher: „verwaltet“ Datenbestände, Datenbanken und Applikationen; meistens eher technisch orientiert und nicht Endnutzer der Daten. Allen Rollen gemein ist, dass sie Probleme mit der Datenqualität haben können, die sich negativ auf den Unternehmenserfolg in folgenden Aspekten auswirken: • Prozesse: Fehleranfälligkeit nimmt zu, Prozessdauer steigt, Anzahl benötigter Personen und Menge an technischen Ressourcen nimmt zu, Kosten steigen aufgrund suboptimaler Ressourcennutzung an, Qualität der Prozessergebnisse nimmt ab. • Mitarbeiter: Zufriedenheit nimmt ab, da zunehmend Zeit mit sinnlosen und manuellen Tätigkeiten verschwendet wird; Arbeitsergebnisse mit schwankender Qualität; Produktivität nimmt ab, da zum einen das Frustrationspotenzial steigt und zum anderen Mitarbeiter für Tätigkeiten eingesetzt werden, die nicht ihren Fähigkeiten entsprechen. • Kundenbeziehungen: Kundenrentabilität nimmt ab, Kundenzufriedenheit nimmt ab, Kundenabgänge nehmen zu, Akquirieren neuer Kunden wird schwieriger. • Umgebung: Compliance und rechtliche Auflagen werden nicht eingehalten, interne Direktiven kommen nicht korrekt zur Anwendung, Business Regeln werden ignoriert oder vergessen.
24.2 W ie wirken sich DQ-Probleme auf Unternehmen aus – Der Zusammenhang zwischen Daten- und Prozessqualität Prozesse sind das Kernelement für viele Unternehmen. Sie können ihnen einen Konkurrenzvorteil verschaffen, wenn sie optimal ablaufen, bzw. einen Konkurrenznachteil, falls sie fehlerhaft, langsam und kostspielig ablaufen. Daher ist es von Bedeutung, den Einfluss der Datenqualität auf Prozesse und insbesondere deren Qualität zu beleuchten. Verschiedene Beispiele sollen dabei helfen, den Sachverhalt darzulegen.
440
F. Block
24.2.1 Beispiel – Call Center Call Center (CC) Agenten sind in großem Masse von der Qualität der auf ihren Bildschirmen angezeigten Kundeninformationen abhängig. Das Call Center stellt in zunehmendem Maß eine wichtige Schnittstelle zu den Kunden dar und ist häufig ihre erste und einzige Anlaufstelle. Sollten Kundendaten fehlerhaft, nicht rasch verfügbar oder von mangelnder Aktualität sein, sind die CC-Agenten nicht in der Lage, ihren Kunden individuell abgestimmten, d. h. guten Service zu liefern. Häufig tritt der Fall ein, dass DQ-Probleme sich manifestieren wenn z. B. ein kürzlich in Betrieb genommenes CRM-System dem Call Center als neue Datenquelle dienen soll. Nachdem die Agenten einige Male auf DQ-Probleme gestoßen sind, die von negativen Kundenreaktionen begleitet wurden, da diese nicht begreifen konnten, wieso das Unternehmen so wenig bzw. so viel Falsches über sie weiß. Sehr rasch resignieren die CC- Agenten und sind demotiviert. Ihr Misstrauen in die Qualität der Daten drängt sie dazu, wieder auf ihre alten, oft manuellen Lösungen zurückzugreifen bzw. ihre eigenen „Insellösungen“ zu entwickeln. Als Konsequenz ergibt sich folgendes Szenario: • Die Produktivität des Call Centers (z. B. Anzahl beantworteter Anrufe, Anzahl richtig behandelter Anrufe) nimmt ab. • Bedeutende Investitionen in neue CRM-Systeme und Datenintegrationsprojekte riskieren zum Fiasko zu werden, da die Userakzeptanz sehr niedrig ist. • Es entstehen weitere Kosten dadurch, dass Insellösungen (wieder) florieren, die mangelhaft in die IT-Landschaft des Unternehmens integriert sind. • Selbst wenn die Qualität des CRM-Systems verbessert wird, dauert es sehr viel länger, das Vertrauen der User zurückzugewinnen, als es zu verlieren.
24.2.2 Beispiel – Kundenbeziehungsmanagement (CRM) Hauptziel des CRM ist es, neue Kunden zu akquirieren, bestehende Beziehungen weiterzuentwickeln und langfristig zu halten, so dass sowohl der Kunde als auch das Unternehmen ihre Vorteile maximieren. Hierzu ist es notwendig, Detailkenntnisse über die Kundenbeziehungen, die das Unternehmen pflegt, zu haben. Dies ist insbesondere dann eine Herausforderung, wenn es sich um Tausende oder Millionen von Kunden handelt, die massive Datenmengen hinterlassen haben: jeder Kunde hat seine eigene Geschichte, sein eigenes Produktportfolio usw. Im Rahmen des CRM wird versucht, aus diesen Daten ein klares Bild von vergangenen, aktuellen und zukünftigen Kundenbedürfnissen abzuleiten, um eine individuelle Behandlung zu gestatten.
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
441
Die Anwesenheit schlechter Daten bewirkt folgendes: • Die Berechnung des aktuellen und geschätzten (zukünftigen) Kundenwerts (Potenzial) ist unmöglich bzw. sehr ungenau. • Kundenbedürfnisse können kaum oder nur sehr unpräzise vorhergesagt werden. Folglich können die in einzelne Kundenbeziehungen investierten Ressourcen (Marketing, Vertrieb, Kundenservice) nicht in Abhängigkeit von individuellen Kundenpotenzialen und Bedürfnissen optimiert werden. Dies führt zu konkreten Problemen bei der Pflege der Kundenbeziehungen: • Verpasste Geschäftsopportunitäten: Der Vertrieb erkennt gute Cross-Sell2 Opportunitäten nicht oder dort, wo es de facto keine oder sehr schlechte gibt. • Churn Management: Abgangsgefährdete Kunden werden nicht rechtzeitig erkannt und notwendige Retentionsmaßnahmen nicht ergriffen, wodurch die Kundenabgangshäufigkeit zunimmt. • Kundenpotenzial: Gute Kunden werden behandelt wie schlechte und umgekehrt. Dadurch werden Mittel aus Marketing, Vertrieb und Service dort eingesetzt, wo es sich nicht lohnt. • Risikomanagement: Kunden mit hohem Risiko- bzw. Betrugspotenzial werden nicht erkannt und Geschäfte mit ihnen nicht rechtzeitig unterbunden. Dadurch können hohe Verluste für das Unternehmen entstehen. Insgesamt verschlechtert sich also die Qualität der Kundenbeziehungen als Folge schlechter Datenqualität.
24.2.3 Beispiel – Data Mining Prozess im Marketingumfeld Ein Unternehmen hatte ihre Abteilung für Kundenanalysen beauftragt, mittels Data Mining Methoden ein Vorhersagemodell zu entwickeln, das angeben sollte, welcher Kunde sich für ein bestimmtes Produkt interessieren könnte. Eine Zielgruppenselektion aller Kunden mit einer hohen vorhergesagten Produktaffinität sollte dann die Basis für eine Kampagne darstellen, die gute Verkaufraten erzielen sollte. Also entwickelten die Data Miner die gewünschten Modelle und die Kampagne wurde lanciert. Es bestätigten sich sogar die Erwartungen und gute Verkaufsraten wurden erzielt. Leider stellte sich nach Abschluss der Kampagne heraus, dass das angebotene Produkt inhärent unprofitabel war. D. h, jedes Mal, wenn es ein Kunde kaufte, verlor das Unter Cross-Selling bedeutet, dass einem bestehenden Kunden ein weiteres Produkt oder eine weitere Dienstleistung verkauft wird.
2
442
F. Block
nehmen dabei Geld. Es war ein Verlustgeschäft. Kurz darauf wurde das Produkt aus dem Sortiment des Unternehmens gestrichen. Ein zunächst als erfolgreich abgeschlossen eingestufter Arbeitsprozess musste beim genauen Hinschauen als einer mit denkbar ungünstigem Ergebnis bewertet werden. Dies zeigt den Einfluss einiger DQ-Indikatoren auf diesen Prozess: • Vollständigkeit: im geschilderten Fall fehlte den Data Minern die Information über den Deckungsbeitrag oder zumindest den Kostenbeitrag des betrachteten Produkts. • Relevanz: die Daten müssen für die zu beantwortende Fragestellung relevant sein. Im obigen Beispiel waren die Daten nicht hinreichend relevant, um die Aufgabe Frage aus Sicht des Unternehmens korrekt zu beantworten. Sonst wäre das Produkt erst gar nicht auf den Markt gebracht worden.
24.2.4 Beispiel – Direktmailprozess Eine Bank hatte ihre allgemeinen Geschäftsbedingungen verändert und musste dies nun seinen Kunden mitteilen. Die für Kundenselektionen und Mailings verantwortliche Abteilung sollte dies erledigen. Auftraggeber war die Rechtsabteilung, die die Zielgruppe für das Mailing etwa so beschrieb: „Es müssen alle Kunden angeschrieben werden. Absolut ALLE! Wenn wir auch nur einen vergessen, könnten wir Probleme bekommen!“ Dies stellte leider eine ungenaue Zielgruppenbeschreibung dar, da nicht klar war, was alle Kunden bedeuten sollte. Aufgrund mangelnder Definition von Businessregeln war weder klar was alle noch Kunden bedeutete und somit war es nicht einfach, dies in eine technische Selektion der Zielgruppe umzusetzen. Folglich fasste der Auftragnehmer die Zielgruppe so weit wie möglich, um niemand aus der Zielgruppe auszuschließen, und eine entsprechende Kundenselektion lieferte die Basis für das Mailing. Wenige Tage nach Versand der Briefe begannen die Probleme: • Unerwartet große Mengen an Briefen konnten nicht an den Adressaten ausgeliefert werden und wurden zurückgeschickt. • Ehemalige Kunden schickten Reklamationsschreiben oder riefen im Call Center an, um sich über den Erhalt eines an Kunden gerichteten Schreibens zu beschweren. • Manche Kunden kannten den CEO der Bank persönlich und wendeten sich direkt an ihn, was eine große Welle interner Aktivitäten auslöste zur Untersuchung der Gründe für das Geschehene. Die Ursachen für diese Ereignisse und deren Folgen waren mannigfaltig (ganz nach dem Motto „ein Problem kommt selten allein“; Tab. 24.1). Die Ursachen und Folgen in solch komplexen Prozessen sind vielfältig und teilweise überraschend. Umso wichtiger ist deren genaue Kenntnis. Die soeben beschriebenen Beispiele geben Hinweise auf die Auswirkungenschlechter Datenqualität. Folgende Aspekte sind aus einer Unternehmenssicht besonders stark von Datenqualitätsproblemen betroffen:
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
443
Tab. 24.1 DQ-Probleme im Direktmailprozess Problembeschreibung Adressqualität: Teilbestände des Kundenstamms wiesen eine mangelhafte Adressqualität auf. Die Daten waren nicht aktuell, viele Kunden waren bereits umgezogen
Folgen Briefe wurden von der Post an die Bank zurückgeschickt, wodurch Zusatzkosten entstanden Das Back-Office war personell nicht auf die Bearbeitung einer derart großen Menge an retournierten Briefen vorbereitet Es wurden Personen angeschrieben, Interpretierbarkeit der Daten: Die Interpretation der die ehemals Kunden waren, was zu Kundendaten für die Zielgruppenselektion war sehr Beschwerden führte schwierig, da von bestimmten Abteilungen verwendete Businessregeln der Mailingabteilung nicht bekannt waren. Die detaillierte Analyse der Daher wurden fälschlicherweise Kundenrecords selektiert, Fehlerursachen war sehr zeit- und die ehemalige und nicht aktuelle Kunden darstellten. Eine kostenaufwendig (mehrere Personen Kombination verschiedener Kundenattributswerte (z. B. waren hiermit während mehrerer das einzige Produkt, das der Kunde noch besaß ist eine Wochen beschäftigt) Hypothek ist und der Saldo Null ist) bedeutete, dass der Kunde die Bank bereits verlassen hat Prozessqualität: Aufgrund von Maschinenproblemen beim Etliche Kunden wurden nicht in der Druck der Briefe, wurde eine manuelle Prozedur ausgelöst. von ihnen gewünschten Sprache Diese wiederum „vergaß“, das Kundenattribut „Sprache“ angeschrieben, was zu zu berücksichtigen in dem kodiert war, in welcher Sprache Unzufriedenheit bei den betroffenen Kunden führte der jeweilige Kunde angesprochen werden sollte
• Kosten: schlechte Daten kosten Unternehmen viel Geld u. a. weil durch die Folgen Schäden entstehen können, die Fehlerursache und Beseitigung sehr teuer zu stehen kommt, die Produktivität durch Leerlaufzeiten reduziert wird. • Umsatz: je geringer die Datenqualität, umso mehr Umsatzeinbußen sind zu erwarten, da Opportunitäten nicht erkannt werden oder ganz einfach die Verbindung zum Kunden abreißt und erbrachte Leistungen nicht korrekt verrechnet werden. • Risiko: mit abnehmender Datenqualität nimmt die Bedeutung von Risikofaktoren zu, die sowohl intern (Kumulierung schlechter Schuldner) als auch extern (z. B. Verhängung von Strafen durch Aufsichtsbehörden wegen Verstöße gegen gesetzliche Vorgaben) wirken können. • Vertrauen (intern) und Reputation (extern): sowohl intern als auch intern schwindet das Vertrauen der Mitarbeiter bzw. Kunden oder Partner in die Fähigkeit des Unternehmens, seine Prozesse und Daten in den Griff zu bekommen, wenn sich Datenqualitätsprobleme vermehrt manifestieren.
24.3 Wie viel kosten schlechte Daten den Unternehmer? Es gibt mittlerweile Schätzungen der Kosten, die durch schlechte Daten verursacht werden. The Data Warehouse Institute hat vor einigen Jahren die mittlerweile berühmte Studie (TDWI 2002) veröffentlicht, in der für US-Firmen die durch den Einfluss schlechter
444
F. Block
atenqualität entstandenen Zusatzkosten für Porto, Druck und Gehälter auf 600 Mrd. $ D geschätzt werden. Im Zusammenhang mit der Adressqualität hat sich die 1-10-100 Regel bestätigt. Sie besagt, dass die korrekte Eingabe einer Adresse ca. 1 €, nachgelagerte Korrekturen durch Spezialsoftware ca. 10 € und ca. 100 € kostet, falls überhaupt keine Datenqualitätsmaßnahmen getroffen werden. Markanalysten wie die Gartner Group geben in ihren Studien an, dass zwischen 50 und 70 % aller CRM und Data Warehouse Projekte fehlschlagen, weil das Thema Datenqualität von Anfang an unterschätzt wird (Gartner 2004). Solche Projekte verursachen Kosten, die ohne weiteres in die Millionenhöhe hochschnellen. Nicht rechtzeitig erkannte Datenqualitätsprobleme erhöhen diese Aufwände zusätzlich und führen zu kläglicher Nutzerakzeptanz dieser Systeme und der darin enthaltenen Daten, was wiederum den Return on Investment solcher Projekte reduziert.
KPI zur Messung der Unternehmensperformanz
Unternehmen benötigen Maßzahlen, die ihnen helfen, ihre Ziele festzulegen und zu überwachen, ob diese innerhalb der gewünschten Fristen erreicht werden. Die spezifische Auswahl der sogenannten Key Performance Indicators (KPI) kann von Unternehmen zu Unternehmen stark variieren. Die KPI sollten jedoch folgende Eigenschaften aufweisen: i) sie reflektieren tatsächlich Ziele des Unternehmens, ii) sie sind Schlüsselelemente für den Erfolg des Unternehmens, iii) sie sind messbar, iv) die gesteckten Ziele sind tatsächlich erreichbar und v) sie beziehen sich auf einen vorgegebenen Zeithorizont. Häufig lehnen sich KPI an den Balanced Score Card Ansatz (Kaplan und Norton 1992) und lassen sich dann in vier Perspektiven einteilen: Finanzperspektive: Indikatoren, die finanzielle Zielsetzungen der Unternehmensstrategie reflektieren wie z. B. der Umsatz pro Verkäufer oder die Produktionskosten pro Stück. Kunden-/Marktperspektive: Kennzahlen zum Erreichen der Kunden- und Marktziele wie z. B. die Entwicklung der Kundenzufriedenheit, Zeit zwischen Kundenanfrage und Antwort, Qualität des Kundenservices, Anzahl neu akquirierter Kunden, Anzahl der Kundenabgänge und Rentabilität von Kundensegmenten. Interne bzw. Prozessperspektive: Maßzahlen, die das Erreichen der internen Prozess- und Produktionsziele beschreiben. Hierzu gehören z. B. die Prozessqualität und Prozessdurchlaufzeiten, die laufend gemessen werden sollten. Lern-/Entwicklungsperspektive: umfasst Kennzahlen, die das Erreichen der (langfristigen) Überlebensziele der Organisation beschreiben. Typische Beispiele sind z. B. die Anzahl neuer Produkte, die sich in der Entwicklung befinden und solcher, die im bereits Markt lanciert wurden, der interne abteilungsübergreifende Austausch von Mitarbeitern, usw.
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
445
24.4 D er Einfluss von DQ-Indikatoren auf KP-Indikatoren – wie beeinflusst Datenqualität den Unternehmenserfolg? Erst wenn ein kausaler Zusammenhang zwischen den DQI und KPI hergestellt werden kann, wird auf Managementebene ersichtlich, wie sich einzelne DQ-Dimensionen auf den Unternehmenserfolg auswirken. Folglich können dann Priorisierungen vorgenommen werden, da der DQ-Business Case durch diese Verbindung klar wird. Ein auf die Erreichung der Unternehmensziele ausgerichtetes DQ-Management wird so möglich. Der in diesem Abschnitt dargestellte Ansatz beruht auf dem Grundgedanken, über zwei Matrizen – eine Gewichts- und eine Messmatrix – die Zusammenhänge zwischen DQI und KPI zu beschreiben und zu messen. Tab. 24.2 definiert die Matrizeninhalte und bezieht sich in der rechten Spalte auf folgendes Beispiel: die Anwesenheit von Kundendubletten beeinflusst die Kosten und die Effizienz von Direktmailkampagnen. Die Gewichtsmatrix wird so erstellt, dass die Zeilen einen DQI und die Spalten einen KPI darstellen. Die Zellen enthalten die Gewichtung des Einflusses des entsprechenden DQI auf den KPI. So hat z. B. DQI 3 (Abb. 24.1) großen Einfluss auf KPI 2, DQI 2 mittleren Einfluss auf KPI n-1 und DQI k geringen Einfluss auf KPI n. Tab. 24.2 Matrizen zur Beschreibung des Einflusses der DQI auf die KPI Beschreibung Gewichtsmatrix: Gewichtung des Einflusses von DQI auf KPI – gibt an, wie bedeutsam der Einfluss eines DQI auf einen KPI ist Messmatrix: Messung des Einflusses von DQI auf KPI – stellt den Messwert des aktuellen Zustands dar, d. h. ob der gegebenen DQI sich aktuell tatsächlich auf den KPI auswirkt Abb. 24.1 Gewichtung des Einflusses von DQI auf KPI. (H high, M medium, L low)
Beispiel Mit der Anzahl der Dubletten steigen proportional die Kosten, und sinkt die Effizienz der Kampagne. Das Gewicht ist also sehr groß Die Anzahl der tatsächlich vorhandenen Dubletten (z. B. 7 % Dubletten) bestimmt die Größe des Effekts
446
F. Block
Neben ihrer Funktion zur Bewertung der einzelnen Einflüsse, hilft die Gewichtsmatrix auch, die Messmatrixbefüllung zu fokussieren. Da in vielen Fällen mehr als 20 DQI verwendeten werden und die Anzahl der KPI in ähnlicher Größenordnung liegen, müssten Hunderte von Werten in die Messmatrix eingetragen werden. Es wäre ein zu aufwendiges Unterfangen durch Mitarbeiterbefragungen, sämtliche Werte abzufragen. Daher wird vorgeschlagen, in der Gewichtsmatrix Zellen mit besonders hoher Gewichtung zu identifizieren und nur für diese Messwerte per Mitarbeiterbefragung zu erfassen. Im folgenden Beispiel (Abb. 24.2) wurde eine vereinfachte Befüllung der Gewichtsmatrix mit 0 oder 1 vorgenommen (0 = kein Einfluss; 1 = großer Einfluss). Die
Prozesslaufzeit
accomplir tâche/proc.
cadre légal
regl. lnt.
business rules
Mitarbeiterzufriedenheit
Produktivität
Kundenrentabilität
Kundenztufriedenheit
Kundentreue
Kundenakquisition
Entwicklung der Beziehung
Impakt durch DQI
Kunden
Prozesskosten
Kompakte Darstellung Vollständigkeit
Mitarbeiter
Technische Ressourcen
Gesunde Informationen Fehlerfreiheit
Umgebung
Bedarf an personellen Ressourcen für Prozessablauf
Prozesse
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
15
1
1
0
1
0
0
0
0
1
1
0
0
0
0
0
5
0
0
0
0
1
1
1
0
1
1
0
1
1
1
1
9
1
1
1
1
1
1
1
0
1
1
1
1
0
0
0
11
Konsistente Repräsentation Nützliche Informationen Geeignete Mengen
1
1
1
1
1
0
0
0
1
1
1
1
0
1
0
Relevanz
0
0
0
1
1
0
0
0
1
1
1
1
0
0
0
6
Verständlichkeit
0
0
1
1
1
1
1
0
1
1
0
1
0
1
1
10
Interpretierbarkeit
0
0
0
1
0
0
0
0
1
1
0
1
1
1
1
7
Vertrauenswürdige Informationen Entwicklung und Produktion Sicherheit und Vertraulichkeit Zeitliche Gültigkeit
0 10
0 1
1
1
1
1
0
1
1
1
1
1
0
0
0
0
10
1
0
1
0
1
1
1
0
1
1
0
1
1
0
0
9
1
0
1
0
0
0
0
0
1
0
0
1
0
1
0
6
1 0 0
0 0 0
0 0 0
0 0 1
0 0 1
1 0 0
1 0 0
0 0 0
1 1 1
0 0 1
0 0 0
1 1 1
1 1 1
0 1 0
0 1 0
6 5 6 6
Brauchbare Informationen Glaubwürdigkeit Reputation Bedienbarkeit Zugang
0
0
0
1
1
0
0
0
1
1
0
1
1
0
0
Impakt auf KPI
8
5
7
10
10
6
7
2
15
12
6
13
8
7
5
0
Abb. 24.2 Beispiel einer Gewichtsmatrix zur Selektion der Einflussbereiche von größter Bedeutung für die Messmatrix (grau markierte Zellen im inneren Bereich der Matrix)
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
447
eilengewichte werden in der Spalte Impakt durch DQI und die Spaltengewichte in der Z Zeile Impaktierte KPI aufsummiert. Die stärksten Impakte sind farblich hervorgehoben. Für die Befüllung der Messmatrix wird der Fokus auf die an den Schnittstellen der besonders hohen Impakte liegenden Matrixzellen. Durch diese Vorgehensweise wurde z. B. in diesem Falle (Abb. 24.2) eine Reduktion der zu befüllenden Zellen in der Messmatrix von 225 auf lediglich 32 Zellen erreicht. Die Befüllung der Matrizen geschieht wie folgt: • Gewichtsmatrix: entweder i) durch einige wenige Schlüsselpersonen, die sowohl genügend datenspezifische Kenntnisse als auch die meisten KPI gut kennen und die aus ihrer Sicht geeigneten Werte eintragen oder ii) durch Befragung einer repräsentativen Anzahl Mitarbeiter in verschiedenen Rollen (Datenproduzent, Konsument, Verwalter, etc.) hinsichtlich ihrer Bewertung der einzelnen Gewichte der Matrix und anschließende statistische Auswertung zur Findung einer im Mittel gültigen Matrix • Messmatrix: durch Befragung einer repräsentativen Anzahl Mitarbeiter in verschiedenen Rollen (Datenproduzent, Konsument, Verwalter, etc.) hinsichtlich ihrer Bewertung der Messwerte der einzelnen Matrixelemente und anschließende Berechnung der Mittelwerte, mit denen die Matrix befüllt wird. Diese Matrix hat die gleichen Zeilen und Spalten wie die Gewichtsmatrix, jedoch enthalten ihre Zellen Einträge, die beschreiben, wie gross der tatsächliche Effekt ist. Nachdem beide Matrizen befüllt wurden, ergibt sich der gewichtete Einfluss eines DQI auf einen KPI durch die Multiplikation des entsprechenden Gewichts mit der dazugehörigen Messung. Es kann also durchaus vorkommen, dass ein als gross bewertetes Gewicht unbedeutend ist, da der entsprechende Messwert ergibt, dass das Problem de facto kaum oder nie auftaucht.
24.5 B eschreibung eines KPI orientierten DQ-Managementprozesses Der hier vorgestellte Prozess zur Quantifizierung der DQ und der aus Unternehmenssicht am sinnvollsten erscheinenden Vorgehensweise zur Behandlung der DQ-Probleme stellt sich der Herausforderung, jene Komponenten (Applikationen und Datenbanken) in einem IT-Portfolio, die am stärksten zur schlechten DQ beitragen, zu entdecken, DQ-Projekte zu definieren und sie in Abhängigkeit von ihrem Einfluss auf die KPI zu priorisieren. Als Ergebnis erhält man eine Gesamtsicht über die DQ im Unternehmen, d. h. eine Art DQ- Landkarte wie in Abb. 24.3 dargestellt. Der DQ-Managementprozess transformiert eine hinsichtlich ihrer DQ zunächst unbekannte IT-Landschaft (links in obiger Abbildung) in eine detaillierte mit bekannten
448
F. Block
Abb. 24.3 Beitrag des DQ-Managementprozesses zur Entstehung einer DQ-Landkarte
DQ-Niveaus (symbolisiert durch die verschiedenen Grauwerte rechts in Abb. 24.3). Dies steuert DQ-Verbesserungsaktivitäten und hilft ein laufendes DQ-Monitoring aufzubauen. Der DQ-Managementprozess hat folgende Eigenschaften: • Er verbindet DQ-Probleme und KPI mit Hilfe der oben beschriebenen DQI-KPI Matrizen. • Er ist Top-Down orientiert und beginnt mit Mitarbeiterbefragungen, die einen ersten Eindruck über aktuelle DQ-Probleme geben. • Er identifiziert und analysiert problematische Komponenten im Detail durch standardisierte Interviews und Workshops (DQ-Assessment). • Er unterstützt die Definition von Korrekturmaßnahmen (DQ-Projekte). • Er ermöglicht, die Aufwände und Erträge (d. h. den RoI) der einzelnen Korrekturmaßnahmen zu ermitteln. Der Ablauf des Prozesses ist in Abb. 24.4 dargestellt: Die einzelnen Schritte des DQ-Managementprozesses werden nun beschrieben.
24.5.1 Phase 1 – Selektiere zu untersuchende Komponenten Als erster Schritt muss festgelegt werden, welche Komponenten im weiteren Verlauf des Prozesses analysiert werden sollen. Hierzu wird basierend auf dem aktuellen Stand der DQ-Kenntnisse über die einzelnen Komponenten eine a priori Abschätzung deren Qualität vorgenommen und beurteilt, welche Komponenten auf jeden Fall und welche nicht in die nächste Prozessstufe 2 eingebracht werden sollen. Hierbei können auch Betrachtungen wie z. B. die Kritikalität (d. h. wie wichtig ist die Komponente für das reibungslose Funktionieren des Unternehmens) und Lebensphase (d. h. wurden die Komponenten erst kürzlich in die Produktion überführt oder werden sie bald aus der Produktion genommen bzw. ersetzt) der einzelnen Komponenten eine Rolle spielen.
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
449
Abb. 24.4 Der fünfstufige DQ-Managementprozess im Überblick
24.5.2 Phase 2 – Mitarbeiterbefragung Komponenten für die nicht genügend Information betreffend ihrer Qualität vorliegen, bzw. für die a priori bekannt ist, dass Probleme vorliegen, werden mittels einer Mitarbeiterbefragung untersucht. Ziel ist es, basierend auf den Erfahrungen der Mitarbeiter herauszufinden, welche DQ-Aspekte der Komponenten besondersstark betroffen sind. Zu jeder Applikation oder Datenbank (Komponente) werden Personen in verschiedenen Rollen (z. B. Datenbank- bzw. Applikationsverantwortlicher, Nutzer, Manager, usw.) befragt. Dadurch wird ein guter Grad an Objektivität erreicht. Der Fragebogen wird so strukturiert, dass über spezielle Fragenblöcke Informationen zu verschiedenen DQ relevanten Bereichen von den Befragten gesammelt werden: • Umgebungsinformationen: dies hilft, sowohl die Komponente und dessen Einbettung in das Unternehmen als auch die Komplexität der durch sie unterstützten Prozesse besser einzuordnen. • DQ-Gewichtungsinformationen: für jeden Befragten wird ermittelt, wie er die Bedeutung der einzelnen DQ-Dimensionen einschätzt • DQ-Messung: jeder Befragte gibt über die Beantwortung speziell dafür entwickelter Fragen an, wie der aktuelle Stand der DQ in den einzelnen DQ-Dimensionen ist
450
F. Block
Es wird vorgeschlagen, den Fragebogen mit maximal 50 Fragen zu bestücken, da der Aufwand für die Beantwortung aus Sicht der Befragten sonst zu groß wird. Man darf dabei auch nicht vernachlässigen, dass üblicherweise Mitarbeiter es nicht gewohnt sind, über die Qualität von Daten zu reden und Qualität als ein mehrdimensionales Konzept zu begreifen und zu bewerten. Daher muss bei der Formulierung der Fragen darauf geachtet werden, dass die Definitionen der DQ-Konzepte klar sind und falls notwendig mit Beispielen untermalt werden. Die Ausbreitung des Fragebogens ist am einfachsten per Intranet-Applikation bei der die Befragten direkt über ein web Frontend ihre Antworten eingeben können. Neben reinen Multiple Choice Antworten sollte auch darauf geachtet werden, dass Freitextfelder die Eingabe weitergehender Information gestatten (z. B. die Beschreibung eines besonders gravierenden DQ-Problems). Diese können wichtige zusätzliche Informationen für die Beschreibung des Problemfelds liefern. Es muss vor Ausbreitung des Fragebogens ein Casting durchgeführt werden, in dem definiert wird, wer in welchen Rollen und zu welchen Applikationen oder Datenbanken befragt werden soll. Die Selektion sollte von der Größe her so gewählt sein, dass sie statistisch repräsentative Auswertungen gestattet. Als Ergebnis erhält man nach Auswertung der Befragungsdaten für jede betrachtete Komponente eine Qualitätsscorecard, die angibt, wie die einzelnen Qualitätsdimensionen bewertet wurden. Außerdem erhält man eine Rangliste der besten und schlechtesten Komponenten betreffend ihrer Datenqualität. Indem man dem gesamten Qualitätsscore einen Minimalwert auferlegt, erhält man als Ergebnis jene Komponenten, die in der nächsten Phase des DQ-Managementprozesses näher betrachtet werden sollen. Abb. 24.5 veranschaulicht dies. Alle Applikationen, die einen DQ-Score unterhalb der Mindestanforderung (horizontale Linie bei ca. 20) haben (d. h. die Applikationen App6-App11), werden in Phase 3 detailliert behandelt. 60
Gemessener DQ-Level
Durch DQ-Assessment untersuchen (Phase 3)
50 40
Mindestanforderung DQ
30 20 10 0 App1
App2
App3
App4
App5
App6
App7
App8
App9
App10 App11
Applikations-ID Abb. 24.5 Rangliste der durch die Befragung gemessenen Qualitätsscores (y-Achse) verschiedener Applikationen (x-Achse)
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
451
DQ-Dimension: Gültigkeit Verwendbarkeit 70 %
58 %
Fehlerfreiheit
60 % 50 %
Vertrauens44 % würdigkeit
60 % 50 43 % 40 % 30 %
35 %
Gültigkeit
DrillDown
Konsistente Darstellung
%
20 % 10 % 5%
13 %
50 %Vollständige Darstellung
25 % Applikation 1
60 %
Mittlere DQ
Kompakte Darstellung
Brauchbarkeit
Abb. 24.6 Darstellung einer DQ-Scorecard für die untersuchte Applikation Applikation 1 – die DQ-Hauptdimensionen (links) und ein Drill-Down (d. h. Detaildarstellung) der Dimension Gültigkeit der Daten
Die Scorecard enthält je Komponente reichhaltige Informationen über die DQ-Messungen in den verschiedenen DQ-Dimensionen. Abb. 24.6 zeigt ein Beispiel hierzu. Die DQ-Dimension „Gültigkeit“ wurde hier mit einem Qualitätsscore von nur 35 % bewertet. Eine Detailanalyse (Drill-Down) zeigt die vier Unter-DQI und lässt erkennen, dass im Wesentlichen die inkonsistente Darstellung der Daten und mangelnde Kompaktheit die Haupttreiber für den schwachen Score sind.
24.5.3 Phase 3 – DQ-Assessment Die in der Mitarbeiterbefragung (Phase 2) als problematisch erkannten Komponenten werden nun im Detail untersucht. Zusätzlich können weitere Komponenten, a priori als problematisch bewertet wurden direkt in diese Prozessstufe eingeschleust werden (ohne, dass für sie die Notwendigkeit bestünde, sie durch die Mitarbeiterbefragung zu bewerten). Die Ziele des DQ-Assessments sind • Genaue Analyse und Verständnis der DQ-Probleme • Suche nach Fehlern und deren Ursachen • Messung des Einflusses der DQ auf die Unternehmens-KPI Die entsprechenden Informationen werden durch strukturierte Interviews und Workshops gesammelt. Hierzu wird ein ausführlicher Fragebogen erstellt, der verschiedene Fragenblöcke enthält und sich von dem für die obige Mitarbeiterbefragung (Phase 2) Verwendeten in folgenden Punkten unterscheidet:
452
F. Block
• Höherer Detaillierungsgrad: der Fragenkatalog liegt mit 200–300 Fragen bei weitem über den ca. 50 Fragen in Phase 2. Wurden in Phase 2 DQ-Themen lediglich eher oberflächlich angesprochen, so werden sie hier im Detail besprochen. • DQI-KPI Messung: der Fragebogen enthält gezielte Fragen, die in Erfahrung bringen sollen, wie stark der Einfluss einzelner DQ-Indikatoren auf die KPI ist. Dies erlaubt später, den Business Case für die DQ-Projekte zu erstellen. An dieser Stelle greift die DQI-KPI Gewichtsmatrix, indem sie bei der Reduktion der zu messenden Einflüsse hilft. Im Gegensatz zu Phase 2 wird hier von automatisierter Ausbreitung und selbständigem Beantworten durch die Befragten abgeraten. Es sollten geeignete Personen die Interviews durchführen, die jeweils zwischen zwei und vier Stunden dauern können. Unstrukturierte Antworten und die Fähigkeit, auf unerwartete Aussagen mit weiteren Fragen einzugehen sind Voraussetzung für eine erfolgreiche und umfassende Befragung. Die Zielgruppe ist für das DQ-Assessment ähnlich wie die in Phase 2 gewählte. Im Sinne eines ökonomischen Umgangs mit der für Phase 3 benötigten Mitarbeiterzeit ist es empfehlenswert, Personen, die der gleichen Rolle angehören, während eines Workshops zu interviewen. Dieser Fall wird insbesondere für die Rolle Komponentennutzer eintreten, da diese oft sehr zahlreich sein können. Es wird jedoch davon abgeraten, mehr als 5 Personen gleichzeitig zu interviewen. Als Ergebnis erhält man nach Auswertung der Interviews ein detailliertes Bild der Ursachen und Auswirkungen verschiedener DQ-Probleme im Umfeld der untersuchten Komponenten. Man erhält ein gutes Verständnis der vorliegenden Probleme, deren Ursache und Wirkung in Bezug auf die Unternehmens-KPI. Zudem kann bereits in groben Zügen definiert werden, welche Maßnahmen zur Verbesserung der DQ-Probleme getroffen werden müssen. Es entstehen also Projektbeschreibungen, die noch im Rahmen von Phase 4 weiter verfeinert werden müssen.
24.5.4 Phase 4 – Validieren und Quantifizieren Nachdem bekannt ist von welchen Problemen die verschiedenen Komponenten betroffen sind, muss dies nun in Phase 4 validiert und die Größe des Effekts gemessen werden. Es kann z. B. vorkommen, dass bestimmte Probleme den Befragten durchaus wichtig erscheinen, bzw. in deren Erinnerung sich eingeprägt haben, der Fall jedoch vielleicht überhaupt nur einmal oder sehr selten eingetroffen ist. Manifestiert sich hingegen ein relativ harmlos erscheinender Fehler sehr häufig, so kann dies einen großen negativen Einfluss auf die Unternehmens-KPI haben. Phase 4 hilft also, die „Größe des Eisbergs zu schätzen“. Bislang konnte man nur dessen aus dem Wasser herausragende Spitze und seine groben Umrisse unter Wasser sehen, ohne jedoch sein Gesamtvolumen zu kennen. Dies wird im Falle der DQ erreicht indem die Daten im Detail auf ihre Fehlerhaftigkeit hin untersucht werden.
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
453
Zunächst erfolgt die Validierung der geschilderten Probleme: kann man in den Datenbanken oder Applikationen die genannten Probleme finden bzw. nachvollziehen? Dann wird ermittelt, wie häufig die Probleme auftauchen. Im Falle der Kundendubletten wird z. B. ermittelt wie viele sich tatsächlich im System befinden. Es kann durchaus sein, dass man für die Abschätzung der Problemgröße auf statistische Hochrechnungen zurückgreifen muss, da die detaillierte Analyse der Fehler nur auf kleineren Teilmengen der gesamten Daten überhaupt möglich ist. Dabei werden Analyseverfahren eingesetzt, die von einfacher deskriptiver Statistik bis hin zu komplexen Data Mining Verfahren gehen können. Einige einfache Beispiele spiegelt Abb. 24.7 wider. Im linken Beispiel wird klar, wie groß der Effekt der falschen Daten betreffend der Eröffnung der Kundenbeziehung (d. h. seit wann ist er Kunde des Unternehmens) tatsächlich ist. Die Spitzen im Histogramm geben an, zu welchem Eröffnungsdatum falsche Informationen vorliegen und wie häufig. Die Spitze ganz links z. B. bezieht sich auf den 1.1.1900, was also als durchweg falsche Information einzustufen ist. Die beiden Spitzen rechts im Histogramm sind in Verbindung mit der Produktionsaufnahme der ersten IT-Plattform des Unternehmens und der Übernahme eines anderen Unternehmens zu bringen. Ebenso im rechten Beispiel: die Spitze in der Verteilung des Geburtsdatums zeigt, dass die Information, dass ein Kunde 1970 geboren ist, in etwa zwei Drittel aller Fälle falsch ist. Somit ist es möglich abzuschätzen, welcher Aufwand mit der Korrektur der einzelnen Probleme verbunden ist und wie groß der Einfluss auf die Unternehmens-KPI ist.
24.5.5 Phase 5 – DQ-Projekte definieren, Korrekturmaßnahmen durchführen Auf der Grundlage der Ergebnisse der vorherigen Analysestufen des DQ-Managementprozesses können in der letzten Phase die Aktivitäten/Projekte, die die DQ verbessern, im Detail beschrieben werden. Diese DQ-Projekte sind auf bestimmte Datenbanken, Applikationen und Prozesse ausgerichtet. Für jede DQ-Aktivität werden eigene Business Cases und Projektpläne erstellt, die u. a. folgende Informationen enthalten: • Die erwarteten Kosten. • Schätzung der Einsparungen und/oder Mehreinnahmen. • Vereinbarung quantitativer Messgrößen für die Erfolgsmessung. Tab. 24.3 gibt weiter Hinweise zur Beschreibung der Korrekturmaßnahmen. Nach Durchführung der Korrekturmaßnahmen können die behandelten Komponenten wieder in den DQ-Prozess eingestreut werden, damit so eine laufende Kontrolle des Erfolgs und der stetigen Verbesserung der DQ möglich ist.
Abb. 24.7 Histogramme mit den Verteilungen des Datums der Eröffnung der Kundenbeziehungen (links) und Geburtsdatum der Kunden (rechts)
454 F. Block
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
455
Tab. 24.3 Beschreibung von DQ-Korrekturmaßnahmen Thema Beschreibung Betroffener Bereich Applikation oder Datenquelle? Welche Komponente ist von der Maßnahme betroffen? Handelt es sich um eine Applikation, Datenbank oder um eine Prozessveränderung? Verantwortliche Person: Wer wird für die Durchführung der Maßnahme verantwortlich sein? Businesskomponente: Einordnung der zu korrigierenden Komponente in den Businesskontext: welche Funktionen und Prozesse sind betroffen? Identifikation des Problembeschreibung: Detaillierte Beschreibung des Problems, dessen Problems Ursachen und Auswirkungen Wichtigkeit: Hat die Behebung des Problems eine hohe, mittlere oder geringe Wichtigkeit? Dringlichkeit: Wie dringend ist die Korrektur des Problems? Welche Businessziele oder KPI sind betroffen? Komplexität der Korrektur: Wie komplex ist die vorgeschlagene Korrekturmaßnahme? Ziele der Korrektur Was genau soll mit der Korrektur bewirkt werden? Deliverables Welche Lieferungen hat die Maßnahme zu erbringen? Erfolgskriterien Beschreibung: Definition und Beschreibung der Erfolgskriterien für die DQ-Maßnahme Wie werden die Erfolgskriterien gemessen? Anfangszustand der Kriterien: Was ist der aktuelle Stand der Erfolgskriterien, d. h. vor Durchführung der Korrekturmaßnahmen? Zielzustand der Kriterien: Welcher Zustand der Erfolgskriterien soll nach der Durchführung der Korrekturmaßnahmen erreicht werden? Ressourcen Benötigte personelle Ressourcen für die Korrektur: Anzahl benötigter Personen zur Durchführung der Korrekturen Verfügbarkeit von Ressourcen: Sind die benötigten Personen im geplanten Zeitraum der Durchführung der Korrektur verfügbar? Muss ihre Planung eventuell umgestellt werden? Benötigte Kompetenzen: Sind Spezialkenntnisse für die Korrekturen notwendig? Liegen diese Kompetenzen intern vor oder müssen sie extern beschafft werden? Benötigte materielle/technische Ressourcen: Welche Ressourcen wie z. B. Computer, Speichermedien, Netzwerke werden benötigt?
24.6 Fallstudie – Banque Cantonale Vaudoise (BCV) Die BCV ist eine Kantonalbank, die in der Rangliste der größten schweizerischen Banken auf Platz vier rangiert. Sie ist regional auf den Kanton Vaud (dt. Waadtland) fokussiert und bietet ihren Kunden eine breite Palette an Produkten, Services und Kontaktkanälen an, die sich an den verschiedenen Hauptaktivitäten ausrichten: Retailbanking, Firmenkunden, Private Banking und Wertschriftenhandel. Entsprechend komplex sind BCV’s Ansprüche und Bedürfnisse in Bezug auf ihre Informationstechnologie (IT). Die Bank verfügt über
456
F. Block
ein hoch komplexes Portfolio an Applikationen und Datenbanken3, die eine Vielzahl von spezialisierten Prozessen und Abläufen unterstützen. Dieses IT-Portfolio ist Kernstück im Bankenalltag ohne das die Kunden nicht effizient mit Produkten und Services versorgt werden könnten. Die BCV hat die Bedeutung des DQ-Managements im Rahmen ihrer IT erkannt und pflegt ein konsequentes DQ-Monitoring zur stetigen Erhöhung ihrer Leistungsfähigkeit. In diesem Zusammenhang kommt eine Variante des in diesem Beitrag beschriebenen DQ-Managementprozesses zum Einsatz (s. Abb. 24.8). Jede Komponente des IT-Portfolios befindet sich in einem von vier Niveaus und wird entsprechend behandelt. Basierend auf der IT-Strategie und der Business-Architektur werden die Ziele des DQ-Managementprozesses für die einzelnen funktionalen Blöcke (=Bausteine in der Business-Architektur) festgelegt. Hierzu gehören: • • • • •
Definition der Menge der zu untersuchenden Applikationen. Festlegen der Untersuchungstiefe für jede Applikation (Niveau 1 bis 4). Beschreibung der aktuellen Situation. Definition der organisationalen oder technischen Verbesserungsmaßnahmen. Bereitstellung der benötigten Ressourcen zur Durchführung der Verbesserungsmaßnahmen.
Komponenten werden vom zu untersuchenden Inventar ausgeschlossen, falls für sie Folgendes zutrifft:
Abb. 24.8 DQ-Managementprozess der BCV
3
Hier auch als „Komponente“ bezeichnet.
24 Verknüpfung von DQ-Indikatoren mit KPIs und Auswirkungen auf das Return …
457
• Es ist a priori bekannt, dass keinerlei Verbesserungspotenzial vorliegt • Es handelt sich um Applikationen deren Daten außerhalb der BCV verwaltet werden, Applikationen, die vor weniger als 3 Monaten in Betrieb genommen wurden (da diese unter besonderer Beobachtung stehen) bzw. in weniger als sechs Monaten ersetzt werden. Das verbleibende Inventar wird auf die Niveaus 2 bis 4 verteilt: • Niveau 2: wenn die Komponente neu in den DQ-Prozess eingeführt werden soll • Niveau 3: falls für die Komponente bereits bekannt ist, dass Verbesserungspotenzial besteht und das DQ-Assessment zeigen soll, wo genau es liegt. • Niveau 4: falls bereits Korrekturmassnahmen für die Komponente existieren, kann sie den Prozess bereits an dieser Stelle starten. Dann werden die in Niveau 2 eingestuften Komponenten mittels Befragung zuvor entsprechend selektierter Mitarbeiter untersucht. Die Ziele der Befragung sind • Identifikation von Komponenten, für die Bedarf nach einem DQ-Assessment (Niveau 3) besteht. • Gewichtung und Priorisierung der Komponenten entsprechend ihrer Kritikalität für die BCV. • Erzeugen einer auf die funktionalen Blöcke der Business-Architektur aggregierten DQ-Gesamtsicht wie in Abb. 24.9 dargestellt.
Abb. 24.9 Aggregierte Sicht (Business-Architektur) auf die DQ des IT-Portfolios (dargestellt durch Graustufen)
458
F. Block
Letztendlich wird im Niveau 3 (DQ-Assessment) mittels ausführlicher Workshops analysiert, welche Probleme vorliegen und welchen Impakt sie auf die Organisation haben könnten, sowie eine Reihe von Projekten zu deren Behebung generiert. Damit stellt die BCV ein dauerhaftes und kontinuierliches Management der Datenqualität ihres IT-Portfolios sicher, das eine nachhaltige positive Wirkung auf die Effizienz und Güte der Kundenbeziehungen des Unternehmens hat.
Literatur Kaplan, R. and Norton, D.: The Balanced Scorecard: Measures that drive performance. In: Harvard Business Review, pp 77–80, 1992. The Data Warehouse Institute: Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data. In: http://www.tdwi.org, 2002. Wang, R. Y.: Information Quality Benchmarks: Product and Service Performance. In: MIT in Communications of the ACM, April 2002/Vol. 45, No. 4ve. z. B. Gartner: Poor Data Quality Dooms Many IT Projects. In: http://www.crn.com/it-channel/18841781, 2004.
Dr. rer. nat. Frank Block ist heute Head of Roche Diagnostics IT Data Science, nachdem er bei der ricardo.ch als Chief Data Scientist tätig war. Davor war er Gründer und Geschäftsführer der FinScore AG, einem unabhängigen Software- und Beratungsunternehmen mit Sitz in Lausanne/ Schweiz. Durch seine Erfahrungen mit analytischem CRM und Analyse von Kundenverhalten im Bankenumfeld ist er rasch auf das Thema Datenqualität als einer der Eckpfeiler für den Erfolg von durch Big Data getriebenen Geschäftsfeldern gestoßen. Seit geraumer Zeit entwickelt er auf Unternehmenserfolg ausgerichtete Verfahren zur Messung und Verbesserung der Informationsqualität. Während seiner Forschungstätigkeit im Bereich Teilchenphysik hat Frank Block Methoden der künstlichen Intelligenz kennengelernt und bei seinem vierjährigen Aufenthalt am europäischen Forschungszentrum CERN in Genf zur Lösung verschiedener Probleme anwenden können. Nach Abschluss der Promotion an der Universität Wuppertal, begann er seine berufliche Laufbahn im Bankenumfeld und entwickelte für den Schweizerischen Bankverein in Basel Methoden der künstlichen Intelligenz zur Optimierung des Retail-Marketings. Nach der Bankenfusion durch die die UBS entstand machte er sich selbständig und wurde Mitbegründer der Predict AG für die er verschiedene große Unternehmen in den Themen Big Data, Machine Learning, AI, Kampagnenmanagement und Informationsqualitätsmanagement beriet. Zu seinen Publikationen gehören ein Beitrag zum Buch „Databased Marketing: Managing Profitable Relationships“ (Wiley, April 2005) von Prof. Dr. Werner Reinartz (Professor für Marketing an der Universität Köln) sowie verschiedene Artikel über Themen wie Informationsqualität, Neuronale Netze, Expertensysteme und Wissensmanagement.
Gewährleistung einer hohen Artikelstammdatenqualität im Global Data Synchronisation Network (GDSN)
25
S. Kasper
Das Global Data Synchronisation Network (GDSN) bietet vornehmliche eine Reihe von Datenvalidierungen, die ein Artikelstammdatensatz „überstehen“ muss bevor er vom Lieferanten zum Händler übertragen werden kann. So fordert zum Beispiel die GDSN- Validierung 457, dass innerhalb einer kompletten Artikelhierarchie (bestehend aus Basiseinheit, Karton, Palette) mindestens ein Artikel eine Rechnungseinheit ist – sprich der Artikelsatz muss einen Artikel enthalten, der fakturiert werden kann. Zusätzlich zu den Mussangaben der Artikelabmessungen wie Höhe, Breite und Tiefe verlangt die GDSN- Validierung 584, dass diese Angaben gemäß den zielmarktspezifischen Regeln zur Nutzung der Maßangaben (UOM), z. B. für den Zielmarkt Deutschland im metrischen und für den Zielmarkt der USA im imperialen System, zu erfolgen hat (GS1 2018a, Tabulator Validation Rules_3.1.5). Natürlich, lassen sich derartige Prüfungen in die internen Datenverarbeitungssysteme eines Lieferanten bzw. Datensenders integrieren und bevor die Artikelstammdaten an das globale Netzwerk gesendet werden, erfolgt die entsprechend Einhaltung dieser Prüfungen. Diese Online-Validierungen sind damit ein profundes Mittel zur Erreichung einer gewünschten Datenqualität. Aus Sicht eines Datenpools stellen diese Validierungen standardisierte Konsistenzregeln für das definierte Artikelstammdatenmodel des Global Data Dictionary (GDD) der Global Standards 1 (GS1) dar (Schemm 2009, S. 95). Die Frage die es an dieser Stelle zu beantworten gilt lautet: Was bietet das GDSN in Sachen Artikelstammdatenqualität über diese Konsistenz-Validierungen hinaus? Erhalten die Nutzer des Standards Hilfestellungen, mit der die von den Datennutzern – bis zum Endkonsumenten – eingeforderte Artikelstammdatenqualität, kontinuierlich verbessert werden kann? Erfreulicherweise lässt sich diese Frage mit „Sehr viel“ beantS. Kasper (*) atrify GmbH, Köln, Deutschland E-Mail: [email protected] © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6_25
459
460
S. Kasper
worten (siehe hierzu z. B. Kasper 2014a, Blog-Beitrag zum Thema GDSN). Leider sind diese Hilfestellungen des Standards, die selbst für sich gesehen GS1 Standards darstellen, nicht immer bei den GDSN-Nutzern bekannt. Im Rahmen dieses Aufsatzes werden vier der zusätzlichen Standards und Werkzeuge beschrieben, die in der Summe dazu führen, dass die Artikelstammdatenqualität im Netzwerk des GDSN kontinuierlich verbessert werden und gleichzeitig dazu führen, dass das GDSN einen hohen Standardisierungs- und Reifegrad aufweist (siehe hierzu Abschn. 25.2) (Legner et al. 2008, S. 183 ff.). Außerdem wird auf die neuste Initiative zur Verbesserung der Artikelstammdatenqualität in Deutschland eingegangen (siehe hierzu Abschn. 25.3). Zum besseren Verständnis der einzelnen unterstützenden Werkzeuge, wird vorab das Netzwerk im Abschn. 25.1 näher charakterisiert. Abschließenden erfolgt eine kurze Zusammenfassung mit Ausblick im Abschn. 25.4.
25.1 Global Data Synchronization Network (GDSN) Das Global Data Synchronization Network ist ein internet-based, interconnected network of interoperable data pools and a registry that enables suppliers and retailers around the world to exchange standardised and synchronised supply chain data (GS1 2006, S. 9 und DAMA 2011 S. 129). Das Netzwerk ermöglicht Unternehmen den weltweiten Artikelstammdatenaustausch auf Basis der GS1 Standards und bietet eine zentrale Stelle für sämtliche Produktinformationen, die in der Wertschöpfungskette vom Lieferanten bis zum Endkonsumenten benötigt werden. Heute verfügt das Netzwerk über rund 32 Millionen Artikel von mehr als 57.000 registrierten Nutzern aus verschieden Branchen der Konsumgüterindustrie und des Gesundheitswesens (GS1 2020, S. 1 [eigene Zählung]). Das Netzwerk setzt sich zusammen aus der Global Registry (GR), den zertifizierten Artikelstammdatenpools, dem sog. Data Quality Framework (DQF), den sog. GDSN- Validierungen, dem GDD und der Globalen Produktklassifikation (GPC). Im Zusammenspiel mit den Basisstandards der GS1, wie die eindeutige Identifikation der Geschäftspartner mit Hilfe der Global Location Number (GLN) und der daraus abgeleiteten Global Trade Item Number (GTIN) für die eindeutige Bestimmung der Handelseinheiten, bietet es eine Plattform für den Austausch qualitativ hochwertiger Artikelstammdaten. Das Netzwerk gewährleistet einen automatischen und unverzüglichen – demnach also einen zeitnahen und aktuellen – Zugriff auf die Artikelstammdaten der Lieferanten. Durch die Nutzung der Standards wird außerdem die eindeutige Interpretation der Artikelstammdaten über die gesamte Wertschöpfungskette (vom Lieferanten bis zum Endkonsumenten) hinweg erreicht. In Verbindung mit den Konsistenzvalidierungen des Netzwerks wird zudem die Korrektheit der Daten gefördert. Mit der Verwendung der Artikelstammdaten aus dem Netzwerk kann damit ein reibungsloser, effizienter und schneller Artikelstammdatenaustausch erreicht werden (GS1 Germany 2012, S. 20). Der Synchronisationsablauf der Artikelstammdaten zwischen den Lieferanten (Data Sender [DS]) und den Händlern (Data Recipient [DR]) vollzieht sich gemäß Abb. 25.1 in
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
461
Abb. 25.1 Synchronisationsablauf der Artikelstammdaten
fünf Schritten (Schemm 2009, S. 182 ff.; GS1 Germany 2012, S. 20 f., 1WorldSync 2014, S. 1 ff.). 1. Datenbereitstellung und Datenfreigabe: Das Industrieunternehmen sendet die Artikelstammdaten an seinen sog. Home Data Pool oder Source Data Pool (SDP). Die Artikelstammdaten können dabei, je nach Datenpool, in verschiedenen Arten zur Verfügung gestellt werden. Der atrify Datenpool bietet hierbei bspw. folgende Wege an: 1. Catalogue Item Notification (CIN) im XML-Format des jeweiligen Standard Release (aktuell in der Release-Version 3.1.10) 2. Erfassung per Onlineerfassungssoftware Publishing: Hierbei handelt es sich um eine Web-Anwendung mit Hilfe dessen alle im Netzwerk notwendigen Attribute manuell oder per Vorlagen erfasst werden können. Es ermöglicht Datenlieferanten ihre kompletten Produktstammdaten und Produktbeschreibungen zu erfassen, zu pflegen und sie in einem GDSN Datenpool zu veröffentlichen. 3. Hochladen einer Artikelstammdatendatei im Excel-Format: Das Hochladen einer Excel-Datei ist i.V.m. mit dem Publishing möglich. Die Anwendung bietet die Möglichkeit, Artikeldaten eines oder mehrerer Artikel via Excel Datei ins System hochzuladen, bzw. aus dem System als Excel Datei herunterzuladen. Die Stammdaten können also heruntergeladen, geändert und danach wieder hochladen werden. Dies ist besonders für Massenaktualisierungen eine einfache Methode zur manuellen Erfassung. Des Weiteren gibt es die Möglichkeit eine Excel Vorlage herunterzuladen, um neue Artikeldaten anzulegen. Damit die Daten vom Händler abgerufen werden können, müssen die sie vorab vom Lieferanten publiziert werden. Publizieren heißt, der Lieferant gibt die Daten entweder für einen bestimmten Händler oder eine bestimmte Anzahl von Händler frei (Publizieren zur GLN) oder zu einem Zielmarkt (Publizieren zu Zielmarkt). 2. Datenregistrierung: Nach dem Hochladen der Artikelstammdaten in den Datenpool erfolgt die Registrierung der Daten in der sog. Global Registry (GR). Hierbei handelt es sich um ein Verzeichnis aller im Netzwerk gespeicherten Artikelstammdaten. Womit die GR damit eine Art „Gelbe Seiten“-Funktion im GDSN übernimmt. Gespeichert werden in ihr nur die elementaren Daten eines Artikels wie GLN, GTIN und GPC, die
462
S. Kasper
Angabe des Zielmarktes und Funktionsbezeichnung eines Artikels. Außerdem wird noch der Ort der Speicherung im Netzwerk, also die Adresse bzw. GLN des SDP für jeden Artikel gespeichert. Die Registrierung erfolgt über den Datenpool in Form einer XML-Nachricht Namens Catalogue Item Registration (CIR). Mit erfolgreicher Regis trierung informiert der Datenpool den Datensender per Catalogue Item Registration Response (CIRR). 3. Datenselektion: Der Händler erhält die für ihn veröffentlichten Artikelstammdaten mit Hilfe einer Selektionsnachricht. Hierbei handelt es sich um ein regelmäßiges Abonnement auf bestimmte Artikelstammdaten (Kasper 2002, S. 204 f.). Das Einstellen des Abonnements ist im Falle der atrify GmbH über zwei Wege möglich: 1. Catalogue Item Subscription (CIS) im XML-Format des jeweiligen Standard Release 2. Per Approval: Hierbei handelt es sich um eine Web-Anwendung in der Händler Artikeldaten überprüfen, suchen und abonnieren können, um sie über jeden GDSN zertifizierten Datenpool zu erhalten. Die Anwendung ermöglicht den Händlern Herstellerdaten zu speichern, zu kontrollieren, zu validieren und darauf zu antworten. Es fungiert auch als Datenempfänger und ermöglicht neue oder geänderte Daten mit den internen Systemen zu synchronisieren, zu akzeptieren oder abzulehnen. Es besteht aus mehreren Modulen: einem Web-Katalog, einer Artikelliste, einer Aufgabenliste und der Subskriptions-Benutzeroberfläche. Ein Datenempfänger kann mehrere Subskriptionen entweder in der Subskriptionen-Liste oder durch Versenden einer CIS-Nachricht definieren und pflegen. Die Kriterien für die GDSN Subskriptionen sind: Zielmarkt, GTIN, GLN der Datenquelle (Informationsanbieter respektive Lieferant) und GPC. 4. Datensynchronisation: Sobald ein Datenlieferant seinen Artikel veröffentlicht (publiziert) hat und der Händler hierzu eine Subskription eingestellt hat, überprüft das Verzeichnis der Global Registry, ob die Subskription mit der Publikation übereinstimmt. Wenn dies der Fall ist, d. h. eine sog. Pub-Sub Übereinstimmung bzw. Match vorliegt, wird der SDP informiert und von dort werden die Artikeldaten an den anfragenden Datenpool bzw. den subskribierenden Datenempfänger geliefert. Die eigentlichen Artikelstammdaten können von der atrify GmbH dann über folgende Wege übermittelt werden: 1. Catalogue Item Notification (CIN) im XML-Format des jeweiligen Standard Release 2. Per Approval 3. Runterladen einer Artikelstammdatennachricht im Excel-Format über Approval 5. Bestätigungsmeldung: Im letzten Schritt des Austauschprozesses hat der Händler die Möglichkeit den Lieferanten durch eine Bestätigungsmeldung über den Status der Stammdatennutzung zu informieren. Dies erfolgt über die Catalogue Item Confirmation (CIC). Mögliche Statusinformationen, die der Händler übermitteln kann sind (GS1 Germany 2012, S. 122 f.): 1. Accepted: Die Daten wurden vom Datenempfänger angenommen, es wurde aber noch keine unternehmerische Entscheidung getroffen, wie mit den Daten umgegangen wird. Damit informiert dieser Status nur darüber, dass die Daten empfangen
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
463
wurden. Nach Erhalt der Daten durch den Händler können die Daten noch weiteren internen Qualitätsprüfungen bzw. Validierungen unterliegen. Unabhängig davon werden die Daten der Synchronisationsliste (Speicherung des Pub-Sub Matches) zugefügt. Aktualisierungen der Artikelstammdaten Seitens des Lieferanten werden im Netzwerk automatisch dem Händler (im Sinne des Abonnements) zur Verfügung gestellt. 2. Synchronised: Die Daten sind vom Händler synchronisiert worden. Dies bedeutet zwar nicht unbedingt, dass der Artikel schon aktiv und vollständig oder für den Verkauf im Handelsunternehmen erhältlich ist, allerdings zeigt es, dass im Handelsunternehmen mit den Daten des Artikels gearbeitet wird. Auch hier gilt, dass die Daten der Synchronisationsliste (Speicherung des Pub-Sub Matches) hinzugefügt wurden und Aktualisierungen der Artikelstammdaten im Netzwerk automatisch dem Händler zur Verfügung gestellt werden. 3. Review: Dieser Rückmeldestatus beinhaltet die Bitte des Datenempfängers an die Datenquelle ihre Artikelstammdaten durchzusehen und zu verbessern. Das heißt, es wird angezeigt, dass weitere Maßnahmen getroffen werden müssen, damit die Artikelstammdaten eine ausreichende Güte für den abnehmenden Händler erreichen. Der Händler hat die Möglichkeit die Güte der Daten über entsprechende Status-Codes zu spezifizieren und so dem Datensender genauer Qualitätsmängel mitzuteilen. Das Netzwerk sieht hier zahlreiche standardisierte Codes vor (vgl. hierzu die Beispiele in Tab. 25.1 [Codes und Beschreibungen übernommen aus der Tabellenübersicht des Trade Item Implementation Guides, siehe: GS1 Germany 2012, S. 123]. 4. Rejected: Die Zustandsmeldung bedeutet, dass die Daten nicht länger synchronisiert bzw. Änderungen nicht mehr benötigt werden. Der Datenempfänger verdeutlicht, dass er an dem Artikel kein Interesse (mehr) hat und den Artikel nicht länger synchronisieren möchte. Damit wird über diese Rückmeldung auch die Synchronisierung gestoppt und der Status wird in der Synchronisationsliste gespeichert. Alle nachfolgenden Aktualisierungen des Lieferanten werden vom Datenempfänger nicht länger empfangen. Wie bei den obigen Schritten, kann die Bestätigungsnachricht ebenfalls über verschiedene Wege vom Händler erfolgen: 1. CIC im XML-Format des jeweiligen Standard Release 2. Per Approval Auf der anderen Seite kann der Lieferant kann diese Informationen über zwei Wege erhalten: 1. CIC im XML-Format des jeweiligen Standard Release 2. Per Publishing (vgl. hierzu insb. Die gelbe Markierung in Abb. 25.2) Wie die Ausführungen verdeutlichen führt insb. der Bestätigungsstatus „Review“ zu einer Qualitätsverbesserung der Artikelstammdaten im Netzwerk. Allerdings, so macht der Ablauf ebenfalls deutlich, kann die Datenqualität der Artikelstammdaten nur über eine
464
S. Kasper
Tab. 25.1 Beispiele für CIC-Status Rückmeldungen Code Code-Bezeichnung CIC003 Breite und Tiefe wurden auf Ebene der Basiseinheit vertauscht
Code-Beschreibung Auf Basiseinheit bzw. der niedrigsten GTIN-Ebene der Artikelhierarchie wurden die Werte der Attribute Breite und Tiefe vertauscht. Mögliche Lösung: Die Datenquelle korrigiert die Werte für die Angabe der Breite und Tiefe und sendet die CIN mit den korrigierten Daten CIC005 Unstimmigkeiten in Die Werte für die Breite, Tiefe und/oder Höhe auf Ebene der Basiseinheit bzw. der niedrigsten Ebene den Abmessungen der Artikelhierarchie werden aus Sicht des auf Ebene der Datenempfängers in Frage gestellt. Mögliche Lösung: Die Basiseinheit Datenquelle sollte die Daten validieren und/oder die Breite, Tiefe und/oder Höhe aktualisieren und die CIN mit den korrigierten Daten senden. Das Attribut „Nettoinhalt“ passt nicht zu der auf dem Produkt CIC007 Wert des gedruckten Verbraucherangaben. Nettoinhalts Mögliche Lösung: Die Datenquelle sollte die Werte entspricht nicht den Angaben des Nettoinhalts validieren und/oder aktualisieren und die CIN mit den korrigierten Daten senden. des Etiketts CIC017 Probleme mit der Die in der Ankündigung gesendete Global Produkt Global Product Classification (GPC) ist neu und im System des Classification Datenempfängers noch nicht komplett implementiert oder sie ist falsch. Mögliche Lösung: Die Datenquelle sollte die GPC validieren und/oder aktualisieren und die CIN mit den korrigierten Daten senden. Sofern die ursprüngliche GPC korrekt ist, sollte sich die Datenquelle mit dem Datenempfängers in Verbindung setzten, sodass dessen System mit der neuen GPC aktualisiert wird. CIC999 Freier Text – vom Der Datenempfänger stellt der Datenquelle die Anwender definiert Erklärung für den freien Text zum Status-Code der Bestätigung bereit, die nicht mit einem Code identifiziert werden können. Mögliche Lösung: Wenn weitere Erklärungen erforderlich sind, sollte die Datenquelle mit dem Datenempfänger Kontakt aufnehmen.
Abb. 25.2 Statusanzeige Publishing
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
465
entsprechende Nachbearbeitung der Daten durch den Lieferanten erfolgen. Im Sinne einer effizienten Nutzung der Daten in der Wertschöpfungskette vom Lieferanten zu Händler ist dies suboptimal. Die effizientere Lösung ist sicherlich die Daten in der benötigten Güte an den Handel zu übermitteln, um so aufwendige Nacharbeiten von Anfang zu vermeiden. Das GDSN bietet eine Reihe derartiger proaktiven Maßnahmen zur Verbesserung der Datenqualität an. Diese standardisierten Bausteine werden in der Folge beschrieben.
25.2 B austeine des GDSN zur Optimierung der Artikelstammdatenqualität 25.2.1 Data Quality Framework (DQF) Das Data Quality Framework (DQF) ist ein „Best Practice“ Ansatz, mit Hilfe dessen die interne Artikelstammdatenqualität auf der Lieferantenseite gemessen und optimiert werden kann. Durch das Framework kann der Lieferant über eine Art „Self Assessment“ den aktuellen Zustand seiner Artikelstammdatenqualität analysieren. Gemessen werden in diesem Zusammenhang die Datenqualitätsdimensionen Vollständigkeit, Standardkonformität, Konsistenz, Fehlerfreiheit und Aktualität. Mit Hilfe einer Scorecard und einer Datenqualitätscheckliste lassen sich Datenqualitätskennzahlen (Key Performance Indikatoren [KPI’s]) für die Qualität der Artikelstammdaten erheben. Somit kann über die Nutzung des Frameworks der Status Quo der Artikelstammdatenqualität über verschiedene Facetten festgestellt werden (GS1 2010, S. 6 ff.). Zudem erhält der Anwender noch Hilfestellung zur Umsetzung eines Datenqualitätsmanagementsystems (DQMS) (Rodgers 2012, Blog Beitrag zum Thema GDSN und Datenqualität). Die Expertengruppe, bestehend aus Mitarbeiter von Lieferanten (z. B. Coca-Cola, Gladson, Kraft, Nestlé, Procter & Gamble, SCA und Unilever), Händlern (z. B. Ahold, Carrefour und Metro), GS1 Organisationen und Beratungsunternehmen sowie Verbänden (z. B. GS1 Germany, European Brands Association [AIM], Capgemini), hat das Ziel verfolgt, mit dem Framework die Datenqualitätsanalyse einfach zuhalten und zielt nur auf die Nutzung des GDS-Netzwerks ab (GS1 2010, S. 2 und 83 f.). In der Folge werden die Datenqualitätsdimensionen, das Managementsystem, das Assessment und die KPI-Checkliste als Module des Frameworks kurz dargestellt.
25.2.1.1 Datenqualitätsdimensionen Das Framework fokussiert sich auf insgesamt fünf Datenqualitätsdimensionen und beruft sich auf den GCI/ Capgemini Report aus dem Jahre 2004 (GCI 2004, S. 9 und GS1 2010, S. 6). Demnach werden die Dimensionen, die es zu messen gilt gemäß Tab. 25.2 definiert. 25.2.1.2 Datenqualitätsmanagementsystem (DQMS) Das Framework definiert das Datenqualitätsmanagementsystem als „… a series of documented, periodically-reviewed procedures that are implemented within an organisation to
466
S. Kasper
Tab. 25.2 Übersicht der Datenqualitätsdimensionen im DQF Englische Bezeichnung Completeness
Deutsche Übersetzung Vollständigkeit
Standards-based Consistency
Standardkonformität Konsistenz
Accuracy Time-stamped
Fehlerfreiheit Aktualität
Englische Definition All required values are electronically recorded. Data conforms to industry standards. No different attribute values in different business systems. The right values at the right time. Validity timeframe of data is clear.
maintain and support the production of good quality data“ (GS1 2010, S. 9). Die Beschreibungen zum System verstehen sich als eine Art Implementation Guide, der als „Kompass“ für die Einführung oder für die Überprüfung eines bereits vorhandenen Systems herangezogen werden kann (GS1 2010, S. 9 und GS1 2010a, S. 7 ff.). Hierbei werden vier zweckmäßige Funktionsbereiche differenziert (GS1 2010, S. 9): • Organisatorische Anforderungen, die sich mit der Handlungsfähigkeit der Organisation beschäftigen • Politik & Standards, die zur Steuerung und als Bezugsgrößen herangezogen werden • Geschäftsprozesse, die die tägliche operative Arbeit ausmachen • Systemunterstützung, die notwendig ist damit die Geschäftsprozesse ausgeführt werden können In jedem von diesen Funktionsbereichen gibt es vier Haupttypen von Aktivitäten, die bei der Umsetzung eine Rolle spielen und daher als Teil des DQMS betrachtet werden müssen. Diese Arten von Aktivitäten sind (GS1 2010, S. 9): 1. Planung: Der Planungsaspekte bezieht sich auf alle Aktivitäten, die für die Definition einer Strategie und ihrer Umsetzung notwendig sind, damit die abgeleiteten Ziele des Unternehmens erreichbar werden. Alle Aktivitäten die diesem Punkt zugerechnet werden, helfen, dem Unternehmen interne und externe Ziele aufzustellen, die mit dem DQMS erreicht werden sollen. 2. Dokumentation: Hier werden alle Aktivitäten gebündelt, die sich mit der formalen Dokumentation der Geschäftsprozesse im Zusammenhang mit dem Artikelstammdatenmanagement beschäftigen. Mit Hilfe der sauberen Dokumentation soll die tägliche Arbeit besser verstanden werden und helfen Verbesserungspotenziale hinzu einer exzellenten operativen Aufgabenerfüllung zu erreichen. 3. Ausführung: Diese Aktivität fokussiert sich auf die praktische Ausführung von Prozessen innerhalb der Organisation. Sie bezieht sich vor allem auf eine einheitliche (standardisierte) Abwicklung verschiedenartiger Prozesse, auf die die Aufmerksamkeit gelenkt werden muss.
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
467
4. Überwachen und Steuern: Dieser Schritt bezieht sich auf die kontinuierliche Steuerung und Messung der Ergebnisse und Auswirkungen der Aktionen die im Hinblick auf die Datenqualität die von den Unternehmen angewendet werden. Unterstützt wird dieser Aspekt durch einen kontinuierlichen Verbesserungsprozess. Tab. 25.3 zeigt die Aktivitäten bezogen auf die vier Funktionsbereiche im Überblick, die im Framework detaillierte beschrieben werden (GS1 2010a, S. 31).
25.2.1.3 Assessment Das Bewertungsverfahren verfügt über mehr als 70 Fragen mit deren Hilfe Aspekte, die für die Artikelstammdatenqualität wichtig sind, analysiert und festgestellt werden können. Die Fragen beziehen sich auf das bereits vorhandene oder in Ansätzen vorliegende DQMS und umfasst jeweils Fragen zu den Bereichen: Planung, Implementierung & Operation, Messung & Überwachung sowie spezielle Überprüfungen (Reviews) des Managements. In der folgenden Tab. 25.4 sind beispielhaft einige der Fragen aufgelistet (GS1 2010b, Tab. „Self-Assessment Questionnaire“). Der Fragekatalog beruht auch hier wieder ausschließlich auf „Best Practice“ Empfehlungen, wodurch die gewonnen internen Ergebnisse vom jeweiligen Datensender als Benchmarking gegenüber langjährigen GDSN-Nutzern angesehen werden können. Das entsprechende Scoring System ist so aufgebaut, dass die Unternehmen feststellen können, an welchen Stellen intern Handlungsbedarf besteht, damit sowohl die interne als auch die externe Datenqualität der Artikeldaten verbessert werden kann. 25.2.1.4 KPI Checkliste Im Detail bezieht sich die Messung der Artikelstammdatenqualität auf die Konsumenteneinheiten (die sog. kleinste Einheit) und ihre Verpackungseinheiten (z. B. Karton, 3-er Pack oder Palette) und vergleicht die internen Daten des Lieferanten mit denen im seinem SDP. Hierbei werden folgenden Attribute verglichen (GS1 2010c, Tab. „Inspection – Consumer Unit“): • • • • • • •
GTIN GPC Artikelbeschreibung Nettoinhalt mit UOM Abmessungen (Höhe, Breite und Tiefe inkl. UOM) Bruttogewicht Anzahl der nächstniedrigeren Einheiten (nur bei Verpackungseinheiten)
Die Erfassung der Daten erfolgt für eine Stichprobe von Artikeln in einer Excel-Datei. Durch den Vergleich der internen Daten mit den externen Daten im Datenpool werden über entsprechende Formeln die KPI’s berechnet (GS1 2010c, Tab. „Inspection – Consumer Unit“). Gerade für die Abmessung von Produkten (Höhe, Breite und Tiefe) existiert
Dokumentation
Aktivität Planung
- Führung - Organisatorische Strukturen - Rollen & Verantwortlichkeiten - Personalziele - Reporting - Alignment
Organisatorische Erfordernisse - „Executive Sponsorship“ mit Mission & Vision - Accountable Leadership - Mitarbeiter Rollen und Anforderungsprofile - Data Owner - Stakeholders; - Data Governance Geschäftsprozesse - Initiale Datenanlage - Datenpflege - Datenkorrekturen - Datenlöschung - Information life-cycle
- Durch-führungs-vorgaben - Ablaufdiagramme - Anforderungsprofile der Mitarbeiter - Arbeitsabläufe - Performancemetrik
Politik & Standards - Mission & Vision - Zielvorstellungen & Ziele - Leitsätze - Erfolgsmessung - Aktionsplanung -S tandard- und Strategiemanagement
- Mission - Ziele - Prinzipien der Erfolgsmessung - Governance Model - Entscheidungsprozesse - Definition der Daten & Standards - Sicherheits- und Datennutzungskonzept - Audit Prozeduren - Dokumentationsstandards - Riskio- management - Konzepte für das Feedback von Datennutzern
Tab. 25.3 Übersicht der Aktivitäten hinzu einem Datenqualitätsmanagementsystems Systemunter-stützung - Data Repository - Design & Architektur - Workflow - Benutzeroberfläche - Datenvalidierungen - Sicherheit- und Zugriffrechte - Revision und Datenhistorie -E xterne und interne Veröffentlichung der Daten - System Anforderungen - Durchführungsvorgaben - Performancemetrik
468 S. Kasper
- Schulung & Training - Aufmerksamkeit für das Thema Datenqualität schaffen - interne Kommunikation
- Überprüfung der Ressourcen - Review der Personalziele
Ausführung
Überwachung & Steuerung
- Schulung & Aufmerksamkeit - Dokumentationsmanagement -M anagement von Konzepten und Standards - Datenanlageschulung -U mgang mit Nutzerfeedback bei schlechter Datenqualität -R eview der Unter-nehmens- politik - Überprüfung der der Standards - Ergebnisreporting bezogen - Workflow Controls auf bestimmte Servicelevels - Systemvalidierungen - Performance Reporting - Datenqualitätsmetrik -E xternes und internes Feedback der Datennutzung -M onitoring der Auswirkungen von fehlerhaften Daten
- Schulung & Aufmerksamkeit - Performance- Management - Process Issue - Änderungsmanagement
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data … 469
470
S. Kasper
Tab. 25.4 Beispielfragen des Assessments Bereich Planung
Implementierung & Operation
Messung & Überwachung
Review
Beispielfragen - Hat das Unternehmen eine Artikelstammdatenqualitätsstrategie implementiert? - Ist ein klares Dateneigentumskonzept (ownership of data) im Unternehmen definiert, dokumentiert und implementiert? - Verfügt das Unternehmen über genaue Arbeitsanweisungen zur Verbesserung der Artikelstammdatenqualität? -S ind im Unternehmen die Rollen und Verantwortlichkeiten hinsichtlich der Artikelstammdaten eindeutig festgelegt und geregelt? - Wird die Datenqualitätsorganisation in periodischen Abständen überprüft? -G ibt es im Unternehmen einen internen Kommunikationsprozess rund um das Thema Artikelstammdatenmanagement? -H at das Unternehmen einen Prozess implementiert, der die externe Datenveröffentlichung in das GDSN steuert? - Gibt es KPI’s, die die Datenqualität für bestimmte relevante Prozesse regelmäßig misst? - Gibt es eine Leitlinie bzw. Dokument, das sich mit der Rückmeldung von Datenqualitätsproblemen von externen Datennutzern befasst? -F ührt das Management regelmäßige Performance-Prüfungen der Datenqualität durch? -B einhaltet die Messung der Datenqualität das Feedback von Datennutzern?
im GDSN ein Dokument mit genauen Vermessungsregeln, das im folgenden Abschnitt als ein weiterer zentraler Baustein zur Verbesserung der Artikelstammdatenqualität beschrieben wird.
25.2.2 GDSN Package Measurement Rules und Implementation Guide Dieser Baustein hilft vor allem die Korrektheit der Artikelstammdaten in Bezug auf die Maßangaben Höhe, Breite und Tiefe inkl. der Maßeinheit zu verbessern (siehe im folgenden GS1 2018a, S. 9 ff und GS1 2011a, S. 5 ff.). Der Anwender erhält detaillierte Hilfe, wie ein Produkt zu vermessen ist und welche Aspekte, in Abhängigkeit des Produktes, zu beachten sind. Hierzu zählen vor allem unterschiedliche Regeln zur Festlegung der Frontseite eines Artikels, losgelöst von der jeweiligen Präsentation des Artikels im Geschäft (siehe Abb. 25.3) oder Toleranzbereichen, die nach Art der Verpackung eines Produktes, bei der Vermessung und der Erfassung der Maßangaben zu beachten sind. Das Dokument gibt zahlreiche Beispiele aus der Praxis und umfasst einfache Artikel wie Bücher, Flaschen oder Tüten, aber auch komplexe Produkte wie Mützen, Schmuck, Taschen, Fahrräder, Kanus oder sogar komplette Treppenelemente.
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
471
Abb. 25.3 Beispiel zur Festlegung der Frontseite eines Artikels (GS1 2018a, Figure 4.1, S. 10)
Im dazugehörigen Implementation Guide werden alle Prozessschritte zur Vermessung eines Produktes, dass nicht einfach zu messen ist, in einem Ablaufdiagramm beschrieben (siehe Abb. 25.4). Die in den Abschnitten Abschn. 25.2.1 und 25.2.2 beschrieben Unterstützungswerkzeuge existieren im Netzwerk schon seit längerer Zeit. Der im folgenden Abschnitt beschriebene Ansatz der GS1 US ist Ende 2013 ins Leben gerufen worden.
25.2.3 Data Quality Discussion Group Bei der „Data Quality Discussion Group“ handelt es sich um eine Datenqualitätsinitiative der GS1 US, die es sich zur Aufgabe gemacht hat, für Artikelstammdatenwerte, die für die Synchronisation im GDS-Netzwerk besonders wichtig sind, ein Messwerkzeug zu konzipieren (GS1 US 2014, S. 2 ff.). Die sog. initialen Attribute, die hierbei zunächst betrachtet werden, sind von der zugrunde liegenden Arbeitsgruppe in zwei Bereiche eingeteilt worden: 1 . Grundlegende Attribute: GTIN, Markenname, Nettoinhalt und Verpackungsmengen 2. Fundamentale Attribute: Maßangaben (Höhe, Breite und Tiefe), Bruttogewicht, Palettenkonfigurationen und Herkunftsangaben Die amerikanische Arbeitsgruppe formuliert für alle diese Attribute Anforderungen und Leitsätze, die im Netzwerk von den Datensendern angestrebt werden sollen. Die folgende Tab. 25.5 verdeutlicht diesen Qualitätsanspruch beispielhaft für zwei Attribute (GS1 US 2014, S. 47 und 49). Hervorgerufen durch gesetzliche Anforderungen, lässt sich auch in Europa ein zentraler Baustein zur Optimierung der Artikelstammdatenqualität finden, der im Abschn. 25.2.4 beschrieben wird.
472
S. Kasper
Abb. 25.4 Prozessablauf zur Vermessung eines komplizierten Artikels (GS1 2011a, Figure 4-1, S. 9)
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
473
Tab. 25.5 Qualitätsanforderungen bestimmter Attribute gemäß Data Quality Discussion Group Attribut Qualitätsanforderung Markenname - Übereinstimmung des Markennamens mit dem Namen auf dem Produkt. - Korrekte Schreibweise des Markennamens (Vermeidung von Abkürzungen, korrekte Schreibweise [Kleinbuchstaben, Großbuchstaben, Sonderzeichen). - Konsistente Nutzung des Markennamens über die komplette Produktfamilie und die entsprechenden Hierarchien. Nettoinhalt - D er veröffentlichte Nettoinhalt inkl. der Maßangabe stimmt mit der Angabe auf dem Produkt überein und wird durch einen Abgleich mit dem realen Produkt sichergestellt. -E s soll nur die Angabe im Netzwerk übertragen werden, die auch auf dem realen Produkt angeben ist. - Wird der Nettoinhalt auf dem Produkt mehrfach in verschieden Arten angegeben (z. B. 1 Stück und 250 ml), so sind beide Angaben in das Netzwerk einzustellen.
25.2.4 GDSN-Umsetzungsleitfaden zur technischen Anwendung im Rahmen der Lebensmittelinformations-Verordnung Ein weiterer, mitunter immer noch sehr aktueller Baustein zur Förderung der Artikelstammdatenqualität, bildet die Lebensmittelinformations-Verordnung 1169/2011 (LMIV) [Regulation (EU) No 1169/2011]. Die Regulierung verdeutlicht, dass gesetzliche Bestimmungen die Datenqualität meist fördern. Die Unternehmen, die einer Regulierung unterliegen, müssen so die entsprechenden Daten im Minimum auf den Prüfstand stellen und wenn sie nicht den gesetzlichen Anforderungen genügen, entsprechend in Ordnung bringen (EFQM 2011, S. 6 und GS1 Germany 2020, Information zur Lebensmitteltransparenz). Dies gilt auch für die EU-Regulierung 1169. So titelt die Kundenzeitschrift der GS1 Germany in einem Artikel mit Bezug zu dieser Verordnung mit der Überschrift: „Stressfaktor: LMIV Therapie: Stammdatenmanagement“ (Lehmann 2014, S. 22). Gemäß dieser Verordnung gelten seit Ende 2014 bestimmte Vorgaben wie Lebensmittel gekennzeichnet und bezeichnet werden müssen. Die Verordnung trifft außerdem Aussagen zu Bereichen wie Aufmachung und zum Fernabsatz (Online-Handel) von Artikeln. Damit die Verbraucher besser über die Produkte, die sie kaufen informiert werden, müssen die Hersteller u. a. erweiterte Informationen über Allergene, Nährwerte und Herkunftsangaben auf die Verpackung der Artikel drucken (GS1 Germany 2014, S. 2). Alle diese Informationen müssen dabei über die komplette Kette vom Datensender über die Verkäufer (stationärer Händler oder Onlinehändler) zur Verfügung stehen und werden in der Konsequenz über das Netzwerk des GDSN zwischen den Handelspartner ausgetauscht. Damit vor allem die Lieferanten diese rechtlichen Anforderungen der Verordnung erfüllen können, ist ein „Best Practice“ Guide von der GS1 Germany zusammen mit Rechtsund Datenexperten aus Industrie und Handel erarbeitet worden, der – ähnlich wie im Falle der Data Quality Discussion Group – detaillierte Umsetzungsvorschläge im Sinne der LMIV in Verbindung mit der Datensynchronisation über das GDSN beinhaltet (GS1 Ger-
474
S. Kasper
many 2014, S. 2 ff. und Lehmann 2014, S. 24) [siehe Abb. 25.5]. Der Vollständigkeit halber sei erwähnt, dass es einen vergleichbaren Guide auch von der GS1 Zentrale in Brüssel erarbeitet wurde (vgl. hierzu GS1 2014, S. 3 ff.). Gemäß Abb. 25.5 hat die Expertengruppe der GS1 zunächst die Attribute gemäß den Themenbereichen der LMIV gruppiert und dann für jedes relevante Datenelement, das im Netzwerk ausgetauscht wird, eine Umsetzungsleitlinie entwickelt. Für jede einzelne Pflichtangabe der Regulierung beinhaltet der Leitfaden entsprechende Informationen, wie etwa Hinweise auf die relevanten gesetzlichen Bestimmungen der Verordnung oder Angaben zu den Datenelementen im GDSN inkl. ihrer Feldbelegungen. Außerdem werden Praxisbeispiele (meist mit Produktabbildungen), GDSN-XML-Codeangaben und Hinweise zur mehrsprachigen Nutzung von Artikeltexten angeben (Lehmann 2014, S. 24). Tab. 25.6 zeigt den Aufbau der Umsetzungshilfe für den Datenlieferanten an Hand der Datenelemente Größenbezeichnung und Aufbewahrungs- und Verwendungshinweisen: Das Beispiel der GDSN-Nutzung im Zusammenhang mit den gesetzlichen Anforderungen der LMIV bezieht sich ausschließlich auf die dafür notwendigen Attribute. Bereits zum Ende des Jahres 2016 ist eine Initiative zur Optimierung der Datenqualität über alle • Nährwertdeklaration • Nettofüllmenge • Menge Zutaten • Alkoholgehalt
• Allergene • Rechtliche Bezeichnung • Zutatenverzeichnis • Deklarationspflichtige Zusatzstoffe
Was?
Wie viel?
Zutaten
Mengen
LMIV Woher? Herkunft
• Verantwortlicher Lebensmittelunternehmer • Ursprungsland • Herkunftsort • Mindesthaltbarkeitsdatum
Wie lange? Haltbarkeit
Wie? Anleitung • Aufbewahrungs- und Verwendungshinweise • Zubereitungsanleitung
Abb. 25.5 Relevante Attribute der LMIV zur Übertragung im GDSN (in Anlehnung an Lehmann 2014, S. 24)
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
475
Tab. 25.6 Qualitätsanforderungen bestimmte Attribute gemäß LMIV GDSN Guide der GS1 Germany Attribut Größenbezeichnung
Aufbewahrungs- und Verwendungshinweise
Qualitätsanforderung Gemäß Anhang IX der LMIV gilt folgende Regelung zur Ausweisung des Nettogewichts bei Einzelverpackungen: „Besteht eine Vorverpackung aus zwei oder mehr Einzelpackungen mit derselben Menge desselben Erzeugnisses, so wird die Nettofüllmenge in der Weise angegeben, dass die in der Einzelpackung enthaltene Nettofüllmenge und die Gesamtzahl der Einzelpackungen angegeben werden.“ Zu nutzendes Größenbezeichnung (descriptiveSize) GDSN- Attribut XML- … Beispiel
DE .. ..12 x 10 g
… Gesetzliche Erfordern Lebensmittel besondere AufbewahrungsAnforderung und/oder Verwendungsbedingungen, müssen diese angeben werden. Zu nutzendes Aufbewahrungs- und Verwendungshinweise für den GDSN- Konsumenten (consumerUsageStorageInstructions) Attribut XML- … Beispiel
.. ….DE .. ..Bitte trocken lagern und vor Wärme schützen
… Gesetzliche Anforderung
genutzten Attribute durch die GS1 Germany gestartet worden, die im abschließend Abschn. 25.3 kurz vorgestellt wird.
476
S. Kasper
25.3 Data Quality Gate und Data Quality Excellence Zur Verbesserung der Datenqualität von Artikelstammdaten haben GS1 Germany, Smart Data One (SDO) und der Datenpoolbetreiber artify zusammen mit Lieferanten und Händlern ein Datenqualitätsprogramm gestartet.1 Das Hauptziel der Initiative ist der Aufbau einer zentralen Instanz zur Qualitätssicherung für den Artikelstammdatenaustausch. Diese Daten sollen zukünftig in erster Linie korrekt und zeitnah für alle Datennutzer entlang der gesamten Supply Chain zur Verfügung stehen. Auf der Lieferanten- und Händlerseite gelten die folgenden Unternehmen als Treiber dieser Initiative: Amazon, Beiersdorf, dm- drogerie markt, Dr. Oetker, Edeka, Henkel, Markant, Mars, Metro, Mondelez, Nestlé, REWE, Procter & Gamble und Unilever. Alle beteiligten Unternehmen haben ein Qualitätssicherungssystem namens Data Quality Gate (DQG) konzipiert, das auf den Datenqualitätsstandards der GS1 beruht und die Umsetzung und Einhaltung der Datenqualität im GDSN weiter verbessert soll (GS1 Germany 2017, S. 1 f. [eigene Zählung]). Federführend bei der Errichtung des DQG ist der Verbund von GS1 Germany, atrify und SDO. Hierbei setzt die GS1 als Standardisierungsorganisation die Rahmenparameter der Standards fest und sorgt in Verbindung mit den Arbeitsgruppen aus Lieferanten und Händlern für die fortwährende Weiterentwicklung des Standards. Die SDO hilft insb. auf Seiten der Lieferanten für die qualitäts-gesicherte Bereitstellung der Artikelstammdaten. Das Portfolio des Unternehmens reicht von der Artikelstammdatenerfassung, Komplettierung bis zur Übernahme eines externen Artikelstammdatenmanagements. Die atrify liefert die technische Plattform des DQG. Im zertifizierten GDSN-Datenpool sind insb. sämtliche Prüfungen hinterlegt und teilweise mit Funktionen aus dem Umfeld der Künstlichen Intelligenz (KI) gestaltet. Eingesetzt wird ein IT-System, das die Artikelstammdaten der Lieferanten auf Basis der standardisierten Validierungen bei Datenlieferung überprüft und den Datensender sofort ein Feedback gibt. Außerdem werden dem Lieferanten KPIs in der Datenqualitätsübersicht angezeigt (GS1 Germany 2017, S. 1 f. [eigene Zählung]). Gerade die Bereitstellung von sog. Datenqualitätsreports gilt als wichtiger Baustein dieser Initiative. Ziel ist es, das DQG flächendeckend für alle Lieferanten des deutschen Zielmarkts anzubieten und so die Datenqualität weiter zu verbessern.
25.4 Zusammenfassung und Ausblick Beim GDS-Netzwerk handelt es sich um einen Datenstandard der sich immer mehr auf die Qualität der Artikelstammdaten, die zwischen den Datensendern (Lieferanten) und den Datenabnehmern (Händler) ausgetauscht werden, fokussiert. Damit wird deutlich, dass die Nutzung des Netzwerks und die daran angeschlossenen Datenpools keine große He rausforderung mehr darstellen. Vielmehr treten operative Aspekte in den Vordergrund die atrify und SDO sind jeweils ein 100-prozentiges Tochterunternehmen der GS1 Germany.
1
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
477
darauf abzielen, den qualitativen Ansprüchen der Datennutzer gerecht zu werden. Hierbei erhalten die Datenlieferanten des Netzwerks Unterstützung durch ein Framework zur Analyse der eigenen Artikelstammdatenqualität bis hin zum Aufbau eines DQMS. Darüber hinaus gibt es Hilfestellung bei der Vermessung ihrer Artikel zur Optimierung der Maßangaben und Leitlinien zur Optimierung bestimmter Artikeldaten, die, auch hervorgerufen durch gesetzliche Vorschriften, bis zum Endkonsumenten reichen. Gerade im sog. B-to-C (business-to-consumer) Umfeld spielen Artikelstammdaten eine immer wichtigere Rolle. So muss sich bspw. der Online-Käufer auf die Angaben des Händlers im Web verlassen können, da er die Daten auf dem Produkt höchstens virtuell, etwa per Produktabbildung, überprüfen kann. Damit kommt der Datenqualität der Artikelstammdaten gerade in diesem Zusammenhang zukünftig eine bedeutende Rolle zu. Diese zeigt sich insb. in der oben beschriebene Initiative des DQG. Aus Sicht des Datensenders stellt außerdem noch der Multi-Channel-Vertriebe eine größere Herausforderung dar. Hier müssen die Lieferanten gewährleisten, dass die Daten über die verschiedenen Vertriebskanäle konsistent und glaubwürdig erhalten bleiben. Das heißt, die Artikelstammdaten sollten auf den mobilen Endgeräten, den Apps und den sozialen Netzwerken, den Webseiten der Hersteller sowie in den klassischen Medien (wie bspw. Zeitschriften und Zeitungen) identisch sein (Lehmann 2014, S. 22). Nur so ist gewährleistet, dass die Endkunden die notwendigen Produktdaten in einer ausreichenden Güte erhalten. Ergo: Artikelstammdaten und ihre Qualität sind Managementaufgabe und auf keinen Fall Nebensache im täglichen Geschäft.
Literatur 1Worldsync; ,Partner Certification‘, Köln, 2014. DAMA International; The DAMA Dictionary of Data Management, 2nd Edition, Technics Publications LLC, New Jersey, 2011. European Foundation for Quality Management (EFQM); ‚Framework for Corporate Data Quality Management‘, Brüssel, 2011. GCI; ,Internal Data Alignment: Learning From Best Practices – How to Improve Your Current Business and Prepare for Global Data Synchronisation – Results of the Internal Data Alignment Survey’, unter Mitarbeit von Jacobs, Kees; Pavalon, Joseph; Pottier, Natascha, Capgemini und Global Commerce Initiative (GCI) [Hrsg.], 2004. GS1; GDSN Validation Rules BMS All R3.1.5, 2018a; www.gs1.org/docs/gdsn/3.1/GDSN_Validation_Rules_BMS_All_R3p1p5_i4_8Jan2018.xlsx (Abruf am 13.03.2020). GS1; ,GDSN Package Measurement Rules Standard – the global rules for nominal measurement attributes of product packaging to facilitate communication of the same for retail & nonretail products covering consumer unit to the case level & all intermediary levels’; GS1 Standards Document, Release 2.5.3, Ratified, Jan 2018, 2018b, https://www.gs1.org/docs/gdsn/3.1/GDSN_ Package_Measurement_Rules.pdf (Abruf am 13.03.2020). GS1; ,GDSN Package Measurement Rules Implementation Guide‘, Issue 5, Mar-2011, 2011a, https://www.gs1.org/docs/gdsn/guidelines/GDSN_Pack_Measure_Rules_Implementation_ Guide.pdf (Abruf am 25.02.2018).
478
S. Kasper
GS1; ,GDSN Package Measurement Rules Implementation Guide‘, Issue 5, GS1 AISBL, Brüssel, 2011b. GS1; ,GS1 Data Quality Framework‘, Version 3.0, Issue 2, October 2010, 2010, https://www.gs1. org/sites/default/files/docs/gdsn/DQ_Framework_Packet_v3.0.zip (Abruf am 13.03.2020). GS1; Implementation Guides For the Data Quality Framework v3.0’, Issue 2, October 2010, 2010a, https://www.gs1.org/sites/default/files/docs/gdsn/DQ_Framework_Packet_v3.0.zip (Abruf am 13.03.2020). GS1; ,Self-Assessment Socrecard‘, Version 3.0, Issue 2, October 2010, 2010b, https://www.gs1.org/ sites/default/files/docs/gdsn/DQ_Framework_Packet_v3.0.zip (Abruf am 13.03.2020). GS1; ,Data Quality KPI Checklist‘, Version 3.0, Issue 2, October 2010, 2010c, https://www.gs1.org/ sites/default/files/docs/gdsn/DQ_Framework_Packet_v3.0.zip (Abruf am 13.03.2020). GS1; ,A Glossary of Terms used in GS1 GDSN; GS1 AISBL, Brüssel, 2006. GS1; ,GDSN Implementation Guidelines for EU Regulation 1169/2011 – Mandatory Information‘, Version V1.0 – March 2014, GS1 AISBL, Brüssel, 2014. GS1 Germany; Lebensmitteltransparenz, 2020, https://www.gs1-germany.de/lebensmitteltransparenz/ (Abruf am 13.03.2020) GS1 Germany; ,Das Data Quality Gate – digitale Produktinformationen optimieren. Anforderungen von Handel, Gesetzgeber und Verbrauchern zuverlässig erfüllen.‘, Version 09/2017, Köln, 2017. GS1 Germany; Leitfaden zur Umsetzung der Lebensmittelinformations-Verordnung Nr. 1169/2011 (LMIV) auf Basis der GS1 Standards, Version 1.0, Stand Juni 2014, 2014. GS1; ,GDSN Statistics of Adoption – GS1 Global Registry Statistics Cumulative Results as of January 24, 2020‘, GS1 AISBL, Brüssel, 2020, https://www.gs1.org/sites/default/files/docs/gdsn/ stats/gdsn_adoption.pdf (Abruf am 13.03.2020). GS1 Germany; ,GDSN Trade Item Implementation Guide‘, Version 13, Köln, 2012. GS1 US; ,Data Quality Discussion Group‘, Lawrenceville, 2014. Kasper, Sascha; ,Was bietet das Global Data Synchronization Network (GDSN) in Sachen Artikelstammdatenqualität über Konsistenz-Validierungen hinaus?‘, 1Worldsync, Blog, Köln, 2014a, http://blog.1worldsync.com/de/gdsn-artikelstammdatenqualitaet/ (Abruf am 25.02.2018). Kasper, Sascha; ,Eine “kleine” Erfolgsgeschichte des Global Data Synchronisation Netzwerks (GDSN)‘, 1WorldSync, Blog, Köln, 2014b, http://blog.1worldsync.com/europa/erfolgsgeschichte-des-gdsn/?lang=de (Abruf am 25.02.2018). Kasper, Sascha; ,Zentrales Artikelstammdatenmangement in der Texilbranche‘ Groth, Kemper (Hrsg.): ,Jahrbuch für die Bekleidungswirtschaft‘, Schiele & Schön, Berlin, 2002. Legner, Christine; Österle, Hubert; Schemm, Jan Werner; ‚Global Data Synchronization – Lösungsansatz für das überbetriebliche Produktstammdatenmanagement zwischen Konsumgüterindus trie und Handel?‘; In: Becker, Jörg; Knackstedt, Ralf; Pfeiffer, Daniel (Hrsg.); ‚Wertschöp fungsnetzwerke – Konzepte für das Netzwerkmanagement und Potenziale aktueller Informationstechnologien‘, Physica, Heidelberg, S. 173–192, 2008. Lehmann, Richard; ,Stressfaktor: LMIV Therapie: Stammdatenmanagement – Eine Quelle für alle Kanäle – Schlüssel zur sicheren Umsetzung der Lebensmittelinformations-Verordnung 1169/2011 (LMIV)‘ Standards (Magazin für effiziente Value Chaine), Köln, 33. Jg., S. 22–24, 2014. Regulation (EU) No 1169/2011 of the European Parliament and of the Council of 25 October 2011. Rodgers, Dirk; ,Before You Sign Up For GDSN – Get Your Data In Order With A Data Quality Program‘, Dublin (Ohio), 2012, https://www.rxtrace.com/2012/05/before-you-sign-up-for-gdsnget-your-data-in-order-with-a-data-quality-program.html/ (Abruf am 13.03.2020). Schemm, Jan Werner; ,Zwischenbetriebliches Stammdatenmanagement – Lösungen für die Datensynchronisation zwischen Handel und Konsumgüterindustrie‘, Springer, Berlin, 2009.
25 Gewährleistung einer hohen Artikelstammdatenqualität im Global Data …
479
Dr.-Ing. Sascha Kasper studierte an der Ruhr-Universität Bochum Wirtschaftswissenschaften. Seine Schwerpunkte waren unter anderem Planung und Organisation. Nach seinem Abschluss als Diplom Ökonom war er zunächst vier Jahre bei der SinnLeffers AG, Hagen als Teammitglied im Lieferantenmanagement tätig. Zuletzt war er zuständig für den elektronischen Datenaustausch (EDI) und der partnerschaftlichen Zusammenarbeit mit den Lieferanten im Zuge des Efficient Consumer Response (ECR). Anfang 2000 trat er als Projekt- und Fachgruppenmanager bei der Centrale für Coorganisation GmbH (CCG) in Köln [heute GS1 Germany] ein. Der Schwerpunkt seiner Tätigkeit zielte auf die national und internationale Standardisierung von Artikelstammdaten im Bereich der Artikelstammdatenpoollösung SINFOS ab. Heute nimmt er die Funktion des Directors Solution Partners & New Businesses in der atrify GmbH (ehemals 1WorldSync GmbH) wahr, die als Tochterunternehmen GS1 Germany entstand und heute einer der größten Artikelstammdatenpools im Global Data Synchronization Network (GDSN) ist. Dort zeichnet er sich verantwortlich für die Betreuung der GS1 Mitgliederorganisation wie GS1 Austria, Italy und Spain. Sascha Kasper hat Anfang 2018 seine Dissertation zum Thema „Qualitätsorientiertes Artikelstammdatenmanagement und dessen wirtschaftliche Effekte auf die Prozesskette aus Sicht eines globalen Artikelstammdatenpools“ an der Universität Bremen erfolgreich abgeschlossen. Er lebt mit seiner Frau und seinen Kindern in Heiligenhaus.
Stichwortverzeichnis
A Abgleich 97 Abhängigkeit zur Realität 244 Abstandsmaß 55 activity rate 316 Ähnlichkeitsmaß 128, 132 Edit-Distanz 128, 132 Jaro/Winkler 132 Levenshtein-Distanz 128, 132 Metaphone 132 n-Gramm-Verfahren 132 Soundex 132 Aggregierbarkeit 49 AIMQ-Methode 50 Aktualität 27, 38, 47, 59 Alignment-Reifegrad 355 Ambiguität 367 Anekdote 375 Anforderung funktionale 367 technische 206 Anforderung, gesetzliche 104, 105 Basel II 104 SOX 104 Anlageprozess 315 Ansatz, generischer 239 Ansehen, hohes 27, 38 Architecture Development Method 362 Architektur-Sicht 362 ARIS-Sichtenkonzept 364 Aufgabe 260 Ausgabedaten 148 Auslegbarkeit, eindeutige 27, 36 Ausreißer 94 Automobilindustrie 286
Autonomie 123 Autorisierungsrolle 244
B Backpropagation 407 Bag-of Words-Vektor 412 Bearbeitbarkeit 26, 34 Bestand führender 97 nachgelagerter 97 Referenzbestand 97 Betriebsressource 258 Bewegungsdaten147, 310 BIS 355 Bot 337 Business Data Dictionary 282 Engineering Modell 351 Object 148 Rules 73
C Call Center 440 Campus 4.0 410 Capability Maturity-Modell 390 CDO (Chief Data Officer) 276, 285 CEO (Chief Executive Officer) 276 Chatbot 408 Checkliste 233 Chief Data Officer 276 Chief Executive Officer 276 CIO (Chief Information Officer) 276 Cloaking 163
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2021 K. Hildebrand et al. (Hrsg.), Daten- und Informationsqualität, https://doi.org/10.1007/978-3-658-30991-6
481
482 CMDB 361 CMS 361 COBIT 283 Continuous Presentation 390 CRM (Customer Relationship Management) 105, 272, 309, 440 Adressmanagement 105, 109, 110, 112, 113, 115–118, 120 Dublettenprüfung 113, 115–117, 120 Customer Relationship Management (CRM) 309 D DAMA 352 Darstellung, einheitliche 26, 34 Data Consumer 243 Definition Owner 243 Governance 273 Governance-Element 359 Governance-Modell 275 Governance Policy 358 Mining 95 Owner 242, 276, 426, 429 Profiling 74, 75, 140 Provider 244 Quality Manager 277 Quality Scorecards 281 Scrubbing 139 Warehouse 157, 256 Datenarchitektur 263, 282 Datenart 342, 344–347 Datenbereinigung 69, 81, 102, 103, 105–108, 110, 111, 113–115, 117, 118, 120 manuelle 105–107, 116, 117 maschinelle 105, 115–117 Datendefekt 310 Datendefinition 89 Datendefinitionsqualität 89 Dateneigner 201 Datenerfasser 202 Datenerhebung 336, 337, 345, 347 Datenfehler 101–104, 106–113, 115, 117, 118, 120 Fehlerkorrektur 101–103, 105, 107, 111, 113, 115, 116, 117 Fehlerursache 103, 109, 112 Datenfusion 124, 135, 141
Stichwortverzeichnis Datenintegration 123, 141 Datenkatalog 366 Datenkonflikt Unsicherheit 135 Widerspruch 135 Datenkunde 202 Datenlandkarte 262 Datenmanagement 276 Datenmanagementprozess 282 Datenmenge 252 Datenmigration 315 Datenpräsentation, Qualität 89 Datenprodukt 24 Datenproliferation 269 Datenqualität 87, 101, 103, 104, 106–109, 112, 117, 119, 120, 272, 307, 408 Datenqualitätsanalyse 101 Datenqualitätsmanagement 101, 106–109, 118 Datenqualitätsmessung 101, 110, 113, 117, 118 Datenqualitätsregel 110, 113, 117, 118, 120 Dimensionen 47 inhaltliche 89 Monitoring 108, 118 spezifikationsorientierte 48 Datenqualitätsaudit 196 Datenqualitätsbericht 228 Datenqualitätsbewusstsein 435 Datenqualitäts-Checkliste 197 Datenqualitätskomitee 277 Datenqualitätskoordinator 232 Datenqualitätsmanagement 68, 69, 71–73, 75, 77–79, 83, 84, 273, 421, 426, 428 Datenqualitätsmangel 228 Datenqualitätsmerkmal 89 Datenqualitätsmerkmale-Annotation 384 Datenqualitätsmessung 77–79, 81, 82 Datenqualitätsmetrik 89 Datenqualitätsproblem 310 Datenqualitätspyramide 88 erweiterte 92 Datenqualitätsregel 73–78, 82 Datenqualitätsstrategie 281 Datensammlung, Datenverarbeitung und Datennutzung 204 Datenschutz 41, 335, 337, 343 Datenschutzerklärung 343
Stichwortverzeichnis Datensteward 276 fachlicher 278 technischer 279 Datensteward-Team 278 Datenübernahme 315 Datenverarbeiter 202 Datenverlust 41 Datenweitergabe 336–339, 341–343 Delphi-Methode 297 Digitale Zwillinge 307 Digitalisierung 289, 307 DMBOK (Data Management Book of Knowledge) 352 Dokumentenbewertung 159 Doorway-Pages 162 DQ-Business Case 445 DQ-Charakteristik 368 DQ-Dimension 50 DQI (Datenqualitätsindikator) 437 DQM (Datenqualitätsmanagement) 273 DQ-Merkmale-Steckbrief 368 DQM-Organisationsrichtlinie 399 DQ-Organisation 232 DQ-Regelkreise 233 DSGVO (Datenschutz-Grundverordnung) 272 Dublette 40, 129, 131–133, 135 Erkennung 124 Dublettenerkennung 124, 129, 133, 141 Sorted-Neighbourhood-Verfahren 133 Dublettengruppe 129, 134 E EAMS (Enterprise Architecture Management System) 362 Economy of Scale 268 Edit-Distanz 128 Eingabedaten 148 English, Larry 89 Enterprise 2.0 211, 212, 216 Architecture Management System 362 Entscheidung Entscheidungsnutzen 172, 175 Entscheidungsprozess 173 Fehlentscheidungen 172, 175, 176, 178, 180, 186 Kaufentscheidungen 171, 172, 174, 178, 182, 183, 187 Entscheidungsmodell 336–338 Erfahrungseigenschaft 173, 179, 183, 187
483 ERP 307, 309 ERP-System 282 EVA-Prinzip 237
F Fähigkeiten-Grad 391 Feedback explizites 212, 215, 216, 218 implizites 212, 215, 217 Fehlerfreiheit 26, 35, 47, 55 FIP-Schema 381 Firmenkultur 252 Fishbone-Diagramm 383 Fit-for-use-Konzept 24, 27 Fitness for Use 88 Folksonomies 168 Format 146 Framing-Effekt 178 Functions of Information Processing 381
G Geschäftsobjekt 307 Geschäftsregel 243 Geschäftsvorfall 307 Glaubwürdigkeit 26, 32 Governance-Gestaltungskomponent 358
H Häufigkeitsauszählung 93 Hamming-Distanz 56 Haushaltsbildung 133 Heterogenität 123 semantische 124 strukturelle 124 Schemaheterogenität 126 technische 124 Hörfehler 131 Homonym 127 I If-then-Regeln 95 Impact-Analysis 368 Industrie 4.0 285, 309 Information 172, 174, 175, 260 Product Map 266 Retrieval 159
484 Informationsasymmetrie 171, 173, 178, 182 Informationsbedarf 260 Informationsbegriff 3 Informationsbeschaffung 260 Informationsgruppe 97 Informations-Intensitätsmatrix 375 Informationskosten 176, 181–183, 186 Informationsmanagement 7 Informationsmanagementprozess 259, 264 Informationsmodell 13 Informationsobjekt 308 Informationsplanung 259, 261 Informationsprodukt 266 Informationsqualität 23, 402 Bewertung 24 Informationsqualitätsbewertung, automatische 212, 214, 217 Informationsqualitätskriterium 174 Aktualität 175, 178 Form der Bereitstellung 174, 177 Glaubwürdigkeit 175, 179, 186, 187 Informationsumfang 176, 179 Informationswert 176, 181 inhaltliche Relevanz 175, 181 Interpretation 174, 180 Neuigkeit 175, 181 Wahrheit des Informationsinhalts 175, 178 Zeitpunkt der Bereitstellung 175, 178 Zeitpunkt des Zugriffs 175, 180 Zugriffsmöglichkeit 174, 180 Informationsqualitätsmanagement 265 Informationsquelle Anbieter 171, 174–176, 182, 187, 188 Nachfrager 186, 188, 189 unabhängige Organisationen 185, 186, 189 Informationssystem 309 Informationstheorie 11 Informationswirtschaft 8 Inhalt 147 Inhaltsdaten 147 Instandhaltungsplanung 288 Integration Datenintegration 123 Integrationsprozess 124 materialisierte 124 virtuelle 124 Internet 171, 177, 180–182 Rechtsunsicherheit im Internet 184 Suchmaschine 172
Stichwortverzeichnis Internet of Things (IoT) 309 Interpretierbarkeit, fachliche 49 Intrinsisch 91 IoT (Internet of Things) 307 IQ-Dimension 24, 26, 28 IQ-Kategorie 27, 28 darstellungsbezogene 28 inhärente 28 systemunterstützte 28 zweckabhängige 28 IQ-Management 23 IQM-Repository 403 Ishikawa-Diagramm 383 IT-Architektur 229 IT-Strategie-Matrix 377
J Johnson & Johnson 287
K Kardinalität 49 Key Performance Indicator (KPI) 437 KI (Künstliche Intelligenz) 271, 404 KI-Algorithmus 289 K.I.D. 402 Kommunikation 143 Kommunikationsplan 386 Komplexität des Systems 252 Konfigurationsdatenbank 361 Konfigurationsmanagementsystem 361 Konfliktbehandlung CONQUER-System 137 Konflikte auflösen 137 Konflikte ignorieren 136 Konflikte vermeiden 136 Strategie 136 Survivor-Strategie 137 Konfliktlösung Fuse By 139 HumMer-System 139 Mehrheitsentscheid 137 Mittelwertbildung 138 Konsistenz 47, 58 Konsistenzprüfung 99 Konsistenzregel 58 Kontextbezug 91 Konzern-Datensteward 277 Kosten-Nutzen-Matrix 377
Stichwortverzeichnis Künstliche Intelligenz (KI) 271, 404 Kulturwechsel 253 Kundenmanagement 272 Kundenservice 402 L Lebenszyklus 247, 352 Lernen, maschinelles 404 Lernprozess 227 Levenshtein-Distanz 128 Lifecycle 247 Linkfarm 162 Löschhindernis 316 Löschprozess 315 Löschvormerkung 315 Löschvorschlag 316 Lösung, generische 253 M Managementunterstützung 252 Mapping, Schema Mapping 126 Marktattraktivitätsmatrix 375 Master Data Governance 316 Life Cycle 307, 311 Masterdaten 245 Materialstamm 310 Materialstammdaten 307, 310 Materialstatus 311 Maximum Weighted Matching-Verfahren 127 MDLC (Master Data Life Cycle) 311 MDM-System 277 Mehrdimensionalität 255 Meinungsprofil 355 Merkmal 24 Messung, Maßnahmen und Überwachung 205 Messverfahren 52 Metadaten 147, 163 Metriken 47, 52 Monitoring 317, 433 Motivation, intrinsische 212 N Nachricht 172, 174 Natural Language Processing 407 Netz, künstliches neuronales 405 NLTK (Natural Language Toolkit) 411
485 Normierung 49 Nutzwertanalyse 378 O Objektivität 27, 36 Ontologie 164 Ontologieentwicklung 168 Opportunismus 172, 176, 180, 182, 187, 189 Organisation 225, 253 Organisationsstruktur 318 P Perspektive 362 Pflegeprozess 315 Plattformökonomie 272 Plausibilitätsprüfung 110, 111, 113, 117 Referenzdaten 105, 110, 114–118 Wertebereiche 110–113, 117, 118 POSMAD 352 Preisvergleich 173, 185 Process Assessment Model 390 Owner 242 Produktionsfaktor 17 Projekt 232 Prozess 149, 230 Prozessattribut 391 Prozesskette, ereignisgetriebene 364 Prozesslandkarte 256 Prozessproblem 251 Prozessreferenzmodell 390 Prozessumsetzung 252 Python 411 Q Qualitätsmanagement 265 Qualitätsplan 265 Qualitätsstandard 432, 434 Quality Gate 390 R R/3 307 RACI 283 Realweltobjekt 129 Redundanz 40 Referenzdaten 308
486 Referenzdatensystem 140 Regelinduktion 95 Regeltyp Content Rules 95 Key Rules 95 Matching Rules 95 Regelwerk 432 Reifegrad-Adäquanz-Matrix 391 Reifegradmodell chaotisches 299 IQM-Reifegradmodell 298 messendes 300 optimierendes 301 reaktives 299 Reifegrad-Niveau 299 steuerndes 301 Relevanz 27, 37 Relevanz 27 Repräsentation 91 Request for Change 388 Resource Description Framework 166 Review-Tätigkeit 233 Risiko-Akzeptanz-Matrix 377 Risiko-Nutzen-Matrix 377 Rückkopplung 246 S S/4HANA 307 SAP 307 Schema Matching 124, 126, 141 CUPID Matcher 128 DUMAS-Matcher 128 horizontale Matcher 128 instanzbasierte Verfahren 128 kombinierte Matcher 128 schemabasierte Verfahren 128 vertikale Matcher 128 Schnittstellenmanagement 229 SCM (Supply Chain Management) 309 Sensibilisierbarkeit 49 Sicherheit 26, 41 Slavedaten 245 Sorted-Neighbourhood-Verfahren 133 Sortierschlüssel 134 Sortimentsbereinigung 315 Speicherdaten 148 Spiegeldaten 245
Stichwortverzeichnis Sprachprobleme 318 SRM 309 Stabilität 147 Stable Marriage Verfahren 127 Stage Gate Model 389 Stammdaten 147, 307 globale 308 lokale 308 originäre 307 prozessspezifische 308 zentrale 308 Stammdatenmanagement 280, 318 Stammdatenprozess 317 Standardisierung 140 Standardsoftware 253 Struktur 146 semistrukturierte Daten 146 strukturierte Daten 146 unstrukturierte Daten 146 Strukturierung 139 Suchdienst, semantischer 158 Sucheigenschaft 173, 182, 183, 187 Suchmaschine 158 Suchmaschinenroboter 161 Supply Chain Management (SCM) 307, 309 Synonym 127 Systemarchitektur 280, 282 T Taxonomie 164 TDQM-Methodologie 296 Text-Mining 167 Thesaurus 164 Tippfehler 131 Total Quality Management (TQM) 294 Tracking 381 Transaktion 178, 182, 183, 189 Transformation, digitale 307 Transparenz 241, 244 Markttransparenz 171, 173, 182 Preistransparenz (Siehe Preisvergleich) U Übersichtlichkeit 26, 33 Umfang 31 angemessener 26, 31
Stichwortverzeichnis Unschärfe 95 Ursache-Wirkungsdiagramm 383 V Vagheit 367 Verantwortlichkeit 425 Verarbeitung 148 Verarbeitungskette 239 Verbesserungs-Werkzeug, niederschwelliges 249 Verfügbarkeit 91 Verständlichkeit 27, 39 Verteilung 93, 123 Vertrauen 337, 341–344, 346 Vertrauenseigenschaft 173, 183 Vertriebslinie 313 Vertriebsstatus 313 View 362 Viewpoint 362 Visualisierung 94 Vollständigkeit 26, 32, 47, 52
487 W Wang, Richard 90 Web 2.0 186, 211, 212, 216, 217 semantisches 158, 163 Wertschöpfung 27, 40 Wertschöpfungskette 235 W-Fragen der Prozessorganisation 353 Wikipedia 211, 213, 217 Wissen 93, 172, 175 Wissensbasis 411 Wissensmanagement 7 Wissensmanagementsystem 211 Wissensplattform 216 World Wide Web (WWW) 211, 335 Z Zugänglichkeit 26, 30 Zweck 150 Zweckeignung 88