117 54 15MB
German Pages 315 Year 2023
Thomas Hoppe Bernhard G. Humm Anatol Reibold Hrsg.
Wissensbasierte KI-Anwendungen Methodik, Technologie, Betriebliche Nutzung
Wissensbasierte KI-Anwendungen
Thomas Hoppe • Bernhard G. Humm Anatol Reibold Hrsg.
Wissensbasierte KI-Anwendungen Methodik, Technologie, Betriebliche Nutzung
Hrsg. Thomas Hoppe Fraunhofer-Institut FOKUS Berlin, Deutschland Anatol Reibold Ontoport UG Sulzbach, Deutschland
Bernhard G. Humm Fachbereich Informatik Hochschule Darmstadt Darmstadt, Deutschland
Dieses Buch ist eine Übersetzung des Originals in Englisch „Semantic Applications“ von Thomas Hoppe and Bernhard G. Humm und Anatol Reibold (Hrsg.) publiziert durch Springer-Verlag GmbH, DE im Jahr 2018. Die Übersetzung erfolgte mit Hilfe von künstlicher Intelligenz (maschinelle Übersetzung durch den Dienst DeepL.com). Eine anschließende Überarbeitung im Satzbetrieb erfolgte vor allem in inhaltlicher Hinsicht, so dass sich das Buch stilistisch anders lesen wird als eine herkömmliche Übersetzung. Springer Nature arbeitet kontinuierlich an der Weiterentwicklung von Werkzeugen für die Produktion von Büchern und an den damit verbundenen Technologien zur Unterstützung der Autoren. ISBN 978-3-662-68001-8 ISBN 978-3-662-68002-5 (eBook) https://doi.org/10.1007/978-3-662-68002-5 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über https://portal.dnb.de abrufbar. © Der/die Herausgeber bzw. der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von allgemein beschreibenden Bezeichnungen, Marken, Unternehmensnamen etc. in diesem Werk bedeutet nicht, dass diese frei durch jedermann benutzt werden dürfen. Die Berechtigung zur Benutzung unterliegt, auch ohne gesonderten Hinweis hierzu, den Regeln des Markenrechts. Die Rechte des jeweiligen Zeicheninhabers sind zu beachten. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informationen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Planung/Lektorat: David Imgrund Springer Vieweg ist ein Imprint der eingetragenen Gesellschaft Springer-Verlag GmbH, DE und ist ein Teil von Springer Nature. Die Anschrift der Gesellschaft ist: Heidelberger Platz 3, 14197 Berlin, Germany Das Papier dieses Produkts ist recyclebar.
Vorwort der Herausgeber
„Warum gibt es kaum Veröffentlichungen über wissensbasierte KI-Anwendungen bzw. semantischer Anwendungen im Unternehmenseinsatz?“ Diese Frage haben wir uns schon vor einigen Jahren gestellt. Die meisten Veröffentlichungen über semantische Technologien und das Semantic Web konzentrieren sich in erster Linie auf die Technologie selbst und veranschaulichen sie entweder nur anhand von Spielzeugbeispielen oder isolierten Anwendungen. Durch die Entwicklung wissensbasierter KI-Anwendungen für den Unternehmenseinsatz haben wir selbst einiges an Fachwissen erworben, und wir waren sehr daran interessiert, dieses Wissen mit Gleichgesinnten auszutauschen und voneinander zu lernen. Deshalb haben wir die Corporate Semantic Web Community in Deutschland gegründet. In den Jahren 2014–2017 organisierten wir jährliche Dagstuhl-Workshops. Es war von Anfang an unsere Absicht, unsere Erkenntnisse einer breiteren Öffentlichkeit zugänglich zu machen, und so haben wir 2015 unser erstes Buch „Corporate Semantic Web – Wie semantische Anwendungen in Unternehmen Nutzen stiften“ veröffentlicht. Anschließend haben wir zwei Artikel über neue Trends im Corporate Semantic Web in der Zeitschrift Informatik-Spektrum veröffentlicht. Aufgrund des großen Interesses an diesen Publikationen haben wir uns entschlossen, ein neues Buchprojekt zu starten. Wir haben uns bewusst für Englisch als Sprache für dieses Buch entschieden, um unsere Erfahrungen mit einer weltweiten Gemeinschaft zu teilen. Wir haben den Dagstuhl-Workshop 2017 diesem Buch gewidmet, weil wir mehr als eine lose Sammlung von Artikeln schaffen wollten: ein zusammenhängendes Werk, das die verschiedenen Aspekte ingenieurwissenschaftlicher semantischer Anwendungen aufzeigt. Wissensbasierte KI-Anwendungen werden langsam aber stetig von Unternehmen und anderen Organisationen übernommen. Unter wissensbasierten KI-Anwendungen bzw. semantischen Anwendungen verstehen wir Softwareanwendungen, die explizit oder implizit die Semantik (d. h. die Bedeutung) einer Domäne nutzen, um die Benutzerfreundlichkeit, Korrektheit und Vollständigkeit zu verbessern. Wir möchten zeigen, wie man semantische Anwendungen in einem breiten Spektrum von Geschäftsbereichen entwickeln kann. Dieses Buch ist eine Sammlung von Artikeln, in denen bewährte Methoden zur Entwicklung semantischer Anwendungen beschrieben werden, einschließlich technologischer und V
VI
Vorwort der Herausgeber
a rchitektonischer Best Practices. Es ist von Praktikern für Praktiker geschrieben. Zu unserer Zielgruppe gehören Softwareingenieure und Wissensingenieure, aber auch Manager, Dozenten und Studenten. Alle unsere Mitautoren sind Experten aus Industrie und Wissenschaft mit Erfahrung in der Entwicklung semantischer Anwendungen. Ein Ergebnis unser intensiven, gemeinschaftlichen Bemühungen ist ein zunehmendes gemeinsames Verständnis der Do’s und Don’ts bei der Entwicklung solcher Anwendungen. Schloss Dagstuhl, „where Computer Science meets“, war ein wunderbarer Gastgeber und ist ein wahrer Inkubator für die Entwicklung und den Austausch neuer Erkenntnisse. Unser erster Dank gilt daher den freundlichen und kompetenten Mitarbeitern von Schloss Dagstuhl. Die wichtigsten Mitwirkenden an diesem Buch sind natürlich unsere Co-Autoren: 45 Experten auf ihrem Gebiet und auch im Verfassen hochwertiger Texte. Herzlichen Dank für die gute Zusammenarbeit und die Einhaltung der (meisten) Termine! Unser besonderer Dank gilt Wolfram Bartussek, Hermann Bense, Ulrich Schade, Melanie Siegel und Paul Walsh, die uns als erweiterter Redaktionsbeirat unterstützt haben. Ganz besonders möchten wir Timothy Manning danken, der das gesamte Buch Korrektur gelesen und buchstäblich Hunderte von Verbesserungsvorschlägen gemacht hat! Abschließend möchten wir uns beim Springer-Team bedanken, insbesondere bei Hermann Engesser und Dorothea Glaunsinger für die Unterstützung in den letzten Jahren und bei Sabine Kathke, die uns bei diesem Buchprojekt begleitet hat. Die Zusammenarbeit mit Ihnen war wirklich freundlich, konstruktiv und reibungslos. Berlin, Darmstadt und Sulzbach, Deutschland Dezember 2017
Thomas Hoppe Bernhard G. Humm Anatol Reibold
Vorwort zur deutschen Ausgabe
Als der Springer-Verlag an uns mit der Idee herantrat, eine automatische Übersetzung der englischen Ausgabe zu produzieren, waren wir zunächst etwas skeptisch und befürchteten, dass eine große Menge Arbeit auf uns zukäme. Die Probeübersetzung jedoch überzeugte uns von der hohen Qualität der automatischen Übersetzung und wir wagten uns an dieses Experiment. Zudem stimmten die meisten der Autoren zu, die Übersetzung ihres Kapitels zu überprüfen, so dass sich unsere individuellen Aufwände in Grenzen hielten. Wir haben uns bemüht die Texte weitestgehend so zu belassen wie sie automatisch übersetzt wurden, einige Korrekturen der Übersetzung waren jedoch notwendig, um den Sinn der Aussagen zu erhalten. An einigen Stellen beziehen sich die Texte auf die englische Ausgabe, diese haben wir so belassen. Soweit es den Autoren möglich war und sie über die Quellen der Grafiken verfügen wurden die Grafiken übersetzt. Wir hoffen, Ihnen als Leserin oder Leser, sagt das Ergebnis dieses Experiments zu und Sie gewinnen neue Erkenntnisse. Berlin, Darmstadt und Sulzbach, Deutschland August 2022
Thomas Hoppe Bernhard G. Humm Anatol Reibold
VII
Inhaltsverzeichnis
1 Einführung in semantische Anwendungen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Wolfram Bartussek, Hermann Bense, Thomas Hoppe, Bernhard G. Humm, Anatol Reibold, Ulrich Schade, Melanie Siegel und Paul Walsh 2 Leitfaden für die pragmatische Modellierung von Ontologien im Unternehmensumfeld. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Thomas Hoppe und Robert Tolksdorf 3 Compliance mit Metadaten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 Rigo Wenning und Sabrina Kirrane 4 Vielfaltsmanagement für Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Wolfgang Mayer, Georg Grossmann, Matt Selway, Jan Stanek und Markus Stumptner 5 Text Mining in der Wirtschaft. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Melanie Siegel 6 Generierung von Texten in natürlicher Sprache. . . . . . . . . . . . . . . . . . . . . . . . 87 Hermann Bense, Ulrich Schade und Michael Dembach 7 Die Rolle von Ontologien in der Sentiment-Analyse. . . . . . . . . . . . . . . . . . . . . 101 Melanie Siegel 8 Aufbau optimaler Textkorpora aus Webinhalten. . . . . . . . . . . . . . . . . . . . . . . . 111 Wolfram Bartussek 9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 Alexandr Uciteli, Christoph Beger, Katja Rillich, Frank A. Meineke, Markus Loeffler und Heinrich Herre 10 Personalisierter Decision Support für Krebsbehandlung. . . . . . . . . . . . . . . . . 143 Bernhard G. Humm und Paul Walsh
IX
X
Inhaltsverzeichnis
11 Anwendungen temporaler begrifflicher Systeme . . . . . . . . . . . . . . . . . . . . . . . 163 Karl Erich Wolff 12 Kontextabhängige Dokumentation in der intelligenten Fabrik. . . . . . . . . . . . 183 Ulrich Beez, Lukas Kaupp, Tilman Deuschel, Bernhard G. Humm, Fabienne Schumann, Jürgen Bock und Jens Hülsmann 13 Wissensbasierte Produktionsplanung für Industrie 4.0 . . . . . . . . . . . . . . . . . . 203 Benjamin Gernhardt, Tobias Vogel und Matthias Hemmje 14 Automatisierte Rechteklärung mittels Semantic Web Technologien: Das DALICC-Framework. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 Tassilo Pellegrini, Victor Mireles, Simon Steyskal, Oleksandra Panasiuk, Anna Fensel und Sabrina Kirrane 15 Verwaltung von Kultur-Artefakten: Herausforderungen bei der Realisierung typischer Einsatzszenarien in Kulturerbe-Archiven. . . . . . . . . . 245 Kerstin Diwisch, Felix Engel, Jason Watkins und Matthias Hemmje 16 Die semantische Prozessfilterblase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Christian Fillies, Frauke Weichhardt und Henrik Strauß 17 Domänenspezifische semantische Suche: Beispiel SoftwareFinder. . . . . . . . . 273 Bernhard G. Humm und Hesam Ossanloo Stichwortverzeichnis. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
Autorenverzeichnis
Über die Autoren Wolfram Bartussek Dipl.-Inform. Wolfram Bartussek (CTO, OntoPort) studierte Elektrotechnik mit dem Schwerpunkt Regelungstechnik an der Technischen Universität Darmstadt und war einer der ersten Informatikstudenten in Deutschland an der Universität Karlsruhe. Anschließend arbeitete er 3 Jahre als wissenschaftlicher Mitarbeiter bei Prof. D. L. Parnas mit den Schwerpunkten Entwurf und Verifikation von Betriebssystem-Kerneln und Software-Engineering. Nach 25 Jahren als Geschäftsführer eines Softwarehauses kehrte er in die Forschung zurück. Vor etwa 2 Jahren gründete er mit zwei anderen erfahrenen Beratern OntoPort, das sich nun auf Sprachtechnologien und die Anwendung von Ontologien konzentriert. Wolfram Bartussek lehrte seit seiner Zeit als wissenschaftlicher Mitarbeiter an verschiedenen deutschen Universitäten und seit 1999 an der Fachhochschule Darmstadt zu den Themen Informationssystemtechnik, Wissensmanagement und Sprachtechnologien, vor allem in den Bereichen Softwaretechnik, Programmierung und Software-Qualitätsmanagement.
XI
XII
Autorenverzeichnis
Ulrich Beez Ulrich Beez ist wissenschaftlicher Mitarbeiter am Fachbereich Informatik der Hochschule Darmstadt – University of Applied Sciences, Deutschland. An der Hochschule Darmstadt erlangte er 2015 seinen Master-Abschluss mit einer Arbeit zum Thema Terminologie-basiertes Retrieval von medizinischen Publikationen. An der Frankfurt University of Applied Sciences erwarb er 2013 seinen Bachelor-Abschluss mit einer Arbeit über Continuous Integration. Vor seiner akademischen Laufbahn war er in einem großen IT-Unternehmen tätig.
Christoph Beger Christoph Beger arbeitet als Wissenschaftler, Softwareentwickler und Systemadministrator. Er erwarb den Master of Computer Science mit Schwerpunkt Medizinische Informatik an der Universität Leipzig, Deutschland. Seit 2013 verwaltet er das Wachstumsnetzwerk CrescNet in Leipzig, das die Früherkennung von Wachstumsstörungen bei deutschen Kindern unterstützt. Seit 2016 beteiligt er sich an dem vom BMBF geförderten Projekt Leipziger Gesundheitsatlas.
Hermann Bense Hermann Bense studierte Informatik an der Technischen Universität Dortmund und schloss 1980 mit dem Diplom ab. Er gründete 1999 die Internetagentur bense. com und 2015 die Textgenerierungsfirma textOmatic AG. In beiden Unternehmen ist er als Geschäftsführer tätig und verantwortlich für Softwareentwicklung und Forschung in den Bereichen Ontologien, Künstliche Intelligenz, Datenbanken, Content Management Systeme, Suchmaschinenoptimierung (SEO) und Natural Language Generation (NLG). In dem von Google DNI geförderten Projekt 3dna.news arbeitet Hermann Bense an der Hyper-Personalisierung von mehrsprachigen Nachrichten auf Basis von Big Data aus den Bereichen Wetter, Finanzen, Sport, Events und Verkehr.
Autorenverzeichnis
XIII
Jürgen Bock Dr. Jürgen Bock schloss 2006 sein Studium an der Universität Ulm, Deutschland, als Diplom-Informatiker und an der Griffith University, Brisbane, Australien, als Bachelor of Information Technology mit Auszeichnung ab. Er vertiefte seine Forschung im Bereich der formalen Wissensrepräsentation und Semantic Web Technologien am FZI Forschungszentrum Informatik in Karlsruhe und promovierte 2012 am Karlsruher Institut für Technologie (KIT). Seit 2015 ist er in der Zentralen Forschung der KUKA Roboter GmbH, Augsburg, tätig und koordiniert dort ein Forscherteam im Bereich Smart Data und Infrastruktur. Michael Dembach Michael Dembach wurde am 21. April 1987 in Brampton, Kanada, geboren. Er studierte Germanistik und Anglistik an der Universität Bonn und machte 2013 seinen Master of Arts. Er arbeitet seit November 2013 für das Fraunhofer FKIE und ist hauptsächlich für Ontologie- Engineering und natürliche Sprachverarbeitung zuständig.
Tilman Deuschel Tilman Deuschel ist Doktorand am Cork Institute of Technology, Irland. Er erforscht, wie man die Benutzererfahrung von adaptiven Benutzeroberflächen verbessern kann, einer Art von grafischen Benutzeroberflächen, die ihr Aussehen während der Laufzeit automatisch ändern. Außerdem ist er Mitbegründer einer Softwareagentur, die Tools zur Unterstützung von Psychotherapiepatienten und Therapeuten anbietet. Er beschäftigt sich mit benutzerzentriertem Design, Requirements Engineering, Usability Engineering und User Experience Design von interaktiven Medien.
XIV
Autorenverzeichnis
Kerstin Diwisch Kerstin Diwisch erwarb 2013 den Master of Science in Informationswissenschaft an der Hochschule Darmstadt, Deutschland. Derzeit ist sie Doktorandin bei Matthias Hemmje an der Fernuniversität Hagen, Deutschland. Sie arbeitet daran, wie Archive im Bereich des kulturellen Erbes bei der Digitalisierung und Vernetzung ihrer Sammlungen unterstützt werden können. Neben ihrem Studium arbeitet sie als Software-Ingenieurin bei der Intelligent Views GmbH, hauptsächlich im Bereich der semantischen Technologien.
Felix Engel Dr. Ing. Felix Engel studierte Angewandte Infor matik an der Universität Duisburg-Essen, wo er 2009 sein Di plom im Fachbereich Informationswissenschaft erhielt. Von 2009 bis 2021 war er an der FernUniversität in Hagen am Lehrstuhl für Multimedia und Internetanwendungen tätig. Im Rahmen dieser Tätigkeiten ist Felix Engel in verschiedene Lehrtätigkeiten eingebunden gewesen und hat an nationalen und internationalen Projekten im Bereich Digital Preservation und Wissensmanagement mitgewirkt. In diesem Zusammenhang hat er verschiedene wissenschaftliche Publikationen auf nationalen und internationalen Konferenzen verfasst und war als Programmkomitee Mitglied, Gutachter und Organisator von Konferenzen/Workshops tätig. Seine Forschungsin teressen umfassen Wissensmanagement, digitale Bewahrung, semantische Technologien und Information Retrieval. Seit 2021 leitet er ein Team von wissenschaftlichen Entwicklern an der Technischen Informationsbibliothek (TIB). Anna Fensel Dr. Anna Fensel ist leitende Assistenzprofessorin an der Universität Innsbruck, Österreich. Anna Fensel war Doktorandin der Informatik an der Universität Innsbruck, wo sie 2006 ihre Dissertation verteidigte. Davor erwarb sie 2003 an der Staatlichen Universität Novosibirsk, Russland, ein Di plom in Mathematik und Informatik, das dem Master-Abschluss entspricht. Anna hat sich intensiv an europäischen und nationalen Projekten im Zusammenhang mit semantischen Technologien und deren Anwendungen (in Bereichen wie Energieeffizienz, intelligente Häuser, Tourismus und Telekommunikation) beteiligt, und zwar als Gesamtkoordinatorin, lokale Projektleiterin und technische Mitarbeiterin. Sie war Mitorganisatorin oder Mitglied des Programmausschusses von mehr als 100 wissenschaftlichen Veranstaltungen, Gutachterin für zahlrei-
Autorenverzeichnis
XV
che Fachzeitschriften und Bewerterin von Projektvorschlägen für die Europäische Kommission sowie für nationale Forschungsförderungseinrichtungen. Sie ist (Mit-)Autorin von ca. 100 begutachteten wissenschaftlichen Veröffentlichungen. Christian Fillies Christian Fillies studierte Informatik an der Friedrich-Alexander-Universität Erlangen-Nürnberg und an der Technischen Universität Berlin und schloss dort mit dem Diplom ab. Schon früh spezialisierte er sich auf künstliche Intelligenz, natürliche Sprachverarbeitung und objektorientierte Systeme mit Anwendungen in Projekten zur Simulation von Büroprozessen bei GMD und FAW Ulm. Anschließend arbeitete er mehrere Jahre an der Entwicklung von Werkzeugen zur Geschäftsprozessdarstellung und -modellierung in Berlin und in Kalifornien, USA. 2001 gehörte Christian Fillies zu den Gründern der Semtation GmbH, die sich mit ihrem Produkt SemTalk(R) auf die Entwicklung semantischer Modellierungswerkzeuge auf der Microsoft-Plattform fokussiert hat, und ist seither technischer Leiter und Geschäftsführer. Benjamin Gernhardt Benjamin Gernhardt erwarb 2013 den Master of Science in Informatik an der Hochschule für Tech nik und Wirtschaft Dresden, Deutschland. Zurzeit ist er Dok torand bei Matthias Hemmje am Lehrstuhl Multimedia- und Internetanwendungen an der Fernuniversität Hagen, Deutschland. Darüber hinaus arbeitet er als Head of IT in einem Softwareunternehmen in München, Deutschland.
Georg Grossmann Georg Grossmann ist Senior Lecturer an der University of South Australia. Er befasst sich mit der Integration von Geschäftsprozessen und komplexen Datenstrukturen für die Interoperabilität von Systemen und hat sein Wissen erfolgreich in Industrieprojekten angewendet. Zu seinen aktuellen Forschungsinteressen gehören die Integration von Serviceprozessen, ontologiegesteuerte Integration und verteilte ereignisbasierte Systeme. Er ist derzeit Co-Chief Investigator im Data to Decisions Cooperative Research Centre, Vorsitzender des Lenkungsausschusses der IEEE Conference on Enterprise Computing (EDOC) und Sekretär der IFIP Working Group 5.8 on Enterprise Interoperability.
XVI
Autorenverzeichnis
Matthias Hemmje Matthias Hemmje promovierte 1999 in Informatik an der Technischen Universität Darmstadt. Er ist seit 2004 Professor für Informatik am Lehrgebiet Multimedia und Internetanwendungen der Fakultät für Mathematik und Informatik der FernUniversität in Hagen. Zu seinen Lehr- und Forschungsgebieten gehören Multimedia, Information Retrieval, Informationsvisualisierung, Mensch-Computer-Interaktion und Wissensmanagement.
Heinrich Herre Heinrich Herre ist Leiter der Forschungsgruppe „Ontologien in der Medizin in den Lebenswissenschaften“ am Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) und emeritierter Professor am Institut für Informatik der Universität Leipzig. Seine Forschungsinte ressen umfassen Themen der formalen Logik, der angewandten Ontologie und der künstlichen Intelligenz. Er ist Gründer der Gruppe „Ontologien in der Biomedizin und den Lebenswissenschaften“ der Deutschen Gesellschaft für Informatik und Vorstandsmitglied mehrerer Zeitschriften und Reihen (Applied Ontology, Axiomathes, Categories: de Gruyter). H. Herre lehrt Angewandte Ontologie an der Universität Leipzig. Thomas Hoppe Thomas Hoppe ist Wissenschaftlicher Mitarbeiter und Projektmanager in der Arbeitsgruppe „Data Analytics Center“ (DANA) des Fraunhofer-Instituts für Offene Kommunikationssysteme (FOKUS) und Dozent für Datenbanken, Informationssysteme, Suchtechnologie und Bayes’sche Datenanalyse im Studiengang „Angewandte Informatik“ der Hochschule für Technik und Wirtschaft Berlin – University of Applied Sciences. Er promovierte an der Universität Dortmund (heute Technische Universität Dortmund) und erwarb den Grad eines Dipl.-Inform. an der Technischen Universität Berlin, Deutschland. Im Jahr 2008 gründete er zusammen mit drei Partnern die Ontonym GmbH zur Entwicklung und Vermarktung semantischer Anwendungen, die er bis 2015 als Geschäftsführer leitete. Im Jahr 2014 gründete er das Datenlabor Berlin (www.datenlabor.berlin) zur Entwicklung kundenspezifischer Datenprodukte für KMU und zur Qualitätssicherung und Zertifizierung semantischer Anwendungen und Vorhersagemodelle.
Autorenverzeichnis
XVII
Jens Hülsmann Jens Hülsmann ist Senior Research Scientist bei ISRA Surface Vision GmbH, einem Hersteller von Bildverarbeitungslösungen aus Herten, Deutschland. Er ist seit 2014 für das Unternehmen tätig und leitet die Entwicklung von Infrastruktur-Software für optische Inspektionssysteme und Bildverarbeitungsalgorithmen. Zuvor arbeitete er als wissenschaftlicher Mitarbeiter in der Smart Embedded Systems Group an der Universität Osnabrück. Seine Forschungsschwerpunkte lagen in der Anwendung robuster Klassifikation im industriellen Umfeld und in der Unsicherheitsmodellierung. Im Jahr 2009 schloss er sein Studium der Physik und Informatik mit einem Master of Science ab. Bernhard G. Humm Bernhard G. Humm ist Professor am Fachbereich Informatik der Hochschule Darmstadt – University of Applied Sciences, Deutschland. Er koordiniert den Promotionsstudiengang und ist geschäftsführender Direktor des Instituts für Angewandte Informatik Darmstadt (aiDa). Er führt mehrere nationale und internationale Forschungsprojekte in Zusammenarbeit mit der Industrie und Forschungsorganisationen durch und veröffentlicht regelmäßig seine Ergebnisse. Vor seinem Ruf an die Hochschule arbeitete er 11 Jahre lang in der IT-Industrie als Softwarearchitekt, Chefberater, IT-Manager und Leiter der Forschungsabteilung eines großen Softwareunternehmens in Deutschland. Lukas Kaupp Lukas Kaupp ist wissenschaftlicher Mitarbeiter am Fachbereich Informatik der Hochschule Darmstadt – University of Applied Sciences, Deutschland. An der Hochschule Darmstadt erhielt er 2016 seinen Master-Abschluss, während er an der Konzeption, Entwicklung und Evaluation einer Container-basierten Cloud-Plattform mit Fokus auf User Collaboration arbeitete. Im Jahr 2014 erhielt er seinen Bachelor-Abschluss, als er an einem Framework zum Reverse Engineering von Java-basierten Komponenten aus dem Quellcode unter Verwendung eines genetischen Algorithmus arbeitete. Vor seiner akademischen Laufbahn war er für ein großes IT-Beratungsunternehmen und ein weborientiertes Startup tätig.
XVIII
Autorenverzeichnis
Sabrina Kirrane Dr. Sabrina Kirrane ist Postdoc-Forscherin an der Wirtschaftsuniversität Wien (WU) und Co-Direktorin des Privacy and Sustainable Computing Lab der WU. Bevor sie ihre Stelle an der WU antrat, war sie Forscherin am Insight Centre for Data Analytics, Irland. Sabrinas derzeitige Forschung konzentriert sich auf die Auswirkungen des Datenschutzes im Zusammenhang mit der Veröffentlichung, der Verknüpfung und dem Nachdenken über persönliche Informationen. Ihr besonderes Interesse gilt dem multidisziplinären Charakter des Schutzes der Privatsphäre, der die Bereiche Geisteswissenschaften, Sozialwissenschaften, Informationstechnologie, Sicherheit und Recht umfasst. Darüber hinaus ist Sabrina die technische Koordinatorin eines EU-Projekts zur Entwicklung technischer Lösungen zur Unterstützung der bevorstehenden europäischen Datenschutzverordnung (GDPR). Markus Loeffler Prof. Markus Loeffler ist ordentlicher Professor und Leiter des Instituts für Medizinische Informatik, Statistik und Epidemiologie (IMISE) an der Universität Leipzig. Seine wissenschaftliche Forschung umfasst ein breites Spektrum an Themen in den Bereichen Biometrie, Biomathematik, klinische Studienforschung, Systembiologie und computergestützte Biologie. Er ist wissenschaftlicher Leiter des Zentrums für Klinische Studien (ZKS), wissenschaftlicher Leiter des Interdisziplinären Zentrums für Bioinformatik (IZBI), Leiter des LIFE-Forschungszentrums für Zivilisationskrankheiten und PI des Konsortiums SMITH in der BMBF-Initiative Medizininformatik. Wolfgang Mayer Wolfgang Mayer ist Senior Lecturer an der University of South Australia. Zu seinen Forschungsinte ressen gehören Methoden der künstlichen Intelligenz und der Wissensrepräsentation sowie deren Anwendungen in industriellen Kontexten. Er hat Beiträge zur Informationsmodellierung und natürlichsprachlichen Wissensextraktion, zu skalierbaren Datenarchitekturen, kausalen Schlussfolgerungen aus Daten, Technologien für die Interoperabilität von Softwaresystemen, Expertensystemen für die Prozess- und Produktanpassung und zur Fehlerdiagnose in Softwaresystemen geleistet.
Autorenverzeichnis
XIX
Frank A. Meineke Frank A. Meineke arbeitet als Data Scientist und Projektleiter am Institut für Medizinische Informatik, Statistik und Epidemiologie in Leipzig. Er studierte Angewandte Informatik mit dem Schwerpunkt Computerlinguistik in Koblenz-Landau und schloss 1994 als Diplom- Informatiker ab. Er arbeitete an den Universitäten Köln und Leipzig im Bereich der systemischen Medizin und Softwareentwicklung (onkologische Behandlungsplanung) und promovierte 2007 an der Medizinischen Fakultät Leipzig zum Dr. rer. med. mit einer Arbeit zur Stammzellentwicklung. Er übernahm eine leitende Position in einer IT-Abteilung eines örtlichen Krankenhauses und kehrte 2010 an die Universität Leipzig zurück, wo er nun als IT-Koordinator des Instituts arbeitet und IT-Gruppen in verschiedenen klinischen Forschungsprojekten (IFB Adipositas, Leipziger Gesundheitsatlas, SMITH) leitet. Victor Mireles Victor Mireles ist Forscher bei Semantic Web Company GmbH, Wien, Österreich. Er hat einen B.Sc. und M.Sc. in Informatik von der Nationalen Autonomen Universität von Mexiko (UNAM). Er hat in Mexiko, Deutschland und Österreich in den Bereichen Computational Biology, Natural Language Processing und Matrix Decompositions geforscht. Seine derzeitige Forschung konzentriert sich auf die Schnittstelle zwischen Semantik, maschinellem Lernen und automatischem Schlussfolgern. Hesam Ossanloo Hesam Ossanloo wurde 1983 im Iran geboren. Seine Leidenschaft für die Entdeckung des Unbekannten entfachte den Willen, den Iran zu verlassen, um mehr über andere Kulturen, die Wissenschaft und die Menschheit zu erfahren. Er erwarb seinen Master-Abschluss in Informatik an der Hochschule Darmstadt, wo er auch im Bereich des semantischen Webs promoviert. Morgens ist er als Senior Consultant tätig und abends forscht er daran, wie man die Sucherfahrung für die Endnutzer verbessern kann. Im Rahmen seiner Doktorarbeit ist er Teil eines Teams, das eine semantische Anwendung zum Auffinden von Softwarekomponenten namens „SoftwareFinder“ (www.softwarefinder.org) entwickelt. SoftwareFinder verwendet eine domänenspezifische Ontologie, um semantische Funktionalitäten anzubieten, die dem Benutzer das Leben erleichtern.
XX
Autorenverzeichnis
Außerdem arbeitet er leidenschaftlich gerne an den Grenzen der Wissenschaft und ist deshalb Teil des Projekts „Mission To the Moon“ der PTScientists GmbH (http://ptscientists. com), die an der Landung eines Rovers auf dem Mond arbeitet. Oleksandra Panasiuk Oleksandra Panasiuk ist Doktorandin am Semantic Technology Institute Innsbruck, Department für Informatik, Universität Innsbruck, Österreich. Sie hat einen B.Sc. und einen M.Sc. in Informatik von der Taras Shevchenko National University of Kyiv, Ukraine. Ihre derzeitige Forschung konzentriert sich auf Strukturdatenmodellierung und semantische Annotationen. Sie ist Mitvorsitzende der Schema Tourism Working Group von STI International.
Tassilo Pellegrini Tassilo Pellegrini ist Professor am Department für Medienwirtschaft an der Fachhochschule St. Pölten, Österreich. Sein Forschungsinteresse liegt an der Schnittstelle von Medienkonvergenz, Technologiediffusion und IKT- Politik. Neben seinem Schwerpunkt Medienökonomie forscht er über die Akzeptanz von semantischen Technologien und dem Semantic Web in der Medienbranche. Er ist Mitglied des International Network for Information Ethics (INIE), des African Network of Information Ethics (ANIE) und der Deutschen Gesellschaft für Publizistik und Kommunikationswissenschaft (DGPUK). Er ist Mitbegründer der Semantic Web Company in Wien, Herausgeber und Autor mehrerer Publikationen in seinen Forschungsbereichen und Konferenzleiter der 2005 gegründeten jährlichen Konferenzreihe I-SEMANTICS. Anatol Reibold Anatol Reibold studierte Mathematik und Mechanik an der Universität von Novosibirsk. Als leidenschaftlicher Mathematiker liegen seine Interessenschwerpunkte in den Bereichen semantische Technologien, Datenanalyse, Data Science, Abduktive Logik, gefärbte Petri-Netze, GABEK, DRAKON und polyduktive Theorie. Derzeit arbeitet er als wissenschaftlicher Mitarbeiter am Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) der Universität Leipzig und als Senior AI & Data Scientist bei der Cogia GmbH und der Cardisio GmbH.
Autorenverzeichnis
XXI
Katja Rillich Katja Rillich schloss ihr Biologiestudium an der Universität Leipzig im Jahr 2003 mit dem Diplom ab. Im Jahr 2008 schloss sie ihre Doktorarbeit zum Thema lichtinduzierte Kalziumerhöhungen in Gliazellen der Meerschweinchen-Netzhaut ab und arbeitete bis 2010 als wissenschaftliche Mitarbeiterin am Paul- Flechsig- Institut für Hirnforschung (Universität Leipzig). Seit Juli 2010 ist sie am Institut für Medizinische Informatik, Statistik und Epidemiologie der Universität Leipzig tätig und arbeitet in verschiedenen Gruppen und Themen mit.
Ulrich Schade Ulrich Schade promovierte 1990 in Linguistik an der Universität Bielefeld, Deutschland. Er ist wissenschaftlicher Mitarbeiter am Fraunhofer FKIE, wo er eine Forschungsgruppe zur Informationsanalyse leitet. Außerdem ist er außerordentlicher Professor am Institut für Anglistik, Amerikanistik und Keltologie der Rheinischen Friedrich-Wilhelms-Universität Bonn.
Fabienne Schumann Fabienne Schumann ist Information Managerin bei der dictaJet Ingenieurgesellschaft mbH, einem Dienstleister für Technische Dokumentation und Prozessoptimierung im Bereich Informationsmanagement mit Sitz in Wiesbaden, Deutschland. Fabienne war zwischen 2016 und 2019 für die Koordination des Projekts ProDok 4.0 zuständig. Im Jahr 1994 schloss sie ihr Studium der Dokumentationsund Informationswissenschaften an der Hochschule Darm stadt mit dem Diplom ab. Zuvor hatte sie an der Universität Sorbonne in Paris, Frankreich, einen Maîtrise-Abschluss in angewandten Fremdsprachen erworben.
XXII
Autorenverzeichnis
Matt Selway Matt Selway ist Forschungsstipendiat an der University of South Australia. Er arbeitet an der Extraktion von Prozessmodellen aus Texten und deren Umwandlung in ausführbare Modelle für eine Vielzahl von Simulationsumgebungen sowie an Interoperabilitätsprojekten im industriellen Kontext. Zu seinen Forschungsinteressen gehören Natural Language Understanding, Knowledge Engineering und Inte gration sowie Interoperabilität von Softwaresystemen. Melanie Siegel Melanie Siegel ist Professorin für Informationswissenschaft an der Hochschule Darmstadt, mit einem starken Hintergrund in Sprachtechnologie. Sie promovierte in Linguistik und habilitierte sich in Linguistik und Computerlinguistik an der Universität Bielefeld. Von 1993 bis 2000 arbeitete sie im Verbmobil-Projekt zur maschinellen Übersetzung und war für die semantische Analyse des Japanischen verantwortlich. Ihre 1996 abgeschlossene Dissertation befasst sich mit Mismatches in der maschinellen Übersetzung vom Japanischen ins Deutsche. Die Habilitationsschrift, die 2006 abgeschlossen wurde, trägt den Titel „JACY – A Grammar for Annotating Syntax, Semantics and Pragmatics of Written and Spoken Japanese for NLP Application Purposes“. Zwischen 1995 und 2006 war sie an Forschungsprojekten des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) und der Universität des Saarlandes beteiligt. Von 2006 bis 2012 arbeitete sie als Computerlinguistin und Leiterin des Bereichs Forschung und Innovation bei der Acrolinx GmbH in Berlin im Bereich der automatischen Konsistenzprüfung von technischer Dokumentation. www.melaniesiegel.de Jan Stanek Jan Stanek ist Dozent an der Universität von Südaustralien (für Business Intelligence und Analytik und Gesundheitsinformatik). Sein Interesse gilt der Inneren Medizin, medizinischen klinischen Datenbanken, der Analyse und Modellierung medizinischer Prozesse, der Interoperabilität im Gesundheitswesen (insbesondere in der Pathologie und in der Allgemeinmedizin) und klinischen Entscheidungsunterstützungssystemen. Er leitete Projekte zur Konzeption und Entwicklung klinischer Datenbanken für die Erfassung genetischer Daten und war Mitglied des Teams, das zusammen mit dem Royal College of Pathologists of Australasia einen Standard für klinische Datenbanken entwickelte. Derzeit arbeitet
Autorenverzeichnis
XXIII
er an Projekten zur Analyse und Modellierung von Pathologieprozessen und zur Datenerfassung und -analyse in der Allgemeinmedizin. Simon Steyskal Simon Steyskal verfügt über Masterabschlüsse in Software Engineering & Internet Computing sowie Informations- und Wissensmanagement, beide von der Technischen Universität Wien (TU), und ist seit Januar 2014 Doktorand an der Wirtschaftsuniversität Wien unter der Leitung von Prof. Axel Polleres. Er arbeitet als Forschungswissenschaftler für die Siemens AG Österreich und war an einem gemeinsamen Forschungsprojekt zwischen der Siemens AG und der WU beteiligt. Er war Mitglied der W3C RDF Data Shapes Arbeitsgruppe und war am Standardisierungsprozess einer W3C Permissions and Obligations Expression Sprache beteiligt, der von der W3C Permissions and Obligations Expression Arbeitsgruppe durchgeführt wurde. Henrik Strauß Henrik Strauß hat einen Master-Abschluss in Wirtschaftsinformatik von der Technischen Hochschule Brandenburg, University of Applied Sciences. Bei der Semtation GmbH in Potsdam arbeitet er an Projekten zu Prozessmodellierungswerkzeugen und dem Einsatz von Ontologien auf der Microsoft-Plattform.
Markus Stumptner Markus Stumptner ist Professor für Informatik an der University of South Australia (UniSA) und Leiter der Forschungsgruppe Knowledge & Software Engineering. Er ist Direktor des Advanced Computing Research Centre (ACRC) an der UniSA und Leiter des Forschungsprogramms für Datenmanagement im Data to Decisions Collaborative Research Centre (D2D CRC). Er hat sich mit Wissensrepräsentation und Schlussfolgerungen in einer Vielzahl von Problembereichen wie Konfiguration, Design, Diagnose, Interoperabilität, Dienstkomposition und automatischer Modell erstellung aus natürlicher Sprache beschäftigt.
XXIV
Autorenverzeichnis
Robert Tolksdorf Robert Tolksdorf war Professor für Informatik an der Freien Universität Berlin. Seine Gruppe „Vernetzte Informationssysteme“ war von 2002 bis 2016 an zahlreichen Projekten zu Anwendungen des Semantic Web beteiligt. Er promovierte zum Dr.-Ing. an der Technischen Universität, wo er nach dem Studium der Informatik auch seinen Diplom-Informatiker erhielt. Er war einer der Mitbegründer der Ontonym GmbH, Berlin. www.robert-tolksdorf.de
Alexandr Uciteli Alexandr Uciteli erwarb 2008 den Master of Computer Science an der Universität Leipzig, Deutschland. Danach arbeitete er als Softwareentwickler am Max- Planck- Institut für evolutionäre Anthropologie in Leipzig. Seit August 2008 arbeitet er als wissenschaftlicher Mitarbeiter am Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) der Universität Leipzig und gehört der Forschungsgruppe „Ontologien in Medizin und Lebenswissenschaften“ an. Seine Forschungsschwerpunkte sind u. a. die Modellierung klinischer Metadaten, ontologiebasiertes Information Retrieval und ontologiegestützte Softwareentwicklung. Tobias Vogel Tobias Vogel promovierte 2012 in Informatik an der Fernuniversität Hagen, Deutschland. Derzeit ist er PostDoc an der Fernuniversität Hagen in der Arbeitsgruppe von Matthias Hemmje. Darüber hinaus ist er als Geschäftsführer eines Technologieunternehmens in München tätig.
Autorenverzeichnis
XXV
Paul Walsh Professor Paul Walsh ist Senior Analytics & AI Portfolio Lead im Global Innovation Centre the Dock von Accenture, wo er datengesteuerte Projekte in verschiedenen Branchen leitet und unterstützt. Er hat eine Professur an der Technischen Universität Munster (MTU) inne und war Forschungsstipendiat der Science Foundation Ireland (SFI), des Irish Research Council und Senior Visiting Research Fellow an der University of Edinburgh, wo er die Forschung im Bereich medizinische Informatik und Bioinformatik leitete. Zu den jüngsten Auszeichnungen gehören der Gewinn des vom Allen Institute for AI und dem Weißen Haus gesponserten Kaggle-Preises für die COVID-19 Open Research Dataset Challenge zur Bestimmung von Risikofaktoren sowie der Gewinn der Eco Innovation Challenge von Accenture. Er hat einen Ph.D., M.Sc. und B.Sc. Hons in Informatik von der National University of Ireland und kann auf eine lange Liste von Veröffentlichungen verweisen, von denen eine Reihe mit Preisen für herausragende Arbeiten ausgezeichnet wurden. Er ist Mitbegründer von NSilico Life Science, einem Softwareunternehmen, das Lösungen für Machine Learning für globale Kunden anbietet. Jason Watkins Jason Watkins erwarb 2011 seinen B.Sc. in Automatisierungstechnik an der Hochschule Mannheim. Bei seiner ersten Anstellung bei der Bihl+Wiedemann GmbH entwarf er als Embedded- Software-Entwickler Firmware für Feldbus-Schnittstellen von Industriegeräten. 2014 wechselte er zu John Deere, wo er als Entwicklungsingenieur Software für Frontladeranwendungen, elektrohydraulische Vorderachs aufhängungen und elektrohydraulische Kabinenaufhängungen entwickelte. Neben seiner beruflichen Tätigkeit begann er ein Masterstudium der Elektrotechnik an der Fernuniversität Hagen. Derzeit arbeitet er an seiner Masterarbeit auf dem Gebiet des Ontology Matching unter der Betreuung von Kerstin Diwisch und Matthias Hemmje. Frauke Weichhardt Frauke Weichhardt hat nach ihrem Studium der Wirtschaftswissenschaften und des Maschinenbaus an der Technischen Universität Berlin in Wirtschaftsinformatik promoviert. Sie war als Dozentin für Wirtschaftsinformatik an der TU Berlin tätig und arbeitete anschließend als Beraterin in Projekten zur Gestaltung von Geschäftsprozessen und zum Wissensmanagement, bevor sie 2001 zu den Gründern der Semtation GmbH mit dem Produkt SemTalk(R) gehörte und sich auf die Entwicklung von semantischen Modellie-
XXVI
Autorenverzeichnis
rungswerkzeugen auf der Microsoft-Plattform konzentrierte und als Geschäftsführerin des Unternehmens tätig ist. Rigo Wenning Rigo Wenning ist der Rechtsberater des Europäischen Forschungskonsortiums für Informatik und Mathematik (GEIE ERCIM), einem Gemeinschaftsunternehmen von CWI, Fraunhofer, IIT-CNR, INRIA und ICS-FORTH. GEIE ERCIM ist der europäische Sitz des World Wide Web Consortium (W3C), wo Rigo auch als Rechtsberater tätig ist. Er ist als Rechtsanwalt bei der Rechtsanwaltskammer München zugelassen und mit der Kanzlei Frösner & Stadler in Freising verbunden. Er studierte Rechtswissenschaften in Saarbrücken und Nancy. Neben der Rechtsberatung ist Rigo in der Forschung im Bereich Datenschutz und Sicherheit tätig. Er war am PRIME-Projekt und am Primelife-Projekt beteiligt und war technischer Koordinator des STREWS-Projekts zur IT-Sicherheit. Derzeit ist er am SPECIAL-Projekt beteiligt, das eine skalierbare, richtlinienbewusste Architektur für verknüpfte Daten zur Transparenz und Einhaltung von Datenschutzbestimmungen für Big Data entwickelt. Rigo Wenning ist Mitglied des Vorstandes des Deutschen EDV-Gerichtstages und Mitglied des wissenschaftlichen Beirats der Universitätsbibliothek des Leibniz-Informationszentrums für Technik und Naturwissenschaften (TIB). Karl Erich Wolff Karl Erich Wolff studierte Mathematik und Physik, promovierte 1973 und habilitierte sich 1978 in Mathematik an der Universität Gießen, wo er von 1974 bis 1980 am Mathematischen Institut lehrte. Von 1980 bis zu seiner Emeritierung im Jahr 2011 lehrte er Mathematik an der Hochschule Darmstadt. Seit 1983 ist er außerdem Mitglied der Forschungsgruppe „Begriffsanalyse“ im Fachbereich Mathematik der TU Darmstadt. Seit 2011 ist er Vorstandsvorsitzender des Ernst- Schröder- Zentrums für begriffliche Wissensverarbeitung. Er hat die formale Begriffsanalyse um die temporale Begriffsanalyse erweitert.
Autorenverzeichnis
XXVII
Liste der Mitwirkenden Wolfram Bartussek Ontoport UG, Sulzbach, Deutschland Ulrich Beez Hochschule Darmstadt, Darmstadt, Deutschland Christoph Beger Universität Leipzig, Leipzig, Deutschland Hermann Bense textOmatic AG, Dortmund, Deutschland Jürgen Bock KUKA Roboter GmbH, Augsburg, Deutschland Michael Dembach Fraunhofer-Institut FKIE, Wachtberg, Deutschland Tilman Deuschel Hochschule Darmstadt, Darmstadt, Deutschland Kerstin Diwisch Intelligent Views GmbH, Darmstadt, Deutschland Felix Engel Fernuniversität Hagen, Hagen, Deutschland Anna Fensel Universität Innsbruck, Innsbruck, Österreich Christian Fillies Semtation GmbH, Potsdam, Deutschland Benjamin Gernhardt Fernuniversität Hagen, Hagen, Deutschland Georg Grossmann Universität von Südaustralien, Mawson Lakes, Australien Matthias Hemmje Fernuniversität Hagen, Hagen, Deutschland Heinrich Herre Universität Leipzig, Leipzig, Deutschland Thomas Hoppe Datenlabor Berlin, Berlin, Deutschland Jens Hülsmann ISRA Surface Vision GmbH, Herten, Deutschland Bernhard G. Humm Hochschule Darmstadt, Darmstadt, Deutschland Lukas Kaupp Hochschule Darmstadt, Darmstadt, Deutschland Sabrina Kirrane Wirtschaftsuniversität Wien, Wien, Deutschland Markus Loeffler Universität Leipzig, Leipzig, Deutschland Wolfgang Mayer Universität von Südaustralien, Mawson Lakes, Australien Frank A. Meineke Universität Leipzig, Leipzig, Deutschland Victor Mireles Semantic Web Company GmbH, Wien, Österreich Hesam Ossanloo TAVANA Health, Oslo, Norwegen Oleksandra Panasiuk Universität Innsbruck, Innsbruck, Österreich Tassilo Pellegrini Hochschule für angewandte Wissenschaften St. Pölten, St. Pölten, Österreich
XXVIII
Autorenverzeichnis
Anatol Reibold Ontoport UG, Sulzbach, Deutschland Katja Rillich Universität Leipzig, Leipzig, Deutschland Ulrich Schade Fraunhofer-Institut FKIE, Wachtberg, Deutschland Fabienne Schumann dictaJet Ingenieurgesellschaft mbH, Wiesbaden, Deutschland Matt Selway Universität von Südaustralien, Mawson Lakes, Australien Melanie Siegel Hochschule Darmstadt, Darmstadt, Deutschland Jan Stanek Universität von Südaustralien, Mawson Lakes, Australien Simon Steyskal Siemens AG Österreich, Wien, Österreich Henrik Strauß Semtation GmbH, Potsdam, Deutschland Markus Stumptner Universität von Südaustralien, Mawson Lakes, Australien Robert Tolksdorf Free University Berlin, Berlin, Deutschland Alexandr Uciteli Universität Leipzig, Leipzig, Deutschland Tobias Vogel Fernuniversität Hagen, Hagen, Deutschland Paul Walsh NSilico Life Science, Dublin, Irland Jason Watkins Fernuniversität Hagen, Hagen, Deutschland Frauke Weichhardt Semtation GmbH, Potsdam, Deutschland Rigo Wenning European Research Consortium for Informatics and Mathematics (GEIE ERCIM), Sophia Antipolis, Frankreich Karl Erich Wolff Hochschule Darmstadt, Darmstadt, Deutschland
1
Einführung in semantische Anwendungen Wolfram Bartussek, Hermann Bense, Thomas Hoppe, Bernhard G. Humm, Anatol Reibold, Ulrich Schade, Melanie Siegel und Paul Walsh
Kernaussagen
1. Semantische Anwendungen bieten heute zahlreichen Organisationen in Geschäftsbereichen wie dem Gesundheitswesen, dem Finanzwesen, der Industrie und dem öffentlichen Sektor Vorteile.
W. Bartussek (*) · A. Reibold Ontoport UG, Sulzbach, Deutschland E-Mail: [email protected] H. Bense textOmatic AG, Dortmund, Deutschland E-Mail: [email protected] T. Hoppe Datenlabor Berlin, Berlin, Deutschland E-Mail: [email protected] B. G. Humm Fachbereich Informatik, Hochschule Darmstadt, Darmstadt, Deutschland E-Mail: [email protected] M. Siegel Hochschule Darmstadt, Darmstadt, Deutschland E-Mail: [email protected] U. Schade Fraunhofer-Institut FKIE, Wachtberg, Deutschland E-Mail: [email protected] P. Walsh NSilico Life Science, Dublin, Irland E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_1
1
2
W. Bartussek et al.
2. Semantische Anwendungen nutzen die Semantik einer Domäne, um die Benutzerfreundlichkeit, Korrektheit und Vollständigkeit zu verbessern. 3. Die Entwicklung semantischer Anwendungen erfordert methodische Fähigkeiten, z. B. in den Bereichen Ontologie-Engineering, Qualitätssicherung für Ontologien und Lizenzmanagement. 4. Für die Umsetzung semantischer Anwendungen stehen verschiedene Technologien zur Verfügung, z. B. Datenintegration, semantische Suche, maschinelles Lernen und Verarbeitung komplexer Ereignisse.
1.1 Einleitung Semantische Anwendungen sind heute für zahlreiche Unternehmen und andere Organisationen weltweit von Nutzen. Dieses Buch beschreibt bewährte Methoden zur Entwicklung semantischer Anwendungen, einschließlich technologischer und architektonischer Best Practices: von den Daten bis zu den Anwendungen. Die Methoden werden durch eine große Anzahl von Anwendungen untermauert, die heute in Unternehmen im Einsatz sind. Abb. 1.1 gibt einen Überblick über die Kapitel des Buches und darüber, welche Methoden, Technologien und Anwendungen im Unternehmenseinsatz sie behandeln. In diesem Kapitel geben wir eine Einführung in semantische Anwendungen und geben einen Überblick über die bekanntesten Methoden, Technologien und Anwendungen, die in Unternehmen eingesetzt werden.
1.2 Grundlagen Da nicht jeder mit der Terminologie auf dem Gebiet der semantischen Anwendungen vertraut ist, geben wir Definitionen der wichtigsten in diesem Buch verwendeten Begriffe. Diese Definitionen erheben weder den Anspruch auf Vollständigkeit noch auf perfekte Übereinstimmung mit wissenschaftlichen Definitionen. Sie sollen die Intuition hinter einigen der wichtigsten Begriffe aufzeigen. Die Semantik versucht, die Beziehungen zwischen Wörtern (bzw. Begriffen, Phrasen, Symbolen usw.) und ihrer Bedeutung zu erfassen und zu normieren. Zum Beispiel kann das Wort „Krebs“ die Bedeutung einer Krankheit oder eines Sternzeichens haben. Die konkrete Bedeutung eines Begriffs in einer Formalisierung wird in der Regel durch seinen Kontext bestimmt, d. h. durch die anderen Begriffe, die für seine Definition verwendet werden, und die mit ihm verwandten Begriffe. Solche Formalisierungen werden oft als Ontologien bezeichnet. Im Zusammenhang mit semantischen Anwendungen ist eine Ontologie eine explizite Darstellung der Semantik der verwendeten Begriffe, die in der Regel auf einen bestimmten Anwendungsbereich beschränkt ist [1]. Der Begriff Ontologie wurde definiert als „formale, explizite Spezifikation einer Konzeptualisierung“ [2], wobei betont wird, dass die
Abb. 1.1 Überblick über die Kapitel des Buches (Die weißen Kreise geben die Kapitelnummern an. Die Pfeile, die die weißen Kreise verlassen, zeigen die in den einzelnen Kapiteln behandelten Methoden, Technologien, Anwendungen und Unternehmensbereiche an)
1 Einführung in semantische Anwendungen 3
4
W. Bartussek et al.
Begriffe explizit auf einer bestimmten Granularitätsebene ausgewählt werden, oder als „formale, explizite Spezifikation einer gemeinsamen Konzeptualisierung“ [3], wobei zusätzlich betont wird, dass ihr Zweck darin besteht, die Bedeutung von Begriffen zwischen verschiedenen Beteiligten zu teilen. Eine Ontologie für die Medizin kann zum Beispiel Melanom als Krankheit definieren, Warfarin als Medikament und die Beziehung zwischen beiden, die besagt, dass Warfarin zur Behandlung von Melanom eingesetzt werden kann. Abb. 1.1 zeigt eine einfache Ontologie, die Anwendungen, Geschäftsbereiche für den Unternehmensgebrauch, Methoden und Technologien spezifiziert und die Beziehungen zu den Kapiteln dieses Buches aufzeigt. Je nach Komplexität der bereitgestellten Beziehungen werden verschiedene Formen von Ontologien unter unterschiedlichen Begriffen verwendet. Lassila und McGuiness [4] unterscheiden zwischen „leichtgewichtigen Ontologien“ und „schwergewichtigen Ontologien“. Zu den leichtgewichtigen Ontologien gehören insbesondere kontrollierte Vokabulare, The sauri und informelle Taxonomien. Kontrollierte Vokabulare sind in ihrer einfachsten Form lediglich eine Liste bekannter Begriffe, die in einer Anwendungsdomäne verwendet werden, z. B. „Melanom“ in der medizinischen Domäne. Taxonomien fügen den kontrollierten Vokabularen Hierarchien breiterer/engerer Begriffe hinzu, z. B. Melanom ist eine Krebsart, die eine Krankheit ist. Thesauri fügen den Begriffen in Taxonomien zusätzliche Informationen hinzu, darunter bevorzugte Namen (z. B. „Melanom“), Synonyme („malignes Melanom“, „kutanes Melanom“) und Beziehungen zu anderen Begriffen (z. B. „siehe auch Hautkrebs“). Schwergewichtige Ontologien erweitern Thesauri, indem sie der informellen hierarchischen Beziehung zwischen breiterem und engerem Begriff (d. h. der is_a-Beziehung) eine formale Grundlage geben und die Aussagekraft durch zusätzliche feinkörnige Beziehungen (z. B. das Gen CRYBG1 ist mit Melanomen assoziiert), Definitionen (z. B. „Melanom ist ein bösartiges Neoplasma, das aus Melanozyten besteht, die typischerweise in der Haut entstehen“; Quelle: National Cancer Institute Thesaurus), Eigenschaften und Metadaten. Der Schwerpunkt von Ontologien liegt nicht nur auf der Terminologie einer Domäne, sondern auch auf der inhärenten ontologischen Struktur, d. h. welche Objekte in der Anwendungsdomäne existieren, wie sie in Klassen, den so genannten Konzepten, organisiert werden können und wie diese Klassen definiert und in Beziehung gesetzt werden. Ontologie-Engineering ist die Disziplin des Aufbaus von Ontologien. Sie umfasst Methoden und bewährte Verfahren, z. B. die inkrementelle Ontologieentwicklung in enger Zusammenarbeit mit Domänenexperten, und reicht von der Textanalyse verfügbarer Dokumente und Informationsquellen über die Extraktion von Informationen aus verschiedenen Datenquellen bis hin zur Modellierung einer Ontologie. Die Ontologiemodellierung umfasst entweder die Anpassung bestehender Ontologien, die Zusammenführung und Abstimmung mehrerer Ontologien, die verschiedene Aspekte des Fachgebiets abdecken, oder die Modellierung der benötigten Ontologie von Grund auf. Das Ontologie-Engineering ist eine wichtige Methode, die in Abschn. 1.4.1 näher erläutert wird. Eine semantische Anwendung ist eine Softwareanwendung, die explizit oder implizit die Semantik einer Domäne nutzt. Dies dient der Verbesserung von Benutzerfreundlichkeit, Gültigkeit und Vollständigkeit. Ein Beispiel ist die semantische Suche, bei der Synonyme
1 Einführung in semantische Anwendungen
5
und verwandte Begriffe zur Anreicherung der Ergebnisse einer einfachen textbasierten Suche verwendet werden. Ontologien sind das Herzstück der semantischen Anwendungen. Die Informationsbeschaffung umfasst in der Regel verschiedene Ansätze zur Beschaffung von Informationen auf der Grundlage eines bestimmten Informationsbedarfs aus einer Sammlung von Informationsquellen. Neben reinen Textinformationen umfasst sie in der Regel auch die Abfrage von Bildern, Sprache und Videos. Die bekanntesten Beispiele für Information-Retrieval-Anwendungen sind Allzweck-Suchmaschinen wie Google, Yahoo und Bing. Heutzutage beinhalten solche Suchmaschinen eine semantische Suche, was sie zu semantischen Anwendungen macht. Gibt man beispielsweise „Wann wurde JFK geboren?“ in die Google-Suche ein, so erhält man ein Informationsfeld mit „John F. Kennedy/Geburtsdatum: 29. Mai 1917“. Im Gegensatz zu allgemeinen Suchmaschinen haben domänenspezifische Suchanwendungen einen engeren Fokus, bieten aber mehr semantische Tiefe. Beispiele sind Hotel- und Reiseportale, Partnersuche, Jobportale, Gebrauchtwagen-Websites usw. Datenintegration bedeutet, dass Daten aus verschiedenen Quellen, in der Regel in unterschiedlichen Formaten, kombiniert werden, um eine einheitliche Sicht zu erhalten. Beim Ontologie-Engineering werden manchmal verschiedene Ontologien aus demselben Anwendungsbereich integriert, um den Umfang zu verbessern. Im medizinischen Bereich können beispielsweise der Thesaurus des National Cancer Institute und der Medical Subject Headings Thesaurus integriert werden, um sie gemeinsam in einer semantischen Anwendung zu verwenden.
1.3 Anwendungen und betriebliche Nutzung Das Hinzufügen von Semantik zur Informationsverarbeitung mag ehrgeizig oder gar abgehoben erscheinen. Wir, die Autoren dieses Buches, möchten dem widersprechen, indem wir Beispiele aus der Praxis vorstellen: Anwendungen, die funktionieren und die bereits Vorteile und Nutzen bringen. Als Leser möchten Sie vielleicht wissen, ob einige dieser Anwendungen Ihre eigene Domäne betreffen oder einen Ansatz bieten, den Sie für Ihre eigene Arbeit nutzen können. Deshalb finden Sie hier einen kurzen Überblick über die in diesem Buch vorgestellten Anwendungen und die Geschäftsbereiche, zu denen diese Anwendungen gehören. Dieser Überblick bezieht sich auf Abb. 1.1, wobei zunächst die Sichtweise der „Unternehmensnutzung“ (linke Seite in Abb. 1.1) und dann die Sichtweise der„Anwendung“ (oben in Abb. 1.1) betrachtet wird.
1.3.1 Betriebliche Nutzung Der Finanzsektor wird in Kap. 5 behandelt, in dem erörtert wird, wie die Erstellung, Veröffentlichung und Bewertung von Managementberichten unterstützt werden kann. Der juristische Bereich wird in den Kap. 3 und 14 behandelt. In Kap. 3 wird eine Anwendung
6
W. Bartussek et al.
vorgestellt, die Compliance-Fragen und Probleme, die bei der Nutzung offener Daten entstehen, verwaltet. In Kap. 14 wird eine Anwendung für das automatisierte Lizenz-Clearing vorgestellt. In den Kap. 12, 13 und 16 werden Anwendungen für die Produktionsseite der Wirtschaft, d. h. den Industriesektor, vorgestellt. Die in Kap. 13 besprochene Anwendung unterstützt die Produktionsplanung, insbesondere wenn mehrere Partner an der Planung und Produktion beteiligt sind, die zusammenarbeiten wollen. Modelle von P roduktionsprozessen oder, allgemeiner, von Geschäftsprozessen können durch den Einsatz des in Kap. 16 vorgestellten automatischen Annotationswerkzeugs verbessert werden. Die in Kap. 12 vorgestellte semantische Anwendung hilft bei der Suche nach geeigneter technischer Dokumentation für Maschinen in Fehler- und Wartungssituationen. Kap. 2 beschreibt, wie Ontologien pragmatisch im Unternehmenskontext entwickelt werden können. Diese Ontologien dienen der Verbesserung der semantischen Suche, z. B. in Job- oder Weiterbildungsportalen (in Abb. 1.1 unter „Bildung“ subsumiert), oder im Intranet eines Unternehmens. Die in Kap. 8 beschriebene Anwendung nutzt eine Ontologie zur Suche im Web, um Korpora von Dokumenten zu einem bestimmten Thema, in diesem Fall medizinische Geräte, aufzubauen. Zu den semantischen Anwendungen im Medienbereich gehören die Stimmungsanalyse (Kap. 7) und die automatische Generierung von Text aus strukturierten Daten, z. B. Wetter, Sportereignisse und Börsenberichte (Kap. 6). Der Gesundheitssektor wird in verschiedenen Kapiteln behandelt. Die in Kap. 8 beschriebene Anwendung dient der Sammlung von Dokumenten über medizinische Geräte zur Unterstützung der Einhaltung von Vorschriften. Gesteuert durch eine Ontologie ruft sie wissenschaftliche Veröffentlichungen von Interesse aus dem Internet ab, prüft sie auf Relevanz und organisiert diese Informationen in einem durchsuchbaren Repository. Kap. 9 befasst sich mit der ontologiegesteuerten Entwicklung von Webinhalten zur automatischen Erstellung eines Webportals für die Gesundheitsinformatik. Die beschriebene Methode wurde für den Aufbau des Leipziger Gesundheitsatlas verwendet, einem multifunktionalen, qualitätsgesicherten und webbasierten Repository für gesundheitsrelevante Daten und Methoden. Eine weitere Innovation im Bereich der Gesundheitsinformatik wird in Kap. 10 vorgestellt, in dem ein ontologiegestützter Ansatz zur Entscheidungsunterstützung im Bereich der Krebsbehandlung beschrieben wird. Kap. 11 bietet eine formale mathematische Darstellung für zeitliche Abläufe, ein Ansatz, der zur Erklärung von Begriffen in einem breiteren Rahmen verwendet wird. Zu den Anwendungen dieser Technologie im Gesundheitsbereich gehören die Genexpressionsanalyse und die Visualisierung des Verhaltens von Patienten in mehrdimensionalen Räumen auf der Grundlage ihrer genetischen Daten. Sie wurde auch zur Unterstützung der Behandlung von anorektischen Patienten eingesetzt. In Kap. 15 wird eine Anwendung vorgestellt, die zum Aufbau von Archiven des kulturellen Erbes verwendet werden kann, indem das Vokabular verschiedener kultureller Projekte abgeglichen wird. Die in Kap. 4 besprochene Anwendung ist dem öffentlichen Sektor zugeordnet. Sie unterstützt das Auffinden und Verbinden benötigter Daten in „Data Lakes“ und die damit verbundene Aufgabe, das Problem der Vielfalt von Big Data zu überwinden.
1 Einführung in semantische Anwendungen
7
Schließlich können die in den Kap. 16 und 17 vorgestellten Anwendungen unter dem Begriff IT-Sektor subsumiert werden. In Kap. 16 wird beschrieben, wie semantische Technologien zur Verbesserung der Modellierung und Verarbeitung von Geschäftsprozessen eingesetzt werden können, um die für den aktuellen Prozessschritt relevanten Dokumente zum richtigen Zeitpunkt zu liefern. Kap. 17 ist für den persönlichen oder beruflichen Gebrauch gedacht: Es unterstützt bei der Suche nach geeigneter und benötigter Software.
1.3.2 Anwendungen Als Leser dieses Buches werden Sie vielleicht keine semantischen Anwendungen finden, die Sie für Ihren eigenen Bereich suchen. Anwendungen, die in anderen Bereichen angewandt werden, könnten jedoch auch Ideen und Ansätze liefern, die Sie für Ihre eigene Arbeit nutzen können. Dementsprechend geben wir hier einen Überblick über die Anwendungen. Die richtige Information zur richtigen Zeit am richtigen Ort zu haben, ist eine der Anforderungen der Digitalisierung, die durch Anwendungen zur Informationsbeschaffung unterstützt werden muss. In den Kap. 2, 3, 6, 8, 12, 13, 16 und 17 wird gezeigt, wie die Semantik dazu beiträgt, solche Anwendungen intelligenter zu machen, so dass die benötigten Informationen nicht länger unter einem Haufen kaum irrelevanter Informationen begraben werden. Kap. 4 deckt die Überschneidung zwischen Informationsabfrage, Datenanalyse und Wissensmanagement ab, indem es zeigt, wie diese Prozesse durch semantische Metadaten unterstützt werden können, insbesondere wenn die zu analysierenden Daten sehr heterogen sind (Vielfältigkeitsaspekt von Big Data). Kap. 16 unterstützt das Retrieval von prozessrelevanten Dokumenten unter Berücksichtigung des Kontextes des aktuellen Prozessschrittes. Die Kap. 11 und 7 ergänzen die Kategorie Datenanalyse, wobei Kap. 11 auf zeitliche Aspekte und Kap. 7 auf Sentimentanalyse fokussiert. Semantische Anwendungen für Wissensmanagement und Content Management werden in Kap. 4 vorgestellt, wobei das Problem der Vielfalt von Big Data behandelt wird. Kap. 16 konzentriert sich auf die semantische Annotation von Geschäftsprozessmodellen. In Kap. 9 wird die Entwicklung einer ontologiebasierten Erweiterung für ein Content Management System (CMS) beschrieben und in Kap. 15 geht es um den Aufbau von Archiven für das kulturelle Erbe. Eine weitere Facette des Informationsmanagements ist die Dokumentation. In diesem Sinne wird in Kap. 12 eine Anwendung zur schnellen Identifikation relevanter technischer Dokumentation für Maschinen im Störungs- und Wartungsfall vorgestellt. Kap. 16 befasst sich mit der Dokumentation von Geschäftsprozessmodellen. Eine Anwendung, die die Marktüberwachung unterstützt und wissenschaftliche Dokumente über Medizinprodukte sammelt, wird in Kap. 8 behandelt. Die Prozessplanung wird in Kap. 13 und das Lizenzmanagement in Kap. 14 behandelt. Empfehlung und Entscheidungsunterstützung werden in Kap. 10 behandelt, während in Kap. 17 eine semantische Anwendung beschrieben wird, die Empfehlungen über zu beschaffende Softwarekomponenten in einem Softwareentwicklungsprojekt gibt.
8
W. Bartussek et al.
1.4 Methodik Der Hauptvorteil von wissensbasierten Systemen liegt in der Trennung von Wissen und Verarbeitung. Das benötigte Wissen wird in der Regel durch Ontologien dargestellt. Ontologien lassen sich in so genannte „Top-Ontologien“ einteilen, die das gemeinsame Wissen für eine Reihe von Bereichen darstellen, in „Domänen-Ontologien“, die die B esonderheiten einer Domäne beschreiben, und in „Aufgaben-Ontologien“, die die Domänen-Ontologie mit einer Anwendung verbinden. Top-Ontologien werden in der Regel im Rahmen von Forschungsprojekten entwickelt. Bereichsontologien umfassen in der Regel die Terminologie und die Informationsstruktur eines Anwendungsbereichs für eine Reihe von verschiedenen Anwendungen. Die wichtigste Frage bei der Anwendung semantischer Technologien ist natürlich: „Woher soll die Domänen-Ontologie kommen?“ Für bestimmte wichtige Bereiche gibt es bereits umfangreiche Ontologien (z. B. Medizin und Technik), aber für spezialisierte Wirtschaftszweige oder Unternehmen gibt es oft noch keine passenden Ontologien und sie müssen erst erstellt werden. Obwohl es eine Reihe von Ontologie-Engineering-Methoden gibt, wurden diese oft in einem akademischen Kontext entwickelt und nur selten im Zusammenhang mit realen oder Unternehmensanwendungen getestet. In diesem Buch wird eine Reihe verschiedener praktischer Ansätze für die Entwicklung der erforderlichen Domänenontologien beschrieben, die ihren Nutzen für reale Anwendungen bewiesen haben.
1.4.1 Ontologie-Engineering Wenn für eine bestimmte Anwendung Domänen-Ontologien zur Verfügung stehen, wäre es natürlich vergebliche Mühe, die benötigte Ontologie jedes Mal von Grund auf zu modellieren. Oftmals decken die verfügbaren Ontologien jedoch die benötigte Anwendungsdomäne nicht vollständig ab. Wie in Kap. 10 am Beispiel einer personalisierten Gesundheitsakte gezeigt wird, enthält keine einzige Ontologie in der Medizin alle relevanten Begriffe und kein Satz medizinischer Ontologien deckt alle Begriffe der benötigten Konzepte ab. In dieser Situation werden Ontologie-Mapping, -Anpassung und -Integration zu den wichtigsten Aufgaben des Ontologie-Engineering. In Kap. 10 wird ein spezieller Fall von Ontologie-Engineering beschrieben, der die Umwandlung verschiedener Datenformate, die Zuordnung verschiedener semantischer Felder, die Bereinigung und Filterung ihres Inhalts, die Erkennung und Behandlung von Duplikaten und die Zusammenführung der Informationen in ein einziges Zieldatenformat umfasst. Manchmal findet man für eine bestimmte Anwendungsdomäne, wie z. B. die Informationstechnologie, ein rudimentäres Klassifizierungssystem, das die automatische Ableitung des „oberen Teils“ einer Domänenontologie ermöglicht, das aber nicht so detailliert ist, wie es für die vorliegende Anwendung erforderlich ist. Kap. 17 verfolgt einen ähnlichen, aber einfacheren Ansatz. Ein leichtgewichtiger Kern eines Thesaurus wird aufge-
1 Einführung in semantische Anwendungen
9
baut, indem zunächst eine Reihe von „semantischen Kategorien“ identifiziert und die aus textuellen Beschreibungen von Software und Softwarekomponenten abgeleitete Domänen- Terminologie diesen Kategorien zugeordnet wird. Akronyme und Synonyme werden dann mit diesen Begriffen in Beziehung gesetzt, und zusätzliche Werkzeuge werden verwendet, um funktionale Synonyme zu identifizieren, d. h. Begriffe, die eng miteinander verwandt sind und synonym verwendet werden. Kap. 2 beschreibt die Erweiterung dieses Ansatzes zu einem pragmatischen Ontologiemodellierungsansatz, der für den Einsatz in Unternehmen geeignet ist. Mit Hilfe einer einfachen Textanalyse und der Ableitung von Schlüsselwortlisten werden Ontologie- Ingenieure angeleitet, zunächst die für eine Anwendung wichtigen Konzepte, die sogenannten „kategoriellen Konzepte“, zu bestimmen. Diese kategoriellen Konzepte werden dann verwendet, um die extrahierten Schlüsselwörter in einer Tabelle vorzuqualifizieren, so dass ein Ontologie-Ingenieur Hinweise auf die zuerst zu modellierenden Begriffe erhält und seine Arbeit verfolgen kann. Insbesondere für Suchanwendungen ist die Modellierung eines Thesaurus oft ausreichend. Durch die Festlegung einiger Modellierungsrichtlinien kann sichergestellt werden, dass dieser Thesaurus später in eine aussagekräftigere Ontologie umgewandelt werden kann. Kap. 9 beschreibt eine Verarbeitungspipeline zur Erweiterung eines gängigen CMS, in diesem Fall Drupal, um die Funktionalität zum automatisierten Import von Ontologien. Ausgangspunkt ist dabei die Modellierung einer Domäne in einer Tabellenkalkulationsvorlage, die Konvertierung in eine Ontologie, die optionale Optimierung dieser Ontologie durch einen Wissensingenieur und ihr Import in die Drupal-eigene Datenbank. So können auch Nicht-Experten den Inhalt eines Webportals mit gängigen Werkzeugen modellieren und dessen Wissensstruktur anreichern, bevor sie in das CMS eingespeist wird. Manchmal wird die Struktur einer Ontologie und ihre Darstellung durch die Anwendung, die sie nutzt, eingeschränkt. Daher muss der Ontologieentwicklungsprozess anwendungsabhängige Anforderungen berücksichtigen. In Kap. 2 wird beispielsweise beschrieben, dass Synonyme von bevorzugten Konzepten explizit gekennzeichnet werden, um sie leicht identifizieren zu können, ohne dass logische Schlussfolgerungen gezogen werden müssen, und um schnelle Nachschlagetabellen zu erstellen, die den automatischen Annotationsprozess beschleunigen. In Kap. 6 wird ein mit einer konventionellen Datenbank realisierter RDF-Triple-Store verwendet, um einen schnellen Zugriff auf die Ontologie während des Textgenerierungsprozesses zu erhalten. Diese Anforderung stellt eine Einschränkung für das Ontologiedesign dar. Abhängig von der Domäne und der Anwendung ist die Qualitätssicherung ein Thema, das bei der Ontologieentwicklung berücksichtigt werden muss.
1.4.2 Qualitätsmanagement Wenn wir uns an die Definition des Begriffs Ontologie als „formale, explizite Spezifikation eines gemeinsamen Konzepts“ [3] halten, impliziert die gemeinsame Nutzung der Konzepte,
10
W. Bartussek et al.
dass verschiedene Interessengruppen mit der Bedeutung der dargestellten Informationen einverstanden sind. Dadurch wird ein gewisses Maß an Qualität der Ontologie gewährleistet. Während in Kap. 2 gezeigt wird, wie die Qualität einer Ontologie während der inkrementellen Modellierung durch das Vier-Augen-Prinzip im Rahmen des Ontologie- Engineering-Prozesses sichergestellt werden kann, befassen sich die Kap. 10, 16 und 17 mit dem Management der Informationsqualität durch die Verknüpfung von Informationen und deren Einordnung in den Domänenkontext. Die Qualität von Informationen ist im medizinischen Bereich besonders wichtig. Kap. 10 beschreibt hochwertige Informationen als Grundlage für die personalisierte Medizin. Die Personalisierung, d. h. die Anpassung der medizinischen Behandlung an die Individualität des Patienten, hat erhebliche Vorteile für die Patienten. Semantische Technologien helfen dabei, Patientendaten mit Informationen aus der medizinischen Wissensdatenbank zu verknüpfen. Dadurch kann die Behandlung an die spezifischen Merkmale des Patienten angepasst werden. Kap. 16 zeigt, wie die Qualität der in Organisationen gefundenen Informationen verbessert wird, indem sie in den semantischen Kontext des Geschäftsprozesses gestellt werden. In einer „Filterblase“ werden die Prozessmodelle semantisch mit Rollen, Dokumenten und anderen relevanten Daten angereichert. Die Informationen werden modularisiert und damit wiederverwendet, was die Konsistenz erhöht. Semantische Konzepte reduzieren den Informations-Overflow und fokussieren die gefundenen Informationen auf den relevanten Kontext. Im Bereich der Software-Suche erhöht die Anreicherung der Daten mit semantischen Informationen die Qualität der Suchergebnisse, wie in Kap. 17 gezeigt wird. In einem bestimmten Kontext wird dem Nutzer geeignete Software vorgeschlagen. „Geeignet“ bedeutet hier, dass die Software nach Merkmalen wie Lizenz, Community-Support, Programmiersprache oder Betriebssystem ausgewählt wird. Außerdem wird dem Nutzer eine Software angeboten, die derjenigen ähnelt, die er bereits benutzt.
1.5 Technologie Nach der Beschreibung der Anwendungen, des Einsatzes in Unternehmen und der Methoden bleibt die Frage offen: Welche Technologien sind zu verwenden? Diese Frage ist natürlich von der jeweiligen Anwendung abhängig. Die folgenden Abschnitte geben einen Überblick über einige wichtige Technologien, die in den übrigen Kapiteln des Buches behandelt werden.
1.5.1 Semantische Suche Der Begriff semantische Suche ist mehrdeutig und wird von verschiedenen Akteuren mit unterschiedlichen Bedeutungen verwendet. In seiner allgemeinsten Bedeutung fasst er
1 Einführung in semantische Anwendungen
11
jede Informationssuchtechnologie zusammen, die Hintergrundwissen auf der Grundlage einer formalen Semantik verwendet, wie Taxonomien, Thesauri, Ontologien oder Wissensgraphen. Im engeren Sinne fasst der Begriff semantische Suche die Informationsbeschaffung auf der Grundlage einer semantisierten Form der Schlüsselwortsuche zusammen, die häufig als semantische Erweiterung auf Apache Lucene, Apache Solr oder ElasticSearch implementiert wird. In diesem engen Sinne unterscheidet sie sich vom facettierten Browsing, von Systemen zur Beantwortung von Fragen, bei denen Abfragen in natürlicher Sprache gestellt werden, und von RDF-basierten Retrievalsystemen [5], bei denen eine klare Spezifikation der gesuchten Informationen in einer SQL-strukturierten Abfragesprache wie SparQL oder GraphQL formuliert wird. Die letztgenannte Form des Retrievals erfordert häufig die Formulierung von Abfragen durch technische Experten und bildet die technologische Grundlage in den Kap. 13 und 14. Bei der semantischen Suche im engeren Sinne muss die Anwendung mit eher vage formulierten Anfragen fertig werden, die oft nur durch Schlüsselwörter ausgedrückt werden und in der Sprache des Benutzers formuliert sind, die nicht unbedingt mit der in den Dokumenten oder von einem Unternehmen verwendeten Sprache übereinstimmt. Wie in Kap. 2 hervorgehoben wird, ist bei dieser Art der semantischen Suche, wie bei vielen Information-Retrieval-Systemen, häufig eine Übersetzung zwischen der Sprache der Benutzer und der Sprache der Dokumentautoren erforderlich. Für diese Übersetzung wird eine Art kontrolliertes Vokabular verwendet, das durch die Domänen-Ontologie definiert ist und als Brücke für die Übersetzung von Begriffen aus Suchanfragen in die von Informationsanbietern verwendeten Begriffe dient. In den Kap. 2 und 17 werden Suchanfragen angereichert, indem Synonyme, Akronyme, funktionale Synonyme und versteckte Begriffe, die häufige Falschschreibweisen von Begriffen erfassen, dem kontrollierten Vokabular einer Domänenontologie zugeordnet werden, um die Suchergebnisse um Informationen mit solchen Begriffen zu erweitern oder entsprechende Suchanfragen zu beantworten. Kap. 17 zeigt darüber hinaus, wie die Begriffsvervollständigungen und die Facettensuche durch die verwendeten Domänenontologien ergänzt werden können, um die Benutzerschnittstelle und das Benutzererlebnis zu semantisieren. In Kap. 16 wird im Zusammenhang mit Prozessmodellen beschrieben, wie Kontextinformationen über den aktuellen Prozessschritt als zusätzliche Einschränkung die semantische Suche nach Dokumenten leiten können, um dem Nutzer die richtigen Informationen zur richtigen Zeit am richtigen Ort zu liefern.
1.5.2 Datenintegration und ETL Semantische Anwendungen erfordern häufig eine Datenintegration. Kap. 10 beschreibt Ansätze zur Integration verschiedener Ontologien für das Gesundheitswesen, da sich keine einzelne Ontologie als ausreichend für die zu entwickelnde semantische Anwendung erwiesen hat. Kap. 12 zeigt, wie eine domänenspezifische Ontologie mit Geschäfts-
12
W. Bartussek et al.
daten integriert werden kann: Maschinendaten aus der Fabrikhalle auf der einen Seite und technische Dokumentation auf der anderen Seite. Kap. 17 beschreibt, wie eine Ontologie durch Daten aus dem Web-Crawling erweitert werden kann und wie eine solche Ontologie mit Metadaten, in diesem Fall für Softwarekomponenten, integriert werden kann. In Kap. 4 wird erörtert, wie Ontologien und Metadatenkataloge die Erkundung heterogener Data Lakes erleichtern und die Integration mehrerer Datensätze vereinfachen können. Eine etablierte Datenintegrationstechnologie ist Extraktion, Transformation und Laden (ETL). Sie ist ein gängiger Ansatz in den Bereichen Business Intelligence und Data Science, um Informationen umzuwandeln, zu ergänzen und zu analysieren. Semantisches ETL erweitert das traditionelle ETL um die Prozessschritte: semantischer Abgleich, Bereinigung, Filterung und Duplikatbehandlung. Wie in Kap. 8 gezeigt, erfordert dieser Prozess eine enge Rückkopplung zur kontinuierlichen Verbesserung. Semantisches ETL kann auch innerhalb der Ontologie-Engineering-Phase eingesetzt werden, um den Inhalt verschiedener Informationsquellen wie Datenbanken, Taxonomien, Thesauri, Ontologien oder Wissensgraphen zu einer integrierten Ontologie zu kombinieren. In Kap. 9 wird erläutert, wie verfügbare Werkzeuge wie Tabellenkalkulationen und spezialisierte Übersetzer kombiniert werden müssen, um die Datenintegration über semantisches ETL zu realisieren. Kap. 10 zeigt, dass die für das Mapping und den Abgleich von Ontologien erforderlichen Verarbeitungsschritte denen ähneln, die bei herkömmlichen Business Intelligence- und Data Science-Aufgaben verwendet werden.
1.5.3 Annotation Der Eckpfeiler für die Anwendung semantischer Technologien ist natürlich der Inhalt, der manchmal vom Benutzer in Form von Tags oder Markierungen oder manchmal automatisch durch Textanalyse annotiert wird. Hintergrundwissen in Form von Taxonomien, Thesauri oder Ontologien kann verwendet werden, um die Annotationen automatisch mit verwandten Begriffen anzureichern. Diese angereicherten Annotationen werden manchmal als Fingerabdrücke, manchmal als Fußabdrücke bezeichnet, was darauf hinweist, dass sie den Inhalt, den sie annotieren, charakterisieren und zur Identifizierung verwendet werden können. In gewissem Sinne ist dieser Anreicherungsprozess auch eine Art von Datenintegration, da die Schlüsselwörter, die den Inhalt begleiten oder von ihm abgeleitet sind, mit dem modellierten Wissen zu einer neuen Wissensquelle integriert werden. Aus technologischer Sicht ermöglichen solche Annotationen eine Vereinfachung und Beschleunigung des Abrufs gesuchter Informationen, da sie einen Teil der semantischen Analyse von der Laufzeit in die Indizierungsphase der Informationen verlagern. Aus der Sicht der Anwendung können die angereicherten Annotationen selbst Objekte der Datenanalyse sein. Die Beziehung zwischen Annotation und Inhalt kann durch ein Annotationsmodell, wie in Kap. 3 beschrieben, beschrieben werden und wird, wie jede andere Art von Metadaten, an den Inhalt angehängt, den sie annotieren. Insbesondere für die Abfrage von Inhalten aus
1 Einführung in semantische Anwendungen
13
Data Lakes werden Annotationen zu einer zentralen Überlegung bei der Gestaltung und Pflege von Data Lakes, wie in Kap. 4 dargelegt wird. Kap. 9 zeigt, wie Web-Inhalte durch Konzepte aus verschiedenen Ontologien annotiert werden können. Annotationen werden zur Filterung von Suchergebnissen und zur Annotation von Geschäftsprozessmodellen durch Geschäftsobjekte in Kap. 16 verwendet. Obwohl nicht explizit erwähnt, handelt es sich bei den in Kap. 17 verwendeten „Tags“ um Annotationen, die durch Normalisierung direkt aus den vom Benutzer bereitgestellten Tags abgeleitet werden, um die Domänenontologie abzuleiten und die Softwarekomponenten zu beschreiben.
1.6 Schlussfolgerung Semantische Anwendungen bieten heute zahlreichen Organisationen in Geschäftsbereichen wie dem Gesundheitswesen, dem Finanzwesen, der Industrie und dem öffentlichen Sektor Vorteile. Die Entwicklung semantischer Anwendungen erfordert methodische Fähigkeiten, einschließlich Ontologie-Engineering, Qualitätssicherung von Ontologien und Lizenzmanagement. Die Implementierung semantischer Anwendungen wird häufig dadurch unterstützt, dass die Softwareingenieure über Kenntnisse in aktuellen Technologien verfügen, z. B. Datenintegration, semantische Suche, maschinelles Lernen und komplexe Ereignisverarbeitung. Die folgenden Kapitel dieses Buches geben Einblicke in Methoden und Technologien für semantische Anwendungen, die sich in der Unternehmenspraxis bewährt haben.
Literatur 1. Busse J, Humm B, Lübbert C, Moelter F, Reibold A, Rewald M, Schlüter V, Seiler B, Tegtmeier E, Zeh T (2015) Actually, what does “ontology” mean? A term coined by philosophy in the light of different scientific disciplines. J Comput Inf Technol 23(1):29–41. https://doi.org/10.2498/ cit.1002508 2. Gruber TR (1993) A translation approach to portable ontologies. Knowl Acquis 5(2):199–220. Academic Press 3. Studer R, Benjamins VR, Fensel D (1998) Knowledge engineering: principles and methods. Data Knowl Eng 25:161–197 4. Lassila O, McGuiness DL (2001) The role of frame-based representation on the semantic web. Knowledge Systems Laboratory Report KSL-01-02. Stanford University Press, Palo Alto 5. Dengel A (Hrsg) (2012) Semantische Technologien. Spektrum Akademischer, Heidelberg
2
Leitfaden für die pragmatische Modellierung von Ontologien im Unternehmensumfeld Thomas Hoppe und Robert Tolksdorf
Kernaussagen
1. Ermitteln Sie die wichtigsten Begriffsklassen Ihrer Anwendung. Kompetenzabfragen können Ihnen dabei helfen. 2. Wenn keine geeignete Wissensquelle für Ihren Zweck zur Verfügung steht, verwenden Sie NLP-Tools zur Ableitung von Schlagwortlisten aus Dokumenten oder Protokollen von Suchanfragen. 3. Untersuchen Sie diese Schlagwortlisten auf Begriffe, die zu den zuvor ermittelten Kategorien gehören, und markieren Sie die entsprechenden Begriffe als nützlich, fragwürdig oder ignorierbar. 4. Beginnen Sie zunächst mit der Modellierung eines Thesaurus mit diesen Begriffen, um einen ersten Machbarkeitsnachweis durchzuführen und ein erstes Domänenmodell abzuleiten. 5. Modellieren Sie den Thesaurus nach Richtlinien, die einen späteren Übergang zu einer vollwertigen Ontologie erleichtern.
T. Hoppe (*) Datenlabor Berlin, Berlin, Deutschland E-Mail: [email protected] R. Tolksdorf Free University Berlin, Berlin, Deutschland E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_2
15
16
T. Hoppe und R. Tolksdorf
6. Messen Sie kontinuierlich Ihren Modellierungsaufwand für künftige Aufgaben, die Entwicklung eines Business Case und zur Beruhigung des Managements. 7. Beurteilen Sie je nach Anwendung die Folgen von Fehlern, die vom Benutzer wahrgenommen werden, wie mit dem unvollkommenen Sprachgebrauch und der Rechtschreibung der Benutzer umgegangen werden kann, und wie ein unvollständiges Modell im Laufe der Zeit kontinuierlich verfeinert werden kann.
2.1 Hintergrund Im Jahr 2008 gründeten wir Ontonym, ein Unternehmen zur Entwicklung und Vermarktung semantischer Technologien. Zunächst konzentrierten wir uns auf den Bereich der Human Ressources (HR) mit der Absicht, die Stellensuche zu verbessern. Das Ziel war klar: Wenn wir die Stellensuche für Arbeitssuchende vereinfachen könnten, könnten sie leichter eine Stelle finden, die ihren Fähigkeiten besser entspricht, und wenn wir Arbeitgebern helfen könnten, besser geeignete Kandidaten zu finden, könnten sie freie Stellen schneller mit besseren Kandidaten besetzen. Offensichtlich konnten wir eine Win-Win- Situation für beide Seiten schaffen. Da sowohl wir als auch unsere Partner einen starken Hintergrund in semantischen Technologien und der Entwicklung von Suchmaschinen hatten, kamen wir schnell zu der Einsicht, dass semantische Technologien ideal wären, da der Abgleich von Kandidaten mit Stellenprofilen eine Anwendung ist, die viel Hintergrundwissen erfordert und mit einer reichhaltigen, mehrdeutigen und etwas vagen Terminologie zurechtkommen muss, und sie hätte das Potenzial, eine Killeranwendung zu werden. Eine erste Demo, wie eine solche Matching-Anwendung funktionieren könnte, wurde im Rahmen des vom Bundesministerium für Bildung und Forschung geförderten Forschungsprojekts „Wissensnetze“ an der Freien Universität Berlin und der Humboldt- Universität zu Berlin entwickelt. Das übergeordnete Ziel des Projekts war die Erprobung der damals neu standardisierten Semantic Web-Technologien. Unter den verschiedenen Anwendungsbereichen wurde der Personalbereich ausgewählt, da von der Anwendung der Technologien in diesem Bereich ein messbarer geschäftlicher Nutzen erwartet werden konnte. Der erste Schritt war für uns die Erstellung eines Demosystems zur Demonstration des Potenzials semantischer Technologien. Da die ursprüngliche Demo-Anwendung aus dem Forschungsprojekt für diese Aufgabe nicht geeignet war, konzentrierten wir uns auf die Entwicklung einer semantischen Suchmaschine für Stellenanzeigen. Zwischen 2008 und 2013 haben wir diese Suchmaschine nicht nur entwickelt, sondern auch für einige Kunden angepasst und installiert, auf den Bereich Weiterbildung erweitert, die Basistechnologie für semantische Filterung [1] angepasst und einen integrierten ontologiebasierten Thesaurus für die Bereiche Stellenanzeigen, HR und Weiterbildung entwickelt. Dieser Thesaurus, der sich noch in der Wartung befindet, umfasste Ende September 2017 rund 14.070 Kon-
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
17
zepte, 5000 äquivalente Synonyme, 21.570 mehrsprachige Begriffe, 36.900 automatisch generierte Schreibvarianten, 28.040 Unterklassen-Axiome und 8210 Beziehungen zwischen Konzepten. In dieser Zeit haben wir einen pragmatischen Ansatz zur Modellierung von Domänenontologien entwickelt, der in diesem Kapitel beschrieben wird und der sich für Suchanwendungen in Unternehmen bewährt hat. Bevor wir unseren Ansatz erläutern, ihn mit anderen bestehenden Entwicklungsmethoden für Ontologien vergleichen und über unsere Erfahrungen berichten, weisen wir zunächst auf einige Rahmenbedingungen hin, die wir in kommerziellen Umgebungen für semantische Anwendungen antreffen.
2.2 Anforderungen aus Unternehmenssicht Der Anwendungskontext bestimmt, welche Art von Ontologie benötigt wird. Wenn die Ontologie beispielsweise als Grundlage für gültige logische Schlussfolgerungen oder technische Diagnosen verwendet werden soll, muss sie solide und konsistent sein. Wenn die Ontologie in einem Kontext verwendet wird, in dem Vagheit eine große Rolle spielt (wie bei der medizinischen Diagnose) und eine größere Anzahl von Fällen zur Verfügung steht, werden Korrektheit und Konsistenz weniger wichtig, da Statistiken klare Logik ersetzen können [2, 3]. Wenn die Ontologie für Empfehlungen oder Vergleiche von Benutzerinteressen mit verfügbaren Elementen verwendet wird (z. B. Abgleich von Fähigkeiten und Stellenbeschreibungen oder Benutzeranforderungen und Produktbeschreibungen), muss sie die sprachliche Mehrdeutigkeit und den aktuellen Sprachgebrauch des Benutzers und der Informationsanbieter berücksichtigen. Wenn die Ontologie den Nutzern helfen soll, das zu finden, was sie suchen, muss sie ihren Sprachgebrauch in einer Art kontrolliertem Vokabular abbilden, um die Sprachkluft zwischen Nutzern und Autoren zu überbrücken [4]. Neben diesen anwendungsabhängigen Anforderungen und den Anforderungen, die sich aus dem gewählten Entwicklungsansatz ergeben, müssen bei der Modellierung von The sauri und Ontologien in einem kommerziellen Umfeld Anforderungen beachtet werden, die nie explizit formuliert wurden. Eine neue, noch nicht weit verbreitete Technologie muss ihren Nutzen erst unter Beweis stellen. Daher zögert die Geschäftsleitung eines Unternehmens oft, einen kostspieligen Entwicklungsprozess für eine neue Technologie in Gang zu setzen. Zunächst muss ein Machbarkeitsnachweis (proof of concept) den Nutzen der neuen Technologie bestätigen. Unabhängig davon, was das Ergebnis eines solchen Konzeptnachweises ist, sollte er zu einem Ergebnis führen, selbst wenn sich im schlimmsten Fall die Technologie als nicht anwendbar oder nützlich erweist. Die während des Konzeptnachweises entwickelten Artefakte sollten wiederverwertbar sein, um zumindest einen Teil der Investitionen zu sparen. Im besten Fall sollte das Ergebnis des Konzeptnachweises natürlich für die weitere Entwicklung bereit sein.
18
T. Hoppe und R. Tolksdorf
Natürlich sollte ein Konzeptnachweis in angemessener Zeit fertiggestellt werden. Daher kann nicht allzuviel Aufwand in den anfänglichen Modellierungsprozess investiert werden. Eine vollständige und theoretisch fundierte Analyse einer Domäne und die Entwicklung einer ausgefeilten Ontologie kann man sich daher nicht leisten. Stattdessen muss die modellierte Ontologie frühzeitig zur Verfügung stehen, um Erfahrungen mit ihr und der sie nutzenden Technologie zu sammeln. Dies impliziert, dass eine anfänglich entwickelte Ontologie leicht anpassbar sein muss, damit sie später erweitert werden kann. Für semantische Suchanwendungen in Unternehmen haben wir daher die folgenden Anforderungen ermittelt: • Unterstützung des Benutzers während des Suchprozesses • Abbildung des Sprachgebrauchs der Nutzer auf die von den Autoren verwendete Sprache • Frühzeitige Verfügbarkeit der Ontologie • Validierung der Ontologie in einem produktiven Umfeld • Inkrementelle, datengesteuerte Erweiterung der Ontologie auf der Grundlage der Suchanfragen der Nutzer • Möglichkeit, aus einem einfachen Anfangsthesaurus eine vollwertige Ontologie zu entwickeln
2.3 Entwicklungsprozess Die pragmatische Modellierung von Ontologien, wie wir sie beschreiben, ist ein inhärent inkrementeller, evolutionärer Ansatz, der eine Ontologie frühzeitig in einer Produktionsumgebung einsetzt, um sie zu validieren und zusätzliche Daten zu gewinnen. Um frühe Investitionen in die Entwicklung einer vollwertigen Ontologie zu vermeiden, deren Nutzen nicht im Voraus nachgewiesen werden kann, beginnt die pragmatische Modellierung mit der Modellierung eines Thesaurus, der bei Bedarf zu einer vollwertigen Ontologie verfeinert werden kann. Der von uns angewandte pragmatische Modellierungsansatz kann daher als datengesteuerte, inkrementelle, evolutionäre Inside-Out-Modellierung bezeichnet werden. Die Ontologiemodellierung wird in der Regel entweder als Top-down- oder Bottom- up-Modellierung charakterisiert. Während bei Top-Down-Ansätzen der Modellierungsprozess mit der Analyse der Domäne und der Differenzierung der Konzepte beginnt, beginnend mit den allgemeinsten Konzepten bis hin zu spezielleren Konzepten, werden bei Bottom-Up-Ansätzen Konzepte bei Bedarf zu allgemeineren Konzepten aggregiert, wenn sich die Notwendigkeit ergibt, Konzepte zu subsumieren. Unser Ansatz geht von einem kleinen Kern der wichtigsten Konzepte der beabsichtigten Anwendung aus (wir nennen sie kategorielle Konzepte) und konzentriert sich in erster Linie auf die Modellierung dieser Konzepte, wobei wir sie je nach Bedarf entweder top- down oder bottom-up modellieren. Dadurch wird sichergestellt, dass der Wissensingeni-
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
19
eur eine klare Richtlinie hat, welche Begriffe er in die Ontologie integrieren muss. Durch die Konzentration auf einen klar definierten Satz von Konzeptkategorien kann der Modellierungsaufwand nicht nur eingeschränkt und fokussiert werden, sondern auch der Aufwand für die Erstellung eines ersten Modells begrenzt werden. Unser Ansatz ist evolutionär in dem Sinne, dass ein solches Modell, das sich auf wichtige Begriffskategorien beschränkt, aus einem anfänglichen Kern entwickelt werden kann, indem zusätzliche Schichten von Begriffen hinzugefügt werden und diese horizontal mit dem Kern verbunden werden, also von innen nach außen verlaufen. Die Inkrementalität dieses Ansatzes ergibt sich nicht nur aus dieser Art der Modellierung, die den verfügbaren Kern von Konzepten um zusätzliche Schichten entweder vertikal oder horizontal erweitert, sondern auch daraus, dass die Ontologie in Teilen erweitert wird, wobei jeder Teil aus einer Reihe von noch nicht modellierten Begriffen besteht, die aus neuen Dokumenten oder Suchanfragen ermittelt werden. Daher wird die Erweiterung einer Ontologie mit unserem Ansatz durch die Begriffe gesteuert, die zur Modellierung der Realität benötigt werden, und ihre Verwendung in ihrem Anwendungsbereich. Dadurch wird vermieden, dass Modellierungsaufwand für Konzepte verschwendet wird, die für die Anwendung und den Anwendungskontext irrelevant sind. Dieser Ansatz stellt auch eine Anforderung an seine Verwendung: Mut zur Lücke und Unvollkommenheit. Da eine inkrementelle Entwicklung einer Ontologie für einen hinreichend komplexen Bereich (wie Medizin, Technik oder Sprachgebrauch) naturgemäß nie vollständig und selten fehlerfrei sein wird, kann sie nur für Anwendungen angewendet werden, die fehlertolerant sind, bei denen Fehler nicht direkt wahrnehmbar sind und bei denen die Organisation oder ihr Management mit solchen Unvollkommenheiten leben kann. Im Folgenden beschreiben wir die einzelnen Schritte unseres Modellierungsprozesses genauer.
2.3.1 Anfangsphase Die Anfangsphase des Modellierungsprozesses kann als Bootstrapping-Phase betrachtet werden, in der wir herausfinden müssen, welche Konzepte modelliert werden sollen, woher wir eine Reihe von Anfangstermini erhalten und in der wir den Modellierungsprozess einleiten.
2.3.1.1 Identifizierung von kategoriellen Konzepten Der erste Schritt unseres Ansatzes besteht in der Identifizierung der zentralen kategoriellen Konzepte, die für die beabsichtigte Anwendung wichtig sind. Betrachten wir zum Beispiel den Anwendungsbereich der Stellensuche. Offensichtlich sind Berufe, Berufsbezeichnungen und funktionale Rollen die wichtigsten Begriffe für eine Stellensuche, gefolgt von Branchen, den erforderlichen Fähigkeiten und Kompetenzen, die ein Bewerber haben sollte, gefolgt von den Verantwortlichkeiten, die der Stelleninhaber haben wird, und den Aufgaben, an denen er arbeiten wird, Orten, an denen er ar-
20
T. Hoppe und R. Tolksdorf
beiten wird, und vielleicht Firmennamen. Obwohl auch andere Begriffe, die die Art der Beschäftigung, die Arbeitszeit, Sozialleistungen, arbeitsplatzabhängige Fachbegriffe usw. beschreiben, eine gewisse Rolle spielen, bilden Berufe, Berufsbezeichnungen, Branchen, Fähigkeiten, Kompetenzen und Aufgaben die wichtigsten Begriffskategorien im Hinblick auf ein Stellenangebot und die Stellensuche. Oder nehmen wir als weiteres Beispiel den Anwendungsbereich der Nachrichten. Offensichtlich wird jede Nachricht durch ein bestimmtes Ereignis ausgelöst. Daher sind Begriffe, die Ereignisse bezeichnen, die wichtigste Termklasse zur Beschreibung von Nachrichten, gefolgt von Aktivitäten, Personen, Organisationen, Orten und Zeiten. Alle anderen Begriffe, die in Nachrichten vorkommen, sind unter dem Gesichtspunkt der Neuartigkeit weniger wichtig. Nehmen wir als weiteres Beispiel diagnostische Anwendungen. Für technische Systeme sind die wichtigen kategoriellen Konzepte, die zunächst modelliert werden müssen, Komponenten, Funktionen, Subsysteme, Eigenschaften, Ursachen und Wirkungen. In Kap. 12 sind dies z. B. Symptome, Ursachen und Lösungen, die die kategoriellen Konzepte bilden. Für die medizinische Diagnose sind die wichtigsten kategoriellen Konzepte Krankheiten, Symptome, Anatomie, medizinische Geräte und Diagnoseverfahren. Erweitert man jedoch die Anwendungsdomäne einer entsprechenden medizinischen Anwendung von der reinen Diagnostik auf Behandlungen, werden weitere kategorielle Konzepte relevant, wie Behandlungen, Medikamente, Substanzen und Nebenwirkungen. In Kap. 10 wurden z. B. für eine Melanom-Anwendung sechs verschiedene kategorielle Konzepte identifiziert: Medikament, Aktivität, Symptom, Krankheit, Gen und Anatomie. In Abschn. 17.3 wurden die semantischen Kategorien „Entwicklung“, „Infrastruktur“, „Business“, „Unterhaltung“ und andere als kategorielle Konzepte für die Suche und Empfehlung von Softwarekomponenten identifiziert.
2.3.1.2 Erste Dokumentenanalyse Nachdem wir die erste Gruppe von Begriffskategorien identifiziert haben, stellt sich natürlich die Frage, woher wir wissen, welche Begriffe wir modellieren müssen. Oder genauer gesagt, wie lauten die Bezeichner für diese Konzepte und wie und woher können sie beschafft werden? In verschiedenen Anwendungsbereichen gibt es seit langem Bemühungen zur Harmonisierung von Terminologien, um die Kommunikation zu vereinheitlichen. Ein Beispiel ist die Medizin mit bestehenden Thesauri, Ontologien oder Datenbanken, z. B. MeSH, SnoMed, UMLS usw. Es besteht eine gute Chance, eine solche Wissensquelle in Form von Vokabularen, Standards und anderen als Ausgangspunkt zu finden, die Begriffe enthalten über die bereits ein gemeinsames Verständnis im Anwendungsbereich besteht. Ein erster Schritt sollte daher eine umfassende Recherche und Auswahl solcher Quellen sein. Leider gibt es solche Informationsquellen nicht für jeden Anwendungsbereich. So können wir zwar eine Kategorisierung von Berufen (z. B. Klassifikation der Berufe der Bundesagentur für Arbeit oder die International Standard Classification of Occupations (ISCO)), die Beschreibung technischer Komponenten (z. B. Thesaurus Technik und Ma-
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
21
nagement (TEMA) des WTI Frankfurt) und Produktkategorien (z. B. Google Product Categories) finden, aber es gibt keine derartigen Quellen für Berufsbezeichnungen, Fähigkeiten, Kompetenzen, Aufgaben, Nachrichten, Arten von Interessengebieten usw. Wie in Abschn. 17.3 dargelegt, sind selbst in der Informatik die vorhandenen Klassifikationsschemata unzureichend, um eine semantische Suche nach Softwarekomponenten aufzubauen. In solchen Fällen können wir nur mit einer Analyse der vorhandenen Dokumente beginnen. Obwohl es hilfreich ist, ein linguistisches Werkzeug zur Extraktion von Nominalphrasen aus Textdokumenten zur Verfügung zu haben (wie die in Kap. 5 beschriebenen Werkzeuge), hilft es in einem ersten Schritt, eine Häufigkeitsverteilung von Substantiven aus den verfügbaren Dokumenten abzuleiten, sie nach abnehmender Häufigkeit zu ordnen und Begriffe zu identifizieren, die wichtige kategorielle Konzepte bezeichnen. Manchmal können zuvor gestellte Suchanfragen von Suchanwendungen verwendet werden, um kategorielle Konzepte zu identifizieren, wobei die entsprechenden Begriffe als Input für den Modellierungsprozess dienen. Die Wichtigkeit von Begriffen lässt sich nicht nur daran ablesen, wie oft die gleiche Suchanfrage gestellt wurde, sondern spiegelt auch den Sprachgebrauch der Nutzer wider. Der Ausschnitt in Abb. 2.1 zeigt ein Beispiel für eine solche Schlagwortliste.
Abb. 2.1 Auszug aus einer Begriffshäufigkeitsverteilung von deutschen Suchanfragen
22
T. Hoppe und R. Tolksdorf
2.3.1.3 Inspektion der extrahierten Begriffe Die Durchsicht dieser Liste und die Vorauswahl von Begriffen kategorieller Konzepte kann durch manuelle bzw. intellektuelle Prüfung erfolgen. Für die Präqualifikation werden die ermittelten Begriffe in drei große Kategorien eingeteilt: wichtig (+), ignorieren (×) und unklar (?), wie in der Spalte „Klassifizierung“ in Abb. 2.1 dargestellt. Diese Prüfung dient dazu, Prioritäten zu setzen und schnell wichtige Begriffe zu identifizieren, die modelliert werden sollten. Obwohl es vorkommen kann, dass einige wichtige Konzepte nicht im ersten Durchgang identifiziert werden, können sie entweder in einem späteren Modellierungsschritt oder während der folgenden Modellierungsphasen auftauchen. Daher erfordert dieser Modellierungsansatz eine fehlertolerante Anwendungsumgebung. Die Spalte „modelliert“ wird verwendet, um zu dokumentieren, welche Begriffe schließlich modelliert wurden (+) oder auf einen späteren Zeitpunkt verschoben (?) wurden. 2.3.1.4 Modellierungsprozess Unser Modellierungsprozess basiert auf Schlagwortlisten, wie sie in den zuvor beschriebenen Schritten ermittelt wurden. Sie enthalten die vorkategorisierten Begriffe, die helfen, die Modellierung zu fokussieren, indem sie zu ignorierende Begriffe ausblenden. Sie helfen den Prozess zu verfolgen und können verwendet werden, um zusätzliche Informationen aufzuzeichnen, wie z. B. die Start-/Endzeit der Modellierung, die tatsächlich modellierten Begriffe, Fragen oder Kommentare. Die Modellierung beginnt mit den häufigsten Begriffen der Schlagwortliste und geht sie abwärts durch. Wenn der zu modellierende Begriff dem Wissensingenieur bekannt ist oder von ihm interpretiert werden kann, kann er ihn direkt modellieren, andernfalls muss der Wissensingenieur zunächst eine geeignete Definition dieses Begriffs finden. Abb. 2.2 fasst die Schritte des Modellierungsprozesses zusammen. Grüne Knoten bezeichnen Modellierungsaufgaben, orangefarbene Knoten markieren Aktionen auf der Schlagwortliste und blaue Knoten markieren Übergänge zwischen der Recherche und der Modellierungsaufgabe. Die folgende Strategie hat sich für uns als effektiv erwiesen, um nützliche Definitionen zu finden. Wenn wir einen unbekannten Begriff oder einen mehrdeutigen Begriff mit mehreren Interpretationen modellieren müssen, führen wir eine schnelle Internetsuche über Google durch. Wenn die Suchergebnisse auf eine Definition in einer Norm, einem Standard oder einer anderen normativen Informationsquelle verweisen, verwenden wir diese Definition. Wenn ein Eintrag in Wikipedia gefunden wird, verwenden wir den ersten Teil der entsprechenden Wikipedia-Seite (deren erster Absatz oft eine klare Definition enthält) für die Interpretation des Begriffs. Abhängig von der Definition werden manchmal weitere wichtige Begriffe genannt. Entsprechend einer solchen Definition und dem Ziel der Ontologie modellieren wir den Begriff und andere in der Definition vorkommende Begriffe, die für die Anwendung relevant erscheinen, wie Synonyme, Ober- oder Unterbegriffe, Abkürzungen und Übersetzungen.
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
23
Abb. 2.2 Ablauf des Modellierungsprozesses
In der Anfangsphase der Modellierung eines Thesaurus oder einer Ontologie ist es für einen Wissensingenieur recht einfach, den Überblick über das Modell zu behalten und schnell den Platz für einen neuen Begriff zu finden. Allerdings kann es schnell schwierig werden den Überblick zu behalten, insbesondere wenn die Modellierung von mehreren Personen gemeinsam durchgeführt wird. Spätestens nach ein paar tausend Begriffen ist es fast unmöglich den richtigen Platz für ein neues Konzept zu finden. Um die richtige Position für
24
T. Hoppe und R. Tolksdorf
einen Begriff zu finden, sollte das Modellierungswerkzeug daher die Suche innerhalb der Konzepte und Labels unterstützen: zum einen, um festzustellen, ob der Begriff bereits modelliert wurde und um ihn gegebenenfalls zu validieren und zu korrigieren, zum anderen, um Konzepte zu finden, die mit dem zu modellierenden Begriff verwandt sein könnten. Wenn im modellierten Thesaurus oder in der Ontologie kein verwandter Begriff oder Konzept gefunden werden kann, muss der Wissensingenieur die richtige Position im Modell finden. Dies erfordert ein Nachdenken über die Bedeutung des Begriffs. In unklaren Fällen halfen uns die folgenden Fragen dabei, die richtige Position eines Begriffs zu ermitteln: • • • • •
Was könnten Begriffe sein unter denen der Begriff zu verstehen ist? Wie würden andere diese subsumierenden Konzepte benennen? Wie würde ich sie umschreiben? In welche Kategorie von Begriffen fällt der Begriff? Ist die durch den Begriff zusammengefasste Menge von Objekten eine Obermenge eines anderen Begriffs?
Dieser Modellierungsprozess geht die Liste abwärts durch zu den weniger häufig vorkommenden Begriffen bis eine zeitliche Begrenzung, eine vorher festgelegte Anzahl von Begriffen oder eine bestimmte Schwellenhäufigkeit von Begriffen erreicht ist. Dies hilft, den Modellierungsaufwand zu begrenzen und kalkulierbar zu machen. Das entwickelte Modell hat einen definierten Zustand und kann für eine erste Bewertung im Rahmen eines Machbarkeitsnachweis oder in der Produktionsumgebung verwendet werden. Wenn es auf der Grundlage der Termhäufigkeiten von Dokumenten entwickelt wurde, passt das Modell zu den Dokumenten und somit kann eine Evaluierung des Modells und seiner Unterstützung bei der Dokumentensuche durchgeführt werden. Die Vollständigkeit einer solchen ursprünglich abgeleiteten Ontologie hängt natürlich von der Repräsentativität und Vollständigkeit der zugrundeliegenden Textdokumente bzw. von der Anzahl der Suchanfragen ab, die innerhalb eines bestimmten Zeitintervalls gestellt werden.
2.3.2 Nachfolgende Phasen Sobald der Konzeptnachweis zu einer positiven Entscheidung geführt hat mit der neuen Technologie weiterzumachen, wird die Erweiterung und Verfeinerung der modellierten Ontologie zu einer Hauptaufgabe. Dies erfordert die Erweiterung des Vokabulars und die Validierung der zuvor modellierten Konzepte. Während die Erweiterung des Vokabulars dem oben beschriebenen Prozess folgen kann, muss der Modellierungsprozess leicht modifiziert werden, um die zuvor modellierten Konzepte zu validieren. Natürlich erfolgt jede Modellierung auf der Grundlage des aktuellen Verständnisses und Wissens über die Domäne, der bereits in der Ontologie vorhandenen Konzepte und der Form oder des aktuellen Wissens der modellierenden Person. Daher kann es vorkom-
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
25
men, dass ein Wissensingenieur zu einem späteren Zeitpunkt feststellt, dass sein Verständnis eines bestimmten Begriffs noch nicht richtig war, dass der Begriff falsch interpretiert wurde, dass ein neuer Begriff eine Disambiguierung von zuvor modellierten Konzepten erfordert oder dass ein neues Oberkonzept für den neuen Begriff oder ein zuvor modelliertes Konzept eingeführt werden muss. In den nachfolgenden Modellierungsphasen sollte der Modellierer daher auch die zuvor modellierten Konzepte überprüfen und validieren und sie gegebenenfalls korrigieren. Für diese Aufgabe dienen die zuvor kategorisierten Begriffe als Einstiegspunkte für die Validierung. Während Begriffe, die als zu modellieren (+) markiert sind, natürliche Einstiegspunkte für die Validierung und Korrektur der Konzepte der Begriffsumgebung sind, d. h. Synonyme, Ober-, Unter- und andere direkt verwandte Konzepte, sind als unklar (?) markierte Begriffe natürliche Wiedereinstiegspunkte für die Wiederaufnahme der Recherche und die Überprüfung ihrer Bedeutung. Obwohl eine solche Validierung der aktuell verfügbaren Ontologie auch von einer unabhängigen zweiten Person (nach dem Vier-Augen-Prinzip) durchgeführt werden könnte, führt dies in der Regel zu einem zusätzlichen Kommunikationsaufwand, da Modellierer und Validierer ein gemeinsames Verständnis ermitteln und sich darauf einigen müssen.
2.3.3 Verbreiterungsphase Manchmal kann es vorkommen, dass eine modellierte Ontologie für einen anderen Anwendungsbereich übernommen werden muss oder dass das Ziel einer semantischen Anwendung, die die Ontologie verwendet, erweitert wird. In diesen Situationen können neue kategorielle Konzepte wichtig werden und eine ganze Kategorie neuer Begriffe muss modelliert werden, z. B. wenn eine Ontologie für medizinische Diagnosen in einer Anwendung für medizinische Behandlungen wiederverwendet werden soll, oder wenn ein The saurus zur Unterstützung der Stellensuche für eine Suche nach Weiterbildungsangeboten übernommen werden soll, wie es beim Thesaurus von Ontonym der Fall war. In diesen Fällen muss die Ontologie natürlich um entsprechende Konzepte erweitert werden. Da die Konzepte dieser neuen Konzeptkategorien wahrscheinlich noch nicht in der Ontologie vorhanden sind, muss für sie ein ganzer Konzeptzweig eröffnet werden, und gegebenenfalls müssen die neuen Konzepte mit anderen, bereits modellierten Konzepten in Beziehung gesetzt werden.
2.3.4 Vergleich mit anderen Modellierungsmethoden Zu dem Zeitpunkt, als wir mit der Modellierung des HR-Thesaurus begannen, waren bereits eine Reihe von Modellierungsmethoden ausgearbeitet und beschrieben worden, wie Methontology, On-To-Knowledge, HCOME, DILIGENT, RapidOWL und COLM [5]. Diese Methoden wurden von einem akademischen Standpunkt aus abgeleitet und orien-
26
T. Hoppe und R. Tolksdorf
tierten sich oft an bekannten Softwareentwicklungsmethoden. Die meisten dieser Methoden zur Modellierung von Ontologien wurden im akademischen Umfeld entwickelt und eingesetzt, nur wenige von ihnen wurden in einem Unternehmenskontext getestet. Alle beschreiben zwar Prozessmodelle für die Modellierung von Ontologien, aber im Allgemeinen geben sie keine Antwort auf die Fragen: „Woher bekommt man die Fachbegriffe für die zu modellierenden Konzepte?“ und „Wie kann man bei der Modellierung effektiv vorgehen?“. Daher kann unser Ansatz als eine pragmatische Fortsetzung oder Erweiterung dieser Methoden betrachtet werden. Einige von ihnen sind für die verteilte kollaborative Modellierung durch eine Reihe von Personen (mit unterschiedlichen Fähigkeiten) konzipiert. Obwohl dies im Allgemeinen wünschenswert ist, um ein gemeinsames Verständnis der benötigten Begriffe zu erreichen, ist dies für die erste Phase der Ontologiemodellierung in der Regel zu kostspielig, da die Ontologie und die darauf basierende Anwendung ihren Nutzen erst beweisen müssen. Daher ist in der ersten Phase ein schlanker Ansatz wie der unsere vorzuziehen, dem später eine kollaborative und gegebenenfalls verteilte Modellierungsmethodik folgt. Unser pragmatischer Modellierungsansatz hat eine enge Beziehung zu COLM, da einer der Autoren von [5], Ralf Heese, einer unserer Partner bei Ontonym, auch an den frühen Phasen der Modellierung und der Entwicklung unseres Ansatzes beteiligt war.
2.4 Vom Thesaurus zur Ontologie Aus historischer Sicht scheinen Thesauri und Ontologien unvereinbare Methoden zur Wissensdarstellung zu sein. Thesauri wurden ursprünglich im Bereich der Bibliotheks- und Informationswissenschaft entwickelt, um Textdokumente innerhalb eines Fachgebiets von Menschen mit Begriffen aus einem kontrollierten Vokabular zu indexieren. Sie unterscheiden lediglich zwischen Oberbegriffen und Unterbegriffen, Synonymen, Antonymen, verwandten Begriffen, bevorzugten, alternativen und verborgenen Bezeichnungen, ohne diese Begriffe formal zu definieren. Ontologien wurden auf dem Gebiet der Informatik, der künstlichen Intelligenz und der Wissensrepräsentation entwickelt, um Beschreibungen der Welt für Schlussfolgerungen logisch zu formalisieren. Eine Erweiterung der bekannten Definition [6] definiert eine Ontologie als „eine formale, explizite Spezifikation einer gemeinsamen Konzeptualisierung“ [7]. Diese Definition impliziert, dass eine Ontologie auf einem Wissensrepräsentationsformalismus basiert. Forschungen auf dem Gebiet der Wissensrepräsentation haben ergeben, dass solche Formalismen eine klare, formale Semantik benötigen, um gültige Schlussfolgerungen über die Welt zu ziehen und präzise Aussagen über die Komplexität der Schlussfolgerungen verschiedener Sprachuntergruppen und ihrer Inferenzfähigkeiten abzuleiten [8]. Obwohl beide Arten von Formalismen unvereinbar zu sein scheinen, ermöglicht die disziplinierte Modellierung eines Thesaurus den Übergang von einem rein menschenzentrierten Ansatz der Wortschatzstrukturierung zu einem formal fundierten Ansatz der Wissensrepräsentation. Dies setzt voraus, dass jeder in einem Thesaurus modellierte Begriff
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
27
nicht nur als Repräsentant eines von Menschen verwendeten Sprachkonstrukts, sondern auch als Repräsentant einer Klasse (oder Menge) von Objekten betrachtet werden sollte.
2.4.1 Unser Ansatz Unser übergeordnetes Ziel war die Entwicklung einer Domänenontologie für den Personalbereich. Es war jedoch von Anfang an klar, dass die Entwicklung einer neutralen, vollständigen, logisch konsistenten Ontologie, die alle unterschiedlichen Sichtweisen auf den Bereich erfasst und für eine breite Palette von – noch unbekannten – Anwendungen anwendbar ist, extreme Anstrengungen erfordern und sehr teuer sein würde. Ohne jegliche Rechtfertigung würde niemand eine solche Investition riskieren. Wir hatten jedoch im Hinterkopf, dass wir eines Tages auf ein Kundenproblem stoßen könnten, bei dem eine solche Ontologie benötigt wird. Aus den Erfahrungen des ersten Autors bei T-Systems war auch klar, dass eine semantische Suche, die auf einer leichtgewichtigen Wissensrepräsentation basiert, die Nutzer unterstützen kann, wenn sie deren Sprachgebrauch berücksichtigt, Synonyme „versteht“ und spezifischere und verwandte Begriffe verwendet, um die Suchergebnisse zu erweitern. Anstatt mit der Entwicklung einer vollwertigen Ontologie ins Blaue zu schießen, haben wir daher mit der Entwicklung eines HR-Thesaurus begonnen. Um jedoch einen späteren Übergang zu einer HR-Ontologie zu ermöglichen, haben wir den Thesaurus unter den folgenden Rahmenbedingungen entwickelt: • • • •
Der Repräsentationsformalismus sollte die Modellierung von Ontologien ermöglichen. Der Repräsentationsformalismus sollte standardisiert sein. Die Entwicklung sollte durch frei verfügbare Tools unterstützt werden. Die Metakonzepte von Thesauri sollten in Bezug auf die verwendeten Ontologieformalismen formuliert werden.
Als wir mit der Modellierung begannen, war SKOS [9] noch nicht fertiggestellt, so dass wir uns für OWL als Repräsentationsformalismus [10] und Protégé [11] als Modellierungswerkzeug entschieden.
2.4.2 Leitlinien für die Modellierung Um einen späteren Übergang vom Thesaurus zu einer Ontologie zu ermöglichen, haben wir die folgenden Modellierungsrichtlinien für unsere semantische Suche aufgestellt: 1. Substantive sind die „Bürger erster Klasse“ im Thesaurus. 2. Jeder Thesaurusbegriff sollte eine Menge von Objekten bezeichnen und daher als Konzept, d. h. als OWL-Klasse, repräsentiert werden.
28
T. Hoppe und R. Tolksdorf
3. Die Konzeptsubsumtion des Repräsentationsformalismus sollte zur Darstellung der Breiter/Enger-Relation des Thesaurus verwendet werden. Daher müssen andere Relationen, die oft als Breiter/Enger-Relationen repräsentiert werden (z. B. Meronomien), anders repräsentiert werden (siehe 10. unten). Die Konzeptsubsumtion bildet eine Konzepthierarchie als gerichteter azyklischer Graph. 4. Die Konzepte der Konzepthierarchie sollten die bevorzugten Bezeichnungen eines Konzeptrepräsentieren, um ein kontrolliertes Vokabular zu schaffen. Diese Konzepte werden als kanonische Konzepte bezeichnet. 5. Bevorzugte Bezeichnungen eines Konzepts werden als Bezeichnungen (RDF-Label) der kanonischen Konzepte repräsentiert (nicht-bevorzugte Bezeichnungen werden entweder als Synonyme (siehe 6.), verborgene Bezeichnungen (siehe 9.) oder als Abkürzungen (siehe 12.) repräsentiert). 6. Synonymbeziehungen stellen Äquivalenzen zwischen Begriffen dar. Daher werden Synonyme als äquivalente Konzepte unter Verwendung der OWL-Äquivalenzklasse eines kanonischen Konzepts repräsentiert. Diese äquivalenten Konzepte werden als Synonyme gekennzeichnet (entweder durch eine boolesche Dateneigenschaft oder durch Subsumtion unter einem Konzept „Synonym“ einer Anwendungsontologie), um sie von den kanonischen Konzepten zu unterscheiden. 7. Andere synonyme Bezeichnungen eines Begriffs werden als alternative Bezeichnungen oder Bezeichnungen äquivalenter Konzepte repräsentiert. 8. Ein Sprachkennzeichnung, das an einer Bezeichnung angebracht ist, wird verwendet, um Übersetzungen des Begriffs in der angegebenen Sprache darzustellen. Bezeichnungen ohne Sprachkennzeichen stehen für Begriffe, die in allen Sprachen gleich sind. 9. Verborgene Bezeichnungen werden als synonyme Konzepte repräsentiert. Das entsprechende Konzept wird als „unsichtbar“ gekennzeichnet (entweder durch eine boolesche Dateneigenschaft oder durch Subsumtion unter ein Konzept „Hidden“ einer Anwendungsontologie). Verborgene Bezeichnungen dienen lediglich der Identifizierung und Zuordnung von ungewöhnlichen Begriffen oder häufigen Schreibfehlern zum kontrollierten Vokabular, das durch die kanonischen Konzepte repräsentiert wird. 10. Verwandte Begriffe werden durch eine allgemeine gerichtete Objekteigenschaft (genannt „related_to“) dargestellt, die das entsprechende Konzept mit einem anderen Konzept in Beziehung setzt. Eine allgemeine symmetrische Objekteigenschaft (genannt „sym_related“) wird als praktische Abkürzung verwendet, um automatisch zwei gerichtete „related_to“-Beziehungen zwischen zwei Konzepten herzustellen. 11. Die obersten kategoriellen Konzepte werden als „kategoriell“ gekennzeichnet (entweder durch eine boolesche Dateneigenschaft oder durch Subsumtion unter ein Konzept „Kategorie“ einer Anwendungsontologie). 12. Abkürzungen werden als synonyme Konzepte dargestellt. Das entsprechende Konzept wird unter einem Konzept „Abkürzung“ einer Anwendungsontologie subsumiert. Analog zu den verborgenen Bezeichnungen werden sie verwendet, um Abkürzungen zu identifizieren und den kanonischen Konzepten zuzuordnen.
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
29
2.4.3 Modellierung von Mustern Neben den üblichen Ober- und Unterbegriffsrelationen, die zur Darstellung eines kontrollierten Vokabulars in Form von Thesaurus-Begriffsrelationen verwendet werden, wurden die Leitlinien um einige Modellierungsmuster erweitert, die wir zur Vereinfachung einiger Verarbeitungsaufgaben im Rahmen der semantischen Suche für nützlich erachtet haben. Synonyme werden als äquivalente Begriffe eines bestimmten kanonischen Begriffs dargestellt Dies ermöglicht zum einen die Zusammenstellung einer Hash-Tabelle für die Zuordnung von Synonymen zum kontrollierten Vokabular, die bei der Dokumentenanalyse zum schnellen Nachschlagen verwendet werden kann. Andererseits kann die logische Konsistenz der Ontologie mit Hilfe von Techniken der Beschreibungslogik überprüft werden. Beziehungen werden durch eine allgemeine Objekteigenschaft „related_to“ dargestellt, um gerichtete Beziehungen zwischen Konzepten herzustellen Diese Objekteigenschaft kann verwendet werden, um Beziehungen zwischen Konzepten herzustellen, die keine Ober-/Unterbegriffsbeziehung darstellen, wie z. B. „Teil von“-Meronomien, „siehe auch“-Relationen oder andere domänenabhängige Beziehungen. Sie wird verwendet, um Beziehungen zwischen Konzepten durch Einschränkungen des Wertebereichs zu repräsentieren. Diese Beziehungen sind besonders interessant, wenn eine Suchanwendung sie in „umgekehrter Reihenfolge“ verwendet. Wenn wir z. B. eine Assoziation einführen, dass Krankenschwestern in der Regel in Beziehung zu einem Krankenhaus stehen, d. h. „Krankenschwester related_to some Krankenhaus“ (in der Manchester- Notation der Beschreibungslogik [12]), dann ist es durchaus sinnvoll, dass eine Stellensuche Ergebnisse liefert, die den Begriff „Krankenschwester“ enthalten, wenn der Benutzer nach „Krankenhaus“ sucht. Die Rückgabe von Ergebnissen, die den Begriff „Krankenhaus“ enthalten, ist jedoch für eine Suche nach „Krankenschwester“ wahrscheinlich unangemessen, da letzterer in gewisser Weise spezifischer ist. In diesem Sinne werden die Objekteigenschaften in umgekehrter Reihenfolge verwendet. Darstellung von mehrdeutigen Begriffen Bei der Modellierung haben wir zwei Formen von mehrdeutigen Begriffen festgestellt: Entweder haben zwei verschiedene Begriffe ein gemeinsames Unterkonzept oder ein Begriff wird für zwei verschiedene Konzepte verwendet. Ersteres tritt in der Regel auf, wenn zwei verschiedene Begriffe verwendet werden, um zwei unterschiedliche Perspektiven desselben Begriffs zu beschreiben, z. B. ist eine „Offshore-Windkraftanlage“ sowohl eine „Windkraftanlage“ als auch eine „Offshore- Anlage“. Wenn diese allgemeineren Begriffe gesucht werden, verursacht diese Art von Mehrdeutigkeit in der Regel keine Probleme. Die letztere Art von Mehrdeutigkeit tritt auf, wenn ein Begriff (z. B. eine Abkürzung) für zwei verschiedene Begriffe verwendet wird, z. B. die Abkürzung „PR“ für „Public Relations“ und „Progressive Relaxation“ als Synonym für „Progressive Muskelentspannung“, eine therapeutische Entspannungstechnik,
30
T. Hoppe und R. Tolksdorf
oder „PDMS“, das sowohl für „Patient Data Management System“ als auch für „Product Data Management System“ steht. Diese letztgenannten Mehrdeutigkeiten können durch die Einführung eines Konzepts für Abkürzungen auf „Anwendungsebene“ aufgelöst werden, das diese mehrdeutigen Abkürzungen enthält und die Suche nach beiden Interpretationen ermöglicht, wenn die Abkürzung gesucht wird.
2.4.4 Verfeinerung des Thesaurus zu einer Ontologie Den obigen Leitlinien folgend, werden die meisten konzeptionellen Komponenten eines Thesaurus bereits in den ausdrucksstärkeren Darstellungsformalismus einer Ontologie abgebildet. Für den Übergang von einem Thesaurus zu einer Ontologie könnten diese Definitionen natürlich noch durch die Einführung von Bereichs- und Anzahlbeschränkungen, durch Negation, Disjunktivität oder Vollständigkeitsaussagen erweitert werden. Neben diesen Verfeinerungen, die die Definition von Konzepten betreffen, kann die Relation „related_to“ durch spezialisierte Unterrelationen, die natürlich noch definiert werden müssen, weiter verfeinert werden, um sie in Definitionen mit genaueren Bedeutungen zu ersetzen. Da die „related_to“-Relation verwendet wird, um allgemeine Beziehungen zwischen Konzepten herzustellen, indem die Relation als primitive Konzeptdefinition der Form „related_to some TargetConcept“ (Manchester-Notation) angegeben wurde, kann sie genutzt werden, um die Konzepte schnell zu identifizieren, die durch speziellere Relationen beschrieben werden müssen. Technisch ist die Verfeinerung des Thesaurus zu einer Ontologie also recht einfach, wenngleich sie noch weitere Anstrengungen erfordern kann.
2.5 Erfahrungen Von 2008 bis 2013 befand sich der HR Thesaurus in aktiver Entwicklung. Seitdem ging er langsam vom Entwicklungs- in den Wartungsmodus über. Während dieser Zeit und über seine Nutzung für die Realisierung verschiedener semantischer Suchanwendungen haben wir einige praktische Erfahrungen gesammelt, die Wert sind geteilt zu werden.
2.5.1 Modellierungsaufwand Während der gesamten Entwicklungs- und Wartungszeit des Thesaurus haben wir den Modellierungsaufwand kontinuierlich erfasst, indem wir die Anzahl der modellierten Begriffe pro Stunde gemessen haben. Da die gesamte Modellierung, wie in Abschn. 2.3.1.2 beschrieben, auf Schlagwortlisten basierte, war es einfach, modellierte Begriffe zu markieren, die für die Modellierung aufgewendeten Stunden zu erfassen, die modellierten Be-
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
31
griffe zu zählen und die Gesamtzahl der Stunden zusammenzufassen. Es ist anzumerken, dass während der Modellierung eines Begriffs zusätzliche Beziehungen zu anderen Begriffen modelliert wurden, um den Begriff richtig zu definieren. Die aufgezeichnete Zeit umfasst die Überprüfung, Validierung und, falls erforderlich, die Korrektur von zuvor modellierten Begriffen sowie die Zeit für gelegentliche Hintergrundrecherchen zur Bedeutung des Begriffs. Unsere Erfahrung hat gezeigt, dass es ohne detaillierte und umfassende Hintergrundrecherche zur Bedeutung von Begriffen möglich ist, durchschnittlich 20–30 Begriffe pro Stunde zu modellieren. Hintergrundrecherche bedeutet hier, gemäß der rechten Seite von Abb. 2.2, gelegentlich eine Google-Suchanfrage zu stellen, wenn die Bedeutung des Begriffs unbekannt oder unklar ist, die erste von Google zurückgegebene Ergebnisseite zu inspizieren und bei Bedarf eine Webseite, auf die von dieser Ergebnisseite aus verwiesen wird, um eine allgemeine Definition des gesuchten Begriffs zu finden. Streng genommen gilt dieser empirisch gefundene Wert nur für den Anwendungsbereich des HR-Thesaurus. Wir sind jedoch der Auffassung, dass er nicht von der Domäne selbst abhängt, sondern von der Aufgabe und der Anwendung, d. h. von der Unterstützung des Suchprozesses durch Berücksichtigung des Sprachgebrauchs der Nutzer, für den der Thesaurus erstellt wurde. Interessanterweise blieb die Anzahl der pro Stunde modellierten Begriffe während des gesamten Entwicklungszeitraums recht stabil. Allerdings mussten wir auch feststellen, dass die Anzahl der zu modellierenden Begriffe im Laufe der Zeit abnahm und dass mehr Zeit für die Validierung und Korrektur bereits modellierter Konzepte benötigt wurde. Auf den ersten Blick erscheinen 20–30 Begriffe pro Stunde recht wenig. Die Modellierung von 4000 Begriffen, d. h. eines mittelgroßen Thesaurus, würde also 20 Tage Arbeitszeit erfordern. Die Modellierung des gesamten HR-Thesaurus hat uns insgesamt 3 Monate Arbeitszeit gekostet, verteilt auf 6 Jahre mit einigen Phasen umfangreicher Erweiterungen. Wenn Sie diesen empirisch gemessenen Aufwand mit den internen Kosten Ihres Unternehmens kombinieren, erhalten Sie eine Schätzung, wie teuer die Modellierung Ihrer Terminologie sein könnte. Betrachten Sie diese Kosten jedoch nicht isoliert. Setzen Sie sie stattdessen in Relation zu den Kosten für den manuellen Aufbau einer gleich großen Datenbank oder für die Entwicklung eines Programms mit der gleichen Anzahl von Codezeilen, und es wird deutlich, dass die Modellierung nicht teurer ist als herkömmliche Datenbank- oder Softwareentwicklung.
2.5.2 Bedeutungstragende Begriffe Eine interessante Erkenntnis unserer Textanalysen und der Modellierung war, dass bestimmte Substantive und Nominalphrasen für einen bestimmten Anwendungsbereich wenig Information tragen und sich daher ihre Modellierung nicht lohnt. Wie bereits erläutert, können in jedem Anwendungsbereich wichtige Begriffskategorien identifiziert werden. Begriffe, die in diese Kategorien fallen, sind erstklassige Kandi-
32
T. Hoppe und R. Tolksdorf
daten für die Modellierung in Suchanwendungen, da die Benutzer nach ihnen suchen werden. Wir nennen diese Begriffe bedeutungstragende Begriffe, da sie für die Dokumentensuche am informativsten sind. Bei diesen Begriffen handelt es sich häufig um Substantive und Nominalphrasen. Substantive und Nominalphrasenkönnen mit computerlinguistischen Text-Engineering- Methoden und -Werkzeugen recht einfach identifiziert werden (siehe z. B. Abschn. 5.2). Die abgeleiteten Schlagwortlisten bestehen jedoch oft aus einer Mischung solcher bedeutungstragenden Begriffe und anderer Nominalphrasen, die weniger Informationen für eine bestimmte Anwendung enthalten, aber in den analysierten Dokumenten häufig vorkommen. Während z. B. in Abschn. 5.4.1 die meisten Begriffe, die mit dem Begriff „Compliance“ vorkommen, bedeutungstragend sind, sind die Begriffe „Groß“, „Fragen“, „Rahmen“, „Jahr“ oder „Dauer“ sehr allgemeiner Natur und nicht an den jeweiligen Anwendungsbereich gebunden. Andere Beispiele für solche allgemeinen Begriffe, die in einer Anwendungsdomäne wenig Information tragen, sind „Objekt“, „Anfang“, „Ende“, „Mitte“, „Eigenschaft“, „Prozess“, „Sache“, „Klasse“. Aus Sicht der Wissensrepräsentation handelt es sich dabei um allgemeine Begriffe oder Konzepte, die häufig in sogenannten „Upper-Ontologies“ oder „Top-Level-Ontologien“ [13] definiert sind. Aus Sicht von Anwendungen wie der semantischen Suche enthalten sie zu wenig Information, um für Benutzer von Interesse zu sein. Um den Modellierungsprozess zu vereinfachen, wäre es natürlich sehr nützlich, wenn wir nur die wirklich bedeutungstragenden Begriffe identifizieren und solche allgemeinen Begriffe wie Stoppwörter ignorieren könnten. Der einzige Ansatz, der uns derzeit bekannt ist, um bedeutungstragende Begrifffe zu identifizieren, besteht darin, zu entscheiden, ob sich ihre relativen Häufigkeiten signifikant von ihrer Häufigkeit in einem allgemeinen Korpus unterscheiden. Dies lässt jedoch eine Frage offen: „Welcher Vergleichsdomäne/ Korpus sollte verwendet werden?“
2.5.3 Toleranz bei der Rechtschreibung In verschiedenen Suchanwendungen, die von Intranet-Suchmaschinen, Jobportalen für Ingenieure, Suchmaschinen für Jobs und Weiterbildungen für Arbeitnehmer bis hin zu einer Suchanwendung für Kinder zwischen 6 und 15 Jahren für einen Fernsehsender reichen, stellten wir fest, dass die Benutzer eine Menge Tipp- und Rechtschreibfehler machten. Während einfache Fehler wie Einfügung, Auslassung, Verwechselung und Vertauschung von Zeichen recht leicht zu erkennen sind und in einfachen Fällen automatisch korrigiert werden können, mussten wir unsere Suchfunktion durch spezifische Lösungen für Rechtschreibfehler bei zusammengesetzten deutschen Begriffen, Fremdwörtern und Namen erweitern. Im Deutschen ist es recht einfach, neue Ausdrücke durch zusammengesetzte Begriffe zu bilden, die aus einer Reihe von Grundbegriffen bestehen. Die Regeln für die Verbin-
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
33
dung dieser Grundbegriffe sind jedoch nicht einfach, und die Benutzer neigen dazu, Fehler zu machen, indem sie entweder Begriffe verbinden, die durch einen Bindestrich getrennt werden sollten, oder indem sie Begriffe trennen, die mit einem Bindestrich oder einem Leerzeichen zusammengeschrieben werden sollten. Um mit allen Kombinationen dieser Fehler fertig zu werden, haben wir einen Ansatz entwickelt, bei dem alle möglichen Fehlerkombinationen als verborgene Bezeichnungen generiert werden, um diese fehlerhaften Schreibvarianten auf das korrekte Konzept des kontrollierten Vokabulars abzubilden. Darüber hinaus haben wir bei einer Suchanwendung für einen deutschen Fernsehsender festgestellt, dass nicht nur Kinder, sondern auch Erwachsene Probleme mit der korrekten Schreibweise von fremdländischen Bezeichnungen haben. Für diese Anwendung haben wir zusätzlich eine phonetische Kodierung verwendet, um verschiedene phonetische Schreibweisen in das kontrollierte Vokabular abzubilden.
2.5.4 Mut zur Unvollkommenheit Unser inkrementeller Modellierungsansatz ist recht speziell und natürlich nicht für jede Anwendung geeignet. Der Ansatz selbst basiert auf der Anforderung, dass der Thesaurus so bald wie möglich in Betrieb genommen wird, um das Modell, das er repräsentiert, zu validieren, um neue Begriffe von den Nutzern während des Betriebs zu erwerben und um hohe Modellierungskosten zu Beginn zu vermeiden und sie stattdessen über die Lebensdauer des Modells zu verteilen. Dieser Ansatz erfordert also eine gehörige Portion Mut auf Seiten des Suchmaschinenbetreibers, um die zeitweise Unvollkommenheit des Modells zu ertragen und zu reagieren, wenn sich die Nutzer beschweren. Natürlich sind anfangs Beschwerden und Anfragen wie „warum eine bestimmte Information mit einer bestimmten Suchanfrage nicht gefunden werden konnte“ unvermeidlich und erfordern kurze Reaktionszeiten zur Behebung dieser Fehler. Die meisten dieser Anfragen kommen von Dokumentenanbietern, die überprüfen, ob ihre Dokumente gefunden werden können. Wir haben jedoch festgestellt, dass die Anzahl solcher Anfragen recht gering bleibt und mit der Zeit abnimmt, wenn sich das Modell weiterentwickelt. Unseren Kunden liegen keine Berichte über Beschwerden von Nutzern vor, dass gesuchte Informationen nicht gefunden werden konnten. Dies hängt wahrscheinlich mit der Unwahrnehmbarkeit der Informationen zusammen, die von der Suchmaschine indiziert werden.
2.6 Empfehlungen Oft haben wir von Praktikern im Bereich der semantischen Technologien gehört, dass die Entwicklung einer Ontologie zu kompliziert, zu teuer, zu aufwändig usw. ist, was sie dazu veranlasst, von der Verwendung handgefertigter Ontologien auf verfügbare verknüpfte offene Daten (Linked Open Data) umzusteigen. Für eine große Anzahl von Anwendungen
34
T. Hoppe und R. Tolksdorf
decken die verfügbaren verlinkten offenen Datenquellen jedoch die Terminologie des jeweiligen Bereichs nicht vollständig ab, und was noch problematischer ist: Sie decken nicht den Sprachgebrauch der Nutzer ab. Obwohl die Modellierung einer Ontologie häufig von den Entwicklern eines Systems vorgenommen wird, ist dies offensichtlich nicht ihre Aufgabe. Daher erscheint es vernünftig, dass sie die Modellierung von Thesauri oder Ontologien als zu aufwändig abtun und stattdessen auf Datenquellen ausweichen, die automatisch verarbeitet werden können. Es gibt jedoch Bibliotheks- und Informationswissenschaftler, deren Beruf es ist, terminologische Arbeit zu leisten, die darauf vorbereitet und ausgebildet sind, diese Art von intellektueller Arbeit zu leisten. Häufig ist die Entwicklung einer korrekten, vollständigen oder konsistenten Ontologie für eine Suchanwendung nicht erforderlich. Wenn die Ontologie 80 % der am häufigsten verwendeten Begriffe eines Fachgebiets abdeckt, kann bereits eine große Zahl von Nutzern von den Bemühungen um die Modellierung der Terminologie des Anwendungsgebiets profitieren. Wenn eine pragmatische Entwicklungsmethode gewählt und die Ontologie so früh wie möglich in Betrieb genommen wird, können die aus dem Betrieb abgeleiteten Daten außerdem dazu genutzt werden, den Engpass bei der Erfassung wichtiger und relevanter Begriffe zu erweitern. Wie unsere Erfahrung gezeigt hat, ist der Zeitaufwand für die Modellierung nicht unerschwinglich, sondern erfordert lediglich Geduld und Zeit für die Sammlung der Begriffe. Daher lautet unsere wichtigste Empfehlung neben der Überlassung der terminologischen Arbeit den Experten der Bibliotheks- und Informationswissenschaft und der Annahme eines inkrementellen Rahmens, der die benötigten Begriffe liefert, mit einem einfachen Modell zu beginnen, seine Nützlichkeit zu zeigen, es später zu erweitern und nicht von Anfang an zu versuchen, Perfektion zu erreichen. Stattdessen sollte man versuchen, eine fehlertolerante Umgebung für die Erweiterung des Modells zu schaffen.
Literatur 1. Hoppe T (2013) Semantische Filterung – Ein Werkzeug zur Steigerung der Effizienz im Wissensmanagement. Open Journal of Knowledge Management VII/2013, online under: Community of Knowledge. http://www.community-of-knowledge.de/beitrag/semantische-filterung-ein- werkzeug-zur-steigerung-der-effizienz-im-wissensmanagement/. Zugegriffen am 02.11.2017 2. Robinson PN, Schulz MH, Bauer S, Köhler S (2011) Methods for searching with semantic similarity scores in one or more ontologies. US Patent US 2011/0040766 A1, filed 13 Aug 2009, published 17 Feb 2011 3. Schulz MH, Bauer S, Köhler S, Robinson PN (2011) Exact score distribution computation for ontological similarity searches. BMC Bioinformatics 12:441. https://doi.org/10.1186/1471-2105- 12-441. Zugegriffen am 02.11.2017 4. Hoppe T (2015) Modellierung des Sprachraums von Unternehmen. In: Ege B, Humm B, Reibold A (Hrsg) Corporate Semantic Web – Wie semantische Anwendungen in Unternehmen Nutzen stiften. Springer, Berlin
2 Leitfaden für die pragmatische Modellierung von Ontologien im …
35
5. Luczak-Rösch M, Heese R (2009) Managing ontology lifecycles in corporate settings. In: Schaffert S et al (Hrsg) Networked knowledge – networked media, SCI 221. Springer, Heidelberg, S 235–248 6. Gruber TR (1993) A translation approach to portable ontologies. Knowl Acquis 5(2):199–220. Academic Press 7. Studer R, Benjamins VR, Fensel D (1998) Knowledge engineering: principles and methods. Data Knowl Eng 25:161–197 8. Baader F, Calvanese D, McGuinness DL, Nardi D, Patel-Schneider PF (2003) The description logic handbook. Cambridge University Press, Cambridge 9. W3C. SKOS Simple Knowledge Organization System. https://www.w3.org/2004/02/skos/. Zugegriffen am 02.11.2017 10. W3C. OWL 2 Web Ontology Language document overview, 2nd edn. https://www.w3.org/TR/ owl2-overview/. Zugegriffen am 02.11.2017 11. Protégé. A free, open-source ontology editor and framework for building intelligent systems. https://protege.stanford.edu/. Zugegriffen am 02.11.2017 12. Horridge M, Drummond N, Goodwin J, Rector A, Stevens R, Wang HH. The Manchester OWL syntax. http://ceur-ws.org/Vol-216/submission_9.pdf. Zugegriffen am 02.11.2017 13. Herre H, Uciteli A (2015) Ontologien für klinische Studien. In: Ege B, Humm B, Reibold A (Hrsg) Corporate Semantic Web – Wie semantische Anwendungen in Unternehmen Nutzen stiften. Springer, Berlin
3
Compliance mit Metadaten Rigo Wenning und Sabrina Kirrane
Kernaussagen
1. Von Compliance – Regeln betroffene Arbeitsabläufe sollten in einem Register der Prozeduren explicit gemacht werden (z. B. Abläufe nach Art. 30 DSGVO). 2. Compliance – Anforderungen müssen nun als Linked Data modelliert werden, um sie als Metadaten maschinenlesbar zu machen. 3. Die erhobenen Daten werden müssen mit den korrespondierenden Metadaten verknüpft werden. Dies kann über Daten – Annotation oder direkte Linked data Verbindungen geschehen. Es entsteht ein semantischer Data lake. 4. Daten und Metadaten werden gleichzeitig abgefragt. Dadurch erfasst die Zielmenge der Suche nur solche Daten, die den regulatorischen Compliance – Vorgaben entsprechen und verwendet werden können. 5. Der Vorgang der Verarbeitung wird einschließlich der beachteten Einschränkungen in den semantischen Data lake zurück geschrieben und und mit geeigneten Maßnahmen (z. B. Blockchain) gesichert. Es könne so on-demand Compliance – Daten zur Verfügung gestellt werden.
R. Wenning (*) European Research Consortium for Informatics and Mathematics (GEIE ERCIM), Sophia Antipolis, Frankreich E-Mail: [email protected] S. Kirrane Wirtschaftsuniversität Wien, Wien, Österreich E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_3
37
38
R. Wenning und S. Kirrane
3.1 Ein zunehmender Bedarf an Werkzeugen für Compliance Die Digitalisierung aller Aspekte unseres Lebens führt zur Entstehung sehr komplexer Systeme. Je komplexer die Systeme werden, desto schwieriger wird es für den Menschen die Systeme zu verstehen. Milliarden von Menschen hinterlassen Spuren durch Online- Aktivitäten. Andere Systeme vermessen unsere Umwelt auf vielfältige Art. Die steigende Anzahl von Sensoren erzeugt immer größere Datenmengen. Die online – Kommunikation hat unsere Gesellschaft verändert und die Entstehung neuer komplexer sozialer Modelle erlaubt. Die Open-Source-Bewegung kann als Beispiel herangezogen werden. Erst durch das Internet und das Web wurde der Aufbau von für das Open-Source-Ökosystem notwendigen komplexen Verwaltungsstrukturen möglich [1]. Soziale Netzwerke, Surfgewohnheiten und andere Online-Interaktionen werden aufgezeichnet, was ebenfalls zu riesigen Datenmengen führt. Wegen der hohen Erfassungsgeschwindigkeit, der enormen Datenvielfalt und dem hohen Datenvolumen spricht man von den drei Big-Data-Eigenschaften (die 3 „V“: Velocity, Variety, Volume). Einige Akteure sind versucht, die Intransparenz dieser komplexen Systeme zu missbrauchen. Dies geschieht z. B., indem Daten auf undurchsichtige Weise gesammelt werden oder einfach von Informationen aus den Übertragungsprotokollen profitiert wird. Diese Daten werden dann durch Zweitverwertung zu Geld gemacht. Das Internet hat in dieser Hinsicht insgesamt grundlegende technische Schwachstellen. Das bedrohlichste Beispiel ist sicherlich die allgegenwärtige Überwachung des gesamten Internetverkehrs durch die NSA und das GCHQ [2]. Auch die Privatwirtschaft sammelt aktiv und massiv Verhaltensprofile online,was auch als „Tracking“ bezeichnet wird. Ein kurzfristiger Vorteil, wie die kostenlose Nutzung eines Online-Dienstes, wird angeboten um so Menschen zielgerichtet auszuspähen. Die Menschen sind sich der langfristigen Gefahren der erstellten Profile oft nicht bewusst. Die so entstandenen Profile von Personen werden an den Meistbietenden zu verkauft. Ganze Plattformen und Toolchains werden geschaffen und kostenlos zur Verfügung gestellt, um auszuspähen und solche Profile zu erstellen. Man spricht von Überwachungsökonomie [3], weil die Preise für durch Profile auf eine Person zielgerichtete Werbung (Online Behavioural Advertisement oder OBA) wesentlich höhere Einnahmen erzielt als normale Werbebanner. Betrügerisches und manipulatives Verhalten in komplexen Systemen beschränkt sich nicht auf das Ausspähen von Kommunikation. Die jüngsten Skandale haben gezeigt, dass durch die Manipulation eines komplexen IT-Systems enorme Vorteile entstehen können. Ein Beispiel aus der Finanzbranche ist der Libor-Skandal [4]. Ein Index, der zur Berechnung von Zinsen verwendet wird, wurde so manipuliert, dass bestimmte Zinsschwankungen enstanden, die in Gewinnabsicht genutzt werden konnten. Im Bereich Automotive ist es der Dieselskandal, wo versteckte Funktionen erkannten wann sich das Auto in einem Testzyklus befindet, und die Eigenschaften des Motors so veränderten, dass die strengen Vorschriften eingehalten wurden ohne sich daran im Alltag zu halten.1 Auch bekannt als der Dieselskandal bei Volkswagen, aber viele Hersteller sind darin verwickelt.
1
3 Compliance mit Metadaten
39
Die Kombination von komplexen und intransparenten Systemen mit Manipulationen untergräbt das Vertrauen der Menschen in diese Systeme. Dies gilt insbesondere dann, wenn Medien mit ihrem Hunger nach Einschaltquoten und Aufmerksamkeit reißerisch über diese Themen berichten. Eine Verifizierung der hochkomplexen Systeme durch die Nutzer ist schwierig bis unmöglich. Infolgedessen werden Menschen zurückhaltender bei der Nutzung dieser komplexen Systeme. Wenn sie die Möglichkeit haben, die Nutzung der Systeme zu vermeiden, werden sie dies aufgrund des mangelnden Vertrauens tun. Dies führt zu wirtschaftlichen Ineffizienzen und behindert den weiteren Fortschritt der Gesellschaft. Das Innovationstempo ist ernsthaft gefährdet, wenn die Menschen beginnen, den von ihnen genutzten IT- Systemen grundsätzlich zu misstrauen. Um das Vertrauen zu erhalten schaffen Regierungen auf der ganzen Welt neue Compliance – Vorschriften und fordern deren Einhaltung. Die oben erwähnten Auswüchse des Trackings haben die Reform des europäischen Datenschutzrechts beschleunigt und zum Erlass der DSGVO [5] geführt. Die Skandale in der Finanzindustrie führten zu zusätzlichen Regeln für das Reporting und die Berichterstattung. Die für die Vorschriften verantwortlichen Gesetzgeber sind jedoch oft positivistisch eingestellt und deklarieren einen wünschenswerten Zustand. Verordnungen und Gesetze unterschätzen die Probleme bei der Umsetzung der Regeln in den Unternehmen. Oft besteht der Kompromiss in den Unternehmen darin, das umzusetzen, was leicht umsetzbar ist. Gleichzeitig wird versucht den schwer umsetzbaren Rest so zu gestalten, dass das Risiko des Erwischtwerdens möglichst gering ist. Das hier vorgeschlagene Konzept bricht mit diesem Ansatz. Es soll mehr Technologie eingesetzt werden um die Umsetzung zu erleichtern. „Soziale Regeln“ werden als maschinenlesbare Metadaten codiert und können helfen die komplexen Systeme anhand dieser Metadaten korrekt zu steuern. Zu den „sozialen Regeln“ in diesem Sinne gehören Gesetze, Handelsbräuche, aber auch Zusagen aus den Datenschutzrichtlinien. Um Compliance, insbesondere in den Bereichen Datenschutz und Sicherheit, nachzuweisen, wird in Gesetzen und Durchführungsbestimmungen sehr oft eine Zertifizierung empfohlen. Die herkömmliche Art der Zertifizierung besteht darin teure Berater bestätigen zu lassen, dass das System das tut, was es soll und nichts anderes. Das Ergebnis ist oft ein Logo, das auf einer Website angezeigt wird. Zertifizierung ist sehr teuer und skaliert nicht gut. Zertifizierungssysteme haben eine Reihe von Nachteilen: Eine geringfügige Sys temänderung kann die Zertifizierung ungültig machen.2 Laut einer Studie der KU Leuven [6] können Sicherheitszertifizierungen sogar schädlich sein. Bei Datenschutzsiegeln besteht zusätzlich ein Dilemma, denn der Zertifizierer und Siegelanbieter wird vom zertifizierten Dienst bezahlt. Der Siegelanbieter hat wenig Interesse daran, gegen seinen Kunden vorzugehen. Die manuelle Zertifizierung hat Nachteile und ist gleichzeitig unflexibel. Um das notwendige Vertrauen zu schaffen und Compliance zu vereinfachen hat das SPECIAL- Projekt3 eine standardisierte, transparente, webbasierte Infrastruktur für Compliance – 2 3
Es sei denn, die Zertifizierung ist bedeutungslos oder sehr ungenau. https://specialprivacy.ercim.eu.
40
R. Wenning und S. Kirrane
Nachweise entwickelt. Mit dem Konzept ist ein Datenaustausch in Wertschöfpungketten flexibel und leicht zu implementieren. Das hat direkte Auswirkungen auf Wirtschaft und Wachstum im Bereich der Wertschöpfungsketten der Datenökonomie. Einmal implementiert bleibt das Metadaten – Konzept flexibel. Änderungen in Gesetzen, Verträgen und Audit – Richtlinien sind leicht einzupflegen. Die Umsetzung eines solchen Systems erfordert eine Überprüfung der betroffenen Geschäftsprozesse, der Datenerhebung, der Verarbeitungszwecke und der Aufbewahrungszeiten. Erfahrungsgemäß dient die Umsetzung des SPECIAL Ansatzes also nicht nur der Umsetzung eines Compliance – Systems, sondern hat als positiven Nebeneffekt, dass Geschäftsprozesse erneuert und gleichzeitig optimiert werden.
3.2 Den Data lake nutzbar machen Seit dem Primelife-Projekt4 wissen wir um die Probleme der mangelnden Zweitverwertung von Daten in Europa. Daten werden typischerweise unter bestimmten Bedingungen gesammelt. Dann werden diese Daten in ein data warehouse geschrieben. Bei der Speicherung geht das Wissen um Verarbeitungsbedingungen, Beschränkungen und Nutzungsrechte verloren. Die vielen data warehouses bilden einen data lake mit wertvollen Daten. Allerdings enthält der Data lake auch hohe Risiken, denn es gibt keine Information zu Beschränkungen und Verpflichtungen oder Rechten im Zusammenhang mit der weiteren Datenverarbeitung. Einer potenzielle Zweitverwertung der wertvollen Daten steht die Rechtsunsicherheit entgegen. Die Rechtsunsicherheit lässt Geschäfts- und Haftungsrisiken entstehen, die Akteure davon abhält, das Potenzial des Data lake auszuschöpfen. Offshore Dienste, die sich nicht an die Datenschutzvorschriften halten, enorme Datenmengen sammeln, zu Geld machen und wachsen können, werden das Vertrauen und die Nutzung datengesteuerter IT-Dienste weiter untergraben. Das Gefälle im Vertrauen in Dienste zwischen Europa und den USA ist heute schon sichtbar. Das erodierte Vertrauen wird die Nutzung wichtiger Dienste verringern. Es entstehen weniger Daten, oder es entstehen Daten von geringerer Qualität, weil die Menschen lügen, um sich zu schützen. Die vernetzte digitale Gesellschaft erzeugt viele Daten. Die Nutzung dieser Daten ist die vielversprechendste Quelle für mehr Produktivität und Wohlstand. Um die mit der Erosion des Vertrauens und der dadurch induzierte Ablehnung der Digitalisierung einhergehende Verringerung der Produktivität zu verhindern, müssen die Systeme nachweisen, dass sie die demokratisch festgelegten Regeln einhalten. Im Zeitalter von Big Data sind die komplexen Systeme jedoch zu komplex für eine rein menschliche Wahrnehmung. Die Technologie muss uns dabei helfen, Technologie beherrschbar zu halten und dazu brauchte es einen für den Menschen kognitiv erfassbaren Nachweis der Einhaltung der Regeln und Zusagen. http://primelife.ercim.eu/.
4
3 Compliance mit Metadaten
41
Im Rahmen des Datenschutzes wird Grundsatz der Datensparsamkeit hoch gehalten. Das hier vorgeschlagene Konzept fügt jedoch noch mehr (Meta)Informationen hinzu. Bei diesen zusätzlichen Informationen handelt es sich um mit den Daten verlinkten Metadaten, die Informationen über Regeln und Berechtigungen enthalten. Sie ermöglichen es einem System, die Zusagen gegenüber den betroffenen Personen oder Geschäftspartnern einzuhalten. Der Data lake ist nun nutzbar und compliant. Durch die Verfügbarkeit der Metadaten können Haftungs- und Geschäftsrisiken bewertet werden um eine Entscheidung zu treffen. Gleichzeitig lassen sich die gesetzlich vorgeschriebenen Compliance- Prozesse besser automatisieren, da es eine zusätzliche Ebene der Transparenz und Protokollierung gibt.
3.3 Konzept und Architektur eines Policy Aware Systems 3.3.1 Datenerfassung Es ist wichtig, dem System die „sozialen Regeln“ so weit wie möglich maschinenlesbar zur Verfügung zu stellen5 um so viel wie möglich automatisieren zu können. Wir bezeichnen diese Regeln im Folgenden als „Verarbeitungsbedingungen“. Die Herstellung der Maschinenlesbarkeit erfolgt am besten mit Hilfe von Linked Data (siehe Kap. 4). Die Verarbeitungsbedingungen vervollständigen die zum Zeitpunkt der Datenerhebung verfügbaren „Kontextinformationen“. Mit Kontextinformationen sind hier alle Protokoll-Header und andere Informationen gemeint, die dem betreffenden IT-System zum Zeitpunkt der Da tenerfassung zur Verfügung stehen. Diese Informationen sind normalerweise über eine Vielzahl von Protokolldateien verteilt, können aber auch andere Informationsquellen wie Dateien mit regulatorischen Informationen und DNT-Header umfassen. Dabei kann es sich auch um Metadaten über Finanzdaten oder andere Daten handeln, die für die Einhaltung der gegebenen Verarbeitungsbedingungen relevant sind. Die Idee hinter dieser umfangreichen Datenerfassung ist, dass zum Zeitpunkt der Erfassung normalerweise genau bekannt ist, unter welchen Bedingungen Daten erhoben wurden und wie lange sie z. B. gespeichert werden können. Heute gehen diese Informationen verloren, sobald die Daten in ein data warehouse gespeichert werden. Das hier vorgeschlagene System speichert jedoch die Verarbeitungsbedingungen zum Zeitpunkt der Erfassung. Die Bedingungen werden als maschinenlesbare Metadaten gespeichert und mit den gesammelten Daten verknüpft. Für verschiedene Fälle gibt es bereits Ontologien, die die Umwandlung von Umwelt- und Kontextinformationen in maschinenlesbare Metadaten ermöglichen. Für andere Fälle können solche Ontologien für die spezifischen Anforderungen eines bestimmten Geschäftsprozesses erstellt werden. Manchmal reichen dafür einfache Taxonomien. Die Erstellung der Ontologien zwingt zudem zur genauen Überprüfung der einzelnen Schritte eines Geschäftsprozesses. 5
Siehe [7] und [8] sind Projekte, die versuchen, einen Teil dieser Idee umzusetzen.
42
R. Wenning und S. Kirrane
3.3.2 Verbindung von Daten und Metadaten Vorhanden sind nun die erhobenen Daten,6 die der beabsichtigten Verarbeitung unterliegen und die Metadaten, die mehr über die zu verarbeiteten Datenelemente sagen, z. B. wie lange sie aufbewahrt werden können, den Zweck der Verarbeitung und andere Zusagen, die dem Benutzer zum Zeitpunkt der Datenerhebung gemacht wurden. Die Erfassung aller Verarbeitungsbedingungen in einer SQL-Datenbank mit jedem erfassten Datenelement wäre ein enormer Aufwand. In der Linked data Welt werden nun die Metadaten mit den erhobenen Datenelementen verknüpft. Es können beliebig neue Metadaten und Eigenschaften hinzugefügt werden. Das können beliebige Datenkategorien sein, wie Standortdaten oder Handynummer. Das hält den Aufwand in Grenzen. Die Umwandlung der erhobenen Daten in Linked data dient dazu, die Verlinkbarkeit herzustellen um Daten und Metadaten zu verknüpfen. Die Umwandlung wird allgemein als „Semantic Lifting“ bezeichnet. Semantic Lifting zielt darauf ab, bestehenden strukturierten/semistrukturierten Daten nach den Grundsätzen von Linked Data und den Standardtechnologien des Semantic Web „Bedeutung“ oder zusätzliche Metadaten (Semantik) hinzuzufügen [9]. Ein Hauptmerkmal von Linked Data ist die Verwendung von IRIs [10]7 zur weltweit eineindeutigen Identifizierung von Daten. Sobald die Nutzdaten eindeutig identifiziert sind, können die Metadaten auf sie verweisen. Stellen wir uns zum Beispiel den Erwerb einer Handynummer für einen Dienst vor, der nach drei Wochen gelöscht werden muss. Die IRI, die der Handynummer beim semantic Lifting gegeben wird, könnte http://wenning.org/ns/mtel/123456788 sein und die IRI, die der Regel für die 3-wöchige Datenspeicherung gegeben wird, könnte http://www. w3.org/2002/01/p3prdfv1#retention sein, was nach dem P3P-Vokabular 1.814.400 s entspricht. Das Tripel gibt dann die Telefonnummer, das Attribut der Aufbewahrung und die Aufbewahrungszeit an. Da es sich um weltweit eindeutige Bezeichner handelt, funktioniert dies sogar über Unternehmensgrenzen hinweg. Sobald das semantic Lifting abgeschlossen ist und alle aufgezeichneten Datenelemente einen IRI erhalten haben, können die Verarbeitungsbedingungen, die auf den IRI des Datensatzes verweisen als Anmerkung oder Annotation zu diesem Datensatz betrachtet werden (Abb. 3.1). Während es in der W3C Annotation Recommendation [11] um das Hinzufügen von Anmerkungen zu Webseiten geht, werden im SPECIAL – System Datensätze annotiert. Da aber eine Webseite eine Ressource mit einer IRI ist, ist das Prinzip das gleiche. Das Annotationsdatenmodell [12] (Abb. 3.2) besagt folglich: „Eine Annotation wird als ein Satz miteinander verbundener Ressourcen betrachtet, der typischerweise ein Objekt und ein Ziel umfasst und vermittelt, dass das Objekt mit dem Ziel in Beziehung steht. Die genaue Unter Nutzdaten versteht man den eigentlichen Datensatz, z. B. den Namen eines Kunden. IRI – Internationalized Resource Identifiers, die internationale Version von URI gemäß RFC. 8 Die IRI für die Mobilfunknummer ist ein rein theoretisches Beispiel, die Verweildauer stammt aus der P3P 1.0 Spezifikation. 6 7
3 Compliance mit Metadaten
43
Abb. 3.1 Anreicherung von Daten mit Metadaten unter Verwendung von RDF
Abb. 3.2 Das W3C Annotation Datenmodell. Siehe https://www.w3.org/TR/annotation-model/. (Copyright © 2017 W3C® (MIT, ERCIM, Keio, Beihang). Es gelten die W3C-Regeln für Haftung, Markenzeichen und Dokumentennutzung)
Art dieser Beziehung ändert sich je nach der Absicht der Anmerkung, aber das Objekt „Anmerkung“ enthält meistens irgendeine Aussage ‚über‘ das Ziel“. Aus dieser Perspektive ergibt sich in beiden Fällen ein Grundmodell mit drei Teilen. Bei der Datenerhebung erhalten Daten und Metadaten gleichzeitig jeweils eine IRI und können so automatisch verknüpft werden. Daten und Metadaten werden zu einem Paket geschnürt. Durch die semantische Aufbereitung können die Algorithmen der Datenverarbeitung auf der Grundlage der Metadaten reagieren. Es entsteht eine intelligente Datenverwaltung. Diese recht einfache Grundidee führt allerdings zu einer ganzen Reihe von sozialen und technischen Herausforderungen. Im Folgenden wird das Konzept anhand eines Systems veranschaulicht, das versucht, die Einhaltung der Verordnung (EU)
44
R. Wenning und S. Kirrane
(2016) 2016/679 [5] zu erreichen. Das H2020-Forschungsprojekt SPECIAL hat ein solches System als proof of concept implementiert um nachzuweisen, dass man Big Data datenschutzfreundlich gestalten kann. Solch ein System ist dann auch in der Lage ein Löschkonzept nach DIN 66398 leicht umzusetzen. Die DIN 66398 geht weit über den Datenschutz hinaus und berücksichtigt auch Dinge wie die kaufmännischen Archivierungspflichten. Auch die Integration von Melde- und Sorgfaltspflichten aus den Vorschriften des Finanzsektors ist problemlos möglich. Natürlich kann man das alles mit einer SQL-Datenbank mit fest verdrahteter Semantik machen, aber diese bliebe unflexibel; eine Insellösung, die nur schwer neue Verbindungen zur sie umgebenden komplexen und digitalisierten Welt aufbauen könnte. Alle beschriebenen Vorgänge müssten händisch hinzugefügt werden. Das bedeutet, dass wir die Linked Data Lösung brauchen, um digitalen Wertschöpfungsketten überhaupt zu ermöglichen, ohne dass für jede Anpassung das gesamte System neu programmiert werden muss. Im Linked data System genügt es, die neuen Metadaten mitzugeben und dem Reasoner eine Aufgabe für diese Metadaten zuzuweisen. Das ist wesentlich weniger Aufwand.
3.3.3 Anwendung von Einschränkungen und Regeln Abfragen in Linked Data Systemen erfolgen mit SPARQL [13]. Sobald das System Daten und Metadaten aufgenommen hat, ist die Einhaltung der Vorschriften eine Frage der Anwendung der richtigen Abfrage. Es ist nun möglich, intelligente und richtlinienkonforme Abfragen zu stellen wie: „Finde alle Daten, die weiterverarbeitet werden können, um einen personalisierten Dienst anzubieten“. Es ist auch möglich, gemäß DIN 66398 zu sagen: „alle Daten auflisten, deren Aufbewahrungsfrist innerhalb der nächsten Woche endet“. Um eine solche Abfrage durchführen zu können, muss das System natürlich die Aufbewahrungsfristen kennen. Eine wichtige Kategorie von Abfragen betrifft die Einschränkung der gemeinsamen Nutzung von Daten, indem das System aufgefordert wird, nur Daten zurückzugeben, die beispielsweise „mit Geschäftspartner B1 für den Zweck P2 gemeinsam genutzt werden können“.
3.3.4 Erstellen von richtlinienkonformen digitalen Wertschöpfungsketten Arbeitsteilung führt zu höherer Effizienz und Wertschöpfung. In der Digitalökonomie bedeutet Arbeitsteilung auch die gemeinsame Nutzung von Daten. Die „Sharing Economy“ hat viel Begeisterung ausgelöst. Gleichzeitig entstehen immer mehr Sorgen, weil unklar bleibt, was die Datenweitergabe und zusätzliche Verarbeitung konkret bedeutet. Können die weitergegebenen Daten für jeden Zweck genutzt werden? Heute ist das oft unklar und führt dazu, dass Daten gerade nicht weitergegeben werden. Das vorgeschlagene Konzept sorgt für Klarheit, in dem Daten mit den dazugehörigen Verarbeitungsbedingugne weiter-
3 Compliance mit Metadaten
data subject
45
data
data controller
data
downstream data controller
Abb. 3.3 Eine Datenwertschöpfungskette aus Sicht des Datenschutzes
gegeben werden. Diese Idee ist nicht neu. Wahrscheinlich war es Michael Waidner,9 der schon sehr früh den Begriff „sticky policies“ für dieses Konzept prägte. Wie bereits erwähnt, ermöglicht die Verwendung von IRIs die Beibehaltung der Verbindung von Verarbeitungsbedingungen und Daten auch in komplexen Kooperationen. Das PrimeLife-Projekt hat hier eine wertvolle Sprachschöpfung ergeben. Denn neben die Begriffe „Datensubjekt“, „Verantwortlicher der Datenverarbeitung“ kommen nun weitere Verantwortliche in der Wertschöpfungskette. Diese werden als „nachgeordneter Verantwortliche“ oder Downstream Data Controller bezeichnet (Abb. 3.3). Die Implementierung bleibt flexibel. Es ist teilweise eine Frage des Geschäftsmodells und des Geschmacks wie die Daten mit den Metadaten verbunden und in der Wertschöpfungskette transportiert werden: 1. Als Paket von Daten und Metadaten, die auf verschiedene Weise zusammen gepackt sind. 2. Als zwei unabhängige Pakete. 3. Zurverfügungstellung via einer API des Cloud-Dienstes vom Verantwortlichen zum nachgeordneten Verantwortlichen. Der nachfolgende Verantwortliche muss dann die gleichen Beschränkungen anwenden wie der ursprüngliche Verantwortliche. Die Sicherung der Compliance im Verhältnis der Verantwortlichen untereinander ist eine Frage der vertraglichen Verbindung zwischen beiden. Dies ist offen für Lösungen via vertraglicher Klauseln, aber auch kryptografisch gesicherte Systeme sind möglich. Ein Via Blockchain gesicherter Austausch von Daten kommt dann den heute schon gebräuchlichen Rights-Management-Systemen sehr nahe, ist allerdings bedeutent flexibler.
3.3.5 Ein automatisches Compliance Audit Wenn ein bestimmter personenbezogener Datensatz verarbeitet wird, kann dies wie üblich in eine Protokolldatei geschrieben werden. Anstatt dies in eine Protokolldatei zu schreiben kann der Vorgang auch als Metadatum ins System zurückgeschrieben werden. Das macht den Vorgang zugänglich für die weitere Evaluierung, z. B. weil ein bestimmter Datensatz 9
Damals noch IBM Zürich, heute Leiter des Fraunhofer SIT in Darmstadt.
46
R. Wenning und S. Kirrane
nur eine begrenzte Anzahl Male verarbeitet werden darf. Ausserdem ist der Vorgang nun Teil des Graphen und kann in Abfragen berücksichtigt werden. Das Audit selbst ist dann eine Abfrage oder Suche innerhalb eines bestimmten Geschäftsprozesses oder einer Anwendung. Auf diese Art und Weise kann sichergestellt werden, dass die Verarbeitung konform zu den im System niedergelegten Bedingungen erfolgte. Allerdings gilt hier, dass Sicherheit und Integrität der Aufzeichnung des Vorgangs besonders sicherzustellen sind. Dies kann durch Dritte, durch technische und organisatorische Maßnahmen oder interne Anweisungen geschehen. Der moderne Weg wäre die Vorgänge unter Verwendung der Blockchain- Technologie als semantisch aussagefähige Transaktionen aufzuzeichnen. Ein Beispiel, wie man Blockchain hier verwenden kann wurde auch im Rahmen des SPECIAL-Projekts erkundet.
3.4 Bereitstellung der relevanten Metadaten Ein System mit semantischen Verarbeitungsbedingugnen ist nur so nützlich wie die als Metadaten gespeicherten Bedingungen. Ein großes Hindernis für die Vision eines solchen Systems ist der Mangel an wiederverwendbaren und maschinenlesbaren Kontextinformationen von ausreichender Datenqualität, die dann auch mit den erhobenen Daten verknüpft sind. Darüber hinaus werden Verarbeitungsbedingungen oft nur summarisch, etwa in einem Vertrag, definiert. Auch die datenschutzrechtliche Zustimmung wird oft nur generalisiert oder auf Papier eingeholt. Die Bedingungen enthalten nun eine Fülle von Informationen. Liest man die Datenpolicy so sind die Regeln oft so generell, dass sie nicht spezifisch genug sind, um echte maschinenlesbare Verarbeitungsbedingungen zu setzen. Deswegen ist es wichtig, die maschinenlesbare Information mit der für Menschen lesbaren Information im Einklang zu halten. Dies kann z. B. dadurch umgesetzt werden, dass die vom Menschen lesbaren Texte aus den maschinenlesbaren Taxonomien generiert werden. Der Vorteil ist, dass Applikationen nun Teile der Verarbeitungsbedingungen im Kontext der Erhebung oder Verarbeitung darstellen können. Wie unten noch darzustellen sein wird können daraus völlig neue Nutzererfahrungen (UX) entstehen. Die Modellierung und Formalisierung von Verarbeitungsbedingungen und die Ermöglichung des oben beschriebenen semantischen Liftings ist eine schwierige Aufgabe. Die Komplexität und Reichhaltigkeit des semantischen Liftings hängt von der Vielfalt der Metadaten ab, die den erhobenen Daten hinzugefügt werden, und davon, inwieweit Taxonomien und Ontologien für diesen Anwendungsfall bereits verfügbar sind. Um Taxonomien und Ontologien für die breite Wiederverwendung zur Verfügung zu stellen, ist Standardisierung der richtige Weg. Dies kann durch Verhaltenskodizes der Industrie geschehen, aber auch durch Spezifikationen. Da Linked data – Vokabulare modular sind, können Spezifikation oder auch nur Teile davon neu und innovativ kombiniert werden um die richtigen Metadaten im System zur Verfügung zu stellen.
3 Compliance mit Metadaten
47
Im Bereich Datenschutz wurde durch PPL (gesprochen people) einer vom Projekt PrimeLife10 [8] entwickelten Erweiterung von XACML [14] einige Fortschritte erreicht. So wurde Berechtigungen transportabel und es entstand eine interoperable rollenbasierte Zugriffskontrolle. Für Aussgen zur Sicherheit und für die Kodierung der Zugangskontrolldaten wurde die Semantik von SAML [15] verwendet. Das SPECIAL-Projekt konzentriert sich auf die Verwendung von ODRL [16], um Verarbeitungsbedingugen und weitere Verpflichtungen in Verbindung mit der Datenerhebung in Metadaten auszudrücken. Um Datenqualität auszudrücken empfiehlt sich die Verwendung des W3C Provenance Framework [17]. Für Finanzdienstleistungen ist die Arbeit noch nicht abgeschlossen, aber ein Blick auf die Semantik der eXtensible Business Reporting Language XBRL [18] könnte helfen. Kap. 2 zeigt Wege auf, dies pragmatisch anzugehen. Ist die Taxonomie oder Ontologie zu einer bestimmten Verarbeitungsbedingung identifiziert und modelliert ist, kann eine nachfolgender Verantwortlicher mit dem Schema sein System schnell an die Anforderungen der Zusammenarbeit anpassen. Es wird eine große Vielfalt an verschiedensten Datenquellen und mit einer Vielzahl von Datentypen erwartet. Je mehr die Digitalisierung in unserem Leben voranschreitet, desto mehr Kontextinformationen werden dem System automatisch zur Verfügung stehen. All diese Informationen werden in den Data lake einfließen und ihn berreichern. Es ist daher von größter Bedeutung, das in Kap. 4 beschriebene Management der Vielfalt im Blick zu behalten. Heute werden die meisten Informationen für Profiling und Marketing gesammelt. Daraus ergibt sich die berechtigte Befürchtung, dass diese Profile und das Wissen über den Kunden verwendet wird um diesen zu seinem Nachteil manipulieren zu können. Das hier dargestellte Konzept zur verstärkten Datenerhebung, Verarbeitung und Nutzerbeteiligung will dagegen den Endnutzern mehr Kontrolle zurück geben.
3.5 Neue Benutzerfreundlichkeit Dank Kontextualität Ein System, das Verarbeitungsbedingungen zum Zeitpunkt der Datenerhebung miterhebt, sammelt Metadaten zu Einschränkungen, dem laufenden Prozess, dem Zweck der Erhebung und viele weitere Aspekte und kann diese Informationen zur Verfügung stellen. Der derzeitige Stand im Bereich der Nuterzerinformation ist durch zwei Extreme gekennzeichnet. Auf der einen Seite gibt es nicht genügend Information. Auf der anderen Seite gibt es komplexe und langatmige Informationsblätter, die den Nutznern zur Verfügung gestellt werden. Das wird zum Nachteil der Verbraucher genutzt. Banken in den USA haben seitenlange Informationsblätter verteilt, die später dazu dienten die Zwangsvollstreckungen in Immobilien besser zu rechtfertigen. McDonald et al. [19] fanden heraus, dass die durchschnittliche Datenschutzinformation etwa 2500 Wörter umfasst. Die Ergebnisse ihrer Online-Studie mit 749 Internetnutzern ließen die Autoren zu dem Schluss kommen, dass die Menschen nicht in der Lage sind, Datenschutzpraktiken zuverlässig zu verstehen [20]. Siehe Fußnote 4.
10
48
R. Wenning und S. Kirrane
Einer der Gründe für das mangelnde Verständnis auf Nutzerseite ist die Komplexität und Länge der Dokumente, insbesondere im Bereich Finanzen aber auch beim Datenschutz. Eine allumfassende Datenschutzerklärung macht es erforderlich, den gesamten Geschäftsprozess mit allen seinen Verästelungen in einem Dokument darzustellen. Erst wenn der Geschäftsprozess beschrieben ist, kann ja die Datenerhebung erklärt werden. Nichts anderes gilt im Finanzsektor. Das daraus resultierende rechtlich bedeutsame Dokument versucht alles abzudecken. Das Dokument ist nur vordergründig für den Nutzer geschrieben. Doch eigentlich dienen diese Datenschutzerklärungen oder Finanzinformation ausschließlich der Vermeidung von Haftung bei den Erstellern der Dokumente. Während Juristen an solch lange Dokumente gewöhnt sind, sind sie ein gezielter Angriff auf die Benutzerfreundlichkeit. Immer mehr Stimmen geben zu, dass die Datenschutzerklärungen kein zusätzliches Vertrauen schaffen, aber gleichzeitig sehr effektiv im Bereich Haftungsvermeidung sind. Der Datenschutz findet ohne den Betroffenen statt. Das SPECIAL-System ermöglicht eine radikale Änderung, indem es die dynamische Entstehung einer Datenschutzvereinbarung zwischen Verantwortlichem und Datensubjekt ermöglicht. So wird beim Nutzer Vertrauen geschaffen und gleichzeitig der Schutz vor Haftung erhöht. Erreicht wird dies durch die beschriebene Verwendung von Linked Data, wie es oben beschrieben wurde. Es entsteht ein Graph der Metadaten und Daten als Knoten miteinander verbindet. In einem zustandsbehafteten System verfügt ein bestimmter Knoten über Informationen über die ihn mit Kanten angeschlossenen umgebenden Knoten. Das System kann diese Informationen über die umliegenden Knoten nutzen, um ein kontextbezogenes Benutzererlebnis zu schaffen. Weil dies entlang des Wissensgraphen geschieht, kann anstelle der gesamten Datenschutzrichtlinie nun nur der für den jeweiligen Kontext relevante Teil der Erklärung mit seinen Verabeitungsbedingungen dargestellt und eine partielle Zustimmung abgefragt werden. Für zusätzliche Hilfe sorgt die Kategorisierung aus der Modellierungsphase der Verarbeitungsbedingungen, die zum Zeitpunkt der Datenerhebung nutzbar gemacht werden kann. Die Kategorien können wiederverwendet werden, um der Schnittstelle zu helfen, eine abgestufte Information, von generell bis speziell, zur Verfügung zu stellen. Angewendet auf die DSGVO [5], zeigt das System die relevanten und erforderlichen Kontextinformationen an. Während eine allgemeine Richtlinie nur ein Informationsdokument ist, ermöglicht das SPECIAL-System eine direkte Interaktion. Durch die Implementierung eines Feedback-Kanals kann die Zustimmung des betroffenen Datensubjekts über die Schnittstelle automatisiert eingeholt werden. Diese auch Einwilligung genannte Zustimmung kann dann als Rechtsgrund für die Verarbeitung verwendet werden. Da das System die Verarbeitungsbedingugen in den Data Lake zurückspeichert, wird die Datenschutzkonformität integriert. Sie kann in einem Transparenzlog z. B. in eine Blogchain gespeichert werden. Der schon erwähnte Compliance – Log entsteht. Der Nutzer eines solchen Systems wird im Kontext von verschiedenen Situationen um Einwilligung gefragt. Durch die Kontextualität der Anfrage zeigt die Erfahrung, dass Nutzer die Anfrage viel leichter beurteilen können: „Wir werden Ihre die Anmeldedaten verwenden, damit sie im
3 Compliance mit Metadaten
49
Forum mit anderen Nutzern zwecks gegenseitiger Hilfe in Verbindung treten können. Dieses Forum ist nicht öffentlich“. Im Laufe der Zeit kann der Benutzer aufgefordert werden, einer „Trendforschung innerhalb des Online-Forums“ zuzustimmen. Es hat sich als sehr nützlich herausgestellt, dem Nutzer ein Cockpit für die ihn betreffenden Informationen zur Verfügung zu stellen. Die Forschung hat Wege gefunden, mehrere partielle Zustimmungen maschinell zu addieren und so eine Gesamtheit von Verarbeitungsbedingungen enstehen zu lassen. Villata und Gandon [21] haben einen Mechanismus erforscht, der Berechtigungen aus verschiedenen Lizenzen zu einer Gesamtlizenz zusammenfassen kann. Auf diese Weise ist es möglich, eine Vielzahl kontextabhängiger Berechtigungen zu einem bekannten und maschinenlesbaren Satz von Verarbeitungsbedingungen zusammenzufassen, der die Beziehung sowohl zum Datensubjekt als auch zu einem eventuellen nachfolgenden Verantwortlichen regelt. Angewandt auf die Finanzbranche und darüber hinaus erzeugen die Interaktionen einen kumulativen Satz maschinenlesbarer Vereinbarungen, die vom System selbst automatisch und beweisfest eingehalten werden können. Durch die Dynamik des Mechanismus können Verarbeitungsbedingungen unterschiedlicher Granularität mit verschiedensten Datenkategorien oder Daten verknüpft werden und mit Regeln unterschiedlicher Intensität verbunden werden. Damit entfällt die Notwendigkeit, den Zweck der Datenerhebung im Voraus festzulegen, da sowohl die Überwachung als auch Kontrolle und gegebenenfalls Einflussnahme durch den Betroffenen möglich werden. So helfen Maschinen dem Menschen, seine kognitiven Schwächen im Zusammenhang mit Big Data zu überwinden.
3.6 Werkzeuge für das Compliance-System Das oben beschriebene System braucht gute Werkzeuge. Wenn Daten und Metadaten aufgezeichnet werden, entsteht ein so massiver Datenfluss. Man braucht Big-Data-Technologie und Parallelisierung. Die meisten heutigen Big-Data-Tools sind nicht gut für Linked Data geeignet, aber nach dreijähriger Entwicklungsarbeit hat das Big-Data-Europe-Projekt [22] eine Plattform geschaffen, die mit Linked Big Data umgehen kann. BDE ist in erster Linie eine normale Big-Data-Plattform, die Docker-Container zur Virtualisierung von Datenverarbeitungseinheiten und Docker Swarm zur Orchestrierung dieser Einheiten in einem Workflow verwendet. Es wurden gebrauchsfertige Docker für die meisten Big-Data-Werkzeuge der Apache Foundation erstellt. Der BDE nennt dies den Big Data Integrator (BDI) Auf der Grundlage der BDI wurden Werkzeuge für semantische Operationen entwickelt. Nicht alle von ihnen sind produktionsreif, aber die Weiterentwicklung schreitet rasch voran. BDE wurde 2017 beendet, aber die Entwicklung der Werkzeuge geht weiter. Als Nutzer dieser Technologie wird das SPECIAL-Projekt auch die Entwicklung der semantischen Toolchain vorantreiben und einer bereits gut etablierten Community helfen. Im Folgenden werden diese semantischen Werkzeuge des BDI erläutert.
50
R. Wenning und S. Kirrane
3.6.1 Werkzeuge für den Semantic Data Lake Die Herausforderungen des vorgeschlagenen Systems sind mit den Herausforderungen von Big Data vergleichbar, nämlich Volumen, Geschwindigkeit, Vielfalt und Wahrhaftigkeit. Volumen und Geschwindigkeit werden weitgehend durch Komponenten wie HDFS, Spark und Flink gelöst [23]. In den Anwendungsfällen BDE und SPECIAL ist jedoch die Vielfalt die größte Herausforderung.11 Es gibt viele verschiedene Datentypen und es existieren viele nicht übereinstimmende Begriffe in verschiedenen Datensätzen. Wie bereits erörtert, lässt sich das Problem der Vielfalt am besten mit Hilfe von Semantic-Web-Technologien angehen (Abb. 3.4).
3.6.2 Ontario oder Transforming Ingestion? BDE verwendet die „Ontology-based Architecture for Semantic Data Lakes“ (Ontario) [24] (Abb. 3.5). Die Daten werden in dem Format gespeichert, in dem sie ankommen, aber sie können abgefragt und analysiert werden, als ob sie als RDF gespeichert wären. Ontario hat die Möglichkeit, SPARQL-Abfragen zu akzeptieren, die dann neu geschrieben und über einen oder mehrere Datensätze in der jeweiligen Abfragesprache ausgeführt werden. Eine vergleichbare Technologie wird von der International Data Spaces Association standardisiert wo „Konnektoren“ die Übersetzung aus den Altsystemen in den Data lake und zurück übernehmen. Die Ergebnisse werden kombiniert, bevor sie als eine einzige Ergebnismenge zurückgegeben werden. SPECIAL bietet auch die Möglichkeit, die Aufnahme von relevanten Daten und Metadaten zu transformieren. In diesem Fall werden die rohen Daten durch eindeutige Identifier (IRI) semantisiert, um sie durch Anmerkungen adressierbar zu machen.
Abb. 3.4 Der semantische Datensee (Copyright: The Big Data Europe project https://www.big- data-europe.eu/semantics-2/ (Zugriff am 20. Oktober 2017))
Siehe Kap. 4.
11
3 Compliance mit Metadaten
51
Scalable Semantic Analytics Stack (SANSA) Machine Learning Inference Querying Knowledge Distribution & Representation
Distributed Machine Learning
Distributed In-Memory Processing
} }
Analytics
Distribution
Semantic Technology Stack
Machine Learning Libraries Distributed Data Sets / Streams In-Memory Computing Framework Distributed Filesystem
Abb. 3.5 Der SANSA-Stapel. (Copyright: CC-BY Jens Lehmann http://sansa-stack.net (Zugriff am 20. Oktober 2017))
3.6.3 SANSA ermöglicht die semantische Analyse Der SANSA-Stack (Abb. 3.5) [25] ist ein Toolset, das dabei hilft, Abfragen und Schlussfolgerungen über Linked Data zu optimieren und zu parallisieren. Wie wir bereits gesehen haben, werden Nutzdaten und Metadaten im System gespeichert. Die Konformität wird durch die Filterung der Daten vor der Anwendung der beabsichtigten Verarbeitung erreicht. Dies bedeutet, dass die Abfrage/Filter ein gewisses Maß an Intelligenz benötigen, um die verwendbaren Datensätze herauszufiltern. Der SANSA Stack verwendet RDF- Daten als Input und ist in der Lage, Analysen durchzuführen, z. B. Abfragen, Schlussfolgerungen zu ziehen oder maschinelles Lernen auf die in der Plattform verfügbaren Linked Data anzuwenden. So kann nicht nur die Beziehung zwischen Daten und Metadaten untersucht werden, sondern auch das Wissen aus den Beziehungen innerhalb der Daten oder innerhalb der Metadaten. Es hilft bei der Erstellung der komplexen SPARQL-Abfragen, die zur Berücksichtigung von Berechtigungen und Einschränkungen erforderlich sind, indem es Algorithmen bereitstellt, die in komplexere und größere Systeme integriert werden können. Diese benötigen in der Regel auch die von BDE bereitgestellte Parallelisierung. Die Pa rallelisierung von SPARQL-Abfragen und -Schlussfolgerungen ist nach wie vor eine Herausforderung. Obwohl SANSA noch in der Entwicklung ist, ist es gut in das BDE- Ökosystem integriert und bietet Docker-Compose-Dateien als Beispiele auf Github. Dies macht die Installation einfach.
52
R. Wenning und S. Kirrane
3.7 Empfehlungen Die Einführung der Datenschutz-Grundverordnung zwingt Unternehmen dazu, ihre Geschäftsprozesse zu überdenken. Das ist eine gute Gelegenheit über eine semantische Ebene für ein Compliance – System nachzudenken. Dabei sind folgende Punkte wichtig: 1. Die Semantifizierung erfolgt durch „semantic lifiting“ indem den Daten IRIs zugewiesen weren. Die Altsysteme können integriert werden, weil eine Middleware die IRI in eine Abfage ins Altsystem übersetzen kann. 2. Die Erstellung der erforderlichen Taxonomien und Ontologien gemäß Kap. 2, dient gleichzeitig der Überprüfung der Geschäftsprozesse. Es entstehen angemessene Semantiken in den Metadaten, die für Compliance und eine konforme Datenverarbeitung und -prüfung erforderlich sind. 3. Die Befolgung der Verarbeitungsbedingungen in Wertschöpfungsketten erfolgt durch die Weitergabe der Metadaten und die vertragliche Verpflichtung des nachgeordneten Verantwortlichen die mitgegebenen Verarbeitungsbedingungen zu beachten.
3.8 Schlussfolgerung Die Digitalisierung unseres Lebens schreitet in hohem Tempo voran. Je mehr Aspekte digital werden, desto mehr Daten produzieren wir. Nunmehr bedeutet Big-Data, dass aus all den kleinen Datenströmen eine Wertschöpfungskette und ein großer Datenfluss entsteht. Das sind Daten, die zur Bekämpfung von Krankheiten beitragen, aber auch Daten, die zur Manipulation verwendet werden können. Die möglichen Missbräuche durch Zweitverwertung treiben den Ruf nach mehr Regulierung und Compliance voran. Der Datenschutz ist dabei nur ein Bereich, in dem das beschriebene System für Compliance und Berechtigungsakquise genutzt werden kann. Nach den jüngsten Auch im Finanzsektor wurden immer neue Vorschriften für Compliance und Audits geschaffen. Das SPECIAL-System schlägt die Verwendung Daten und Metadaten vor, um ein System der automatisierten Compliance mit Audit-on-demand zu schaffen. Es bietet auch die Grundlage für eine bessere Integration von Datensubjekten und Nutzern in das Big-Data-Ökosystem, indem es ein Nutzer-Cockpit bereitstellt und einen Feedback-Kanal organisiert. Das System vereinfacht die Compliance durch private Akteure, aber auch die Überprüfung durch die Aufsichtsbehörden. Im Wesentlichen wird dadurch Vertrauen in komplexe Systeme geschaffen, so dass die Gesellschaft insgesamt von Big-Data und neuen datengetriebenen Erkenntnissen profitieren kann.
Literatur 1. Raymond ES (1999) The cathedral and the bazaar: musings on Linux and open source by an accidental revolutionary. O’Reilly Media, Cambridge. isbn 1-56592-724-9 2. A W3C/IAB (2014) Workshop on Strengthening the Internet Against Pervasive Monitoring (STRINT), London, 28 Feb–1 Mar. https://www.w3.org/2014/strint/. Zugegriffen am 20.10.2017
3 Compliance mit Metadaten
53
3. Lipartito K (2010) The economy of surveillance. MPRA paper, vol 21181, Mar. https://mpra. ub.uni-muenchen.de/21181/1/MPRA_paper_21181.pdf. Zugegriffen am 20.10.2017 4. https://en.wikipedia.org/wiki/Libor_scandal. Zugegriffen am 20.10.2017 5. Regulation (EU) (2016) 2016/679 of the European Parliament and of the Council of 27 April on the protection of natural persons with regard to the processing of personal data and on the free movement of such data, and repealing Directive 95/46/EC (General Data Protection Regulation), Official Journal of the European Union 59(L 119), May 2016, 1–88 ELI: http://data.europa.eu/ eli/reg/2016/679/oj. Zugegriffen am 20.10.2017 6. Clubbing Seals (2014) Exploring the ecosystem of third-party security seals. In: Van Goethem T, Piessens F, Joosen W, Nikiforakis N (Hrsg) Proceedings of the ACM SIGSAC conference on computer and communications security, Scottsdale. https://lirias.kuleuven.be/bitstream/ 123456789/471360/1/p918-vangoethem.pdf. Zugegriffen am 20.10.2017 7. Seneviratne O, Kagal L, Berners-Lee T (2009) Policy-aware content reuse on the web. In: ISWC 2009. http://dig.csail.mit.edu/2009/Papers/ISWC/policy-aware-reuse/paper.pdf. Zugegriffen am 20.10.2017 8. The PPL language, Primelife Deliverable D5.3.4 – Report on design and implementation. http:// primelife.ercim.eu/images/stories/deliverables/d5.3.4-report_on_design_and_implementation- public.pdf. Zugegriffen am 20.10.2017 9. Tools for semantic lifting of multiformat budgetary data. Deliverable D2.1 from Fighting corruption with fiscal transparency. H2020 project number: 645833. http://openbudgets.eu/assets/ deliverables/D2.1.pdf. Zugegriffen am 20.10.2017 10. RFC3987 Internationalized Resource Identifiers. https://tools.ietf.org/html/rfc3987. Zugegriffen am 20.10.2017 11. The W3C Web Annotation Working Group. https://www.w3.org/annotation/. Zugegriffen am 20.10.2017 12. Web Annotation Data Model, W3C Recommendation 23 February (2017). https://www.w3.org/ TR/2017/REC-annotation-model-20170223/. Zugegriffen am 20.10.2017 13. SPARQL (2013) Query language for RDF, W3C Recommendation 21 March. http://www.w3. org/TR/2013/REC-sparql11-query-20130321/. Zugegriffen am 20.10.2017 14. See eXtensible Access Control Markup Language (XACML), currently version 3, with various specifications. https://www.oasis-open.org/committees/tc_home.php?wg_abbrev=xacml. Zugegriffen am 20.10.2017 15. Security Assertion Markup Language (SAML) v2.0 (with further info). https://wiki.oasis-open. org/security/FrontPage. Zugegriffen am 20.10.2017 16. ODRL Vocabulary & Expression, W3C working draft 23 February (2017) https://www.w3.org/ TR/vocab-odrl/. Zugegriffen am 20.10.2017. See also the linked data profile https://www.w3. org/community/odrl/wiki/ODRL_Linked_Data_Profile. Zugegriffen am 20.10.2017 and the various notes linked from the WG page https://www.w3.org/2016/poe/wiki/Main_Page. Zugegriffen am 20.10.2017 17. An Overview of the PROV Family of Documents, W3C Working Group Note 30 April (2013). http://www.w3.org/TR/2013/NOTE-prov-overview-20130430/. Zugegriffen am 20.10.2017 18. XBRL 2.1. https://specifications.xbrl.org/work-product-index-group-base-spec-base-spec.html. Zugegriffen am 20.10.2017 19. McDonald AM, Cranor LF (2008) The cost of reading privacy policies, ISJLP 4, HeinOnline, 543. https://kb.osu.edu/dspace/bitstream/handle/1811/72839/ISJLP_V4N3_543.pdf. Zugegriffen am 20.10.2017 20. McDonald AM, Reeder RW, Kelley PG, Cranor LF (2009) A comparative study of online privacy policies and formats. In: Privacy enhancing technologies, vol 5672. Springer. http://dblp.uni- trier.de/db/conf/pet/pets2009.html#McDonaldRKC09. Zugegriffen am 20.10.2017
54
R. Wenning und S. Kirrane
21. Villata S, Gandon F (2012) Licenses compatibility and composition in the web of data. In: Proceedings of the third international conference on consuming linked data, vol 905, pp 124–135. https://hal.inria.fr/hal-01171125/document. Zugegriffen am 20.10.2017 22. Big Data Europe. https://www.big-data-europe.eu. Zugegriffen am 20.10.2017 23. Components supported by the Big Data Europe platform. https://www.big-data-europe.eu/bdi- components/. Zugegriffen am 20.10.2017 24. Auer S et al (2017) The BigDataEurope platform – supporting the variety dimension of big data. In: Web engineering: 17th international conference, ICWE 2017, Rome, 5–8 June 2017, Proceedings, S 41–59 25. SANSA – Scalable Semantic Analytics Stack, open source algorithms for distributed data processing for large-scale RDF knowledge graphs. http://sansa-stack.net/. Zugegriffen am 20.10.2017
4
Vielfaltsmanagement für Big Data Wolfgang Mayer, Georg Grossmann, Matt Selway, Jan Stanek und Markus Stumptner
Kernaussagen
1. Ontologien können die Entdeckung, Navigation, Erkundung und Interpretation heterogener Datenbestände erleichtern. 2. Semantische Metadaten können dabei helfen, die Vielfalt in Bezug auf Struktur, Herkunft, Sichtbarkeit (Zugangskontrolle) und (erlaubte) Nutzung zu beschreiben und zu verwalten. 3. Ontologien und umfassende Metadatenkataloge können die Interpretation vereinfachen, die Datenqualität verbessern und die Integration mehrerer Datensätze erleichtern. 4. Um die Datenqualität aufrechtzuerhalten, sind Governance-Mechanismen für die Ontologieentwicklung erforderlich.
4.1 Einleitung Mit dem Einzug von Big-Data-Anwendungen in alle Tätigkeitsbereiche von Unternehmen und Privatpersonen treten alte Herausforderungen, die in traditionellen Anwendungsbereichen aufgetreten sind, auf neue Weise zutage. Von den Kernherausforderungen, die ursprünglich mit Big Data in Verbindung gebracht wurden, nämlich Volumen, Ge-
W. Mayer (*) · G. Grossmann · M. Selway · J. Stanek · M. Stumptner University of South Australia, Mawson Lakes, Australien E-Mail: [email protected]; [email protected]; [email protected]; [email protected]; [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_4
55
56
W. Mayer et al.
schwindigkeit und Vielfalt [1], ist die Vielfalt nach wie vor diejenige, die von den Standard-Analysearchitekturen am wenigsten berücksichtigt wird. Laut der Big Data Execution Survey 2016 betrachten 69 % der Unternehmen den Umgang mit einer Vielzahl von Daten als den wichtigsten Faktor für den Erfolg von Big Data (während 25 % das Datenvolumen und 6 % die Geschwindigkeit als wichtigsten Faktor nennen) [2]. Die Befragten stimmten darin überein, dass größere Chancen durch die Integration mehrerer Datenquellen und nicht durch das Sammeln größerer Datenquellen entstehen. Die Herausforderungen, die sich aus dem Volumen und der Geschwindigkeit ergeben, können mit ausreichender Verarbeitungsleistung, erhöhter Netzwerkfähigkeit, Speicherkapazität und Streaming-Architekturen bewältigt werden. Hadoop hat bei der Geschwindigkeitsproblematik durch verteiltes Rechnen bereits Pionierarbeit geleistet. Die Vielfalt ist jedoch nach wie vor eine große Herausforderung, die nicht allein durch bessere Technologien bewältigt werden kann. Eines der hervorstechendsten Merkmale von Big-Data-Plattformen ist, dass die meisten von ihnen ohne Schema sind, d. h. ohne eine kanonische Beschreibung dessen, was tatsächlich in ihnen enthalten ist. Das Fehlen semantischer Informationen, die den Inhalt der Datenspeicher beschreiben, führt zu Schwierigkeiten bei der effektiven Nutzung der Daten, insbesondere dann, wenn die Datensätze von verschiedenen Nutzergruppen über längere Zeiträume beigetragen und genutzt und auf unterschiedliche Weise verarbeitet werden. Der Wert von Metadaten und semantischen Annotationen wird daher immer mehr zu einem wichtigen Aspekt bei der Gestaltung und Pflege von Data Lakes. Aufgrund der Vielfalt ihrer Dateninhalte stellen Big Data neue Herausforderungen an das Metadatenmanagement. Die Implementierung von Metadatenmanagement-Frameworks, die sowohl die Daten- als auch die Verarbeitungsvielfalt unterstützen, sind die Schlüsselkomponenten für eine größere Transparenz, Datenkonsistenz und einen besseren Einblick in die Daten.
4.2 Große Datenvielfalt In diesem Abschnitt wird der Begriff „Vielfalt“ definiert und die Arten und Quellen der Vielfalt in Big Data analysiert. Wir führen das Konzept der semantischen Metadaten als Grundlage für die Beschreibung und Verwaltung von Vielfalt im Kontext von Big Data ein. Ausreichend leistungsfähige semantische Metadaten können die Quellen der Vielfalt in heterogenen Big Data erfassen und die Abbildungen und Transformationen aufzeichnen, die erforderlich sind, um mehrere Datenquellen in einer gemeinsamen nutzbaren Pipeline zusammenzuführen. Die Verwaltung dieser Metadaten muss eng mit der Verwaltung der Daten abgestimmt werden, da ihre Lebensdauer so lange (oder länger) sein wird, wie die eigentlichen Datenquellen und Ergebnisse genutzt werden. Fragen im Zusammenhang mit der Datenvielfalt sind heute von herausragender Bedeutung. Die Vielfalt der gespeicherten Datensätze erschwert eine umfassende Analyse, und
4 Vielfaltsmanagement für Big Data
57
die Vielfalt der zugrunde liegenden Informationssysteme und ihrer Schnittstellen behindert die Interoperabilität. Wir erörtern das Thema Vielfalt aus den folgenden Perspektiven: 1. strukturelle Variation (durch Speicherstruktur, Datenformat oder semantische Va riation), 2. Variationen in der Granularität (entweder durch Aggregation oder entlang der zeitlichen Achse), 3. heterogene Datenquellen, 4. Grad der Qualität und Vollständigkeit und 5. Unterschiede in der Daten(vor)verarbeitung. Wir konzentrieren uns auf die den Daten innewohnende Heterogenität und lassen politische und verwaltungstechnische Fragen wie Zugangskontrolle und Sichtbarkeit von sensiblen und vertraulichen Datenelementen beiseite. Für die Diskussion politikbezogener Fragen siehe Kap. 3. Strategien zur Bewältigung der Vielfalt in Data Lakes werden in den nachfolgenden Abschnitten dieses Kapitels vorgestellt.
4.2.1 Strukturelle Vielfalt Daten können eine strukturelle Vielfalt in Form von unterschiedlichen Datentypen, Datenformaten und semantischen Variationen aufweisen. Unterschiedliche Datentypen sind üblich, wenn Daten in mehreren Datenquellen gespeichert sind. Zur Darstellung derselben Daten können unterschiedliche Datentypen verwendet werden, z. B. Zahlendarstellungen mit unterschiedlichen Bitbreiten, Zeichenketten unterschiedlicher Länge oder textuelle und binäre Kodierung von Datenwerten. Diese Unterschiede können oft durch Transformationen überwunden werden, die eine Darstellung in eine andere umwandeln, wenn Daten von einem System in ein anderes verschoben werden. Die Umwandlung muss jedoch sorgfältig ausgearbeitet und überwacht werden, um sicherzustellen, dass die Daten korrekt umgewandelt werden und dabei keine Informationen verloren gehen. Strukturierte Daten haben ein festes, vordefiniertes Format und sind daher leicht zu verwalten. Halbstrukturierte Daten haben keine feste Struktur, weisen aber einige feste Eigenschaften auf, wodurch sie im Vergleich zu unstrukturierten Daten relativ leicht zu analysieren sind. Unstrukturierte Daten weisen keine Struktur auf und sind heute die häufigste Art von Daten. Unstrukturierte und halbstrukturierte Daten sind heute der am schnellsten wachsende Datentyp und machen schätzungsweise 80 % der Gesamtdatenmenge aus [3]. Unstrukturierte Daten sind in ihrer Rohform schwer zu analysieren. Sie müssen für die Analyse durch verschiedene Stufen der Vorverarbeitung vorbereitet werden, die Datenbereinigung, Informationsextraktion, Kategorisierung, Kennzeichnung und Verknüpfung mit anderen Informationen umfassen können.
58
W. Mayer et al.
In jüngerer Zeit haben sich Graphen als gängige Datendarstellung durchgesetzt. Das Resource Description Framework (RDF) und verknüpfte Daten sind flexible Ansätze zur Darstellung von Dateneinheiten und ihren Beziehungen, und Wissensgraphen, die aus sehr großen Korpora unstrukturierter Daten abgeleitet werden, erleichtern die Analyse und die Wissensentdeckung. Die Extraktion von Informationen aus allen oben genannten Datentypen ist wichtig, um eine tiefgreifende Analyse zu ermöglichen. Semantische Variationen gehören vielleicht zu den am schwierigsten zu behandelnden Problemen, da subtile Unterschiede in der Bedeutung der Daten schwer zu erkennen sein können. Häufig handelt es sich bei Datensätzen um bloße Momentaufnahmen von Datensätzen, die aus verschiedenen Quellen extrahiert wurden, ohne dass der Inhalt und die Bedeutung der einzelnen Teile des Datensatzes erläutert werden. Der Kontext und die Herkunft der Daten gehen dabei oft verloren, was eine effektive Nutzung des Datensatzes für analytische Zwecke erschwert. Wenn der Prozess, der Zweck und der Akteur der Datenerhebung nicht bekannt sind, lassen sich potenzielle Verzerrungen in den Daten und subtile Bedeutungsunterschiede möglicherweise nicht erkennen. In diesem Fall sind umfassende Metadaten und die Herkunft der Daten von großem Nutzen. Semistrukturierte, unstrukturierte und graphenstrukturierte Daten erfordern keine Schemadefinition. Es ist daher verlockend, sich auf die Bereitstellung von Daten in einem Data Lake zu konzentrieren und die zugehörigen Metadaten zu vernachlässigen. Stattdessen verlässt man sich auf informelle Kommentare und das implizite Wissen der Benutzer, um die Daten effektiv zu nutzen. Leider scheitert dieser Ansatz schnell, wenn die Nutzer, die die Daten zur Verfügung stellen, andere sind als die, die sie analysieren. Selbst wenn jeder Datensatz durch eine Ontologie beschrieben wird, bleibt die Bestimmung übereinstimmender Elemente in verschiedenen Ontologien ein schwieriges ungelöstes Problem. Der Abgleich auf der Grundlage struktureller Aspekte und lexikalischer Repräsentation ist oft ungenau, und explizite Aussagen über Äquivalenzen zwischen Konzepten, die in einem Kontext spezifiziert wurden, sind möglicherweise nicht auf einen anderen Kontext übertragbar. Darüber hinaus stellen unterschiedliche Konzeptualisierungen und eine unterschiedliche Granularität der Konzepte in Ontologien desselben Bereichs eine weitere Herausforderung für den Abgleich und die Abstimmung von Ontologien und den damit verbundenen Datensätzen dar. Sich ändernde Ontologien und die Steuerung ihrer Entwicklung erfordern ebenfalls weitere Untersuchungen.
4.2.2 Vielfalt der Granularität Die Daten können auf mehreren Aggregationsebenen betrachtet werden. Data Warehouses sind so organisiert, dass Rohdaten auf verschiedenen Dimensions- und Granularitätsebenen aggregiert werden, um eine effiziente Analyse mit Abfragen auf verschiedenen Abstraktionsebenen zu ermöglichen. Die Aggregation von Daten kann auf der Werteskala erfolgen, wo ein präziser Wert durch allgemeinere Darstellungen ersetzt wird; auf der zeitlichen Skala, wo Elemente zu verschiedenen Zeitpunkten zu einem einzigen Element
4 Vielfaltsmanagement für Big Data
59
kombiniert werden, das eine Zeitspanne repräsentiert; räumlich, wo Elemente mit einer räumlichen Region zu einem einzigen Element aggregiert werden, das die Region repräsentiert; und entlang verschiedener domänenspezifischer Beziehungen. Es ist jedoch wichtig zu wissen, wie die Daten erhoben und wie sie aggregiert wurden, da unterschiedliche Aggregationsmethoden zu unterschiedlichen Schlussfolgerungen führen können.
4.2.3 Quellenvielfalt Unterschiedliche Datenquellen sind einer der Hauptgründe für die Vielfalt von Big Data. Daten werden kontinuierlich von Nutzern, Maschinen, Prozessen und Geräten erzeugt und zur weiteren Analyse gespeichert. Um wirksame Schlussfolgerungen zu ziehen, müssen oft Daten aus verschiedenen Quellen kombiniert, integriert und verknüpft werden, und es müssen Analysemethoden auf die kombinierten Daten angewendet werden. Groß angelegte Datenanalyseplattformen bestehen oft aus einem ganzen Ökosystem von Systemen, die Daten speichern, verarbeiten und analysieren. Heterogene Datenquellen stellen eine zusätzliche Komplexitätsebene in Big-Data- Ökosystemen dar. Die zentrale Herausforderung besteht darin, diese Quellen zu integrieren, um korrelierte, aussagekräftige Informationen aus ihnen zu extrahieren. Mit dem Aufkommen nicht-relationaler Speichertechnologien wie NoSQL- und NewSQL- Datenspeichern hat sich die Fähigkeit zur Speicherung halbstrukturierter und unstrukturierter Daten verbessert. Die Notwendigkeit, die in den vorangegangenen Abschnitten beschriebene strukturelle Vielfalt zu überwinden, ist jedoch dringender als je zuvor. Im Gegensatz zu den Fortschritten im Bereich des maschinellen Lernens und der Automatisierungstechniken beruhen die Praktiken des Software-Engineering und der Datenverwaltung auf überwiegend manuellen Verfahren. Insbesondere die Vermittlung zwischen verschiedenen Schnittstellen, Datenaustauschprotokollen und Bedeutungsunterschieden in den von den Systemen zur Verfügung gestellten Daten beruht weitgehend auf manuell erstellten Vermittlern, Wrappern und Transformationspipelines. Datenquellen können unterschiedliche Datenqualitätsmerkmale aufweisen. Selbst wenn die Daten strukturell und semantisch identisch sind, können Unterschiede in Bezug auf Korrektheit, Fristen und Vollständigkeit ihren Nutzen beeinträchtigen. Außerdem kann die tatsächliche oder wahrgenommene Zuverlässigkeit, Qualität oder das Vertrauen den tatsächlichen oder wahrgenommenen Nutzen beeinflussen.
4.2.4 Qualitätsvielfalt Datensätze können einen gewissen Grad an Datenqualität aufweisen, der sich in verschiedenen Stufen der Korrektheit, Vollständigkeit und Aktualität äußert. Darüber hinaus kann die tatsächliche Qualität des Datensatzes von der wahrgenommenen Qualität abweichen, wenn subjektive Attribute wie Ruf und Vertrauen in die Quellen berücksichtigt
60
W. Mayer et al.
werden. Da der Begriff der Qualität stark von der Anwendung und der beabsichtigten Nutzung der Daten in einem bestimmten Kontext abhängt, gibt es keine allgemein anerkannte Methode zur Quantifizierung der Qualität von Rohdaten und abgeleiteten Informationen. Wenn die Qualität der Daten irgendwie direkt bewertet werden kann, z. B. durch menschliche Inspektion, Vergleich mit Goldstandards oder bekannten Eigenschaften der Quellen wie Sensoren, können die Datensätze mit Qualitätsindikatoren versehen werden. Andernfalls können Metadaten, die die Herkunft eines Datensatzes beschreiben, zur Information über anwendungsspezifische Qualitätsbewertungsmethoden verwendet werden.
4.2.5 Verarbeitungsvielfalt Die Datenverarbeitungstechniken reichen von der Stapel- bis zur Echtzeitverarbeitung. Die Stapelverarbeitung ist eine effiziente Methode zur Verarbeitung großer Datenmengen, bei der eine Reihe von Transaktionen über einen bestimmten Zeitraum hinweg gesammelt wird. Im Allgemeinen werden bei der Stapelverarbeitung separate Programme für die Datenerfassung, gefolgt von der Dateneingabe und schließlich der Datenverarbeitung eingesetzt, die Ergebnisse in Stapeln produzieren. Beispiele für Stapelverarbeitungssysteme sind Gehaltsabrechnungs- und Fakturierungssysteme. Im Gegensatz dazu verarbeitet die Echtzeit-Datenverarbeitung Daten (fast) in Echtzeit und eignet sich für Anwendungen, bei denen die Antwortzeiten geringer sein sollten, z. B. Bankautomaten und POS-Systeme. Ausgefeilte Datenverarbeitungsarchitekturen wie die Lambda-Architektur [4] wurden entwickelt, um den Anforderungen sowohl der Stapel- als auch der Echtzeitverarbeitung großer Mengen von Datenströmen gerecht zu werden. Unterschiede in der Verarbeitung können außerdem zu einer unterschiedlichen Datenqualität führen. Die Verwendung mehrerer Softwareimplementierungen und Algorithmen für die Vorverarbeitung von Daten, die Datenanreicherung und die Extraktion abgeleiteter Daten kann zu Unterschieden in der Datenqualität führen, die eine weitere Analyse behindern können. Es kann schwierig sein, Datensätze zu kombinieren und zu nutzen, die unter verschiedenen (systematischen) Datenqualitätsproblemen leiden, die z. B. durch Algorithmusfehler entstehen. Umfassende Metadaten und Herkunftsinformationen können helfen, potenzielle Probleme zu erkennen und auf Einschränkungen des resultierenden Datensatzes hinzuweisen.
4.3 Variabilitätsmanagement in Data Lakes Die Vielfalt der Daten bringt organisatorische Herausforderungen mit sich, die bei der Erstellung eines Data Lake sorgfältig berücksichtigt werden müssen [5]. Wenn Datensätze in Ad-hoc-Verfahren und willkürlichen Formaten hinzugefügt werden, kann es schwierig sein, nützliche Datensätze zu identifizieren, ihren Inhalt zu interpretieren und die Schlussfolgerungen aus der gemeinsamen Analyse mehrerer Datensätze effektiv zu nutzen. Unabhängig davon, ob es sich um ein großes oder kleines Volumen handelt, erfordert die lang-
4 Vielfaltsmanagement für Big Data
61
fristige Pflege und Weiterentwicklung des Data Lakes ein durchdachtes Design und eine entsprechende Governance, um zu verhindern, dass der Data Lake zu einem „Datensumpf“ verkommt, dessen Nutzen mit dem Hinzufügen von immer mehr Datensätzen abnimmt. Obwohl Data Lakes manchmal als schemafreie Datenspeicher angesehen werden, zu denen beliebige Daten einfach hinzugefügt werden können, ist ein Minimum an strukturellen und semantischen Informationen erforderlich, um die Daten später effektiv zu verarbeiten und zu analysieren – insbesondere, wenn die Benutzer, die die Analyse durchführen, andere sind als diejenigen, die die Datensätze beigesteuert haben. Bei der Entwicklung von Data Lakes, die eine Vielzahl von Daten enthalten, werden vielschichtige Metadaten verwendet, um das Auffinden und die Organisation von Datensätzen zu erleichtern, sowie Föderation und Partitionierung, um unterschiedliche Datenquellen und -merkmale zu berücksichtigen, und automatisierte Anreicherungs- und Integrationsprozesse, die Rohdaten für die weitere Analyse vorbereiten und gleichzeitig die Herkunft der Daten erhalten.
4.3.1 Metadaten-Speicher Metadaten über Datensätze sind entscheidend für die Navigation und das Auffinden von Datensätzen, die Interpretation des Inhalts der einzelnen Datensätze, die Integration von Daten und die Verwaltung von Data Lakes. Metadaten-Speicher erfassen Informationen über ganze Datensätze zusätzlich zu detaillierteren Informationen über die Struktur und die Interpretation des Inhalts jedes Datensatzes. Auf der höchsten Ebene erleichtern Metadaten-Speicher die Navigation und Erkundung der Inhalte eines Data Lake, indem sie einen Informationskatalog auf der Grundlage einer domänenspezifischen Ontologie pflegen. Interessierte Leser finden in Kap. 2 eine pragmatische Anleitung zur Erstellung einer solchen Ontologie. Der Informationskatalog kategorisiert Datensätze auf der Grundlage semantischer Konzepte, die den Geschäftsanwendern eine Bedeutung vermitteln und sie bei der Erkundung und Entdeckung relevanter Datensätze im Data Lake unterstützen. Metadaten über die Quelle und die Aktualität der Daten können helfen, die Qualität der Daten im Hinblick auf die beabsichtigte Verwendung zu beurteilen.
4.3.2 Arten von Metadaten Metadaten sind nicht auf die Kategorisierung von Datensätzen beschränkt. Im Allgemeinen müssen Metadaten, die für den geschäftlichen, den technischen und den betrieblichen Bereich relevant sind, gepflegt werden. • Geschäftsmetadaten beschreiben die Daten in Begriffen, die auch nicht-technische Benutzer verstehen können. Dies ist besonders wichtig, wenn Data Lakes von nichttechnischen Benutzern betrieben werden und diese unterstützen. Daher sollte dieses Vokabular und der Klassifizierungsmechanismus in enger Zusammenarbeit mit den Ge-
62
W. Mayer et al.
schäftsanwendern entwickelt werden. Die im Informationskatalog beschriebene umfassende Kategorisierung von Datensätzen ist ein Beispiel für geschäftliche Metadaten. • Technische Metadaten beschreiben den Datentyp, die Struktur und das Format der Daten. Informationen über Softwaresysteme und Schnittstellen, die für den Zugriff auf und die Bearbeitung von Daten erforderlich sind, sind ebenfalls relevant. Abbildungen zwischen dem Geschäftsvokabular und der technischen Kodierung in den Daten sollten gepflegt werden, um die Verarbeitung und Interpretation der Daten zu unterstützen. Wenn möglich, sollte eine einheitliche Darstellung gewählt werden, um die spätere Integration von Datensätzen zu vereinfachen. • Operative Metadaten erfassen Informationen über die Datenherkunft, die zeitliche Abfolge, statistische Merkmale wie das Volumen und Ereignisse im Zusammenhang mit der Aufnahme, Verarbeitung, Änderung und Speicherung von Daten. Insbesondere Informationen über die Herkunft und den zeitlichen Verlauf von Daten sind für die Datenintegration und die Bewertung der Datenqualität wichtig, während Informationen über die Speicherung und Replikation von Daten eine effiziente Abfrage unterstützen. Da rüber hinaus können Einschränkungen des Zugriffs und der Nutzung von Daten als Metadaten erfasst werden. (In Kap. 3 wird ein Ansatz beschrieben, bei dem Richtlinien mit verknüpften Daten verknüpft werden). Ähnlich wie Datenschemata, die die in einer Datenbank gespeicherten Informationen beschreiben, sollte ein Metadatenschema entwickelt werden, das die Bedeutung und Darstellung von Metadaten definiert. Obwohl die Daten in einem Data Lake sehr unterschiedlich sein können, ist die Darstellung der Metadaten in der Regel einheitlicher und stabiler. Die Qualität (insbesondere die Korrektheit und Vollständigkeit) der Metadaten ist für den Betrieb eines Data Lake entscheidend. Daher sollten Werkzeuge zur Verfügung gestellt werden, die kontrollieren, wie diese Daten generiert werden, um möglichst Konsistenz zu erreichen. Technische und betriebliche Metadaten können oft automatisch erfasst werden. So können z. B. die Herkunft und der zeitliche Verlauf der Daten sowie das Datenformat, der Zeitpunkt der Aufnahme und die Verarbeitung, durch die die Daten möglicherweise verändert wurden, automatisch als Teil der Aufnahme- und Verarbeitungspipeline erfasst werden. Geschäftliche Metadaten und ihre Zuordnungen zu technischen Darstellungen sind oft schwieriger zu beschaffen. Es sollten Software-Tools zur Verfügung gestellt werden, die die Benutzer bei der Bereitstellung von Metadaten unterstützen, wenn die Daten in den See aufgenommen werden. Darüber hinaus können intelligente Assistenten, die Metadaten-Annotationen und -Abbildungen ableiten können, die Erfassung vereinfachen und die Qualität verbessern.
4.3.3 Granularität der Metadaten Metadaten können mit ganzen Datensätzen oder mit einzelnen Elementen in Datensätzen verknüpft werden, je nach der Granularität, mit der Daten geändert werden. Für Data
4 Vielfaltsmanagement für Big Data
63
Lakes, die Anwendungen wie die Analyse von Protokolldateien unterstützen, können Metadaten über ganze Protokolldateien ausreichen, während „Datentresore“, die ähnlich wie herkömmliche datensatzbasierte Datenspeicher funktionieren, Metadaten auf Datensatzebene erfordern.
4.3.4 Föderation Daten, die in einem Data Lake verfügbar sind, können in externen Systemen gespeichert sein, z. B. in relationalen Datenbanken, die innerhalb verschiedener Unternehmensgrenzen verwaltet werden. Föderierte Architekturen, die die Daten bei Bedarf aus den Quellsystemen abrufen, können die vorhandenen Systeme nutzen und einen einzigen Zugangspunkt für alle Daten bieten. Wrapper (auch Adapter genannt) übersetzen den Datenzugriff aus dem Data Lake in Abfragen, die die externen Systeme ausführen können, und transformieren die resultierenden Daten in das im Data Lake verwendete Format. Der Wrapper fügt auch Informationen über die Herkunft und andere Metadaten hinzu. Es gibt Abbildungs- und Abfrageumwandlungstechnologien, die auf der Grundlage der Quell- und Zieldatenschemata konfiguriert werden können. Standards für verknüpfte Daten, wie RDF, können im Data Lake verwendet werden, um die Vorteile von Verknüpfungen und graphenbasierten Darstellungen zu nutzen, selbst wenn die Daten in einem anderen Format gespeichert sind. Die in Abschn. 4.4 dieses Kapitels beschriebene Anwendungsarchitektur und die mediatorbasierten Architekturen in den Kap. 3 und 13 sind Beispiele für solche föderierten Data-Lake-Architekturen.
4.3.5 Aufteilung Data Lakes können auf der Grundlage des Lebenszyklus der Daten in verschiedene Zonen unterteilt werden, um den unterschiedlichen Merkmalen der Datensätze Rechnung zu tragen. Wenn Rohdaten in einem Data Lake aufbewahrt werden, wird empfohlen, diese Daten in einer Landing Zone aufzubewahren, die von den verarbeiteten Daten im See getrennt ist. Data Lakes, die für bestimmte Analysezwecke konzipiert sind, werden häufig durch Datenaufnahme-Pipelines unterstützt, in denen Rohdaten verarbeitet, bereinigt/standardisiert, angereichert und mit anderen Datensätzen verknüpft oder integriert werden. Dieser Prozess kann in verschiedene Phasen aufgeteilt werden, wobei die Zwischenergebnisse in verschiedenen Zonen aufbewahrt werden und Metadaten die zugehörigen Daten über die Zonengrenzen hinweg verknüpfen. Diese Architektur trennt die heterogenen Rohdaten klar von den strukturierten abgeleiteten Daten und ermöglicht es Data Lakes, unterschiedliche Technologien und Richtlinien zur Verwaltung der Daten in jeder Zone zu verwenden. Dies ist von Vorteil, da sich Rohdaten und verarbeitete Daten in der Regel in Bezug auf Volumen, Datentyp und Zugriffsmuster unterscheiden. Die Verknüpfungen zwischen den Daten in den verschiedenen Zonen unterstützen die Lösung von Problemen, die in der
64
W. Mayer et al.
Ingestion-Pipeline auftreten können, und ermöglichen zusätzliche Analysen, die beim ursprünglichen Entwurf des Data Lakes möglicherweise nicht vorgesehen waren. Bewährte Verfahren für den Entwurf technischer Architekturen für Big-Data-Verarbeitungssysteme auf der Grundlage heterogener Technologiestapel (so genannte „polyglotte Architekturen“) finden sich in der vom Data to Decisions Cooperative Research Centre entwickelten BigData-Referenzarchitektur [6].
4.3.6 Datenintegration und Datenanreicherung Die Analyse von Rohdaten ist aufgrund von Unterschieden in der Darstellung, Qualität und Vollständigkeit oft eine Herausforderung. Darüber hinaus müssen Rohdaten unter Umständen verarbeitet werden, um die für die weitere Analyse erforderlichen Informationen freizulegen, und die Datensätze müssen möglicherweise mit anderen Informationen im Data Lake integriert werden. Zu den üblichen Operationen, die der Analyse vorausgehen, gehören das Verwerfen ungültiger oder unvollständiger Daten, die Änderung der Darstellung (Kodierung und/oder Struktur, Standardisierung) von Daten, die Extraktion von Schlüsselinformationen und die Erstellung abgeleiteter Daten aus einem Datensatz. Darüber hinaus können Algorithmen zur Anreicherung von Datensätzen angewandt werden, indem neue Informationen durch Extraktion von Schlüsselinformationen aus den Daten abgeleitet werden und Daten mit anderen Datensätzen im Data Lake verknüpft werden. Ein Beispiel ist die Analyse unstrukturierter Textdokumente, bei der interessante Entitäten im Text identifiziert und mit anderen Informationen im Data Lake verknüpft werden sollen. Die Textdokumente können zunächst in einem Hadoop-Cluster gespeichert werden, und der Text kann anschließend extrahiert und in einer Freitextsuchmaschine wie Elasticsearch1 indiziert werden. Algorithmen zur Extraktion benannter Entitäten können angewandt werden, um Erwähnungen interessanter Entitäten zu identifizieren, z. B. Personen oder Orte, und eine Zusammenfassung der Entitäten kann in einem strukturierten Datenspeicher gespeichert werden. Dieser Datensatz kann die Grundlage für weitere Analysen bilden, z. B. Entity Linking, Clustering und Netzwerkanalysen. Die automatisierte Orchestrierung von Vorverarbeitungs- und Anreicherungsprozessen hat mehrere Vorteile, darunter die Konsistenz der Datenverarbeitung, die automatische Pflege von Stammdaten-Metadaten und die Durchsetzung von Datenstandards innerhalb des Sees. Darüber hinaus kann die Verfügbarkeit vorverarbeiteter Daten in einem Data Lake auch Nutzern mit relativ geringen technischen Kenntnissen den Zugriff auf die Daten ermöglichen. Darüber hinaus erleichtern definierte Datenstandards die Integration mehrerer Datensätze, wobei jede Datenquelle über die gemeinsamen Standards integriert wird und nicht jeder Datensatz über Punkt-zu-Punkt-Integrationslösungen mit einer Reihe anderer Daten https://www.elastic.co/.
1
4 Vielfaltsmanagement für Big Data
65
sätze integriert wird. Mehrere mediatorbasierte Architekturen haben diesen Ansatz gewählt, bei dem die (teilweise) Standardisierung beim Mediator stattfindet. Die Architektur in Kap. 3 wendet beispielsweise semantisches Lifting bei den Mediatoren an.
4.3.7 Zugangskontrolle Zugriffskontrollmechanismen für heterogene Data Lakes können schwierig zu implementieren sein, da gängige Big-Data-Plattformen den Schwerpunkt auf Skalierbarkeit statt auf Sicherheit legen. Darüber hinaus können herkömmliche benutzer- und rollenbasierte Zugriffskontrollmechanismen für Anwendungen unzureichend sein, bei denen sensible Informationen in den Daten oder in ihrer Struktur enthalten sind. Beispielsweise können die Zugriffsrechte, die erforderlich sind, um einen Link zwischen Entitäten in einem Graphen zu sehen, der Beziehungen zwischen Personen darstellt, nicht nur von der spezifischen Art des Links, sondern auch von den Eigenschaften der Entitäten an den Endpunkten des Links abhängen. Daher müssen Zugriffsrichtlinien und Zugriffskontrollmechanismen möglicherweise eher auf der Ebene der einzelnen Fakten als auf der Ebene des Datensatzes oder sogar der Datenquelle beschrieben werden. Obwohl Metadaten-Annotationen eingerichtet werden können, um die erforderlichen Privilegien in angemessener Granularität darzustellen, ist die Werkzeugunterstützung für die Durchsetzung solcher feinkörnigen Zugriffsmodelle gerade erst im Entstehen. Darüber hinaus müssen Anreicherungsprozesse und Mechanismen für die Datenabfolge sorgfältig im Hinblick auf die Sicherheit konzipiert werden, um sicherzustellen, dass abgeleiteten Informationen geeignete Zugriffsmetadaten zugeordnet werden. Mediator-basierte föderierte Architekturen stehen vor der zusätzlichen Herausforderung, dass Datenquellen möglicherweise nicht in der Lage sind, feinkörnige Zugriffsbeschränkungen durchzusetzen. Die Durchsetzung der Zugriffskontrolle in einem heterogenen Software-Ökosystem ist Gegenstand aktiver Forschung.
4.4 Anwendung in der Strafverfolgung Die Behörden stützen sich zunehmend auf Informationen, die von anderen Behörden oder ihren Partnern stammen. Das D2D CRC arbeitete beispielsweise mit Nachrichtendiensten und Polizeikräften zusammen, um eine integrierte Plattform für die Strafverfolgung (ILE) aufzubauen. Staatliche Informationsquellen reichen von Strafregisterauszügen, Einwan derungsunterlagen, Fingerabdruckdaten, Waffen- oder Fahrzeugregistrierungen und Videoüberwachungskameras bis hin zu Informationen über Hausbesitz und Steuern. Die rechtzeitige Beschaffung von Informationen in einer für die Analyse geeigneten Form ist jedoch nach wie vor eine Herausforderung, da Analysten möglicherweise nicht wissen, dass Daten, die ihre Interessen betreffen, an anderer Stelle verfügbar sind, und es oft schwierig ist, Daten über Behörden- und Systemgrenzen hinweg zu erhalten. Darüber hinaus muss der Zugang zu Daten sorgfältig verwaltet werden, da sensible Inhalte mög-
66
W. Mayer et al.
licherweise gesetzlichen Beschränkungen und Haftbefehlen unterliegen und eine Replikation oder ein Import in Analysetools nicht möglich ist. Ziel ist es, Technologien zu entwickeln, zu integrieren und zu bewerten, die Polizeikräften und Analysten einen einheitlichen Zugang zu integrierten Informationen aus verschiedenen Datenquellen unterschiedlicher Behörden ermöglichen, um Daten zu aggregieren, Entitäten und Identitäten aufzulösen und zu verknüpfen, ungewöhnliche Muster zu erkennen und darauf zu reagieren sowie Bedrohungsmodelle in Bezug auf Ereignisse und Entitäten zu erstellen und zu pflegen.
4.4.1 Überblick über eine integrierte Strafverfolgungsarchitektur (ILE) Die Gesamtarchitektur der ILE-Plattform ist in Abb. 4.1 dargestellt. Sie basiert auf einem föderierten Architekturmodell, bei dem eine oder mehrere Instanzen der ILE-Plattform eingesetzt werden können und auf mehrere externe Datenquellen zugreifen. Jede Instanz kann individuelle Abfrage- und Analysedienste bereitstellen und bei Bedarf Daten von anderen Instanzen und externen Quellen abrufen. Die Architektur besteht aus fünf Schichten, die im Folgenden ausführlicher beschrieben werden:
User Interface
!"#$%&'#(() Integrated!"#$%&'#(() Policing Case Walls Contextual Presentation
Data Analytics
Interactive Search & Question Answering Custom Analytics Curation Services
Process Automation
Analytic Services Knowledge Hub
Linking & Resolution Querying
Access
Curated Data stores
Data Sources
Knowledge Graph
Indexing Meta-Data
Access APIs
Ingestion
Doc External sources
Case Management System
Internal sources
External services
Abb. 4.1 Konzeptuelle Architektur der integrierten Strafverfolgung, entwickelt vom D2D CRC
4 Vielfaltsmanagement für Big Data
67
Datenquellen Die Strafverfolgungsbehörden stützen sich in hohem Maße auf externe Quellen, die in die internen Informationssysteme integriert werden müssen. Externe Quellen werden in der Regel von externen Organisationen kontrolliert und können sich im Laufe der Zeit ändern, wobei sich Änderungen auf den Inhalt, die Struktur und die Zugänglichkeit beziehen. Organisatorische Richtlinien unterstützen in diesem Zusam menhang nur selten herkömmliche Extract-Transform-Load (ETL)-Prozesse über Organisationsgrenzen hinweg, was eine Herausforderung darstellen kann. Externe Quellen können Social-Media-Kanäle wie Twitter, Facebook-Posts oder alle Dokumente sein, die während einer Untersuchung gesammelt werden und oft halb- oder unstrukturiert sind. Unter Umständen muss auch auf externe Dienste zugegriffen werden, z. B. auf Telefonaufzeichnungen von Telekommunikationsunternehmen. Interne Informationssysteme sind Systeme, die bei der Verwaltung von Ermittlungen helfen. Je nach der Struktur einer Behörde können Bundes- und Landesbehörden unterschiedliche Systeme oder verschiedene Versionen desselben Systems verwenden, was die Integration noch komplexer macht. Zugriffsschicht Die ILE-Plattform bietet und nutzt Anwendungsprogrammierschnittstellen (APIs) für Front-End-Anwendungen, um auf Daten zuzugreifen und Analysedienste aufzurufen. Diese zweiseitige Kommunikation wird dort genutzt, wo dies möglich ist, z. B. wenn externe Dienste wie Systeme zur Abfrage von Telefonaufzeichnungen eine API bereitstellen und interne Systeme wie ein Ermittlungsmanagementsystem die ILEAPI zur Durchführung von Verbundabfragen aufrufen. Die von der Plattform bereitgestellten APIs verwenden ein einheitliches Datenformat und Kommunikationsprotokoll. In künftigen Versionen der Plattform können mobile Anwendungen für Ermittler entwickelt werden, die diese APIs nutzen. Das Datenaufnahme-Subsystem ermöglicht den Zugriff auf externe Quellen, die keine API bereitstellen, wie z. B. Dokumente und einige Social-Media-Kanäle. Für diese Datenquellen bietet die ILE-Plattform Wrapper. Der Unterschied zu herkömmlichen Wrappern und ETL-Prozessen besteht in der Unterstützung von verknüpften Daten und der Unterstützung der Aufnahme von Metadaten, anstatt den vollständigen Inhalt einer Datenquelle in die Plattform zu laden, wie es bei herkömmlichen Data-Warehouse-Ansätzen der Fall ist. Wissensbasis Diese Schicht stellt das Herzstück der ILE-Plattform dar. Die Daten werden in kuratierten Linked-Data-Speichern gespeichert, d. h. in einer Reihe von Datenbanken, die gemeinsam eine wissensgraphenähnliche Struktur mit Entitäten, ihren Verknüpfungen und Metadaten implementieren [7, 8]. Dieser kuratierte Datenspeicher enthält Fakten und Metadaten über Entitäten und deren Verknüpfungen, deren Wahrheitsgehalt bestätigt wurde. Er wird verwendet, um die Ergebnisse für Abfragen abzuleiten und um Anfragen an externe Quellen und andere Instanzen zu synthetisieren, wenn weitere Informationen benötigt werden. Der Speicher für verknüpfte Daten implementiert ein Verzeichnis von Entitäten und Verknüpfungen, das mit geeigneten Metadaten angereichert ist, einschließlich Abbildung auf eine Ontologie und Quelleninformationen, so dass detaillierte Informatio-
68
W. Mayer et al.
nen aus maßgeblichen Quellen, die außerhalb des Systems liegen können, abgerufen werden können. Dieser Ansatz ist erforderlich, da die Daten im Bereich der Strafverfolgung auf eine Reihe von Systemen verstreut sind, die sich im Besitz verschiedener Behörden befinden und von diesen betrieben werden. Daher kann in absehbarer Zeit keine zentral kontrollierte Datenbank eingerichtet werden. Die im verknüpften Datenspeicher enthaltenen Informationen werden durch eine Ontologie geregelt, die die Entitätstypen, Verknüpfungstypen und zugehörigen Metadaten definiert, die auf der kollektiven Plattform verfügbar sind. Die Ontologie dient als Referenz für die Wissensverwaltung/-organisation und hilft bei der Integration von Informationen aus externen Quellen, wobei sie als Referenz für die Verknüpfung und Übersetzung von Informationen in eine für die Wissensdrehscheibe geeignete Form dient. Die Ontologie wurde speziell für den Bereich der Strafverfolgung entwickelt und enthält detaillierte Herkunftsinformationen und Metadaten in Bezug auf Informationszugangsbeschränkungen. Sie ist explizit dargestellt und kann abgefragt werden. Alle Informationen innerhalb der ILE-Plattform werden in der Ontologie dargestellt, um die Verknüpfung und Analyse von Entitäten zu erleichtern. Die Ontologie konzeptualisiert den Bereich auf drei Ebenen: (1) die Metaebene, auf der die Konzepttypen erfasst werden, (2) die Typebene, auf der die Domänenkonzepte in Form von Typen dargestellt werden, und (3) die Instanzebene, auf der die Daten auf Instanzebene dargestellt und verknüpft werden. Die Metaebene definiert beispielsweise EntityType, RelationshipType und MetaAttributeType. Die Typen auf der darunter liegenden Ebene stellen eine Hierarchie von Objekttypen dar, darunter Personen, Organisationen, Fahrzeuge und andere Objekttypen, konkrete Domänenbeziehungen, die zwischen Objekttypen hergestellt werden können (z. B. dass eine Person für eine Organisation arbeitet), sowie Metadaten-Attribut-Typen, die sich auf Zugriffskontrolle, Herkunft und zeitliche Gültigkeit beziehen. Instanzen auf der untersten Ebene stellen einzelne Objekte und Beziehungen dar, z. B. ein bestimmtes Fahrzeug, das auf eine einzelne Person registriert ist. Diese Domänenkonzepte sind eng mit dem NIEM-Standard2 und Konzepten im Zusammenhang mit der Fallverwaltung abgestimmt. Das Datenherkunftsmodell ist eine Erweiterung von PROV-O [9]. Die Instanzen der Domänenkonzepte bilden die Objekte, die den Wissensgraphen auf der untersten Ebene der Ontologie bilden. Die vorgenannten Konzepte werden durch Klassen und Objekte ergänzt, die Datenquellen darstellen, die mit den darin gespeicherten Domäneninformationen verknüpft sind, sowie durch Schemaabbildungs-Informationen, die für die Übersetzung zwischen der externen Quelle und dem in der föderierten Architektur verwendeten Ontologiemodell erforderlich sind. Diese mehrstufige Modellierungsmethode wurde gewählt, um eine modulare und erweiterbare Wissensrepräsentationsarchitektur zu schaffen. Informationen aus externen Quellen werden auf der Grundlage eines Katalogs von Datenquellen gesucht, die dem System zur Verfügung stehen, jeweils mit einem ent https://www.niem.gov/.
2
4 Vielfaltsmanagement für Big Data
69
sprechenden Adapter, der mit den externen Systemen kommuniziert und die Informationen und Metadaten in die innerhalb der ILE-Plattform verwendete Ontologie umschreibt [10]. Unsere Plattform umfasst mehrere Quellen, darunter eine Entitätsdatenbank (Personen, Objekte, Orte, Ereignisse und Beziehungen), ein Fallmanagementsystem und einen Speicher mit unstrukturierten Dokumenten. Die von externen Systemen erhaltenen Informationen durchlaufen eine Aufnahme- und Anreicherungspipeline, in der Entitäten extrahiert [11], mit Metadaten (Herkunft und Zugangsbeschränkungen) angereichert und mit dem Wissensgraphen im verknüpften Datenspeicher verknüpft werden. Die Qualität der Daten wird innerhalb dieser Pipelines überwacht und sichergestellt. Datenanalyse Zu den Analysediensten gehören die Extraktion von Entitäten aus unstrukturiertem Text [11], die Verknüpfung von Entitäten, die Berechnung von Ähnlichkeiten und das Ranking [12]. In die modulare Architektur können auch Dienste kommerzieller Tools integriert werden, z. B. Netzwerkanalyse und Lösungen für die Verknüpfung und Auflösung von Entitäten. Die Dienste zur Prozessautomatisierung ermöglichen die Orchestrierung von Arbeitsabläufen und benachrichtigen, wenn neue, für einen Fall relevante Informationen verfügbar werden. Workflow-Dienste erleichtern die Durchführung von Arbeitsprozessen, z. B. die Einholung von Genehmigungen und Haftbefehlen. Benutzerschnittstelle Die ILE-Plattform bietet Zugang zu Daten und Analysediensten über eine API (beachten Sie, dass APIs in Abb. 4.1 nur in der Zugriffsschicht explizit dargestellt sind), die es verschiedenen Benutzerschnittstellen ermöglicht, sich mit der Plattform zu verbinden. Es werden drei unabhängige Benutzerschnittstellen implementiert: (1) Case Walls [13] sind eine Facebook-ähnliche Benutzeroberfläche, die es Endnutzern ermöglicht, Ermittlungen auf einfache, intuitive Weise zu verwalten, die keine große Einarbeitung erfordert, (2) einfache föderierte Abfrageformulare auf der Grundlage von React,3 die leicht in Websites integriert werden können, und (3) eine neue, hochmoderne virtuelle Umgebung, die es Endnutzern ermöglicht, mit Ermittlungs- und Gerichtsdaten in einer hochmodernen virtuellen Umgebung zu interagieren und diese zu erforschen, die speziell auf die Handhabung der von diesem System ermöglichten Abfragen und Antworten zugeschnitten ist, so dass Endnutzer auf neuartige und innovative Weise mit Ermittlungs- und Gerichtsdaten interagieren und diese erforschen können [14, 15]. Übergreifende technische Aspekte wie Zugriffskontrolle und Benutzerverwaltung, Protokollierung, Überwachung und andere Einsatzmöglichkeiten wurden in dieser Architekturansicht nicht berücksichtigt. Unsere Implementierung baut auf Open-Source-Big- Data-Technologien auf, darunter Hadoop, Spark, PostgreSQL, RabbitMQ und RESTful-Schnittstellen. 3
https://reactjs.org/.
70
W. Mayer et al.
4.4.2 Umgang mit Vielfalt Die zuvor beschriebene ILE-Architektur zielt darauf ab, die verschiedenen Varianten im Kontext von Big Data zu adressieren und zu verwalten. Strukturelle Vielfalt und Quellenvielfalt Der Zugang zu unterschiedlichen Datentypen und Datenformaten wird über Wrapper bereitgestellt, die entweder Teil der Aufnahme in die Zugriffsschicht sind oder die Nutzlast von API-Aufrufen übersetzen. Die Entwicklung von Wrappern kann durch modellgesteuerte Techniken wie Modelltransformationssprachen, z. B. ATL [16] oder ETL [17], erleichtert werden. Diese Sprachen ermöglichen es, Datenspezifikationen auf eine Modellebene zu heben, wodurch sie leichter zu verstehen und zu verwalten sind, und führen dann Transformationen an ihnen durch, um Unterschiede in den Spezifikationen zu überwinden. Die Entwicklung von Transformationsregeln kann durch semantische Matching-Technologien wie Ontologie- Matching [18] und Matching-Tools wie Karma [19] unterstützt werden, um die semantische Vielfalt zu überwinden. Granularitätsvielfalt Die Verwaltung von Daten auf mehreren Aggregationsstufen kann sowohl auf der Zugriffsebene als auch auf der Ebene der Datenanalyse angegangen werden. Auf der Zugriffsebene können Wrapper die Aggregation von Daten durch Transformationen übernehmen, wenn die von externen Quellen bereitgestellten Daten zu detailliert für die Aufnahme in den kuratierten Linked-Data-Speicher sind. Auf der Datenanalyseschicht können verschiedene Dienste Daten aus der Wissensdrehscheibe durch Operationen ähnlich einem Data Warehouse oder einer OLAP-Operation aggregieren, wenn dies für die Analyse erforderlich ist. Verarbeitungsvielfalt Verschiedene Datenverarbeitungstechniken können innerhalb der ILE-Plattform durch Datenanalysedienste ausgeführt werden, die über eine API auf die Wissensdrehscheibe zugreifen können. Die API bietet Zugang zu den eigentlichen Daten, ermöglicht aber auch die Abfrage von Metadaten und Herkunftsinformationen, die helfen können, Einschränkungen der resultierenden Datensätze zu erkennen. Qualitätsvielfalt Die Datenqualität kann sowohl auf der Zugriffsebene als auch auf der Datenanalyseschicht berücksichtigt werden. Während des Ingestionsprozesses oder bei der Abfrage von APIs externer Dienste und Datenquellen kann die Datenqualität auf der Grundlage von Regeln überwacht werden, die in Wrappern ausgeführt werden. Auf der Datenanalyseschicht können spezielle Datenqualitätsdienste eingesetzt werden, die die Ergebnisse von Analysediensten in Kombination mit Metadaten und Herkunftsdaten analysieren, um die Qualität zu messen und Rückmeldungen zu den Ergebnissen zu geben.
4 Vielfaltsmanagement für Big Data
71
4.5 Empfehlungen Basierend auf unseren Erfahrungen im Umgang mit Data Lakes und automatisierten Datenverarbeitungssystemen werden die folgenden Empfehlungen als kritische Faktoren für den langfristigen Erfolg von Data Lakes angesehen: Bestimmen Sie die Interessengruppen und ihre beabsichtigten Anwendungsfälle für den Data Lake. Ihre Anforderungen bilden die Grundlage für die Entwicklung der Gesamtarchitektur und der Ontologien für Daten und Metadaten. Verknüpfen Sie umfassende Metadaten mit jedem Datensatz (wenn möglich auch mit Elementen in Datensätzen). Automatisieren Sie die Erfassung von Metadaten so weit wie möglich. Entscheiden Sie sich für den Grad der Standardisierung innerhalb des Sees und implementieren Sie geeignete Aufnahme- und Zugriffskanäle. Ein föderierter Zugriff und virtuelle Schemata können die Illusion eines einheitlichen Data Lake auf heterogenen Systemen erzeugen. Rechnen Sie damit, dass sich die Ontologien und Benutzeranforderungen weiterentwickeln werden. Vermeiden Sie es, wichtige Annahmen über Ontologien, Datensätze und Quellen bei der Implementierung festzulegen. Bereitstellung von Tools für Endbenutzer zum Auffüllen, Navigieren und Erkunden des Data Lake. Weitere Empfehlungen und Checklisten sind in [5, 20] zu finden.
4.6 Zusammenfassung Hier haben wir die Merkmale von heterogenen Data Lakes zusammengefasst und die Formen der Vielfalt untersucht, die bei der Erfassung einer großen Vielfalt von Daten in einem Datensee berücksichtigt werden müssen. In Data Lakes werden in der Regel große Mengen heterogener Daten gesammelt, die in vielen Systemen gespeichert sind und von einer Vielzahl von Nutzern stammen. In diesem Zusammenhang ist ein umfassendes Metadatenmanagement von wesentlicher Bedeutung für die langfristige Pflege von Data Lakes und die Vermeidung einer Verschlechterung des Sees im Laufe der Zeit. Wir haben die Arten der Datenheterogenität zusammengefasst und die Bedeutung von Metadaten und Ontologien für die Organisation von Data Lakes diskutiert. Hier können Ontologien die Entdeckung, Navigation, Erkundung und Interpretation heterogener Data Lakes unterstützen. Ontologien bieten nicht nur ein domänenspezifisches Vokabular für die Beschriftung, den Abruf und die Erkundung von Datensätzen durch Domänenexperten und Datenanalysten, sondern können auch dazu beitragen, ein leichtgewichtiges Schema über den Data Lake zu legen. Virtualisierungstechniken wie Wrapper und Mediator- Architekturen können dabei helfen, die strukturelle Vielfalt der Daten zu überwinden und
72
W. Mayer et al.
die Daten durch automatisierte Aufnahme- und Datenzugriffsprozesse mit wichtigen Metadaten zu verknüpfen. Semantische Metadaten sind ein Eckpfeiler für solche Architekturen, da sie Struktur, Herkunft, Sichtbarkeit (Zugriffskontrolle) und (erlaubte) Nutzung beschreiben. So können Ontologien und umfassende Metadatenkataloge die Interpretation vereinfachen, die Datenqualität steigern und die Integration mehrerer Datensätze erleichtern. Allerdings sind geeignete Governance-Mechanismen für die Ontologieentwicklung erforderlich, um die Datenqualität aufrechtzuerhalten, insbesondere wenn die Ontologie oder Ontologien, die den Data Lake unterstützen, nicht feststehen, sondern sich im Laufe der Zeit weiterentwickeln. Daher ist die Implementierung eines erfolgreichen Data Lake nicht nur eine technologische Herausforderung, sondern es müssen auch die damit verbundenen Prozesse, die beabsichtigten Anwendungsfälle und die sozialen Faktoren sorgfältig berücksichtigt werden. Wir haben eine Anwendung im Bereich der Strafverfolgung vorgestellt, bei der verschiedene Daten aus vielen Quellen gesammelt und in strengen Prozessen der Beweissicherung durch Polizeiermittler gepflegt werden müssen. Diese Anwendung zeichnet sich durch datengesteuerte Prozesse aus, bei denen das weitere Vorgehen in hohem Maße von der effektiven Erkundung und Verknüpfung der im Laufe der Ermittlungen gesammelten Teilinformationen abhängt. Der zugrunde liegende Data Lake stützt sich in hohem Maße auf Ontologien zur Vermittlung zwischen den verschiedenen Informationsdarstellungen in den zahlreichen Informationsquellen und zur effizienten Erkundung der zusammengetragenen Informationen. Metadaten erfassen die Abstammung von Daten, unterstützen Algorithmen zur Verknüpfung von Entitäten und regeln die Sichtbarkeit von Informationen und die Zugriffskontrolle.
Literatur 1. Laney D (2001) 3D data management: controlling data volume, velocity and variety. META Group Inc, Stamford 2. NewVantage Partners LLC (2016) Big Data executive survey 2016. NewVantage Partners, Boston 3. Dayley A, Logan D (2015) Organizations will need to tackle three challenges to curb unstructured data glut and neglect. Gartner report G00275931. Updated Jan 2017 4. Marz N, Warren J (2013) Big Data: principles and best practices of scalable realtime data systems. Manning Publications, New York 5. Russom P (2017) Data lakes: purposes, practices, patterns, and platforms. Technical report, TDWI 6. D2D CRC (2016) Big Data reference architecture, Bd 1–4. Data to Decisions Cooperative Research Centre, Adelaide 7. Stumptner M, Mayer W, Grossmann G, Liu J, Li W, Casanovas P, De Koker L, Mendelson D, Watts D, Bainbridge B (2016) An architecture for establishing legal semantic workflows in the context of Integrated Law Enforcement. In: Proceedings of the third workshop on legal knowledge and the semantic web (LK&SW-2016). Co-located with EKAW-2016, ArXiv 8. Mayer W, Stumptner M, Casanovas P, de Koker L (2017) Towards a linked information architecture for integrated law enforcement. In: Proceedings of the workshop on linked democracy: arti-
4 Vielfaltsmanagement für Big Data
73
ficial intelligence for democratic innovation (LINKDEM 2017), vol 1897. Co-located with the 26th international joint conference on artificial intelligence (IJCAI 2017), CEUR 9. Lebo T, Sahoo S, McGuinness D, Belhajjame K, Cheney J, Corsar D, Garijo D, Soiland-Reyes S, Zednik S, Zhao J (2013) PROV-O: the PROV ontology. W3C online. https://www.w3.org/TR/ prov-o/. Zugegriffen am 15.03.2018 10. Bellahsene Z, Bonifati A, Rahm E (2011) Schema matching and mapping. Springer, Berlin/ Heidelberg 11. Del Corro L, Gemulla R (2013) ClausIE: clause-based open information extraction. In: Proceedings of WWW. ACM, New York 12. Beheshti S-M-R, Tabebordbar A, Benatallah B, Nouri R (2017) On automating basic data curation tasks. In: Proceedings of WWW. ACM, Geneva, S 165–169 13. Sun Y-JJ, Barukh MC, Benatallah B, Beheshti S-M-R (2015) Scalable SaaS-based process customization with CaseWalls. In: Proceedings of ICSOC, LNCS, Bd 9435. Springer, Berlin/ Heidelberg, S 218–233 14. Drogemuller A, Cunningham A, Walsh J, Ross W, Thomas B (2017) VRige: exploring social network interactions in immersive virtual environments. In: Proceedings of the international symposium on big data visual analytics (BDVA). IEEE, Adelaide, Australien 15. Bastiras J, Thomas BH, Walsh JA, Baumeister J (2017) Combining virtual reality and narrative visualisation to persuade. In: Proceedings of the international symposium on big data visual analytics (BDVA). IEEE, Adelaide, Australien 16. Kurtev I, Jouault F, Allilaire F, Bezivin J (2008) ATL: a model transformation tool. Sci Comput Program 72(1):31–39 17. Polack F, Kolovos DS, Paige RF (2008) The Epsilon transformation language. In: Proceedings of ICMT, LNCS, Bd 5063. Springer, Berlin/Heidelberg 18. Shvaiko P, Euzenat J (2013) Ontology matching. Springer, Berlin/Heidelberg 19. Szekely P, Knoblock CA, Yang F, Zhu X, Fink EE, Allen R, Goodlander G (2013) Connecting the Smithsonian American Art Museum to the linked data cloud. In: Proceedings of ESWC, Montpellier, Frankreich 20. Russom P (2016) Best practices for data lake management. Technical report, TDWI
5
Text Mining in der Wirtschaft Melanie Siegel
Kernaussagen
1. Methoden der Sprachverarbeitung können eingesetzt werden, um Informationen aus Wirtschaftsprognosen zu extrahieren und in eine strukturierte Form für die weitere Analyse zu bringen. 2. Eine Ontologie der „Corporate Social Responsibility“-Informationen unterstützt die automatische Indexierung und Informationsextraktion aus Management- Berichten.
5.1 Einleitung Für mittlere und große Kapitalgesellschaften mit Sitz in Deutschland ist neben dem Jahres- und Konzernabschluss auch die Erstellung und Veröffentlichung von Lageberichten Pflicht. Diese Dokumente liegen in gedruckter Form, als PDFs, aber auch als HTML- Dokumente vor (https://www.bundesanzeiger.de/). Sie sind eine wichtige Informationsquelle für Finanzanalysten und Wirtschaftswissenschaftler, um Fragen zu beantworten wie: • Wie hat sich die wirtschaftliche Lage im vergangenen Geschäftsjahr entwickelt? • Welche Entwicklungen sind für die Zukunft zu erwarten?
M. Siegel (*) Hochschule Darmstadt, Darmstadt, Deutschland E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_5
75
76
M. Siegel
• Welche Auswirkungen haben die Maßnahmen der Unternehmen auf die Umwelt und die Gesellschaft? • Welche Maßnahmen ergreift ein Unternehmen im Hinblick auf die Umwelt und die Gesellschaft? Die Statusberichte sind jedoch nicht standardisiert und unstrukturiert.1 Die meisten Informationen bestehen aus Text. Die Formulierungen sind daher sehr unterschiedlich: Die gleiche Bedeutung kann in verschiedenen Sätzen ausgedrückt werden. Wenn Tabellen e nthalten sind, können deren Spalten und Zeilen in jedem Geschäftsbericht anders benannt sein. Die Kapitelüberschriften können sich von Unternehmen zu Unternehmen erheblich unterscheiden. Selbst die Terminologie kann uneinheitlich sein. Um die großen Textmengen auswerten zu können, wird nach automatischen Methoden zur Unterstützung der Wirtschaftswissenschaften gesucht. Die automatischen Methoden sollen die intellektuelle Analyse mit statistischen Daten unterstützen, die aus den Texten gewonnen werden. Da es sich bei den Daten um Texte handelt, kann eine Datenbanktechnologie nicht auf den Inhalt zugreifen. Es wird eine Technologie benötigt, die sich auf die Semantik der Texte beziehen kann. In einer Diskussion zwischen einem Wirtschaftswissenschaftler (C. Almeling) und einer Sprachtechnologin (M. Siegel) entstand die Idee zu untersuchen, welche semantischen Technologien auf Geschäfts- und Managementberichte angewendet werden können, um deren wirtschaftliche Analyse zu unterstützen. Zwei Projekte wurden durchgeführt, um Techniken zur Verarbeitung natürlicher Sprache (NLP) zu ermitteln, die Wirtschaftsanalysten wirksam unterstützen: die Analyse von Wirtschaftsprognosen in Geschäfts- und Managementberichten und die Analyse von Informationen über die Auswirkungen von Unternehmensmaßnahmen auf Umwelt und Gesellschaft („Corporate Social Responsibility“ CSR) in diesen Berichten. Prototypische Implementierungen wurden in der Programmiersprache Python unter Verwendung der Pakete Natural Language Toolkit (NLTK) und TextBlob durchgeführt. Für die Analyse der Wirtschaftsprognosen werden die Erkennung von benannten Entitäten und die musterbasierte Informationsextraktion verwendet. Für die Analyse von CSR-Informationen wurden NLP-Techniken verwendet, um eine Ontologie zu erstellen. Auf der Grundlage dieser Ontologie wurde eine automatische Indexierung vorgenommen. Zunächst musste der Text jedoch von Markup bereinigt und mit linguistischen Informationen angereichert werden.
5.2 Aufbereitung von Texten und Analysen mit NLP-Methoden Die Analysen beruhen auf einem Korpus von Lageberichten von neun Unternehmen unterschiedlicher Größe (Adidas, Allianz, Axel Springer, Daimler, Delticom, Franz Haniel, Hochtief, Merck, United Internet und Vulcanic Triatherm) aus dem Jahr 2012. Die Status Sprachtechnologen beschreiben Texte als unstrukturierte Daten, im Gegensatz zu Datenbanken, siehe [4]. 1
5 Text Mining in der Wirtschaft
77
berichte dieser Unternehmen werden im HTML-Format veröffentlicht. Um die Texte auswerten zu können, wird das HTML-Markup bereinigt. Dazu wurde eine Python-Bibliothek zur Analyse von HTML verwendet, und der resultierende Rohtext wurde anschließend mit regulären Ausdrücken bereinigt. Der nächste Schritt ist die Tokenisierung des Textes, d. h. die Aufteilung des Textes in Sätze und Token (Wörter). Zu diesem Zweck wurden die auf NLTK [2]-basierte Bibliotheken TextBlob2 und TextBlobDE3 verwendet. Die morphologische Analyse der Wörter zur Ermittlung der Grundformen – Lemmatisierung – ist nützlich, um bei der Indexierung des Textes morphologische Varianten (wie Plural- und Genitivformen) zu finden (siehe auch [4]). Das einfachere Verfahren des Stemming, das von vielen Systemen für das Englische verwendet wird, ist für die komplexe deutsche morphologische Struktur nicht geeignet, da beim Stemming Endungen einfach abgeschnitten werden („beautifully“ – „schön“). Für die Domäne der Geschäftsberichte ist es notwendig, das Lemma-Lexikon an die Fachterminologie anzupassen. Daher haben wir uns entschlossen, diesen Schritt selbst durchzuführen und die „German Morphology Data Based on Morphy“ ([5]4) zu verwenden und zu erweitern. Das Verfahren ist in Abb. 5.1 dargestellt.
www.bundesanzeiger.de annual reports (HTML)
text preparations
HTML analysis
text tokenization
sentences and words morphologic analysis
lemmas
Abb. 5.1 Prozess der Textvorbereitung
https://textblob.readthedocs.org/en/dev/. http://textblob-de.readthedocs.org/en/latest/. 4 http://www.danielnaber.de/morphologie/. 2 3
78
M. Siegel
5.3 Analyse von Wirtschaftsprognosen in Geschäftsberichten unter Verwendung von Musterregeln Das erste Projekt bestand darin, die Texte über wirtschaftliche Entwicklungen in den Jahresberichten zu identifizieren und zu kommentieren, um eine strukturierte Form der Darstellung zu erhalten. Entwicklungen und Prognosen werden in Texten beispielsweise folgendermaßen ausgedrückt: • „Infolgedessen rechnen wir mit einer Steigerung des Ergebnisses je Aktie auf einen Wert zwischen 4,25 € und 4,40 €.“ • „Steigende Arbeitslosigkeit, strikte Sparmaßnahmen, geringe Lohnsteigerungen und niedrigere Konsumausgaben werden die Entwicklung des Sporteinzelhandels voraussichtlich negativ beeinflussen.“ Zur Darstellung der Informationen wird ein XML-Format (siehe Abb. 5.2) verwendet, das die Speicherung und den Abruf relevanter Informationen in strukturierter Form ermöglicht. Um die Felder ORGANISATION, DIVISION, PRODUCT und MARKET zu füllen, wurde ein Named-Entity-Erkennungsprogramm in Python implementiert. Das Programm basiert auf POS-Tags2, die mit TextBlob und Gazetteer-Listen, z. B. Abkürzungen von Organisationsnamen (wie „AG“, „GmbH“), generiert wurden [6]. Musterregeln suchen nach Namen im Text und stellen sie für die strukturierte Darstellung bereit. Auch Ausdrücke für Geld werden mit solchen Regeln gesucht. Sie funktionieren auf der Basis von Zahlen und Sonderzeichen, wie z. B. Dollarzeichen. Für den Prognosetyp (in ABOUT) wurden reguläre Ausdrucksmuster verwendet. Das folgende ist ein Beispiel für ein Muster, das eine Erhöhungsmeldung findet: increase_pattern = re.compile(r’(voraussichtlich|erwartet|rechnen|erwarten|prognostizieren|gehen).* .* (Umsatz|Bruttomarge) .* (steigen|ansteigen)’)
sentence with the information
type of forecast company or organisation market, e.g. the Asian market department of company or organisation product value
Abb. 5.2 XML-Format für die strukturierte Darstellung von Prognosen
5 Text Mining in der Wirtschaft
79
Mit diesen Informationen – benannte Entitäten, Geldausdrücke und Muster – werden die Sätze des Geschäftsberichts analysiert und die Felder der XML-Struktur gefüllt. Ein Beispiel für die XML-Ausgabe, die durch die Verarbeitung einer Prognose erzeugt wird, ist in Abb. 5.3 dargestellt. Diese Darstellung ermöglicht dem Wirtschaftswissenschaftler einen schnellen Zugriff auf die Teile des Berichts, die sich mit den Wirtschaftsprognosen befassen, und auf
Infolgedessen rechnen wir mit einer Steigerung des Ergebnisses je Aktie auf einen Wert zwischen 4,25 € und 4,40 €.
Aktiensteigerung_auf
einen Wert zwischen 4,25 € und 4,40 €
Steigende Arbeitslosigkeit, strikte Sparmaßnahmen, geringe Lohnsteigerungen und niedrigere Konsumausgaben werden die Entwicklung des Sporteinzelhandels voraussichtlich negativ beeinflussen.
Umsatzbeeinträchtigung
Sporteinzelhandels
Für XYZ erwarten wir einen Anstieg des währungsbereinigten Umsatzes im mittleren einstelligen Bereich.
Umsatzsteigerung_um XYZ
mittleren einstelligen Bereich
Abb. 5.3 Beispielhafte Ergebnisse der Prognoseanalyse (im dritten Beispiel ist der Firmenname aus Gründen des Datenschutzes ersetzt)
80
M. Siegel
den Inhalt dieser Textteile. Für eine ergonomischere HTML-Darstellung können leicht XSLT-Sheets5 geschrieben werden.
5.4 Analyse von CSR-Informationen in Geschäftsberichten auf der Grundlage ontologischer Informationen Das zweite Textmining-Projekt dient der Analyse von CSR-Informationen in Geschäftsberichten.
5.4.1 Erste Datenanalyse und Entwicklung der Wissensbasis Das erste Ziel dieses Teils des Projekts war die Suche nach Schlüsselwörtern und die Entdeckung des Potenzials der semantischen Technologien. In einem ersten Schritt wurde eine automatische Terminologieextraktion aus den Texten des Korpus durchgeführt. Diese Extraktion basiert auf Komponenten des Softwaresystems Acrolinx.6 Dabei wurden nicht nur Begriffe, sondern auch morphologische Varianten gefunden, wie z. B. „Finanzkennzahl/Finanz-Kennzahl“, „Fälligkeitenstruktur/Fälligkeitsstruktur“ und „XETRA-Handel/Xetra®-Handel“. Eine Textanalyse (Information Retrieval, Information Extraction) sollte solche Varianten, die in Texten vorkommen, berücksichtigen. Auf der Grundlage dieser Terminologieextraktion wurde von dem Wirtschaftsexperten eine Liste von Schlüsselwörtern entwickelt und den Indikatoren der G4-Leitlinien zur Nachhaltigkeitsberichterstattung der Global Reporting Initiative [3] zugeordnet. Auf der Grundlage dieser Schlüsselwörter wurden die Texte mithilfe von Sprachtechnologie-Tools analysiert. In einem ersten Schritt wurden mithilfe von Text-Mining-Verfahren automatisch Kookkurrenzen analysiert, um weitere Wörter zu finden, die häufig zusammen mit den Schlüsselwörtern auftreten, und so die Liste zu erweitern. Ein Beispiel für Kookkurrenzen des Schlüsselworts „Compliance“ (mit Häufigkeit des gemeinsamen Auftretens) ist in Abb. 5.4 zu sehen. Nicht alle ermittelten Kookkurrenzen waren gute Schlüsselwörter (z. B. „Helmut“, „Groß“), aber einige waren es wert, in die Listen aufgenommen zu werden. Eine weitere wichtige Informationsquelle für die Erweiterung der Schlüsselwortliste ist die Analyse von Komposita. Wir haben linguistische Techniken eingesetzt, um Komposita mit unseren Schlüsselwörtern im Text zu finden. Anschließend haben wir die Wortliste um diese Komposita erweitert. Das Beispiel des Stichworts „Umwelt“ zeigt, dass in den Tex XSLT ist eine Sprache, die zur Umwandlung von XML-Daten in andere Formate, z. B. HTML, verwendet wird. Weitere Informationen hierzu finden Sie unter https://www.w3schools.com/xml/xsl_ intro.asp. 6 www.acrolinx.com, [7]. 5
5 Text Mining in der Wirtschaft
81
[('Risiken', 32), ('Aufsichtsrat', 16), ('Vorstand', 16), ('Groß', 15), ('Konzerns', 14), ('Dr.', 13), ('Allianz', 12), ('Daimler', 12), ('Moderat', 11), ('AG', 11), ('Konzern', 11), ('Mitarbeiter', 10), ('Group', 9), ('Prüfungsausschuss', 8), ('Unternehmens', 8), ('Ausschuss', 8), ('Überwachung', 8), ('Wirksamkeit', 8), ('Compliance-Risiken', 7), ('Richtlinien', 7), ('Mitglieder', 7), ('Einhaltung', 7), ('Fragen', 7), ('Geschäftsentwicklung', 7), ('Anteilseignervertreter', 7), ('Risikomanagementsystem', 7), ('berichtet', 7), ('Officer', 7), ('Risikomanagement', 7), ('Chief', 7), ('Insurance', 7), ('Aufsichtsrats', 6), ('Kontrollen', 6), ('Rahmen', 6), ('Integrität', 6), ('Perlet', 6), ('Kontrollsystems', 6), ('Risikomanagements', 6), ('Compliance-Organisation', 6), ('Risikomanagementsystems', 6), ('Legal', 6), ('Risk', 6), ('Jahr', 6), ('Helmut', 6), ('Dauer', 5), ('Revisionssystems', 5), ('Entwicklungen', 5)]
Abb. 5.4 Kookkurrenzen des Stichworts „Compliance“
['Auto-Umwelt-Ranking', 'US-Umweltschutzbehörde', 'Umweltangelegenheiten', 'Umweltanstrengungen', 'Umweltaspekte', 'Umweltauswirkungen', 'Umweltbelastung', 'Umweltbereich', 'Umweltbestimmungen', 'Umweltbilanz', 'Umweltdaten', 'Umweltfreundlichkeit', 'Umweltleistung', 'Umweltleistungen', 'Umweltmanagement', 'Umweltmanagementsysteme', 'Umweltnormen', 'Umweltpraktiken', 'Umweltpreis', 'Umweltrichtlinien', 'Umweltrisiken', 'Umweltschonung', 'Umweltschutz', 'Umweltschutzmaßnahmen', 'Umweltschutzrisiken', 'Umweltstandards', 'Umweltstrategie', 'Umweltverantwortung', 'Umweltverfahren', 'Umweltverträglichkeit', 'Umweltwissenschaftler', 'Umweltzeichen', 'Umweltzertifikat', 'Umweltzonen']
Abb. 5.5 Komposita für das Stichwort „Umwelt“
ten Komposita zu finden sind, an die ein Experte für das Thema nicht unbedingt denkt (siehe Abb. 5.5). Für den Aufbau der Wissensbasis war es notwendig, auf die Lemmatisierung der Ergebnisse zuzugreifen, z. B. „Umweltmanagementsysteme“ zu „Umweltmanagementsystem“, aber auch alle in den Texten vorkommenden morphologischen Varianten zu finden (z. B. „Umwelt-Managementsystem“, „Umweltmanagement-System“). Anhand der auf diese Weise gewonnenen Informationen erstellte der Wirtschaftsexperte eine Liste der Schlüsselwörter, die für die Analyse von Interesse waren. Diese Schlüsselwörter wurden in Clustern organisiert, die nach der Analyse von Kookkurrenzen und Komposita erstellt wurden.
5.4.2 Aufbau einer Ontologie Das Ergebnis dieser Datenanalyse war eine Liste von Schlüsselwörtern, die in Clustern organisiert und den Indikatoren der Global Reporting Initiative (GRI) zugeordnet wurden. Diese Indikatoren sind bereits hierarchisch in einer dreistufigen Taxonomie organisiert (Abb. 5.6). Diese Taxonomie arbeitet mit Mehrfachvererbungen, oder besser gesagt mit Mehrfachbeziehungen: Der Begriff „Compliance“ ist in den Kategorien „Produktverantwortung“,
82
Abb. 5.6 Taxonomie der GRI-Wertschöpfung
M. Siegel
5 Text Mining in der Wirtschaft
83
sentences and words terminology extraction
data analysis
terminology manual validation
keywords cooccurrence analysis
compound analysis
expanded keywords organised in clusters
GRIIndex
ontology
Abb. 5.7 Datenanalyse und Erstellung der Ontologie
„Gesellschaft“ und „Ökologie“ enthalten. Die Beziehung zu den Kategorien ist keine hyponyme, sondern eine meronyme Beziehung. Aus diesem Grund wird eine Ontologie benötigt, um die Wissensbasis zu organisieren. Ein weiterer Grund ist, dass eine beträchtliche Anzahl von Mehrfachrelationen für die weitere Organisation der Wissensbasis eingeführt wurde. Die bei der Datenanalyse gefundenen und in Clustern organisierten Schlüsselwörter wurden mithilfe einer Python-Implementierung den GRI-Kategorien zugeordnet (siehe Abb. 5.7).
5.4.3 Grundlegende Statistiken über CSR-Informationen in Jahresberichten Mit der daraus resultierenden Wissensbasis und den Schlüsselwörtern können Geschäftsberichte nun hinsichtlich verschiedener Fragestellungen ausgewertet werden. Hier evalu-
84
M. Siegel
ieren wir den Ansatz der Berichtsbearbeitung im Kontext der Messung von Nachhaltigkeit in deutschen Geschäftsberichten [1].
5.4.3.1 Welche Themen werden im Jahresbericht behandelt? Sind die Angaben vollständig? Um diese Frage zu beantworten, wird der Text Satz für Satz nach Schlüsselwörtern durchsucht. Die Schlüsselwörter werden dann in der Wissensbasis nachgeschlagen, um festzustellen, ob sie zu einem der zu untersuchenden Themen gehören. Wenn mehrere Schlüsselwörter in einem Satz vorkommen, wird versucht, die Menge der Schlüsselwörter einem Themenbereich zuzuordnen. Das Programm kommentiert die Sätze mit ihren Themenbereichen und gibt so dem Ökonomen einen Hinweis darauf, wo die relevanten Themen im Text zu finden sind und ob die gewünschten Themen im Bericht ausgewiesen sind (Tab. 5.1 zeigt einige Beispiele). 5.4.3.2 Welchen Umfang hat die Berichterstattung über Umwelt, Gesellschaft und Wirtschaft in Geschäftsberichten im Verhältnis zum Gesamttext? Zur Beantwortung dieser Frage wurden die Anzahl der Sätze und Schlüsselwörter untersucht, die den jeweiligen Themen gewidmet sind, und der entsprechende Prozentsatz des Gesamttextes ermittelt. Abb. 5.8 zeigt eine Beispielausgabe. 5.4.3.3 Wie hat sich der Themenbereich in Geschäfts- und Managementberichten im Laufe der Zeit entwickelt? Wie sieht die Behandlung des Themas in verschiedenen Branchen aus? Mithilfe der statistischen Textanalyse lässt sich der Umfang des CSR-Textes in den Jahresberichten verschiedener Unternehmen vergleichen. Außerdem können Jahresberichte über Tab. 5.1 Beispiel für Themenkommentare Themenbereich Ökologie_Compliance (Einhaltung der Ökologie)
Ökologie_Emissionen (Ökologie-Emissionen)
Ökologie_Emissionen (Ökologie-Emissionen)
Textbeispiele Bis Ende 2012 konnten zehn Standorte des Konzerns diese Zertifizierung erreichen. (Bis Ende 2012 hatten zehn Standorte des Unternehmens diese Zertifizierung erhalten). Insgesamt möchten wir bis zum Jahr 2015 die relativen CO2 -Emissionen an unseren eigenen Standorten um 30 % reduzieren. (Insgesamt wollen wir die relativen CO2 Emissionen an unseren eigenen Standorten bis 2015 um 30 % senken). Darüber hinaus wurden zahlreiche andere Maßnahmen umgesetzt, um die CO2 -Bilanz der Beschaffungs- und Vertriebskette zu verbessern. (Darüber hinaus wurden zahlreiche weitere Maßnahmen ergriffen, um die CO2-Bilanz der Liefer- und Vertriebskette zu verbessern.)
5 Text Mining in der Wirtschaft
85
Abb. 5.8 Beispiel für eine statistische Textanalyse
mehrere Jahre hinweg analysiert werden, um zu sehen, wie sich der Anteil des CSR-Textes verändert. Auf diese Weise lässt sich untersuchen, welchen Stellenwert die Unternehmen den untersuchten Themen beimessen.
5.5 Empfehlungen 1. Komplexe Informationsextraktionsaufgaben können von einer sorgfältig erstellten Domänen-Ontologie profitieren, die Konzepte und lexikalische Elemente kombiniert. 2. Eine Analyse von Texten in der Domäne ist nützlich, um die Ontologie zu organisieren und relevante Wörter und Konzepte zu finden. Methoden der natürlichen Sprachverarbeitung sind für diesen Zweck von großem Wert.
5.6 Zusammenfassung Im Hinblick auf die Frage „Können NLP-Methoden Wirtschaftswissenschaftler bei ihren Analysen effektiv unterstützen?“ haben wir prototypische Implementierungen von NLP-Systemen zur Analyse von Lageberichten verschiedener Unternehmen vorgenommen. Wie für NLP-Ansätze typisch ist, werden die Texte in einem ersten Schritt bereinigt und tokenisiert. Anschließend müssen die Token (bzw. Wörter) mit linguistischen Informationen angereichert werden. In einem ersten Projekt haben wir die Wirtschaftsprognosen in den Texten analysiert, Informationen daraus extrahiert und sie in eine strukturierte Form gebracht. Wirtschaftswissenschaftler erhalten so einen schnellen Zugriff auf die Textteile mit den relevanten Informationen. Schon diese Informationsextraktion ist also für sich genommen wertvoll. Ein zweites Projekt konzentrierte sich auf CSR-Informationen in den Texten. Um die Beantwortung von drei wirtschaftlichen Fragen effektiv zu unterstützen, wurde zunächst
86
M. Siegel
eine Ontologie erstellt. Für die Entwicklung dieser Ontologie wurden verschiedene NLP-Techniken angewandt, wie z. B. Terminologieextraktion, Kookkurrenz-Analyse und Komposita-Analyse. Mithilfe der Ontologie konnten wir grundlegende deskriptive Statistiken über die Wertschöpfungsinformationen in den Geschäftsberichten ableiten, die zur Beantwortung von Fragen zu bestimmten Themen, wie z. B. CSR, verwendet werden können. Die Implementierungen sind bisher prototypisch und noch nicht vollständig. Allerdings konnten wir bereits Textanalysetechniken identifizieren, die Wirtschaftsanalysten effektiv unterstützen können. Nun gilt es, diese Techniken weiterzuentwickeln und anzupassen. Da es bisher keine annotierten Daten für diese Aufgabe gibt, konnte eine systematische Bewertung der Ergebnisse nicht vorgenommen werden. Dies wird ein wichtiger nächster Schritt sein. Sobald annotierte Daten zur Verfügung stehen, können auch Methoden des maschinellen Lernens für die automatische Indexierung getestet werden. Ein weiterer wichtiger nächster Schritt wäre die Implementierung einer grafischen Benutzeroberfläche, die es Wirtschaftswissenschaftlern ermöglicht, auf einfache Weise auf NLP-Techniken zuzugreifen und Texte zu analysieren.
Literatur 1. Almeling C (2016) Messung öffentlicher Wertschöpfung. Folien zum Brown Bag Seminar am 13.01.2016. Hochschule Darmstadt 2. Bird S, Garrette D, Korobov M, Ljunglöf P, Neergaard MM, Nothman J (2012) Natural language toolkit: NLTK, version 2 3. Global Reporting Initiative (2015) G4 Leitlinien zur Nachhaltigkeitsberichterstattung – Berichterstattungsgrundsätze und Standardangaben 4. Heyer G, Quasthoff U, Wittig T (2006) Text Mining: Wissensrohstoff Text–Konzepte. Algorithmen, Ergebnisse. W3L-Verlag, Bochum 5. Lezius W, Rapp R, Wettler M (1998) A morphological analyzer, disambiguator and context- sensitive lemmatizer for German. In: Proceedings of the COLING-ACL 1998, Montreal 6. Morik K, Jung A, Weckwerth J, Rötner S, Hess S, Buschjäger S, Pfahler L (2015) Untersuchungen zur Analyse von deutschsprachigen Textdaten. Technische Universität Dortmund, Tech. Rep. 2, 2015 7. Siegel M, Drewer P (2012) Terminologieextraktion – multilingual, semantisch und mehrfach verwendbar. In: Tagungsband der TEKOM-Frühjahrstagung 2012, Karlsruhe
6
Generierung von Texten in natürlicher Sprache Hermann Bense, Ulrich Schade und Michael Dembach
Kernaussagen
1. Natural Language Generation (NLG) ermöglicht die Generierung von Texten in natürlicher Sprache, um Daten aus einer strukturierten Form zu präsentieren. 2. NLG ist die Basistechnologie für einen neuen Sektor in der Verlagsbranche. 3. Automatisch erstellte Texte in natürlicher Sprache sind von mittlerer Qualität in Bezug auf Kohäsion und Kohärenz. Ihre Qualität kann jedoch durch die An wendung von Methoden aus dem kognitiven Prozess der Sprachproduktion ver bessert werden, z. B. durch die Mechanismen, die die Abfolge von Phrasen be stimmen und dabei allgemein die Informationsstruktur und insbesondere die se mantischen Rollen der Phrasen ausnutzen. 4. Die Anzahl der automatisch generierten Nachrichtenartikel wird in naher Zukunft die der von menschlichen Redakteuren verfassten Artikel übersteigen, da NLG eine Hyperpersonalisierung, den nächsten Schlüsselfaktor für die Leser zufriedenheit, ermöglicht.
H. Bense (*) textOmatic AG, Dortmund, Deutschland E-Mail: [email protected] U. Schade · M. Dembach Fraunhofer-Institut FKIE, Wachtberg, Deutschland E-Mail: [email protected]; [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_6
87
88
H. Bense et al.
6.1 Einleitung In der Verlagsbranche steigt die Nachfrage nach einzigartigen und hochaktuellen Nach richtenartikeln rapide an. Es werden ständig riesige Datenmengen in den Bereichen Wet ter, Finanzen, Sport, Veranstaltungen, Verkehr und Produkte produziert. Es gibt jedoch nicht genügend menschliche Redakteure, um all die Geschichten zu schreiben, die in die sen Daten verborgen sind. Daher ist die Automatisierung der Texterstellung erforderlich. In Bense und Schade [2] haben wir einen Ansatz zur Erzeugung natürlicher Sprache (Na tural Language Generation, NLG) vorgestellt, der für die automatische Generierung von Texten verwendet wird. In diesen Texten werden Daten ausgedrückt, die in strukturierter Form, etwa in Tabellen und Diagrammen, vorliegen. Typische Beispiele sind Berichte über Sachverhalte aus den genannten Domänen, wie z. B. Wetterberichte. Derzeit sind die automatisch generierten Texte zwar korrekt, aber von mittlerer Qualität und manchmal eintönig. Um die Qualität zu verbessern, ist es notwendig zu erkennen, wie Semantik im Allgemeinen und Informationsstruktur im Besonderen in guten Texten um gesetzt werden. Um dies zu veranschaulichen, müssen wir den NLG-Ansatz mit dem ko gnitiven Prozess der Sprachproduktion vergleichen. Daher wird in Abschn. 6.2 der kogni tive Prozess skizziert. In Abschn. 6.3 wird diskutiert, welche Arten von Texten erfolgreich automatisch generiert werden können. Einige technische Aspekte, insbesondere solche, durch die Hintergrundwissen für die Generierung genutzt werden kann, werden in Abschn. 6.4 vorgestellt. In Abschn. 6.5 diskutieren wir Methoden, die wir derzeit ent wickeln, um die Qualität der generierten Texte in Bezug auf Kohäsion und Kohärenz wei ter zu verbessern. Diese Methoden nutzen Erkenntnisse aus dem kognitiven Prozess der Sprachproduktion sowie aus der linguistischen Theorie der „topologischen Felder“. Wir leiten aus unseren Ausführungen Empfehlungen ab (Abschn. 6.6), fassen unsere Ergeb nisse in Abschn. 6.7 zusammen und geben in Abschn. 6.8 einen Ausblick auf die Persona lisierung von Nachrichten, den nächsten Trend in der NLG.
6.2 Der kognitive Prozess der Sprachproduktion Im Jahr 1989 veröffentlichte Prof. Dr. Willem J.M. Levelt, Gründungsdirektor des Max-Planck-Instituts für Psycholinguistik in Nijmegen, „Speaking: From Intention to Ar ticulation“ [11]. In dieser einflussreichen Monografie wurden die Erkenntnisse aus zahl reichen früheren Arbeit über den kognitiven Prozess der Sprachproduktion zu einem kon sistenten Modell zusammengeführt. Levelts Modell basiert auf Modellen von Karl Bühler [4], Victoria Fromkin [6], Merrill Garrett [7] und J. Kathrin Bock [3] und enthält Erkennt nisse zum Monitoring und zur Reparatur von Versprechern, die von Levelt selbst erzielt wurden [10]. Es enthält wichtige Fortschritte über die Struktur des mentalen Lexikons [9] und den Prozess der grammatikalischen Kodierung [8], beides von Gerard Kempen, sowie ebenso wichtige Fortschritte über den Prozess der phonologischen Kodierung von Gary
6 Generierung von Texten in natürlicher Sprache
89
S. Dell [5]. Bis heute bildet Levelts Modell die Grundlage für die Forschung zur Sprach verarbeitung. Levelt und seine Mitarbeiter (darunter Antje S. Meyer, Levelts Nachfolgerin als Direktorin am MPI in Nijmegen, Ardi Roelofs und Herbert Schriefers) trugen zu dieser Forschung bei, indem sie den Teilprozess des lexikalischen Zugriffs untersuchten, siehe zum Beispiel Schriefers, Meyer und Levelt [15] und Levelt, Roelofs und Meyer [12]. Für den Vergleich von NLG-Ansätzen zum kognitiven Prozess der Sprachproduktion ist es von besonderer Bedeutung, einen Blick auf Levelts Unterteilung der Sprach produktion in Teilprozesse zu werfen, eine Klassifizierung, die in der Psycholinguisitk immer noch weit verbreitet ist. Levelt unterscheidet die präverbale Konzeptualisierung, unterteilt in Makroplanung und Mikroplanung, von den sprachlichen (und damit sprach abhängigen) Prozessen der Formulierung, unterteilt in grammatikalische Enkodierung und phonologische Enkodierung, und der Artikulation, den motorischen Teilprozessen des Sprechens (und Schreibens). Das Sprechen (und natürlich auch das Schreiben) wird durch eine Absicht ausgelöst. Der Sprecher handelt, indem er spricht, um den Zuhörer über etwas zu informieren, ihn zu etwas zu bewegen oder ihn davon zu überzeugen, dass er selbst etwas tun wird. Die Konzeptualisierung im Allgemeinen und die Makroplanung im Besonderen beginnt mit dieser Absicht. In Anbetracht der Absicht bestimmt der Pro zess der Makroplanung den Inhalt des nächsten Teils einer Äußerung, d. h. den Inhalt des nächsten Satzes. Zu diesem Zweck nutzt die Makroplanung verschiedene Arten von Wis sen, über die der Sprecher verfügt. Dazu gehört enzyklopädisches Wissen, z. B. dass Ro bert Lewandowski ein polnischer Stürmerstar ist (enzyklopädisches Wissen über Fuß ball) und Diskurswissen, z. B. darüber, was bereits erwähnt wurde, wer der Zuhörer ist, was der Hintergrund des Dialogs ist und mehr. Bei der Mikroplanung werden die ermit telten Inhalte zu einer propositionalen Struktur verdichtet, die von Levelt als „präverbale Botschaft“ bezeichnet wird. Nach Levelt ist die präverbale Botschaft noch unabhängig von der Sprache. Die Übertragung der präverbalen Botschaft in die Zielsprache ist die Aufgabe der For mulierung, des zweiten großen Teilprozesses der Sprachproduktion. Zunächst wird für jedes Konzept, das Teil der präverbalen Botschaft ist, ein lexikalischer Eintrag bestimmt. Zum Beispiel kann das Konzept einer Aktie für das Englische lexikalische Einträge wie „share“ oder „stock“ auslösen. In einem Wettbewerbsprozess wird dann entschieden, ob „share“ oder „stock“ in dem resultierenden Ausdruck verwendet werden soll. Die aus gewählten Einträge werden parallel dazu zu entsprechenden Phrasen, z. B. „the share“, er weitert. Zu diesem Zweck untersucht ein Verfahren die präverbale Botschaft, um die spezi fischen Formen dieser Phrasen zu bestimmen. Bei einer Nominalphrase muss z. B. entschie den werden, ob ein Determinator erforderlich ist und wenn ja, ob der Determinator bestimmt (definit) oder unbestimmt sein muss, ob das Substantiv im Singular oder im Plu ral stehn muss und ob zusätzliche Informationen, ausgedrückt z. B. in Form von Adjekti ven, aufgenommen werden müssen. In einigen Fällen kann die Nominalphrase sogar in Form eines einzigen Personalpronomens ausgedrückt werden. Beginnend mit dem ersten Konzept, für das die entsprechende Phrase vervollständigt ist, beginnt der Teilprozess der grammatikalischen Kodierung mit der Konstruktion eines Satzes, in den alle Phrasen inte
90
H. Bense et al.
griert werden. Natürlich wird der Begriff, der die Handlung in der Nachricht repräsentiert, nicht in eine Phrase, sondern in die Verbgruppe des Satzes umgewandelt. Um den Prozess der grammatikalischen Kodierung durchzuführen, nutzen die Sprecher ihr gesamtes Wis sen über die Zielsprache, ihren Wortschatz und ihre grammatikalischen Kenntnisse. Das Ergebnis der grammatikalischen Kodierung kann als Phrasenstrukturbaum mit Wörtern als Endpunkten betrachtet werden. Die Repräsentationen dieser Wörter (Lem mata) werden Gegenstand des zweiten Teilprozesses der Formulierung, der im Falle des Sprechens als phonologische Kodierung bezeichnet wird. Bei diesem Prozess werden die Wörter in ihre Abfolge von Phonemen (oder Buchstaben im Falle des Schreibens) umgewandelt. Die phonologische Enkodierung greift auf das Wissen des Sprechers darüber zurück, wie ein Wort auszusprechen (oder zu schreiben) ist. Schließ lich übernimmt der Artikulationsprozess die Aufgabe und erzeugt die Äußerung (oder den geschriebenen Text).
6.3 Automatisierte Texterstellung im Einsatz Die Hauptbereiche für die automatisierte Texterstellung sind die Nachrichtenproduktion in der Medienbranche, Produktbeschreibungen für Online-Shops, Business-Intelligence- Berichte und die Erstellung wiederholungsfreier Texte für die Suchmaschinenoptimierung (SEO). Im Bereich der Nachrichtenproduktion sind riesige Datenmengen für Wetter, Fi nanzen, Veranstaltungen, Verkehr und Sport verfügbar. Durch die Kombination von Me thoden der „Big Data“-Analyse und künstlicher Intelligenz werden nicht nur reine Fakten in lesbaren Text übertragen, sondern auch Zusammenhänge aufgezeigt. Ein wichtiges Beispiel ist focus.de, eines der größten deutschen Online-Nachrichten portale. Dieses veröffentlicht täglich rund 30.000 automatisierte Wetterberichte mit 3-Tages-Vorhersagen für jede deutsche Stadt. Ein weiteres Beispiel für Hochgeschwindig keits- und Massenjournalismus ist handels-blatt.com. Basierend auf den Daten der Deut schen Börse werden alle 15 min Aktienberichte für die Indizes DAX, MDax, SDax und TecDax erstellt. Diese Berichte enthalten Informationen über Kursentwicklungen und set zen diese in Beziehung zu vergangenen Daten wie z. B. Allzeithochs und -tiefs sowie zu Daten anderer Aktien aus dem gleichen Wirtschaftszweig. Ein wichtiger Nebeneffekt, der sich aus der Veröffentlichung einer so großen Zahl hochrelevanter und aktueller Nachrichten ergibt, ist eine deutlich erhöhte Sichtbarkeit in Suchmaschinen wie Google, Bing usw. Infolgedessen profitieren Medienunternehmen von mehr Seitenaufrufen und Einnahmen aus „Affiliate Marketing“-Programmen. Aus der Zahl der veröffentlichten Berichte wird deutlich, dass menschliche Redakteure nicht in der Lage sind, sie in der verfügbaren Zeit zu schreiben. Im Gegensatz dazu produ ziert die automatisierte Texterstellung solche Berichte in Sekundenbruchteilen, und die Ausführung der Textgenerierungstools in cloudbasierten Umgebungen sorgt für eine be liebige Skalierbarkeit, da die Mehrzahl der Berichte parallel erstellt werden kann. So wird
6 Generierung von Texten in natürlicher Sprache
91
in absehbarer Zukunft die Menge der generierten Nachrichten die der von menschlichen Autoren geschriebenen Nachrichten übersteigen.
6.4 Erweiterte Methoden für die Texterstellung In diesem Abschnitt werden wir einen semantischen Ansatz skizzieren, der unseren Generierungsansatz ergänzt. Die Basisfunktionalität unseres Werkzeugs, die Text Compo sing Language (TCL), die für die Textgenerierung verwendet wird, wurde bereits in Bense und Schade [2] beschrieben. Kurz gesagt ist TCL eine Programmiersprache zur Generie rung natürlichsprachlicher Texte. Ein TCL-Programm wird als Template bezeichnet. Ein Template kann Ausgabeabschnitte und TCL-Anweisungen in doppelten eckigen Klam mern haben. Die „eval“-Anweisung ermöglicht den Aufruf von anderen Templates als Unterprogramme. Die semantische Erweiterung, die wir hier erörtern wollen, zielt ab auf die Hinzu fügung von Hintergrundwissen, wie es durch eine Ontologie bereitgestellt wird. Dies ent spricht der Ausnutzung von enzyklopädischem Wissen durch die kognitive „Makro planung“. Das ontologische Wissen für TCL wird in einem RDF-Triple-Store1 gespeichert, der in MySQL implementiert wurde. Auf die Daten kann über Abfrageschnittstellen auf drei verschiedenen Abstraktionsebenen zugegriffen werden. Die oberste Schicht bietet eine Art beschreibungslogische Abfrage. Die mittlere Schicht, OQL (Ontology Query Language), unterstützt eine Abfrageschnittstelle, die für den RDF-Triple-Store optimiert ist. OQL-Abfragen können direkt in MySQL-Abfragen übersetzt werden. Tripel sind von der Form (s, p, o), wobei s für Subjekt, p für Eigenschaft („property“) und o für Objekt steht. Die grundlegenden OQL-Anweisungen für den Abruf von Wissen sind getObjects (s, p) und getSubjects (p, o), z. B. getObjects ('>Pablo_Picasso´, '*) würde alle Daten und Objekteigenschaften des Malers Pablo Picasso abrufen, und getSubjects ('.PlaceOfBirth‘, 'Malaga‘) würde die Liste aller Subjekte zurückgeben, die in Malaga geboren wurden. Gemäß den in Bense [1] vorgeschlagenen Namenskonventionen beginnen alle Bezeichner von Instanzen mit dem >-Zeichen, die für Klassen mit dem ^-Zeichen, Dateneigenschaften mit einem Punkt und Namen von Objekteigenschaften mit . TCL unterstützt den Zugriff auf die Wissensbasis über die Funktion get(s,p,o). Je nachdem, welche Parameter überge ben werden, wird intern entweder getObjects oder getSubjects ausgeführt, z. B. ist getSub jects ('.PlaceOfBirth‛, 'Malaga‛) äquivalent zu get ('*‛, '.PlaceOfBirth‛, 'Malaga‛). Ein Bei spiel für ein kleines TCL-Programm ist: [[ LN = get ('>Pablo_Picasso', '.Nachname', '')]] [[ PoB = get ('>Pablo_Picasso', '.PlaceOfBirth', '')]] $LN$ wurde in $PoB$ geboren.
https://en.wikipedia.org/wiki/Triplestore.
1
92
H. Bense et al.
Abb. 6.1 Ontologisches Wissen, das für die Erstellung von Fußballberichten genutzt werden soll
Dieses TCL-Programm erzeugt die Ausgabe: „Picasso wurde in Malaga geboren“. Der Graph in Abb. 6.1 zeigt einen Auszug aus der Wissensbasis über ein Fußball spiel. Die Instanzen werden als abgerundete Rechtecke dargestellt, wobei die IDs der Instanzen eine dunkelgrüne Hintergrundfarbe haben [1]. Die Dateneigenschaften wer den als Paare von Attributnamen und deren Werten dargestellt. Die benannten Kanten, die Instanzknoten miteinander verbinden, stellen die Objekteigenschaften (Bezie hungstypen) zwischen den Instanzen dar, z. B. is_EventAction_of und is_Match PlayerHome_of. Das Schema hinter den Beispieldaten enthält Klassen für ^Teams ('T_‘), ^MatchFacts ('MF_‘), ^MatchEvents ('ME_‘), ^Player ('P_‘), ^Match_Playe rInfo ('MP_P_‘), ^Stadium ('STD‘) und ^City ('CIT‘). Das Spiel ist mit seinen Mann schaften über (>MF_160465, Hometeam, >T_10) und (>MF_160465, Away team, >T_18) verbunden. Alle Spielereignisse werden durch die Objekteigenschaft ;is_EventAction_of zum Spiel aggregiert. Die Umkehrung von is_EventAction_ of ist EventAction. Eine EventAction hat einen Spieler, der mit einer ^Match_Play erInfo-Instanz verbunden ist, z. B. durch MatchPlayerScore, wenn der Spieler ein Tor schießt. Jede ^Match_PlayerInfo-Instanz ist über den Beziehungstyp Player mit einem Spieler verbunden. Schließlich hat jede Mannschaft ein Stadion (Sta
6 Generierung von Texten in natürlicher Sprache
93
dion, die inverse Objekteigenschaft von ist_Stadion_von) und jedes Stadion hat eine zugehörige Stadt (ORT). Das Datenmodell hinter der Anwendung zur Erstellung von Spielberichten für die Fußball-Bundesliga ist wesentlich komplexer, aber der kleine Ausschnitt vermittelt einen guten Eindruck von der Komplexität, mit der man es zu tun hat. Der Zugriff auf die Infor mationen, die für die Generierung von Textausgaben für einen Bericht benötigt werden, kann selbst für erfahrene Datenbankprogrammierer eine mühsame Aufgabe sein. Im Fol genden wird die Implementierung einer Methode erläutert, mit der man schnell Informati onen aus den Diagrammen abrufen kann. Im Prinzip können die gesuchten Begriffe auch von Nicht-Programmierern leicht abgeleitet werden, indem man dem Pfad von einer In stanz im Wissensgraphen zur Zielinstanz folgt, in der die benötigten Informationen reprä sentiert sind. Der Pfad (die orangefarbenen Pfeile in Abb. 6.1), der am Instanzknoten des Spiels >MF_160465HometeamStadionOrt.Name beginnt, folgt der Eigen schaftskette HometeamStadionOrt.Name, um Zugriff auf den Namen der Stadt zu erhalten, in der die Veranstaltung stattfindet. Eine Eigenschaftskette ist die Verkettung einer beliebigen Anzahl von Objekt-Eigenschaftsnamen, auf die optional ein Daten- Eigenschaftsname folgen kann, in diesem Fall .Name. In TCL können Vorlagen auf Ergebnismengen von OQL-Abfragen ausgewertet wer den. Die Abfrage getObjects ('>MF_160465‘, '>HomeTeam‘) positioniert den Datenbank- Cursor auf das entsprechende Tripel der Wissensbasis. In einer Vorlage können die Werte des Tripels durch den Begriff $S$ referenziert werden. Darüber hinaus ist das TCL- Laufzeitsystem in der Lage, Eigenschaftsketten „on the fly“ zu interpretieren. Daher ist es möglich, die folgenden Deklarationen als Teil eines Template-Headers zu haben: STRT = $S.start-time$ DTE = $S.start-date;date(m/d/Y)$ /* formatiert Datumsformat STDN = $SHometeamStadion.Name$ CTYN = $SHometeamStadionOrt.Name$
im
englischen
Dann erzeugt die Vorlage „Das Spiel begann am $DTE$ um $STRT$ Uhr im $STDN$ in $CTYN$.“, also für die Beispieldaten die Ausgabe „Das Spiel begann am 10.04.2015 um 17:30 Uhr in der Allianz Arena in München.“ Intern wird eine automatische Abfrageoptimierung für Eigenschaftsketten angewendet. Die Verarbeitung von Eigenschaftsketten ist ein iterativer Prozess, bei dem zunächst der Gegenstand zusammen mit seiner ersten Eigenschaft abgerufen wird. Das sich daraus er gebende Objekt wird zum neuen Subjekt, das dann in Kombination mit der zweiten Eigen schaft abgerufen wird und so weiter. Jeder Abruf wird durch einen SQL-SELECT reali siert. Die Länge der Eigenschaftskette bestimmt, wie viele Abfragen ausgeführt werden müssen. Ausgehend von der Match-Instanz sind also vier Abfragen erforderlich, um den Namen der Stadt, in der ein Match stattfindet, abzurufen. Der Abfrageoptimierer nimmt die komplette Eigenschaftskette, generiert intern eine verschachtelte SQL-Abfrage und
94
H. Bense et al.
führt diese aus. Leistungsbenchmarks haben gezeigt, dass die Ausführungszeit bei Ver wendung von Eigenschaftsketten erheblich reduziert werden kann.
6.5 Steigerung der Qualität durch Nutzung der Informationsstruktur In diesem Abschnitt wird erörtert, wie die Qualität der generierten Texte durch Ausnut zung der Informationsstruktur gesteigert werden kann. Die Auswahl eines anderen lexika lischen Eintrags für eine zweite Denotation eines soeben erwähnten Konzepts erhöht die Lesbarkeit und Textqualität, z. B. kann zur Bezeichnung einer Aktie im Englischen neben „share“ auch der Begriff „stock“ verwendet werden; im Deutschen kann „Wertpapier“ „Aktie“ ersetzen. In den kognitiven Prozess des lexikalischen Zugriffs ist dieses Prinzip natürlich integriert, da verwendete Elemente in der Aktivierung zurückgesetzt werden und sich quasi erholen müssen, um erneut genutzt zu werden. Manchmal gilt das auch für grammatikalische Muster: aufeinanderfolgende SPO-Sätze wirken monoton. Wir werden im Folgenden einen Ansatz zur automatischen Variation von Satzmustern diskutieren. Bei diesem Ansatz stellen wir eine Menge von grammatikalischen Mustern zur Verfügung, die zur Generierung des nächsten Ausdrucks verwendet werden können. Danach können wir diese Menge semantisch beschneiden, um die Informationsstruktur des Ausdrucks heraus zuarbeiten. Um zu verdeutlichen, was mit „Informationsstruktur“ aus der Perspektive des kognitiven Prozesses gemeint ist, werden wir kurz auf das lexikalische Gegenstück einge hen. Im Levelt-Modell werden die Begriffe der präverbalen Botschaft nach ihrer „Verfüg barkeit“ annotiert (ob sie schon einmal erwähnt wurden). Dies kann, wie bereits erwähnt, zur Auswahl eines anderen lexikalischen Eintrags führen. Alternativ können komplexe Substantive in Nominalphrasen auf ihren Kopf reduziert werden („Papier“ anstelle von „Wertpapier“). Nominalphrasen können sogar auf das entsprechende Personalpronomen reduziert werden, wenn der jeweilige Begriff im „situativen Fokus“ steht. Zum Beispiel: „Robert Lewandowski wurde in Minute 62 eingewechselt. Robert Lewandowski hat dann in der 65. Minute das Tor zum 2:1 geschossen“ kann und sollte ersetzt werden durch „Ro bert Lewandowski wurde in Minute 62 eingewechselt. Er hat dann in der 65. Minute das Tor zum 2:1 erzielt“, um einen zusammenhängenden Text zu erzeugen. In Bense und Schade [2] haben wir bereits einen Algorithmus diskutiert, der mit solchen Fällen umge hen kann. Darüber hinaus können Nominalphrasen, die aus einem Namen bestehen und prinzipiell auf ein Pronomen reduziert werden können, auch durch eine andere Substan tiv-phrase ersetzt werden, die enzyklopädisches Wissen ausdrückt. Nehmen wir noch ein mal das Beispiel „Robert Lewandowski“: Das zweite Vorkommen seines Namens im Ori ginaltext könnte durch „Der polnische Nationalspieler“ ersetzt werden, was zusätzliche Informationen liefert und den gesamten Ausdruck kohärenter macht [14]. Außerdem haben wir ein Programm entwickelt, das für gegebene Sätze die möglichen Varianten generiert. Dabei machen wir uns zunutze, dass insbesondere im Deutschen und im Englischen die Wortstellung durch bestimmte Regeln und Strukturen festgelegt wird.
6 Generierung von Texten in natürlicher Sprache
95
Die Phrasen wurden bereits eingeführt. Es gibt einige Tests, die helfen zu klären, ob eine bestimmte Gruppe von Wörtern eine Phrase bildet oder nicht. Einer dieser Tests, der Per mutationstest, prüft, ob die fraglichen Wörter nur als Ganzes verschoben werden können. In Beispiel (2) wird die Wortfolge „in der 65. Minute“ verschoben. Das Ergebnis ist ein korrekter Satz, die Folge ist also eine Phrase. In (3) wird nur „65. Minute“ verschoben. Das Ergebnis ist grammatikalisch nicht korrekt, was durch den * angezeigt wird. „65. Mi nute“ ist also keine eigenständige Phrase. ( 1) Lewandowski traf in der 65. Minute. (2) In der 65. Minute erzielte Lewandowski ein Tor. (3) *65. Minute Lewandowski erzielte ein Tor in der. Die Verschiebungseigenschaft von Phrasen wird verwendet, um die Varianten eines Satzes zu bestimmen, aber dafür muss ein weiteres sprachliches Konzept berücksichtigt werden. Aus praktischen Gründen ist die deutsche Sprache für uns am wichtigsten, und ihre Wortstellung lässt sich gut mit den sogenannten topologischen Feldern beschreiben (eine gute Beschreibung findet sich bei Wöllstein [16]). Ähnliche Ansätze gibt es für die meisten anderen germanischen Sprachen, z. B. Dänisch, nicht aber für Englisch. Der Ansatz der topologischen Felder unterteilt einen Satz in verschiedene Felder, die bestimmten Eigen schaften entsprechen. Es werden drei Grundtypen von Sätzen unterschieden, wobei die Position des finiten Verbs als Unterscheidungsmerkmal dient. Die Typen werden durch die drei Sätze in Tab. 6.1 illustriert. In V1-Sätzen ist das finite Verb das erste Wort des Satzes und bildet die so genannte Linke Klammer, die – zusammen mit einer optionalen Rechten Klammer, die durch den infiniten Teil eines komplexen Prädikats gebildet wird – das Mittelfeld umschließt (das alle anderen Teile des Satzes enthält). Diesem Satztyp entsprechen die meisten Fragen. Bei V2-Sätzen geht dem finiten Verb genau eine Phrase voraus, wel che dann das sogenannte Vorfeld besetzt; das Verb steht also an zweiter Stelle. Der Rest des Satzes entspricht dem V1-Satz, mit Ausnahme des Nachfeldes, das sich nach der Rechten Klammer befindet und meist Nebensätze enthält. Dieser Typ entspricht meist den deklarativen Sätzen. Schließlich gibt es noch den VL-Satz (Verb-Letzt-Satz) , bei dem das
Tab. 6.1 Die deutschen Satztypen anhand von Beispielen – die Beispielsätze lauten „Ist Le wandowski 100 m gelaufen?“, „Lewandowski lief 100 m, weil …“ bzw. „… weil Lewandowski 100 m lief“ Vorfeld Typ (Vorfeld) V1 V2 Lewandowski
Linke Klammer (linke Klammer) Ist ist
VL
weil
Rechte Klammer (rechte Nachfeld Klammer) (letztes Feld) gelaufen? gelaufen, weil Minute das Tor zum 2:1 geschossen… Lewandowski 100 m gelaufen ist. Mittelfeld (Mittelfeld) Lewandowski 100 m 100 m
96
H. Bense et al.
Verb an letzter Stelle steht. Seine Konstruktion ist etwas anders. Vor- und Nachfeld sind nicht besetzt, und eine Subjunktion füllt die Linke Klammer, während das gesamte Prädi kat in der Rechten Klammer steht. Das Mittelfeld wird wieder mit dem Rest des Satzes gefüllt. Die verschiedenen Eigenschaften der Felder sind zahlreich genug, um mehrere Bücher zu füllen. Hier sollen zwei Beispiele genügen, um zu demonstrieren, auf welche Weise wir uns welche Prinzipien zunutze machen. Wir werden uns auf V2-Sätze konzentrieren, weil sie aufgrund ihrer relativen Häufigkeit für uns die wichtigsten Sätze sind. Eine hervorstechende Eigenschaft des deutschen Vorfelds – und ein wichtiger Unterschied zu seinem englischen Äquivalent – ist seine Beschränkung auf nur eine Phrase. Der folgende Satz, der ein zusätz liches „gestern“ enthält, ist nicht korrekt, da das Vorfeld von zwei Phrasen belegt wird: (4) *Gestern Lewandowski ist 100 m gelaufen. Die Eigenschaften des Mittelfelds betreffen vor allem die Reihenfolge der Phrasen. Das Subjekt – in diesem Beispiel „Lewandowski“ – ist meist das erste Element im Mittelfeld, wenn es nicht schon im Vorfeld vorkommt. Daher ist Beispiel (6) grammatikalisch frag würdig, was durch ein ‚?‘ angezeigt wird, wohingegen (5) korrekt ist. ( 5) Gestern ist Lewandowski 100 m gelaufen. (6) ?Gestern ist 100 m Lewandowski gelaufen. Interessant ist für uns die Tatsache, dass die Einschränkung des Vorfelds tatsächlich das Konzept der Phrase betrifft und nicht nur einige ausgewählte Wörter. Der folgende Satz ist im Deutschen absolut korrekt: (7) Der in Warschau geborene und bei Bayern München unter Vertrag stehende Fußball spieler Robert Lewandowski ist gestern nur 100 m gelaufen. Dies zeigt, dass Phrasen und topologische Felder nicht nur Konzepte sind, die von Lingu isten erfunden wurden, um bestimmte Merkmale der Sprache genauer zu beschreiben, sondern tatsächliche Regeln widerspiegeln, die in irgendeiner Form erworben und bei der Sprachproduktion verwendet werden. Deshalb wollen wir diese Regeln auch für die Gene rierung von Texten nutzen. Im konkreten Fall bedeutet dies, dass Satz (8) nach den von Vorfeld und Mittelfeld be schriebenen Regeln zwei weitere gültige Varianten hat, nämlich die Sätze (9) und (10). (8) Lewandowski erzielte das Tor in der 65. Minute. (9) In der 65. Minute erzielte Lewandowski das Tor. (10) Das Tor erzielte Lewandowski in der 65. Minute.
6 Generierung von Texten in natürlicher Sprache
97
Bis zu diesem Punkt war die Argumentation ausschließlich syntaktischer Natur. Dies könnte zu dem Schluss führen, dass die Sätze (8), (9) und (10) äquivalent sind. Dass die Dinge jedoch etwas komplexer sind, wird deutlich, wenn man die Semantik, genauer gesagt die Informationsstruktur, in Betracht zieht. Im kognitiven Prozess der Sprach produktion werden Konzepte durch Zugänglichkeitsmarker annotiert, wie wir bereits bei der Diskussion von Varianten von Nonminalphrasen erwähnt haben. Im Produktions prozess stellen Zugänglichkeitsmarker auch eine zusätzliche Aktivierung dar. Das be deutet, dass ein Konzept mit einer prominenten Erreichbarkeitsmarkierung höchstwahr scheinlich seine lexikalischen Elemente schneller aktivieren wird. Die entsprechende Phrase hat daher eine bessere Chance, am Anfang des zu generierenden Satzes zu erschei nen. Aus formallinguistischer Sicht ist dies die Bedeutung der „Informationsstruktur“, die durch die formalen Konzepte „Thema-Rhema“ und „Fokus“ ausgedrückt wird [13]. Die Begriffe Thema und Rhema definieren einen Satz durch die Trennung von bekannter In formation (Thema) und neuer Information (Rhema), wobei das Thema normalerweise dem Rhema vorausgeht. Diesem Konzept folgend würde Variante (8) gewählt werden, wenn die Information, dass ein Tor erzielt wurde, bereits bekannt ist. Der Fokus ist eine Möglichkeit, die wichtigen Informationen in einem Satz zu betonen. Er fällt meist mit dem Rhema zusammen, aber das ist nicht unbedingt der Fall. Das Konzept funktioniert nur in Verbindung mit dem Konzept des unmarkierten Satzes, dessen Struktur verändert wird, um bestimmte Elemente zu betonen. Man könnte argumentieren, dass Variante (8) ein sol cher unmarkierter Satz ist, weil er der Reihenfolge Subjekt-Prädikat-Objekt folgt. Variante (10) weicht von dieser Reihenfolge ab und rückt dadurch „das Tor“ in den Mittelpunkt. Diese Variante könnte als Kontrast zu einer anderen Handlung Lewandowskis, z. B. einem Foul, verwendet werden. Derzeit arbeiten wir daran, automatisch die beste Wahl aus der verfügbaren Menge von Sätzen zu bestimmen.
6.6 Empfehlungen Die automatische Generierung von Texten ist eine Überlegung wert, wenn der Zweck des Textes vorgegeben und einfach ist. Sie eignet sich am besten für die Präsentation von Daten, die in strukturierter Form vorliegen, z. B. in einer Tabelle. Die automatische Gene rierung von Texten lohnt sich, wenn eine solche Darstellung von Daten nachgefragt ist und regelmäßig wiederholt werden muss. Für die Erstellung der Texte reicht es aus, auf Templates zurückzugreifen. Intelligente Variationen sind gut und notwendig, aber eine hohe Lesekompetenz ist nicht erforderlich und würde den Rahmen der automatischen Generierung sprengen. Um die Qualität von Texten zu erhöhen, können und sollten Strategien der menschli chen Sprachproduktion genutzt werden. Dazu gehören zielsprachenspezifische linguisti sche Mittel und die Verwendung von (einfachen) Ontologien zur Wissensrepräsentation, siehe auch Hoppe und Tolksdorf (Kap. 2).
98
H. Bense et al.
6.7 Zusammenfassung In den letzten Jahren hat sich die Erzeugung natürlicher Sprache zu einem wichtigen Zweig der IT entwickelt. Die Technologie ist ausgereift, und Anwendungen werden weltweit in vielen Bereichen eingesetzt. Sie ist Teil des Digitalisierungs- und Auto matisierungsprozesses, der in der traditionellen Fertigung als Industrie 4.0 bezeichnet wird. Der Schwerpunkt dieses Artikels lag bisher darauf, aufzuzeigen, was in Bezug auf die Erstellung anspruchsvoller Texte zu erwarten ist. Wir haben uns dabei für den Einsatz von Semantik ausgesprochen. In Kombination mit einer Ontologie als Wissensbasis wird die Integration von Reasonern die Ableitung von automatisch abgeleiteten Informationen in den Textgenerierungsprozess ermöglichen. Das Konzept der Eigenschaftsketten ist wesentlich, um diese Art des Retrievals schnell genug zu machen. Wir haben auch gezeigt, wie die Informationsstruktur genutzt werden kann, um den lexikalischen Inhalt von Phra sen zu variieren und die Variation eines Satzes zu finden, die den Informationsfluss am besten einfängt und so dazu beiträgt, die Qualität der generierten Texte in Bezug auf Kohäsion und Kohärenz zu verbessern.
6.8 Der nächste Trend: Hyper-Personalisierung von Nachrichten Der kommende Trend in der Medienbranche ist die Hyper-Personalisierung. Bislang wer den die meisten Nachrichtenartikel für ein breites Publikum geschrieben. Der einzelne Leser muss die für ihn relevanten Nachrichten suchen und auswählen. Zwar bieten viele Apps bereits Nachrichtenströme für bestimmte Bereiche wie Wetter, Sport oder Ver anstaltungen an, aber keine von ihnen erstellt einen personalisierten Nachrichtenstrom. In dem von Google geförderten Projekt 3dna.news wird ein neuartiger Ansatz inzwischen als Dienst in mehreren Sprachen angeboten. Ein Nutzer wird sofort per E-Mail oder Whats App informiert, wenn z. B. eine bestimmte Aktie, für die er sich interessiert, einen be stimmten Schwellenwert überschreitet oder wenn das nächste Fußballspiel seiner Lieb lingsmannschaft beginnt. Im letzteren Fall wird er/sie auch über relevante Informationen wie die zu erwartenden Wetterbedingungen während des Spiels und über alle Staus auf dem Weg von seinem/ihrem Zuhause zum Stadion informiert. Mit der Hyper-Personalisierung können Verlage und Nachrichtenportale ihren Lesern neue Serviceangebote machen, die zu einer höheren Kundenbindung führen. Der Nach richtenkonsument kann ein Abonnement auf seine persönlichen Bedürfnisse zuschneiden und erhält die relevanten Informationen zeitnah. Die Hyper-Personalisierung wird auch neue Möglichkeiten für die Unterhaltung im Auto schaffen. Derzeit produzieren Radio sender ein Programm für alle ihre Hörer. In Zukunft wird es möglich sein, die Nachrichten individuell in jedes Auto zu streamen. Die generierten Nachrichten laufen durch einen Text-zu-Sprache-Konverter und werden dem Fahrer als individuelles Radioprogramm prä sentiert. Dies würde auch für die Unterhaltung zu Hause gelten. Amazons Alexa wird es
6 Generierung von Texten in natürlicher Sprache
99
dem Benutzer ermöglichen, mit den Systemen zur Texterzeugung zu interagieren und auf Anfragen zu reagieren, wie z. B.: „Alexa, gib mir einen zusammenfassenden Bericht über die Entwicklung meiner Aktien!“ oder „Alexa, halte mich über die wichtigen Ereignisse des Fußballspiels meiner Lieblingsmannschaft auf dem Laufenden!“. Die Hyper-Personalisierung erhöht jedoch potenziell die Gefahr von „Echokammern“, die ihrerseits demokratische Gesellschaften gefährden. Außerdem sind die Ressourcen, die für das Angebot solcher Dienste benötigt werden, enorm. Die Anzahl der zu erstellen den Nachrichtenartikel ist viel größer als bei allgemeinen Nachrichten für ein breites Pu blikum. Außerdem muss der Prozess der Nachrichtengenerierung kontinuierlich ablaufen, da Ereignisse, die die Produktion eines neuen Textes auslösen, jederzeit eintreten können.
Literatur 1. Bense H (2014) The unique predication of knowledge elements and their visualization and fac torization in ontology engineering. In: Garbacz P, Kutz O (Hrsg) Formal ontology in information systems, proceedings of the eighth international conference (FOIS 2014), Rio de Janeiro, Brazil, Sept. 22–25. IOS Press, Amsterdam, S 241–250 2. Bense H, Schade U (2015) Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte. In: Humm B, Reibold A, Ege B (Hrsg) Corporate semantic web. Springer, Berlin 3. Bock JK (1982) Toward a cognitive psychology of syntax: information processing contributions to sentence formulation. Psychol Rev 89:1–47 4. Bühler K (1934) Sprachtheorie: Die Darstellungsfunktion der Sprache. G. Fischer, Jena 5. Dell GS (1986) A spreading-activation theory of retrieval in sentence production. Psychol Rev 93:283–321 6. Fromkin V (1971) The non-anomalous nature of anomalous utterances. Language 47:27–52 7. Garrett M (1975) The analysis of sentence production. In: Bower G (Hrsg) Psychology of lear ning and motivation, Bd 9. Academic, New York, S 133–177 8. Kempen G, Hoenkamp E (1987) An incremental procedural grammar for sentence formulation. Cogn Sci 11:201–258 9. Kempen G, Huijbers P (1983) The lexicalization process in sentence production and naming: in direct election of words. Cognition 14:185–209 10. Levelt WJ (1983) Monitoring and self-repair in speech. Cognition 14:41–104 11. Levelt WJ (1989) Speaking – from intention to articulation. MIT Press, Cambridge 12. Levelt WJ, Roelofs A, Meyer AS (1999) A theory of lexical access in speech production. Behav Brain Sci 22:1–75 13. Musan R (2010) Informationsstruktur. Universitätsverlag Winter, Heidelberg 14. Nübling D, Fahlbusch F, Heuser R (2015) Namen: Eine Einführung in die Onomastik, 2. Aufl. Narr, Tübingen 15. Schriefers H, Meyer AS, Levelt WJ (1990) Exploring the time course of lexical access in lan guage production: picture-word interference studies. J Mem Lang 29:86–102 16. Wöllstein A (2014) Topologisches Satzmodell, 2. Aufl. Universitätsverlag Winter, Heidelberg
7
Die Rolle von Ontologien in der Sentiment-Analyse Melanie Siegel
Kernaussagen
1. Die Sentiment-Analyse hängt stark von Wörtern ab: Sentiment-Wörter, Negationen, Verstärker und Wörter für das Produkt oder seine Aspekte. 2. Wörter sind sehr wichtig, unabhängig von der gewählten Analysemethode – maschinelles Lernen oder wissensbasiert. 3. Im Zusammenhang mit der Sentiment-Analyse werden Wörter häufig in Ontologien dargestellt. 4. Wenn die Sentiment-Analyse mehr leisten soll, als nur einen Satz als positiv oder negativ zu klassifizieren, und wenn sie die positiv oder negativ bewerteten Attribute eines Produkts und den Umfang der Verneinung identifizieren soll, benötigt sie linguistisches und ontologisches Wissen. 5. Ontologien können verwendet werden, um eine Liste von Sentiment-Wörtern zu erstellen. 6. Die deutsche Sprache weist einige Besonderheiten auf (z. B. die freie Wortstellung), die es unmöglich machen, einfach die für die englische Sprache entwickelten Methoden anzuwenden.
M. Siegel (*) Hochschule Darmstadt, Darmstadt, Deutschland E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_7
101
102
M. Siegel
7.1 Einleitung Wer hat nicht schon einmal die Bewertungen anderer Verbraucher gelesen, bevor er eine Reise bucht, ein Buch kauft oder ein Rezept nachkocht? In den letzten Jahren ist dies zum Standardverhalten der Verbraucher geworden. Viele Verbraucher schreiben auch Bewertungen in Verkaufsportalen oder auf Twitter. Der Verbraucher hat damit einen direkten Einfluss auf die Entwicklung der Produkte. Für die Unternehmen (z. B. Hotels, Autoren, Produzenten, usw.) ist dies eine große Chance, mehr darüber zu erfahren, was ihren Kunden wichtig ist und was sie nicht mögen. Die Unternehmen können schneller als je zuvor reagieren, wenn beispielsweise etwas schiefläuft, ein neues Design nicht gefällt, eine Marketingkampagne falsch kalkuliert ist oder ein Produkt nicht so funktioniert, wie es sollte. Dies ist jedoch nur möglich, wenn sie die Informationen aus den Kundenmeinungen schnell extrahieren können, was bei großen Datenmengen eine automatische Datenverarbeitung erfordert. Alle automatischen Methoden zur Sentiment-Analyse arbeiten mit Wörtern: Wörter, die die Stimmung ausdrücken („gut“), Verneinungen („nicht“), Verstärker („sehr“) und Wörter, die die bewerteten Produkte oder Dienstleistungen und ihre Bestandteile und Eigenschaften beschreiben („Batterie“, „Sauberkeit“). In diesem Kapitel werden die Rolle der Wörter und Phrasen (lexikalische Einheiten) in der Sentiment-Analyse und die Rolle von Ontologien untersucht. Ontologien werden in diesem Kapitel in einem breiteren Sinne verstanden und umfassen Terminologien, Thesauri, Wörterbücher, Glossare usw. Zunächst werden die Grundlagen der automatischen Sentiment- Analyse erläutert, bevor wir uns mit den lexikalischen Einheiten in der Sentiment-Analyse befassen. Dabei betrachten wir zunächst die Sentiment-Wörter und in einem zweiten Schritt die Wörter, die die Aspekte und Entitäten bezeichnen, über die Meinungen geäußert werden. In beiden Fällen untersuchen wir die Organisation der lexikalischen Einheiten im Sentiment-Analyse-Tool, den Erwerb neuer lexikalischer Einheiten und die Anpassung an die Domäne.
7.2 Grundlagen der automatischen Sentiment-Analyse Die Analyse von Meinungen gehört zum Bereich der Verarbeitung natürlicher Sprache, wobei die Informationsgewinnung sowohl Data Mining als auch Text Mining erfordert. Data Mining sucht relevante Informationen in Daten und zeigt diese Informationen in Tabellen oder Visualisierungen an. Beim Text Mining werden relevante Informationen in Textdaten gesucht. Textdaten sind sogenannte unstrukturierte Daten, da sie nicht in Tabellen oder Zahlen erfasst sind. Bei der Informationsextraktion werden Methoden entwickelt, um die extrahierten Informationen aus Textdaten in Wissen umzuwandeln. Die Sentiment- Analyse ist eine spezielle Form der Informationsextraktion. Sie zielt darauf ab, Meinungsäußerungen (Informationen) in Newsgroups, Twitter, Facebook und Foren (Sprachdaten) automatisch zu erkennen und zu klassifizieren und so Wissen über Meinungen zu gewinnen.
7 Die Rolle von Ontologien in der Sentiment-Analyse
103
Der Ausgangspunkt für die Informationsextraktion ist die Suche nach Dokumenten, die Fragen der folgenden Art beantworten: „Wo ist die E-Mail, die ich letzte Woche von Frau Müller erhalten habe?“ „Wo kann ich Informationsmaterial zu meinem Thema finden?“ Diese können von Suchmaschinen gelöst werden, aber das Ergebnis ist nicht zufriedenstellend. Es gibt noch viel mehr Informationen, die genauer untersucht werden müssen. Mich interessiert zum Beispiel, ob meine Forschungsergebnisse in der wissenschaftlichen Öffentlichkeit diskutiert werden und in welcher Form dies geschieht. Es ist nicht nur relevant, wie oft jemand zitiert wird, sondern auch, ob die Forschungsergebnisse als Grundlage für weitere Forschungen oder gar als schlechtes Beispiel dienen. In dieser Hinsicht sind die Informationen in den Dokumenten interessant, und es reicht nicht aus, die Dokumente zu finden. Für die sprachtechnologische Forschung stellt sich die Frage, welche Methoden am besten für die Aufgabe geeignet sind. Diese Frage ist in hohem Maße interdisziplinär. In der Forschung zur Informationsextraktion gibt es zwei grundlegende Ansätze: Der wissensbasierte Ansatz (WB) verwendet linguistische Methoden. Für die Extraktion werden manuell erstellte Regeln verwendet. Ein Nachteil dieses Ansatzes ist die höhere Komplexität, die damit verbunden ist, dass Regeln manuell aufgestellt werden. Bei einem hochmodularen Aufbau wird jedoch die Übertragbarkeit auf neue Domänen und Sprachen erheblich vereinfacht, da nur Module und nicht ganze Prozesse neu implementiert werden müssen. Der Ansatz des maschinellen Lernens (ML) basiert auf statistischen Methoden, bei denen Regeln automatisch aus annotierten Korpora gelernt werden. Daher ist nur sehr wenig linguistisches Fachwissen erforderlich. Ein Nachteil ist, dass annotierte Trainingsdaten schwer zugänglich sein können. Wenn diese jedoch verfügbar sind, kann ein solches System implementiert und schnell angepasst werden. Die erste Aufgabe der Sentiment-Analyse besteht darin, Meinungsäußerungen zu identifizieren, indem sie von anderen Satzarten, z. B. beschreibenden Sätzen, unterschieden werden. Beim WB-Ansatz wird dies durch die Suche nach Wörtern und Phrasen erreicht, die Meinungen bezeichnen, wie z. B. „Ich glaube“ oder „Ich denke“. Beim ML-Ansatz werden große Mengen von Sätzen trainiert, die zuvor manuell danach klassifiziert wurden, ob sie eine Meinungsäußerung enthalten oder nicht (und ob diese positiv oder negativ ist). Aus diesen Sätzen werden dann die Sentiment-Wörter und -phrasen gelernt. Es ist zu beachten, dass subjektive und emotionale Ausdrücke nicht immer Meinungsäußerungen sind, z. B. „Ich dachte, sie würde heute nicht kommen“ oder „Ich bin so traurig, dass ich den Film verpasst habe!“. Liu [8] klassifiziert die Informationen in Meinungsäußerungen wie folgt: 1 . Die Einheit, die Gegenstand der geäußerten Meinung ist, z. B. „Radio“. 2. Ein Aspekt dieser Einheit, der in dem Ausdruck behandelt wird, z. B. die Empfangsqualität.
104
M. Siegel
3 . Die Meinung dazu, z. B. positiv. 4. Die Person, die diese Meinung vertritt. Dies kann z. B. relevant sein, wenn man herausfinden möchte, ob viele verschiedene Personen ihre Meinung geäußert haben oder nur wenige Personen häufig ihre Meinung geäußert haben. 5. Der Zeitpunkt, zu dem die Meinung geäußert wurde. Dies kann z. B. relevant sein, wenn man eine Veränderung der Kundenmeinungen zu einem Produkt oder der Bürgermeinungen zu einer politischen Frage beobachten möchte. Auf der Grundlage dieser Klassifizierung lauten die Aufgaben der Sentiment-Analyse also: 1 . Identifizierung der Entität 2. Identifizierung des Aspekts 3. Identifizierung der Meinungsäußerung und ihrer Polarität, z. B. als positiv, neutral oder negativ 4. Identifizierung der Person, die die Meinungsäußerung abgibt 5. Identifizierung des Zeitpunkts der Äußerung Zunächst muss die Sentiment-Analyse den relevanten Ausdruck finden. Mit anderen Worten, es müssen Dokumente oder Sätze gefunden werden, die sich mit der zu untersuchenden Entität befassen. Die Entität kann im Text in verschiedenen synonymen Varianten ausgedrückt werden. Nehmen wir an, es geht um eine Kaffeemaschine namens ABC- Kaffeemaschine. Diese Maschine könnte im Text als „ABC Kaffeemaschine“, „ABC- Kaffeemaschine“ oder „abc Kaffeemaschine“ bezeichnet werden. Zeit und Person können oft aus Metadaten abgeleitet werden. Der nächste Schritt der Sentiment-Analyse ist die Identifizierung der Meinung und ihrer Polarität. Die Sentiment-Analyse arbeitet mit lexikalischen Informationen, die manuell oder automatisch erstellt wurden. Die Sentiment- Analyse sucht zum Beispiel nach Wörtern und Phrasen wie „gut“ oder „nicht schlecht“. Diese Wörter werden zunächst mit einer Polarität versehen und dann im Dokument oder Satz summiert. Die aufwändigste Aufgabe ist die Extraktion des Aspekts der Entität, zu der eine Meinung geäußert wird. Ein Satz kann Ausdrücke zu mehreren Aspekten enthalten, z. B. „Die Akkulaufzeit dieses Handys ist toll, aber es ist viel zu schwer“. Aspekte können auch implizit sein, z. B. bezieht sich „zu schwer“ in der vorherigen Aussage auf den Aspekt „Gewicht“. Um eine aspektbasierte Sentiment-Analyse durchzuführen, muss die zu durchsuchende Domäne mit ihren Entitäten und Aspekten modelliert werden. Außerdem reicht es nicht aus, auf Dokumentenebene zu arbeiten (z. B. einzelne Amazon- Rezensionen), sondern man muss für eine präzise Analyse auf die Satzebene oder sogar auf die Phrasenebene gehen.
7 Die Rolle von Ontologien in der Sentiment-Analyse
105
7.3 Wörter in der Sentiment-Analyse 7.3.1 Sentiment-Wörter Die Grundlage für die Analyse von Stimmung und Polarität sind Sentiment-Wörter. Häufig drücken Adjektive wie „schlecht“, „nett“, „schnell“, „robust“ die Meinung aus, aber Meinungen können auch durch Phrasen wie „schnell kaputt“ oder „macht mich verrückt“ ausgedrückt werden. Einige Wörter sind jedoch nur in bestimmten Kontexten Ausdruck von Gefühlen. So hat beispielsweise das Wort „Lärm“, das in den meisten Kontexten neutral ist, im Zusammenhang mit Motoren oder Hotelzimmern eine negative Polarität. In Sentiment-Analysesystemen können Sentiment-Wörter und -Phrasen als Wortlisten oder in Ontologien organisiert und mit ihrer Polarität versehen werden. In den meisten Fällen sind sie als Wortlisten organisiert. Es gibt allgemeine und kontextspezifische Listen von Sentiment-Wörtern. Wortlisten können manuell erstellt werden, und Sentiment- Wörter können aus anderen Lexika, Wortnetzen oder aus Textkorpora abgeleitet werden.
7.3.1.1 Ableitung von Sentiment-Wörtern aus Wortnetzen Das Opinion Lexicon von Hu und Liu [5] enthält 6800 englische positive und negative Wörter. Es wurde durch die manuelle Klassifizierung einer Reihe von Adjektiven aus dem (manuell erstellten) Princeton WordNet [4] erstellt, wobei Synonyme die gleiche Polaritätsklassifizierung und Antonyme die entgegengesetzte Klassifizierung erhielten. In Ref. [1] stellen die Autoren das SentiWordNet für die englische Sprache vor, in dem Stimmung und Polarität annotiert sind. Die Menge von Synonymen (Synsets) des Princeton WordNet wurden mit numerischen Werten für positiv, negativ und neutral annotiert. Wie im Sentiment-Lexikon wurden daher einige Synsets manuell als positiv, negativ und neutral annotiert, und dann wurden Relationen wie Antonymie verwendet, um automatisch zusätzliche Polaritäten zu erzeugen: Das Antonym eines positiven Adjektivs ist beispielsweise negativ. Das Princeton WordNet enthält Definitionen für jedes Synset. Da diese Definitionen ihrerseits Wörter enthalten, die Teil des WordNet sind, übertragen Baccianella, Esuli und Sebastiani [1] die Polarität auf diese Wörter. WordNet als allgemeine Ressource, die ontologische Beziehungen enthält, wird verwendet, um weitere Sentiment-Wörter zu gewinnen. Diese Sentiment-Klassifikationen werden dann an WordNet zurückgegeben, sodass die Ressource angereichert wird. Der Vorteil dieses Ansatzes ist, dass große Sentiment-Lexika schnell und automatisch aufgebaut werden können, während der Aufwand für die manuelle „Bereinigung“ überschaubar ist. Ein Nachteil dieses Ansatzes ist, dass die klassifizierten Wörter allgemeiner Natur sind. So ist beispielsweise „leise“ im Kontext von Motoren ein positives Adjektiv, während es im Kontext von Lautsprechern negativ ist.
106
M. Siegel
7.3.1.2 Ableitung von Sentiment-Wörtern aus Korpora Das Ziel der Gewinnung von Sentiment-Wörtern aus Textkorpora ist es, die Kontextabhängigkeit der Bedeutung vieler Wörter zu berücksichtigen. Ein einmal implementiertes Trainingsverfahren kann leicht auf andere Daten übertragen werden. Auf diese Weise können weitere Sentiment-Wörter gewonnen werden. Wenn genügend manuell annotierte Textkorpora vorhanden sind, können daraus Sentiment-Wörter gelernt werden, indem die Wahrscheinlichkeit berechnet wird, mit der ein Wort im positiven oder negativen Kontext auftritt. Die Referenz [10] beschreibt diese Methode. Dieser Ansatz ist z. B. auch bei Amazon-Rezensionen möglich, die mit einer von den Kunden vergebenen Annotation von 1 bis 5 Sternen versehen sind; ein Verfahren, das [11] für die deutsche Sprache anwendet. Die Methode des halb überwachten Lernens benötigt weniger annotierte Textdaten. Die Basis bilden hier einige annotierte Beispiele, eine große Menge an nicht annotierten Textdaten und einige „Muster“. Mit dieser Methode werden z. B. Adjektive, die mit positiven Adjektiven mit „und“ koordiniert werden, ebenfalls als positiv eingestuft, z. B. „nützlich und gut“. Adjektive, die mit „aber“ koordiniert werden, werden mit entgegengesetzter Polarität klassifiziert, z. B. „unpraktisch, aber schön“. In [7] wird dieses Verfahren beschrieben. Referenz [12] verzichtet auf die Verwendung von Textkorpora und verwendet stattdessen eine allgemeine Suchmaschine. Es wird nach Wörtern gesucht, die häufig in der gleichen Phrase mit „ausgezeichnet“ und „schlecht“ vorkommen und dem Stimmungslexikon hinzugefügt. Referenz [6] nutzt die Layout-Strukturen von Websites mit „Pro und Contra“ zur Gewinnung von Sentiment-Wörtern. Referenz [3] nimmt einen Satz von annotierten Dokumenten aus einer Domäne, ein Sentiment-Lexikon und einen Satz von Dokumenten aus einer anderen Domäne als Grundlage und berechnet dann, welche Sentiment-Wörter domänenunabhängig und welche domänenspezifisch sind. Der Vorteil dieses Ansatzes ist, dass die Domänenabhängigkeit der Sentiment-Wörter berücksichtigt wird. Ein Nachteil ist, dass die Methode auf annotierten Textdaten basiert. Ein Problem bei der Verwendung von annotierten Daten ist, dass sie ein nur mäßiges Niveau der „Inter-Annotator Agreements“ [9] haben können.
7.3.2 Entitäten und Aspekte In vielen Fällen reicht es nicht aus, automatisch festzustellen, ob ein Dokument (ein Forum oder ein Blog-Beitrag) positiv, negativ, neutral oder unverbunden ist. Es ist auch wichtig, herauszufinden, was genau gut oder schlecht ist. Oft enthält ein Satz mehrere Ausdrücke, die sich auf verschiedene Aspekte einer Einheit beziehen, wie in dieser Rezension eines Lehrbuchs:
7 Die Rolle von Ontologien in der Sentiment-Analyse
107
„Die Grafiken und Tabellen sind jedoch sehr gut und tragen sicherlich zum besseren Verständnis des Themas bei“.
Ein Gefühlsausdruck hat immer einen Zielaspekt. Dieser Aspekt kann explizit im Text vorkommen, wie im obigen Beispiel, er kann aber auch implizit im Text vorkommen, z. B. „Dieses Auto ist sehr teuer“. In diesem Beispiel handelt es sich um eine Aussage über den Aspekt des Preises der Entität Auto. Um Entitäten und Aspekte eines Bereichs zu erfassen, müssen Synonyme, Meronyme und Hyponyme des Bereichs analysiert werden. Synonyme wie „Stimmqualität“ – „Sprachqualität“ müssen demselben Aspekt zugeordnet werden. Synonyme können domänenabhängig sein. Es kann auch zu Rechtschreibfehlern kommen, insbesondere wenn Daten aus sozialen Medien analysiert werden. Meronyme sind potenziell Aspekte, d. h. die Eigenschaften und Teile der Entität. Hy ponyme sind Untertypen von Entitäten oder Aspekten. Diese Beziehungen können in einer Ontologie festgehalten werden. Daher werden Wörter für Aspekte und Entitäten im Gegensatz zu Sentiment-Wörtern eher in Ontologien als in Wortlisten organisiert. Für eine Synonymgruppe kann eine bevorzugte Benennung festgelegt werden, sodass alle Ausdrücke der Synonymgruppe auf denselben Aspekt abgebildet werden. Eine bestehende Ontologie – wie z. B. WordNet – kann zur Erweiterung der Aspekt- Ontologie verwendet werden, indem weitere Synonyme, Meronyme und Hyponyme integriert werden. Eine weitere Möglichkeit ist die Nutzung von Texten aus der Domäne. Aus diesen Texten können explizite Aspekte abgeleitet werden, indem häufig vorkommende Substantive extrahiert werden, die in der allgemeinen Sprache weniger verbreitet sind. Die Ergebnisse können präziser sein, wenn für diese Extraktion nur die Substantive in Sentiment-Sätzen berücksichtigt werden. Das heißt, dass Sätze, die Stimmungen enthalten, zunächst identifiziert werden müssen. Im Deutschen sind Nominalkomposita eine wichtige Quelle für Fachbegriffe, während im Englischen häufiger Mehrwortausdrückevorkommen. Es ist auch möglich, mit Mustern zu arbeiten. Ein Beispiel ist das Muster eines Adjektivs und eines Substantivs, bei dem das Adjektiv großgeschrieben wird. Dies ist im Deutschen der Fall, wenn die Adjektiv-Nomen-Konstruktion ein Fachbegriff ist. Um Aspekte von Entitäten (d. h. Meronyme) zu finden, können Muster wie „Auto hat“, „das Auto ist“ und „Auto wird geliefert mit“ verwendet werden. Die Suche nach diesen Mustern mit einer Suchmaschine kann zu guten Ergebnissen führen. Wenn Entitäten und Aspekte erfasst und klassifiziert sind, kann die Analyse eines Satzes so interpretiert werden, dass das Aspektwort, das dem Sentiment-Wort am nächsten liegt, als Zielaspekt der Meinung interpretiert wird. Diese Methode führt jedoch häufig zu fehlerhaften Ergebnissen, insbesondere bei der Anwendung auf deutsche Texte. Ein anderer Ansatz ist die Verwendung eines Dependenzparsers, der die Argumente von Ausdrücken, z. B. Adjektiven, analysiert [2]. Ein schwieriges Problem ist die Erkennung von Ko-Referenzen im Falle von Pronomen. Ein weiteres Problem ist die Erkennung von impliziten Aspekten, die in der Regel mit Adjektiven verbunden sind, wie „teuer“ mit Preis und „schön“ mit Aussehen.
108
M. Siegel
7.4 Empfehlungen 1. Die Methoden der Sentiment-Analyse benötigen Wörter als grundlegende Informationsquelle. Sentiment-Wörter und Aspektwörter können in Ontologien organisiert werden. Dies hat den Vorteil, dass ontologische Beziehungen für die Abfrage und Interpretation von Stimmungen genutzt werden können. 2. Bestehende Ontologien können zur Erweiterung des Wörterbuchs der Sentiment- Wörter verwendet werden. 3. Zur Identifizierung von Aspekten in der Sentiment-Analyse muss eine Ontologie erstellt oder abgeleitet werden, die den Themenbereich repräsentiert.
7.5 Schlussfolgerungen Wesentliche Kernbestandteile der Sentiment-Analyse sind Wörter und Phrasen. Dabei handelt es sich zum einen um Sentiment-Wörter, d. h. um Meinungsäußerungen, und zum anderen um Wörter für Aspekte und Entitäten in der Domäne. Sentiment-Wörter sind in der Regel in Wortlisten organisiert. Darüber hinaus ist es gängige Praxis, Sentiment- Wörter aus bestehenden Ontologien (wie WordNet) zu übernehmen. Für die domänenabhängigen Sentiment-Wörter werden Methoden verwendet, um sie aus annotierten Textkorpora zu extrahieren. Im Gegensatz dazu werden Aspektwörter normalerweise in Ontologien organisiert, da ontologische Beziehungen eine wichtige Rolle spielen. Für die Erfassung von Aspektwörtern werden aufgrund der starken Domänenabhängigkeit sowohl allgemeine semantische Netze als auch textbasierte Methoden verwendet.
Literatur 1. Baccianella S, Esuli A, Sebastiani F (2010) SentiWordNet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining. In: Proceedings of LREC, Valetta, S 2200–2204 2. Chen D, Manning C (2014) A fast and accurate dependency parser using neural networks. In: Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), Doha, S 740–750 3. Du W, Tan S, Cheng X, Yun X (2010) Adapting information bottleneck method for automatic construction of domain-oriented sentiment lexicon. In: Proceedings of the third ACM international conference on web search and data mining. ACM, New York, S 111–120 4. Fellbaum C (1998) WordNet: an electronic lexical. MIT Press, Cambridge 5. Hu M, Liu B (2004) Mining and summarizing customer reviews. In: Proceedings of the ACM SIGKDD international conference on knowledge discovery and data mining (KDD-2004), Seattle 6. Kaji N, Kitsuregawa M (2007) Building lexicon for sentiment analysis from massive collection of HTML documents. In: Proceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning, Prague, Czech Republic
7 Die Rolle von Ontologien in der Sentiment-Analyse
109
7. Kanayama H, Nasukawa T (2006) Fully automatic lexicon expansion for domain-oriented sentiment analysis. In: Proceedings of the 2006 conference on empirical methods in natural language processing. Association for Computational Linguistics, Sydney, S 355–363 8. Liu B (2012) Sentiment analysis and opinion mining. Morgan & Claypool Publishers, San Rafael 9. Nowak S, Rüger S (2010) How reliable are annotations via crowdsourcing: a study about inter- annotator agreement for multi-label image annotation. In: Proceedings of the international conference on multimedia information retrieval, Philadelphia, S 557–566 10. Potts C (2010) On the negativity of negation. In: Semantics and linguistic theory. Linguistic Society of America, Cornell University, S 636–659 11. Rill S et al (2012) A phrase-based opinion list for the German language. In: Proceedings of KONVENS 2012, Vienna, S 305–313 12. Turney PD (2002) Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In: Proceedings of the 40th annual meeting on association for computational linguistics. Association for computational linguistics, Philadelphia, S 417–424
8
Aufbau optimaler Textkorpora aus Webinhalten Wolfram Bartussek
Kernaussagen
1. Definieren Sie Ihren Gegenstand durch Ontologien im Sinne der Informationsund Informatikwissenschaften. 2. Verwenden Sie Ontologien, um zu kontrollieren, welche Informationen Teil Ihres Textkorpus sein werden, der das Wissen repräsentiert, an dem Sie interessiert sind. 3. Gestalten Sie Ihre Textkorpora umfassend, aber minimalistisch, d. h. optimal. 4. Optimale Korpora können auch mit kostengünstiger Hardware ausgewertet werden, so dass sie auch in sehr kleinen Unternehmen hergestellt werden können. 5. Minimieren Sie Ihren eigenen Aufwand, indem Sie den Großteil der Pflege und des Lernens einem teilüberwachten Lernsystem wie dem hier beschriebenen CorpusBuilder überlassen.
8.1 Motivation In Anbetracht der Tatsache, dass wir eine Lösung zur Produktüberwachung für kleine und mittlere Unternehmen (KMU) anstreben, haben wir davon abgesehen, Technologien einzusetzen, die große Rechenzentren erfordern. Viele kleine Unternehmen wären nicht in der Lage, sich solche Dienste zu leisten. Außerdem ist der Schutz der Privatsphäre und die
W. Bartussek (*) Ontoport UG, Sulzbach, Deutschland E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_8
111
112
W. Bartussek
Datensicherheit ein wichtiger Punkt für KMU im Bereich der Medizinprodukte. Diese Unternehmen sind häufig in der Forschung tätig und arbeiten mit vielen sensiblen Daten, die in ihren Qualitätssicherungssystemen gespeichert sind. Daher ziehen sie es vor, ihre Daten vor Ort aufzubewahren. Daher wurden die hier vorgestellten Technologien so entwickelt, dass sie unabhängig von solchen Überlegungen funktionieren. Sie können auf preiswerter Hardware betrieben werden, lassen sich aber auch nach Bedarf skalieren. Im Allgemeinen ist man nicht nur an Daten interessiert, die man im Internet findet. Stattdessen würde man für eine vollständige Überwachungslösung die eigenen und geschützten Daten mit den öffentlich verfügbaren Daten integrieren. Obwohl dieser Integrationsaspekt einer der Hauptaspekte dieses Projekts war, und obwohl er gründlich verfolgt wurde, wurde er in diesem Kapitel absichtlich ausgeklammert. Hier konzentrieren wir uns auf Inhalte, die aus dem Internet abgerufen werden können. Daher mussten wir darauf achten, welche Veröffentlichungen wir in die Korpora aufnehmen und welche wir verwerfen, um einen minimalen Korpus zu erhalten. Ein minimales Korpus würde die Voraussetzung erfüllen, um kostengünstige Geräte einsetzen zu können. Gleichzeitig darf aber auch nichts fehlen! Ingenieure in der Medizinproduktebranche (und anderswo) sind immer an beobachteten oder vermuteten Mängeln ihrer Produkte interessiert. In Bezug auf Medizinprodukte sind Ingenieure sehr an gemeldeten Komplikationen und unerwünschten Ereignissen interessiert. Es wäre mehr als eine Panne, wenn ein System zur Überwachung nach dem Inverkehrbringen nicht in der Lage wäre, solche Informationen sicher und rechtzeitig zu finden. Daher muss der Korpus umfassend und aktuell sein. Technisch gesehen bedeutet dies, dass wir eine Komponente benötigen, die in der Lage ist, das Internet zu „inspizieren“, um die richtigen Quellen zu finden und diese sowohl zuverlässig als auch schnell zu finden. Um solche Anforderungen zu erfüllen, würde man traditionell einen Webcrawler1 in stallieren, ihm die richtige Liste von Internetadressen (URLs2) geben und ihn seine Arbeit machen lassen. Oder, wenn man genauer sein will und die Seiten im Voraus bekannt sind, beschäftigt man einige Programmierer und gibt ihnen die entsprechenden URLs. Dann lassen Sie diese ein Programm mit einem Scraper3 schreiben, der die gewünschten Teile der aufzurufenden Webseiten extrahiert und die Daten an eine Suchkomponente weitergibt. Einen vereinfachten Überblick über die Vorgänge bei einer Suchlösung gibt Abb. 8.1:
Abb. 8.1 Suchlösung Web Crawler: https://en.wikipedia.org/wiki/Web_crawler. Unified Resource Locator: https://en.wikipedia.org/wiki/URL. 3 Web Scraping: https://en.wikipedia.org/wiki/Web_scraping. 1 2
8 Aufbau optimaler Textkorpora aus Webinhalten
113
Aus dem Diagramm geht hervor, dass es ein Werkzeug zur Datenerfassung gibt, das schließlich eine Art Korpus zusammenstellt. Als Nächstes gibt es einen Mechanismus zur Erstellung eines invertierten Index4 auf der Grundlage des Korpus, der hier als „Indizierung“ bezeichnet wird. Der sich daraus ergebende Index wird verwendet, um Daten entsprechend einer vom Endbenutzer gestellten Anfrage zu extrahieren und zu interpretieren, und schließlich gibt es eine Komponente, die dem Endbenutzer die Ergebnisse über eine Benutzeroberfläche (UI) präsentiert. Dieses Bild ist in mehrfacher Hinsicht stark vereinfacht. Erstens ist das Lesen aus dem Internet bei den vertikalen Suchlösungen5 nur eine Möglichkeit, relevante Daten zu beschaffen. Daher müssen wir diesen Ansatz verallgemeinern, um jede relevante Datenquelle einzubeziehen. Diese können über Internet-Technologien abrufbar sein, es kann sich aber auch um Daten handeln, die in proprietären Kundendatenbanken oder Dateisystemen gespeichert sind. Zweitens ist es irreführend, anzunehmen, dass die Indexierung unmittelbar auf die Datenerfassung folgt. Tatsächlich entfernen die meisten Crawler alle Auszeichnungselemente6 wie HTML7 oder PDF8 und speichern den reinen Text, obwohl es klar ist, dass Auszeichnungselemente wichtige semantische Inhalte enthalten können. Drittens geht es bei der Indexierung nicht nur darum, einen einfachen invertierten Index zu berechnen. Stattdessen müssen viele Entscheidungen getroffen werden, z. B. wie der Index strukturiert werden soll, welche Ranking-Algorithmen im Vorfeld angewandt werden, welche Wörter für welche Sprachen ignoriert werden sollen, welche natürlichen Sprachen unterstützt werden sollen und so weiter. Auf Extraktion und Interpretation wird hier nicht weiter eingegangen. Hier konzentrieren wir uns auf die Datenerfassung und die Bildung von Korpora, die den Bedürfnissen der Kunden entsprechen. Den Crawlern muss mitgeteilt werden, auf welche Sites und Seiten sie zugreifen sollen. Dies wird meist von Fachleuten mit einem Hintergrund in Computerlinguistik oder technischer Redaktion erledigt. Sie stellen eine anfängliche Seed-Liste zur Verfügung, bei der es sich normalerweise um eine einfache Liste von URLs handelt, die gecrawlt werden sollen. Der Crawler nimmt diese Liste auf, liest die erreichbaren Seiten und speichert sie so, wie sie sind, oder er entfernt jegliches Markup und speichert den restlichen Text. Crawler erkennen alle Verweise auf andere Seiten. Sie lesen sie und folgen ihnen. Dort lesen sie auch die referenzierten Seiten und graben sich so immer tiefer in das Web ein. Es gibt mindestens zwei grundlegende Probleme mit solchen Algorithmen.
Invertierter Index: https://en.wikipedia.org/wiki/Inverted_index. Vertikale Suche: https://en.wikipedia.org/wiki/Vertical_search. 6 Markup Language: https://en.wikipedia.org/wiki/Markup_language. 7 Hypertext Markup Language: https://en.wikipedia.org/wiki/HTML. 8 Portable Document Format: https://en.wikipedia.org/wiki/Portable_Document_Format. 4 5
114
W. Bartussek
(a) Wie können wir sicherstellen, dass die gefundenen Seiten für den Kunden wichtig sind? (b) Wie können wir sicherstellen, dass die Seed-Liste alles enthält, was für den Kunden relevant ist? Die erste Frage läuft darauf hinaus, ein Mittel zum Ausschluss von „Müll“ oder „unerwünschten“ Daten bereitzustellen. Dies geschieht normalerweise durch spezialisierte Filteralgorithmen, die ad hoc für besondere Fälle programmiert werden. Ergänzend werden die wertlosen oder anstößigen Seiten manuell entfernt. Dies kann ein langweiliges und frustrierendes Unterfangen sein und es ist sehr fehleranfällig. Die zweite Frage ist viel schwieriger zu beantworten. Es herrscht die weit verbreitete Meinung, dass universelle Suchmaschinen wie Google, Bing oder Yahoo die Anforderung erfüllen, ein Höchstmaß an Vollständigkeit zu bieten. Diese Suchmaschinen können jedoch nicht auf alle relevanten Datenquellen zugreifen, z. B. auf interne Unternehmensdaten. Auch im Internet gibt es viele offene Spezialsuchmaschinen mit jeweils eigener Abfragesprache, die teilweise eine Authentifizierung erfordern. Es ist sofort klar, dass universelle Suchmaschinen nicht den Aufwand betreiben werden, um auf solche Daten zuzugreifen. Abgesehen von all diesen technischen Überlegungen bleiben Fragen hinsichtlich der Kenntnisse, Fähigkeiten und des Aufwands des Personals, das alle für solche Ansätze erforderlichen Informationen bereitstellen muss: ( 1) Woher kommen diese URLs? (2) Wer wird sie zur Verfügung stellen? (3) Wer hält sie auf dem Laufenden? (4) Wie können wir sicherstellen, dass wir alle relevanten URLs haben? (5) Wer würde entscheiden, welche Seiten relevant sind und welche nur Müll sind? (6) Würde sich dieser enorme Aufwand überhaupt lohnen?
8.2 Ziele Bei dem Versuch, minimale, aber umfassende Textkorpora aus Web-Inhalten zu erstellen, sind natürlich noch einige weitere technische Probleme zu lösen. Gleichzeitig müssen wir jedoch die technische Lösung mit einer Reihe von standardisierten Prozessen (im medizinischen Kontext „Standardarbeitsanweisungen, Standard Operating Porceures, SOPs“)9 kombinieren, an denen Fachleute beteiligt sind. Diese Prozesse sind Gegenstand der Fragen (1) bis (5) oben. Wenn es uns gelungen ist, solche Prozesse zu etablieren und eine technische Lösung zu entwickeln, die den größten Teil der Arbeit erledigt, wird jemand, der die Bemühungen als Ganzes überwacht, mit Frage (6) konfrontiert. Standardarbeitsanweisung: https://en.wikipedia.org/wiki/Standard_operating_procedure.
9
8 Aufbau optimaler Textkorpora aus Webinhalten
115
Jeder der Hauptschritte dieser Prozesse benötigt seine eigene Qualitätssicherung, die einer übergeordneten Qualitätsmanagementpolitik gehorcht. Hier werden wir den Schwerpunkt auf den Schritt der Datenerfassung legen, und zwar auf eine derzeit noch unübliche Art und Weise: Das Ziel ist es, automatisch nur Daten zu finden und zu akzeptieren, von denen wir erwarten, dass sie für den Nutzer von hohem Wert sind, wobei Relevanz als Auswahlkriterium und Minimalität als übergeordnetes wirtschaftliches Kriterium gelten. Wenn wir dieses globale Ziel aufschlüsseln, kommen wir zu dem Ergebnis, dass wirerheblichen Aufwand treiben müssen, um es zu erreichen: ( 1) Finden der interessierenden Daten. (2) Auswertung der gefundenen Daten aus. (3) Bereitstellung von Mitteln, um dies auf hochautomatisierte Weise zu tun. Der Schlüssel dazu ist eine Ontologie,10,11 die nicht nur dazu dient, die relevante Terminologie aus der interessierenden Domäne genau zu definieren und damit die Aufgaben (1) und (2) zu erfüllen, sondern auch die Algorithmen zu steuern, die sie ausführen und damit die Aufgabe (3) erfüllen. Obwohl Abb. 8.2 eine Vereinfachung darstellt, veranschaulicht sie den komplexen, iterativen Arbeitsablauf eines Korpus- oder Suchmaschinenverwalters.
Abb. 8.2 Vereinfachte Darstellung des Arbeitsablaufs eines Korpus- oder Suchmaschinenadministrators Ontologie: https://en.wikipedia.org/wiki/Ontology. Ontologie in der Informatik: https://en.wikipedia.org/wiki/Ontology_(information_science).
10 11
116
W. Bartussek
Abb. 8.3 Ontologe + Magier = Lösung?
Am liebsten wäre ihm eine Situation wie diese: Wie Abb. 8.3 zeigt, gibt es natürlich noch einige Probleme zu lösen.
8.3 Verwendung von Ontologien Beim Aufbau einer vertikalen Suchmaschine gehen wir davon aus, dass ein mehr oder weniger gut definierter Satz von Daten zur Verfügung steht, die entweder direkt in einen Indexer eingespeist und/oder zum Aufbau eines Korpus verwendet werden. Solche Daten können genutzt werden, indem relevante Begriffe mit Tags versehen (12), indiziert und schließlich mit einer der bekannten Abfragesprachen (13) zusammen mit den sie umgebenden Dokumenten abgerufen werden. Dieser Ansatz beruht auf einigen stillschweigenden Annahmen, die einen beträchtlichen Aufwand erfordern, um das Korpus umfassend und aktuell zu halten. Zu diesen Annahmen gehören: ( 1) Die Daten, aus denendas Korpus besteht, sind im Voraus bekannt. (2) Das im Korpus verwendete Vokabular und die Terminologie sind im Voraus bekannt. (3) Die Daten, aus denen das Korpus besteht, kann einfach durch Auflistung der einzubeziehenden Datenquellen beschrieben werden. Praktische Erfahrungen mit Suchmaschinen, die auf diesen Annahmen beruhen, legen jedoch nahe, dass diese Annahmen weder wahr noch harmlos sind. Sie sind nicht harmlos, weil sie einen beträchtlichen Aufwand verursachen, um die zugrunde liegenden Daten und Part of Speech Tagging: https://en.wikipedia.org/wiki/Part-of-speech_tagging. Abfragesprache: https://en.wikipedia.org/wiki/Query_language.
12 13
8 Aufbau optimaler Textkorpora aus Webinhalten
117
das relevante Vokabular und die Terminologie auf dem neuesten Stand zu halten. In vielen Fällen sterben vertikale Suchmaschinen einfach, weil ihr Nutzwert durch einen veraltenden Datenbestand so lange sinkt, bis es keine wirtschaftlich vertretbare Perspektive mehr für ihre Nutzung gibt. Daher wird vorgeschlagen, mit einem Mittel zur Spezifizierung der interessiernden Daten zu beginnen, aus denen das Korpus gebildet werden soll, anstatt ihn explizit aufzuzählen und einen Weg zu finden, wie das zugrunde liegende Vokabular und die Terminologie auf automatisierte Weise gepflegt werden können. Eine solche Korpusspezifikation setzt natürlich voraus, dass ein Wissensingenieur den Voraussetzungen und das Endziel des Projekts versteht. Hier konstruieren wir solche Korpusspezifikationen unter Verwendung von Ontologien im Sinne der Informations- und Computerwissenschaften14,15 [1]. Das Ziel wäre dann, eine sich selbst regulierende kontinuierliche Verbesserungsspirale (mit der Qualität zu einem bestimmten Zeitpunkt als z-Achse), die im Idealfall eine immer optimalere Spezifikation des gewünschten Korpus gewährleistet. Idealerweise gibt es eine Vorstufe, die dabei hilft, eine erste Version der gewünschten Korpusspezifikation zu erstellen. Dazu könnte eine semantische Analysekomponente mit einer Reihe von charakteristischen Dokumenten gefüttert werden, die einige hilfreiche Vorschläge für eine erste Taxonomie liefert. Diese würde dann von einem Wissensingenieur verbessert werden, um die erste Spezifikation für den geplanten Datenkorpus zu erstellen. Nach jeder Änderung einer solchen Spezifikation wird eine konkrete Liste der Datenquellen erstellt. Diese Liste wird dann von einem Crawler (oder einem anderen Mittel zur Datenerfassung) gelesen, um die gewünschten Daten zu holen und sie in das aktuelle Korpus aufzunehmen.
8.4 Der CorpusBuilder Der CorpusBuilder automatisiert viele der oben genannten Schritte. Er ist für jede Art der Datenerfassung zuständig. Er ist mit dem Internet und möglicherweise mit verschiedenen anderen Datenquellen wie internen Datenbanken, Intranet-Chatrooms und privaten Daten verbunden, wenn dies zur Erweiterung der erfassten Daten beiträgt. Der CorpusBuilder liest die Daten über verschiedene Konnektoren ein, die je nach Datenquelle speziell angepasst werden müssen. Er kennt diese Konnektoren und verwendet die Ontologie, um aus ihr abzuleiten, nach welchen Inhalten er suchen muss. Wie oben beschrieben, ist es die Aufgabe des CorpusBuilders, einen umfassenden, aber minimalen Korpus von Dokumenten zu erzeugen, der von einem Indexer (wie Apache Lucene16) verwendet werden kann. Der Indexer wird benötigt, um Suchfunktionen für
Ontologie: https://en.wikipedia.org/wiki/Ontology. Ontologie in der Informatik: https://en.wikipedia.org/wiki/Ontology_(information_science). 16 Apache Lucene Core: https://lucene.apache.org/core/. 14 15
118
W. Bartussek
Abb. 8.4 CorpusBuilder
Komponenten wie Apache Solr17 oder Elasticsearch bereitzustellen. Für dieses Kapitel ist der Indexer nicht relevant. Um den Aufwand für den Aufbau und die Pflege eines solchen Systems zu minimieren, wird der CorpusBuilder durch eine Ontologie gesteuert, die letztlich definiert, was in das Korpus aufgenommen werden soll (Vollständigkeit) und was nicht (Minimalität). Die Ontologie steuert also das Verhalten des CorpusBuilders. Die wichtigste Komponente des CorpusBuilders ist der Prospector. Er ist die einzige Komponente, die mit dem Internet verbunden ist, HTML kennt und weiß, wie man das Internet auf verschiedene Weise durchsucht. Die in den roten Rechtecken in Abb. 8.4 enthaltenen Komponenten bilden den Prospector. Wichtige andere Teile wie die Aufnahme privater oder geschützter Daten werden hier nicht berücksichtigt, da sie keine Webinhalte bereitstellen und eine spezielle Anpassung erfordern.
8.5 Die Prospector-Komponente Der Prospector ist die Kernkomponente des CorpusBuilders. Der Prospector nutzt das Internet als einzige Datenquelle. Er wurde entwickelt, um die Anforderung zu erfüllen, „die richtigen Quellen zu finden und sie sowohl zuverlässig als auch schnell zu finden“. Apache Solr: http://lucene.apache.org/solr/features.html.
17
8 Aufbau optimaler Textkorpora aus Webinhalten
119
Der Prospector wird durch eine Ontologie gesteuert, die definiert, wonach er suchen soll. In der Anfangsphase der Entwicklung wurde die Ontologie von einem Fachexperten (z. B. einem Ingenieur für medizinische Geräte) und einem Ontologieexperten entwickelt, der über den spezifischen mathematischen Hintergrund und das Wissen über die benötigten Formalismen und Werkzeuge verfügt. Derzeit bauen wir im Voraus einen Referenzkorpus auf, indem wir einen bekannten Satz von etwa 400 URLs nutzen, die Dokumente identifizieren, die als relevant für das Thema bestätigt wurden. Aus diesen Dokumenten berechnen wir ein Modell und ein Vokabular (sortiert nach Häufigkeit) mit Hilfe des Word2vec-Pakets gensim.18 Unabhängig von dieser automatisierten Analyse erstellen wir ein zweites Vokabular, das ausschließlich auf dem persönlichen Wissen von Fachexperten beruht. Diese beiden Vokabulare werden dann automatisch kombiniert und zum Aufbau der benötigten Ontologie verwendet, indem die Begriffe durch charakteristische Abstraktionen und andere Beziehungen verbunden werden. Aus dieser optimierten Ontologie generieren wir eine große Anzahl von Abfragen, die vom Prospector verwendet werden, um das Internet über universelle Suchmaschinen und auch über öffentlich verfügbare spezialisierte Suchmaschinen für den interessierenden Bereich zu durchsuchen. Gegenwärtig ist dies die Medizin im Allgemeinen oder spezielle Disziplinen innerhalb der Medizin wie Chirurgie, Enterologie und dergleichen. Der Prospector analysiert jede abgerufene Seite, um herauszufinden, ob sie eine Suchfunktion bietet, und wenn dies der Fall ist, setzt er die zugrundeliegende URL auf eine Vorschlagsliste potenzieller zusätzlicher Suchmaschinen, die verwendet werden können, um noch mehr relevante Veröffentlichungen zu finden. Diese Liste potenzieller zusätzlicher Suchmaschinen muss regelmäßig von Fachleuten bewertet werden. Die bestätigten Ergebnisse der Fachexperten werden dem Softwareentwicklungsteam mitgeteilt. Das Softwareentwicklungsteam prüft dann die Abfragesyntax und ordnet die neu gefundene Suchmaschine entweder einem Pool bekannter Suchmaschinen mit identischer Syntax zu oder stellt einen neuen Pool zusammen, wenn der Aufwand lohnend erscheint. All dies geschieht in einer Endlosschleife, an der die Prospector-Komponente, gelegentlich die Fachexperten und sehr selten die Softwareentwickler beteiligt sind. Der Prospector ist wie ein Regelkreis mit einer Rückkopplungsschleife aufgebaut (siehe Abb. 8.5). Der „Input“ besteht aus Listen von URLs, den Seed-Listen. Komponente „A“ (einschließlich Controller und Anlage) holt die Inhalte ab und extrahiert weitere Links (URLs). Abb. 8.5 Schema der Rückkopplungsschleife
Gensim, Topic Modeling for Humans, https://radimrehurek.com/gensim/.
18
120
W. Bartussek
Der Sensor „o“ prüft anhand der Korpus-Ontologie, ob der Inhalt von Komponente „A“ in den Korpus aufgenommen werden soll oder nicht. Im Zweifelsfall leitet der Sensor das Dokument an die Komponente „B“ weiter. Diese rückwärtsgerichtete Komponente „B“ prüft die fragliche Ausgabe und gibt eine Rückmeldung. Die Komponente „+“ filtert eingehende URLs, die auf einer schwarzen Liste stehen, heraus und fügt neue URLs hinzu, die auf der weißen Liste stehen. Dieser Vorgang wird in Abb. 8.6 näher erläutert. Die Pfeile in Abb. 8.6 bezeichnen Datenflüsse. Die Speichersymbole (Zylinder) neben den Pfeilen kennzeichnen die Daten, die in Pfeilrichtung fließen. Die Symbole „+“, „A“, „S“ und „B“ bezeichnen die Komponenten aus dem Schaltplan in Abb. 8.5. Der Prospector Input Provider ist eine recht anspruchsvolle Komponente, da er Abfragen aus der Prospector Ontologie ableitet und sie so formatiert, dass die entsprechenden Suchmaschinen sie verarbeiten können und wollen. Dies hängt z. B. von bestimmten Syntaxen, der Häufigkeit der zulässigen Abfragen und der zulässigen Länge der Abfragen ab, da die Länge solcher Abfragen mehrere tausend Zeichen betragen kann. Anfragen können nicht zu jeder Zeit und in j/eder Häufigkeit angenommen werden, und gültige Anfragen können abgelehnt werden (keine „Bereitschaft“, sie zu bearbeiten). Daher verfügt der Prospector Input Provider über eine Zeitmanagementkomponente, um die zeitlichen Anforderungen zu erfüllen. Mehrere Suchmaschinen beschränken die Länge der akzeptierten Abfragen. Aus diesem Grund verfügt der Prospector Input Provider über eine Komponente, die in der Lage ist, lange Suchanfragen entsprechend den Längenanforderungen aufzuteilen. Die gekürzten Anfragen werden dann an die Zeitmanagementkomponente weitergeleitet. Einige Universalsuchmaschinen sind kostenlos, wenn sie nicht zu häufig von automatisierten Systemen genutzt werden. Auch die Häufigkeit der Nutzung spielt eine Rolle für das Zeitmanagement. Gerade im medizinischen Bereich gibt es eine Vielzahl von Spezialsuchmaschinen mit wirklich guten Inhalten. Allerdings haben fast alle ihre eigene Abfragesyntax und natürlich auch ihre spezifischen Längenbeschränkungen. Es müssen also mehrere Algorithmen vorhanden sein, um gültige Abfragen für die jeweiligen Suchmaschinen zu generieren. Die Prospector-Ontologie ist eher grobkörnig, um auch Inhalte zu erfassen, die für das Fachgebiet neu oder den Fachexperten, die den CorpusBuilder bedienen, noch nicht bekannt sind. Der Prospector Seedlist Manager nimmt die URLs des Prospector Input Providers und kombiniert sie mit den Whitelist-URLs aus dem Feedback. Er entfernt auch alle URLs auf der schwarzen Liste, die von der Feedback-Komponente „B“ identifiziert wurden. Die Komponente „A“ mit ihrem URL-Injektor (dem Controller) und dem Fetcher (der Plant) wird im Wesentlichen durch einen Standard-Crawler realisiert. Er wird von der Seed-Liste gesteuert, die vom Prospector Seedlist Manager unter Verwendung des bisher verfügbaren Wissens bereinigt wurde. Der Prospector Sensor ist ein Filter, der sich strikt an die von der Korpusontologie vorgegebenen Regeln hält. Er verwendet die Korpus-Ontologie, um alle Dokumente
Abb. 8.6 Die Rückkopplungsschleife des Prospektors im Detail
8 Aufbau optimaler Textkorpora aus Webinhalten 121
122
W. Bartussek
herauszufiltern, die Teil des Korpus werden sollen. Alle URLs, die den Dokumenten zugrunde liegen, werden als Treffer markiert, die in das Korpus aufgenommen werden, oder als Fehlschläge, die in Zukunft ausgeschlossen werden sollen. Diese Informationen werden von der Feedback-Komponente „B“, dem Prospector Splitter, verwendet. Diese Komponente reduziert URLs auf Domänennamen.19 Wenn eine URL als Fehlschlag markiert wird, wird ihre Domäne weiter untersucht. Wenn es keine relevanten Dokumente gibt, wird die Domäne der URL auf die schwarze Liste gesetzt. Umgekehrt wird die Domäne einer als Treffer markierten URL in die Whitelist aufgenommen, wenn sie weitere Treffer liefert. Die Ergebnisse werden an den Prospector Seedlist Manager zurückgegeben und die Bearbeitung wird fortgesetzt. Bisher haben wir uns nur mit den automatisierten Teilen des Systems befasst. Es gibt jedoch zwei Teile, die manuell erstellt werden müssen: die beiden oben erwähnten Ontologien. Diese Ontologien müssen von Fachexperten, den Maintainern, gepflegt werden, was bedeutet, dass der CorpusBuilder ein semi-supervised Learning System ist.
8.6 Warnungen Es gibt noch eine weitere kleine, aber sehr wichtige Komponente im Prospector Sensor: den Alerter. Jedes Mal, wenn der Sensor einen Treffer feststellt, der an die Betreuer des PMS-Systems gemeldet werden muss, gibt er eine Warnmeldung aus und übermittelt sie per E-Mail. Im Folgenden finden Sie ein Beispiel aus der Praxis:
Ihr Suchmuster: „OTSC-Fistel“~400
Titel: Over-the-scope-Clip-Verschluss zur Behandlung einer post- pankreatisch- gastrostomischen Pankreasfistel: Eine Fallserie
Schnipsel:
… von Patienten mit Pankreasfisteln nach Pankreatogastrostomie, bei denen OTSC als endoskopische Behandlung eingesetzt wurden … Over-the-scope-Clip-Verschluss zur Behandlung von Pankreasfisteln nach Pankreatogastomie
Domain-Namen: https://en.wikipedia.org/wiki/Domain_name.
19
8 Aufbau optimaler Textkorpora aus Webinhalten
123
Sprache: de Datum: 2017-05-26T11:38:21.538Z
Url: https://insights.ovid.com/digestive-endoscopy/digend/9000/00/000/scope-clipclosure-treatment-post/99670/00013150 Das „Suchmuster“ ist eine der zahlreichen Abfragen, die aus der Ontologie des Korpus generiert werden. Die Abfrage wird auf dem indizierten Korpus ausgeführt. Die Alerter- Komponente extrahiert den Titel, ein Snippet, auf das die Abfrage zutrifft, die Sprache, das Datum und die URL. Anhand dieser Informationen können die Maintainer überprüfen, ob der CorpusBuilder in akzeptabler Weise „auf Kurs“ ist. Weicht er vom vorgesehenen Zweck ab, müssen die Ontologie oder die Blacklist angepasst werden. Der Alerter spielt also eine wichtige Rolle, wenn es darum geht, das System als Ganzes auf den beabsichtigten Zweck auszurichten und aktuell zu halten.
8.7 Technologie Alle Komponenten des CorpusBuilders, die nicht im Rahmen des Projekts programmiert wurden, sind Open-Source-Komponenten. Derzeit sind mehrere Programmiersprachen im Einsatz: • Für die Programmierung der Prospector-Komponente wurde PHP verwendet, soweit es sich um die Suchmaschinen- und URL-Verwaltung handelt. • Für die Programmierung der linguistischen Analysen innerhalb des CorpusBuilders wurde Python 3 verwendet. • Java wurde von IMISE (Universität Leipzig) zur Programmierung der Abfragegenerierung aus Ontologien [2] und von IntraFind für ihr Elasticsearch-Plugin verwendet. • TypeScript und, als Teil von Paketen, JavaScript werden für die Benutzeroberfläche verwendet Es sind zahlreiche weitere Open-Source-Pakete im Einsatz, zum Teil weil die Hauptpakete von ihnen abhängen. Die wichtigsten Pakete sind: • Als Crawler wird Apache Nutch20 verwendet. • Elasticsearch mit Lucene zur Indizierung der als relevant identifizierten Dokumente.
Apache Nutch Web Crawler: http://nutch.apache.org/.
20
124
W. Bartussek
• NLTK21 und spaCy22 werden für linguistische Analysen verwendet. • MySQL wird als Datenverwaltungssystem für URL- und Suchmaschinendaten verwendet. • Angular 223 wird für die Programmierung der Web-Benutzeroberfläche verwendet (die nicht Teil des CorpusBuilders ist). Alle Komponenten des CorpusBuilders werden als Serverkomponenten mit einer RESTful- Schnittstelle implementiert und ausgeführt, die von Webinterface-Frameworks wie Angular 2 genutzt werden kann, das im gesamten Projekt als bevorzugtes UI-Framework verwendet wird. Für die Bearbeitung der Ontologie haben wir Protégé (https://protege.stanford.edu/) verwendet.
8.8 Aktueller Stand und zukünftige Arbeiten Gegenwärtig werden Ontologien von Fachexperten und spezialisierten Ontologen unter Verwendung ihres aktuellen Wissensbestands entwickelt. Um auf neue Entwicklungen auf dem beobachteten Markt aufmerksam zu werden, gibt der Prospector Warnungen an die Fachexperten aus. Diese Warnungen, die zuvor alle Prüfungen hinsichtlich ihrer Relevanz bestanden haben, werden dann von den Fachexperten untersucht. Wenn sie neue relevante Begriffe in wirklich relevanten Dokumenten entdecken, werden sie die Ontologien entsprechend verbessern. Wenn sie feststellen, dass eine Warnmeldung ein Dokument identifiziert hat, das eigentlich auf die schwarze Liste gesetzt werden sollte, werden sie auch die Ontologien verbessern und/oder die schwarze Liste direkt aktualisieren. Obwohl sich dieses Verfahren in der Vergangenheit als recht erfolgreich erwiesen hat, sind wir nicht ganz zufrieden. Wir hoffen, diesen Prozess durch den Einsatz linguistischer Analysen sowohl des Korpus als auch einzelner Dokumente erheblich zu verbessern. Vokabulare und die Rangfolge von Begriffen sollten dazu dienen, den Fachleuten die richtigen Hinweise zu geben, wo sie suchen und wie sie ihre Ontologien verbessern können.
8.9 Zusammenfassung Die neue europäische Medizinprodukteverordnung (MDR [3]) ist im Mai 2017 in Kraft getreten und fordert in Artikel 4:
NLTK Natural Language Toolkit: http://www.nltk.org/. Natürliche Sprachverarbeitung auf Industrieniveau: https://spacy.io/. 23 Plattformübergreifendes Web-Framework Angular: https://angular.io/. 21 22
8 Aufbau optimaler Textkorpora aus Webinhalten
125
„Zur Verbesserung von Gesundheit und Sicherheit sollten Schlüsselelemente des derzeitigen Regulierungskonzepts, beispielsweise die Beaufsichtigung der Benannten Stellen, die Konformitätsbewertungsverfahren, klinische Prüfungen und klinische Bewertungen, Vigilanz und Marktüberwachung erheblich gestärkt und Bestimmungen zur Gewährleistung von Transparenz und Rückverfolgbarkeit in Bezug auf Medizinprodukte eingeführt werden“.
Diese allgemeine Anforderung wird später in der MDR an verschiedenen Stellen und in den Anhängen näher erläutert. In Anlehnung an diese Anforderungen haben wir ein „Post Market Surveillance“-System (PMS) für kleine und mittlere Unternehmen im Bereich der Medizinprodukte entwickelt. Das System ist in seinem Kern ein mehrsprachiges System und kann an die Bedürfnisse von Medizinprodukteherstellern in jedem Land angepasst werden. Obwohl es mit Blick auf die MDR entwickelt wurde, kann es genauso gut außerhalb der Europäischen Union und für ganz andere Anwendungsbereiche eingesetzt werden. Derzeit gibt es auf dem europäischen Markt etwa 500.000 verschiedene Medizinprodukte. Jedes von ihnen erfüllt die individuellen Bedürfnisse der Zielgruppe von Patienten, mit einer individuellen Auswahl an Materialien und Designmerkmalen. Um den Anwendungsbereich zu erweitern, liegt es auf der Hand, dass ein solches System einen gemeinsamen Kern und eine Reihe von Komponenten haben sollte, deren Verhalten von Regeln abhängt, die alle oben genannten individuellen Eigenschaften des jeweiligen medizinischen Geräts und seines Zielmarktes erfassen. Um z. B. einen Medizinproduktehersteller zu unterstützen, muss dieses Regelwerk im Vorfeld erstellt, evaluiert und schließlich in den Produktionsbetrieb überführt werden. Im Hinblick auf öffentlich zugängliche Informationen durchforstet das PMS-System das Internet nach relevanten Daten wie z. B. wissenschaftlichen Veröffentlichungen über Anwendungsfälle des Medizinprodukts – einschließlich risikobezogener Informationen wie Komplikationen und unerwünschte Ereignisse. Im Gegensatz zum traditionellen Ansatz, bei dem eine umfangreiche Liste von URLs manuell gepflegt wird, bauen wir eine Ontologie auf, die das zu behandelnde Thema spezifiziert. Diese Ontologie wird dann verwendet, um geeignete Abfragen für verschiedene Suchmaschinen zu generieren. Diese liefern die URLs, an denen wir interessiert sind. Anstatt also URL-Listen manuell zu pflegen, ersetzen wir diese langweilige und fehleranfällige Aufgabe durch den Aufbau und die Pflege einer Ontologie. Ändert sich die Thematik, z. B. aufgrund neuer und unvorhergesehener Entwicklungen, passen wir die Ontologie entsprechend an. So nutzen wir die Ontologie, um das Verhalten der Tools zu steuern, die zum Crawlen oder Scrapen des Internets eingesetzt werden. Obwohl es uns gelungen ist, den bürokratischen Aufwand für die manuelle Suche im Internet und die Pflege von URL-Listen erheblich zu reduzieren, muss man immer noch überprüfen, ob die Ergebnisse zufriedenstellend sind, und die Ontologie und die schwarzen Listen anpassen, um optimale Ergebnisse zu erzielen. Nach einer Anfangsphase von etwa 3 Monaten für den Aufbau der Ontologie und der genauen Beobachtung der Ergebnisse verringert sich der Aufwand für die weitere Pflege drastisch. Die Pflege wird hauptsächlich durch Alerts ausgelöst, die vom CorpusBuilder
126
W. Bartussek
ausgegeben werden. Diese Alerts teilen dem Maintainer mit, welche und wo neue Publikationen gefunden wurden, so dass diese Alerts inspiziert und ausgewertet werden, um Wartungsmaßnahmen abzuleiten. Da wir uns an kleine und mittlere Unternehmen wenden, legen wir Wert darauf, Technologien anzubieten, die auch für sehr kleine Unternehmen erschwinglich sind. Derzeit könnte das gesamte PMS-System auf einem modernen Laptop betrieben werden. Das wäre bei großen Datenmengen nicht möglich. Deshalb haben wir uns bemüht, die Datenmenge auf ein absolutes Minimum zu reduzieren. Derzeit haben wir etwa 2.700.000 öffentlich zugängliche Dokumente gesammelt, und wir vermuten, dass sich in dieser Sammlung noch eine gewisse Menge irrelevanter Elemente verbirgt. Obwohl diese Menge noch immer keine Herausforderung für einen modernen Laptop darstellt, scheinen neuere linguistische Analysen darauf hinzuweisen, dass es noch weiteres Potenzial gibt, sie erheblich zu reduzieren. Derzeit sind Ontologien das wichtigste Mittel, um die Vollständigkeit zu gewährleisten, und der Prospector mit seinem Sensor und seiner Feedbackschleife sorgt für die Minimalität. Der CorpusBuilder enthält auch eine Reihe von Datenkonnektoren, die die Einbeziehung herstellereigener Daten wie eigener Datenbanken und Flat Files unterstützen. All diese Daten werden in eine spezialisierte Suchmaschine eingespeist, die letztlich den gewünschten Nutzen bringt.
8.10 Empfehlungen 1 . Schreiben Sie eine grobe Beschreibung Ihres Interessengebiets. 2. Sammeln Sie eine Reihe von Dokumenten, die Ihr Interessengebiet am besten widerspiegeln. 3. Verwenden Sie die URLs dieser Dokumente als erste Whitelist (siehe Abb. 8.6). 4. Leiten Sie eine feinkörnige Ontologie ab, die die ausgewählten Dokumente und Ihren Interessenbereich modelliert, um den Prospector Sensor zu steuern (siehe Abb. 8.6). 5. Aus der feinkörnigen Ontologie wird eine grobkörnige Ontologie zur Steuerung des Prospector Input Providers abgeleitet (siehe Abb. 8.6). 6. Führen Sie den CorpusBuilder aus und beobachten Sie die generierte Ausgabe, die Black list und die Whitelist. 7. Passen Sie Ihre Ontologien, die Blacklist und die Whitelist bei Bedarf an. Die Schritte 4 und 5 können auch in umgekehrter Reihenfolge ausgeführt werden, und in der Praxis wird man sie mehrmals in einer Schleife durchlaufen. Ebenso wird man die Schritte 6 und 7 in einer Schleife durchlaufen. Am Anfang wird dies innerhalb von Stunden wiederholt, später wöchentlich und bei stabilem Betrieb z. B. alle 3 Monate.
8 Aufbau optimaler Textkorpora aus Webinhalten
127
Danksagung Der Dank geht an alle Teilnehmer des OntoPMS-Konsortiums. Im Hinblick auf Ontologien, begleitende Arbeitsabläufe und verfügbare Technologien möchte ich Prof. Heinrich Herre, Alexandr Uciteli und Stephan Kropf vom IMISE der Universität Leipzig für viele anregende Gespräche danken. Ohne die Hilfe der novineon-Mitarbeiter Timo Weiland (Konsortialführer), Prof. Marc O. Schurr, Stefanie Meese, Klaus Gräf und dem Qualitätsmanager von Ovesco, Matthias Leenen, hätte ich kaum eine Chance gehabt, die medizinischen Vorschriften in Europa zu verstehen. Die Teilnehmer vom Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) mit Prof. Wolfgang Lauer und Robin Seidel halfen mir, die Datenbank MAUDE24 zu verstehen und sie mit dem CorpusBuilder zu verbinden. IntraFind (Christoph Goller und Philipp Blohm) hat eine geniale Erweiterung der Suchmaschine entwickelt, die das Korpus nutzt; und MT2IT (Prof. Jörg-Uwe Meyer, Michael Witte) wird die Strukturen des Gesamtsystems bereitstellen, in das der CorpusBuilder eingebettet wird. Ich möchte auch meinen Kollegen bei OntoPort, Anatol Reibold und Günter Lutz-Misof, für ihre scharfsinnigen Anmerkungen zu früheren Versionen dieses Kapitels danken.
Literatur 1. Herre H (2010) General formal ontology (GFO): a foundational ontology for conceptual modelling. In: Poli R, Healy M, Kameas A (Hrsg) Theory and applications of ontology: computer applications. Springer, Dordrecht, S 297–345 2. Uciteli A, Goller C, Burek P, Siemoleit S, Faria B, Galanzina H, Weiland T, Drechsler-Hake D, Bartussek W, Herre H (2014) Search ontology, a new approach towards semantic search. In: Plödereder E, Grunske L, Schneider E, Ull D (Hrsg) FoRESEE: Future Search Engines 2014–44. Annual meeting of the GI, Stuttgart – GI edition proceedings LNI. Köllen, Bonn, S 667–672 3. Medical Device Regulation (EU) 2017/745 of the European Parliament and of the Council of 5 April 2017 on medical devices, OJ. L (2017) S 1–175
MAUDE – Manufacturer and User Facility Device Experience: https://www.accessdata.fda.gov/ scripts/cdrh/cfdocs/cfmaude/search.cfm. 24
9
Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas Alexandr Uciteli, Christoph Beger, Katja Rillich, Frank A. Meineke, Markus Loeffler und Heinrich Herre
Kernaussagen
1. Die Realisierung eines komplexen Webportals, einschließlich der Modellierung von Inhalten, ist ein anspruchsvoller Prozess. Die Inhalte beschreiben verschiedene miteinander verbundene Entitäten, die eine komplexe Struktur bilden. 2. Die Entitäten und ihre Beziehungen müssen systematisch analysiert werden, der Inhalt muss spezifiziert und in ein Content Management System (CMS) integriert werden. 3. Ontologien bieten eine geeignete Lösung für die Modellierung und Spezi fizierung komplexer Entitäten und ihrer Beziehungen. Die Funktionalität für den automatischen Import von Ontologien ist jedoch in den aktuellen Content- Management-Systemen nicht vorhanden. 4. Um den Inhalt eines Webportals zu beschreiben, haben wir eine Ontologie entwickelt. Auf der Grundlage dieser Ontologie haben wir eine Pipeline implementiert, die die Spezifikation des Portalinhalts und dessen Import in das CMS Drupal ermöglicht. 5. Unsere Methode ist generisch. Sie ermöglicht die Entwicklung von Webportalen mit dem Fokus auf eine geeignete Darstellung von strukturiertem Wissen (Entitäten, deren Eigenschaften und Beziehungen). Darüber hinaus ermöglicht sie es, bestehende Ontologien so darzustellen, dass ihr Inhalt von Nutzern ohne Kenntnisse von Ontologien und deren Semantik verstanden werden kann.
A. Uciteli (*) · C. Beger · K. Rillich · F. A. Meineke · M. Loeffler · H. Herre Universität Leipzig, Leipzig, Deutschland E-Mail: [email protected]; [email protected]; [email protected]; [email protected]; [email protected]; [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_9
129
130
A. Uciteli et al.
9.1 Einleitung Der Bereich der Systemmedizin (Systems Medicine)1 vertieft das Verständnis physiologischer und pathologischer Prozesse, um daraus neue diagnostische und therapeutische Ansätze abzuleiten. Zusätzlich zu den klinischen Daten werden umfangreiche genomische Daten verarbeitet. Auch Daten aus verschiedenen Studien werden gesammelt, analysiert und kombiniert. Die Methoden zur Analyse und Modellierung sind eng mit den Daten verknüpft. Der wissenschaftliche Erkenntnisgewinn kann nicht allein durch Publikationen weitergegeben werden, da die Veröffentlichung von Methoden und Daten gleichermaßen wichtig ist. Die Aufbereitung der von einer lokalen Forschungsgruppe zur Verfügung gestellten Daten für eine breite Nutzerschaft erfordert ein umfassendes Forschungs- und Datenmanagement, aber auch ein durchdachtes Data-Sharing-Konzept. Der 2016 gestartete Leipzig Health Atlas (LHA)2 bietet ein multifunktionales, qualitätsgesichertes und webbasiertes Repository gesundheitsrelevanter Daten und Methoden (Modelle und Anwendungen) für eine breite Forschungspopulation. Partnerteams in Leipzig bringen umfangreiche Daten, Methoden und Erfahrungen aus klinischen und epidemiologischen Studien, Forschungskooperationen in der Systemmedizin, Bioinformatik und ontologischen Forschungsprojekten ein. Der LHA bringt Ontologen, Modellierer, klinische und epidemiologische Studiengruppen, Bioinformatiker und Medizininformatiker zusammen. Der LHA verwaltet umfangreiche Inhalts- und Darstellungsmetadaten zu den Publikationen, Daten und Methoden der beteiligten Forschungsprojekte. Das Webportal des LHA dient als Schaufenster und Marktplatz für Daten und innovative Methoden (Modelle und Anwendungen). Je nach gesetzlichen Bestimmungen können klinische und genomische Mikrodaten direkt oder über entsprechende Zugangskontrollen heruntergeladen werden. Ggf. können Anwendungen und Modelle interaktiv im Portal betrieben und Auswertungen ad hoc durchgeführt werden. Die Erstellung eines komplexen Webportals, einschließlich der Modellierung des Inhalts, ist ein anspruchsvoller Prozess. Die Inhalte beschreiben verschiedene, miteinander verbundene Einheiten und haben eine komplexe Struktur. Die Entitäten und ihre Beziehungen müssen systematisch analysiert werden, und die Inhalte müssen spezifiziert und in ein Content-Management-System (CMS) integriert werden. Eine Ontologie bietet eine geeignete Lösung für die Modellierung und Spezifikation komplexer Daten und deren Abhängigkeiten. Da es jedoch an einem automatisierten Import von Ontologien in Webportale mangelt, haben wir uns auf dieses Problem konzentriert. Um die Metadaten zu den Projekten, Veröffentlichungen, Methoden und Datensätzen zu beschreiben, die im LHA-Portal dargestellt werden sollen, haben wir eine Ontologie „Systems Medicine is the implementation of Systems Biology approaches in medical concepts, research and practice. […]“ (https://www.casym.eu/what-is-systems-medicine/). 2 Gefördert durch das Bundesministerium für Bildung und Forschung (Förderkennzeichen: 031L0026, Programm: i:DSem – Integrative Datensemantik in der Systemmedizin). 1
9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas
131
Abb. 9.1 Pipeline für den Import von Inhalten in Drupal
entwickelt. Auf der Grundlage dieser Ontologie haben wir eine ETL-Pipeline (extract/ transform/load) implementiert (Abb. 9.1), die die Spezifikation des Portalinhalts und dessen Import in das CMS Drupal (Version 8) ermöglicht. Die Pipeline besteht aus den folgenden vier Schritten: 1 . Modellierung des Inhalts anhand eines Speadsheet Templates (Abb. 9.3). 2. Transformation der domänenspezifischen Entitäten aus dem Template in die Ontologie mit Hilfe des Drupal Ontology Generator (DOG). 3. Optionale Optimierung der Ontologie mit Hilfe eines Ontologie-Editors einschließlich des Imports von externen Ontologien/Terminologien. 4. Importieren der Ontologie in die Drupal-eigene Datenbank unter Verwendung des Simple Ontology Loader in Drupal (SOLID). Der Ansatz und die einzelnen Komponenten werden in den folgenden Abschnitten ausführlich erörtert.
9.2 Inhaltliche Spezifikation des LHA-Portals Für die Metadatenspezifikation der Projekte, Publikationen, Daten und Methoden wurde ein Metadatenmodell für den LHA entwickelt (Abb. 9.2). Das Metadatenmodell besteht aus drei miteinander verknüpften Ebenen (Entitätstypen).
132
A. Uciteli et al.
Abb. 9.2 Metadatenmodell des LHA
Publikationen können mehreren Projekten zugeordnet werden. Die Datensätze (OMICS-Datensätze [1], klinische Studiendaten und andere spezifische Datensätze) und die zugehörigen Methoden werden meist den Publikationen zugeordnet und bilden die unterste Ebene für die Erfassung der begleitenden Metadaten. Es ist möglich, umfangreiche Datensätze auf mehr als eine Publikation zu beziehen. Referenzen zwischen Entitäten werden über IDs realisiert. Die Erfassung und Verarbeitung der Metadaten basiert auf einer Tabellenkalkulationssoftware. Dies ermöglicht einen flexiblen Ansatz in der Entwicklungsphase. Das Metadatenmodell (Abb. 9.2) ist in Tabellenkalkulationen (Abb. 9.3) implementiert und bildet die Grundlage für die Erfassung von Metadaten. Die Tabellenkalkulation fragt spezifische Informationen in den einzelnen Arbeitsblättern für die jeweiligen Entitätstypen (Projekt, Publikation, OMICS-Datensatz, klinischer Datensatz und Methode) ab. Die Definition, welche Metainformationen abgefragt werden müssen, basiert auf unterschiedlichen Quellen und Standards. Die übergeordnete Archivfunktionalität des LHA basiert auf dem ISO-Standard OAIS (Open Archival Information System) [2]. Das für den LHA verwendete OAIS-Metadatenmodell wurde in weiteren Schritten ergänzt und mit weitgehend generischen publikationsbezogenen Standards (z. B. Schemata der Datenbank MEDLINE/PubMed [3]) abgeglichen. Ist eine Publikation in MEDLINE gelistet, genügt die Eingabe der MEDLINE-ID, und die entsprechenden bibliographischen Daten können automatisch ergänzt werden. Für die Definition der domänenspezifischen Eigenschaften von genetischen und klinischen Daten wurden Schemata bestehender Datenportale, z. B. GEO [4], TCGA [5], cBioPortal [6] und CGHUB [7], berücksichtigt. Als fehlend empfundene Eigenschaften wurden hinzugefügt. Die resultierende Metadatenliste wurde anhand der Anwendung auf bestehende Projekte mit einer Vielzahl von Entitätstypen (z. B. Publikation, Datensatz, Methode) und Datentypen (z. B. Text, Datum, Nummer, Re-
9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas
133
Abb. 9.3 Beispiel für ein Tabellenblatt zur Erfassung von Metadaten
ferenz) gemeinsam mit den verantwortlichen Wissenschaftlern überprüft und überarbeitet. Dabei wurden irrelevante Anforderungen eliminiert, die Metadatenabfragen linguistisch definiert und neue Aspekte aufgenommen. Um die Datenerfassung und die Darstellung der Metadaten zu überprüfen, wurden die Datentabellen von jedem Entitätstyp und von jedem Datentyp mit mehreren Beispielen gefüllt und über unsere Pipeline in das Content Management System geladen (Abb. 9.1). Zusätzlich zu den bibliografischen Daten werden in dem Speadsheet Template weitere Informationen über den Inhalt der Projekte, Veröffentlichungen und Datensätze gesammelt, so dass der Kontext eines Projekts oder der Veröffentlichungen und der zugehörigen Datensätze bekannt ist, bevor die Daten heruntergeladen oder ein Antrag auf Zugang zu den Daten gestellt wird. Auf der Projektebene umfasst der Inhalt dieser Website z. B. Links zu bestehenden Projektwebsites, Informationen über die Ziele der Projekte, die Finanzierung und die Sponsoren, Informationen zu spezifischen Fragen des Datenmanagements und der Biometrie sowie Anmerkungen mit Konzepten externer Terminologien. Auf der Ebene der Veröffentlichung werden die Zusammenfassung, der Link zur Originalveröffentlichung, die Angaben zu den Sponsoren, die relevanten Schlüsselwörter und die Autoren erfasst. Auf der Ebene der Datensätze wird der Inhalt der Datensätze einschließlich Fallzahlen und Design kurz beschrieben. Zusätzlich werden auf allen Ebenen Informationen zu den verantwortlichen Wissenschaftlern (Name, Adresse, E-Mail, ORCID (ein Identifikator für Wissenschaftler)) erfasst. Die Metadaten selbst werden je nach Kontext als Link, Texte, numerische Einträge oder als Datum eingegeben.
134
A. Uciteli et al.
9.3 Ontologische Architektur Wir haben die Drupal Upper Ontology (DUO) entwickelt, die die Standardkomponenten von Drupal (Feld, Knoten, Datei und Vokabular) modelliert. Nach der 3-Ontologies- Method [8] ist DUO eine Aufgaben-Ontologie, d. h. eine Ontologie für das von der Software zu lösende Problem. Darüber hinaus haben wir eine Domänen-Ontologie, die Portal Ontology of LHA (POL), implementiert, die in DUO eingebettet ist und zur Modellierung der Inhalte des Portals dient. Für die Integration und formale Fundierung sowohl der Aufgaben- als auch der Domänenontologie haben wir die General Formal Ontology (GFO) [9, 10] als Top-Level-Ontologie verwendet (Abb. 9.4).
Abb. 9.4 Ontologische Architektur
9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas
135
Gemäß GFO unterscheiden wir zwischen symbolischen Strukturen (z. B. dem Inhalt von Webseiten, wie Texte und Bilder) und Entitäten (Kategorien oder Individuen, wie Personen oder Projekte), die durch die symbolischen Strukturen repräsentiert werden. Der Einfachheit halber modellieren wir nur die Entitäten, die im Webportal dargestellt werden sollen, während ihre Repräsentationen auf den Webseiten generiert werden. Um auf Entitäten einer bestimmten Ontologie zu verweisen, wird in diesem Kapitel die Notation : verwendet. Zum Beispiel wird die Klasse Node_ Item aus DUO als duo:Node_Item bezeichnet. Da sowohl Individuen als auch Kategorien in einem Portal dargestellt werden können, leiten wir die Klasse duo:Node_Item zur Modellierung der darzustellenden Entitäten von der Klasse gfo:Item ab, die die Klassen gfo:Individual und gfo:Category als Unterklassen hat. Die Klasse duo:Vocabulary_Concept dient der Einbindung von Konzepten externer Ontologien/Terminologien (z. B. Krankheits- oder Phänotyp-Ontologien) und ist von gfo:Concept abgeleitet. Wir betrachten die Dateien (duo:File) als Kontinuanten (gfo:Continuant) im Sinne von GFO, da sie konkrete Individuen mit einer bestimmten Lebensdauer sind. Die Kategorien von DUO werden in POL spezialisiert und instanziiert. Verschiedene Entitätstypen, z. B. pol:Project, pol:Method und pol:Clinical_Data werden als Unterklassen von duo:Node_Item definiert, und konkrete Instanzen dieser Klassen werden erzeugt und verknüpft. Darüber hinaus werden externe Terminologien (z. B. Klassifikationen von Krankheiten) in POL referenziert, so dass die POL-Entitäten mit deren Konzepten annotiert werden können. Sowohl die Drupal-Felder (z. B. „Titel“ oder „Inhalt“) als auch die benutzerdefinierten domänenspezifischen Felder (z. B. „Adresse“, „Autor“ und „Krankheit“) werden als Annotations-Eigenschaften modelliert und zur Beschreibung und Verknüpfung der Instanzen in POL verwendet.
9.4 Drupal Ontology Generator (DOG) Wir haben die Java-Anwendung Drupal Ontology Generator (DOG) entwickelt, um die Domänen-Ontologie aus dem Speadsheet Template in die Web Ontology Language (OWL) zu transformieren. Beim Lesen eines ausgefüllten Speadsheet Templates (Abb. 9.3) interpretiert der DOG jedes Tabellenblatt als Darstellung einer oder mehrerer Instanzen eines bestimmten Typs/ einer bestimmten Klasse. Wenn ein Tabellenblatt z. B. „Projekt“ heißt, dann werden auf diesem Tabellenblatt bestimmte einzelne Projekte dargestellt/beschrieben. Für jeden Tabellenblattnamen generiert die DOG eine Unterklasse der Klasse duo:Node_Item (sofern die Klasse nicht bereits existiert) und erzeugt die entsprechenden Instanzen dieser Klasse auf der Grundlage ihrer Eigenschaften. Der DOG durchläuft alle angegebenen Eigenschaften Zeile für Zeile und variiert seine Vorgehensweise je nach dem definierten Format.
136
A. Uciteli et al.
Wenn „id“ für das Formatfeld einer Eigenschaft in der Tabelle ausgewählt wird, wird der Wert der Eigenschaft verwendet, um den Internationalized Resource Identifier (IRI) der Instanz zu generieren und ermöglicht die Referenzierung der Instanz in derselben oder anderen Dateien. Bei der Angabe eines der Standard-Datentypen („Text“, „Integer“, „Double“, „Date“) in der Spalte „Format“ wird eine Annotation erstellt. Die Annotation Property wird mit dem in der Spalte „Merkmal“ angegebenen Namen, dem in der Spalte „Format“ definierten Datentyp und dem in der Spalte „Antwort“ eingegebenen Wert verwendet. Wenn die Annotation Property mit dem gewünschten Namen noch nicht vorhanden ist, wird sie als Subproperty von duo:field erzeugt. Wird in der Formatspalte „taxonomy_reference“ oder „taxonomy_reference list“ ausgewählt, wird eine Unterklasse der Klasse duo:Vocabulary_Concept erzeugt, die anhand der Eigenschaft benannt wird (ohne das Präfix „field“, z. B. „Disease“ aus „field_disease“) und den Wurzelknoten des entsprechenden Vokabulars darstellt. Für alle Werte der Eigenschaft (z. B. verschiedene Krankheiten) werden Unterklassen der Wurzelklasse angelegt. Anschließend wird eine Annotation erstellt, die die entsprechende Instanz mit der Vokabularklasse verknüpft, die die gewünschte Krankheit repräsentiert (z. B. ein Link, der eine Projektinstanz mit dem Vokabularkonzept der Krankheit verbindet, die sie behandelt). Auf diese Weise wird modelliert, dass die aktuelle Instanz durch bestimmte Konzepte definierter Vokabulare getaggt/annotiert wird. Die Formate „node“, „nodelist“, „node_reference“ und „node_reference list“ werden verwendet, um Verbindungen zwischen einzelnen Instanzen herzustellen. Zu diesem Zweck verwenden wir auch Annotaion Properties. Zusätzlich zu den definierten Beziehungen werden alle in einem Spreadsheet angegebenen Instanzen miteinander verknüpft. Die Namen der benötigten Annotation Properties werden aus den Klassennamen der beiden zu verknüpfenden Entitäten gebildet. Die Annotation Property zur Verknüpfung der Instanzen der Klassen „Projekt“ und „Publikation“ hat beispielsweise den Namen „field_project_publication“, die inverse Eigenschaft heißt „field_publication_project“. Alle Listenformate (der Formatname endet auf „list“, z. B. „node list“) erlauben die Angabe mehrerer Werte. Die Reihenfolge der Werte kann wichtig sein, z. B. für Autoren einer Publikation. Die Reihenfolge wird in der Ontologie durch „annotation of annotation“ abgebildet, d. h. durch die Annotation der entsprechenden Annotation (z. B. „field_author“) mit der Eigenschaft „ref_num“ und der Angabe der laufenden Nummer. Eine weitere wichtige Funktion des DOG ist die Erstellung der Verzeichnisstruktur für die Speicherung von Dateien (z. B. Datensätze, Bilder, Anwendungen, etc.), die in den LHA importiert werden sollen. Die DOG geht dabei wie folgt vor. Für jedes Projekt wird ein Verzeichnis erstellt, das jeweils ein Unterverzeichnis für alle zugehörigen Instanzen (d. h. alle Publikationen, Datensätze, Methoden usw.) enthält. Die Unterverzeichnisse sind ihrerseits in „öffentlich“ und „privat“ unterteilt. Alle Verzeichnisse werden nur dann erstellt, wenn sie nicht bereits vorhanden waren. Das DOG verknüpft die Ontologie auch mit der Verzeichnisstruktur (unter duo:File). Existiert bei der Generierung der Verzeichnisstruktur eine Datei in einem der Ver-
9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas
137
zeichnisse, erzeugt die DOG eine Instanz der entsprechenden Verzeichnisklasse in der Ontologie und annotiert sie mit dem Dateipfad.
9.5 Simple Ontologiy Loader in Drupal (SOLID) Das Content-Management-System (CMS) Drupal erleichtert die Erstellung von Webinhalten (Nodes) durch die Bereitstellung einfacher Webformulare. Zusätzlich erlaubt es die Beschriftung von Inhalten mit Begriffen aus selbst definierten Vokabularen. Es können verschiedene Knotentypen definiert werden, die mit Feldern versehen werden können. Felder dienen als Container für die Informationen eines konkreten Knotens. Die Felder unterstützen einfache Datentypen wie Zeichenketten oder Zahlen, aber auch komplexe Typen wie Dateien und Verweise auf andere Knoten oder Vokabularbegriffe. Große Mengen an zu verwaltenden Inhalten können jedoch zu einer komplexen Verflechtung von Knoten und Begriffen führen. Daher sind Ontologien für die Modellierung von Inhalten geeignet. Um Benutzern den Import von Ontologien in Drupal zu ermöglichen, haben wir das Drupal-Modul Simple Ontology Loader in Drupal (SOLID) [11] entwickelt. SOLID unterstützt sowohl Ontologien, die mit dem Drupal Ontology Generator (DOG) generiert wurden, als auch jede andere Standard-Ontologie (z. B. von BioPortal heruntergeladen). Die Ontologien müssen lediglich in die Drupal Upper Ontology (DUO) integriert werden. Das Modul ist PHP-basiert und interagiert direkt mit der Drupal-API. Daher führen die erstellten Inhalte nicht zu Kollisionen oder Inkonsistenzen im Datenbankmanagementsystem von Drupal. SOLID basiert auf der Modularchitektur von Drupal und muss in Drupal (Version 8) installiert werden, damit es funktioniert. Das Modul ist über den Administrationsbereich von Drupal zugänglich und bietet ein kleines Formular für den Datenupload und die Konfiguration, um den Importprozess zu vereinfachen. Zu beachten ist, dass Knoten nur importiert werden können, wenn ein entsprechender Knotentyp vor dem Import angelegt wurde. Für jede Eigenschaft in einer Ontologie muss es ein entsprechendes Feld in Drupal geben. Die automatisierte Erstellung von Feldern wird von SOLID nicht unterstützt, da die erforderlichen Konfigurationsparameter für jedes Feld zu umfangreich sind, um sie in eine Ontologie einzufügen. Es ist viel sinnvoller, die von Drupal bereitgestellte Benutzeroberfläche zur Erstellung der Felder zu verwenden. In Bezug auf die LHA-Instanz mussten wir die Knotentypen „project“, „publication“, „clinical dataset“ usw. mit ihren jeweiligen Feldern anlegen (wie in Abschn. 9.2 beschrieben). Zusätzlich bietet Drupal die Möglichkeit, Dateien (z. B. Datensätze oder Anwendungen) zu verwalten. Vor dem Import der Ontologie müssen diese Dateien jedoch entsprechend den Eigenschaften der jeweiligen duo:File-Instanz auf dem Server abgelegt werden. Im Folgenden werden der Aufbau und die Funktionsweise von SOLID kurz beschrieben. Das Modul enthält zwei Arten von Komponenten: Parser und Importer (Abb. 9.5). Die Parser sind für die Verarbeitung der hochgeladenen Eingabedateien
138
A. Uciteli et al.
Abb. 9.5 Architektur des Simple Ontology Loader in Drupal (SOLID)
z uständig. Es werden OWL und JSON unterstützt, aber dieser Abschnitt konzentriert sich auf den Import von OWL-Ontologien. Importer (Node- bzw. Vokabular-Importer) interagieren mit der Drupal-API, um nach vorhandenen Entitäten zu suchen und neue zu erstellen. In der LHA-Pipeline erhält SOLID die Portal-Ontologie von LHA (POL) von der DOG als OWL-Datei. Die Datei wird durch den OWL-Parser (basierend auf EasyRDF [12]) verarbeitet. Der Parser extrahiert jede Unterklasse von duo:Vocabulary_Concept und übergibt sie an den Vokabulary Importer. Der Importer erstellt für jede direkte Unterklasse von duo:Vocabulary_Concept ein Vokabular in Drupal und fügt alle abgeleiteten Klassen als Begriffe in das Vokabular ein. In diesem Schritt werden die Unterund Oberklassenbeziehungen erhalten und als Hierarchien gespeichert. Je nach Konfiguration sucht der OWL-Parser nach Instanzen der jeweiligen Unterklassen von duo:Node_Item in der Ontologie. Neben Standardeigenschaften von Knoten wie Titel, Knotentyp und Alias sammelt der Parser auch Daten-, Objekt- und Annotationseigenschaften und übergibt alle gefundenen Eigenschaften an den Node Importer, wo alle Knoten in das CMS eingefügt werden (Abb. 9.6). Falls eine Eigenschaft eine andere Entität in der Ontologie referenziert, kann das entsprechende Feld nicht sofort in die Datenbank eingefügt werden, da referenzierte Knoten möglicherweise noch nicht verarbeitet und erstellt wurden. Daher werden referenzierende Eigenschaften erst verarbeitet, nachdem alle Knoten erstellt wurden. Drupal verwendet einen Universally Unique Identifier (UUID) für eine bijektive Identifizierung von Inhalten, die in der Datenbank gespeichert sind. Um eine Verbindung zwischen Knoten nach dem Import und ihren Quellentitäten in der Ontologie zu gewährleisten, verwenden wir die Entitäten Internationalized Resource Identifiers (IRI) als UUIDs in Drupal. Auf diese Weise kann das Modul feststellen, ob eine Klasse oder ein Individuum, das vom Parser extrahiert wird, bereits in der Datenbank existiert. Falls die
9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas
139
Abb. 9.6 Beispiel für eine generierte Seite im Webportal des Leipzig Health Atlas
ontologische Entität früher importiert wurde, wird der frühere Knoten um eine neue Revision erweitert, die die neuen Felder enthält. Die beschriebene Nutzung von SOLID erfordert die Verwendung des Webformulars für den Upload und die Konfiguration, um den Importprozess zu vereinfachen. Es ist aber auch möglich, das Modul über die Kommandozeile zu steuern, um z. B. einen periodischen Import zu starten. Neue Spreadsheets können in einem Verzeichnis des Dateisystems des Servers abgelegt werden, so dass DOG eine OWL-Datei erstellen kann, die SOLID anschließend importieren kann.
140
A. Uciteli et al.
9.6 Empfehlungen Unser allgemeiner Ansatz bietet eine Lösung für zwei Arten von Problemen: 1. Entwicklung von Webportalen Unsere Methode ist für die Entwicklung von Webportalen mit dem Fokus auf eine geeignete Repräsentation von strukturiertem Wissen einsetzbar. Die folgenden Kriterien sollten für die Entwicklung eines Webportals auf der Grundlage unseres Ansatzes erfüllt sein: • Es sollten verschiedene Arten von Entitäten mit bestimmten Eigenschaften dargestellt werden. • Es bestehen unterschiedliche Beziehungen zwischen den einzelnen Entitäten. • Die darzustellenden Entitäten sollten mit Konzepten von Terminologien/Ontologien annotiert werden, um die Suche zu vereinfachen. • Der darzustellende Inhalt ist dynamisch. In diesem Fall werden die Entitäten, ihre Eigenschaften und Beziehungen mit Hilfe eines Spreadsheets modelliert, von DOG in OWL transformiert und von SOLID in Drupal geladen. Unser Ansatz eignet sich nicht für die Darstellung statischer oder eindimensionaler Inhalte (z. B. Blogs) oder für die Erstellung von Portalen, die eine komplexe Programmlogik oder Interaktion mit dem Benutzer erfordern (z. B. Formulare). 2. Darstellung bestehender Ontologien Die Zahl an Ontologien, die für weit verbreitete Domänen zur Verfügung stehen, wächst stetig. Allein das BioPortal umfasst über 500 veröffentlichte Ontologien mit fast acht Millionen Klassen. Der große Informationsgehalt dieser Ontologien ist jedoch nur für Experten direkt verständlich. Um dieses Manko zu überwinden, könnte es möglich sein, Ontologien als Webportale darzustellen, die keine Kenntnisse über Ontologien und deren Semantik erfordern, aber dennoch so viele Informationen wie möglich an den Endbenutzer weitergeben [11]. Bei unserem Ansatz werden die ontologischen Entitäten dem Benutzer als einzelne Seiten mit allen entsprechenden Eigenschaften und Links (zu internen oder externen Seiten und Dateien) präsentiert.
9.7 Schlussfolgerung In diesem Kapitel haben wir einen Ansatz zur Spezifikation und zum automatischen Laden der Inhalte von Webportalen in das CMS Drupal vorgestellt. Unser Ansatz wurde erfolgreich beim Aufbau des LHA-Portals ([13], das Layout des Portals befindet sich noch in der
9 Ontologie-basierte Modellierung von Web-Inhalten: Beispiel Leipzig Health Atlas
141
Entwicklung) angewendet, das Metadaten, Daten, Publikationen und Methoden aus verschiedenen Forschungsprojekten der Universität Leipzig zur Verfügung stellt. Ontologien haben sich als geeignetes Werkzeug für die Modellierung komplexer Inhalte von Webportalen erwiesen. Unsere Pipeline erleichtert die Spezifikation der Inhalte durch Domänenexperten und ersetzt die manuelle Eingabe der Daten in Drupal durch einen automatisierten Import. Unsere Methode ist generisch. Sie ermöglicht zum einen die Entwicklung von Webportalen mit dem Fokus auf eine geeignete Darstellung von strukturiertem Wissen. Andererseits ermöglicht sie es, bestehende Ontologien so darzustellen, dass ihr Inhalt für Benutzer ohne Hintergrundwissen über die zugrundeliegenden ontologischen Entitäten und Strukturen (z. B. die Unterscheidung zwischen Konzepten, Individuen, Relationen usw.) verständlich ist. Die Darstellung ontologischer Entitäten als herkömmliche Webseiten und Links erleichtert den Zugang zu den semantischen Informationen und verbessert die Nutzbarkeit von Ontologien durch Fachleute. Um eine bestehende Domänen-Ontologie mit SOLID in Drupal zu importieren, sind nur ein paar relativ einfache Änderungen erforderlich. Um Fehler während des Importprozesses zu vermeiden, mussten einige Einschränkungen und Anforderungen an das Ontologie-Design definiert werden. Die Ontologie muss in DUO eingebettet sein, d. h. ihre Klassen und Eigenschaften müssen von denen der DUO abgeleitet sein. Nur Klassen und Eigenschaften, die in DUO definiert sind und in der Domänenontologie spezialisiert oder instanziiert sind, werden von SOLID verarbeitet. Die Klassen, deren Instanzen als Webseiten (Nodes) dargestellt werden sollen, müssen als Unterklassen von duo:Node_ Item definiert werden, während die Wurzelknoten der externen Terminologien unter duo:Vocabulary_Concept einzuordnen sind. Alle Annotation Properties müssen Subproperties von duo:field sein, und ihre Namen müssen mit den Namen der in Drupal erstellten Felder übereinstimmen. Unser Ansatz ist eine vielversprechende Lösung für die Entwicklung von komplexen Webportalen. Darüber hinaus kann er eingesetzt werden, um bestehende Ontologien verfügbar zu machen. Zukünftige Anwendungen sollen in weiteren Projekten etabliert und evaluiert werden.
Literatur 1. Horgan RP, Kenny LC (2011) “Omic” technologies: genomics, transcriptomics, proteomics and metabolomics. Obstet Gynaecol 13(3):189–195 2. ISO 14721:2012. Space data and information transfer systems – Open archival information system (OAIS) – Reference model. https://www.iso.org/standard/57284.html 3. MEDLINE/PubMed XML data elements. https://www.nlm.nih.gov/bsd/licensee/data_elements_ doc.html 4. Gene Expression Omnibus (GEO). https://www.ncbi.nlm.nih.gov/geo/ 5. Hanauer DA, Rhodes DR, Sinha-Kumar C, Chinnaiyan AM (2007) Bioinformatics approaches in the study of cancer. Curr Mol Med 7(1):133–141(9)
142
A. Uciteli et al.
6. Cerami E, Gao J, Dogrusoz U, Gross BE, Sumer SO, Aksoy BA, Jacobsen A, Byrne CJ, Heuer ML, Larsson E, Antipin Y, Reva B, Goldberg AP, Sander C, Schultz N (2012) The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Am Assoc Cancer Res. https://doi.org/10.1158/2159-8290.CD-12-0095 7. Grossman RL, Heath AP, Ferretti V, Varmus HE, Lowy DR, Kibbe WA, Staudt LM (2016) Toward a shared vision for cancer genomic data. N Engl J Med 375:1109–1112. https://doi. org/10.1056/NEJMp1607591 8. Hoehndorf R, Ngomo A-CN, Herre H (2009) Developing consistent and modular software models with ontologies. In: Fujita H, Marik V (Hrsg) New trends in software methodologies, tools and techniques: proceedings of the Eighth SoMeT_09, Prague. Vol 199. IOS Press, Prague, S 399–412. [Frontiers in Artificial Intelligence and Applications] 9. Herre H, Heller B, Burek P, Hoehndorf R, Loebe F, Michalek H (2006) General formal ontology (GFO): a foundational ontology integrating objects and processes. Part I: basic principles (Version 1.0). Onto-Med report. Research Group Ontologies in Medicine (Onto-Med), University of Leipzig, Leipzig 10. Herre H (2010) General formal ontology (GFO): a foundational ontology for conceptual modelling. In: Poli R, Healy M, Kameas A (Hrsg) Theory and applications of ontology: computer applications. Springer, Dordrecht, S 297–345 11. Beger C, Uciteli A, Herre H (2017) Light-weighted automatic import of standardized ontologies into the content management system Drupal. Stud Health Technol Inform 243:170–174 12. Humfrey N. RDF library for PHP. http://www.easyrdf.org/ 13. Leipzig Health Atlas (LHA). https://www.health-atlas.de/
10
Personalisierter Decision Support für Krebsbehandlung Bernhard G. Humm und Paul Walsh
Kernaussagen
1. Ärzte stehen zunehmend vor der Herausforderung, mit der raschen Entwicklung neuer Behandlungen und Medikamente Schritt zu halten, insbesondere bei seltenen und komplizierten Fällen. 2. Personalisierte Medizin bietet erhebliche Vorteile für Patienten und Ärzte, erfordert aber die Erfassung, Integration und Interpretation riesiger Datenmengen. 3. Informationsanbieter bieten evidenzbasierte medizinische Informationsdienste an, die stets neue Publikationen und medizinische Entwicklungen berücksichtigen. Die Nutzung solcher medizinischer Informationsdienste im heutigen klinischen Alltag ist jedoch noch eingeschränkt. Aufgrund der hohen Arbeitsbelastung finden Ärzte einfach keine Zeit für die Recherche in solchen Wissensdatenbanken. Auch können die Wissensdatenbanken selbst widersprüchliche Informationen liefern.
B. G. Humm (*) Fachbereich Informatik, Hochschule Darmstadt, Darmstadt, Deutschland E-Mail: [email protected] P. Walsh NSilico Life Science, Dublin, Irland E-Mail: [email protected] © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_10
143
144
B. G. Humm und P. Walsh
4. Um eine effektiven Decision Support zu ermöglichen, müssen personalisierte medizinische Informationen am Point-of-Care zur Verfügung stehen: nützliche Informationen zu Diagnose oder Behandlung, die auf jeden einzelnen Patienten zugeschnitten sind, ohne dass der Arzt mit der Recherche belastet wird. 5. Personalisierter Decision Support erfordert die semantische Verknüpfung elek tronischer Krankenakten mit evidenzbasierten medizinischen Wissensdiensten.
10.1 Einleitung Personalisierte Medizin beschreibt die maßgeschneiderte Behandlung von Patienten auf der Grundlage ihrer Untersuchungsergebnisse [1, 2]. So können beispielsweise Patienten mit derselben allgemeinen Diagnose wie Brustkrebs unterschiedliche Formen der Erkrankung haben, wie „papilläres Karzinom der Brust“ oder „duktales Karzinom in situ“, die sich in ihren Behandlungsplänen erheblich unterscheiden. Berücksichtigt man die unzähligen potenziellen Begleiterkrankungen, Medikamente, Symptome, Umweltfaktoren und demografischen Merkmale der Patientinnen, ergeben sich sogar noch mehr Unterschiede in der optimalen Behandlung der Patientinnen. Da die meisten Krankheiten auch eine genetische Komponente aufweisen, wird die Genomsequenzierung einen noch stärker personalisierten Behandlungsansatz ermöglichen. Ein personalisierter Ansatz bietet erhebliche Vorteile für Patienten und Ärzte, da er eine genauere Diagnose und einen spezifischeren Behandlungsplan ermöglicht, bessere Behandlungsergebnisse für die Patienten bietet, die Effizienz der Gesundheitsdienstleister steigert und den Entwicklern von Arzneimitteln und Diagnostika wirksamere Methoden zur gezielten Krankheitsbekämpfung bietet [1, 2]. So werden beispielsweise Brustkrebspatientinnen auf bestimmte genetische Biomarkermutationen in den BRCA1- und BRCA2-Genen getestet, wenn in ihrer Familie Brustoder Eierstockkrebs aufgetreten ist. Patientinnen, die pathogene Varianten der BRCA1oder BRCA2-Gene aufweisen, haben ein hohes Risiko für Brust- und Eierstockkrebs, und es werden häufig prophylaktische Operationen durchgeführt, um ihre Gesundheit langfristig zu schützen [3]. Der Grad der BRCA1-Genexpression ist auch ein wichtiger Anhaltspunkt für eine maßgeschneiderte Chemotherapie [4]. Es ist jedoch zu beachten, dass nicht alle genetischen Varianten pathogen sind, so dass die Herausforderung hier in der angemessenen klinischen Klassifizierung der Varianten sowie der reibungslosen Integration dieses Wissens in die personalisierte Medizin besteht. Ein weiteres Beispiel für Informationen, die in der personalisierten Medizin verwendet werden, ist das HER2-Gen, das die genetischen Anweisungen für die Herstellung von HER2-Proteinen enthält, die Rezeptoren auf Brustzellen sind. HER2-Proteine steuern, wie eine Brustgewebszelle wächst, sich teilt und sich selbst repariert. Bei einigen Patientinnen führt jedoch ein Fehler im HER2-Gen dazu, dass es sich selbst repliziert,
10 Personalisierter Decision Support für Krebsbehandlung
145
was zu unkontrolliertem Wachstum des Brustgewebes führt [5]. Diese Informationen können mit anderen klinischen Daten wie Tumorgröße, Lymphknotenstatus, Begleiterkrankungen, Lebensstil und in geringerem Maße auch Alter und sozioökonomischer Status kombiniert werden, um eine genauere Diagnose, Prognose und Behandlung zu ermöglichen [6]. Um Hippokrates zu zitieren: „Es ist wichtiger zu wissen, welche Art von Mensch eine Krankheit hat, als zu wissen, welche Art von Krankheit ein Mensch hat“ [7]. Es bestehen jedoch große Herausforderungen, wenn es darum geht, personalisierte Medizin effektiv umzusetzen. In einem Positionspapier der Europäischen Gesellschaft für Medizinische Onkologie (ESMO) heißt es beispielsweise, dass die Integration und Interpretation der ständig wachsenden Datenmengen und der damit verbundenen Anforderungen an die Informations- und Kommunikationstechnologie (IKT) sowie die vielfältigen Dimensionen und wechselnden Perspektiven in Bezug auf Wert und Kosteneffizienz in der personalisierten Krebsmedizin eine gewaltige Aufgabe darstellen [8]. In der Tat stehen Ärzte bereits vor enormen Herausforderungen, wenn sie mit der raschen Entwicklung neuer Behandlungen und Medikamente Schritt halten wollen, insbesondere bei seltenen Fällen. Die Gesundheitssysteme haben sich in den letzten zehn Jahren erheblich gewandelt, so dass die Ärzte nun mit einer rasch wachsenden medizinischen Wissensbasis, belastenden gesetzlichen Vorschriften, einem erhöhten Verwaltungsaufwand durch Papierakten, der Einführung fragmentierter elektronischer Gesundheitssysteme und einer intensiven Prüfung von Qualitätsindikatoren konfrontiert sind. Darüber hinaus scheint die Einführung elektronischer Patientenakten (electronic health record, EHR) den bürokratischen Aufwand für Ärzte erhöht zu haben und mag einige Ärzte von sinnvollen Interaktionen mit den Patienten ablenken. Eine kürzlich durchgeführte Studie, bei der 57 Ärzte über mehrere Wochen hinweg beobachtet wurden, ergab, dass die Ärzte etwa die Hälfte ihrer Zeit mit administrativen Aufgaben und der Schnittstelle zum EHR verbringen [9]. In einer kürzlich durchgeführten Studie wurde festgestellt, dass Probleme mit der Benutzerfreundlichkeit, mangelnde Interoperabilität und schlechte Dokumentationsqualität für Ärzte, die mit EHR-Systemen arbeiten, eine Quelle der Frustration sind. Die Unzufriedenheit nimmt ebenfalls zu, da ein wachsender Prozentsatz der Ärzte mit der derzeitigen Implementierung von EHRs unzufrieden ist. Darüber hinaus nimmt die Komplexität der Patientendaten zu, und die Ärzte müssen nun riesige Mengen an Patientendaten in Form von elektronischen Patientenakten interpretieren, in denen die Dokumente zu einem bestimmten Patienten zusammengefasst sind. Aufgrund ihrer Heterogenität und ihres Umfangs zählen diese Daten zu den komplexesten in der IT-Branche. Biomedizinische Big Data in Form von EHRs und digitaler Bildarchivierung wachsen schnell, mit einer geschätzten jährlichen Wachstumsrate von 48 %, und es wird geschätzt, dass Gesundheitsdaten bis 2020 2000 Exabytes oder 2 Zettabytes umfassen werden [10]. Folglich werden für die Verwaltung und Analyse von EHR-Daten zunehmend Big-Data-Software-Management-Tools benötigt.
146
B. G. Humm und P. Walsh
Informationsanbieter bieten evidenzbasierte medizinische Informationsdienste an, die stets neue Publikationen und medizinische Entwicklungen berücksichtigen. Prominente Beispiele sind up-to-date (www.uptodate.com) und DynaMed Plus (www.dynamed.com). Die Nutzung solcher medizinischer Informationsdienste im heutigen klinischen Alltag ist jedoch noch begrenzt. Aufgrund der hohen Arbeitsbelastung finden Ärzte einfach keine Zeit für die Recherche in diesen Wissensdatenbanken. Um eine wirksame klinische Entscheidungshilfe zu ermöglichen, müssen personalisierte medizinische Informationen am Point-of-Care zur Verfügung stehen: nützliche Informationen zur Diagnose oder Behandlung, die auf jeden einzelnen Patienten zugeschnitten sind, ohne dass der Arzt dafür aktiv recherchieren muss. In diesem Kapitel beschreiben wir ein englischsprachiges Clinical Decision Support System (CDSS) für die Krebsbehandlung [11]. Das CDSS verknüpft EHRs semantisch mit externen evidenzbasierten medizinischen Informationsdiensten, was dem Arzt ermöglicht, diese Dienste ohne Rechercheaufwand zu nutzen.
10.2 Interaktionskonzept Wir veranschaulichen das Interaktionskonzept des CDSS anhand eines Beispiels in der Melanombehandlung. Abb. 10.1 zeigt anonymisierte Übersichtsdaten eines fiktiven Melanompatienten aus einer elektronischen Patientenakte. In diesem Beispiel leidet der Patient an einem Melanom in situ im Stadium IB, mit einer Tumordicke Breslow von 0,8 mm. Auf der Grundlage der EHR-Daten können ohne Interaktion durch den Arzt relevante Informationen abgerufen und angezeigt werden. Um Ärzten einen intuitiven Zugang zu diesen Informationen zu ermöglichen, nutzt das CDSS mehrere Informationsdienste, die jeweils unterschiedliche Informationsbedürfnisse befriedigen. Diese Informationsdienste sind in Webseiten-Panels organisiert, die der Benutzer an seine Bedürfnisse anpassen kann, indem er entscheidet, welche Panels angezeigt
Abb. 10.1 Fiktive patientenbezogene Falldaten
10 Personalisierter Decision Support für Krebsbehandlung
147
und welche ausgeblendet werden sollen. Zusätzlich können die Reihenfolge und die Größe der Panels an die individuellen Bedürfnisse des Benutzers angepasst werden, wobei das resultierende Layout über verschiedene Sitzungen hinweg für den jeweiligen Benutzer beibehalten wird. In den folgenden Abschnitten werden die einzelnen Informationsdienste kurz beschrieben.
10.2.1 Medikamenten-Informationen Informationen über Medikamente und ihre Wechselwirkungen zum Zeitpunkt der Verschreibung sind wichtig für die Behandlung [12]. Ein Medikamenten-Informationsdienst bietet Informationen, die normalerweise in Packungsbeilagen von Medikamenten enthalten sind, in einer besser zugänglichen und strukturierten Form (Abb. 10.2, links). Zu den bereitgestellten Informationen gehören Dosierungsdaten für verschiedene Altersgruppen und vorausgefüllte Rechner, die auf der Grundlage von statischen Informationen wie Alter und Gewicht des Patienten Dosierungsvorschläge machen. Für Dosierungen, die von dynamischen Daten wie der Nierenfunktion abhängen, ist es wichtig, aktuelle Messwerte zu erhalten, wenn die neuesten Daten nicht in der elektronischen Patientenakte verfügbar sind. Weitere Informationen, die von Medikamenten-Informationsdiensten zur Verfügung gestellt werden, sind Warnhinweise, unerwünschte Wirkungen, Pharmakologie, Verabreichungsrichtlinien, Material für die Patientenaufklärung sowie Abbildungen von Tabletten und Preise. Die Auswahl eines anzuzeigenden Medikaments kann über ein Feld mit Auto- Vervollständigung erfolgen, das bereits verordnete Medikamente höher einstuft, aber auch die Suche nach noch nicht verordneten Medikamenten ermöglicht. Da Ärzte angegeben haben, dass sie automatisch generierte Warnhinweise für schwerwiegende Wechselwirkungen und Gegenanzeigen sehen möchten [12], wird ein Warnhin-
Abb. 10.2 Medikamenten-Informationen [11]
148
B. G. Humm und P. Walsh
weis an prominenter Stelle angezeigt (Abb. 10.2, oben). Für weitere Informationen zum Umgang mit Wechselwirkungen oder alternativen Medikationen wird ein entsprechender Link angegeben. Wechselwirkungen zwischen Medikamenten untereinander sowie zwischen Medikamenten und Lebensmitteln werden in einem weiteren Panel angezeigt, in dem die Benutzer die Möglichkeit haben, interaktiv potenzielle Wechselwirkungen mit noch nicht verschriebenen Medikamenten zu überprüfen (Abb. 10.2, rechts).
10.2.2 Literatur Das Literatur-Panel zeigt relevante medizinische Primärliteratur und Übersichtsergebnisse an, die sich auf den jeweiligen Patienten beziehen (Abb. 10.3). Automatisch generierte Filter ermöglichen eine schnelle Navigation durch die Ergebnisse der Literatursuche. Die Filter werden auf der linken Seite angezeigt, während die medizinische Literatur auf der rechten Seite zu sehen ist. Für jede medizinische Publikation werden der Titel, die Zeitschrift und das Veröffentlichungsdatum angezeigt. Im Rahmen der evidenzbasierten Medizin (EBM) sind Publikationen mit einem hohen Evidenzgrad zu bevorzugen [13]. Daher werden Publikationen, bei denen es sich um Übersichtsarbeiten oder klinische Studien handelt, mit einer Markierung versehen, die den Publikationstyp angibt. Dies deckt sich auch mit einer Studie aus dem Jahr 2013, in der Datenabfragen in einem Krankenhaus protokolliert und analysiert wurden und festgestellt wurde, dass fast ein Drittel der abgerufenen Artikel Reviews waren [14, 15]. Zur schnellen Orientierung und Relevanzbewertung werden Begriffe, die in der elektronischen Patientenakte vorkommen, im Literatur-Panel hervorgehoben. Um die Bewertung der Literaturrelevanz zu erleichtern, wird nach jedem Publikationstitel ein Teasertext angezeigt, wenn der Mauszeiger über das Augensymbol bewegt wird. Um den Nutzern die Möglichkeit zu geben, ein Feedback zur Relevanz einer Publikation zu geben und die Literatursuche zu verbessern, werden Icons mit „Daumen hoch“ und „Daumen runter“ bereitgestellt.
Abb. 10.3 Literatur-Panel [11]
10 Personalisierter Decision Support für Krebsbehandlung
149
10.2.3 EBM-Empfehlungen In diesem Panel werden evidenzbasierte medizinische Empfehlungen (EBM) angezeigt, die für den aktuell behandelten Patienten relevant sind. Im Beispiel aus Abb. 10.1 leidet der Patient an einem Melanom in situ im Stadium IB, mit einer Tumordicke Breslow von 0,8 mm. Auf der Grundlage der EHR-Daten wird ohne Interaktion des Arztes die relevante Seite der NCCN-Empfehlungen [16] für die Behandlung des Melanoms aufgerufen. In diesem Beispiel werden die NCCN-Empfehlungen verwendet, aber die Datenquelle kann so konfiguriert werden, dass sie den gültigen medizinischen Vorschriften eines Landes entspricht. Die Empfehlung ist als Entscheidungsbaum aufgebaut, in dem der relevante Pfad (Stadium IB, Tumordicke Breslow 0,67–1,0 mm) angezeigt wird. Geeignete Diagnose- und Behandlungsverfahren werden empfohlen. Begriffe, die mit dem EHR übereinstimmen, z. B. Interferon, sind hervorgehoben. Bei Interesse kann der Arzt die Fußnoten lesen und den Hyperlinks folgen, um weitere Einzelheiten zu erfahren.
10.3 Informationsdienstleister für Medizin Es gibt eine große Zahl von Informationsdienstleistern für Medizin. Einige sind öffentliche Einrichtungen wie das US National Institute of Health, die Informationen kostenlos zur Verfügung stellen. Andere sind kommerziell, wie z. B. Wolters Kluwer. Der Umfang und die Qualität der bereitgestellten Informationen unterscheiden sich. Einige Informationsanbieter bieten Programmierschnittstellen (APIs) für den Zugriff auf Daten aus einer EHR-Anwendung, andere wiederum bieten nur einen Webzugang. Die folgenden Tab. 10.1, 10.2 und 10.3 geben einen Überblick über einige bekannte Informationsdienstleister.
Wolters Kluwer Clinical Drug Information
RxNav
Medscape
MedlinePlus Connect
Name DailyMed
Beschreibung Website der U.S. National Library of Medicine (NLM), bietet qualitativ hochwertige und aktuelle Arzneimittelkennzeichnungen. Täglich von der FDA aktualisiert. Die Dokumente verwenden ein strukturiertes XML-Format. Dienst der NLM. Bietet unstrukturierte natürlichsprachliche Arzneimittelinformationen/ Kennzeichnungen und Übersichten zu Gesundheitsthemen Zahlreiche klinische Informationsquellen über die Website oder die mobile App verfügbar. Jährlich aktualisierte Artikel Zugang zu verschiedenen Arzneimittelressourcen wie RxNorm, NDF-RT und DrugBank Arzneimittelnormalisierung über verschiedene Codes und Systeme durch Verwendung von RxNorm, Arzneimittelinteraktionen aus DrugBank Kommerzielle Arzneimittelinformationen APIs, einschließlich Wechselwirkungen, Nebenwirkungen, Indikationen und Zuordnung zu RxNorm Öffentlich, kostenlos
ja
kommerziell
nein kostenlos, Anmeldung erforderlich ja Öffentlich, kostenlos
ja
API Zugang ja Öffentlich, kostenlos
Tab. 10.1 Informationsquellen zu Medikamenten. (Angepasst aus [11])
✓
✓
✓
✓
✓
✓
✓
✓
✓
✓
✓
✓
Wechselwirkungen Nebenwirkungen Rückrufe
Informationen zum Medikament
150 B. G. Humm und P. Walsh
10 Personalisierter Decision Support für Krebsbehandlung
151
Tab. 10.2 Informationsquellen für Literatur. (Angepasst aus [11]) Name Google Scholar
Beschreibung Suchmaschine für wissenschaftliche Publikationen aus allen Bereichen. Durchsucht automatisch viele Zeitschriften Ovid Wissenschaftliche Suchplattform, die zahlreiche Datenbanken umfasst, darunter MEDLINE PubMed Suchmaschine, die hauptsächlich auf die Datenbank MEDLINE zugreift und sich auf Gesundheitsthemen konzentriert. Abfrageerweiterung durch Verwendung der MeSH Ontologie ScienceDirect Website mit Zugang zu einer großen Datenbank mit wissenschaftlichen Veröffentlichungen aus vielen Bereichen Scopus Datenbank mit Zusammenfassungen und Zitaten aus vielen akademischen Zeitschriften und vielen wissenschaftlichen Bereichen, nicht auf Gesundheitsthemen spezialisiert Springer API Zugang zu allen von Springer herausgegebenen Zeitschriften, auch zu den Open-Access- Publikationen von BioMedCentral
API Zugang nein kommerziell
Größe schätzungsweise 160 Mio. Artikel
?
Abonnement
?
ja
Öffentlich, kostenlos
> 24,6 Mio. Datensätze, etwa 500.000 neue Datensätze pro Jahr
ja
kostenlos (Abstracts), Abonnement (Volltext)
12 Mio. Datensätze aus 3500 Zeitschriften und 34.000 eBooks
ja
Kostenpflichtiges Abonnement
~
ja
teilweise kostenlos, teilweise im Abonnement
~
55 Mio. Datensätze
2000 Zeitschriften und > 6500 Bücher pro Jahr, Zugang zu > 10 Mio. OnlineDokumenten
152
B. G. Humm und P. Walsh
Tab. 10.3 EBM-Informationsquellen. (Angepasst aus [11]) Name BMJ Best Practice
Beschreibung Evidenzbasierte Informationen, die eine schrittweise Anleitung zu Diagnose, Prognose, Behandlung und Prävention bieten DynaMedPlus Evidenzbasierte klinische Übersichten und Empfehlungen. Täglich aktualisierte Inhalte. Bietet auch Rechner, Entscheidungsbäume und Konverter für Einheiten und Dosen EBMeDS Plattformunabhängiger Webdienst CDSS mit EBM-Modul Medscape/ Größte frei verfügbare klinische WissenseMedicine datenbank. Jährlich aktualisierte Artikel. Auch als mobile Anwendung verfügbar NCCN Empfehlungen für die Behandlung von Krebs nach Standort mit Entscheidungsbäumen. Zusammengestellt von Gremien erfahrener Mediziner Physician Krebsdatenbank des US National Cancer Data Query Institute. Enthält von Experten begutachtete Informationen zur Krebsbehandlung in Form von Zusammenfassungen für Patienten und Experten UpToDate Beliebtes evidenzbasiertes POC-Tool für ein breites Spektrum von Disziplinen, aber speziell für die innere Medizin. Umfassendes Peer-Review-Verfahren zur Gewährleistung genauer und präziser Empfehlungen
API Zugang Umfang ja Abonnement ?
ja
Abonnement > 3200 Themen und > 500 Fachzeitschriften
ja
kommerziell
?
nein kostenlos, Anmeldung erforderlich nein kostenlos, Anmeldung erforderlich
~
nein öffentlich
Nur Krebsbereich
ja
~
Abonnement, einige Artikel kostenlos
6800 Artikel
60 Dokumente
~
8500 Themen
10.4 Ontologie-basierte EHR Der personalisierte klinische Decision Support erfordert eine semantische Verknüpfung von EHRs mit evidenzbasierten medizinischen Wissensquellen. Ein großer Teil der EHR-Daten ist als Freitext gespeichert, was den Ärzten maximale Flexibilität bei der Formulierung fallspezifischer Fragen bietet. Die Verwendung von Freitext hat jedoch einen Nachteil für die Auswertung von EHR-Daten, da die medizinische Terminologie von verschiedenen medizinischen Fachkräften und in verschiedenen Regionen unterschiedlich verwendet wird. So sind beispielsweise Synonyme in der medizinischen Fachwelt weit verbreitet, ebenso wie Abkürzungen und sogar auch Rechtschreibfehler. Während dies für den menschlichen Experten in der Regel kein Problem darstellt, ist es für eine Software schwierig, mit solchen Mehrdeutigkeiten umzugehen. Um mit solchen Probleme umzugehen, wurden Text-Mining-Ansätze zur Disambiguierung von Texten in EHRs vorgeschlagen [17]. Während solche analytische Ansätze unver-
10 Personalisierter Decision Support für Krebsbehandlung
153
meidlich sind, wenn es um bestehende EHR-Daten geht, verwenden wir für neue EHR- Anwendungen einen konstruktiven Ansatz: eine semantische Auto-Vervollständigung (siehe Abb. 10.4). Während der Eingabe in ein Freitextfeld werden Vorschläge für medizinische Fachbegriffe aus verschiedenen Kategorien (Anatomie, Symptom, Krankheit usw.) angezeigt. Zum Beispiel: „ipilimumab (Medikament)“ wird dem Benutzer bei der Eingabe von „ip“ vorgeschlagen. Fährt man mit der Maus über einen Eintrag, wird ein erläuternder Text angezeigt. Diese Begriffe basieren auf zusammengefassten Ontologien aus verschiedenen Quellen, die entsprechend dem klinischen Anwendungsfall konfiguriert werden können. Semantische Auto-Vervollständigung verbessert nicht nur die Benutzerfreundlichkeit, indem der Tippaufwand für den Arzt reduziert wird, sondern, was ebenso wichtig ist, es normalisiert die Verwendung medizinischer Terminologie: Statt Synonyme, Abkürzungen oder sogar falsch geschriebene Begriffe zu verwenden, wird immer derselbe Terminus für ein bestimmtes medizinisches Konzept verwendet. Wir haben sechs verschiedene semantische Kategorien für eine Melanomanwendung ermittelt: Medikamente, Aktivität, Symptom, Krankheit, Gen und Anatomie. Siehe Abb. 10.5. Die Verankerung der im EHR verwendeten Begriffe in einer Ontologie ist die Grundlage für den semantischen Abgleich eines EHR mit Informationsquellen wie EBM-Empfehlungen; siehe Abb. 10.6. Die verwendeten Ontologien werden im Folgenden näher erläutert.
Abb. 10.4 Semantische Auto-Vervollständigung [18]
Abb. 10.5 Semantische Kategorien [18]
Ontologie
Abb. 10.6 Semantischer Abgleich von EHRs mit medizinischen Informationsquellen
EHR (Text + strukturierte Daten)
3. Darstellung
Medizinische Wissensquellen
154 B. G. Humm und P. Walsh
10 Personalisierter Decision Support für Krebsbehandlung
155
In ein EHR eingegebene medizinische Begriffe werden mit der Ontologie verknüpft. Diese Begriffe sowie numerische Daten werden aus dem EHR eines bestimmten Patienten extrahiert. Die extrahierten Informationen können zum semantischen Abrufen von Informationsquellen wie EBM-Empfehlungen verwendet werden, die dem Zustand des Patienten entsprechen. Die relevanten Informationen werden dann dem Arzt angezeigt, der Entscheidungen über die Behandlung des Patienten trifft.
10.5 Ontologien in der Medizin Im medizinischen Bereich gibt es zahlreiche kontrollierte Vokabularien, Thesauri und Ontologien. Sie enthalten medizinische Begriffe und möglicherweise zusätzliche Informationen wie Erklärungen, Synonyme, Hyperonyme (weiter gefasste Begriffe) und Beziehungen zu anderen Begriffen. In Anlehnung an die Enzyklopädie für Datenbanksysteme von Liu und Özsu [19] verwenden wir in diesem Artikel den Begriff „Ontologie“, um alle Arten von klassifizierter Terminologie im medizinischen Bereich zu bezeichnen. Während einige medizinische Ontologien kommerziell sind (z. B. Unified Medical Language System® Metathesaurus®, SNOMED-CT usw.), gibt es viele Open-Source- Ontologien. Für einen Überblick siehe z. B. www.ontobee.org. Eine Herausforderung, die es zu bewältigen gilt, ist die Auswahl einer Ontologie oder einer Reihe von Ontologien als Basisvokabular für die EHR-Anwendung und die Abbildung dieser Ontologien auf die Wissensbedarfe im EHR. Bei der Analyse des Melanom- Anwendungsfalls haben wir festgestellt, dass keine einzelne Ontologie alle relevanten Begriffe enthält, die für die semantische Auto-Vorschlagsfunktion erforderlich sind. Daher mussten wir mehrere Ontologien integrieren, um eine ausreichend umfassende Ontologie zu erhalten. Einen Überblick über die ausgewählten Ontologien gibt Tab. 10.4, die eine Auswahl medizinischer Ontologien und deren Verwendung für verschiedene semantische Kategorien enthält. Tab. 10.4 Medizinische Ontologien für verschiedene semantische Kategorien Name The Drug Ontologie (DRON) National Drug File Reference Terminology (NDF-RT) Human Disease Ontology (DOID)
Anatomie Symptom Gen Krankheit Aktivität Medikation Lizenz x frei
x
x
frei
frei
(Fortsetzung)
156
B. G. Humm und P. Walsh
Tab. 10.4 (Fortsetzung) Name Anatomical Entity Ontology (AEO) Foundational Model of Anatomy (FMA) Uber Anatomy Ontology (UBERON) Gene Ontology (GO) Ontology of Genes and Genomes (OGG) VIVO-ISF Symptom Ontology (SYMP) Medical Subject Headings (MeSH) NCI Thesaurus (National Cancer Institute)
Anatomie Symptom Gen Krankheit Aktivität Medikation Lizenz x frei
x
frei
x
frei
x
frei
x
frei
x
frei frei
x
x
x
x
x
x
x
Registrierung erforderlich
x
x
x
x
x
x
frei
10.6 Software-Architektur 10.6.1 Übersicht Abb. 10.7 gibt einen Überblick über die CDSS-Softwarearchitektur. Die Architektur ist in ein Online-Subsystem und ein Offline-Subsystem unterteilt. Das Offline-Subsystem ist ein Batch-Prozess zur Integration verschiedener Quellontologien in eine anwendungsspezifische Ontologie. Es ist als semantischer Extraktions-, Transformations- und Ladeprozess (ETL) implementiert. Das Online-Subsystem ist als Drei- Schichten-Architektur organisiert, bestehend aus Client, Geschäftslogik und Datenhaltung. Siehe auch ([20, 21]). Komponenten mit semantischer Logik sind das semantische ETL, Ontologiedienste (Ontology Services) und Entscheidungsunterstützung (Clinical Decision Support Services). In den folgenden Abschnitten beschreiben wir einige Aspekte der semantischen Komponenten. Für weitere Details siehe [11, 18, 22].
Online Subsystem
EHR GUI …
Clinical Decision Support GUI Drug information GUI
Literature GUI
EBM recommendations GUI
EHR Management
Ontology Services
…
Semantic autosuggest
Drug information service
Literature Service
…
…
EBM recommendations
…
…
Clinical Decision Support Services Adapters Literature adapter Drug info. adapter
EHR Data
157
EBM adapter
Literature data source Drug info source EBM data source
Ontology
Legend: Batch
Offline Subsystem
Data store
Business logic
Client
10 Personalisierter Decision Support für Krebsbehandlung
Semantic ETL
Component Data store Document
Source ontologies
Data flow
Abb. 10.7 CDSS-Softwarearchitektur
10.6.2 Semantisches ETL Um verschiedene Ontologien in eine anwendungsspezifische Ontologie zu integrieren, die z. B. für semantische Autovervollständigung verwendet wird, müssen Daten aus den Quell ontologien extrahiert, transformiert und in einen Datenspeicher geladen w erden (extract, transform, load – ETL). Dabei müssen die folgenden Probleme g elöst werden: 1. Transformation von technischen Datenformaten: Ontologien haben unterschiedliche technische Formate, z. B. XML, XLS, CSV, RDF. Eine Transformation vom spezifischen in das gemeinsame Format ist erforderlich. 2. Semantische Feldzuordnung: Auch wenn die technischen Formate identisch sind, z. B. XML, können die einzelnen Feldnamen und die Struktur der Ontologien unterschiedlich sein. So werden z. B. Oberbegriffe in MeSH als Baum-ID kodiert, während in anderen Ontologien die IDs der Oberbegriffe aufgelistet werden. 3. Semantische Bereinigung/Filterung: Einige Begriffe sind unsauber oder sind für die semantische Anwendung nicht sinnvoll. Zum Beispiel bezeichnet der Oberbegriff „non-physical anatomical entity“ (Nicht-physische anatomische Einheit) aus dem Foundational Model of Anatomy keinen konkreten Körperteil. Solche Begriffe müssen herausgefiltert werden.
158
B. G. Humm und P. Walsh
4. Behandlung von Dubletten: Dubletten treten auf, wenn Begriffe in mehreren, zu inte grierenden, Ontologien abgedeckt sind (z. B. ist „Warfarin“ in The Drug Ontology und in MeSH abgedeckt), oder sogar in verschiedenen Versionen innerhalb derselben Ontologie. Solche Dubletten müssen entfernt werden. 5. Zieldatenformat und -speicherung: Das Zielformat der Ontologiedaten sowie die verwendete Datenbanktechnologie sollten auf die geplante Anwendung ausgerichtet sein. Für semantische Auto-Vervollständigung genügt beispielsweise ein einfaches Datenformat, bestehend aus Begriff, semantischer Kategorie, Definition, Hyponymen und Synonymen. Ein Suchindex wie Apache Solr bietet optimale Leistung und ermöglicht die semantische Suche nach Begriffen, ihrer Kategorie, der Hierarchie der Hyponyme sowie der Synonyme.
10.6.3 Literatursuche Um die für die Behandlung des Patienten relevante Literatur auszuwählen, müssen relevante Daten aus der elektronischen Patientenakte extrahiert und für die Abfrage von Literaturdatenquellen wie PubMed verwendet werden. Die semantische Abgleichslogik ist anwendungsspezifisch: spezifisch für das medizinische Fachgebiet, spezifisch für die EHR-Anwendung und spezifisch für die Literaturdatenquelle. Abb. 10.8 zeigt ein Beispiel für die Erstellung einer Abfrage aus einem EHR für PubMed. Von den ca. 100 Attributen, die in der EHR-Anwendung verwendet werden, sind nicht alle für personalisierte Literaturvorschläge hilfreich. Felder ohne Relevanz, wie z. B. der Name des Patienten, werden bei der Abfragegenerierung weggelassen, während relevante Felder wie die Diagnose, die Medikation oder Komorbiditäten einbezogen werden. Die zu generierende Abfrage muss der Abfragesprache der gewählten Datenquelle, hier PubMed, entsprechen. Die Abfrage selbst wird von einer regelbasierten Template-Engine generiert. Eine Regel zur Suche nach Publikationen, die sich mit der Sicherheit oder Wirksamkeit der verordneten Medikamente befassen, kombiniert beispielsweise alle Medikamente mit einem „OR“ und fügt „(safety OR efficacy)“ zur Abfrage hinzu. Eine andere Regel kombiniert das Feld Komorbiditäten mit der Medikation, um nach arzneimittelbedingten unerwünschten Wirkungen und deren Behandlung zu suchen. Um die Datenqualität zu gewährleisten und nur nach aktueller Literatur zu suchen, werden der Abfrage Einschränkungen hinzugefügt, wie z. B. „hasabstract[text]“, um nur Veröffentlichungen anzuzeigen, die eine Zusammenfassung enthalten. EHR-Fields Name: Date of Birth: Gender: T-Stage: Critical Stage: lssue: Medication: Comorbidity: BRAF Status: Lesion site:
Sarah Somebody 1954-05-03 female pT1a IV Melanoma in situ lpilimumab Warfarin Colitis negative Lower limb, left leg
Query Generation
"Melanoma" AND ( ("Ipilimumab" OR "Warfarin" AND (Safety OR efficacy)) OR ("Colitis" AND (treatment OR therapy)) OR (("Colitis") AND ("Ipilimumab" OR "Warfarin")) ) NOT ("BRAF") AND hasabstract[text] AND English[lang]
Abb. 10.8 Beispiel für die Erstellung einer Abfrage aus einem EHR für PubMed (in Englisch) [11]
10 Personalisierter Decision Support für Krebsbehandlung
159
10.6.4 EBM-Empfehlungen Die Selektion von Abschnitten in EBM-Empfehlungen, die für einen bestimmten zu behandelnden Patienten relevant sind, erfordert mehr als eine Volltextsuche. Betrachten wir das obige Patientenbeispiel (Patientendaten in Abb. 10.1). Als EBM-Datenquelle wurden die NCCN Guidelines, hier für Melanom, gewählt. Diese liegen als PDF-Dokument vor. Die Aufgabe besteht darin, in einem 150-seitigen Dokument den einen Abschnitt zu finden, der genau auf den Zustand des Patienten zutrifft. Im obigen Beispiel beträgt die Tumordicke Breslow des Patienten 0,8. Die Suche nach der Zeichenfolge „0,8“ im Text der NCCN-Empfehlungen führt nicht zu der relevanten Seite (ME-3), da auf dieser Seite die Bedingung als „Tumordicke Breslow 0,67–1,0 mm“ formuliert ist. Daher ist eine explizite Entscheidungslogik für den Abgleich von extrahierten EHR-Daten mit Abschnitten der EBM- Empfehlungen erforderlich. Siehe Abb. 10.9 für eine Beispielregel. Hier wird die folgende Regel beispielhaft gezeigt: „Wenn das klinische Stadium IB ist und die Tumordicke Breslow zwischen 0,76 und 1,0 mm liegt, dann ist Abschnitt ME-3 auf Seite 8 relevant“. Diese Regel wird mit einem Business Rule Composer, hier MS BizTalk [23], editiert. Die Anwendung der Regeln in einer Business-Rule-Engine mit den extrahierten EHR-Daten als Input entspricht dem relevanten Abschnitt der EBM- Empfehlungen, der dann dem Arzt im klinischen Decision Support System angezeigt werden kann. Die Verwendung eines Business Rule Composers kann Vorteile gegenüber der Codierung der Entscheidungslogik in einer herkömmlichen Programmiersprache haben. Er ermöglicht das Hinzufügen oder Ändern von Geschäftsregeln durch geschulte medizinische Administra-
Abb. 10.9 Beispielregel (MS Biztalk Server) [22]
160
B. G. Humm und P. Walsh
toren, wenn neue oder geänderte EBM- Empfehlungen veröffentlicht werden. Wo möglich, können Metadaten wie Autor, Reputation, Zugehörigkeit, Version und Zeitpunkt der Veröffentlichung verwendet werden, um den Nutzern Vertrauen in die Richtigkeit der vorgestellten Empfehlungen zu geben.
10.6.5 Umsetzung Wir haben das personalisierte klinische Decision Support System für die Melanombehandlung erfolgreich implementiert. Das Offline-Subsystem und die Geschäftslogik wurden in C# mit Microsoft .Net-Technologie implementiert. Wir verwenden Microsoft SQL Server zum Speichern von EHRs und Apache Solr zum Speichern und Abfragen der Ontologie für die semantische Auto-Vervollständigung. Der Client greift über eine REST-Schnittstelle auf den Server zu. Der Client ist in HTML5/CSS/JavaScript bzw. Type Script implementiert, wobei das Angular-Framework von Google verwendet wird. Siehe Abb. 10.7.
10.7 Empfehlungen Wir fassen unsere wichtigsten Erkenntnisse aus der Implementierung des personalisierten klinischen Decision Support Systems in den folgenden Empfehlungen zusammen. 1. Bei der Entwicklung einer semantischen Anwendung sollten Sie die Einhaltung regulatorischer Vorschriften sorgfältig prüfen, um festzustellen, welche Randbedingungen für die Auswahl einer bestimmten Ontologie bestehen. Suchen Sie anschließend nach vorhandenen Ontologien, die für den Anwendungsfall geeignet sind. Im medizinischen Bereich gibt es zahlreiche Ontologien. Die Einhaltung regulatorischer Vorschriften sowie die Qualität und Vollständigkeit der Daten sind wichtiger als die verwendeten technischen Datenformate. 2. Analysieren Sie sorgfältig die Qualität der Ontologien im Hinblick auf den Anwendungsfall. Es kommt häufig vor, dass keine einzige bestehende Ontologie die Qualitätsanforderungen eines Anwendungsfalls erfüllt und ohne Anpassungen verwendet werden kann. 3. Verwenden Sie Semantic ETL für die Vorverarbeitung bestehender Ontologien für einen Anwendungsfall. Es umfasst die Prozessschritte Extraktion, Transformation, semantische Bereinigung/Filterung und Laden. 4. Ontologien bieten eine gemeinsame Terminologie innerhalb einer semantischen Anwendung und können für die Abbildung auf die Terminologie eines Informationsdienstes verwendet werden.
10 Personalisierter Decision Support für Krebsbehandlung
161
5. Wenn Sie Dienste von Informationsanbietern in semantische Anwendungen einbeziehen, prüfen Sie sorgfältig die Eignung für den Anwendungsfall, die technischen Beschränkungen und die Lizenzdetails. 6. Die semantische Zuordnung von EHRs zu klinischen Informationsquellen erfordert anwendungsspezifischen Code, der die Besonderheiten des medizinischen Fachgebiets, der EHR-Anwendung und der Informationsquelle berücksichtigt.
10.8 Schlussfolgerung Personalisierte Medizin verspricht viele Vorteile. In der klinischen Praxis wird sie jedoch noch nicht in großem Umfang eingesetzt. Wir sind der Meinung, dass sich die personalisierte Medizin nahtlos in den Arbeitsablauf des Arztes einfügen muss, ohne dass die Suche nach relevanten medizinischen Informationen eine zusätzliche Arbeitsbelastung darstellt. In diesem Artikel stellen wir ein personalisiertes klinisches Decision Support System für die Krebsbehandlung vor, das dem behandelnden Arzt relevante medizinische Informationen auf der Grundlage der elektronischen Patientenakte liefert. Wir haben das System zur Unterstützung klinischer Entscheidungen erfolgreich implementiert. Nach erfolgreichen Tests ist geplant, es in eine kommerzielle EHR-Anwendung zu integrieren.
Literatur 1. Academy of Medical Sciences (2015a) Stratified, personalised or P4 medicine: a new direction for placing the patient at the centre of healthcare and health education (Technical report). Academy of Medical Sciences. May 2015 2. Academy of Medical Sciences (2015b) Stratified, personalised or P4 medicine: a new direction for placing the patient at the centre of healthcare and health education [Online]. University of Southampton Council; Science Europe; Medical Research Council. https://acmedsci.ac.uk/viewFile/564091e072d41.pdf. Zugegriffen am 01.12.2017 3. Petrucelli N, Daly MB, Pal T (1998) BRCA1- and BRCA2-associated hereditary breast and ovarian cancer [Online]. https://www.ncbi.nlm.nih.gov/pubmed/20301425. Zugegriffen am 01.12.2017 4. Papadaki C, Sfakianaki M, Ioannidis G, Lagoudaki E, Trypaki M, Tryfonidis K, Mavroudis D, Stathopoulos E, Georgoulias V, Souglakos J (2012) ERCC1 and BRAC1 mRNA expression levels in the primary tumor could predict the effectiveness of the second-line cisplatin-based chemotherapy in pretreated patients with metastatic non-small cell lung cancer. J Thorac Oncol 7(4):663–671 5. breastcancer.org (2017) HER2 status [Online]. http://www.breastcancer.org/symptoms/diagnosis/her2. Zugegriffen am 01.12.2017 6. Soerjomataram I, Louwman MWJ, Ribot JG, Roukema JA, Coebergh JW (2008) An overview of prognostic factors for long-term survivors of breast cancer. Breast Cancer Res Treat 107(3):309–330
162
B. G. Humm und P. Walsh
7. Murugan R (2015) Movement towards personalised medicine in the ICU. Lancet Respir Med 3(1):10–12 8. Ciardiello F, Arnold D, Casali PG, Cervantes A, Douillard J-Y, Eggermont A, Eniu A, McGregor K, Peters S, Piccart M, Popescu R, Van Cutsem E, Zielinski C, Stahel R (2014) Delivering precision medicine in oncology today and in future – the promise and challenges of personalised cancer medicine: a position paper by the European Society for Medical Oncology (ESMO). Ann Oncol 25(9):1673–1678 9. Shanafelt TD, Dyrbye LN, West CP (2017) Addressing physician burnout: the way forward. JAMA 317(9):901–902 10. Privacy Analytics (2016) The rise of big data in healthcare [online]. https://privacy-analytics. com/de-id-university/blog/rise-big-data-healthcare/. Zugegriffen am 17.12.2017 11. Idelhauser J, Beez U, Humm BG, Walsh P (2016) A clinical decision support system for personalized medicine. In: Bleimann U, Humm B, Loew R, Stengel I, Walsh P (Hrsg) Proceedings of the 2016 European collaborative research conference (CERC 2016), Cork, S 132–145. ISSN 2220-4164 12. Rahmner PB, Eiermann B, Korkmaz S, Gustafsson LL, Gruvén M, Maxwell S, Eichle HG, Vég A (2012) Physicians’ reported needs of drug information at point of care in Sweden. Br J Clin Pharmacol 73(1):115–125 13. Hung BT, Long NP, Hung LP, Luan NT, Anh NH, Nghi TD et al (2015) Research trends in evidence-based medicine: a joinpoint regression analysis of more than 50 years of publication data. PLoS One 10(4):e0121054. https://doi.org/10.1371/journal.pone.0121054 14. Maggio LA, Cate OT, Moorhead LL, Van Stiphout F, Kramer BM, Ter Braak E, Posley K, Irby D, O’Brien BC (2014) Characterizing physicians’ information needs at the point of care. Perspect Med Educ 33(5):332–342 15. Maggio LA, Steinberg RM, Moorhead L, O’Brien B, Willinsky J (2013) Access of primary and secondary literature by health personnel in an academic health center: implications for open access. J Med Libr Assoc 101(3):205–212 16. National Comprehensive Cancer Network (2017). https://www.nccn.org/. Zugegriffen am 12.01.2017 17. Jensen PB, Jensen LJ, Brunak S (2012) Mining electronic health records: towards better research applications and clinical care. Nat Rev Genet 13(6):395–405 18. Beez U, BG Humm, Walsh P (2015) Semantic autosuggest for electronic health records. In: Arabnia HR, Deligiannidis L, Tran Q-N (Hrsg) Proceedings of the 2015 international conference on computational science and computational intelligence. IEEE Conference Publishing Services, Las Vegas, 7–9 Dec 2015. ISBN 978-1-4673-9795-7/15. https://doi.org/10.1109/CSCI.2015.85 19. Liu L, Özsu MT (Hrsg) (2009) Encyclopedia of database systems. Springer, New York 20. Humm BG, Walsh P (2015) Flexible yet efficient management of electronic health records. In: Arabnia HR, Deligiannidis L, Tran Q-N (Hrsg) Proceedings of the 2015 international conference on computational science and computational intelligence. IEEE Conference Publishing Services, Las Vegas, 7–9 Dec 2015. ISBN 978-1-4673-9795-7/15. https://doi.org/10.1109/CSCI.2015.84 21. Coym M, Humm BG, Spitzer P, Walsh P (2017) A dynamic product line for an electronic health record. In: Bleimann U, Humm B, Loew R, Regier S, Stengel I, Walsh P (Hrsg) Proceedings of the collaborative European research conference (CERC 2017), Karlsruhe, S 134–141, 22–23 Sept 2017. ISSN 2220-4164 22. Humm BG, Lamba F, Landmann T, Steffens M, Walsh P (2017) Evidence-based medical recommendations for personalized medicine. In: Proceedings of the collaborative european research conference (CERC 2017), Karlsruhe 23. Microsoft BizTalk Server (2017). https://www.microsoft.com/en-us/cloud-platform/biztalk. Zugegriffen am 12.01.2017
11
Anwendungen temporaler begrifflicher Systeme Karl Erich Wolff
Kernaussagen
1. Das schwierige Problem der Beschreibung und des Verständnisses mehrdimensionaler zeitlicher Daten kann in der Praxis oft so gelöst werden, wie es in diesem Artikel gezeigt wird. Wir beschreiben eine Anwendung einer mathematischen temporalen Theorie in der chemischen Industrie, wo das Verhalten einer Destillationskolonne mit vielen Variablen untersucht werden soll. 2. Die verwendete mathematische Theorie ist die Formale Begriffsanalyse (FBA) sowie ihre zeitliche Erweiterung, die Temporale Begriffsanalyse (TBA). Sie bietet die Möglichkeit, die semantische Bedeutung von Daten unter Berücksichtigung der vom Fachmann gewählten Aspekte darzustellen. 3. Diese Aspekte können in Diagrammen mehrdimensionaler begrifflicher Strukturen visualisiert werden, in denen jede der ausgewählten Variablen in einer geeigneten Granularität dargestellt wird. 4. Allgemeiner als andere zeitliche Theorien bietet die TBA einen breit anwendbaren Begriff des Zustands eines temporalen Objekts zu einem bestimmten Zeitpunkt in einer von einem Experten gewählten Sicht dar. 5. Das wertvollste Werkzeug der TBA ist die Darstellung von Trajektorien in mehrdimensionalen Diagrammen, die dem Fachmann helfen, dynamische Systeme mit vielen Variablen besser zu verstehen.
K. E. Wolff (*) Hochschule Darmstadt, Darmstadt, Deutschland © Der/die Autor(en), exklusiv lizenziert an Springer-Verlag GmbH, DE, ein Teil von Springer Nature 2023 T. Hoppe et al. (Hrsg.), Wissensbasierte KI-Anwendungen, https://doi.org/10.1007/978-3-662-68002-5_11
163
164
K. E. Wolff
11.1 Einleitung 11.1.1 Semantische Skalierung Der Hauptzweck dieses Kapitels besteht darin, die breite Anwendbarkeit einer allgemeinen semantischen Strategie vorzustellen, die ich semantische Skalierung nenne. Die Hauptidee bei der semantischen Skalierung besteht darin, verwendete Begriffe, z. B. Abkürzungen oder Werte, in einem geeigneten Rahmen zu erklären, indem die Bedeutung dieser Begriffe im Hinblick auf einen bestimmten Zweck interpretiert wird. Da viele Beschreibungen in der industriellen oder wissenschaftlichen Praxis oft auf eine Datentabelle reduziert werden, konzentrieren wir uns hier auf die semantische Skalierung von Werten in Datentabellen. Indem wir nicht nur Zahlen, sondern beliebige Begriffe als Werte von Datentabellen zulassen, erhalten wir die Möglichkeit, eine Zeile einer Datentabelle mit ihrer Folge von Begriffen als relationale Aussage zu interpretieren. Das eröffnet den Weg zur Beschreibung temporaler relationaler Phänomene in beliebigen Anwendungen. Bei vielen Anwendungen haben die Werte in einer bestimmten Datentabelle in der Praxis für den Spezialisten eine Bedeutung, die für andere oft verborgen ist. Zum Beispiel könnte der Geschwindigkeitswert „100 km/Stunde“ mit dem Merkmal „gefährlich“ verbunden sein. Es kann sogar relationale Bedeutungen solcher Werte geben, z. B. könnte eine Bedeutung von „100 km/Stunde“ lauten: „Wenn jemand mit einem Auto in einer Stadt mit mindestens 100 km/Stunde fährt, kann das zu gefährlichen Situationen führen“. Im Folgenden vereinfachen wir die Auswertung der Daten, indem wir den Werten jeder Variablen nur Merkmale – und keine komplizierten relationalen Beschreibungen – zuordnen. Dies ist eine einfache und effektive Methode, um eine geeignete Granularität für die beabsichtigte Datenauswertung zu erzeugen. Sie wird anhand eines Beispiels aus der chemischen Industrie demonstriert, bei dem die zeitlichen Daten einer Destillationskolonne ausgewertet werden.
11.1.2 Semantische Skalierung der zeitlichen Daten einer Destillationskolonne In einem Chemieunternehmen sollte der Prozess in einer Destillationskolonne in Bezug auf 13 Variablen wie input, pressure und reflux untersucht werden. Für jede der 13 Variablen war an jedem der 20 Tage höchstens ein Wert gemessen worden. Für sechs Variablen fehlten einige Werte. In diesem Beitrag konzentrieren wir uns auf die sieben Variablen ohne fehlende Werte und werten sie aus. Für die anderen sechs Variablen kann das gleiche Verfahren angewendet werden. Ein typischer Ausschnitt aus den Daten ist in Tab. 11.1 dargestellt. Das Hauptproblem bestand darin, die Dynamik dieser Destillationskolonne in Bezug auf viele Variablen zu verstehen. Es sollten mehrere zeitliche Fragen zur Beschreibung der Zustände der Destillationskolonne und ihrer Häufigkeit in einem bestimmten Zustand sowie die Abhängigkeiten zwischen den Variablen untersucht werden.
11 Anwendungen temporaler begrifflicher Systeme
165
Tab. 11.1 Zeitliche Daten einer Destillationskolonne Tag 1 2 3 … 15 … 20
input 616 603 613 … 639 … 664
pressure 119 125 118 … 116 … 120
Tab. 11.2 Eine Skala mit zwei Merkmalen für den input
reflux 129 174 133 … 174 … 127
energy1 616 680 629 … 588 … 556
… … … … … … … … input 600 601 602 … 639 … 675
variable 13 … … … … … … … ≤ 615 × × × … …
≤ 645 × × × … × …
In Zusammenarbeit mit Fachleuten für diese Destillationskolonne hat der Autor für jede der 13 Variablen eine semantische Skalierung vorgenommen. So variiert beispielsweise die Variable input zwischen 600 und 675, während die Werte für pressure zwischen 100 und 130 variieren. Um wertvolle Erkenntnisse für die Fachleute zu gewinnen, musste ihr Verständnis der verwendeten Variablen dargestellt werden, z. B. ihr Verständnis der wichtigen Regionen im Bereich jeder Variablen. In einem linearen (oder eindimensionalen) Bereich können Regionen leicht durch Grenzen beschrieben werden, um beispielsweise normale von gefährlichen Regionen zu trennen. In zwei oder noch höheren Dimensionen haben die Spezialisten jedoch oft nur eine vage oder gar keine Vorstellung davon, welche Regionen für ihren Zweck wichtig sein könnten. Wir werden in diesem Beitrag zeigen, wie Zustände der Destillationskolonne in mehrdimensionalen Räumen visualisiert werden können, um den Fachleuten bei der Interpretation dieser mehrdimensionalen Aspekte zu helfen. Um dies zu erläutern, führen wir zunächst einige Merkmale für den input ein, wie in Tab. 11.2 dargestellt. Diese Tabelle dient in dieser Arbeit als Beispiel für einen formalen Kontext und insbesondere als begriffliche Skala, dem Hauptinstrument der semantischen Skalierung in der formalen Begriffsanalyse. Die erste Spalte enthält alle ganzen Zahlen von 600 bis einschließlich 675, die den gesamten Bereich der gemessenen input-Werte für die Variable input abdecken. Die beiden Merkmale „≤ 615“ und „≤ 645“ wurden nach Diskussion mit den Spezialisten der Destillationskolonne gewählt, um ein gröberes Verständnis der Verteilung der gemessenen input- Werte zusammen mit anderen ähnlich skalierten Variablen zu ermöglichen. Die numerische Information, dass 600 ≤ 615 ist, wird durch ein Kreuz „ד in der Zeile von 600 und der Spalte von „≤ 615“ angezeigt; die anderen Kreuze haben die entsprechende Bedeu-
166
K. E. Wolff
tung. Es ist offensichtlich, dass Tab. 11.2 die Menge aller ganzen Zahlen von 600 bis 675, [600, 675], in zwei Teilmengen unterteilt, nämlich die Menge [600, 615] und die Menge [600, 645]. Es ist klar: [600, 615] ⊆ [600, 645] ⊆ [600, 675]. Wir werden sehen, dass diese Kette von drei Mengen die Menge der Umfänge des Begriffsverbandes des formalen Kontextes ist, der in Tab. 11.2 angegeben ist. Um zu erklären, wie wir die zeitlichen Daten in Tab. 11.1 darstellen, geben wir eine kurze Einführung in die Formale Begriffsanalyse.
11.1.3 Formale Begriffsanalyse Die formale Begriffsanalyse (FBA) ist eine mathematische Theorie, die aus den drei grundlegenden Theorien der Mathematik, nämlich Logik, Geometrie und Algebra, hervorgegangen ist. Ihre ordinalen Strukturen wurden von G. Birkhoff [3] in seinem Buch „Lattice Theory“ verallgemeinert. Sie wurde von M. Barbut und B. Monjardet [1] für Klassifizierungszwecke verwendet. R. Wille [6] erkannte die Verbindung zwischen der Verbandstheorie (Lattice Theory) und dem philosophischen Verständnis des Begriffs „Begriff“. Da Philosophen oft von einigen grundlegenden Begriffen wie „Gegenständen“ und „Merkmalen“ ausgehen und die binäre Relation „ein Gegenstand hat ein Merkmal“ verwenden, führte R. Wille die mathematische Definition eines formalen Kontextes (G,M,I) ein, wobei G und M Mengen sind und I eine binäre Relation zwischen G und M ist, I ⊆ G × M. Wenn (g,m) ∈ I, sagen wir „g hat das Merkmal m“, geschrieben gIm. Die Menge G wird als die Menge der formalen Gegenstände bezeichnet, die Menge M als die Menge der formalen Merkmale und die Menge I als die Menge der Inzidenzen. Natürlich können kleine formale Kontexte als Kreuztabellen dargestellt werden, wie zum Beispiel in Tab. 11.2. R. Wille führte die Begriffe formaler Begriff und Begriffsverband für einen gegebenen formalen Kontext ein. Es gibt Computerprogramme zur Erzeugung des Begriffsverbands eines endlichen formalen Kontexts und interaktive Programme zur Erzeugung einer graphischen Darstellung eines Begriffsverbands in Form eines Liniendiagramms. In der FBA wird die semantische Skalierung für die Werte jedes Feldes (Spalte) einer gegebenen Datentabelle durchgeführt, indem ein formaler Kontext für dieses Feld konstruiert wird, der als begriffliche Skala bezeichnet wird. In einer begrifflichen Skala eines Merkmals werden alle Werte dieses Merkmals als formale Gegenstände der Skala gewählt. Sie werden durch geeignete Skalenmerkmale im Hinblick auf den Zweck der Untersuchung beschrieben. Eine begriffliche Skala kann informationserhaltend konstruiert sein oder Information reduzieren. Aus einer skalierten Datentabelle, d. h. alle Felder sind skaliert, konstruieren wir einen formalen Kontext, den abgeleiteten Kontext der skalierten Datentabelle. Er kombiniert die in der Datentabelle durch Werte gemessenen Objekte mit den Skalenmerkmalen, die die gemessenen Werte beschreiben. Diese Technik der semantischen Skalierung einer Datentabelle und die Konstruktion ihres abgeleiteten Kontexts wird als begriffliche Skalierung bezeichnet. Für die mathematische Definition wird der Leser auf [5] verwiesen. Zum Verständnis temporaler Daten wurde die formale Begriffsanalyse vom Autor zur Temporalen Begriffsanalyse (TBA) erweitert, indem Begriffe wie temporale Objekte, zeit-
11 Anwendungen temporaler begrifflicher Systeme
167
liche Begriffe (wie etwa Zeitpunkte), Sichten und eine allgemeine Definition des Zustands eines temporalen Objekts zu einem bestimmten Zeitpunkt in einer vorgewählten Sicht eingeführt wurden [7–11].
11.2 Begriffliche Skalierung der zeitlichen Daten einer Destillationskolonne Im Folgenden wenden wir die begriffliche Skalierung auf die Daten in Tab. 11.1 an. Grob gesagt, verwenden wir für jede Variable (z. B. input) einen formalen Kontext, der als begriffliche Skala dieser Variable bezeichnet wird (z. B. Tab. 11.2). Die begriffliche Skala stellt sowohl eine semantische Bedeutung als auch gleichzeitig eine (von einem Experten festgelegte) Granularität für die Werte der Variablen dar. Um die Bedeutung der Werte mit der Zeit-Variable (hier „Tag“) zu kombinieren, ersetzen wir jeden Wert in Tab. 11.1 durch die entsprechende Zeile in der begrifflichen Skala der Variablen und erhalten den abgeleiteten Kontext. Um beispielsweise den abgeleiteten Kontext Ki für die Variable input zu erhalten, ersetzen wir die Werte in der Tab. 11.1 durch die entsprechende Zeile in Tab. 11.2, um den abgeleiteten Kontext wie in Tab. 11.3 angegeben zu erhalten. Als Namen für die Merkmale im abgeleiteten Kontext nehmen wir (input, ≤ 615) und (input, ≤ 645). Wenn wir die begriffliche Skalierung auch auf die Variable energy1 anwenden und dabei die Skalenmerkmale „≤ 570“ und „≤ 630“ verwenden, erhalten wir den folgenden abgeleiteten Kontext Kie in Tab. 11.4. Tab. 11.3 Der abgeleitete Kontext Ki für das mit Tab. 11.2 skalierte Merkmal input
Tag 1 2 3 … 15 … 20
(input, ≤ 615)
(input, ≤ 645) × × × … × …
× × … …
Tab. 11.4 Der abgeleitete Kontext Kie für input und energy1 Tag 1 2 3 … 15 … 20
(input, ≤ 615) × × … …
(input, ≤ 645) × × × … × …
(energy1, ≤ 570)
… … ×
(energy1, ≤ 630) × × … × … ×
168
K. E. Wolff
Anhand von Tab. 11.4 als typischem Ergebnis einer begrifflichen Skalierung erklären wir nun den mathematischen Kern der begrifflichen Skalierung. Dazu erwähnen wir zunächst, dass in Tab. 11.1 am Tag 1 der input 616 ist, kurz: input(1) = 616. Da 616 nicht das Skalenmerkmal „≤ 615“ hat, gibt es in Tab. 11.4 kein Kreuz in der Zelle für Tag 1 und das Merkmal „(input, ≤ 615)“. Da 616 das Skalenmerkmal „≤ 645“ hat, gibt es in Tab. 11.4 ein Kreuz in der Zelle für Tag 1 und das Merkmal „(input, ≤ 645)“. Um den Leser zur allgemeinen Definition des abgeleiteten Kontextes zu führen, geben wir die Standardnotation für das gegebene Beispiel an. Sei g ein beliebiger formaler Gegenstand der gegebenen Datentabelle (in unserem Beispiel g = 1), und sei m ein beliebiges Merkmal in der gegebenen Datentabelle (in unserem Beispiel m = input) und sei n ein beliebiges Skalenmerkmal der Skala von m (in unserem Beispiel n = (≤ 615): dann sind die formalen Gegenstände des abgeleiteten Kontextes per Definition die formalen Gegenstände der gegebenen Datentabelle (in unserem Beispiel die Menge {1, 2, …, 20}), die formalen Merkmale sind per Definition die Paare (m,n), wobei m ein Merkmal in der gegebenen Datentabelle und n ein Skalenmerkmal der Skala von m mit seiner Inzidenzrelation Im ist. Die Inzidenzrelation des abgeleiteten Kontexts wird dann mit J bezeichnet und ist definiert durch
g J m,n : m g I m n,
In Worten: Im abgeleiteten Kontext hat ein formaler Gegenstand g das Merkmal (m,n) genau dann, wenn der Wert m(g) das Merkmal n in der Skala von m hat. In unserem Beispiel lautet das: 1 J (input, ≤ 615) ⟺ input (1) Iinput ≤ 615. In Worten: Im abgeleiteten Kontext ist der formale Gegenstand g = 1 mit dem Merkmal (input, ≤ 615) dann und nur dann inzident, wenn input(1) das Skalenmerkmal ≤ 615 in der input-Skala hat. In diesem Beispiel hat input(1) = 616 nicht das Skalenmerkmal ≤ 615. Daher gibt es für Tag1 kein Kreuz im abgeleiteten Kontext beim Merkmal (input, ≤ 615). Wir werden später sehen, dass jeder formale Kontext aus seinem Begriffsverband rekonstruiert werden kann. In Abb. 11.1 erscheinen alle formalen Gegenstände {1, 2, …, 20} des abgeleiteten Kontextes Kie in den Beschriftungen unterhalb von Kreisen und alle Merkmale des Kie in den Beschriftungen oberhalb von Kreisen. Ob ein formaler Gegenstand ein Merkmal hat oder nicht, lässt sich auch am Begriffsverband erkennen. Dies wird im folgenden Abschnitt erläutert.
11.3 Der Begriffsverband eines formalen Kontexts In der FBA wird ein Begriffsverband als eine Hierarchie von formalen Begriffen eines formalen Kontextes verstanden. Jeder formale Begriff eines formalen Kontextes (G,M,I) ist ein Paar (A,B), wobei A eine Teilmenge der Menge G und B eine Teilmenge von M ist, die eine später angegebene Bedingung erfüllt. Dann wird A als der Umfang und B als die Inhalt von (A,B) bezeichnet.
11 Anwendungen temporaler begrifflicher Systeme
169
Abb. 11.1 Begriffsverband des abgeleiteten Kontexts Kie in Tab. 11.4
Abb. 11.1 zeigt den Begriffsverband des in Tab. 11.4 angegebenen formalen Kontexts Kie. Bevor wir formale Begriffe und Begriffsverbände erklären, geben wir eine grobe Beschreibung von Abb. 11.1.
11.3.1 Beispiele für formale Begriffe, Gegenstandsbegriffe und Merkmalbegriffe Jeder Kreis in Abb. 11.1 stellt einen formalen Begriff von Kie dar. Zum Beispiel bezeichnet der Kreis mit den Tagen 1,9,10,15 den formalen Begriff (A,B), wobei der Umfang A = {1, 9,10,15}∪{3,12}∪{11} = {1,3,9,10,11,12,15} und der Inhalt B = {(input,